Springer-Lehrbuch
Jçrgen Bortz
Statistik fçr Human- und Sozialwissenschaftler
Sechste, vollståndig çberarbeitete und aktualisierte Auflage mit 84 Abbildungen und 242 Tabellen
12
Prof. Dr. Jçrgen Bortz Institut fçr Psychologie und Arbeitswissenschaft TU Berlin, Fakultåt V Franklinstr. 28/29, 10587 Berlin Mitarbeit (SPSS-Anhang): Dr. Ren Weber Institut fçr Psychologie und Arbeitswissenschaft TU Berlin, Fakultåt V Franklinstr. 28/29, 10587 Berlin
ISBN 3-540-21271-X 6. Auflage Springer Medizin Verlag Heidelberg Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet çber http://dnb.ddb.de abrufbar. Dieses Werk ist urheberrechtlich geschçtzt. Die dadurch begrçndeten Rechte, insbesondere die der Ûbersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfåltigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfåltigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulåssig. Sie ist grundsåtzlich vergçtungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes.
Springer Medizin Verlag Ein Unternehmen von Springer Science+Business Media springer.de ° Springer Medizin Verlag Heidelberg 1977, 1979, 1985, 1989, 1993, 1999, 2005 Printed in Italy Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichenund Markenschutz-Gesetzgebung als frei zu betrachten wåren und daher von jedermann benutzt werden dçrften. Planung: Dr. Svenja Wahl Projektmanagement: Michael Barton Zeichnungen: G. Hippmann, Nçrnberg SPIN: 10818340 Satz: K + V Fotosatz GmbH, Beerfelden Gedruckt auf såurefreiem Papier
26/3160/SM ± 5 4 3 2 1 0
V
Vorwort zur sechsten Auflage
Aufbau und didaktisches Konzept der 5. Auflage haben sich offenbar bewåhrt, sodass hierzu nur einige ¹Schænheitskorrekturenª angebracht waren. Nach wie vor behandelt das Buch drei Teile: Elementarstatistik, Varianzanalytische Methoden und Multivariate Methoden. Die Anfånger werden auch in dieser Auflage viele Hilfen finden, statistische Verfahren zu verstehen und auch rechnerisch nachzuvollziehen. Fçr fortgeschrittene Leserinnen und Leser habe ich neuere Literatur und aktuelle Entwicklungen eingearbeitet, die belegen, dass es fçr die Anfertigung dieser Neuauflage gute Grçnde gab. Aber auch in der 6. Auflage habe ich auf die Darstellung noch nicht ausgereifter ¹Modetrendsª verzichtet, die in jçngster Zeit vor allem im Umfeld der elektronischen Datenverarbeitung entstanden sind (z. B. zum Stichwort ¹Data Miningª). In diesem Zusammenhang sei eine kurze Anmerkung erlaubt: Die Statistik-Softwarepakete samt Begleitliteratur haben erfreulicherweise ohne Frage erheblich dazu beigetragen, ¹Berçhrungsångsteª gegençber mathematisch und rechnerisch aufwåndigen statistischen Analysen abzubauen. Weniger erfreulich ist es allerdings, dass statistische Verfahren zunehmend håufiger unkritisch, wenn nicht gar falsch angewendet bzw. interpretiert werden. Allein der Einsatz einer komplizierten statistischen Analyse macht aus einer im Ûbrigen dçrftigen Forschungsarbeit noch långst keine bahnbrechende Wissenschaft! Ich danke allen, die durch konstruktive Beitråge und Kritik zur Verbesserung des Statistik-Buches beigetragen haben, verbunden mit der erneuten Bitte um Korrekturund Ergånzungsvorschlåge. Mein besonderer Dank gilt meiner Kollegin Frau Prof. Dr. K. Borcherding fçr ihre wertvollen Anregungen. Herr Dr. R. Weber hat ± jetzt in eigener Verantwortung ± den Anhang E (Statistik mit SPSS) çberarbeitet, und Frau Dr. H. Klemmert, Herr Priv.-Doz. Dr. R. Oesterreich sowie Herr Dr. K. Leitner waren wichtige Berater fçr statistische Detailfragen. Die Schreibarbeiten wurden wie immer zuverlåssig von Frau I. Ottmers erledigt, und verlagsseitig haben Frau Dr. S. Wahl und Frau M. Seeker das Buchprojekt geplant und betreut. Vielen Dank! Berlin, im Sommer 2004
Jçrgen Bortz
VII
Vorwort zur ersten Auflage
Mit diesem Buch wird der Versuch unternommen, eine Reihe von statistischen Verfahren sowie deren Beziehungen untereinander und zu generellen sozialwissenschaftlichen Methodenproblemen zu behandeln, die gewæhnlich nicht in einem einzelnen Jahrbuch erærtert werden. Angesichts des weitgesteckten inhaltlichen Rahmens und einer Begrenzung des geplanten Buchumfangs mussten allerdings bezçglich der mathematischen Herleitung der Verfahren einige Abstriche gemacht werden. Mir kam es vor allem darauf an, dem Leser die interne Logik, die rechnerische Durchfçhrung und den Stellenwert der behandelten statistischen Methoden im Rahmen empirischer Forschungen zu verdeutlichen, wobei ich hierbei den Vorwurf gelegentlicher Weitschweifigkeit gern in Kauf nehme. Obgleich es mein Bestreben war, die fçr dieses Buch relevante Literatur mæglichst weitgehend zu berçcksichtigen, bin ich mir sicher, dass der eine oder andere wichtige Beitrag çbersehen wurde. Fçr diesbezçgliche Anregungen sowie Hinweise auf Formel- und Rechenfehler, die vermutlich trotz mehrfachen Korrekturlesens nicht entdeckt wurden, bin ich dem Leser sehr dankbar. Das Buch ist aus Lehrveranstaltungen hervorgegangen, die ich seit mehreren Jahren im Fach ¹Psychologische Methodenlehreª am Institut fçr Psychologie der Technischen Universitåt Berlin durchfçhre. Es wendet sich dementsprechend an einen Leserkreis, dem in erster Linie Psychologiestudenten angehæren. Da jedoch Verfahren behandelt werden, die generell einsetzbar sind, wenn es um die Auswertung empirischer Daten geht, kann dieses Buch auch dem Studenten der Soziologie, der Pådagogik, der Medizin, der Wirtschaftswissenschaften usw. Anregungen vermitteln. Besondere mathematische Vorkenntnisse, die çber die çbliche schulmathematische Vorbildung hinausgehen, sind zum Verståndnis des Textes nicht erforderlich. Beim didaktischen Aufbau des Buches wurde darauf Wert gelegt, die Verfahren so aufzubereiten, dass der Leser den jeweiligen Rechengang selbståndig nachvollziehen kann. Jedes Verfahren wird deshalb an einem Zahlenbeispiel demonstriert, an dem die zuvor dargestellten und zum Teil abgeleiteten Formeln und Rechenvorschriften erlåutert werden. Dem Anfånger sei empfohlen, in einem ersten Durchgang nur diejenigen Kapitel zu lesen, die durch ein " markiert sind, und Absåtze, in denen Spezialfragen oder mathematische Herleitungen aufgegriffen werden, zu çbergehen. Auf diese Weise wird dem Leser zunåchst ein Gesamtçberblick çber den behandelten Stoff sowie die Indikation und Interpretation der Verfahren vermittelt. In einem zweiten vollståndigen Durchgang kænnen dann das bereits vorhandene Wissen vertieft und die Begrçndung fçr die jeweiligen Rechenregeln nachvollzogen werden. Das Buch ist gleichermaûen als Einfçhrungslektçre wie auch als Nachschlagewerk geeignet. Nachdem die Kultusministerkonferenz Rahmenrichtlinien fçr die Ausbildung im Fach Psychologie verabschiedet hatte, wurden ¹Psychologische Methodenlehre und
VIII
Vorwort zur ersten Auflage
Statistikª praktisch an allen psychologischen Instituten Bestandteil der Diplom-Vorprçfung. Die Statistik wçrde sicherlich im Kontext der çbrigen Prçfungsfåcher çberproportional gewichtet werden, wenn man den gesamten, hier behandelten Stoff zum obligatorischen Wissensbestand eines Vorexamens deklarieren wollte. Um den Studenten dennoch bei seinen Prçfungsvorbereitungen anzuleiten, wurden im Anschluss an jedes Kapitel Ûbungsaufgaben in Form von Wissens- und Verståndnisfragen formuliert, die jeweils eine gezielte Auswahl der zuvor behandelten Inhalte aufgreifen. Mit dieser Sammlung von Ûbungsaufgaben sollen Schwerpunkte gesetzt werden, die es dem Studenten erleichtern, die fçr ein Psychologiestudium besonders wichtigen methodischen Ansåtze und Verfahren sowie deren Bedeutung zu erkennen. Der Inhalt des Buches ist in drei Teile gegliedert, in denen die Elementarstatistik, varianzanalytische Methoden und multivariate Methoden behandelt werden. Die Vereinigung dieser drei fçr die Datenanalyse wichtigen Bereiche in einem Buch hat ± so hoffe ich ± den Vorteil, dass der Leser auch an kompliziertere statistische Gedankengånge herangefçhrt werden kann, die erfahrungsgemåû leichter verstanden werden, wenn allmåhlich auf bereits erworbenem Wissen aufgebaut wird und die Mæglichkeit besteht, Parallelen und Øquivalenzen zwischen bereits behandelten Verfahren und neu zu erarbeitenden Inhalten aufzuzeigen bzw. zu entdecken. Vor der eigentlichen Behandlung der statistischen Verfahren wird in der Einleitung die wissenschaftstheoretische Bedeutung der Statistik im Rahmen empirischer Untersuchungen erærtert. Das erste Kapitel beginnt mit einigen Bemerkungen zur Messtheorie und wendet sich dann der deskriptiven Statistik zu. Problematisch fçr den Anfånger und zu wenig ausfçhrlich fçr den Experten ist mæglicherweise Kap. 2, in dem Fragen der Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen aufgegriffen werden. In diesem Kapitel musste eine Auswahl aus Gebieten gefunden werden, die in der mathematischen Statistik nicht selten mehrere Bånde fçllen. Es wurde versucht, diese schwierige Materie in den fçr uns relevanten Ausschnitten mæglichst einfach darzustellen, um den Leser auf das in der Statistik wichtige Denken in Wahrscheinlichkeiten vorzubereiten. Kapitel 3 (Stichprobe und Grundgesamtheit) leitet zur Inferenzstatistik çber und ist zusammen mit Kap. 4 (Formulierung und Ûberprçfung von Hypothesen) fçr alle folgenden Kapitel von grundlegender Bedeutung. Relativ breiten Raum nehmen dann die Kap. 5 und 6 çber verschiedene Techniken zur Ûberprçfung von Unterschieds- und Zusammenhangshypothesen ein. Die Kapitel 7 bis 12 (Teil II) behandeln varianzanalytische Methoden. Neben den ¹klassischenª Varianzanalysen (einfaktorielle Varianzanalyse in Kap. 7 und mehrfaktorielle Varianzanalyse in Kap. 8) werden zahlreiche Spezialfålle und Modifikationen mit der Intention aufgegriffen, den Leser zu befåhigen, durch eine geeignete Kombination der entsprechenden varianzanalytischen ¹Bausteineª einen der jeweiligen inhaltlichen Fragestellung optimal angepassten Versuchs- und Auswertungsplan zu konstruieren. Kapitel 9 behandelt Varianzanalysen mit Messwiederholungen, Kap. 10 kovarianzanalytische Plåne und Kap. 11 unvollståndige Versuchsplåne wie z. B. quadratische und hierarchische Anordnungen. In diesen Kapiteln habe ich bewusst auf eine Behandlung des theoretischen Hintergrundes verzichtet und mich hauptsåchlich um eine verståndliche und durchsichtige Darstellung der ohnehin recht komplizierten Rechenregeln und der Einsatzmæglichkeiten der einzelnen Verfahren bemçht. Der theoretische Hintergrund der behandelten Varianzanalysen wird in Kap. 12 gesondert behandelt. Dieses Kapitel dçrfte zu den schwierigsten des Buches zåhlen
aVorwort zur ersten Auflage
IX
und ist sicherlich ohne ein vorheriges Durcharbeiten des Anhangs B çber das Rechnen mit Erwartungswerten nur schwer zu verstehen. Den Abschluss dieses Kapitels stellt eine Methode dar, die es in schematischer Weise gestattet, auch solche varianzanalytischen Versuchsplåne einzusetzen, die nicht im Detail behandelt werden. Im Teil III schlieûlich gehe ich auf die Verfahren ein, die çblicherweise unter dem Sammelbegriff ¹Multivariate Methodenª zusammengefasst werden. Da der Einsatz eines multivariaten Verfahrens nicht unbedingt ein detailliertes Verståndnis seines mathematischen Aufbaus voraussetzt, werden in diesem Teil Fragen der Indikation und Interpretation der Verfahren deutlich von der jeweiligen mathematischen Durchfçhrung getrennt. Dennoch wurde Wert darauf gelegt, den Rechengang der Verfahren anhand einfacher Zahlenbeispiele auch denjenigen Lesern zu erklåren, die weder in der Matrix-Algebra noch in der Differentialrechnung sattelfest sind. Im einzelnen gehe ich ein auf die multiple Korrelation und Regression (Kap. 13), die Faktorenanalyse mit besonderer Berçcksichtigung der Hauptkomponentenanalyse (Kap. 14), multivariate Mittelwertsvergleiche und Klassifikationsprobleme (Kap. 15) sowie die Diskriminanzanalyse und die kanonische Korrelationsanalyse (Kap. 16). Beziehungen zwischen varianzanalytischen und multivariaten Methoden werden durch die Analyse sog. ¹Designmatrizenª verdeutlicht. Mein herzlicher Dank gilt Herrn Dr. R. K. Silbereisen und Herrn Dipl.-Psych. R. Oesterreich fçr die kritische Durchsicht des Manuskripts und die zahlreichen Anregungen, den Text verståndlicher und durchsichtiger zu gestalten. Mein besonderer Dank gilt auch Herrn Professor Dr. K. Eyferth, der sich trotz vieler Belastungen die Zeit nahm, Teile des Manuskriptes zu çberarbeiten. Sehr hilfreich war fçr mich die Mitarbeit von Herrn Dipl.-Psych. E. Schwarz, der den græûten Teil der Zahlenbeispiele durchrechnete und nach Fertigstellung des Manuskripts korrigierte. Mein Dank gilt ferner Herrn cand. psych. M. Hassebrauck fçr Literaturbeschaffungen, den Herren cand. math. R. Budke, Dr. W. Korte, Dipl.-Psych. K. Krçger, Professor Dr. U. Tewes, Dipl.-Psych. H. Træger und Dipl.-Psych. K. Werkhofer fçr die Mithilfe bei der Læsung einzelner Probleme sowie Frau Dr. C. Wolfrum, die einzelne Teilkapitel mathematisch çberarbeitete. Herrn M. Eistert danke ich fçr die Anfertigung der Abbildungsvorlagen und Frau K. Eistert sowie Frau H. Weiss fçr das Schreiben des Manuskripts. Bedanken mæchte ich mich auch bei Frau cand. psych. O. Wolfslast und Frau cand. psych. S. Knoch, die mir bei der Ûberprçfung der Korrekturabzçge und der Anfertigung der Register behilflich waren. Nicht unerwåhnt bleiben soll die Tatsache, dass alle Mitarbeiter des Instituts fçr Psychologie der Technischen Universitåt Berlin dazu beigetragen haben, mich wåhrend der Anfertigung des Manuskripts von universitåren Verwaltungsaufgaben zu entlasten. Ihnen allen sei hiermit herzlich gedankt. Berlin, im Frçhjahr 1977
Jçrgen Bortz
XI
Inhaltsverzeichnis *
" Vorbemerkungen: Empirische Forschung und Statistik . . . . . . . . . . . . . . . . . . . . . . . . .
1
Teil I Elementarstatistik " Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . .
Kapitel 1 " " " " " " "
Deskriptive Statistik . . . . . . . . .
1.1 Messtheoretische Vorbemerkungen 1.2 Tabellarische Darstellung der Daten 1.3 Graphische Darstellung der Daten . 1.4 Statistische Kennwerte . . . . . . . 1.4.1 Maûe der zentralen Tendenz . . . . 1.4.2 Dispersionsmaûe . . . . . . . . . . . 1.4.3 z-Werte . . . . . . . . . . . . . . . . 1.4.4 Schiefe und Exzess . . . . . . . . . Ûbungsaufgaben . . . . . . . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
Kapitel 2 Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen . " 2.1 " 2.1.1 " 2.1.2 2.2 " 2.3 2.4 2.4.1
Grundbegriffe der Wahrscheinlichkeitsrechnung Zufallsexperimente und zufållige Ereignisse . . . . . Relative Håufigkeiten und Wahrscheinlichkeiten . . . . Variationen, Permutationen, Kombinationen . . . . . . . . . Wahrscheinlichkeitsfunktionen und Verteilungsfunktionen . . . Diskrete Verteilungen . . . . . . Binomialverteilung . . . . . . .
14 15 15 27 30 34 35 39 44 45 46
2.4.2 2.4.3 2.4.4 2.5 " 2.5.1 2.5.2 2.5.3 2.5.4 2.5.5
Hypergeometrische Verteilung Poisson-Verteilung . . . . . . Weitere diskrete Verteilungen Stetige Verteilungen . . . . . Normalverteilung . . . . . . . v2-Verteilung . . . . . . . . . t-Verteilung . . . . . . . . . . F-Verteilung . . . . . . . . . . Vergleich von F-, t-, v2und Normalverteilung . . . . Ûbungsaufgaben . . . . . . . . . . . .
49
. . . . . . . . .
50
. . . . . . . . .
52
. . . . . . . . .
59
. . . . . . . . . . . . . . . . . . . . . . . . . . .
62 65 65
* Die mit einem " versehenen Textteile werden zusammen mit den Einleitungen zu den Kapiteln dem Anfånger als Erstlektçre empfohlen.
. . . . . . . .
. . . . . . . .
70 71 72 73 73 79 81 81
. . . . . . . . . . . . . . . . . . . .
82 83
Kapitel 3 Stichprobe und Grundgesamtheit
85
" 3.1 " 3.2 " 3.2.1 " "
49
. . . . . . . .
. . . . . . . .
" "
. . . . . . . .
. . . . . . . .
Stichprobenarten . . . . . . . . . . . Die Stichprobenkennwerteverteilung Die Streuung der Stichprobenkennwerteverteilung 3.2.2 Die Form der Stichprobenkennwerteverteilung 3.2.3 Der Mittelwert der Stichprobenkennwerteverteilung 3.3 Kriterien der Parameterschåtzung . . 3.4 Methoden der Parameterschåtzung . 3.5 Intervallschåtzung . . . . . . . . . . 3.6 Bedeutung des Stichprobenumfangs Ûbungsaufgaben . . . . . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . . . . . .
86 89
. . . . . .
90
. . . . . .
93
. . . . . .
94 95 98 100 104 106
Kapitel 4 Formulierung und Ûberprçfung von Hypothesen . . . . . . . . . . . .
107
" 4.1 " 4.2 " 4.3 " 4.4 " 4.5 " 4.6 " 4.7 " 4.8
Alternativhypothesen . . . . . . . Die Nullhypothese . . . . . . . . Fehlerarten bei statistischen Entscheidungen Signifikanzaussagen . . . . . . . Einseitige und zweiseitige Tests . Statistische Signifikanz und praktische Bedeutsamkeit . a-Fehler, b-Fehler und Teststårke Bedeutung der Stichprobengræûe
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . . . . . . . . . . . .
108 109
. . . . . . . . . . . . . . . . . . . . . . . .
110 111 116
. . . . . . . . . . . . . . . . . . . . . . . .
119 121 125
XII
" 4.9 " 4.10 4.11
Inhaltsverzeichnis
Praktische Hinweise . . . Multiples Testen . . . . . Monte-Carlo-Studien und die Bootstrap-Technik Ûbungsaufgaben . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . .
128 129
. . . . . . . . . . . . . . . . . . . . . . .
130 133
Kapitel 5 Verfahren zur Ûberprçfung von Unterschiedshypothesen . . .
135
" 5.1 " 5.1.1
" "
"
" " " " "
"
Verfahren fçr Intervalldaten . . . . . . . . . . . Vergleich eines Stichprobenmittelwertes mit einem Populationsparameter . . . . . . . . 5.1.2 Vergleich zweier Stichprobenmittelwerte aus unabhångigen Stichproben (t-Test) . 5.1.3 Vergleich zweier Stichprobenmittelwerte aus abhångigen Stichproben (t-Test) . . . . . . . . . . . . . . . . . . . . . . . 5.1.4 Vergleich einer Stichprobenvarianz mit einer Populationsvarianz . . . . . . . . . . 5.1.5 Vergleich zweier Stichprobenvarianzen (F-Test) . . . . . . . . . . 5.2 Verfahren fçr Ordinaldaten . . . . . . . . . . . 5.2.1 Vergleich von zwei unabhångigen Stichproben hinsichtlich ihrer zentralen Tendenz (U-Test von Mann-Whitney) . . . . . . . . . . . 5.2.2 Vergleich von zwei abhångigen Stichproben hinsichtlich ihrer zentralen Tendenz (Wilcoxon-Test) . . . . . . . 5.3 Verfahren fçr Nominaldaten . . . . . . . . . . . 5.3.1 Vergleich der Håufigkeiten eines zweifach gestuften Merkmals . . . . . . 5.3.2 Vergleich der Håufigkeiten eines k-fach gestuften Merkmals . . . . . . . . 5.3.3 Vergleich der Håufigkeiten von zwei alternativen Merkmalen . . . . . . . 5.3.4 Vergleich der Håufigkeiten von zwei mehrfach gestuften Merkmalen . . . . . . 5.3.5 Vergleich der Håufigkeiten von m alternativ oder mehrfach gestuften Merkmalen (Konfigurationsfrequenzanalyse) . . . . . . . . . 5.3.6 Allgemeine Bemerkungen zu den v2-Techniken . . . . . . . . . . . . . . . Ûbungsaufgaben . . . . . . . . . . . . . . . . . . . . . .
136
136 140
143 146 148 150
150
Kapitel 6 Verfahren zur Ûberprçfung von Zusammenhangshypothesen . 181 " 6.1 " 6.1.1 " 6.1.2 6.1.3 " 6.2 " 6.2.1 " 6.2.2
Merkmalsvorhersagen . . . . . . . . Lineare Regression . . . . . . . . . Statistische Absicherung . . . . . . Nonlineare Regression . . . . . . . Merkmalszusammenhånge . . . . . Kovarianz und Korrelation . . . . . Ûberprçfung von Korrelationshypothesen . . . . " 6.3 Spezielle Korrelationstechniken . . . 6.3.1 Korrelation zweier Intervallskalen . 6.3.2 Korrelation einer Intervallskala mit einem dichotomen Merkmal . . 6.3.3 Korrelation einer Intervallskala mit einer Ordinalskala . . . . . . . 6.3.4 Korrelation fçr zwei dichotome Variablen . . . . . . . . . . . . . . . 6.3.5 Korrelation eines dichotomen Merkmals mit einer Ordinalskala (biseriale Rangkorrelation) . . . . . 6.3.6 Korrelation zweier Ordinalskalen . . 6.3.7 ¹Korrelationª zweier Nominalskalen (Kontingenzkoeffizient) . . . . . . . " 6.4 Korrelation und Kausalitåt . . . . . Ûbungsaufgaben . . . . . . . . . . . . . . . .
162 168 172
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
182 183 191 196 201 203
. . . . . . . . . . . . . . . . . . . . .
213 224 224
. . . . . . .
224
. . . . . . .
227
. . . . . . .
227
. . . . . . . . . . . . . .
231 232
. . . . . . . . . . . . . . . . . . . . .
234 235 236
Teil II Varianzanalytische Methoden
153 154 156
. . . . . .
" Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . .
243
Kapitel 7 Einfaktorielle Versuchsplåne . . . . 247 " 7.1
175
7.2 7.3 7.3.1 7.3.2
176 177
7.3.3 7.3.4 7.3.5 7.4 7.4.1 7.4.2
Grundprinzip der einfaktoriellen Varianzanalyse Ungleiche Stichprobengræûen . . Einzelvergleiche . . . . . . . . . . Konstruktionsprinzipien . . . . . . Zerlegung der Treatmentquadratsumme . . . a-Fehler-Korrektur . . . . . . . . . Einzelvergleiche a priori oder a posteriori? . . . . . . . . . Scheff-Test . . . . . . . . . . . . Trendtests . . . . . . . . . . . . . Øquidistante Stufen . . . . . . . . Beliebige Abstufungen . . . . . .
. . . .
. . . .
. . . .
248 260 263 263
. . . . . . . . . . . . . . . .
267 271
. . . . .
272 274 276 276 281
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
. . . . .
. . . . .
XIII
aInhaltsverzeichnis 7.4.3 " 7.5
Monotone Trends . . . . . . . . . . . . . . . . . Voraussetzungen der einfaktoriellen Varianzanalyse . . . . . . . . Ûbungsaufgaben . . . . . . . . . . . . . . . . . . . . . . .
282 284 287
Kapitel 8 Mehrfaktorielle Versuchsplåne . . . 289 " 8.1 8.2 8.3
Zweifaktorielle Varianzanalyse . . . Einzelvergleiche . . . . . . . . . . . Drei- und mehrfaktorielle Varianzanalysen . . . . . . . . . . . 8.4 Ungleiche Stichprobengræûen . . . 8.5 Varianzanalyse mit einem Untersuchungsobjekt pro Faktorstufenkombination (n = 1) 8.6 Voraussetzungen mehrfaktorieller Versuchsplåne . . . . . . . . . . . . Ûbungsaufgaben . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
290 305
. . . . . . . . . . . . . .
312 321
. . . . . . .
325
. . . . . . . . . . . . . .
328 329
Kapitel 9 Versuchsplåne mit Messwiederholungen . . . . . . 331 " 9.1
Einfaktorielle Varianzanalyse mit Messwiederholungen . . . . . . 9.2 Mehrfaktorielle Varianzanalysen mit Messwiederholungen . . . . . . 9.3 Voraussetzungen der Varianzanalyse mit Messwiederholungen . . . . . . Ûbungsaufgaben . . . . . . . . . . . . . . . .
. . . . . . .
331
. . . . . . .
336
. . . . . . . . . . . . . .
352 359
Einfaktorielle Kovarianzanalyse . Voraussetzungen der Kovarianzanalyse . . . . . . 10.3 Mehrfaktorielle Kovarianzanalyse 10.4 Kovarianzanalyse mit Messwiederholungen . . . . Ûbungsaufgaben . . . . . . . . . . . . . .
Einfaktorielle Varianzanalyse . . . . . Zwei- und mehrfaktorielle Varianzanalysen . . . . . . . . . . . . 12.3 Varianzanalysen mit Messwiederholungen . . . . . . 12.4 Kovarianzanalyse . . . . . . . . . . . 12.5 Unvollståndige, mehrfaktorielle Varianzanalysen . . . 12.6 Allgemeine Regeln fçr die Bestimmung der Erwartungswerte von Varianzen Ûbungsaufgaben . . . . . . . . . . . . . . . .
411
. . . . . .
416
. . . . . . . . . . . .
423 427
. . . . . .
428
. . . . . . . . . . . .
430 436
" Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . .
439
Kapitel 13 Partialkorrelation und Multiple Korrelation . . . . .
443
Teil III Multivariate Methoden
362
. . . . . . . . . . . . . . . . . .
369 373
Kapitel 14 Das allgemeine lineare Modell (ALM) . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
376 385
14.1 14.2 14.2.1 14.2.2 14.2.3
Hierarchische und teilhierarchische Versuchsplåne 11.2 Lateinische Quadrate . . . . . . . . 11.3 Griechisch-lateinische Quadrate . . 11.4 Quadratische Anordnungen mit Messwiederholungen . . . . . . Ûbungsaufgaben . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
388 396 400
. . . . . . . . . . . . . .
403 408
411
. . . . . .
. . . . . . . . .
Kapitel 11 Unvollståndige, mehrfaktorielle Versuchsplåne . . 387 11.1
12.1 12.2
Partialkorrelation . . . . . . . . . . . Multiple Korrelation und Regression Grundprinzip und Interpretation . . Multikollinearitåt und Suppressionseffekte . . . . . . . 13.2.3 Mathematischer Hintergrund . . . . 13.3 Lineare Strukturgleichungsmodelle . Ûbungsaufgaben . . . . . . . . . . . . . . . .
Kapitel 10 Kovarianzanalyse . . . . . . . . . . . 361 " 10.1 10.2
Kapitel 12 Theoretische Grundlagen der Varianzanalyse . . . . . . . . . .
" 13.1 13.2 " 13.2.1 13.2.2
14.2.4
14.2.5 14.2.6 14.2.7
Codierung nominaler Variablen . . . Spezialfålle des ALM . . . . . . . . . t-Test fçr unabhångige Stichproben Einfaktorielle Varianzanalyse . . . . . Zwei- und mehrfaktorielle Varianzanalyse (gleiche Stichprobenumfånge) . . . . Zwei- und mehrfaktorielle Varianzanalyse (ungleiche Stichprobenumfånge) . . Kovarianzanalyse . . . . . . . . . . . Hierarchische Varianzanalyse . . . . Lateinisches Quadrat . . . . . . . . .
. . . . . . . . . . . . . . . . . .
443 448 448
. . . .
. . . .
452 465 471 481
483
. . . .
. . . .
. . . .
. . . .
483 488 489 490
. . . . . .
491
. . . .
494 498 500 501
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
XIV
Inhaltsverzeichnis
14.2.8 14.2.9
t-Test fçr abhångige Stichproben Varianzanalyse mit Messwiederholungen . . . . 14.2.10 4-Felder-v2-Test . . . . . . . . . . 14.2.11 k ´ 2-v2-Test . . . . . . . . . . . 14.2.12 Mehrebenenanalyse . . . . . . . Ûbungsaufgaben . . . . . . . . . . . . . .
. . . . . . . .
502
. . . . .
. . . . .
503 505 507 508 509
Kapitel 15 Faktorenanalyse . . . . . . . . . . . .
511
. . . . .
" 15.1 " 15.2
Faktorenanalyse im Ûberblick . . . . Grundprinzip und Interpretation der Hauptkomponentenanalyse . . . 15.3 Rechnerische Durchfçhrung der Hauptkomponentenanalyse . . . 15.4 Kriterien fçr die Anzahl der Faktoren . . . . . . . . . . . . . 15.5 Rotationskriterien . . . . . . . . . . . 15.6 Weitere faktorenanalytische Ansåtze Ûbungsaufgaben . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . . .
511
. . . . . .
516
. . . . . .
524
. . . .
. . . .
543 547 556 563
Kapitel 16 Clusteranalyse . . . . . . . . . . . . .
565
16.1 16.1.1 16.1.2 16.1.3 16.1.4 " 16.2
Øhnlichkeits- und Distanzmaûe . . Nominalskalierte Merkmale . . . . Ordinalskalierte Merkmale . . . . . Kardinalskalierte Merkmale . . . . Gemischt-skalierte Merkmale . . . Ûbersicht clusteranalytischer Verfahren . . . . . . . . . . . . . . 16.2.1 Hierarchische Verfahren . . . . . . 16.2.2 Nicht-hierarchische Verfahren . . . 16.3 Durchfçhrung einer Clusteranalyse 16.3.1 Die Ward-Methode . . . . . . . . . 16.3.2 Die k-means-Methode . . . . . . . 16.4 Evaluation clusteranalytischer Læsungen . . . . . . . . . . . . . . Ûbungsaufgaben . . . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
566 567 568 568 570
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
571 571 573 575 575 578
. . . . . . . . . . . . . .
580 584
Kapitel 17 Multivariate Mittelwertvergleiche . . . . . . . . . . . . . . . . " 17.1 17.2 17.3 17.4
Mehrfache univariate Analysen oder eine multivariate Analyse? Vergleich einer Stichprobe mit einer Population . . . . . . Vergleich zweier Stichproben . Einfaktorielle Varianzanalyse mit Messwiederholungen . . .
585
. . . . . . . . .
585
. . . . . . . . . . . . . . . . . .
586 588
. . . . . . . . .
590
17.5
Einfaktorielle, multivariate Varianzanalyse . . . . . . . . . . . . 17.6 Mehrfaktorielle, multivariate Varianzanalyse . . . . . . . . . . . . Ûbungsaufgaben . . . . . . . . . . . . . . . . . . . . . . .
592 598 602
Kapitel 18 Diskriminanzanalyse . . . . . . . . . 605 " 18.1
Grundprinzip und Interpretation der Diskriminanzanalyse . . . . 18.2 Mathematischer Hintergrund . . 18.3 Mehrfaktorielle Diskriminanzanalyse . . . . . . . 18.4 Klassifikation . . . . . . . . . . . Ûbungsaufgaben . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
606 612
. . . . . . . . . . . . . . . . . . . . . . . . . . .
617 617 626
Kapitel 19 Kanonische Korrelationsanalyse . 627 " 19.1 19.2 19.3
Grundprinzip und Interpretation Mathematischer Hintergrund . . Die kanonische Korrelation: Ein allgemeiner Læsungsansatz . 19.4 Schlussbemerkung . . . . . . . . Ûbungsaufgaben . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
628 634
. . . . . . . . . . . . . . . . . . . . . . . . . . .
639 644 645
Anhang Læsungen der Ûbungsaufgaben . . . . . . . . A. Das Rechnen mit dem Summenzeichen . . . . . B. Das Rechnen mit Erwartungswerten C. Das Rechnen mit Matrizen . . . . . D. Maximierung mit Nebenbedingungen . . . . . . . E. Statistik mit SPSS . . . . . . . . . . F. Verzeichnis der wichtigsten Abkçrzungen und Symbole . . . . . G. Glossar . . . . . . . . . . . . . . . . H. Formelverzeichnis . . . . . . . . . .
. . . . . . .
649
. . . . . . . . . . . . . . . . . . . .
703 705 713
. . . . . . . . . . . . . .
725 727
. . . . . . . . . . . . . . . . . . . . .
781 787 801
Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . 807 Tabelle A. Tabelle B. Tabelle C.
Binomialverteilungen . . . . . . . . . . . . Verteilungsfunktion der Standardnormalverteilung . . . . . . . Verteilungsfunktion der v2-Verteilungen . . . . . . . . . . . . .
807 812 817
XV
aInhaltsverzeichnis Tabelle D.
Tabelle E. Tabelle F. Tabelle G. Tabelle H. Tabelle I.
Verteilungsfunktion der t-Verteilungen und zweiseitige Signifikanzgrenzen fçr ProduktMoment-Korrelationen . . . . . . . . . . . Verteilungsfunktion der F-Verteilungen . . U-Test-Tabelle . . . . . . . . . . . . . . . . Tabelle der kritischen Werte fçr den Wilcoxon-Test . . . . . . . . . . . . Fishers Z-Werte . . . . . . . . . . . . . . . c-Koeffizienten fçr Trendtests (orthogonale Polynome) . . . . . . . . . .
Tabelle K.
Kritische Werte der Fmax-Verteilungen . . . . . . . . . . . Normal-Rang-Transformationen . . . . . .
832 833
819 820 826
Tabelle L.
Literaturverzeichnis . . . . . . . . . . . . . . . . . .
835
829 830
Namenverzeichnis . . . . . . . . . . . . . . . . . . .
863
Sachverzeichnis . . . . . . . . . . . . . . . . . . . . .
873
831
1
a
Vorbemerkungen
Empirische Forschung und Statistik
Statistik ist ein wichtiger Bestandteil empirischwissenschaftlichen Arbeitens. Statistik beschrånkt sich nicht nur auf die Zusammenfassung und Darstellung von Daten (dies ist Aufgabe der deskriptiven Statistik, die im ersten Kapitel behandelt wird), sondern sie ermæglicht empirischen Wissenschaften objektive Entscheidungen çber die Brauchbarkeit der çberprçften Hypothesen. Dieser Teilaspekt der Statistik, der sich mit der Ûberprçfung von Hypothesen befasst, wird håufig als analytische Statistik oder Inferenz- (schlieûende) Statistik bezeichnet. Wissenschaftliches Arbeiten zielt auf die Verdichtung von Einzelinformationen und Beobachtungen zu allgemein gçltigen theoretischen Aussagen ab. Hierbei leitet die deskriptive Statistik zu einer çbersichtlichen und anschaulichen Informationsaufbereitung an, und die Inferenzstatistik ermæglicht eine Ûberprçfung von Hypothesen an der beobachteten Realitåt. Wenn beispielsweise das Sprachverhalten von Unterschichtkindern interessiert, kænnten wir eine Schçlerstichprobe beobachten und fçr verschiedene Sprachmerkmale Håufigkeitsverteilungen erstellen bzw. graphische Darstellungen anfertigen. Das erhobene Material wird in quantitativer Form so aufbereitet, dass man sich schnell einen Ûberblick çber die in der untersuchten Stichprobe angetroffenen Merkmalsverteilungen verschaffen kann. Verallgemeinernde Interpretationen dieser deskriptiven statistischen Analyse, die çber das erhobene Material hinausgehen, sind jedoch spekulativ. Lassen sich theoretisch Erwartungen hinsichtlich der Håufigkeit des Auftretens bestimmter Sprachmerkmale begrçnden, wird eine allgemeingçltige Hypothese formuliert, die sich nicht nur auf einige zufållig ausgewåhlte Kinder, sondern auf alle Kinder dieser Schicht bezieht. Die Tauglichkeit dieser Hypothese wird anhand der empirischen Daten getestet. Verfahren, die dies leisten
und die verallgemeinerte, çber die jeweils untersuchten Personen hinausgehende Interpretationen zulassen, bezeichnen wir als inferenzstatistische Verfahren. Die Inferenzstatistik ermæglicht im Unterschied zur deskriptiven Statistik die Ûberprçfung von Hypothesen.
Hat man keine Theorie bzw. Erkennisse, die eine Hypothese begrçnden kænnten, bezeichnen wir die Untersuchung als ein Erkundungsexperiment, das dazu dient, erste Hypothesen çber einen bestimmten, noch nicht erforschten Gegenstand zu formulieren. Bevor diese Hypothesen akzeptiert und zu einer allgemeingçltigen Theorie verdichtet werden kænnen, bedarf es weiterer Untersuchungen, in denen mit inferenzstatistischen Verfahren die Gçltigkeit der ¹erkundetenª Hypothesen gesichert wird. Bereits an dieser Stelle sei nachdrçcklich auf einen Missbrauch der Inferenzstatistik hingewiesen: das statistische Ûberprçfen einer Hypothese anhand derselben Daten, die die Formulierung der Hypothese veranlasst haben. Forschungsarbeiten, in denen dasselbe Material zur Formulierung und Ûberprçfung von Hypothesen herangezogen wird, sind unwissenschaftlich. Dies gilt selbstverståndlich in verstårktem Maûe fçr Arbeiten, in denen Hypothesen erst nach der statistischen Auswertung aufgestellt werden. Eine Forschungsarbeit, die ein gefundenes Untersuchungsergebnis im Nachhinein so darstellt, als sei dies die zu prçfende Hypothese gewesen, kann nur mehr oder weniger zufållige Ergebnisse beståtigen, die untereinander håufig widersprçchlich sind und sich deshalb eher hemmend als færdernd auf den Forschungsprozess auswirken. Dies bedeutet natçrlich nicht, dass Hypothesen grundsåtzlich nur vor und niemals nach einer
2
Vorbemerkungen ´ Empirische Forschung und Statistik
empirischen Untersuchung formuliert werden dçrfen. Falls in einer Untersuchung angesichts der erhobenen Daten neue Hypothesen aufgestellt werden, ist diese Untersuchung jedoch explizit als Erkundungsexperiment oder explorative Studie zu kennzeichnen. Diese Hypothesen sind dann Gegenstand weiterfçhrender, Hypothesen prçfender Untersuchungen. Fçr den sinnvollen Einsatz der Inferenzstatistik ist es erforderlich, dass vor Untersuchungsbeginn eine theoretisch gut begrçndete Hypothese oder Fragestellung formuliert wurde.
Der sinnvolle Einsatz statistischer Verfahren, der çber die reine Deskription des Untersuchungsmaterials hinausgeht, setzt also grçndliche, theoretisch-inhaltliche Vorarbeit voraus. So gesehen kann der Wert einer konkreten statistischen Analyse immer nur im Kontext einer vollståndigen Untersuchungsanlage erkannt werden, fçr die theoretische Vorarbeit, Hypothesenformulierung und eine genaue Untersuchungsplanung essentiell sind.
Phasen der empirischen Forschung Wegen der engen Verknçpfung statistischer Methoden mit inhaltlichen und untersuchungsplanerischen Fragen soll vor der eigentlichen Behandlung statistischer Techniken deren Funktion im Kontext empirischer Untersuchungen genauer verortet werden. Bei dieser Gelegenheit sind auch einige Fachbegriffe einzufçhren, die in der empirischen Forschung gebråuchlich sind. Wir unterteilen den empirischen Forschungsprozess in sechs verschiedene Phasen (vgl. Abb. 1), die im Folgenden kurz beschrieben werden. Ausfçhrlichere Hinweise zur Planung und Durchfçhrung empirischer Untersuchungen sowie weiterfçhrende Literatur zu diesem Thema findet man z. B. bei Bortz u. Dæring (2002), Campbell u. Stanley (1963), Czienskowski (1996), Hager (1987), Hussy u. Jain (2002), Lçer (1987), Rogge (1995), Sarris (1990, 1992) und Selg et al. (1992). Wissenschaftstheoretische Aspekte empirischer Forschung werden z. B. bei Chalmers (1986), Schnell et al. (1999, Kap. 3) und Westermann (2000) erærtert. Fçr eine grundlegende Orientierung sei die Enzyklopådie çber ¹Methodische
Grundlagen der Psychologieª von Herrmann u. Tack (1994) empfohlen.
Erkundungsphase Zur Erkundungsphase zåhlen die Sichtung der fçr das Problem einschlågigen Literatur, Kontaktaufnahmen mit Personen, die am gleichen Problem arbeiten, erste Erkundungsuntersuchungen, Informationsgespråche mit Praktikern, die in ihrer Tåtigkeit mit dem zu untersuchenden Problem håufig konfrontiert werden, und åhnliche, zur Problemkonkretisierung beitragende Tåtigkeiten. Ziel dieser Erkundungsphase ist es, die eigene Fragestellung in einen theoretischen Rahmen einzuordnen bzw. den wissenschaftlichen Status der Untersuchung ± Hypothesen prçfend oder Hypothesen erkundend ± festzulegen. Manche Forschungsthemen knçpfen direkt an bewåhrte Theorien an, aus denen sich fçr ein Untersuchungsvorhaben gezielte Hypothesen ableiten lassen. Andere hingegen betreten wissenschaftliches Neuland und machen zunåchst die Entwicklung eines theoretischen Ansatzes erforderlich. Systematisch erhobene und objektiv beschriebene empirische Fakten mçssen in einen gemeinsamen widerspruchsfreien Sinnzusammenhang gestellt werden, der geeignet ist, die bekannten empirischen Fakten zu erklåren bzw. zukçnftige Entwicklungen oder Konsequenzen zu prognostizieren. (Ausfçhrliche Informationen zur Bedeutung und Entwicklung von Theorien und weitere Literatur hierzu findet man bei Bortz u. Dæring 2002, Kap. 6.) Die Erkundungsphase ist ± wie empirische Wissenschaft çberhaupt ± gekennzeichnet durch ein Wechselspiel zwischen Theorie und Empirie bzw. zwischen induktiver Verarbeitung einzelner Beobachtungen und Erfahrungen zu allgemeinen Vermutungen oder Erkenntnissen und deduktivem Ûberprçfen der gewonnenen Einsichten an der konkreten Realitåt. Hålt man die ¹vorwissenschaftlicheª Erkundungsphase fçr abgeschlossen, empfiehlt sich eine logische und begriffliche Ûberprçfung des theoretischen Ansatzes.
Theoretische Phase Bevor man eine Hypothese empirisch çberprçft, sollte man sich vergewissern, dass die Hypothese
3
Problemwahl, Literatur, Erkundungen, Verarbeitung v. Beobachtungen durch Induktion, Überprüfung von Einsichten durch Deduktion
Planungsphase
theoretische Phase Erkundungsphase
aTheoretische Phase
Formulierung einer allgem. Theorie Theorie unbrauchbar
Theoretische Überprüfung nein
Ergebnis positiv ? ja
Bewährungskriterium k Belastbarkeitskriterium l Ableitung einer speziellen Hypothese per Deduktion Untersuchungsplanung
Auswertungsphase
Untersuchungsphase
Operationalisierung Datenerhebung Testtheoretische Bewertung der Daten Daten tauglich ?
ja
ja
Datenverarbeitung Signifikanzniveau (α) Signifikanztest Irrtumswahrscheinlichkeit Pp Irrtumswahrscheinlichkeit £ aα pP ≤
Entscheidunsphase
nein
nein
nein
ja
Veränderung d. Theorie durch Exhaustion Bewährungskrit. überschritt. ja
Theorie brauchbar weitere Überprüfung in der Praxis
Abb. 1. Phasen der empirischen Forschung
Fehler i. d. Untersuch. ?
nein
Belastbarkeit überschritt. ? ja
nein
4
Vorbemerkungen ´ Empirische Forschung und Statistik
bzw. die zu prçfende Theorie einigen formalen bzw. logischen Kriterien gençgt. Diese Ûberprçfung setzt streng genommen voraus, dass die Theorie hinreichend entwickelt und formalisiert ist, um sie exakt nach logischen Kriterien analysieren zu kænnen. Dies trifft auf die wenigsten human- und sozialwissenschaftlichen Theorien zu. Deshalb ist zu erwarten (und dies zeigt auch die derzeitige Forschungspraxis), dass gerade diese Phase in empirischen Untersuchungen eine vergleichsweise geringe Prioritåt besitzt. Die Prçfkriterien sind jedoch auch fçr weniger formalisierte Theorien von Bedeutung, denn sie tragen dazu bei, Schwåchen des theoretischen Ansatzes bereits vor der empirischen Arbeit aufzudecken, die der empirischen Prçfbarkeit der Hypothesen entgegenstehen kænnten. In Anlehnung an Opp (1999) sollten in der theoretischen Phase folgende Fragen beantwortet werden: · Ist die Theorie pråzise formuliert? · Welchen Informationsgehalt besitzt die Theorie? · Ist die Theorie in sich logisch konsistent? · Ist die Theorie mit anderen Theorien logisch vereinbar? · Ist die Theorie empirisch çberprçfbar?
Pråzision. Eine Theorie ist wenig tauglich, wenn sie Begriffe enthålt, die nicht eindeutig definiert sind. Die Definition der Begriffe sollte sicherstellen, dass diejenigen, die die (Fach-)Sprache beherrschen, mit dem Begriff zweifelsfrei kommunizieren kænnen. Informationsgehalt. Um den Informationsgehalt einer Theorie zu erkunden, werden die Aussagen der Theorie auf die logische Struktur eines ¹Wenn-dannª- bzw. eines ¹Je-destoª-Satzes (Konditionalsåtze) zurçckgefçhrt. (Wenn eine Theorie behauptet, frustrierte Menschen reagieren aggressiv, wçrde der entsprechende Konditionalsatz lauten: ¹Wenn Menschen frustriert sind, dann reagieren sie aggressiv.ª) Eine Je-desto-Formulierung resultiert, wenn zwei kontinuierliche Merkmale miteinander in Beziehung gesetzt werden, wie z. B. in der Aussage: ¹Mit zunehmendem Alter sinkt die Sehtçchtigkeit des erwachsenen Menschen.ª Der Konditionalsatz hierzu lautet: ¹Je ålter ein Erwachsener, desto schlechter ist seine Sehtçchtigkeit.ª
Der Informationsgehalt eines Wenn-dann-Satzes (entsprechendes gilt fçr Je-desto-Såtze) nimmt zu, je mehr Ereignisse denkbar sind, die mit der Aussage des Dann-Teiles im Widerspruch stehen. Ereignisse, die mit dem Dann-Teil der Aussage nicht vereinbar sind, werden als potenzielle Falsifikatoren der Theorie bezeichnet. Der Satz ¹Wenn der Alkoholgehalt des Blutes 0,5½ çbersteigt, dann hat dies positive oder negative Auswirkungen auf die Reaktionsfåhigkeitª, hat demnach einen relativ geringen Informationsgehalt, da sowohl verbesserte Reaktionsfåhigkeit als auch verschlechterte Reaktionsfåhigkeit mit dem Dann-Teil çbereinstimmen. Die Aussage hat nur einen potenziellen Falsifikator, nåmlich ¹gleichbleibende Reaktionsfåhigkeitª. Der Informationsgehalt dieses Satzes kænnte gesteigert werden, wenn der Dann-Teil weniger Ereignisse zulåsst, sodass die Anzahl der potenziellen Falsifikatoren steigt. Dies wåre der Fall, wenn beispielsweise eine verbesserte Reaktionsfåhigkeit durch den Dann-Teil ausgeschlossen wird. Der Informationsgehalt eines Satzes hångt auch von der Pråzision der verwendeten Begriffe ab. Betrachten wir hierzu den Satz: ¹Wenn sich eine Person autoritår verhålt, dann wåhlt sie eine konservative Parteiª. Der Informationsgehalt dieses Satzes hångt davon ab, wie die Begriffe ¹autoritårª und ¹konservativª definiert sind. Fçr jemanden, der den Begriff ¹konservativª sehr weit fasst und eine Vielzahl von Parteien konservativ nennt, hat der Satz wenig potenzielle Falsifikatoren und damit weniger Informationsgehalt als fçr jemanden, der den Begriff ¹konservativª sehr eng fasst und nur eine begrenzte Zahl von Parteien darunter zåhlt.
Logische Konsistenz. Fçhrt die logische Ûberprçfung einer theoretischen Aussage zu dem Ergebnis, dass diese immer wahr ist, so ist die entsprechende Aussage logisch inkonsistent. Wir bezeichnen derartige Aussagen als analytisch wahr bzw. als tautologisch. Ein tautologischer Satz besitzt keine potenziellen Falsifikatoren. Beispielsweise wåre der Satz: ¹Wenn ein Mensch einen Intelligenzquotienten çber 140 hat, dann ist er ein Genieª, tautologisch, falls der Begriff ¹Genieª durch eben diese Intelligenzhæhe definiert ist. Dieser Satz ist bei jeder Beschaffenheit der Realitåt immer wahr, er hat keine potenziellen Falsifikatoren.
aTheoretische Phase Nicht immer ist der tautologische Charakter einer Aussage offensichtlich. Die Wahrscheinlichkeit einer ¹verkapptenª Tautologie nimmt zu, wenn in einem Satz unpråzise Begriffe enthalten sind. Ebenfalls nicht offensichtlich ist die Tautologie von so genannten ¹Kannª-Såtzen. Betrachten wir beispielsweise die folgende Aussage: ¹Wenn jemand ståndig erhæhtem Stress ausgesetzt ist, dann kann es zu einem Herzinfarkt kommen.ª Bezogen auf eine einzelne Person ist dieser Satz nicht falsifizierbar, da sowohl das Auftreten als auch das Nichtauftreten eines Herzinfarktes mit dem Dann-Teil der Aussage vereinbar ist. Beziehen wir den Satz auf alle Menschen, so wåre er nur falsifizierbar, wenn unter allen Menschen, die jemals an irgendeinem Ort zu irgendeiner Zeit gelebt haben, leben oder leben werden, kein einziger durch erhæhten Stress einen Herzinfarkt erleidet. Da eine solche Ûberprçfung niemals durchgefçhrt werden kann, sind Kann-Såtze fçr praktische Zwecke tautologisch. Ûberprçfbar und damit wissenschaftlich brauchbar wird ein Kann-Satz erst durch die Spezifizierung bestimmter Wahrscheinlichkeitsangaben im Dann-Teil, wenn also die Hæhe des Risikos eines Herzinfarktes bei ståndigem Stress genauer spezifiziert wird. Lautet der Satz beispielsweise: ¹Wenn jemand ståndig erhæhtem Stress ausgesetzt ist, dann kommt es mit einer Wahrscheinlichkeit von mindestens 20% zu einem Herzinfarktª, dann ist diese Aussage zwar ebenfalls, auf eine einzelne Person bezogen, nicht falsifizierbar. Betrachten wir hingegen eine Gruppe von hundert unter ståndigem Stress stehenden Menschen, von denen weniger als 20 einen Herzinfarkt erleiden, dann gilt dieser Satz als falsifiziert. (Genauer werden wir dieses Problem im Kap. 3 behandeln, in dem es u.a. um die Verallgemeinerung und Bewertung von Stichprobenergebnissen geht.) Im Gegensatz zu einer tautologischen Aussage ist eine kontradiktorische Aussage immer falsch. Sie kann empirisch niemals beståtigt werden, d. h. sie hat keine potenziellen Konfirmatoren. Kontradiktorisch ist beispielsweise der Satz: ¹Wenn eine Person keinen Wein trinkt, dann trinkt sie Chardonay.ª Aus der Tatsache, dass Chardonnay ein spezieller Wein ist, folgt, dass dieser Satz analytisch falsch ist. Auch kontradiktorische Såtze sind natçrlich wissenschaftlich unbrauchbar.
5
Neben tautologischen und kontradiktorischen Aussagen gibt es Såtze, die deshalb unwissenschaftlich sind, weil sie aus anderen Såtzen logisch falsch abgeleitet sind. So wird man beispielsweise leicht erkennen, dass die Aussage ¹Alle Christen sind Polizistenª logisch falsch aus den Såtzen ¹Christen sind hilfsbereite Menschenª und ¹Polizisten sind hilfsbereite Menschenª erschlossen wurde. Die Ermittlung des Wahrheitswertes derartiger abgeleiteter Såtze ist Gegenstand eines Teilbereiches der Wissenschaftstheorie, der formalen Logik, mit dem wir uns nicht weiter auseinandersetzen wollen (Literatur zur Logik: Carnap, 1960; Cohen u. Nagel, 1963; Kyburg, 1968; Stegmçller, 1969, Kap. 0; Tarski, 1965).
Logische Vereinbarkeit. Der Volksmund råt angehenden Paaren: ¹Gleich und Gleich gesellt sich gernª. Er sagt aber auch: ¹Gegensåtze ziehen sich an.ª Wir haben es hier offenbar mit zwei widersprçchlichen theoretischen Aussagen zu tun. Theorien, die sich logisch widersprechen, mçssen bzgl. ihrer internen Logik, ihres Informationsgehalts und ihrer Pråzision verglichen werden. Sind die Theorien hinsichtlich dieser Kriterien gleichwertig, ist diejenige Theorie vorzuziehen, die empirisch am besten abgesichert erscheint oder sich in einem kritischen Vergleichsexperiment als die bessere erweist. Auûerdem solle man ± wie im o. g. Beispiel ± çberprçfen, ob beide Theorien, unter jeweils spezifischen Randbedingungen, Gçltigkeit beanspruchen kænnen. Widerspruchsfreiheit der verglichenen Theorien bedeutet keineswegs, dass die Theorien wahr sind. Es lassen sich Theorien konstruieren, die zwar in keinem logischen Widerspruch zueinander stehen, die aber dennoch falsch sind. Der Wahrheitsgehalt einer Theorie kann nur durch empirische Ûberprçfungen ermittelt werden. Dies setzt allerdings voraus, dass die Theorie unbeschadet ihrer logisch fehlerfreien Konstruktion çberhaupt empirisch çberprçfbar ist. Empirische Ûberprçfbarkeit. Die Forderung nach empirischer Ûberprçfbarkeit einer Theorie ist eng an die Forderung nach ihrer Falsifizierbarkeit geknçpft. Es sind aber Aussagen denkbar, die zwar im Prinzip falsifizierbar, aber (noch) nicht empirisch çberprçfbar sind. Zur Verdeutlichung nehmen wir folgende Aussage: ¹Alle Menschen
6
Vorbemerkungen ´ Empirische Forschung und Statistik
sind von Natur aus aggressiv. Wenn sich die Aggressivitåt im Verhalten nicht zeigt, dann ist sie verdrångt.ª Unabhångig von der mangelnden Pråzision der verwendeten Begriffe kann diese Aussage nur dadurch falsifiziert werden, dass ein Mensch gefunden wird, der weder aggressives Verhalten zeigt noch seine Aggressionen verdrångt hat. Die Falsifizierbarkeit hångt somit ausschlieûlich von der Mæglichkeit ab, nachweisen zu kænnen, dass jemand weder manifeste noch verdrångte Aggressionen hat. Eine solche Theorie kann unbeschadet ihrer potenziellen Falsifizierbarkeit und unbeschadet ihres mæglichen Wahrheitsgehaltes nur dann empirisch çberprçft werden, wenn ein wissenschaftlich anerkanntes Instrument zum Erkennen verdrångter und manifester Aggressionen existiert. So gesehen ist es durchaus denkbar, dass wissenschaftliche Theorien zwar falsifizierbar, aber beim derzeitigen Stand der Forschung noch nicht empirisch çberprçfbar sind. Die Ûberprçfung der Theorie muss in diesem Falle die Entwicklung geeigneter Messinstrumente abwarten. Erweist sich die Theorie hinsichtlich der genannten Kriterien (Pråzision, Informationsgehalt, logische Konsistenz, logische Vereinbarkeit, empirische Ûberprçfbarkeit) als unbrauchbar, sollte auf dem fortgeschrittenen Informationsstand eine neue Erkundungsphase eræffnet werden. Ein positiver Ausgang der theoretischen Ûberprçfung ermæglicht die endgçltige Festlegung des Untersuchungsgegenstandes. Ein Beispiel soll diese Zusammenhånge erlåutern. Einer Untersuchung sei der folgende theoretische Satz vorangestellt: ¹Autoritårer Unterricht hat negative Auswirkungen auf das Sozialverhalten der Schçler.ª Wenn diese Behauptung richtig ist, dann mçssten sich Schçler aus 8. Schulklassen, in denen Lehrer autoritår unterrichten, weniger kooperationsbereit zeigen als Schçler 8. Schulklassen mit nicht autoritår unterrichtenden Lehrern (zum Hypothesenbegriff vgl. z. B. Groeben u. Westmeyer, 1975 oder Hussy u. Mæller, 1996). Diese Hypothese ist durch drei Deduktionsschlçsse mit der Theorie verbunden: Erstens wurde aus allen mæglichen autoritåren Unterrichtsformen der Unterrichtsstil von Lehrern 8. Klassen herausgegriffen, zweitens wurde auf einen bestimmten Personenkreis, nåmlich Schçler der 8. Klasse, geschlossen und drittens wurde als eine
Besonderheit des Sozialverhaltens die Kooperationsbereitschaft ausgewåhlt. Neben dieser einen Hypothese lassen sich natçrlich weitere Hypothesen aus der Theorie ableiten, womit sich das Problem stellt, wie viele aus einer Theorie abgeleitete Hypothesen çberprçft werden mçssen, damit die Theorie als beståtigt gelten kann. Auf diese Frage gibt es keine verbindliche Antwort. Der Allgemeinheitsanspruch einer Theorie låsst es nicht zu, dass eine Theorie auf Grund empirischer Ûberprçfungen endgçltig und eindeutig als ¹wahrª bezeichnet werden kann (vgl. S. 12). Aus heuristischen Grçnden wurden im Flussdiagramm (vgl. Abb. 1) ein theoretisches Bewåhrungskriterium k und ein theoretisches Belastbarkeitskriterium l aufgenommen. Diese Kriterien sollen angeben, nach wie vielen Hypothesen beståtigenden Untersuchungen der Konsens çber die Brauchbarkeit (Bewåhrungskriterium) bzw. çber die Unbrauchbarkeit (Belastbarkeitskriterium) der Theorie hergestellt sein sollte. Auf diese Kriterien wird in der Entscheidungsphase (s. unten) ausfçhrlicher eingegangen.
Planungsphase Nachdem das Thema festliegt, mçssen vor Beginn der Datenerhebung Aufbau und Ablauf der Untersuchung vorstrukturiert werden. Durch eine sorgfåltige Planung soll verhindert werden, dass wåhrend der Untersuchung Pannen auftreten, die in der bereits laufenden Untersuchung nicht mehr korrigiert werden kænnen.
Auswahl der Variablen. Die Planung beginnt mit einer Aufstellung von Variablen, die fçr die Untersuchung relevant sind. Wir verstehen unter einer Variablen ein Merkmal, das ± im Unterschied zu einer Konstanten ± in mindestens zwei Abstufungen vorkommen kann. Eine zweistufige Variable wåre beispielsweise das Geschlecht (månnlich, weiblich), eine dreistufige Variable die Schichtzugehærigkeit (Unter-, Mittel-, Oberschicht) und eine Variable mit beliebig vielen Abstufungen das Alter. (Das Problem der Variablenklassifikation wird in Kap. 1, S. 18 ff. ausfçhrlich behandelt.) Als nåchstes erfolgt eine Klassifikation der Variablen. Wir unterscheiden · unabhångige Variablen,
aPlanungsphase · abhångige Variablen und · Kontrollvariablen. (Ausfçhrlicher hierzu vgl. Bortz u. Dærung, 2002, Kap. 1.1.1.) Unter den unabhångigen Variablen werden diejenigen Merkmale verstanden, deren Auswirkungen auf andere Merkmale ± die abhångigen Variablen ± çberprçft werden sollen. Im Allgemeinen ist bereits auf Grund der Fragestellung festgelegt, welche der relevanten Variablen als abhångige und welche als unabhångige Variablen in die Untersuchung eingehen sollen. Darçber hinaus wird die Liste der relevanten Variablen jedoch håufig weitere Variablen enthalten, die weder zu den abhångigen noch zu den unabhångigen Variablen zu zåhlen sind. Es muss dann entschieden werden, ob diese Variablen als Kontrollvariablen mit erhoben werden sollen, ob nur eine Ausprågung der Variablen (z. B. nur weibliche Personen) erfasst (was als Konstanthalten einer Variablen bezeichnet wird) oder ob die Variable çberhaupt nicht berçcksichtigt werden soll. Fçr das o. g. Beispiel wåre folgende Variablengruppierung denkbar:
Unabhångige Variable: Art des Unterrichtsstils (¹autoritårª vs. ¹demokratischª). Bei der Festlegung der unabhångigen Variablen ist darauf zu achten, dass nicht nur die eigentlich interessierende Merkmalsausprågung ± hier also autoritårer Unterrichtsstil ± untersucht wird. Um den Begriff ¹Variableª rechtfertigen zu kænnen, sind (mindestens) zwei Ausprågungen (also mindestens zwei Unterrichtsformen) als Stufen der unabhångigen Variablen in die Untersuchung einzubeziehen, denn nur so kann das Besondere des autoritåren Unterrichtsstils im Vergleich zu anderen Unterrichtsformen herausgearbeitet werden. Fçr eine Hypothesen prçfende Untersuchung ist es zudem erforderlich, fçr jede Stufe der unabhångigen Variablen mehrere Untersuchungseinheiten vorzusehen, d.h., fçr unser Beispiel benætigen wir eine Auswahl autoritår unterrichteter und eine Auswahl demokratisch unterrichteter Schulklassen. Abhångige Variable: Kooperationsbereitschaft. Die Frage, wie die abhångige Variable genau erfasst bzw. ¹operationalisiertª wird, behandeln wir spåter (s. S. 9).
7
Kontrollvariablen: Erziehungsstil der Eltern, Anzahl der Geschwister, soziale Schicht der Kinder, Geschlecht der Kinder. Diese Variablen werden miterhoben, um spåter prçfen zu kænnen, ob sie den Zusammenhang zwischen Unterrichtsstil und Kooperationsbereitschaft beeinflussen bzw. ¹moderierenª. Die Kontrollvariablen werden deshalb gelegentlich auch Moderatorvariablen genannt. Konstant gehaltene Variablen: Alter der Kinder (14 Jahre oder 8. Schulklasse), Græûe der Schulklasse (16±20 Kinder), Geschlecht des Lehrers (månnlich), Unterrichtszeit (8 bis 9 Uhr bzw. 1. Unterrichtsstunde), Art des Unterrichtsstoffes (Mathematik). Es ist zu beachten, dass ein Untersuchungsergebnis um so weniger generalisierbar ist, je mehr Variablen konstant gehalten wurden. Es gilt in unserem Beispiel nur fçr 8. Schulklassen mit 16±20 Jungen, die in der 1. Stunde Mathematikunterricht haben. Wir werden dieses Thema unter dem Stichwort ¹Labor- oder Felduntersuchungª erneut aufgreifen. Nicht berçcksichtigte Variablen: Alter des Lehrers, Intelligenz der Kinder, Motivation der Kinder, Lårmbelåstigung etc. Auch dies sind Variablen, die die Kooperationsbereitschaft der Kinder zumindest potenziell beeinflussen kænnen. In diesem Falle wçrden sie den eigentlich interessierenden Zusammenhang zwischen Unterrichtsstil und Kooperationsverhalten ¹stærenª bzw. dessen Interpretation erschweren. Die potenziell bedeutsamen, aber in der Untersuchung nicht berçcksichtigten Variablen werden deshalb håufig Stærvariablen genannt. Labor- oder Felduntersuchung. Diese Untersuchungsvarianten markieren die Extreme eines Kontinuums, das durch eine unterschiedlich starke Kontrolle untersuchungsbedingter Stærvariablen gekennzeichnet ist. Wenn in einer Untersuchung åuûere Einflçsse, die den Untersuchungsablauf stæren kænnten, weitgehend kontrolliert oder ausgeschaltet sind, sprechen wir von einer Laboruntersuchung. Findet umgekehrt die Untersuchung in einem natçrlichen (¹biotischenª) Umfeld statt, das durch åuûere Eingriffe des Untersuchenden nicht veråndert wird, handelt es sich um eine Felduntersuchung. In der Untersuchungsplanung muss nun entschieden werden, ob die Untersuchung eher La-
8
Vorbemerkungen ´ Empirische Forschung und Statistik
bor- oder eher Feldcharakter haben soll. Beide Varianten sind mit Vor- und Nachteilen verbunden. Die Kontrolle von untersuchungsbedingten Stærvariablen in der Laboruntersuchung gewåhrleistet, dass die Untersuchungsergebnisse weitgehend frei von stærenden Einflçssen und damit eindeutiger interpretierbar sind. In diesem Sinne haben Laboruntersuchungen eine hohe interne Validitåt bzw. Gçltigkeit. Eine Untersuchung ist intern valide, wenn ihr Ergebnis eindeutig interpretierbar ist. Die interne Validitåt sinkt mit wachsender Anzahl plausibler Alternativerklårungen fçr das Ergebnis auf Grund nicht kontrollierter Stærvariablen.
Der Nachteil einer Laboruntersuchung liegt in ihrer eingeschrånkten Generalisierbarkeit, denn Untersuchungsergebnisse, die fçr ein ¹sterilª gehaltenes Untersuchungsumfeld gçltig sind, kænnen nur bedingt auf natçrliche Lebenssituationen çbertragen werden. Laboruntersuchungen verfçgen in der Regel çber eine geringere externe Validitåt. Eine Untersuchung ist extern valide, wenn ihr Ergebnis çber die besonderen Bedingungen der Untersuchungssituation und çber die untersuchten Personen hinausgehend generalisierbar ist. Die externe Validitåt sinkt mit wachsender Unnatçrlichkeit der Untersuchungsbedingungen bzw. mit abnehmender Repråsentativitåt der untersuchten Stichproben.
Angesichts dieser Gçltigkeitskriterien ist es håufig schwierig, fçr die zu prçfende Fragestellung eine geeignete Untersuchungskonzeption zu entwickeln. Oft wird man sich ± wie in unserem Beispiel ± mit einem Planungskompromiss begnçgen mçssen, der Feld- und Laborelemente in einer der Fragestellung angemessenen Weise kombiniert. Man beachte allerdings, dass ein Mindestmaû an interner Validitåt fçr jede wissenschaftliche Untersuchung erforderlich ist.
Experimentelle oder quasiexperimentelle Untersuchung. Wåhrend das Kontinuum Labor vs. Feld das Ausmaû der Kontrolle untersuchungsbedingter Stærvariablen beschreibt, kennzeichnet die Unterscheidung von experimenteller und quasiexperimenteller Untersuchung das Ausmaû der Kontrolle von Personen bedingten Stærvariablen. In unserem Beispiel wåren dies Variablen wie Intelli-
genz oder Motivation der Schçler, die Anzahl der Geschwister, der Erziehungsstil der Eltern etc. In einer experimentellen Untersuchung ist dafçr Sorge zu tragen, dass die Personen bezogenen Stærvariablen unter allen Untersuchungsbedingungen (d.h. unter allen Stufen der unabhångigen Variablen) annåhernd gleich ausgeprågt sind. Dies ist dadurch zu erreichen, dass die Personen den Untersuchungsbedingungen nach Zufall zugeordnet werden. Diese Vorgehensweise wird Randomisierung genannt. Unter Randomisierung versteht man die zufållige Zuordnung der Untersuchungsteilnehmer zu den Untersuchungsbedingungen.
Da es durch die Randomisierung der Personen zu einem ¹statistischen Fehlerausgleichª kommt, hat dieser Untersuchungstyp natçrlich eine hæhere interne Validitåt als Untersuchungen ohne Randomisierung. Die Personen-bezogene externe Validitåt wåre durch eine repråsentativ auszuwåhlende Stichprobe sicherzustellen (vgl. hierzu 3.1). Bei einer quasiexperimentellen Untersuchung muss auf eine Randomisierung verzichtet werden, da hier ¹natçrlicheª bzw. bereits existierende Gruppierungen untersucht werden. Beispiele hierfçr sind Vergleiche von weiblichen und månnlichen Personen, von Abiturienten und Realschçlern, von Autofahrern und Nichtautofahrern etc. In diesen Fållen ist die Zugehærigkeit der Untersuchungsteilnehmer zu den Stufen der unabhångigen Variablen vorgegeben, d.h. eine Randomisierung ist ausgeschlossen. Unser Schçlerbeispiel lieûe sich vermutlich auch nur quasiexperimentell realisieren, es sei denn, die ausgewåhlten Schulklassen erhalten durch Zufall einen autoritåren oder demokratischen Lehrer. Da dies der çblichen Schulpraxis widerspricht, wird man bereits bei der Auswahl der Schulklassen darauf achten, welche Klassen eher von einem als autoritår bzw. demokratisch zu bezeichnenden Lehrer unterrichtet werden. Gegençber einem experimentellen Ansatz birgt diese Vorgehensweise jedoch die Gefahr, dass die vom Untersuchungsleiter nicht hergestellte Schulklassengruppierung von Stærvariablen çberlagert ist, die die spåtere Interpretation der Ergebnisse erschweren. Beispielsweise kænnten die sog. autoritåren Lehrer ålter sein als die sog. demokratischen
aPlanungsphase Kollegen und deshalb ein anderes didaktisches Unterrichtskonzept vertreten; hier wåre also das Alter die eigentlich relevante Variable. Diese Hinweise mægen gençgen, um zu verdeutlichen, dass quasiexperimentelle Untersuchungen intern weniger valide sind als experimentelle Untersuchungen. Experimentelle Untersuchungen haben eine hæhere interne Validitåt als quasiexperimentelle Untersuchungen.
Die interne Validitåt einer quasiexperimentellen Untersuchung låsst sich jedoch erhæhen, wenn es gelingt, die zu vergleichenden Gruppen nach relevanten Stærvariablen zu parallelisieren. Um im Beispiel zu bleiben, kænnten die Schulklassengruppen paarweise so zusammengestellt werden, dass der autoritåre und der demokratische Lehrer in jedem Schulklassenpaar ungefåhr gleichaltrig sind. Auf diese Weise aufgestellte Stichproben bezeichnet man als ¹matched samplesª.
Operationalisierung. Von entscheidender Bedeutung fçr den Ausgang der Untersuchung ist die Frage, wie die unabhångigen Variablen, die abhångigen Variablen und die Kontrollvariablen operationalisiert werden. Durch die Operationalisierung wird festgelegt, welche Operationen (Handlungen, Reaktionen, Zustånde usw.) wir als indikativ fçr die zu messende Variable ansehen wollen und wie diese Operationen quantitativ erfasst werden. Anders formuliert: Nachdem festgelegt wurde, welche Variablen erfasst werden sollen, muss durch die Operationalisierung bestimmt werden, wie die Variablen erfasst werden sollen. Bezogen auf unser Beispiel stellt sich z. B. die Frage, wie wir die Kooperationsbereitschaft der untersuchten Schçler messen bzw. den Unterrichtsstil der Lehrer erfassen kænnen. Die Operationalisierung wird um so schwieriger, je komplexer die einbezogenen Variablen sind. Wåhrend einfache Variablen wie z. B. ¹Anzahl der Geschwisterª problemlos zu ermitteln sind, kann es oftmals notwendig sein, komplexe Variablen wie z. B. ¹kooperatives Verhaltenª durch mehrere operationale Indikatoren zu bestimmen. Fundierte Kenntnisse çber bereits vorhandene Messinstrumente (Tests, Fragebægen, Versuchsanordnungen usw.) kænnen die Operationalisierung erheblich er-
9
leichtern, wenngleich es håufig unumgånglich ist, unter Zuhilfenahme der einschlågigen Literatur çber Test- und Fragebogenkonstruktion eigene Messinstrumente zu entwickeln. Hinweise hierzu und weiterfçhrende Literatur findet man bei Bortz u. Dæring (2002, Kap. 4). Hinsichtlich der unabhångigen Variablen muss zweifelsfrei entschieden werden kænnen, welchen Unterrichtsstil ein Lehrer praktiziert. Dies kann z. B. durch Verhaltensbeobachtung, Interviews oder Fragebægen (vgl. z. B. Mummendey, 1995) geschehen. Auch diese Datenerhebungstechniken werden bei Bortz u. Dæring (2002, Kap. 4) ausfçhrlich beschrieben. Ist entschieden, wie die einzelnen Variablen zu operationalisieren sind, kænnen die entsprechenden Untersuchungsmaterialien bereitgestellt werden. Wenn neue Messinstrumente entwickelt werden mçssen, sollten diese unbedingt zuvor an einer eigenen Stichprobe hinsichtlich des Verståndnisses der Instruktion, der Durchfçhrbarkeit, der Eindeutigkeit in der Auswertung, des Zeitaufwandes usw. getestet werden.
Stichprobengræûe. Eine dem Statistiker håufig gestellte Frage lautet: Wie viele Untersuchungsteilnehmer oder ¹Versuchspersonenª (abgekçrzt: ¹Vpnª) werden fçr die Untersuchung benætigt? Allgemein bezieht sich diese Frage auf die Anzahl der Untersuchungseinheiten bzw. ± in unserem Beispiel ± auf die Anzahl der Schulklassen, die erforderlich ist, um eine Hypothese verlåsslich çberprçfen zu kænnen. Die einfachste Antwort auf diese Frage wåre: So viele wie mæglich. Pråziser kann die Antwort des Statistikers nicht sein, es sei denn, er erhålt genauere Informationen çber den Kontext der Untersuchung. Dazu zåhlen: · eine Mindestangabe çber die Græûe des Effektes, den der Untersuchende fçr praktisch bedeutsam halten wçrde (im Beispiel: Wåre es von praktischer Bedeutung, wenn demokratisch unterrichtete Schçler nur um 3% kooperativer sind als autoritår unterrichtete Schçler?); · eine Einschåtzung der Folgen, die sich ergeben, wenn aus der Untersuchung falsche Schlçsse gezogen werden (im Beispiel: Welche Konsequenzen håtte es, wenn auf Grund der Untersuchung fålschlicherweise behauptet wird, autoritår unterrichtete Schçler seien weniger ko-
10
Vorbemerkungen ´ Empirische Forschung und Statistik
operativ als demokratisch unterrichtete Schçler?). Wie mit diesen Informationen umgegangen wird, um eine begrçndete Entscheidung çber den zu wåhlenden Stichprobenumfang treffen zu kænnen, behandeln wir im Kap. 4.
Planung der statistischen Auswertung. Die Planungsphase endet mit Ûberlegungen zur statistischen Auswertung des Untersuchungsmaterials. Es mçssen diejenigen statistischen Auswertungstechniken festgelegt werden, mit denen çber die Brauchbarkeit der Hypothesen entschieden werden soll. Manchmal wird auf eine Planung der statistischen Auswertung verzichtet, in der Hoffnung, dass sich nach der Datenerhebung schon die geeigneten Auswertungsverfahren finden werden. Diese Nachlåssigkeit kann dazu fçhren, dass sich die erhobenen Daten nur undifferenziert auswerten lassen, wobei eine geringfçgige Ønderung in der Datenerhebung (z. B. verbessertes Skalenniveau, vgl. Kap. 1.1) den Einsatz differenzierterer Auswertungstechniken ermæglicht håtte. Untersuchungsphase Wurde die Untersuchung in der Planungsphase grçndlich vorstrukturiert, dçrfte die eigentliche Durchfçhrung der Untersuchung keine prinzipiellen Schwierigkeiten bereiten. Wir wollen deshalb auf eine Erærterung dieser Phase verzichten unter Verweis auf die eingangs (S. 2) erwåhnte Literatur zur Planung und Durchfçhrung empirischer Untersuchungen. Ein besonderes Problem psychologischer Untersuchungen sind sog. Versuchsleiter-(Vl-)Artefakte, also mægliche Beeintråchtigungen des Untersuchungsergebnisses durch das Verhalten des Versuchsleiters. Hierzu findet man ausfçhrliche Informationen bei Rosenthal (1966) bzw. Rosenthal u. Rosnow (1969) oder zusammenfassend bei Bortz u. Dæring (2002, Kap. 2.5).
Auswertungsphase In der Auswertungsphase werden die erhobenen Daten statistisch verarbeitet. Zuvor sollte man sich jedoch ± zumindest bei denjenigen Fragebægen, Tests oder sonstigen Messinstrumenten, die
noch nicht in anderen Untersuchungen erprobt wurden ± einen Eindruck von der testtheoretischen Brauchbarkeit der Daten verschaffen. Im einfachsten Fall wird man sich damit begnçgen zu çberprçfen, ob das Untersuchungsmaterial eindeutig quantifizierbar ist bzw. ob verschiedene Auswerter den Vpn auf Grund der Untersuchungsergebnisse die gleichen Zahlenwerte zuordnen. Dieses als Objektivitåt des Untersuchungsinstrumentes bezeichnete Kriterium ist bei den meisten im Handel erhåltlichen Verfahren gewåhrleistet. Problematisch hinsichtlich ihrer Objektivitåt sind Untersuchungsmethoden, die zur Erfassung komplexer Variablen nicht hinreichend standardisiert sind. So wåre es in unserem Beispiel mæglich, dass verschiedene Auswerter ± bedingt durch ungenaue Operationalisierungen ± zu unterschiedlichen Einstufungen der Kooperationsbereitschaft der Schçler gelangen oder dass Lehrer nicht çbereinstimmend als demokratisch oder autoritår bezeichnet werden. Ein Untersuchungsmaterial, das eine nur geringe Objektivitåt aufweist, ist fçr die Ûberprçfung der Hypothesen wenig oder gar nicht geeignet. Sobald sich solche Mångel herausstellen, sollte die Untersuchung abgebrochen werden, um in einem neuen Versuch zu Operationalisierungen zu gelangen, die eine objektivere Datengewinnung gestatten. In græûer angelegten Untersuchungen ist zusåtzlich zur Objektivitåt auch die Reliabilitåt der Untersuchungsdaten zu çberprçfen. Ûber dieses Kriterium, das die Genauigkeit bzw. Zuverlåssigkeit der erhobenen Daten kennzeichnet, sowie çber weitere Gçtekriterien wird in der testtheoretischen Literatur berichtet. Auch eine zu geringe Reliabilitåt des Untersuchungsmaterials sollte eine bessere Operationalisierung der Variablen veranlassen. Gençgen die Daten den testtheoretischen Anforderungen, werden sie in çbersichtlicher Form tabellarisch zusammengestellt bzw., falls die Auswertung mit einem statistischen Programmpaket geplant ist, in geeigneter Weise aufbereitet (vgl. Anhang E, S. 733 als Beispiel fçr die Aufbereitung einer SPSS-Datei). Die sich anschlieûende statistische Analyse ist davon abhångig, ob eine Hypothesen erkundende oder Hypothesen prçfende Untersuchung durchgefçhrt wurde. Fçr Hypothesen erkundende Untersuchungen nimmt man çblicherweise Datenaggregierungen vor, die in Kap. 1 zusammengestellt sind. Hypothesen prçfende Unter-
aEntscheidungsphase suchungen werden mit den vielfåltigen, in diesem Buch dargestellten Methoden der schlieûenden Statistik oder Inferenzstatistik ausgewertet. Mit der Anwendung eines inferenzstatistischen Verfahrens bzw. eines ¹Signifikanztestsª wird eine Entscheidung çber die zu prçfende Hypothese herbeigefçhrt. Hierzu errechnet man eine sog. Irrtumswahrscheinlichkeit P, die angibt, mit welcher Wahrscheinlichkeit man sich irren wçrde, wenn man die fragliche Hypothese akzeptiert. Um die Hypothese annehmen zu kænnen, sollte diese Irrtumswahrscheinlichkeit natçrlich mæglichst klein sein. Die Græûe der maximal tolerierbaren Irrtumswahrscheinlichkeit liegt allerdings nicht im Ermessen des Untersuchenden, sondern ist durch eine allgemein gçltige Konvention festgelegt. Man bezeichnet diese Grenze, die von der Irrtumswahrscheinlichkeit P nicht çberschritten werden darf, als ¹Signifikanzniveauª und verwendet hierfçr das Symbol . Die çblichen Werte fçr das Signifikanzniveau sind 5% oder sogar 1%. Der Untersuchende muss vor Durchfçhrung des Signifikanztests festlegen, welches -Niveau fçr die Untersuchung angemessen ist.
Entscheidungsphase Ein Vergleich der ermittelten Irrtumswahrscheinlichkeit P mit dem zuvor fest gelegten Signifikanzniveau zeigt, ob das Ergebnis der Untersuchung signifikant (P £ ) oder nicht signifikant (P > ) ist. Zunåchst wollen wir uns einem nicht signifikanten Ergebnis zuwenden. Bei einem nicht signifikanten Ergebnis gilt die geprçfte Hypothese ± wir werden sie unter 4.1 als Alternativhypothese bzw. als H1 bezeichnen ± als nicht beståtigt. Diese Aussage basiert auf einer sehr vorsichtigen Entscheidungsregel, nach der eine Hypothese bereits dann als nicht beståtigt gelten soll, wenn man im Falle ihrer Annahme mit einer Wahrscheinlichkeit von nur 5% oder mehr (bzw. gar 1% oder mehr) eine Fehlentscheidung riskiert. Diese Konvention gewåhrleistet, dass die Hypothese erst dann als beståtigt angesehen wird, wenn das empirische Ergebnis in sehr çberzeugender Weise fçr die Richtigkeit dieser Hypothese spricht. ¹Nicht signifikantª bedeutet also nicht, dass die Hypothese (H1) falsch ist; ¹nicht signifi-
11
kantª heiût lediglich, dass die Untersuchung nicht geeignet war, die Gçltigkeit der Hypothese zu belegen. Vor einer endgçltigen Ablehnung der eigenen Hypothese ist zunåchst zu çberprçfen, ob in der Untersuchung Fehler begangen wurden, auf die das nicht signifikante Ergebnis zurçckgefçhrt werden kann. Wird im Nachhinein erkannt, dass beispielsweise bestimmte relevante Variablen nicht hinreichend berçcksichtigt wurden, dass Instruktionen falsch verstanden wurden, dass sich die Vpn nicht instruktionsgemåû verhalten haben oder dass die untersuchten Stichproben zu klein waren, kann die gleiche Hypothese in einer Wiederholungsuntersuchung, in der die erkannten Fehler korrigiert sind, erneut çberprçft werden. Problematischer ist ein nicht signifikantes Ergebnis, wenn Untersuchungsfehler praktisch auszuschlieûen sind. Ist der deduktive Schluss von der Theorie auf die çberprçfte Hypothese korrekt, muss an der allgemeinen Gçltigkeit der Theorie gezweifelt werden. Wenn in unserem Beispiel die allgemeine Theorie richtig ist, dass sich ein autoritårer Unterrichtsstil negativ auf das Sozialverhalten von Schçlern auswirkt, und wenn Kooperationsbereitschaft eine Form des Sozialverhaltens ist, dann muss die Kooperationsbereitschaft auch bei den untersuchten Kindern durch den autoritåren Unterrichtsstil negativ beeinflusst werden. Andernfalls ist davon auszugehen, dass die der Untersuchung zugrunde liegende Theorie fehlerhaft ist. Konsequenterweise ist in Abb. 1 auf Grund eines nicht signifikanten Ergebnisses, das nicht auf Untersuchungsfehler zurçckzufçhren ist, ein Pfeil eingezeichnet, der besagt, dass die Theorie veråndert werden muss. Die verånderte Theorie sollte jedoch nicht nur an die alte Theorie anknçpfen, sondern auch die Erfahrungen berçcksichtigen, die durch die Untersuchung gewonnen wurden. So kænnte beispielsweise die hier skizzierte Untersuchung, von der wir einmal annehmen wollen, dass sich der Zusammenhang zwischen autoritårem Unterrichtsstil und unkooperativem Verhalten als nicht signifikant herausgestellt habe, zur Vermutung Anlass geben, dass das Kooperationsverhalten nur bei Schçlern aus der Oberschicht durch den Unterrichtsstil beeinflusst wird, wåhrend die beiden Merkmale bei anderen Schçlern keinen Zusammenhang aufweisen. Anlåsslich eines solchen Befundes wçrden wir durch Indukti-
12
Vorbemerkungen ´ Empirische Forschung und Statistik
onsschluss den Geltungsbereich der ursprçnglichen Theorie auf Oberschichtschçler begrenzen. Formal stellt sich diese Verånderung der Theorie so dar, dass der Wenn-Teil der theoretischen Aussage konjunktiv um eine Komponente erweitert wird: ¹Wenn autoritår unterrichtet wird und die Schçler der Oberschicht entstammen, dann wird das Sozialverhalten negativ beeinflusst.ª Derartige Modifikationen einer Theorie auf Grund einer falsifizierten Hypothese bezeichnen wir in Anlehnung an Holzkamp (1968, 1971) bzw. Dingler (1923) als Exhaustion. Es ist nun denkbar, dass auch die Ûberprçfung weiterer, aus der exhaurierten Theorie abgeleiteten Hypothesen zu nicht signifikanten Ergebnissen fçhren, sodass sich die Frage aufdrångt, durch wie viele Exhaustionen eine Theorie ¹belastetª (Holzkamp, 1968) werden kann bzw. wie viele exhaurierende Verånderungen eine Theorie ¹ertrågtª. Theoretisch findet ein sich zyklisch wiederholender Exhaustionsprozess dann ein Ende, wenn durch ståndig zunehmende Einschrånkung der im Wenn-Teil genannten Bedingungen eine ¹Theorieª resultiert, deren Informationsgehalt praktisch gegen Null geht. So kænnten weitere Exhaustionen an unserem Modellbeispiel zu einer Theorie fçhren, nach der sich eine ganz spezifische Form des autoritåren Unterrichts nur bei bestimmten Schçlern zu einer bestimmten Zeit unter einer Reihe von besonderen Bedingungen auf einen Teilaspekt des Sozialverhaltens negativ auswirkt. Eine solche Theorie çber die Bedingungen von Sozialverhalten ist natçrlich wenig brauchbar. (Koeck, 1977, diskutiert die Grenzen des Exhaustionsprinzips am Beispiel der Frustrations-Aggressions-Theorie.) Die Wissenschaft wåre allerdings nicht gut beraten, wenn sie jede schlechte Theorie bis zu ihrem, durch viele Exhaustionen bedingten, natçrlichen Ende fçhren wçrde. Das Interesse an der Theorie wird auf Grund wiederholter Falsifikationen allmåhlich nachlassen, bis sie in Vergessenheit geråt. Das Belastbarkeitskriterium der Theorie ist çberschritten. Als nåchstes wollen wir çberprçfen, welche Konsequenzen sich mit einem signifikanten Ergebnis verbinden. Bei einem signifikanten Ergebnis
riskieren wir mit der Annahme der untersuchten Hypothese (H1) eine Fehlentscheidung, deren Wahrscheinlichkeit nicht græûer als 5% (1%) ist. Man ist sich also ziemlich sicher, mit einer Entscheidung zugunsten der geprçften Hypothese keinen Fehler zu begehen, aber auch nur ¹ziemlichª sicher und nicht ¹vælligª sicher, denn es verbleibt eine Restwahrscheinlichkeit von 5% (1%) fçr eine Fehlentscheidung. Dennoch ist es Konvention, die geprçfte Hypothese in diesem Falle als beståtigt anzusehen. Hinsichtlich der Theorie besagt eine durch ein signifikantes Ergebnis beståtigte Hypothese, dass wir keinen Grund haben, an der Richtigkeit der Theorie zu zweifeln, sondern dass wir vielmehr der Theorie nach der Untersuchung eher trauen kænnen als vor der Untersuchung. Die absolute Richtigkeit der Theorie ist jedoch damit nicht erwiesen; dafçr mçssten letztlich unendlich viele aus der Theorie abgeleitete Einzelhypothesen durch Untersuchungen verifiziert werden ± eine Forderung, die in der empirischen Forschung nicht realisierbar ist. Somit kann durch empirische Forschung auch die absolute Richtigkeit einer Theorie nicht nachgewiesen werden. Dennoch regulieren neue, durch empirische Forschung gewonnene Erkenntnisse mehr oder weniger nachhaltig unseren Alltag. Genauso, wie eine schlechte Theorie allmåhlich in Vergessenheit geråt, kann sich eine gute Theorie durch wiederholte Beståtigung zunehmend mehr bewåhren, bis sie schlieûlich Eingang in die Praxis findet. Das Bewåhrungskriterium ist çberschritten. ¹So ist die empirische Basis der objektiven Wissenschaft nichts ,Absolutes`; die Wissenschaft baut nicht auf Felsengrund. Es ist eher ein Sumpfland, çber dem sich die kçhne Konstruktion ihrer Theorien erhebt; sie ist ein Pfeilerbau, dessen Pfeiler sich von oben her in den Sumpf senken ± aber nicht bis zu einem natçrlichen ,gegebenen` Grund. Denn nicht deshalb hært man auf, die Pfeiler tiefer hineinzutreiben, weil man auf eine feste Schicht gestoûen ist: Wenn man hofft, dass sie das Gebåude tragen werden, beschlieût man, sich vorlåufig mit der Festigkeit der Pfeiler zu begnçgenª (Popper, 1966; S. 75f.).
a
Teil I Elementarstatistik
" Einleitung
Im 1. Teil dieses Buches werden die wichtigsten Grundlagen der Statistik erarbeitet. Wir beginnen im Abschnitt 1.1 mit messtheoretischen Vorbemerkungen, die die in der Statistik çbliche Datenklassifikation ± Nominal-, Ordinal- und Kardinaldaten ± theoretisch fundieren. Wie diese Daten deskriptiv in Form von Tabellen, Graphiken oder statistischen Kennwerten aufgearbeitet werden kænnen, wird in den weiteren Abschnitten des 1. Kapitels erklårt. Kapitel 2 befasst sich mit Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen. Hier war eine Auswahl aus einer Stoffvielfalt zu treffen, die in der mathematischen Statistik ganze Bçcher fçllt. Diese Auswahl orientiert sich an den wahrscheinlichkeitstheoretischen Voraussetzungen der in den folgenden Kapiteln behandelten Inferenzstatistik.
Essentiell fçr die Inferenzstatistik ist der Begriff der Stichprobe, der in Kap. 3 eingefçhrt wird. Hiervon ausgehend werden sog. Stichprobenkennwerteverteilungen (¹Sampling distributionsª) behandelt, die zu einem zentralen Konzept der Inferenzstatistik, dem sog. Konfidenzintervall, hinfçhren. Wie man allgemein statistische Hypothesen formuliert und prçft, wird in Kap. 4 beschrieben. Die beiden letzten Kapitel aus Teil I behandeln eine Reihe konkreter Verfahren der Hypothesenprçfung (sog. Signifikanztests). Hierbei wird zwischen Unterschieds- (Kap. 5) und Zusammenhangshypothesen (Kap. 6) unterschieden ± eine Unterscheidung, die zwar sachlich nicht zwingend ist (vgl. Kap. 14), die sich jedoch gerade fçr Statistik-Einfçhrungen didaktisch bewåhrt hat.
15
Kapitel 1 Deskriptive Statistik
ÛBERSICHT Messtheorie ± Skalenarten ± Håufigkeitstabellen ± Polygon und Histogramm ± Kreisdiagramm ± Modalwert ± Medianwert ± arithmetisches Mittel ± geometrisches Mittel ± ¹harmonischesª Mittel ± gewichtetes Mittel ± Variationsbreite ± Perzentile ± AD-Streuung ± Varianz- und Standardabweichung ± z-Wert ± Schiefe und Exzess
Die Anwendung statistischer Verfahren setzt voraus, dass quantitative Informationen çber den jeweiligen Untersuchungsgegenstand bekannt sind. Die Aussage: ¹Herr X ist neurotischª mag zwar als qualitative Beschreibung der genannten Person informativ sein; pråziser wåre diese Information jedoch, wenn sich die Ausprågung des Neurotizismus durch eine bestimmte Zahl kennzeichnen lieûe, die beispielsweise Vergleiche hinsichtlich der Ausprågungsgrade des Neurotizismus bei verschiedenen Personen ermæglicht. Liegen quantitative Informationen çber mehrere Personen bzw. ein Vpn-Kollektiv vor (die Bezeichnung Stichprobe werden wir erst in Kap. 3 einfçhren), erleichtern summarische Darstellungen der Messwerte bzw. der Daten die Interpretation der im Vpn-Kollektiv angetroffenen Merkmalsverteilung. Die Altersangaben der Klienten einer therapeutischen Ambulanz beispielsweise kænnten folgendermaûen statistisch ¹verdichtetª werden: · Tabellen und Graphiken informieren çber die gesamte Verteilungsform. · Maûe der zentralen Tendenz (z. B. der Mittelwert) geben an, welches Alter alle Klienten am besten charakterisiert. · Dispersionsmaûe (z. B. die Streuung) kennzeichnen die Unterschiedlichkeit der behandelten Klienten in Bezug auf das Alter.
Statistische Methoden zur Beschreibung der Daten in Form von Graphiken, Tabellen oder einzelnen Kennwerten bezeichnen wir zusammenfassend als deskriptive Statistik.
Ein anderer Teilbereich der Statistik ist die Inferenzstatistik bzw. die schlieûende Statistik. Sie befasst sich mit dem vergleichsweise schwierigeren Problem der Ûberprçfung von Hypothesen (vgl. Kap. 4). Der Begriff ¹Statistikª umfasst somit in unserem Verståndnis alle quantitativen Analysetechniken, mit denen empirische Daten zusammenfassend beschrieben werden kænnen (deskriptive Statistik) bzw. mit denen auf Grund empirischer Daten Aussagen çber die Richtigkeit von Hypothesen formuliert werden kænnen (Inferenzstatistik). Die beschreibende und die schlieûende Statistik setzen quantitative Beobachtungen bzw. Messungen voraus. Was aber sind Messungen im Rahmen der Human- und Sozialwissenschaften bzw. welche Kriterien mçssen Messungen erfçllen, damit sie statistisch analysiert werden kænnen? Wir wollen zunåchst dieses grundsåtzliche Problem, das der statistischen Analyse der Messungen vorgeordnet ist, aufgreifen.
" 1.1 Messtheoretische Vorbemerkungen Allgemein gilt, dass nicht die jeweils interessierenden Objekte oder Untersuchungsgegenstånde als Ganzes, sondern nur deren Eigenschaften messbar sind, wobei jedes Objekt durch ein System von Eigenschaften gekennzeichnet ist (vgl. Torgerson, 1958, S. 9 ff.). Will beispielsweise ein Chemiker das Gewicht einer durch einen chemischen Prozess entstandenen Verbindung ermitteln, so legt er diese auf eine geeichte Waage, liest die auf der Messskala angezeigte Zahl ab und schlieût von
1
16
1
Kapitel 1 ´ Deskriptive Statistik
dieser Zahl auf das Merkmal Gewicht. Dieser Messvorgang informiert den Chemiker somit zwar çber eine Eigenschaft der untersuchten Verbindung, aber nicht çber das gesamte Untersuchungsobjekt, das durch viele weitere Eigenschaften, wie z. B. Farbe, Siedepunkt, elektrische Leitfåhigkeit usw., charakterisiert ist. Im Mittelpunkt human- bzw. sozialwissenschaftlicher Forschung stehen Eigenschaften des Menschen, deren Messung wenig Probleme bereitet, wenn es sich dabei um Eigenschaften wie Græûe, Gewicht, Blutdruck oder Reaktionsgeschwindigkeit handelt. Sehr viel schwieriger gestaltet sich jedoch die quantitative Erfassung komplexer Merkmale, wie z. B. Antriebsverhalten, Intelligenz, soziale Einstellungen oder Belastbarkeit. Ein Messvorgang låsst sich allgemein dadurch charakterisieren, dass einem Objekt bzgl. der Ausprågung eines Merkmals oder einer Eigenschaft eine Zahl zugeordnet wird. Kann man nach dieser vorlåufigen Definition behaupten, dass jede Zuordnung einer Zahl zu einem Objekt eine Messung darstellt? Sicherlich nicht, denn nach dieser Definition wåren auch zufållige Zuordnungen zulåssig, die zu unsinnigen Messergebnissen fçhren wçrden. Erforderlich sind eindeutige Regeln, nach denen diese Zuordnung erfolgt. Diese Regeln zu erarbeiten, ist Aufgabe der Messtheorie, auf die wir in den fçr uns wichtigen Ausschnitten im Folgenden eingehen (ausfçhrlicher dazu vgl. Orth, 1974, 1983 oder Steyer u. Eid, 2001). Daran anschlieûend werden die am håufigsten eingesetzten Skalenarten sowie die entsprechenden Regeln, die zu diesen Messskalen fçhren, behandelt. Ein Beispiel wird diese etwas ¹trockeneª Materie illustrieren. Das abschlieûende Resum erærtert die besondere Problematik des Messens in den Human- und Sozialwissenschaften.
Terminologie Grundlegende Begriffe fçr die Messtheorie sind das empirische und das numerische Relativ. Unter einem Relativ oder Relationensystem versteht man eine Menge von Objekten und eine oder mehrere Relationen, mit denen die Art der Beziehung der Objekte untereinander charakterisiert wird. Formal låsst sich ein Relativ durch hA; R1 ; . . . ; Rn i beschreiben, wobei A die Menge
der Objekte und R1 ; . . . ; Rn verschiedenartige Relationen darstellen. Besteht diese Menge A aus empirischen Objekten, wie z. B. den Kindern einer Schulklasse, sprechen wir von einem empirischen Relativ. Die fçr ein empirisches Relativ zu prçfenden Relationen lassen sich nach verschiedenen Typen unterscheiden. Binåre oder zweistellige, d. h. auf jeweils 2 beliebige Objekte aus A bezogene Relationen kænnten hier z. B. sein, dass 2 Schçler nebeneinander sitzen, dass 2 Schçler gleichaltrig sind, dass 1 Schçler bessere Englischkenntnisse hat als ein anderer etc. Von einer dreistelligen Relation wçrde man z. B. sprechen, wenn 2 Schçler im Sport zusammengenommen genauso weit werfen kænnen wie ein dritter Schçler und von einer vierstelligen Relation, wenn ein Schçlerpaar beim Tischtennisdoppel einem anderen Paar çberlegen ist. Wie die Beispiele zeigen, kænnen die fçr ein empirisches Relativ charakteristischen Relationen sehr unterschiedlich sein. Die Art der Relationen wird durch Symbole gekennzeichnet. Wichtige Relationen sind z. B. (Øquivalenzrelation), mit der die Gleichheit von Objekten bzgl. eines Merkmals gekennzeichnet wird, oder < (schwache Ordnungsrelation), die besagt, dass ein Merkmal bei einem Objekt mindestens so stark ausgeprågt ist wie bei einem anderen. Ist A eine Schulklasse und die Øquivalenzrelation ¹gleiches Geschlechtª, wçrde das empirische Relativ hA; i die Schçler in månnliche und weibliche Schçler einteilen. Bezeichnet man mit < die Relation der Schçler bzgl. ihrer Mathematikkenntnisse, ist hA;
3). Sind das empirische und numerische Relativ vom gleichen Typ (weil fçr beide z. B. eine binåre Relation betrachtet wird), låsst sich das empirische Relativ unter bestimmten Bedingungen in das numerische Relativ abbilden. Angenommen, wir wollen jedem Objekt aus A eine Zahl aus R zuordnen: Kennzeichnen wir die Zuordnungs-
17
a1.1 Messtheoretische Vorbemerkungen funktion mit dem griechischen Buchstaben u (Phi), muss fçr jedes Objekt aus A (z. B. das Objekt a) eine Zahl u
a in R existieren. Diese Abbildung wird homomorph genannt, wenn die Relationen zwischen 2 beliebigen Objekten a und b in A den Relationen zwischen u
a und u
b in R entsprechen. Soll z. B. das empirische Relativ hA;
Die homomorphe Abbildungsfunktion zusammen mit einem empirischen und numerischen Relativ bezeichnet man auch als Skala und die Funktionswerte u
a; u
b . . . als Skalenwerte oder Messwerte. Aufgabe der Messtheorie ist es nun, relationale Regeln zu benennen, die im empirischen Relativ erfçllt sein mçssen, damit es durch ein numerisches Relativ Struktur erhaltend repråsentiert werden kann. Dies geschieht durch die Angabe eines sog. Repråsentationstheorems, mit dem die Existenz einer Skala behauptet wird, wenn bestimmte Axiome im empirischen Relativ gçltig sind. Die hier angesprochenen Axiome kennzeichnen als Såtze, die keines Beweises bedçrfen, einige grundlegende Eigenschaften des numerischen Relativs. Damit ein Homomorphismus bzw. eine homomorphe Abbildung mæglich ist, mçssen diese Axiome auch fçr die Objekte und Relationen im empirischen Relativ gelten. Wenn beispielsweise fçr 3 Zahlen u
a; u
b und u
c gilt: u
a > u
b und u
b > u
c, dann muss zwangslåufig auch
u
a > u
c richtig sein. Dieses Axiom wåre in einem empirischen Relativ mit 3 Tischtennisspielern a, b und c verletzt, wenn Spieler a Spieler b
a b und Spieler b Spieler c schlagen wçrde
b c, aber Spieler a Spieler c unterlegen ist
c a. Aufgabe der Empirie ist es zu çberprçfen, ob diese oder weitere Axiome des numerischen Relativs auch fçr die Objekte und Relationen eines empirischen Relativs gçltig sind. Mit dem Eindeutigkeitsproblem verbindet sich die Frage, ob die im Repråsentationstheorem zusammengefassten Eigenschaften einer Skala nur durch eine Abbildungsfunktion u oder ggf. durch weitere Abbildungsfunktionen u0 realisiert werden. Hier geht es also um die Frage, wie stark die Menge aller mæglichen Abbildungsfunktionen eingeschrånkt ist. Gilt z. B. im empirischen Relativ a b c, wåre u
a 3, u
b 2 und u
c 1 eine homomorphe Abbildung, aber z. B. auch u0
a 207, u0
b 11;11 und u0
c 0; 2 oder jede beliebige Zahlenfolge mit u0
a > u0
b > u0
c. Die Menge aller mæglichen Abbildungsfunktionen ist hier also relativ wenig eingeschrånkt, da jede Abbildung, die die Struktur a b c erhålt, zulåssig ist. Alle zulåssigen Abbildungen sind in diesem Fall durch eine sog. monotone Transformation ineinander çberfçhrbar. Hierbei muss fçr 2 beliebige Abbildungsfunktionen u und u0 gelten: u
a u
b , u0
a u0
b: Allgemein sagt man, eine Skala ist eindeutig bis auf die fçr sie zulåssigen Transformationen. Ein empirisches Relativ mit einer Liste von Axiomen, aus der sich die Art der Repråsentation im numerischen Relativ sowie die Eindeutigkeit der Skala ableiten lassen, bezeichnet man als eine Messstruktur. Der Eindeutigkeit einer Skala ist zu entnehmen, welche mathematischen Operationen mit den Skalenwerten durchgefçhrt werden kænnen bzw. genauer, welche mathematischen Aussagen gegençber den fçr eine Skala zulåssigen Transformationen invariant sind. Bestehen diese zulåssigen Transformationen wie im obigen Beispiel aus monotonen Transformationen, wåre z. B. die Bestimmung einer durchschnittlichen Merkmalsausprågung nicht sinnvoll. Die Objektrelationen a b c d kænnten z. B.
1
18
1
Kapitel 1 ´ Deskriptive Statistik
durch u
a 4, u
b 3, u
c 2 und u
d 1 abgebildet werden, sodass man sowohl fçr a und d als auch fçr b und c jeweils einen Mittelwert von 2,5 erhålt. Zulåssig wåren jedoch auch u0
a 3;5 bzw. u00
a 4;5, was zur Folge håtte, dass der Mittelwert fçr a und d einmal unter und einmal çber dem Mittelwert fçr b und c liegt. Die Relationen der numerischen Aggregate (hier der Mittelwerte) sind also gegençber monotonen Transformationen nicht invariant. Dieses in der messtheoretischen Terminologie als ¹Bedeutsamkeitª bezeichnete Problem spielt in der Statistik eine besondere Rolle, bei der es letztlich darum geht, die erhobenen Messungen auf vielfåltige Weise mathematisch ¹weiterzuverarbeitenª. Welche mathematischen Operationen mit den Messwerten zulåssig sind, ist von der Art der Skala bzw. deren Repråsentationsanspruch abhångig.
Skalenarten Im Folgenden werden die 4 wichtigsten Skalenarten vorgestellt. Dabei wird die fçr eine Skalenart jeweils gebråuchlichste Messstruktur sowie die Art ihrer Repråsentation im numerischen Relativ kurz beschrieben. Ferner nennen wir die wichtigsten skalenspezifischen Axiome, die im empirischen Relativ erfçllt sein mçssen. Die Behandlung der Skalen erfolgt hierarchisch, beginnend mit einfachen, relativ ungenauen Messungen bis hin zu exakten Messstrukturen, die vor allem im physikalisch-naturwissenschaftlichen Bereich Anwendung finden. Abschlieûend gehen wir anhand von Beispielen auf die Eindeutigkeit und Bedeutsamkeit der jeweiligen Skala ein.
Nominalskala. Eine Nominalskala setzt im empirischen Relativ eine Menge A voraus, fçr die die Øquivalenzrelation gelten soll: hA; i. Dies ist immer dann der Fall, wenn sich zeigen låsst, dass im empirischen Relativ die folgenden Axiome gelten: N1: a a (Reflexivitåt), N2: Wenn a b, dann b a (Symmetrie), N3: Wenn a b und b c, dann a c (Transitivitåt). Nach diesen Axiomen sind z. B. die Relationen, ¹a hat das gleiche Geschlecht wie bª, ¹a hat die glei-
che Haarfarbe wie bª oder ¹a hat die gleiche Biologienote wie bª, Øquivalenzrelationen. Keine Øquivalenzrelationen wåren hingegen die Relationen, ¹a sitzt neben bª, ¹a schreibt von b abª oder ¹a hat ein gleiches Wahlfach wie bª. Im ersten Beispiel wåre N1 verletzt (a kann nicht neben sich selbst sitzen), im zweiten Beispiel N2 (wenn a von b abschreibt, muss b nicht von a abschreiben) und im dritten Beispiel N3 (a kænnte Musik und Geschichte, b Geschichte und Sport und c Sport und Biologie als Wahlfåcher haben). Ein empirisches Relativ, fçr das die Øquivalenzrelation gilt, bezeichnet man als eine klassifikatorische Messstruktur. Wenn nun den Objekten des empirischen Relativs Zahlen zugeordnet werden kænnen, sodass gilt a b , u
a u
b;
1:1
bezeichnet man die Zuordnungsfunktion zwischen hA; i und hR; i als Nominalskala. Auf einer Nominalskala erhalten somit Objekte mit identischen Merkmalsausprågungen identische Zahlen und Objekte mit verschiedenen Merkmalsausprågungen verschiedene Zahlen. Um welche Zahlen es sich handelt, ist fçr eine Nominalskala unerheblich. Man kann z. B. 4 verschiedenen Herkunftslåndern von Auslåndern die Zahlen 1, 2, 3 und 4 aber auch die Zahlen 7, 2, 6 und 3 oder andere Zahlen zuordnen. Oder: Statt der Zahlen 1, 2, 3, 4, und 5 fçr die Benotung eines Aufsatzes kænnte man beliebige andere Zahlen verwenden, wenn die Zahlen lediglich gleich gute und verschieden gute Aufsåtze unterscheiden sollen. Wir sagen: Die quantitativen Aussagen einer Nominalskala sind gegençber jeder beliebigen eindeutigen Transformation invariant. Eine Nominalskala ordnet den Objekten eines empirischen Relativs Zahlen zu, die so geartet sind, dass Objekte mit gleicher Merkmalsausprågung gleiche Zahlen und Objekte mit verschiedener Merkmalsausprågung verschiedene Zahlen erhalten.
Statistische Operationen bei nominalskalierten Merkmalen beschrånken sich in der Regel darauf auszuzåhlen, wie viele Objekte aus A eine bestimmte Merkmalsausprågung aufweisen. Man erhålt damit fçr verschiedene Merkmalsausprågungen eine Håufigkeitsverteilung, die wir in 1.2 be-
19
a1.1 Messtheoretische Vorbemerkungen handeln. Auf die Analyse von Håufigkeitsverteilungen gehen wir in 5.3 bzw. 6.3 ein.
Ordinalskala. Zur Verdeutlichung einer Ordinalskala setzen wir ein empirisches Relativ voraus, fçr deren Objektmenge A eine schwache Ordnungsrelation vom Typus ¹<ª gilt: hA;
(1.2)
Wenn ein Merkmal bei einem Objekt a mindestens so stark ausgeprågt ist wie bei einem Objekt b, dann ist die dem Objekt a zugeordnete Zahl mindestens so groû wie die dem Objekt b zugeordnete Zahl. Eine Zuordnungsfunktion mit dieser Eigenschaft bezeichnet man als Ordinalskala. Bei einem ordinalskalierten Merkmal ist es also mæglich, die Objekte einer Menge A hinsichtlich ihrer Merkmalsausprågungen in eine Rangreihe zu bringen. Man bezeichnet deshalb eine Ordinalskala auch als Rangskala. Eine Rangskala ermæglicht also eine Aussage darçber, ob ein Merkmal bei einem Objekt stårker oder schwåcher ausgeprågt ist als bei einem anderen; sie erlaubt aber keine Aussage darçber, um wie viel stårker oder schwåcher das Merkmal ausgeprågt ist. Wir sagen: Die quantitativen Aussagen einer Ordinalskala sind gegençber jeder beliebigen monotonen Transformation invariant. Wie auf S. 17
formalisieren wir eine monotone Transformation durch u
a u
b , u0
a u0
b : Bezogen auf das oben genannte Aufsatzbeispiel wåre also von einer Ordinalskala zu fordern, dass dem schlechteren von jeweils 2 Aufsåtzen eine hæhere Zahl (!) zugeordnet wird. Dies kann mittels der çblichen ¹Notenskalaª geschehen oder auch mit jeder anderen Zahlenfolge, die die empirischen Relationen ¹mindestens genau so schlecht wieª korrekt abbildet. Eine Ordinalskala ordnet den Objekten eines empirischen Relativs Zahlen zu, die so geartet sind, dass von jeweils 2 Objekten das Objekt mit der græûeren Merkmalsausprågung die græûere Zahl erhålt.
Die statistische Analyse von Ordinalskalen låuft also auf die Auswertung von Ranginformationen hinaus. Einige der einschlågigen Verfahren werden wir in 5.2 bzw. 6.3 kennenlernen.
Intervallskala. Im Unterschied zu einer Menge A, die aus einzelnen Objekten besteht, betrachten wir fçr die Erlåuterung einer Intervallskala alle mæglichen Paare von Objekten, die aus den Objekten von A gebildet werden kænnen. Formal wird dieser Sachverhalt durch AA (kartesisches Produkt von A) zum Ausdruck gebracht. Elemente aus AA sind also z. B. ab, ac, bc etc., wobei jedes dieser Elemente im Folgenden als ¹Unterschied zwischen zwei Objektenª interpretiert wird. Bezogen auf die Schçler wåre ab also z. B. der Unterschied zwischen den von 2 Schçlern a und b geschriebenen Aufsåtzen. Fçr die Objektpaare einer Menge A soll weiterhin gelten, dass die Unterschiede von je 2 Objekten eine schwache Ordnungsstruktur aufweisen: hA A;
1
20
1
Kapitel 1 ´ Deskriptive Statistik
I4: Wenn ab
I4 ist ± wieder bezogen auf unterschiedlich warme Tage ± wie folgt zu verstehen: Wenn ab und cd græûer als aa sind, handelt es sich zunåchst bei ab und cd um positive Unterschiede, weil aa ¹kein Unterschiedª bedeutet. Wenn nun der Unterschied ab græûer ist als der Unterschied cd, sollte ein Tag d1 existieren, der so geartet ist, dass der Unterschied ad1 dem Unterschied cd entspricht. Offenbar muss es an diesem Tag d1 wårmer sein als am Tag b. Ferner soll ein Tag d2 existieren, der zu b den gleichen Wårmeunterschied aufweist wie c zu d. Dies kann nur ein Tag sein, an dem es kçhler war als am Tag a. Das Axiom I4 wåre also verletzt, wenn sich empirisch zeigen lieûe, dass derartige Tage d1 und d2 nicht existieren kænnen. Das archimedische Axiom (I5) betrifft im numerischen Relativ eine Eigenschaft der reellen Zahlen, die besagt, dass es fçr jede beliebig kleine positive Zahl x und jede beliebig groûe positive Zahl y eine ganze Zahl n gibt, sodass n x y ist. Die Abfolge 1 x, 2 x, 3 x, . . . ist also nach oben durch y begrenzt. Diese Abfolge nennt man eine Standardabfolge. Ûbertragen auf ein empirisches Relativ besagt das archimedische Axiom vereinfacht, dass eine Folge von Objekten denkbar (oder herstellbar) ist, bei der zwischen jeweils 2 aufeinanderfolgenden Objekten ein konstanter Unterschied (Øquidistanz) besteht
ab bc cd, etc). Dies ist eine Voraussetzung fçr das Abzåhlen von Maûeinheiten bei einem konkreten Messvorgang bzw. fçr die Vergleichbarkeit aller Objekte auf einer nach oben begrenzten Skala. Sind die Bedingungen fçr eine algebraische Differenzenstruktur erfçllt, låsst sich ein empirisches Relativ durch folgende Abbildung im numerischen Relativ repråsentieren: ab
u
b u
c
u
d :
(1.3)
Wenn der Unterschied zwischen 2 Objekten a und b mindestens so groû ist wie der Unterschied zwischen 2 Objekten c und d, ist die Differenz der den Objekten a und b zugeordneten Zahlen u
a u
b mindestens so groû wie die Differenz der den Objekten c und d zugeordneten Zahlen u
c u
d. Eine Abbildungsfunktion mit dieser Eigenschaft definiert mit den entsprechenden Relativen eine Intervallskala. (Wie bereits erwåhnt, ist dies nicht die einzige Messstruktur, die zu einer Intervallskala fçhrt.)
a1.1 Messtheoretische Vorbemerkungen Allgemein gilt, dass Messungen auf einer Intervallskala (x) durch folgende Transformation Struktur erhaltend in Messungen einer anderen Intervallskala (y) çberfçhrt werden kænnen: y b x a
mit b > 0 : Transformationen dieser Art bezeichnet man als ¹lineareª Transformationen. Durch b und a werden die Einheit und der Ursprung einer Intervallskala im numerischen Relativ festgelegt. Wir sagen: Die quantitativen Aussagen einer Intervallskala sind gegençber jeder linearen Transformation vom Typus y b x a (mit b > 0 invariant. Eine Intervallskala ordnet den Objekten eines empirischen Relativs Zahlen zu, die so geartet sind, dass die Rangordnung der Zahlendifferenzen zwischen je 2 Objekten der Rangordnung der Merkmalsunterschiede zwischen je 2 Objekten entspricht.
Ein Beispiel fçr eine Intervallskala sind die Zahlen der Celsiusskala, die der Långe einer Quecksilbersåule und damit der zu messenden Temperatur zugeordnet werden. Statt der Celsiusskala kann man fçr Temperaturmessungen jedoch auch die Fahrenheitskala einsetzen, mit der Relationen zwischen Temperaturunterschieden ebenso genau abgebildet werden. Zwischen Celsius (C) und Fahrenheit (F) besteht folgende Beziehung: 5 160 C F : 9 9 Bei dieser linearen Transformation setzen wir also b 5=9 und a 160=9. Hat man an 4 Tagen a; b; c und d in Fahrenheit die Temperaturen 608, 688, 718 und 798 gemessen, ergeben sich in Celsius die Temperaturen 15,68, 20,08, 21,78 und 26,18. Betrachten wir die Temperaturunterschiede an den Tagen a und b sowie an den Tagen c und d, erhålt man fçr beide Vergleiche jeweils einen identischen Wert: F
a F
b F
c F
d 88 bzw. C
a C
b C
c C
d 4;48. Bezogen auf Gl. (1.3) sind beide Skalen åquivalent. Mit Intervallskalendaten kænnen sinnvoll Differenzen, Summen oder auch Mittelwerte berechnet werden. Die meisten der in den folgenden Kapiteln zu behandelnden Verfahren gehen von Messungen auf Intervallskalen aus.
21
Verhåltnisskala. Eine Verhåltnisskala setzt (typischerweise) ein empirisches Relativ mit einer sog. extensiven Messstruktur voraus, die den Operator beinhaltet. Zudem muss fçr die Objekte eine schwache Ordnungsrelation definiert sein, d. h., das empirische Relativ wåre zusammenfassend durch hA; ;
1
22
1
Kapitel 1 ´ Deskriptive Statistik
Das archimedische Axiom fordert, dass fçr a
(1.4 a)
u
a b u
a u
b :
(1.4 b)
Wenn die Merkmalsausprågung fçr a mindestens so groû ist wie die fçr b, ist die dem Objekt a zugeordnete Zahl mindestens so groû wie die Zahl fçr b. Ferner gilt: Die Zahl, die der Merkmalsausprågung zugeordnet wird, die sich durch das Zusammenfçgen von a und b ergibt, entspricht der Summe der Zahlen fçr a und b. Eine Verhåltnisskala x kann durch folgende Øhnlichkeitstransformationen in eine andere Verhåltnisskala y çberfçhrt werden: y bx
mit b > 0 :
Beispiele fçr diese Transformation sind das Umrechnen von Metern in Zentimeter oder Inches, das Umrechnen von Kilogramm in Gramm oder Unzen, das Umrechnen von Euro in Dollar, das Umrechnen von Minuten in Sekunden etc. Wir sagen: Die quantitativen Aussagen einer Verhåltnisskala sind gegençber jeder Øhnlichkeitstransformation vom Typus y = b ´ x (b > 0) invariant. Eine Verhåltnisskala ordnet den Objekten eines empirischen Relativs Zahlen zu, die so geartet sind, dass das Verhåltnis zwischen je 2 Zahlen dem Verhåltnis der Merkmalsausprågungen der jeweiligen Objekte entspricht.
Beispiele fçr Verhåltnisskalen sind viele physikalische Messungen wie Lången-, Gewichts- und Zeitmessungen. Meist handelt es sich um Messun-
gen, bei denen die Zahl ¹Nullª einen empirischen Sinn macht. Bei Verhåltnisskalen sind Aussagen wie ¹a ist doppelt so groû wie bª oder ¹a und b stehen im gleichen Verhåltnis wie c und dª mæglich. (Dass die Existenz eines Nullpunktes keine Verhåltnisskala garantiert, zeigt das Beispiel der Temperaturmessung auf der Kelvinskala, die einen absoluten Nullpunkt hat. Fçgt man zwei gleich groûe Wassermengen mit gleicher Temperatur zusammen, bleibt die Temperatur erhalten, d. h. es kommt nicht zu einer Verdoppelung der Temperatur. Man beachte allerdings, dass diese Aussage nicht fçr die Wårmemenge gilt.) Auf Intervallskalen ist eine Abbildung von Verhåltnissen zwischen Merkmalsausprågungen nicht mæglich. Durch die hier zulåssige Lineartransformation ist der Ursprung der Skala nicht eindeutig bestimmt. Das Verhåltnis zweier Messungen u
a 2 und u
b 4 åndert sich, wenn die Messungen z. B. durch die Transformation u0 3 u 5 in u0
a 11 und u0
b 17 çberfçhrt werden. Das ursprçngliche Verhåltnis der Zahlen (1:2) lautet nun 11:17. Zu beachten ist jedoch, dass sich die Unterschiede von Merkmalsausprågungen bei einem intervallskalierten Merkmal durch eine Verhåltnisskala abbilden lassen, denn die Aussage, der Temperaturunterschied zwischen a und b sei doppelt so groû wie der Temperaturunterschied zwischen c und d, macht durchaus Sinn. Verhåltnisskalen kommen in der humanwissenschaftlichen Forschung (z. B. mit psychologischen Merkmalen) nur selten vor. Dementsprechend finden sie in der Statistik keine besondere Beachtung. Da jedoch Verhåltnisskalen genauere Messungen ermæglichen als Intervallskalen, sind alle mathematischen Operationen bzw. statistischen Verfahren fçr Intervallskalen auch fçr Verhåltnisskalen gçltig. Man verzichtet deshalb håufig auf eine Unterscheidung der beiden Skalen und bezeichnet sie zusammengenommen als Kardinalskalen oder auch als metrische Skalen. Tabelle 1.1 fasst die hier behandelten Skalenarten sowie einige typische Beispiele noch einmal zusammen. Die genannten ¹mæglichen Aussagenª sind invariant gegençber den jeweils zulåssigen skalenspezifischen Transformationen. Ein Vergleich der 4 Skalen zeigt, dass die Messungen mit wachsender Ordnungsziffer der Skalen genauer werden bzw. dass zunehmend mehr Ei-
23
a1.1 Messtheoretische Vorbemerkungen genschaften des numerischen Relativs auf das empirische Relativ çbertragbar sind. Dies wird deutlich, wenn wir uns vor Augen fçhren, dass Ordinalskalen die Græûer-kleiner-Relationen richtig abbilden, auch die Gleichheits-Ungleichheits-Bedingung der Nominalskalen erfçllen bzw. dass ¹Gleichheit der Differenzenª (Intervallskala) sowohl Græûer-kleiner- als auch Gleich-ungleich-Relationen beinhaltet und dass ¹Gleichheit der Verhåltnisseª (Verhåltnisskala) alle drei genannten Bedingungen impliziert. So gesehen, stellt die Klassifikation der 4 Skalen eine Ordinalskala dar, wobei mit zunehmender Rangnummer der Skalen mehr Informationen des empirischen Relativs im numerischen Relativ abgebildet werden. Unter dem Gesichtspunkt der ¹Bedeutsamkeitª (vgl. S. 18) ergibt sich die in Tabelle 1.2 dargestellte Skalenhierarchie (nach Fahrmeir et al. 2001, S. 18). Ein weiteres Klassifikationskriterium fçr Merkmale betrifft die Anzahl der mæglichen Ausprågungen. Hat ein Merkmal endlich viele Ausprågungen (z. B. Anzahl der Geschwister) oder abzåhlbar unendliche viele Ausprågungen (z. B. Anzahl der RouTabelle 1.1. Die vier wichtigsten Skalentypen Skalenart
Mægliche Aussagen Beispiele
1. Nominalskala
Gleichheit Verschiedenheit
2. Ordinalskala
Græûer-kleinerRelationen Gleichheit von Differenzen
3. Intervallskala
4. Verhåltnisskala Gleichheit von Verhåltnissen
Telefonnummern Krankheitsklassifikationen Militårische Rånge Windstårken Temperatur (z. B. Celsius) Kalenderzeit Långenmessung Gewichtsmessung
Tabelle 1.2. Sinnvolle Berechnungen fçr Daten verschiedener Skalen Sinnvoll interpretierbare Berechnungen Skalenart
Auszåhlen
Ordnen
Differenzen Quotienten bilden bilden
Nominal Ordinal Intervall Verhåltnis
ja ja ja ja
nein ja ja ja
nein nein ja ja
nein nein nein ja
lette-Wçrfe bis eine Null erscheint), bezeichnen wir das Merkmal als diskret oder diskontinuierlich. Diskret sind also alle Zåhlvariablen mit einer oberen oder ohne eine obere Schranke. Befinden sich in einem Merkmalsintervall hingegen beliebig viele Merkmalsausprågungen, heiût das Merkmal stetig oder kontinuierlich (z. B. Kærpergewicht, Zeitmessungen). Falls ein stetiges Merkmal aufgrund einer begrenzten Messgenauigkeit nur diskret gemessen werden kann, sprechen wir von einem quasi-stegigen Merkmal.
Die Skalenarten auf dem Prçfstand: Ein Beispiel Ein Briefmarkenhåndler gibt einen Katalog heraus, in dem jede Briefmarke mit einer Zahl von 0 bis 10 gekennzeichnet ist. Es soll im Folgenden anhand der skalenspezifischen Axiome gezeigt werden, wie der Håndler ¹getestetª werden kænnte, wenn er behauptet, die Zahlen wçrden eine Nominal-, Ordinal-, Intervall- oder Verhåltnisskala darstellen.
Nominalskala. Die Briefmarken kænnten nach den Nominalskalen ¹Motiveª, ¹Lånderª, ¹Jahreª etc. in 11 Gruppen unterteilt sein, denen jeweils die Zahlen 0 bis 10 zugeordnet sind. Nehmen wir an, es handle sich um eine Gruppierung nach Motiven (Politiker, Landschaften, Tiere, Gebåude etc.) mit insgesamt 11 verschiedenen Motivgruppen; die Axiome N1 bis N3 wåren dann wie folgt empirisch zu prçfen: N1 (Reflexivitåt): Der Håndler mçsste in der Lage sein, jede Briefmarke bei einer wiederholten Gruppierung den gleichen Kategorien zuzuordnen wie bei der ersten Gruppierung. N2 (Symmetrie): Wenn der Håndler einer ¹Ankermarkeª a wegen eines vergleichbaren Motivs eine Briefmarke b zuordnet, mçsste er bei einem Wiederholungsversuch auch die Marke a der Marke b zuordnen. N3 (Transitivitåt): Wenn der Håndler meint, 2 Marken a und b håtten das gleiche Motiv wie die Marken b und c, mçsste er auch der Auffassung sein, dass die Marken a und c dem gleichen Motiv angehæren.
1
24
1
Kapitel 1 ´ Deskriptive Statistik
Die fçr N1 bis N3 geforderten ¹Testsª mçssten auch funktionieren, wenn den 11 Motivklassen beliebige andere Zahlen zugeordnet sind, denn der Informationsgehalt einer Nominalskala ist gegençber jeder eindeutigen Transformation invariant.
Ordinalskala. Der Håndler behauptet, die Zahlen 0 bis 10 wçrden eine Rangordnung der Briefmarken bzgl. ihres Wertes darstellen (0 = geringster Wert; 10 = hæchster Wert). Diese Behauptung wåre çber die Axiome O1 und O2 wie folgt zu prçfen: O1 (Konnexitåt): Bei 2 zufållig herausgegriffenen Briefmarken a und b mçsste der Håndler entscheiden kænnen, welche der beiden Marken wertvoller ist oder ob beide Marken den gleichen Wert haben. O2 (Transitivitåt): Wenn der Håndler eine Marke a fçr mindestens so wertvoll hålt wie eine andere Marke b und die Marke b wiederum mindestens fçr so wertvoll wie eine Marke c, mçsste er auch a fçr mindestens so wertvoll halten wie c. Diese Transitivitåt wåre fçr jede Dreiergruppe von Marken zu prçfen. Der Håndler håtte statt der Zahlen 0 bis 10 fçr die 11 Kategorien auch andere Zahlen wåhlen kænnen. Solange gewåhrleistet ist, dass von jeweils 2 Marken der wertvolleren eine græûere Zahl zugeordnet wird als der weniger wertvollen und dass Marken mit einer ursprçnglich identischen Klassifikation wieder identisch klassifiziert werden, ist die Auswahl der Zahlen beliebig, denn Ordinalskalen sind gegençber monotonen Transformationen invariant.
Intervallskala. Der Håndler behauptet, die Zahlen wåren intervallskalierte Wertklassen. Diese Behauptung wåre korrekt, wenn er die folgenden ¹Testsª bzgl. der Axiome I1 bis I5 besteht: I1 (schwache Ordnung von Paaren): Ein (naiver) Kunde bietet dem Håndler zwei Tauschgeschåfte an: Er will z. B. eine B3 (Briefmarke aus der Kategorie 3) hergeben und dafçr eine B2 bekommen (erster Tausch = T1) oder eine B7 hergeben und eine B5 bekommen (zweiter Tausch = T2). Formal soll dieser ¹Handelª wie folgt dargestellt werden:
T1 T2
Håndler B2 B5
$ $
Kunde B3 B7
Der Håndler muss bei jedem Tauschgeschåft dieser Art entscheiden kænnen, welcher der beiden Tausche fçr ihn gçnstiger ist. Im Beispiel wçrde er ± Intervallskalenniveau vorausgesetzt ± natçrlich T2 gegençber T1 pråferieren. (Man beachte, dass diese Pråferenz bei ordinalskalierten Kategorien keineswegs zwangslåufig ist: Der Wertunterschied zwischen B2 und B3 kænnte græûer sein als der Wertunterschied zwischen B5 und B7.) Hålt der Håndler zudem einen Tausch T1 fçr gçnstiger als einen Tausch T2 und T2 fçr gçnstiger als einen weiteren Tausch T3, muss er auch T1 fçr gçnstiger halten als T3. (Es wåre hier und im Folgenden auch die Øquivalenz zweier Tausche zulåssig.)
I2 (Vorzeichen-Umkehr-Axiom): Der Håndler mæge bei folgendem Tauschgeschåft T1 pråferieren: T1 T2
Håndler B1 B5
$ $
Kunde B3 B6
In diesem Falle mçsste er gemåû I2 bei folgendem Tausch-¹Geschåftª ebenfalls T1 pråferieren: T1 T2
Håndler B6 B3
$ $
Kunde B5 B1
I3 (schwache Monotonie): Zur Prçfung dieses Axioms sind 3 Tauschgeschåfte zu vergleichen, wie z. B.:
T1 T2
1. Tauschgeschåft Håndler Kunde B0 $ B2 B7 $ B8
T1 T2
2. Tauschgeschåft Håndler Kunde B2 $ B5 B8 $ B10
Wenn der Håndler in beiden Tauschgeschåften T1 pråferiert, sollte er auch im 3. Tauschgeschåft T1
25
a1.1 Messtheoretische Vorbemerkungen pråferieren, das sich nach I3 aus den beiden ersten Tauschgeschåften wie folgt ergibt:
T1 T2
3. Tauschgeschåft Håndler Kunde B0 $ B5 B7 $ B10
Auch diese Pråferenz wåre wohl selbstverståndlich, wenn die Wertklassen intervallskaliert sind.
I4 (Læsbarkeit): Der Håndler pråferiert bei folgendem Tauschgeschåft T1: T1 T2
Håndler B0 B5
$ $
Kunde B10 B5
Gegen welche Briefmarken mçssten B0 und B10 getauscht werden, damit die so resultierenden Tausche zu T2 åquivalent sind? Dies sind offenbar B0$B0 (also d1 B0 und B10$B10 (d2 B10). Der Leser mag sich davon çberzeugen, dass es fçr beliebige Tausche T1 und T2 fçr I4 immer eine Læsung gibt, wenn die Wertklassen intervallskaliert sind.
I5 (archimedisches Axiom): Dieses Axiom wird als sog. ¹technisches Axiomª empirisch nicht geprçft. Das archimedische Axiom wåre allerdings verletzt, wenn der Håndler eine sehr wertvolle Marke besitzt, die er gegen ¹nichts auf der Weltª tauschen wçrde. Statt der Zahlenfolge 0 bis 10 håtte der Håndler den Kategorien lineartransformierte Werte der Zahlen 0 bis 10 zuordnen kænnen. Fçr die Einheit b 10 und den Ursprung a 50 wåren dies die Zahlen 50, 60, 70 . . . 150. Såmtliche Tests mçssten auch mit diesen (oder anderen lineartransformierten Zahlen) funktionieren.
Verhåltnisskala. Behauptet der Håndler, seine Kategorienummern wçrden den Wert der Marken als Zahlen einer Verhåltnisskala abbilden, sollte der Operator zulåssig sein. Demnach mçsste die Zahl, die dem Wert von 2 Briefmarken zugeordnet wird, der Summe der Zahlen entsprechen, die die Werte der beiden Einzelmarken kennzeichnen, also z. B. B1 B3 B4. Erst bei dieser Skalierungsart dçrfte
der Håndler behaupten, dass eine B6 doppelt so wertvoll ist wie eine B3 oder dass das Wertverhåltnis von B2 zu B4 dem Wertverhåltnis von B3 zu B6 entspricht. Die Axiome haben die folgende empirische Bedeutung:
V1 (schwache Ordnung): Wie O1 und O2. V2 (Assoziativitåt): Wenn ein Kunde z. B. fçr eine B8 als Gegenwert eine B4 und eine B3 anbietet, mçsste der Håndler eine B1 nachfordern. Besteht das Angebot des Kunden aus einer B3 und einer B1, wåre eine B4 nachzufordern. V3 (Monotonie): Pråferiert der Håndler B5 und B6 gegençber B4 und B6, muss er auch B5 gegençber B4 pråferieren. V4 (archimedisches Axiom): Wie I5. Die Zahlen 0 bis 10 sind hier durch eine beliebige Zahlenfolge ersetzbar, die aus der Øhnlichkeitstransformation y b x
b > 0 hervorgeht. Wenn eine Briefmarke der Kategorie 1 z. B. 1 5,± wert wåre
b 5, kænnten die Kategorien auch durch 1 0,±, 1 5,±, 1 10,±, 1 15,± . . . 1 50,± beschrieben werden.
Messung in der Forschungspraxis Empirische Sachverhalte werden durch die vier in Tabelle 1.1 genannten Skalenarten unterschiedlich genau abgebildet. Die hieraus ableitbare Konsequenz fçr die Planung empirischer Untersuchungen liegt auf der Hand. Bieten sich bei einer Quantifizierung mehrere Skalenarten an, sollte diejenige mit dem hæchsten Skalenniveau gewåhlt werden. Erweist sich im Nachhinein, dass die empirischen Aussagen gegençber den fçr ein Skalenniveau zulåssigen Transformationen nicht invariant sind, besteht die Mæglichkeit, die erhobenen Daten auf ein niedrigeres Skalenniveau zu transformieren (beispielsweise, indem fehlerhafte Intervalldaten auf ordinalem Niveau ausgewertet werden). Eine nachtrågliche Transformation auf ein hæheres Skalenniveau ist hingegen nicht mæglich. Wie jedoch ± so lautet die zentrale Frage ± wird in der Forschungspraxis entschieden, auf
1
26
1
Kapitel 1 ´ Deskriptive Statistik
welchem Skalenniveau ein bestimmtes Merkmal gemessen wird? Ist es erforderlich bzw. çblich, bei jedem Merkmal die gesamte Axiomatik der mit einer Skalenart verbundenen Messstruktur wie in unserem Briefmarkenbeispiel empirisch zu çberprçfen? Sucht man in der Literatur nach einer Antwort auf diese Fragen, wird man feststellen, dass hierzu unterschiedliche Auffassungen vertreten werden (vgl. z. B. Wolins, 1978). Unproblematisch und im Allgemeinen ungeprçft ist die Annahme, ein Merkmal sei nominalskaliert. Geschlecht, Parteizugehærigkeit, Farbpråferenzen, Herkunftsland etc. sind Merkmale, deren Nominalskalenqualitåt unstrittig ist. Weniger eindeutig fållt die Antwort jedoch aus, wenn es darum geht zu entscheiden, ob Schulnoten, Testwerte, Einstellungsmessungen, Schåtz(Rating-) Skalen o. Ø. ordinal- oder kardinalskaliert sind. Hier eine richtige Antwort zu finden, ist insoweit von Bedeutung, als die Berechnung von Mittelwerten und anderen wichtigen statistischen Maûen nur bei kardinalskalierten Merkmalen zu rechtfertigen ist, d. h. fçr ordinalskalierte Daten sind andere statistische Verfahren einzusetzen als fçr kardinalskalierte Daten. Die çbliche Forschungspraxis verzichtet auf eine empirische Ûberprçfung der jeweiligen Skalenaxiomatik. Die meisten Messungen sind ¹Per-fiatª-Messungen (Messungen ¹durch Vertrauenª), wie z. B. Messungen mit Fragebægen, Tests, Ratingskalen etc. Man nimmt an, diese Instrumente wçrden das jeweilige Merkmal metrisch messen, sodass der gesamte statistische ¹Apparatª fçr metrische Daten eingesetzt werden kann (vgl. hierzu auch Lantermann, 1976, oder Davison u. Sharma, 1988). Hinter dieser ¹liberalenª Auffassung steht die Ûberzeugung, dass die Beståtigung einer Forschungshypothese durch die Annahme eines falschen Skalenniveaus eher erschwert wird. Anders formuliert: Låsst sich eine inhaltliche Hypothese empirisch beståtigen, ist dies gleichzeitig ein Beleg fçr die Richtigkeit der skalentheoretischen Annahme. Wird eine inhaltliche Hypothese empirisch hingegen widerlegt, sollte dies ein Anlass sein, auch die Art der ¹Operationalisierungª des Merkmals und damit das Skalenniveau der Daten zu problematisieren. Es ist festzustellen, dass die Untersuchung der Zulåssigkeit von Messoperationen die Theorie des untersuchten Gegenstandes in
vielen Fållen wesentlich bereichert hat (ausfçhrlicher hierzu vgl. z. B. Bortz u. Dæring, 2002, Abschnitt 2.3.5). Wie stark Messtheorie und inhaltliche Theorie miteinander verbunden sind, sei an einem kleinen (nicht ganz ernst gemeinten) Beispiel verdeutlicht: Ein verhaltenstherapeutischer Psychologe behandelt Patienten mit Hundephobien und mæchte dieses Phånomen quantitativ erfassen oder messen. Die Annahme einer Nominalskala setzt voraus, dass theoretisch verschiedene Formen phobischer Angstzustånde begrçndet werden kænnen. Dies wåre zweifellos unproblematisch, wenn ± fçr eine zweistufige Nominalskala ± nur zwischen ¹Phobie vorhandenª/¹nicht vorhandenª unterschieden werden soll. Eine differenziertere Nominalskala kænnte die Art der Angstgefçhle nach der Art des Anlasses (z. B. verschiedene Hunderassen) klassifizieren. Eine Ordinalskala setzt die Existenz unterschiedlich starker phobischer Zustånde voraus. Will man darçber entscheiden, welcher von zwei phobischen Zustånden der stårkere ist, kann man die Patienten hierzu befragen, man kann verschiedene angstauslæsende Szenarien paarweise vergleichen lassen (Paarvergleichsskalierung; vgl. z. B. Bortz u. Dæring, 2002, Kap. 4.2.2), man kann den Blutdruck, die Herzfrequenz oder andere physiologische Erregungsindikatoren messen, man kann in einer ¹Lifeª-Situation Vermeidungsreaktionen (Fluchtgeschwindigkeit oder maximal tolerierte Distanz zum Angst auslæsenden Reiz) erfassen usw. Die Gçltigkeit dieser Indikatoren fçr die Stårke einer Phobie lieûe sich z. B. dadurch nachweisen, dass die Phobiemessungen mit fortschreitender Therapie zunehmend geringer ausfallen. Hierbei kann sich nun herausstellen, dass sich einige Indikatoren erwartungsgemåû veråndern und andere nicht, was wichtige Rçckschlçsse auf die der Therapie zugrundeliegende Theorie zulieûe. Eine Intervallskala wçrde die Mæglichkeit eræffnen, die Phobienstårken åquidistant abzustufen, um diese z. B. auf einer Ratingskala abzubilden. Unter dieser Voraussetzung kænnte man z. B. çberprçfen, ob zwischen der Phobienstårke und der Anzahl der therapeutischen Behandlungstermine eine lineare Beziehung besteht. Falls dies nicht der Fall ist, wåren dafçr ein nicht linear verlaufender Therapieerfolg (z. B. hohe therapeutische Effektivitåt nur in der Anfangsphase), eine
a1.2
falsche skalentheoretische Annahme (Phobienstårken sind nicht intervall-, sondern bestenfalls ordinalskaliert) oder beides verantwortlich zu machen. Kann man jedoch nachweisen, dass ein solcher linearer Zusammenhang besteht, wåre dies gleichzeitig ein Beleg fçr die Richtigkeit der Intervallskalenannahme und fçr die Gleichfærmigkeit des Therapieverlaufes. Nur der Vollståndigkeit halber seien auch einige Ûberlegungen zur Verhåltnisskala angestellt. Hier mçssten Aussagen wie ¹die Phobiestårke von a ist doppelt so groû wie die Phobiestårke von bª mæglich sein. Wåre es theoretisch zu rechtfertigen, dass die Stårke einer phobischen Reaktion von der Intensitåt des Angst auslæsenden Reizes abhångt, mçsste eine Verdopplung der Reizintensitåt mit einer Verdopplung der Angstreaktion einhergehen. Wåre die maximal tolerierte Distanz zum Angst auslæsenden Reiz ein theoretisch gut begrçndeter Indikator fçr die Stårke der Phobie, mçsste also der Bogen, den ein Phobiker um zwei åhnliche Hunde macht, annåhernd doppelt so groû sein wie der Bogen um nur einen Hund. Es ist davon auszugehen, dass die Theorie der Hundephobie auch nicht annåhernd so pråzise ist, als dass numerische Aussagen dieser Art die Stårke von Phobien angemessen abbilden kænnten. Human- und sozialwissenschaftliche Messung ist selten ein rein technisches, sondern meistens auch ein theoriegeleitetes Unterfangen.
Hinweis: Genauere Ausfçhrungen zu dieser Thematik findet man in den auf S. 16 bereits erwåhnten Arbeiten und bei Coombs et al. (1975), Gigerenzer (1981), Michell (1990), Niedere u. Mausfeld (1996 a, b), Niedere u. Narens (1996), Pfanzagl (1971), Roberts (1979) oder Suppes u. Zinnes (1963).
1
27
Tabellarische Darstellung der Daten
sonengruppe, die lediglich beschrieben werden soll und fçr die sich die Frage der Repråsentativitåt hinsichtlich einer Grundgesamtheit nicht stellt, als ein Kollektiv bezeichnen. Die individuellen Messwerte der Vpn konstituieren die sog. Urliste, die nach Festlegung der Kategorienbreiten in eine zusammenfassende Strichliste çberfçhrt wird. Die tabellarische Beschreibung der Merkmalsverteilung kann, ausgehend von der Strichliste, durch · eine Håufigkeitsverteilung, · eine kumulierte Håufigkeitsverteilung, · eine Prozentwertverteilung und · eine kumulierte Prozentwertverteilung erfolgen. BEISPIEL Untersucht werden soll ein Kollektiv von 90 Patienten mit hirnorganischen Schåden hinsichtlich der Fåhigkeit, aus einzelnen Teilstçcken eine vorgegebene Figur zusammenzusetzen (Puzzle). Das uns interessierende Merkmal ist die Bearbeitungszeit, die die Vpn zum Zusammenlegen der Figur benætigen. Bei dem untersuchten Merkmal handelt es sich um eine stetige bzw. kontinuierliche Variable (vgl. S. 23), wobei die Variable ¹Bearbeitungszeitª als Verhåltnisskala betrachtet wird. Tabelle 1.3 stellt die Urliste der Merkmalsausprågungen dar. In dieser Urliste werden nacheinander die Bearbeitungszeiten der 90 Vpn notiert, ohne die Zugehærigkeit einer Leistung zu einer Vp zu kennzeichnen. Hierauf kann verzichtet werden, da wir lediglich an der Merkmalsverteilung im gesamten Kollektiv und nicht an individuellen Daten interessiert sind. Die Messungen wurden mit einer Genauigkeit von 0,1 s erfasst, was in diesem Beispiel zur Folge hat, dass keine identischen Bearbeitungszeiten vorkommen.
Kategorisierung der Messwerte Um die Verteilungseigenschaften der Bearbeitungszeiten veranschaulichen zu kænnen, werden die individuellen Messwerte in Kategorien bzw. Tabelle 1.3. Urliste
" 1.2 Tabellarische Darstellung der Daten Eine Gruppe von n Untersuchungseinheiten (wir werden diesen allgemeinen Begriff im Folgenden håufig durch die Bezeichnungen ¹Vpnª oder ¹Personenª ersetzen) soll hinsichtlich eines Merkmals X beschrieben werden. Um den Begriff Stichprobe als Teilmenge einer Population fçr inferenzstatistische Fragen zu reservieren, wollen wir eine Per-
131,8 106,7 119,2 129,9 86,7 112,7 128,6 142,0 78,8 103,4 68,1 95,9 103,0 90,2 114,3 125,5 124,3 84,9 108,0 109,4
116,4 75,7 96,7 106,0 112,9 119,7 136,1 121,0 108,1 97,8
84,3 105,4 110,2 98,0 126,6 122,0 109,6 137,0 128,5 112,2
118,5 123,4 135,2 148,2 119,9 127,3 99,2 107,7 87,9 75,6
93,4 64,9 134,7 106,2 62,6 109,3 76,1 69,0 102,4 143,1
65,3 80,7 146,5 122,7 116,6 95,1 93,9 79,0 103,7 72,4
113,8 124,2 144,8 70,0 84,6 103,1 81,5 111,7 131,7 120,6
140,3 110,9 113,4 73,9 101,0 92,4 100,4 98,8 139,4 95,2
28
1
Kapitel 1 ´ Deskriptive Statistik
Intervalle (wir verwenden die beiden Bezeichnungen synonym) zusammengefasst. Hiermit verbindet sich die Frage, wie die Kategorienbreiten festzulegen sind bzw. wie viele Kategorien aufgemacht werden sollen. Wåhlen wir die Kategorien zu breit, werden Leistungsunterschiede verdeckt, wåhrend umgekehrt zu enge Kategorien zu Verteilungsformen fçhren, bei denen zufållige Irregularitåten den Verteilungstyp håufig nur schwer erkennen lassen. Es gibt einige Faustregeln, die bei der Festlegung der Kategorienbreite bzw. der Kategorienzahl beachtet werden sollen: · Mit wachsender Græûe des untersuchten Kollektivs kænnen engere Kategorienbreiten gewåhlt werden. · Je græûer die Variationsbreite der Messwerte (d. h. die Differenz zwischen dem græûten und kleinsten Wert), desto breiter kænnen die Kategorien sein. · Nach einer Faustregel von Sturges (1926) soll die Anzahl der Kategorien m nach der Beziehung m 1 3;32 lg n
n Kollektivgræûe, lg dekadischer Logarithmus) festgelegt werden. · Die maximale Anzahl der Kategorien sollte aus Grçnden der Ûbersichtlichkeit 20 nicht çberschreiten. · Alle Kategorien sollten im Normalfall die gleiche Breite
Kb aufweisen. Ausgehend von diesen Faustregeln kænnten die 90 erhobenen Messwerte in ca. 8 Kategorien zusammengefasst werden. Die endgçltige Anzahl der Kategorien erhalten wir durch die Bestimmung der Kategorienbreite, die sich ergibt, wenn wir die Variationsbreite der Messwerte durch die vorlåufig in Aussicht genommene Kategorienzahl dividieren. Da in unserem Beispiel die Variationsbreite 148,2 s (græûter Wert) 62;6 s (kleinster Wert) = 85,6 s betrågt, ermitteln wir eine Kategorienbreite (Kb) von 85,6 : 8 = 10,7. Diese Kategorienbreite ist jedoch wegen der Dezimalstelle wenig praktikabel; anschaulicher und leichter zu handhaben sind ganzzahlige Kategorienbreiten, was uns dazu veranlasst, die Kategorienbreite auf Kb = 10 festzulegen. Dies hat zur Konsequenz, dass die ursprçnglich vorgeschlagene Kategorienzahl von 8 auf 9 erhæht wird. Nach dieser Vorarbeit kænnen wir die in Tabelle 1.4 dargestellte Strichliste anfertigen. In dieser
Tabelle kennzeichnen wir die Nummer einer Kategorie mit k und deren Håufigkeit (Frequenz) mit f(k). Gegen die Kategorienwahl in Tabelle 1.4 kænnte man einwenden, dass die Kategorien nicht die geplante Breite von Kb = 10, sondern von Kb = 9,9 aufweisen. Dies ist jedoch nur scheinbar der Fall, denn das untersuchte Material ¹Bearbeitungszeitª ist stetig verteilt, sodass die Kategoriengrenzen genau genommen durch die Werte 60±69,999 . . . bzw. durch 60±69,9 usw. zu kennzeichnen gewesen wåren. Da unsere Messungen jedoch nur eine Genauigkeit von einer Nachkommastelle aufweisen, kænnen alle Messwerte durch die in Tabelle 1.4 vorgenommene Kennzeichnung der Kategoriengrenzen eindeutig zugeordnet werden. Wir unterscheiden zwischen scheinbaren Kategoriengrenzen, die eine zweifelsfreie Zuordnung aller Messwerte in Abhångigkeit von der Messgenauigkeit gestatten, und wahren Kategoriengrenzen, die die Kategorienbreiten mathematisch exakt wiedergeben. In einigen Untersuchungen ergeben sich Extremwerte, die so weit aus dem Messbereich der çbrigen Werte herausfallen, dass bei Wahrung einer konstanten Kategorienbreite zwischen den durch das Hauptkollektiv besetzten Kategorien und den Kategorien, in die die Extremwerte hineinfallen, leere bzw. unbesetzte Kategorien liegen. Fçr solche ¹Ausreiûerª werden an den Randbereichen der Verteilung offene Kategorien eingerichtet. Wenn in unserem Untersuchungsbeispiel fçr eine extrem schnelle Vp eine Bearbeitungszeit von 38,2 s und fçr eine extrem langsame Vp eine Bearbeitungszeit von 178,7 s vorlåge, so kænnten diese in die Kategorien <60 bzw. >150 eingesetzt werden. Zu beachten ist jedoch, dass bei Verwendung offener Kategorien Tabelle 1.4. Strichliste Kategorie
k 60,0±69,9 70,0±79,9 80,0±89,9 90,0±99,9 100,0±109,9 110,0±119,9 120,0±129,9 130,0±139,9 140,0±149,9
Håufigkeit f (k) |||| |||| |||| |||| |||| |||| |||| |||| ||||
||| || |||| |||| |||| |||| || |
|| |||| |||| |||
||
5 8 7 12 17 15 13 7 6
a1.2
29
Tabellarische Darstellung der Daten
statistische Kennwerte der Verteilung, wie z. B. Mittelwert und Streuung nicht berechnet werden kænnen, es sei denn, die Extremwerte werden gesondert aufgefçhrt. Das 1. Intervall wurde in Tabelle 1.4 auf 60±69,9 festgelegt, obwohl dies keineswegs zwingend ist. Ausgehend von der ermittelten Intervallbreite und der Variationsbreite der Werte wåren auch folgende Kategorienfestsetzungen denkbar: 60,1±70; 70,1±80 . . . oder 60,2±70,1; 70,2±80,1 . . . bzw. auch 61±70,9; 71±80,9 . . . oder 62±71,9; 72±81,9 . . . usw. Die hier angedeuteten verschiedenen Mæglichkeiten der Kategorienfestsetzung werden als die Reduktionslagen einer Håufigkeitsverteilung bezeichnet. In Tabelle 1.4 haben wir uns fçr eine Reduktionslage entschieden, in der 60er-, 70er-, 80er-Werte usw. zusammengefasst werden. Grundsåtzlich håtte jedoch auch jede andere Reduktionslage eingesetzt werden kænnen, denn statistische Kennwerte wie z. B. Mittelwerte und Streuungsmaûe werden durch die verschiedenen Reduktionslagen nicht beeinflusst. Lediglich das Verteilungsbild der Håufigkeiten ist in geringfçgigem Ausmaû von der Reduktionslage abhångig (vgl. Abb. 1.1). Eine einheitliche Regelung fçr die Festlegung der Reduktionslage nennt Lewis (1966).
Hierbei bedeuten: %k = zu errechnender Prozentwert fçr die Kategorie k, f
k = Håufigkeit (Frequenz) in der Kategorie k, n = Kollektivgræûe. Soll beispielsweise der Prozentwert fçr die 3. Kategorie (80,0±89,9) errechnet werden, erhalten wir 7 %
80;0 89;9 100 % 7;8 % : 90 Liegen keine Rechenfehler vor, muss die kumulierte Prozentwertverteilung in der letzten Kategorie den Wert 100% erhalten. Bei einer Håufigkeitsverteilung, die nur in Prozentwerten ausgedrçckt wird, ist darauf zu achten, dass der Kollektivumfang n mitgeteilt wird. Nur so ist zu gewåhrleisten, dass fçr weitere Auswertungen die absoluten Håufigkeiten rçckgerechnet werden kænnen. Tabelle 1.5 zeigt die auf Grund der Strichliste (vgl. Tabelle 1.4) ermittelte Håufigkeitsverteilung (nicht kumuliert und kumuliert) sowie die Prozentwertverteilung (nicht kumuliert und kumuliert). Die Werte in der Spalte %kum
k werden gelegentlich auch als Prozentrånge (PR) bezeichnet. Man berechnet sie nach der Gleichung fkum
k 100 % :
1:6 n Die bisher besprochene tabellarische Aufbereitung wurde an einem Material demonstriert, dem eine stetige (kontinuierliche) Variable zugrunde liegt. Soll ein Kollektiv hinsichtlich einer diskreten Variablen (vgl. S. 23) beschrieben werden, wie z. B. Parteipråferenzen (Nominalskala), Rangposition in der Geschwisterreihe (Ordinalskala) oder TestPR
Empirische Merkmalsverteilung Durch Auszåhlung der Striche in der Strichliste erhalten wir die Håufigkeiten fçr die einzelnen Kategorien. Um zu kontrollieren, ob alle Messwerte berçcksichtigt wurden, empfiehlt es sich, die Håufigkeiten in den einzelnen Kategorien sukzessiv aufzuaddieren, wobei die letzte Kategorie den Wert n = Kollektivumfang erhalten muss. Die sukzessiv summierten Kategorienhåufigkeiten werden als kumulierte Håufigkeitsverteilung bezeichnet. Sollen zwei unterschiedlich groûe Kollektive hinsichtlich ihrer Merkmalsverteilung verglichen bzw. die Merkmalsverteilung in einem Kollektiv leichter çberschaubar gemacht werden, kænnen die absoluten Håufigkeiten in den einzelnen Kategorien als Prozentwerte ausgedrçckt werden. Prozentwerte ermittelt man nach folgender Gleichung: %k
f
k 100% : n
1:5
Tabelle 1.5. Håufigkeitsverteilung und Prozentwertverteilung Kategorie
k
f
k
fkum
k
%
k
%kum
k
60,0±69,9 70,0±79,9 80,0±89,9 90,0±99,9 100,0±109,9 110,0±119,9 120,0±129,9 130,0±139,0 140,0±149,9
5 8 7 12 17 15 13 7 6
5 13 20 32 49 64 77 84 90
5,6 8,9 7,8 13,3 18,9 16,7 14,4 7,8 6,7
5,6 14,4 22,2 35,6 54,4 71,1 85,6 93,4 100,0
1
30
Kapitel 1 ´ Deskriptive Statistik
20 18 16
1
14
f (k)
12 10 8 6 4 2 0 50
60
70
80
90
100
110
120
130
140
150
160
Abb. 1.1. Polygon der Håufigkeiten in Tabelle 1.5 fçr 2 Reduktionslagen
k
punktwerte (Intervallskala), gelten die gleichen Prinzipien der Materialaufbereitung wie bei stetigen Skalen. Die Bestimmung der Kategorienbreiten erçbrigt sich natçrlich bei Nominalskalen. Hier kænnten inhaltlich åhnliche, schwach besetzte Kategorien zusammengefasst werden.
" 1.3 Graphische Darstellung der Daten Die graphische Darstellung der ermittelten Tabellen ist wenig normiert. Relativ leicht anzufertigende und çbersichtliche Darstellungen sind das Polygon und das Histogramm, wobei das Polygon der graphischen Darstellung einer stetigen Variablen und das Histogramm der graphischen Darstellung einer diskreten Variablen vorbehalten bleiben sollte.
Polygon Bei der graphischen Veranschaulichung der Håufigkeitsverteilung einer stetigen Variablen benætigen wir statt der Kategoriengrenzen die Kategorienmitten, die nach folgender Beziehung berechnet werden: Kategorienmitte obere Kategoriengr. untere Kategoriengr. : 2 Es ist darauf zu achten, dass diese Gleichung nicht von den scheinbaren, sondern von den wahren Kategoriengrenzen ausgeht. Die Kategorienmitten werden in gleichen Abstånden auf der Abs-
zisse und die Håufigkeiten bzw. Prozentwerte auf der Ordinate eines Koordinatensystems abgetragen. In den die Kategorienmitten kennzeichnenden Punkten werden Lote errichtet, deren Långe jeweils der Kategorienhåufigkeit (absolut oder prozentual) entspricht. Verbindet man die Endpunkte der Lote, erhålt man das Polygon. Die Flåche unter dem Polygonzug repråsentiert die Kollektivgræûe n bzw. 100%. Analog wird verfahren, wenn statt der Håufigkeiten (Prozentwerte) die kumulierten Håufigkeiten (Prozentwerte) als Polygon dargestellt werden sollen. Abbildung 1.1 veranschaulicht das Polygon der Håufigkeitsverteilung in Tabelle 1.5. Der gestrichelte Polygonzug veranschaulicht die Håufigkeitsverteilung, die sich fçr eine Reduktionslage mit den Kategorien 55±64,9 . . . ergibt.
Verfahren der gleitenden Durchschnitte Da die einem Polygon zu Grunde liegende Variable stetig ist, dçrften sich theoretisch keine Knicke im Linienverlauf ergeben. Eine recht gute Annåherung an einen ¹geglåttetenª Verlauf wçrden wir erhalten, wenn das untersuchte Kollektiv sehr groû und die Kategorien sehr eng sind. Eine andere Mæglichkeit, den Kurvenverlauf zu glåtten, stellt das Verfahren der gleitenden Durchschnitte dar. Bei diesem Verfahren geht man davon aus, dass sich die Håufigkeiten in benachbarten Kategorien auf einer stetigen Variablen nicht sprunghaft, sondern kontinuierlich veråndern. Deshalb kann die Håufigkeit einer Kategorie durch die Håufigkeiten der benachbarten Kategorien im Interpolationsverfahren bestimmt werden. Zufållig
a1.3
31
Graphische Darstellung der Daten
Tabelle 1.6. Håufigkeitsverteilung mit 3-gliedriger und 7-gliedriger Ausgleichung k
Intervalle
Intervallmitten
f
k
f
k nach 3-gliedriger Ausgleichung
f
k nach 7-gliedriger Ausgleichung
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
17,5±22,4 22,5±27,4 27,5±32,4 32,5±37,4 37,5±42,4 42,5±47,4 47,5±52,4 52,5±57,4 57,5±62,4 62,5±67,4 67,5±72,4 72,5±77,4 77,5±82,4 82,5±87,4 87,5±92,4 92,5±97,4 97,5±102,4 102,5±107,4 107,5±112,4 112,5±117,4 117,5±122,4 122,5±127,4 127,5±132,4 132,5±137,4 137,5±142,4
20,0 25,0 30,0 35,0 40,0 45,0 50,0 55,0 60,0 65,0 70,0 75,0 80,0 85,0 90,0 95,0 100,0 105,0 110,0 115,0 120,0 125,0 130,0 135,0 140,0
0 0 0 0 7 30 28 45 78 80 91 87 78 71 52 53 41 23 20 11 5 0 0 0 0 800
0,0 0,0 0,0 2,3 12,3 21,7 34,3 50,3 67,7 83,0 86,0 85,3 78,7 67,0 58,7 48,7 39,0 28,0 18,0 12,0 5,3 1,7 0,0 0,0 0,0
0,0 1,0 5,3 9,3 15,7 26,9 38,3 51,3 62,7 69,6 75,7 76,7 73,1 67,6 57,8 48,3 38,7 29,3 21,9 14,3 8,4 5,1 2,3 0,7 0,0
bedingte Irregularitåten und Sprçnge im Verlauf eines Polygons kænnen also ausgeglichen werden, wenn statt der Håufigkeit einer Kategorie k der Durchschnitt der Håufigkeiten der Kategorien k±1, k und k+1 eingesetzt wird. Formal ausgedrçckt, erhalten wir als neuen Håufigkeitswert f
k fçr die Kategorie k f
k
f
k
1 f
k f
k 1 : 3
1:7
Da jeweils 3 benachbarte Kategorien berçcksichtigt werden, bezeichnen wir diese Ausgleichung als dreigliedrig. Werden die Håufigkeiten von 5 aufeinander folgenden Kategorien zur Schåtzung der Håufigkeit der mittleren Kategorie berçcksichtigt, sprechen wir von einer 5-gliedrigen Ausgleichung bzw. bei m aufeinander folgenden Kategorien (wobei m eine ungerade Zahl sein sollte) von einer m-gliedrigen Ausgleichung. Zu beachten ist, dass bei græûer werdendem m die Randkategorien nur unter Zuhilfe-
nahme von unbesetzten oder Nullkategorien ausgeglichen werden kænnen. Nullkategorien selbst werden so lange in die Ausgleichung mit einbezogen, bis die nach der Ausgleichsrechnung bestimmten, neuen Håufigkeiten Null werden. Tabelle 1.6 zeigt die ursprçngliche Kærpergewichtsverteilung eines Kollektivs der Græûe n = 800 sowie eine 3-gliedrige und eine 7-gliedrige Ausgleichung. Wie Abb. 1.2 zeigt, ist der 7-gliedrig ausgeglichene Kurvenzug am meisten geglåttet.
Histogramm Zur graphischen Veranschaulichung einer Håufigkeitsverteilung einer diskreten (diskontinuierlichen) Variablen wird ein Histogramm angefertigt. Wie durch die beiden folgenden Beispiele veranschaulicht, werden hierfçr auf der Abszisse die Kategoriengrenzen und auf der Ordinate wie beim Polygon die Håufigkeiten (absolut oder prozentual) abgetragen. Die Gesamtflåche des His-
1
32
Kapitel 1 ´ Deskriptive Statistik
90
ohne Ausgleichung 3gliedrige Ausgleichung 7gliedrige Ausgleichung
80 70
1 f (k)
60 50 40 30 20 10 0 0
20
30
40
50
60
70
80
90
100
110
120
130
140
Abb. 1.2. Polygone der Håufigkeiten in Tabelle 1.6 mit 3- und 7-gliedriger Ausgleichung
k
togramms entspricht wiederum der Kollektivgræûe n oder 100%. Abbildung 1.3 zeigt die in einem Raucherkollektiv (n = 1000) angetroffene prozentuale Verteilung des wæchentlichen Zigarettenkonsums. Sind die Messwerte der diskreten Variablen nicht zu Kategorien zusammengefasst, sondern macht jeder einzelne Messwert eine eigene Kategorie auf, werden die Såulen des Histogramms durch die einzelnen Messwerte und nicht durch die Grenzen gekennzeichnet. Dies ist in Abb. 1.4 geschehen, in der die prozentualen Håufigkeiten der in einem Kollektiv (n = 700) angetroffenen Geschwisterzahlen dargestellt sind.
Verteilungsformen Die graphische Darstellung einer Håufigkeitsverteilung in Form eines Polygons oder eines Histogramms erleichtert es, die Verteilungsform zu beschreiben. Bei der Charakterisierung einer Verteilungsform werden håufig die folgenden Begriffe verwendet: · symmetrisch oder asymmetrisch, · unimodal (eingipflig) oder bimodal (zweigipflig), · schmalgipflig oder breitgipflig, · linkssteil oder rechtssteil, · U-færmig oder abfallend. Abbildung 1.5 zeigt fçr diese Verteilungsformen prototypische Beispiele. (Als Darstellungsform wurden Dichtefunktionen stetig verteilter Merkmale gewåhlt, vgl. S. 63)
Unkorrekte Darstellungen Bei der Anfertigung eines Polygons oder eines Histogramms ist darauf zu achten, dass durch die Wahl der Maûståbe fçr Abszisse und Ordinate keine falschen Eindrçcke von einer Verteilungsform provoziert werden. So kann beispielsweise eine schmalgipflige Verteilung vorgetåuscht werden, indem ein sehr kleiner Maûstab fçr die Abszisse und ein groûer Maûstab fçr die Ordinate gewåhlt wird (vgl. Abb. 1.6a). Umgekehrt wird der Eindruck einer flachgipfligen Verteilung erweckt, indem die Ordinate stark gestaucht und die Abszisse stark gestreckt wird (Abb. 1.6b). Die Wahl der Achsenmaûståbe muss so objektiv wie mæglich erfolgen; eigene Vorstellungen çber den Verlauf der Verteilung sollten nicht zu einer Maûstabsverzerrung fçhren. Hays u. Winkler (1970, S. 263) empfehlen eine Ordinatenlånge, die ungefåhr 3/4 der Abszissenlånge betrågt. Des Weiteren kann die graphische Darstellung einer Håufigkeitsverteilung missinterpretiert werden, wenn die Håufigkeitsachse nicht bei 0 beginnt (vgl. Abb. 1.7a). In diesem Fall werden græûere Håufigkeitsunterschiede vorgetåuscht, als tatsåchlich vorhanden sind. Soll aus Grçnden der Platzersparnis dennoch eine verkçrzte Håufigkeitsachse eingesetzt werden, muss zumindest durch zwei Trennlinien angedeutet werden, dass die Håufigkeitsachse nicht vollståndig dargestellt ist (Abb. 1.7b). Dies gilt natçrlich auch fçr Polygonzçge. Betrachten wir hierzu Abb. 1.8, in der die Anzahl jåhrlich aufgeklårter Einbruchdelikte einer Stadt graphisch dargestellt ist. Ohne Frage kænnte der Polizeipråsident die Erfolge seiner Po-
a1.3
33
Graphische Darstellung der Daten
20 18 16 14
f [%]
12
a symmetrisch
b asymmetrisch
c unimodal
d bimodal
e schmalgipflig
f breitgipflig
g linkssteil
h rechtssteil
i u - förmig
j abfallend
10 8 6 4
160 -179
140 -159
120 -139
100 -119
80 - 99
60 - 79
40 - 59
20 - 39
0 -19
2 0
Abb. 1.3. Histogramm (gruppierte Daten)
50 45 40 35
f [%]
30 25 20 15 10 5 0 0
1
2
3
4
5
6 undund mehr mehr
Abb. 1.4. Histogramm (ungruppierte Daten)
lizei mit Abb. 1.8 b sehr viel çberzeugender darstellen als mit Abb. 1.8 a, obwohl in beiden Abbildungen dieselben Håufigkeiten abgetragen sind. Informativer als das Histogramm oder Polygon ist der Stem-and-Leaf-Plot, bei dem nicht nur die Håufigkeit pro Kategorie visualisiert wird, sondern auch die Verteilung der Messwerte innerhalb der Kategorien. BEISPIEL Nehmen wir als Beispiel folgende Verteilung der Punktzahlen von n = 20 Studierenden in einer Klausur: 10(3), 11(3), 12(2), 13, 17, 28(3), 29(2), 30(2), 31, 32, 52
Abb. 1.5 a±j. Verschiedene Verteilungsformen Die Zahlen in Klammern geben die Anzahl der Studierenden mit der entsprechenden Punktzahl an (3 Studierende haben 10 Punkte, 3 haben 11 Punkte etc.). Der entsprechende Stem-and-Leaf-Plot ist in Abb. 1.9 dargestellt. Die Zahlen links vom Strich, dem ¹Stammª, stehen fçr die 1. Dezimalstelle der Punktzahlen. Rechts vom Stamm sind die ¹Blåtterª aufgefçhrt, die der Græûe und Håufigkeit der 2. Dezimalstelle entsprechen. Im Einzelnen: Mit der 1. Dezimalstelle 1 (der Zehnerkategorie) verbunden sind 3-mal die ¹Blåtterª Null (3-mal 10 Punkte), 3-mal eins (3-mal 11 Punkte), 2-mal 2 (2-mal 12 Punkte) etc. Die ¹Stammzahlª Vier hat keine ¹Blåtterª, weil Punktzahlen in der 40er-Kategorie nicht erzielt wurden.
1
34
Kapitel 1 ´ Deskriptive Statistik
20
a
18
a 900
16
1
f (x)
14
f
12
800 700
10 8
600
6 4
500
2
1
2
3
4
5
1
2
3
4
5
0 0 65
85
105 125 145
b 800
40
b f (x)
36 32 28
700 600
f
24 500
20 16
0
12 8
Abb. 1.7 a, b. Unkorrekte Darstellungsart durch falsche Kennzeichnung der Null-Linie. a Histogramm mit falscher Grundlinie, b Histogramm mit unterbrochener Ordinate
4 0 0
65
75
85
95
105 115 125 135 145 155
Abb. 1.6 a, b. Unkorrekte Darstellungen der Håufigkeitsdaten in Tabelle 1.5 durch extreme Maûstabswahlen. a Polygon bei gestauchter Abszisse und gestreckter Ordinate, b Polygon bei gestreckter Abszisse und gestauchter Ordinate
Auch bei mehrstelligen Messwerten definiert die 1. Dezimalstelle den Stamm. Die Blåtter ergeben sich durch Abrundung der restlichen Stellen auf die 2. Dezimalstelle (Beispiel: Die Euro-Betråge 127, 319 und 566 werden gerundet auf Euro 130, Euro 320 und Euro 570 und dargestellt als 1|3, 3|2 sowie 5|7.
Kreisdiagramm Als letzte Darstellungsform sei das Kreisdiagramm erwåhnt. So mægen sich beispielsweise die Anteile aller in einer Stadt gelesenen Zeitungen folgendermaûen verteilen: Zeitung A = 60%, Zeitung B = 20%, Zeitung C = 8%, Zeitung D = 7% und sonstige Zeitungen = 5%. Ausgehend von diesen Werten låsst sich das in Abb. 1.10 dargestellte Kreisdiagramm anfertigen. Der Winkel, der die Græûe der Kreissektoren der einzelnen Zeitungen bestimmt, ergibt sich hierbei nach der Beziehung
%
k 3608 : 100% Die Zeitung mit einem Marktanteil von 8% erhålt also einen Sektor, der durch den Winkel 8% 360 =100% 28;8 bestimmt ist. Winkel
Hinweise Weitere Informationen kænnen z. B. den Normvorschriften DIN 55301 und DIN 55302 entnommen werden. Interessante Anregungen zur graphischen Aufbereitung empirischer Untersuchungsmaterialien (explorative Datenanalyse) findet man zudem bei Behrens (1987), Tukey (1977) bzw. Wainer u. Thissen (1981). Eine aufschlussreiche Zusammenstellung fehlerhafter Aufbereitungen haben Huff (1954) und Kråmer (1995) angefertigt.
" 1.4 Statistische Kennwerte Informiert eine Tabelle oder eine graphische Darstellung çber die gesamte Verteilung eines Merkmals in einem Kollektiv, so haben die statisti-
a1.4.1
35
Maûe der zentralen Tendenz
5% 7% 8%
20 %
60 %
Abb. 1.10. Kreisdiagramm
Abb. 1.8 a, b. Zeitliche Entwicklung der Anzahl jåhrlich aufgeklårter Einbruchsdelikte ± dargestellt mit korrekter Ordinate (a) und mit verkçrzter Ordinae (b)
Abb. 1.9. Stem-and-Leaf-Plot fçr Klausurpunkte
schen Kennwerte die Funktion, çber spezielle Eigenschaften der Merkmalsverteilung summarisch Auskunft zu geben. Am meisten interessieren hierbei Maûe, die alle Messwerte insgesamt gut repråsentieren ± die Maûe der zentralen Tendenz sowie Kennwerte, durch die die Unterschiedlichkeit oder Variabilitåt der Ausprågungen eines Merkmals in einem Kollektiv gekennzeichnet wird ± die Dispersionsmaûe.
" 1.4.1 Maûe der zentralen Tendenz Ausgehend von der in Abb. 1.1 dargestellten Håufigkeitsverteilung der Bearbeitungszeiten fragen wir, durch welchen Wert die gesamte Verteilung
am besten repråsentiert wird. Diese Frage kann nicht eindeutig beantwortet werden, solange nicht geklårt ist, was unter ¹am besten repråsentiertª zu verstehen ist. Wir fragen deshalb genauer nach demjenigen Wert, der die Merkmalsausprågung einer zufållig ausgewåhlten Person A am besten wiedergibt. Ist man daran interessiert, dass der gesuchte Wert mit dem Wert der Person A mit mæglichst groûer Wahrscheinlichkeit identisch ist, liegt es auf der Hand, denjenigen Wert zu wåhlen, der im Kollektiv am håufigsten vorkommt. Die Wahrscheinlichkeit dafçr, dass eine beliebige Person A einer bestimmten Kategorie angehært, ist fçr diejenige Kategorie maximal, die am håufigsten besetzt ist. Der Wert, der eine Verteilung in diesem Sinne am besten repråsentiert, wird als Modalwert bezeichnet. Ein anderes Kriterium fçr die Bestimmung des besten Repråsentanten einer Verteilung kænnte erfordern, dass die absolute Abweichung (d. h. die Abweichung ohne Berçcksichtigung des Vorzeichens) des gesuchten Wertes vom Wert der Person A mæglichst klein sein soll. Wir suchen somit einen Wert, von dem beliebige Werte im Durchschnitt am wenigsten abweichen. Diese Eigenschaft hat der Medianwert. Wird der Median als Schåtzung des Wertes einer Person A verwendet, kænnen groûe Fehler mit gleicher Wahrscheinlichkeit auftreten wie kleine Fehler. Ist uns jedoch daran gelegen, dass der gesuchte Wert den Wert der Person A ungefåhr richtig wiedergibt und dass groûe Schåtzfehler mæglichst vermieden werden sollen, mçssen wir
1
36
1
Kapitel 1 ´ Deskriptive Statistik
einen Wert finden, bei dem græûere Abweichungen stårker ¹bestraftª werden als kleinere Abweichungen. Diese implizite Gewichtung wird z. B. durch die Quadrierung der Abweichungen realisiert. Sucht man einen statistischen Kennwert, bei dem das Quadrat der Abweichungen minimal ist, wåre das arithmetische Mittel zu wåhlen. Die stårkere Gewichtung græûerer Abweichungen kann auch durch andere Exponenten herbeigefçhrt werden. Die aus beliebigen Exponenten ableitbaren Maûe der zentralen Tendenz sind jedoch fçr die Statistik unerheblich, sodass wir sie çbergehen kænnen. Lediglich der ¹mid-rangeª sei hier kurz erwåhnt, weil er gelegentlich in der englischsprachigen Literatur auftaucht. Dieses Maû erhalten wir, wenn als Exponent der Koeffizient 1 eingesetzt wird und die so gewichteten Abweichungen mæglichst klein werden sollen: X 11 n
xi xA 1 ! min: i1
Diese Abweichungsgewichtung fçhrt zu einem Wert xA , der die Mitte zwischen dem græûten und dem kleinsten aller Messwerte kennzeichnet.
Die gebråuchlichsten Maûe der zentralen Tendenz sind der Modalwert, der Medianwert und das arithmetische Mittel (håufig kurz als Mittelwert bezeichnet), die im Folgenden einzeln behandelt werden.
Modalwert Der Modalwert (Mo) einer Verteilung ist derjenige Messwert, der am håufigsten vorkommt bzw. in der Håufigkeitsverteilung der Wert, bei dem die Verteilung ihr Maximum hat. Handelt es sich um eine diskrete Variable, bei der keine Messwerte zu Kategorien zusammengefasst sind, ist der am håufigsten auftretende Messwert der Modalwert. Der Modalwert kann fçr alle kategorialen Merkmale, also auch fçr Nominalskalen, berechnet werden. Das kleine Zahlenbeispiel in Tabelle 1.7 soll dies verdeutlichen. Wurden die Messwerte in Kategorien zusammengefasst, gilt die Kategorienmitte der am håufigsten besetzten Kategorie als Modalwert. Der Verteilung in Tabelle 1.5 entnehmen wir also einen Modalwert von Mo = 105. Manchmal gibt es mehrere gleich håufig besetzte Kategorien, sodass nicht eindeutig zu entscheiden ist, an welcher Stelle der Modalwert liegt. Befindet sich zwischen zwei mit gleicher
Håufigkeit besetzten Kategorien mindestens eine weniger besetzte Kategorie, so sprechen wir von einer bimodalen Verteilung. Ist jedoch zwischen den beiden Intervallen mit den hæchsten Frequenzen kein weiteres Intervall, so handelt es sich um eine Verteilung mit nur einem Modalwert, die allerdings breitgipflig ist. Der Modalwert entspricht hier der Grenze zwischen diesen beiden Intervallen. Ûblicherweise spricht man von einem Modalwert nur bei solchen Verteilungen, die tatsåchlich einen Gipfel im Sinne eines Maximums besitzen (links und rechts von diesem Maximum muss die Verteilung wieder abfallen). Handelt es sich eindeutig um ansteigende oder abfallende Verteilungen, bei denen eine der beiden Randkategorien maximale Håufigkeiten aufweist (wie z. B. in Abb. 1.5 j), ist die Angabe eines Modalwertes nicht çblich.
Medianwert Wir suchen einen Wert, von dem alle çbrigen Werte in der Weise abweichen, dass die Summe der Absolutbetråge der Abweichungen ein Minimum ergibt. Man kann zeigen, dass dies derjenige Wert ist, der eine Håufigkeitsverteilung halbiert (vgl. Fechner, 1874; zum Beweis vgl. Sixtl, 1993, A3). Liegen in einer Verteilung çber einem Wert genauso viele Fålle wie unter diesem Wert, so wird dieser Wert als Median (Md) bezeichnet. Der Medianwert setzt mindestens ordinalskalierte Merkmale voraus. Der Median kann bei einer ungeraden Anzahl von Messwerten, die nicht in Kategorien zusammengefasst sind, bestimmt werden, indem die Messwerte der Græûe nach geordnet und die unteren (n±1)/2 Werte abgezåhlt werden. Der nåchst Tabelle 1.7. Modalwert einer Håufigkeitsverteilung
Modalwert
Messwert
x
Håufigkeit
f
x
11 12 13 14 15 16 17 18 19
2 8 18 17 22 28 21 11 3
a1.4.1
græûere Wert ist dann der Medianwert. Haben beispielsweise 9 Vpn die Messwerte 3, 5, 6, 7, 9, 11, 15, 16, 19 erhalten, so lautet der Median Md 9. Ist der Kollektivumfang geradzahlig, werden die unteren 50% der geordneten Fålle abgezåhlt. Das arithmetische Mittel zwischen dem græûten der zu den unteren 50% gehærenden Werte und dem darauffolgenden Wert kennzeichnet den Medianwert. Kommt beispielsweise zu den 9 Vpn eine weitere Vp mit dem Wert 17 hinzu, lautet der Medianwert Md
9 11 : 2 10. Bei gruppierten Daten kann der Median in eine ¹kritischeª Kategorie fallen, deren Håufigkeit bei der Kumulation çber die 50%-Marke hinausgeht. Die genaue Position des Medians in dieser Kategorie erhålt man durch: · Auszåhlen der Vpn, die aus dieser Kategorie benætigt werden, um genau 50% zu erreichen; · Division dieser Vpn-Zahl durch die Anzahl aller Vpn in der ¹kritischenª Kategorie; · Multiplikation dieses Quotienten mit der Kategorienbreite; · Addition dieses Wertes zur unteren Grenze der kritischen Kategorie. Auf Tabelle 1.5 angewendet, stellen wir fest, dass die ¹kritischeª Kategorie dem Intervall 100,0±109,9 entspricht. Aus dieser Kategorie benætigen wir 13 Vpn, um auf 50% bzw. auf 90/2 = 45 Vpn zu kommen (32+13 = 45). Wir dividieren 13 durch 17 (= Anzahl der Vpn in der kritischen Kategorie) und multiplizieren das Ergebnis mit 10 (= Kategorienbreite), d. h. wir erhalten (13/17)´10 = 7,65. Dieser Wert wird zu 100,0 (= untere Grenze der kritischen Kategorie) addiert: 100,0+7,65 = 107,65. Diese als lineare Interpolation bezeichneten Rechenschritte fçhren in Tabelle 1.5 also zu Md = 107,65.
Arithmetisches Mittel (Hinweis: Da in diesem Abschnitt erstmalig mit dem Summenzeichen gerechnet wird, sollte man sich vor der Lektçre dieses Abschnitts mit dieser Rechenart anhand des Anhanges A vertraut machen.) Das arithmetische Mittel (AM oder auch x) ist das gebråuchlichste Maû zur Kennzeichnung der zentralen Tendenz einer Verteilung. Es wird
1
37
Maûe der zentralen Tendenz
berechnet, indem die Summe aller Werte durch die Anzahl aller Werte dividiert wird: n P
xi AM x i1 : n
1:8
Die Berechnung des AM setzt voraus, dass das untersuchte Merkmal kardinalskaliert ist. Das AM hat die Eigenschaft, dass die Summe der quadratischen Abweichungen aller xi -Werte von x ein Minimum ergibt (zum Beweis s. Gl. 3.14 und 3.15). Ebenfalls ein Minimum ergibt die Summe der gerichteten (mit Vorzeichen versehenen) Abweichungen. Wie sich aus der Berechnungsvorschrift fçr das AM leicht ableiten låsst, muss diese Summe immer 0 ergeben: n X
xi x 0 : n i1 P
Da x n X
xi
i1
n
, kænnen wir auch schreiben: n P i1
xi
xi !
n
i1
n X
n P
xi
i1
xi n i1 0 n (vgl. Anhang A, Gl. A3) .
Unhandliche Werte kænnen nach der Beziehung y a x b in einfacher zu handhabende y-Werte linear transformiert werden, um dann das AM der y-Werte
y zu berechnen. Der Mittelwert der ursprçnglichen x-Werte steht ± wie der folgende Gedankengang zeigt ± mit dem Mittelwert der durch Lineartransformation gewonnenen y-Werte in folgender Beziehung: n P
n P
yi
a xi b y i1 i1 n n n P a xi n b i1 n n P xi nb a i1 n n a x b:
1:9
Das AM linear transformierter Werte ist mit dem linear transformierten Mittelwert der ursprçnglichen Werte identisch. Durch Rçcktransformation erhålt man also x nach der Beziehung x
y b=a. Die Berechnung des AM kann bei gruppierten Daten durch folgende Formel vereinfacht werden: m P
f k xk
x k1m P
k1
fk
m P
k1
fk x k n
:
1:10
38
Kapitel 1 ´ Deskriptive Statistik
Hierin sind:
1
fk = Håufigkeit in der Kategorie k, xk = Kategorienmitte der Kategorie k, m = Anzahl der Kategorien. Nach dieser Formel erhalten wir fçr die Håufigkeitsverteilung in Tabelle 1.5 folgenden Mittelwert:
x
5 65 8 75 6 145 106;78 : 90
AM Md Mo
a
rechtssteile Verteilung
Bei der Berechnung des AM nach Gl. (1.10) gehen wir davon aus, dass alle Werte in einer Kategorie mit der Kategorienmitte identisch sind bzw. dass der Mittelwert aller Werte einer Kategorie mit der Kategorienmitte çbereinstimmt. Ist dies nicht der Fall, kann sich zwischen einem nach Gl. (1.8) anhand der Einzelwerte berechneten AM und einem nach Gl. (1.10) auf Grund gruppierter Werte berechneten AM ein geringfçgiger Unterschied ergeben.
Aus der Position des AM, des Mo und des Md in einer Verteilung wird ersichtlich, ob eine Verteilung rechtssteil, linkssteil oder symmetrisch ist. Wie Abb. 1.11 zeigt, besteht bei rechtssteilen Verteilungen die Beziehung AM < Md < Mo, bei linkssteilen Verteilungen die Beziehung Mo< Md
Mo Md AM
b linkssteile Verteilung
Weitere Maûe der zentralen Tendenz Geometrisches Mittel. Werden subjektive Empfindungsstårken gemittelt, kann man auf Grund psychophysischer Gesetzmåûigkeiten zeigen, dass die durchschnittliche Empfindungsstårke verschiedener Reize nicht durch das arithmetische Mittel, sondern besser durch das geometrische Mittel
GM abgebildet wird. Soll beispielsweise in einem psychophysischen Experiment eine Vp die durchschnittliche Helligkeit von drei verschiedenen Lampen mit den Helligkeiten 100 Lux, 400 Lux und 1000 Lux einstellen, erwarten wir, dass die eingestellte durchschnittliche Helligkeit nicht dem AM
500 Lux), sondern dem GM entspricht. Das geometrische Mittel setzt voraus, dass alle Werte positiv sind, und wird nach folgender Beziehung berechnet: s n Y p n n GM x1 x2 x3 . . . xn xi ;
1:11 i1
AM Mo Md
c
symmetrische Verteilung
Abb. 1.11 a±c. Arithmetisches Mittel, Modal- und Medianwert bei verschiedenen Verteilungsformen
wobei
n Q i1
xi Produktkette der Werte x1 bis xn
x1 x2 . . . xn . Das geometrische Mittel in unserem Zahlenbeispiel lautet: p GM 3 100 400 1000 342 : Ein wichtiges Anwendungsfeld fçr das geometrische Mittel sind durchschnittliche Wachstumsraten, wie beispielsweise durchschnittliche Umsatzsteigerungen pro Jahr, durchschnittliche Verånderungen der Bevælkerungszahlen pro Jahr oder Preissteigerungen pro Jahr, wobei die Wachstums-
a1.4.2
rate als prozentuale Verånderung gegençber dem Vorjahr definiert ist (ausfçhrlicher hierzu vgl. z. B. Sixtl, 1993, S. 61 ff.).
Harmonisches Mittel. Ein Autofahrer fåhrt staubedingt 50 km mit einer Geschwindigkeit von 20 km/h und danach 50 km mit 125 km/h. Wie lautet die Durchschnittsgeschwindigkeit fçr die Gesamtstrecke von 100 km? Die vielleicht spontan einfallende Antwort (20 km/h+125 km/h)/2 = 72,5 km/h ist falsch, denn die Durchschnittsgeschwindigkeit ergibt sich als Gesamtstrecke/Gesamtzeit. Fçr die 2´50 km benætigt der Fahrer 50/20+50/125 = 2,5+0,4 = 2,9 Stunden, sodass sich eine Durchschnittsgeschwindigkeit von 100 km/2,9 h = 34,48 km/h ergibt. Dieser Wert entspricht dem harmonischen Mittel der beiden Geschwindigkeiten. Die allgemeine Berechnungsvorschrift fçr das harmonische Mittel lautet: HM
n : n P 1 i1
1:12
xi
Wenden wir Gl. (1.12) auf das Beispiel an, resultiert 2 50 km 2 1 1 50 km 50 km 20 km=h 125 km=h 20 km=h 125 km=h 34;48 km=h Das harmonische Mittel kommt zur Anwendung, wenn Indexzahlen (Kilometer pro Stunde, Preis pro Liter, Einwohner pro Quadratkilometer etc.) zu mitteln sind, und die Zåhlervariable (Kilometer, Preis, Einwohnerzahl) konstant ist. Ist die Nennervariable (Fahrzeit, Litermenge, Flåchengræûe) konstant, ergibt sich der durchschnittliche Index çber das arithmetische Mittel der Einzelindizes. Fçr beispielsweise 3 Tankfçllungen 50 Liter mit Preisen von 1 0,82 pro Liter, 1 0,87 pro Liter und 1 0,92 pro Liter ergibt sich ein durchschnittlicher Literpreis von 50 l 0;82 1=l 50 l 0;87 1=l 50 l 0;92 1=l 3 50 l 0;82 1=l 0;87 1=l 0;92 1=l 3 0;87 1=l :
1
39
Dispersionsmaûe
Gewichtetes Mittel. Gelegentlich ist es von Interesse, Mittelwerte eines Merkmals aus mehreren Kollektiven zusammenzufassen. Der Gesamtmittelwert verschiedener Einzelmittelwerte wird als das gewichtete arithmetische Mittel (GAM) bezeichnet. Bei der Berechnung des GAM machen wir von der Tatsache Gebrauch, dass der n-fache Mittelwert einer Messwertreihe der Summe aller Messwerte entspricht: n P nx xi . Sind nur die Mittelwerte und die enti1
sprechenden Kollektivgræûen bekannt, låsst sich somit die Gesamtsumme aller Messwerte berechnen, die, dividiert durch die Summe aller Kollektivgræûen, zum Gesamtmittelwert fçhrt: k P
GAM
j1
nj x j
k P j1
;
1:13
nj
wobei k = Anzahl der Kollektive, nj = Græûe des Kollektivs j, xj = AM des Kollektivs j. BEISPIEL Fçr 4 Schulklassen, in denen sich 20, 25, 28 und 32 Schçler befinden, mægen sich ± in gleicher Reihenfolge ± die folgenden durchschnittlichen Abwesenheitszeiten pro Monat ergeben haben: 4 h, 7 h, 2 h und 11 h. Die gesamte durchschnittliche Abwesenheit aller Schçler lautet somit: GAM
20 4 25 7 28 2 32 11 6; 31: 20 25 28 32
" 1.4.2 Dispersionsmaûe Øhneln sich 2 Verteilungen hinsichtlich ihrer zentralen Tendenz, kænnen sie dennoch wegen unterschiedlicher Streuungen (Dispersionen) der einzelnen Werte stark voneinander abweichen. Wåhrend Maûe der zentralen Tendenz angeben, durch welchen Wert eine Verteilung am besten repråsentiert ist, informieren die Dispersionsmaûe çber die Unterschiedlichkeit der Werte. Fçr die empirische Forschung sind Dispersionsmaûe den Maûen der zentralen Tendenz zumindest ebenbçrtig. Ein wichtiges allgemeines
40
1
Kapitel 1 ´ Deskriptive Statistik
Forschungsanliegen ist die Beantwortung der Frage, wie die bezçglich eines Merkmals angetroffene Unterschiedlichkeit von Personen oder anderen Untersuchungseinheiten erklårt werden kann. Wir stellen fest, dass Schçler unterschiedlich leistungsfåhig sind, dass Patienten auf eine bestimmte Behandlung unterschiedlich gut ansprechen, dass Wåhler unterschiedliche Parteien pråferieren etc. und suchen nach Grçnden, die fçr die jeweils registrierte Verschiedenartigkeit verantwortlich sein kænnten. Nahezu alle statistischen Verfahren zur Ûberprçfung von Hypothesen tragen dazu bei, auf diese Frage eine Antwort zu finden. Das Bemçhen, Unterschiedlichkeit erklåren zu wollen, setzt jedoch zunåchst voraus, dass sich die in einer Untersuchung festgestellten Unterschiede angemessen beschreiben oder quantifizieren lassen. Hierfçr wurden verschiedene Dispersionsmaûe entwickelt, von denen ± wie die folgenden Kapitel zeigen werden ± die Varianz von besonderer Bedeutung ist.
Variationsbreite und Perzentile Das einfachste Dispersionsmaû ist die Variationsbreite (¹rangeª), der entnommen werden kann, in welchem Bereich sich die Messwerte befinden. Sie wird ermittelt, indem man die Differenz aus dem græûten und kleinsten Wert bildet. Dieses Maû hångt stark von Extremwerten in der Verteilung ab. Stabiler sind eingeschrånkte Streubereiche, wie z. B. nur die mittleren 90% aller Werte. Dieser Bereich ist durch Werte begrenzt, die die unteren 5% (das 5. Perzentil) bzw. die oberen 5% (das 95. Perzentil) der Verteilung abschneiden. Allgemein ist das x-te Perzentil
Px diejenige Merkmalsausprågung, die x % der Verteilungsflåche abschneidet. Man kann eine Verteilung in 4 Quartile (mit den Grenzen P25 , P50 und P75 ) oder auch in 10 Dezile (mit den Grenzen P10 , P20 , ..., P90 ) einteilen. Die Berechnung eines Perzentils erfolgt nach den gleichen Richtlinien wie die Berechnung eines Medianwertes, dem 50. Perzentil. Man verwendet hierfçr die auf S. 37 genannten Rechenschritte, wobei lediglich 50% durch x% zu ersetzen sind. Der Streubereich fçr die mittleren 80% aller Werte (begrenzt durch P10 und P90 heiût Interdezilbereich und der Streubereich der mittleren 50% (begrenzt durch P25 und P75 ) Interquartilbereich.
Der mittlere Quartilabstand ist durch
P75 P25 =2 definiert. Fçr die Daten in Tabelle 1.5 lautet der Interdezilbereich P90 P10 60;7 und der Interquartilbereich P75 P25 30;6. Eine Mæglichkeit zur gleichzeitigen Veranschaulichung von zentraler Tendenz und Dispersion einer Verteilung bietet der von Tukey (1977) eingefçhrte ¹Box-Plotª (vgl. Abb. 1.12). Der Box-Plot visualisiert die folgenden 5 Verteilungskennwerte (in Klammern sind die Werte fçr Tabelle 1.5 genannt): · xmax (148,2 s), · xmin (62,6 s), · P25 (92,1 s), · P75 = (122,7 s), · P50(= Median) (107,7 s). Die ¹Boxª wird durch P25 und P75 begrenzt. Im Beispiel resultiert ein Medianwert, der die Box nahezu halbiert, was fçr eine stark symmetrische Verteilung spricht. Die Striche oberhalb und unterhalb der Box markieren die Grenzwerte fçr die gesamte Verteilung.
Abb. 1.12. Box-Plot der Håufigkeitsverteilung in Tabelle 1.5
a1.4.2
41
Dispersionsmaûe
AD-Streuung
Varianz und Standardabweichung
Informationsreicher als die Streubreiten aller oder einiger Werte ist die AD-Streuung (¹average-deviationª), die den Durchschnitt der in Absolutbetrågen gemessenen Abweichungen aller Messwerte vom AM angibt.
Die gebråuchlichsten Maûe zur Kennzeichnung der Variabilitåt bzw. Dispersion einer Verteilung sind die Varianz
s2 und die Standardabweichung
s. Wie auch bei der AD-Streuung werden ± im Unterschied zur Variationsbreite und dem Interdezilbzw. Interquartilbereich ± bei der Ermittlung der Varianz såmtliche Werte einzeln berçcksichtigt, was eine treffendere Beschreibung der gesamten Variabilitåt aller Werte ermæglicht. Varianz und Standardabweichung setzen ± wie auch die ADStreuung ± intervallskalierte Merkmale voraus. Die Varianz
s2 einer empirischen Verteilung ist wie folgt definiert: n P
xi x2 :
1:16 s2 i1 n
n P
AD i1
jxi n
xj :
1:14
Das Beispiel in Tabelle 1.8 verdeutlicht die Ermittlung einer AD-Streuung. Berechnet werden soll die AD-Streuung der Examensnoten von 12 Prçflingen. Liegen die Daten in gruppierter Form vor, kann folgende Formel benutzt werden: m P fk
jxk xj k1 AD ;
1:15 n wobei fk = Håufigkeit in Kategorie k, xk = Kategoriemitte der Kategorie k, x = das nach Gl. (1.10) berechnete arithmetische Mittel. Die nach dieser Formel ermittelte AD-Streuung der Werte in Tabelle 1.5 lautet AD 17;5. Tabelle 1.8. Berechnung einer AD-Streuung Noten
x
j xi
3,3 1,7 2,0 4,0 1,3 2,0 3,0 2,7 3,7 2,3 1,7 2,3
0,8 0,8 0,5 1,5 1,2 0,5 0,5 0,2 1,2 0,2 0,8 0,2
n P
n P
xi 30
i1
x 2;5
j xi
i1
x j
x j 8;4
8;4 0;70 AD 12
Die Summe der quadrierten Abweichungen aller Messwerte vom arithmetischen Mittel, dividiert durch die Anzahl aller Messwerte, ergibt die Varianz.
Vergleichen wir dieses Dispersionsmaû mit den bisher besprochenen, mçssen wir einen entscheidenden Nachteil des Varianzmaûes feststellen. Variationsbreite und Interdezil-(Interquartil-)bereich geben denjenigen Ausschnitt der Messskala wieder, in dem sich ein bestimmter Prozentsatz aller Werte (100%, 80%, 50%) befindet. Es sind somit Maûzahlen mit der gleichen Einheit wie die ursprçnglichen Werte (z. B. Zeiteinheiten, Långeneinheiten, Testpunkteinheiten usw.). Das gleiche gilt auch fçr die AD-Streuung, die in der Einheit der ursprçnglichen Werte die durchschnittliche Absolutabweichung angibt. Bei der Varianz hingegen erhalten wir durch die Quadrierung der Einzelabstånde ein Maû, dem das Quadrat der ursprçnglichen Einheit der Messwerte zugrundeliegt. Da ein solches Maû nur schwer interpretierbar ist, wird die Quadrierung wieder rçckgångig gemacht, indem man die Wurzel aus der Varianz berechnet. Der positive Wert dieser Wurzel wird als Standardabweichung (oder kurz als Streuung) bezeichnet: v uP un 2 u p ti1
xi x s s2 :
1:17 n
1
42
Kapitel 1 ´ Deskriptive Statistik
a
C
1
F E
B D A
- 8 - 7 - 6 - 5 - 4 - 3 - 2 -1 0 1 2 3 4 5 6 7 8
Abweichung von –x
b
Varianz
0 1 2 3 4 5 6 7 8 9 10 11 12
Anzahl der emot. Äußerungen
AD Standardabweichung
Abb. 1.13 a, b. Veranschaulichung der AD-Streuung, der Varianz und der Standardabweichung
Abbildung 1.13 a,b veranschaulicht die Beziehungen zwischen der AD-Streuung, der Varianz und der Standardabweichung. In einer gruppendynamischen Untersuchung wird ausgezåhlt, wie håufig sich die Teilnehmer wåhrend einer Diskussion emotional åuûern. Es ergaben sich folgende Werte: Teilnehmer
A: 9 B: 7 C: 18 D: 8 E: 13 F: 5.
Diesen Werten entspricht ein Mittelwert von x 10. In Abb. 1.13 a sind die Abweichungen der individuellen Werte vom Mittelwert graphisch dargestellt (z. B. fçr A : 9 10 1; fçr B : 7 10 3; fçr C : 18 10 8 usw.). Die Summe dieser Abweichungswerte muss Null ergeben (vgl. S. 37). Lassen wir jedoch das Vorzeichen der Abweichungen auûer Acht, resultiert als Durchschnitt der absoluten Abweichungen die AD-Streuung
AD 3;67. Der Berechnungsvorschrift fçr eine Varianz entnehmen wir, dass die individuellen Abweichun-
gen zunåchst quadriert werden mçssen. Dies ist ebenfalls in Abb. 1.13 a geschehen. Die Flåchen der einzelnen Quadrate repråsentieren die quadrierten Abweichungen fçr die einzelnen Personen. Fçgen wir die Teilflåchen A±F zu einer Gesamtflåche zusammen, resultiert die Summe der quadrierten Abweichungen, die wir kurz als Quadratsumme (QS) bezeichnen
QS 112. Die Durchschnittsflåche der 6 Einzelflåchen entspricht der durchschnittlichen Quadratsumme bzw. der Varianz
s2 112 : 6 18; 67. Zur Veranschaulichung ist diese Flåche in Abb. 1.13 b dargestellt. Die Långe einer Seite dieses durchschnittlichen Quadrates ergibt sich als die Wurzel aus der Flåchengræûe und repråsentiert die Standardabweip chung
s 18;67 4;32). Wie Abb. 1.13 b verdeutlicht, ist die Standardabweichung græûer als die AD-Streuung. Dies ist darauf zurçckzufçhren, dass bei der Standardabweichung durch die Quadrierung græûere Abweichungen çberproportional stårker berçcksichtigt werden als kleinere Abweichungen, wåhrend die AD-Streuung alle Abweichungen gleich gewichtet. Die Differenz zwischen einer AD-Streuung und einer Standardabweichung nimmt deshalb bei steigender Dispersion einer Verteilung zu.
Bedeutung der Standardabweichung. Im Folgenden seien einige Eigenschaften der Standardabweichung veranschaulicht. Wir wollen einmal davon ausgehen, dass eine Verteilung unimodal und symmetrisch ist und zudem einen glockenfærmigen Verlauf aufweist (vgl. Abb. 1.14). Eine solche Verteilung wird als Normalverteilung (s. S. 73 ff.) bezeichnet. Fçr Normalverteilungen gilt, dass zwischen den Werten x s und x s ca. 2/3 aller Fålle (genau 68,26%) liegen. Erweitern wir den Bereich auf x 2s, befinden sich in diesem Bereich ca. 95% (genau 95,44%) aller Fålle. Wenn also in einem Kollektiv die Intelligenzquotienten mit einem Mittelwert von x 90 und einer Streuung von s 8 angenåhert normalverteilt sind, befinden sich im Bereich von 82 bis 98 IQ ca. 68% aller Personen. Hieraus kænnen wir z. B. folgern, dass bei Vorliegen einer Normalverteilung die Wahrscheinlichkeit dafçr, dass ein Messwert um mehr als eine Standardabweichungseinheit vom Mittelwert abweicht, kleiner als 100 % 68 % 32 % ist.
a1.4.2
-2s
-1s
1s
2s
68 % 95,5 %
Abb. 1.14. Streuungsbereiche in der Normalverteilung
Ist ein Merkmal nicht normal, sondern nur eingipflig und symmetrisch verteilt, gilt bei hinreichend groûem Kollektivumfang folgende Beziehung: p
jxi
4 xj > s < : 9
1:18
Die Wahrscheinlichkeit (symbolisiert durch p; vgl. S. 52), dass ein Messwert xi um mehr als eine Standardabweichungseinheit vom Mittelwert x abweicht, ist somit kleiner als p 49 0; 44. Entsprechende Angaben lassen sich fçr die Wahrscheinlichkeit des Auftretens von græûeren Abweichungen machen. Soll, allgemein formuliert, die Abweichung eines Wertes xi von x græûer als k Standardabweichungseinheiten sein
jxi xj > k s, ergibt sich fçr das Auftreten eines solchen Wertes folgende Maximalwahrscheinlichkeit: p
jxi
4 xj > k s < : 9 k2
1:19
In dem oben erwåhnten Intelligenzbeispiel kænnen somit ± wenn wir davon ausgehen, dass die Intelligenzwerte lediglich eingipflig-symmetrisch und nicht normalverteilt sind ± Intelligenzquotienten çber 114 bzw. unter 66 (fçr k 3 hæchstens mit 4 0; 049 bzw. einer Wahrscheinlichkeit von 99 4,9% auftreten. Fçr beliebige Verteilungsformen ergibt sich folgende Wahrscheinlichkeitsrelation: p
jxi
1
43
Dispersionsmaûe
xj > k s <
1 k2
k 1 :
1:20
Ungleichungen dieser Art gehen auf Tschebycheff zurçck und werden z. B. bei Savage (1961) ausfçhrlich behandelt.
Berechnung von Varianz- und Standardabweichung. Die Berechnungsvorschrift fçr eine Varianz- oder Standardabweichung wurde bereits in den Gl. (1.16) und (1.17) genannt. Nach diesen Gleichungen muss die gesamte Messwertreihe zweimal ¹durchlaufenª werden: einmal, um den Mittelwert zu bestimmen, und ein weiteres Mal, um die Abweichungsquadrate der Messwerte vom Mittelwert zu berechnen. Handlicher und weniger anfållig gegençber mæglichen Rundungsungenauigkeiten ist folgende, aus Gl. (1.16) abgeleitete Beziehung, in der nur die Summe der Werte bzw. die Summe der quadrierten Werte benætigt wird: n 2 n n P P P 2 xi xi =n x2i i1 i1 i1 s2 x2
1:21 n n Gl. (1.17) gilt analog. Man erhålt Gl. (1.21) nach folgenden Umformungen: n P 2
s
n
n P
2 xi x x2
x2i i1 n P
x2
xi
i1
i1
n
x2i
2x
n P i1
xi n x2 :
n
1:22
Da Rxi n x, kænnen wir auch schreiben: n P
s2 i1 n P
i1
2 n x2 n x2
x2i
n n x2
x2i n
n P
i1
x2i
n P i1
n
xi
2
=n :
Um die Rechenarbeit zu vereinfachen, kænnen groûe Zahlen in Analogie zu Gl. (1.9) linear nach der Beziehung y a x b transformiert werden. Die Varianz der x-Werte ist mit der Varianz der y-Werte durch folgende Beziehung verknçpft: n P
s2y
i1 n P
i1
yi
y2
n
a xi b
a x b2
n
(da y = ax + b und y = ax b; vgl. Gl. 1.9)
44
Kapitel 1 ´ Deskriptive Statistik
n P
1
s2y
i1
a2
n P
n x2
xi
i1
n P
a x2
a xi
n
i1
m P
x2
a
xi
2
s
n
a2 s2x :
1:23
Die Verånderung einer Messwertreihe durch eine additive Konstante b hat somit keinen Einfluss auf die Varianz der Messwerte. Werden die Messwerte hingegen mit einem konstanten Faktor a multipliziert, so hat die neue Messwertreihe eine um den Faktor a2 verånderte Varianz. Fçr die Varianz der ursprçnglichen x-Werte ergibt sich also: s2x s2y =a2 : Fçr die Daten in Tabelle 1.8 ermitteln wir nach Gl. (1.16) die Varianz s2 0;66 (vgl. Tabelle 1.9). Als p Standardabweichung erhalten wir s = 0;66 0;81. Zum gleichen Ergebnis kommen wir nach Gl. (1.21): s2
Rxi 2 =n 82;92 302 =12 n 12
Rx2i
7;92 0;66 : 12
Bei gruppierten Werten kænnen folgende, den Rechenaufwand vereinfachende Formeln eingesetzt werden: Tabelle 1.9. Berechnung einer Varianz Noten
x xi 3,3 1,7 2,0 4,0 1,3 2,0 3,0 2,7 3,7 2,3 1,7 2,3 n P i1
x
xi
0,8 ±0,8 ±0,5 1,5 ±1,2 ±0,5 0,5 0,2 1,2 ±0,2 ±0,8 ±0,2 xi 30
x 2;5
n P
xi
i1
x
n P
2
x2 7;92
n P
s
1:24
n
bzw. von Gl. (1.21) ausgehend, m P
s2 k1 m P
k1
fk x2k
m P k1
f k xk
2
=n
n fk x2k n
x2
1:25
Fçr die Daten in Tabelle 1.5 ermitteln wir eine Varianz von s2 461,3 und eine Standardabweichung von s 21,5.
Variationskoeffizient Ein weiteres Streuungsmaû, der Variationskoeffizient, relativiert die Standardabweichung am Mittelwert: s
x > 0 : V
1:26 x Der Variationskoeffizient drçckt die Standardabweichung in Mittelwertseinheiten aus und ist damit maûstabsunabhångig. Fçr die Daten in Tabelle 1.9 ermitteln wir: V
0;81 0;324 : 2;5
" 1.4.3 z-Werte
xi
i1
x2
fk
xk
Dieses Maû wird gelegentlich eingesetzt, wenn Streuungen von Verteilungen mit unterschiedlichen Mittelwerten zu vergleichen sind und Mittelwert und Streuung voneinander abhången.
2
0,64 0,64 0,25 2,25 1,44 0,25 0,25 0,04 1,44 0,04 0,64 0,04 x 0
k1
xi x2
i1
n
7;92 0;66 12
Gelegentlich steht man vor der Aufgabe, Testwerte zweier Personen, die verschiedenen Kollektiven angehæren, miteinander zu vergleichen. Bezogen auf das Beispiel der Examensnoten (vgl. Tabelle 1.8) mæge beispielsweise eine Person A die Note 1,7 erhalten haben. Eine zu einem ålteren Examensjahrgang gehærende Person B habe das Examen ebenfalls mit der Note 1,7 abgeschlossen. Kann man auf Grund dieser Ergebnisse behaupten, dass beide Leistungen gleichwertig seien? Absolut gesehen wåre diese Frage zweifelsfrei zu bejahen. Es ist jedoch nicht auszuschlieûen,
a1.4.4
dass die Examensbedingungen beim ålteren Jahrgang einfacher (oder schwerer) waren, sodass die beiden Leistungen nicht ohne weiteres gleichgesetzt werden kænnen. Die einfachste Art, zwei Werte miteinander vergleichbar zu machen, ist die Berechnung von Prozentrången: Fçr jede Person wird ermittelt, wieviel Prozent aller Mitglieder des Kollektivs einen græûeren (oder kleineren) Wert erhalten haben. Prozentrangwerte kænnen problemlos anhand der kumulierten Prozentwertverteilung bestimmt werden (s. Gl. 1.6). Interessant kænnte auch ein Vergleich der Abweichungen der individuellen Leistung von den Durchschnittsleistungen der jeweiligen Kollektive sein. Nehmen wir einmal an, die Durchschnittsleistung des ålteren Examensjahrganges sei xa 2;7. Fçr Person B ermitteln wir somit eine Abweichung von xB xa 1;0. Da die Durchschnittsleistung des jçngeren Examensjahrgangs xj 2;5 betrågt (vgl. Tabelle 1.9), berechnen wir fçr Person A eine Abweichung von xA xj 0;8. Die Note von Person B ist also eine ganze Note und die der Person A um 0,8 Notenanteile besser als der jeweilige Kollektivdurchschnitt. Kann man auf Grund dieses Vergleiches sagen, Person B habe die bessere Leistung erbracht, weil sie deutlicher unter dem Mittelwert ihres Kollektivs liegt? Auch diese Frage ist nicht ohne weiteres beantwortbar, da es beispielsweise denkbar wåre, dass Person B im Vergleich zu ihrem Kollektiv nur die fçnftbeste Leistung erzielt hat, wåhrend Person A in ihrem Kollektiv an 2. bzw. 3. Stelle (da der Wert 1,7 in Tabelle 1.9 zweimal auftritt, genau genommen an 2,5. Stelle) rangiert. Um die Abweichungen zweier Leistungen vom Mittelwert besser vergleichbar machen zu kænnen, mçssen sie zuvor an der Unterschiedlichkeit aller Werte im jeweiligen Kollektiv relativiert werden. Dies geschieht, indem die Abweichungen durch die Standardabweichung im jeweiligen Kollektiv dividiert werden. Ein solcher Wert wird als z-Wert bezeichnet: zi
xi
x s
:
1
45
Schiefe und Exzess
1:27
Nehmen wir an, die Streuung der Noten betrage im ålteren Jahrgang så = 1,10 und im jçngeren Examensjahrgang s 0;81 (vgl. Tabelle 1.9); wir erhalten dann folgende Vergleichswerte:
1;7 2;5 0;81 1;7 2;7 zB 1;10
zA
0;99 ; 0;91 :
Danach wåre somit die relative Leistung der Person A besser zu bewerten als die der Person B, weil die Leistung von A um 0,99 Streuungseinheiten und die von B nur um 0,91 Streuungseinheiten unter dem jeweiligen Mittelwert liegt. Werden alle Werte einer Verteilung z-transformiert, erhålt man ± wie die folgende Ableitung zeigt ± eine neue Verteilung mit z 0 und s2z 1: n n n P P P zi
xi x xi n x z i1 i1 i1 0 n n sx n sx n P n xi X n i1 xi wegen n x n i1 n P
s2z
i1
zi
n P
i1
n z2i
n n P
xi
i1
z2
wegen z 0 x2
s2x n n X wegen
xi i1
1 x2 =n s2x :
Eine z-transformierte Verteilung hat einen Mittelwert von 0 und eine Streuung von 1.
1.4.4 Schiefe und Exzess Es wurde bereits erwåhnt, dass die Schiefe einer Verteilung durch die Positionen vom arithmetischen Mittel, Modalwert und Medianwert beschrieben werden kann (vgl. Abb. 1.11). Eine grobe Abschåtzung fçr die Græûe der Schiefe (Sch) einer Verteilung nannte bereits Pearson (1895): Sch
x
Mo : s
1:28
46
1
Kapitel 1 ´ Deskriptive Statistik
Ist Sch < 0, bezeichnen wir die Verteilung als rechtssteil, ist Sch > 0, bezeichnen wir die Verteilung als linkssteil, ist Sch 0, bezeichnen wir die Verteilung als symmetrisch. Ein weiteres Charakteristikum fçr die Form einer Verteilung ist die Wælbung bzw. der Exzess. Der Exzess (Ex) (breitgipflig vs. schmalgipflig) kann çber Perzentilwerte nach folgender Gleichung nåherungsweise geschåtzt werden: P75 P25 Ex :
1:29 2
P90 P10 Der Exzess einer Normalverteilung (vgl. S. 73 ff.) betrågt Ex 0;263. Je græûer der Exzess einer Verteilung, um so breitgipfliger ist ihr Verlauf. Genauer lassen sich Schiefe und Exzess durch die sog. Potenzmomente (a) einer Verteilung schåtzen, wobei das 3. Potenzmoment die Schiefe
a3 und das 4. Potenzmoment den Exzeû
a4 beschreibt: n P
z3i
a3 i1 ; n n P z4i i1 3: a4 n
1:30
1:31
Beide Formeln gehen von in Gl. (1.27) definierten z-Werten aus. Ist eine Verteilung rechtssteil, ergeben sich græûere negative z-Werte als positive z-Werte (vgl. Abb. 1.11). Da durch die 3. Potenz græûere z-Werte stårker gewichtet werden als kleinere z-Werte, und da die 3. Potenz das Vorzeichen der z-Werte nicht åndert, erhalten wir bei einer rechtssteilen Verteilung einen negativen a3 -Wert. Wir bezeichnen deshalb rechtssteile Verteilungen auch als Verteilungen mit einer negativen Schiefe. Umgekehrt wird eine linkssteile Verteilung als eine Verteilung mit positiver Schiefe beschrieben. Wird der a4-Wert fçr eine Normalverteilung (vgl. S. 73 ff.) berechnet, erwarten wir einen Wert von a4 0. Kleinere a4 -Werte kennzeichnen eine breitgipflige und græûere a4 -Werte eine schmalgipflige Verteilung. Der Exzess einer Verteilung sollte nur bei unimodalen Verteilungen berechnet werden.
Ûber weitere Maûe zur Schiefe und zum Exzess von Verteilungen sowie çber deren Bedeutung berichten de Carlo (1997) sowie Hopkins u. Weeks (1990). Hier findet man auch Tests zur Ûberprçfung der Frage, ob eine Verteilung bezçglich ihrer Schiefe bzw. ihres Exzesses statistisch bedeutsam von einer Normalverteilung abweicht. ÛBUNGSAUFGABEN 1. Eine Untersuchung von Franke et al. (1971) stellte 62 Studenten der Rechts- und Wirtschaftswissenschaften u.a. vor die Aufgabe, 10 politische Zielvorstellungen im vollståndigen Paarvergleich miteinander hinsichtlich ihrer Bedeutsamkeit zu vergleichen. Hierfçr erhielt jeder Student eine Liste der 45 mæglichen Paare von Zielvorstellungen (zum Paarbildungsgesetz vgl. S. 61) mit der Bitte, jeweils diejenige Zielvorstellung anzukreuzen, die fçr bedeutsamer gehalten wird. Die folgende Tabelle zeigt, wie håufig die einzelnen Zielvorstellungen insgesamt von den 62 Studenten den çbrigen Zielvorstellungen vorgezogen wurden: Zielvorstellung
Pråferenzhåufigkeit
1. Sicherung in unverschuldeten Notlagen 2. Sicherung der Menschenwçrde gegençber staatlicher Macht 3. Færderung des Ansehens der deutschen Nation 4. Minderung gesetzlicher Reglementierung des Sexualverhaltens 5. Gleichheit der Bildungschancen 6. Leistungsgemåûe Verteilung des Vermægens 7. Færderung zukunftsorientierter Produktion oder Forschung 8. Verwirklichung erweiterter Mitbestimmung des Arbeitnehmers im Betrieb 9. Eigenståndigkeit in Fragen nationaler Sicherheit 10. Politische Integration Europas
356 520 26 109 470 218 396 173 74 448
Welche Rangreihe der politischen Zielvorstellungen ergibt sich auf Grund der Pråferenzhåufigkeiten?
47
aÛbungsaufgaben 2. Ein Lehrer korrigiert je 10 Diktate seiner 20 Schçler und erhålt folgende Fehlerverteilung: Fehleranzahl (k)
Anzahl der Diktate
0±9 10±19 20±29 30±39 40±49 50±59 60±69 70±79 80±89 90±99
11 28 42 46 24 17 9 3 8 12
4. Wie lauten das arithmetische Mittel, der Medianwert und der Modalwert a) fçr die Daten in Aufgabe 2? b) fçr die Daten in Aufgabe 3? 5. In 4 verschiedenen Untersuchungen, in denen ein Aggressivitåtstest zur Anwendung kommt, wird çber die folgenden durchschnittlichen Aggressivitåtswerte von Håftlingen berichtet: x1 18;6
n1 36; x2 22;0
n2 45; x3 19;7
n3 42; x4 17;1
n4 60. Wie lautet die durchschnittliche Aggressivitåt aller untersuchten Håftlinge? 6. Wie groû sind Varianz und Standardabweichung der Daten in a) Aufgabe 2? b) Aufgabe 3?
Bitte fertigen Sie a) ein Histogramm, b) eine kumulierte Håufigkeitstabelle, c) eine Prozentwerttabelle, d) eine kumulierte Prozentwerttabelle an.
7. Eine Verteilung sei durch x 2500 und s 900 gekennzeichnet. Wie groû ist die Wahrscheinlichkeit, dass ein zufållig herausgegriffener Messwert um mehr als 1800 Messwerteinheiten vom Mittelwert abweicht, wenn a) die Verteilung eingipflig und symmetrisch ist? b) die Verteilung eine beliebige Form aufweist?
3. In einer Untersuchung wurde çberprçft, wie schnell 300 Vpn eine Liste sinnloser Silben erlernen. Die folgende Tabelle zeigt die Verteilung der Lernzeiten:
8. Ein Lehrling hat in 3 verschiedenen Eignungstests die folgenden Testwerte erhalten: x1 60, x2 30, x3 110. Auf Grund von Untersuchungen, die zuvor mit vielen Lehrlingen durchgefçhrt wurden, sind die 3 Tests durch folgende Mittelwerte und Standardabweichungen gekennzeichnet: x1 42, s1 12; x2 40, s2 5; x3 80, s3 15. In welchem Eignungstest hat der Lehrling am besten abgeschnitten?
Lernzeiten
Håufigkeit
Lernzeiten
Håufigkeit
0±9,9 s 10±19,9 s 20±29,9 s 30±39,9 s 40±49,9 s 50±59,9 s
0 0 3 18 49 58
60±69,9 s 70±79,9 s 80±89,9 s 90±99,9 s 100±109,9 s 110±119,9 s
69 62 26 15 0 0
Fertigen Sie ein Polygon der Håufigkeitsverteilung und der dreigliedrig ausgeglichenen Verteilung an.
1
49
Kapitel 2 Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
ÛBERSICHT Subjektive und objektive Wahrscheinlichkeiten ± Zufallsexperimente und Elementarereignisse ± Vereinigung und Durchschnitt von Ereignissen ± relative Håufigkeiten und Wahrscheinlichkeiten ± Axiome der Wahrscheinlichkeitsrechnung ± Additionstheorem ± bedingte Wahrscheinlichkeiten ± Multiplikationstheorem ± Satz von der totalen Wahrscheinlichkeit ± Theorem von Bayes ± Variationen ± Permutationen ± Kombinationen ± Zufallsvariablen ± Wahrscheinlichkeitsfunktion ± Dichtefunktion und Verteilungsfunktion ± Erwartungswert und Varianz von Zufallsvariablen ± Binomialverteilung ± hypergeometrische Verteilung ± Poisson-Verteilung ± multinomiale Verteilung ± negative Binomialverteilung ± Normalverteilung ± v2 -Verteilung ± t-Verteilung ± F-Verteilung
Eine der wichtigsten, kulturellen Errungenschaften des Menschen ist seine Fåhigkeit, Redundanzen in der Umwelt zu erkennen und zu erlernen. Diese von Hofståtter (1966) als wesentliches Charakteristikum der Intelligenz apostrophierte Eigenschaft ermæglicht es dem Menschen, im Ûberangebot der auf ihn einstræmenden Informationen Musterlåufigkeiten zu entdecken, die verhindern, dass er in einem Chaos von Irregularitåten und Zufålligkeiten zu Grunde geht. Der Mensch schafft sich so ein Ordnungssystem, an dem er im festen Vertrauen auf dessen Tragfåhigkeit sein Verhalten orientiert. Die Geschichte zeigt jedoch, dass es keine absolut sicheren, ewig wahren Erkenntnisse sind, auf die unser Ordnungssystem aufbaut, sondern vielmehr zeitabhångige Auslegungen und Interpretationen von Ereignisabfolgen, die vom Menschen als sinnvoll zusammenhångend gedeutet werden. Wir regulieren unser Verhalten nicht nach Wahrheiten, sondern an einem komplizierten System unterschiedlich wahrscheinlicher Hypothesen. Es verbirgt sich hinter der Fåhigkeit, Redundanzen zu erkennen, die Fåhigkeit, Wahrscheinlichkeiten zu lernen. Wie bedeutsam erlernte Wahrscheinlichkeiten fçr den Alltag sind, kann durch zahllose Beispiele
belegt werden. Wir verlassen uns darauf, dass uns der Wecker am Morgen zur gewçnschten Zeit weckt, wir lassen uns impfen in der Hoffnung, einer mæglichen Epidemie zu entgehen, wir besteigen ein Flugzeug im Vertrauen darauf, dass es nicht abstçrzen wird, wir unterlassen es, von einer Speise zu essen, wenn wir vermuten, sie sei verdorben, wir wåhlen Kandidaten, von denen wir annehmen, dass sie unsere Interessen hinreichend gut vertreten werden usw. Immer sind es nur Wahrscheinlichkeiten, die uns dazu veranlassen, irgendetwas zu tun oder nicht zu tun. Aufgabe der Statistik ist es letztlich, das verhaltensregulierende System von Wahrscheinlichkeiten transparenter und durch Trennung zufålliger von ¹çberzufålligenª Ereignissen pråziser zu machen. Darçber hinaus trågt sie dazu bei, Fehleinschåtzungen von Wahrscheinlichkeiten zu korrigieren bzw. neu entdeckte Musterlåufigkeiten hinsichtlich ihrer Tragfåhigkeit abzusichern. Elementarer Bestandteil der Statistik ist somit die Wahrscheinlichkeitslehre. Im folgenden Abschnitt werden die grundlegenden Axiome der Wahrscheinlichkeitstheorie sowie einige fçr die Statistik wichtige Grundprinzipien der Wahrscheinlichkeitsrechnung dargestellt. Ferner werden theoretische Wahrscheinlichkeitsverteilungen, die fçr die in diesem Buch zu besprechenden Verfahren von Bedeutung sind, beschrieben.
" 2.1 Grundbegriffe der Wahrscheinlichkeitsrechnung Begriffe wie ¹wahrscheinlichª finden nicht nur in der Statistik, sondern auch in der Umgangssprache Verwendung. Man hålt es beispielsweise fçr ¹sehr wahrscheinlichª, dass am nåchsten Wochen-
2
50
2
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
ende in Berlin die Sonne scheinen wird, oder man nimmt an, dass ein Pferd X in einem bestimmten Rennen mit einer Wahrscheinlichkeit (Chance) von 90% siegen wird. Mit diesen o. å. Formulierungen werden subjektive Ûberzeugungen oder Mutmaûungen çber die Sicherheit einmaliger, nicht wiederholbarer Ereignisse zum Ausdruck gebracht, die prinzipiell entweder auftreten oder nicht auftreten kænnen. Zahlenangaben, die die Stårke der inneren Ûberzeugung von der Richtigkeit derartiger Behauptungen charakterisieren, bezeichnet man als subjektive Wahrscheinlichkeiten. Der statistische Wahrscheinlichkeitsbegriff geht auf das 16. Jahrhundert zurçck, als man sich fçr die Wirksamkeit von ¹Zufallsgesetzenª bei Glçcksspielen (z. B. Wçrfelspielen) zu interessieren begann. (Einen kurzen Ûberblick zur Geschichte der Wahrscheinlichkeitstheorie findet man bei Hinderer, 1980, S. 18 ff., oder ausfçhrlicher bei King u. Read, 1963.) Der statistische Wahrscheinlichkeitsbegriff dient der ¹Beschreibung von beobachteten Håufigkeiten bei (mindestens im Prinzip) beliebig oft wiederholbaren Vorgången, deren Ausgang nicht vorhersehbar istª (Hinderer, 1980, S. 3). ¹Die Wahrscheinlichkeit, mit einem einwandfreien Wçrfel eine Sechs zu werfen, betrågt 1/6ª oder ¹die Wahrscheinlichkeit, dass ein beliebiger 16-jåhriger Schçler in einem bestimmten Intelligenztest mindestens einen Intelligenzquotienten von 120 erreicht, betrågt p 0;12ª, sind Aussagen, die diesen Wahrscheinlichkeitsbegriff verdeutlichen. Im ersten Beispiel erwartet man bei vielen Wçrfen mit einem Wçrfel fçr etwa 1/6 aller Fålle eine Sechs, und im zweiten Beispiel geht man davon aus, dass ca. 12% aller 16-jåhrigen Schçler in dem angesprochenen Intelligenztest einen Intelligenzquotienten von mindestens 120 erreichen werden. Die erste Aussage basiert auf vielen, voneinander unabhångigen, gleichartigen ¹Versuchenª mit einem Objekt und die zweite auf jeweils einmaligen ¹Versuchenª mit vielen gleichartigen Objekten. Zahlenangaben dieser Art heiûen objektive Wahrscheinlichkeiten.
" 2.1.1 Zufallsexperimente und zufållige Ereignisse Fçr die Definition objektiver Wahrscheinlichkeiten ist der Begriff des ¹Zufallsexperimentesª zentral. Unter einem Zufallsexperiment (oder auch einer Zufallsbeobachtung) ¹verstehen wir einen beliebig oft wiederholbaren Vorgang, der nach einer ganz bestimmten Vorschrift ausgefçhrt wird und dessen Ergebnis ,vom Zufall abhångt`, das soll heiûen, nicht im Voraus eindeutig bestimmt werden kannª (Kreyszig, 1973, S. 50). Das Ergebnis eines Zufallsexperimentes bezeichnen wir als Elementarereignis und die Menge aller mit einem Zufallsexperiment verbundenen Elementarereignisse als Ergebnismenge (X). Dies sind z. B. beim Zufallsexperiment ¹Wçrfelnª die Augenzahlen 1 bis 6, beim Mçnzwurf die Ausgånge ¹Zahlª oder ¹Adlerª, beim Ziehen einer Karte aus einem Skatspiel die 32 verschiedenen Kartenwerte etc. Aber auch die Befragung einer Person bezçglich ihrer Parteipråferenz, die Messung ihrer Reaktionszeit bzw. die Bestimmung der Fehleranzahl in einem Schçlerdiktat bezeichnet man als Zufallsexperimente. Deren Elementarereignisse sind die zum Zeitpunkt der Befragung existierenden Parteien, die Menge aller mæglichen Reaktionszeiten bzw. aller mæglichen Fehlerzahlen. Jedes einzelne Zufallsexperiment fçhrt zu einem bestimmten Elementarereignis, das zu einer Ergebnismenge zåhlt, die fçr die Art des Zufallsexperimentes charakteristisch ist.
Verknçpfung von Elementarereignissen Håufig interessieren nicht die einzelnen Elementarereignisse, sondern Teilmengen bzw. Klassen zusammengefasster Elementarereignisse, die wir kurz ¹Ereignisseª nennen. Bezogen auf die oben genannten Beispiele wåren etwa alle geradzahligen Augenzahlen beim Wçrfeln, alle Herzkarten beim Skatspiel, alle konservativen Parteien, Reaktionszeiten unter einer halben Sekunde bzw. 2±4 Fehler im Diktat derartige Ereignisse. Fçr die Zusammenfassung oder Verknçpfung von Elementarereignissen gibt es aus der Mengenlehre einige Regeln, die wir uns im Folgenden anhand eines Beispiels erarbeiten wollen.
a2.1.1
51
Zufallsexperimente und zufållige Ereignisse
BEISPIEL Von 10 Schçlern gehen 3 zum Gymnasium, 4 zur Realschule und 3 zur Hauptschule. Die Intelligenzquotienten (IQ) dieser Schçler mægen lauten: Schulart
Schçler-Nr.
Gymnasium (A)
Realschule (B)
Hauptschule (C)
1 2 3
101 108 115
4 5 6 7
92 93 99 103
8 9 10
86 95 94
Vereinigung von Ereignissen
A f1; 2; 3g B f4; 5; 6; 7g C f8; 9; 10g D f2; 3; 7g E f4; 5; 8g Die Tatsache, dass das Elementarereignis 1 (Schçler 1) im Ereignis A enthalten ist, kennzeichnen wir durch 1 2 A (1 ist Element von A). Wenn aus den 10 Schçlern Schçler 1 oder Schçler 2 oder Schçler 3 ausgewåhlt wird, ist das Ereignis A eingetreten. Formal schreiben wir unter Verwen-
(Ω)
7
9
10
6
(A) 1
Die Vereinigung zweier oder mehrerer Ereignisse fçhrt wiederum zu einem Ereignis, das eintritt, wenn mindestens ein (Elementar-)Ereignis der verknçpften Ereignisse eintritt. Das Ereignis A [ B (Gymnasium oder Realschule) ist also realisiert, wenn mindestens einer der Schçler mit den Nummern 1 bis 7 ausgewåhlt wurde. Die Vereinigung der Ereignisse A und D besteht aus folgenden Elementarereignissen: A [ D f1; 2; 3; 7g Die sowohl zu A als auch D gehærenden Elementarereignisse 2 und 3 werden hierbei nur einmal gezåhlt.
Sichere und unmægliche Ereignisse. Die Vereinigung der Ereignisse A, B und C fçhrt zu einem sicheren Ereignis, denn ein beliebig ausgewåhlter Schçler gehært entweder zu A, B oder C. Das Ereignis ¹Person ohne Schulbesuchª kann bei keiner Realisierung des hier behandelten Zufallsexperimentes eintreten. Es heiût deshalb ¹unmægliches Ereignisª und wird mit ; (leere Menge) gekennzeichnet. Komplementåre Ereignisse. Alle Ereignisse, die nicht zum Ereignis A gehæren, bezeichnet man zusammengefasst als das entgegengesetzte oder komplementåre Ereignis zu A. Es wird durch A (lies: non A) gekennzeichnet. In unserem Beispiel wåre A B [ C:
(D) 3
A1[2[3 Entsprechendes gilt fçr die Ereignisse B bis E.
IQ
Aus den IQ-Werten bildet man zwei Gruppen fçr die drei intelligentesten und die drei am wenigsten intelligenten Schçler: hohe Intelligenz (D): Schçler 2, 3 und 7, niedrige Intelligenz (E): Schçler 4, 5 und 8. Die Ergebnismenge X besteht damit aus 10 Schçlern, die in die Untergruppen A, B, C, D und E unterteilt sind. Die Ergebnismenge sowie die Untergruppen oder Teilmengen veranschaulicht Abb. 2.1. Die Ereignisse A bis E bestehen ± in Kurzform geschrieben ± aus folgenden Elementarereignissen:
2
dung des Operators ¹[ª fçr die Operation ¹Vereinigungª oder ¹logische Summeª:
(B) 4
(C) 5
8
(E)
Abb. 2.1. Veranschaulichung einer Ergebnismenge
Die Vereinigung von A und A
A [ A fçhrt zu einem sicheren Ereignis.
Durchschnittsbildung. Alle Elementarereignisse, die sowohl zu A als auch D gehæren, bilden den Durchschnitt von A und D. Der Durchschnitt wird durch das Symbol ¹\ª (logisches Produkt) gekennzeichnet.
2
52
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
Im Beispiel : A \ D f2; 3g
2
Das Ereignis A \ D ist also eingetreten, wenn Schçler 2 oder Schçler 3 ausgewåhlt wird, also Schçler, die zur Gruppe ¹Gymnasiastenª und ¹hæhere Intelligenzª gehæren.
Vereinbare und einander ausschlieûende Ereignisse. Haben zwei Ereignisse keine gemeinsamen Elemente, bezeichnet man sie als einander ausschlieûend (unvereinbar oder auch disjunkt). Der Durchschnitt zweier oder mehrerer einander ausschlieûender Ereignisse fçhrt zur leeren Menge. Im Beispiel: A \ B ; oder auch Vereinbar bzw. nicht disjunkt sind hingegen die Ereignisse A und D, B und D, B und E sowie C und E, weil sie jeweils gemeinsame Elemente haben. Man erhålt jedoch A \ B \ D ;; weil es kein Elementarereignis gibt, das sich in A und B und D befindet.
" 2.1.2 Relative Håufigkeiten und Wahrscheinlichkeiten Wird ein Zufallsexperiment n-mal wiederholt, låsst sich auszåhlen, wie håufig ein (Elementar-)Ereignis A eingetreten ist. Bezeichnen wir diese Håufigkeit mit nA , ergibt sich die relative Håufigkeit H
A zu nA : n
bzw. wenn wir das Auftreten von A als gçnstiges und das Auftreten eines beliebigen Ereignisses des Ereignisraumes als mægliches Ereignis bezeichnen: p
A
A\B\C;
H
A
ausfållt, je græûer n ist. Die so geschåtzte Wahrscheinlichkeit bezeichnen wir als ¹statistische Wahrscheinlichkeitª, die çblicherweise durch das Symbol p (von ¹probabilitª) gekennzeichnet wird. Fçr Gleichung (2.1) kænnen wir also auch schreiben nA p
A
2:2 n
2:1
Hierbei kann nA die Werte 0, 1, 2, . . ., n annehmen. Macht man mehrere Versuchsserien mit jeweils n voneinander unabhångigen Realisierungen des Zufallsexperimentes, wird man feststellen, dass die Unterschiedlichkeit der Werte fçr H
A mit zunehmendem n kleiner wird. H
A konvergiert mit wachsendem n auf einen konstanten Wert, den wir als Wahrscheinlichkeit von A bzw. p
A bezeichnen. Die Wahrscheinlichkeit eines Ereignisses A låsst sich also çber die relative Håufigkeit H
A schåtzen, wobei diese Schåtzung um so genauer
Anzahl der g unstigen Ereignisse
A : Anzahl der m oglichen Ereignisse
2:3
Die Verbindung der Konzepte ¹relative Håufigkeitª pA nA =n und ¹Wahrscheinlichkeitª p
A wird formal durch das sog. ¹Bernoulli-Theoremª hergestellt: nA p
A e ! 0 f ur n ! 1
2:4 p n (zum Beweis dieses Theorems vgl. z. B. Kreyszig, 1973, S. 136 f.). Wenn ein Ereignis A mit der Wahrscheinlichkeit p
A auftritt und n voneinander unabhångige, gleichartige Zufallsexperimente durchgefçhrt werden, geht die Wahrscheinlichkeit dafçr, dass sich die relative Håufigkeit nA =n um einen beliebig kleinen Betrag e von der Wahrscheinlichkeit p
A unterscheidet, gegen Null, vorausgesetzt, n geht gegen unendlich. (Eine kritische Auseinandersetzung mit diesem Theorem bzw. weiterfçhrende Literatur findet man bei Tholey, 1982, S. 323 f.) Die Wahrscheinlichkeit p
A fçr ein Ereignis A wird durch die relative Håufigkeit p
A nA =n geschåtzt, wobei diese Schåtzung um so genauer ausfållt, je græûer n ist.
Umgangssprachlich kennzeichnet man Wahrscheinlichkeiten auch durch Prozentwerte. Bezogen auf das Ereignis ¹Zahlª beim Mçnzwurf (p = 0,5) kann man also auch sagen: Beim Mçnzwurf tritt das Ereignis ¹Zahlª mit einer Wahrscheinlichkeit von 50% auf.
a2.1.2
BEISPIEL Bei einem einwandfrei arbeitenden Roulette mæge 20-mal hintereinander eine rote Zahl gefallen sein. Diese Serie veranlasst einen Spieler dazu, bei den folgenden Wçrfen auf Schwarz zu setzen, in der Ûberzeugung, dass die ¹çberzufålligeª Håufung von Rotwçrfen durch weitere Kugeln des Roulettes dadurch kompensiert werden mçsse, dass nun ¹çberzufålligª viele schwarze Zahlen fallen. Da das Roulette jedoch kein Gedåchtnis hat (es also nicht weiû, dass es 20-mal Rot zu kompensieren hat), wollen wir davon ausgehen, dass das Roulette in den nåchsten 102 Wçrfen relative Håufigkeiten fçr Rot und Schwarz produziert, die den Wahrscheinlichkeiten dieser Ereignisse ungefåhr entsprechen (50-mal Rot, 50-mal Schwarz und zweimal Null). Fçr alle 122 Wçrfe ergibt sich somit fçr Rot die relative Håufigkeit von 70=122 0,574 und fçr Schwarz 50=122 0,410. Das extreme Ereignis der anfånglichen 20 roten Zahlen ist somit bereits durch 102 den Wahrscheinlichkeitsverhåltnissen entsprechende Wçrfe recht gut kompensiert. Fållt in den folgenden 1030 Wçrfen 500-mal Rot und 500-mal Schwarz (und zusåtzlich 30-mal Null), ergeben sich bereits recht åhnliche relative Håufigkeiten fçr Rot (0,495) und Schwarz (0,477). Die Differenz zwischen der relativen Håufigkeit und der exakten Wahrscheinlichkeit von p 18=37 0,486 fçr Rot (bzw. Schwarz) wird zunehmend kleiner, ohne dass eine extreme Ereignisabfolge durch eine andere extreme Ereignisabfolge kompensiert werden muss.
2
53
Relative Håufigkeiten und Wahrscheinlichkeiten
kA :
2:6 k Die Wahrscheinlichkeit fçr eine rote Zahl betrågt also p 18=37. Andere Zufallsexperimente mit gleichwahrscheinlichen Ereignissen sind z. B. das Wçrfeln, der Mçnzwurf, Lotteriespiele, Kartenspiele etc. Auch bei diesen Zufallsexperimenten sind die wahren Wahrscheinlichkeiten fçr Ereignisse oder Ereignisklassen einfach zu berechnen. Wenn in Gl. (2.2) fçr nA n bzw. in Gl. (2.6) fçr kA k resultiert, ist A ein sicheres Ereignis. Fçr diesen Fall erhålt man p
A 1. Das unmægliche Ereignis
nA 0 bzw. kA 0 hat eine Wahrscheinlichkeit von p
A 0. Da die Vereinigung von A mit dem Komplementårereignis A ein sicheres Ereignis darstellt, ergibt sich die Komplementårwahrscheinlichkeit p
A wegen nA nA n zu p
A
p
A 1
p
A :
2:7
Axiome und Regeln der Wahrscheinlichkeitsrechnung Gleichwahrscheinliche Ereignisse. Im Roulette-Beispiel war es mæglich, die çber die relative Håufigkeit geschåtzte statistische Wahrscheinlichkeit fçr ¹Rotª mit der wahren Wahrscheinlichkeit fçr ¹Rotª
p 18=37 zu vergleichen. Die Tatsache, dass die wahren Wahrscheinlichkeiten bei diesem Zufallsexperiment bekannt sind, ist damit zu begrçnden, dass die ¹physikalischen Eigenschaftenª eines einwandfreien Roulettes so geartet sind, dass jede Zahl mit gleicher Wahrscheinlichkeit auftritt. Wann immer ein Zufallsexperiment so angelegt ist, dass von k einander ausschlieûenden Ereignissen Ei
i 1; . . . ; k jedes mit gleicher Wahrscheinlichkeit eintritt, låsst sich die wahre Wahrscheinlichkeit p
Ei wie folgt berechnen: 1
2:5 p
Ei : k Im Roulette-Beispiel mit k 37 erhålt man z. B. fçr das Ereignis ¹3ª (oder jede beliebige andere Zahl des Roulettespiels) die Wahrscheinlichkeit p 1=37. Besteht eine Ereignisklasse A aus kA verschiedenen Ereignissen (z. B. 18 rote Zahlen im Roulette), resultiert als Wahrscheinlichkeit fçr diese Ereignisklasse:
Fçr den mathematischen Umgang mit Wahrscheinlichkeiten hat Kolmogoroff (1933) eine Axiomatik aufgestellt, nach der den Realisationen eines Zufallsexperiments Zahlen zugeordnet werden, die als Wahrscheinlichkeiten folgende Bedingungen erfçllen mçssen: 1. Fçr die Wahrscheinlichkeit eines zufålligen Ereignisses A gilt p
A 0 (Nichtnegativitåt). 2. Die Wahrscheinlichkeit eines sicheren Ereignisses ist gleich 1 (Normierung). Diese Axiome konnten bereits aus unseren Ûberlegungen zur relativen Håufigkeit als Schåtzwert der Wahrscheinlichkeit plausibel gemacht werden. Das dritte Axiom lautet: 3. Sind die Ereignisse A1 ; A2 ; . . . ; Ak paarweise disjunkt, gilt k X p
Ai p
A1 [ A2 ; ; [Ak i1
(Sigmaadditivitåt)
Die Wahrscheinlichkeit, dass eines der disjunkten Ereignisse A1 oder A2 oder . . . Ak auftritt, ist gleich der Summe der Einzelwahrscheinlichkeiten p
A1 , p
A2 . . . p
Ak . Mit diesem Axiom be-
54
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
schåftigt sich auch das im Folgenden behandelte Additionstheorem.
2
Additionstheorem. Bezogen auf das in Abb. 2.1 dargestellte Beispiel wollen wir nach der Wahrscheinlichkeit fragen, dass ein zufållig ausgewåhlter Schçler entweder zu A (Gymnasium) oder D (hæhere Intelligenz) gehært, d. h. wir fragen nach der Wahrscheinlichkeit fçr das Ereignis A [ D: p
A [ D. Um hierfçr eine stabile Wahrscheinlichkeitsschåtzung zu erhalten, sollte die Ergebnismenge natçrlich nicht nur aus 10, sondern aus einer sehr viel græûeren bzw. theoretisch unbegrenzten Anzahl von Schçlern bestehen. Die folgenden Ûberlegungen gelten aber nicht nur fçr wahre Wahrscheinlichkeiten, sondern auch fçr Wahrscheinlichkeiten, die çber relative Håufigkeiten geschåtzt wurden. Angenommen, wir entnehmen dieser Ergebnismenge n Schçler, die sich wie folgt aufteilen: nA Schçler aus der Gruppe ¹Gymnasiumª
A, nD Schçler aus der Gruppe ¹hæhere Intelligenzª
D, nAD Schçler aus der Gruppe ¹Gymnasiumª und aus der Gruppe ¹hæhere Intelligenzª
A \ D, n0 Schçler aus den anderen Gruppen. Wird jeder Schçler nur einmal gezåhlt, gilt: n nA nD nAD n0 . Nach Gl. (2.2) schåtzt man folgende Wahrscheinlichkeiten: nA nAD nD nAD ; p
D ; n n nA nD nAD nAD p
A [ D ; p
A \ D : n n p
A
Hieraus folgt nA nD 2nAD n p
A [ D p
A \ D
Gleichung 2.8 bezeichnet man als das Additionstheorem fçr nicht disjunkte (vereinbare) Ereignisse. BEISPIEL Man fragt nach der Wahrscheinlichkeit, dass eine aus dem Skatblatt (32 Karten) gezogene Karte entweder rot oder ein As ist. Es ergeben sich p
rot 16=32, p
As 4=32 und p
As \ rot 2=32 und damit p
rot [ As 16=32 4=32 2=32 18=32 0;5625.
Bezogen auf Abb. 2.1 wollen wir nun nach der Wahrscheinlichkeit fragen, dass ein zufållig ausgewåhlter Schçler entweder zu A oder B gehært, d. h. es interessiert die Wahrscheinlichkeit p
A [ B. Wenden wir diese Problemstellung auf Gl. (2.8) an, ist festzustellen, dass A und B keine gemeinsamen Ereignisse aufweisen, d. h. A \ B ;, sodass p
A \ B 0 ist. Bei disjunkten oder einander ausschlieûenden Ereignissen reduziert sich Gl. (2.8) also zu p
A [ B p
A p
B ;
2:9
bzw. verallgemeinert auf k disjunkte Ereignisse A1 ; A2 ; . . . ; Ak p
A1 [ A2 [; . . . ; [Ak p
A1 p
A2 p
Ak :
2:10
Diese Regel, das Additionstheorem fçrs disjunkte Ereignisse, haben wir bereits als drittes Wahrscheinlichkeitsaxiom (s. S. 53) kennengelernt. Ist die Ergebnismenge mit k Ereignissen erschæpft, resultiert nach Gl. (2.10) eine Wahrscheinlichkeit von 1. Die Wahrscheinlichkeit, dass eines von k disjunkten Ereignissen eintritt, entspricht der Summe der Wahrscheinlichkeiten fçr die k Ereignisse.
p
A p
D
BEISPIEL
bzw. p
A [ D p
A p
D
p
A \ D :
2:8
Die Wahrscheinlichkeit, dass bei einem Zufallsexperiment mit den Ereignissen A; B; C; D . . . wenigstens eines der beiden Ereignisse A oder D eintrifft, ergibt sich aus der Summe der Wahrscheinlichkeiten fçr A und D abzçglich der Wahrscheinlichkeit dafçr, dass beide Ereignisse zugleich auftreten.
Die Wahrscheinlichkeit, aus einem Skatblatt eine 7, 8 oder 9 zu ziehen, ergibt sich zu p
7 [ 8 [ 9 4=32 4=32 4=32 0; 375.
Bedingte Wahrscheinlichkeit. Die bedingte Wahrscheinlichkeit p
BjA (lies p
B unter der Bedingung A kennzeichnet die Wahrscheinlichkeit des Ereignisses B unter der Bedingung, dass das Ereignis A eingetreten ist. Bezogen auf das Schçler-
a2.1.2
beispiel kænnten wir nach der Wahrscheinlichkeit fragen, dass ein Schçler ein Gymnasium besucht
A unter der Voraussetzung, dass er zu der Gruppe ¹hohe Intelligenzª
D gehært: p
AjD. Hierbei geht es also um die relative Håufigkeit der Gymnasiasten in der Gruppe ¹hæhere Intelligenzª, d. h. wir erhalten nAD p
AjD : nD Dividieren wir Zåhler und Nenner durch n, resultiert nAD =n p
A \ D : p
AjD nD =n p
D
2:12
BEISPIEL Wie groû ist die Wahrscheinlichkeit, ein As
B zu ziehen unter der Voraussetzung, dass es sich um eine Herz-Karte 1
A handelt? In diesem Falle sind p
A \ B (die Wahr32 1 scheinlichkeit fçr Herz As) und p
A (die Wahrschein4 lichkeit fçr eine Herz-Karte). Damit ergibt sich fçr 1 1 1 : : Zu dem gleichen Ergebnis kommen p
BjA 32 4 8 wir auch nach Gl. (2.2): Die Anzahl der mæglichen Ereignisse sind hier alle 8 Herz-Karten, und das gçnstige Ereig1 nis ist das Herz As: p
BjA . 8
Die Regeln fçr bedingte Wahrscheinlichkeiten gelten natçrlich auch fçr Wahrscheinlichkeiten, die çber relative Håufigkeiten geschåtzt wurden. BEISPIEL Es werden 200 Klienten, die sich vor långerer Zeit in Wartelisten von Psychotherapeuten eingetragen hatten, nach ihTabelle 2.1. Zahlenbeispiel fçr bedingte Wahrscheinlichkeiten Therapie Gesund Nicht gesund
rem Gesundheitszustand befragt. Einige dieser Klienten wurden inzwischen therapeutisch behandelt, andere nicht. Die Håufigkeiten der behandelten und nicht behandelten Klienten, die sich gesund bzw. nicht gesund fçhlen, sind in Tabelle 2.1 wiedergegeben. Ausgehend von diesen Håufigkeiten ergibt sich fçr das Ereignis ¹gesundª eine geschåtzte Wahrscheinlichkeit von p(gesund) 100=200 0;5. Betrachten wir hingegen nur die Klienten, die bereits therapiert wurden, so ergibt sich eine bedingte Wahrscheinlichkeit von p(gesundjTherapie) 60=80 0;75. Wenn wir fçr A das Ereignis ¹gesundª und fçr B das Ereignis ¹Therapie durchgefçhrtª annehmen, erhalten wir diesen Wert auch nach Gl. (2.11): p
AjB
2:11
Analog hierzu erhålt man p
A \ D : p
DjA p
A
2
55
Relative Håufigkeiten und Wahrscheinlichkeiten
Keine Therapie
60 20
40 80
100 100
80
120
n 200
p
A \ B 60=200 60 0;75 : p
B 80=200 80
In der statistischen Entscheidungstheorie sind bedingte Wahrscheinlichkeiten von besonderer Bedeutung. Hierzu mæge man sich vergegenwårtigen, dass eigentlich jede Wahrscheinlichkeitsaussage an Bedingungen geknçpft ist. Diese betreffen in jedem Falle die Untersuchungsbedingungen, unter denen ein Zufallsexperiment durchgefçhrt wird. Genau genommen mçsste die Aussage ¹In diesem Zufallsexperiment hat das Ereignis A eine Wahrscheinlichkeit von p
Aª ersetzt werden durch die Aussage ¹In diesem Zufallsexperiment hat das Ereignis A eine Wahrscheinlichkeit von p
A, vorausgesetzt, das Zufallsexperiment wird korrekt durchgefçhrt (Ereignis Bª. Da man jedoch meistens davon ausgehen kann, dass diese Voraussetzung erfçllt ist (d. h. dass die Wahrscheinlichkeit eines korrekten Zufallsexperimentes eins ist bzw. dass p
B 1), erhålt man statt der bedingten Wahrscheinlichkeit p
AjB die einfache Wahrscheinlichkeit p
A. Dieser Gedankengang wird in Kap. 4 wichtig, wenn wir uns mit der Wahrscheinlichkeit empirischer Ergebnisse unter der Voraussetzung, eine bestimmte Hypothese sei wahr, auseinandersetzen.
Multiplikationstheorem. Aus Gl. (2.11) und (2.12) folgt fçr zwei Ereignisse A und B: p
A \ B p
A p
BjA
2:13
bzw. p
A \ B p
B p
AjB : Die Rechenregel (2.13) bezeichnet man als das Multiplikationstheorem fçr Wahrscheinlichkeiten.
56
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
Haben 2 Ereignisse A und B in einem Zufallsexperiment die Wahrscheinlichkeiten p
A und p
B, ergibt sich fçr die Wahrscheinlichkeit, dass beide Ereignisse gemeinsam eintreten, das Produkt der Wahrscheinlichkeiten p
A p
BjA bzw. p
B p
AjB.
2 BEISPIEL Bleiben wir bei Skatkarten: Wie groû ist die Wahrscheinlichkeit, dass die gezogene Karte sowohl eine rote Karte 1
A als auch ein As
B ist? In diesem Falle sind p
A 2 und die Wahrscheinlichkeit fçr ein As unter der Bedingung 2 1 2 1 rot p
BjA , d. h., wir ermitteln p
A \ B . 16 2 16 16
Nach Gl. (2.13) errechnet man die Wahrscheinlichkeit p
A \ B fçr den Durchschnitt der Ereignisse A und B aus p
A und p
BjA, also der bedingten Wahrscheinlichkeit fçr B unter der Voraussetzung, dass A eingetreten ist. Die Wahrscheinlichkeit, dass B eintritt, hångt also von der Wahrscheinlichkeit fçr A ab. Håufig fragen wir jedoch nach der Wahrscheinlichkeit gemeinsamer Ereignisse A und B, die nicht voneinander abhången (z. B. die Wahrscheinlichkeit, mit einem Wçrfel eine 6 und mit einer Mçnze ¹Zahlª zu werfen). In diesen Fållen ist die Wahrscheinlichkeit des Ereignisses A vællig unabhångig davon, ob B eingetreten ist oder nicht (bzw. umgekehrt: Die Wahrscheinlichkeit von B ist unabhångig von A, d. h., die bedingte Wahrscheinlichkeit p
AjB ist gleich der Wahrscheinlichkeit p
A. (Die Wahrscheinlichkeit, eine 6 zu wçrfeln, ist unabhångig vom Ausgang des Mçnzwurfes.) Entsprechend reduziert sich Gl. (2.13) zu p
A \ B p
A p
B :
2:14
BEISPIEL Wie groû ist die Wahrscheinlichkeit, aus einem Skatspiel nacheinander 2 Asse (A und B zu ziehen, wenn die 1. gezogene Karte wieder zurçckgelegt wird? Da durch das Zurçcklegen der 1. Karte die Wahrscheinlichkeit, mit der 2. Karte ein As zu ziehen, von der Art der 1. Karte unabhån1 gig ist, ergibt sich wegen p
A p
B nach Gl. (2.14) 8 1 1 1 p
A \ B . 8 8 64
Man beachte, dass sich diese Wahrscheinlichkeit åndert, wenn die 1. Karte nicht zurçckgelegt wird. Nachdem mit 1 p
A das 1. As gezogen wurde, lautet die Wahrschein8 3 (unter den 31 verbleibenlichkeit fçr das 2. As p
BjA 31 den Karten befinden sich noch 3 Asse), d. h., wir errechnen 1 3 3 nach Gl. (2.13) p
A \ B . War die erste Karte 8 31 248 28 7 hingegen kein As p
A , bestimmten wir 32 8 4 28 4 7 p
BjA bzw. p
A \ B . Die Wahrschein31 32 31 62 lichkeit fçr B ist von der Art des vorangegangenen Ereignisses abhångig.
Gleichung (2.14) definiert die Unabhångigkeit zweier Ereignisse. Zwei Ereignisse A und B sind voneinander unabhångig, wenn die Wahrscheinlichkeit fçr das gemeinsame Auftreten der Ereignisse A und B dem Produkt ihrer Einzelwahrscheinlichkeiten entspricht.
Entsprechendes gilt fçr mehrere voneinander unabhångige Ereignisse. Wir wollen nun çberprçfen, ob ± bezogen auf Tabelle 2.1 ± die Ereignisse ¹Therapieª und ¹gesundª voneinander unabhångig sind. Dieses Ergebnis språche natçrlich gegen die Therapie, denn von einer erfolgreichen Therapie sollte man erwarten, dass das Ereignis ¹gesundª davon abhångt, ob man therapiert wurde oder nicht. Unter der Annahme der Unabhångigkeit errechnet man fçr ¹Therapieª und ¹gesundª nach Gl. (2.14) eine Wahrscheinlichkeit von 100 80 p
A \ B 0;2 : 200 200 Unter der Unabhångigkeitsannahme wçrde man also mit einer Wahrscheinlichkeit von p
A \ B 0;2 Patienten antreffen, die therapiert wurden und gesund sind. Bezogen auf die 200 untersuchten Patienten wåren dies 0;2 200 40 Patienten. Beobachtet werden jedoch 60 gesunde Patienten mit Therapie, also 20 mehr, als bei Unabhångigkeit zu erwarten wåren. Ob diese Abweichung von der Unabhångigkeit durch Zufall zu erklåren ist oder ob sich hinter diesen Zahlen ein systematischer Zusammenhang verbirgt (das Ereignis ¹gesundª hångt davon ab, ob eine Therapie durchgefçhrt wurde oder nicht), wird mit einem unter 5.3.3 zu besprechenden Verfahren (4-Felder-v2 çberprçft.
a2.1.2
Man achte darauf, dass die Aussagen ¹2 Ereignisse schlieûen einander wechselseitig ausª (vgl. S. 52) und ¹2 Ereignisse sind voneinander unabhångigª nicht verwechselt werden. 2 Ereignisse A und B, die einander ausschlieûen, haben keine gemeinsamen Elemente, sodass A \ B ; und damit auch p
A \ B 0. Wåren diese Ereignisse voneinander unabhångig, mçsste auch p
A \ B p
A p
B gelten, d. h., p
A oder p
B (oder beide) sind Null. Damit wåren A oder B (bzw. beide) unmægliche Ereignisse.
Satz von der totalen Wahrscheinlichkeit. Bezogen auf das in Abb. 2.1 wiedergegebene Beispiel kænnen die nB Schçler, die eine Realschule besuchen, in nBD Realschçler mit hæherer Intelligenz, nBE Realschçler mit niedriger Intelligenz und nBDE Realschçler mit mittlerer Intelligenz
DE aufgeteilt werden. Es gilt also nB nBD nBE nBDE : Da die Ereignisse D, E und DE einander ausschlieûen, kænnen wir auch schreiben B B \ D B \ E B \ DE :
i1
Da sich die Ereignisse
B \ A1 ,
B \ A2 ; . . . ;
B \ Ak ebenfalls ausschlieûen, erhålt man nach dem Additionstheorem gemåû Gl. (2.10) k X
p
B \ Ai :
2:16
i1
Ersetzen wir p
B \ Ai nach Gl. (2.13), resultiert p
B
k X
p
Ai p
BjAi :
2:17
i1
Gleichung (2.17) bezeichnet man als den ¹Satz von der totalen Wahrscheinlichkeitª. Fçr das Schçlerbeispiel erhålt man nach Gl. (2.17) p
B p
D p
BjD p
E p
BjE p
DE p
BjDE
nD =n
nBD =nD
nE =n
nBE =nE
nDE =n
nBDE =nDE
nBD =n nBE =n nBDE =n nB =n :
Theorem von Bayes Das Theorem von Bayes verknçpft die bedingten Wahrscheinlichkeiten p
AjB und p
BjA unter Verwendung des Satzes von der totalen Wahrscheinlichkeit. Im Schçlerbeispiel geht es also z. B. um die Frage, wie man die bedingte Wahrscheinlichkeit p
BjD berechnen kann (Realschulbesuch unter der Bedingung hæherer Intelligenz), wenn die bedingte Wahrscheinlichkeit p
DjB bekannt ist (hæhere Intelligenz unter der Bedingung Realschule). Man beachte, dass es sich hierbei um zwei verschiedene Wahrscheinlichkeiten handelt! Gleichung (2.13) entnehmen wir p
Ai \ B p
B p
Ai jB p
Ai p
BjAi : Hieraus folgt p
Ai jB
p
Ai p
BjAi p
B
bzw. nach Gl. (2.17)
Allgemein: Wenn ein Ereignis B immer gleichzeitig mit einem von k einander ausschlieûenden Ereignissen Ai
i 1; . . . ; k eintritt, gilt fçr B: k X B \ Ai :
2:15 B
p
B
2
57
Relative Håufigkeiten und Wahrscheinlichkeiten
p
Ai jB
p
Ai p
BjAi : k P p
Ai p
BjAi
2:18
i1
Gleichung (2.18) bezeichnet man als das Theorem von Bayes. Es modifiziert die Wahrscheinlichkeiten p
Ai (die sog. ¹Prior-Wahrscheinlichkeitenª) in Wahrscheinlichkeiten p
Ai jB (die sog. ¹Posterior-Wahrscheinlichkeitenª) unter Verwendung der bedingten Wahrscheinlichkeiten p
BjAi . Mit der Symbolik in Abb. 2.1 fragen wir z. B. nach der Wahrscheinlichkeit p
BjD nBD =nD . Diesen Wert errechnet man auch çber Gl. (2.18): p
BjD
p
B p
DjB p
A p
DjA p
B p
DjB p
C p
DjC
nB nBD n nB nA nAD nB nBD nC nCD n nA n nB n nC
nBD =n
nAD nBD nCD =n
nBD nD
In diesem Beispiel erçbrigt sich eine Anwendung des bayesschen Theorems, da die Wahrscheinlich-
58
2
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
keit p
BjD auch direkt als relative Håufigkeit geschåtzt werden kann. Die Bedeutung des Theorems von Bayes wird deshalb erst ersichtlich, wenn die Ergebnismenge ± anders als in Abb. 2.1 ± nicht vollståndig bekannt ist, sodass die Wahrscheinlichkeit p
BjD nicht direkt, sondern ± wie im folgenden Beispiel ± nur çber Gl. (2.18) ermittelt werden kann.
BEISPIEL Ein ålterer Herr låsst einen Labortest auf Prostatakarzinom durchfçhren. Der Test zeigt das fçr Prostatakarzinome typische Symptom (S) und signalisiert damit, dass die Krankheit (K) vorliegen kænnte. Der Patient mæchte nun wissen, mit welcher Wahrscheinlichkeit er an Prostatakrebs erkrankt ist. Er fragt damit nach dem ¹positiven Vorhersagewertª des Labortests bzw. nach der bedingten Wahrscheinlichkeit p(K|S). Es sei bekannt, dass Prostatakrebs in der fraglichen Altersgruppe mit einer Wahrscheinlichkeit von 1½ vorkommt, d. h., die Krankheit hat eine ¹Pråvalenzrateª von p(K) = 0,001. Den Veræffentlichungen zum Labortest ist ferner zu entnehmen, dass der Test mit einer Wahrscheinlichkeit von 98% positiv ausfållt, wenn die Krankheit vorliegt; dies bedeutet, dass der Test eine ¹Sensitivitåtª von p(S|K) = 0,98 hat. Die ¹Spezifitåtª (das ist die Wahrscheinlichkeit, dass der Test negativ ausfållt, wenn die Krankheit = 0,995 angegeben. nicht vorliegt) wird mit p
SjK Diese Angaben reichen aus, um die Wahrscheinlichkeit p(K|S) çber das bayessche Theorem zu berechnen. Hierfçr çbertragen wir zunåchst Gl. (2.18; bayessches Theorem) in die Symbolik des Beispiels: p
KjS
p
K p
SjK p
K : p
SjK p
K p
SjK
Im Beispiel ist k = 2, denn das Symptom kann nur unter der Bedingung ¹Krankheitª ± p(S|K) ± oder der Bedingung ± auftreten. Im letztgenannten ¹keine Krankheitª ± p
SjK Fall spricht man vom ¹falsch-positiven Wertª, denn das Symptom ist vorhanden, ohne dass die Krankheit vorliegt. Der falsch-positive Wert ergibt sich als Gegenwahrscheinlich 1 p
= 1±0,995 = 0,005. keit zur ¹Spezifitåtª; p
SjK SjK Nun benætigen wir noch die Wahrscheinlichkeit dafçr, dass die Krankheit nicht auftritt, die als Gegenwahrscheinlichkeit = 1±p(K) = 1±0,001 = zur Pråvalenz berechnet wird: P
K 0,999. Damit sind alle Werte bekannt, um die Wahrscheinlichkeit p(K|S) bestimmen zu kænnen. Sie ergibt sich zu: p
KjS
0;001 0;98 0;164 : 0;98 0;001 0;005 0;999
Die Wahrscheinlichkeit, dass der Patient Prostatakrebs hat, betrågt also nach dem positiven Labortest 16,4% (Posterior-Wahrscheinlichkeit). Ohne positiven Labortestbefund entspråche die Wahrscheinlichkeit fçr das Vorliegen der Krankheit der Pråvalenz, also 0,1% (Prior-Wahrscheinlichkeit).
Statistische Entscheidungen. Das Theorem von Bayes hat auch in der statistischen Entscheidungstheorie eine besondere Bedeutung. Statistische Entscheidungen werden immer aufgrund bedingter Wahrscheinlichkeiten getroffen, wobei wir uns hier nur mit Wahrscheinlichkeiten fçr das Auftreten von empirischen Daten
D unter der Bedingung, dass eine bestimmte Hypothese
H richtig ist
p
DjH, befassen werden (vgl. Kap. 4). Umgekehrt kann uns jedoch auch die Wahrscheinlichkeit einer Hypothese angesichts bestimmter Daten
p
HjD interessieren, d. h. die Wahrscheinlichkeit p
Hi jD
p
Hi p
DjHi : k P p
Hi p
DjHi
2:19
i1
Man sucht also die Wahrscheinlichkeiten fçr verschiedene Hypothesen Hi
i 1; . . . ; k unter der Voraussetzung eines empirisch ermittelten Untersuchungsergebnisses
D. Hierfçr mçssen die Wahrscheinlichkeiten des Untersuchungsergebnisses bei Gçltigkeit der verschiedenen Hypothesen
p
DjHi sowie die Wahrscheinlichkeiten der Hypothesen p
Hi bekannt sein. Wåhrend man fçr p
DjHi Schåtzwerte berechnen kann (vgl. hierzu unter 4.4), ist man bezçglich der Wahrscheinlichkeit der Hypothesen auf Mutmaûungen angewiesen, was håufig als Schwachstelle des bayesschen Theorems im Kontext der statistischen Entscheidungstheorie angesehen wird.
Hinweis. Einfçhrungen in die bayessche Statistik sind den Arbeiten von Aitchison (1970), Berger (1980), Bortz u. Dæring (2002, Kap. 7.2.5), Dyckman, Schmidt u. McAdams (1969), Edwards, Lindman u. Savage (1963), Hofståtter u. Wendt (1974, Kap. 19), Koch (2000), Molenaar u. Lewis (1996), Philips (1973), Schmitt (1969) und Winkler (1972) zu entnehmen. Grundlegendere Darstellungen findet der interessierte Leser bei Bçhlmann et al. (1967), Chernoff u. Moses (1959), de Groot (1970), Gelman et al. (1995), La Valle (1970) und Pratt et al. (1965).
a2.2
2.2 Variationen, Permutationen, Kombinationen Insbesondere durch Glçcksspiele wurde eine Reihe von Rechenregeln angeregt, mit denen die Wahrscheinlichkeit bestimmter Ereigniskombinationen von gleichwahrscheinlichen Elementarereignissen ermittelt wird. Diese Rechenregeln beinhalten im Allgemeinen Anweisungen, wie man ohne mçhsame Zåhlarbeit die Anzahl der mæglichen und die Anzahl der gçnstigen Ereignisse berechnen kann, um so nach Gl. (2.3) die gesuchten Wahrscheinlichkeiten zu bestimmen. Einige dieser Rechenregeln, deren mathematische Grundlagen ausfçhrlich z. B. Mangold u. Knopp (1964) behandeln, sollen im Folgenden dargestellt werden.
1. Variationsregel Gesucht wird die Wahrscheinlichkeit, dass bei 5 Mçnzwçrfen 5-mal nacheinander ¹Zahlª fållt. Da es sich um ein gçnstiges Ereignis unter 25 32 mæglichen Ereignissen handelt, betrågt die Wahrscheinlichkeit p 1=32 0; 031. Die allgemeine Regel fçr die Ermittlung der mæglichen Ereignisse lautet: Wenn jedes von k sich gegenseitig ausschlieûenden Ereignissen bei jedem Versuch auftreten kann, ergeben sich bei n Versuchen kn verschiedene Ereignisabfolgen.
BEISPIEL
2
59
Variationen, Permutationen, Kombinationen
G unstige Falle 1 m ogliche Falle 310 59049 ; 1 p 59049 0; 0000169 1;69 10
5
:
2. Variationsregel Gesucht wird die Wahrscheinlichkeit, mit einer Mçnze ¹Zahlª und mit einem Wçrfel die Zahl 6 zu werfen. Dieses eine gçnstige Ereignis kann unter 2 6 12 Ereignissen auftreten, sodass die Wahrscheinlichkeit p 1=12 0; 08 betrågt. Allgemein formuliert: Werden n voneinander unabhångige Zufallsexperimente durchgefçhrt und besteht die Ergebnismenge des 1. Zufallsexperimentes aus k1 , die Ergebnismenge des 2. Zufallsexperimentes aus k2 ; . . . und die Ergebnismenge des n-ten Zufallsexperimentes aus kn verschiedenen Elementarereignissen, sind k1 k2 . . . kn verschiedene Ereignisabfolgen mæglich.
BEISPIEL In einem Experiment zum Orientierungslernen mçssen Ratten den richtigen Weg durch ein Labyrinth finden (vgl. Abb. 2.2). Das Labyrinth ist so konstruiert, dass sich die Ratte zunåchst zwischen zwei Wegalternativen, dann wieder zwischen zwei Wegalternativen und zuletzt zwischen drei
In einem Fragebogen zur Erfassung der vegetativen Labilitåt, der als Antwortmæglichkeiten die 3 Kategorien ¹jaª, ¹neinª und ¹?ª vorsieht, soll nicht nur die Anzahl der bejahten Fragen ausgewertet werden, sondern zusåtzlich die Sequenz, in der bei aufeinanderfolgenden Aufgaben die 3 Kategorien gewåhlt werden (¹configural scoringª, vgl. Meehl, 1950). Es mæge sich herausgestellt haben, dass Patienten mit Schlafstærungen çblicherweise die ersten 10 Fragen folgendermaûen beantworten: ja; ja; ?; ja; nein; nein; ?; ja; ?; nein : Wie groû ist die Wahrscheinlichkeit, dass diese Antwortabfolge zufållig auftritt?
Ziel
Start
Abb. 2.2. Labyrinth zum Orientierungslernen
60
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
Wegalternativen entscheiden muss. Wie groû ist die Wahrscheinlichkeit, dass eine Ratte zufållig auf direktem Wege (d. h. ohne umzukehren) das Ziel erreicht? Richtiger Weg 1
2
m ogliche Wege 2 2 3 12 1 p 0;083 : 12
Permutationsregel In einer Urne befinden sich 6 Kugeln mit unterschiedlichem Gewicht. Wie groû ist die Wahrscheinlichkeit, dass die 6 Kugeln der Urne nacheinander in der Reihenfolge ihres Gewichtes (von der leichtesten bis zur schwersten Kugel) entnommen werden? Fçr die erste Kugelentnahme ergeben sich 6 Mæglichkeiten, fçr die zweite 5, fçr die dritte 4 usw. bis hin zur letzten Kugel. Insgesamt sind somit 6 5 4 3 2 1 720 Abfolgen denkbar. Da nur eine Abfolge richtig ist, lautet die Wahrscheinlichkeit p 1=720 0; 0014. Allgemein formuliert: n verschiedene Objekte kænnen in n! 1 2 3 . . .
n
1 n
verschiedenen Abfolgen angeordnet werden
n! lies: n Fakultåt).
1. Kombinationsregel Wie groû ist die Wahrscheinlichkeit, dass aus einem Skatspiel zufållig nacheinander die Karten Kreuz As, Pik As, Herz As und Karo As gezogen werden? Fçr die erste Karte ergeben sich 32 Mæglichkeiten, fçr die zweite Karte 31, fçr die dritte Karte 30 und fçr die vierte Karte 29 Mæglichkeiten. Insgesamt stehen somit 32 31 30 29 863 040 mægliche Folgen zur Verfçgung, sodass die Wahrscheinlichkeit 1=863 040 1; 16 10 6 betrågt. Dieses Ereignis kommt somit ungefåhr unter 1 Million Fållen nur einmal vor. Allgemein formuliert: Wåhlt man aus n verschiedenen Objekten r zufållig aus, ergeben sich n!=
n r! verschiedene Reihenfolgen der r Objekte.
Wenden wir diese allgemeine Beziehung auf unser Beispiel an, erhalten wir erneut 32!=
32 4! 32 31 30 29 863 040 Abfolgen. BEISPIEL Bei einer Olympiade haben sich 7 annåhernd gleich starke Låufer fçr den Endlauf qualifiziert. Wie groû ist die Wahrscheinlichkeit, dass Låufer A die Goldmedaille, Låufer B die Silbermedaille und Låufer C die Bronzemedaille erhålt, wenn das Ergebnis von der (zufålligen) Tagesform bestimmt wird? G unstige Falle 1 ; m ogliche Falle
BEISPIEL In einem psychophysischen Experiment soll die subjektive Lautheit von 5 verschiedenen Tænen von Versuchspersonen auf einer Ratingskala eingestuft werden. Da man davon ausgehen muss, dass die subjektive Lautheit eines Tones von der Lautheit des (der) zuvor gehærten Tones (Tæne) abhångt, werden den Versuchspersonen alle mæglichen Abfolgen dargeboten. Wie viele Urteile muss eine Vp abgeben? Es sind 5! 120 verschiedene Abfolgen mit jeweils 5 Tænen mæglich, d. h. es mçssen 5 120 600 Urteile abgegeben werden. Die Wahrscheinlichkeit fçr eine Abfolge betrågt p 1=120 0; 0083.
p
1 0;005 : 210
7!
7
3!
210 ;
2. Kombinationsregel Wie groû ist die Wahrscheinlichkeit, beim Lotto ¹6 aus 49ª 6 Richtige zu haben? Im Unterschied zur letzten Rechenregel ist hier die Reihenfolge, in der die 6 Zahlen gezogen werden, beliebig. Die Rechenregel lautet: Wåhlt man aus n verschiedenen Objekten r zufållig aus und låsst hierbei die Reihenfolge auûer Acht, ergeben sich fçr die r Objekte nr verschiedene Kombinationen.
a2.2
61
Variationen, Permutationen, Kombinationen
Der Ausdruck nr stellt keinen Quotienten dar, sondern wird als ¹n çber rª gelesen. nr entspricht der Anzahl der Mæglichkeiten, aus n Objekten Gruppen der Græûe r zu bilden. Sie wird wie folgt berechnet: n n! :
2:20 r r!
n r! Da 0! 1, ist n0 1. Im Lottospiel ermitteln wir als Anzahl der mæglichen Fålle 49 49 48 47 . . . 3 2 1 6
6 5 4 3 2 1
43 42 . . . 2 1 49 48 47 46 45 44 13983816 : 654321 Die Wahrscheinlichkeit fçr 6 Richtige lautet somit 1=13983816 7;15 10 8 . (Es sei darauf hingewiesen, dass die Wahrscheinlichkeit fçr 5 Richtige im Lotto nicht nach Gl. 2.20 berechnet werden kann. Wir werden dieses Problem unter 2.4.2 aufgreifen.) BEISPIEL In einer Untersuchung zur Begriffsbildung erhalten Kinder u. a. die Aufgabe, aus den Worten Apfel ± Baum ± Birne ± Sonne ± Pflaume diejenigen 3 herauszufinden, die zusammengehæren. Wie groû ist die Wahrscheinlichkeit, dass die richtige Læsung (Apfel ± Birne ± Pflaume = Obst) zufållig gefunden wird? n 5;
r 3:
Anzahl der gçnstigen Fålle = 1 5 5! Anzahl der mæglichen Fålle 3 3! 2! 54321 10 32121 p 1=10 0;1 :
In einigen Fållen kann der Rechenaufwand erleichtert werden, wenn von folgender Beziehung Gebrauch gemacht wird: n n ; r n r 10 10 45 : d: h: z: B: 2 8 Der håufigste Anwendungsfall der zweiten Kombinationsregel ist das Paarbildungsgesetz, nach
dem ermittelt werden kann, zu wie vielen Paaren n Objekte kombiniert werden kænnen. Da in diesem Falle r 2, reduziert sich Gl. (2.20) zu n n! n
n 1 : 2 2!
n 2! 2 Danach låsst sich beispielsweise das Problem, mit welcher Wahrscheinlichkeit bei einem Skatspiel im Skat zwei Buben liegen, in folgender Weise læsen: 4 43 G unstige Falle 6; 2 21 32 32 31 m ogliche Falle 496 ; 2 21 6 0; 012 : p 496
3. Kombinationsregel In einer Urne befinden sich gut gemischt 4 rote, 3 blaue und 3 grçne Kugeln. Wir entnehmen der Urne zunåchst 4 Kugeln, dann 3 Kugeln und zuletzt die verbleibenden 3 Kugeln. Wie groû ist die Wahrscheinlichkeit, dass die 4 roten Kugeln zusammen, danach die 3 blauen Kugeln und zuletzt die 3 grçnen Kugeln der Urne entnommen werden? Dieses Problem wird nach der folgenden allgemeinen Regel gelæst: Sollen n Objekte in k Gruppen der Græûen n1 ; n2 ; . . . ; nk eingeteilt werden (wobei n1 n2 nk n), ergeben sich n!=
n1 ! . . . nk ! Mæglichkeiten.
Die Anzahl der mæglichen Fålle ist somit in unserem Beispiel: 10! 4200 : 4! 3! 3! Da nur ein gçnstiger Fall angesprochen ist, ergibt sich mit p 1=4200 2;38 10 4 eine ziemlich geringe Wahrscheinlichkeit fçr diese Aufteilung. BEISPIEL In einem Ferienhaus stehen fçr 9 Personen ein 4-Bett-Zimmer, ein 3-Bett-Zimmer und ein 2-Bett-Zimmer zur Verfçgung. Die Raumzuweisung soll nach Zufall erfolgen. Wieviel verschiedene Raumzuweisungen sind mæglich?
2
62
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
9! 4! 3! 2! 1260 :
M ogliche Falle
Die Wahrscheinlichkeit fçr eine bestimmte Raumzuweisung betrågt somit 1=1260 0;0008.
2 " 2.3 Wahrscheinlichkeitsfunktionen und Verteilungsfunktionen Zufallsvariablen Nach den Ausfçhrungen auf S. 50 verstehen wir unter einem Zufallsexperiment einen Vorgang, dessen Ergebnis ausschlieûlich vom Zufall abhångt. Eine Zufallsvariable ist nun eine Funktion, die den Ergebnissen eines Zufallsexperimentes (d. h. Elementarereignissen oder Ereignissen) reelle Zahlen zuordnet. Beim Wçrfeln beispielsweise ordnen wir dem Ergebnis eines jeden Wurfes eine der Zahlen 1 bis 6 zu. Interessieren wir uns fçr das Studienfach von Studierenden, kænnte diese Funktion den Ausgången des Zufallsexperimentes ¹Befragungª (Soziologie, Mathematik, Psychologie etc.) die Zahlen 1, 2, 3 etc. zuordnen. Bei Reaktionszeitmessungen werden den Ergebnissen Zahlen zugeordnet, die den Reaktionszeiten entsprechen usf. In Abhångigkeit davon, welche Eigenschaften der Ausgånge eines Zufallsexperimentes erfasst werden sollen, unterscheiden wir Zufallsvariablen mit Nominal-, Ordinal-, Intervall- oder Verhåltnisskalencharakter (vgl. Kap. 1.1). Zufallsvariablen kænnen ferner diskret oder stetig sein. Werden die Ergebnisse eines Zufallsexperimentes kategorisiert oder gezåhlt, liegt eine diskrete Zufallsvariable vor. Eine Zufallsvariable heiût stetig, wenn die Werte in einem gegebenen Intervall beliebig genau sein kænnen (vgl. S. 23). Zufallsvariablen werden çblicherweise durch Groûbuchstaben
X; Y . . . gekennzeichnet und die Werte, die sie annehmen kænnen (die Realisierungen der Zufallsvariablen) durch Kleinbuchstaben
x; y . . .. Die Inferenzstatistik behandelt Stichprobenergebnisse (zum Begriff der Stichprobe vgl. S. 86 ff.) in statistischen Untersuchungen wie Ausgånge eines Zufallsexperimentes. Ermitteln wir beispielsweise fçr eine Stichprobe von 100 Schçlern die
durchschnittliche Intelligenz x, stellt x eine Realisierung der Zufallsvariablen X dar. Diese Sichtweise wird einleuchtend, wenn man sich vergegenwårtigt, dass die Græûe des x-Wertes von Zufålligkeiten in der Stichprobe abhångt und dass eine andere Auswahl von 100 Schçlern vermutlich zu einem anderen x-Wert fçhren wçrde. Die Græûe eines x-Wertes hångt von der zufålligen Zusammensetzung der Stichprobe ab und stellt damit eine Realisierung der Zufallsvariablen X dar.
Fçr die weiteren Ûberlegungen benætigen wir Angaben darçber, mit welcher Wahrscheinlichkeit die Realisierungen einer Zufallsvariablen auftreten. Hierçber informiert die Wahrscheinlichkeitsverteilung (oder kurz: Verteilung) einer Zufallsvariablen, wobei zwischen der Wahrscheinlichkeitsfunktion einer Zufallsvariablen und ihrer Verteilungsfunktion zu unterscheiden ist.
Diskrete Wahrscheinlichkeitsfunktionen Bei diskreten Zufallsvariablen ist die Wahrscheinlichkeitsverteilung durch die sog. Wahrscheinlichkeitsfunktion definiert. Sie gibt an, mit welcher Wahrscheinlichkeit bei einem Zufallsexperiment eine bestimmte Realisierung der Zufallsvariablen eintritt, bzw. vereinfacht, wie wahrscheinlich die Ereignisse eines Zufallsexperimentes sind. Beim Zufallsexperiment ¹Wçrfelnª lautet die Wahrscheinlichkeit dafçr, dass die Zufallsvariable X den Wert 3 annimmt, p
X 3 16. Nimmt eine Zufallsvariable X allgemein die Werte xi an (mit i 1; . . . ; N und N Anzahl der Ereignisse einer Ergebnismenge), schreiben wir pi f ur X = xi f
X
2:21 0 f ur alle ubrigen x . Mit dieser Gleichung ist die Wahrscheinlichkeitsfunktion f
X einer Zufallsvariablen X definiert. Da die Zufallsvariable X in jedem Zufallsexperiment stets irgendeinen Wert annimmt, ist die Summe aller f
X gleich 1: N X i1
f
xi 1 :
2:22
a2.3
63
Wahrscheinlichkeitsfunktionen und Verteilungsfunktionen
9 36 Kurve der Dichte f (x)
P (x)
f (x)
6 36
3 36 1 36
x 2
4
6
8
10
12
Abb. 2.4. Dichtefunktion einer stetigen Zufallsvariablen
x
Abb. 2.3. Wahrscheinlichkeitsfunktion
Stetige Wahrscheinlichkeitsfunktionen Abbildung 2.3 zeigt die Wahrscheinlichkeitsfunktion der Zufallsvariablen X fçr das Wçrfeln mit 2 Wçrfeln. Diese Zufallsvariable kann die Werte 2 bis 12 annehmen, deren Wahrscheinlichkeiten sich nach dem Multiplikationstheorem fçr voneinander unabhångige Ereignisse und dem Additionstheorem fçr einander ausschlieûende Ereignisse ergeben. Fçr die Augensumme 8 beispielsweise errechnet sich diese Wahrscheinlichkeit wie folgt: f
X 2 \ 6 1=6 1=6 1=36 f
X 3 \ 5 1=6 1=6 1=36 f
X 4 \ 4 1=6 1=6 1=36 f
X 5 \ 3 1=6 1=6 1=36 f
X 6 \ 2 1=6 1=6 1=36 : Da sich diese 5 Ereignisse, die alle zur Augenzahl 8 fçhren, wechselseitig ausschlieûen, erhålt man f
X 8 5=36. Dafçr schreiben wir in Kurzform p
8 5=36 oder ± wenn das jeweilige Ereignis aus dem Kontext hervorgeht ± auch nur p 5=36. Die Wahrscheinlichkeit dafçr, dass eine Realisierung in einen durch a und b begrenzten Bereich fållt, ergibt sich bei diskreten Zufallsvariablen als Summe der Wahrscheinlichkeiten fçr alle Realisierungen in diesem Bereich: p
a X b
b X
f
xi :
2:23
ia
Im Wçrfelbeispiel ergibt sich fçr eine Augenzahl von 6 bis 8 eine Wahrscheinlichkeit von p 5=36 6=36 5=36 16=36.
Wird in einem Zufallsexperiment eine kontinuierliche Græûe erfasst (wie z. B. bei Zeit-, Långenoder Gewichtsmessungen), besteht die Ergebnismenge aus unendlich vielen Elementarereignissen, denen eine Zufallsvariable X unendlich viele Werte zuweist. Derartige Zufallsvariablen heiûen stetig. Bei stetigen Zufallsvariablen fragen wir nicht nach der Wahrscheinlichkeit einzelner Elementarereignisse (diese geht gegen Null), sondern nach der Wahrscheinlichkeit fçr das Auftreten von Ereignissen, die sich in einem bestimmten Intervall Dx (lies: delta x) der Zufallsvariablen befinden (z. B. nach der Wahrscheinlichkeit einer Kærpergræûe zwischen 170 und 180 cm). Warum dies so ist, verdeutlicht der folgende Gedankengang. Nehmen wir einmal an, in Abb. 2.4 sei die Verteilung des stetigen Merkmals ¹Kærpergræûeª wiedergegeben. (Diese Variable kann wegen einer begrenzten Messgenauigkeit praktisch nur diskret erfassbar werden; es handelt sich deshalb um eine quasi-stetige Variable.) Jedem Messwert xi ist hier ein Ordinatenwert f
xi zugeordnet, der græûer oder gleich Null ist. Entspråchen diese f
xi -Werte den Wahrscheinlichkeiten der xi-Werte, wçrde man fçr die Summe der ¹Wahrscheinlichkeitenª aller mæglichen xi -Werte mit f
xi > 0 einen Wert erhalten, der gegen unendlich strebt. Dies stçnde im Widerspruch zu den auf S. 53 eingefçhrten Axiomen der Wahrscheinlichkeitsrechnung. Bei stetigen Zufallsvariablen bezeichnet man deshalb einen f
xi -Wert nicht als Wahrscheinlichkeit eines xi -Wertes, sondern als (Wahrscheinlichkeits-) Dichte eines xi -Wertes.
2
64
2
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
Auf der anderen Seite macht es durchaus Sinn, nach der Wahrscheinlichkeit zu fragen, dass sich ein Wert der Zufallsvariablen in einem bestimmten Intervall Dx befindet. Setzen wir die Gesamtflåche unter der Kurve der Dichte eins Z1 f
x dx 1 ;
2:24 1
entspricht diese Wahrscheinlichkeit der Flåche çber dem Intervall Dx. Hat das Intervall Dx die Grenzen a und b, ermitteln wir Zb f
x dx :
p
a < X < b
2:25
a
(Fçr p
a < X < b kænnen wir bei stetigen Variablen auch p
a X b schreiben.) Die Wahrscheinlichkeit, dass sich ein Wert xi der Zufallsvariablen X im Intervall Dx mit den Grenzen a und b befindet, entspricht dem Integral der Dichtefunktion in den Grenzen a und b. Diesen Sachverhalt verdeutlicht Abb. 2.5. Lassen wir die Intervallbreite Dx kleiner werden, verringert sich auch die Flåche çber dem Intervall bzw. die Wahrscheinlichkeit des Intervalls. Fçr Dx ! 0 geht die Wahrscheinlichkeit des Intervalls gegen Null. Ein Vergleich von stetigen und diskreten Zufallsvariablen zeigt uns, dass die Wahrscheinlichkeit eines Intervalls Dx bei stetigen Variablen durch das entsprechende Integral der Dichtefunktion (Flåchenanteil) und bei diskreten Variablen durch die Summe der entsprechenden Einzelwahrscheinlichkeiten definiert ist.
Verteilungsfunktion fçr diskrete Zufallsvariablen Wird die Wahrscheinlichkeitsfunktion einer diskreten Zufallsvariablen kumuliert, spricht man von der Verteilungsfunktion der Zufallsvariablen. Zwischen der Verteilungsfunktion F
x und der Wahrscheinlichkeitsfunktion besteht damit folgender Zusammenhang: X F
x f
xj : xj X
Bezogen auf die in Abb. 2.3 wiedergegebene Wahrscheinlichkeitsfunktion (Wçrfeln mit 2 Wçrfeln) ermitteln wir beispielsweise fçr X 6 1 2 3 4 5 den Funktionswert F
x 36 36 36 36 36 5 15 . Die Wahrscheinlichkeit, beim Wçrfeln mit 12 36 zwei Wçrfeln hæchstens eine Augenzahl von 6 zu 5 erzielen, betrågt p
X 6 12 .
Verteilungsfunktion fçr stetige Zufallsvariablen Bei einer stetigen Zufallsvariablen entnimmt man der Verteilungsfunktion die Wahrscheinlichkeit, dass die Zufallsvariable X einen Wert annimmt, der hæchstens so groû ist wie a, dem Integral der Dichtefunktion (bzw. der Flåche) von 1 bis a: Za p
X < a f
x dx :
2:26 1
Der Verteilungsfunktion einer Zufallsvariablen ist damit auch einfach zu entnehmen, mit welcher Wahrscheinlichkeit ein bestimmter Wert einschlieûlich græûerer Werte in einem Zufallsexperiment auftreten. Sie ergibt sich wegen Gl. (2.7) als Komplementårwahrscheinlichkeit zu der in Gl. (2.26) definierten Wahrscheinlichkeit: p
X a 1
p
X < a :
2:27
Diese Beziehung ist wichtig fçr die Benutzung der im Anhang wiedergegebenen Tabellen, auf die wir noch ausfçhrlich eingehen werden.
Erwartungswert und Varianz von Zufallsvariablen a
b ∆X Dx
Abb. 2.5. Wahrscheinlichkeit eines Intervalls Dx bei stetigen Verteilungen
Der Mittelwert
x und die Varianz
s2 wurden bereits unter 1.4 als statistische Kennwerte zur Beschreibung einer empirischen Verteilung eingefçhrt. Hier betrachten wir theoretische Verteilun-
a2.4.1
65
Binomialverteilung
gen von Zufallsvariablen mit allen mæglichen N Realisationen, die insgesamt die (in der Regel unendliche) Grundgesamtheit oder Population einer Zufallsvariablen ausmachen (vgl. hierzu auch 3.1). Im Unterschied zu den statistischen Kennwerten x und s2 einer empirischen Verteilung kennzeichnet man die theoretische Verteilung einer Zufallsvariablen durch die Parameter und r2 , wobei man bei einer diskreten Zufallsvariablen wie folgt bestimmt:
N X
x i pi :
2:28
i1
r2 ist bei diskreten Zufallsvariablen durch folgende Gleichung definiert: r2
N X
pi
xi
2 :
2:29
i1
Die Analogie von und r2 zu den statistischen Kennziffern x und s2 wird ersichtlich, wenn man fçr pi die relativen Håufigkeiten ni =n einsetzt. Eine Anwendung von Gl. (2.28) bzw. Gl. (2.29) auf stetige Variablen macht wenig Sinn, da die Wahrscheinlichkeit eines bestimmten Wertes einer stetigen Zufallsvariablen Null ist. und r2 sind hier wie folgt definiert: Z1 x f
x dx ;
2:30
1 2
Z1
r
x
2 f
x dx :
2:31
1
Um x und begrifflich unterscheiden zu kænnen, sprechen wir bei empirischen Verteilungen vom Mittelwert
x und bei theoretischen Verteilungen vom Erwartungswert
. Ausfçhrlichere Hinweise zur Bedeutung von Erwartungswerten sowie weitere Eigenschaften von Zufallsvariablen findet man im Anhang B.
2.4 Diskrete Verteilungen Im Folgenden sollen einige theoretische Wahrscheinlichkeitsverteilungen, die fçr die Statistik von besonderer Bedeutung sind, besprochen wer-
den. Der Wert dieser Verteilungen fçr die Statistik ergibt sich aus der Tatsache, dass empirisch beobachtbare Verteilungen, vor allem aber Verteilungen von statistischen Kennwerten, die aus empirischen Verteilungen abgeleitet werden kænnen (z. B. Mittelwertsverteilungen, Streuungsverteilungen usw.) håufig durch mathematisch exakt beschreibbare theoretische Verteilungen approximiert werden kænnen. Ausgehend von den Verteilungsfunktionen dieser Wahrscheinlichkeitsverteilungen lassen sich Angaben darçber machen, mit welcher Wahrscheinlichkeit statistische Kennwerte auftreten, die mindestens so groû sind wie ein empirisch ermittelter Kennwert. In diesem Abschnitt behandeln wir zunåchst diskrete Verteilungen. Die fçr die angewandte Statistik wichtigsten diskreten Verteilungen sind die Binomialverteilung, die hypergeometrische Verteilung und die Poisson-Verteilung. Neben diesen Verteilungen werden kurz die multinomiale Verteilung und die negative Binomialverteilung erwåhnt.
2.4.1 Binomialverteilung Als erste diskrete Wahrscheinlichkeitsverteilung wird die Binomialverteilung behandelt. Im Rahmen der Binomialverteilung interessieren wir uns fçr Ereignisse, die in zwei Alternativen auftreten, wobei die Alternativen gleich oder ungleich wahrscheinlich sein kænnen. Alternative Ereignisse mit gleichen Wahrscheinlichkeiten sind beispielsweise die Ereignisse Zahl vs. Adler beim Mçnzwurf, gerade Zahl vs. ungerade Zahl beim Wçrfel usw.; um ungleich wahrscheinliche Alternativen handelt es sich bei den Ereignissen Stadtkind vs. Landkind, Zahl 6 vs. eine andere Zahl beim Wçrfel, Akademiker vs. Nichtakademiker usw.
Bernoulli-Prozess Werfen wir mehrmals hintereinander eine Mçnze, so erhalten wir eine Zufallsabfolge der Ereignisse Adler und Zahl. Eine solche Abfolge von zufålligen alternativen, voneinander unabhångigen Ereignissen, die mit konstanter Wahrscheinlichkeit p (bzw. 1 p auftreten, bezeichnen wir als eine Folge von Bernoulli-Versuchen oder als einen Bernoulli-Prozess. Wenn n Versuche durchgefçhrt
2
66
2
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
werden, kann das Ereignis A (z. B. Zahl beim Mçnzwurf) 0-mal, 1-mal, 2-mal, . . ., n-mal auftreten. Die Håufigkeit X des Auftretens von A bei n Versuchen kennzeichnet damit eine Zufallsvariable. Die Binomialverteilung ist die Wahrscheinlichkeitsfunktion f
x fçr die Zufallsvariable ¹Håufigkeiten des Auftretens von A bei n Bernoulli-Versuchenª. Diese Wahrscheinlichkeitsverteilung ist zum einen abhångig von den Wahrscheinlichkeiten der beiden alternativen Ereignisse und zum anderen von der Anzahl der Versuche n. Bezeichnen wir eine Alternative mit A (z. B. Zahl bei Mçnzwurf) und die andere mit A und die Wahrscheinlichkeit fçr A mit p und die Wahrscheinlichkeit fçr A mit q, ergibt sich p q 1:
2:32
Herleitung der Binomialverteilung Mit X Håufigkeit des Auftretens von A kann X fçr n 1 die Werte x 0 oder x 1 annehmen. Fçr diese beiden Ereignisse erhalten wir bei gleichwahrscheinlichen Alternativen jeweils eine Wahrscheinlichkeit von 0;5: f
X 0 f
X 1 0;5. Die Wahrscheinlichkeit, dass bei einem Mçnzwurf das Ereignis Zahl eintritt, ist gleich der Wahrscheinlichkeit, dass Zahl nicht fållt. Fçr beide Ereignisse erhalten wir als Wahrscheinlichkeit den Wert p 0;5. Ist n 2 und p q, kænnen 4 Ereignisse
A A; A A; A A; A A mit gleicher Wahrscheinlichkeit auftreten, und X kann die Werte 0, 1 und 2 annehmen. Fçr die 3 x-Werte ergibt sich die folgende Wahrscheinlichkeitsverteilung:
Fçr X 0; 1; 2; 3 ermitteln wir die folgende Wahrscheinlichkeitsverteilung: f
X 0 1=8 (wenn A A A eintritt; f
X 1 3=8 (wenn A A A oder AAA oder A A A eintritt; f
X 2 3=8 (wenn A A A oder A A A oder A A A eintritt; f
X 3 1=8 (wenn A A A eintritt). Allgemein wird die Wahrscheinlichkeit dafçr gesucht, dass in n Versuchen das Ereignis A gerade x-mal eintrifft (z. B. die Wahrscheinlichkeit, dass bei 10 Mçnzwçrfen gerade 7-mal die Zahl erscheint). Wir wollen einmal annehmen, dass die ersten k Versuche A ergeben und die letzten n k Versuche A ergeben, sodass X k ist (bei den ersten 7 Mçnzwçrfen fållt Zahl und bei den letzten 3 Mçnzwçrfen Adler). Soll die Wahrscheinlichkeit fçr ein solches Ereignis berechnet werden, benætigen wir das Multiplikationstheorem der Wahrscheinlichkeiten fçr voneinander unabhångige Ereignisse, denn das Ereignis setzt sich aus n Elementarereignissen zusammen, die gemeinsam auftreten und voneinander unabhångig sind. Bezogen auf das Beispiel, suchen wir die Wahrscheinlichkeit, dass im ersten Versuch Zahl, im 2. Versuch Zahl, . . . , im 6. Versuch Zahl, im 7. Versuch Zahl, im 8. Versuch Adler, . . . und im 10. Versuch Adler auftritt. Ausgehend von den Wahrscheinlichkeiten p und q fçr die Einzelereignisse A und A resultiert fçr das Gesamtergebnis die Wahrscheinlichkeit f
X k p p . . . p q q . . . q |{z} |{z} k-mal
n k-mal
f
X 0 1=4 (wenn A A eintritt;
pk q
n
f
X 1 1=2 (wenn A A oder A A eintritt;
pk
1
f
X 2 1=4 (wenn A A eintritt). Bei n 3 kænnen die folgenden 8 Ereignisse eintreten: AAA AAA
AAA
AAA
AAA
AAA
AAA
AAA:
k
p
n
k
:
2:33
Wenden wir Gl. (2.33) auf unser Beispiel an, bei dem p q ist, ergibt sich 7 3 10 1 1 1 1 9;77 10 4 : 2 2 2 1024 Gefragt war jedoch nach der Wahrscheinlichkeit, dass das Ereignis A insgesamt k-mal auftritt und nicht nach der Wahrscheinlichkeit, dass gerade die ersten k Versuche zum Ereignis A fçhren. Es
a2.4.1
67
Binomialverteilung
kænnten auch die letzten k Versuche sein oder eine andere beliebige Abfolge der Ereignisse A und A, in der das Ereignis A k-mal auftritt. Jede dieser Anordnungen tritt mit der Wahrscheinlichkeit von pk q
n k auf, und jede dieser Anordnungen erfçllt unsere Bedingung, dass unter n Versuchen k-mal das Ereignis A auftritt. Wollen wir also die Wahrscheinlichkeit ermitteln, dass irgendeine dieser Anordnungen auftritt, mçssen wir nach dem Additionstheorem der Wahrscheinlichkeiten einander ausschlieûender Ereignisse die Einzelwahrscheinlichkeiten fçr diese Anordnungen addieren. Wir benætigen deshalb die Anzahl derjenigen Abfolgen, in denen bei einer beliebigen Reihung von n Ereignissen das Ereignis A k-mal auftritt. Bezogen auf das Mçnzbeispiel suchen wir somit die Anzahl aller Mæglichkeiten, mit 10 Mçnzen 7-mal Zahl zu werfen. Auf dieses Problem låsst sich die 2. Kombinationsregel (vgl. Gl. 2.20) an wenden, nach der wir nk n!=
k!
n k! hinsichtlich des Auftretens von A gleichwertige Abfolgen erhalten. Jede dieser Abfolgen tritt mit einer Wahrscheinlichkeit von pk qn k auf. Um die Wahrscheinlichkeit zu erhalten, mit der irgendeine Anordnung auftritt, in der k-mal A und
n k-mal A enthalten sind, mçssen wir die Einn zelwahrscheinlichkeiten k mal addieren bzw. mit dem Faktor nk multiplizieren. Die Wahrscheinlichkeit, k-mal A in n Versuchen zu erhalten, ergibt sich somit zu f
X kjn
n k
7 3 10 1 1 7 2 2 10 10 9 8 7 6 5 4 1 7654321 2
f
X 7jn 10
0;117 : Die Wahrscheinlichkeit, mit 10 Mçnzen genau 7mal Zahl zu treffen, betrågt somit p 0;117. BEISPIEL Gesucht wird die Wahrscheinlichkeit, mit 8 Wçrfen genau einmal eine 6 zu wçrfeln. Hierbei sind: A die Zahl 6 beim W urfel, A beliebige andere Zahl beim W urfel, 1 p ; 6 5 q ; 6 n 8; k 1: Setzen wir diese Werte in (2.34) ein, ergibt sich 1 7 8 1 5 f
X 1jn 8 0;372 : 1 6 6
Fçr X 0 vereinfacht sich Gl. (2.34) zu f
X 0jn qn : Fçr X 1 ergibt sich
k
p q
n k
;
2:34
wobei f
X kjn Wahrscheinlichkeit, dass die Zufallsvariable X den Wert k aufweist, unter der Bedingung, dass n Versuche durchgefçhrt werden.
Gl. (2.34) definiert die Wahrscheinlichkeit der Håufigkeiten fçr das Auftreten eines Alternativereignisses A in n Versuchen, wenn A mit einer Wahrscheinlichkeit von p eintritt. Diese Wahrscheinlichkeitsfunktion heiût Binomialverteilung mit den Parametern n und p.
Setzen wir die Werte unseres Beispiels in (2.34) ein, erhalten wir
f
X 1jn n p q
n Fçr X n 1 ergibt sich f
X n
1jn n p
n
1
:
1
q;
und fçr X n ergibt sich f
X njn pn :
Tabellarische und graphische Darstellung Tabelle A des Anhangs enthålt die Wahrscheinlichkeiten fçr die x-Werte der Binomialverteilung mit den Parametern n 1 bis n 20 fçr einige ausgewåhlte p-Werte. (Da p 1 q, sind nur p-Parameter im Bereich 0 < p 0;50 aufgenommen.) Dieser Tabelle entnehmen wir beispielsweise, dass eine Merkmalsalternative A mit p
A 0;25 in n 13 Versuchen mit einer Wahrschein-
2
68
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
0.40
n X
a
j0
f (x)
0.32
2
f
X xj jn qn n p q
n
0.24
n 2 X n j2
0.16
j
n p
n 1:
0.08
1
1
pj q
n
j
q pn
2:35
0 0
1
2
3
4
5
6
7
8
x 0.20
b
f (x)
0.16
Analog hierzu kann ermittelt werden, wie groû die Wahrscheinlichkeit ist, dass unter n Versuchen bei gegebenem p mindestens k-mal das Ereignis A eintritt. Da alle Håufigkeiten xj k diese Bedingung erfçllen, ergibt sich als Wahrscheinlichkeit
0.12 0.08
f
X kjn
n X n jk
0.04
j
pj q
n
j
:
2:36
0 0
2
4
6
8
10 12 14 16 18
x 0.40
c
0.32
f (x)
Soll das Ereignis A hæchstens k-mal auftreten, ermitteln wir entsprechend
f
X kjn
k X n j0
0.24
j
pj q
n
j
:
2:37
0.16
Gl. (2.37) definiert die Verteilungsfunktion der Binomialverteilung.
0.08 0 0
1
2
3
4
5
6
7
8
x
Abb. 2.6 a±c. Wahrscheinlichkeitsfunktionen von Binomialverteilungen. a Binomialverteilung mit n 6 und p 0;30, b Binomialverteilung mit n 18 und p 0;50, c Binomialverteilung mit n 8 und p 0;80
BEISPIEL Wie groû ist die Wahrscheinlichkeit, dass unter 100 Roulettewçrfen mindestens 3-mal die Zahl 13 fållt? A Zahl 13 beim Roulette; A jede beliebige andere Zahl;
lichkeit von p 0;0186 genau 7-mal eintritt: f
X 7jn 13 0;0186. Abbildung 2.6 a±c zeigt 3 binomiale Wahrscheinlichkeitsfunktionen.
Verteilungsfunktion Summieren wir die bei gegebenem n und p erhaltenen Wahrscheinlichkeiten fçr alle xj , muss die Summe der Wahrscheinlichkeiten 1 ergeben.
p 1=37; n 100;
q 36=37; xj 3; 4; 5; . . . ; 99; 100 :
Da alle xj 3-Werte die Bedingung ¹mindestens 3-mal die 13ª erfçllen, mçssen bei dieser Frage 98 Einzelwahrscheinlichkeiten addiert werden. Diesen erheblichen Rechenaufwand kænnen wir umgehen, wenn wir von der Beziehung p
A 1 p
A Gebrauch machen. Wir ermitteln somit zunåchst nach Gl. (2.37) die Wahrscheinlichkeit des Komplementårereignisses A, dass unter 100 Wçrfen hæchstens 2-mal die 13 fållt.
a2.4.1
69
Binomialverteilung
f
X 2jn 2 X f
X xj j100 j0
n p2 q
n qn n p q
n 1 2 100 99 36 1 36 100 37 37 37 2 98 100 1 36 2 37 37
2
0;0646
Wahrscheinlichkeit f ur 0-mal 13) 0;1794
Wahrscheinlichkeit f ur 1-mal 13) 0;2466
Wahrscheinlichkeit f ur 2-mal 13) 0;4906 : Mit einer Wahrscheinlichkeit von p 0;4906 fållt somit bei 100 Roulettewçrfen hæchstens 2-mal die 13. Die Wahrscheinlichkeit, dass mindestens 3-mal die 13 fållt, betrågt somit 1 0;4906 0;5094.
Pascalsches Dreieck Wegen p q 1 gilt auch
p qn 1 :
2:38
Aus (2.38) und (2.35) folgt:
p qn qn n p qn 1 n 2 X n j
n j p q j j2 n p
n
1
q pn :
2:39
Die rechte Seite dieser Gleichung stellt die Entwicklung des Binoms p q fçr die n-te Potenz dar und heiût binomische Entwicklung. Die Koeffizienten nj werden Binomialkoeffizienten genannt. Diese Binomialkoeffizienten kænnen leicht einer Hilfstafel, dem sog. pascalschen Dreieck, entnommen werden (Tabelle 2.2). Tabelle 2.2. Pascalsches Dreieck n0 1 2 3 4 5 6
1
1
1 6
1 5
1 4 15
1 3 10
Die Zeilenbezeichnungen geben das n an, und die einzelnen Werte in der Zeile sind die Binomialkoeffizienten fçr unterschiedliche j-Werte. Beispiel: Fçr n = 5 ergibt sich fçr die Binomialkoeffizienten: 5 1 0 5 5 1 5 54 10 2 21 5 5 10 2 3 5 5 5 1 4 5 5 1 0 5 Diese Werte sind in der Zeile n = 5 aufgefçhrt. Die Fortschreibung des pascalschen Dreiecks ist denkbar einfach: Fçr die Randziffern
j 0 und j n ergibt sich immer der Wert 1, und die çbrigen Werte entsprechen den Summen der beiden jeweils darçberliegenden Werte. Die Wahrscheinlichkeiten der Binomialverteilung fçr p = q kænnen einfach anhand der Zahlen des pascalschen Dreiecks ermittelt werden: Gesucht ist die Wahrscheinlichkeit, mit 5 Mçnzwçrfen 2-mal Zahl zu erzielen. In der Zeile n 5 lesen wir fçr j 2 (der dritte Wert dieser Zeile) den Wert 10 ab. Diese Zahl gibt die Anzahl der gçnstigen Fålle wieder. Die Summe aller Binomialkoeffizienten fçr n 5 (Summe dieser Zeile) entspricht der Anzahl der mæglichen Fålle, die in diesem Falle 32 lautet (allgemein: 2n ). Die gesuchte Wahrscheinlichkeit betrågt somit f
X 2jn 5 10=32 0;3125. Dieser Wert stimmt mit dem in Tabelle A im Anhang fçr p 0;5, n 5 und k 2 genannten Wert çberein.
Verteilungseigenschaften 1 2 6 20
1 3 10
1 4 15
1 5
1 6
1
1
Binomialverteilungen sind unimodale Verteilungen, die fçr p q symmetrisch und fçr p < 0;5 linkssteil sind. Man kann zeigen, dass die Binomialverteilung einen Erwartungswert von x n p p und eine Streuung von rx n p q aufweist. Macht man mehrere Versuchsdurchgånge mit z. B.
2
70
2
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
n 30 und p 0;4, wird die Merkmalsalternative A im Durchschnitt x 30 0;4 12-mal auftreten. Fçr die Streuung der einzelnen x-Werte erp rechnet man rx 30 0;4 0;6 2;68. Weitere Informationen zur Binomialverteilung findet man auf S. 77 f.
2.4.2 Hypergeometrische Verteilung Zur Veranschaulichung der Beziehung zwischen einer Binomialverteilung und einer hypergeometrischen Verteilung stelle man sich eine Urne vor, in der (theoretisch) unendlich viele schwarze und (theoretisch) unendlich viele rote Kugeln enthalten sind. Entnehmen wir dieser Urne eine Stichprobe von n Kugeln, låsst sich die Wahrscheinlichkeit dafçr, dass in dieser Stichprobe k rote Kugeln enthalten sind, nach der Binomialverteilung (mit p = q) ermitteln. Sind in der Urne jedoch nicht unendlich viele, sondern nur N Kugeln enthalten, so benætigen wir fçr die Berechnung der Wahrscheinlichkeit, dass in einer Stichprobe des Umfanges n k rote Kugeln enthalten sind, die hypergeometrische Verteilung. Die Binomialverteilung kann hier nicht eingesetzt werden, weil durch die sukzessive Entnahme einzelner Kugeln aus der Urne mit endlicher Kugelanzahl die Wahrscheinlichkeiten fçr das Auftreten einer roten bzw. schwarzen Kugel geåndert werden. Wçrden wir die Kugeln nach der Entnahme wieder in die Urne zurçcklegen, blieben die Wahrscheinlichkeiten konstant, und wir kænnten die Binomialverteilung anwenden. Sind beispielsweise in einer Urne 5 schwarze und 5 rote Kugeln enthalten, und wir wollen 4 Kugeln entnehmen, so ermitteln wir fçr die Wahrscheinlichkeit, dass die erste Kugel eine rote Kugel ist, den Wert p 1=2. Werden die erste und die folgenden Kugeln wieder zurçckgelegt, so bleiben die Wahrscheinlichkeiten fçr rote und schwarze Kugeln erhalten, und wir kænnen die Wahrscheinlichkeit, dass sich in einer Stichprobe von n Kugeln k rote Kugeln befinden, anhand der bereits bekannten Binomialverteilung ausrechnen. Wird die erste Kugel hingegen nicht zurçckgelegt, so veråndern sich fçr die zweite und die folgenden Kugeln die Wahrscheinlichkeiten. In unserem Beispiel betrågt die Wahrscheinlichkeit dafçr, dass nach einer roten Kugel eine weitere rote Kugel entnommen wird, p 4=9.
Herleitung der hypergeometrischen Verteilung Befinden sich unter N Objekten K Objekte mit der Alternative A (und damit N K Objekte mit A), kænnen sich in einer Stichprobe des Umfanges n
n N 0; 1; 2; . . . oder n Objekte mit der Alternative A befinden. Die Håufigkeit X des Auftretens von A schwankt zufållig von Versuch zu Versuch und stellt damit eine Zufallsvariable dar. Die Wahrscheinlichkeitsfunktion f
X gibt an, mit welcher Wahrscheinlichkeit diese Zufallsvariable die Werte 0; 1; 2; . . . n annimmt. Diese Wahrscheinlichkeitsfunktion heiût hypergeometrische Verteilung. Sie ist abhångig von den Parametern N; K und n. Fçr die Ermittlung der hypergeometrischen Verteilung vereinbaren wir zusammenfassend: N Anzahl aller Objekte K Anzahl aller Objekte mit der Alternative A N
K Anzahl aller Objekte mit der Alternative A n Gr oûe der Stichprobe
n N k Haufigkeit der Alternative A in der Stichprobe
n
k Haufigkeit der Alternative A in der Stichprobe .
Die Berechnung einer hypergeometrischen Wahrscheinlichkeit orientiert sich an der allgemeinen Formel p
Anzahl der g unstigen Falle : Anzahl der m oglichen Falle
Zunåchst wollen wir am Urnenmodell veranschaulichen, wie viele verschiedene Mæglichkeiten es gibt, aus N Kugeln n Kugeln zu ziehen. Die Antwort liefert die 2. Kombinationsregel (s. Gl. 2.20): Es ergeben sich Nn Mæglichkeiten. Als nåchstes ermitteln wir, wie viele gçnstige Fålle (z. B. X k rote Kugeln) denkbar sind. Die roten Kugeln kænnen auf Kk verschiedene Weise aus der Grundgesamtheit entnommen werden, und fçr die schwarzen Kugeln bestehen Nn kK verschiedene Mæglichkeiten. Jede der Mæglichkeiten, rote Kugeln zu ziehen, kann mit jeder der Mæglichkeiten, schwarze Kugeln
a2.4.3
71
Poisson-Verteilung
zu ziehen, kombiniert werden, sodass das Produkt dieser Mæglichkeiten die Anzahl aller gçnstigen Fålle ergibt. Die Wahrscheinlichkeit, dass k rote Kugeln in der Stichprobe enthalten sind, wird somit nach folgender Formel berechnet: N K K n k k ;
2:40 f
X kjN; K; n N n wobei f
X kjN; K; n Wahrscheinlichkeit, k Ereignisse mit der Alternative A zu erhalten unter der Bedingung, dass eine Stichprobe des Umfanges n aus einer Grundgesamtheit von N Objekten gezogen wird, in der sich die Alternative A K-mal befindet. Gl. (2.40) definiert die Wahrscheinlichkeitsfunktion der Håufigkeiten fçr das Auftreten eines Alternativereignisses A, wenn aus N Ereignissen n zufållig ausgewåhlt werden, und das Ereignis A unter den N Ereignissen K-mal vorkommt. Diese Wahrscheinlichkeitsfunktion heiût hypergeometrische Verteilung mit den Parametern N; K und n.
BEISPIEL Gesucht wird die Wahrscheinlichkeit, im Lotto ¹6 aus 49ª 6 Richtige zu haben. Dieses Beispiel wurde bereits im Zusammenhang mit der 2. Kombinationsregel (vgl. S. 60 f.) besprochen, und wir wollen nun prçfen, ob mit der Berechnungsvorschrift fçr hypergeometrische Wahrscheinlichkeiten das gleiche Ergebnis ermittelt wird. Formal stellt sich das Beispiel so dar: N 49; K 6; N K 43; n 6; k 6; n k 0. Somit ist K n k, sodass sich Gl. (2.40) folgendermaûen vereinfacht: K N k K 0 f
X kjN; K n k N n 1 N n wegen N 0 K 1 . Fçr 6 Richtige ermitteln wir somit auch nach Gl. (2.40) die Wahrscheinlichkeit p 7;15 10 8 . Als nåchstes soll çberprçft werden, wie groû die Wahrscheinlichkeit fçr 5 Richtige im Lotto ist. In diesem Fall erhalten wir: N 49; K 6; N K 43; n 6; k 5; n k 1. Setzen wir diese Werte in Gl. (2.40) ein, ergibt sich:
43 6 1 5 f
X 5jN 49; K 6; n 6 49 6 6 43 13983816 0;0000184
1;845 10
5
:
Fçr 4 Richtige erhalten wir
6 43 4 2 f
X 4jN 49; K 6; n 6 49 6 13545 13983816 0;0010
und fçr 3 Richtige
6 43 3 3 f
X 3jN 49; K 6; n 6 49 6 246820 13983816 0;0177 :
Die Wahrscheinlichkeit, mindestens 3 Richtige zu haben, betrågt somit 7;15 10
8
1;845 10
5
0;0010 0;0177 0;0187 :
2.4.3 Poisson-Verteilung Die Poisson-Verteilung ist die Verteilung seltener Ereignisse. Wenn die Anzahl der Ereignisse n sehr groû und die Wahrscheinlichkeit p des untersuchten Alternativereignisses A sehr klein ist, wird die Ermittlung binomialer Wahrscheinlichkeiten nach Gl. (2.34) sehr aufwendig. In diesem Falle kann die exakte binomiale Wahrscheinlichkeitsfunktion durch die Poisson-Verteilung approximiert werden. Die Wahrscheinlichkeitsfunktion der Poisson-Verteilung lautet (vgl. z. B. Pfanzagl, 1974, Kap. 2.4): k ;
2:41 k! wobei e Basis der natçrlichen Logarithmen 2;718 und n p. Nach Sachs (2002, S. 228) sind Binomialverteilungen mit n > 10 und p < 0,05 hinreichend genau f
X kj
e
2
72
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
durch die Poisson-Verteilung approximierbar. Wie bei der Binomialverteilung wird vorausgesetzt, dass p(A) çber alle Versuch hinweg konstant ist (Stationaritåtsannahme). Erwartungswert und Varianz sind bei der Poisson-Verteilung identisch:
2
x r2x n p :
2:42
Ein Karnevalsverein hat 100 Mitglieder. Wie groû ist die Wahrscheinlichkeit, dass mindestens 1 Mitglied am 1. April Geburtstag hat? Ûbertragen in die Terminologie der Binomialverteilung fragen wir nach der Wahrscheinlichkeit, dass das Ereignis A (am 1. April Geburtstag) bei n = 100 ¹Versuchenª mindestens X = 1-mal vorkommt: f(X ³ 1|n = 100) fçr p = 1/365 (gleich bleibende Geburtswahrscheinlichkeit fçr alle 365 Tage eines Jahres bzw. Stationaritåt vorausgesetzt). Da die Bedingungen fçr eine Approximation der Binomialverteilung durch die Poisson-Verteilung (n > 20, p £ 0,05) erfçllt sind, errechnen wir diese Wahrscheinlichkeit çber Gl. (2.41) mit l = 100 ´ 1/365 = 0,2740. Auûerdem vereinfachen wir uns die Rechnung, indem wir zunåchst die Komplementårwahr berechnen (kein Mitglied hat am 1. scheinlichkeit f
A zur geApril Geburtstag), um dann çber f
A 1 f
A suchten Wahrscheinlichkeit zu gelangen. Wir errechnen 0;27400 0;7604
0;7801 : e0;2740 0!
(Hier und im Folgenden sind in Klammern die exakten Binomialwahrscheinlichkeiten nach Gl. 2.34 angegeben). Fçr die Wahrscheinlichkeit, dass kein Mitglied am 1. April Geburtstag hat, ergibt sich also der Wert 0,7604. Als Komplementårwahrscheinlichkeit errechnet man f
X 1jl 0;2740 1 1
2.4.4 Weitere diskrete Verteilungen Multinomiale Verteilung
BEISPIEL
f
X 0jl 0;2740
dern) haben mindestens 1 Mitglied, das am 1. April Geburtstag hat.
f
X 0jl 0;2740
0;7604 0;2396 :
Zu Demonstrationszwecken çberprçfen wir dieses Ergebnis, indem wir die Wahrscheinlichkeiten fçr X 1; 2; 3; . . . ; n Mitglieder mit Geburtstag am 1. April ermitteln: 0;27401 0;2083
0;2088 ; e0;2740 1! 2 0;2740 0;0285
0;0284 ; f
X 2jl 0;2740 0;2740 e 2! 0;27403 0;0026
0; 0025 ; f
X 3jl 0;2740 0;2740 e 3! 4 0;2740 0;0002
0;0002 ; f
X 4jl 0;2740 0;2740 e 4! 0;2396
0;2399 : f
X 1jl 0;2740
Mit X = 4 erreicht die Summe der Wahrscheinlichkeiten den Wert 0,2396. Die Wahrscheinlichkeitswerte fçr 5 oder mehr Mitglieder mit Geburtstag am 1. April sind also (bei 4 Nachkommastellen) zu vernachlåssigen. Zusammenfassend ist festzustellen: Ca. 24% aller Karnevalsvereine der hier untersuchten Art (mit n = 100 Mitglie-
Zur Veranschaulichung der multinomialen Verteilung (auch Polynomialverteilung genannt) verwenden wir erneut eine Urne, in der sich rote und schwarze Kugeln in einem bestimmten Håufigkeitsverhåltnis befinden. Die Wahrscheinlichkeiten, dass bei n Versuchen X 0; 1; 2; . . . rote Kugeln gezogen werden, sind unter der Voraussetzung, dass die Kugeln wieder zurçckgelegt werden, binomial verteilt. Befinden sich in der Urne hingegen rote, schwarze, grçne und blaue Kugeln in einem bestimmten Håufigkeitsverhåltnis, kann die Wahrscheinlichkeit dafçr, dass bei n Versuchen k1 rote, k2 schwarze, k3 grçne und k4 blaue Kugeln gezogen werden (wiederum mit Zurçcklegen), nach folgender Beziehung ermittelt werden: f
k1 ; k2 ; . . . ; ks jn; p1 ; p2 ; . . . ; ps n!
p1 k1
p2 k2 . . .
ps ks ; k 1 ! k2 ! . . . k s ! (2.43) wobei 1; 2; . . . ; s die verschiedenen Ereignisklassen (rote, schwarze, grçne, . . . Kugeln) n Anzahl der Beobachtungen (es werden z. B. n 10 Kugeln gezogen) k1 ; k2 ; . . . ; ks Anzahl der Beobachtungen in den einzelnen Ereignisklassen (es werden z. B. 3 rote, 4 blaue, 2 schwarze und 1 grçne Kugel gezogen) p1 ; p2 ; . . . ; ps Wahrscheinlichkeiten fçr die einzelnen Ereignisklassen. Die nach Gl. (2.43) fçr bestimmte n- und p1 -, p2 -, . . . ; ps -Werte ermittelten Wahrscheinlichkeiten fçhren zur multinomialen Wahrscheinlichkeitsverteilung. Ist s 2, reduziert sich Gl. (2.43) zu der bereits bekannten Formel fçr die Ermittlung von Wahrscheinlichkeiten der Binomialverteilung nach Gl. (2.34). Die gleiche Problematik ¹ohne Zurçcklegenª haben wir auf S. 61 behandelt (3. Kombinationsregel).
a2.5.1
73
Normalverteilung
BEISPIEL In einer studentischen Population haben 3 Parteien A, B und C die folgenden Sympathisantenanteile: pA 0;5, pB 0;3 und pC 0;2. In einem Seminar befinden sich 12 Studenten, von denen 4 Partei A, 6 Partei B und 2 Partei C favorisieren. Wie groû ist die Wahrscheinlichkeit fçr diese Zusammensetzung von 12 Studenten? Wir errechnen nach Gl. (2.43): f
4; 6; 2j12; 0;5; 0;3; 0;2 12! 0;54 0;36 0;22 4! 6! 2! 0;0253 : Die Wahrscheinlichkeit, dass die Seminarteilnehmer ¹repråsentativª fçr die gesamte studentische Population sind, ist mit 2,53% also sehr gering.
Negative Binomialverteilung Wåhrend die Binomialverteilung darçber informiert, mit welcher Wahrscheinlichkeit wir bestimmte Håufigkeiten eines alternativen Ereignisses A bei n Beobachtungen erwarten kænnen, ermittelt man mit der negativen Binomialverteilung, wieviele Beobachtungen erforderlich sind, damit ein binomialverteiltes Ereignis mit einer bestimmten Wahrscheinlichkeit auftritt. Zur Veranschaulichung sei wieder eine mægliche Situation am Roulettetisch herausgegriffen. Ein Spieler mæchte wissen, wie groû die Wahrscheinlichkeit ist, dass im 10. Wurf erstmalig eine bestimmte Zahl (z. B. die 13) fållt, oder allgemein, dass nach r ¹falschenª Zahlen und k 1 Treffern im
r k n-ten Versuch der k-te Treffer auftritt. Nach dem Bildungsgesetz der negativen Binomialverteilung ermitteln wir hierfçr kr 1 p k qr : f
X kjr; p
2:44 r Setzen wir fçr unser Beispiel k 1, r 9, p 1=37 und q 36=37, ergibt sich fçr das Ereignis ¹nach 9 Wçrfen erstmalig die 13ª eine Wahrscheinlichkeit von 1 9 9 1 36 f
X 1j9; 1=37 9 37 37 0;021 : Hierbei ist zu beachten, dass die Wahrscheinlichkeit, im 10. Wurf die erste 13 zu erhalten
p 0;02, natçrlich nicht identisch ist mit der Wahrscheinlichkeit, mit einem beliebigen Wurf eine 13 zu werfen
p 1=37 0;027. Soll im 10. Wurf die gewçnschte Zahl bereits zum zweitenmal fallen, errechnen wir folgende Wahrscheinlichkeit: 2 8 9 1 36 f
X 2j8; 1=37 8 37 37 0;005 : Da auf Grund der negativen Binomialverteilung errechnet werden kann, wie lange man ¹wartenª muss, bis ein bestimmtes Ereignis mit einer bestimmten Wahrscheinlichkeit zum k-ten Male auftritt, wird die negative Binomialverteilung håufig zur Analyse von Wartezeiten herangezogen. Setzen wir k 1, erhalten wir eine Verteilung, die gelegentlich auch als ¹geometrische Verteilungª bezeichnet wird. Ein sozialwissenschaftlich relevantes Anwendungsbeispiel fçr die negative Binomialverteilung, die z. B. bei Parzen (1962) ausfçhrlich dargestellt wird, findet der interessierte Leser bei Mosteller u. Wallace (1964).
2.5 Stetige Verteilungen Die fçr die Statistik wichtigste Verteilung ist die Normalverteilung, die in 2.5.1 ausfçhrlich behandelt wird. Aus ihr abgeleitet sind weitere stetige Verteilungen, wie z. B. die v2 -Verteilung (2.5.2), die t-Verteilung (2.5.3) sowie die F-Verteilung (2.5.4). Zusammenhånge zwischen diesen Verteilungen werden in 2.5.5 erærtert.
" 2.5.1 Normalverteilung Eigenschaften der Normalverteilung So, wie die bisher besprochenen Verteilungsarten (Binomialverteilung, Poisson-Verteilung usw.) jeweils eine ganze Klasse von Verteilungen charakterisieren, gilt auch die Bezeichnung Normalverteilung fçr viele Verteilungen, deren Gemeinsamkeiten durch Abb. 2.7 veranschaulicht werden. Den Dichtefunktionen sind folgende, fçr alle Normalverteilungen typische Eigenschaften zu entnehmen: · Die Verteilung hat einen glockenfærmigen Verlauf.
2
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
f (x)
0,06
2
a
0,06
µ = 10, σ = 10
0,05
0,05
0,04
0,04
f (x)
74
0,03
b
µ = 100, σ = 8
0,03
0,02
0,02
0,01
0,01
0
0 - 30 - 20 -10
0
10 20 30 40 50
60 70 80 90 100 110 120 130 140
x
c
x 0,30
µ = -3, σ = 4
0,25
0,25
0,20
0,20
f (x)
f (x)
0,30
0,15
d
0,15
0,10
0,10
0,05
0,05
0
0 -19 -15 -11 -7
-3
1
5
9
13
64 68 72 76 80 84 88 92 96
x 0,06
µ = 80, σ = 2
e
x
µ = 50, σ = 20
0,05
f (x)
0,04 0,03 0,02 0,01 0 10 20 30 40 50 60 70 80 90 100
x
Abb. 2.7 a±e. Verschiedene Normalverteilungen (Dichtefunktionen)
· Die Verteilung ist symmetrisch. · Modalwert, Median und Erwartungswert fallen zusammen (vgl. Abb. 1.11 c). · Die Verteilung nåhert sich asymptotisch der X-Achse. · Zwischen den zu den Wendepunkten gehærenden x-Werten befindet sich ca. 2/3 der Gesamtflåche. Die in Abb. 2.7 a±e deutlich werdenden Verteilungsunterschiede sind darauf zurçckzufçhren, dass die Verteilungen a) durch unterschiedliche Erwartungswerte
b) durch unterschiedliche Streuungen
r gekennzeichnet sind. Normalverteilungen mit gleichem Erwartungswert und gleicher Streuung sind identische Nor-
malverteilungen. Die Normalverteilung wird somit durch die beiden Parameter und r eindeutig festgelegt. Ihre Dichtefunktion lautet: 2 1 2 f
x p e
x =2r ;
2:45 2 2p r wobei p 3;14, e 2;72 (Basis der natçrlichen Logarithmen). Aus dieser Gleichung kænnen zusåtzlich zu den bereits erwåhnten Eigenschaften folgende Merkmale der Normalverteilung abgeleitet werden: · Die Funktion ist definiert, wenn x beliebige reelle Zahlen annimmt. · Bei gegebenem und r ergibt sich fçr x die folgende Ordinate (Wahrscheinlichkeitsdichte): 1 f
x p e0 0;4 r 2pr2
1
:
a2.5.1
· Da der2 Exponent von e negativ ist, kann der Ausdruck 2 e
x =2r nur Werte zwischen Null und 1 annehmen. · Je mehr sich x bei gegebenem und r von unter2 2 scheidet, desto kleiner wird e
x =2r bzw. die Wahrscheinlichkeitsdichte f
x. · Durch die Quadrierung des Ausdruckes
x liegt die Verteilung symmetrisch um . · Bei gegebenem werden mit zunehmender Streuung die f
x-Werte kleiner, d. h. je græûer die Streuung der Verteilung, desto langsamer werden bei zunehmender Diskrepanz x die f
x-Werte kleiner; die Verteilung wird also mit zunehmender Streuung flacher. · Die 2. Ableitung der Funktion zeigt, dass die Wendepunkte der Verteilung, zwischen denen sich ca. 68% der Gesamtflåche befinden, bei 1r liegen.
Standardnormalverteilung Unter den unendlich vielen Normalverteilungen gibt es eine Normalverteilung, die dadurch ausgezeichnet ist, dass sie einen Erwartungswert von 0 und eine Streuung von r 1 aufweist. Dieser Normalverteilung wird deshalb eine besondere Bedeutung zugemessen, weil såmtliche çbrigen Normalverteilungen durch eine einfache Transformation in sie çberfçhrbar sind. Wie wir bereits unter 1.4.3 kennengelernt haben, wird dies durch die z-Transformation gewåhrleistet (vgl. Gl. 1.27). Durch die z-Transformation kænnen såmtliche Normalverteilungen standardisiert werden, d. h. auf einen Standard gebracht werden. Wir bezeichnen deshalb die Normalverteilung mit l 0 und r 1 als Standardnormalverteilung.
Wegen 0 und r 1 vereinfacht sich die Dichtefunktion Gl. (2.45) zu 1 f
z p e 2p
z2 =2
2
75
Normalverteilung
:
2:46
In dieser Gleichung wurde die x-Variable durch die z-Variable ersetzt, um zum Ausdruck zu bringen, dass sich die Dichtefunktion in Gl. (2.46) auf eine normalverteilte Zufallsvariable mit 0 und r 1 bezieht. Wie in Kap. 2.3 ausgefçhrt, unterscheiden wir bei stetigen Verteilungen zwischen der Dichtefunktion und der Verteilungsfunktion, wobei letzterer die Wahrscheinlichkeit zu entnehmen ist, dass die Zufallsvariable z einen Wert annimmt, der nicht græûer als z a ist: p
z < a. Zur Ermittlung dieser Wahrscheinlichkeit berechnen wir
die Flåche unter der Verteilung in den Grenzen 1 und a: Za p
z < a 1
1 p e 2p
z2 =2
dz :
2:47
Die Gesamtflåche hat den Wert eins. Die Integrale der Standardnormalverteilung kænnen der Tabelle B des Anhangs entnommen werden. Diese Tabelle gibt die Flåchen F
z wieder, die durch die Grenzen 1 und z gekennzeichnet sind. Fçr die Teilflåche z 1 bis z 0 ergibt sich ein Wert von p 0;5, d. h. die Wahrscheinlichkeit, dass ein zufålliger Wert in den Bereich 1 < z < 0 fållt, betrågt 50%. (Ein Rechenprogramm zur Bestimmung von Flåchenanteilen der Standardnormalverteilung findet man bei Sletten, 1980.) Tabelle B sind auch Flåchenanteile zwischen beliebigen z-Werten zu entnehmen. Um beispielsweise die Flåche zu ermitteln, die sich zwischen z 2 und z 1 befindet, lesen wir zunåchst F
z 2 0;9772 ab und ziehen hiervon F
z 1 0;1587 ab. Der gesuchte Flåchenanteil heiût somit 0;9772 0;1587 0;8185. In gleicher Weise ermitteln wir den Flåchenanteil, der zwischen den beiden Wendepunkten der Normalverteilung liegt: F
z 1 F
z 1 0;8413 0;1587 0;6826. Dies ist der auf S. 43 genannte Wert. Die Wahrscheinlichkeit, dass die Zufallsvariable z einen Wert in den Grenzen z 1 und z 1 annimmt, betrågt p 0;6826. BEISPIEL Durch das folgende Beispiel soll die Benutzung der Normalverteilungstabelle weiter vertieft werden. Tabelle 1.5 enthålt die Håufigkeitsverteilung der Bearbeitungszeiten von 90 Personen. Es soll çberprçft werden, ob diese Verteilung angenåhert einer Normalverteilung entspricht. Wir ermitteln hierfçr, wie viele Personen in die einzelnen Zeitintervalle fallen mçssten, wenn die Bearbeitungszeiten normalverteilt wåren. Die folgenden Schritte fçhren zu den gesuchten Håufigkeiten: · Die empirische Verteilung muss in eine Verteilung mit dem Mittelwert x 0 und der Streuung s 1 çberfçhrt werden. Dies geschieht durch z-Standardisierung såmtlicher Werte (vgl. Gl. 1.27). Als Mittelwert und Streuung verwenden wir die auf S. 38 und 44 ermittelten Werte von x 106;78 und s 21;48. Da die Messwerte bereits in Kategorien zusammengefasst sind, brauchen nur die Kategoriengrenzen z-standardisiert zu werden.
76
2
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
· Problematisch sind die Kategorien an den Randbereichen der Verteilung, die in unserem Beispiel nicht offen, sondern geschlossen sind. Sollte die Bearbeitungszeit jedoch normalverteilt sein, darf es theoretisch keine kleinste und keine græûte Bearbeitungszeit geben, d. h., die Randkategorien mçssen offen sein. Die untere Grenze der Kategorie mit den kçrzesten Bearbeitungszeiten erhålt deshalb den Wert 1 und die obere Grenze der Kategorie mit den långsten Bearbeitungszeiten den Wert 1. Spalte 3 in Tabelle 2.3 gibt die z-standardisierten Kategoriengrenzen wieder. · Ausgehend von den z-standardisierten Kategoriengrenzen werden anhand Tabelle B diejenigen Flåchenanteile bestimmt, die sich zwischen je zwei Kategoriengrenzen befinden. Die Summe dieser Flåchenanteile muss 1 ergeben (vgl. 4. Spalte in Tabelle 2.3). · Die Flåchenanteile (= Wahrscheinlichkeiten) werden mit dem Stichprobenumfang n 90 multipliziert. Wir erhalten so die Håufigkeiten, die sich theoretisch ergeben mçssten, wenn die Bearbeitungszeiten von 90 Personen bei einem Erwartungswert von 106;78 und einer Streuung von r 21;48 normalverteilt wåren. Die Summe dieser erwarteten Håufigkeiten muss n 90 ergeben.
Vergleichen wir die empirisch angetroffenen und die theoretisch erwarteten Håufigkeiten, stellen wir je nach Kategorie teils græûere, teils geringere Abweichungen fest. Ein Verfahren zur Bewertung dieser Abweichungen bzw. zur Ûberprçfung der Hypothese, die Bearbeitungszeiten seien normalverteilt, wird unter 5.3.2 im Zusammenhang mit den v2 -Techniken dargestellt.
Bedeutsamkeit der Normalverteilung Die Bedeutsamkeit der Normalverteilung leitet sich aus den folgenden Eigenschaften ab: · die Normalverteilung als empirische Verteilung, · die Normalverteilung als Verteilungsmodell fçr statistische Kennwerte, · die Normalverteilung als mathematische Basisverteilung, · die Normalverteilung in der statistischen Fehlertheorie. Im Folgenden wollen wir nach dieser Gliederung die Bedeutung der Normalverteilung analysieren.
Die Normalverteilung als empirische Verteilung. Wir haben bisher die Normalverteilung als eine rein theoretische Verteilung mit bestimmten mathematischen Eigenschaften kennengelernt. Ihre Bedeutung ist jedoch zum Teil darauf zurçckzufçhren, dass sich einige human- und sozialwissen-
schaftlich relevante Merkmale zumindest angenåhert normalverteilen. Das Modell der Normalverteilung wurde erstmalig im 19. Jahrhundert von dem Belgier Adolph Quetelet (vgl. Boring, 1950) auf menschliche Eigenschaften angewandt. Quetelet war es aufgefallen, dass sich eine Reihe von Messungen, wie z. B. die Kærpergræûe, das Kærpergewicht, Testleistungen usw. angenåhert normalverteilen, was ihn zu dem Schluss veranlasste, dass die Normalverteilung psychologischer, biologischer und anthropologischer Merkmale einem Naturgesetz entspricht (hinsichtlich weiterer normalverteilter Merkmale vgl. Anastasi, 1963, Kap. 2). Er ging davon aus, dass die Natur eine ideale, normative Ausprågung aller Merkmale anstrebe, dass jedoch die individuelle Ausprågung eines Merkmals von einer groûen Zahl voneinander unabhångiger Faktoren abhånge, sodass die endgçltige Merkmalsausprågung sowohl von der ¹idealen Normª als auch von Zufallseinflçssen determiniert wird. Das Ergebnis dieser beiden Wirkmechanismen sei die Normalverteilung. Dieser in einem Abriss çber die Historie der Normalverteilung bei Walker (1929) dargestellte Ansatz hat inzwischen weitgehend an Bedeutung verloren. Vor allem wird der Gedanke, dass sich in der Normalverteilung ein Naturgesetz abbilde, heute eindeutig abgelehnt. Empirische Merkmalsverteilungen kænnen zwar angenåhert normalverteilt sein; es existieren jedoch auch andere empirische Verteilungen, die mit der Normalverteilung nicht die geringste Øhnlichkeit haben. Dies wird durch eine Studie von Micceri (1989) in eindrucksvoller Weise belegt.
Die Normalverteilung als Verteilungsmodell fçr statistische Kennwerte. In einer Urne mægen sich viele Kugeln mit unterschiedlichem Gewicht befinden. Wir denken uns, dass aus dieser Urne viele Stichproben gleichen Umfangs (mit Zurçcklegen) gezogen werden. Berechnen wir als statistischen Kennwert das durchschnittliche Gewicht der Kugeln einer jeden Stichprobe, wçrden wir feststellen, dass diese Mittelwerte ± bedingt durch die zufållige Zusammensetzung der Stichproben ± von Stichprobe zu Stichprobe unterschiedlich ausfallen. Die Mittelwerte zufållig gezogener Stichproben stellen eine Zufallsvariable dar. Diese Zufallsvariable ist unter der Voraussetzung gençgend groûer Stichproben normalverteilt, und zwar un-
a2.5.1
2
77
Normalverteilung
Tabelle 2.3. Vergleich einer empirischen Verteilung mit einer Normalverteilung 1 Intervall
2 Beobachtete Håufigkeit
3 Standardisierte Kategoriengrenzen
4 Flåchenanteil
pj
5 Erwartete Håufigkeit
fe
j
60,0±69,9 70,0±79,9 80,0±89,9 90,0±99,9 100,0±109,9 110,0±119,9 120,0±129,9 130,0±139,9 140,0±149,9
5 8 7 12 17 15 13 7 6
1 ±1,71 ±1,25 ±0,78 ±0,32 0,15 0,62 1,08 1,55
0,044 0,062 0,111 0,157 0,181 0,173 0,128 0,080 0,061
3,96 5,58 9,99 14,13 16,29 15,57 11,52 7,20 5,49
k P
k P
bis bis bis bis bis bis bis bis
±1,71 ±1,25 ±0,78 ±0,32 0,15 0,62 1,08 1,55 1
j1
abhångig davon, wie die Gewichte aller Kugeln in der Urne verteilt sind. Entsprechendes gilt ± in Grenzen ± fçr andere statistische Kennwerte. Dieser grundlegende Sachverhalt der Inferenzstatistik wird im nåchsten Kapitel ausfçhrlich dargestellt.
Die Normalverteilung als mathematische Basisverteilung. Aus der Normalverteilung lassen sich weitere theoretische Verteilungen ableiten, von denen einige in den Abschnitten 2.5.2±2.5.4 dargestellt werden
v2 -Verteilung, t-Verteilung, F-Verteilung); çber die Relationen weiterer Verteilungen zur Normalverteilung berichtet Sachs (2002, S. 228). Welche Beziehung zwischen der Normalverteilung und der Binomialverteilung besteht, sollen die folgenden Ausfçhrungen zeigen. Abbildung 2.6 b (S. 68) zeigt die Binomialverteilung fçr n 18 und p 0;50, die offensichtlich einer Normalverteilung sehr åhnlich ist. Wollen wir das Ausmaû der Øhnlichkeit çberprçfen, mçssen die Wahrscheinlichkeiten ermittelt werden, nach denen ein Ereignis A bei n Versuchen 0-mal, 1-mal, 2-mal, . . ., n-mal auftritt, wenn die Håufigkeit des Auftretens des Ereignisses A normalverteilt wåre. Die Berechnung der unter der Normalverteilungshypothese erwarteten Håufigkeiten (bzw. Wahrscheinlichkeiten) haben wir bereits im Zusammenhang mit dem Bearbeitungszeitenbeispiel (vgl. Tabelle 2.3) kennengelernt, bei dem 2 stetige Verteilungen, eine empirische und eine theoretische, miteinander verglichen wurden. Im vorliegenden Fall sind wir jedoch mit dem Problem konfrontiert, eine stetige Verteilung (die
pj 1;000
j1
fe
j 90
Normalverteilung) mit einer diskreten Verteilung (Binomialverteilung) zu vergleichen. Vereinfachend nehmen wir deshalb an, die Binomialverteilung sei stetig, wobei die einzelnen Håufigkeiten fçr A die Intervallmitten kennzeichnen. Wie im Beispiel Tabelle 2.3 mçssen auch hier die Kategoriengrenzen, die sich zu 0;5 1;5; 1;5 2;5; . . . ergeben, z-standardisiert werden, um anhand der Normalverteilungstabelle die Flåchenanteile zu ermitteln, die sich çber den einzelnen Intervallen befinden. Bei der z-Standardisierung verwenden wir als Mittelwert der Binomialverteilung n p und als Streuung p r n p q (vgl. S. 69). Werden nach diesem Verfahren bei græûer werdendem n und p q 1=2 Binomialverteilungen mit Normalverteilungen verglichen, ergeben sich zunehmend kleinere Abweichungen (vgl. Gebhard, 1969). Man kann zeigen, dass fçr n ! 1 die Binomialverteilung exakt mit der Normalverteilung identisch ist (vgl. z. B. Kendall u. Stuart, 1969, S. 106 ff.). Wie die Abbildungen 2.6 a und c zeigen, sind Binomialverteilungen fçr p 6 q nicht symmetrisch. Das Ausmaû der Schiefe einer Binomialverteilung kann durch folgende Beziehung gekennzeichnet werden: Schiefe
p
q r
:
2:48
Da die Streuung einer Binomialverteilung p r p q n lautet, wird die Schiefe einer Verteilung bei gegebenem p mit zunehmendem n (=
78
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
0,60
BEISPIEL
a
0,50
0,30 0,20 0,10 0 0 1 2 3 4 5 0,60
b
0,50
p
0,40 0,30 0,20 0,10 0 0 1 2 3 4 5 6 7 8 9 0,30
c
0,20
p
2
p
0,40
Gesucht wird die Wahrscheinlichkeit, dass unter 1000 Wçrfen beim Roulette hæchstens 20-mal die Null fållt. Die Berechnung dieser Wahrscheinlichkeit ist nach Gl. (2.37) aufwendig, sodass wir ± zumal die Bedingung p q n > 9
1=37 36=37 1000 26;3 > 9 erfçllt ist ± die Normalverteilungsapproximation benutzen wollen. Der Mittelwert der Binomialverteilung lautet p
1=37 1000 27;03 und die Streuung r
1=37
36=37 1000 5;13. Gesucht wird die Wahrscheinlichkeit, dass X (Anzahl der gefallenen Nullen) einen Wert im Intervall 0 bis 20 bzw. wenn wir die Binomialverteilung als stetige Verteilung betrachten, im Intervall 0; 5 bis 20,5 annimmt. Die z-Standardisierung dieser Kategoriengrenzen fçhrt zu den Werten zuntere Grenze
0;5 27;03=5; 13 5;37 und zobere Grenze
20;5 27;03=5; 13 1;27. Aus der Normalverteilungstabelle entnehmen wir, dass zwischen diesen beiden z-Werten ein Flåchenanteil von p 0;1 liegt. Die Wahrscheinlichkeit, dass bei 1000 Roulettewçrfen hæchstens 20-mal die Null fållt, betrågt somit ungefåhr 10%.
0,10 0 0 1 2 3 4 5 6 7 8 9 10
Abb. 2.8 a±c. Wahrscheinlichkeitsfunktionen der Binomialverteilung im Vergleich zur Dichte der Normalverteilung. a n 5; p 0;10
0;5, r 0;67, Schiefe 1;19, b n 20; p 0;10
2, r 1;34, Schiefe 0;60, c n 50; p 0;10
5, r 2;12, Schiefe = 0,38)
zunehmende Streuung) immer kleiner. Dies wird in Abb. 2.8 veranschaulicht. Die Binomialverteilung ist somit auch fçr p 6 q mit wachsendem n in die Normalverteilung çberfçhrbar. Nach Sachs (2002, S. 228) kann eine Binomialverteilung hinreichend gut durch eine Normalverteilung approximiert werden, wenn n p q 9 ist. Eine Binomialverteilung kann bei græûeren Stichproben durch eine Normalverteilung approximiert werden.
Die Normalverteilung in der statistischen Fehlertheorie. Wird eine Eigenschaft eines Objektes mehrfach gemessen, werden wir feststellen, dass die wiederholten Messungen nicht exakt identisch sind. Eine Vielzahl von mæglichen Zufallsfaktoren, die im Moment der Messung wirksam (oder nicht wirksam) sind, verhindert es, dass sich wiederholte Messungen gleichen. Wenn beispielsweise die Kærpergræûe eines Menschen gemessen wird, kann es passieren, dass die Messlatte (oder die zu messende Person) nicht exakt senkrecht steht, dass der Fuûboden nicht vællig eben ist, dass die Kærperhaltung nicht aufrecht ist usw. Man kann sich leicht vorstellen, dass die Anzahl der Zufallsfaktoren, die die Messung potenziell beeinflussen kænnen, sehr groû ist. Ferner wollen wir annehmen, dass Art und Anzahl der Einflussgræûen, die gerade bei einer konkreten Messung wirksam sind, vom Zufall bestimmt sind. Zur Veranschaulichung dieser zufållig wirksamen Einflussgræûen stelle man sich folgende Apparatur vor: Ûber eine schiefe Ebene, die jeweils versetzt mit Någeln versehen ist (vgl. Abb. 2.9), lassen wir sehr viele Kugeln rollen. Die Kugeln werden durch einen Schlitz auf das Brett gebracht und treffen auf den 1. Nagel, der sich direkt unter dem Schlitz befindet, sodass die Kugeln mit einer Wahrscheinlichkeit von p 0;50 nach links bzw. rechts abgelenkt werden. Die Endposi-
a2.5.2
2
79
v2-Verteilung
Unter der Annahme, dass die Anzahl der zufållig wirksamen Fehlerfaktoren sehr groû ist, sind die Fehlerkomponenten eij bei vielen Wiederholungsmessungen normalverteilt.
"ij ist als Abweichung des gemessenen xij -Wertes von der wahren Ausprågung ai definiert
"ij xij ai , d. h., es sind positive und negative Fehlerkomponenten denkbar, die sich bei vielen Wiederholungsmessungen gegenseitig ausbalancieren. Als Erwartungswert der Normalverteilung der Fehlerkomponenten kann deshalb der Wert Null angenommen werden. Dieses Modell der Fehlerkomponentenverteilung ist fçr die Inferenzstatistik grundlegend und wird deshalb in mehreren Zusammenhången erneut aufgegriffen. Abb. 2.9. Nagelbrett zur Veranschaulichung einer Normalverteilung
tionen der Kugeln werden dadurch bestimmt, wie die çbrigen Någel die Durchlåufe beeinflussen. Allgemein haben wir es mit einer sehr groûen Anzahl von alternativen Ereignissen (Einflussgræûe ist wirksam vs. Einflussgræûe ist nicht wirksam) zu tun, die ± wie bereits bekannt ± binomialverteilt sind. Die Wahrscheinlichkeit, dass bei einer bestimmten Messung von n mæglichen Einflussgræûen gerade k wirksam sind, kann anhand der Binomialverteilung ermittelt werden. Wie jedoch auf S. 77 f. bereits gezeigt wurde, geht die Binomialverteilung bei groûem n in die Normalverteilung çber, sodass wiederholte Messungen um die ¹wahreª Ausprågung des Merkmals herum normalverteilt sind. Wie Abb. 2.9 zeigt, erhalten wir in unserem Nagelbrettbeispiel eine normale Kugelverteilung. Bezogen auf Messoperationen gehen wir von folgendem Modell aus: xij ai "ij :
2:49
Eine Messung xij setzt sich additiv aus 2 Komponenten zusammen: eine Komponente ai , die die wahre Ausprågung des Merkmals bei einem Objekt i kennzeichnet und die bei wiederholten Messungen konstant bleibt, sowie eine weitere Komponente "ij , die einen fçr jede Messung j spezifischen Fehleranteil enthålt.
2.5.2 v2-Verteilung Gegeben sei eine normalverteilte Zufallsvariable z mit 0 und r 1 (Standardnormalverteilung). Das Quadrat dieser Zufallsvariablen bezeichnen wir als eine v21 -verteilte Zufallsvariable. v21 z2 :
2:50
Wenn (theoretisch unendlich) viele v21 -Werte aus zufållig gezogenen z-Werten nach Gl. (2.50) ermittelt werden, erhalten wir eine stetige v21 -Verteilung, deren Form durch die Dichtefunktion beschrieben wird (zur Dichtefunktion der v2 -Verteilung vgl. Graybill, 1961, oder Hofståtter u. Wendt, 1974). Der Gesamtflåche der Verteilung wird der Wert 1 zugewiesen. Die sich çber einem v21 -Intervall befindliche Flåche gibt somit die Wahrscheinlichkeit an, mit der sich ein zufålliger v21-Wert in diesem Intervall befindet. Die Summe der Quadrate zweier voneinander unabhångiger, normalverteilter Zufallsvariablen mit 0 und r 1 definiert eine v22 -verteilte Zufallsvariable. v22 z21 z22 :
2:51
Aus vielen Summen von je 2 z2 -Werten erhalten wir die Verteilung der v22-Werte. Werden allgemein n normalverteilte, voneinander unabhångige Zufallsvariablen mit 0 und r 1 quadriert und addiert, resultiert eine v2n -verteilte Zufallsvariable:
80
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
df = 1 df = 3 df = 6 df = 10
0.50
2
f (χ2)
0.40 0.30 0.20 0.10 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
χ2
Abb. 2.10. v2 -Verteilungen (Dichtefunktionen)
v2n z21 z22 z2n
n X i1
z2i :
2:52
v2 -Verteilungen unterscheiden sich somit darin, dass unterschiedliche Anzahlen von z2 -Variablen summiert werden. In Abhångigkeit von der Anzahl der z2-Variablen sprechen wir von v2 -Verteilungen mit unterschiedlichen Freiheitsgraden (df = ¹degrees of freedomª). Die Anzahl der Summanden in Gl. (2.52) entspricht der Anzahl der Freiheitsgrade (df = n). Auf die Bedeutung der Freiheitsgrade eines v2 -Wertes wird in Kap. 5 (z. B. S. 157) ausfçhrlich eingegangen. Abbildung 2.10 veranschaulicht die v2 -Dichtefunktionen mit 1, 3, 6 und 10 Freiheitsgraden. Das Integral der Verteilung zwischen bestimmten v2 -Werten gibt die Wahrscheinlichkeit an, dass sich ein zufålliger v2-Wert in diesem Intervall befindet. v2 -Verteilungsfunktionen (kurz: v2 -Verteilungen) werden vor allem im Zusammenhang mit den unter 5.3 zu besprechenden Verfahren benætigt, wobei uns im Allgemeinen jedoch nur ± wie noch gezeigt wird ± bestimmte Flåchenanteile der v2-Verteilungen interessieren. Tabelle C des Anhangs enthålt deshalb nur diejenigen v2 -Werte, die ausgewåhlte Anteile der Gesamtflåche einer v2-Verteilung mit einer bestimmten Anzahl von Freiheitsgraden abschneiden. Wenn beispielsweise gefragt wird, welcher v2-Wert die oberen 5% der v2-Verteilung mit 2 Freiheitsgraden
df 2 abschneidet, kænnen wir Tabelle C entnehmen, dass dies der Wert v2
2;95% 5;99 ist (das Integral der Flåche zwischen den Grenzen Null und 5,99 betrågt p 0;95. Weitere Erlåuterungen der
v2 -Tabelle erfolgen in Kap. 5. Ein Rechenprogramm fçr die Ermittlung von v2 -Wahrscheinlichkeiten findet man bei Sletten (1980). Eine v2df -Verteilung hat einen p Erwartungswert von df,peine Streuung von 2df und eine Schiefe von 8=df . Mit græûer werdendem df nåhert sich die v2 -Verteilung einer Normalverteilung mit p dem Mittelwert df und der Streuung r 2df . Ein v2 -Wert mit df ! 1 ist unter Verwendung von Gl. (1.27) durch folgende Beziehung mit einem z-Wert der Standardnormalverteilung verknçpft: v2df df
df ! 1 : z p
2:53 2 df Eine bessere Approximation an die Normalverteip lung stellt die Verteilung der Græûe p2 v2 dar, die einen Erwartungswert von 2 df 1 und eine Streuung von r 1 aufweist. Diese Approximation gilt bereits bei df 30 als p ausrei chend. Setzen wir in Gl. (1.27) x 2 v2 , p x 2 df 1 und r 1, erhalten wir als z-Transformation: p p 2 df 1
df > 30 :
2:54 z 2 v2 Fçr df 10 låsst sich ein v2 -Wert nach folgender Beziehung in einen z-Wert transformieren (vgl. Vahle u. Tews, 1969): q 2 3 v2df =df 1 9 df r z :
2:55 2 9 df BEISPIEL Der Zusammenhang zwischen der v2 -Verteilung und der Normalverteilung bei df 30 sei an einem Beispiel verdeutlicht. In Tabelle C lesen wir ab, dass in der v2 -Verteilung mit df 30 der Wert 43,77 die oberen 5% der Verteilung abschneidet
v2
30;95 % 43;77, d. h., das Integral der Verteilung von 0 bis 43,77 betrågt p 0;95. Nach Gl. (2.54) erhalten wir fçr diesen v2 -Wert den folgenden z-Wert: p p z 2 43;77 2 30 1 1;68 : In der Normalverteilungstabelle (vgl. Tabelle B) lesen wir ab, dass das Integral der Normalverteilung von 1 bis 1;68 p 0; 953 betrågt, was, bis auf die 3. Nachkommastelle, dem Flåchenanteil in der v230 -Verteilung entspricht. Einen genaueren Wert erhalten wir nach Gl. (2.55):
p 3 43;77=30 1 r z 2 9 30
2 9 30
1;6452 :
Dieser z-Wert schneidet nahezu exakt 5% der Flåche der Standardnormalverteilung ab.
Fçr df 2 kann man von folgender Beziehung Gebrauch machen (vgl. Kendall, 1962, S. 123 f.): ln
1
F
zx %
2
81
F-Verteilung
v2
2;x % =2
2:56
Tabelle B entnehmen wir z. B., dass das Integral der Standardnormalverteilung von z0% 1 bis z95% 1;65 F
z 1;65 0;95 betrågt. Man erhålt ln
1 0;95 2;9957. Tabelle C entnehmen wir v2
2;95% 5;99147, sodass v2
2;95% =2 2;9957 dem oben errechneten Wert entspricht. Eine weitere Eigenschaft der v2-Verteilungen lautet: Wenn ein v 2n1 -Wert zu einer v 2 -Verteilung mit n1 Freiheitsgraden und ein v 2n2 -Wert zu einer v2 -Verteilung mit n2 Freiheitsgraden gehært, dann ist die Summe dieser beiden v 2 -Werte auch v 2 -verteilt mit df n1 n2 Freiheitsgraden.
Wir werden uns diese Beziehung im Zusammenhang mit Kap. 5.3.5 zunutze machen.
2.5.3 t-Verteilung Aus einer standardnormalverteilten Zufallsvariablen
0; r 1 wird ein z-Wert und aus einer hiervon unabhångigen v2df -verteilten Zufallsvariablen ein v2df -Wert gezogen. Der folgende Quotient definiert einen tdf -Wert: z tdf q :
2:57 v2df =df Die Verteilung dieser Zufallsvariablen heiût t-Verteilung. Diese Verteilung wurde 1908 von Gosset unter dem Pseudonym ¹Studentª entwickelt und ist unter der Bezeichnung ¹Student-t-Verteilungª in die Literatur eingegangen. Wieder kennzeichnet der Ausdruck ¹t-Verteilungª eine ganze Familie von Verteilungen, die sich jeweils untereinander durch die Freiheitsgrade der einbezogenen v2 -Werte unterscheiden. Wir sprechen deshalb
f (t)
a2.5.4
0.50 0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0
df = 1 df = 5 df = 20 NV
-4
-3
-2
-1
0
1
2
3
4
t
Abb. 2.11. t-Verteilungen im Vergleich zur Normalverteilung (Dichtefunktionen)
auch von t-Verteilungen mit unterschiedlichen Freiheitsgraden. Wie die Standardnormalverteilung sind auch die t-Verteilungen symmetrische, eingipflige Verteilungen mit einem Erwartungswert von 0. Die Streuung einer t-Verteilung mit p df Freiheitsgraden betrågt r df=
df 2. Im Vergleich zur Standardnormalverteilung sind t-Verteilungen schmalgipfliger, wobei jedoch die Schmalgipfligkeit mit zunehmender Anzahl der Freiheitsgrade abnimmt. Fçr df ! 1 geht die t-Verteilung in die Standardnormalverteilung çber. Abbildung 2.11 zeigt die t-Verteilung fçr 1, 5 und 20 df im Vergleich zur Standardnormalverteilung. Tabelle D des Anhangs enthålt, åhnlich wie die v2 -Tabelle, ausgewåhlte Flåchenanteile fçr die t-Verteilungsfunktionen. Aus dieser Tabelle entnehmen wir beispielsweise, dass durch t
8;99% 2;896 das obere 1% der t-Verteilung mit 8 df abgeschnitten wird. Die t-Werte fçr df ! 1 sind mit den entsprechenden z-Werten der Standardnormalverteilung identisch. Auf Anwendungsbeispiele fçr die t-Verteilung wird unter 5.1 ausfçhrlich eingegangen.
2.5.4 F-Verteilung Gegeben sei eine v2 -Verteilung mit df1 und eine weitere, unabhångige v2 -Verteilung mit df2 . Der Quotient von 2 zufållig aus diesen beiden Verteilungen entnommenen v2 -Werten, multipliziert mit dem Kehrwert des Quotienten ihrer Freiheitsgrade, wird als F-Wert bezeichnet.
82
2
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0
Gemåû Gl. (2.50) und Gl. (2.58) kænnen wir hierfçr auch schreiben
df1 = 1 df2 = 5 df1 = 10 df2 = 10
t2n
0
1
2
3
4
5
Abb. 2.12. F-Verteilungen (Dichtefunktionen)
F
df1 ;df2
v2df1 df2 v2df2 df1
2:58
Die Verteilung dieser Zufallsvariablen heiût F-Verteilung. Verschiedene F-Verteilungen unterscheiden sich durch die Anzahl der Freiheitsgrade des Zåhler -v2
df1 Zåhlerfreiheitsgrade) und die Anzahl der Freiheitsgrade des Nenner -v2
df2 Nennerfreiheitsgrade). F-Verteilungen sind stetige, asymmetrische Verteilungen mit einer Variationsbreite von 0 bis 1. Abbildung 2.12 zeigt F-Verteilungen mit einem Zåhlerfreiheitsgrad und 5 Nennerfreiheitsgraden bzw. 10 Zåhlerfreiheitsgraden und 10 Nennerfreiheitsgraden. Tabelle E des Anhangs enthålt die F-Werte fçr bestimmte Flåchenanteile der F-Verteilungsfunktionen. Die oberen 5% der F-Verteilung mit 3 Zåhlerfreiheitsgraden und 10 Nennerfreiheitsgraden etwa werden durch den Wert F
3;10;95 % 3;71 abgeschnitten. Anwendungsmæglichkeiten der F-Verteilung werden ausfçhrlich z. B. in Teil II çber varianzanalytische Verfahren besprochen.
2.5.5 Vergleich von F-, t-, v2und Normalverteilung In Abschnitt 2.5.3 wurde bereits darauf hingewiesen, dass die t-Verteilung fçr df ! 1 in die Standardnormalverteilung çbergeht. Quadrieren wir Werte einer t-verteilten Zufallsvariablen mit df n, erhalten wir t2n
z2 : v2n =n
2:59
v21 2 vn =n
v21 n F
1;n : v2n 1
2:60
Die quadrierte t-Verteilung mit n Freiheitsgraden ist also mit der F-Verteilung fçr einen Zåhlerfreiheitsgrad und n Nennerfreiheitsgraden identisch. Wir wollen çberprçfen, ob diese Beziehung anhand der Tabelle D und Tabelle E nachvollzogen werden kann. In Tabelle E lesen wir ab, dass der Wert F
1;8;95% 5;32 die oberen 5% der F
1;8 -Verteilungsflåche abschneidet. Der entsprechende Wert der t-Verteilung lautet t
8;95% 1;86. Quadrieren wir diesen Wert, erhalten wir t2
8;95% 3;46, der mit dem F
1;8;95% 5;32 nicht çbereinstimmt. Gl. (2.60) ist somit offenbar nicht erfçllt. Der Grund fçr diese Unstimmigkeit ist folgender: Wir erinnern uns zunåchst, dass die t-Verteilung um 0 symmetrisch ist, d. h. dass positive wie negative t-Werte mit gleicher Wahrscheinlichkeit auftreten kænnen. Quadrieren wir die t-Verteilung, erhalten wir nur positive Werte, sodass die Wahrscheinlichkeit positiver Werte in der t2-Verteilung doppelt so groû ist wie in der t-Verteilung. Die Quadrate der t-Werte im Bereich 1 bis t
n;5% und im Bereich t
n;95% bis 1 machen also zusammengenommen 10% der oberen Verteilungsflåche der t2 -Verteilung aus. Damit schneidet der Wert t2 3;46 10% und nicht 5% vom oberen Verteilungsast der t2-Verteilung mit 8 df ab. Wir benætigen deshalb diejenigen t-Werte, die die unteren und die oberen 2,5% der t-Verteilung abschneiden. Werte, die sich in diesen Bereichen befinden, ergeben durch die Quadrierung zusammen die oberen 5% der t2 -Verteilung. Gemåû Tabelle D sind dies die Werte t
8;2;5% 2;306 und t
8;97;5% 2;306. Diese beiden Werte erfçllen Gl. (2.60): 2;3062 5;32. Ausgehend von der Dichtefunktion der F-Verteilung (vgl. Kendall u. Stuart, 1969, Kap. 16) kann man zeigen, dass ferner die folgende Beziehung gilt: z2 F
1;1 :
2:61
Da die z-Werte der Standardnormalverteilung ebenfalls symmetrisch um Null verteilt sind, entspricht ein F-Wert, der z. B. in der F
1;1 -Verteilung die oberen 5% abschneidet, demjenigen z-Wert, der in der Standardnormalverteilung die
83
aÛbungsaufgaben unteren bzw. oberen 2,5% abschneidet. Wir ermitteln fçr F
1;1;95% 3;84 und fçr z
97;5% 1;96 (bzw. fçr z
2;5% 1;96, sodass z2
2;5% z2
97;5% 1;962 3;84. Zwischen einer v2-Verteilung und einer F-Verteilung besteht folgende Beziehung: F
n;1 v2n =n :
2:62
Auch diese Gleichung sei an einem Beispiel verdeutlicht: Fçr F
10;1;99 % 2; 32 ermitteln wir v2
10;99 % 23;21, sodass v2 =n 2;32. Ausgehend von den hier dargestellten Beziehungen hat Jaspen (1965) ein allgemeines Rechenprogramm entwickelt, mit dem die z-, t-, F- und v2 -Verteilungen integriert werden kænnen. Dieses Programm macht somit die Benutzung der entsprechenden, im Anhang wiedergegebenen Tabellen çberflçssig, weil fçr jeden Verteilungswert exakt errechnet werden kann, welcher Anteil der jeweiligen Verteilung durch diesen Wert abgeschnitten wird. Dies gilt auch fçr praktisch alle Statistik-Softwarepakete (SPSS, SAS, SYSTAT, BMDP, Statistika, S-Plus etc.). Wenn man sog. Signifikanztests (t-Test, F-Test und v2 -Test als Beispiele fçr elementare Signifikanztests; vgl. Kap. 4 und 5) mit einem dieser Statistik-Programme am Computer durchfçhrt, kann man auf die im Anhang gelisteten Tabellen (weitgehend) verzichten. Das Computerprogramm berechnet die exakten Flåchenanteile beliebiger t-, F- oder v2-Verteilungswerte, die fçr inferenzstatistische Aussagen (z. B. sog. Signifikanzaussagen) benætigt werden (ausfçhrlicher hierzu S. 118 f.). ÛBUNGSAUFGABEN
Plazebos befinden, die sich åuûerlich nicht von der Tablette unterscheiden. Wie groû ist die Wahrscheinlichkeit, dass es sich bei den 4 zuerst eingenommenen Tabletten um ein Plazebo handelt? 4. Die Wahrscheinlichkeit, in 20 Jahren noch zu leben, mæge fçr Herrn M. p 0;60 und fçr Frau M. p 0;70 betragen. Wie groû ist die Wahrscheinlichkeit, dass Herr und Frau M. in 20 Jahren noch leben werden, wenn die Ûberlebenszeiten voneinander unabhångig sind? 5. Wie groû ist die Wahrscheinlichkeit, mit 6 Wçrfen nacheinander die Zahlen 1, 2, 3, 4, 5 und 6 zu wçrfeln? 6. In einem parapsychologischen Experiment wird ein Hellseher aufgefordert vorherzusagen, welches Menu sich ein Gast in einem Restaurant zusammenstellen wird. Zur Auswahl stehen 4 Vorspeisen, 6 Hauptgerichte und 3 Nachspeisen. Wie groû ist die Wahrscheinlichkeit, dass die Menuzusammenstellung zufållig richtig erraten wird? 7. Im Untertest ¹Bilderordnenª des Hamburg-Wechsler-Intelligenztests werden die Probanden aufgefordert, verschiedene graphisch dargestellte Szenen so in eine Reihenfolge zu bringen, dass sie eine sinnvolle Geschichte ergeben. Wie groû ist die Wahrscheinlichkeit, dass die richtige Reihenfolge von 6 Einzelbildern zufållig erraten wird? 8. Im Test ¹Familie in Tierenª mçssen Tiere benannt werden, die den Vater, die Mutter oder andere Familienangehærige am besten charakterisieren. Wie viele Kombinationsmæglichkeiten ergeben sich fçr ein Kind, das aus 20 Tieren fçr 4 Familienangehærige je ein anderes Tier auswåhlen soll? 9. Eine Werbeagentur mæchte herausfinden, welche 5 der insgesamt 8 Mitarbeiter zusammen das kreativste Team darstellen. Wie viele Arbeitsgruppen 5 Personen kommen hierfçr potenziell in Frage? 10. Eine Schulklasse, bestehend aus 15 Schçlern, will eine Fuûballmannschaft (3 Stçrmer, 4 Mittelfeldspieler, 3 Verteidiger, 1 Torwart) zusammenstellen. Wie viele Mannschaftsaufstellungen sind mæglich, wenn jeder Schçler fçr jeden Platz in Frage kommt?
1. In einer Lotterie mit 100 Losen befinden sich 60 Nieten, 30 Kleingewinne und 10 sog. Hauptgewinne. Wie groû ist die Wahrscheinlichkeit, beim Kauf eines Loses mindestens einen Kleingewinn zu erhalten?
11. Ein Test mæge aus 10 Fragen bestehen, wobei zu jeder Frage 4 Antwortmæglichkeiten vorgegeben sind. Wie groû ist die Wahrscheinlichkeit, dass bei diesem Test mindestens drei richtige Antworten zufållig erraten werden?
2. Aus dem deutschen Alphabet wird zufållig ein Buchstabe ausgewåhlt. Wie groû ist die Wahrscheinlichkeit, dass dieser Buchstabe ein Vokal ist oder dass der Buchstabe zu den ersten zehn Buchstaben des Alphabets zåhlt?
12. In einer Lostrommel befinden sich 100 Lose. Dem Losverkåufer ist bekannt, dass sich unter den 100 Losen 10 Gewinne befinden. Wie groû ist die Wahrscheinlichkeit, dass man bei einem Kauf von 5 Losen mindestens einmal gewinnt?
3. In einem psychopharmakologischen Experiment soll çberprçft werden, ob ein Medikament durch ein Plazebo (= chemisch unwirksame Substanz) ersetzt werden kann. Wåhrend eines Behandlungszeitraums von 10 Tagen mçssen die Versuchspersonen hierfçr 10 Tabletten einnehmen, wobei sich unter den 10 Tabletten 4
13. Lehrling P hat in einem mechanischen Verståndnistest 78 Punkte und in einem Kreativitåtstest 35 Punkte erreicht. Im ersten Test erzielen Lehrlinge im Durchschnitt eine Leistung von x 60 mit einer Streuung von s 8 und im zweiten Test eine durchschnittliche Leistung von x 40 mit einer Streuung von s 5. Die
2
84
2
Kapitel 2 ´ Wahrscheinlichkeitstheorie und Wahrscheinlichkeitsverteilungen
Testleistungen seien in beiden Tests normalverteilt. a) Wie groû ist der Prozentsatz der Lehrlinge, die im mechanischen Verståndnistest schlechter abschneiden als Lehrling P? b) Wie groû ist der Prozentsatz der Lehrlinge, die im Kreativitåtstest besser abschneiden als Lehrling P? c) Lehrling F habe im Kreativitåtstest eine Leistung von 43 Punkten erreicht. Wie viel Prozent aller Lehrlinge haben in diesem Test eine bessere Leistung als Lehrling P, aber gleichzeitig eine schlechtere Leistung als Lehrling F?
14. Wie lautet der v2 -Wert, der vom oberen Teil der v2 -Verteilung mit 9 df 5% abschneidet? 15. Wie lauten die t-Werte, die jeweils 0,5% vom oberen und unteren Teil der t-Verteilung mit 12 df abschneiden? 16. Welcher F-Wert schneidet vom oberen Teil der F-Verteilung mit 4 Zahler-df und 20 Nenner-df 5 % ab?
85
a
Kapitel 3 Stichprobe und Grundgesamtheit
ÛBERSICHT Zufallsstichprobe ± Klumpenstichprobe ± geschichtete Stichprobe ± Stichprobenkennwerteverteilung ± Standardfehler ± zentrales Grenzwerttheorem ± Erwartungstreue ± Konsistenz ± Effizienz ± Suffizienz ± Methode der kleinsten Quadrate ± Maximum-likelihood-Methode ± Punktschåtzung ± Konfidenzintervall ± Stichprobengræûe
Kapitel 1 stellt Verfahren dar, mit deren Hilfe die in einem Kollektiv angetroffene Merkmalsverteilung beschrieben werden kann, wobei Fragen der Generalisierbarkeit der Ergebnisse ausgeklammert wurden. Die meisten empirischen Untersuchungen sind jedoch darauf gerichtet, allgemeingçltige Aussagen zu formulieren, die çber die Beschreibung einer spezifischen Gruppe von Untersuchungseinheiten hinausgehen. Wir wollen deshalb in diesem Kapitel das Grundprinzip einfçhren, wie auf der Basis von Ergebnissen, die an einer verhåltnismåûig kleinen Personen-(Objekt-) Gruppe ermittelt wurden, induktiv allgemein gçltige Aussagen formuliert werden kænnen. Der sich hiermit befassende Teilbereich der Statistik wird als Inferenz- oder schlieûende Statistik bezeichnet. Mit inferenzstatistischen Verfahren låsst sich also angeben, wie gut aufgrund der Untersuchung von relativ wenig Personen oder Objekten ± einer Stichprobe ± auf Merkmalsverteilungen in der Grundgesamtheit (Population) aller Personen oder Objekte geschlossen werden kann. Der inferenzstatistische Ansatz ermæglicht es, Fragen wie z. B. ¹Was weiû ich çber das Kurzzeitgedåchtnis 8-jåhriger Kinder, wenn ich das Kurzzeitgedåchtnis tatsåchlich nur bei 100 8-jåhrigen Kindern untersucht habe?ª zu beantworten. Hiermit sind Probleme des Schlieûens angesprochen, die wir in diesem Kapitel behandeln. Ein weiterer, wichtiger Bereich der Inferenzstatistik befasst sich mit der empirischen Ûberprç-
fung von Hypothesen. Nehmen wir an, es soll die Hypothese çberprçft werden, dass månnliche Studenten bessere Statistikklausuren schreiben als weibliche, und nehmen wir ferner an, dass in einer Untersuchung die durchschnittliche Klausurleistung von 30 geprçften månnlichen Studenten um 2 Punkte çber der Durchschnittsleistung von 30 weiblichen Studenten liegt. Kann man aufgrund dieser Untersuchung von 60 Studenten behaupten, die Hypothese sei richtig, dass månnliche Studenten generell bessere Statistikklausuren schreiben als weibliche, oder kænnte dieses Untersuchungsergebnis auch auf zufållige Besonderheiten der verglichenen Studenten zurçckgefçhrt werden? Hiermit sind Probleme des Testens angesprochen, die wir in Kap. 4 behandeln. Statistische Kennwerte, wie z. B. die Maûe der zentralen Tendenz oder die Maûe der Dispersion, kænnen fçr Stichproben und fçr Grundgesamtheiten ermittelt werden. Die Kennwerte der Merkmalsverteilungen in Grundgesamtheiten bezeichnen wir ± in Analogie zu theoretischen Verteilungen ± als Parameter. Fçr Parameter verwenden wir entweder griechische Buchstaben (z. B. und r als Mittelwert- und Standardabweichungsparameter einer Grundgesamtheit) oder groûe Buchstaben (z. B. N als Umfang einer Grundgesamtheit). Stichprobenverteilungen werden wie bisher durch kleine Buchstaben
x; s; n gekennzeichnet. Abschnitt 3.1 behandelt Regeln fçr die Ziehung einer Stichprobe. Man muss allerdings damit rechnen, dass auch eine sorgfåltig gezogene Stichprobe die Merkmalsverteilung in der Population nicht exakt wiedergibt. Werden aus einer Grundgesamtheit mehrere Stichproben gezogen, kann man nicht davon ausgehen, dass die ermittelten statistischen Kennwerte, wie z. B. die Stichprobenmittelwerte, identisch sind. Die Unterschiedlichkeit der an mehreren Stichproben ermittelten Vertei-
3
86
Kapitel 3 ´ Stichprobe und Grundgesamtheit
lungskennwerte ist jedoch, wie wir in 3.2 zeigen werden, kalkulierbar. Die zentrale Frage, wie man aufgrund von Stichprobenkennwerten auf Populationsparameter schlieûen kann, wird in 3.3 bis 3.5 behandelt.
3
" 3.1 Stichprobenarten Als Grundgesamtheit (Population) bezeichnen wir allgemein alle potenziell untersuchbaren Einheiten oder ¹Elementeª, die ein gemeinsames Merkmal (oder eine gemeinsame Merkmalskombination) aufweisen. So sprechen wir beispielsweise von der Population aller Deutschen, von der Grundgesamtheit der Bewohner einer bestimmten Stadt, der Leser einer bestimmten Zeitung, der linkshåndigen Schçler, der dreisilbigen Substantive, der zu einem bestimmten Zeitpunkt auf einem Bahnhof anwesenden Personen, der in einer Zeitung enthaltenen Informationen usw. Wie die Beispiele zeigen, beziehen sich Grundgesamtheiten nicht immer auf Personen. Grundgesamtheiten kænnen ferner einen begrenzten oder theoretisch unbegrenzten Umfang aufweisen. Eine Stichprobe stellt eine Teilmenge aller Untersuchungsobjekte dar, die die untersuchungsrelevanten Eigenschaften der Grundgesamtheit mæglichst genau abbilden soll. Eine Stichprobe ist somit ein ¹Miniaturbildª der Grundgesamtheit. Je besser die Stichprobe die Grundgesamtheit repråsentiert, um so pråziser sind die inferenzstatistischen Aussagen çber die Grundgesamtheit. Die Pråzision der Aussagen ist ferner von der Græûe der untersuchten Stichprobe und der Græûe der Grundgesamtheit abhångig. In 3.6 werden wir der Frage nachgehen, wie die Stichprobengræûe die Genauigkeit der Schåtzung eines Populationsparameters beeinflusst. Auf inferenzstatistische Besonderheiten, die sich ergeben, wenn Stichproben aus Populationen mit endlichem Umfang gezogen werden, wird nur hingewiesen. Der hier diskutierte Ansatz, der von Grundgesamtheiten mit sehr groûem (theoretisch unendlichem) Umfang ausgeht, ist fçr praktische Zwecke immer dann gçltig, wenn die Grundgesamtheit mindestens 100-mal so groû ist wie der Stichprobenumfang. Wenn beispielsweise eine Stichprobe des Umfangs n 100 untersucht wird, ist es praktisch
unerheblich, ob die Population einen Umfang N 10 000 oder 50 000 aufweist. Sollte das angegebene Verhåltnis von Populationsumfang zu Stichprobengræûe erheblich unterschritten werden, ist die Inferenzstatistik fçr endliche (finite) Grundgesamtheiten indiziert, die z. B. bei Cochran (1972) oder Menges (1959) ausfçhrlich dargestellt wird. Im Folgenden behandeln wir zunåchst einige Techniken, aus einer Grundgesamtheit eine Stichprobe zu ziehen. Da in diesem einfçhrenden Text allgemeine Probleme der Inferenzstatistik wichtiger erscheinen als Techniken und Theorien komplexer Stichprobenplåne, sind die folgenden Ausfçhrungen kurz gehalten. Im Mittelpunkt steht die Zufallsstichprobe, die fçr die Inferenzstatistik von besonderer Bedeutung ist. Andere Stichprobenarten, die in sozialwissenschaftlichen Erhebungen zur Schåtzung von Populationsparametern eingesetzt werden, behandeln wir nur kurz (ausfçhrlicher hierzu vgl. Bortz u. Dæring, 2002, Kap. 7). Im Ûbrigen wird auf die fçr diese Probleme einschlågige Spezialliteratur verwiesen (z. B. Cochran, 1972; Heyn, 1960; Kish, 1965; Kreienbrock, 1989; Levy u. Lemeshow, 1999; Schwarz, 1975; Stenger, 1971; Tryfos, 1996). Eine Bibliographie zu diesem Thema liefern Thomas u. Schofield (1986). Die mit der Erhebung einer Stichprobe verbundene Frage lautet: Wie kann gewåhrleistet werden, dass eine Stichprobe eine Grundgesamtheit mæglichst genau repråsentiert? Eine Stichprobe kann fçr eine Grundgesamtheit entweder in Bezug auf alle Merkmale (globale Repråsentativitåt) oder in Bezug auf bestimmte Merkmale (spezifische Repråsentativitåt) repråsentativ sein. Die Entscheidung darçber, ob eine Stichprobe global oder spezifisch repråsentativ sein soll, hångt davon ab, wie viele Vorkenntnisse çber das zu untersuchende Merkmal bereits vorhanden sind.
Zufallsstichprobe Ist çber die Verteilung der untersuchungsrelevanten Merkmale praktisch nichts bekannt, sollte eine Zufallsstichprobe gezogen werden. Untersucht werden soll beispielsweise die Abstraktionsfåhigkeit von chronischen Alkoholikern. Die Determinanten, die auf die Verteilung des Merkmals Abstraktionsfåhigkeit in der Grundgesamtheit der chronischen Alkoholiker Einfluss
a3.1
87
Stichprobenarten
nehmen kænnen, seien unbekannt. In diesem Fall wird eine zufållige Auswahl von Alkoholikern die beste Gewåhr dafçr bieten, dass die Stichprobe die Verteilungseigenschaften in der Grundgesamtheit gut repråsentiert. Die Theorie der einfachen Zufallsstichprobe geht davon aus, dass aus einer Grundgesamtheit von N Objekten eine Stichprobe von n Objekten gezogen wird. Die Anzahl der Mæglichkeiten, n Objekte aus N Objekten auszuwåhlen, errechnet sich çber Gl. (2.20): Es sind Nn Mæglichkeiten. Wenn nun alle Mæglichkeiten gleich wahrscheinlich sind, ist eine dieser Auswahlen eine einfache Zufallsstichprobe. Eine einfache Zufallstichprobe ist eine Teilmenge aus einer Grundgesamtheit, wenn alle gleich groûen Teilmengen, die aus dieser Grundgesamtheit gebildet werden kænnen, gleich wahrscheinlich sind.
Aus dieser Definition folgt, dass jedes Objekt der Grundgesamtheit mit gleicher Wahrscheinlichkeit ausgewåhlt werden kann. Dieses Kriterium ist bei bekannten Grundgesamtheiten dadurch leicht zu erfçllen, dass fçr alle Objekte der Grundgesamtheit eine ¹Urneª angefertigt wird (Karteien, Namenslisten usw.), aus der per Zufall (mit Hilfe von Zufallszahlen, Wçrfeln, Mçnzen, Losverfahren usw.) die Stichprobe mit dem gewçnschten Umfang zusammengestellt wird. Sind nicht alle Objekte der Grundgesamtheit erfassbar, sollte die Zufallsstichprobe aus einer zugånglichen, mæglichst groûen Teilmenge der Grundgesamtheit zusammengestellt werden. Dies hat zur Konsequenz, dass die Befunde genaugenommen nur auf diese Teilmenge der Grundgesamtheit generalisiert werden kænnen, es sei denn, man kann begrçnden, dass die Teilmenge ihrerseits repråsentativ fçr die Gesamtpopulation ist. Håufig sind nicht alle Untersuchungsobjekte, die zu einer Population gehæren, bekannt, sodass die Ziehung einer ¹echtenª Zufallsstichprobe unmæglich oder doch zumindest mit einem unzumutbaren Aufwand verbunden ist. Man begnçgt sich deshalb gelegentlich mit sog. ¹anfallendenª oder Ad-hoc-Stichproben (z. B. die ¹zufålligª in einem Seminar anwesenden Teilnehmer) in der Hoffnung, auch so zu aussagefåhigen Resultaten zu gelangen. Vor dieser Vorgehensweise sei nach-
drçcklich gewarnt. Zwar ist die Verwendung inferenzstatistischer Verfahren nicht daran gebunden, dass eine Stichprobe aus einer wirklich existierenden Population gezogen wird; letztlich låsst sich fçr jede ¹Stichprobeª eine fiktive Population konstruieren, fçr die diese ¹Stichprobeª repråsentativ erscheinen mag. Die Schlçsse, die aus derartigen Untersuchungen gezogen werden, beziehen sich jedoch nicht auf real existierende Populationen und kænnen deshalb wertlos sein. Zumindest sollte man darauf achten, dass die Besonderheiten der untersuchten Stichprobe diskutiert bzw. dass Verallgemeinerungen vorsichtig formuliert werden, wenn die Zufålligkeit bzw. Repråsentativitåt der Stichprobe fçr die eigentlich interessierende Zielpopulation in Frage steht (vgl. hierzu auch Alf u. Abrahams, 1973). Bei der Stichprobenauswahl ist darauf zu achten, dass die Stichprobe nicht durch systematische Fehler im Auswahlverfahren verzerrt (¹biasedª) wird. Es soll beispielsweise eine Zufallsstichprobe dadurch zusammengestellt werden, dass in einer belebten Straûe jeder 5. Passant gebeten wird, an der Untersuchung teilzunehmen. Diese Stichprobe håtte in Bezug auf das Kriterium ¹Bereitschaft, an dieser Untersuchung teilzunehmenª einen ¹Biasª, falls einige der Angesprochenen die Teilnahme verweigern. Øhnliches gilt fçr schriftliche Befragungen, bei denen einer zufållig ausgewåhlten Stichprobe per Post die Untersuchungsunterlagen zugestellt werden; die Ergebnisse kænnen sich in diesem Fall nur auf diejenigen Personen beziehen, die bereit sind, die Untersuchungsunterlagen auch wieder zurçckzuschicken. Bei schriftlichen Befragungen, aber auch bei telefonischen oder anderen Umfragen sollte deshalb immer berçcksichtigt werden, ob die Ergebnisse durch systematische Selektionseffekte verfålscht sein kænnen (vgl. zu diesem Problem Bortz u. Dæring, 2002, Kap. 4.4.2).
Klumpenstichprobe In der Praxis wird man håufig aus ækonomischen Grçnden auf zufållig auszuwåhlende Teilmengen zurçckgreifen, die bereits vorgruppiert sind und fçr die sich deshalb Untersuchungen leichter organisieren lassen. Solche Stichproben werden als Klumpenstichproben (¹Cluster Samplesª) bezeichnet. In der oben erwåhnten Untersuchung der
3
88
3
Kapitel 3 ´ Stichprobe und Grundgesamtheit
Abstraktionsfåhigkeit kænnten als Klumpen beispielsweise alle Alkoholiker untersucht werden, die sich in zufållig ausgewåhlten Kliniken befinden. Die Generalisierbarkeit der Ergebnisse einer solchen Untersuchung hångt dann davon ab, wie stark sich die untersuchten Alkoholiker von Klinik zu Klinik unterscheiden und wie gut die ausgewåhlten Kliniken die Population aller Kliniken repråsentieren (vgl. z. B. Pfanzagl, 1972, S. 169 f.). Man beachte, dass ein einzelner Klumpen (z. B. eine Schulklasse, eine Station in einem Krankenhaus, eine Arbeitsgruppe in einem Betrieb etc.) keine Klumpenstichprobe darstellt, sondern eine Ad-hoc-Stichprobe, bei der zufållige Auswahlkriterien praktisch keine Rolle spielen. Die Bezeichnung ¹Klumpenstichprobeª ist nur zu rechtfertigen, wenn mehrere zufållig ausgewåhlte Klumpen vollståndig untersucht werden. Eine Klumpenstichprobe besteht aus allen Untersuchungsobjekten, die sich in mehreren, zufållig ausgewåhlten Klumpen befinden.
Geschichtete Stichprobe Einfache Zufallsstichproben und Klumpenstichproben kænnen mehr oder weniger repråsentativ fçr die Grundgesamtheit sein. Ist bekannt, welche Determinanten die Verteilung des untersuchten Merkmals beeinflussen, empfiehlt es sich, eine Stichprobe zusammenzustellen, die vor allem in Bezug auf diese Determinanten fçr die Grundgesamtheit spezifisch repråsentativ ist. Eine Stichprobe mit dieser Eigenschaft bezeichnet man als geschichtete oder stratifizierte Stichprobe. Sollen beispielsweise die Konsumgewohnheiten der Bewohner Niedersachsens untersucht werden, wird man darauf achten, dass die Stichprobe insbesondere bezçglich solcher Merkmale repråsentativ ist, von denen man annimmt, dass sie das Konsumverhalten beeinflussen (Schichtungsmerkmale, wie z. B. Stadt-, Landbevælkerung, Geschlecht, Alter, Græûe der Familien, Hæhe des Einkommens usw.). Um eine Stichprobe proportional zur Grundgesamtheit schichten zu kænnen, mçssen wir allerdings wissen, wie sich die fçr das untersuchte Kriterium relevanten Merkmale in der Grundgesamtheit verteilen.
Wenn die prozentuale Verteilung der Schichtungsmerkmale in der Stichprobe mit der Verteilung in der Population identisch ist, sprechen wir von einer proportional geschichteten Stichprobe.
Die Auswahl innerhalb der einzelnen Schichten (Strata) muss zufållig bzw., wenn es aus organisatorischen Grçnden unumgånglich ist, nach dem Klumpenverfahren erfolgen. Entspricht die anteilsmåûige Verteilung der Merkmale in der geschichteten Stichprobe nicht der Verteilung in der Grundgesamtheit, nennt man die Stichprobe ¹disproportional geschichtetª. Bei geschichteten Stichproben sollte darauf geachtet werden, dass nicht die Anzahl der Merkmale, nach denen die Schichten zusammengestellt werden, die spezifische Repråsentativitåt der Stichprobe erhæht, sondern die Relevanz der Merkmale. Ist die Stichprobe in der Untersuchung der Konsumgewohnheiten beispielsweise repråsentativ in Bezug auf Merkmale wie Blutdruck, Haarfarbe, Anzahl der plombierten Zåhne usw., so dçrfte diese Art der Repråsentativitåt kaum zur Verbesserung der Erfassung der Konsumgewohnheiten beitragen. Generell gilt, dass eine sinnvoll, d. h. nach relevanten Merkmalen geschichtete Stichprobe zu genaueren Schåtzwerten der Populationsparameter fçhrt als eine einfache Zufallsstichprobe. Hinweis: Die drei kurz angesprochenen Stichprobenvarianten haben eines gemeinsam: Ûber die Auswahl der Untersuchungsobjekte entscheidet der Zufall. Bei der einfachen Zufallsstichprobe wird aus der Grundgesamtheit direkt eine Zufallsauswahl gezogen, bei der Klumpenstichprobe eine Zufallsauswahl aus der Grundgesamtheit der Klumpen, und bei der geschichteten Stichprobe werden die Untersuchungsobjekte innerhalb der Schichten nach Zufall ausgewåhlt. Stichproben dieser Art nennt man probabilistische Stichproben im Unterschied zu nicht probabilistischen Stichproben, bei denen der Zufall keine Rolle spielt. Zu den nicht probabilistischen Stichproben zåhlen u. a. die · Quotenstichprobe (die Zusammensetzung der Stichprobe hinsichtlich ausgewåhlter Merkmale wird durch die Vorgabe von ¹Quotenª den Populationsverhåltnissen angeglichen, wobei die ¹Erfçllungª der Quoten wichtiger ist als die Zufallsauswahl innerhalb der Quoten; vgl. z. B. Bortz u. Dæring, 2002, S. 487),
a3.2
Die Stichprobenkennwerteverteilung
· theoretische Stichprobe (theoriegeleitet werden fçr eine bestimmte Forschungsfrage besonders typische oder untypische Objekte ausgewåhlt) und die · Ad-hoc-Stichprobe (eine bereits bestehende Objektgruppe, wie z. B. eine Schulklasse oder Teilnehmer eines Seminars oder eine ¹irgendwieª zusammengesetzte Personengruppe wird als Stichprobe untersucht). Nicht probabilistische Stichproben sind fçr inferenzstatistische Auswertungen ungeeignet, es sei denn, man rekurriert ± wie bereits auf S. 87 erwåhnt ± auf fiktive Populationen, die sich fçr jede beliebige ¹Stichprobeª konstruieren lassen. Unter der Perspektive einer realistischen Generalisierbarkeit sind diese Stichproben von hæchst fraglichem Wert.
" 3.2 Die Stichprobenkennwerteverteilung Gegeben sei eine Grundgesamtheit, aus der eine Zufallsstichprobe (oder eine andere probabilistische Stichprobe) des Umfangs n gezogen wird. Wir messen die uns interessierende Variable X an den Objekten der Stichprobe und ermitteln die durchschnittliche Ausprågung der Variablen. Nach welchen Kriterien kænnen wir entscheiden, wie gut der Durchschnittswert x die durchschnittliche Ausprågung der Variablen bei allen Objekten der Grundgesamtheit repråsentiert bzw. wie brauchbar der statistische Kennwert x als Schåtzwert fçr den Populationsparameter ist? Eine Antwort auf diese Frage geben die folgenden Ûberlegungen (man beachte, dass es sich hier um einen theoretischen Gedankengang handelt und nicht, wie es gelegentlich missverstanden wird, um praktische Hinweise fçr eine konkrete Untersuchung). Nehmen wir einmal an, dass aus derselben Grundgesamtheit eine weitere Zufallsstichprobe gezogen wird, die von der ersten unabhångig ist. Je deutlicher die Mittelwerte dieser beiden Stichproben voneinander abweichen, um so weniger werden wir davon ausgehen kænnen, dass einer der beiden Stichprobenkennwerte den Populationsparameter richtig schåtzt. Rein intuitiv erscheint es plausibel, als Schåtzwert fçr den Popu-
89
lationsparameter den Mittelwert der beiden x-Werte zu verwenden. Noch verlåsslicher wåre diese Schåtzung, wenn man nicht nur zwei, sondern mehrere Stichprobenmittelwerte berçcksichtigen wçrde. Generell ist davon auszugehen, dass die Mittelwerte verschiedener Stichproben aus derselben Population nicht identisch sind, sondern mehr oder weniger stark vom Populationsparameter abweichen. Ziehen wir aus einer Population (theoretisch unendlich) viele Stichproben (mit Zurçcklegen), erhalten wir eine Verteilung der Stichprobenkennwerte, die Stichprobenkennwerteverteilung (¹Sampling Distributionª). (Hier und im Folgenden betrachten wir als Stichprobenkennwert den Mittelwert x. Die gleichen Ûberlegungen gelten im Prinzip jedoch fçr jeden erwartungstreuen Stichprobenkennwert; vgl. 3.3.) Die Streuung dieser Stichprobenkennwerteverteilung bestimmt, wie gut ein einzelner Stichprobenkennwert (z. B. x) den unbekannten Parameter ( schåtzt: Je geringer die Streuung der Stichprobenkennwerteverteilung, desto genauer schåtzt ein einzelner Stichprobenkennwert den gesuchten Parameter. Unter Bezugnahme auf die Ausfçhrungen in 2.3 låsst sich dieser Sachverhalt auch folgendermaûen ausdrçcken: Betrachten wir die Ziehung einer Zufallsstichprobe als ein Zufallsexperiment, stellt der Mittelwert x dieser Zufallsstichprobe eine Realisierung der Zufallsvariablen X dar. Wåre nun die Dichtefunktion dieser Zufallsvariablen bekannt, lieûe sich bestimmen, mit welcher Wahrscheinlichkeit die Abweichung eines Stichprobenmittelwertes x vom Parameter einen bestimmten Betrag a nicht çberschreitet. Die Stichprobenkennwerteverteilung ist eine theoretische Verteilung, die die Beziehung mæglicher Ausprågungen eines statistischen Kennwertes (z. B. x) und deren Auftretenswahrscheinlichkeit (Dichte) beim Ziehen von Zufallsstichproben des Umfanges n beschreibt.
Bei Bekanntheit der Stichprobenkennwerteverteilung wåren wir also in der Lage, die Pråzision einer Parameterschåtzung genau zu beschreiben. Wir befassen uns deshalb im Folgenden ausfçhrlicher mit der Stichprobenkennwerteverteilung bzw. speziell der Dichtefunktion der Zufallsvariablen X, die wir vereinfachend als Mittelwertverteilung oder x-Werteverteilung bezeichnen.
3
90
Kapitel 3 ´ Stichprobe und Grundgesamtheit
" 3.2.1 Die Streuung der Stichprobenkennwerteverteilung
3
Die Wahrscheinlichkeit, dass ein Stichprobenmittelwert x den Populationsparameter um einen bestimmten Betrag a verschåtzt, hångt von der Streuung der x-Werteverteilung ab. Lassen wir die Streuung dieser Verteilung gegen Null gehen, nåhert sich die Wahrscheinlichkeit, dass x den Parameter richtig schåtzt, dem Wert 1. Ist die Streuung der x-Werteverteilung hingegen sehr groû, wird die Wahrscheinlichkeit, dass ein zufållig herausgegriffener x-Wert richtig schåtzt, entsprechend klein sein. Diese fçr die Schåtzung von Populationsparametern wichtige Streuung der Stichprobenkennwerteverteilung bezeichnen wir als Standardfehler. Der Standardfehler des Mittelwertes (abgekçrzt: rx ) ist als die Standardabweichung der Mittelwerte von gleichgroûen Zufallsstichproben einer Population definiert.
Als nåchstes ist zu prçfen, wovon die Græûe dieses Standardfehlers abhångt. Eine Determinante des Standardfehlers des Mittelwertes ist die Streuung (Standardabweichung r) der Messwerte in der Population. Betrachten wir den extremen Fall, dass alle Messwerte identisch sind bzw. eine Streuung von Null aufweisen; in diesem Fall sind die Mittelwerte von Stichproben natçrlich ebenfalls identisch, d. h., der Standardfehler ist Null. Ist die Streuung der Messwerte in der Population jedoch sehr groû, sind Stichproben denkbar, in denen sich zufållig viele Objekte mit starker oder viele Objekte mit geringer Merkmalsausprågung befinden, wodurch sich die Streuung der Mittelwerte bzw. der Standardfehler erhæht. Daraus ergibt sich als Schlussfolgerung: Der Standardfehler des Mittelwertes veråndert sich proportional zur Streuung des Merkmals in der Population.
Ferner kann man sich leicht veranschaulichen, dass der Umfang der Zufallsstichproben die Streuung ihrer Mittelwerte beeinflusst. Nehmen wir an, die Stichproben håtten den gleichen Umfang wie die Grundgesamtheit. In diesem Fall wåre die Untersuchung von k ¹Stichprobenª mit der k-fachen
Untersuchung der Grundgesamtheit identisch. Wir erhalten also k-mal denselben Populationsmittelwert bzw. eine Mittelwertestreuung von Null. Betrachten wir umgekehrt den kleinstmæglichen Stichprobenumfang n 1, sind die Mittelwerte der ¹Stichprobenª mit den Messwerten der Grundgesamtheit identisch. Dem Standardfehler rx entspricht in diesem Fall die Populationsstreuung r. Der Standardfehler des Mittelwertes verringert sich mit zunehmendem Stichprobenumfang.
In Abb. 3.1 a, b werden diese Zusammenhånge graphisch veranschaulicht. Hier wurden ± nach den Regeln einer Monte-Carlo-Studie (vgl. S. 130 ff.) ± mit dem Computer aus einer gegebenen Population mit bekanntem und r2 jeweils 200 Stichproben unterschiedlichen Umfangs
n 2, n 10, n 20) gezogen, sodass sich fçr jeden Stichprobenumfang eine ¹empirischeª Stichprobenkennwerteverteilung mit 200 Mittelwerten ergibt. Diese Mittelwerteverteilungen sind zusåtzlich zur Populationsverteilung graphisch dargestellt. In der Spalte xx befindet sich der Mittelwert von jeweils 200 Mittelwerten und in den Spalten r2x bzw. rx die Varianz bzw. Streuung der Mittelwerte. Die letzte Spalte enthålt den ¹wahrenª nach Gl. (3.1) ermittelten Standardfehler. Der Vergleich der Abb. 3.1 a und b zeigt, dass die Mittelwerteverteilungen fçr konstante Stichprobenumfånge weniger streuen, wenn die Populationsvarianz r2 geringer ist. (Man beachte, dass auf der Abszisse sowohl X als auch X und dass auf der Ordinate sowohl f
X als auch f
X abgetragen sind.) Vergleichen wir die Mittelwerteverteilungen innerhalb einer Abbildung, wird deutlich, dass der Standardfehler des Mittelwertes bei konstanter Populationsvarianz r2 und zunehmendem Stichprobenumfang kleiner wird. Der Standardfehler des Mittelwertes ist proportional zur Populationsstreuung, und er wird kleiner, wenn der Stichprobenumfang zunimmt. Im Anhang B (B 24) wird gezeigt, dass der Standardfehler des Mittelwertes nach folgender Beziehung berechnet wird: r r2 rx :
3:1 n
a3.2.1
91
Die Streuung der Stichprobenkennwerteverteilung
1000
a
µ = 19,8, σ 2 = 20,0
900 800
f (x– ) u. f (x)
700 600 500 400 300 200 100 0 10
12
14
16
18
20
22
24
26
28
30
32
34
36
–x u. x
1000
Population
–x – x
σ –x2
σ –x
Mittelwerteverteilung von 200 Stichproben (n = 2)
19,9
9,7
3,1
σ σ –x = —— √n 3,2
Mittelwerteverteilung von 200 Stichproben (n = 10)
19,8
1,8
1,3
1,4
Mittelwerteverteilung von 200 Stichproben (n = 20)
19,8
1,0
1,0 (empirisch)
1,0 (theoretisch)
b
µ = 19,8, σ 2 = 10,0
900 800
f (x– ) u. f (x)
700 600 500 400 300 200 100 0 10
12
14
16
18
20
22
24
26
28
30
32
34
–x u. x Population
–x – x
σ –x2
σ –x
Mittelwerteverteilung von 200 Stichproben (n = 2)
19,7
5,1
2,3
σ σ –x = —— √n 2,2
Mittelwerteverteilung von 200 Stichproben (n = 10)
19,8
1,2
1,1
1,0
Mittelwerteverteilung von 200 Stichproben (n = 20)
19,8
0,4
0,6 (empirisch)
0,7 (theoretisch)
Abb. 3.1 a, b. Mittelwerteverteilungen fçr unterschiedliches r2 und n
36
3
92
Kapitel 3 ´ Stichprobe und Grundgesamtheit
Schåtzung des Standardfehlers rx 2
3
Ist der Populationsparameter r bekannt, kann der Standardfehler des Mittelwertes aus einer Stichprobe des Umfangs n nach Gl. (3.1) bestimmt werden. In den meisten empirischen Untersuchungen sind jedoch die Parameter der Verteilung eines Merkmales in der Grundgesamtheit nicht bekannt. Wir sind also darauf angewiesen, die Populationsvarianz aus den Stichprobendaten zu schåtzen, wobei es auf der Hand liegt, die nach Gl. (1.16) ermittelte Stichprobenvarianz als Schåtzwert der Populationsvarianz einzusetzen. Verlåsslicher wåre die Schåtzung, wenn nicht nur die Varianz einer Stichprobe, sondern die Varianzen aus mehreren, voneinander unabhångigen Stichproben des Umfangs n berçcksichtigt werden kænnten. Davon ausgehend, dass der Mittelwert von Mittelwerten aus verschiedenen Stichproben eine verbesserte Schåtzung des Populationsparameters abgibt, wåre es naheliegend anzunehmen, dass auch der Mittelwert von Varianzen aus verschiedenen Stichproben den Populationsparameter r2 besser schåtzt. Dies ist jedoch nur bedingt richtig. Werden die Varianzen von Zufallsstichproben des Umfangs n aus einer Grundgesamtheit gemittelt, erhalten wir eine Durchschnittsvarianz, die die Populationsvarianz um den Faktor
n 1=n unterschåtzt (vgl. hierzu Anhang B, B 25). Wir sagen: Stichprobenvarianzen sind keine ¹erwartungstreuenª Schåtzungen der Populationsvarianz (zum Begriff der Erwartungstreue vgl. 3.3). Damit eine Stichprobenvarianz die Populationsvarianz erwartungstreu schåtzt, mçssen wir die Stichprobenvarianz mit dem Faktor n=
n 1 multiplizieren, d. h. wir erhalten n n P P
xi x2
xi x2 n i1 i1 2 b r :
3:2 n 1 n n 1 Die aus Stichprobendaten geschåtzte Populationsvarianz bezeichnen wir mit b r2 . Wir erhalten b r2 , wenn die Summe der Abweichungsquadrate aller Messwerte vom Mittelwert bzw. kurz: die Quadratsumme nicht durch n, sondern durch n 1 dividiert wird. Den Ausdruck n 1 werden wir spåter (S. 138) als Freiheitsgrade der Varianz kennenlernen.
Wird eine empirisch ermittelte Quadratsumme durch n 1 dividiert, resultiert eine erwartungstreue Schåtzung der entsprechenden Populationsvarianz.
Unter Verwendung der geschåtzten Populationsvarianz ergibt sich folgende Gleichung fçr die Schåtzung des Standardfehlers des Mittelwertes: v uP n 2 r u u
xi x 2 ti1 b r b rx :
3:3 n n
n 1 Der Standardfehler des Mittelwertes kann mit Gl. (3.3) geschåtzt werden. Ein Mittelwert stellt eine um so pråzisere Schåtzung des Populationsparameters dar, je kleiner sein Standardfehler ist.
Im Folgenden gehen wir von groûen Stichproben aus, sodass der Unterschied zwischen Gl. (3.1) und Gl. (3.3) unbedeutend ist (zur Begrçndung vgl. S. 103).
Weitere Standardfehler Auch andere statistische Kennwerte, wie z. B. der Medianwert, die Standardabweichung oder ein Prozentwert, sind stichprobenabhångig und stellen damit Zufallsvariablen dar. Auch fçr diese Kennwerteverteilungen lassen sich Standardfehler angeben. Nachdem wir die Bedeutung des Standardfehlers am Beispiel des arithmetischen Mittels ausfçhrlich erærtert haben, kænnen wir uns fçr weitere Standardfehler mit einer einfachen Aufzåhlung begnçgen: Standardfehler des Medians r b r2 b rMd 1;25 :
3:4 n Standardfehler der Standardabweichung r b r2 b rs ;
3:5 2n Standardfehler eines Prozentwertes r PQ b r% ;
3:6 n wobei P Prozentsatz, mit dem das untersuchte Merkmal auftritt (Q = 100% ± P).
a3.2.2
93
Die Form der Stichprobenkennwerteverteilung
Werden Stichproben des Umfangs n aus einer Grundgesamtheit des Umfanges N gezogen, wobei N=n 100 (finite Grundgesamtheit), muss der p Standardfehler um den Faktor
N n=
N 1 korrigiert werden (Endlichkeitskorrektur). Der Standardfehler des arithmetischen Mittelwertes fçr finite Grundgesamtheiten
b r2x f lautet somit r b r2 N n b :
3:7 rx f n N 1 Im vorigen Abschnitt wurde darauf hingewiesen, dass Kennwerte einer (sinnvoll) geschichteten Stichprobe bessere Schåtzwerte fçr den Populationsparameter sind als Kennwerte von ungeschichteten Zufallsstichproben. Der Standardfehler von Mittelwerten einer geschichteten Stichprobe
b rx g ist kleiner als der Standardfehler von Kennwerten einer ungeschichteten Zufallsstichprobe: s b r2x
m r2 b b rx g :
3:8 n Hierin stellt b r2x
m die geschåtzte Varianz der Mittelwerte in den einzelnen Schichten (Strata) der Stichprobe dar. Sie wird nach folgender Gleichung berechnet: 1 b r2x
m n1
x1 x2 n2
x2 x2 n
3:9 nk
xk x2 ; wobei n1 ; n2 ; . . . ; nk Anzahl der Beobachtungseinheiten in den einzelnen Schichten (Strata), n Gesamtumfang der Stichprobe, x1 ; x2 ; . . . ; xk Mittelwerte fçr die einzelnen Schichten (Strata), x Gesamtmittelwert. Ûber die Standardfehler weiterer Verteilungskennwerte berichten Guilford (1956, Kap. 9) und Sachs (2002). Die Græûe eines Standardfehlers informiert darçber, wie unterschiedlich Stichprobenkennwerte (z. B. Mittelwerte) bei einem gegebenen Stichprobenumfang sein kænnen. Genauere Informationen lieûen sich ermitteln, wenn nicht nur der Standardfehler, sondern die gesamte Verteilung der Stichprobenkennwerte bzw. deren Dichtefunktion bekannt wåren. Man kænnte dann Bereiche
angeben, in denen sich ein beliebiger Stichprobenkennwert mit einer bestimmten Wahrscheinlichkeit befindet. Wir behandeln deshalb im Folgenden ein weiteres Bestimmungsstçck der Stichprobenkennwerteverteilung: die Verteilungsform.
" 3.2.2 Die Form der Stichprobenkennwerteverteilung Erneut betrachten wir zunåchst die Verteilung von Mittelwerten. Einen optischen Eindruck von der Form dieser Verteilung vermittelte bereits Abb. 3.1: Man erkennt, dass sich die Verteilung der Mittelwerte mit wachsendem Stichprobenumfang einer Normalverteilung nåhert, çber deren Eigenschaften bereits unter 2.5.1 ausfçhrlich berichtet wurde.
Zentrales Grenzwerttheorem Bevor wir uns einem der wichtigsten Lehrsåtze der Inferenzstatistik zuwenden, wollen wir gedanklich ein kleines Zufallsexperiment durchfçhren. Die uns interessierende Grundgesamtheit mæge aus allen Ereignissen des Wçrfelns, d. h. den Zahlen 1 bis 6 bestehen. Aus dieser Grundgesamtheit werden Stichproben des Umfanges n 2 gezogen. Wir wollen çberprçfen, wie sich die Mittelwerte dieser Stichproben (= Mittelwerte der mit 2 Wçrfeln geworfenen Zahlen) verteilen. Zunåchst stellen wir fest, dass wir es mit einer gleichverteilten Grundgesamtheit zu tun haben, denn die Ereignisse 1 bis 6 treten jeweils mit einer Wahrscheinlichkeit von p 1=6 auf. Da die Summen aus 2 Wçrfelzahlen nur ganzzahlige Werte zwischen 2 und 12 annehmen kænnen, erhalten wir eine diskrete Mittelwerteverteilung mit den x-Werten 1; 1,5; 2; . . . ; 5; 5,5; 6. Die Wahrscheinlichkeiten fçr das Auftreten der einzelnen x-Werte sind in Tabelle 3.1 aufgefçhrt (vgl. auch S. 63). Einen Mittelwert von z. B. x 2;5 erhalten wir, wenn die Summe der beiden gewçrfelten Zahlen 5 ergibt, also wenn eine der Kombinationen 2 3, 3 2, 4 1 oder 1 4 fållt. Da 36 Kombinationen mæglich sind, betrågt die Wahrscheinlichkeit des Auftretens des Ereignisses ¹x 2;5ª p 4=36. Wie man erkennt, hat die Form der Verteilung der Mittelwerte mit der Form der Verteilung der Grundgesamtheit nichts mehr zu tun. Wåhrend
3
94
Kapitel 3 ´ Stichprobe und Grundgesamtheit
Tabelle 3.1. Wahrscheinlichkeitsverteilung fçr n 2 beim Wçrfeln
3
x
p
x
1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6
1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 Rp
x 1
die Ereignisse der Grundgesamtheit mit gleicher Wahrscheinlichkeit auftreten (Gleichverteilung), erhalten wir fçr die Mittelwerte von Stichproben des Umfangs n 2 eine Verteilung, die einen deutlichen Modalwert besitzt und symmetrisch ist. Die Mittelwerteverteilung weist somit bereits fçr n 2 Eigenschaften auf, die wir von der Normalverteilung her kennen. Lassen wir n græûer werden (n kennzeichnet den Stichprobenumfang, also im Beispiel die Anzahl der Wçrfel pro Stichprobe und nicht ± wie gelegentlich missverstanden wird ± die Anzahl der Stichproben!), nåhert sich die Mittelwerteverteilung zunehmend der Normalverteilung. Entsprechendes gilt fçr jede beliebige Verteilungsform einer Grundgesamtheit. Dies ist die Aussage des sog. zentralen Grenzwerttheorems, auf dessen Beweis hier nicht eingegangen werden kann. Der interessierte Leser wird auf die Literatur zur mathematischen Statistik, wie z. B. Schmetterer (1966), Fisz (1989) oder Kendall u. Stuart (1969) verwiesen. Ûber verschiedene Varianten des Grenzwerttheorems berichtet z. B. Assenmacher (2000, Kap. 6.2). Unter der Voraussetzung, dass die Varianz in der Grundgesamtheit endlich ist (was bei empirischen Daten praktisch immer der Fall ist), formulieren wir: Die Verteilung von Mittelwerten aus Stichproben des Umfangs n, die derselben Grundgesamtheit entnommen wurden, geht mit wachsendem Stichprobenumfang in eine Normalverteilung çber.
Fçr praktische Zwecke kænnen wir davon ausgehen, dass die Mittelwerteverteilung fçr beliebige Verteilungsformen des Merkmals in der Population bereits dann hinreichend normal ist, wenn n 30 ist. Neben der Streuung der Mittelwerteverteilung b rx ist somit auch ihre Form ± zumindest bei hinreichend groûen Stichproben ± bekannt. Die bisherigen Erærterungen bezogen sich nur auf das arithmetische Mittel. Wie wir jedoch in Kap. 1 kennengelernt haben, kann eine Verteilung durch weitere Kennwerte beschrieben werden, deren Streuungen (Standardfehler) wir bereits im letzten Abschnitt genannt haben. Im Gegensatz zu Mittelwerteverteilungen, die ± hinreichend groûe Stichprobenumfånge vorausgesetzt ± nach dem Zentralen Grenzwerttheorem auch dann angenåhert normalverteilt sind, wenn die Grundgesamtheit nicht normalverteilt ist, kænnen Verteilungen anderer Stichprobenkennwerte, wie z. B. des Medianwertes, der Standardabweichung oder eines Prozentwertes erheblich von der Normalitåt abweichen, wenn die Grundgesamtheit nicht normalverteilt ist. (Zur Ûberprçfung der Normalverteilungsannahme vgl. Kap. 5.3.2.) Pråzisionsbestimmungen von Parameterschåtzungen aufgrund nicht normalverteilter Stichprobenkennwerte sind nur dann mæglich, wenn die Dichtefunktion der Kennwerteverteilung bekannt ist.
Wie in 2.5.1 dargestellt wurde, ist eine Normalverteilung durch die Parameter und r2 festgelegt. Zur eindeutigen Charakterisierung einer normalverteilten Stichprobenkennwerteverteilung fehlt somit nur noch der unbekannte Parameter , dem wir uns im Folgenden zuwenden wollen.
" 3.2.3 Der Mittelwert der Stichprobenkennwerteverteilung Der Mittelwert der x-Werteverteilung (bzw. der Erwartungswert der Zufallsvariablen X) entspricht ± wie im Anhang B gezeigt wird ± dem Mittelwert der Verteilung des Merkmals X in der Population (bzw. dem Erwartungswert der Zufallsvariablen X). Dieser ist uns in der Regel nicht bekannt (andernfalls wçrde sich eine Schåtzung von durch einen Stichprobenkennwert x erçbrigen). Wir kænnen also nach den bisherigen Ausfçhrungen davon ausgehen, dass sich Mittelwerte aus hinreichend groûen Zufallsstichproben um den unbekannten Parameter mit einer Streuung von rx normalverteilen. Von Normalverteilungen ist bekannt, dass sich innerhalb des Bereiches r ca. 68% und inner-
a3.3
95
Kriterien der Parameterschåtzung
halb des Bereiches 2 r ca. 95,5% aller Messwerte befinden (vgl. Abb. 1.14). Wir kænnen somit sagen, dass sich Mittelwerte aus Zufallsstichproben mit einer Wahrscheinlichkeit von ca. 95,5% innerhalb des Bereiches 2 rx befinden bzw. dass mit 95,5%iger Wahrscheinlichkeit gilt:
2 rx x 2 rx :
3:10
Unter 3.5 werden wir zeigen, wie sich diese wichtige Beziehung nutzen låsst, um die Genauigkeit kalkulieren zu kænnen, mit der der Mittelwert x einer Stichprobe den unbekannten Parameter schåtzt. Hier wollen wir zunåchst den Gedankengang, der zur Bestimmung des in Gl. (3.10) genannten Bereiches von x-Werten fçhrt, zusammenfassen und anschlieûend an einem Beispiel erlåutern. Dabei ist darauf zu achten, dass die Begriffe Populationsvarianz
r2 , geschåtzte Populationsvarianz
b r2 , Stichprobenvarianz
s2 , Varianz der Stichprobenmittelwerte
r2x und Standardfehler des arithmetischen Mittels (= Streuung der Stichprobenmittelwerte rx nicht verwechselt werden. · Aus einer Grundgesamtheit wird eine Zufallsstichprobe des Umfangs n > 30 gezogen. Der Mittelwert x dieser Stichprobe wird berechnet. · Die Parameter der Population und r2 sind unbekannt. · Je nach Art der Zufallsstichprobe wird x den Parameter unterschiedlich gut schåtzen. · Der x-Wert wird um so besser schåtzen, je kleiner der Standardfehler des Mittelwertes
rx ist. · rx verhålt sich proportional p zu r und umgekehrt proportional zu n. Der Standardfehler des Mittelwertes kann nach der Beziehung p rx r2 =n berechnet werden. · Da r2 ± wie angenommen ± nicht bekannt ist, schåtzen wir r2 aus den Stichprobendaten durch b r2 nach Gl. (3.2). · Unter Verwendung der geschåtzten Populationsvarianz b r2 schåtzen wir den Standardfehlerpdes Mittelwertes nach der Beziehung b rx b r2 =n. · Die Mittelwerteverteilung ist durch die Parameter (unbekannt) und rx , das durch b rx geschåtzt wird, gekennzeichnet. · Die Mittelwerte von hinreichend groûen Stichproben verteilen sich nach dem Zentralen Grenzwerttheorem normal um .
· Ausgehend von den Verteilungseigenschaften einer Normalverteilung befindet sich der Stichprobenmittelwert x mit einer Wahrscheinlichkeit von ca. 68% im Bereich b rx und mit einer Wahrscheinlichkeit von ca. 95,5% im Bereich 2 b rx . BEISPIEL Eine psychologische Untersuchungsstelle des Technischen Ûberwachungsvereins habe an einer repråsentativen Stichprobe von 100 Verkehrsdelinquenten Tests zur Ermittlung der sensomotorischen Koordinationsfåhigkeit durchgefçhrt. Die Testleistungen haben einen Mittelwert von x 80, und die Populationsvarianz wird nach Gl. (3.2) mit b r2 400 geschåtzt. Fçr den Standardfehler des Mittelwertes r resultiert 400 p 4 2. nach Gl. (3.3) ein Schåtzwert von b rx 100 Damit kænnen wir sagen, dass der Mittelwert x 80 mit einer Wahrscheinlichkeit von 68% hæchstens um einen Betrag von 1 b rx 2 Testpunkte und mit einer Wahrscheinlichkeit von 95,5% hæchstens um einen Betrag von 2 b rx 4 Testpunkte vom wahren Populationsparameter abweicht.
Den Gedankengang, der zur Bestimmung des in Gl. (3.10) genannten x-Wertebereiches fçhrt, werden wir unter 3.5 (Intervallschåtzung) noch einmal aufgreifen. Dieser Gedankengang gilt nicht nur fçr das arithmetische Mittel. Entsprechend kann verfahren werden, wenn die Verteilung eines beliebigen Stichprobenkennwertes normal ist (was immer der Fall ist, wenn sich die Grundgesamtheit normalverteilt) und wenn fçr den Standardfehler des jeweiligen statistischen Kennwertes ein verlåsslicher Schåtzwert eingesetzt werden kann. Ist die Wahrscheinlichkeitsdichtefunktion nicht normalverteilter Kennwerte bekannt, werden entsprechende Wahrscheinlichkeitsbereiche durch die Integralrechnung bestimmt.
3.3 Kriterien der Parameterschåtzung Statistische Kennwerte werden ± wie wir im letzten Abschnitt gesehen haben ± nicht nur zur Beschreibung von Merkmalsverteilungen in Stichproben benætigt, sondern auch zur Schåtzung der Parameter von Grundgesamtheiten. Undiskutiert blieb bisher die Frage, welche Stichprobenkennwerte zur Schåtzung welcher Parameter herangezogen werden kænnen bzw. die Frage, nach welchen Kriterien wir entscheiden kænnen, ob ein statistischer Kennwert einen brauchbaren Schåtz-
3
96
3
Kapitel 3 ´ Stichprobe und Grundgesamtheit
wert fçr einen Parameter darstellt. So wurde beispielsweise im letzten Kapitel angenommen, dass das arithmetische Mittel einer Stichprobe ein brauchbarer Schåtzwert des Populationsparameters sei, ohne geprçft zu haben, ob andere Maûe der zentralen Tendenz, wie z. B. der Medianoder Modalwert, den Parameter genauso gut oder gar besser schåtzen. Die Entscheidung darçber, welcher statistische Kennwert am besten zur Schåtzung eines Populationsparameters geeignet ist, wird aufgrund von Kriterien getroffen, die R.A. Fisher (1925 a) aufgestellt hat. Die Theorie der Schåtzung entwickelte Kriterien, die gute Schåtzwerte erfçllen mçssen, und Methoden, die es gestatten, Schåtzwerte mit den geforderten Eigenschaften abzuleiten. Die Eigenschaften, die eine gute Schåtzung auszeichnen, sind nach Fisher die folgenden:
Erwartungstreue Ein statistischer Kennwert schåtzt einen Populationsparameter erwartungstreu, wenn das arithmetische Mittel der Kennwerteverteilung bzw. deren Erwartungswert dem Populationsparameter entspricht.
Wie in Anhang B gezeigt wird, stellt das arithmetische Mittel einer Zufallsstichprobe eine erwartungstreue Schåtzung des Populationsparameters dar. Das arithmetische Mittel hat die Eigenschaft, dass es den Parameter l weder systematisch çber- noch systematisch unterschåtzt. Die von l ist Abweichung des Erwartungswertes E
X Null. Allgemein bezeichnen wir die Abweichung des Erwartungswertes eines statistischen Kennwertes vom geschåtzten Populationsparameter als Verzerrung oder Bias. Bezogen auf das arithmetische Mittel ergibt sich E
X Bias
X l0: Werden Zufallsstichproben aus einer beliebig symmetrisch verteilten Grundgesamtheit gezogen, erweist sich auch der Stichprobenmedianwert als erwartungstreue Schåtzung des arithmetischen Mittels in der Grundgesamtheit, d. h., das arithmetische Mittel der Medianwerteverteilung E(Md) ist in diesem Fall mit dem Parameter identisch. Der Modalwert ist dann eine erwartungstreue Schåtzung des arithmetischen Mittels der Grundgesamtheit, wenn die Grundgesamtheit sym-
metrisch und unimodal verteilt ist, wie z. B. bei der Normalverteilung. Dem gegençber schåtzt die Varianz s2 einer Stichprobe aus einer beliebig verteilten Grundgesamtheit die Populationsvarianz r2 nicht erwartungstreu. Wie in Anhang B (B25) gezeigt wird, unterschåtzt der Erwartungswert einer Varianz bzw. das arithmetische Mittel von Varianzen aus voneinander unabhångigen Zufallsstichproben des Umfangs n die Populationsvarianz r2 um den Faktor
n 1=n . Wir erhalten als Bias: Bias
S2 E
S2 r2 n 1 r2 r2 n n 1 2 1 r n 1 2 r : n Korrigieren wir diesen ¹biasª, erhalten wir ± wie auf S. 92 ausgefçhrt ± eine erwartungstreue Schåtzung der Populationsvarianz. Da s2 keine erwartungstreue Schåtzung der Populationsvarianz r2 darstellt, schåtzt natçrlich auch die Standardabweichung s den Populationsparameter r nicht erwartungstreu. Da jedoch b r2 eine er2 wartungstreue Schåtzung von pr ist, liegt die Vermutung nahe, dass auch b r2 b r die Standardabweichung in der Population erwartungstreu schåtzt. Dies ist jedoch nicht der Fall. Wird ein erwartungstreuer Schåtzwert nicht linear transformiert (wie beispielsweise durch eine Wurzeltransformation), so muss der transformierte Wert keineswegs ebenfalls erwartungstreu sein. Das Ausmaû, in dem der Erwartungswert einer Stichprobenstandardabweichung die Populationsstandardabweichung verschåtzt, ist abhångig von der Verteilung der Grundgesamtheit. Bei normalverteilter Grundgesamtheit besteht zwischen dem Erwartungswert der Stichprobenstandardabweichung E
S (bzw. dem Mittelwert der Standardabweichungsverteilung s und dem Parameter r folgende Beziehung: 4n 4 E
S s r:
3:11 4n 3 Wie Gl. (3.11) zu entnehmen ist, stellt s nur fçr n ! 1 eine erwartungstreue Schåtzung von r dar. Wir bezeichnen diese Eigenschaft als asymptotische Erwartungstreue.
a3.3
Weitere Einzelheiten çber erwartungstreue Schåtzungen fçr die Standardabweichung einer Grundgesamtheit kænnen den Arbeiten von Cureton (1968 a, b) sowie Bolch (1968) entnommen werden.
Konsistenz Von einem konsistenten Schåtzwert sprechen wir, wenn sich ein statistischer Kennwert mit wachsendem Stichprobenumfang dem Parameter, den er schåtzen soll, nåhert.
Formal beinhaltet die Konsistenzbedingung p
jSchatzwert f ur n ! 1 :
3
97
Kriterien der Parameterschåtzung
Parameterj < " ! 1
3:12
Ein Schåtzwert ist konsistent, wenn die Wahrscheinlichkeit dafçr, dass der Absolutbetrag der Differenz zwischen dem Parameter und dem Schåtzwert kleiner als jede beliebige, reelle Zahl " ist, mit wachsendem Stichprobenumfang gegen 1 geht. Demnach ist z. B. die Standardabweichung einer Stichprobe eine konsistente Schåtzung des Parameters r (vgl. Gl. 3.11 fçr n ! 1), obwohl dieser Schåtzwert ± wie erwåhnt ± nur asymptotisch erwartungstreu ist. Das arithmetische Mittel hingegen ist sowohl konsistent als auch erwartungstreu. Eine weitere Eigenschaft konsistenter Schåtzwerte besagt, dass ihr mittlerer quadratischer Fehler (Mean Squared Error oder abgekçrzt: MSE) fçr n ? ? gegen Null geht. Der MSE ist definiert als quadratische Abweichung eines Schåtzwertes vom zu schåtzenden Parameter. Er setzt sich zusammen aus dem quadrierten Standardfehler des Schåtzwertes und dem quadrierten Bias (vgl. z. B. Assenmacher, 2000, S. 114 f.). Konsistenz (genauer: Konsistenz im quadratischen Mittel) setzt also voraus, dass mit wachsendem Stichprobenumfang sowohl der Standardfehler als auch der Bias gegen Null gehen. Dieses Kriterium ist bei den wichtigsten statistischen Kennwerten (x; s2 ; s und p als Schåtzwerte von l; r2 ; r und p) erfçllt.
Effizienz Die dritte geforderte Eigenschaft eines guten Schåtzwertes ist die Effizienz. Sie kennzeichnet
die Pråzision, mit der ein Populationsparameter geschåtzt werden kann. Im Abschnitt 3.2.1 wurde dargelegt, dass der Standardfehler eines statistischen Kennwertes indikativ fçr die Pråzision ist, mit der ein Populationsparameter geschåtzt wird. Damit eng verknçpft ist die Effizienz eines Schåtzwertes, die ± bei erwartungstreuen Schåtzwerten ± durch die Varianz der Stichprobenkennwerteverteilung (bzw. dem Quadrat des Standardfehlers) gekennzeichnet ist. Fçr erwartungstreue Schåtzwerte gilt: Je græûer die Varianz der Stichprobenkennwerteverteilung, desto geringer ist die Effizienz des entsprechenden Schåtzwertes.
Soll beispielsweise der Parameter einer Normalverteilung geschåtzt werden, kann hierfçr ± ausgehend von den Kriterien der Erwartungstreue und der Konsistenz ± sowohl das arithmetische Mittel als auch der Medianwert einer Stichprobe herangezogen werden. Beide Stichprobenkennwerte stellen in diesem Fall erwartungstreue und konsistente Schåtzungen dar. Quadrieren wir jedoch Gl. (3.3) und (3.4), stellen wir fest, dass die Varianz der Medianwerteverteilung um den Faktor 1,56 græûer ist als die Varianz der Mittelwerteverteilung. Das arithmetische Mittel schåtzt somit den Populationsparameter effizienter als der Medianwert. Sind die zu vergleichenden Schåtzwerte nicht erwartungstreu, wird die Effizienz auf der Basis der MSE-Werte definiert, die sich aus dem jeweiligen quadrierten Standardfehler und dem quadrierten Bias zusammensetzen (s. oben). Von zwei Schåtzwerten T1 und T2 ist T1 MSE-effizienter, wenn MSE (T1) < MSE (T2) ist. Zum Vergleich der Effizienz zweier erwartungstreuer Schåtzwerte wird die relative Effizienz eines Schåtzwertes berechnet. In Prozentwerten ausgedrçckt, ergibt sich die relative Effizienz eines Schåtzwertes a im Vergleich zu einem Schåtzwert b nach folgender Beziehung: relative Effizienz von a
b r2b 100 % : b r2a
3:13
Nach Gl. (3.13) betrågt die relative Effizienz des Medianwertes bei normalverteilten Grundgesamtheiten in Bezug auf das arithmetische Mittel somit
98
Kapitel 3 ´ Stichprobe und Grundgesamtheit
tere kommt z. B. im Rahmen log-linearer Modelle b r2 =n 100% 64% : oder in der probabilistischen Testtheorie håufig 2 1;56 b r =n zum Einsatz. Eine weitere Methode ist die ¹MoDie Effizienz des Medianwertes ist somit nicht mentenmethodeª, deren Grundidee z. B. bei Aseinmal 2/3 so groû wie die des arithmetischen senmacher (2000, S. 217) dargestellt wird. Mittels. Die relative Effizienz von 64% kann so interpretiert werden, dass der Medianwert einer Stichprobe des Umfangs n 100 aus einer nor- Methode der kleinsten Quadrate malverteilten Population den Parameter genauso pråzise schåtzt wie das arithmetische Mittel aus Nehmen wir einmal an, wir suchen einen Wert a als Schåtzer fçr mit folgender Eigenschaft: a einer Stichprobe des Umfangs n 64. soll so geartet sein, dass er alle Werte der Stichprobe in der Weise repråsentiert, dass die Summe Suffizienz der quadrierten Abweichungen der Werte von a ein Minimum ergibt. Wir schreiben deshalb relative EffizienzMd
3
Ein Schåtzwert ist suffizient oder erschæpfend, wenn er alle in den Daten einer Stichprobe enthaltenen Informationen berçcksichtigt, sodass durch Berechnung eines weiteren statistischen Kennwertes keine zusåtzliche Information çber den zu schåtzenden Parameter gewonnen werden kann.
Da der Medianwert nur ordinale Informationen eines Datenmaterials berçcksichtigt (die Græûe der Werte, die zu den unteren bzw. oberen 50% der Verteilung zåhlen, ist fçr den Median unerheblich) und das arithmetische Mittel Intervallskaleninformationen, ist das arithmetische Mittel der erschæpfendere Schåtzwert.
3.4 Methoden der Parameterschåtzung Wir wollen uns nun der Frage zuwenden, wie man aus den Daten einer Stichprobe einen statistischen Kennwert bestimmen kann, der als Schåtzwert eines Populationsparameters bestimmte wçnschenswerte Eigenschaften (vgl. 3.3) aufweist. Dieses Problem ist fçr die wichtigsten, uns interessierenden Populationsparameter gelæst. Wir wissen bereits, dass z. B. fçr der Stichprobenkennwert x und fçr r2 der Stichprobenkennwert b r2 gute Schåtzer darstellen. Offen blieb jedoch bisher, mit welchen Methoden man herausfindet, welcher statistische Kennwert besonders gut geeignet ist, um als Schåtzer eines fraglichen Populationsparameters eingesetzt zu werden. Hierfçr werden wir im Folgenden die ¹Methode der kleinsten Quadrateª kennenlernen, sowie die ¹Maximum-likelihood-Methodeª. Letz-
f
a
n X
xi
a2 min :
i1
Differenzieren wir diesen Ausdruck nach a, ergibt sich n P 2 d
xi a df
a i1
3:14 da da n P 2 2 d
xi 2 a xi a df
a i1 da da n n P 2 P 2 d xi 2 a xi n a i1 i1 da n X xi 2 n a : 2 i1
Setzen wir diese erste Ableitung Null und læsen nach a auf, gelangen wir zu folgender Bestimmungsgleichung fçr den gesuchten Kennwert a: n X 2 xi 2 n a 0 i1
n P
xi a i1 x :
3:15 n Der gesuchte Schåtzwert entspricht damit dem arithmetischen Mittel. Als 2. Ableitung erhalten wir den positiven Wert 2n, wodurch sichergestellt ist, dass die Summe der quadratischen Abweichungen durch a x tatsåchlich minimiert wird.
a3.4
99
Methoden der Parameterschåtzung
Die Methode der kleinsten Quadrate (im Englischen: Ordinary Least Squares oder kurz: OLS) werden wir in einem anderen Zusammenhang (Regressionsrechnung, Kap. 6.1) noch ausfçhrlicher kennenlernen. Auch dort wird es darum gehen, fçr unbekannte Parameter Schåtzwerte zu finden, die die in einer Stichprobe beobachteten Messungen nach dem Kriterium der kleinsten Summe der quadrierten Abweichungen (kurz: nach dem Kriterium der kleinsten Quadrate) mæglichst gut repråsentieren. Schåtzer, die man mit der Methode der kleinsten Quadrate bestimmt, sind unabhångig davon, wie das Merkmal in der Grundgesamtheit verteilt ist, erwartungstreu und konsistent.
Nach einem gruppendynamischen Training åuûern von 12 Teilnehmern 5 spontan die Ansicht, ihre Kontaktschwierigkeiten seien weitgehend beseitigt worden. Wir wollen çberprçfen, bei welchen Populationsverhåltnissen ein solches Stichprobenergebnis am wahrscheinlichsten ist. Zunåchst nehmen wir einmal an, der Anteil derjenigen, die nach einem gruppendynamischen Training behaupten, ihre Kontaktschwierigkeiten seien weitgehend beseitigt, betrage in der Grundgesamtheit p 0;3. Ausgehend von einem binomialverteilten Merkmal ermitteln wir nach Gl. (2.34), wie groû die Wahrscheinlichkeit (Likelihood L) ist, dass fçr p 0;3 das Ereignis ¹gebessertª unter 12 mæglichen Ereignissen 5-mal auftritt: 12 0;35 0;77 0;158 : L
k 5jn 12 5
Maximum-likelihood-Methode
Setzen wir p 0; 4, erhalten wir 12 0;45 0;67 0;227 : L
k 5jn 12 5
Mit der Maximum-likelihood-Methode finden wir fçr die Schåtzung unbekannter Parameter Stichprobenkennwerte, die so geartet sind, dass sie die Wahrscheinlichkeit (genauer: Likelihood, s. unten) des Auftretens der in einer Stichprobe beobachteten Messungen maximieren. Die Bedeutung dieser Methode, deren Anwendung voraussetzt, dass die Verteilungsform des untersuchten Merkmals bekannt ist, låsst sich intuitiv einfach vermitteln. Nehmen wir an, in einer Stichprobe wurden die Messungen x1 11, x2 8, x3 12, x4 9 und x5 10 registriert. Gehen wir von Messungen eines normalverteilten Merkmals aus, ist es åuûerst unwahrscheinlich, dass ein Populationsparameter von z. B. 20 diese Stichprobenwerte ermæglicht. Plausibler wåre es, fçr den Wert 10 oder zumindest Werte in der Nåhe von 10 anzunehmen. Nach der Maximum-likelihood-Methode wçrde sich herausstellen, dass der Mittelwert x 10 als bester Schåtzer fçr gilt. Bei einem normalverteilten Merkmal resultiert fçr die beobachteten Werte eine maximale Auftretenswahrscheinlichkeit, wenn wir durch x schåtzen. (Eine detailliertere Herleitung von x als Maximum-likelihood-Schåtzung von bei normalverteilten Merkmalen findet man z. B. bei Hofer u. Franzen, 1975, S. 305 f.) Wie man einen Schåtzwert nach der Maximumlikelihood-Methode bestimmt, sei im Folgenden anhand eines Beispiels (Bestimmung eines Schåtzwertes fçr den Populationsanteil p) erlåutert.
BEISPIEL
Fçr p 0;5 ergibt sich L
k 5jn 12
12 0;512 0;193 : 5
Offenbar ist von den 3 Parameterschåtzungen
p 0;3; p 0;4; p 0;5 die Schåtzung p 0;4 am besten. Fçr diesen Parameter ist die Wahrscheinlichkeit
L, dass unter 12 mæglichen Ereignissen das Ereignis ¹gebessertª 5-mal auftritt, am græûten. Es ist jedoch nicht auszuschlieûen, dass die Wahrscheinlichkeit
L fçr den empirischen Befund fçr andere Populationsparameter noch græûer ist. Ausgehend von den 3 Parameterschåtzungen kænnen wir vermuten, dass die maximale Wahrscheinlichkeit (maximale Likelihood) im Bereich 0;3 < p < 0;5 liegt.
Der folgende Gedankengang fçhrt zu einem p-Wert, bei dem das Stichprobenergebnis am wahrscheinlichsten ist: Da p beliebige, stetig verteilte Werte im Bereich Null bis 1 annehmen kann, bedienen wir uns ± wie bereits bei der Methode der kleinsten Quadrate ± der Differenzialrechnung, um die maximale Auftretenswahrscheinlichkeit fçr das gefundene Ergebnis in Abhångigkeit von p zu ermitteln. Wir definieren eine Wahrscheinlichkeitsfunktion, die Likelihood-Funktion, die nach dem gesuchten Parameter p differenziert wird. Setzen wir die erste Ableitung Null und læsen nach p auf, erhalten wir die Bestimmungsgleichung fçr den gesuchten Parameter. Bezogen auf unser Beispiel lautet die Likelihood-Funktion:
3
100
Kapitel 3 ´ Stichprobe und Grundgesamtheit
3
n
pk
1 pn k :
3:16 k Um diese Gleichung einfacher differenzieren zu kænnen, logarithmieren wir beide Seiten zur Basis e und erhalten so die Summe der Logarithmen der einzelnen Faktoren, die gliedweise differenziert werden kann. (Diese Vorgehensweise ist deshalb zulåssig, weil der Logarithmus eines positiven Argumentes eine monotone Funktion des Argumentes ist. Das Maximum der logarithmierten Funktion ist somit gleich dem Maximum der ursprçnglichen Funktion.) Die logarithmierte Likelihood-Funktion lautet n k ln p ln L
kjn; p ln k
n k ln
1 p :
3:17 L
kjn; p
Fçr die erste Ableitung erhalten wir d ln L k n k :
3:18 dp p 1 p Wird die 1. Ableitung Null gesetzt und nach p aufgelæst, ergibt sich k :
3:19 n Das gefundene Ergebnis erhålt somit maximale Auftretenswahrscheinlichkeit, wenn der Populationsparameter p durch die relative Håufigkeit in der Stichprobe geschåtzt wird. Fçr unser Beispiel ermitteln wir p 5=12 0;42, sodass 12 0;425 0;587 L
k 5jn 12 5 p
0;229 max : Da die 2. Ableitung der Likelihood-Funktion ein negatives Vorzeichen hat, ist sichergestellt, dass das Ergebnis ¹5 gebessertª unter 12 mæglichen Fållen fçr eine Grundgesamtheitswahrscheinlichkeit von p 0;42 tatsåchlich maximale (und nicht minimale) Auftretenswahrscheinlichkeit besitzt. Es bleibt nachzutragen, warum wir bei diesen Ûberlegungen nicht von ¹Wahrscheinlichkeitª, sondern von der ¹Likelihoodª (diese Bezeichnung bleibt çblicherweise unçbersetzt) sprechen. Auf S. 53 definierten wir ¹Wahrscheinlichkeitª als eine Zahl, die nur Werte zwischen 0 und 1 annehmen kann. Ferner wurde die Summe der Wahrscheinlichkeiten aller einander ausschlieûenden Ereig-
nisse einer Ergebnismenge 1 gesetzt. Diese Axiome wåren verletzt, wenn wir die nach der Maximum-likelihood-Methode bestimmten Likelihoods als Wahrscheinlichkeiten auffassen wçrden. In unserem Beispiel ermittelten wir als Likelihood des empirischen Ergebnisses fçr p 0;3 den Wert 0,158. Die entsprechenden Werte fçr p 0;4 und p 0;5 lauteten 0,227 und 0,193. Die Summe dieser Likelihoods betrågt also 0,578. Neben diesen drei Werten fçr den Parameter p kann p theoretisch jeden beliebigen anderen Wert in den Grenzen 0 bis 1 annehmen; allein zwischen p 0;3 und p 0;4 befinden sich unendlich viele p-Werte, die såmtlich eine Likelihood zwischen 0,158 und 0,227 aufweisen. Die Summe der Likelihoods dieser einander ausschlieûenden Ereignisse geht gegen unendlich und ist also mit der Axiomatik von Wahrscheinlichkeiten nicht vereinbar. Existiert fçr einen Parameter ein suffizienter bzw. erschæpfender Schåtzwert, dann entspricht der nach der Maximum-likelihood-Methode bestimmte statistische Kennwert diesem Schåtzwert. Hieraus folgt, dass erschæpfende, statistische Kennwerte, wie z. B. das arithmetische Mittel x oder die Varianz s2 , gleichzeitig Maximum-likelihood-Schåtzungen der Parameter und r2 sind. Man beachte jedoch, dass Maximum-likelihoodSchåtzungen nicht gleichzeitig erwartungstreue Schåtzungen sind, wie durch die Varianz s2 belegt wird, die zwar erschæpfend, aber nicht erwartungstreu ist. Maximum-likelihood-Schåtzer sind auûerdem konsistent und asymptotisch normal verteilt. Eine ausfçhrliche Behandlung des Problems der Parameterschåtzung findet der interessierte Leser z. B. bei Kendall u. Stuart (1973) bzw. bei Klauer (1996 a).
" 3.5 Intervallschåtzung Die Schåtzung von Populationsparametern durch einen einzigen Wert, der aus den beobachteten Daten ermittelt wurde, bezeichnen wir als eine Punktschåtzung. Wie unter 3.2 gezeigt, mçssen wir jedoch davon ausgehen, dass Punktschåtzungen von Zufallsstichprobe zu Zufallsstichprobe schwanken bzw. dass Punktschåtzungen Zufallsvariablen darstellen, deren Verteilung bekannt
a3.5
101
Intervallschåtzung
sein muss, wenn wir die Brauchbarkeit einer konkreten Schåtzung richtig bewerten wollen. Diese Verteilung, die wir in Kap. 3.2 Stichprobenkennwerteverteilung nannten, ist uns jedoch nur teilweise bekannt. Wir kennen ± zumindest, wenn wir als Stichprobenkennwert erneut vorerst nur das arithmetische Mittel betrachten ± ihre Verteilungsform (sie ist bei Gçltigkeit des zentralen Grenzwerttheorems normal) und ihre Streup ung (Standardfehler, den wir mit b rx b r= n schåtzen). Unbekannt ist der zu schåtzende Parameter . Nach wie vor ist damit die Frage offen, was wir çber diesen unbekannten Parameter wissen, wenn wir nur das Ergebnis einer Stichprobenuntersuchung kennen. Fçr die folgenden Ûberlegungen nehmen wir zunåchst an, sei bekannt (z. B. 100). Bezugnehmend auf Kap. 3.2 kænnen wir dann behaupten, dass sich der Mittelwert einer beliebigen Zufallsstichprobe des Umfangs n mit einer Wahrscheinlichkeit von 95,5% im Bereich 2 rx befindet. Wenn rx 5 ist, lautet dieser Bereich 90 bis 110. Wir wollen diesen Bereich als den x-Werte-Bereich (oder das Schwankungsintervall) von 100 bezeichnen. Ein Mittelwert von z. B. x 93 fållt also in diesen x-Werte-Bereich. Der gleiche Mittelwert kænnte jedoch auch resultieren, wenn 90 ist. Fçr dieses ergibt sich (bei gleichem rx ) ein x-Werte-Bereich von 80 bis 100, der x 93 ebenfalls umschlieût. Aber håtte man mit diesem Stichprobenergebnis auch rechnen kænnen, wenn 70 ist? Offensichtlich nicht, denn fçr diesen Parameter resultiert ein x-Werte-Bereich von 60 bis 80, der den gefundenen x-Wert von 93 nicht umschlieût. Allerdings hatten wir den x-Werte-Bereich bisher so bestimmt, dass sich in ihm ¹nurª 95,5% aller Stichprobenmittelwerte befinden. Erweitern wir den Bereich auf 3 rx , kænnen wir praktisch sicher sein, dass jeder Stichprobenmittelwert in diesen Bereich fållt. Allerdings nur ¹praktischª und nicht vællig sicher, denn die Wahrscheinlichkeit, dass ein Stichprobenmittelwert in diesen Bereich fållt, betrågt 99,74% und nicht 100%. Ein vællig sicherer Bereich håtte bei normalverteilten Mittelwerten wegen der Verteilungseigenschaften der Normalverteilung (sie nåhert sich auf beiden Seiten asymptotisch der Abszisse) die Grenzen 1 und 1. Damit kænnte theoretisch jeder Populationsparameter das Stichprobenergebnis x 93 ¹erzeugenª, was bedeuten wçrde, dass der Stichproben-
mittelwert x 93 çberhaupt nichts çber die Græûe des ¹wahrenª Populationsparameters aussagt. Gibt man sich jedoch mit einer begrenzten Wahrscheinlichkeit von beispielsweise 95,5% zufrieden, scheiden bestimmte Populationsparameter als ¹Erzeugerª des Stichprobenmittelwertes x 93 aus. Dies sind offensichtlich Parameter, deren x-Werte-Bereiche eine obere Grenze haben, die unter x 93 liegt, bzw. Parameter, deren x-Werte-Bereiche eine untere Grenze haben, die çber x 93 liegt. Da der Abstand von zur oberen (bzw. unteren) Grenze des x-Werte-Bereichs 2 rx 10 betrågt, kommen hierfçr nur Parameter < 83 bzw. > 103 in Betracht. Alle çbrigen Parameter im Bereich 83 103 haben x-Werte-Bereiche, die den gefundenen Mittelwert x 93 mit Sicherheit umschlieûen. Zu diesen Parametern zåhlt auch der ursprçnglich als bekannt vorausgesetzte Parameter 100. Welche Konsequenzen lassen sich nun aus diesen Ûberlegungen fçr den çblichen Fall ableiten, dass unbekannt ist? Aufgrund einer Stichprobenuntersuchung erhalten wir einen Mittelwert x. Populationsparameter, die diesen Mittelwert mit einer Wahrscheinlichkeit von 95,5% hervorbringen kænnen, befinden sich dann im Bereich x 2 rx . Man kann deshalb vermuten, dass sich auch der gesuchte Parameter in diesem Bereich befindet. Die Wahrscheinlichkeit, dass x zu einer Population gehært, deren Parameter auûerhalb dieses Bereichs liegt, betrågt hæchstens 4,5%. (Die eigentlich plausibel klingende Aussage, der gesuchte Parameter befinde sich mit einer Wahrscheinlichkeit von 95,5% im Bereich x 2 rx , ist genau genommen nicht korrekt, denn tatsåchlich kann der Parameter nur innerhalb oder auûerhalb des gefundenen Bereichs liegen. Die Wahrscheinlichkeit, dass ein Parameter in einen bestimmten Bereich fållt, ist damit entweder 0 oder 1; Nåheres hierzu s. Leiser, 1982.)
Konfidenzintervalle Bereiche, in denen sich Populationsparameter befinden, die als ¹Erzeugerª eines empirisch bestimmten Stichprobenkennwertes mit einer bestimmten Wahrscheinlichkeit in Frage kommen, heiûen nach Neyman (1937) Konfidenzintervalle. Als Wahrscheinlichkeiten werden hierbei çblicherweise nicht ± wie in den bisherigen Ausfçhrungen
3
102
3
Kapitel 3 ´ Stichprobe und Grundgesamtheit
± 95,5%, sondern 95% oder 99% festgelegt. Diese Wahrscheinlichkeiten bezeichnet man als Konfidenzkoeffizienten. Die Grenzen eines 95%igen (bzw. 99%igen) Konfidenzintervalls bestimmen wir ± groûe Stichproben (n ³ 30) vorausgesetzt ± in folgender Weise: In der Standardnormalverteilung (deren Verteilungsfunktion im Anhang in Tabelle B wiedergegeben ist) befinden sich zwischen z 1;96 und z 1;96 95 % der Gesamtflåche. (Natçrlich lassen sich beliebige andere Paare von z-Werten, wie z. B. z 1;75 und z 2;33; finden, die ebenfalls 95% der Gesamtflåche begrenzen. Mit z 1;96 erhalten wir jedoch das kçrzeste Konfidenzintervall, das zudem um x symmetrisch ist.) Die Standardnormalverteilung hat einen Erwartungswert von 0 und eine Standardabweichung von 1. Wollen wir die Stichprobenkennwerteverteilung des arithmetischen Mittels, deren Parameter und rx wir durch x und b rx schåtzen, in eine Standardnormalverteilung çberfçhren, bedienen wir uns der bereits bekannten z-Transformation (Gl. 1.27): xi
x
: s Angewandt auf die Mittelwerteverteilung lautet die z-Transformation z
z
xi
rx
:
Fçr xi setzen wir die unbekannte untere bzw. obere Grenze des Konfidenzintervalls ein, fçr die nach einfachen Umformungen folgende Bestimmungsgleichung resultiert:
2;58 b rx bx : obere Grenze x 2;58 r
3:21 Wie X sind auch die Intervallgrenzen Zufallsvariablen, d. h., sie hången von der Græûe des Stichprobenkennwertes x als Realisierung der Zufalls ab. Wenn man aus einer Grundgesamtvariable X heit sehr viele Stichproben zieht und fçr jeden der resultierenden x-Werte ein Konfidenzintervall berechnet, wçrden 95% (99%) dieser Konfidenzintervalle den Parameter l einschlieûen und 5% (1%) nicht. Allgemein bestimmen wir ein Konfidenzintervall Dcrit nach untere Grenze x
Dcrit x z
=2 b rx :
3:22
ist hierbei die Restwahrscheinlichkeit
1 Konfidenzkoeffizient), sodass z
=2 beim 95%igen Konfidenzintervall vom oberen (positiven) Teil der Standardnormalverteilungsflåche 2,5% und beim 99%igen Konfidenzintervall 0,5% abschneidet. Fçr die Konfidenzintervallbreite (KIB) folgt damit: Konfidenzintervallbreite
KIB 2 z
=2 b rx :
3:23 Das Konfidenzintervall kennzeichnet denjenigen Bereich eines Merkmals, in dem sich 95% (99%) aller mæglichen Populationsparameter befinden, die den empirisch ermittelten Stichprobenkennwert erzeugt haben kænnen.
BEISPIEL
untere/obere Grenze z rx : Wir verwenden x als erwartungstreue Schåtzung fçr , b rx als Schåtzwert fçr rx und ersetzen z durch diejenigen z-Werte, die in der Standardnormalverteilung die mittleren 95% der Flåche begrenzen bzw. an den Enden jeweils 2,5% abschneiden: 1;96 b rx bx : obere Grenze x 1;96 r
Werte z 2;58. Das 99%ige Konfidenzintervall hat demnach die Grenzen
untere Grenze x
3:20
Fçr das 99%ige Konfidenzintervall setzen wir diejenigen z-Werte ein, die die mittleren 99% der Standardnormalverteilungsflåche begrenzen bzw. an den Enden jeweils 0,5% der Flåche abschneiden. Nach Tabelle B des Anhangs sind dies die
Tabelle 3.2 erlåutert die einzelnen Rechenschritte, die zur Bestimmung eines Konfidenzintervalls fçhren. Gesucht wird das 95%ige (99%ige) Konfidenzintervall fçr die durchschnittliche Neurotizismustendenz (N-Wert) von Studenten. Die Untersuchung von n 35 Studenten mit einem Neurotizismus-Fragebogen fçhrte zu einem Mittelwert von x 20;0 und einer Standardabweichung von b r = 3,4. Damit resultiert fçr den geschåtzten Standardfehler der Wert b rx 0;6. Das 95%ige Konfidenzintervall hat die Grenzen 18,82 und 21,18 bzw. eine Konfidenzintervallbreite KIB 2;36. (Fçr das 99%ige Konfidenzintervall resultieren die Grenzen 18,45 und 21,55 mit KIB 3;10: Diejenigen Populationen, die einen 95%igen x-Werte-Bereich aufweisen, in denen sich der gefundene x-Wert mit Sicherheit befindet, haben damit Parameter in den Grenzen 18,82 und 21,18. Oder vereinfacht: Im Bereich 18,82 bis 21,18 befinden sich 95% aller Parameter, die x 20;0 erzeugt haben kænnen.
a3.5
103
Intervallschåtzung
Tabelle 3.2. Bestimmung der Konfidenzintervalle fçr die Konfidenzkoeffizienten 95% und 99% Vp-Nr.
N-Wert
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 Summen: 35 700 x 20;0 35 r 392 b 3;4 r 34
xi
x
xi
21 17 18 15 25 27 22 21 13 20 19 21 18 21 16 18 19 24 21 18 17 23 20 18 15 23 22 17 28 16 20 21 24 19 23
1,0 ±3,0 ±2,0 ±5,0 5,0 7,0 2,0 1,0 ±7,0 0,0 ±1,0 1,0 ±2,0 1,0 ±4,0 ±2,0 ±1,0 4,0 1,0 ±2,0 ±3,0 3,0 0,0 ±2,0 ±5,0 3,0 2,0 ±3,0 8,0 ±4,0 0,0 1,0 4,0 ±1,0 3,0
1,0 9,0 4,0 25,0 25,0 49,0 4,0 1,0 49,0 0,0 1,0 1,0 4,0 1,0 16,0 4,0 1,0 16,0 1,0 4,0 9,0 9,0 0,0 4,0 25,0 9,0 4,0 9,0 64,0 16,0 0,0 1,0 16,0 1,0 9,0
700
0,0
392,0
x2
3; 4 b rx p 0;6 35 Konfidenz- koeffizient 2
z
=2
zb rx
Dcrit x z
=2 b rx
95% 99%
1,96 2,58
1,18 1,55
18,82 bis 21,18 18,45 bis 21,55
2,5% 0,5%
Kleine Stichproben Die bisherigen Ûberlegungen bedçrfen einer kleinen, aber theoretisch wichtigen Korrektur. Wir gingen davon aus, dass der Standardfehler des Mittelwertes unbekannt ist bzw. çber die Stichprobenvarianz geschåtzt wird. Fçr diesen Fall ist zu beachten, dass der Quotient (x l=b rx nicht normalverteilt, sondern mit df = n±1 t-verteilt ist (vgl. S. 137 f.). Fçr die Konfidenzintervallbestimmung hat dies allerdings praktisch keine Bedeutung, solange wir, von groûen Stichproben (n ³ 30) ausgehen, denn mit wachsendem Stichprobenumfang geht die t-Verteilung in die Standardnormalverteilung çber (vgl. 2.5.3). Bei kleineren Stichproben wird fçr die oben beschriebene Konfidenzintervallbestimmung gefordert, dass das geprçfte Merkmal in der Grundgesamtheit normalverteilt ist und dass die Streuung r (und damit der Standardfehler rx ) bekannt ist. Mçssen wir den Standardfehler schåtzen, weil r unbekannt ist, verwenden wir in Gl. (3.22) statt des z-Wertes denjenigen t-Wert, der von der t-Verteilung mit n 1 Freiheitsgraden =2 % abschneidet (zur Bedeutung der Freiheitsgrade s. 2.5.3 bzw. ausfçhrlicher S. 138). Diese Werte sind im Anhang, Tabelle D (Spalte ¹0,975ª bzw. ¹0,995ª) wiedergegeben. Allerdings dçrfte der Fall, dass ein Parameter anhand einer Stichprobe mit n < 30 geschåtzt wird, in der Praxis selten vorkommen, da bei diesem Stichprobenumfang nur sehr ungenaue Parameterschåtzungen (groûe KIB-Werte) mæglich sind. Falls das Merkmal nicht normalverteilt ist, muss bei kleinen Stichproben auf die hier beschriebene Konfidenzintervallbestimmung verzichtet werden. Bei kleineren Stichproben
n < 30 folgt die Verteilung der am geschåtzten Standardfehler relativierten Differenzen x l einer t-Verteilung, vorausgesetzt, das Merkmal ist normalverteilt.
Konfidenzintervalle fçr Prozentwerte Der Grundgedanke zur Ermittlung von Konfidenzintervallen ist auf alle statistischen Kennwerte çbertragbar, die sich zumindest angenåhert nor-
3
104
3
Kapitel 3 ´ Stichprobe und Grundgesamtheit
malverteilen. Wir wollen diese Analogie am Beispiel der Bestimmung eines Konfidenzintervalls fçr Prozentwerte
P verdeutlichen. Dass Konfidenzintervalle von Prozentwerten, die çber die Normalverteilung ermittelt werden, immer nur Approximationen sein kænnen, geht aus der anschaulichen Tatsache hervor, dass eine Prozentwerteverteilung nur Werte von 0 bis 100 annehmen kann. Die approximativen Schåtzwerte werden zudem um so schlechter sein, je kleiner der Stichprobenumfang ist. Es sollte daher die Beziehung n p q 9 erfçllt sein (vgl. S. 78). In Analogie zu Gl. (3.22) ermitteln wir Konfidenzintervalle fçr einen Prozentwert nach folgender Beziehung: Dcrit
% P z
=2 b r%
r 35 % 65 % b 2;13 % : r% 500 Setzen wir diesen Wert in Gl. (3.24) ein, resultiert der folgende Bereich: Dcrit
35 % 35 % 2;58 2;13 % 35 % 5;5 % : Eine bessere Schåtzung erhalten wir unter Verwendung von Gl. (3.25) Dcrit
35 % 0;987
35;007 % 5;503 % : Im Bereich 29,12% bis 39,98% befinden sich 99% aller Populationsparameter, die den Stichprobenkennwert P = 35% ¹erzeugtª haben kænnen.
3:24
und KIB 2 z
=2 b r% ; wobei b r% nach Gl. (3.6) r PQ b : r% n Den Mittelwert der Prozentwerteverteilung schåtzen wir ± hinreichend groûe Stichproben vorausgesetzt ± durch den in der Stichprobe ermittelten Prozentwert. Genauer ist nach Hays u. Winkler (1970, Kap. 6.12) die folgende, rechnerisch aufwendigere Konfidenzintervallbestimmung: " z2
=2 n Dcrit
% P n z2
=2 2n s # 2 P Q z
=2 ;
3:25 z
=2 n 4n2 wobei P und Q Schåtzwerte fçr die Parameter 100 p bzw. 100
1 p darstellen. BEISPIEL Bei einer zur Wahlprognose durchgefçhrten Meinungsumfrage unter n 500 zufållig herausgegriffenen Personen haben sich 35% fçr den Kanzlerkandidaten A ausgesprochen. Gesucht wird das 99%ige Konfidenzintervall. Da die Bedingung pqn9 erfçllt ist
0;35 0;65 500 113;75 > 9, kænnen wir dieses Intervall çber die Normalverteilungsapproximation der Binomialverteilung bestimmen. Als Standardfehler fçr 35% ergibt sich nach (3.6)
" 3.6 Bedeutung des Stichprobenumfangs Bezogen auf das zuletzt genannte Beispiel kænnte man die Ansicht vertreten, dass eine Prozentwertangabe, die mit einem ca. 10% breiten Konfidenzintervall versehen ist, fçr praktische Zwecke wenig brauchbar ist. Ein engeres Konfidenzintervall kann jedoch bei konstantem Stichprobenumfang und gleichbleibendem P-Wert nur zu Lasten der Sicherheit erreicht werden. Wenn beispielsweise das Konfidenzintervall nicht mit einem Konfidenzkoeffizienten von 99%, sondern nur mit einem Konfidenzkoeffizienten von 95% abgesichert wird, lauten die Grenzwerte 30,58% bis 38,87%
z2;5% 1;96. Eine weitere Bestimmungsgræûe fçr die Breite eines Konfidenzintervalls ist der Stichprobenumfang. Je græûer die untersuchte Stichprobe, um so kleiner ist das Konfidenzintervall. Es sollte deshalb vor Durchfçhrung einer Untersuchung entschieden werden, wie viele Personen benætigt werden, um Aussagen mit der gewçnschten Genauigkeit machen zu kænnen. Zunåchst wollen wir çberprçfen, wie groû eine Stichprobe sein muss, um einen Prozentwert in der Grundgesamtheit mit bestimmter Genauigkeit schåtzen zu kænnen. Die Gleichung, die wir benætigen, um diesen Stichprobenumfang ermitteln zu kænnen, låsst sich aus Gl. (3.24) ableiten:
n
4 z2
=2 P Q KIB2
;
3:26
a3.6
1200
wobei KIB Breite des Konfidenzintervalls, P Schåtzwert fçr p 100:
a n = f (KIB); P = 50 %
1000
α = 10 % α = 5% α = 1%
800
n
600 400 200
Soll in dem letztgenannten Beispiel ein 2% breites Konfidenzintervall mit einem Konfidenzkoeffizienten von 99% abgesichert werden, benætigen wir folgenden, ganzzahlig abgerundeten Stichprobenumfang: n
0 0
5
10
15
20
25 30 KIB (%)
35
40
45
50
b n = f (α); P = 50 %
1800 1600 1400 1200
n
1000 800 600 400 200 0 5
10
15
20
25 30 α (%)
35
40
45
50
70
80
90
100
2800 2400 2000
c
n = f (P); KIB = 5 %
n
1600 1200 800
α = 10 % α = 5% α = 1%
400 0 0
10
20
30
40
50 60 P (%)
4 2;582 35 65 15 143 : 4
Halbieren wir die Konfidenzintervallbreite auf 1%, benætigen wir bereits den 4fachen Stichprobenumfang. Die Halbierung eines Konfidenzintervalls macht einen vierfachen Stichprobenumfang erforderlich.
KIB = 10 % KIB = 5 %
0
3
105
Bedeutung des Stichprobenumfanges
Abb. 3.2 a±c. Stichprobenumfang in Abhångigkeit von KIB, und P
Generell gilt, dass mit kleiner werdendem Konfidenzintervall bei konstantem Konfidenzkoeffizienten der benætigte Stichprobenumfang quadratisch anwåchst. Als nåchstes wollen wir çberprçfen, wie sich der notwendige Stichprobenumfang åndert, wenn bei konstantem Konfidenzintervall der Konfidenzkoeffizient variiert wird. Sichern wir im oben genannten Beispiel das 2% breite Konfidenzintervall mit einem Konfidenzkoeffizienten von 95% ab, benætigen wir statt der 15 143 Personen 8740 Personen. Die Absicherung eines 2% breiten Konfidenzintervalls mit einem Konfidenzkoeffizienten von 90% ist bereits bei n 6194 Personen mæglich. Abbildung 3.2 zeigt, wie sich der Stichprobenumfang in Abhångigkeit von KIB (Abb. 3.2 a) von 1 Konfidenzkoeffizienten (Abb. 3.2 b) und von P (Abb. 3.2 c) åndert. Es geht n ! 1, wenn KIB ! 0 geht und/oder ! 0 geht. Fçr P ! 0 %
Q ! 100 % geht n ! 0. Maximaler Stichprobenumfang wird bei konstantem KIB und fçr P Q 50 %pbenætigt. Ausgehend von Gl. (3.23) mit b rx b r= n erhalten wir die Bestimmungsgleichung fçr Stichprobenumfånge, die benætigt werden, um ein vorgegebenes Konfidenzintervall fçr einen Mittelwertparameter mit einem bestimmten Konfidenzkoeffizient abzusichern: n
4 z2
=2 b r2 KIB2
:
3:27
106
Kapitel 3 ´ Stichprobe und Grundgesamtheit
BEISPIEL
3
Bezogen auf die Daten in Tabelle 1.5 wollen wir fragen, wie viele Vpn untersucht werden mçssen, um ein Konfidenzintervall der durchschnittlichen Bearbeitungszeit von 106;78 2 s mit einem Konfidenzkoeffizienten von 95% absichern zu kænnen. Setzen wir die Werte b r2 466;46 (vgl. S. 44; man beachte jedoch, dass fçr die Berechnung von b r2 die Quadratsumme nicht durch n, sondern durch n 1 dividiert wird), z
=2 1;96 und KIB 4 in Gl. (3.27) ein, resultiert (ganzzahlig gerundet): n
4 1;962 466;46 448 : 42
Die benætigten Stichprobenumfånge kænnen erheblich gesenkt werden, wenn statt einer einfachen Zufallsstichprobe eine sinnvoll geschichtete Stichprobe (vgl. Kap. 3.1) gezogen wird. Dies hat zur Folge, dass gemåû Gl. (3.8) der Standardfehler verkleinert wird, was nach Gl. (3.26) bzw. Gl. (3.27) zu kleineren Stichprobenumfången fçhrt. Grundsåtzliche Schwierigkeiten bereitet bei der Vorabschåtzung benætigter Stichprobenumfånge der Standardfehler, der meistens unbekannt ist, weil die in Gl. (3.26) und (3.27) enthaltenen Populationsparameter p und r2 nicht bekannt sind. Liegen keine Paralleluntersuchungen vor, die eine Schåtzung der unbekannten Parameter zulassen, kænnen kleinere Voruntersuchungen durchgefçhrt werden, die eine erste Schåtzung des gesuchten Parameters gestatten. Hiervon ausgehend errechnen wir eine erste Schåtzung des benætigten Stichprobenumfangs, die nach sukzessivem Eintreffen weiterer Daten ståndig verbessert werden kann, bis sich der benætigte Stichprobenumfang nicht mehr veråndert, weil sich die Schåtzung des unbekannten Parameters stabilisiert hat. Erst dann sollten die restlichen Daten erhoben werden, die die gewçnschte Absicherung des Ergebnisses gewåhrleisten. Weitere Einzelheiten zur Kalkulation von Stichprobenumfången fçr die Bestimmung von Konfidenzintervallen findet man bei Bortz u. Dæring (2002, Kap. 7). ÛBUNGSAUFGABEN 1. Was sind die Besonderheiten einer a) einfachen Zufallsstichprobe, b) Klumpenstichprobe, c) geschichteten Stichprobe?
2. Was ist eine Stichprobenkennwerteverteilung? 3. Was besagt das zentrale Grenzwerttheorem? 4. Wie kann eine Normalverteilung von Stichprobenmittelwerten in eine Standardnormalverteilung transformiert werden? 5. Welche der folgenden Beziehungen sind falsch? a) Stichprobenvarianz > geschåtzte Populationsvarianz. b) Standardfehler des Mittelwertes = Standardabweichung der Mittelwerte in der Mittelwertverteilung. c) Populationsvarianz = Quadrat des Standardfehlers. d) Standardfehler von x n-fache Stichprobenvarianz. e) x Schåtzwert von , f) Populationsvarianz = n-fache Varianz von x. 6. Eine Verteilung von n 200 Beobachtungen sei durch x 100 und b r 10 gekennzeichnet. Wie lautet das Konfidenzintervall des Mittelwertes fçr a) einen Konfidenzkoeffizienten von 95%, b) einen Konfidenzkoeffizienten von 99%? 7. Wie veråndert sich das Konfidenzintervall des Mittelwertes a) bei Vergræûerung des Konfidenzkoeffizienten, b) bei Vergræûerung des Stichprobenumfangs, c) bei Vergræûerung der Populationsstreuung? 8. In einem Konditionierungsexperiment lernen Hunde, auf ein akustisches Signal hin einen Mechanismus zu bedienen, um Futter zu erhalten. Nach einer einwæchigen Trainingsphase zeigen die Hunde in 200 Versuchen 160-mal das gewçnschte Verhalten. Wie lautet das 95%ige Konfidenzintervall? 9. Ein Lehrer mæchte wissen, welche Intelligenzquotienten Schçler aufweisen, die beabsichtigen, auf das Gymnasium zu gehen. Da es unmæglich ist, die gesamte Population der entsprechenden Schçler zu untersuchen, plant er, eine Stichprobe zu ziehen, die hinreichend groû ist, um den ¹wahrenª Durchschnitts-IQ mit einer Genauigkeit von 3 IQ-Punkten ermitteln zu kænnen. Der Literatur entnimmt der Lehrer, dass die Streuung der IQ-Werte çblicherweise mit b r 10 angegeben wird, und akzeptiert diesen Wert auch fçr seine Fragestellung, wenngleich er davon ausgehen kann, dass die Streuung in der Population, die ihn interessiert, kleiner ist als in einer unausgelesenen Population. Wie viele Schçler mçssen mindestens untersucht werden, wenn der Lehrer ein Konfidenzintervall von 6 IQPunkten mit einem Konfidenzkoeffizienten von 90% absichern will? 10. Wie veråndert sich der in Aufgabe 9 benætigte Stichprobenumfang, wenn a) die Streuung in der Population tatsåchlich kleiner ist, b) das Konfidenzintervall verkleinert wird, c) der Konfidenzkoeffizient vergræûert wird?
107
a
Kapitel 4 Formulierung und Ûberprçfung von Hypothesen
ÛBERSICHT Alternativhypothesen ± Nullhypothese ± statistische Hypothesen ± a-Fehler ± b-Fehler ± Signifikanzniveau ± signifikante Ergebnisse ± spezifische und unspezifische Hypothesen ± einseitige und zweiseitige Tests ± Effektgræûe und praktische Bedeutsamkeit ± Teststårke und Teststårkekurven ± ¹optimaleª Stichprobenumfånge ± Monte-CarloStudien ± Bootstrap-Technik
Statistische Kennwerte wie das arithmetische Mittel oder die Standardabweichung werden als Punktschåtzungen berechnet, um eine Stichprobe hinsichtlich der zentralen Tendenz bzw. der Dispersion ihrer Messwerte zu beschreiben. Dem vergangenen Kapitel entnehmen wir jedoch, dass diese Punktschåtzungen mehr oder weniger genau sind, wobei wir allerdings die Unsicherheit eines Stichprobenkennwertes als Schåtzwert eines Populationsparameters çber Konfidenzintervalle bestimmen kænnen. In diesem Kapitel wåhlen wir einen anderen Ansatz, bei dem nicht ± wie es im Rahmen der Konfidenzintervallberechnung geschieht ± von den in einer Stichprobe erhobenen Daten (Empirie) auf Eigenschaften der Population (Theorie) geschlossen wird, sondern umgekehrt zuerst Eigenschaften einer Population postuliert werden, um dann zu çberprçfen, inwieweit die postulierten Eigenschaften der Population (Theorie) durch stichprobenartig erhobene Daten (Empirie) beståtigt werden kænnen. So kænnte beispielsweise aus der Theorie der Verwahrlosung Minderjåhriger abgeleitet werden, dass die Intelligenzleistungen verwahrloster Jugendlicher insbesondere bei solchen Aufgaben unterdurchschnittlich sind, die das Erkennen von ordnenden Strukturen und Redundanzen voraussetzen (vgl. Eberhard, 1974). Oder es wird behauptet, die Population der Blinden sei durch çberdurchschnittliche Fåhigkeiten zur akustischen
Reizdiskriminierung gekennzeichnet, eineiige Zwillinge seien einander åhnlicher als zweieiige, autoritåre Erziehung wirke sich negativ auf die kindliche Fåhigkeit zur Rollençbernahme aus usw. In jedem Fall steht am Anfang eine Behauptung (Hypothese) çber Eigenschaften einer oder mehreren Populationen, deren Brauchbarkeit durch empirische Untersuchungen çberprçft werden muss. Hiermit ist eine der schwierigsten Fragen der Inferenzstatistik angedeutet. Wie kann ein Stichprobenergebnis, von dem wir gerade gelernt haben, dass es mehr oder weniger starken Zufallsschwankungen unterliegt, herangezogen werden, um çber die Richtigkeit einer aus einer allgemeinen Theorie abgeleiteten Hypothese zu entscheiden? Wie stark darf beispielsweise ein Stichprobenmittelwert von dem nach der Theorie zu erwartenden Mittelwert abweichen, um ihn gerade noch als ¹mit der Theorie çbereinstimmendª zu deklarieren? Mit diesen und åhnlichen Fragen wollen wir uns im Folgenden beschåftigen. Die hierbei deutlich werdenden Grundprinzipien der statistischen Hypothesenprçfung gehen sowohl auf Fisher (1925 b) als auch auf Neyman u. Pearson (1928) zurçck (zur Geschichte der Hypothesen prçfenden Inferenzstatistik vgl. z. B. Cowles, 1989; Gigerenzer u. Murray, 1987 oder Ostmann u. Wutke, 1994). Weitere Informationen zur statistischen Hypothesenprçfung findet man z. B. bei Erdfelder u. Bredenkamp (1994). Die Schåtzung von Populationsparametern (Konfidenzintervallbestimmung) und das Testen von Hypothesen werden hier bewusst als zwei verschiedenen Bereiche der Inferenzstatistik aufgefasst. In der Statistikliteratur findet man jedoch gelegentlich die Auffassung, die Testproblematik sei ein Bestandteil der Schåtzproblematik. Dieser Zusammenhang ± Konfidenzintervallbestimmung zum Zwecke der Hypothesenprçfung ± wird etwa bei Fahrmeier et al. (2001, S. 407 f.) an einem Bei-
4
108
Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen
spiel verdeutlicht (vgl. hierzu auch Gl. 6.43 bzw. S. 194). Diese Sichtweise ist zwar sachlich korrekt; sie bereitet jedoch didaktisch erheblich mehr Probleme als die hier vorgenommene Trennung von Schåtz- und Testproblemen.
" 4.1 Alternativhypothesen
4
Wie in den Vorbemerkungen (z. B. S. 6) erwåhnt, bezeichnen wir Aussagen oder Schlussfolgerungen, die aus allgemeinen Theorien abgeleitet sind, als Hypothesen. Hypothesen gehen wie die ihnen zu Grunde liegenden neuen Theorien çber den herkæmmlichen Erkenntnisstand einer Wissenschaft hinaus. Sie beinhalten Aussagen, die mit anderen Theorien in Widerspruch stehen kænnen bzw. Aussagen, die den bisherigen Wissensstand ergånzen sollen. Hypothesen, die in diesem Sinne ¹innovativeª Aussagen beinhalten, werden als Gegen- oder als Alternativhypothesen bezeichnet. Aufgabe empirischer Wissenschaften ist es nun zu çberprçfen, ob die Realitåt durch neue, hypothetisch formulierte Alternativen besser erklårt werden kann als durch Theorien, die bisher zur Erklårung herangezogen wurden. Die Beschåftigung mit einer neuen Lerntheorie kænnte einen Lehrer dazu veranlassen, herkæmmliche Unterrichtsmethoden zu modifizieren. Er formuliert eine Hypothese, in der die Ûberlegenheit der neuen Lehrmethode behauptet wird. Oder ein Erziehungsberater vermutet, dass die Konzentrationsfåhigkeit von Kindern mit der Dauer des Fernsehens abnimmt. Hier wird eine Hypothese çber den Zusammenhang zweier Merkmale formuliert.
Varianten fçr Alternativhypothesen Je nach Art der Hypothesenformulierung unterscheiden wir zwischen Unterschiedshypothesen und Zusammenhangshypothesen. Wie im Weiteren gezeigt wird, determiniert die Hypothesenart das Verfahren der Hypothesençberprçfung. Unterschiedshypothesen werden im Allgemeinen mit Håufigkeitsvergleichen bzw. Mittelwertsvergleichen (vgl. Kap. 5) und Zusammenhangshypothesen mit der Korrelationsrechnung (vgl. Kap. 6) geprçft.
Gerichtete und ungerichtete Hypothesen. Ferner unterscheiden wir zwischen gerichteten und ungerichteten Hypothesen. Bei den oben erwåhnten Beispielen handelt es sich in beiden Fållen um gerichtete Hypothesen. Mit der Behauptung, dass die neue Unterrichtsmethode besser sei, wird die Richtung des Unterschiedes vorgegeben. Von einer ungerichteten Hypothese wçrden wir sprechen, wenn irgendein Unterschied postuliert wird, wenn also der Lehrer behauptet håtte, dass sich die neue Lehrmethode von der alten in irgendeiner Richtung unterscheidet. Ob die neue Lehrmethode besser oder schlechter ist als die herkæmmliche, ist bei dieser Hypothesenart unbedeutend. Entsprechendes gilt fçr Zusammenhangshypothesen. Mit der Behauptung, zwischen Konzentrationsfåhigkeit und Dauer des Fernsehens bestehe ein negativer Zusammenhang, wird ein gerichteter Zusammenhang postuliert. Von einer ungerichteten Hypothese sprechen wir, wenn sowohl positive als auch negative Zusammenhånge hypothesenkonform sind, wenn also der Erziehungsberater in unserem Beispiel lediglich behauptet håtte, dass die Konzentrationsfåhigkeit irgendwie mit der Dauer des Fernsehens zusammenhångt. Wie die Beispiele verdeutlichen, setzen gerichtete Hypothesen mehr Kenntnisse bzw. Vorwissen voraus als ungerichtete Hypothesen. Wie wir noch sehen werden (S. 117), wird dieses bessere Vorwissen insoweit ¹belohntª, als sich eine gerichtete Hypothese leichter beståtigen låsst als eine ungerichtete ± es sei denn, das empirische Ergebnis widerspricht der hypothetisch vorhergesagten Richtung. Gerichtete Hypothesen bedçrfen also einer besseren Begrçndung als ungerichtete. Spezifische und unspezifische Hypothesen. Bei einer gerichteten Unterschiedshypothese wird zwar die Richtung des Unterschiedes, aber nicht dessen Græûe spezifiziert. Låsst sich auch die Græûe des Unterschiedes angeben, sprechen wir von einer spezifischen Unterschiedshypothese, also z. B.: Die neue Unterrichtsmethode ist (mindestens) um den Betrag x besser als die alte. Entsprechendes gilt fçr gerichtete Zusammenhangshypothesen, wenn die Enge des erwarteten Zusammenhangs in der Alternativhypothese durch einen Korrelationskoeffizienten (vgl. Kap. 6) festgelegt werden kann.
a4.2
109
Die Nullhypothese
Spezifische Hypothesen kommen in der Forschungspraxis meistens nur in Verbindung mit gerichteten Hypothesen vor, denn Fragestellungen, bei denen man einen ungerichteten Unterschied oder Zusammenhang nåher spezifizieren will, sind åuûerst selten. (Beispiel: Die neue Lehrmethode ist entweder um den Betrag x besser oder schlechter als die alte Methode). Die Alternativhypothese sollte ± soweit sich dies inhaltlich rechtfertigen låsst ± so pråzise wie mæglich formuliert sein. Die wenigsten Vorkenntnisse verlangt eine unspezifische ungerichtete Hypothese, gefolgt von einer unspezifischen gerichteten Hypothese und ± bei sehr genauen Vorkenntnissen ± einer spezifischen gerichteten Hypothese.
Statistische Hypothesen Fçr die Ûberprçfung einer wissenschaftlichen Hypothese ist es erforderlich, diese zunåchst in eine statistische Hypothese zu çberfçhren. Die statistische Alternativhypothese, die çblicherweise mit H1 abgekçrzt wird, lautet, bezogen auf den Vergleich zweier Unterrichtsmethoden: Die durchschnittlichen Unterrichtsleistungen von Schçlern, die nach einer herkæmmlichen Methode unterrichtet wurden (0 ), sind schlechter als die Durchschnittsleistungen von Schçlern, die nach der neuen Methode unterrichtet wurden (1 ). Die statistische Alternativhypothese heiût damit in Kurzform H1 : 0 < 1 . Quantifizieren wir den Zusammenhang zweier Merkmale (im Beispiel: Dauer des Fernsehens und Konzentrationsfåhigkeit) durch eine Korrelation (%; griech. ¹rhoª; vgl. Kap. 6.2.2), behauptet die statistische Alternativhypothese, dass in der angesprochenen Zielpopulation eine negative Korrelation zwischen den interessierenden Merkmalen besteht: H1: % < 0 (negativ deshalb, weil mit zunehmender Fernsehdauer die Konzentrationsfåhigkeit sinkt). Nicht immer ist die Zuordnung einer statistischen Alternativhypothese zu einer inhaltlichen Hypothese so eindeutig, wie es in den beiden oben genannten Beispielen erscheinen mag. Gelegentlich wird man feststellen, dass sich die inhaltliche Hypothese in mehrere statistische Hypothesen umsetzen låsst, die sich jedoch in der Genauigkeit, mit der sie den Sachverhalt der inhaltlichen Hypothese wiedergeben, unterscheiden kænnen.
(Bezogen auf den Vergleich zweier Unterrichtsmethoden kænnte sich die statistische H1 z. B. auch auf die Medianwerte der schulischen Leistungen und nicht auf die arithmetischen Mittelwerte beziehen.) Grundsåtzlich sollte die statistische H1 so formuliert werden, dass sie die inhaltliche Hypothese so pråzise wie mæglich wiedergibt.
In Abhångigkeit von der Art der statistischen Hypothese ist dann ein statistisches Verfahren auszuwåhlen, das eine mæglichst ¹strengeª Ûberprçfung des hypothetisch behaupteten Sachverhaltes gewåhrleistet. Wir werden diese Forderung im Zusammenhang mit den einzelnen in diesem Text behandelten statistischen Verfahren erneut aufgreifen. (Ausfçhrlicher wird das Problem des Umsetzens wissenschaftlicher Hypothesen in statistische Hypothesen bei Bredenkamp, 1986; Hager u. Westermann, 1983 a, b bzw. Hager, 1992 a, b, diskutiert.)
" 4.2 Die Nullhypothese In Abhångigkeit von der Alternativhypothese, die eigentlich çberprçft werden soll, wird eine konkurrierende Hypothese, die sog. Nullhypothese, formuliert. Sie beinhaltet allgemein, dass der in der Alternativhypothese formulierte Sachverhalt nicht zutrifft, dass er sozusagen ¹null und nichtigª ist, dass also die hypothetisch formulierte Behauptung nicht richtig ist. Die Nullhypothese beinhaltet somit keine andere, aus einer konkurrierenden Theorie abgeleitete inhaltliche Aussage. Diese wçrde als eine weitere Alternativhypothese bezeichnet werden. Die inhaltliche Aussage einer Nullhypothese ist bei gegebener Alternativhypothese genaugenommen informationslos. Die Nullhypothese ist eine Negativhypothese, mit der behauptet wird, dass die zur Alternativhypothese komplementåre Aussage richtig sei.
So lautet beispielsweise die Nullhypothese zu der Alternativhypothese, dass die neue Unterrichtsmethode besser sei als eine herkæmmliche Methode: Die neue Methode ist bestenfalls genauso gut
4
110
4
Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen
wie die herkæmmliche Methode oder sogar schlechter. Bei einer ungerichtet formulierten Alternativhypothese wçrde die entsprechende Nullhypothese lauten: Die beiden Methoden unterscheiden sich nicht. Analog hierzu wird die Nullhypothese bei Alternativhypothesen çber Zusammenhånge formuliert: Bei ungerichteten Alternativhypothesen (zwischen den beiden Merkmalen besteht ein Zusammenhang) lautet die Nullhypothese: Zwischen den beiden Merkmalen besteht kein Zusammenhang. Bei einer gerichteten Alternativhypothese (zwischen zwei Merkmalen besteht ein positiver/ negativer Zusammenhang) heiût sie entsprechend: Zwischen den beiden Merkmalen besteht kein Zusammenhang oder sogar ein negativer (positiver) Zusammenhang. Die statistische Nullhypothese (H0 ) folgt ebenfalls zwingend aus der statistischen Alternativhypothese (H1 ). Bezogen auf den Vergleich zweier Mittelwerte sind die folgenden drei Hypothesenpaare denkbar: H1: 0 > 1
H0: 0 1
H1: 0 < 1
H0: 0 1
H1: 0 6 1
H0: 0 1
(Auf spezifische Hypothesen gehen wir unter 4.7 ein.) In åhnlicher Weise formuliert man statistische Nullhypothesen zu statistischen Alternativhypothesen, die sich auf Zusammenhånge beziehen (z. B. H1: % > 0; H0: % 0). Die Prçfung der statistischen Alternativhypothese låuft nun darauf hinaus zu zeigen, dass die Nullhypothese vermutlich nicht richtig ist, um dann ± im Unkehrschluss ± auf die Richtigkeit der statistischen Alternativhypothese zu schlieûen. Nur wenn die Realitåt ¹praktischª nicht mit der Nullhypothese zu erklåren ist, darf sie zugunsten der neuen Alternativhypothese verworfen werden. Die Nullhypothese stellt in der klassischen Prçfstatistik die Basis dar, von der aus entschieden wird, ob die Alternativhypothese akzeptiert werden kann oder nicht.
" 4.3 Fehlerarten bei statistischen Entscheidungen Nachdem die Nullhypothese und die Alternativhypothese formuliert bzw. in statistische Hypothesen çberfçhrt sind, kann die Untersuchung, aufgrund derer die Tragfåhigkeit der beiden Hypothesen ermittelt werden soll, durchgefçhrt werden. Wie aber wird angesichts der in den erhobenen Daten erfassten Realitåt entschieden, welche der beiden Hypothesen die richtige ist? Die Entscheidung hierçber wird dadurch erschwert, dass sich das Ergebnis der Untersuchung nur auf die Stichprobe bezieht, die in die Untersuchung einbezogen wurde, wåhrend die Hypothesen die Verhåltnisse in der Population beschreiben. Die inferenzstatistische Hypothesenprçfung bezieht sich auf Hypothesen, die fçr diejenige Population gçltig sein sollen, der die untersuchte Stichprobe entnommen ist.
Damit ist nicht auszuschlieûen, dass das Ergebnis der Untersuchung aufgrund der Stichprobenauswahl zufållig die Alternativhypothese beståtigt, wenngleich ¹in Wahrheitª , d. h. bezogen auf die gesamte Population, die Nullhypothese zutrifft. Umgekehrt kænnen stichprobenspezifische Zufålle fçr die Beibehaltung der Nullhypothese sprechen, wåhrend in der Population die Alternativhypothese richtig ist.
a-Fehler und b-Fehler Die Entscheidungssituation, låsst sich schematisch wie in Tabelle 4.1 darstellen. Neben den beiden richtigen Entscheidungen, bei denen aufgrund der Stichprobenergebnisse die Populationsverhåltnisse korrekt erschlossen werden, kænnen zwei fehlerhafte Entscheidungen getroffen werden, die als a-Fehler (Fehler 1. Art) oder als b-Fehler (Fehler 2. Art) bezeichnet werden: · a-Fehler: Eine richtige Nullhypothese wird zugunsten der Alternativhypothese abgelehnt, · b-Fehler: Eine richtige Alternativhypothese wird zugunsten der Nullhypothese abgelehnt. In der statistischen Entscheidungstheorie bezeichnet man eine fålschliche Entscheidung zugunsten von H1 als a-Fehler (Fehler 1. Art) und eine fålschliche Entscheidung zugunsten von H0 als b-Fehler (Fehler 2. Art).
a4.4
111
Signifikanzaussagen
Tabelle 4.1. a- und b-Fehler bei statistischen Entscheidungen In der Population gilt die
Entscheidung aufgrund der Stichprobe zugunsten der:
H0 H1
H0 richtige Entscheidung a-Fehler
H1 b-Fehler richtige Entscheidung
Bewertung der Fehlentscheidungen Welche Konsequenzen sich mit einem a-Fehler und einem b-Fehler verbinden kænnen, sei an den eingangs erwåhnten Beispielen erlåutert: Die Unterschiedshypothese hinsichtlich der Unterrichtsmethoden lautete: H1: 0 < 1 (Die neue Unterrichtsmethode ist besser als eine herkæmmliche Unterrichtsmethode.) H0: 0 1 (Die Unterrichtsmethoden unterscheiden sich nicht oder die neue Methode ist sogar schlechter.) a-Fehler: Die H0 wird verworfen, obwohl sie richtig ist, d. h., es wird fålschlicherweise angenommen, die neue Lehrmethode sei besser als die alte Methode. Dies kann die Neuanschaffung von Lehrmaterial, Umschulung der Lehrer, Neugestaltung der Curricula usw. zur Folge haben ± Maûnahmen, die angesichts der falschen Entscheidung nicht zu rechtfertigen sind. b-Fehler: Die H1 wird verworfen, obwohl sie richtig ist, d. h., es wird fålschlicherweise angenommen, dass sich die neue Lehrmethode von der herkæmmlichen nicht unterscheidet. Die Folge hiervon wird sein, dass weiterhin nach der alten Lehrmethode unterrichtet wird. Es werden zwar keine ¹Fehlinvestitionenª riskiert, aber es wird eine Chance, den Unterricht zu verbessern, verpasst. Die als Beispiel erwåhnte Zusammenhangshypothese lautete: H1: % < 0 (Mit zunehmender Dauer des Fernsehens sinkt die Konzentrationsfåhigkeit.) H0: % 0 (Zwischen der Dauer des Fernsehens und der Konzentrationsfåhigkeit besteht kein Zusammenhang oder sogar ein positiver Zusammenhang.)
a-Fehler: Die H0 wird verworfen, obwohl sie richtig ist, d. h., es wird fålschlicherweise angenommen, dass zu langes Fernsehen die Konzentrationsfåhigkeit mindert. Dies kann zur Konsequenz haben, dass der Erziehungsberater den Eltern empfiehlt, die Fernsehzeit des Kindes einzuschrånken. Diese Maûnahme wird zwar die Konzentrationsfåhigkeit des Kindes nicht verbessern, sie dçrfte darçber hinaus jedoch keine ernsthaften negativen Auswirkungen auf das Kind haben. b-Fehler: Die H1 wird verworfen, obwohl sie richtig ist, d. h., es wird fålschlicherweise angenommen, dass Fernsehen die Konzentrationsfåhigkeit nicht beeintråchtigt. Die hieraus abzuleitenden negativen Folgen liegen auf der Hand: Der Erziehungsberater wird den Eltern mitteilen, dass die Konzentrationsschwåche des Kindes nichts mit dem Fernsehen zu tun hat, das Kind darf weiterhin uneingeschrånkt fernsehen, und die Konzentrationsfåhigkeit nimmt weiter ab. Die Beispiele mægen gençgen, um zu zeigen, dass je nach Art der Fragestellung entweder der a-Fehler (wie im ersten Beispiel) oder der b-Fehler (wie im zweiten Beispiel) zu gravierenderen Konsequenzen fçhrt. Wie jedoch wird angesichts der Tatsache, dass die ¹wahrenª Verhåltnisse in der Population unbekannt sind, çberprçft, ob bei einer Entscheidung zugunsten der Alternativhypothese ein a-Fehler bzw. bei einer Entscheidung zugunsten der Nullhypothese ein b-Fehler begangen wird?
" 4.4 Signifikanzaussagen Die Analyse des a-Fehlers sei am Beispiel der konkurrierenden Lehrmethoden verdeutlicht. Eine Ûberprçfung der neuen Lehrmethode anhand einer Stichprobe von Schulkindern mæge zu dem Ergebnis gefçhrt haben, dass tatsåchlich im Durchschnitt bessere Leistungen erbracht werden als nach der herkæmmlichen Methode. Kænnen wir nun aufgrund eines solchen Ergebnisses behaupten, die Alternativhypothese sei richtig? Bereits im vorangegangenen Kapitel wurde gezeigt, dass Stichprobenergebnisse zufållig von Populationswerten abweichen kænnen. Auch in diesem Fall kænnte das Ergebnis rein zufållig, d. h.
4
112
4
Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen
aufgrund der gewåhlten Stichprobe zustande gekommen sein, sodass eine Entscheidung zugunsten der Alternativhypothese falsch im Sinne des a-Fehlers wåre. Mit Sicherheit wçrden wir einen a-Fehler begehen, wenn wir wçssten, dass in Wahrheit die Nullhypothese richtig ist und wir uns trotzdem aufgrund des Stichprobenergebnisses fçr die Alternativhypothese entscheiden. Da wohl niemand eine solch unsinnige Entscheidung treffen wird, kænnen wir davon ausgehen, dass bei statistischen Entscheidungen niemals mit Sicherheit ein a-Fehler bzw. ± analog hierzu ± ein b-Fehler gemacht wird. Bei ± wie çblich ± nicht bekannten Populationsverhåltnissen kænnen wir die Qualitåt einer Entscheidung nur dadurch abschåtzen, dass wir die Wahrscheinlichkeit eines a-Fehlers (bzw. b-Fehlers) ermitteln. Auf unser Beispiel bezogen lautet das Problem: Mit welcher Wahrscheinlichkeit erzielt eine Stichprobe von Kindern, die nach der herkæmmlichen Methode unterrichtet werden, genauso gute oder sogar bessere Leistungen im Vergleich zu einer Stichprobe von Kindern, die nach der neuen Methode unterrichtet werden ± oder allgemein formuliert: Mit welcher Wahrscheinlichkeit ist mit dem gefundenen oder einem extremeren Ergebnis zu rechnen, wenn wir davon ausgehen, dass die Nullhypothese richtig ist? Diese Wahrscheinlichkeit entspricht der Wahrscheinlichkeit fçr einen a-Fehler oder der Irrtumswahrscheinlichkeit, die wir in Kauf nehmen mçssen, wenn wir aufgrund des Untersuchungsergebnisses irrtçmlicherweise die Nullhypothese verwerfen. Irrtumswahrscheinlichkeiten sind somit bedingte Wahrscheinlichkeiten, d. h. Wahrscheinlichkeiten fçr das Auftreten eines Ereignisses unter der Bedingung, dass die Nullhypothese zutrifft. Die Wahrscheinlichkeit, mit der das gefundene Ergebnis oder extremere Ergebnisse bei Gçltigkeit von H0 eintreten, bezeichnet man als a-Fehlerwahrscheinlichkeit oder Irrtumswahrscheinlichkeit.
Bestimmung der Irrtumswahrscheinlichkeit Bei der Bestimmung der Irrtumswahrscheinlichkeit kænnen wir auf unsere Ûberlegungen zum Konfidenzintervall (s. unter 3.5) zurçckgreifen. Wir gehen von der Verteilung der Mittelwerte zufållig gezogener Stichproben aus, die nach dem
P µ0
–x
Abb. 4.1. Irrtumswahrscheinlichkeit beim Verwerfen der H0
zentralen Grenzwerttheorem Normalform hat (vgl. 3.2.3). Werden theoretisch unendlich viele Stichproben des Umfangs n 30 nach der alten Methode unterrichtet, erhalten wir eine Normalverteilung der Mittelwerte mit der Streuung rx und dem Mittelwert 0 , der dem wahren Lernerfolg der alten Methode entspricht. Abbildung 4.1 zeigt diese Verteilung, deren Flåche wir den Wert 1 zuweisen. Der Lernerfolg der nach der neuen Methode unterrichteten Stichprobe ist in der Abbildung durch den Punkt x markiert. Die blaue Flåche besagt, mit welcher Wahrscheinlichkeit die gleiche oder eine bessere Durchschnittsleistung auch mit der alten Methode håtte erzielt werden kænnen. Diese Teilflåche gibt die Wahrscheinlichkeit an, mit der wir uns bei einer Entscheidung zugunsten der Alternativhypothese bei einem Untersuchungsergebnis x irren wçrden ± die Irrtumswahrscheinlichkeit. Die Græûe der Irrtumswahrscheinlichkeit kennzeichnen wir mit P. BEISPIEL Ein numerisches Beispiel soll diesen wichtigen Gedankengang verdeutlichen: Der mit der alten Lehrmethode durchschnittlich erzielte Lernerfolg mæge 0 40 (z. B. Anzahl der gelæsten Testaufgaben) und die Streuung der Lernleistungen b r 8 betragen. Diese Werte seien durch eine Reihe von Einzeluntersuchungen mit der alten Lehrmethode beståtigt und kænnen deshalb als Schåtzwerte fçr die Populationsparameter herangezogen werden. (Liegt fçr die zu vergleichenden Lehrmethoden nur jeweils ein Stichprobenergebnis vor, so sind die in Kap. 5 beschriebenen Verfahren anzuwenden. Dies gilt auch fçr den Fall, dass die Populationsstreuung unbekannt ist und aus den Stichprobenergebnissen geschåtzt wird.) Die Schçlerstichprobe, die nach der neuen Methode unterrichtet wurde, habe den Umfang n 100 und eine durchschnittliche Leistung von x 42 erzielt. Es muss nun çberprçft werden, mit welcher Wahrscheinlichkeit 100 Schçler auch nach der alten Methode eine durchschnittliche Leistung von x 42 oder besser håt-
a4.4
ten erzielen kænnen; denn sollte die neue Methode in Wirklichkeit nicht besser sein als die alte Methode, so wåre es trotzdem nicht auszuschlieûen, dass die Untersuchung per Zufall aufgrund der Stichprobenzusammensetzung zu einer Durchschnittsleistung von x 42 fçhrt. Um diese Wahrscheinlichkeit zu ermitteln, stellen wir uns vor, es wåren sehr viele (theoretisch unendlich viele) Stichproben des Umfangs n 100 nach der alten Methode unterrichtet worden. Es ist damit zu rechnen, dass einige dieser Stichproben eine genauso gute Leistung oder sogar noch bessere Leistungen erzielen als die Stichprobe, die nach der neuen Methode unterrichtet wurde. Jede gleich gute oder bessere Leistung wåre ein Indiz dafçr, dass eine Entscheidung zugunsten der Alternativhypothese (die neue Methode ist besser als die alte) falsch ist, da ja auch nach der alten Methode vergleichbare oder sogar bessere Leistungen erzielt werden kænnen. Relativieren wir die Anzahl dieser gleich guten oder besseren Durchschnittsleistungen, die nach der alten Methode erzielt werden, an der Anzahl aller nach der alten Methode erzielten Durchschnittsleistungen, so erhalten wir gemåû Gl. (2.3) die Wahrscheinlichkeit dafçr, dass mit der alten Methode gleich gute oder bessere Leistungen erzielt werden. Dies ist die Wahrscheinlichkeit, einen a-Fehler zu begehen (d. h. die an sich richtige H0 zu verwerfen) bzw. die Irrtumswahrscheinlichkeit P, wenn wir uns aufgrund des Ergebnisses x 42 fçr die H1 entscheiden.
In der Praxis ist diese Art der Ermittlung der Irrtumswahrscheinlichkeit natçrlich nicht durchzufçhren. Der Kosten- und Zeitaufwand fçr die empirische Ermittlung der Zufallsverteilung der Mittelwerte unter der Annahme der H0 wçrde ins Unermessliche gehen. Unter 3.2 wurde jedoch dargestellt, wie die Zufallsverteilung der Mittelwerte auf theoretischem Wege zumindest annåhernd bestimmt werden kann. In Anlehnung an das Beispiel nehmen wir an, dass: · diese Verteilung den Mittelwert 0 40 hat, · diese Verteilung die Streuung (den geschåtzten Standardfehler) b 8 r b rx p p 0;8 hat, n 100 · es sich gemåû dem zentralen Grenzwerttheorem um eine Normalverteilung handelt, die sich bei groûen Stichproben durch z-Transformation in eine Standardnormalverteilung çberfçhren låsst. (Bei kleineren Stichproben ersetzen wir, wie in Kap. 3.5, die Standardnormalverteilung durch eine t-Verteilung, wobei dann allerdings vorausgesetzt werden muss, dass das Merkmal in der Population normalverteilt ist; vgl. S. 103.)
4
113
Signifikanzaussagen
Es muss deshalb lediglich ermittelt werden, welcher z-Wert in der Standardnormalverteilung
Mittelwert 0 und Streuung 1 dem gefundenen x-Wert in der Zufallsverteilung der Mittelwerte
Mittelwert 40 und Streuung 0;8 entspricht. Modifizieren wir Gl. (1.27), ergibt sich der folgende z-Wert: z
x
0 b rx
42 40 2;50 : 0;8
4:1
Nach Tabelle B des Anhangs schneidet dieser z-Wert 0,62% von der Normalverteilungsflåche ab. Der in Abb. 4.1 gefårbte Flåchenanteil bzw. die Wahrscheinlichkeit dafçr, dass das gefundene oder ein extremeres Ergebnis auch bei Gçltigkeit der H0 håtte auftreten kænnen (= die Wahrscheinlichkeit, dass wir die H0 irrtçmlicherweise verwerfen = Irrtumswahrscheinlichkeit), betrågt im Beispiel somit P 0,62%. Dieser Wert besagt, dass das gefundene Ergebnis von x 42 nur sehr schwer mit der Nullhypothese in Einklang zu bringen ist. Wenn 10 000 Stichproben des Umfangs n 100 nach der alten Methode unterrichtet werden, die H0 also gilt, kænnen wir nur bei ca. 62 Stichproben mit einer durchschnittlichen Leistung von x 42 oder besser rechnen. Das Ergebnis ist somit ein ausgesprochen schlechter Beleg fçr die Richtigkeit der Nullhypothese bzw. dafçr, dass die neue Lehrmethode genauso gut oder sogar schlechter ist als die alte Lehrmethode. Genau genommen endet an dieser Stelle der Beitrag des statistischen Prçfverfahrens, um die Entscheidung çber die beiden Hypothesen H0 und H1 zu objektivieren (vgl. hierzu auch S. 114). Wir haben herausgefunden, dass wir uns bei einer Entscheidung zugunsten der Alternativhypothese mit einer Wahrscheinlichkeit von 0,62% irren. Zu fragen bleibt, ob man bereit ist, diese Irrtumswahrscheinlichkeit zu akzeptieren und damit die Nullhypothese zu Gunsten der Alternativhypothese zu verwerfen.
Das Signifikanzniveau Um eine gewisse Vergleichbarkeit und Qualitåt statistisch abgesicherter Entscheidungen zu gewåhrleisten, hat es sich eingebçrgert, eine Nullhypothese erst dann zu verwerfen, wenn die Irrtumswahrscheinlichkeit P kleiner oder gleich 5%
114
Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen
bzw. sogar kleiner oder gleich 1% ist. (Ûber den Ursprung dieser Konvention berichten Cowles u. Davis, 1982.) Diese Grenz- oder Schwellenwerte (1% oder 5%) bezeichnet man als das a-FehlerNiveau bzw. Signifikanzniveau. Fçhrt eine Untersuchung zu einer so gut abgesicherten Entscheidung, dann sprechen wir von einem signifikanten Ergebnis (a 5%) bzw. einem sehr signifikanten Ergebnis (a 1%).
4
Betrågt die Wahrscheinlichkeit des gefundenen oder eines extremeren Untersuchungsergebnisses unter der Annahme, die H0 sei richtig, hæchstens 5%, so wird dieses Ergebnis als signifikant bezeichnet. Betrågt diese Wahrscheinlichkeit hæchstens 1%, so ist das Ergebnis sehr signifikant.
Verkçrzt kann ein signifikantes Ergebnis in der Schreibweise ¹bedingterª Wahrscheinlichkeiten (vgl. S. 54 f.) folgendermaûen dargestellt werden: P p
ErgebnisjH0 5%: signifikantes Ergebnis P p
ErgebnisjH0 1%: sehr signifikantes Ergebnis
4:2a
4:2b
Das Wort ¹Ergebnisª kennzeichnet hier das gefundene Ergebnis und alle weiteren Ergebnisse, die noch extremer (d. h. noch widersprçchlicher zur Nullhypothese) sind. Die ¹Bedingungª ist hierbei die H0 , von der angenommen wird, sie tråfe zu
p
H0 1.
Missverståndnisse. Man beachte, dass diese Signifikanzaussage nicht gleichzusetzen ist mit · der Wahrscheinlichkeit des gefundenen Ergebnisses, also mit p(Ergebnis), · der Wahrscheinlichkeit der Nullhypothese, also p
H0 , · der Gegenwahrscheinlichkeit fçr die Alternativhypothese, also 1 p
H0 oder · der Wahrscheinlichkeit der H0 unter der Bedingung des gefundenen Ergebnisses, also p
H0 jErgebnis. Dass es sich hier um Fehlinterpretationen handelt, wird unmittelbar einleuchten, wenn man Gl. (2.18) bzw. (2.19) ± das Theorem von Bayes ± auf die hier genannten Zusammenhånge anwendet. Weitere Ausfçhrungen zu dieser missverståndlichen Interpretationen des Signifikanzkonzeptes findet
man z. B. bei Markus (2001) bzw. Pollard u. Richardson (1987).
Konventionen. Ûber die Frage, auf welchem a-FehlerNiveau (5% oder 1%) eine Nullhypothese zugunsten einer Alternativhypothese verworfen werden soll, muss vor Untersuchungsbeginn nach inhaltlichen Kriterien entschieden werden. Sind die Folgen einer Fehlentscheidung zugunsten der H1 sehr gravierend, ist das 1%-Niveau oder sogar das 1½-Niveau zu wåhlen; bei weniger gravierenden Folgen begnçgt man sich mit dem 5%-Niveau (oder gelegentlich auch dem 10%-Niveau; vgl. hierzu S. 123). Hierzu einige erlåuternde Beispiele (in Anlehnung an Anderson, 1956, S. 123 f.): Wenn ein Metereologe mit einer Irrtumswahrscheinlichkeit von 5% behauptet, dass morgen die Sonne scheinen wird, sind wir uns ¹praktischª sicher, auf einen Regenschirm verzichten zu kænnen. Wenn ein Arzt seinem Patienten versichert, seine Krankheit sei ungefåhrlich, hierbei aber eine Irrtumswahrscheinlichkeit von 5% eingesteht, wåre die subjektive Einschåtzung ¹akute Lebensgefahrª zweifellos nachvollziehbar. Und wenn ein Ingenieur mit einer Irrtumswahrscheinlichkeit von 5% behauptet, die von ihm gebaute Brçcke sei sicher, wçrde man die Brçcke nicht nur sofort schlieûen, sondern den Ingenieur umgehend vor ein Gericht stellen. Im ersten Beispiel mag das 5%ige Signifikanzniveau angemessen sein, im zweiten Beispiel wçrden wir uns bei einer Irrtumswahrscheinlichkeit von 1% oder weniger sicher viel wohler fçhlen und im dritten Beispiel schlieûlich wåre sogar das 1½-Niveau nicht sehr beruhigend. Eine angesichts des empirischen Ergebnisses vorgenommene Korrektur des zuvor festgesetzten a-Fehler-Niveaus ist unzulåssig (vgl. hierzu auch Shine, 1980). Bei einem vorgegebenen a-Niveau von 1% hat unsere (fiktive) Untersuchung zu einem sehr signifikanten Ergebnis gefçhrt: P = p (Ergebnis|H0) = 0,62% < 1%. Kurz formuliert sagen wir: Die Hypothese, nach der die neue Lehrmethode besser ist als die alte, ist auf dem a 1%-Niveau abgesichert. Statistische Signifikanz und Wahrheit Nachdem nun das Grundschema des statistischen Ûberprçfens von Hypothesen erlåutert wurde,
a4.4
115
Signifikanzaussagen
wird auch die in der Einleitung aufgestellte Behauptung, dass mit der schlieûenden Statistik letztlich keine ¹Wahrheitenª gefunden werden kænnen bzw. nichts ¹bewiesenª werden kann, nachvollziehbar. Immer, wenn wir uns aufgrund eines Stichprobenergebnisses fçr die H1 entscheiden, kænnen wir nicht ausschlieûen, einen a-Fehler zu begehen. Die Wahrscheinlichkeit fçr eine fehlerhafte Entscheidung wird durch die Restflåche der Standardnormalverteilung bestimmt, die durch den z-Wert, der aus dem Stichprobenergebnis resultiert, abgeschnitten wird. Diese Restflåche wird erst dann vællig verschwinden, wenn der ermittelte z-Wert ! 1 geht. In Abhångigkeit von Gl. (4.1) z
x
0 b rx
;
wobei b r b rx p n ist, verringert sich bei sonst konstanten Bedingungen die Irrtumswahrscheinlichkeit bei: · græûer werdender Diskrepanz x 0 . Der theoretische Fall einer Irrtumswahrscheinlichkeit von P 0% tritt ein, wenn
x 0 ! 1 (bei endlichem b rx ); · kleiner werdender Populationsstreuung b r. Eine absolut fehlerfreie Entscheidung liegt dann vor, wenn b r 0, d. h. wenn alle Mitglieder der Population die gleiche Merkmalsausprågung aufweisen bzw. jeder individuelle Wert mit dem Populationsparameter identisch ist. In diesem Fall erçbrigt sich die statistische Hypothesençberprçfung, da bereits aufgrund eines einzigen Wertes eine eindeutige fehlerfreie Entscheidung getroffen werden kann; · einer Vergræûerung des Stichprobenumfangs. Je græûer die untersuchte Stichprobe, desto kleiner wird ± eine konstante Abweichung x und eine konstante Streuung b r vorausgesetzt ± die Irrtumswahrscheinlichkeit. Fehlerfreie Entscheidungen sind nur bei Untersuchung der gesamten Population mæglich. Dann jedoch sind die wahren Populationsverhåltnisse bekannt, sodass sich eine statistische Hypothesençberprçfung ebenfalls erçbrigt.
Die statistische Hypothesençberprçfung fçhrt somit zu keinen ¹Wahrheitenª, sondern ¹lediglichª zu Wahrscheinlichkeitsangaben darçber, wie gut das empirische Ergebnis mit der Nullhypothese vereinbar ist. Die Entscheidung zugunsten der H1 wird gewissermaûen im Umkehrschluss getroffen: Wenn man festgestellt hat, dass diese Wahrscheinlichkeit sehr klein ist bzw. dass die H0 ein sehr schlechtes Erklårungsmodell fçr das gefundene Ergebnis darstellt, entscheidet man sich fçr die Gegen- bzw. Alternativhypothese. Man beachte, dass diese Entscheidungsregel die H1 nicht direkt, sondern nur indirekt beståtigt, indem von zwei rivalisierenden Hypothesen diejenige fçr falsch gehalten wird, die als Erklårung fçr das gefundene Ergebnis praktisch nicht in Frage kommt. Dabei kann das 5%- bzw. 1%-Kriterium als hinreichende Absicherung dagegen angesehen werden, dass in der Wissenschaft willkçrlich zufallsbedingte und spekulative Entscheidungen getroffen werden. Die Signifikanzgrenzen garantieren, dass wissenschaftliche Entscheidungen besser abgesichert werden als Entscheidungen, die wir im alltåglichen Leben treffen. Nach Wendt (1966) begnçgen wir uns bei Alltagsentscheidungen je nach subjektiver Einschåtzung der Bedeutsamkeit der Entscheidung mit Irrtumswahrscheinlichkeiten von ca. 20%. Wie statistische Entscheidungskriterien mit Fragen der Bedeutsamkeit von Entscheidungen und nutzentheoretischen Erwågungen verknçpft werden kænnen, wird bei Hays u. Winkler (1970) dargestellt.
Unspezifische Nullhypothesen Die im letzten Abschnitt geprçfte Alternativhypothese lautete H1 : 0 < 1 (die neue Lehrmethode ist der alten çberlegen). Wir haben diese Hypothese akzeptiert, weil das gefundene Ergebnis mit der H0: 0 1 nur sehr schwer zu vereinbaren ist. Nach 4.2 lautet die H0 , die der gerichteten H1: 0 < 1 gegençbersteht, jedoch nicht 0 1 , sondern 0 1 . Es ist also zu fragen, ob die H0 auch dann zu verwerfen ist, wenn wir die H0 nicht spezifisch, sondern korrekterweise unspezifisch formulieren. Dass unsere Entscheidung richtig war, verdeutlicht Abb. 4.2. Die Abbildung zeigt die Mittelwerteverteilung fçr zwei unter der Annahme der unspezifischen H0 (0 1 ) mægliche Populationsparameter. In einem Fall wurde wie im vorangegangenen
4
116
Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen
1seitig
α µl10'' µl10==l µ01
4
–x x
µ0 = 40
Abb. 4.2. Irrtumswahrscheinlichkeiten bei unspezifischer H0
Abschnitt 0 1 gesetzt, und im anderen Fall wurde ein 0 > 01 angenommen. Wie durch die schraffierten Flåchen in Abb. 4.2 ersichtlich wird, ist die Irrtumswahrscheinlichkeit fçr den Fall 0 > 01 kleiner als die Irrtumswahrscheinlichkeit bei 0 1 . Generell gilt, dass bei vorliegendem Stichprobenergebnis x eine Entscheidung zugunsten der H1 mit einer um so geringeren Irrtumswahrscheinlichkeit versehen ist, je græûer der Unterschied zwischen 1 und 0 in der durch die H0 vorgeschriebenen Richtung ist. Anders formuliert: Kann die H0: l0 l1 mit einer Irrtumswahrscheinlichkeit von a 1% (5%) verworfen werden, so kann jede weitere H0: l0 > l1 mit einer kleineren Irrtumswahrscheinlichkeit a < 1% (5%) verworfen werden.
Es gençgt also, wenn eine unspezifische Alternativhypothese (H1: 0 < 1 ) an der spezifischen Nullhypothese (H0: 0 1 ) getestet wird.
" 4.5 Einseitige und zweiseitige Tests Eine Hypothese kann entweder gerichtet oder ungerichtet sein. Bezogen auf den Vergleich zweier Unterrichtsmethoden kænnen wir entweder behaupten, die eine Methode sei besser als die andere (dies wåre eine unspezifische, gerichtete Hypothese, die wir im Abschn. 4.4 çberprçften) oder die beiden Methoden unterscheiden sich (diese Hypothese wåre unspezifisch und ungerichtet). Dementsprechend sind ± wie unter 4.1 ± die statistischen Hypothesen zu formulieren. Bei der Ûberprçfung dieser Hypothesen unterscheiden wir einen einseitigen Test fçr eine gerichtete Hypothese und einen zweiseitigen Test fçr eine ungerichtete Hypothese.
Annahmebereich
–x = 42 Ablehnungs H0 ablehnenbereich
2seitig
α 2
α 2 µ0 = 40
HAblehnungs 0 ablehnen bereich
Annahmebereich
–x = 42 HAblehnungs 0 ablehnen bereich
Abb. 4.3. Ablehnungsbereiche der H0 bei ein- und zweiseitigen Tests
Gerichtete Hypothesen werden mit einem einseitigen Test und ungerichtete Hypothesen mit einem zweiseitigen Test çberprçft.
Abbildung 4.3 zeigt, wie diese beiden Testvarianten formal aufgebaut sind. Zur Erlåuterung der Abb. 4.3 greifen wir erneut auf den Vergleich der Unterrichtsmethoden zurçck. Fçr den einseitigen und den zweiseitigen Test ist jeweils die Verteilung von Mittelwerten gemåû H0 , also von Mittelwerten, die nach der alten Methode auftreten kænnen, dargestellt.
Einseitiger Test Beim einseitigen Test ist auf der x-Achse ein Bereich fçr x-Werte markiert, die zur Ablehnung von H0 fçhren. Wie die Grenze fçr diesen Bereich festzulegen ist, haben wir im Prinzip bereits im Abschn. 4.4 kennengelernt. Ûber Gl. (4.1) wurde ermittelt, dass dem Wert x 42 ein z-Wert von 2,50 in der Standardnormalverteilung entspricht mit einer Restflåche von 0,62%. Diese Irrtums-
a4.5
wahrscheinlichkeit ist sehr viel kleiner als das a-Niveau (5%), sodass H0 zu verwerfen war. Wir fragen nun nach der Grenze xcrit
1 a , die von einem x-Wert çberschritten werden muss, um die H0 auf dem 5%-Niveau verwerfen zu kænnen. Die Berechnungsvorschrift hierfçr ergibt sich durch Auflæsen von Gl. (4.1) nach x: xcrit
1
a
0 z 1
a
b rx
40 1;65 0;8 41;32 :
4:3
Hierbei ist z1 a 1;65 laut Tabelle B derjenige Wert, der von der rechten Seite der Standardnormalverteilung genau 5% abschneidet. Alle x-Werte, die mindestens so groû sind wie xcrit
1 a (x 41;32), befinden sich also im Ablehnungsbereich fçr die H0 , wåhrend fçr x < 41;32 die H0 beizubehalten ist (vgl. hierzu den Abschnitt ¹Nichtsignifikante Ergebnisseª auf der nåchsten Seite). Soll der kritische x-Wert fçr ein a-Fehlerniveau von 1% ermittelt werden, muss in Gl. (4.3) der entsprechende z-Wert fçr das 1%-Niveau eingesetzt werden. Bei einseitigem Test wird der z-Wert gesucht, der 1% der Verteilung abschneidet. Dies ist der Wert z 2;33. Auf dem a = 1%-Niveau wåre die H0 also fçr x ³ 40+2,33 ´ 0,8=41,86 abzulehnen.
xcrit
1
a=2
40 1;96 0;8
41;57 : x-Werte in den Bereichen x 38;43 und x 41;57 fçhren damit zur Ablehnung der H0. Beim zweiseitigen Test mit a = 1% werden die Werte z 2;58 eingesetzt, die an beiden Seiten der Standardnormalverteilung 0,5% abschneiden. Als Grenzen fçr den Ablehnungsbereich der H0 ermitteln wir x ³ 42,06 bzw. x £ 37,94.
Einseitiger und zweiseitiger Test im Vergleich Wie aus Abb. 4.3 ersichtlich wird, fållt die gefundene Durchschnittsleistung x 42 sowohl beim einseitigen als auch zweiseitigen Test mit a 0;05 in den Ablehnungsbereich der H0, d. h. wir mçssen bei beiden Tests die H0 zugunsten der jeweiligen H1 verwerfen. Die Abbildung zeigt darçber hinaus, dass der gefundene x-Wert beim zweiseitigen Test nåher an der Grenze des Ablehnungsbereiches der H0 liegt als beim einseitigen Test. Fçr a 0; 01 haben wir errechnet: xcrit
1
a
40 2;33 0;8
Zweiseitiger Test Zur Prçfung der ungerichteten Alternativhypothese 0 6 1 fçhren wir einen zweiseitigen Test durch, bei dem wir fragen, wie gut x 42 mit der H0: 0 1 zu vereinbaren ist. Hierbei sind also x-Werte, die deutlich kleiner sind, und x-Werte, die deutlich græûer sind als 0 , indikativ fçr die Richtigkeit der H1. Wir bestimmen die Grenzen deshalb so, dass an beiden Seiten der Mittelwerteverteilung insgesamt 5% abgeschnitten werden, also an beiden Seiten jeweils 2,5%. Bezogen auf die Standardnormalverteilung sind dies gemåû Tabelle B die Werte za=2 1;96 und z1 a=2 1;96. Nach Gl. (4.3) erhålt man also 1;96 0;8
38;43 und
einseitiger
41;86 xcrit
a=2
40
2;58 0;8
xcrit
1
40 2;58 0;8
37;94 a=2
42;06:
xcrit
a=2 40
4
117
Einseitige und zweiseitige Tests
Test;
ü ï ý ï þ
zweiseitiger Test
Man stellt also fest, dass das Ergebnis fçr a 0; 01 nur beim einseitigen, aber nicht beim zweiseitigen Test sehr signifikant wird. In diesem Fall dçrfte die H0 nur dann abgelehnt werden, wenn vor Untersuchungsbeginn explizit eine gerichtete Alternativhypothese (0 < 1 ) aufgestellt wurde. Falls das Vorwissen nicht ausreichte, eine Richtung des Unterschiedes zu begrçnden, die H1 also ungerichtet formuliert wurde (0 6 1 ), ist es erforderlich, die H0 beizubehalten. Im Nachhinein, gewissermaûen erst angesichts des gefundenen Ergebnisses aus einer ursprçnglich ungerichteten Hypothese eine gerichtete Hypothese zu machen, ist wissenschaftlich nicht haltbar. Eine Hypothese muss vor der Durchfçhrung einer Untersuchung aufgestellt werden. Eine Modifikation der Hypothese angesichts der gefundenen Daten und eine gleichzeitige Ûberprçfung der modifizierten Hypothese an denselben Daten ist unzulåssig.
118
4
Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen
Es muss also vor der Durchfçhrung der Untersuchung festgelegt werden, ob eine gerichtete Hypothese getestet werden soll oder eine ungerichtete Hypothese. Kann nicht klar entschieden werden, ob der Sachverhalt besser durch eine gerichtete oder eine ungerichtete Hypothese erfasst wird, muss in jedem Fall zweiseitig getestet werden. (Fragen, die sich mit ein- und zweiseitigem Testen verbinden, werden ausfçhrlich bei Steger, 1971, Kap. 4, behandelt.) Das ein- bzw. zweiseitige Testen verdeutlicht erneut, wie direkt die statistische Analyse auf die ihr zu Grunde liegenden Inhalte bezogen ist. Eine genauere (z. B. gerichtete) Hypothese wird durch geringere Differenzen beståtigt als eine weniger genaue (z. B. ungerichtete) Hypothese. Gestatten inhaltliche Ûberlegungen eine pråzisere Hypothesenformulierung, machen sich diese Vorkenntnisse im Nachhinein ¹bezahltª, weil bereits geringere Differenzen (die allerdings der Richtung nach hypothesenkonform sein mçssen) statistisch signifikant werden.
Nichtsignifikante Ergebnisse Wir wollen einmal annehmen, die Prçfung der H0: 0 1 håtte zu keinem signifikanten Unterschied im Sinne der H1: 0 < 1 gefçhrt. Wåre daraus zu folgern, dass die H0 beståtigt ist, dass also die neue Lehrmethode genauso viel oder sogar weniger leistet als die alte? Diese Schlussfolgerung ist falsch. Korrekt wåre es, wenn man nach diesem Ergebnis sagen wçrde, dass die H0 mit der durchgefçhrten Untersuchung (vor allem bezogen auf die untersuchte Stichprobengræûe; vgl. S. 125 ff.) nicht verworfen werden konnte und dass im Ûbrigen çber die Richtigkeit von H0 und H1 keine Aussage gemacht werden kann. Ein nichtsignifikantes Ergebnis ist kein Beleg dafçr, dass die Nullhypothese richtig ist.
Diese scheinbar widersinnige Interpretation wird plausibel, wenn man z. B. von einer Irrtumswahrscheinlichkeit von 6% ausgeht, die nur geringfçgig græûer ist als das a-Niveau von 5%. Der Konvention folgend kænnte die H0 in diesem Fall zwar nicht abgelehnt werden; das Ergebnis damit je-
doch gleichzeitig als Beståtigung der H0 anzusehen, wåre wenig angemessen, wenn man bedenkt, dass gefundene oder extremere Ergebnisse bei Gçltigkeit von H0 lediglich mit einer Wahrscheinlichkeit von 6% auftreten kænnen. Wie noch gezeigt wird, kænnte es durchaus sein, dass der gleiche Unterschied zwischen den verglichenen Methoden in einer anderen Untersuchung mit einer græûeren Stichprobe zu einem signifikanten Ergebnis fçhrt. Eine H0 zu beståtigen setzt voraus, dass das gefundene Ergebnis gut mit der H0, aber nur sehr schwer mit einer rivalisierenden H1 zu vereinbaren ist. Dies jedoch betrifft die b-Fehlerproblematik, die wir unter 4.7 behandeln.
Exakte P-Werte und Signifikanzschranken Auf S. 113 wurde verdeutlich, wie man im Rahmen des hier beispielhaft demonstrierten Signifikanztests eine exakte Irrtumswahrscheinlichkeit P berechnet. Es ergab sich ein Wert von P = 0,62%. Daraufhin wurde ± beim einseitigen Test ± das Ergebnis als sehr signifikant bezeichnet, weil der P-Wert kleiner ist als das Signifikanzniveau a = 1% (P = 0,62% < 1%). Fçr ein signifikantes Ergebnis reicht es aus, wenn der P-Wert hæchstens 5% betrågt (P £ 5%). Allgemein: Die Entscheidung, ob ein Ergebnis (sehr) signifikant oder nichtsignifikant ist, hångt davon ab, ob der exakte P-Wert hæchstens so groû ist wie das Signifikanzniveau oder ob der P-Wert græûer ist als das Signifikanzniveau. Der Signifikanznachweis kann jedoch auch çber kritische Signifikanzschranken gefçhrt werden. Hierzu berechnet man zunåchst çber Gl. (4.1) einen z-Wert, der mit einem kritischen z-Wert als Signifikanzschranke verglichen wird. Wie bereits erwåhnt, entnimmt man die kritischen z-Werte der Tabelle B des Anhangs. Gesucht werden diejenigen z-Werte, die bei einseitigem Test 1% bzw. 5% der Verteilungsflåche abschneiden und bei zweiseitigem Test auf beiden Verteilungsseiten jeweils 0,5% bzw. 2,5%. Diese kritischen z-Werte seien hier noch einmal wiederholt: Einseitiger Test: zcrit 2;33
a 1% ; zcrit 1;65
a 5% ; Zweiseitiger Test: zcrit 2;58
a 1% ; zcrit 1;96
a 5% :
a4.6
119
Statistische Signifikanz und praktische Bedeutsamkeit
Empirische z-Werte, die genauso groû oder extremer sind als die kritischen z-Werte, signalisieren signifikante Ergebnisse fçr das gewåhlte Signifikanzniveau und den jeweils eingesetzten Test (einoder zweiseitig). Beide Vorgehensweisen ± Vergleich exakter P-Werte mit dem Signifikanzniveau oder Vergleich empirischer z-Werte mit kritischen z-Werten als Signifikanzschranken ± kommen bezçglich der Frage, ob ein empirisches Ergebnis signifikant ist oder nicht, zum gleichen Ergebnis und beide Vorgehensweisen werden in der statistischen Auswerrungspraxis eingesetzt. Wie wir in den Folgekapiteln allerdings noch sehen werden, gibt es statistische Kennwerte, fçr die ± anders als fçr z-Werte ± exakte P-Werte nicht ohne weiteres bestimmt werden kænnen und die håufig auch aus Platzgrçnden nicht vollståndig tabelliert sind. Bei diesen Signifikanztests werden wir çberwiegend mit tabellierten Signifikanzschranken operieren. Statistische Programmpakete (wie z. B. SPSS) sind zunehmend dazu çbergegangen, exakte P-Werte zu berechnen. Allerdings gelten diese P-Werte meistens nur fçr den zweiseitigen Test; sie sind bei einseitigem Test zu halbieren, d. h., man prçft, ob (P/2) £ 5% (1%) ist. E 1 im Anhang E gibt hierfçr ein Beispiel.
" 4.6 Statistische Signifikanz und praktische Bedeutsamkeit Das unter 4.4 behandelte Beispiel fçhrte zu dem Resultat, dass ein Unterschied von zwei Punkten zwischen den Leistungen von Schçlern, die nach einer herkæmmlichen und einer neuen Methode unterrichtet wurden, beim einseitigen Test auf dem a 1%-Niveau statistisch signifikant ist. Bedeutet dieses Ergebnis, dass diese Differenz in beliebigen Untersuchungen signifikant wird? Wie die folgenden Ûberlegungen zeigen, ist diese Schlussfolgerung falsch. Nehmen wir einmal an, man håtte in der Untersuchung nicht 100, sondern nur 36 Schçler nach der neuen Methode unterrichtet, und auch diese Schçler seien um zwei Punkte besser als Schçler, die herkæmmlich unterrichtet wurden. Fçr diese Stichprobe ermitteln wir einen Standardfehler (mit b r 8) von
b 8 r p p 1;33 n 36 bzw. nach Gl. (4.1) z 1;5. Dieser z-Wert schneidet von der Standardnormalverteilungsflåche jedoch mehr als 1% (genau: 6,68%) ab, d. h., die gleiche Differenz ist in dieser Untersuchung nicht signifikant. Auf dem 1%-Niveau signifikant wåre in einer Untersuchung mit 36 Schçlern erst eine Differenz von mindestens d 3;11 Punkten. (Man erhålt diese Differenz d x 0 einfach durch Umstellen von Gl. (4.1): d z1 a b rx . In diesem Beispiel ± einseitiger Test und a 1% ± ist z99% 2;33.) Werden hingegen statt der 100 Schçler 1000 Schçler untersucht, kann man leicht errechnen, dass bereits ein Unterschied von d 0;59 Punkten auf dem 1%-Niveau signifikant wird. Erhæhen wir den Stichprobenumfang weiter auf n 10 000, verkleinert sich der statistisch signifikante Unterschied weiter auf d 0;19 Punkte. Hier muss man sich natçrlich fragen, ob ein derartiges Untersuchungsergebnis trotz der statistischen Signifikanz çberhaupt noch von praktischer Bedeutung ist. Man kænnte den Standpunkt vertreten, dass ein Unterschied von 0,19 Punkten in den Leistungen der Schçler den Aufwand, der mit der Einfçhrung der neuen Unterrichtsmethode verbunden wåre, nicht lohnt. Nimmt man ferner an, dass die H0: 0 1 eine theoretische Fiktion ist (es ist unrealistisch anzunehmen, dass zwei verschiedene, real existierende Populationen exakt identische Mittelwertsparameter aufweisen), dçrfte jede H0 bei gençgend groûen Stichproben zu verwerfen sein. Die H0 ist bei sehr groûen Stichproben gewissermaûen chancenlos. Oder: Jede Alternativhypothese låsst sich als statistisch signifikant absichern, wenn man nur gençgend groûe Stichproben untersucht. (Bei gerichteten Alternativhypothesen gilt dies natçrlich nur, wenn die Richtung des Unterschiedes mit der Hypothese çbereinstimmt.) Ein hypothesenkonformer Unterschied ist bei gençgend groûen Stichproben und einer gegebenen (endlichen) Populationsstreuung immer signifikant.
Diese Ûberlegungen mindern ± so kænnte man meinen ± den Wert einer Signifikanzçberprçfung von Hypothesen erheblich. Sie zeigen, dass die
4
120
4
Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen
Aussage ¹das Ergebnis ist statistisch signifikantª fçr sich genommen ohne praktische Bedeutung ist. Auf der anderen Seite sind Ergebnisse, deren ¹praktische Bedeutsamkeitª offenkundig ist, weil z. B. eine beachtliche Mittelwertsdifferenz gefunden wurde, wertlos, solange man nicht sichergestellt hat, dass dieses Ergebnis nicht zufållig zustande kam. Diese Schlussfolgerungen legen es nahe, das Konzept der statistischen Signifikanz mit Kriterien der praktischen Bedeutsamkeit zu verbinden. (Ûberlegungen zu diesem Thema liegen von zahlreichen Autoren vor, vgl. etwa Bakan, 1966; Bredenkamp, 1969 a, b, 1972; Carver, 1978; Chow, 1988; Cook et al., 1979; Cortina u. Dunlop, 1997; Crane, 1980; Diepgen, 1993; Folger, 1989; Gigerenzer, 1993; Greenwald, 1975; Harnatt, 1975; Heerden u. Hoogstraten, 1978; Krause u. Metzler, 1978; Lane u. Dunlap, 1978; Lykken, 1968; Witte, 1977, 1980.) Den Wert einer empirischen Forschungsarbeit allein davon abhångig zu machen, ob das Untersuchungsergebnis statistisch signifikant ist oder nicht, wird von vielen Autoren vehement kritisiert (vgl. z. B. Cohen, 1994; Dar, 1987; Kirk, 1996; Schmidt, 1996; Thompson, 1996; zusammenfassend sei Nickerson, 2000 empfohlen). Manche Autoren gehen sogar so weit, mangelnden Fortschritt in der psychologischen Forschung der ausschlieûlichen Verwendung von Signifikanztests anzulasten (¹I believe that the almost universal reliance on merely refuting the null hypothesis as the standard method for corroborating substantive theories in the soft areas is a terrible mistake, is basically unsound, poor scientific strategy, and one of the worst things that ever happened in the history of psychologyª. Meehl, 1978, S. 817; zitiert nach Kirk, 1996, S. 754). Eine Gegenposition hierzu vertritt z. B. Wainer (1999). Wie statistische Signifikanz mit Ûberlegungen zur praktischen Bedeutsamkeit zu verbinden ist, wird im Folgenden erærtert. Zuvor jedoch noch ein Hinweis: Auch wenn statistische Signifikanz als einziges Kriterium fçr ¹erfolgreicheª empirische Forschung zu Recht kritisiert wird, befreit uns diese Kritik nicht von der Aufgabe, uns zunåchst mit dem Gegenstand dieser Kritik, nåmlich den vielen, auch in diesem Buch behandelten Signifikanztests ausfçhrlich auseinanderzusetzen.
Die korrekte Anwendung eines Signifikanztests und die Interpretation der Ergebnisse unter dem Blickwinkel der praktischen Bedeutsamkeit sind essentielle und gleichwertige Bestandteile der empirischen Hypothesenprçfung.
Effektgræûen Erfahrene Pådagogen kænnten die Ansicht vertreten, dass die neue Unterrichtsmethode erst dann ¹konkurrenzfåhigª sei, wenn die durchschnittlichen Leistungen, zu denen diese Methode befåhigt, um mindestens 3 Punkte çber den Durchschnittsleistungen von Schçlern liegen, die herkæmmlich unterrichtet wurden
1 43. Vielleicht ist die neue Methode (fçr Lehrer und Schçler) arbeitsintensiver, sodass Leistungsverbesserungen von weniger als 3 Punkten den erhæhten Aufwand nicht rechtfertigen. Einen (standardisierten) Unterschied, der zwischen zwei Populationen (hier: herkæmmlich unterrichtete Schçler und nach der neuen Methode unterrichtete Schçler) mindestens bestehen muss, um von einem praktisch bedeutsamen Unterschied sprechen zu kænnen, bezeichnet man als Effektgræûe. Dieser allgemeine Ausdruck findet auch Verwendung, um die Mindestgræûe einer praktisch bedeutsamen Korrelation, einer praktisch bedeutsamen Prozentwertdifferenz o.å. zu charakterisieren. Generell kann man davon ausgehen, dass fçr alle in diesem Text behandelten statistischen Signifikanztests Effektgræûen definierbar sind, auf die wir im Kontext des jeweiligen Verfahrens ausfçhrlich eingehen werden. Fçr den in diesem Kapitel behandelten Vergleich eines Stichprobenkennwertes x mit einem Populationsparameter 0 wird eine Effektgræûe " wie folgt definiert. p 2
1 0
4:4 " r p 2
43 40 8 0;530 : Mit der Effektgræûe wird also festgelegt, wie stark der H1-Parameter 1 (mindestens) von 0 abweichen muss, um von einem praktisch bedeutsamen Effekt sprechen zu kænnen. Um Effektgræûen verschiedener Untersuchungen vergleichen zu
a4.7
kænnen, wird die Differenz 1 0 an der Streuung des untersuchten Merkmals (r) relativiert (Standardisierung). (Zur Begrçndung des Faktors p 2 wird auf S. 139 bzw. Cohen, 1988, S. 45 ff. verwiesen.) Will man vor Durchfçhrung einer Hypothesen prçfenden Untersuchung eine Effektgræûe festlegen, bedeutet dies zunåchst, dass man sich intensiv mit dem inhaltlichen Problem, das man empirisch çberprçfen will, auseinandersetzen muss. Die Effektgræûenbestimmung erfordert mehr inhaltliche Arbeit als die schlichte Durchfçhrung eines Signifikanztests. Mit der Festlegung einer Effektgræûe verbindet sich jedoch der immense Vorteil, dass der Stichprobenumfang, den man fçr eine derartige Hypothesen prçfende Untersuchung benætigt, kalkulierbar ist. Er sollte nicht so groû sein, dass auch praktisch unbedeutende Effekte signifikant werden, und nicht so klein, dass praktisch bedeutende Effekte nicht signifikant werden kænnen. Bevor wir dieses Thema genauer untersuchen, ist es erforderlich, uns zunåchst mit dem unter 4.3 erwåhnten b-Fehler zu beschåftigen.
" 4.7 a-Fehler, b-Fehler und Teststårke Nachdem nun bekannt ist, wie die Wahrscheinlichkeit des a-Fehlers ermittelt wird, den man beim Verwerfen der Nullhypothese riskiert, wollen wir uns fragen, mit welcher Wahrscheinlichkeit wir einen b-Fehler begehen, wenn wir statt der H0 die H1 (die neue Lehrmethode ist besser als die alte Lehrmethode) verwerfen. Hierbei kann der Gedankengang, der zur Ermittlung der a-FehlerWahrscheinlichkeit fçhrte, analog angewandt werden: Gesucht wird die (bedingte) Wahrscheinlichkeit fçr das gefundene Untersuchungsergebnis, wenn die H1 richtig ist.
Bestimmung der b-Fehler-Wahrscheinlichkeit Fçr die Ermittlung der a-Fehler-Wahrscheinlichkeit benætigen wir die Verteilung der Mittelwerte von Stichproben, die aus der Population mit dem Parameter 0 gezogen wurden. Die entsprechende Verteilung, die wir fçr die Ermittlung der b-Fehler-Wahrscheinlichkeit brauchen, besteht aus den Mittelwerten von Stichproben aus der Popula-
4
121
a-Fehler, b-Fehler und Teststårke
tion mit dem Parameter 1. Wenn mit der H1 jedoch lediglich behauptet wird, die neue Lehrmethode sei besser als die alte und nicht nåher spezifiziert wird, um wie viel besser, ist der Populationsparameter 1 und damit auch die Verteilung der Mittelwerte unbekannt. Die b-Fehler-Wahrscheinlichkeit, die mit einer Entscheidung zugunsten der H0 verbunden ist, kann bei unspezifischen Alternativhypothesen nicht bestimmt werden.
Spezifische Hypothesen. Um die b-Fehler-Wahrscheinlichkeit bei einer Entscheidung zugunsten der H0 bestimmen zu kænnen, mçssen wir die H1 genauer formulieren, d. h., wir mçssen spezifizieren, um wieviel besser die neue Lehrmethode sein soll bzw. wie der Populationsparameter 1 unter der Annahme einer Alternativhypothese lautet. Dabei kænnen wir an unsere Ûberlegungen zur Effektgræûe anknçpfen, nach denen fçr 1 ein Minimalwert festzulegen ist, der bei Gçltigkeit von H1: 1 > 0 aus inhaltlichen Grçnden nicht unterschritten werden sollte. Im letzten Abschnitt wurde dafçr der Wert 1 43 festgelegt. Vorausgesetzt, die Streuung der Leistungen von Schçlern, die nach der neuen Methode unterrichtet wurden, sei ebenfalls b r 8, ergibt sich fçr eine Durchschnittsleistung von x 42 der z-Wert z
x
1 42 43 b 0;8 rx
1;25 :
4:5
Dieser Wert schneidet von der linken Seite der Standardnormalverteilung 10,6% ab. Entscheidet man sich aufgrund des Ergebnisses x 42 fçr die H0 , so wçrde man mit einer Wahrscheinlichkeit von 10,6% einen b-Fehler begehen, d. h. die H1 verwerfen, obwohl sie richtig ist. Håtte man ± in Analogie zum a-Fehler-Niveau ± ein b-Fehler-Niveau von 1% vereinbart, wåre die b-Fehler-Wahrscheinlichkeit von 10,6% zu groû, um die H1 verwerfen zu kænnen. Die kritische Grenze, die zur Ablehnung von H1 mit b 0;01 von x håtte unterschritten werden mçssen, errechnet man in Analogie zu Gl. (4.3): xcrit
b 1 zb b rx 43 2;33 0;8 41;14
4:6
122
4
Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen
x-Werte im Bereich x 41;14 wçrden also zur Ablehnung von H1 fçhren. Im Beispiel wurde die H1: 1 43 geprçft, obwohl wir unter Gesichtspunkten der praktischen Bedeutsamkeit gefordert hatten, dass die neue Methode mindestens ein Resultat von 43 erzielen sollte, sodass die H1 eigentlich 1 43 heiûen mçsste. Das gleiche Problem hatten wir bereits beim Vergleich der Nullhypothesen 0 1 und 0 1 , wobei Abb. 4.2 zu der Erkenntnis verhalf, dass bei einer gerichteten Alternativhypothese jede H0: 0 > 1 mit einer kleineren Irrtumswahrscheinlichkeit verworfen werden kann als die H0: 0 1 . Entsprechendes gilt fçr den Vergleich der Hypothesen 1 43 und 1 > 43: Wann immer die H1 : 1 43 mit einer bestimmten b-Fehlerwahrscheinlichkeit verworfen werden kann, ist eine H1 vom Typus 1 > 43 mit einer geringeren b-Fehler-Wahrscheinlichkeit zu verwerfen. Es gençgt also, nur die H1: 1 43 zu prçfen.
Wahl des b-Fehler-Niveaus. Mit der in unserem Beispiel ermittelten b-Fehler-Wahrscheinlichkeit von 10,6% verbindet sich die Frage, ob diese Wahrscheinlichkeit gençgend klein ist, um die spezifische H1 zugunsten der H0 verwerfen zu kænnen. Diese Frage wåre angesichts der a-FehlerWahrscheinlichkeit, die wir auf S. 113 mit 0,62% ermittelten, sicherlich zu verneinen. Aber besagt dieses Verhåltnis von a- und b-Fehler-Wahrscheinlichkeit auch, dass die spezifische H1 (1 43) damit beståtigt ist? Anders als fçr das a-Fehler-Niveau gibt es fçr die Festsetzung einer maximal tolerierbaren b-Fehler-Wahrscheinlichkeit (b-Fehler-Niveau) keine Konventionen. Letztlich ist der inhaltliche Kontext bzw. die Bewertung der mit einem a- bzw. b-Fehler verbundenen praktischen Folgen ausschlaggebend fçr die Wahl des b-Fehler-Niveaus. Generell ist jedoch zu unterscheiden, ob mit einer Untersuchung die H1 oder die H0 beståtigt werden soll, wobei der letztgenannte Fall in der Forschungspraxis relativ selten vorkommt. (Beispiele hierfçr sind die spåter zu behandelnden Tests zur Ûberprçfung der Voraussetzungen eines statistischen Verfahrens). Will man mit einer Untersuchung eine gut begrçndete spezifische Alternativhypothese beståtigen, sollte man neben den çblichen Werten fçr
das a-Fehler-Niveau (5% oder 1%) fçr das b-Fehler-Niveau einen Wert von 20% (b 0;2) vorsehen. Untersuchungsergebnisse mit einer Irrtumswahrscheinlichkeit von hæchstens 5% (1%) und einer b-Fehler-Wahrscheinlichkeit von mindestens 20% kænnen als akzeptable Belege fçr die Richtigkeit der spezifischen H1 angesehen werden (vgl. hierzu auch S. 127). Nach dieser Regel wåre in unserem Beispiel die H0 zu verwerfen (0;62% < 1%); die spezifische H1 kænnte jedoch wegen der b-Fehler-Wahrscheinlichkeit von 10,6% (< 20%) nicht akzeptiert werden. In diesem Fall liegt der wahre Parameter offenbar zwischen den Werten 0 40 und 1 43. Fçr die Beståtigung einer Nullhypothese sollten die Zahlenverhåltnisse umgekehrt sein. Hierfçr wåre zu fordern, dass die b-Fehler-Wahrscheinlichkeit unter 5% (1%) liegt, wåhrend fçr die Irrtumswahrscheinlichkeit ein Minimalwert von a 0;2 anzusetzen wåre.
Indifferenzbereiche. Gelegentlich kommt es vor, dass bei fixiertem a- und b-Niveau Stichprobenergebnisse resultieren, die zu keiner eindeutigen Entscheidung bezçglich H0 oder einer spezifischen H1 fçhren. Das Stichprobenergebnis (z. B. ein x-Wert) befindet sich dann in einem Bereich, fçr den · weder die H0 noch die H1 abgelehnt werden kænnen oder · sowohl die H0 als auch die H1 abgelehnt werden mçssen. Derartige Bereiche, in denen keine eindeutigen Entscheidungen getroffen werden kænnen, bezeichnen wir als Indifferenzbereiche. Wenn in unserem Beispiel die Folgen eines a-Fehlers fçr åhnlich gravierend gehalten werden wie die Folgen eines b-Fehlers, kænnte man fçr das a- und b-Fehler-Niveau ¹symmetrischeª Werte annehmen. Wåhlen wir a b 0; 01, ergeben sich die folgenden Ablehnungsbereiche (s. Gl. 4.3 und Gl. 4.6): · fçr die H0: x > 41;86, · fçr die H1: x < 41;14. Håtte die Untersuchung zu einem x-Wert im Bereich 41;14 < x < 41;86 gefçhrt, kænnte weder die H0 noch die H1 verworfen werden. Wie mit diesem Problem umzugehen ist, erærtern wir unter 4.8.
a4.7
123
a-Fehler, b-Fehler und Teststårke
Beziehung zwischen a- und b-FehlerWahrscheinlichkeit Nachdem nun auch die Bestimmung der b-FehlerWahrscheinlichkeit bekannt ist, kænnen wir untersuchen, in welcher Beziehung die a-Fehler-Wahrscheinlichkeit und die b-Fehler- Wahrscheinlichkeit zueinander stehen. (Diese dçrfen nicht mit dem a-Fehler-Niveau und b-Fehler-Niveau verwechselt werden, die nach inhaltlichen Kriterien vor Untersuchungsbeginn festzulegen sind.) Abbildung 4.4 veranschaulicht die in unserem Beispiel bei spezifischer H1 und spezifischer H0 ermittelte b-Fehler-Wahrscheinlichkeit zusammen mit der a-Fehler-Wahrscheinlichkeit (Irrtumswahrscheinlichkeit P. Aus der Abbildung wird leicht ersichtlich, wie sich die a-Fehler-Wahrscheinlichkeit und bFehler-Wahrscheinlichkeit veråndern, wenn das Stichprobenergebnis x variiert. Mit græûer werdendem x sinkt die Wahrscheinlichkeit, bei einer Entscheidung zugunsten der H1 einen a-Fehler zu begehen. Gleichzeitig steigt die Wahrscheinlichkeit des b-Fehlers, d. h. Entscheidungen zugunsten der H0 werden mit græûer werdendem x zunehmend unwahrscheinlicher. Umgekehrt sinkt bei kleiner werdendem x die Wahrscheinlichkeit eines b-Fehlers, wåhrend die Wahrscheinlichkeit einer fålschlichen Annahme der H1 (a-Fehler) steigt. a- und b-Fehler-Wahrscheinlichkeit veråndern sich gegenlåufig.
Die Konsequenz dieser gegenlåufigen Beziehung liegt auf der Hand. Je stårker man sich dagegen absichern will, eine an sich richtige H0 zu verwerfen (niedriges a-Fehler-Niveau bzw. Signifikanz-
β µ0
α –x
µ1
Abb. 4.4. Schematische Darstellung der a-Fehler-Wahrscheinlichkeit und b-Fehler-Wahrscheinlichkeit
niveau), desto græûer wird die Wahrscheinlichkeit, dass die H0 fålschlicherweise beibehalten wird (hohe b-Fehler-Wahrscheinlichkeit). Innovative Forschungen in einem relativ jungen Untersuchungsgebiet, bei denen die Folgen einer fålschlichen Annahme von H1 vorerst zu vernachlåssigen sind, håtten also bei einem a-Niveau von 1% nur wenig Chancen, der Wissenschaft neue Impulse zu verleihen. In derartigen Untersuchungen ist deshalb auch ein a-Niveau von 10% zu rechtfertigen.
Teststårke Wenn die b-Fehler-Wahrscheinlichkeit angibt, mit welcher Wahrscheinlichkeit die H1 verworfen wird, obwohl ein Unterschied besteht, so gibt der Ausdruck 1 b an, mit welcher Wahrscheinlichkeit zu Gunsten von H1 entschieden wird, wenn ein Unterschied besteht bzw. die H1 gilt. Dieser Wert wird als die Teststårke (¹powerª) eines Tests bezeichnet. Da sich a und b gegenlåufig veråndern, ist die Teststårke 1 b fçr a 0;05 natçrlich græûer als fçr a 0;01. Die Teststårke
1 b gibt an, mit welcher Wahrscheinlichkeit ein Signifikanztest zugunsten einer spezifischen Alternativhypothese entscheidet.
Zur Verdeutlichung der Teststårke wollen wir noch einmal auf den Vergleich der beiden Lehrmethoden zurçckkommen. Wir hatten herausgefunden, dass die Abweichung des empirisch ermittelten x-Wertes (x 42 mit n 100) von dem gemåû H0 erwarteten Parameter 0 40 bei einseitigem Test
1 > 0 ) signifikant ist. Ferner fragten wir auf S. 117, wie groû der x-Wert mindestens sein muss, um die H0 mit a 0;05 verwerfen zu kænnen. Dieser als ¹kritische Grenzeª bezeichnete x-Wert ergab sich zu x 41;32, d. h. alle Werte x 41;32 fçhren zu einem signifikanten Ergebnis (a 0;05). Um nun die Stårke dieses Signifikanztests zu ermitteln, prçfen wir zunåchst, mit welcher Wahrscheinlichkeit wir einen b-Fehler begehen wçrden, wenn wir bei x 41;32 die H0 beibehalten wçrden. Wie bereits bekannt, benætigen wir hierfçr einen spezifischen H1 -Parameter, den wir mit 1 43 fixiert hatten. Unter Verwendung des Standardfehlers b rx 0;8 erhålt man also
4
124
z
Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen
41;32 43 0;8
2;1
und damit nach Tabelle B eine b-Fehler-Wahrscheinlichkeit von b 0;0179. Die Teststårke betrågt also 1 0;0179 0;9821, d. h. die Wahrscheinlichkeit, dass wir uns aufgrund des Signifikanztests zu Recht zu Gunsten der H1 : 1 43 entscheiden, betrågt ± wenn diese H1 richtig ist ± 98,21%.
4
Determinanten der Teststårke. Ersetzen wir 1 43 durch 1 42, ergibt sich nach Gl. (4.5): z
41;32 42 0;8
0;85 :
Fçr diesen z-Wert entnehmen wir Tabelle B b 0;1977 und damit 1 b 0;8023. Die Teststårke ist also gesunken. Mit kleiner werdender Differenz l0 die Stårke des Signifikanztests.
l1 verringert sich
Ferner wollen wir prçfen, was mit der Teststårke geschieht, wenn wir den Stichprobenumfang von n 100 auf n 200 verdoppeln. Wir erhalten als p Standardfehler b rx 8= 200 0;566 und damit eine ¹kritische Grenzeª von xcrit
95% 40 1;65 0;566 40;93 : Entscheidet man bei diesem oder kleineren x-Werten zu Gunsten der H0, ergibt sich fçr 1 42 40;93 42 1;89 z 0;566 und damit b 0;0294 bzw. 1 b 0;9706. Die Verdoppelung des Stichprobenumfangs hat also dazu gefçhrt, dass sich die Teststårke von 80,23% auf 97,06% erhæht. Mit wachsendem Stichprobenumfang vergræûert sich die Teststårke.
Eine Vergræûerung des Stichprobenumfangs fçhrt zu einer Verkleinerung des Standardfehlers, was zur Folge hat, dass die Teststårke hæher wird. Da der Standardfehler jedoch auch kleiner wird, wenn sich die Merkmalsstreuung r verringert, haben Untersuchungen mit einer kleinen Merkmals-
streuung ± bei sonst gleichen Bedingungen ± eine hæhere Teststårke als Untersuchungen mit einer groûen Merkmalsstreuung. Die Teststårke sinkt mit wachsender Merkmalsstreuung.
Zu fragen bleibt, ob ein einseitiger oder zweiseitiger Test eine hæhere Teststårke aufweist. Wie oben ermittelt wurde, ergibt sich fçr den einseitigen Test fçr 0 40, 1 43, a 0;05 und n 100 eine Teststårke von 1 b 0;9821. Um einen vergleichbaren Teststårkewert fçr den zweiseitigen Test bestimmen zu kænnen, benætigen wir eine spezifische ungerichtete H1 , die angibt, wie weit der H1-Parameter den H0 -Parameter (0 40) mindestens çberschreiten oder unterschreiten muss. Wir setzen hierfçr 1 40 3 (1 43 und 1 37) und erhalten unter Verwendung der kritischen xcrit
2;5% - bzw. xcrit
97;5% -Werte von S. 117: z
41;57 43 0;8
1;79
bzw. z
38;43 37 1;79 : 0;8
Beide z-Werte schneiden ± in Richtung auf 0 ± von den jeweiligen H1 -Verteilungen 3,67% der Standardnormalverteilungsflåche ab, d. h., die b-Fehler-Wahrscheinlichkeit, die sich ergeben wçrde, wenn man bei x < 41;47 bzw. x > 38;43 fålschlicherweise die H1 ablehnen wçrde, addiert sich zu 2 0;0367 0;0734. Die Teststårke ist also mit 1 b 0;9266 kleiner als die des einseitigen Tests, wenn man x > 0 voraussetzt. Beståtigt das Untersuchungsergebnis der Tendenz nach eine gerichtete Hypothese, hat der einseitige Test eine hæhere Teststårke als der zweiseitige Test.
Die Stårke eines Tests (1 b) hångt damit zusammenfassend von folgenden Einflussgræûen ab: · Einseitiger/zweiseitiger Test: Die Teststårke ist beim einseitigen Test (H1: 1 > 0 ) græûer als beim zweiseitigen Test, wenn x > 0 ist. · a-Fehler-Niveau: Die Teststårke ist fçr a 0;05 græûer als fçr a 0;01.
a4.8
125
Bedeutung der Stichprobengræûe
" 4.8 Bedeutung der Stichprobengræûe
1,0 0,9 0,8 0,7
zweiseitig
1- β
0,6 0,5 0,4 0,3 0,2 einseitig
0,1 36
37
38
39 40 = µ0 41
42
43
44
µ1
Abb. 4.5. Teststårkefunktionen
· Effektgræûe: Die Teststårke wåchst mit græûer werdender Differenz 1 0 . · Stichprobengræûe: Die Teststårke wåchst mit zunehmendem Stichprobenumfang. · Merkmalsstreuung: Die Teststårke sinkt mit græûer werdender Merkmalsstreuung.
Teststårkefunktionen. Die Abhångigkeit der Stårke eines Tests von der Differenz 1 0 wird in sog. Teststårkefunktionen verdeutlicht, denen die
1 b-Werte fçr variable Differenzen 1 0 zu entnehmen sind. Derartige Teststårkefunktionen kænnen als Entscheidungskriterium herangezogen werden, wenn zur Ûberprçfung einer Hypothese mehrere statistische Tests, wie z. B. verteilungsfreie Tests, zur Verfçgung stehen (Nåheres hierzu s. Bortz et al. 2000, Kap. 2 und 4). Abbildung 4.5 zeigt die Teststårkekurven des einseitigen Tests (H1: 0 < 1 ) und des zweiseitigen Tests (H1: 0 6 1 ) fçr unterschiedliche 1 -Parameter, n 100, a 0;05 und 0 40. Man erkennt, dass der einseitige Test dem zweiseitigen fçr 1 > 0 çberlegen ist. Fçr 1 < 0 ¹versagtª der einseitige Test. Die Teststårke ist hier geringer als a 0;05, der Wert fçr 0 1. Gilt die H0 (0 1 ), entscheidet der Test mit einer Wahrscheinlichkeit von 1 b a 0;05 zugunsten von H1 .
Auf S. 119 f. haben wir den ¹klassischenª Signifikanztest insoweit kritisiert, als ein Untersuchungsergebnis auch bei kleinsten Effekten praktisch immer signifikant wird, wenn der Stichprobenumfang gençgend groû ist. Daraufhin wurde das Konzept einer Effektgræûe " eingefçhrt, die im Kontext einer Untersuchung angibt, wie weit ein H1 -Parameter mindestens vom H0 -Parameter entfernt sein soll, um von einem praktisch bedeutsamen Effekt sprechen zu kænnen. Mit der Festlegung einer Effektgræûe kennen wir den H1 -Parameter, sodass ± wie in 4.7 gezeigt wurde ± auch die b-Fehler-Wahrscheinlichkeit bzw. die Teststårke bestimmt werden kænnen. Auf S. 122 wurde im Kontext unseres Beispiels festgestellt, dass fçr 0 40, 1 43, a b 0;01 und n 100 Untersuchungsergebnisse vorkommen kænnen, die weder zur Ablehnung von H0 noch zur Ablehnung der spezifischen H1 fçhren. Hierbei handelt es sich um Ergebnisse, die in den Bereich 41;14 < x < 41;86 fallen. Diese wenig befriedigende Situation låsst sich vermeiden, wenn man a; b; " und n so aufeinander abstimmt, dass bei jedem empirischen Ergebnis eine eindeutige Entscheidung çber die Gçltigkeit von H0 oder H1 sichergestellt ist. Da a, b und " nach inhaltlichen Kriterien festgelegt werden sollten und damit nicht beliebig verånderbar sind, bleibt als einziger ¹freier Parameterª der Stichprobenumfang n çbrig, der so gewåhlt werden sollte, dass aufgrund des Untersuchungsergebnisses eine eindeutige Entscheidung çber die rivalisierenden Hypothesen H0 und H1 getroffen werden kann. Stichprobenumfånge mit dieser Eigenschaft wollen wir als ¹optimaleª Stichprobenumfånge kennzeichnen. Stichprobenumfånge sind optimal, wenn sie bei gegebenem a, b und e eine eindeutige Entscheidung çber die Gçltigkeit von H0 oder H1 sicherstellen.
Diese Definition ¹optimalerª Stichprobenumfånge kænnte zu der Vermutung Anlass geben, dass unter Umstånden eine kleinere Stichprobe, die in diesem Sinne ¹optimalª ist, einer græûeren Stichprobe vorzuziehen sei. Diese Vermutung ist falsch, denn grundsåtzlich fçhren græûere Stichproben zu genaueren Ergebnissen als kleinere, was vor al-
4
126
4
Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen
lem bei der in 3.5 behandelten Intervallschåtzung zu beachten ist. Gemeint ist, dass sich der mit der Untersuchung einer græûeren Stichprobe verbundene Aufwand nicht lohnt, wenn bei einer Hypothesenprçfung mit gegebenem a und b eine unter praktischen Gesichtspunkten fçr bedeutsam erachtete Effektgræûe auch mit einem kleineren, dem ¹optimalenª, Stichprobenumfang abgesichert werden kænnte (vgl. hierzu auch Hinkle u. Oliver, 1983, 1985). Auûerdem kann ± wie wir noch sehen werden (vgl. S. 127) ± die Situation eintreten, dass bei zu groûen Stichproben sowohl die H0 als auch die H1 abzulehnen sind.
Bestimmung des ¹optimalenª Stichprobenumfangs Der Gedankengang, der zu Stichprobenumfången fçhrt, die nach diesem Verståndnis ¹optimalª sind, sei im Folgenden anhand unseres Beispiels verdeutlicht (Vergleich der neuen Lehrmethode mit einer herkæmmlichen Methode bzw. allgemein formuliert: Vergleich eines Stichprobenmittelwertes mit einem Populationsparameter, s. Kap. 5.1.1). Hierzu stellen wir den gefundenen x-Wert einmal im Kontext der H0-Verteilung und einmal im Kontext der H1 -Verteilung dar. Bezogen auf die H0 -Verteilung erhålt man in Analogie zu Gl. (4.3) x 0 z
1
a
b rx :
4:7
Hierbei sei z
1 a der nach Gl. (4.1) errechnete z-Wert (vgl. S. 113). Wir erhalten also 40 2;50 0;8 42 :
x 1 z b b rx ;
4:8 wobei zb den nach Gl. (4.5) errechneten z-Wert kennzeichnet. Fçr 1 43 und zb 1;25 erhålt man also 43
1;25 0;8 42 : Gleichung (4.7) und Gl. (4.8) fçhren fçr beliebige x-Werte (mit den jeweils entsprechenden z
1 a und zb -Werten) zu identischen Resultaten. Wir kænnen also schreiben b rx 1 zb b rx p r= n bzw. wegen b rx b p p r = n 1 z b b r= n : 0 z
1 a b a
4:9
4:10
4:11
p bzw. (nach Multiplikation beider Seiten mit 2) wegen Gl. (4.4) p 2
z
1 a zb p :
4:12 " n Diese Gleichung zeigt die funktionale Verknçpfung von ", n, a und 1 b. Aufgelæst nach n resultiert n
2
z
1
a "2
zb 2
:
4:13
Setzen wir a 0;0062 (und damit z
1 a 2;50), 1 bp 0;894 (und damit zb 1;25) sowie " 2
43 40=8 0;530, muss fçr n natçrlich der tatsåchlich verwendete Stichprobenumfang resultieren: n
2
2;50
1;252 100 : 0;5302
Dieser Stichprobenumfang
n 100 wåre also ¹optimalª , wenn wir a 0;0062, b 0;106 und 1 43 (bzw. " 0;530) gesetzt håtten. Ersetzen wir diese unçblichen Werte durch a b 0;01, also diejenigen Werte, fçr die bei n 100 im Bereich 41;14 < x < 41;86 keine Entscheidung zu treffen war, erhålt man nach Gl. (4.13) mit z
1 a 2;33 und zb 2;33: n
Bezogen auf die H1 -Verteilung gilt
0 z
1
Durch Umstellen ergibt sich 1 0 z
1 a zb p b r n
2
2;33
2;332 154;422 : 0;5302
Dieser Wert wåre fçr die praktische Umsetzung auf n 155 nach oben zu runden. Man errechnet (mit dem ungerundeten Wert) p b rx 8= 154;422 0;6438 und als kritische Grenze des Ablehnungsbereiches der H0 xcrit
1
a
40 2;33 0;6438 41;5 :
Fçr die kritische Grenze des Ablehnungsbereiches der H1 resultiert der gleiche Wert: xcrit
b 43
2;33 0;6438 41;5 :
Die Entscheidungssituation ist bei diesem Stichprobenumfang eindeutig: Fçr x 41;5 wird die
a4.8
127
Bedeutung der Stichprobengræûe
H0 und fçr x < 41;5 die H1 abgelehnt. Inwieweit die jeweils entsprechenden Gegenhypothesen damit auch anzunehmen sind, werden wir weiter unten erærtern. Fçr Stichprobenumfånge, die kleiner sind als der ¹optimaleª, existiert ein x-Wertebereich, der sowohl mit H0 als auch H1 vereinbar ist. Fçr græûere Stichproben hingegen gibt es x-Werte, die weder mit H0 noch H1 zu vereinbaren sind.
Weitere Informationen zur Bestimmung optimaler Stichprobenumfånge findet man z. B. bei Schiffler und Harwood (1985).
Beispiele Die folgenden Beispiele, bei denen wir von a 0;05, b 0;2 und " 0;530 ausgehen, sollen verdeutlichen, wie der Stichprobenumfang die Eindeutigkeit der statistischen Entscheidung bestimmt. Bezçglich a und b folgen wir hierbei einer Empfehlung von Cohen (1988), die besagt, dass bei vielen Fragestellungen ein gegençber dem a-Fehler-Niveau vervierfachtes b-Niveau angemessen sei. Dies ist gleichzeitig eine a-/b-Fehlerkonstellation, fçr die nach Ablehnung der H0 auch die Annahme der H1 zu rechtfertigen ist (vgl. S. 122).
¹Optimalerª Stichprobenumfang: 2
1;65
0;842 44;0896 0;5302 p 40 1;65 8= 44;0896 41;988 p 43 0;84 8= 44;0896 41;988
n xcrit
1
a
xcrit
b
Bezogen auf unser Beispiel wåre also ein Stichprobenumfang von n 45 optimal gewesen. Fçr x 41;988 wåre die Ablehnung von H0 mit einer Irrtumswahrscheinlichkeit a 0;05 verbunden. Fçr x < 41;988 wçrde man bei Ablehnung von H1 eine b-Fehler-Wahrscheinlichkeit von b < 0;2 riskieren. Das Risiko einer falschen Entscheidung ist bei Annahme der H0 (0 40) und x 41;988 viermal so groû wie bei Annahme der H1 (1 43) und x 41;988. Falls diese Relation aus inhaltlichen Grçnden gençgend groû erscheint, kænnte die H1 angenommen werden, wenn x 41;988 ist.
Kleinerer Stichprobenumfang: n 30 p xcrit
1 a 40 1;65 8= 30 42;41 p xcrit
b 43 0;84 8= 30 41;77 Fçr x 42;41 kann die H0 abgelehnt werden. Es kænnte gleichzeitig auch die H1 angenommen werden; wçrde man fçr x 42;41 zu Gunsten von H0 entscheiden, wåre diese Entscheidung mit einem b-Fehlerrisiko von mindestens 34% verbunden (gemåû Gl. (4.5)). Mit 41; 77 < x < 42;41 resultiert ein Indifferenzbereich, in dem keine Entscheidung getroffen werden kann, da weder die H0 noch die H1 abgelehnt werden kann. Sollte x im Indifferenzbereich liegen, wåre die Untersuchung mit einer græûeren Stichprobe zu replizieren.
Græûerer Stichprobenumfang: n 200 p xcrit
1 a 40 1;65 8= 200 40;93 p xcrit
b 43 0;84 8= 200 42;52 Da im Bereich 40;93 x 42;52 sowohl H0 als auch H1 zu verwerfen sind, wçrde man fçr x-Werte in diesem Bereich folgern, dass der wahre Parameter zwischen 0 40 und 1 43 liegt. H0 wåre abzulehnen, wenn x 40;93 ist, ohne dabei gleichzeitig die H1 annehmen zu kænnen. Die H1 kænnte ggf. angenommen werden, wenn x 42; 52 ist, denn bei diesen x-Werten wçrde man im Fall der Ablehnung von H1 ein b-Fehlerrisiko von mindestens 20% eingehen.
Stichprobenumfang und Teststårke Gleichung (4.13) ist zu entnehmen, dass mit kleiner werdender Effektgræûe der ¹optimaleª Stichprobenumfang græûer wird. Håtte man in unserer Untersuchung den H1 -Parameter auf 1 42 gesetzt, ergåbe sich nach Gl. (4.4) p 2
42 40 0;354 " 8 und nach Gl. (4.13) n
2
1;65
0;842 99;20 : 0;3542
Der fçr unser Beispiel gewåhlte Stichprobenumfang von n 100 wåre also ausreichend gewesen, um ei-
4
128
4
Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen
ne Effektgræûe von " 0;354 fçr a 0;05 mit einer Teststårke von 1 b 0;8 nachzuweisen. Auch fçr Ex-post-Analysen empirischer Untersuchungen ohne fixierten H1 -Parameter (und damit ohne Mæglichkeit zur Bestimmung der b-Fehler-Wahrscheinlichkeit) kann Gl. (4.13) interessante Erkenntnisse vermitteln. Angenommen, die neue Untersuchungsmethode sei an einer Stichprobe mit n 44 geprçft worden und das Ergebnis wåre bei einem a-Niveau von 0;05 signifikant. Im nachhinein kommt man zu der Erkenntnis, dass sich die Ûberlegenheit der neuen Methode unter praktischen Gesichtspunkten in mindestens zwei Testpunkten niederschlagen mçsse, sodass der Untersuchung implizit eine Efp fektgræûe von " 2
42 40=8 0;354 zu Grunde liegt. Wir kænnen nun nach der Wahrscheinlichkeit fragen, mit der dieser Signifikanztest zugunsten von H1 entscheiden wçrde, wenn tatsåchlich die H1: 1 42 richtig ist, d. h., wir fragen nach der Teststårke. Hierzu læsen wir Gl. (4.13) nach zb auf: p p
4:14 zb z
1 a " n= 2 1;65
0;354
p p 44= 2
0;008 :
Diesem z-Wert entspricht gemåû Tabelle B ein Flåchenanteil von b 0;5, d. h., auch die Teststårke hat den Wert 1 b 0;5. Mit anderen Worten: Die Wahrscheinlichkeit fçr ein signifikantes Ergebnis betrågt in dieser Untersuchung nur 50%. Die Untersuchung håtte eine sehr viel græûere Chance fçr ein signifikantes Ergebnis, wenn 1 44 der wahre H1 -Parameter wåre. Man errechnet dann p p zb 1;65 0;707 44= 2 1;67 ; sodass sich b 0;0475 bzw. 1 b 0;9525 ergibt. Falls die H1: 1 44 die richtige Annahme wåre, håtte man mit einer Wahrscheinlichkeit von 95,25% mit einem signifikanten Ergebnis rechnen kænnen. Die Chance, zu einem signifikanten Ergebnis zu kommen, låsst sich natçrlich auch durch einen græûeren Stichprobenumfang erhæhen. Bliebe man bei " 0;354 und wçrde statt 44 Vpn 80 Vpn untersuchen, ergåbe sich p p zb 1;65 0;354 80= 2 0;59 :
Diesem z-Wert entspricht ein Flåchenanteil von 27,8% bzw. eine Teststårke von 72,2%, d. h. die Chance eines signifikanten Ergebnisses ist von 50% auf 72,2% gestiegen.
" 4.9 Praktische Hinweise Unsere bisherigen Ûberlegungen gingen von der Annahme aus, dass sich die H0 - und H1 -Verteilung nur in dem Parameter unterscheiden und im Ûbrigen identisch seien (normalverteilt mit gleichem Standardfehler). Dies ist jedoch bei den in diesem Buch zu behandelnden statistischen Tests in der Regel nicht der Fall. Die zu einer spezifischen H1 gehærende Prçfverteilung ist meistens eine sog. nonzentrale Verteilung, deren Mathematik çber den Rahmen dieses Buches hinausgeht (Informationen zu diesem Thema findet man z. B. bei Bickel und Doksum, 1977; Buchner et al., 1996; Manoukian, 1986; Winkler, 1983 oder Witting, 1978). Ohne diese Verteilungen sind jedoch b bzw. 1 b und damit der fçr die Absicherung einer vorgegebenen Effektgræûe ¹optimaleª Stichprobenumfang nicht bestimmbar. Um nun auf entsprechende Planungshinweise nicht vollståndig verzichten zu mçssen (vgl. hierzu auch Sedlmeier u. Gigerenzer, 1989), werden zumindest fçr die wichtigsten Verfahren ¹optimaleª Stichprobenumfånge genannt, die als Richtwerte zur Absicherung einer kleinen, mittleren oder groûen Effektgræûe erforderlich sind. Diese Zahlen gehen auf Cohen (1988, 1992) zurçck und beziehen sich auf a 0;05 und 1 b 0;80. Gleichung (4.13) ist zu entnehmen, wie die jeweils genannten Stichprobengræûen zumindest der Tendenz nach zu veråndern wåren, wenn einer Untersuchung ein kleineres a-Niveau und/oder eine andere Teststårke zu Grunde gelegt werden sollen: Der Stichprobenumfang ist fçr a 0;01 und fçr eine hæhere Teststårke zu vergræûern. Genauere Informationen sind den Tabellen von Cohen (1977, 1988) zu entnehmen, die in Auszçgen auch bei Bortz u. Dæring (2002, Kap. 9.2.2) wiedergegeben sind. Ein Computerprogramm zur Teststårkenbestimmung haben Erdfelder et al. (1996) entwickelt. Noch ein Hinweis in eigener Sache: Die Beispiele, an denen die einzelnen Verfahren erlåutert
a4.10
Multiples Testen
werden, verwenden keine ¹optimalenª Stichprobenumfånge, sondern in der Regel sehr viel kleinere Stichproben. Damit soll die Rechenarbeit, die zum besseren Verståndnis der Verfahren erforderlich ist, in zumutbaren Grenzen gehalten werden.
4.10 Multiples Testen Die Behauptung, dass zwischen der Dauer des Fernsehens und der Konzentrationsfåhigkeit von Schçlern ein negativer Zusammenhang besteht, diente auf S. 108 als Beispiel fçr eine Zusammenhangshypothese. Allgemeiner håtte man formulieren kænnen, dass Fernsehnutzung generell einen Einfluss auf Verhaltensmerkmale der Schçler ausçbt. Werden nun zur Prçfung dieser allgemeinen Hypothese fçr die Fernsehnutzung mehrere operationale Indikatoren herangezogen (z. B. Dauer des Fernsehens, Art der genutzten Programme, Tages-/Nachtzeit der Nutzung, Nutzung allein oder mit anderen Personen) und auch mehrere Verhaltensweisen geprçft (z. B. Konzentrationsfåhigkeit, Kreativitåt und Aggressivitåt), ergibt sich eine Problematik, die in der Statistikliteratur unter dem Stichwort ¹Multiples Testenª (auch ¹Multiple Endpunkteª oder ¹Simultane Testsª genannt) behandelt wird. Bezogen auf unser Beispiel låsst sich diese Problematik wie folgt konkretisieren: Bei 4 Indikatoren der Fernsehnutzung und 3 Verhaltensmerkmalen kann man 4 ´ 3 = 12 Korrelationen berechnen und prçfen. Die allgemeine Nullhypothese ¹kein Zusammenhangª erhålt also 12-mal die Gelegenheit, verworfen zu werden. Wird nun mindestens eine der 12 Korrelationen signifikant, ist die globale H0 zu verwerfen ± allerdings nicht auf dem angesetzten Signifikanzniveau, sondern mit einer Irrtumswahrscheinlichkeit, die sehr viel hæher ist als das nominelle a-Fehler-Niveau (genauer hierzu vgl. S. 271 ff.). Die Ûberprçfung der allgemeinen Nullhypothese çber multiple Signifikanztests hat also eine græûere Chance (Teststårke), die H0 zu verwerfen als ein einzelner Signifikanztest. Øhnliches gilt fçr Unterschiedshypothesen, die wir am Beispiel des Vergleiches zweier Unterrichtsmethoden verdeutlicht haben. Wird die Qualitåt des Unterrichts nicht nur çber die Leistungen der Schçler operationalisiert, sondern zusåtzlich
129
durch die Zufriedenheit der Schçler und der Lehrer mit dem Unterricht, durch die Långe von Vorund Nachbereitungszeiten fçr Schçler und Lehrer etc., ergibt sich auch hier das Problem des multiplen Testens. Erneut erhålt die globale Nullhypothese ¹kein Unterschiedª wiederholt Gelegenheit, verworfen zu werden mit der Folge einer nur schwer kontrollierbaren a-Fehler-Kumulation. Eine Mæglichkeit, mit dem Problem des multiplen Testens umzugehen, ist die sog. BonferoniKorrektur (Bonferoni war/ist offenbar ein Statistiker, der diese Korrektur ¹erfundenª hat, obwohl weder direkt noch indirekt Quellen bekannt sind, die dies belegen). Die Bonferoni-Korrektur ist denkbar einfach: Besteht das multiple ¹Testpaketª aus m Einzeltests (im Fernsehbeispiel wåre m = 12), wird jeder Signifikanztest mit einem korrigierten a-Fehler-Niveau a0 durchgefçhrt, wobei a0 a=m ist. Wollte man die globale H0 (kein Zusammenhang) mit a = 0,05 testen, mçsste mindestens ein Einzeltest auf dem Niveau a0 = 0,05/12 = 0,0042 signifikant werden, um die globale H0 verwerfen zu kænnen. Die BonferoniKorrektur erschwert allerdings ± zumal bei groûen m-Werten ± die Ablehnung einer H0 erheblich. Wir sagen: Die Bonferoni-Korrektur fçhrt zu konservativen Entscheidungen (vgl. hierzu auch S. 272). Weniger konservativ ist die sog. Holm-Korrektur (Holm, 1979), die folgendermaûen vorgeht: Zunåchst werden die testspezifischen Effekte ihrer Græûe nach geordnet. Im Unterrichtsbeispiel wåren dies die ^e-Werte (geschåtzte Effektgræûen), die die Græûe des Unterschiedes zwischen den Unterrichtsmethoden in Bezug auf ¹Leistungen der Schçlerª, ¹Zufriedenheit der Schçlerª, ¹Zufriedenheit der Lehrerª etc. abbilden (im Fernsehbeispiel entspråchen die 12 Korrelationen den Effekten). Der græûe Effekt wird auf dem Niveau a0 a=m getestet. Ist er nichtsignifikant, endet hier die Testprozedur. Ist er signifikant, wird der zweitgræûte Effekt auf dem Niveaue a0 a=
m 1 getestet. Ist er nichtsignifikant, endet die Testprozedur. Ist er signifikant, wird der drittgræûte Effekt auf dem Niveau a0 a=
m 2 getestet etc., bis man auf den ersten nichtsignifikanten Effekt stæût. Gelegentlich fållt es schwer zu entscheiden, ob mehrere Hypothesen als Paket mit Bonferoni-/ Holm-Korrektur getestet werden mçssen oder als
4
130
4
Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen
Einzelhypothesen ohne Korrektur. Eine gewisse Hilfestellung stellt folgende Prçffrage dar: Hat die Hypothese den Charakter einer ¹Es gibtª-Behauptung? (¹Es gibtª einen Unterschied zwischen A und B oder ¹es gibtª einen Zusammenhang zwischen x und y). Wenn mehrere ^e-Werte oder Korrelationen zur Ûberprçfung der Hypothese anstehen und es sich um eine ¹Es gibtª-Behauptung handelt, muss das Signifikanzniveau korrigiert werden. Andernfalls, wenn man jede Hypothese spezifisch hergeleitet und begrçndet hat, kann auf eine Korrektur verzichtet werden (Ausfçhrlicher hierzu s. z. B. Bortz et al. 2000, Kap. 2.2.11 oder Hsu, 1996). Weitere Mæglichkeiten, mit dem Problem ¹Multiples Testenª umzugehen, werden wir im Teil 3 dieses Buches (Multivariate Methoden wie z. B. Hotellings T2-Test, MANOVA, Diskriminanzanalyse; multiple und kanonische Korrelation) erarbeiten.
4.11 Monte-Carlo-Studien und die Bootstrap-Technik Fçr alle Signifikanztests ist es wichtig zu wissen, wie stark der fçr eine zu prçfende Hypothese relevante Kennwert Stichproben bedingt streut, wenn die H0 richtig ist. Bezogen auf den Kennwert ¹arithmetisches Mittelª haben wir fçr diese Streuung die Bezeichnung ¹Standardfehler des Mittelwertesª (rx ) eingefçhrt, dessen Bestimmung in 3.2 bzw. genauer in Anhang B analytisch hergeleitet wird. Wie fçr das arithmetische Mittel lassen sich auch fçr andere statistische Kennwerte (z. B. die Differenz zweier Mittelwerte oder Prozentwerte, die Korrelation, der Quotient zweier Varianzen etc.) unter bestimmten Bedingungen (dies sind die Voraussetzungen eines Signifikanztests) auf analytischem Weg Standardfehler herleiten, die im Kontext des jeweiligen Signifikanztests in den folgenden Kapiteln behandelt werden. Es gibt jedoch auch statistische Kennwerte, deren mathematischer Aufbau so kompliziert ist, dass es bislang nicht gelungen ist, deren Standardfehler auf analytischem Wege zu entwickeln. In diesen Fållen kænnen sog. Monte-Carlo-Studien oder die Bootstrap-Technik eingesetzt werden, mit denen die unbekannte H0 -Verteilung des jeweiligen Kennwertes auf einem Computer simuliert wird.
Monte-Carlo-Studien Die Monte-Carlo-Methode wurde 1949 von Metropolis und Ulam fçr unterschiedliche Forschungszwecke eingefçhrt. Die uns hier vorrangig interessierenden Anwendungsvarianten betreffen: · die Erzeugung der H0-Verteilung eines statistischen Kennwertes und · die Ûberprçfung der Folgen, die mit der Verletzung von Voraussetzungen eines statistischen Tests verbunden sind.
Erzeugung einer H0 -Verteilung. Ein kleines Beispiel fçr diese Anwendungsvariante haben wir bereits in 3.2.2 bzw. Abb. 3.1 a, b kennengelernt. Hier ging es um die Bestimmung der Streuung von Mittelwerten, die man erhålt, wenn ¹vieleª Stichproben aus einer Population gezogen werden. Mit Hilfe des Computers wurde eine ¹Populationª mit 19;8 und r2 20;0 erzeugt, aus der 200 Zufallsstichproben des Umfangs n 10 gezogen wurden. Die Mittelwerte dieser 200 Stichproben bilden die simulierte Mittelwerteverteilung, deren Kennwerte xx und b rx den theoretisch zu erwartenp den Parametern 19;8 und rx 20=10 gegençbergestellt wurden. Wie man der Abb. 3.1 a entnehmen kann, stimmen die aus der simulierten Verteilung errechneten Schåtzwerte und die Parameter bereits bei 200 Stichproben sehr gut çberein, sodass der Standardfehler auch auf diese Weise håtte errechnet werden kænnen. Ûblicherweise werden Monte-Carlo-Studien mit sehr viel mehr (1000 bis 5000) Zufallsstichproben durchgefçhrt. Der Computer erzeugt eine Merkmalsverteilung, fçr die H0 gilt, und entnimmt dieser Verteilung eine zuvor festgelegte Anzahl von Zufallsstichproben des Umfangs n. Fçr jede Stichprobe wird der fragliche Kennwert ermittelt, sodass sich çber alle gezogenen Stichproben eine Kennwerteverteilung ergibt. Diese Verteilung stellt die H0 -Verteilung dar, çber die ermittelt werden kann, ob ein empirischer Kennwert, also ein Kennwert aufgrund einer konkreten Untersuchung, ¹signifikantª ist oder nicht. Fçr a 0;05 und einseitigen Test wåre also zu prçfen, ob der gefundene Kennwert in die oberen (oder ggf. auch unteren) 5% der Flåche der simulierten Verteilung fållt. Das Ergebnis einer solchen Monte-Carlo-Studie sind die ¹Signifikanzgrenzenª fçr variable
a4.11
Monte-Carlo-Studien und die Bootstrap-Technik
Stichprobenumfånge n, mit denen der empirisch gefundene Kennwert verglichen wird.
Verletzung von Voraussetzungen. Die oben beschriebene Anwendungsvariante bezieht sich auf Kennwerte, deren theoretische Verteilung unbekannt ist. Fçr viele Kennwerte låsst sich die Verteilungsform jedoch theoretisch herleiten, wenn die erhobenen Daten bestimmte Voraussetzungen erfçllen. Voraussetzungen dieser Art sind z. B. bestimmte Mindestgræûen fçr Stichprobenumfånge, die es gewåhrleisten, dass ein Kennwert (z. B. x) nach dem zentralen Grenzwerttheorem normalverteilt ist oder normalverteilte Merkmale, fçr die sich t-verteilte Kennwerte berechnen lassen etc. Die mathematischen Voraussetzungen, die zur theoretischen Bestimmung einer Kennwerteverteilung im Rahmen eines Signifikanztests erfçllt sein mçssen, werden in der empirischen Forschung nicht selten verletzt. Dies muss nicht unbedingt bedeuten, dass die erhobenen Daten mit dem entsprechenden Signifikanztest nicht ausgewertet werden kænnen, denn entscheidend ist, wie der Test auf Verletzungen seiner Voraussetzungen reagiert. Auch dies låsst sich mit Monte-Carlo-Studien çberprçfen. Als Beispiel hierfçr kænnen wir wieder den in den letzten Abschnitten behandelten Lehrmethodenvergleich heranziehen, den wir dahingehend modifizieren, dass nur n 10 Schçler nach der neuen Methode unterrichtet werden und dass das Merkmal ¹Testpunkteª eindeutig linksschief verteilt ist. (Andere Verteilungsformen wåren Gegenstand weiterer Monte-Carlo-Simulationen.) Bei diesem Stichprobenumfang wird die Voraussetzung fçr die Wirksamkeit des zentralen Grenzwerttheorems (n 30; vgl. S. 93 f.) verletzt, sodass nicht mehr davon auszugehen ist, dass die Verteilung der Mittelwerte einer Normalverteilung folgt. Von der Standardnormalverteilung wissen wir, dass z 1;65 von der rechten Seite der Verteilung 5% abschneidet, was fçr den korrekt durchgefçhrten Signifikanztest bedeutet, dass fçr x 0 1;65 rx die H0 mit a 0;05 abzulehnen ist. Ûber eine Monte-Carlo-Simulation mit Stichproben des Umfangs n 10 aus einer linksschiefen Populationsverteilung kann nun eine Verteilung von x-Werten erzeugt werden, deren Verteilungsform mit Sicherheit nicht mit einer Normalverteilung çbereinstimmt. Interessant ist hier die Frage, wie
131
stark diese Verteilung von einer Normalverteilung abweicht. Wird die Verteilung z-transformiert, kann man feststellen, welcher Anteil der Verteilungsflåche durch z 1;65 abgeschnitten wird. Liegt dieser Flåchenanteil nahe bei 5% (nåheres hierzu s. unten), sprechen wir von einem robusten Signifikanztest, also einem Test, der trotz der Voraussetzungsverletzung praktisch richtig entscheidet. Ist der Flåchenanteil græûer als 5%, entscheidet der Test progressiv, was bedeutet, dass der Test mehr x-Werte signifikant werden låsst, als nach dem nominellen a-Niveau von 5% zulåssig sind. Werden durch z 1;65 weniger als 5% abgeschnitten, sprechen wir von einem konservativen Test, bei dem die Anzahl der x-Werte, die bei Gçltigkeit von H0 die kritische Grenze von 0 1;65 rx çberschreiten, unter 5% liegt. Bradley (1978) fordert, den Begriff ¹Robustheitª quantitativ genauer zu bestimmen. Nach seiner Auffassung wird der a-Fehler (entsprechendes gilt fçr den b-Fehler) durch Verletzungen von Voraussetzungen dann ¹wesentlichª beeinflusst, wenn die tatsåchliche Irrtumswahrscheinlichkeit a0 bei statistischen Entscheidungen auûerhalb der Grenzen a0 0;5 a liegt. Bei a 0;05 ist man bereit zu akzeptieren, dass 5% aller Entscheidungen zu Gunsten der H1 Fehlentscheidungen sind. Ein Test wåre demzufolge als robust zu bezeichnen, wenn die Anzahl der Fehlentscheidungen nicht genau bei 5%, sondern im Bereich 2,5% bis 7,5% liegt. Erweist sich ein Test als robust, besteht keine Veranlassung, auf seine Anwendung zu verzichten, auch wenn mæglicherweise Voraussetzungen verletzt sind. Auch Tests mit konservativer Entscheidung kænnen bei nicht erfçllten Voraussetzungen eingesetzt werden, wenn man bereit ist, den mit einem konservativen Test verbundenen Teststårkeverlust bzw. die reduzierte Wahrscheinlichkeit fçr ein signifikantes Ergebnis in Kauf zu nehmen. Bei einem deutlichen Teststårkeverlust sollte allerdings geprçft werden, ob ein anderer Test aus der Gruppe der verteilungsfreien oder ¹nonparametrischenª Methoden (vgl. z. B. Bortz et al., 2000 oder Bortz u. Lienert, 2003), der an weniger Voraussetzungen geknçpft ist, aber dafçr in der Regel auch eine geringere Teststårke aufweist, dem ¹parametrischenª oder ¹verteilungsgebundenenª Test vorzuziehen ist.
4
132
4
Kapitel 4 ´ Formulierung und Ûberprçfung von Hypothesen
Progressive Tests sollten bei verletzten Voraussetzungen nicht eingesetzt werden, da man bei einem signifikanten Ergebnis nicht erkennen kann, ob diese Signifikanz ¹echtª ist oder als ¹Scheinsignifikanzª durch die nicht erfçllten Voraussetzungen erklårbar ist. In diesem Fall muss auf den ¹parametrischenª Test zu Gunsten eines åquivalenten verteilungsfreien Tests verzichtet werden, auch wenn es sich hierbei um ein testschwåcheres Verfahren handeln sollte. Ersatzweise kænnte auch der Stichprobenumfang vergræûert werden, denn mit zunehmendem Stichprobenumfang wird jeder statistische Test robuster. Monte-Carlo-Studien sind fçr die empirische Forschung åuûerst wichtig, weil sie ± zumindest in der zuletzt genannten Anwendungsvariante ± die Entscheidung darçber erleichtern, unter welchen Umstånden ein bestimmter Test eingesetzt oder nicht eingesetzt werden kann. Dies wird durch die umfangreiche Literatur dokumentiert, die sich mit der Bedeutung der Voraussetzungen fçr die verschiedenen statistischen Verfahren bei ein- oder zweiseitigem Test bzw. fçr unterschiedliche a- oder b-Fehler-Niveaus befasst. Ûber die Ergebnisse dieser Untersuchungen wird jeweils an geeigneter Stelle berichtet. Ausfçhrlichere Informationen zum Aufbau einer Monte-Carlo-Studie findet man z. B. bei Hammersley u. Handscomb (1965), Robert u. Casella (2000), Rubinstein (1981) sowie Kalos u. Whitlock (1986).
Bootstrap-Technik Die Bootstrap-Technik wurde in Weiterentwicklung des sog. ¹jackknifeª-Verfahrens von Efron (1979) eingefçhrt und findet seitdem in vielen Anwendungsfeldern zunehmende Verbreitung. Auch wenn die Mathematik dieser Technik in ihren fortgeschrittenen Varianten sehr kompliziert ist, låsst sich ihr Grundprinzip relativ einfach darstellen. Wie die Monte-Carlo-Methode setzt auch die Bootstrap-Technik leistungsstarke Computer voraus, die çber eine groûe Anzahl von Zufallsstichproben die Verteilung des untersuchten Stichprobenkennwertes errechnen. Auch hier sind es typischerweise Kennwerte, deren Verteilung auf analytischem Weg nur sehr schwer oder gar nicht zu-
gånglich ist, sodass Computersimulationen als Behelfslæsung erforderlich sind. Die Bootstrap-Technik unterscheidet sich von der Monte-Carlo-Methode in einem wesentlichen Punkt: Wåhrend eine Monte-Carlo-Studie zu generalisierbaren Ergebnissen kommt, die von allen Anwendern des jeweiligen Signifikanztests genutzt werden kænnen, beziehen sich die Ergebnisse der Bootstrap-Technik immer nur auf eine bestimmte, konkrete Untersuchung. Eine Monte-Carlo-Studie erzeugt fçr variable Stichprobenumfånge die Verteilung eines Kennwertes bei Gçltigkeit von H0 , die in jeder Untersuchung zur Ûberprçfung der Signifikanz des ermittelten Kennwertes herangezogen werden kann. Die Bootstrap-Technik hingegen verwendet ausschlieûlich Informationen einer empirisch untersuchten Stichprobe mit dem Ziel, eine Vorstellung çber die Variabilitåt des zu prçfenden Stichprobenkennwertes zu gewinnen. Zur Veranschaulichung greifen wir noch einmal auf das Lehrmethodenbeispiel zurçck. Wie ± so lautet unsere Frage ± kann man mit Hilfe der Bootstrap-Technik entscheiden, ob der gefundene Wert x 42 signifikant vom H0 -Parameter 0 40 abweicht, wenn man die Berechnungsvorp schrift fçr den Standardfehler (b rx b r= n) nicht kennt? Statt n 100 seien fçr unser Beispiel nur die folgenden n 8 Messungen erhoben worden: 39; 46; 42; 40; 46; 45; 38; 40 Aus dieser ursprçnglichen Stichprobe werden nun sehr viele (2000 bis 10 000) Zufallsstichproben, die sog. ¹Bootstrap-Stichprobenª des Umfangs n, ¹mit Zurçcklegenª gezogen.
Beispiele S1 : 39; S2 : 46; S3 : 38; S4 : 40; etc.
39; 40; 39; 39;
39; 40; 40; 40;
39; 39; 40; 38;
39; 42; 42; 38;
39; 38; 45; 42;
39; 42; 46; 42;
39 42 46 42
Die Stichproben S1 (8 derselbe Wert) und S3 (jede Messung ist in der Stichprobe enthalten) stellen nur scheinbar ungewæhnliche Auswahlen dar, denn jede beliebige Kombination der 8 Messwerte hat die gleiche Wahrscheinlichkeit. (Da mit Berçcksichtigung der Abfolge nn unterscheidbare Abfolgen mæglich sind, tritt jede Stichprobe mit
133
aÛbungsaufgaben einer Wahrscheinlichkeit von 1=nn auf. Im Beispiel fçr n 8 ergeben sich 88 16 777 216 verschiedene Stichproben). Im Weiteren bestimmt man fçr jede BootstrapStichprobe den Mittelwert x (bzw. allgemein den zu prçfenden Kennwert) und die Varianz dieser Mittelwerte (der Kennwerte). Unter Verwendung dieser Varianz wird in der einfachsten BootstrapVariante ein Konfidenzintervall (vgl. 3.5) mit x 42 als Schåtzwert des unbekannten Parameters errechnet. Befindet sich der H0-Parameter (0 40) auûerhalb dieses Konfidenzintervalls, ist die H0 abzulehnen, und andernfalls, fçr einen vom Konfidenzintervall umschlossenen 0 -Parameter, beizubehalten. Man beachte, dass das so ermittelte Konfidenzintervall nur fçr die untersuchte Stichprobe und nicht fçr Stichproben vergleichbarer Untersuchungen gilt. Genauere Hinweise zu dieser Technik findet man bei Efron u. Tibshirani (1986, 1993), Efron (1987), Hall (1992) oder Sievers (1990). ÛBUNGSAUFGABEN 1. Erlåutern Sie den Unterschied zwischen a) einer Alternativhypothese und einer Nullhypothese, b) einer gerichteten und einer ungerichteten Alternativhypothese, c) einer spezifischen und einer unspezifischen Alternativhypothese. 2. Formulieren Sie zu den auf S. 107 erwåhnten Beispielen jeweils die Nullhypothese und die Ihnen am angemessensten erscheinende Alternativhypothese. 3. Nennen Sie Beispiele fçr Entscheidungen, bei denen nach Ihrer Ansicht a) ein mæglicher a-Fehler schwerwiegender ist als ein mæglicher b-Fehler, b) ein mæglicher b-Fehler schwerwiegender ist als ein mæglicher a-Fehler. 4. Warum ist die folgende Aussage falsch: Die Entscheidung zugunsten der H0 war mit einer a-Fehler-Wahrscheinlichkeit von 8% versehen. 5. Warum kann bei einer unspezifischen H1 die b-Fehler-Wahrscheinlichkeit nicht bestimmt werden? 6. Es soll çberprçft werden, ob die Position des Anfangsbuchstabens von Nachnamen im Alphabet fçr das berufliche Vorankommen von Bedeutung ist (vgl. hierzu eine Untersuchung von Rosenstiel u. Schuler, 1975). Die berufliche Karriere, die wir durch einen Karriereindex quantifizieren wollen, mæge in der Population der månnlichen Erwerbståtigen mit einem Durchschnittswert von 40 und einer Streuung von b r 12 gekennzeichnet sein. 64 månnliche Erwachsene
mit Namen, deren Anfangsbuchstaben zu den letzten 10 Buchstaben des Alphabets gehæren, weisen einen durchschnittlichen Karriereindex von x 38 auf. Wie groû ist die a-Fehler-Wahrscheinlichkeit, wenn man behauptet, dass angesichts dieser Werte Personen mit Namen, deren Anfangsbuchstaben zu den letzten 10 des Alphabets zåhlen, hinsichtlich ihres Berufserfolges nicht zu der Population mit beliebigen Anfangsbuchstaben gehæren (einseitiger Test)? 7. In einer Untersuchung mæge unter der Annahme einer gçltigen H0 ein Mittelwert von 80 erwartet werden. Empirisch ergibt sich jedoch der Wert x1 85. Die Abweichung sei bei zweiseitigem Test auf dem 5%-Niveau signifikant. Wåre die gleiche Abweichung auch bei einseitigem Test signifikant? 8. Ein Betriebspsychologe schlågt dem Vorstand seiner Firma vor, die Arbeitsplåtze nach psychologischen Erkenntnissen farblich neu zu gestalten. Durch diese Maûnahme soll die Zufriedenheit der Werksangehærigen mit ihrem Arbeitsplatz und damit auch ihre Leistungsfåhigkeit erhæht werden. Nachdem der Kostenaufwand fçr die farbliche Neugestaltung der Arbeitsplåtze kalkuliert wurde, teilte man dem Psychologen mit, dass diese Maûnahmen nur durchgefçhrt werden kænnen, wenn sie mindestens zu einer 10%igen Leistungssteigerung fçhren. Um dies herauszufinden, wird vorgeschlagen, fçr eine Voruntersuchung zunåchst nur die Arbeitsplåtze von 36 Werksangehærigen farblich neu zu gestalten. Fçr diese 36 Werksangehærigen resultiert nach Verånderung des Arbeitsplatzes ein durchschnittlicher Leistungsindex von x 106, dem ein bisher gçltiger Leistungsindex aller Werksangehærigen der Firma von 100 gegençbersteht. Sowohl bei Gçltigkeit der H0 als auch bei Gçltigkeit der H1 wird angenommen, dass die Streuung der Leistungen vom Betrag b r 18 sei. a) Wie lautet in diesem Problem die H0 ? b) Wie lautet in diesem Problem die H1 ? c) Wie groû ist die a-Fehler-Wahrscheinlichkeit, wenn angesichts der Daten die H1 akzeptiert wird? d) Wie groû ist die b-Fehler-Wahrscheinlichkeit, wenn angesichts der Daten die H0 akzeptiert wird? e) Von welcher Effektgræûe geht die Untersuchung aus? f) Wie viele Werksangehærige mçssten mindestens untersucht werden, um die H1 mit einer Teststårke von 99% und a 1 % annehmen zu kænnen? 9. Wie lautet der kritische z-Werte-Bereich, in dem Ergebnisse auf dem 1%-Niveau bei einseitiger Fragestellung signifikant und bei zweiseitiger Fragestellung nichtsignifikant sind? 10. Was versteht man unter einer Teststårkefunktion? 11. Was versteht man unter einer Effektgræûe? 12. Welche Bestimmungsstçcke sind erforderlich, um einen optimalen Stichprobenumfang fçr eine Hypothesen çberprçfende Untersuchung festlegen zu kænnen?
4
135
a
Kapitel 5 Verfahren zur Ûberprçfung von Unterschiedshypothesen
ÛBERSICHT t-Test fçr unabhångige Stichproben ± t-Test fçr abhångige Stichproben ± Freiheitsgrade ± F-Test ± U-Test ± WilcoxonTest ± eindimensionaler v2 -Test ± McNemar-v2 -Test ± Prozentwertvergleiche ± Vierfelder-v2 -Test ± k `±v2 -Test ± Konfigurationsfrequenzanalyse ± optimale Stichprobenumfånge
Aktives Lernen, so behaupten Lerntheoretiker, fçhrt zu einem besseren Lernerfolg als passives Lernen. Das laute Lesen des Textes, der gelernt werden soll, bzw. das Niederschreiben von Textpassagen resultieren in einer differenzierteren Wahrnehmung des Lernmaterials, die eine bessere Organisation und Strukturierung der einzelnen Lerninhalte ermæglicht und sich damit positiv auf das Behalten auswirkt. Wollen wir diese Behauptung çberprçfen, mçssen wir auch hier die theoretische Aussage mit der Realitåt konfrontieren. Wir kænnen beispielsweise eine Zufallsstichprobe von n 40 Vpn auffordern, einen Text still durchzulesen und eine andere Stichprobe von ebenfalls n 40 Vpn bitten, den gleichen Text abzuschreiben und beim Schreiben laut mitzusprechen. In einem abschlieûenden Test wird çberprçft, wie der passiv bzw. aktiv gelernte Stoff im Gedåchtnis haften geblieben ist. Wir wollen einmal annehmen, dass die Stichprobe, die passiv gelernt hat, im Durchschnitt 18,5 Fragen und die Stichprobe, die aktiv gelernt hat, 21,8 Fragen richtig beantwortet. Kænnen wir aufgrund eines solchen Ergebnisses behaupten, die Hypothese, nach der aktives Lernen zu einem hæheren Lernerfolg fçhrt als passives Lernen, sei richtig? Oder mçssen wir, ausgehend von der in den beiden letzten Kapiteln behandelten Unsicherheit bzw. Zufålligkeit von Stichprobenergebnissen, damit rechnen, dass die gefundene Differenz der durchschnittlichen Testleistungen auf zufållige Besonderheiten der gezo-
genen Stichproben zurçckzufçhren ist? Was sagt uns die Differenz der Stichprobenmittelwerte, wenn wir eigentlich an den Mittelwerten der Population aller aktiv Lernenden bzw. passiv Lernenden interessiert sind? Die skizzierte Problemsituation unterscheidet sich von der im vergangenen Kapitel behandelten Fragestellung darin, dass zwei Stichprobenergebnisse miteinander und nicht ein Stichprobenergebnis mit einer bekannten Population verglichen werden. Das fçr diese Fragestellung einschlågige Verfahren werden wir in Kap. 5.1.2 (Vergleich zweier Stichprobenmittelwerte aus unabhångigen Stichproben) kennenlernen. Da Populationsparameter nur selten bekannt sind, kommen statistische Verfahren zur Ûberprçfung der Unterschiedlichkeit zweier (oder mehrerer) Stichprobenergebnisse weitaus håufiger zur Anwendung als Verfahren zur Ûberprçfung des Unterschiedes zwischen einem Stichprobenkennwert und einem Populationsparameter. Diese Verfahren und Verfahren zur Ûberprçfung von Zusammenhangshypothesen stellen das wichtigste Handwerkszeug der Inferenzstatistik dar. (Bezugnehmend auf 4.1 unterscheiden wir zwischen Unterschiedshypothesen und Zusammenhangshypothesen, wenngleich Ûberprçfungen dieser beiden Hypothesenarten ± wie wir in Kap. 7.4 und 14 sehen werden ± wechselseitig ineinander çberfçhrbar sind. Aus didaktischen Grçnden wollen wir jedoch im elementarstatistischen Teil diese Differenzierung beibehalten.) Die in Kap. 5 und 6 zu besprechenden Verfahren sind nach der Skalenart, die den erhobenen Daten zu Grunde liegt, gegliedert. Bezogen auf das eingangs erwåhnte Beispiel (Vergleich aktives Lernen vs. passives Lernen) kænnten die Vpn in beiden Stichproben danach klassifiziert werden, ob sie mehr als 20 Fragen oder hæchstens 20 Fragen richtig beantwortet haben. Die so resultieren-
5
136
5
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
den Håufigkeiten lassen sich in einer 4-Felder-Tafel anordnen, die Grundlage eines Verfahrens zur Ûberprçfung von Unterschiedshypothesen fçr Nominaldaten ist. Dieses sowie weitere Verfahren fçr Nominaldaten behandeln wir unter 5.3. Ein anderes Verfahren wåre indiziert, wenn die Vpn aus beiden Stichproben gemåû ihrer Lernleistungen in eine gemeinsame Rangreihe gebracht wçrden (Ordinalskala). Unterschiedshypothesen, die sich auf Ordinaldaten beziehen, werden mit Verfahren geprçft, die unter 5.2 behandelt werden. Schlieûlich kænnen die Lernleistungen ± wie im Beispiel vorgegeben ± durch die Anzahl der beantworteten Fragen operationalisiert werden, fçr die sich eine Intervallskala rechtfertigen låsst. Die hierfçr einschlågigen Verfahren werden wir unter 5.1 kennenlernen. Die Wahl des adåquaten Testverfahrens setzt voraus, dass zuvor entschieden wurde, welche Skalenqualitåt die erhobenen Daten kennzeichnet. Dies ist jedoch ± wie unter 1.1 ausgefçhrt wurde ± nicht immer zweifelsfrei mæglich, sodass wir insbesondere bei Verfahren, die Intervalldaten voraussetzen, darauf angewiesen sind, den Einsatz eines bestimmten Verfahrens durch theoretische Annahmen çber die Skalenqualitåt des quantifizierten Merkmals zu rechtfertigen. In kritischen Fållen empfiehlt es sich, die Daten in Rangwerte zu transformieren und mit einem Verfahren fçr Ordinaldaten auszuwerten (vgl. 5.2). Hierbei ist allerdings zu beachten, dass die zu vergleichenden Stichprobenkennwerte skalenabhångig sind: Auf Intervalldaten-Niveau werden (in der Regel) Mittelwerte verglichen und auf Ordinaldaten-Niveau Medianwerte.
" 5.1 Verfahren fçr Intervalldaten Sind Mittelwert und Varianz einer Messwertreihe aufgrund der Skalenqualitåt sinnvoll interpretierbar, kænnen Hypothesen bezçglich der Unterschiedlichkeit zweier Mittelwerte bzw. Varianzen mit den in den folgenden Abschnitten beschriebenen Verfahren çberprçft werden.
" 5.1.1 Vergleich eines Stichprobenmittelwertes mit einem Populationsparameter Wir greifen zunåchst erneut den bereits im vorigen Kapitel behandelten Vergleich eines Stichprobenmittelwertes mit einem Populationsmittelwert auf. Fçr eine Zufallsstichprobe des Umfangs n wird der Mittelwert x berechnet. Es soll die Hypothese çberprçft werden, dass die Zufallsstichprobe zu einer Grundgesamtheit mit bekanntem Mittelwertsparameter 0 gehært. Kænnen wir keine Angabe çber die Richtung der Abweichung des Stichprobenmittelwertes machen, formulieren wir die Frage ungerichtet. Die konkurrierenden statistischen Hypothesen lauten dann: H0:
0 1 ;
H1:
0 6 1 :
Die statistische H1 behauptet also, dass die untersuchte Stichprobe einer Population angehært, deren Parameter 1 vom Parameter 0 der Referenzpopulation abweicht. Die Entscheidung darçber, welche der beiden Hypothesen wir als die richtige betrachten kænnen, hångt davon ab, wie die Differenz x 0 angesichts der Tatsache, dass x eine Zufallsstichprobe kennzeichnet, zu bewerten ist. Wir betrachten zunåchst den Fall, dass die Merkmalsstreuung r bekannt ist. Wie bereits bekannt, verteilen sich x-Werte aus (theoretisch unendlich) vielen Stichproben des Umfangs n p bei Gçltigkeit der H0 mit der Streuung rx r= n um 0 . Ferner wissen wir, dass sich die Mittelwerte bei hinreichend groûen Stichprobenumfången (n > 30) nach dem zentralen Grenzwerttheorem angenåhert normalverteilen, sodass wir die gefundene Differenz nach Gl. (5.1) in einen z-Wert der Standardnormalverteilung transformieren kænnen: x 0 z
5:1 rx In Tabelle B lesen wir ab, wie viel Prozent der Standardnormalverteilung durch diesen z-Wert am oberen Teil (bei positivem z-Wert) bzw. am unteren Teil (bei negativem z-Wert) abgeschnitten werden. Bei zweiseitigem Test verdoppeln wir den Prozentwert und erhalten die Wahrscheinlichkeit dafçr, dass ein Mittelwert in der vorgefundenen
a5.1.1
Vergleich eines Stichprobenmittelwertes mit einem Populationsparameter
Weise oder noch extremer (in beiden Richtungen) von 0 abweicht, wenn die Nullhypothese zutrifft. Dies ist die Irrtumswahrscheinlichkeit P, d. h. die Wahrscheinlichkeit, mit der wir uns irren wçrden, wenn wir die H0 zu Gunsten der H1 ablehnen. Ist diese Irrtumswahrscheinlichkeit P kleiner als das Signifikanzniveau von a 5% bzw. a 1%, weicht der gefundene Mittelwert in signifikanter bzw. sehr signifikanter Weise vom Parameter 0 ab, d. h., wir akzeptieren die H1 und verwerfen die H0 . Es wird dann angenommen, dass die durch x gekennzeichnete Stichprobe nicht zu einer Grundgesamtheit mit dem Parameter 0 gehært. BEISPIEL Es soll die H1 çberprçft werden, dass Verwahrloste hinsichtlich ihrer Intelligenz der ¹Normalpopulationª unterlegen sind (gerichtete H1 , a 5%). Ausgehend von einer Zufallsstichprobe von 36 Verwahrlosten wird ein durchschnittlicher Intelligenzquotient von x 98 bestimmt. Die Intelligenzquotienten haben in der ¹Normalpopulationª einen Durchschnitt von 0 100. Die Streuung der Intelligenzquotienten, die in diesem Fall aufgrund der Eichstichprobe des Tests bekannt ist und die deshalb nicht durch die Stichprobendaten geschåtzt zu werden braucht, betrågt in der Population psodass wir einen Standardfehler von p r 10, rx r= n 10= 36 1;667 erhalten. Nach Gl. (5.1) ermitteln wir einen z-Wert von z
98 100 1; 667
1; 20 ;
der laut Tabelle B 11,5% vom negativen Teil der Standardnormalverteilung abschneidet. Die Signifikanzgrenze (z5% 1;65) wird damit nicht erreicht, d. h., der gefundene Unterschied ist nicht signifikant. Die Hypothese, nach der sich Verwahrloste hinsichtlich ihrer Intelligenz von ¹Normalenª unterscheiden, kann nicht aufrecht erhalten werden. Fçr die zweiseitige Fragestellung ergibt sich eine Irrtumswahrscheinlichkeit von 2 11;5% 23%, d. h., der Unterschied ist ± wie aufgrund der Ausfçhrungen zu einund zweiseitigen Tests unter 4.5 zu erwarten ± in diesem Falle erst recht nicht signifikant.
Wie ist zu verfahren, wenn die Merkmalsstreuung r unbekannt ist? In diesem Fall relativieren wird die Abweichung x l0 am geschåtzten Standardfehler, der çber Gl. (3.3) ermittelt wird. Die so resultierende Prçfgræûe ist bei groûen Stichproben (n > 30), unabhångig von der Form der Merkmalsverteilung, mit df = n±1 Freiheitsgraden (s. unten) t-verteilt. tn
1
x
l0
b rx
:
5:2
137
Der empirische t-Wert wird mit einer kritischen Signifikanzschranke verglichen, die ± fçr unterschiedliche Signifikanzstufen ± Tabelle D des Anhanges zu entnehmen ist. Fçr a = 0,05 wåhlen wir bei einseitigem Test die Spalte ¹0,95ª und bei zweiseitigem Test die Spalte ¹0,975ª. Fçr a = 0,01 sind es die Spalten 0,99 (einseitiger Test) bzw. 0,995 (zweiseitiger Test). Bei empirischen t-Werten, die mindestens so groû sind wie der jeweilige kritische Schrankenwert (temp ³ tcrit), wird die H0 zu Gunsten der H1 verworfen. Wie auf S. 81 bereits erwåhnt, kann die t-Verteilung mit græûer werdender Anzahl von Freiheitsgraden durch die Standardnormalverteilung approximiert werden. Fçr df > 30 ist es praktisch unerheblich, ob die Unterschiedshypothese çber Gl. (5.1) oder Gl. (5.2) geprçft wird.
Kleine Stichproben Sind die untersuchten Stichproben klein (n 30), sodass man nicht mehr davon ausgehen kann, dass sich die Stichprobenmittelwerte nach dem zentralen Grenzwerttheorem normalverteilen, mçssen wir voraussetzen, dass sich die Messwerte in der Grundgesamtheit normalverteilen. Wie Gosset (1908) unter dem Pseudonym ¹Studentª zeigen konnte, verteilen sich die am geschåtzten Standardfehler relativierten Differenzen x aus Stichproben normalverteilter Grundgesamtheiten wie die in 2.5.3 behandelten t-Verteilungen, wobei die Form der Verteilung von der Græûe der Stichprobe bzw. den Freiheitsgraden abhångig ist. Werden Stichproben des Umfangs n aus einer normalverteilten Grundgesamtheit gezogen, verteilen sich die bx relativierten Differenam geschåtzten Standardfehler r zen x l entsprechend einer t-Verteilung mit n 1 Freiheitsgraden.
Soll die Abweichung des Mittelwertes einer kleinen Stichprobe vom Parameter 0 einer normalverteilten Grundgesamtheit auf Signifikanz getestet werden, relativieren wir wie in Gl. (5.2) die gefundene Differenz an der geschåtzten Streuung der Mittelwerteverteilung. Der resultierende t-Wert wird ± wie oben beschrieben ± anhand Tabelle D des Anhanges zufallskritisch bewertet.
Herleitung der Prçfgræûe. Warum der Quotient in Gl. (5.2) t-verteilt ist wird durch folgenden Ge-
5
138
5
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
dankengang begrçndet: Sowohl der Zåhler in Gl. (5.2)
x 0 als auch der Nenner
b rx sind stichprobenabhångig. Die Verteilung des Quotienten dieser beiden Zufallsvariablen ist kompliziert, es sei denn, man nimmt an, X (dies ist die variable Græûe des Zåhlers) und b rx (dies ist die variable Græûe des Nenners) seien voneinander unabhångig. Diese Annahme trifft auf normalverteilte Zufallsvariablen zu (vgl. Bickel u. Docksum, 1977, S. 20 ff.). Gleichung (2.57) definiert eine t-Verteilung mit n Freiheitsgraden als die Verteilung eines Quotienten zweier voneinander unabhångiger Zufallsvariablen. Hierbei ist die Zåhlervariable mit 0 und r 1 normalverteilt, und die Nennervariable stellt eine durch n dividierte, v2 -verteilte Zufallsvariable mit n Freiheitsgraden dar. Ersetzen wir die Freiheitsgrade durch n 1, resultiert z t q : 2 v
n 1 =
n 1
5:3
Einen z-Wert der Standardnormalverteilung erhalten wir, indem die Abweichung eines x-Wertes von durch die Streuung der x-Werte rx dividiert wird: z
x
rx
x p : r= n
5:4
v uP un u
xi 2
x 2 i1 r u u v2n v21 t r2 r2 =n n 1 n 1
5:7
Der v21-Wert resultiert hierbei aus dem in Gl. (5.4) definierten z-Wert. Durch Ausmultiplizieren und Zusammenfassen entsprechender Ausdrçcke reduziert sich Gl. (5.7) zu v uP n r u x2 n x2 u 2 b v2n v1 ti1 i r
5:8 : 2 n 1 r
n 1 r Setzen wir den so modifizierten Nenner in Gl. (5.5) ein, erhalten wir Gl. (5.2) x p r= n x t p :
5:2 ^ r b r= n r Gleichung (5.2) und (5.3) sind damit identisch, rx ist t-verteilt. d. h., der Ausdruck
x 0 =b
Anzahl der Freiheitsgrade. Dass der in Gl. (5.2) definierte t-Wert n 1 Freiheitsgrade hat, låsst sich folgendermaûen plausibel machen:p Fçr die Berechnung des Standardfehlers b r= n benætigen wir die Varianz b r2 , in die n Abweichungsquadrate 2
xi x eingehen. Wie auf S. 37 jedoch bereits gezeigt wurde, ist die Summe der Abweichungen von n Messungen von ihrem Mittelwert Null P n
xi x 0 , d. h., von n Abweichungen i1
Ersetzen wir z in Gl. (5.3) durch die rechte Seite von Gl. (5.4), ergibt sich x p r= n
5:5 t q : v2
n 1 =
n 1 Da die Summe zweier v2 -verteilter Zufallsvariablen mit n1 und n2 Freiheitsgraden wiederum mit n1 n2 Freiheitsgraden v2 -verteilt ist, schreiben wir fçr den Nenner von Gl. (5.5): s r v2
n 1 v2n v21 :
5:6 n 1 n 1 Nach Gl. (2.52) kænnen v2 -Werte in folgender Weise ersetzt werden:
(bzw. Abweichungsquadraten) kænnen nur n 1 frei variieren. Ergeben sich beispielsweise bei einer Stichprobe mit n 5 vier Abweichungen zu x1 x 5, x2 x 3, x3 x 1 und x4 x 2, muss zwangslåufig x5 x 1 sein, damit die Summe aller Abweichungen Null ergibt. Bei der Varianzberechnung ist eine der n Abweichungen festgelegt, d. h., die Varianz hat n 1 Freiheitsgrade. Damit ist die Anzahl der Bestimmungsstçcke, die bei der Berechnung eines t-Wertes frei variieren kænnen, ebenfalls auf n 1 begrenzt. BEISPIEL Nach einer långeren Untersuchungsreihe hat man ermittelt, dass Ratten im Durchschnitt 0 170 s benætigen, bis sie es gelernt haben, einen Mechanismus zu bedienen, durch den Futter freigegeben wird. Die Zeiten seien angenåhert
a5.1.1
139
Vergleich eines Stichprobenmittelwertes mit einem Populationsparameter
normalverteilt mit einer Streuung von b r 12. Es soll çberprçft werden, ob Ratten, deren Eltern bereits trainiert (konditioniert) waren, schneller in der Lage sind, den Mechanismus zu bedienen (einseitiger Test, a 5%). 20 Ratten mit konditionierten Eltern erzielten eine Durchschnittszeit von 163 s. In diesem Problem sind somit x 163, 0 170 und b r 12, sodass wir nach (5.2) einen t-Wert von t
163 170 7 p 2;68 12= 20
2;61
erhalten. Tabelle D des Anhangs entnehmen wir, dass der kritische Wert in der t-Verteilung mit
n 1 19 Freiheitsgraden, der von der linken Seite 5% abschneidet, t 1;73 lautet. Dieser Wert ist ± seinem Absolutbetrag nach ± kleiner als der empirisch gefundene Wert von t 2;61. Das Ergebnis ist deshalb signifikant. Ratten, deren Eltern zuvor konditioniert wurden, lernen schneller als Ratten mit nicht konditionierten Eltern.
¹Optimaleª Stichprobenumfånge Fçr den Vergleich eines Stichprobenmittelwertes x mit einem bekannten Populationsparameter 0 werden die folgenden ¹optimalenª Stichprobenumfånge empfohlen, deren theoretischer Hintergrund unter 4.8 behandelt wurde. Die Angaben gelten fçr a 0;05, 1 b 0;80 und einseitigen Test. Weitere Werte findet man bei Cohen (1988).
Effektgræûe ("): p 2
1 0
1 > 0 "
5:9 r p Der Faktor 2 macht die Effektgtæûe mit der noch zu definierenden Effektgræûe fçr zwei unabhångige Stichproben (Gl. 5.17) vergleichbar (vgl. Cohen, 1988, S. 45 ff.). Die Schåtzung fçr l1 l0 in Gl. (5.9) basiert auf n Objekten und die Schåtzung fçr l1 l2 in Gl. (5.17) auf 2 n Objekten. Dementsprechend unterscheiden sich die jeweiligen Standardfehler (Gl. 3.1 fçr den Mittelwert X und Gl. p5.10 fçr die Mittelwertedifferenz) um den Faktor 2. Da nun die Power- und Stichprobentabellen von Cohen (1988, Tab. 2.3 und Tab. 2.4), auf die wir hier Bezug nehmen, fçr den Vergleich von zwei unabhångigen Stichproben ausgelegt sind, p wird die Effektgræûe in Gl. (5.9) durch den Faktor 2 an die Effektgræûe fçr zwei unabhångige Stichproben (Gl. 5.17) angeglichen.
Wie die folgende Aufstellung zeigt, benætigt man z. B. fçr die Absicherung eines schwachen Effektes (e = 0,2) eine Stichprobe mit n = 310. Mit r = 1 erhålt man einen schwachen Effekt bereits pfçr eine Differenz von l1 l0 0;14
0;14 2 0; 2. Aus der Aufstellung von S. 143 (unabhångige Stichproben) hingegen wird deutlich, dass fçr die Absicherung eines schwachen Effektes zwei Stichproben mit n1 = n2 = 310 erforderlich sind und dass dem schwachen Effekt eine Mittelwertedifferenz von l1 l2 = 0,2 entspricht (mit r = 1). Da der pStandardfehler des Mittelwertes um den Faktor 2 kleiner ist als der Standardfehler der Mittelwertedifferenz (bei gleichem n und r2 ) verbirgt sicht ± im Vergleich zu Gl. (5.17) ± hinter einempkleinen Effekt gem. Gl. (5.9) eine um den Faktor 2 verringerte Mittelwertedifferenz l1 l0 . Eine entsprechende ¹Aufwertungª gilt auch fçr die çbrigen Effektgræûen: Identische Effekte machen beim Vergleich eines Stichprobenmittelwertes mit einem Populationsparameter kleinere Differenzen erforderlich, als ein Vergleich von zwei Stichprobenmittelwerten. " 0;20
(schwacher Effekt) nopt 310
" 0;30
nopt 138 nopt 78
" 0;40 " 0;50
(mittlerer Effekt)
" 0;60 " 0;70 " 0;80
(starker Effekt)
nopt 50 nopt 37 nopt 26 nopt 20 :
Man benætigt also eine Stichprobe von n = 50, um mit einer Teststårke von 80% (1±b = 0,8) einen mittleren Effekt (e = 0,50) mit einer Irrtumswahrscheinlichkeit von a = 0,05 nachweisen zu kænnen. Schåtzen wir im o. g. Beispiel l1 mit 163 s, ergåbe p sich nach Gl. (5.9) eine Effektgræûe von be 2 (170±163)/12 = 0,825, die im Nachhinein als ¹starker Effektª zu interpretieren wåren (wir schreiben be statt e, um zu verdeutlichen, dass die Effektgræûe aus den Daten geschåtzt und nicht als Populationsparameter postuliert wurde). Mit einem starken Effekt als Planungsvorgabe und 1±b = 0,8 sowie a = 0,05 wåre die Græûe der untersuchten Stichprobe (n = 20) nahezu optimal.
5
140
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
" 5.1.2 Vergleich zweier Stichprobenmittelwerte aus unabhångigen Stichproben (t-Test) Werden 2 voneinander unabhångige Stichproben des Umfangs n1 und n2 aus 2 Grundgesamtheiten gezogen, çberprçft der t-Test fçr unabhångige Stichproben die Nullhypothese, dass die beiden Stichproben aus Populationen stammen, deren Parameter 1 und 2 identisch sind: H0: 1 2 0 ; die (ungerichtete) H1 lautet:
5
H1:
1
x2
12 r2x1
12 r2x2 :
Wegen r2x1 r21 =n1 und r2x2 r22 =n2 gemåû Gl. (3.1) erhalten wir also fçr den Standardfehler der Differenz zweier Mittelwerte:
r
x1
x2
n1 P
b r
2 6 0 :
s r21 r22 : n1 n2
Ist die gemeinsame Populationsvarianz r2 unbekannt, wird sie aufgrund der Daten beider Stichproben in folgender Weise geschåtzt: 2
(Theoretisch wåre auch eine H0: 1 2 a denkbar. Da dieser Fall in der Praxis jedoch åuûerst selten vorkommt, wollen wir den t-Test im Folgenden nur an der H0: 1 2 0 verdeutlichen. Der gleiche Rechengang ist jedoch ohne Besonderheiten auf den Fall çbertragbar, dass die Differenz 1 2 gemåû H0 bekannt und vom Betrag a 6 0 ist.) Ziehen wir aus 2 Populationen sehr håufig 2 voneinander unabhångige Stichproben, erhalten wir eine Verteilung der Differenzen der Stichprobenmittelwerte. Bei Gçltigkeit von H0 hat die Verteilung des Kennwertes ¹Differenz zweier Mittelwerteª einen Erwartungswert von 0. Die Streuung dieser Kennwerteverteilung (bzw. den Standardfehler der Differenz zweier Mittelwerte) erhalten wir durch folgende Ûberlegung: Bei Unabhångigkeit der Stichproben stellen die Mittelwerte x1 und x2 Realisierungen der unabhångigen Zufallsvariablen X1 und X2 dar. Die Differenz X1 X2 ist als Linearkombination zweier unabhångiger Zufallsvariablen aufzufassen mit den Gewichten
1 fçr X1 und
1 fçr X2. Nach Gl. (B. 33) (Anhang B) ergibt sich fçr die Varianz einer Linearkombination zweier Zufallsvariablen mit den Gewichten
1 und
1: r2x1
Bei gleichen Populationsvarianzen (r21 r22 r2 ) kænnen wir hierfçr schreiben r 1 1 r
x1 x2 r2 : n1 n2
n1
x1 2
n2 P i1
x 2 2
xi2
1
n2
1
:
5:11
Den Standardfehler der Differenz schåtzen wir damit durch folgende Gleichung v uP n2 P u n1 2 2 u
xi1 x1
xi2 x2 ti1 i1 b r
x1 x2
n1 1
n2 1 r 1 1 :
5:12 n1 n2 Wurden die geschåtzten Populationsvarianzen b r21 2 und b r2 bereits ermittelt, fçhrt folgende Gleichung einfacher zum gesuchten Standardfehler: s
n1 1 b r21
n2 1 b r22 b r
x1 x2
n1 1
n2 1 r 1 1 :
5:13 n1 n2 Da X1 und X2 nach dem zentralen Grenzwerttheorem fçr n 30 normalverteilte Zufallsvariablen sind, ist auch die Differenz X1 X2 normalverteilt. Bei kleineren Stichprobenumfången
n1 n2 < 50 folgt die am Standardfehler relativierte Differenzenverteilung einer t-Verteilung mit n1 n2 2 Freiheitsgraden, wenn das untersuchte Merkmal in den verglichenen Populationen normalverteilt ist. Die Bedeutsamkeit der Abweichung der gefundenen Differenz x1 x2 von der Differenz der Populationsparameter 1 2 wird in Relation zur Streuung der Mittelwertedifferenz (b r
x1 x2 ) ermittelt: t
5:10
i1
xi1
x1
x2
1 b r
x1 x2
2
:
Setzen wir gemåû der Nullhypothese 1 reduziert sich Gl. (5.14) zu
5:14 2 0,
a5.1.2
t
x1 x2 : b r
x1 x2
5:15
Freiheitsgrade dieses t-Wertes sind folgendermaûen zu korrigieren: 1
dfcorr Gleichung (5.15) definiert eine Zufallsvariable, die fçr kleine Stichproben mit n1 n2 2 Freiheitsgraden t-verteilt und fçr græûere Stichproben (n1 n2 50) angenåhert normalverteilt ist.
Die Zufallswahrscheinlichkeit eines t-Wertes wird bei kleineren Stichproben anhand der t-Tabelle (vgl. Anhang, Tabelle D) und bei græûeren Stichproben anhand der Normalverteilungstabelle (vgl. Anhang, Tabelle B) bestimmt. Da die t-Verteilungen mit wachsendem n in eine Standardnormalverteilung çbergehen, kann man natçrlich auch bei groûen Stichprobenumfången die t-Tabelle verwenden.
Voraussetzungen Die Anwendung von Gl. (5.15) ist an folgende Voraussetzungen geknçpft: 1. Bei kleineren Stichproben mçssen sich die Grundgesamtheiten, aus denen die Stichproben entnommen wurden, normalverteilen. Sind die Verteilungsformen der Grundgesamtheiten unbekannt, kann die Normalverteilungsannahme mit einem Verfahren çberprçft werden, das unter 5.3.2 besprochen wird. 2. Die hier beschriebene Schåtzung des Standardfehlers der Differenz geht davon aus, dass die Varianzen in den zu vergleichenden Populationen gleich bzw. die Varianzschåtzungen b r21 und b r22 annåhernd gleich bzw. homogen sind. Ein Verfahren zur Ûberprçfung dieser Voraussetzung behandeln wir in 5.1.5. Låsst sich die Annahme gleicher Populationsvarianzen (bzw. ± bei kleinen Stichproben ± die Normalverteilungsannahme) nicht aufrechterhalten, wåhlt man ein verteilungsfreies Prçfverfahren (vgl. 5.2.1). Soll der t-Test mit heterogenen Varianzen durchgefçhrt werden, stoûen wir auf das sog. Behrens-Fisher-Problem, fçr dessen Læsung u. a. Welch (1947, zit. nach Pfanzagl, 1974, Kap. 9.8) eine approximative Læsung vorgeschlagen hat: Man schåtzt çber Gl. (5.10) (mit geschåtzten Varianzen b r21 und b r22 ) den Standardfehler der Mittelwertedifferenz und berechnet mit diesem Wert çber Gl. (5.15) einen t-Wert. Die
5
141
Vergleich zweier Stichprobenmittelwerte aus unabhångigen Stichproben (t-Test)
c2 n1
1 c2 1 n2 1
5:16
^2x1 r : ^2x2 r 3. Die Durchfçhrung eines t-Tests nach Gl. (5.15) setzt voraus, dass die beiden Stichproben voneinander unabhångig sind. Was unter dieser Voraussetzung zu verstehen ist, wird im Zusammenhang mit dem im nåchsten Kapitel zu besprechenden t-Test fçr abhångige Stichproben deutlich. mit c
^2x1 r
Aus Monte-Carlo-Studien geht hervor, dass der t-Test fçr unabhångige Stichproben auf Verletzungen seiner Voraussetzungen robust reagiert (vgl. Boneau, 1971; Glass et al., 1972; Sawilowsky u. Blair, 1992; Srivastava, 1959 oder Havlicek u. Peterson, 1974; zum Begriff ¹robustª vgl. Box, 1953 oder Kap. 4.11). Dies gilt insbesondere, wenn gleichgroûe Stichproben aus åhnlichen, mæglichst eingipflig-symmetrisch verteilten Grundgesamtheiten verglichen werden. Sind die Stichprobenumfånge deutlich unterschieden, wird die Pråzision des t-Testes nicht beeintråchtigt, solange die Varianzen gleich sind. Sind jedoch weder die Stichprobenumfånge noch die Varianzen gleich, ist mit einem erheblich hæheren Prozentsatz an Fehlentscheidungen zu rechnen. Nach Ramsey (1980) entscheidet der Test eher zu Gunsten der H1 , wenn die Varianz in der kleineren Stichprobe græûer ist als die Varianz in der græûeren Stichprobe (progressive Testentscheidung). Ist die Varianz in der græûeren Stichprobe jedoch græûer als in der kleineren, fallen die Testentscheidungen eher konservativ, d. h. zugunsten der H0, aus. Insbesondere progressive Fehlentscheidungen sind zu vermeiden, da dabei mit einer erhæhten Wahrscheinlichkeit auf Unterschiede geschlossen werden kann, die faktisch nicht vorhanden sind. In diesem Fall sind entweder Korrekturverfahren, die bei Cochran u. Cox (1966) und Satterthwaite (1946) beschrieben werden, oder verteilungsfreie Verfahren einzusetzen (vgl. 5.2). Ûber die relative Teststårke verteilungsfreier Verfahren im Vergleich zum hier behandelten t-Test berichten Zimmermann u. Zumbo (1993).
142
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
Tabelle 5.1. Beispiel fçr einen t-Test (unabhångige Stichproben) xi1
<
5
Summen: x1 103;2 ;
xi1
x1
xi1
x 1 2
86 91 96 103 121 86 121 105 112 96 97 129 101 103 92 87 105 114 99 94 107 108 96 125 87 112 117 124 89 92 94 90 119 100 114
±17,2 ±12,2 ±7,2 ±0,2 17,8 ±17,2 17,8 1,8 8,8 ±7,2 ±6,2 25,8 ±2,2 ±0,2 ±11,2 ±16,2 1,8 10,8 ±4,2 ±9,2 3,8 4,8 ±7,2 21,8 ±16,2 8,8 13,8 20,8 ±14,2 ±11,2 ±9,2 ±13,2 15,8 ±3,2 10,8
295,84 148,84 51,84 0,04 316,84 295,84 316,84 3,24 77,44 51,84 38,44 665,64 4,84 0,04 125,44 262,44 3,24 116,64 17,64 84,64 14,44 23,04 51,84 475,24 262,44 77,44 190,44 432,64 201,64 125,44 84,64 174,24 249,64 10,24 116,64
3612
0,0
5367,60
x2 104;2 ;
n1 P
n1 35 ;
xi2
,
xi2
97 87 113 93 115 108 126 118 93 120 86 104 122 97 102 88 100 109 88 125 95 101 92 122 106 98 104 106 95 97 113 90 130
x2
±7,2 ±17,2 8,8 ±11,2 10,8 3,8 21,8 13,8 ±11,2 15,8 ±18,2 ±0,2 17,8 ±7,2 ±2,2 ±16,2 ±4,2 4,8 ±16,2 20,8 ±9,2 ±3,2 ±12,2 17,8 1,8 ±6,2 ±0,2 1,8 ±9,2 ±7,2 8,8 ±14,2 25,8 1,4 a
3440
xi2
51,84 295,84 77,44 125,44 116,64 14,44 475,24 190,44 125,44 249,64 331,24 0,04 316,84 51,84 4,84 262,44 17,64 23,04 262,44 432,64 84,64 10,24 148,84 316,84 3,24 38,44 0,04 3,24 84,64 51,84 77,44 201,64 665,64 5112,12
n2 33 ;
n2 P
xi1 x1 2 5367;60
xi2 x2 2 5112;12 ; x1 x2 1;0 i1 n1 n2 P P
xi1 x1 2
xi2 x2 2 5367;60 5112;12 10479;72 i1 158;78 ; r ^2 i1 34 32 66
n1 1
n2 1 p p p ^
x1 x2 158;78
0;0285 0;0303 158;78 0;0588 9;34 3;06 r
i1
t ^21 r
0;33 ;
df n1 n2
5367;60 157;87 ; 34
c
a
1 3;06
4;51 0;48; 4;51 4;84
Rundungsungenauigkeiten
^22 r
2 35 33
5112;12 159;75; 32 dfcorr
1 0;0285 ; n1
1 0;0303 n2
2 66 ^
x1 r
^x2
r 157;87 159;75 p 4;51 4;84 3;06 35 33
1 65;68; 0;482
1 0;482 34 32
t
66;5%
1;67
x2 2
a5.1.3
Vergleich zweier Stichprobenmittelwerte aus abhångigen Stichproben (t-Test)
BEISPIEL Es soll çberprçft werden, ob weibliche Personen belastbarer sind als månnliche Personen (einseitiger Test, a 5%); n1 35 månnliche Vpn und n2 33 weibliche Vpn wurden mit einem Belastungstest untersucht. Tabelle 5.1 zeigt die Daten und die statistische Auswertung der Untersuchung. Der ermittelte t-Wert ist nicht signifikant, d. h., die Hypothese, nach der weibliche Vpn belastbarer sind als månnliche Vpn, wird nicht beståtigt. Dies gilt auch fçr den korrigierten t-Test nach Welch, der nur zu Demonstrationszwecken durchgefçhrt wurde, denn die Varianzen b r21 und b r22 sind gem. Gl. (5.39) homogen.
Fçr den Vergleich zweier Stichprobenmittelwerte aus unabhångigen Stichproben werden die folgenden ¹optimalenª Stichprobenumfånge empfohlen, deren theoretischer Hintergrund in 4.8 behandelt wurde. Diese Angaben gelten fçr a 0;05, 1 b 0;80 und einseitigen Test. Weitere Werte findet man bei Cohen (1988) bzw. Bortz u. Dæring (2002, Kap. 9.2.2).
1 > 2
cherlich ohne jede praktische Bedeutung. Dennoch kænnte auch dieser Effekt signifikant werden, wenn man deutlich mehr als 1000 weibliche und månnliche Versuchspersonen untersuchen wçrde. Ohne Frage wåre dies ein Aufwand, der unter praktischen Gesichtspunkten keinesfalls zu rechtfertigen ist. Die Merkmalsvarianz b r2 wurde im Beispiel çber Gl. (5.11) geschåtzt. Bei gleichgroûen Stichproben ergibt sich hieraus b r2 b r21 b r22 =2. (Zur Problematik der Effektgræûe e bei heterogenen Varianzen vgl. Grissom u. Kim, 2001.)
" 5.1.3 Vergleich zweier Stichprobenmittelwerte aus abhångigen Stichproben (t-Test)
¹Optimaleª Stichprobenumfånge
Effektgræûe ("): 1 2 " r
143
5:17
" 0;20 (schwacher : n1
opt n2
opt 310 Effekt) " 0;30
: n1
opt n2
opt 138
" 0;40
: n1
opt n2
opt 78
" 0;50 (mittlerer Effekt)
: n1
opt n2
opt 50
" 0;60
: n1
opt n2
opt 37
" 0;70
: n1
opt n2
opt 26
" 0;80 (starker Effekt)
: n1
opt n2
opt 20:
BEISPIEL Man benætigt 2 Stichproben 50 Vpn, um mit einer Teststårke von 80% (1±b = 0,8) einen mittleren Effekt mit einer Irrtumswahrscheinlichkeit von a = 0,05 nachweisen kænnen. Ex post schåtzen wir fçr das Beispiel (Tabelle 5.1) eine p Effektgræûe von be
104;2 103;2= 158;78 0;08. Dieser Effekt ist erheblich kleiner als ein schwacher Effekt und si-
Der im letzten Abschnitt besprochene t-Test geht davon aus, dass zwei Stichproben voneinander unabhångig erhoben werden. Durch diese Unabhångigkeitsforderung wird gewåhrleistet, dass die Objekte der Grundgesamtheit, die in die eine Stichprobe aufgenommen werden, keinen Einfluss auf die Auswahl der zur anderen Stichprobe gehærenden Objekte ausçben. Gelegentlich ist es jedoch aufgrund der Fragestellung notwendig, zwei Stichproben zu vergleichen, deren Objekte jeweils paarweise einander zugeordnet sind. In diesem Fall sprechen wir von abhångigen (verbundenen) Stichproben. Um abhångige Stichproben handelt es sich beispielsweise, wenn bei Freundes- oder Ehepaaren die månnlichen Partner mit den weiblichen Partnern verglichen werden, wenn in verschiedenen Arbeitsgruppen jeweils der Beliebteste mit dem Tçchtigsten verglichen wird oder wenn allgemein jedem Objekt der einen Stichprobe ein Objekt der anderen Stichprobe zugeordnet ist. Typische Beispiele fçr voneinander abhångige Stichproben sind parallelisierte Stichproben (matched samples), bei denen die Objekte in den beiden Stichproben nach einem sinnvollen Kriterium paarweise einander zugeordnet sind (vgl. S. 9). Von abhångigen Stichproben sprechen wir jedoch auch, wenn an einer Stichprobe zwei Messungen durchgefçhrt werden (Messwiederholung). Typische Beispiele hierfçr sind Untersuchungen des Gesundheitszustandes vor und nach einer Behandlung, der Vergleich von Messungen, die an einer Stichprobe morgens und abends erhoben wurden, Einstellungsmessungen vor und nach Werbemaûnahmen usw.
5
144
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
Bei zwei abhångigen (verbundenen) Stichproben sind die Objekte zweier Stichproben einander paarweise zugeordnet. Auûerdem erhalten wie abhångige (Daten-)Stichproben, wenn eine Stichprobe wiederholt untersucht wird.
5
Beim t-Test fçr abhångige Stichproben wird berçcksichtigt, dass die Varianz der einen Messwertreihe (1. Stichprobe) die Varianz der anderen Messwertreihe (2. Stichprobe) beeinflusst (und/ oder umgekehrt). Wenn beispielsweise çberprçft werden soll, wie sich der Wissensstand einer Stichprobe nach einer Schulungsmaûnahme veråndert hat, kænnen die Wissensunterschiede, die vor der Schulung bestanden haben, z.T. auch noch nach der Schulung bestehen. Schåtzen wir den Standardfehler der Differenz gemåû Gl. (5.13) aus den Standardfehlern der beiden zu vergleichenden Mittelwerte, werden Unterschiede zwischen den Personen, die vor und nach der Schulung bestehen, doppelt berçcksichtigt, weil sie den Standardfehler des ersten Mittelwertes und des zweiten Mittelwertes zumindest teilweise beeinflussen. Der Anteil der gemeinsamen Unterschiedlichkeit (gemeinsame Varianz) beider Messwertreihen wird um so græûer sein, je hæher die beiden Messwertreihen ¹korrelierenª ± ein Begriff, den wir in Kap. 6 ausfçhrlich behandeln werden. Die zweifache Berçcksichtigung der gleichen Unterschiedlichkeit entfållt, wenn wir die beiden Messwertreihen nicht einzeln betrachten, sondern nur die jeweils zusammengehærenden Messwertpaare. Fçr jedes Messwertpaar i bilden wir die Differenz di : di xi1
xi2 :
5:18
Als nåchstes berechnen wir das arithmetische Mittel aller di -Werte: n P i1
di
:
5:19 n Hierbei ist darauf zu achten, dass n nicht die Anzahl aller Messwerte, sondern die Anzahl aller Messwertpaare angibt. Wir çberprçfen nun, wie sich Mittelwerte von Differenzen in (theoretisch unendlich) vielen Stichproben verteilen. (Man beachte, dass wir beim t-Test fçr unabhångige Stichproben die Verteilung der Differenzen von Mittelwerten und beim t-Test fçr abhångige Stichproben die Verteilung der Mittelwerte von Diffexd
renzen benætigen.) Die Streuung (oder der Standardfehler) der Verteilung der Mittelwerte von Differenzen lautet in Analogie zum Standardfehler des arithmetischen Mittels (vgl. Gl. 3.3): b rd b rxd p ; n
5:20
wobei wir die Streuung der Differenzen in der Population (rd ) aufgrund der Stichprobendifferenzen nach folgender Beziehung schåtzen: v n 2 u P v u u di uP n n uP u i1 2 2 u u
di xd t di t n b i1 :
5:21 rd i1 n 1 n 1 Die in einer Untersuchung ermittelte durchschnittliche Differenz kann nach folgender Beziehung hinsichtlich ihrer statistischen Bedeutsamkeit çberprçft werden: t
xd
d b rx d
:
5:22
Ist gemåû der Nullhypothese d 0, vereinfacht sich Gl. (5.22) zu t
xd : b rxd
5:23
Der nach Gl. (5.23) ermittelte t-Wert wird anhand Tabelle D mit dem fçr ein Signifikanzniveau kritischen t-Wert verglichen. Das Ergebnis ist signifikant, wenn der beobachtete t-Wert græûer ist als der fçr ein bestimmtes Signifikanzniveau und df n 1 (n Anzahl der Messwertpaare!) kritische t-Wert. Nach dem zentralen Grenzwerttheorem geht die Verteilung der Differenzmittelwerte bei zunehmendem Stichprobenumfang in eine Normalverteilung çber, sodass die Irrtumswahrscheinlichkeit eines t-Wertes auch in Tabelle B abgelesen werden kann.
Voraussetzungen Bei kleineren Stichprobenumfången (n Anzahl der Messwertpaare < 30) muss die Voraussetzung erfçllt sein, dass sich die Differenzen in der Grundgesamtheit normalverteilen. Diese Voraussetzung gilt als erfçllt, wenn sich die Differenzen in der Stichprobe angenåhert normalverteilen (ein
a5.1.3
145
Vergleich zweier Stichprobenmittelwerte aus abhångigen Stichproben (t-Test)
Verfahren zur Ûberprçfung dieser Voraussetzung werden wir unter 5.3.2 kennenlernen). Wie beim t-Test fçr unabhångige Stichproben gilt jedoch auch hier, dass der Test auf Voraussetzungsverletzungen relativ robust reagiert. Man sollte allerdings prçfen, ob hohe Messungen in der ersten Stichprobe mit hohen Messungen in der zweiten Stichprobe einhergehen. In Kap. 6 werden wir diese Art der Beziehung zweier Messwertreihen als positive Kovarianz bzw. Korrelation kennenlernen. Korrelieren die Messwertreihen nicht positiv, sondern negativ miteinander, verliert der t-Test fçr abhångige Stichproben an Teststårke. In diesem Fall kænnte ersatzweise das in 5.2.2 behandelte Verfahren (Wilcoxon-Test) eingesetzt werden. BEISPIEL Es wird çberprçft, ob Examenskandidaten in der Lage sind, ihre eigene Leistungsfåhigkeit richtig einzuschåtzen. Vor Durchfçhrung einer Klausur mit 70 Aufgaben sollen 15 Kandidaten angeben, wie viele Aufgaben sie vermutlich richtig læsen werden. Die Anzahl der richtig gelæsten Aufgaben wird mit der eingeschåtzten Anzahl durch einen t-Test fçr abhångige Stichproben verglichen. Wir wollen davon ausgehen, dass die Differenzen zwischen den Schåtzungen und den tatsåchlichen Leistungen normalverteilt sind. Da nicht gençgend Vorinformationen çber die Richtung mæglicher Fehleinschåtzungen vorliegen, wird die H1 ungerichtet formuliert. Das Ergebnis soll auf dem a 5%-Niveau abgesichert werden. Tabelle 5.2 erlåutert den Rechengang. Der empirisch ermittelte t-Wert liegt auûerhalb des durch die Grenzen t
14;2;5% 2;15 und t
14;97;5% 2;15 gekennzeichneten Bereiches fçr die Beibehaltung der H0, d. h. das Ergebnis ist signifikant (*). Der Richtung des Mittelwertunterschiedes entnehmen wir, dass die tatsåchlichen Leistungen unterschåtzt werden.
¹Optimaleª Stichprobenumfånge Fçr den Vergleich zweier Stichprobenmittelwerte aus abhångigen Stichproben werden die folgenden ¹optimalenª Stichprobenumfånge empfohlen, deren theoretischer Hintergrund in 4.8 behandelt wurde. Diese Angaben gelten fçr a 0;05, 1 b 0;80 und einseitigen Test. Weitere Werte findet man bei Cohen (1988) bzw. Bortz u. Dæring (2002, Kap. 9.2.2).
Effektgræûe: 1 2 p : "0 r 1 r
5:24 a
b r ist die Streuung des Merkmals in der Population, die çber Gl. (5.11) geschåtzt wird. Zur Berechnung von r (Korrelation zwischen den beiden Messwertreihen) wird auf S. 205 f. verwiesen. Man erkennt, dass diese Effektgræûe fçr konstantes 1 2 und r mit der Effektgræûe fçr den Vergleich zweier unabhångiger Stichproben identisch ist, wenn die beiden Messwertreihen in keinem Zusammenhang stehen (r 0. Sie wird græûer fçr positive r-Werte und kleiner fçr negative r-Werte. Dementsprechend reichen fçr die Absicherung eines nach Gl. (5.17) definierten Effektes bei einer positiven Korrelation kleinere Stichproben aus. Fçr eine Korrelation von r 0;5 wåren die folgenden Stichprobenumfånge (n Anzahl der Messwertpaare) optimal: "0 0;20
(schwacher Effekt)
0
" 0;30 "0 0;40 "0 0;50
: nopt 70 : nopt 40 (mittlerer Effekt)
0
" 0;60 "0 0;70 0
" 0;80
: nopt 156
: nopt 26 : nopt 19 : nopt 14
(starker Effekt)
: nopt 11:
Fçr die in Gl. (5.42 a) definierte Effektgræûe e0 kænnen wir auch schreiben l l2 p "0 1 2:
5:24 b rD rD , die Streuung der Differenzen, p wird çber Gl. (5.21) geschåtzt. Der Faktor 2 ist darauf zurçckzufçhren, dass die Tabelle 2.3 (Power-Tabelle) und die Tabelle 2.4 (Tabelle der Stichprobengræûen) bei Cohen (1988) sowohl fçr den t-Test fçr unabhångige als auch fçr abhångige Stichproben eingesetzt werden kann. Der Faktor p 2 macht die in Gl. (5.24 a) und Gl. (5.17) definierten Effektgræûen vergleichbar. Wçrden wir p den Faktor 2 in Gl. (5.24 b) weglassen, ergåbe sich folgende Unstimmigkeit: Fçr rD in Gl. (5.24 b) schreiben wir (vgl. Anhang B, Gl. B.36 und Gl. 6.57): q rD r21 r22 2 r r1 r2 : Bei gleichen Varianzen
r21 r22 r2 ergibt sich p p rD 2r2 2r r2 r 2
1 r :
5
146
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
Tabelle 5.2. Beispiel fçr einen t-Test (abhångige Stichproben)
5 Summen:
Geschåtzte Anzahl der gelæsten Aufgaben
Tatsåchliche Anzahl der gelæsten Aufgaben
di
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
40 60 30 55 55 35 30 35 40 35 50 25 10 40 55
48 55 44 59 70 36 44 28 39 50 64 22 19 53 60
±8 5 ±14 ±4 ±15 ±1 ±14 7 1 ±15 ±14 3 ±9 ±13 ±5
64 25 196 16 225 1 196 49 1 225 196 9 81 169 25
±96
1478
n P
n P
n 15 ;
i1 n P
di
d2i
Vp
n P
96 ;
i1
2
d2i 1478 ;
di 96 xd i1 15 n
6;4
di
962 1478 1478 614;4 863;6 n 15 i1 v u 2 n P u un di uP 2 i1 u di r t n 863; 6 p i1 61;7 7;9 r ^d 14 n 1 n P
d2i
i1
^d r 7; 9 7; 9 ^xd p p r 2;04 n 15 3; 87 t
xd 6; 4 ^ xd r 2; 04
df 14 ;
3;14
t
14;2;5%
2;15;
t
14;97;5 % 2;15
Wir nehmen nun an, die Korrelation zwischen den beiden abhångigen Stichproben sei Null, d. h., wir gehen von unabhångigen Stichproben aus. Man erhålt dann rD r
p 2
p d. h., rD çberschåtzt r um den Faktor 2. Eine Differenz l1 l2 wçrde also çber Gl. (5.17) zu einem anderen Effekt fçhren als çber Gl. (5.24 p p b) (ohne den Faktor 2). Der Faktor 2 in Gl. (5.24 b) stellt sicher, dass eine gegebene Differenz l1 l2 çber Gl. (5.17) zum gleichen Effekt fçhrt wie çber Gl. (5.24 b) (mit r = 0).
p Setzt man rD r 2
1 r in Gl. (5.24 b) ein, resultiert Gl. (5.24 a). Die Identitåt von Gl. (5.24 a) und (5.24 b) gilt allerdings nur, wenn, wie oben angenommen, die Varianzen gleich sind: r21 r22 r2 . Der Aufstellung ist zu entnehmen, dass bei einer Studie, in der eine Stichprobe zweimal untersucht wird, 26 Individuen benætigt werden, um einen mittleren Effekt ("0 = 0,5) mit einer Irrtumswahrscheinlichkeit von a = 0,05 und einer Teststårke von 1±b = 0,8 nachweisen zu kænnen, wenn die Korrelation der beiden Messwertreihen r = 0,5 betrågt. Erwartet man eine hæhere Korrelation, werden weniger Individuen benætigt (genauer hierzu
a5.1.4
vgl. Bortz u. Dæring 2002, Tab. 51 bzw. Cohen 1988, S. 62 ff.). Im o. g. Beispiel erreichnet man (z. B. çber Gl. 6.60) eine Korrelation von r = 0,86 und geschåtz2 te Varianzen von b rp 816,52 und b r 22 = 183,81. 1= Hieraus folgt b r
816;52 183;81=2=22,36 (vgl. S. 143). Damit ergibt sich nach Gl. (5.24 a) eine ex post geschåtzte Effektgræûe von "b 0 = 0,75. Ûber Gl. (5.24 b) erhålt man jedoch 6;4 p 2 1;15 : "b 0 7;9 Die Diskrepanz der beiden Effektgræûenschåtzungen ist auf die Heterogenitåt der Varianzen zurçckzufçhren (b r 21 816;52; b r 22 183;81). Da diese nur in Gl. (5.24 a) zum Tragen kommt (diese Gleichung basiert auf der Annahme r 21 r 22 ), ist die çber Gl. (5.24 b) ermittelte Effektgræûenschåtzung zu bevorzugen.
Gedankengang: Die Abweichung einer Messung xi von låsst sich zerlegen in
xi
xi
x
x
2
xi
xi
x2
x
2
xi
Die entsprechende Alternativhypothese kann gerichtet oder ungerichtet formuliert werden. Schåtzen wir die Populationsvarianz r2 aus den Daten nach Gl. (3.2) durch b r2 , ergibt sich der folgende Signifikanztest:
n X
2
xi
n X
i1
n X
x2
xi
i1
5:25
2
xi
n X
5:27
n X
x
2
i1
xi
x
x
:
5:28
2 konstant ist, kænnen
2
x
n X
xi
2 x :
5:29
i1
Die Summe dern Abweichungen aller Messwerte P vom Mittelwert
xi x ergibt Null, sodass sich i1 (5.29) zu 2
xi
i1
n X
x2 n
x
xi
2
5:30
i1
reduziert. Dividieren wir Gl. (5.30) durch die Populationsvarianz r2 , ergibt sich n P
Da
xi n X
n P
2
xi
i1
Herleitung der Prçfgræûe. Warum sich die rechte Seite von (5.25) v2
n 1 -verteilt, zeigt der folgende
x2 n
x
xi
i1
r2
i1
xi
x2
r2 =r z, resultiert
2
Der nach Gl. (5.25) ermittelte v -Wert hat n 1 Freiheitsgrade und kann anhand Tabelle C auf Signifikanz çberprçft werden.
n X
i1
i1
1 b r : 2 rA
:
Die Summe der quadrierten Abweichungen çber alle Messwerte lautet
n X
r2 r2A :
n
2
x
x
Da der Ausdruck
x wir schreiben
Gelegentlich kann es interessant sein zu wissen, ob eine Stichprobe aufgrund der Unterschiedlichkeit ihrer Messwerte (= Varianz- bzw. Standardabweichung der Messwerte) zu einer bestimmten Grundgesamtheit gehært. Der folgende Test çberprçft die Nullhypothese, dass die Grundgesamtheit, aus der eine Stichprobe gezogen wurde, hinsichtlich ihrer Varianz mit einer anderen Grundgesamtheit A identisch ist:
v2
5:26
i1
5.1.4 Vergleich einer Stichprobenvarianz mit einer Populationsvarianz
2
:
Die Abweichung eines Wertes xi von setzt sich aus der Abweichung des Messwertes vom Stichprobenmittelwert und der Abweichung des Stichprobenmittelwertes vom Mittelwert der Grundgesamtheit zusammen. Quadrieren wir (5.26), ergibt sich
2
H0:
5
147
Vergleich einer Stichprobenvarianz mit einer Populationsvarianz
n P
z2i i1
xi r2
x2
n
x 2 : r2
n
x 2 : r2
5:31
5:32
Sind dien Messwerte um normalverteilt, entP 2 zi nach Gl. (2.52) einem v2n -Wert. spricht i1
148
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
Dividieren wir Zåhler und Nenner des ganz rechts stehenden Ausdrucks durch n, erhalten wir im Nenner das Quadrat des Standardfehlers des arithmetischen Mittelwertes r2x r2 =n.
x 2 = r2x ist somit auch ein quadrierter z-Wert. Die Verteilung von Mittelwerten aus Stichproben einer normalverteilten Grundgesamtheit ist nach dem zentralen Grenzwerttheorem normal, sodass nach Gl. (2.50) diesem z2 -Wert ein v21 -Wert entspricht: n
x 2
x 2 r2 r2 =n
5
x
2 b r2x
z2 v21 :
5:33
Fçr Gl. (5.32) kænnen wir somit schreiben: n P
v2n i1 Da b r2
n v2n
xi
n P i1
x2
r2
v21 :
xi x2 =
n 1, ergibt sich
1 b r2 bzw.
n
2
1 b r v21 : r2
5:34 n P i1
xi x2
5:35
Durch Umstellen erhalten wir 1 b r2 v2n v21 :
5:36 r2 Unter 2.5.2 wurde bereits darauf hingewiesen, dass die Summe (Differenz) von 2 v2 -Werten mit n1 und n2 Freiheitsgraden ebenfalls mit n1 n2 (bzw. n1 n2 ) Freiheitsgraden v2 -verteilt ist. Die Testgræûe
n 1 b r2 =r2 , die wir benætigen, um den Unterschied zwischen einer Stichprobenvarianz und einer Populationsvarianz auf Signifikanz prçfen zu kænnen, ist somit v2 -verteilt mit df n 1:
n
v2
n 1
n
1 b r2 : r2
5:37
Wie die Ableitung zeigt, mçssen wir bei der Durchfçhrung dieses Signifikanztests darauf achten, dass die Grundgesamtheit, aus der die Stichprobe entnommen wurde, normalverteilt ist.
BEISPIEL Es soll die Hypothese çberprçft werden, dass sich Patienten mit bipolarer Stærung (depressive und manische Episoden) stårker in ihren Gestimmtheiten unterscheiden als ¹normaleª Personen. Aufgrund der Eichstichprobe eines Stimmungsfragebogens wissen wir, dass die Testwerte der Grundgesamtheit mit rA 15 streuen. Bei einer Stichprobe von n 80 Patienten schåtzen wir eine Populationsstreuung von b r 19. Da wir vermuten, dass Patienten mit bipolarer Stærung hæhere Stimmungsschwankungen aufweisen, soll die H0: rA r einseitig auf dem 5%-Niveau getestet werden. Ferner wollen wir annehmen, dass sich die Testwerte normalverteilen. Nach Gl. (5.25) ermitteln wir folgenden v2 -Wert: v2
80
1 192 126;75 : 152
Das Beispiel ist so geartet, dass die Wahrscheinlichkeit fçr die Richtigkeit der H1 mit græûer werdendem v2 zunimmt. Wir suchen deshalb in Tabelle C denjenigen v2 -Wert heraus, der von der rechten Seite der v279 -Verteilung (die praktisch mit der v280 -Verteilung identisch ist) 5% abschneidet. Dies ist der Wert 101,88. Da der gefundene v2 -Wert græûer ist, unterscheidet sich die Varianz der Testwerte der Patienten mit bipolarer Stærung signifikant von der Varianz in der ¹Normalª-Population.
Hinweis: Wåre H1 in der Weise gerichtet formuliert worden, dass r2 < r2A vermutet wird, muss der ermittelte v2 -Wert mit demjenigen v2 -Wert verglichen werden, der von der linken Seite der v2 -Verteilung 5% bzw. 1% abschneidet. In diesem Fall ist das Ergebnis signifikant, wenn der gefundene Wert kleiner ist als der theoretische Wert. Testen wir zweiseitig, bestimmen wir anhand der v2-Tabelle diejenigen v2 -Werte, die von beiden Seiten der Verteilung jeweils 2,5% (0,5%) abschneiden. Liegt der empirische v2 -Wert auûerhalb des durch diese beiden Werte gekennzeichneten Bereichs, ist das Ergebnis auf dem 5%(1%)-Niveau signifikant.
" 5.1.5 Vergleich zweier Stichprobenvarianzen (F-Test) Eine Stichprobenvarianz wird in der Praxis håufiger mit einer anderen Stichprobenvarianz verglichen als mit einer Populationsvarianz. Der hier indizierte F-Test çberprçft die Null-Hypothese, dass die beiden zu vergleichenden Stichproben aus Grundgesamtheiten mit gleichen Varianzen stammen, d. h. dass mægliche Varianzunterschiede nur stichprobenbedingt bzw. zufållig sind:
a5.1.5
149
Vergleich zweier Stichprobenvarianzen (F-Test)
r21 r22 :
H0:
r22 bilAusgehend von den Schåtzwerten b r21 und b den wir folgenden F-Wert: F
b r21 =r21 : b r22 =r22
5:38
Da gemåû der H0 r21 r22, reduziert sich (5.38) zu: b r21 :
5:39 b r22 Die in Gl. (5.39) definierte Prçfgræûe ist unter der Voraussetzung, dass das untersuchte Merkmal normalverteilt ist, mit dfZ n1 1 Zåhlerfreiheitsgraden und dfN n2 1 Nennerfreiheitsgraden F-verteilt. F
Herleitung der Prçfgræûe. Nach Gl. (2.58) ist ein F-Wert folgendermaûen definiert: F
n1
1;n2 1
v2
n1
1 =
n1 2 v
n2 1 =
n2
1 1
:
5:40
Fçr b r21 und b r22 erhalten wir nach Gl. (5.37) durch Umstellen b r21 b r22
v2
n1
1
n1 v2
n2
r21
und
1 1
n2
r22 1
:
5:41 a
5:41 b
Setzen wir (5.41 a u. b) in (5.39) ein, ergibt sich v2
n1 F
1
n1 2 v
n2 1 n2
r21
r21 1 : r22
5:42
1 r22
Da und unter der Annahme, die H0 sei richtig, gleich sind, reduziert sich Gl. (5.42) zu Gl. (5.40), d. h., der Quotient b r21 =b r22 ist F-verteilt. Die Zåhler-df sind durch n1 1 und die Nenner-df durch n2 1 bestimmt. Beim F-Test mçssen wir bei kleinen Stichproben (n1, n2 < 30) voraussetzen, dass die Grundgesamtheiten normalverteilt sind. BEISPIEL Es wird gefragt, ob Leser einer Zeitung A eine homogenere Meinung vertreten als Leser einer Zeitung B (gerichtete Hypothese, a 5%). Auf Grund eines Fragebogens wird bei
120 Lesern der Zeitung A und bei 100 Lesern der Zeitung B ein Einstellungsindex ermittelt, von dem wir annehmen, er sei normalverteilt. Diese Indizes haben bei den A-Lesern eine Varianz von b r2A 80 und bei den B-Lesern eine Varianz von b r2B 95. Der F-Wert lautet somit nach (5.39) F
95 1;19 : 80
Der F-Tabelle (Tabelle E) entnehmen wir, dass bei 99 Zåhlerfreiheitsgraden und 119 Nennerfreiheitsgraden ein F-Wert von ca. 1,40 auf dem 5%-Niveau erwartet wird. Der empirisch ermittelte F-Wert liegt unter diesem Wert, d. h., die Varianzen der Einstellungen der Leser beider Zeitungen unterscheiden sich nicht signifikant.
Hinweise: Es ist darauf zu achten, dass bei einseitigem Test diejenige Varianz im Zåhler steht, die nach der H1 die græûere sein mçsste. Der Grund hierfçr ist darin zu sehen, dass die F-Tabelle im Anhang E nur diejenigen F-Werte enthålt, die von der rechten Seite der F-Verteilung (1 < F < 1) 5% (1%) abschneiden. Auf die tabellarische Wiedergabe von F-Verteilungsintegralen im Bereich 0 < F < 1, die benætigt werden, wenn die kleinere Varianz im Zåhler steht, wurde verzichtet. Somit sind auch die fçr zweiseitige Tests benætigten theoretischen F-Werte in Tabelle E nicht enthalten. Da der F-Test jedoch ± zumindest im Rahmen der im Teil II zu besprechenden varianzanalytischen Verfahren ± fast ausschlieûlich einseitig verwendet wird, sind die in Tabelle E enthaltenen Werte fçr die meisten Fragestellungen ausreichend. Der hier beschriebene F-Test setzt Unabhångigkeit der verglichenen Stichproben voraus. Eine Alternative zu Gl. (5.39) wurde von Kristof (1981) vorgeschlagen: b r22 p r2 b t
n 1 1 n 1:
5:39 a 2b r1 b r2 Gl. (5.39 a) setzt n = n1&n2 voraus. Schåtzen wir n im o. g. Beispiel mit (n1 + n2)/2 = 110, ergibt sich 80 95 p t109 p 109 0;90 : 2 80 95 Auch dieser Wert ist gem. Tafel D des Anhangs (tcrit&±1,68) nicht signifikant Fçr den Vergleich von Varianzen aus abhångigen Stichproben empfiehlt Kristof (1981) folgenden Test: t
n
2
p b r2 p2 n 2 : 2 2b r1 b r2 1 r b r 21
5:39 b
5
150
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
r steht hier fçr ¹Korrelation zwischen den abhångigen Stichprobenª, die z. B. çber Gl. (6.60) berechnet werden kann. Weitere Information zu dieser Thematik findet man bei Wilcox (1989).
5.2 Verfahren fçr Ordinaldaten
5
Sieht der Untersuchungsplan die Erhebung von Rangreihen vor, oder kann die Annahme, die Daten haben Intervallskalencharakter, nicht aufrechterhalten werden (zur Diskussion dieser Annahme vgl. Bortz u. Dæring, 2002, S. 180 f.), kænnen die unter 5.1 beschriebenen Verfahren nicht eingesetzt werden. Desgleichen mçssen wir auf diese Verfahren verzichten, wenn ± insbesondere bei kleineren Stichprobenumfången ± die jeweiligen Voraussetzungen (normalverteilte Grundgesamtheit und ggf. Varianzhomogenitåt) nicht erfçllt sind. In diesen Fållen benætigen wir spezielle, voraussetzungsårmere Verfahren, die lediglich die ordinale Information der Daten auswerten. Einen ausfçhrlichen Ûberblick çber diese Verfahren (verteilungsfreie Verfahren) findet man z. B. bei Bortz et al. (2000, Kap. 6) bzw. Bortz u. Lienert (2003, Kap. 3). Wir wollen uns hier nur mit den håufigsten Problemfållen beschåftigen, bei denen es um den Vergleich zweier Stichproben hinsichtlich ihrer zentralen Tendenz geht (im Unterschied zu Kap. 5.1 sprechen wir hier nicht von Mittelwertsvergleichen, da bei ordinalen Daten das arithmetische Mittel nicht definiert ist). Wie in 5.1 unterscheiden wir zwischen abhångigen und unabhångigen Stichproben.
5.2.1 Vergleich von zwei unabhångigen Stichproben hinsichtlich ihrer zentralen Tendenz (U-Test von Mann-Whitney) Es soll çberprçft werden, ob die Beeintråchtigung der Reaktionszeit unter Alkoholeinfluss durch die Einnahme eines Pråparates A wieder aufgehoben werden kann. Da wir nicht davon ausgehen kænnen, dass Reaktionszeiten normalverteilt sind, entscheiden wir uns fçr ein Verfahren, das nur die ordinale Information der Daten berçcksichtigt und das nicht an die Normalverteilungsvoraussetzung geknçpft ist.
An einem Reaktionsgeråt werden 12 Personen (Gruppe 1) mit einer bestimmten Alkoholmenge und 15 Personen (Gruppe 2), die zusåtzlich Pråparat A eingenommen haben, getestet. Es mægen sich die in Tabelle 5.3 genannten Reaktionszeiten ergeben haben. In Tabelle 5.3 wurde in aufsteigender Reihenfolge eine gemeinsame Rangreihe aller 27 Messwerte gebildet. Wenn eine der beiden Gruppen langsamer reagiert, mçsste der Durchschnitt der Rangplåtze (R) in dieser Gruppe hæher sein als in der anderen Gruppe. Der Unterschied von R1 und R2 kennzeichnet also mægliche Unterschiede in den Reaktionszeiten. Fçr die erste Gruppe erhalten wir eine Rangsumme von T1 172 bzw. R1 14;33 und fçr die zweite Gruppe T2 206 bzw. R2 13;73. T1 und T2 sind durch die Beziehung n
n 1
n n1 n2
5:43 2 miteinander verknçpft. Als nåchstes wird eine Prçfgræûe U (bzw. U0 ) bestimmt, indem wir auszåhlen, wie håufig ein Rangplatz in der einen Gruppe græûer ist als die Rangplåtze in der anderen Gruppe. In unserem Beispiel erhalten wir den U-Wert folgendermaûen: Die erste Person in Gruppe 1 hat den Rangplatz 4. In Gruppe 2 befinden sich 13 Personen mit einem hæheren Rangplatz. Als nåchstes betrachten wir die 2. Person in Gruppe 1 mit dem Rangplatz 17. Dieser Rangplatz wird von 5 Personen in Gruppe 2 çbertroffen. Die 3. Person der Gruppe 1 hat Rangplatz 22, und es befinden sich 3 Personen in Gruppe 2 mit hæherem Rangplatz usw. Addieren wir diese aus n1 n2 Vergleichen resultierenden Werte, ergibt sich der gesuchte U-Wert (in unserem Beispiel U 13 5 3 . . .). Ausgehend von der Anzahl der Rangplatzunterschreitungen erhalten wir U0. U und U0 sind nach folgender Beziehung miteinander verknçpft: T1 T2
U n1 n2
U0 :
5:44
Die recht mçhsame Zåhlarbeit bei der Bestimmung des U-Wertes kann man sich ersparen, wenn folgende Beziehung eingesetzt wird: n1
n1 1 T1 : 2 Danach ist U in unserem Beispiel U n1 n2
5:45
a5.2.1
Tabelle 5.3. Beispiel fçr einen Mann-Whitney-U-Test Mit Alkohol Reaktionszeit (ms)
z
Mit Alkohol und Pråparat A Rangplatz
85 106 118 81 138 90 112 119 107 95 88 103
4 17 22 2 27 8 21 23 18 9 7 14 T1 172
Reaktionszeit (ms) 96 105 104 108 86 84 99 101 78 124 121 97 129 87 109
Rangplatz 10 16 15 19 5 3 12 13 1 25 24 11 26 6 20 T2 206
U 12 15
12 13 2
172 86 ;
bzw. durch Austausch von n1 und n2 in Gl. (5.45) und unter Verwendung von T2 : 15 16 206 94 : 2 Zur Rechenkontrolle çberprçfen wir, ob Gl. (5.44) erfçllt ist: U0 12 15
86 12 15
U
94 :
Unterscheiden sich die Populationen, aus denen die Stichproben entnommen wurden, nicht, erwarten wir unter der H0 einen U-Wert von n1 n2 :
5:46 U 2 Alle denkbaren U-Werte sind um U symmetrisch verteilt. Die Streuung der U-Werte-Verteilung (Standardfehler des U-Wertes) lautet: r n1 n2
n1 n2 1 :
5:47 rU 12 Die Verteilung der U-Werte um U ist bei græûeren Stichproben (n1 oder n2 > 10) angenåhert normal, sodass der folgende z-Wert anhand Tabelle B auf seine statistische Bedeutsamkeit hin çberprçft werden kann:
5
151
Vergleich von zwei unabhångigen Stichproben hinsichtlich ihrer zentralen Tendenz
U : rU
5:48
Fçr das Beispiel errechnet man 12 15 90 und 2 r 12 15
12 15 1 20;49 : rU 12
U
Da U und U0 symmetrisch zu U liegen, ist es unerheblich, ob U oder U0 in Gl. (5.48) eingesetzt werden. Wir ermitteln fçr z z
86 90 20;49
0;20 :
Gemåû unserer Fragestellung ist dieser z-Wert einseitig zu prçfen. Wir entnehmen Tabelle B den kritischen Wert z5% 1;65, sodass die H0 wegen 1;65 < 0;20 beizubehalten ist.
Kleine Stichproben Bei kleineren Stichprobenumfången wird die Signifikanzçberprçfung eines U-Wertes anhand Tabelle F vorgenommen, in der fçr n1 8 und n2 8 die exakten Irrtumswahrscheinlichkeiten der U-Werte tabelliert sind. Die Tabelle ermæglicht die Bestimmung von einseitigen und zweiseitigen Irrtumswahrscheinlichkeiten. Wir definieren U < U0 und lesen bei einseitigem Test die zu U gehærende Irrtumswahrscheinlichkeit ab. Bei zweiseitigem Test ist die entsprechende Irrtumswahrscheinlichkeit zu verdoppeln, auûer fçr U 0 . In diesem Fall ist die H0 beizubehalten. Fçr 1 < n1 20 und 9 n2 20 enthålt die Tabelle kritische U-Werte, die von U erreicht oder unterschritten werden mçssen, um bei dem jeweils genannten a-Niveau bei ein- oder zweiseitigem Test signifikant zu sein. Der kritische U-Wert fçr unsere Fragestellung (n1 12, n2 15, a 0;05, einseitiger Test) lautet Ucrit 55. Wegen U 86 > 55 kommen wir also zum gleichen Ergebnis wie nach Gl. (5.48): Der Unterschied ist nicht signifikant, d. h., H0 ist beizubehalten. Eine Aufhebung des Alkoholeinflusses durch das Pråparat A kann nicht nachgewiesen werden.
152
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
Verbundene Rånge Liegen verbundene Rånge vor, weil sich mehrere Personen einen Rangplatz teilen, wird die Streuung des U-Wertes folgendermaûen korrigiert: r n1 n2 rUcorr n
n 1 v u k 3 un 3 n X ti ti ;
5:49 t 12 12 i1
5
wobei n n1 n2 ti Anzahl der Personen, die sich Rangplatz i teilen, k Anzahl der verbundenen Rånge. Wie man verbundene Rånge bestimmt, zeigt das folgende Beispiel: BEISPIEL Zwei Schçlergruppen (n1 10, n2 11) spielen Theater. Die Schauspieler werden hinterher mit 8 Preisen belohnt, wobei eine Jury entscheidet, wie die 8 Preise verteilt werden sollen. Der beste Schauspieler erhålt den 1. Preis, der zweitbeste den 2. Preis usw. Da nur 8 Preise zur Verfçgung stehen, aber mæglichst viele Schçler einen Preis erhalten sollen, mçssen sich einige Schçler Preise teilen. Es soll çberprçft werden, ob sich die beiden Schauspielergruppen signifikant in ihrer schauspielerischen Leistung unterscheiden (zweiseitiger Test, a 5%). Die Preisverteilung fçhrt zu folgenden Ergebnissen: Sch uler
9
Gruppe 1
Sch uler Sch uler
2 6
Gruppe 1 Gruppe 1
1: Preis
Sch uler 10
Gruppe 2
Sch uler Sch uler
4 7
Sch uler
3
Sch uler Sch uler
1 3
Gruppe 1 Gruppe 1 ü ý Gruppe 2 þ
Gruppe 1 Gruppe 1 ü
Sch uler
4
Sch uler Sch uler
8 1
Gruppe 2 þ Gruppe 1 Gruppe 2 ü
Sch uler
5
ü ý þ
ý
ý Gruppe 2 þ
2: Preis
Daraus resultiert die in Tabelle 5.4 dargestellte gemeinsame Rangreihe der Schçler, wobei die 8 Schçler ohne Preis nach ihren Leistungen auf die Rangplåtze 14 bis 21 verteilt werden. Die verbundenen Rånge (Rangverbindungen) erhalten wir, indem Schçlern mit gleichem Rangplatz der Durchschnitt der fçr diese Schçler normalerweise zu vergebenden Rangplåtze zugewiesen wird. Beispiel: 3 Schçler teilen sich den 2. Preis; jeder dieser Schçler erhålt den Rangplatz (2 + 3 + 4)/3 = 3. Fçr Gruppe 1 ermitteln wir T1 76 und fçr Gruppe 2 T2 155 (Kontrolle nach Gl. 5.43: 76 155 21 22=2). U berechnen wir nach Gl. 5.46 zu: U
Die U-Werte lauten nach Gl. (5.45) U 10 11
4. Preis 5: Preis 6. Preis 7: Preis 8. Preis
10
10 1 2
76 89
11
11 1 2
155 21 :
und U0 10 11
Gleichung (5.44) ist erfçllt. Um die fçr Rangbindungen korrigierte U-Werte-Streuung zu ermitteln, wenden wir uns zunåchst dem Ausdruck k 3 X t i
i1
ti 12
zu. Aus Tabelle 5.4 entnehmen wir die folgenden 4 Rangbindungsgruppen: t1 3 Sch uler mit dem Rang 3; uler mit dem Rang 6,5; t2 2 Sch uler mit dem Rang 9,5; t3 2 Sch t4 2 Sch uler mit dem Rang 12,5: Der Summenausdruck lautet somit 4 3 X t i
3: Preis
10 11 55 : 2
i1
ti 12
33 3 23 2 23 2 23 2 3;5 : 12 12 12 12
Fçr rUcorr ermitteln wir daher s 213 21 10 11 3;5 14;17 : rUcorr 21
21 1 12 Dies fçhrt nach (5.48) zu einem z-Wert von z
89 55 2;40 : 14;17
Nach Tabelle B erwarten wir bei zweiseitigem Test fçr das a 5%-Niveau einen z-Wert von 1;96. Da der empirisch ermittelte z-Wert auûerhalb dieses z-Wert-Bereichs liegt, unterscheiden sich die beiden Schçlergruppen signifikant auf dem 5%-Niveau.
a5.2.2
153
Vergleich von zwei abhångigen Stichproben hinsichtlich ihrer zentralen Tendenz
Tabelle 5.4. Mann-Whitney-U-Test fçr verbundene Rånge Gruppe 1
Tabelle 5.5. Beispiel fçr einen Wilcoxon-Test (n < 25)
Gruppe 2
Schçler
Rangplatz
Schçler
1 2 3 4 5 6 7 8 9 10
8 3 9,5 5 14 3 6,5 11 1 15
1 2 3 4 5 6 7 8 9 10 11
T1 76
Rangplatz 12,5 21 6,5 9,5 12,5 18 17 20 16 3 19
Betrieb
1 2 3 4 5 6 7 8 9 10
(1) vorher
(2) (3) nachher di
(4) Rangplatz von jdi j
8 23 7 11 5 9 12 6 18 9
4 16 6 12 6 7 10 10 13 6
7,5 10 2 2(±) 2(±) 4,5 4,5 7,5(±) 9 6 T 11;5 T0 43;5
T2 155
Hinweise: Fçr kleinere Stichproben mit verbundenen Rången verwendet man eine von Buck (1976) entwickelte Tabelle, die in Auszçgen bei Bortz et al. (2000, Tafel 7) wiedergegeben ist. Der hier beschriebene U-Test von Mann u. Whitney (1947) und der Rangsummentest von Wilcoxon (1947) sind mathematisch åquivalent.
5.2.2 Vergleich von zwei abhångigen Stichproben hinsichtlich ihrer zentralen Tendenz (Wilcoxon-Test) Es soll der Erfolg von Unfallverhçtungsmaûnahmen in Betrieben çberprçft werden. In 10 zufållig herausgegriffenen Betrieben werden die Werktåtigen çber Mæglichkeiten der Unfallverhçtung informiert. Verglichen wird die monatliche Unfallzahl vor und nach der Aufklårungskampagne. Die in Tabelle 5.5 genannten Unfallhåufigkeiten wurden registriert. Da wir nicht davon ausgehen kænnen, dass sich Unfallzahlen normalverteilen, und da die Stichprobe klein ist, entscheiden wir uns fçr ein verteilungsfreies Verfahren. Es wurde die gleiche Stichprobe zweimal untersucht, sodass der WilcoxonTest fçr Paardifferenzen angezeigt ist (Wilcoxon, 1945, 1947). Nach diesem Verfahren kann die H0 (die beiden Messwertreihen stammen aus Populationen, die keine Unterschiede hinsichtlich der zentralen Tendenz aufweisen) folgendermaûen çberprçft werden (a 1%, einseitiger Test): Wie
4 7 1 ±1 ±1 2 2 ±4 5 3
beim t-Test fçr abhångige Stichproben wird zunåchst fçr jedes Messwertepaar die Differenz di berechnet (Spalte 3). Die Absolutbetråge der Differenzen werden in eine Rangreihe gebracht (Spalte 4), wobei wir diejenigen Rangplåtze kennzeichnen, die zu Paardifferenzen mit dem selteneren Vorzeichen gehæren (zur Ermittlung verbundener Rangplåtze vgl. 5.2.1). In unserem Beispiel sind dies die negativen Paardifferenzen. Die Summe der Rangplåtze von Paardifferenzen mit dem selteneren (hier negativen) Vorzeichen kennzeichnen wir durch T und die Summe der Rangplåtze von Paardifferenzen mit dem håufigeren Vorzeichen durch T0 . Sollte ein Paar aus gleichen Messwerten bestehen (was auf unser Beispiel nicht zutrifft), ist die Paardifferenz Null. In diesem Fall kann nicht entschieden werden, zu welcher Gruppe von Paardifferenzen (mit positivem oder negativem Vorzeichen) die Differenz gehært. Paare mit NullDifferenzen bleiben deshalb in der Rechnung unberçcksichtigt. Das n wird um die Anzahl der identischen Messwertpaare reduziert. Ist die Anzahl der Null-Differenzen groû, so weist dieser Tatbestand bereits auf die Richtigkeit der H0 hin. (Ausfçhrliche Hinweise zur Behandlung von Nulldifferenzen findet man bei Bortz et al., 2000, S. 262 ff.). In unserem Beispiel ermitteln wir T 11;5
und
T0 43;5 :
T und T0 sind durch die Beziehung (5.50) miteinander verbunden.
5
154
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
n
n 1 ;
5:50 2 wobei n Anzahl der Paardifferenzen. Je deutlicher sich T und T0 unterscheiden, um so unwahrscheinlicher ist die H0 . Unter der Annahme der H0, dass die Stichproben aus Populationen mit gleicher zentraler Tendenz stammen, erwarten wir als T-Wert die halbe Summe aller Rangplåtze: T T0
n
n 1 :
5:51 4 Bezogen auf unsere Daten ergibt sich 10 11 27;5 : T 4 Je deutlicher der empirische T-Wert von T abweicht, um so geringer ist die Wahrscheinlichkeit, dass der gefundene Unterschied zufållig zustande gekommen ist, bzw. die Wahrscheinlichkeit, dass das gefundene Ergebnis mit der H0 vereinbar ist. Tabelle G informiert darçber, welche untere T-Wert-Grenze bei gegebenem a-Fehler-Niveau und ein- bzw. zweiseitigem Test zu unterschreiten ist. Fçr den einseitigen Test unseres Beispiels lautet der kritische Wert fçr n 10 und a 1%: T 5. Da der empirische Wert (T 11;5) græûer ist (d. h. nicht so extrem von T abweicht wie der fçr das 1%-Niveau benætigte T-Wert), kann die H0 nicht verworfen werden. Die Aufklårungskampagne hat keinen signifikanten Einfluss auf die Unfallzahlen ausgeçbt. T
5
Groûe Stichproben Tabelle G enthålt nur die kritischen T-Werte fçr Stichproben mit maximalem n 25. Bei græûeren Stichprobenumfången geht die Verteilung der T-Werte in eine Normalverteilung çber, sodass die Standardnormalverteilungstabelle benutzt werden kann. Die fçr die Transformation eines T-Wertes in einen z-Wert benætigte Streuung der T-Werte (Standardfehler des T-Wertes) lautet: v u k t3 P u ti i un
n 1
2 n 1 t 2 i1 rT 24
5:52 mit k Anzahl der Rangbindungen und ti Långe der Rangbindung i.
BEISPIEL Es soll çberprçft werden, ob Ehepartner das ihnen zur Verfçgung stehende Einkommen zu gleichen Teilen ausgeben (H0 ). Die Fragestellung soll zweiseitig mit einem a-Niveau von 5% çberprçft werden. Befragt wurden n 30 junge Ehepaare. Das Ergebnis der Befragung und die Auswertung zeigt Tabelle 5.6. Da die Differenzenverteilung deutlich bimodal ist, ziehen wir den Wilcoxon-Test fçr Paardifferenzen dem t-Test fçr abhångige Stichproben vor. Ein Ehepaar kann in der Rechnung nicht berçcksichtigt werden, da die von beiden Ehepartnern angegebenen Betråge identisch sind. Der T-Wert fçr die verbleibenden nred 29 Paare ist angenåhert normalverteilt, sodass wir die Signifikanzçberprçfung anhand der Normalverteilungstabelle vornehmen kænnen. Wir ermitteln einen empirischen z-Wert, der græûer ist als der fçr das a 5%-Niveau bei zweiseitigem Test erwartete z-Wert (z 1;96). Die H0 wird deshalb verworfen. Das den Ehepartnern zur Verfçgung stehende Einkommen wird nicht gleichanteilig ausgegeben.
" 5.3 Verfahren fçr Nominaldaten Nominaldatenverfahren sind indiziert, wenn Håufigkeitsunterschiede im Auftreten bestimmter Merkmale bzw. Merkmalskombinationen analysiert werden sollen. Da in fast allen Verfahren dieses Kapitels Prçfstatistiken ermittelt werden, die (approximativ) v2 -verteilt sind, werden die Verfahren zur Analyse von Håufigkeiten gelegentlich vereinfachend als v2 -Methoden bezeichnet. v2 -Methoden dienen der Analyse von Håufigkeiten.
Die Anwendung der v2-Methoden ist nicht nur auf nominale Variablen begrenzt. Sie kænnen auch eingesetzt werden, wenn fçr die Kategorien eines intervallskalierten Merkmals (oder eines ordinalen Merkmals mit vielen Rangbindungen) Håufigkeiten vorliegen, fçr deren Analyse kein skalenspezifisches Verfahren zur Verfçgung steht. Die Merkmale werden dann wie nominalskalierte Merkmale behandelt, wobei allerdings die Intervall-(bzw. Ordinal-)skaleninformation verlorengeht. In Tabelle 5.7 sind die im Folgenden zu besprechenden v2 -Verfahren tabellarisch zusammengestellt. Ferner ist gekennzeichnet, wo die einzelnen Verfahren behandelt werden. Um das Herausfinden des richtigen Verfahrens zu erleichtern, sei im Folgenden fçr jedes Verfahren (ausgenommen Verfahren h, dessen Indikati-
a5.3
155
Verfahren fçr Nominaldaten
Tabelle 5.6. Beispiel fçr einen Wilcoxon-Test (n > 25) Ehepaar Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
<
,
Differenz
Rang
680 820 660 650 700 890 500 770 600 800 820 870 880 720 520 850 780 820 800 540 850 830 780 1040 980 1200 940 810 870 1150
680 850 630 620 740 850 550 720 650 740 750 940 810 650 600 750 900 950 650 700 690 650 960 850 780 980 720 560 580 840
0 ±30 30 30 ±40 40 ±50 50 ±50 60 70 ±70 70 70 ±80 100 ±120 ±130 150 ±160 160 180 ±180 190 200 220 220 250 290 310
± 2 2 2 4,5 4,5 7 7 7 9 11,5 11,5 11,5 11,5 14 15 16 17 18 19,5 19,5 21,5 21,5 23 24 25,5 25,5 27 28 29
nred 29
Rånge von negativen Differenzen 2 4,5 7 7 11,5 14 16 17 19,5 21,5
T 120
n
n 1 29 30 T 217;5 4 4 k t3 P t 1 i i
33 3
23 2
33 3
43 4 3
23 2 66 2 2 i1 v u k 3 P u ti ti r un
n 1
2 n 1 2 t 29 30 59 66 i1 46;22 rT 24 24 T T 120 217; 5 97; 5 z 2;11 46; 22 46; 22 rT Bei zweiseitigem Test (a 5%) ist die H0 im Bereich
1;96 < z < 1;96 beizubehalten.
on jedoch aus g ersichtlich wird) ein Beispiel genannt. Die den Beispielen zugeordneten Verfahren sind in Tabelle 5.7 zusammengefasst. a) Sind in den Sozialwissenschaften mehr weibliche oder mehr månnliche Studenten immatrikuliert?
b) Ist die Anzahl der Nichtraucher nach einer Aufklårungskampagne gestiegen? c) Hat sich die Anzahl einnåssender Kinder nach mehrfachem Konditionierungstraining geåndert? d) Wird eines von vier Waschmitteln çberzufållig håufig gekauft?
5
156
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
Tabelle 5.7. Ûbersicht der v2 -Verfahren 1 Merkmal
2 Merkmale
m Merkmale
2fach gestuft
(a) einmalige Untersuchung: eindimensionales v2 (S. 156 ff.) (b) zweimalige Untersuchung: McNemar-v2 -Test (S. 159 ff.) (c) mehrmalige Untersuchung: Cochran-Q-Test (S. 161 f.)
(e) 4-Felder-v2 -Test (S. 168 ff.)
(g) Konfigurationsfrequenzanalyse fçr alternative Merkmale (S. 175 f.)
mehrfach gestuft
(d) eindimensionales v2 : Vgl. einer empirischen Verteilung mit einer theoretischen Verteilung (S. 162 ff.)
(f) k lv2 -Test (S. 172 ff.)
(h) Konfigurationsfrequenzanalyse fçr mehrfach gestufte Merkmale (S. 176)
5 e) Gibt es mehr månnliche oder mehr weibliche Brillentråger? f) Ist die Art der Rorschachdeutungen bei verschieden altrigen Kindern unterschiedlich? g) Sind weibliche Personen in der Stadt besonders håufig berufståtig?
fb
1 fb
2
5:53 2 (wobei fb
1 und fb
2 beobachtete Håufigkeiten in den Merkmalsalternativen 1 und 2). Fçr unser Beispiel resultiert: fe
1 fe
2
869 576 1445 722;5 : 2 2 Abweichungen der beobachteten Håufigkeiten von den erwarteten Håufigkeiten sprechen gegen die H0 . Da die Summe dieser Abweichungen jedoch Null ergibt und somit informationslos ist, betrachten wir die Summe der quadrierten Abweichungen. Die Quadrierung hat zur Konsequenz, dass græûere (d. h. bei Gçltigkeit der H0 unwahrscheinlichere) Abweichungen stårker gewichtet werden: fe
1 fe
2
" 5.3.1 Vergleich der Håufigkeiten eines zweifach gestuften Merkmals Einmalige Untersuchung An einer Technischen Universitåt seien in einem Semester im Fachbereich Sozialwissenschaften 869 månnliche und 576 weibliche Studenten immatrikuliert. Kann man davon ausgehen, dass dieser Unterschied zufållig zustande gekommen ist? Die Antwort auf diese Frage ist davon abhångig, wie wir die Nullhypothese formulieren. Man kann einmal çberprçfen, ob dieses Zahlenverhåltnis mit der H0 vereinbar ist, dass die Anzahl månnlicher und weiblicher Studenten mit dem allgemeinen Geschlechterverhåltnis 50 : 50 çbereinstimmt. Eine andere H0 kænnte behaupten, dass das Verhåltnis månnlich zu weiblich im Fachbereich Sozialwissenschaften dem Verhåltnis månnlich zu weiblich an der gesamten Technischen Universitåt entspricht.
2 X j1
fe
j 2 :
Dieser Ausdruck kann nur Null werden, wenn die beobachteten Håufigkeiten und die erwarteten Håufigkeiten identisch sind. Summieren wir die an den erwarteten Håufigkeiten relativierten Abweichungsquadrate çber beide Kategorien, erhalten wir folgenden Ausdruck: 2
H0 : Gleichverteilte Merkmalsalternativen. Sollte die erste Nullhypothese zutreffen, erwarten wir genauso viele månnliche Studenten wie weibliche Studenten. Die gemåû H0 erwarteten Håufigkeiten (fe ) lauten deshalb fçr jede Merkmalsalternative:
fb
j
v
2 X
fb
j j1
fe
j 2 fe
j
:
5:54
Die in Gl. (5.54) definierte Prçfgræûe ist bei gençgend groûen Stichproben v2 -verteilt (vgl. hierzu die Voraussetzungen auf S. 159).
a5.3.1
Vergleich der Håufigkeiten eines zweifach gestuften Merkmals
An Gl. (5.54) erkennt man die Grundstruktur aller v 2 -Methoden: Alle v 2 -Methoden laufen auf einen Vergleich von beobachteten und erwarteten Håufigkeiten hinaus, wobei die erwarteten Håufigkeiten die jeweils geprçfte Nullhypothese repråsentieren.
Fçr unser Beispiel ermitteln wir ein v2 von v2
869
722;52
576 722;52 59;41 : 722;5 722;5
Freiheitsgrade. Aus Kap. 2.5.2 wissen wir, dass v2 -Verteilungen unterschiedliche Freiheitsgrade (df) aufweisen. Øhnlich wie bei der Varianz (vgl. S. 138) mçssen wir auch hier çberprçfen, wieviele Summanden in Gl. (5.54) unabhångig voneinander frei variieren kænnen. Dies ist offensichtlich nur ein Summand, denn der zweite Summand ist ± wie man sich leicht çberzeugen kann ± wegen fe
2 fe
1 ; fb
2 n fb
1 und fe
1 fe
2 n eindeutig festgelegt. Im Beispiel: fe
2 722;5; fb
2 = 1445±869 = 576; 1445 = 722,5 + 722,5. Der v2-Wert hat also einen Freiheitsgrad (df 1). Allgemein ergeben sich die Freiheitsgrade nach folgender Regel: Die Freiheitsgrade eines v 2 -Wertes entsprechen der Anzahl der Summanden gemåû Gl. (5.54) abzçglich der Bestimmungsstçcke fçr die Berechnung der erwarteten Håufigkeiten, die aus den beobachteten Håufigkeiten abgeleitet wurden.
In unserem Beispiel (Vergleich der Håufigkeiten eines zweifach gestuften Merkmals) gibt es nur ein gemeinsames Bestimmungsstçck. Dies ist der Stichprobenumfang n: Die Summe der beobachteten und die Summe der erwarteten Håufigkeiten ergibt jeweils n. Damit hat der errechnete v2 -Wert bei zwei Summanden und einem gemeinsamen Bestimmungsstçck 2 1 1 Freiheitsgrad. Anhand Tabelle C im Anhang çberprçfen wir die Irrtumswahrscheinlichkeit dieses v2 -Wertes mit einem Freiheitsgrad. Die dort aufgefçhrten, kritischen v2 -Werte gelten fçr ungerichtete Alternativhypothesen (im Beispiel: Der Anteil månnlicher Studenten unterscheidet sich vom Anteil weiblicher Studenten). Durch das Quadrieren der Differenzen fb fe tragen Håufigkeiten, die græûer oder kleiner sind als nach der H0 erwartet, zur Vergræûerung des v2 -Wertes bei. Fçr a 0;05 und df 1 entnehmen wir Tabelle C den Wert
157
v2
1;95% 3;84. (Dieser Wert schneidet von der v21 -Verteilung an der rechten Seite 5% ab.) Da der empirische v2 -Wert erheblich græûer ist, verwerfen wir die H0 und akzeptieren die H1 : Die Håufigkeiten fçr månnliche und weibliche Studierende sind im Fachbereich Sozialwissenschaften nicht gleichverteilt. (Man beachte, dass dieser und alle noch zu behandelnden v2 -Tests einseitig durchgefçhrt werden, denn man betrachtet nur die rechte Seite der v2 -Verteilung. Dies gilt fçr gerichtete und ungerichtete Hypothesen.)
Gerichtete Hypothesen. Bei einer gerichteten Hypothese (z. B.: Der Anteil månnlicher Studenten ist græûer als der Anteil weiblicher Studenten) lesen wir in Tabelle C denjenigen v2 -Wert ab, der fçr das verdoppelte a-Niveau austabelliert ist. Die Begrçndung lautet: Beim einseitigen Test çber die Standardnormalverteilung benætigen wir diejenigen z-Werte, die links oder rechts von der Standardnormalverteilung a% abschneiden. Ûberfçhren wir durch Quadrieren die Standardnormalverteilung in eine v21 -Verteilung, fallen die (negativen) a% der linken Seite mit den positiven a% der rechten Seite zusammen, d. h., sie schneiden gemeinsam 2 a% der rechten Seite der v21 -Verteilung ab (vgl. hierzu auch Fleiss, 1973, S. 20 ff.). Soll die oben genannte gerichtete Hypothese z. B. auf dem a 5%-Niveau çberprçft werden, wåhlen wir denjenigen v21 -Wert, der 10% von der v21 -Verteilung abschneidet. Dieser Wert lautet v2
1;90% 2;71. Man beachte, dass dieser Wert kleiner ist als der fçr a 0;05 tabellierte v2 -Wert (v2
1;95% 3;84), d. h., ein empirischer v2-Wert wird bei einseitiger Fragestellung eher signifikant als bei zweiseitiger Fragestellung (vgl. hierzu auch 4.5). Der einseitige Test hat ± bei hypothesenkonformer Richtung der Håufigkeitsunterschiede ± eine hæhere Teststårke als der zweiseitige Test. Der einseitige Test kann auch direkt çber die Standardnormalverteilung durchgefçhrt werden. Hierzu transformieren wir unter Verwendung von Gl. (2.50) den v2 -Wert in einen p empirischen p 2 z-Wert (z v 59;41 7;71), der mit dem kritischen z-Wert (z95% 1;65) zu vergleichen ist. Der kritische z-Wert der Standardnormalverteilung entspricht p der Wurzel des kritischen v2
1 -Wertes
2;71 1;65.
5
158
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
Man beachte, dass dieser einseitige Test nur durchfçhrbar ist, wenn der geprçfte v2 -Wert einen Freiheitsgrad aufweist. Die Ûberprçfung einer gerichteten Hypothese im Kontext von v 2 -Verfahren ist nur mæglich, wenn der resultierende v 2 -Wert einen Freiheitsgrad hat.
5
H0 : Nicht gleichverteilte Merkmalsalternativen. Fçr die Ûberprçfung der zweiten Nullhypothese (das Verhåltnis månnlich zu weiblich im Fachbereich Sozialwissenschaften entspricht dem çblichen Verhåltnis månnlich zu weiblich an der gesamten Technischen Universitåt) gehen wir folgendermaûen vor: Den statistischen Unterlagen der TU entnehmen wir, dass sich die Studentenschaft in der Vergangenheit durchschnittlich aus 87% månnlichen und 13% weiblichen Studenten zusammensetzte, d. h., wir schåtzen die gem. H0 erwarteten Wahrscheinlichkeiten mit p(<) = 0,87 und mit p(,) = 0,13. Die H0 lautet: ¹Das Geschlechterverhåltnis månnlich zu weiblich im Fachbereich Sozialwissenschaften entspricht im untersuchten Semester dem an der gesamten TU çblichen Geschlechterverhåltnisª. Fçr die gem. H0 erwarteten Håufigkeiten errechnet man: fe
j n pj ;
5:55
wobei n = Gesamtzahl der beobachteten Fålle. pj ist ein Schåtzwert fçr pj, die Wahrscheinlichkeit der Kategorie j bei Gçltigkeit von H0 . Bezogen auf unser Beispiel (n = 1445 = Gesamtzahl aller Studenten im Fachbereich Sozialwissenschaften) resultieren die folgenden erwarteten Håufigkeiten: fe
< 0;87 1445 1257;15 ; fe
, 0;13 1445 187;85 : Auch hier ist die Summe der beobachteten Håufigkeiten mit der Summe der erwarteten Håufigkeiten identisch. Der Stichprobenumfang n ist also erneut das gemeinsame Bestimmungsstçck der beobachteten und der erwarteten Håufigkeiten, d. h., auch dieser v2 -Test hat einen Freiheitsgrad. Setzen wir die beobachteten Håufigkeiten und die erwarteten Håufigkeiten in Gl. (5.54) ein, erhalten wir:
1257;152
576 187;852 1257;15 187;85 921;87 :
v2
869
Dieser Wert ist sowohl bei zweiseitigem als auch einseitigem Test (z. B.: Der Anteil weiblicher Studenten ist im Fachbereich Sozialwissenschaften hæher als an der gesamten Technischen Universitåt) sehr signifikant. Ausgehend von der Nullhypothese, dass månnliche und weibliche Personen gleichhåufig studieren, sind im Fachbereich Sozialwissenschaften weitaus weniger weibliche Studenten vorhanden, als zu erwarten wåre. Beziehen wir den Vergleich jedoch auf die Nullhypothese, dass das Verhåltnis månnlich zu weiblich im Fachbereich Sozialwissenschaften dem Verhåltnis månnlich zu weiblich an der gesamten Technischen Universitåt entspricht, stellen wir fest, dass der Prozentsatz weiblicher Studenten weit çberproportional ist.
Håufigkeitsvergleich çber die Binomialverteilung. Das Ergebnis eines v2 -Tests erhalten wir auch, wenn die Håufigkeit der Alternative weiblich (oder månnlich) çber die Binomialverteilung geprçft wird, die im vorliegenden Fall hinreichend gut durch die Normalverteilung approximiert werden kann (vgl. 2.4.1 und 2.5.1). Ersetzen wir x in Gl. (1.27) durch den Mittelwert der Binomialverteilung n p, xi durch die angetroffene Håufigkeit in einer der beiden Merkmalsalternativen (z. B. fb
1 fçr månnlich) p und s durch die Streuung der Binomialverteilung n p
1 p, kann der folgende z-Wert berechnet werden: fb
1 n p z p : n p
1 p
5:56
p gibt die Wahrscheinlichkeit fçr die Alternative 1 bei gegebener Nullhypothese wieder (in unserem Beispiel: p 0;5 fçr die 1. Version der H0 und p 0;87 fçr die 2. Version der H0 ). Fçr unser Beispiel (2. Version der H0 ) ermitteln wir somit einen z-Wert von 869 1445 0;87 z p 1445 0;13 0;87
30;36 :
Die Wahrscheinlichkeit dieses z-Wertes ist bei Gçltigkeit der H0 ebenfalls verschwindend klein. Daû der ermittelte z-Wert von ±30,36 dem v21 von
a5.3.1
921,87 entspricht, zeigt sich, wenn wir die beiden Werte in Gl. (2.50) einsetzen: 921;87 30;362 . Die Identitåt des Quadrats von Gl. (5.56) mit dem nach Gl. (5.54) ermittelten v21 -Wert wird durch den folgenden allgemeinen Gedankengang belegt: Da n p fe
1 , schreiben wir fçr die 1. Merkmalsalternative gemåû Gl. (5.56): fb
1 fe
1 z p : fe
1
1 p
5:57
Da ferner n
1 p n fe
1 (die erwartete Håufigkeit fçr die 2. Alternative ist gleich der Gesamthåufigkeit abzçglich der erwarteten Håufigkeit fçr die erste Alternative), ist 1 p
n fe
1 =n, d. h., wir erhalten fçr Gl. (5.57) fb
1 fe
1 z p : fe
1
n fe
1 =n
5:58
Quadrieren wir beide Seiten und multiplizieren Zåhler und Nenner mit n, ergibt sich z2
n
fb
1 fe
1
n
Mit n
n z2
fe
1 2 : fe
1
5:59
fe
1 fe
1 resultiert
n
fe
1 fe
1
fb
1 fe
1
n fe
1
n
fe
1
fb
1 fe
1 2 fe
1
n fe
1
fe
1 2
fe
1
fb
1 fe
1 2 fe
1
n fe
1
z2
fe
1 2 fe
1
fb
1 fe
1 2 : n fe
1
5:60
Da
fb
1 fe
1
fb
2 fe
2 , und da n fe
1 fe
2 ergibt sich fçr Gl. (5.60) 2
z
fb
1
fe
1 2 fe
1
fb
2
· Jedes untersuchte Objekt muss eindeutig einer der beiden Merkmalsalternativen zugeordnet werden kænnen. · Die erwarteten Håufigkeiten sollten nicht kleiner als 10 sein. Fçr erwartete Håufigkeiten unter 10 ist die Irrtumswahrscheinlichkeit çber die Binomialverteilung zu ermitteln (s. oben oder 2.4.1). Eine zusammenfassende Diskussion der Voraussetzungen der v2-Techniken findet man in 5.3.6.
Kontinuitåtskorrektur. Eine bessere Schåtzung des v2 -Wertes erhalten wir, wenn die Absolutdifferenzen jfb fe j um den Betrag 0,5 vermindert werden: v2
jfb
1
jfb
2
fe
1 j fe
1
0;52
fe
2 j fe
2
0;52
:
5:62
In dieser als Yates-Korrektur (Kontinuitåtskorrektur) bezeichneten Modifikation des v2 fçr ein alternatives Merkmal wird berçcksichtigt, dass Håufigkeiten diskret, v2 -Werte hingegen stetig (kontinuierlich) verteilt sind. In unserem Beispiel (2. Nullhypothese) fçhrt diese Korrektur zu v2 919;49, d. h., die Kontinuitåtskorrektur wirkt der Tendenz nach konservativ.
Zweimalige Untersuchung
bzw.
fb
1
5
159
Vergleich der Håufigkeiten eines zweifach gestuften Merkmals
fe
2 2 fe
2
:
5:61
Wegen v2 z2 gemåû Gl. (2.50) sind Gl. (5.61) und Gl. (5.54) also identisch.
Voraussetzungen. Fçr die Durchfçhrung eines v2 -Tests çber die Håufigkeitsverteilung eines Alternativmerkmals mçssen die folgenden Voraussetzungen erfçllt sein:
Wird dieselbe Stichprobe zweimal auf ein alternatives Merkmal hin untersucht, ergeben sich Håufigkeiten, die nach einem Verfahren von McNemar verglichen werden kænnen. Es wird beispielsweise gefragt, ob eine Zeitungskampagne gegen das Zigarettenrauchen erfolgreich war. Vor der Kampagne wurden 237 zufållig herausgegriffene Personen befragt, ob sie rauchen oder nicht. Nach Abschluss der Kampagne wurde eine erneute Befragung derselben 237 Personen durchgefçhrt. Die Ergebnisse sind in Tabelle 5.8 zusammengefasst. 80 Personen rauchten sowohl vor der Kampagne als auch danach (Zelle a). 25 Personen gaben nach der Kampagne das Rauchen auf (Zelle b). 12 Personen haben nach der 1. Befragung mit dem Rauchen begonnen (Zelle c), und 120 Per-
160
5
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
sonen rauchten weder vor noch nach der Kampagne (Zelle d). Das McNemar-v2 berçcksichtigt nur diejenigen Fålle, bei denen eine Verånderung eingetreten ist. (Deshalb wird das McNemar-v2 gelegentlich auch ¹test for significance of changeª genannt.) Es çberprçft die H0 , dass die eine Hålfte der ¹Wechslerª (in unserem Beispiel 37) von nach (Zelle b) und die andere von nach (Zelle c) wechselt. (Dass die ¹Nicht-Wechslerª in den Zellen a und d bei diesem Test indirekt auch von Bedeutung sind, wird bei Bortz und Lienert, 2003, S. 120 f. begrçndet). Der Erwartungswert fçr die Zellen b und c lautet deshalb: bc : 2 Eingesetzt in Gl. (5.54) resultiert b c 2 b c 2 b c 2 2 v2 : bc 2 Durch Ausmultiplizieren und Zusammenfassen erhalten wir: fe
b fe
c
b2 v2 2
bc
c2 2 :
bc 2 Werden Zåhler und Nenner mit 2 multipliziert, ergibt sich v2
b2
2bc c2 bc
b c2
df 1 : bc Fçr unser Beispiel ermitteln wir: v2
25
Quadrieren in Gl. (5.63) sowohl positive als auch negative Differenzen von b und c zu einer Vergræûerung des v2 beitragen. Soll die Hypothese wie in unserem Beispiel einseitig getestet werden (die Kampagne reduziert den Anteil der Raucher), ist das a-Niveau zu verdoppeln, d. h., ein empirischer v2-Wert wåre auf dem 5%-Niveau bereits signifikant, wenn er græûer als v2
1;90% 2;71 ist (vgl. S. 157). Da die Håufigkeitsunterschiede in Tabelle 5.8 der Richtung nach der H1 entsprechen und der empirische v2 -Wert zudem græûer ist als der Tabellenwert, akzeptieren wir die H1 : Die Kampagne gegen das Rauchen hat einen auf dem 5%-Signifikanzniveau abgesicherten Effekt. Ist 20 <
b c < 30, sollte man berçcksichtigen, dass Frequenzen diskret, v2 -Werte hingegen stetig verteilt sind. Die entsprechende Kontinuitåtskorrektur nach Yates lautet: v2
jb
cj 0;52 : bc
5:64
Nach Gl. (5.64) ermitteln wir ein v2 4;22, das ebenfalls auf dem 5%-Niveau signifikant ist.
bzw. v2
Tabelle 5.8. Beispiel fçr ein McNemar-v2 2. Untersuchung + ± 80 25 + 1. Untersuchung a b c d ± 12 120
5:63
122 4;57 : 37
Dieser v2-Wert hat bei zwei Summanden und einem gemeinsamen Bestimmungsstçck
b c einen Freiheitsgrad. Nach Tabelle C resultiert fçr a 0;05 ein kritischer Wert von v21;95% 3;84. Dieser Wert gilt fçr zweiseitige Alternativhypothesen, da durch das
Voraussetzungen. Jedes Individuum muss aufgrund der zweimaligen Untersuchung eindeutig einem der 4 Felder der McNemar-Tafel zugeordnet werden kænnen. Dies gilt auch fçr den Fall, dass Individuenpaare (abhångige Stichproben, vgl. S. 143) untersucht werden. Beispiel: Es wird geprçft, ob das Raucherverhalten von Partnern in Paarbeziehungen konkordant (++ oder ± ±) bzw. diskordand ist (+± oder ±+). Ein gerichtete H1 kænnte hier z. B. lauten, dass bei diskordanten Paaren der Typ +± (Mann ist Raucher, Frau ist Nichtraucherin) håufiger vorkommt als der Typ ±+ (Mann ist Nichtraucher, Frau ist Raucherin).
a5.3.1
Im Ûbrigen setzen wir ± bei abhångigen Stichproben oder Messwiederholung ± voraus, dass die erwarteten Håufigkeiten fçr die Felder b und c græûer als 5 sind: fe
b fe
c > 5. Ist diese Voraussetzung nicht erfçllt, wird ersatzweise ein Binomialtest mit den Parametern p = 1/2, N = b + c und X = min (b, c) durchgefçhrt. Ein Beispiel hierfçr findet man bei Bortz u. Lienert (2003, Beispiel 2.11).
Prozentwertunterschiede in abhångigen Stichproben. Der hier beschriebene McNemar-Test ist auch zu verwenden, wenn die Differenz zweier Prozentwerte aus abhångigen Stichproben auf Signifikanz getestet werden soll. Im oben angefçhrten Beispiel stellen wir fest, dass zum Zeitpunkt der ersten Untersuchung ab 105 100 100 44;3% n 237 aller befragten Personen rauchen. Zum zweiten Zeitpunkt sind es P1
ac 92 P2 100 100 38;8% : n 237 Fçr die Differenz P1 P2 resultiert damit P1
ab ac 100 100 n n b c 25 12 100 100 n 237 5;5% :
P2
Den Standardfehler der Differenz zweier Prozentwerte aus abhångigen Stichproben schåtzen wir nach folgender Gleichung (vgl. McNemar, 1947): p bc b r
P1 P2 100 : n Die an diesem Standardfehler relativierte Prozentwertedifferenz ist bei hinreichend groûen Stichproben normalverteilt bzw. ihr Quadrat v2 -verteilt mit df 1: v2
P1 P2 2
b c2 : b bc r2
P1 P2
5:65
Hinweise: Der McNemar-Test bzw. der Vergleich zweier Prozentwerte aus abhångigen Stichproben setzt in der hier beschriebenen Form voraus, dass dieselbe Stichprobe zweimal untersucht werden
5
161
Vergleich der Håufigkeiten eines zweifach gestuften Merkmals
kann bzw. dass vom ersten zum zweiten Untersuchungszeitpunkt keine Vpn ¹verloren gehenª. Wie dieser Test zu modifizieren ist, wenn die beiden abhångigen Stichproben ungleich groû sind (weil z. B. nicht alle Vpn an beiden Untersuchungen teilnahmen), wird bei Ekbohm (1982) beschrieben. Ein Beispiel sowie weitere Hinweise zu diesem Thema findet man bei Marascuilo et al. (1988). Erhebt man bei einer wiederholt untersuchten Stichprobe kein zweifach gestuftes, sondern ein drei- oder mehrfach gestuftes Merkmal (z. B. schwacher, mittlerer oder starker Alkoholkonsum vor und nach einer Behandlung), kann die Frage nach signifikanten Verånderungen mit dem Bowker-Test geprçft werden (vgl. z. B. Bortz et al., 2000, Kap. 5.5.2 oder Bortz u. Lienert, 2003, Kap. 2.5.3).
Mehrmalige Untersuchung Mit Hilfe des McNemar-Tests çberprçfen wir, ob sich die in einer Stichprobe angetroffene Håufigkeitsverteilung eines alternativen Merkmals bei einer 2. Untersuchung signifikant geåndert hat. Die Erweiterung dieses Verfahrens von Cochran sieht nicht nur zwei Untersuchungen, sondern allgemein m Wiederholungsuntersuchungen vor. Es wird die H0 çberprçft, dass sich die Verteilung der Merkmalsalternativen in der Population, aus der die Stichprobe entnommen wurde, wåhrend mehrerer, zeitlich aufeinander folgender Untersuchungen nicht veråndert. Die Prçfgræûe des Cochran-Tests lautet: 2 i h P m m P
m 1 m T2j Tj Q
m
n P i1
j1
Li
n P i1
j1
L2i
;
5:66
wobei m Anzahl der Untersuchungen, n = Anzahl der Vpn, Tj = Håufigkeit der + ± Alternative in Untersuchung j und Li = Håufigkeit der + ± Alternative fçr Vp i. Q ist mit df m 1 angenåhert v2 -verteilt. Die Ermittlung der Freiheitsgrade weicht bei diesem Test von der çblichen Regel fçr v2 -Verfahren (vgl. S. 157) ab. Unter Bezugnahme auf Gl. (1.21) kann
162
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
man erkennen, dass in Gl. (5.66) ¹implizitª die quadrierten Abweichungen der m T-Werte vom durchschnittlichen T-Wert berechnet werden. Da ± wie bei der Varianz ± die Summe der Abweichungen Null ergeben muss, ist eine Abweichung festgelegt, sodass df m 1 resultiert. BEISPIEL
5
In einem Kinderhospital werden 15 bettnåssende Kinder behandelt. In einem Abstand von jeweils 5 Tagen wird registriert, welches Kind eingenåsst hat () und welches nicht ( ). Tabelle 5.9 zeigt, wie sich die Behandlung bei den einzelnen Kindern ausgewirkt hat. Die einzelnen T-Werte in Tabelle 5.9 geben an, wie viele Kinder an den 4 Stichtagen eingenåsst haben, und die L-Werte kennzeichnen die Håufigkeit des Einnåssens pro Kind. Ausgehend von diesen T- und L-Summen kann der folgende Q-Wert berechnet werden: 2
2
2
1 4
13 9 6 3 4 31 81 15;28 :
Q
4
2
Kind 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
+ + + + + ± + + + + ± + + + + T1 13
+ ± + + + + ± + ± ± ± + ± + +
+ ± + ± ± + ± + + ± ± ± + ± ±
± ± + ± ± ± ± + ± ± ± ± + ± ±
T2 9
T3 6
T4 3
3 1 4 2 2 2 1 4 2 1 0 2 3 2 2
9 1 16 4 4 4 1 16 4 1 0 4 9 4 4
31 81
31
Fçr den Spezialfall zweier Behandlungen
m 2 geht der Q-Test in den McNemar-Test çber. Es ergibt sich dann T1 c d ; T 2 b d ; n n X X Li b c 2d und L2i b c 4d ; sodass nach Gl. (5.66) Q
b tiert.
1. Unters. 2. Unters. 3. Unters. 4. Unters. Li L2i
2
Bei 4 1 3 df erwarten wir auf dem a 5%-Niveau einen kritischen Wert v2
3;95% 7;81. Da der empirisch ermittelte v2 -Wert græûer ist, verwerfen wir die H0 . Die Håufigkeit des Einnåssens unterscheidet sich an den 4 untersuchten Tagen. Will man zusåtzlich çberprçfen, ob die Håufigkeit am ersten Untersuchungstag græûer ist als (z. B.) am vierten Untersuchungstag, kann ein einseitiger McNemar-Test durchgefçhrt werden. Im Beispiel ermitteln wir b 10 und c 0 und damit v2
10 02 =
10 0 10. Dieser Wert ist fçr a 0;01 signifikant (fçr wiederholte ¹Paarvergleicheª dieser Art beachte man allerdings die Ausfçhrungen auf S. 271 ff.).
i1
Tabelle 5.9. Beispiel fçr einen Cochran-Test
i1
c2 =
b c resul-
Hinweise: Der Cochran-Test sollte nur angewendet werden, wenn n m > 30 ist. Ûber weitere Einzelheiten zur Herleitung der Prçfstatistik Q informieren Bortz et al. (2000, Kap. 5.5.3). Eine Erweiterung des Cochran-Tests auf mehrere Stichproben (z. B. Vergleich der Behandlungserfolge bei Jungen und Mådchen) findet man bei Tidemann
(1979) bzw. Guthri (1981). Weitere Verfahren zu dieser Thematik (Messwiederholungsplåne mit dichotomen oder polytomen Merkmalen und mit einer oder mehreren Stichproben) werden bei Davis (2002, Kap. 7.3) behandelt.
" 5.3.2 Vergleich der Håufigkeiten eines k-fach gestuften Merkmals Ist ein Merkmal nicht 2fach, sondern allgemein k-fach gestuft, kænnen Unterschiede zwischen den Håufigkeiten der einzelnen Merkmalsabstufungen mit dem allgemeinen eindimensionalen v2 -Test çberprçft werden. In Abhångigkeit von der Nullhypothese unterscheiden wir im folgenden Verfahren zur Ûberprçfung · beliebiger Verteilungsformen eines nominalskalierten Merkmals und · einer Normalverteilung sowie einer PoissonVerteilung bei intervallskaliertem Merkmal.
H0 : Beliebige Verteilungsformen bei nominalskalierten Merkmalen In einem Warenhaus soll ermittelt werden, ob sich die Verkaufszahlen von 4 Produkten signifikant (a 1%) unterscheiden. Die folgenden an einer Zufallsauswahl von Verkaufstagen registrierten Håufigkeiten liegen vor:
a5.3.2
163
Vergleich der Håufigkeiten eines k-fach gestuften Merkmals
Produkt Produkt Produkt Produkt
A B C D
der Verkaufszahl von Produkt A. Es ergeben sich folgende Håufigkeiten:
70 120 110 100 _____ 400.
beobachtete Håufigkeit
Test auf Gleichverteilung. Ausgehend von der H0, dass in der Grundgesamtheit die 4 Produkte gleichhåufig verkauft werden (Gleichverteilung), dass also die im untersuchten Warenhaus angetroffenen Håufigkeitsunterschiede zufållig aufgetreten sind, erwarten wir nach Gl. (5.55) die folgenden Verkaufszahlen: fe
A 1=4 400 100 ; fe
B 1=4 400 100 ; fe
C 1=4 400 100 ; fe
D 1=4 400 100 : Erweitern wir Gl. (5.54) von 2 auf allgemein k Kategorien, erhålt man v2
k X
fb
j j1
fe
j 2 fe
j
:
5:67
Setzen wir die beobachteten und erwarteten Håufigkeiten in Gl. (5.67) ein, ergibt sich das folgende v2 :
70 1002
120 1002 100 100
110 1002
100 1002 100 100 14 :
v2
Da die Summe der erwarteten Håufigkeiten der Summe der beobachteten Håufigkeiten (400) entsprechen muss, ist ein Summand in Gl. (5.67) festgelegt, d. h., das v2 hat 4 1 (allgemein k 1) df. Tabelle C entnehmen wir, dass der Wert v
3;99% 11;35 1% von der rechten Seite der v2
3 -Verteilung abschneidet. Da der beobachtete v2 -Wert græûer ist, verwerfen wir die H0 der Gleichverteilung und akzeptieren die H1 . Die Unterschiede in den Verkaufszahlen sind sehr signifikant. Im Anschluss an diese Gesamtsignifikanz kænnte die Frage auftauchen, ob sich das Produkt A von den çbrigen Produkten bedeutsam unterscheidet. Hierzu vergleichen wir die durchschnittliche Verkaufszahl der Produkte B, C und D mit
Produkt A Durchschnitt der Produkte B, C und D
erwartete Håufigkeit
70
90
110
90
Setzen wir diese Werte in Gl. (5.67) ein, erhalten wir ein v2 von 8,89, das bei df 1 ebenfalls auf dem 1%-Niveau signifikant ist. (Fçr mehrere ergånzende Vergleiche dieser Art sind die Ausfçhrungen auf S. 261 ff. zu beachten.)
Test auf andere Verteilungsformen. In einem weiteren Ansatz kænnte man çberprçfen, ob sich die Verkaufszahlen fçr die 4 Produkte auf dem 5%-Niveau signifikant von anderen Verteilungen, wie beispielsweise die Verkaufszahlen in einem anderen Warenhaus, unterscheiden. In diesem Fall erwarten wir gemåû der H0 keine Gleichverteilung, sondern die Verteilung der Verkaufszahlen des anderen Warenhauses. Die mit der H0 verknçpfte Verteilung mæge lauten: Produkt A:
560 ;
Produkt B:
680 ;
Produkt C:
640 ;
Produkt D:
700 :
Ausgehend von diesen Håufigkeiten lassen sich die folgenden, gemåû H0 erwarteten Wahrscheinlichkeiten fçr den Verkauf der Produkte schåtzen: p
A 0;22 ;
p
B 0;26 ;
p
C 0;25 ;
p
D 0;27 :
Beispiel: Insgesamt wurden 2580 Produkte verkauft. Davon entfallen 560 auf Produkt A. Dies entspricht einem Anteil von p(A) = 560/2580 = 0,22. Nach Gl. (5.55) resultieren die folgenden erwarteten Håufigkeiten: fe
A 0;22 400 88 ; fe
B 0;26 400 104 ; fe
C 0;25 400 100 ; fe
D 0;27 400 108 :
5
164
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
(Kontrolle: Summe der beobachteten Håufigkeiten = Summe der erwarteten Håufigkeiten = 400.) Setzen wir die beobachteten und die erwarteten Håufigkeiten in Gl. (5.67) ein, erhalten wir als v2 : 882
120 1042
110 1002 88 104 100
100 1082 7;74 : 108 Der fçr das 5%-Niveau kritische Wert in der v2
3 -Verteilung lautet v2
3;95% 7; 81. Der beobachtete Wert liegt unter diesem Wert, d. h., die Verkaufszahlen im untersuchten Warenhaus unterscheiden sich nicht signifikant von den Verkaufszahlen des anderen Warenhauses. Wie das letzte Beispiel zeigte, wird das eindimensionale v2 nicht nur zur Ûberprçfung einer empirischen Verteilung auf Gleichverteilung eingesetzt; als Verteilung, die wir gemåû der H0 erwarten, kann jede beliebige, dem inhaltlichen Problem angemessene Verteilung verwendet werden. Da mit diesem Verfahren die Anpassung einer empirischen Verteilung an eine andere (empirische oder theoretische) Verteilung geprçft wird, bezeichnet man das eindimensionale v2 gelegentlich auch als ¹goodness of fit testª. v2
5
70
Voraussetzungen. Die Anwendung dieses eindimensionalen v2 -Tests setzt voraus, dass 1. jedes untersuchte Objekt eindeutig einer Kategorie zugeordnet werden kann, 2. die erwarteten Håufigkeiten in jeder Kategorie græûer als 5 sind. Ist Voraussetzung 2 nicht erfçllt, kann die exakte Wahrscheinlichkeit fçr eine ermittelte Håufigkeitsverteilung unter Verwendung der in Gl. (5.55) benætigten Wahrscheinlichkeitswerte nach der Multinomialverteilung berechnet werden (vgl. Gl. 2.43). Die Anwendung dieses ¹Multinomialtestsª wird bei Bortz u. Lienert (2003, Kap. 2.2.1) demonstriert. Ein Computerprogramm fçr diesen Test haben Mielke u. Berry (1993) sowie Berry u. Mielke (1995) entwickelt.
H0: Normalverteilung Im Folgenden behandeln wir eine ¹Goodness-offitª-Variante, die die Anpassung einer empiri-
schen Verteilung an eine Normalverteilung çberprçft. Diese Anwendung setzt voraus, dass das untersuchte Merkmal intervallskaliert ist. Bezugnehmend auf die Ausfçhrungen von S. 77 (Tabelle 2.3) vergleicht Tabelle 5.10 die gemåû der H0 erwarteten, normalverteilten Håufigkeiten (Spalte 3) mit den empirischen Håufigkeiten (Spalte 2). Ausgehend von den beobachteten Håufigkeiten und erwarteten Håufigkeiten kann nach Gl. (5.67) ein v2 -Wert ermittelt werden. Zuvor mçssen wir jedoch çberprçfen, ob alle erwarteten Håufigkeiten græûer als 5 sind. Dies ist in der Kategorie 60 ± 69,9 nicht der Fall. Wir fassen deshalb diese Kategorie mit der Nachbarkategorie zusammen, sodass sich die Zahl der Kategorien von 9 auf 8 reduziert. In die v2 -Berechnung nach Gl. (5.67) gehen somit 8 Summanden ein (Spalte 4), die zu einem Gesamt-v2 von v2 2;77 fçhren.
Freiheitsgrade. Als nåchstes stellt sich die Frage nach der Anzahl der Freiheitsgrade fçr dieses v2 . Die erste Restriktion, die den erwarteten Håufigkeiten zugrunde liegt, besteht darin, dass ihre Summe mit der Summe der beobachteten Håufigkeiten identisch sein muss. Ferner wurden die erwarteten Håufigkeiten fçr eine Normalverteilung bestimmt, die hinsichtlich des Mittelwertes und der Streuung mit der beobachteten Verteilung identisch ist (Mittelwert und Streuung der beobachteten Verteilung wurden bei der z-Standardisierung der Kategoriengrenzen ± vgl. S. 75 ± ¹beTabelle 5.10. Vergleich einer empirischen Verteilung mit einer Normalverteilung (v2 -Test) (1)
(2)
(3)
Intervall
Beobachtete Håufigkeit
Erwartete Håufigkeit
60,0±69,9 70,0±79,9 80,0±89,9 90,0±99,9 100,0±109,9 110,0±119,9 120,0±129,9 130,0±139,9 140,0±149,9
5 8 7 12 17 15 13 7 6
13
3,96 5,58 9,99 14,13 16,29 15,57 11,52 7,20 5,49
9;54
(4)
fb
fe 2 fe 1,25 0,89 0,32 0,03 0,02 0,19 0,01 0,05
v2 2;77
a5.3.2
Vergleich der Håufigkeiten eines k-fach gestuften Merkmals
nutztª). Die beobachtete und erwartete Håufigkeitsverteilung sind somit hinsichtlich der Græûen n, x und s identisch, d. h., die Anzahl der Freiheitsgrade ergibt sich bei der v2-Technik zur Ûberprçfung einer Verteilung auf Normalitåt zu k (Anzahl der Kategorien mit Erwartungshåufigkeiten > 5) 3. Das v2 unseres Beispiels hat somit 8 3 5 df. Tabelle C entnehmen wir, dass v2
5;95% 11;07 die oberen 5% der v2
5 -Verteilung abschneidet. Da der von uns ermittelte v2 -Wert kleiner ist, kann die H0 , dass die untersuchten Personen zu einer Grundgesamtheit gehæren, in der die Bearbeitungszeiten normalverteilt sind, nicht verworfen werden.
Die H0 als ¹Wunschhypotheseª. Der ¹Goodness-offitª-Test wird gelegentlich eingesetzt, um die an bestimmte Verfahren geknçpfte Voraussetzung einer normalverteilten Grundgesamtheit zu çberprçfen. Betrachten wir unser Beispiel in diesem Kontext, wçrde ein v2 -Wert, der auf dem 5%-Niveau signifikant ist, besagen: Die Wahrscheinlichkeit, dass die Stichprobe zu einer normalverteilten Grundgesamtheit gehært, ist kleiner als 5%. Ist der empirische v2 -Wert jedoch auf dem 5%-Niveau nicht signifikant, kann hieraus lediglich die Konsequenz gezogen werden, dass die empirische Verteilung mit einer Wahrscheinlichkeit von mehr als 5% zu einer normalverteilten Grundgesamtheit gehært. Ist eine derartige Absicherung bereits ausreichend, um die H0 , die besagt, dass die Stichprobe aus einer normalverteilten Grundgesamtheit stammt, aufrechterhalten zu kænnen? Wir haben es hier mit einer Fragestellung zu tun, bei der nicht die Wahrscheinlichkeit des a-Fehlers, sondern die Wahrscheinlichkeit des b-Fehlers mæglichst klein sein sollte. Unser Interesse ist in diesem Fall darauf gerichtet, die H0 beizubehalten, und nicht ± wie in den bisher behandelten Entscheidungen ± darauf, die H0 zu verwerfen. Die H0 ist gewissermaûen unsere ¹Wunschhypotheseª. Gemåû 4.3 kennzeichnet der b-Fehler die Wahrscheinlichkeit, die H0 zu akzeptieren, obwohl sie eigentlich falsch ist. Wenn wir uns also bei der Ûberprçfung auf Normalitåt statt gegen den a-Fehler gegen den b-Fehler absichern mçssen, dann bedeutet dies, dass die Wahrscheinlichkeit dafçr, dass wir fålschlicherweise behaupten, die Stichprobe stamme aus einer normalverteilten Grundgesamtheit (H0 ), mæglichst klein sein
165
sollte. Der b-Fehler kann jedoch nur bestimmt werden, wenn eine spezifische Alternativhypothese vorliegt (vgl. 4.7). Da dies bei Ûberprçfungen auf Normalitåt praktisch niemals der Fall ist, sind wir darauf angewiesen, den b-Fehler indirekt klein zu halten, indem wir (aufgrund der in Abb. 4.4 dargestellten gegenlåufigen Beziehung) den a-Fehler vergræûern. Entscheiden wir uns bei einem a 25%-Niveau fçr die H0 , wird diese Entscheidung mit einem kleineren b-Fehler versehen sein, als wenn wir bei a 5% die H0 beibehalten. Tabelle C entnehmen wir fçr a 25% einen kritischen Wert von v2
5;75% 6;62. Da das beobachtete v2 2;77 auch kleiner als dieser v2-Wert ist, brauchen wir die H0 nicht zu verwerfen. Wir nehmen an, dass fçr a 25% die b-Fehler-Wahrscheinlichkeit hinreichend klein ist, um die H0 , nach der die Stichprobe aus einer normalverteilten Grundgesamtheit stammt, aufrechterhalten zu kænnen. Diese Vorgehensweise ist allerdings nur ein Notbehelf. Korrekterweise mçsste man die Entscheidung, dass die H0 als beståtigt gelten kann, çber einen sog. Øquivalenztest treffen, der sich allerdings gerade in Bezug auf die hier anstehende Problematik (Normalverteilung als H0) als besonders schwierig erweist (vgl. hierzu Klemmert, 2004, S. 139). Im Ûbrigen ist zu beachten, dass das Ergebnis dieses v2 -Tests ± wie die Ergebnisse aller Signifikanztests ± vom Stichprobenumfang abhångt. Die H0 -¹Wunschhypotheseª (Normalverteilung) beizubehalten, wird also mit wachsendem Stichprobenumfang unwahrscheinlicher.
Hinweise: Alternative Verfahren zur Ûberprçfung der Normalitåt einer Verteilung sind der KolmogoroffSmirnov-Test (bei bekanntem und r) und der Lillifors-Test (bei geschåtztem und r), die z. B. bei Bortz et al. (2000, Kap. 7.3) oder Bortz u. Lienert (2003, Kap. 4.2.1 f.) beschrieben werden. Ein weiteres Verfahren ± der Shapiro-Wilk-Test (Shapiro et al. 1968) ± wird bei D'Agostino (1982) erlåutert. Abweichungen von der Normalitåt einer Verteilung sind håufig darauf zurçckzufçhren, dass die Stichprobe nicht aus einer homogenen Population, sondern aus mehreren heterogenen Populationen stammt. Mit Tests, die geeignet sind, den Typus einer solchen ¹Mischverteilungª zu identifizieren, befasst sich eine Arbeit von Bajgier u. Aggarwal
5
166
5
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
(1991). Ausfçhrliche Informationen zum Thema ¹Mischverteilungenª findet man bei Sixtl, 1993, Teil D). Schlieûlich sei darauf hingewiesen, dass nicht normale Verteilungen von einem bestimmten Verteilungstyp (linksschief, breitgipflig etc.) durch geeignete Transformationen normalisiert werden kænnen. Abbildung 5.1 zeigt hierfçr die wichtigsten Beispiele. Man beachte allerdings, dass sich auch Testergebnisse (z. B. fçr einen t-Test) durch eine Datentransformation veråndern kænnen. Deshalb ist es in jedem Falle erforderlich, bei der Analyse transformierter Daten den Transformationstyp zu nennen.
H0 : Poisson-Verteilung In Kap. 2.4.3 haben wir die Wahrscheinlichkeitsfunktion der Poisson-Verteilung kennengelernt. Mit Hilfe dieser Verteilung kann eine Binomialverteilung approximiert werden, wenn n > 10 und p < 0,05 ist. Als Beispiel haben wir untersucht, wie groû die Wahrscheinlichkeit ist, dass sich in einem Karnevalsverein mit n = 100 Mitgliedern mindestens ein Mitglied befindet, das am 1. April Geburtstag hat. Hierfçr wurde der Wert f(X ³ 1|l = 0,2740) = 0,2396 errechnet. Auûerdem haben wir im Einzelnen die Wahrscheinlichkeiten fçr 0, 1, 2, 3 und 4 Mitglieder mit Geburtstag am 1. April bestimmt. Nun habe man eine Stichprobe von 200 Karnevalsvereinen und mit jeweils 100 Mitgliedern untersucht und ausgezåhlt, wie håufig kein Mitglied, ein Mitglied, zwei Mitglieder etc. am 1. April Geburtstag haben. Das Ergebnis zeigt Tabelle 5.11, Spalte fb. Wir wollen çberprçfen, ob diese Verteilung einer Poisson-Verteilung entspricht (a = 0,05). Die gem. der Poisson-Verteilung erwarteten Håufigkeiten errechnen wir çber Gl. (5.55) unter Verwendung der auf S. 72 genannten Wahrscheinlichkeiten. Beispiel fçr die Kategorie 1, ¹Kein Mitgliedª: fe(1) = 200 ´ 0,7604 = 152,1. Dieser und die folgenden Werte sind in der Spalte ¹feª aufgefçhrt. Um erwartete Håufigkeiten çber 5 zu erzielen, werden die 3 letzten Kategorien zusammengefasst, d. h., wir operieren mit k = 3 Kategorien. Setzen wir die beobachteten und die erwarteten Håufigkeiten in Gl. (5.67) ein (man beachte, dass entsprechend den erwarteten Håufigkeiten auch die beobachteten Håufigkeiten zusammengefasst
Abb. 5.1. Normalisierende Datentransformationen. (Rummel, 1970, zit. nach Stevens, 2002, S. 265)
werden mçssen), ergibt sich ein v2 0,29. Da fçr die Ermittlung der erwarteten Håufigkeiten die Konstante berechnet werden musste (vgl. S. 72), die durch n und p determiniert ist, sind die erwarteten Håufigkeiten fçr eine Poisson-Verteilung zwei Restriktionen unterworfen. Fçr die Freiheitsgrade erhalten wir df k 2.
a5.3.2
167
Vergleich der Håufigkeiten eines k-fach gestuften Merkmals
Tabelle 5.11. Vergleich einer empirischen Håufigkeitsverteilung mit einer Poisson-Verteilung Kategorien
fb
fe
Kein Mitglied Ein Mitglied Zwei Mitglieder Drei Mitglieder Vier Mitglieder
149 44 ) 6 0 7 1
152,1 41,7 ) 5.7 0,5 6;2 0,0
In unserem Beispiel ermitteln wir fçr df 3 2 1 ein v2
1;95% 3;84. Der beobachtete Wert ist sehr viel kleiner als der kritische Wert, was uns dazu veranlasst, die H0 nicht zu verwerfen. Es spricht nichts gegen die Annahme, dass die beobachteten Frequenzen fçr das Ereignis ¹Geburtstag am 1. Aprilª Poisson verteilt sind. (Bei einem signifikanten Ergebnis mçsste man interpretieren, dass der 1. April als Geburtstagsdatum in Karnevalsvereinen çberzufållig selten ± oder zu håufig ± gefeiert wird). Wie das Beispiel zeigt, setzt auch dieser v2 -Anpassungstest als approximativer Test Stichprobenumfånge voraus, die fçr alle Kategorien erwartete Håufigkeiten çber 5 gewåhrleisten. Man beachte, dass auch bei diesem Test groûe Stichproben die Annahme der H1 (keine Poisson-Verteilung) begçnstigen.
¹Optimaleª Stichprobenumfånge Fçr die Ûberprçfung der H0, dass die Håufigkeiten eines k-fach gestuften Merkmals einer Gleichverteilung folgen, lassen sich ¹optimaleª Stichprobenumfånge angeben, die auf folgenden Ûberlegungen basieren (zur Theorie der ¹optimalenª Stichprobenumfånge vgl. 4.8): Ausgehend von der H0 ¹Gleichverteilungª erhålt man fçr jede Kategorie j (j 1; . . . ; k) eine Wahrscheinlichkeit pe
j 1=k. Mit pb
j sind nun Wahrscheinlichkeiten fçr das Auftreten der Kategorien unter der Alternativhypothese festzulegen, sodass die folgende Effektgræûe bestimmt werden kann: v u k uX
pb
j pe
j 2 "t : pe
j j1
5:68
Tabelle 5.12. ¹Optimaleª Stichprobenumfånge fçr einen eindimensionalen v2 -Test Freiheitsgrade
Schwacher Effekt (" 0;10)
Mittlerer Effekt (" 0;30)
Starker Effekt (" 0;50)
1 2 3 4 5 6 7 8 9 10 12 16 20 24
785 964 1090 1194 1283 1362 1435 1502 1565 1624 1734 1927 2096 2249
87 107 121 133 143 151 159 167 174 180 193 214 233 250
31 39 44 48 51 54 57 60 63 65 69 77 84 90
In Abhångigkeit von dieser Effektgræûe und der Anzahl der Freiheitsgrade werden die in Tabelle 5.12 genannten ¹optimalenª Stichprobenumfånge empfohlen (a 0;05 und 1 b 0;80; zweiseitiger Test; weitere Werte findet man bei Cohen, 1988 oder Bortz u. Dæring, 2002, Kap. 9.2.2). Angenommen, im ¹Verkaufszahlenª-Beispiel (S. 162 f.) håtte man eine Abweichung von 0;15 von den gemåû H0 erwarteten Wahrscheinlichkeiten (pe
j 0;25) fçr praktisch bedeutsam gehalten. pHieraus wçrde eine Effektgræûe von " 4 0;152 =0;25 0;6 > 0;5 (= starker Effekt) resultieren, sodass gemåû Tabelle 5.12 fçr df 3 weniger als 44 Verkåufe håtten untersucht werden mçssen. Die Tatsache, dass im Beispiel mit n 400 ein Ergebnis gefunden wurde, dessen Irrtumswahrscheinlichkeit nur wenig unter 1% liegt, spricht ± ex post betrachtet ± eher fçr einen mittleren bis schwachen Effekt. Den genauen Wert kænnen wir ermitteln, wenn wir die relativen Verkaufshåufigkeiten als Schåtzwerte fçr die pb
j -Werte verwenden (z. B. pb
1 = 70/400 = 0,175). Man erhålt dann çber Gl. (5.68) folgende, aus den Daten geschåtzte Effektgræûe "b: s
0;175 0;252
0;300 0;252 "b 0;25 0;25
0;275 0;252
0;25 0;252 0;19 : 0;25 0;25
5
168
5
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
Der Effekt ist also als schwach bis mittel zu klassifizieren. Theoretisch låsst sich Gl. (5.68) auch zur Bestimmung einer Effektgræûe bei der Ûberprçfung auf Normalverteilung bzw. Poisson-Verteilung einsetzen. Hierfçr wåre es jedoch erforderlich, mit einer spezifischen Alternativhypothese pb
j -Werte festzulegen, was die praktische Anwendung erheblich erschwert. Ex-post-Analysen sind natçrlich mæglich, wenn man fçr pe(j) die fçr das jeweilige Verteilungsmodell gçltigen erwarteten Wahrscheinlichkeiten einsetzt (Normalverteilung: Spalte 4 von Tabelle 2.3; Poisson-Verteilung: die auf S. 72 genannten Wahrscheinlichkeiten). Die pb(j)-Werte entsprechen wieder den relativen Håufigkeiten in den jeweiligen Kategorien.
" 5.3.3 Vergleich der Håufigkeiten ± von zwei alternativen Merkmalen Werden n voneinander unabhångige Beobachtungen nicht nur einer, sondern zwei Merkmalsalternativen zugeordnet, erhalten wir eine 4-FelderKontingenztafel bzw. eine bivariate Håufigkeitsverteilung. Ein Beispiel hierfçr ist die Verteilung von 100 Personen auf die Merkmalsalternativen < vs. , und Brillentråger vs. Nichtbrillentråger (vgl. Tabelle 5.13). Bei einem 4-Felder-v2 ist darauf zu achten, dass jede Beobachtung eindeutig einer der 4 Zellen zugeordnet werden kann.
H0 : Geschåtzte Wahrscheinlichkeiten ± Der 4-Felder-v2-Test Haben wir n Objekte nach den zwei Kategorien eines Merkmals A und nach den zwei Kategorien Tabelle 5.13. Beispiel fçr ein 4-Felder-v2
mit Brille ohne Brille
< 25
25 50
a b c d
, 10
40 50
35
65 100
eines Merkmals B klassifiziert, resultiert eine 4-Felder-Tafel nach Art der Tabelle 5.13. Beim 4-Felder-v2 -Test schåtzen wir aus den Daten die Wahrscheinlichkeiten fçr die Kategorien. Im Beispiel erhalten wir: p (mit Brille) = (a + b)/n = (25 + 10)/100 = 0,35, p (ohne Brille = (c + d)/n = (25 + 40)/100 = 0,65, p (<) p (,)
= (a + c)/n = (25 + 25)/100 = 0,50, = (b + d)/n = (10 + 40)/100 = 0,50.
Nehmen wir als H0 an, dass die Ereignisse ¹mit Brille vs. ohne Brilleª und ¹< vs. ,ª voneinander stochastisch unabhångig sind, dass also das Auftreten der einen Merkmalsalternative (z. B. månnlich) das Auftreten einer anderen Merkmalsalternative (z. B. mit Brille) nicht beeinflusst, kænnen die Wahrscheinlichkeiten fçr das Auftreten der Merkmalskombinationen gemåû dem Multiplikationstheorem fçr voneinander unabhångige Ereignisse (vgl. Gl. 2.14) berechnet werden. Die Wahrscheinlichkeit fçr das Ereignis ¹månnlich und mit Brilleª ergibt sich beispielsweise zu p (månnlich und mit Brille) 0;50 0;35 0;175. Allgemein erhalten wir fçr die Merkmalskombination der i-ten Zeile und der j-ten Spalte folgende Wahrscheinlichkeit bei Gçltigkeit von H0 : p
i und j p
i-te Zeilep
j-te Spalte :
5:69
Da die Wahrscheinlichkeiten fçr die Merkmalsalternativen aus den Randsummen der 4-Felder-Tafel geschåtzt werden, kænnen wir fçr Gl. (5.69) auch schreiben: Zeilensumme i n Spaltensumme j :
5:70 n Multiplizieren wir gemåû Gl. (5.55) die Wahrscheinlichkeiten fçr das Auftreten einer Merkmalskombination p (i und j) mit der Anzahl aller Beobachtungen n, erhalten wir folgende allgemeine Berechnungsvorschrift fçr die erwarteten Håufigkeiten einer 4-Felder-Tafel (und auch einer k `-Tafel, vgl. 5.3.4): p
i und j
fe
i;j
Zeilensumme i Spaltensumme j :
5:71 n
a5.3.3
Wird mit einem 4-Felder-v 2 -Test die Nullhypothese geprçft, dass die beiden untersuchten Merkmale voneinander unabhångig sind, ergeben sich die erwarteten Håufigkeiten nach der Regel: Zeilensumme Spaltensumme / Gesamtsumme.
Fçr die Håufigkeiten einer 4-Felder-Tafel a, b, c und d (vgl. Tabelle 5.13) resultieren also die folgenden erwarteten Håufigkeiten:
a b
a c ; n
a b
b d ; fe
b n
c d
a c ; fe
c n
c d
b d fe
d : n Erneut låuft der v2-Test auf einen Vergleich beobachteter und gem. H0 erwarteter Håufigkeiten hinaus. Wir modifizieren Gl. (5.67) fçr ein 4-FelderSchema und erhalten (mit i 1;2 fçr die Kategorien des 1. Merkmals und j 1;2 fçr die Kategorien des 2. Merkmals): fe
a
v2
2 X 2 X
fb
i;j i1 j1
fe
i;j 2
fe
i;j
:
5:72
(Zur Handhabung des doppelten Summenzeichens vgl. Anhang A, Gl. A.13). Setzen wir die Berechnungsvorschriften fçr die erwarteten Håufigkeiten zusammen mit den entsprechenden beobachteten Håufigkeiten a, b, c und d in Gl. (5.72) ein, erhalten wir eine Gleichung, die sich zur folgenden, vereinfachten Berechnungsformel fçr ein 4-Felder-v2 zusammenfassen låsst: v2
n
ad bc2 :
a b
c d
a c
b d
5:73
Fçr unser Beispiel ermitteln wir nach Gl. (5.73) ein v2 von 100
25 40 10 252 v
25 10
25 40
25 25
10 40 2
9;89 :
5
169
Vergleich der Håufigkeiten von zwei alternativen Merkmalen
Freiheitsgrade. Da die Randsummen zur Berechnung der Randwahrscheinlichkeiten herangezogen wurden, mçssen die Randsummen der 4-FelderTafel der erwarteten Håufigkeiten mit den Randsummen der 4-Felder-Tafel der beobachteten Håufigkeiten çbereinstimmen. Dies hat zur Konsequenz, dass alle erwarteten Håufigkeiten durch die vorgegebenen Randsummen festgelegt sind. Frei variierbar ist eine beobachtete Håufigkeit. (Håtte man im Beispiel der Tabelle 5.13 im Feld a statt 25 nur 20 Individuen beobachtet, wåren wegen der festgelegten Randsummen auch die çbrigen Felder festgelegt: b = 35±20 = 15; c = 50±20 = 30; d = 50±15 = 65±30 = 35). Der 4-Felder-v2 -Test hat also 1 Freiheitsgrad. Werden bei einer 4-Felder-Tafel die Wahrscheinlichkeiten fçr die Merkmalskombinationen aus den Randsummen geschåtzt, resultiert ein 4-Felder-v 2 mit df 1.
In Tabelle C lesen wir fçr df = 1 und a = 0,01 fçr den zweiseitigen Test einen kritischen Schrankenwert von v2
1; 99% = 6,63 ab. Der beobachtete Wert ist græûer, d. h., das gefundene Ergebnis ist sehr signifikant. Die H0 , nach der die Merkmale ¹< vs. ,ª und ¹mit Brille vs. ohne Brilleª stochastisch voneinander unabhångig sind, wird verworfen (zur Durchfçhrung des einseitigen Tests zur Prçfung einer gerichteten Hypothese vgl. S. 157 f.).
Kontinuitåtskorrektur. Wie in Gl. (5.62) kann auch bei einem 4-Felder-v2 eine Kontinuitåtskorrektur nach Yates durchgefçhrt werden, wenngleich diese Korrektur nicht grundsåtzlich zu einer besseren Approximation der theoretischen v2 -Verteilung fçhrt (vgl. Adler, 1951). Das korrigierte v2 lautet: v2
n
jad bcj n=22 :
a b
c d
a c
b d
5:74
Diese Korrektur wird nur fçr n £ 60 empfeohlen.
Voraussetzungen. In der Regel sollten die erwarteten Håufigkeiten pro Zelle eines 4-Felder-v2 græûer als 5 sein. Camilli u. Hopkins (1979) konnten allerdings zeigen, dass das 4-Felder-v2 auch dann noch einsetzbar ist, wenn der Umfang der untersuchten Stichprobe græûer als 7 ist (vgl. hierzu auch Overall, 1980). Wir empfehlen, auf den 4-Felder-v2 -Test
170
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
zu verzichten, wenn die erwarteten Håufigkeiten nicht çber 5 liegen. In diesem Falle ist der exakte 4-Felder-Test (Fisher-Yates-Test; vgl. z. B. Bortz u. Lienert, 2003, Kap. 2.3.1) einzusetzen. Eine rechentechnisch vereinfachte Version dieses Tests findet man bei Phillips (1982). Fçr extrem asymmetrische Randverteilungen sollte dieser Test nach einem von Johnson (1972) vorgeschlagenen Verfahren korrigiert werden.
5
Hinweise: Eine interessante Diskussion von ¹Philosophieª und Mathematik des hier beschriebenen sog. asymptotischen 4-Felder-v2 -Tests und des exakten 4-Felder-Tests findet man bei Camilli (1990) und Haber (1990). Alternativen mit etwas hæherer Teststårke als der exakte Fisher-Yates-Test werden bei Overall et al. (1987) diskutiert. Weitere Mæglichkeiten zur Auswertung von 4-Felder-Tafeln behandeln Lautsch u. Lienert (1993, Kap. 4). Zur Effektgræûenbestimmung beim 4-Felderv2 -Test wird auf Gl. (5.80) verwiesen. Prozentwertunterschiede in zwei unabhångigen Stichproben. Die Ûberprçfung der H0 ¹Zwei alternative Merkmale sind voneinander unabhångigª mit dem 4-Felder-v2 -Test ist formal gleichwertig mit der Ûberprçfung der Differenz zweier Prozentwerte aus unabhångigen Stichproben (vgl. Fleiss, 1973, Kap. 2.1). Bezogen auf das eingangs erwåhnte Beispiel håtte die H0 auch lauten kænnen: Der Anteil månnlicher Brillentråger unterscheidet sich nicht vom Anteil weiblicher Brillentråger. Auch diese H0 wird mit dem oben beschriebenen 4-Felder-v2 -Test çberprçft. Nachtrag: War die Therapie erfolgreich? Auf S. 55 f. wurde anhang einer 4-Felder-Tafel mit den Merkmalen Therapie/keine Therapie und gesund/nicht gesund das Konzept der bedingten Wahrscheinlichkeit eingefçhrt. In diesem Zusammenhang stellten wir die Frage, ob 60 gesunde Patienten fçr die Wirksamkeit der Therapie sprechen oder ob dieser Wert auch bei Unabhångigkeit der Merkmale ¹Therapieª und ¹Gesundheitszustandª rein zufållig håtte zustande kommen kænnen. (Inzwischen wissen wir, dass ¹Unabhångigkeit der Merkmaleª der Nullhypothese entspricht.) Zur Klårung dieser Frage wenden wir den 4-Felder-v2 -Test an (a = 0,01; gerichtete Hypothese bzw. einseitiger Test). Setzen wird die Håufigkeiten der Tabelle 2.1 in Gl. (5.73) ein, resultiert
200
60 80 40 202 33;33 : 100 100 80 120 Da wir eine gerichtete Hypothese testen, ist nach den Ausfçhrungen auf S. 157 f. das a-Niveau zu verdoppeln, d. h. wir benætigen einen kritischen v2 -Wert fçr a = 0,02 und df = 1. Da der Flåchenanteil von 1±2a = 0,98 in Tabelle C des Anhangs nicht enthalten ist, wåhlen wir den anderen, auf S. 157 vorgeschlagenen Weg und transformieren den v2 -Wert in einen z-Wert der Standardnormalp verteilung: z 33;33 5;77. Dieser Wert ist deutlich græûer als der z-Wert, der einseitig 1% der Standardnormalverteilung abschneidet (5,77 > 2,33), d. h., die H0 ist zu verwerfen: Wir interpretieren, dass Therapie und Gesundheitszustand nicht unabhångig voreinander sind bzw. dass der Therapieerfolg sehr signifikant ist. Im Bereich der Therapieerfolgsforschung wurde eine Reihe weiterer, auf der 4-Felder-Tafel basierender Erfolgsindikatoren entwickelt. Hierzu zåhlen das ¹relative Risikoª, die ¹Misserfolgsreduktionª oder der ¹Odds Ratioª (Kreuzproduktquotient), çber die z. B. bei Bortz u. Lienert (2003, S. 242 ff.) berichtet wird. v2
H0: Vorgegebene Wahrscheinlichkeiten ± Der 4-Felder-Anpassungstest Beim 4-Felder-v2 -Test wurden die Randwahrscheinlichkeiten çber die Randhåufigkeiten geschåtzt. Sind die Randwahrscheinlichkeiten vorgegeben (z. B. durch amtliche Statistiken, biologische Gesetzmåûigkeiten oder vergleichbare Untersuchungen), kommt der 4-Felder-Anpassungstest zum Einsatz. Bei diesem Test wird geprçft, ob · die Zeilenhåufigkeiten den Zeilenwahrscheinlichkeiten entsprechen, · die Spaltenhåufigkeiten den Spaltenwahrscheinlichkeiten entsprechen und · die Håufigkeiten der 4 Felder zeilenweise den Spaltenwahrscheinlichkeiten und spaltenweise den Zeilenwahrscheinlichkeiten entsprechen (Kontingenz). Zusåtzlich wird ein v2 -Wert fçr die Globalanpassung der Tafel berechnet. Kennzeichnen wir die Zeilenwahrscheinlichkeiten mit p1. und p2. und die Spaltenwahrscheinlichkeiten mit p.1 und p.2, ergibt sich unter Verwendung der bereits einge-
a5.3.3
171
Vergleich der Håufigkeiten von zwei alternativen Merkmalen
fçhrten Symbole a, b, c und d fçr die 4 Felder folgende Prçfgræûe v2G fçr die Globalanpassung:
v2G
2
a
n p1: p:1
b n p1: p:2 n p1: p:1 n p1: p:2 2
c n p2: p:1
d n p2: p:2 2 : n p2: p:1 n p2: p:2
5:75
v2S
ab n p1: 2
cd n p2: 2 ; n p1: n p2:
a c np:1 2
b d np:2 2 : np:1 np:2
Blçtenfarbe
2
Dieses v2 hat 2 ´ 2±1=3 Freiheitsgrade, da nur die Gesamtsumme (aber nicht die Zeilen- und Spaltensummen) der erwarteten Håufigkeiten mit der Summe der beobachteten Håufigkeiten çbereinstimmen muss. Auf Marginalanpassung prçft man mittels der folgenden beiden v2 -Komponenten fçr Zeilenund Spaltensummen:
v2Z
Tabelle 5.14. Beispiel fçr einen 4-Felder-Anpassungstest
5:76
5:77
Pollenform
lang rund P
v2G
296
Lila
Rot
296 19
27 85
315
112
P 323 104 N = 427
427 0;75 0;752 427 0;75 0;75
27
427 0;75 0;252 427 0;75 0;25
19
427 0;25 0;752 427 0;25 0;75
427 0;25 0;252 427 0;25 0;25 12;97 35;17 46;57 127;41
85
222;12 ; nach Gl. (5.76): v2Z
296 27 427 0;752 427 0;75
19 85 427 0;252 427 0;25 0;02 0;07 0;09 ;
Beide Komponenten haben je einen Freiheitsgrad. Das gleiche gilt fçr die Restkomponente zu Lasten der Kontingenz zwischen den Merkmalen. v2K
v2G
v2Z
v2S
:
5:78
Sie kann, wie im folgenden Beispiel (aus Rao, 1965, S. 338), die Hauptkomponente ausmachen. Auf Grund dominanter Vererbung erwartet man (nach Mendel) fçr eine Kreuzung zweier Bohnensorten je ein Verhåltnis von 3 zu 1 fçr die Merkmale Pollenform (Zeilenmerkmal) und Blçtenfarbe (Spaltenmerkmal). Es sind damit folgende Wahrscheinlichkeiten vorgegeben: p1: p:1 0;75 ; p2: p:2 0;25 : Der Kreuzungsversuch lieferte die in Tabelle 5.14 dargestellten Frequenzen. Man errechnet nach Gl. (5.75):
nach Gl. (5.77): v2S
296 19 427 0;752 427 0;75
27 85 427 0;252 427 0;25 0;09 0;26 0;35
und schlieûlich nach Gl. (5.78): v2K 222;12 0;09 0;35 221;68 : Die Zeilenkomponente und die Spaltenkomponente sind nicht signifikant, d. h., die Bohnen kænnen sowohl hinsichtlich des Merkmals Pollenform als auch hinsichtlich der Blçtenfarbe als populationsrepråsentativ angesehen werden. Dies gilt jedoch nicht fçr die 4 Merkmalskombinationen. Die fçr df = 1 hoch signifikante Kontingenz besagt, dass die beobachtete Felderverteilung von der unter H0
5
172
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
erwarteten Felderverteilung im Verhåltnis von a : b : c : d = 9 : 3 : 3 : 1 erheblich abweicht. Lilafarbene Blçten mit langen Pollen und rote Blçten mit runden Pollen treten håufiger auf, als nach Mendel zu erwarten war und lila Blçten mit runden Pollen sowie rote Blçten mit langen Pollen zu selten. 2
Voraussetzungen. Wie alle v -Tests setzt auch der 4-Felder-Anpassungstest voraus, dass jede Beobachtung eindeutig nur einer Merkmalskombination zugeordnet ist und dass die erwarteten Håufigkeiten nicht zu klein sind (n ´ pi. ´ p.j >5).
5 " 5.3.4 Vergleich der Håufigkeiten von zwei mehrfach gestuften Merkmalen Das zuletzt besprochene Verfahren geht davon aus, dass die beiden eine bivariate Håufigkeitsverteilung konstituierenden Merkmale jeweils zweifach gestuft sind. Verallgemeinernd nehmen wir nun an, das eine Merkmal A sei k-fach und das andere Merkmal B `-fach abgestuft. Wir fragen, ob sich k voneinander unabhångige Stichproben gleichfærmig (H0) oder unterschiedlich (H1) auf die ` Ausprågungen eines Merkmals B verteilen. Ein Beispiel soll das k ` v2 verdeutlichen. Ûberprçft wird, ob sich Jugendliche verschiedenen Alters (Merkmal A) in der Art ihrer Rorschachdeutungen (Merkmal B) unterscheiden. Tabelle 5.15 zeigt, wie sich 500 Rorschachdeutungen (pro Person eine Deutung) auf 4 verschiedene Alterskategorien und 3 verschiedene Deutungsarten (Mensch, Tier, Pflanze) verteilen. Wie bei allen v2 -Techniken werden die beobachteten Håufigkeiten mit den entsprechenden erwarteten Håufigkeiten nach der Beziehung
fb fe 2 =fe verglichen. Tabelle 5.15. Beispiel fçr ein k `
Bezeichnen wir die Stufen des Merkmals A allgemein mit i (i 1; 2; . . . ; k) und die Stufen des Merkmals B allgemein mit j (j 1; 2; . . . ; `), ergibt sich das k ` v2 nach folgender Beziehung: v2
k X ` X
fb
i;j i1 j1
fe
i;j 2
fe
i;j
:
H0 : Geschåtzte Wahrscheinlichkeiten ± Der k ´ `±v2 -Test In den meisten Anwendungsfållen werden die erwarteten Håufigkeiten fçr einen k `±v2 -Test çber die empirisch angetroffenen Randsummenverteilungen nach Gl. (5.71) bestimmt. Diesen erwarteten Håufigkeiten liegt wie beim 4-Felder-v2 die H0 zu Grunde, dass die beiden miteinander verglichenen Merkmale stochastisch voneinander unabhångig sind. Ausgehend von dieser H0, die, auf unser Beispiel bezogen, besagt, dass die Art der Rorschachdeutungen vom Alter der Vpn unabhångig ist (a 1%), ermitteln wir fçr Tabelle 5.15 die folgenden erwarteten Håufigkeiten: 122 107 fe
1;1 26;11 ; 500 140 107 29;96 ; fe
2;1 500 122 255 62;22 ; fe
1;2 500 140 255 71;40 ; fe
2;2 500 115 107 fe
3;1 24;61 ; 500 115 255 58;65 : fe
3;2 500
v2
Deutungsart (B) Altersklassen (A) (1) (2) (3) (4)
10±12 13±15 16±18 19±21
Jahre Jahre Jahre Jahre
(1) Mensch 12 20 35 40 107
(26,11) (29,96) (24,61) (26,32)
(2) Tier 80 70 50 55 255
(3) Pflanze (62,22) (71,40) (58,65) (62,73)
5:79
30 50 30 28 138
(33,67) (38,64) (31,74) (33,95)
122 140 115 123 500
a5.3.4
Vergleich der Håufigkeiten von zwei mehrfach gestuften Merkmalen
Obwohl die k `-Tafel 4 3 12 beobachtete Håufigkeiten enthålt, wurden nur 6 erwartete Håufigkeiten bestimmt. Die erwarteten Håufigkeiten fçr die Merkmalskombinationen, in denen die Stufen A4 (19±21 Jahre) und B3 (Pflanze) auftreten, wurden noch nicht berechnet. Die Bestimmung dieser erwarteten Håufigkeiten nach Gl. (5.71) erçbrigt sich, da die Zeilensummen, Spaltensummen und Gesamtsumme in der Verteilung der erwarteten Håufigkeit mit den entsprechenden Summen in der Verteilung der beobachteten Håufigkeiten çbereinstimmen mçssen. Die noch fehlenden Werte kænnen somit einfach subtraktiv auf die folgende Weise ermittelt werden: fe
1;3 122
26;11
62;22 33;67 ;
fe
2;3 140
29;96
71;40 38;64 ;
fe
3;3 115
24;61
58;65 31;74 ;
fe
4;1 107
26;11
29;96
24;61 26;32 ;
fe
4;2 255
62;22
71;40
58;65 62;73 ;
fe
4;3 123
26;32
62;73
138
33;67
38;64
31;74 33;95 :
Die in Tabelle 5.15 eingeklammerten Werte entsprechen den erwarteten Håufigkeiten. Wie man sich leicht çberzeugen kann, sind die subtraktiv bestimmten erwarteten Håufigkeiten mit denjenigen identisch, die wir nach Gl. (5.71) erhalten wçrden. Setzen wir die beobachteten und erwarteten Håufigkeiten in Gl. (5.79) ein, erhalten wir (indem wir k ` 12-mal den Ausdruck
fb fe 2 =fe addieren) den Wert v2 34;65.
Freiheitsgrade. Die Freiheitsgrade dieses v2 -Wertes bestimmen wir folgendermaûen: Da die Summe der Zeilensummen und die Summe der Spaltensummen jeweils n ergeben muss, sind k 1 Zeilensummen und ` 1 Spaltensummen frei variierbar. Damit sind ± wie auch die Berechnung der erwarteten Håufigkeiten fçr unser Beispiel zeigte ±
k 1
` 1 Zellenhåufigkeiten nicht festgelegt, d. h., der v2-Wert hat
k 1
` 1 Freiheitsgrade. Fçr unser Beispiel ermitteln wir
4 1
3 1 6 df. In Tabelle C lesen wir fçr das a 1%-Niveau einen kritischen Schwellenwert von v2
6;99% 16;81 ab, d. h., der empirisch gefundene v2 -Wert ist auf dem 1%-Niveau signifikant.
173
Die H0 , nach der die Merkmale Alter der Jugendlichen und Art der Rorschachdeutung stochastisch voneinander unabhångig sind, kann nicht aufrechterhalten werden. Wegen df > 1 çberprçft dieser v2 -Test eine ungerichtete Hypothese (vgl. S. 158). Eine inhaltliche Interpretation des Ergebnisses ist durch Vergleiche der einzelnen beobachteten Håufigkeiten mit den erwarteten Håufigkeiten mæglich. Hierbei kænnen die Residuen fb fe ¹explorativª çber v2
fb
i;j fe
i;j 2 =fe
i;j mit df 1 getestet werden (vgl. S. 175 f.). Genauere Verfahren zur Residualanalyse findet man z. B. bei Lautsch u. Lienert (1993, Kap. 5.2.2).
Voraussetzungen. Der k `±v2 -Test ist an die Voraussetzung geknçpft, dass die erwarteten Håufigkeiten græûer als 5 sind (vgl. hierzu jedoch auch 5.3.6). Hinweise: Zur Absicherung der Interpretation kænnen ergånzend zum Gesamt-v2 einzelne Håufigkeiten der k `-Tafel miteinander verglichen und auf signifikante Unterschiede hin geprçft werden. Fçr derartige Vergleiche (die den Einzelvergleichen im Anschluss an eine Varianzanalyse entsprechen, vgl. 7.3) haben Bresnahan u. Shapiro (1966) ein Verfahren vorgeschlagen. Weitere spezielle Alternativhypothesen, die çber die Konstatierung der Abhångigkeit zweier Merkmale hinausgehen (z. B. die Rangfolge der Håufigkeiten fçr Tier-, Mensch- und Pflanzendeutungen im Rorschach ist bei 13- bis 15-jåhrigen und 16- bis 18-jåhrigen verschieden) werden mit Verfahren çberprçft, çber die Agresti u. Wackerly (1977) berichten. In dieser Arbeit findet man auch einen exakten Test zur Ûberprçfung der Unabhångigkeitsannahme, der verwendet werden sollte, wenn Erwartungswerte einer k `-Tafel unter 5 liegen. Ûber besondere Auswertungsmæglichkeiten, die groûe k `-Tafeln mit groûen Zellhåufigkeiten bieten, informieren Zahn u. Fein (1979) (vgl. hierzu auch Berry und Mielke, 1986; Bçssing und Jansen, 1988 oder Aiken, 1988). Weitere Hinweise zur Auswertung von k `-Tafeln findet man bei Bortz et al. (2000, Kap. 5.4 und 8.1.3). Prozentwertunterschiede in k unabhångigen Stichproben. Prozentuiert man die beobachteten Håufigkeiten in Tabelle 5.15 (z. B. an den jeweiligen Zeilensummen), låsst sich ein signifikanter
5
174
5
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
k `±v2 -Wert auch in der Weise interpretieren, dass sich die prozentualen Verteilungen fçr Mensch-, Tier- und Pflanzendeutungen in den 4 Altersgruppen unterscheiden. Weitere Hinweise zur Ûberprçfung von Prozentwertunterschieden in k unabhångigen Stichproben und zu der Hypothese, dass die Stichproben hinsichtlich der Græûe der Prozentwerte eine bestimmte Ordnung aufweisen, findet man bei Fleiss (1973, Kap. 9). Fçr den paarweisen Vergleich von Anteilswerten aus unabhångigen Stichproben (durchgefçhrt als A-posteriori-Einzelvergleiche mit impliziter a-Fehler-Korrektur; vgl. 7.3.3 ff.) hat Levy (1977) ein Verfahren beschrieben. Ein SAS-Programm fçr dieses Verfahren wurde von Williams u. LeBlanc (1995) entwickelt.
H0: Vorgegebene Wahrscheinlichkeiten ± Der k ´ `-Felder-Anpassungstest Wie beim 4-Felder-Anpassungstest kænnen auch bei einer k ´ `-Kontingenztafel die Randwahrscheinlichkeiten vorgegeben sein. Man çberprçft dann auf Globalanpassung und auf Marginalanpassung der Zeilen- und Spaltensummen unter Verwendung der jeweilig erwarteten Zeilen- und Spaltensummen. Hierzu sind die Gl. (5.75±5.77) sinngemåû zu verallgemeinern. Die Kontingenzkomponente, çber die wir die Unabhångigkeit der beiden Merkmale prçfen, wird auch hier nach Gl. (5.78) bestimmt. Der v2G-Wert hat k ´ `±1 Freiheitsgrade, der 2 vZ -Wert k±1, der v2S -Wert `±1 und der v2K-Wert schlieûlich hat (k±1) ´ (`±1) Freiheitsgrade. Im Ûbrigen gelten fçr diesen Test die gleichen Voraussetzungen wie fçr den k ´ `±v2 -Test.
¹Optimaleª Stichprobenumfånge Auch fçr die Analyse von k `-Kontingenztafeln (bzw. 4-Felder-Tafeln) empfiehlt es sich, den zu untersuchenden Stichprobenumfang nach den in 4.8 behandelten Kriterien festzulegen. Die hierfçr erforderliche Effektgræûe wird in Analogie zu Gl. (5.68) wie folgt definiert: v u k ` uX X
pb
i;j pe
i;j 2 "t pe
i;j i1 j1
5:80
mit pb
i;j Wahrscheinlichkeit fçr die Zelle i; j gemåû H1 und pe
i;j Wahrscheinlichkeit fçr die Zelle i; j gemåû H0 . Die fçr schwache, mittlere und starke Effekte erforderlichen Stichprobenumfånge sind in Abhångigkeit von der Anzahl der Freiheitsgrade in der Tabelle 5.12 wiedergegeben. Wir entnehmen dieser Tabelle, dass fçr die Absicherung eines mittleren Effektes (" 0;3, a 0;05 und 1 b 0;8 bei zweiseitigem Test) fçr unser ¹Rohrschachª-Beispiel mit df 6 ein Stichprobenumfang von nopt 151 ausgereicht håtte. Untersucht wurden n 500 Vpn, womit auch ein kleinerer Effekt
" < 0;3) mit einer Teststårke von 1 b 0;8 håtte nachgewiesen werden kænnen. Welche Abweichungen pb pe mit einer bestimmten Effektgræûe verbunden sind, låsst sich leider erst im Nachhinein feststellen, wenn die pe
i;j -Werte festliegen. Sie werden nach dem Multiplikationstheorem (vgl. S.55 f.) aus den Randwahrscheinlichkeiten pe
i und pe
j çber pe
i;j pe
i pe
j geschåtzt, wobei die Randwahrscheinlichkeiten ihrerseits çber die relativen Håufigkeiten der Randsummen geschåtzt werden oder sie sind ± beim Anpassungstest ± vorgegeben. Im Beispiel der Tabelle 5.15 errechnet man ex post eine Effektgræûe von "b= 0,26. Dieser Effekt liegt knapp unter einem mittleren Effekt. Die Bestimmung einer Effektgræûe vor Durchfçhrung der Untersuchung ist nur mæglich, wenn die gemåû H0 erwarteten Wahrscheinlichkeiten pe
i;j vorgegeben sind (vgl. S. 167). Eine Effektgræûenbestimmung setzt in diesem Fall voraus, dass man in der Lage ist, fçr jede Zelle praktisch bedeutsame Differenzen pb
i;j pe
i;j zu benennen. Andernfalls låsst sich Tabelle 5.12 auch dann als Planungshilfe einsetzen, wenn man mit einer Untersuchung einen schwachen, mittleren oder starken Effekt absichern mæchte, ohne nåher zu pråzisieren, auf welche der k ` Zellen der mit einer spezifischen H1 verbundene Effekt bezogen ist. Wie wir unter 6.3.4 erfahren werden, låsst sich der v2-Wert einer Vierfeldertafel çber Gl. (6.107) in einen sog. Phi
U-Koeffizienten çberfçhren, wobei U der Korrelation von zwei dichotomen Variablen entspricht (vgl. hierzu unter 14.2.10). Da nun auch U e gilt, kann es fçr Planungszwecke hilfreich sein, die abzusichernde Effektgræûe in Korrelationsform vorzugeben (U 0;1: kleiner Ef-
a5.3.5
fekt; U 0;3: mittlerer Effekt; U 0;5: groûer Effekt; vgl. S. 218). v2 -Werte einer k 2-Tafel lassen sich nach den Ausfçhrungen unter 14.2.11 in sog. multiple Korrelationen çberfçhren, d. h., auch fçr den k ´ 2±v2 -Test kænnen optimale Stichprobenumfånge çber Korrelationseffekte festgelegt werden (vgl. S. 463 f.).
5.3.5 Vergleich der Håufigkeiten von m alternativ oder mehrfach gestuften Merkmalen (Konfigurationsfrequenzanalyse) Verallgemeinern wir das 4-Felder-v2 auf m alternative Merkmale, erhalten wir eine mehrdimensionale Kontingenztafel, die nach der von Krauth u. Lienert (1973) entwickelten Konfigurationsfrequenzanalyse (abgekçrzt KFA) analysiert werden kann (vgl. hierzu auch Krauth, 1993; Lautsch u. v. Weber 1995 oder v. Eye, 1990). Ein Beispiel fçr m 3 soll die KFA verdeutlichen. Es wird çberprçft, ob weibliche Personen, die in der Stadt wohnen, çberzufållig håufig berufståtig sind
a 0;01. Wir haben es in diesem Beispiel mit den alternativen Merkmalen A: Stadt
vs. Land
, B: månnlich
vs. weiblich
und C: berufståtig
vs. nicht berufståtig
zu tun. Die Befragung von n 640 Personen ergab die in Tabelle 5.16 genannten Håufigkeiten fçr die einzelnen Merkmalskombinationen. Tabelle 5.16 entnehmen wir, dass sich in unserer Stichprobe 70 in der Stadt wohnende, weibliche Personen befinden, die einen Beruf ausçben (Kombination ). Fçr die Ermittlung der erwarteten Håufigkeiten formulieren wir çblicherweise die H0 , dass die 3 Merkmale stochastisch voneinander unabhångig sind. Wie bei den çbrigen v2 -Techniken kænnen jedoch auch hier Nullhypothesen und damit erwartete Håufigkeiten aus anderen, sinnvoll erscheinenden, theoretischen Erwågungen abgeleitet werden (z. B. Gleichverteilung). Der hierbei resultierende v2G -Wert håtte 23 1 7 df.
H0 : Geschåtzte Wahrscheinlichkeiten Werden die erwarteten Håufigkeiten gemåû der H0 , nach der die 3 Merkmale wechselseitig sto-
5
175
Vergleich der Håufigkeiten von m alternativ oder mehrfach gestuften Merkmalen
Tabelle 5.16. Beispiel fçr eine 2 2 2-KFA Merkmal
Håufigkeiten
A
B
C
fb
+ + + + ± ± ± ±
+ + ± ± + + ± ±
+ ± + ± + ± + ±
120 15 70 110 160 10 20 135 nb 640
fe
fb
fe 2 =fe
86,79 63,33 95,32 69,56 89,54 65,34 98,35 71,77 ne 640
12,71 36,88 6,73 23,51 55,45 46,87 62,42 55,71 v2 300; 28
chastisch unabhångig sind, aus den beobachteten Håufigkeiten geschåtzt, ergibt sich in Analogie zu Gl. (5.71) folgende Gleichung fçr die erwarteten Håufigkeiten: fe
i;j;k
Summe Ai Summe Bj Summe Ck ; n2
5:81
wobei z. B. Summe Ai Anzahl aller Beobachtungen, die in die i-te Kategorie des Merkmals A fallen. In unserem Beispiel lauten die Summen Ai , Bj und Ck : A
315
B
305
C
370 ;
A
325
B
335
C
270 :
Es wurden somit insgesamt z. B. 325 auf dem Land wohnende Personen (Kategorie A
) befragt. Unter Verwendung von Gl. (5.81) ermitteln wir die in Tabelle 5.16 aufgefçhrten erwarteten Håufigkeiten (z. B. fe
315 305 370=6402 86;79).
v2 -Komponenten. Unsere Eingangsfragestellung lautete, ob weibliche Personen in der Stadt çberzufållig håufig berufståtig sind. Eine grobe Abschåtzung, ob die beobachtete Håufigkeit fb
70 von der erwarteten Håufigkeit fe
95;32 signifikant abweicht, liefert die v2 -Komponente fçr diese Merkmalskombination. Da diese Komponente (wie alle çbrigen) 1 df hat, vergleichen wir das beobachtete (Teil-)v2
70 95;322 =95;32 6;73 mit dem fçr a 0;01 kritischen Wert: v2crit z2
99% 2;332 5;43 (einseitiger Test; vgl. S. 157 f.). Der empirische v2 -Wert ist græûer, d. h., die beobachtete Håufigkeit weicht
176
5
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
signifikant von der erwarteten ab. Allerdings ist die Richtung der Abweichung genau umgekehrt: Ausgehend von der H0, dass die 3 untersuchten Alternativmerkmale wechselseitig stochastisch unabhångig sind, erwarten wir mehr weibliche Personen in der Stadt, die berufståtig sind, als wir beobachteten. Die H0 ist damit beizubehalten. Dass die statistische Bewertung einer Einzelkomponente des v2 nur approximativ sein kann, geht daraus hervor, dass ± wie in 2.5.2 berichtet ± die Summe einzelner v2-Werte mit jeweils 1 df wiederum v2 -verteilt ist. Die Freiheitsgrade fçr das Gesamt-v2 mçssten sich aus der Summe der Freiheitsgrade der einzelnen v2 -Komponenten ergeben. Dies håtte zur Konsequenz, dass das v2 einer 2 2 2-KFA mit 8 df (= Anzahl aller Summanden) versehen ist, was natçrlich nicht zutrifft, da wir die Erwartungshåufigkeiten aus den beobachteten Håufigkeiten geschåtzt haben. Ûber Mæglichkeiten, die Irrtumswahrscheinlichkeiten fçr eine v2 -Komponente in einer KFA genauer zu bestimmen, informieren Krauth u. Lienert (1973, Kap. 2), Krauth (1993) bzw. Kieser u. Victor (1991).
Freiheitsgrade. Werden die erwarteten Håufigkeiten aus den beobachteten Håufigkeiten geschåtzt, resultiert ein Gesamt-v2 mit 2m m 1 df. Das v2 einer 2 2 2-KFA hat somit 23 3 1 4 df. Da der fçr das 1%-Niveau bei df 4 kritische v2 -Wert
v2
4;99% 13;28 erheblich kleiner ist als der beobachtete Wert (v2 300;28, verwerfen wir die H0 . Es besteht ein Zusammenhang zwischen den 3 Merkmalen, dessen Interpretation den Differenzen fb fe entnommen werden kann. Verallgemeinerungen Die Generalisierung des Verfahrens fçr m > 3 ist relativ einfach vorzunehmen. Da mit wachsender Anzahl von Merkmalen die Anzahl der Merkmalskombinationen jedoch exponentiell ansteigt, muss darauf geachtet werden, dass die Anzahl der Beobachtungen hinreichend groû ist, um erwartete Håufigkeiten græûer als 5 zu gewåhrleisten. Sind die Merkmale nicht alternativ, sondern mehrfach abgestuft, kann Gl. (5.81) wie bei einer 2 2 2-KFA fçr die Bestimmung der erwarteten Håufigkeiten der einzelnen Merkmalskombinatio-
nen herangezogen werden. Werden beispielsweise 3 dreifach gestufte Merkmale auf stochastische Unabhångigkeit geprçft, ergeben sich 33 27 Merkmalskombinationen, fçr die jeweils eine erwartete Håufigkeit bestimmt werden muss. Sind die Merkmale 1, 2 und 3 k1 -fach, k2 -fach und k3 -fach gestuft, resultiert ein v2 mit k1 k2 k3 k1 k2 k3 2 df. Wie die df in einer beliebigen KFA berechnet werden, zeigen Krauth u. Lienert (1973, S. 139). Anwendungen der KFA wurden von Lienert (1988) zusammengestellt. Ausfçhrlichere Informationen zur Theorie der KFA findet man bei Krauth (1993).
Hinweise: Fçr die Analyse mehrdimensionaler Kontingenztafeln gibt es eine Reihe weiterer Verfahren, auf die hier nur hingewiesen werden kann. Diese Auswertungstechniken sind in der Fachliteratur unter den Bezeichnungen ¹log-lineareª-Modelle, ¹logitª-Modelle und ¹probitª-Modelle bekannt und werden z. B. bei Andres et al. (1997), Arminger (1983), Langeheine (1980 a, b), Bishop et al. (1978), Agresti (1990), Anderson (1990), Gilbert (1993), Hagenaars (1990), Santner u. Duffy (1989) oder Wickens (1989) beschrieben. Wie man eine log-lineare Analyse mit dem Programmpaket SPSS durchfçhrt, wird bei Stevens (2002, S. 564 ff.) erklårt. Vergleichende Analysen von KFA und log-linearen Modellen findet man bei Krauth (1980) oder v. Eye (1988). Vorhersagemodelle mit kategorialen Variablen werden bei v. Eye (1991) beschrieben. Auf die logistische Regression als einem Modell zur Vorhersage kategorialer Variablen gehen wir auf S. 463 ein. Die Analyse mehrdimensionaler Kontingenztafeln unter dem Blickwinkel des allgemeinen linearen Modells (vgl. Kap. 14) beschreiben Bortz et al. (1990, Kap. 8.1) oder Bortz u. Muchowski (1988). Mit der informationstheoretischen Analyse sog. ¹paradoxerª Tafeln befassen sich Preuss u. Vorkauf (1997).
" 5.3.6 Allgemeine Bemerkungen zu den v2-Techniken v2 -Techniken gehæren von der Durchfçhrung her zu den einfachsten Verfahren der Elementarstatistik, wenngleich der mathematische Hintergrund dieser
177
aÛbungsaufgaben Verfahren komplex ist. Mit Hilfe der v2-Verfahren werden die Wahrscheinlichkeiten multinomialverteilter Ereignisse geschåtzt, wobei die Schåtzungen erst bei sehr groûen Stichproben mit den exakten Wahrscheinlichkeiten der Multinomialverteilung çbereinstimmen. Man sollte deshalb beachten, dass fçr die Durchfçhrung eines v2 -Tests die folgenden Voraussetzungen erfçllt sind: · Die einzelnen Beobachtungen mçssen voneinander unabhångig sein (Ausnahme: McNemar-Test und Cochran-Test). · Die Merkmalskategorien mçssen so geartet sein, dass jedes beobachtete Objekt eindeutig einer Merkmalskategorie oder einer Kombination von Merkmalskategorien zugeordnet werden kann. · Bezçglich der Græûe der erwarteten Håufigkeiten erweisen sich die v2 -Techniken als relativ robust (vgl. Bradley, 1968; Bradley et al., 1979; Camilli u. Hopkins, 1979; Overall, 1980). Dessen ungeachtet ist ± zumal bei asymmetrischen Randverteilungen ± darauf zu achten, dass der Anteil der erwarteten Håufigkeiten, die kleiner als 5 sind, 20% nicht çberschreitet. Eine ausfçhrliche Diskussion der Probleme, die sich mit der Anwendung von v2 -Techniken verbinden, findet der interessierte Leser z. B. bei Steger (1971, Kap. 2) oder Fleiss (1973).
ÛBUNGSAUFGABEN 1. 12 Kinder reicher Eltern und 12 Kinder armer Eltern werden aufgefordert, den Durchmesser eines 1-1-Stçckes zu schåtzen. Die folgenden (normalverteilten) Schåtzungen wurden abgegeben: reich
arm
20 mm 23 mm 23 mm 21 mm 22 mm 25 mm 19 mm 24 mm 20 mm 26 mm 24 mm 25 mm
24 mm 23 mm 26 mm 28 mm 27 mm 27 mm 25 mm 18 mm 21 mm 26 mm 25 mm 29 mm
Ûberprçfen Sie, ob die durchschnittlichen Schåtzwerte der armen Kinder signifikant græûer sind als die der reichen Kinder! 2. Begrçnden Sie, warum eine Varianz n
1 df hat!
3. Nach einer Untersuchung von Miller u. Bugelski (1948) ist zu erwarten, dass Personen in ihren Einstellungen gegençber neutralen Personen negativer werden, wenn sie zwischenzeitlich frustriert wurden (Sçndenbockfunktion). Fçr 9 Jungen mægen sich vor und nach einer Frustration folgende Einstellungswerte ergeben haben: Vpn
vorher
nachher
1 2 3 4 5 6 7 8 9
38 32 33 28 29 37 35 35 34
33 28 34 26 27 31 32 36 30
Sind die registrierten Einstellungsånderungen statistisch signifikant, wenn man davon ausgeht, dass die Einstellungen normalverteilt sind? 4. Was sind parallelisierte Stichproben? 5. Es soll die Hypothese çberprçft werden, dass Kinder mit schlechten Schulnoten entweder ein zu hohes oder zu niedriges Anspruchsniveau haben, wåhrend Kinder mit guten Schulnoten ihr Leistungsvermægen angemessen einschåtzen kænnen. 15 Schçler mit guten und 15 Schçler mit schlechten Noten werden aufgefordert, eine Mathematikaufgabe zu læsen. Zuvor jedoch sollen die Schçler schåtzen, wie viel Zeit sie vermutlich zur Læsung
5
178
Kapitel 5 ´ Verfahren zur Ûberprçfung von Unterschiedshypothesen
der Aufgabe benætigen werden. Folgende Zeitschåtzungen werden abgegeben:
5
gute Schçler
schlechte Schçler
23 min 18 min 19 min 22 min 25 min 24 min 26 min 19 min 20 min 20 min 19 min 24 min 25 min 25 min 20 min
16 min 24 min 25 min 35 min 20 min 20 min 25 min 30 min 32 min 18 min 15 min 15 min 33 min 19 min 23 min
Ûberprçfen Sie, ob sich die Varianzen der (normalverteilten) Zeitschåtzungen signifikant unterscheiden! 6. Es soll ferner getestet werden, ob sich die Zeitschåtzungen in Aufgabe 5 hinsichtlich ihrer zentralen Tendenz unterscheiden. Da wir gemåû der in Aufgabe 5 genannten Hypothese nicht davon ausgehen kænnen, dass die Varianzen homogen sind, soll a) eine Welch-Korrektur durchgefçhrt werden und b) ein verteilungsfreies Verfahren eingesetzt werden. 7. Ein Gespråchspsychotherapeut stuft die Bereitschaft von 10 Klienten, emotionale Erlebnisinhalte zu verbalisieren, vor und nach einer gespråchstherapeutischen Behandlung auf einer 10-Punkte-Skala in folgender Weise ein: Klient
vorher
nachher
1 2 3 4 5 6 7 8 9 10
4 5 8 8 3 4 5 7 6 4
7 6 6 9 7 9 4 8 8 7
Ûberprçfen Sie, ob aufgrund der Einschåtzungen durch den Therapeuten nach der Therapie mehr emotionale Erlebnisinhalte verbalisiert werden als zuvor. Da am Intervallskalencharakter der Einstufungen gezweifelt wird, soll nur die ordinale Information der Daten berçcksichtigt werden.
8. Begrçnden Sie, warum bei einem k `±v2 die erwarteten Håufigkeiten nach der Beziehung Zeilensumme Spaltensumme Gesamtsumme berechnet werden! 9. Gleiss et al. (1973) berichten çber eine Auszåhlung, nach der eine Stichprobe von 450 neurotischen Patienten mit folgenden (geringfçgig modifizierten) Håufigkeiten in folgenden Therapiearten behandelt wurden: Klassische Analyse und analytische Psychotherapie: 82 Direkte Psychotherapie:
276
Gruppenpsychotherapie:
15
Somatische Behandlung:
48
Custodial care:
29
Ûberprçfen Sie die Nullhypothese, dass sich die 450 Patienten auf die 5 Therapieformen gleich verteilen! 10. Teilen Sie die 20 Messwerte in Aufgabe 7 am Median (Mediandichotomisierung) und çberprçfen Sie mit Hilfe des McNemar-v2 -Tests, ob die Ønderungen signifikant sind! Diskutieren Sie das Ergebnis! 11. Zwælf chronisch kranke Patienten erhalten an 6 aufeinander folgenden Tagen ein neues Schmerzmittel. Der behandelnde Arzt registriert in folgender Tabelle, bei welchen Patienten an den einzelnen Tagen Schmerzen
bzw. keine Schmerzen
auftreten: Patient
1. Tag 2. Tag 3. Tag 4. Tag 5. Tag 6. Tag
1 2 3 4 5 6 7 8 9 10 11 12
+ ± + + + + ± + + + + ±
+ ± + + ± ± ± + ± + ± +
± + + ± ± + + ± ± ± ± ±
± ± ± + ± + ± ± ± ± + ±
+ ± ± + ± ± ± + + ± ± ±
± + ± ± ± ± + ± + ± ± ±
Ûberprçfen Sie, ob sich die Schmerzhåufigkeiten signifikant geåndert haben! 12. Zwei Stichproben mit jeweils 50 Vpn wurden gebeten, eine Reihe von Aufgaben zu læsen, wobei die Læsungszeit pro Aufgabe auf eine Minute begrenzt war. Nach Ablauf einer Minute musste auch dann, wenn die entsprechende Aufgabe noch nicht gelæst war, unverzçglich die nåchste Aufgabe in Angriff genommen werden. Der einen Vpn-Stichprobe wurde gesagt, dass mit dem Test ihre Rechenfåhigkeiten geprçft werden soll-
ten, und der anderen Stichprobe wurde mitgeteilt, dass die Untersuchung lediglich zur Standardisierung des Tests diene und dass es auf die individuellen Leistungen nicht ankåme. Am darauf folgenden Tag hatten die Vpn anzugeben, an welche Aufgabe sie sich noch erinnerten. Auf Grund dieser Angaben wurden die Vpn danach eingeteilt, ob sie entweder mehr vollendete Aufgaben oder mehr unvollendete Aufgaben im Gedåchtnis behalten hatten. Die folgende 4-Felder-Tafel zeigt die entsprechenden Håufigkeiten: erinnert vollendete Aufgaben
Instruktion
5
179
aÛbungsaufgaben
erinnert unvollendete Aufgaben
14. Welche der beiden folgenden 3 4-Håufigkeitstabellen ist Ihrer Ansicht nach fçr eine v2 -Analyse nicht geeignet? 1
2
3
4
a) 1 2 3
20 20 0
30 0 30
0 30 20
25 25 0
75 75 50
R
40
60
50
50
200
40 10 10
25 15 10
4 2 4
41 3 36
110 30 60
60
50
10
80
200
Teststandar- 32 disierung
18
b) 1 2 3
Leistungsmessung
37
R
13
Kænnen diese Daten den sog. Zeigarnik-Effekt beståtigen, nach dem persænliches Engagement (bei Leistungsmessungen) das Erinnern unvollståndiger Aufgaben begçnstigt, wåhrend sachliches Interesse (an der Teststandardisierung) vor allem das Erinnern vollendeter Aufgaben erleichtert? 13. Gleiss et al. (1973) berichten çber eine Untersuchung, in der 300 Patienten nach 5 Symptomkategorien und 2 sozialen Schichten klassifiziert werden. Die folgende Tabelle zeigt die Håufigkeiten: Hohe Niedrige soz. Schicht soz. Schicht Psychische Stærungen des hæheren Lebensalters Abnorme Reaktionen Alkoholismus Schizophrenie Man.-depressives Leiden
44
53
29 23 15 14
48 45 23 6
Ûberprçfen Sie die Nullhypothese, dass soziale Schicht und Art der Diagnose stochastisch voneinander unabhångig sind!
R
181
Kapitel 6
Verfahren zur ÛberpruÈfung von Zusammenhangshypothesen
ÛBERSICHT Lineare Regression ± Kriterium der kleinsten Quadrate ± Kovarianz ± bivariate Normalverteilung ± Standardschåtzfehler ± Konfidenzintervalle fçr Regressionsvorhersagen ± nonlineare Regression ± linearisierende Transformationen ± Produkt-Moment-Korrelationen ± Regressionsresiduen ± Determinationskoeffizient ± Interpretationshilfen fçr Korrelationen ± Selektionsfehler ± Signifikanztests ± ¹optimaleª Stichprobengræûen ± Fishers Z-Transformation ± Zusammenfassung von Korrelationen ± Vergleich von Korrelationen aus unabhångigen und abhångigen Stichproben ± punkt-biseriale Korrelation ± biseriale Korrelation ± PhiKoeffizient ± tetrachorische Korrelation ± biseriale Rangkorrelation ± Spearmans rho ± Kontingenzkoeffizient ± Korrelation und Kausalitåt
Wohl kein statistisches Verfahren hat der humanund sozialwissenschaftlichen Forschung so viele Impulse verliehen wie die Verfahren zur Analyse von Zusammenhången. Erst wenn wir wissen, dass zwei Merkmale miteinander zusammenhången, kann das eine Merkmal zur Vorhersage des anderen eingesetzt werden. Besteht beispielsweise zwischen dem Alter, in dem ein Kind die ersten Såtze spricht, und der spåteren schulischen Leistung ein gesicherter Zusammenhang, kænnte der Schulerfolg aufgrund des Alters, in dem die Sprachentwicklung einsetzt, vorhergesagt werden. Vorhersagen wåren ± um weitere Beispiele zu nennen ± ebenfalls mæglich, wenn zwischen der Abiturnote und dem spåteren Studienerfolg, der Tçchtigkeit von Menschen und ihrer Beliebtheit, der Selbsteinschåtzung von Personen und ihrer Beeinflussbarkeit, den politischen Einstellungen der Eltern und den politischen Einstellungen der Kinder, dem Geschlecht und Kunstpråferenzen von Personen usw. Zusammenhånge bestehen. Zusammenhånge sind aus der Mathematik und den Naturwissenschaften hinlånglich bekannt. Wir wissen beispielsweise, dass sich der Umfang eines Kreises proportional zu seinem Radius veråndert,
dass sich eine Federwaage proportional zu dem sie belastenden Gewicht auslenkt oder dass die kinetische Energie einer sich bewegenden Masse mit dem Quadrat ihrer Geschwindigkeit wåchst. Diese Beispiele sind dadurch gekennzeichnet, dass die jeweiligen Merkmale exakt durch eine Funktionsgleichung miteinander verbunden sind, die ± im Rahmen der Messgenauigkeit ± genaue Vorhersagen der Ausprågung des einen Merkmals bei ausschlieûlicher Bekanntheit der Ausprågung des anderen Merkmals gestattet. Dies ist jedoch bei human- und sozialwissenschaftlichen Zusammenhången praktisch niemals der Fall. Ist beispielsweise die Intelligenz eines eineiigen Zwillingspartners bekannt, wird man nicht mit Sicherheit die Intelligenz des anderen Zwillings vorhersagen kænnen, obwohl zwischen den Intelligenzwerten eineiiger Zwillinge ein Zusammenhang besteht. Die Vorhersage wird umso genauer sein, je hæher der Zusammenhang ist, denn die Wahrscheinlichkeit, eine richtige Vorhersage zu treffen, nimmt zu, je deutlicher die jeweiligen Merkmale zusammenhången. Im Unterschied zu funktionalen Zusammenhången, die mittels einer Funktionsgleichung exakte Vorhersagen ermæglichen, sprechen wir hier von stochastischen (zufallsabhångigen) Zusammenhången, die je nach Hæhe des Zusammenhangs unterschiedlich pråzise Vorhersagen zulassen. Die Gleichung, die wir bei stochastischen Zusammenhången zur Merkmalsvorhersage benætigen, wird Regressionsgleichung genannt. Die Enge des Zusammenhangs zwischen zwei Merkmalen charakterisiert der Korrelationskoeffizient, der Werte zwischen 1 und 1 annehmen kann. Erreicht ein Korrelationskoeffizient Werte von 1 bzw. 1, geht der stochastische Zusammenhang in einen funktionalen, deterministischen Zusammenhang çber, wobei eine Korrelation von 1 einen linearen gleichsinnigen Zusammenhang und
6
182
6
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
eine Korrelation von 1 einen linearen, gegenlåufigen Zusammenhang anzeigt. Unabhångig von ihrer Hæhe dçrfen Korrelationen nicht im Sinn von Kausalbeziehungen interpretiert werden. Registrieren wir beispielsweise zwischen verschiedenen Kærperbautypen und einzelnen Persænlichkeitsmerkmalen einen korrelativen Zusammenhang, so kann hieraus sicherlich nicht geschlossen werden, dass verschiedene Kærperbauformen die Ursache fçr verschiedene Ausprågungen der Persænlichkeitsmerkmale sind oder umgekehrt. Probleme der Interpretation von Korrelationen werden wir im Anschluss an die Darstellung verschiedener Korrelationstechniken erærtern (6.4). Zuvor jedoch soll die Frage behandelt werden, wie Merkmalsvorhersagen bei stochastischen Zusammenhången mæglich sind bzw. wie die einem stochastischen Zusammenhang zugrunde liegende Regressionsgleichung bestimmt wird (6.1). Die Quantifizierung von Merkmalszusammenhången durch Korrelationstechniken ist Gegenstand von 6.2 und 6.3.
" 6.1 Merkmalsvorhersagen Sind zwei stochastisch abhångige Variablen x und y durch eine Regressionsgleichung miteinander verknçpft, kann die eine Variable zur Vorhersage der anderen eingesetzt werden. Ist beispielsweise bekannt, durch welche Regressionsgleichung logisches Denken und technisches Verståndnis miteinander verknçpft sind, so kann diese Gleichung zur Vorhersage des technischen Verståndnisses auf Grund des logischen Denkvermægens verwandt werden. In vielen praktischen Anwendungssituationen werden Regressionsgleichungen bestimmt, um eine nur schwer zu erfassende Variable mit einer einfacher messbaren Variablen vorherzusagen. Hierbei wird çblicherweise zwischen Prådiktorvariablen, die zur Vorhersage eingesetzt werden, und Kriteriumsvariablen, die vorhergesagt werden sollen, unterschieden. Diese Einteilung entspricht etwa der Kennzeichnung von Variablen als abhångige Variablen und als unabhångige Variablen, wenngleich durch diese Bezeichnung eine engere, gerichtete Kausal-
beziehung zum Ausdruck gebracht wird. Veråndert sich z. B. in einem sorgfåltig kontrollierten Experiment die Schlafdauer (abhångige Variable) auf Grund unterschiedlicher Dosen eines Schlafmittels (unabhångige Variable), so låsst dies auf eine engere Kausalbeziehung schlieûen als beispielsweise eine Untersuchung, in der zwischen einem Schulreifetest (Prådiktor) und der sich im Unterricht zeigenden schulischen Reife (Kriterium) ein Zusammenhang besteht. Die Prådiktorvariable ¹Leistung im Schulreifetestª beeinflusst die tatsåchliche Schulreife nicht im kausalen Sinn, sondern kann lediglich als Indikator oder Prådiktor fçr das Kriterium Schulreife verwendet werden. In der Statistik-Literatur wird gelegentlich zwischen deterministischen und stochastischen Prådiktorvariablen (Regressoren) unterschieden. Deterministisch sind Prådiktoren, die nur in bestimmten Ausprågungen vorkommen (z. B. unterschiedliche Dosierungen eines Medikamentes, systematisch variierte Bedingungen in psychologischen Lernexperimenten etc.). Wir werden auf diese Art von Prådiktorvariablen im Kap. 14 (Das Allgemeine Lineare Modell) ausfçhrlich eingehen. Stochastische Prådiktoren sind ± wie die o.g. Leistungen im Schulreifetest ± Variablen, die zusammen mit der Kriteriumsvariablen an einer Zufallsstichprobe von Individuen erhoben werden, sodass jedem Individuum ein Messwertpaar als Realisierungen der gemessenen Zufallsvariablen zugeordnet werden kann. Dieser Variablentyp wird im Folgenden vorrangig behandelt Prådiktorvariablen sind i. Allg. einfacher und billiger messbar und kænnen ± im Kontext von Vorhersagen im eigentlichen Wortsinn ± zu einem frçheren Zeitpunkt als die eigentlich interessierenden Kriteriumsvariablen erfasst werden. Typische Prådiktorvariablen sind psychologische oder medizinische Tests, mit denen Interessen, Leistungen, Begabungen, Krankheiten usw. vorhergesagt bzw. erkannt werden sollen (vgl. z. B. Horst, 1971). Ist ein Test in diesem Sinn ein brauchbarer Prådiktor, so wird er als ¹valideª bezeichnet. Damit ein Test im Einzelfall sinnvoll als Prådiktor eingesetzt werden kann, ist es jedoch notwendig, dass die Regressionsgleichung zuvor an einer repråsentativen Stichprobe ermittelt wurde. Nur dann kann man davon ausgehen, dass die in der ¹Eichstichprobeª ermittelte Beziehung zwischen
183
a6.1.1 Lineare Regression der Prådiktorvariablen und der Kriteriumsvariablen auch auf einen konkret untersuchten Einzelfall, der nicht zur Eichstichprobe, aber zur Grundgesamtheit gehært, anwendbar ist.
" 6.1.1 Lineare Regression Der Zugang wird erleichtert, wenn elementare Kenntnisse der analytischen Geometrie vorhanden sind. Welche Bestandteile der analytischen Geometrie wir fçr die Regressionsrechnung benætigen, sei im Folgenden kurz verdeutlicht. Die einfachste Beziehung zwischen 2 intervallskalierten Variablen ist die lineare Beziehung, die durch folgende allgemeine Gleichung beschrieben wird: y b x a:
6:1
Die graphische Darstellung einer linearen Beziehung ergibt eine Gerade. Abbildung 6.1 zeigt einige lineare Beziehungen. In der allgemeinen, linearen Funktionsgleichung kennzeichnet x die unabhångige Verånderliche, y die abhångige Verånderliche, b die Steigung der Geraden ( Tangens des Winkels zwischen der x-Achse und der Geraden) und a die Hæhenlage ( Schnittpunkt der Geraden mit der
y 8 7 6 5 4 3 2 1
- 8 -7 - 6 - 5 - 4 - 3 - 2 -1 -1 -2 -3 -4 -5 -6 -7 -8
y = 2·x + 3
y = 0,75 · x
y=2
0 1 2 3 4 5 6 7 8 x
Abb. 6.1. Lineare Beziehungen
y = -x + 2
y-Achse). Die Steigung b einer Geraden kann positiv oder negativ sein. Ist die Steigung positiv, werden die y-Werte mit steigenden x-Werten ebenfalls græûer. Eine negative Steigung besagt, dass die y-Werte bei græûer werdenden x-Werten kleiner werden.
Deterministische und stochastische Beziehungen Angenommen, Leistungen von Versuchspersonen (Vpn) in 2 åquivalenten Tests x und y seien durch die Beziehung y 0;5 x 10 miteinander verbunden. Aufgrund dieser Gleichung kænnen wir vorhersagen, dass eine Person mit einer Leistung von x 100 im Test y den Wert y 0;5 100 10 60 erhålt. Der Steigungsfaktor 0,5 besagt, dass alle x-Werte fçr eine Transformation in y-Werte zunåchst mit 0,5 multipliziert werden mçssen, was bedeutet, dass die y-Werte eine geringere Streuung aufweisen als die x-Werte. Die additive Konstante von 10 schreibt vor, dass bei der Umrechnung von x-Werten in y-Werte zusåtzlich zu jedem Wert 10 Testpunkte addiert werden mçssen, egal welche Leistung eine Vp im Test x erzielt hat. Die positive additive Konstante kænnte bedeuten, dass Test y im Vergleich zu Test x leichter ist, weil Personen, die im Test x eine Leistung von Null erreicht haben, im Test y immerhin noch einen Wert von 10 erzielen. Eine Gerade ist durch 2 Bestimmungsstçcke, wie z. B. die Steigung und die Hæhenlage oder auch 2 Punkte der Geraden, eindeutig festgelegt. Sind 2 Bestimmungsstçcke einer Geraden bekannt, kennen wir die Koordinaten aller Punkte der Geraden. Ausgehend von der funktionalen Beziehung im oben genannten Beispiel kann im Rahmen des Gçltigkeitsbereichs der Gleichung fçr jede x-Leistung eine y-Leistung, aber auch umgekehrt fçr jede y-Leistung eine x-Leistung eindeutig bestimmt werden. Dies wåre eine deterministische Beziehung. In der Forschungspraxis sind wir in der Regel darauf angewiesen, die Beziehung zwischen 2 Variablen auf Grund von Beobachtungen zu ermitteln. So kænnten wir in unserem Beispiel die lineare Funktion dadurch herausfinden, dass wir bei 2 Vpn die x- und y-Leistungen registrieren. Tragen wir diese beiden ¹Messpunkteª aufgrund ihrer x- und y-Koordinaten in ein Koordinatensystem ein und verbinden die beiden Punkte, er-
6
184
halten wir eine Gerade, deren Funktionsgleichung mit der oben genannten identisch ist. Registrieren wir x- und y-Leistungen nicht nur bei 2, sondern bei mehr Vpn, erhalten wir mehrere Messpunkte, die bei einer deterministischen Beziehung såmtlich auf der gefundenen Geraden liegen mçssten. Dies ist bei einer stochastischen Beziehung anders. Durch Schwankungen in der Motivation, unterschiedliche Testbedingungen, Ermçdungseffekte und vor allem wegen der Tatsache, dass die beiden Tests nicht vællig identisch sind, werden wir Vpn mit x- und y-Werten registrieren, die mehr oder weniger von der Geraden, die durch 2 Vpn aufgemacht wird, abweichen (vgl. Abb. 6.2). Das Ergebnis von n paarweisen Beobachtungen (pro Vp werden jeweils die x-Leistung und die y-Leistung registriert) ist ein Punkteschwarm, der in diesem Fall die Tendenz einer positiven linearen Beziehung erkennen låsst. Mit der Regressionsrechnung wird diejenige Gerade ermittelt, die den Gesamttrend aller Punkte am besten wiedergibt. (Eine genauere Definition der Regressionsgeraden werden wir spåter kennenlernen.) Bevor wir uns der Frage zuwenden, wie diese Gerade ermittelt wird, sei kurz der Ausdruck ¹Regressionª erlåutert. Der Ausdruck geht auf Francis Galton (1886) zurçck, der die Beziehung der Kærpergræûen von Våtern und Sæhnen untersuchte. Er fand, dass Sæhne von groûen Våtern im Durchschnitt weniger von der durchschnittlichen Græûe aller månnlichen Personen abweichen als die Våter selbst. Dieses Phånomen nannte er ¹Regression zum Mittelwertª (ausfçhrlicher hierzu vgl. Bortz u. Dæring, 2002, Kap. 8.2.5). Die Bezeichnung Regression wurde im Laufe der Zeit mit der Bestimmung von Funktionsgleichungen zwischen zwei Variablen, die nicht perfekt, sondern nur stochastisch zusammenhången, allgemein verknçpft.
Die Regressionsgerade. Die Gerade, die die stochastische Beziehung zwischen zwei Merkmalen kennzeichnet, wird Regressionsgerade und die Konstanten a und b der Regressionsgeraden werden Regressionskoeffizienten genannt. Sind die Regressionskoeffizienten a und b bekannt, kænnen wir die Funktionsgleichung fçr die Regressionsgerade aufstellen. Gesucht werden diejenigen Koeffizienten a und b, die zu einer Regressionsgeraden fçhren, die den Punkteschwarm am besten repråsentiert. Nehmen wir einmal an, wir håtten bei 5 Vpn die in Tabelle 6.1 genannten Leistungen registriert. Wie die graphische Darstellung (vgl. Abb. 6.3) zeigt, gibt es keine gemeinsame Gerade fçr alle 5 Punkte. Wie gut repråsentiert nun die eingezeichnete Gerade den Trend der 5 Vpn-Punkte? Wçrden wir
Tabelle 6.1. Daten fçr eine Regressionsgleichung Vpn-Nr.
Test x
Test y
1 2 3 4 5
31 128 67 46 180
15 95 35 40 80
100 vp2 90 ∧
(y2 - y2)
80
vp5
70 y = 0,5 · x + 10
90
60
y
80 70
50 vp4
40
60
Test y
6
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
∧
y2
vp3
50
30
40 30
20
20
10
10
∧
(y1 - y1) ∧
y1
vp1
0
0 0
20
40
60
80
100
120
140
Test x
Abb. 6.2. Beispiel fçr eine unpråzise lineare Beziehung
0
20
40
60
80
100 120 140 160 180 200
x
Abb. 6.3. Bewertung einer Geraden nach der Methode der kleinsten Quadrate
auf Grund dieser Geraden beispielsweise die y-Leistung der Vp 1 bestimmen, erhielten wir einen Wert, der in Abb. 6.3 durch ^ y1 gekennzeichnet ist. Zwischen dem tatsåchlichen y1 -Wert und dem auf Grund der angenommenen Regressionsgeraden vorhergesagten ^ y1 -Wert besteht somit eine negative Diskrepanz von
y1 ^ y1 , d. h., der tatsåchliche y-Wert ist kleiner als der auf Grund der Regressionsgeraden vorhergesagte ^ y-Wert. Fçr Vp 2 resultiert, wie die Abbildung zeigt, eine positive Diskrepanz
y2 ^ y2 . Der allgemeine Ausdruck
yi ^ yi gibt somit bei jeder Vp i an, wie groû der Vorhersagefehler ist, wenn wir eine bestimmte Gerade als Regressionsgerade annehmen. Es ist leicht vorstellbar, dass sich diese Vorhersagefehler åndern, wenn eine andere Gerade als Regressionsgerade gewåhlt wird. Wir mçssen also çberlegen, nach welchem Kriterium wir entscheiden wollen, welche Gerade die Vpn-Punkte am besten repråsentiert.
Das Kriterium der kleinsten Quadrate. Spontan kænnte man meinen, die gesuchte Regressionsgerade sei so zu legen, dass die Summe der Vorhersagefehler
yi ^yi mæglichst klein wird. Da jedoch positive und negative Abweichungen auftreten kænnen, ist nicht auszuschlieûen, dass mehrere Geraden existieren, fçr die die Summe der Abweichungen
yi ^ yi Null ergibt, d. h., die beste Regressionsgerade wåre nach diesem Kriterium nicht eindeutig bestimmt. Als Kriterium wåhlen wir deshalb nicht die Summe der Abweichungen, sondern die Summe der quadrierten Abweichungen
yi ^yi 2 . Gesucht wird somit diejenige Gerade, fçr die die Summe der quadrierten Abweichungen der vorhergesagten ^ y-Werte von den beobachteten y-Werten minimal wird (Kriterium der kleinsten Quadrate): n X
yi ^yi 2 min :
6:2
Die Regressionsgerade ist diejenige Gerade, die die Summe der quadrierten Vorhersagefehler minimiert.
Durch die Quadrierung der Abweichungen wird ± wie bei der Varianz ± erreicht, dass græûere, inhaltlich bedeutsamere Abweichungen stårker berçcksichtigt bzw. gewichtet werden als kleinere Abweichungen, die mæglicherweise nur auf zufållige Messungenauigkeiten zurçckzufçhren sind. Nach diesem Kriterium kænnten wir fçr die in Abb. 6.2 nach Augenschein eingezeichnete Gerade Abweichungsquadrate berechnen, in der Hoffnung, dass sie mæglichst klein ausfallen. Es wåre jedoch denkbar, dass eine andere Gerade die Punkte noch besser nach dem Kriterium der kleinsten Quadrate repråsentiert, was uns dazu veranlassen mçsste, durch systematisches Veråndern diejenige Gerade herauszufinden, fçr die die Abweichungsquadratsumme tatsåchlich minimal ist. Diese recht mçhsame Sucharbeit kænnen wir uns ± wie in 3.4 bereits erwåhnt ± vereinfachen, indem wir die gesuchte Gerade bzw. ihre Regressionskoeffizienten a (Hæhenlage) und b (Steigung) mittels der Differenzialrechnung bestimmen. Herleitung der Regressionsgleichung. ^ y-Werte werden nach Gleichung ^ yi b xi a
6:3
ermittelt. Setzen wir Gl. (6.3) in Gl. (6.2) ein, ergibt sich n X
yi
^ yi 2
i1
n X yi
b xi a2 min :
6:4
i1
Diese Funktion f
a; b soll in Abhångigkeit von den Regressionskoeffizienten a und b minimiert werden. Die Bestimmungsgleichungen fçr a und b finden wir, indem f
a; b partiell nach a und nach b differenziert und die beiden ersten Ableitungen Null gesetzt werden. Fçr Gl. (6.4) schreiben wir: f
a; b
n X yi
b xi a2
i1
n X
yi2
i1
Man beachte, dass das Kriterium der kleinsten Quadrate nicht auf die Abstånde der Punkte von der gesuchten Geraden (Lote von den Punkten auf die Gerade) bezogen ist, sondern auf die Abweichungen der Punkte von der Geraden in y-Richtung. Dadurch ist gewåhrleistet, dass die Regressionsgleichung ihre Aufgabe, y-Werte mæglichst pråzise vorherzusagen, optimal erfçllt.
6
185
a6.1.1 Lineare Regression
2 a yi
2 b xi yi
i1
b2 x2i 2 a b xi a2
6:5
bzw. f
a; b
n X i1
yi2
b2
n X i1
2a
n X
yi
i1
x2i 2 a b
2b n X i1
n X
xi yi
i1
xi n a2 :
6:6
186
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
Wir leiten f
a; b nach a ab und setzen die 1. Ableitung gleich Null: df
a; b da
2
n X
yi 2 b
i1
n X
xi 2 n a 0 :
6:7
i1
Die 1. Ableitung nach b wird ebenfalls Null gesetzt: df
a; b db
2
n X
xi yi 2 b
i1
n X i1
x2i 2 a
n X
xi 0 :
i1
6:8 Læsen wir Gl. (6.7) nach a auf, ergibt sich: n P
yi
b
a i1 n
6
n P i1
xi y
n
b x:
6:9
Um b zu ermitteln, setzen wir fçr a in Gl. (6.8) die rechte Seite von Gl. (6.9) ein und erhalten: 2
n X
xi yi 2 b
i1
n X
x2i
i1
0P n
yi
Bi1 2B @ n
b
1 n P xi n X i1 C C xi 0 : A n
6:10
i1
2
xi yi
2
i1
n X i1
n P
yi xi i1 : n
6:11
Fçr b erhalten wir also n P n P
b i1
n P
i1
n
xi yi
n P i1
n P i1
x2i
i1 n P
n
i1
xi yi
xi
x2i
n P i1
yi
n 2 xi
n n P
n P xi yi i1 i1 : n 2 P xi
6:12
i1
Da die 2. Ableitungen nach a und nach b von Gl. (6.6) jeweils positiv sind, wird f
a; b minimiert und nicht maximiert.
Wir fassen zusammen: Die Regressionskoeffizienten a und b werden nach folgenden Gleichungen bestimmt: ay
bx;
b
n P i1
n
n P
xi yi
n P i1
i1
x2i
xi
n P i1
xi
n P i1
2
yi :
6:12
Werden a und b nach Gl. (6.9) bzw. Gl. (6.12) berechnet, resultiert eine Regressionsgerade, fçr die die Summe der quadrierten Abweichungen der beobachteten y-Werte von den vorhergesagten ^y-Werten minimal ist.
Berechnung der Regressionsgleichung. Die Berechnung einer Regressionsgleichung sei anhand des Beispiels in Tabelle 6.1 demonstriert (vgl. Tabelle 6.2). Die Leistungen in beiden Tests sind aufgrund der Werte von 5 Vpn durch die Gleichung ^yi 0;47 xi 10;66
Durch einfaches Umstellen, Ausklammern und Multiplizieren mit 1=2 ergibt sich: n P xi n n X X i1 x2i 2 b xi 2b n i1 i1 n X
n
6:9
verbunden. Die letzte Spalte in Tabelle 6.2 enthålt die ^y-Werte, d. h. die bei Bekanntheit der x-Werte vorhergesagten Leistungen im Test y. Wçssten wir beispielsweise, dass eine weitere Vp im Test x eine Leistung von x 240 erzielt hat, wçrden wir fçr diese Vp eine Leistung von ^y 0;47 240 10;66 123;46 vorhersagen bzw. schåtzen. Da die Regressionsgleichung jedoch nur fçr 5 Vpn ermittelt wurde, kænnen wir dieser ¹Punktschåtzungª (vgl. S. 100) nur wenig trauen, was auch durch Vergleiche der y- und ^y-Werte in Tabelle 6.2 nahegelegt wird. Wir werden deshalb unter 6.1.2 erærtern, wovon die Genauigkeit einer Regressionsvorhersage abhångt und wie die Pråzision einer Regressionsvorhersage bestimmbar ist bzw. verbessert werden kann.
Vorhersage von xi-Werten. Zuvor wollen wir uns fragen, wie die Regressionsgleichung lauten wçrde, wenn Leistungen im Test x auf Grund von Leistungen im Test y vorhergesagt werden sollen, wenngleich die Regressionsgleichung çblicherweise nur fçr eine Vorhersagerichtung bestimmt wird. Um jedoch die Symmetrie des Regressionsansatzes fçr beide Vorhersagerichtungen aufzuzeigen, ermitteln wir auch die 2. Regressionsgerade zur Vorhersage von ^x-Werten: ^xi bxy yi axy :
6:13
Ausgehend von unseren Vorkenntnissen çber lineare Beziehungen kænnte man meinen, dass
6
187
a6.1.1 Lineare Regression Tabelle 6.2. Berechnung einer Regressionsgleichung Vpn-Nr.
Test x
Test y
x2
xy
1 2 3 4 5
31 128 67 46 180
15 95 35 40 80
961 16 384 4 489 2 116 32 400
5 P
5 P
465 25,23 12 160 70,82 2 345 42,15 1 840 32,28 14 400 95,26 5 2 P xi 204 304
5 P i1
xi 452
x 90;4 y 53;0 n5 n P n xi yi i1 b n P n x2i i1
i1
yi 265
i1
x2i 56 350
5 P i1
xi yi 31 210
^ y
i1
n P
n P xi yi 5 31 210 452 265 i1 i1 0;47 n 2 5 56 350 204 304 P xi i1
a y b x 53;0 0;47 90;4 10;66 ^yi b xi a 0;47 xi 10;66
100 vp2 90
x5 vp5
80 ∧
∧
(x5 - x 5)
x5
70 60
y
hierfçr die bereits ermittelte, nach x aufgelæste Regressionsgleichung eingesetzt werden kann. Vorhersagen von ^x-Werten auf Grund dieser Gleichung wåren jedoch nicht sehr pråzise, da diese Gleichung so bestimmt wurde, dass die Summe der quadrierten Abweichungen in y-Richtung ein Minimum ergibt. Die beste Gerade fçr die Vorhersage von ^x-Werten ist jedoch diejenige, von der die Punkte in x-Richtung mæglichst wenig abweichen. Abbildung 6.4 verdeutlicht bei den Vpn 4 und 5 die Abweichungen der Vpn-Punkte von der Regressionsgeraden in x-Richtung. Die Gerade, die die quadrierten Abweichungen
xi ^xi minimiert, stimmt ± bis auf eine Ausnahme, die wir noch kennenlernen werden ± nicht mit der Regressionsgleichung fçr die Vorhersage von ^y-Werten çberein. (Håtten wir die Methode der kleinsten Quadrate nicht auf die Abweichungen in y-Richtung, sondern auf die geometrischen Abstånde bzw. Lote angewandt, wçrde nur eine ¹Regressionsgeradeª resultieren, die fçr beide Vorhersagerichtungen gleichermaûen gut oder schlecht geeignet ist.) Deshalb sind in Gl. (6.13) die Regressionskoeffizienten mit den Indizes xy versehen, um zu kennzeichnen, dass diese Regressionskoeffizienten fçr eine optimale Vorhersage von ^x-Werten auf Grund von y-Werten gelten. Um mæglichen Verwechslungen vorzubeugen, schreiben wir fçr Gl. (6.3)
∧
50
x4
vp4
40 x4
30
∧
vp3
(x4 - x 4)
20 vp1
10 0 0
20
40
60
80
100 120 140 160 180 200
x
Abb. 6.4. Bestimmung einer Regressionsgeraden zur Vorhersage von x-Werten
^yi byx xi ayx ;
6:14
wobei byx und ayx mit Gl. (6.12) bzw. Gl. (6.9) identisch sind. (Merkregel: Der 1. Index kennzeichnet die links vom Gleichheitszeichen bzw. in der Gleichung ¹vorneª stehende Variable.)
188
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
Die Regressionskoeffizienten axy und bxy werden nach dem gleichen Verfahren bestimmt wie die Koeffizienten ayx und byx , deren Herleitung ausfçhrlich behandelt wurde. Sie lauten: axy x
bxy y ;
n bxy
n P i1
n
xi yi
n P i1
6:15 n P i1
yi2
n P
xi
n P i1
yi
i1
2
yi :
6:16
yi
axy 3;61 bxy 1;64 :
^xi 1;64 yi 3;61 : Abbildung 6.5 zeigt die Regressionsgeraden ^ yi byx xi ayx sowie ^xi bxy yi axy . Die beiden Regressionsgeraden schneiden sich im Punkt P
x 90;4=y 53;0. Diese Koordinaten entsprechen den Mittelwerten x und y. Hieraus folgt auch, dass sich die Regressionsgeraden zweier z-standardisierter Variablen
x y 0; sx sy 1 im Ursprung des Koordinatensystems schneiden.
axy : bxy
ayx bxy axy : 1 byx bxy
6:19
Nach Gl. (6.9) ist ayx y byx x und nach Gl. (6.15) axy x bxy y, sodass wir fçr Gl. (6.19) schreiben kænnen: byx x bxy x bxy y 1 byx bxy bxy y bxy byx x x bxy y 1 byx bxy x
1 bxy byx 1 byx bxy
xi
y
x:
6:20
Setzen wir fçr xi in Gl. (6.14) x ein, ergibt sich yi byx x ayx byx x
y:
90
6:18
Læsen wir nach xi auf, resultiert
byx x y
100
6:17
axy byx xi ayx : bxy
xi
Die Regressionsgleichung fçr die Vorhersage von x-Werten heiût somit:
xi
Da die y-Koordinaten beider Regressionsgeraden im Schnittpunkt identisch sind, setzen wir Gl. (6.14) und Gl. (6.17) gleich: xi
Ausgehend von den Werten in Tabelle 6.2 ermitteln wir:
6:21
Die Schnittpunktkoordinaten lauten somit x und y.
80 ∧
y i = 0,47·x i + 10,66
70 60
y
6
Schnittpunkt der Regressionsgeraden. Dass der Schnittpunkt der beiden Regressionsgeraden mit den Mittelwertskoordinaten çbereinstimmt, zeigt der folgende Gedankengang: Læsen wir Gl. (6.13) nach yi auf, ergibt sich:
P ( –x, –y )
50 40 30
∧
1,64´ y· yi +i +3,61 3,64 xxÃii ==1,64
20 10 0 0
20
40
60
80
100 120 140 160 180 200
x
Abb. 6.5. Graphische Darstellung der Regressionsgleichunx bxy y axy gen ^ y byx x ayx und ^
Kovarianz und Regression Um die Bedeutung des Regressionskoeffizienten b besser erkennen zu kænnen, dividieren wir in Gl. (6.12) Zåhler und Nenner zweimal durch n. Im Nenner erhalten wir dann die Varianz der x-Werte (s. Gl. 1.21). Der resultierende Zåhlerausdruck wird als Kovarianz der Variablen x und y
cov
x; y bezeichnet: n n P P x yi i n P i1 xi yi i1 n cov
x; y i1 :
6:22 n
Was unter der Kovarianz zweier Variablen zu verstehen ist, wird deutlich, wenn wir fçr Gl. (6.22) die folgende Schreibweise wåhlen: n P
xi
x
yi n
–x
a positive Kovarianz 6
y
5
:
6:22 a
–y
4
y
cov
x; y
i1
6
189
a6.1.1 Lineare Regression
Die Gleichwertigkeit von Gl. (6.22) und Gl. (6.22 a) wird nachvollziehbar, wenn man die Beziehung zwischen den Varianzformeln (1.16) und (1.21) auf S. 43 betrachtet.
3
Die Kovarianz ist durch den Mittelwert der Produkte korrespondierender Abweichungen gekennzeichnet.
0
2 1
0
1
2
3
4
5
6
7
x –x
b negative Kovarianz 6 5 –y
y
4 3 2 1 0 0
1
2
3
4
5
6
7
x –x
c Kovarianz = 0 6 5 –y
4
y
Jede Untersuchungseinheit i liefert uns ein Messwertpaar, bestehend aus den Werten xi und yi , wobei xi und yi mehr oder weniger weit çber oder unter ihrem jeweiligen Durchschnitt liegen kænnen. Sind beide Werte weit çber- bzw. weit unterdurchschnittlich, so ergibt sich ein hohes positives Abweichungsprodukt. Bei nur måûigen Abweichungen wird das Abweichungsprodukt kleiner ausfallen. Die Summe der Abweichungsprodukte çber alle Untersuchungseinheiten (bzw. ihr Mittelwert) ist daher ein Maû fçr den Grad des miteinander Variierens oder Kovariierens der Messwertreihen x und y. · Eine hohe positive Kovarianz erhalten wir, wenn håufig ein çberdurchschnittlicher Wert der Variablen x einem çberdurchschnittlichen Wert in y und einem unterdurchschnittlichen Wert in x ein unterdurchschnittlicher Wert in y entspricht. Tragen wir die Messwertpaare mit einer positiven Kovarianz in ein Koordinatensystem ein, erhalten wir einen Punkteschwarm, der in etwa Abb. 6.6 a entspricht. · Eine hohe negative Kovarianz ergibt sich, wenn håufig ein çberdurchschnittlicher Wert der Variablen x einem unterdurchschnittlichen Wert in y und einem unterdurchschnittlichen Wert in x ein çberdurchschnittlicher Wert in y entspricht. Ein Beispiel fçr eine negative Kovarianz zeigt Abb. 6.6 b. · Besteht keine Kovarianz zwischen den beiden Variablen, so werden bei çberdurchschnittlichen Abweichungen in x sowohl çberdurchschnittliche Abweichungen in y als auch unterdurch-
3 2 1 0 0
1
2
3
4
5
6
7
x
Abb. 6.6 a±c. Graphische Veranschaulichung von Kovarianzen
190
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
schnittliche Abweichungen in y anzutreffen sein und umgekehrt (Abb. 6.6 c, mit sx&sy).
6
Bei normalverteilten Merkmalen folgt die ¹Umhçllendeª des Punkteschwarmes einer Ellipse, die mit wachsender Kovarianz enger wird. Nåhert sich die Verteilung der Punkte einem Kreis, so besteht keine Kovarianz zwischen den beiden Variablen. Kann der Punkteschwarm durch eine Gerade mit positiver (negativer) Steigung repråsentiert werden, sprechen wir von einer positiven (negativen) Kovarianz. Kovarianzen sind ± wie in 6.2.1 gezeigt wird ± die entscheidenden Ausgangsgræûen fçr Korrelationskoeffizienten. Ausgehend von den Varianzen und den Kovarianzen der Variablen ergeben sich die Steigungskoeffizienten und die Regressionsgeraden zu byx
cov
x; y ; s2x
6:23
bxy
cov
x; y ; s2y
6:24
^yi ^xi
cov
x; y xi ayx ; s2x
6:25
cov
x; y yi axy : s2y
6:26
Zwei Extremfålle: Keine Kovarianz und maximale Kovarianz. Wir wollen uns nun fragen, wie sich eine Kovarianz von Null auf die Regressionsgeraden auswirkt. Hierzu betrachten wir die folgenden Schreibweisen fçr die Regressionsgleichungen, die sich durch einfaches Einsetzen der additiven Konstanten a gemåû Gl. (6.9) bzw. Gl. (6.15) und durch Umstellen ergeben: ^ yi byx
xi
x y ;
6:27
^xi bxy
yi
y x :
6:28
Setzen wir die Kovarianz in Gl. (6.23) und Gl. (6.24) Null, ergeben sich fçr Gl. (6.27) und Gl. (6.28) Steigungskoeffizienten von Null. In diesem Fall erhalten wir als Regressionsgeraden ^y y ;
6:29
^x x :
6:30
Dies sind 2 Geraden, die parallel zur x-Achse (Gl. 6.29) bzw. y-Achse (Gl. 6.30) verlaufen und die deshalb senkrecht aufeinanderstehen. Soll bei einer Kovarianz von 0, d. h. bei stochastisch linear voneinander unabhångigen Variablen, ein y-Wert vorhergesagt werden, ergibt sich fçr jede beliebige Ausprågung von x als Vorhersagewert y (Entsprechendes gilt umgekehrt fçr die Vorhersage von x-Werten). Hierin drçckt sich die Tatsache aus, dass das arithmetische Mittel einer Verteilung derjenige Wert ist, der die Verteilung am besten (im Sinn des Kriteriums der kleinsten Quadrate) repråsentiert (vgl. S. 98). Sind 2 Variablen voneinander unabhångig, sodass die Ausprågung der einen Variablen bei einer Untersuchungseinheit nichts çber die Ausprågung der anderen Variablen aussagt, ist der quadrierte Vorhersagefehler bei einer Vorhersage am geringsten, wenn der vorhergesagte Wert mit dem arithmetischen Mittel desjenigen Merkmals, das vorhergesagt werden soll, identisch ist. Die maximale Kovarianz ist wie folgt definiert (vgl. S. 206 f.): cov
x; ymax sx sy :
6:31
Fçr die b-Koeffizienten erhålt man bei maximaler Kovarianz çber die Gleichungen (6.23) und (6.24) sy sx byx und bxy ; sx sy d. h. es gilt sy 1 : byx bxy sx
6:32
Da die Steigung byx auf die x-Achse und die Steigung bxy auf die y-Achse bezogen ist, besagt Gl. (6.32), dass beide Regressionsgeraden bei maximaler Kovarianz zusammenfallen. Der Schnittwinkel der Regressionsgeraden kann somit zwischen 0 und 90 liegen. Allgemein gilt, dass mit kleiner werdendem Winkel zwischen den Regressionsgeraden die Kovarianz zwischen den Variablen zunimmt.
a6.1.2 Statistische Absicherung
" 6.1.2 Statistische Absicherung Regressionsgleichungen werden auf der Grundlage einer repråsentativen Stichprobe bestimmt, um sie auch auf Untersuchungseinheiten, die nicht zur Stichprobe, aber zur Population gehæren, anwenden zu kænnen. Damit eine Kriteriumsvariable sinnvoll durch eine Prådiktorvariable vorhergesagt werden kann, muss die fçr eine Stichprobe gefundene Regressionsgleichung auf die zu Grunde liegende Grundgesamtheit generalisierbar sein. Wie die bisher behandelten Stichprobenkennwerte variieren auch die Regressionskoeffizienten a und b von Zufallsstichprobe zu Zufallsstichprobe, sodass wir eine Stichprobenkennwerteverteilung der Regressionskoeffizienten a und b erhalten. Je græûer die Streuungen (die Standardfehler) dieser Verteilungen sind, desto weniger ist die fçr eine Stichprobe ermittelte Regressionsgleichung fçr die Vorhersage einer Kriteriumsvariablen tauglich. Die nach der Methode der kleinsten Quadrate ermittelte Stichprobenregressionsgleichung stellt somit nur eine Schåtzung der folgenden, in der Population gçltigen, Regressionsgeraden dar: ^yj b xj ayx :
6:33
191
bivariaten Normalverteilung zu verstehen ist, veranschaulicht Abb. 6.7 a, b. Eine bivariate Normalverteilung ist durch die Parameter x ; y ; rx ; ry und cov
x; y gekennzeichnet (zur Dichtefunktion der bivariaten Normalverteilung vgl. Hays, 1994, Kap. 14.20). Abbildung 6.7 a zeigt eine bivariate Normalverteilungsdichte ohne Kovarianz und Abb. 6.7 b mit positiver Kovarianz. In der zweidimensionalen Darstellungsweise erhalten wir einen Punkteschwarm, dessen Umhçllende eine elliptische Form hat (vgl. Abb. 6.6). Im Extremfall kann diese Ellipse in einen Kreis
cov
x; y 0 bzw. in eine Gerade
cov
x; y sx sy çbergehen. Je enger die Ellipse, um so hæher ist die Kovarianz. Neben dieser optischen Ûberprçfung der Normalverteilungsvoraussetzung sind die folgenden Kriterien zu beachten:
yx
^yj kennzeichnet hierbei einen ^ y-Wert, der auf Grund der Populations-Regressionsgleichung vorhergesagt wurde (in Abhebung von ^ yi als Vorhersagewert auf Grund einer Stichprobenregressionsgleichung).
Annahmen Man kann zeigen, dass a und b erwartungstreue Schåtzungen fçr a und b sind. Die nach Gl. (6.27) bzw. Gl. (6.28) ermittelten Regressionsgleichungen gewåhrleisten Merkmalsvorhersagen, die bei beliebig verteilten Merkmalen das Kriterium der kleinsten Quadrate erfçllen. Will man jedoch erfahren, wie genau diese Merkmalsvorhersagen sind bzw. wie groû das mit Merkmalsvorhersagen verbundene Konfidenzintervall ist, mçssen wir annehmen, dass sich die beiden untersuchten Merkmale in der Grundgesamtheit bivariat normalverteilen. (Dies ist gleichzeitig die Voraussetzung, die erfçllt sein muss, um nach der Maximum-likelihood-Methode die gleichen Regressionskoeffizienten zu erhalten wie nach der Methode der kleinsten Quadrate.) Was unter einer
Abb. 6.7 a, b. Bivariate Normalverteilung. a Ohne Kovarianz, b mit positiver Kovarianz (nach Fahrmeir et al., 2001, S. 354 f.)
6
192
6
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
· Die Verteilung der x-Werte muss fçr sich genommen normal sein. · Die Verteilung der y-Werte muss fçr sich genommen normal sein. · Die zu einem x-Wert gehærenden y-Werte (Arrayverteilung) mçssen normalverteilt sein. · Die Mittelwerte der Arrayverteilungen mçssen auf einer Geraden liegen (vgl. Abb. 6.8). · Die Streuungen der Array-Verteilungen mçssen homogen sein. Diese Voraussetzung wird Homoskedastizitåt genannt. Zu den hier erwåhnten Array-Verteilungen ist Folgendes anzumerken: Ziehen wir aus einer bivariaten Grundgesamtheit eine bivariate Stichprobe, mçssen wir bei nicht perfektem Zusammenhang zwischen den Variablen damit rechnen, dass mehrere Untersuchungsobjekte die gleiche Ausprågung des x-Merkmals, aber verschiedene Ausprågungen des y-Merkmals aufweisen (dies ist die Array-Verteilung von y-Werten, die zu einem x-Wert gehært). Entsprechendes gilt, wenn wir wiederholt aus einer Grundgesamtheit Stichproben ziehen. Auch in diesem Fall werden die zu einem x-Wert gehærenden y-Werte nicht identisch sein. Kennzeichnen wir die zu einem xj gehærenden y-Werte mit y
ijxj
yi unter der Bedingung xj , erhalten wir fçr jeden xj -Wert eine Array-Verteilung der y
ijxj Werte, deren Streuung um so kleiner ist, je enger die Variablen zusammenhången. Auf eine genaue Ûberprçfung der mit der bivariaten Normalverteilung verknçpften Voraussetzungen wird in der Forschungspraxis meistens verzichtet. In der Regel begnçgt man sich mit ei-
ner ¹optischenª Ûberprçfung der Verteilungsformen der beiden Merkmale, der einzelnen ArrayVerteilungen sowie der Form der ¹Punktewolkeª (Scattergram), deren Umhçllende elliptisch sein sollte. Geringfçgige Verletzungen der Voraussetzungen fçhren zu tolerierbaren Verzerrungen in der inferenzstatistischen Absicherung der Regressionsgleichung (vgl. hierzu S. 213 f.). Ansåtze zu einer genaueren statistischen Ûberprçfung der bivariaten Normalverteilungsannahme findet man bei Stelzl (1980) oder Mardia (1970, 1974, 1985). Ein Computerprogramm fçr einen ¹graphischen Testª hat Thompson (1990 b) entwickelt (vgl. hierzu auch S. 450).
Genauigkeit von Regressionsvorhersagen: Der Standardschåtzfehler Im Folgenden nehmen wir an, die Regressionsgleichung fçr die bivariate Grundgesamtheit sei bekannt (Gl. 6.33). Wir kænnen somit fçr jeden xj -Wert einen ¹wahrenª ^yj-Wert vorhersagen. Die Abweichungen der tatsåchlichen y
ijxj -Werte (d. h. der yi-Werte, die fçr ein gegebenes xj beobachtet werden) von ^yj enthalten zwei Anteile: · Die in einer Stichprobe des Umfangs nj (=Anzahl der Messungen xj ) registrierten Abweichungen der Messungen y
ijxj von den çber die Stichprobenregressionsgleichung vorhergesagten ^yj -Werten. · Die stichprobenbedingten Schwankungen der ^yj -Werte um ^yj. (Fçr verschiedene Stichproben ergeben sich verschiedene Regressionsgleichungen und damit auch verschiedene ^yj -Werte.) Da der Erwartungswert aller Ausprågungen fçr y
ijxj mit ^yj identisch ist, berechnen wir die Streuung der y
ijxj -Werte aufgrund einer Stichprobe des Umfangs nj nach folgender Gleichung: v uP n u j 2 u
y
ijxj ^yj ti1
6:34 r
yi jxj : nj
Abb. 6.8. Array-Verteilungen (Dichten) (aus Fahrmeir et al., 2001, S. 462)
Unter der Voraussetzung der Varianzhomogenitåt fassen wir diese Einzelstreuungen zu einem Gesamtwert zusammen.
r
yjx
v uP uk 2 u r
yi jxj nj uj1 u u k P t nj
n P i1
v uP nj uk P u ^
y yj2 tj1 i1
ijxj
n
6:35 a
n
Herleitung des Standardschåtzfehlers. Der (quadrierte) Ausdruck in Gl. (6.35 b) låsst sich in folgender Weise umformen: Wir ersetzen zunåchst ^ y durch die rechte Seite von Gl. (6.33). (Hierbei geben wir die doppelte Indizierung auf und summieren çber i 1 . . . n.) r2
yjx
i1
yi
byx xi ayx 2 n
:
6:36
Nach Ausquadrieren der Klammer und Zusammenfassen entsprechender Ausdrçcke ergibt sich 1 r2
yjx n
n X
yi2 i1
2 byx xi yi
2 ayx yi !
2 ayx byx xi b2yx x2i a2yx
:
6:37
Fçr ayx setzen wir in Analogie zu Gl. (6.9)
y byx x ein. Werden die Klammerausdrçcke ausmultipliziert und wird das Summenzeichen auf jeden Ausdruck innerhalb der Klammer angewandt, erhalten wir unter Berçcksichtigung n n P P von xi n x bzw. yi n y : i1
i1
1 r2
yjx n
n X i1
yi2
2 byx
2 b yx n x y
n X
xi yi
i1
yi2
n
n P
2 yi
i1
n2
n
r2y
vgl: Gl: 1:21
Entsprechendes gilt fçr
(mit k Anzahl der Ausprågungen von x und k P n nj ) bzw. vereinfacht j1 v uP un u
y
ijj ^yj2 t :
6:35 b r
yjx i1 n
n P
n P
n y2
yi2
j1
6
193
a6.1.2 Statistische Absicherung
n y2
i1
b 2yx n x2 b 2yx
n X i1
! x2i
:
(6.38)
Die einzelnen Bestandteile dieser Gleichung fassen wir in folgender Weise zusammen:
b 2yx
n P i1
b 2yx n x2
x2i n
b 2 r2x :
Fçr die beiden noch fehlenden Ausdrçcke erhalten wir: 2 b yx n y x
2 b yx n
n P
2 b yx
i1
n P i1
xi yi
n P
xi yi
i1
xi n
n P i1
n 2 b yx cov
x; y 2
b 2yx
r2x
yi !
(vgl. Gl. 6.22) (vgl. Gl. 6.23)
Gleichung (6.38) fassen wir somit folgendermaûen zusammen: r2
yjx r2y r2y
2 b2yx r2x b 2yx r2x b 2yx r2x :
6:39
Ziehen wir aus Gl. (6.39) die Wurzel, erhalten wir die Streuung der y-Werte um die Populations-Regressionsgerade: q r
yjx r2y b 2yx r2x :
6:40
In der Regel werden wir darauf angewiesen sein, die Populations-Regressionsgerade aus den Daten einer bivariaten Stichprobe zu schåtzen. Fçr die Streuung der y-Werte um die Regressionsgerade ermitteln wir dann: q s
yjx s2y b2yx s2x :
6:41 Diese Streuung stellt allerdings keine erwartungstreue Schåtzung (vgl. S. 96 f.) dar. Eine erwartungstreue Schåtzung erhalten wir, wenn Gl. (6.41) p mit dem Faktor n=
n 2 multipliziert wird: s n s2y n b2yx s2x ^
yjx :
6:42 r n 2 ^
yjx stellt die aus den Stichprobendaten geschåtzr te Streuung der y-Werte um die Regressionsgerade dar. Diese Streuung heiût Standardschåtzfehler.
194
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
Der Standardschåtzfehler kennzeichnet die Streuung der y-Werte um die Regressionsgerade und ist damit ein Gçtemaûstab fçr die Genauigkeit der Regressionsvorhersagen. Die Genauigkeit einer Regressionsvorhersage wåchst mit kleiner werdendem Standardschåtzfehler.
6
Konfidenzintervall fçr byx. Der Standardschåtzfehler wird im Weiteren dazu verwendet, die Stabilitåt des aus einer Stichprobe geschåtzten Regressionskoeffizienten byx (und damit çber Gl. 6.9 auch ayx ) zu bestimmen. Wie bei allen aus Stichproben ermittelten Kennwerten ergibt sich auch fçr den Regressionskoeffizienten byx eine Kennwerteverteilung, die zur Ermittlung von Konfidenzintervallen herangezogen werden kann (vgl. S. 102 ff.). Sind die Voraussetzungen der Normalitåt und Varianzhomogenitåt (Homoskedastizitåt) erfçllt, kann das Konfidenzintervall fçr einen b yx -Koeffizienten nach folgender Beziehung bestimmt werden: Dcrit
byx byx t
1
a=2
rbyx
byx t
1
a=2
^
yjx r p : sx n
6:43
Dcrit
byx kennzeichnet das mit einem Konfidenzkoeffizienten von 1 a abgesicherte Konfidenzintervall. Der benætigte t-Wert, der von beiden Seiten der t-Verteilung mit n 2 Freiheitsgraden a=2% abschneidet, wird in Tabelle D abgelesen. (Warum hier die t-Verteilung als Prçfverteilung herangezogen wird, erlåutert Kreyszig, 1973, S. 279 ff.) Ist n > 30, kann der t-Wert in Gl. (6.43) durch einen entsprechenden z-Wert der Standardnormalverteilung (Tabelle B) ersetzt werden. Tabelle 6.3 (S. 197) erlåutert diese Konfidenzintervallbestimmung anhand eines Beispiels. Mit der Bestimmung des Konfidenzintervalls nach Gl. (6.43) låsst sich die Frage, ob ein Regressionskoeffizient byx signifikant von Null abweicht, einfach beantworten: Ein Regressionskoeffizient ist nicht signifikant, wenn sein Konfidenzintervall den Wert Null umschlieût. Gehært b yx 0 nicht zu den Parametern, die den ermittelten byx -Koeffizienten mit einer Wahrscheinlichkeit von 1 a ¹erzeugtª haben kænnen, ist der Regressionskoeffizient auf dem vorgegebenen a-Niveau signifikant. Sollte die Steigung der Regressionsgeraden nicht signifikant von Null abweichen, sind Vorher-
sagen von ^y-Werten auf Grund von x-Werten nicht sinnvoll, da in diesem Fall y als bester Vorhersagewert fçr alle xi -Werte gilt (vgl. S. 190). Ein Regressionskoeffizient ist signifikant, wenn der Wert Null auûerhalb des Konfidenzintervalls liegt.
Determinanten der Vorhersagegenauigkeit Die Pråzision einer einzelnen Regressionsvorhersage wird durch ein Konfidenzintervall gekennzeichnet, in dessen Grenzen sich der wahre ^y-Wert (Erwartungswert von ^y) befindet (genau formuliert: in dessen Grenzen sich alle ^y-Werte befinden, die auf bivariaten Populationsverhåltnissen beruhen, die mit einer Wahrscheinlichkeit von 1 a die empirisch ermittelte Regressionsgleichung ¹erzeugtª haben kænnen). Dieses Konfidenzintervall lautet: s 2 1
xj x ^
yjx Dcrit^y ^yj t
a=2 r : n n s2x
6:45 (Zum mathematischen Hintergrund dieser Gleichung vgl. Hays, 1973, Kap. 15.22 bzw. Kendall u. Stuart, 1973, S. 378.) Der in dieser Gleichung benætigte t-Wert kann der t-Tabelle (Tabelle D) fçr n 2 Freiheitsgrade entnommen werden. Ist n > 30, entspricht diesem t-Wert ein z-Wert der Tabelle B. Bevor wir uns einem erlåuternden Beispiel zuwenden, wollen wir çberprçfen, wodurch die Græûe eines Konfidenzintervalls im Einzelnen bestimmt wird. Ausgehend von Gl. (6.45) ergeben sich die folgenden Bestimmungsstçcke: · Konfidenzkoeffizient
1 a Wie çblich ist das Konfidenzintervall kleiner, je kleiner der Konfidenzkoeffizient (95% oder 99%) ist. · Standardschåtzfehler
^ r
yjx Je græûer der Standardschåtzfehler, um so græûer ist das Konfidenzintervall. Bei einem Standardschåtzfehler von Null (was einem perfekten linearen Zusammenhang entspricht) wird auch das Konfidenzintervall Null, d. h., es sind pråzise Vorhersagen mæglich. Im Vorgriff auf 6.2.1 kænnen wir sagen, dass der Standard-
a6.1.2 Statistische Absicherung
· · ·
·
schåtzfehler mit zunehmender Korrelation abnimmt, d. h., je hæher die Korrelation zwischen zwei Merkmalen, desto pråziser sind die Vorhersagen. Stichprobenumfang
n Das Konfidenzintervall wird ± wie çblich ± kleiner, je græûer der Stichprobenumfang ist. Varianz der x-Werte
s2x Mit zunehmender Varianz der x-Werte verkleinert sich das Konfidenzintervall. Varianz der y-Werte
s2y Die Varianz der y-Werte wirkt sich indirekt çber den Standardschåtzfehler auf das Konfidenzintervall aus (vgl. Gl. 6.42). Die Vorhersagegenauigkeit nimmt mit steigender Varianz der y-Werte ab. Abweichung des x-Wertes von x
xj x Gleichung (6.45) besagt, dass Vorhersagen von y-Werten in Abhångigkeit von
xj x2 bzw. ± wenn man s2x im Nenner mit berçcksichtigt ± von der Græûe des z-standardisierten xj -Wertes unterschiedlich pråzise sind. Das kleinste Konfidenzintervall ergibt sich, wenn xjp x ist. Fçr ^
yjx = n der gediesen Fall resultiert mit r schåtzte Standardfehler des Mittelwertes (s. Gl. 3.3). Die Ungenauigkeit nimmt mit dem Quadrat von
xj x zu (hyperbolische Konfidenzgrenzen).
Abb. 6.9. Hyperbolische Konfidenzgrenzen bei der Vorhersage von ^ y-Werten
a 5% fçr Beispiel 6.3
195
Je stårker ein zur Vorhersage verwendeter xj -Wert vom Mittelwert aller in der Stichprobe enthaltenen x-Werte abweicht, um so unsicherer wird die Vorhersage von ^ y-Werten.
Dieser Sachverhalt wird plausibel, wenn man bedenkt, dass die ermittelte lineare Regressionsbeziehung genau genommen nur fçr den in der Stichprobe realisierten Wertebereich gilt. Innerhalb dieses Bereichs sind Vorhersagen in demjenigen Teilbereich am sichersten, in dem sich die meisten Beobachtungen befinden. Sind die Variablen normalverteilt, ist der mittlere Wertebereich durch die meisten Beobachtungen abgesichert. Vorhersagen aufgrund von x-Werten auûerhalb des realisierten Wertebereichs setzen voraus, dass sich die in der Stichprobe gefundene lineare Beziehung auch in den nicht geprçften Extrembereichen der Merkmale fortsetzt. Diese Annahme ist keineswegs immer aufrecht zu erhalten; y-Werte, die auf Grund von x-Werten auûerhalb des realisierten Wertebereichs vorhergesagt werden, sind zudem wegen des groûen Konfidenzintervalls praktisch unbrauchbar. Abbildung 6.9 veranschaulicht diesen Sachverhalt anhand der Daten aus Tabelle 6.3. Je weiter der x-Wert von x entfernt ist, desto græûer wird das Konfidenzintervall. Auf S. 216 werden wir das Thema ¹Extremwerteª (Outliers) im Kontext der Analyse sog. Regressionsresiduen genauer untersuchen.
6
196
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
BEISPIEL
6
Die inferenzstatistische Absicherung der Regressionsrechnung sei an einem Beispiel verdeutlicht. Mit einem Test wird çberprçft, wie gut 20 Personen fçr eine berufliche Tåtigkeit im Bereich der Sozialfçrsorge geeignet sind (Prådiktorvariable x). Nach Ablauf von 3 Jahren werden die Vorgesetzten befragt, wie sich die getesteten Personen im Beruf bewåhrt haben. Das Ausmaû der Bewåhrung wird auf einer 10-PunkteSkala (1 schlechte Bewåhrung; 10 gute Bewåhrung) eingestuft (Kriteriumsvariable y). Tabelle 6.3 zeigt die Daten und den Rechengang. Das Ergebnis dieser Untersuchung besagt, dass Personen, die im Test z. B. einen Wert von 103 erzielen, im Durchschnitt eine berufliche Bewåhrung von 4,6 Punkten erreichen werden. Dieser Durchschnittswert (Erwartungswert) hat bei einem 95%-Konfidenzkoeffizienten ein Konfidenzintervall von 4;6 0;73 Punkten.
6.1.3 Nonlineare Regression Mit Hilfe der linearen Regressionsrechnung finden wir diejenige Regressionsgerade, die bei ausschlieûlicher Berçcksichtigung linearer Zusammenhånge eine best mægliche (im Sinn des Kriteriums der kleinsten Quadrate) Vorhersage der Kriteriumsvariablen auf Grund einer Prådiktorvariablen gewåhrleistet. Gelegentlich erwarten wir jedoch, dass eine andere, nichtlineare Beziehung eine bessere Vorhersage gestattet als eine lineare Beziehung.
Abbildung 6.10 c zeigt einen Ausschnitt der Beziehung zwischen der Anzahl der Ûbungsstunden und dem Beherrschen des Musikinstrumentes (umgekehrt S-færmiger oder kubischer Zusammenhang). Fordern wir eine Vp auf, sich so viele Namen wie mæglich einfallen zu lassen (Entleerung eines Assoziationsreservoirs), ergibt sich çber die Zeit eine kumulierte Håufigkeitsverteilung, die in etwa eine logarithmische Form hat (vgl. Abb. 6.10 d). Diese Beispiele mægen gençgen, um zu verdeutlichen, dass es gelegentlich erforderlich ist, nonlineare Beziehungen anzunehmen. Zeigt sich in einer Stichprobe eine bivariate Merkmalsverteilung, die offensichtlich nicht durch eine lineare Regressionsgerade angepasst werden kann, sollte zunåchst çberprçft werden, ob es eine Theorie gibt, die den nichtlinearen Trend erklårt. Ausgehend von theoretischen Ûberlegungen spezifizieren wir ein mathematisches Modell bzw. einen Funktionstypus fçr den Kurvenverlauf und çberprçfen, wie gut sich die Daten an das Modell anpassen. Auch dafçr wird håufig die Methode der kleinsten Quadrate eingesetzt. Lassen sich auf Grund theoretischer Ûberlegungen 2 oder mehrere alternative Modelle angeben, werden die Modellparameter aufgrund der Daten fçr die konkurrierenden Modelle bestimmt. Es ist dann demjenigen Modell der Vorzug zu geben, das sich den Daten nach dem Kriterium der kleinsten Quadrate besser anpasst oder kurz: das die Daten besser ¹fittetª.
Beispiele fçr nichtlineare Zusammenhånge Will man einen komplizierten Text oder erlernte Vokabeln reproduzieren, ist håufig festzustellen, dass nach relativ kurzer Zeit vieles vergessen wurde, dass aber einige Lerninhalte erstaunlich lange im Gedåchtnis haften bleiben. Die Reproduzierbarkeit von Gedåchtnisinhalten nimmt im Verlaufe der Zeit nicht linear, sondern exponentiell ab. Abbildung 6.10 a zeigt, wie ein solcher Verlauf aussehen kænnte. Ferner gibt es Theorien, die besagen, dass die Bewertung åsthetischer Reize in einem umgekehrt U-færmigen oder parabolischen Zusammenhang zum Informationsgehalt der Reize steht (vgl. Abb. 6.10 b). Werden komplexe Fertigkeiten, wie z. B. das Spielen eines Musikinstrumentes erworben, ist mit einer sog. Plateauphase zu rechnen, in der kaum Lernfortschritte zu verzeichnen sind.
Umgekehrt U-færmige Beziehungen Eine umgekehrt U-færmige bzw. parabolische Beziehung (vgl. Abb. 6.10 b) wird durch eine quadratische Regressionsgleichung oder ein Polynom 2. Ordnung modelliert: ^y a b1 x b2 x2 :
6:47
Wie bei der linearen Regression mçssen wir auch hier die Summe der quadrierten Abweichungen der y-Werte von den ^y-Werten minimieren: f
a; b1 ; b2
n X i1
yi
a b1 xi b2 x2i 2
min :
6:48 Wird Gl. (6.48) partiell nach a, b1 und b2 abgeleitet, und werden die Ableitungen Null gesetzt, erhalten
197
a6.1.3 Nonlineare Regression Tabelle 6.3. Beispiel fçr eine Regressionsrechnung mit anschlieûender inferenzstatistischer Absicherung Vp
x
y
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
110 112 100 91 125 99 107 112 103 117 114 106 129 88 94 107 108 114 115 104
4 5 7 2 9 3 5 3 6 8 4 4 7 3 4 5 4 7 6 5
Summen: 2155 101 n P xi 2155 107;8 x i1 20 n n P yi 101 i1 5;1 y 20 n v n 2 u P u un xi v uP 2 u 2 i1 u xi u234 245 2155 t t n i1 20 sx 10;1 20 n v n 2 u P u un yi v uP 2 u 2 i1 u yi u575 101 t t n i1 20 sy 1;8 n 20 n n P P xi yi n P i1 i1 2155 101 xi yi 11 127 n 20 12;2 cov
x; y i1 20 n cov
x; y 12;2 byx 0;12 s2x 102;2 ayx y
byx x 5;1
0;12 107;8 5;1
12;9
7;8
Die Regressionsgleichung heiût also: ^yj byx xj ayx 0;12 xj 7;8 : Den Standardschåtzfehler ermitteln wir zu: s r n s2y n b2yx s2x 20 3;2 20 0; 014 102;2 ^
yjx r 1;4 : 18 n 2
x2
y2
xy
12 100 12 544 10 000 8 281 15 625 9 801 11 449 12 544 10 609 13 689 12 996 11 236 16 641 7 744 8 836 11 449 11 664 12 996 13 225 10 816
16 25 49 4 81 9 25 9 36 64 16 16 49 9 16 25 16 49 36 25
440 560 700 182 1 125 297 535 336 618 936 456 424 903 264 376 535 432 789 690 520
234 245
575
11127
6
198
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
Tabelle 6.3 (Fortsetzung) Fçr a 5%, df 18 und t
1 a=2 2;10 lautet das Konfidenzintervall fçr b yx: ^
yjx r 1;4 p 0;12 0;07 : p 0;12 2;10 Dcritbyx byx t
1 a=2 sx n 10;1 20 Da das Konfidenzintervall den Wert Null nicht umschlieût, ist byx signifikant. Das Konfidenzintervall fçr ^ y-Werte (Gl. 6.45) ermitteln wir zu: s s s 2
xj 107; 82
xj 107;82 1
xj x ^
yjx Dcrit
^yj ^ ^ yj 2;10 1;4 0;05 yj t
1 a=2 r ^ yj 2;94 0;05 2 n sx 20 102;2 2044 n Setzen wir beispielsweise xj 103, resultiert: ^ yj 0;12 xj Dcrit
^yj
7;8 12;4 7;8 4;6 s r2
xj 107; 82
103 107; 8 4;6 2;94 0;05 ^ yj 2;94 0;05 4;6 0;73 : 2044 2044
6
Abb. 6.10 a±d. Nichtlineare Zusammenhånge. a Beispiel fçr einen exponentiellen Zusammenhang, b Beispiel fçr einen parabolischen Zusammenhang, c Beispiel fçr einen funktio-
nalen Zusammenhang 3. Grades (kubischer Zusammenhang), d Beispiel fçr einen logarithmischen Zusammenhang
wir das folgende Gleichungssystem fçr die Berechnung der unbekannten Regressionskoeffizienten: n n n X X X yi a n b1 x i b2 x2i ;
i1 n X i1
x i yi a x2i yi a
n X i1 n X i1
i1
x i b1
n X
x2i b1
x2i b2
i1 n X i1
i1 n X
x3i b2
5 4
x3i ;
i1 n X i1
6
y
i1
n X
3
∧
y i = – 6,36 + 9,63 · x i – 1,86 · x i2
x4i :
(6.49) Die Auflæsung derartiger Gleichungssysteme nach den unbekannten Parametern a, b1 und b2 ist nach dem Substitutionsverfahren oder vergleichbaren Verfahren relativ einfach mæglich. Im Anhang, Teil C IV, wird unter dem Stichwort ¹Læsung linearer Gleichungssystemeª ein matrixalgebraischer Læsungsweg beschrieben, der mçhelos auf Polynome beliebiger Ordnung (s. unten) çbertragbar ist.
2 1 0 0
1
2
3
4
x
Abb. 6.11. Graphische Darstellung der quadratischen Regressionsgleichung
Tabelle 6.4. Beispiel fçr eine nichtlineare Regression ObjektNr. 1 2 3 4 5 6 7 8 9 10 Summen:
x
y
xy
x2
x3
x2 y
1,3 3,7 4,4 5,4 5,8 5,5 5,2 2,9 3,7 2,0
1,43 4,81 6,60 11,88 14,50 18,15 17,68 10,73 14,06 8,20
1,21 1,69 2,25 4,84 6,25 10,89 11,56 13,69 14,44 16,81
1,33 2,20 3,38 10,65 15,63 35,94 39,30 50,65 54,87 68,92
1,46 2,86 5,06 23,43 39,06 118,59 133,63 187,42 208,51 282,58
1,57 6,25 9,90 26,14 36,25 59,90 60,11 39,70 53,43 33,62
26,9
39,9
108,04
83,63
282,87
1002,60
326,87
3 Gleichungen læsen wir nach den Unbekannten a, b1 und b2 auf und erhalten: 6;36 ; 9;63 ; 1;86 ;
sodass ^ yi
x4
1,1 1,3 1,5 2,2 2,5 3,3 3,4 3,7 3,8 4,1
Fçr die 3 Gleichungen gemåû Gl. (6.49) ergibt sich: 39;9 10 a 26;9 b1 83;63 b2 ; 108;04 26;9 a 83;63 b1 282;87 b2 ; 326;87 83;63 a 282;87 b1 1002;60 b2 : Diese a0 b1 b2
6
199
a6.1.3 Nonlineare Regression
6;36 9;63 xi
1;86 x2i :
200
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
BEISPIEL Mit informationstheoretischen Methoden (vgl. z. B. Mittenecker u. Raab, 1973) wurde der syntaktische Informationsgehalt
Pradikator x von 10 neu komponierten, kurzen musikalischen Phrasen ermittelt. 50 Vpn wurden aufgefordert, auf einer 7-Punkte-Skala anzugeben, in welchem Ausmaû ihnen die 10 Musikbeispiele gefallen ( Kriterium y). Tabelle 6.4 zeigt den Informationsgehalt der 10 Beispiele sowie deren durchschnittliche Bewertung. Da wir vermuten, dass zwischen Bewertung und Informationsgehalt ein umgekehrt U-færmiger Zusammenhang besteht, sollen die Bewertungen mit einer quadratischen Regressionsgleichung vorhergesagt werden (vgl. Tabelle 6.4). Die Regressionsgleichung lautet ^ yi
6
6;36 9;63 xi
1;86 x2i :
Abbildung 6.11 zeigt, wie sich diese Parabel an die empirischen Daten anpasst.
stimmen. Die Abb. 6.10 a bis d verdeutlicht z. B. Zusammenhånge, bei denen ein Funktionstyp explizit durch eine Theorie vorgegeben ist, der dementsprechend auch regressionsanalytisch nachgewiesen werden sollte. In diesem Fall kann die Regressionsgleichung durch vorgeschaltete, linearisierende Transformationen zumindest approximativ ermittelt werden. Betrachten wir beispielsweise ein Modell, nach dem zwischen zwei Variablen ein exponentieller Zusammenhang vermutet wird. Der Gleichungstyp lautet in diesem Fall ^y a xb :
Diese Gleichung wird linearisiert, indem wir sie logarithmieren. lg ^y lg a b lg x ;
Wird ein (umgekehrt) S-færmiger Zusammenhang vermutet (vgl. Abb. 6.10 c), låsst sich dieser Trend durch eine kubische Regressionsgleichung bzw. ein Polynom 3. Ordnung anpassen: ^y a b1 x b2 x2 b3 x3 :
6:50
Wie bei der quadratischen Regressionsgleichung erhålt man auch hier durch partielle Ableitungen ein lineares Gleichungssystem, das einfachheitshalber matrixalgebraisch (vgl. Anhang C IV) nach den unbekannten Regressionskoeffizienten a, b1 , b2 und b3 aufgelæst wird. Nichtlineare Zusammenhånge, die çber ein Polynom 3. Ordnung hinausgehen, kænnen nur sehr selten theoretisch begrçndet werden. Eine Modellierung beliebiger nichtlinearer Zusammenhånge durch ein Polynom p-ter Ordnung kann deshalb bestenfalls ex post, d. h. ohne theoretische Vorannahmen, sinnvoll sein. Die entsprechende allgemeine Regressionsgleichung lautet: p
bp x :
6:53
wobei lg Logarithmus zur Basis 10. Wir ersetzen:
Polynome hæherer Ordnung
^ y a b1 x b2 x2 bp
6:52
1
xp
1
6:51
^y0 lg ^y x0 lg x a0 lg a b0 b : Fçr Gl. (6.52) erhalten wir somit die folgende lineare Funktion: ^y0 a0 b0 x0 :
6:54
Das Verfahren zur Ermittlung der Regressionskoeffizienten dieser Regressionsgleichung ist bereits bekannt. Wir logarithmieren die erhobenen x- und y-Werte und bestimmen anschlieûend nach Gl. (6.9) und Gl. (6.12) die Parameter a0 und b0 , wobei b0 dem gesuchten Parameter b entspricht; a erhalten wir, indem die Logarithmie0 rung rçckgångig gemacht wird: a 10a . Weitere linearisierende Transformationen lauten: ^y a b lg x y^0 a b x0 ;
6:55
wobei x0 lg x;
Linearisierende Transformationen Wenngleich jeder beliebige Zusammenhang durch eine polynomiale Regression beliebig genau angepasst werden kann, ist es nicht immer sinnvoll, eine Regressionsgleichung auf diese Weise zu be-
^y a bx y^0 a0 b0 x ;
6:56
wobei a0 lg a; b0 lg b. Der hier skizzierte Ansatz der vorgeschalteten, linearisierenden Transformationen låsst sich rela-
BEISPIEL Auf Grund eines Lernexperiments soll çberprçft werden, wie sich die Anzahl der richtig reproduzierten, sinnlosen Silben
x in Abhångigkeit von der Zeit
y åndert. 30 Vpn wurden aufgefordert, eine Liste von 25 sinnlosen Silben auswendig zu lernen. Anschlieûend wurden sie an 10 aufeinanderfolgenden Tagen gebeten, die behaltenen sinnlosen Silben zu nennen. Aufgrund analoger Gedåchtnisexperimente erwarten wir eine Exponentialfunktion vom Typus ^ y a bx . Tabelle 6.5 zeigt die durchschnittliche Anzahl der an den einzelnen Tagen reproduzierten Silben sowie den Rechengang, der zur Ermittlung der gesuchten Regressionsgleichung fçhrt. Abbildung 6.12 veranschaulicht die gefundene Funktion. Wie die Abbildung zeigt, passt sich der Kurvenverlauf bei hæheren x-Werten besser an die Messwerte an als bei niedrigen x-Werten. Dies ist darauf zurçckzufçhren, dass die y-Werte bei kleineren x-Werten stårker differenzieren als bei græûeren x-Werten. Um die am Anfang stårker abfallenden Reproduktionsleistungen genauer abbilden zu kænnen, håtte die Reproduktion zu Beginn in kçrzeren Zeitabstånden erfasst werden mçssen.
24 22 20 18 16 14
y
tiv einfach auch auf komplexere funktionale Zusammenhånge anwenden. Zunåchst werden die Regressionskoeffizienten der linearisierten Regressionsgleichung ermittelt, die anschlieûend in die Regressionskoeffizienten der ursprçnglichen Funktion rçcktransformiert werden. Die so ermittelten Regressionskoeffizienten sind allerdings nicht exakt mit denjenigen Regressionskoeffizienten identisch, die wir bei direkter Anwendung der Methode der kleinsten Quadrate erhalten wçrden. Bei direkter Anwendung der Methode der kleinsten Quadrate werden die gesuchten Regressionskoeffizienten so geschåtzt, dass die Summe der quadrierten Abweichungen aller Punkte von der nichtlinearisierten Funktion (z. B. Parabel, Hyperbel, Exponentialfunktion) minimal wird. Diese Minimierung ist jedoch nicht mit derjenigen identisch, bei der eine lineare Regressionsgleichung gesucht wird, fçr die die Abweichungsquadratsumme der zuvor transformierten Werte minimal sein soll (vgl. etwa Rçtzel, 1976). Wie Parameterschåtzungen nach vorgeschalteten linearisierenden Transformationen optimiert werden kænnen, zeigen Draper u. Smith (1998, Kap. 24.2) bzw. Hartley (1961).
6
201
a6.2 Merkmalszusammenhånge
12
∧
y i = 16,98 · 0.88 x i
10 8 6 4 2 0 0
1
2
3
4
5
6
7
8
9
10
x
Abb. 6.12. Graphische Veranschaulichung des in Tabelle 6.5 ermittelten exponentiellen Zusammenhangs
Hinweis: Wie bei der linearen Regressionsrechnung mçssen wir uns natçrlich auch bei der nichtlinearen Regression fragen, wie sicher ^y-Werte vorhergesagt werden kænnen, wenn die zu Grunde liegende Regressionsgleichung aus dem bivariaten Datenmaterial einer Stichprobe geschåtzt wurde. Die hiermit angesprochene inferenzstatistische Absicherung der Regressionskoeffizienten in der nichtlinearen Regression ist jedoch mathematisch sehr komplex und soll in diesem Zusammenhang nicht behandelt werden. Ausfçhrliches hierzu findet man bei Draper u. Smith (1998, Kap. 24) oder bei Seber u. Wild (1989).
" 6.2 Merkmalszusammenhånge Die Regressionsrechnung gestattet es, fçr jede beliebige, bivariate Merkmalsverteilung eine lineare oder nichtlineare Regressionsgleichung zu ermitteln, die Vorhersagen des Merkmals y aufgrund des Merkmals x (und umgekehrt) ermæglicht. Im ungçnstigsten Fall ermitteln wir eine Regressionsgleichung, nach der fçr jeden x-Wert immer der Mittelwert aller y-Werte vorhergesagt wird. Die Varianz der vorhergesagten ^y-Werte ist somit Null. Im gçnstigsten Fall kænnen ^y-Werte vorhergesagt werden, die den tatsåchlichen y-Werten entsprechen und deren Varianz somit der Varianz der y-Werte entspricht. Die in den y-Werten ent-
202
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
Tabelle 6.5. Beispiel fçr eine nicht-lineare Regression mit vorgeschalteter linearisierender Transformation (x: Zeit in Tagen, y: Reproduktionsrate) y
y0 lg
y
x2
y0 2
1 2 3 4 5 6 7 8 9 10
23,8 14,2 10,0 8,1 6,7 6,5 6,2 6,8 6,1 6,4
1,38 1,15 1,00 0,91 0,83 0,81 0,79 0,83 0,78 0,81
1 4 9 16 25 36 49 64 81 100
1,90 1,32 1,00 0,83 0,69 0,66 0,62 0,69 0,61 0,66
1,38 2,30 3,00 3,64 4,15 4,86 5,53 6,64 7,02 8,10
55
94,8
9,29
385
8,98
46,62
x
Summen:
6
^ y a bx ^ y y0 lg ^
^ y0 a0 b0 x
wobei:
a0 lg a b0 lg b
cov
x; y0 (vgl. Gl. 6.23) a0yx y0 x b0yx (vgl. Gl. 6.9) s2x v 2 u n P u v un xi u 2 uP 2 i1 u385 55 u xi n t ti1 10 sx 2;87 10 n v 2 u n P u v un yi0 u 2 uP 0 2 i1 u8; 98 9; 29 u yi n t ti1 10 0;19 sy 0 n 10 n n P P xi yi0 n P i1 i1 55 9; 29 xi yi0 46; 62 n 10 0;448 cov
x; y0 i1 n 10 cov
x; y0 0; 448 0;054 b0yx s2x 8; 25
b0yx
a0yx y0 n P 0
y
x b0yx yi0
i1
n n P xi
9; 29 0;93 10
55 5;5 x i1 10 n a0yx 0;93
5;5
0;054 1;23
sodass: ^ yi0 1;23
0;054 xi
0
a 10a 101;23 16;98 0
b 10b 10
0;054
0;88
Die Regressionsgleichung lautet: ^ yi 16; 98 0; 88xi
x y0
a6.2.1 Kovarianz und Korrelation haltene Information ist somit in mehr oder weniger starkem Ausmaû bei Vorliegen der x-Werte bekannt bzw. redundant. Je enger zwei Merkmale zusammenhången, desto mehr informiert die Ausprågung des Merkmals x bei einem Untersuchungsobjekt çber die Ausprågung des Merkmals y. Es soll deshalb im Folgenden çberprçft werden, wie die Enge des Zusammenhangs zweier Merkmale bestimmt werden kann, wobei wir uns zunåchst mit intervallskalierten Merkmalen befassen. Zusammenhangsmaûe fçr nominal- oder ordinalskalierte Merkmale werden unter 6.3 behandelt.
" 6.2.1 Kovarianz und Korrelation In 6.1.1 haben wir bereits ein Maû kennengelernt, das çber die Enge des Zusammenhangs zweier Merkmale informiert ± die ¹Kovarianzª. Der Kovarianz zweier Merkmale entnehmen wir, in welchem Ausmaû die Unterschiedlichkeit der Untersuchungsobjekte, bezogen auf das Merkmal x, der Unterschiedlichkeit der Untersuchungsobjekte im Merkmal y entspricht. Eine hohe positive Kovarianz liegt vor, wenn diejenigen Untersuchungsobjekte, die in Bezug auf das Merkmal x eine çberdurchschnittliche (unterdurchschnittliche) Merkmalsausprågung aufweisen, weitgehend auch in Bezug auf das Merkmal y çberdurchschnittlich (unterdurchschnittlich) sind. Entsprechend kennzeichnet eine negative Kovarianz çberdurchschnittliche Merkmalsausprågungen in x bei gleichzeitig unterdurchschnittlicher Merkmalsausprågung in y und umgekehrt. Die Kovarianz ist Null, wenn die Untersuchungsobjekte çber- bzw. unterdurchschnittlich in Bezug auf x ausgeprågt sind, unabhångig von ihren Merkmalsausprågungen in Bezug auf y. Formal wird dieser Sachverhalt durch Gl. (6.22 a) erfasst: n P
xi x
yi y cov
x; y i1 : n Die Varianz eines Merkmals x erfasst die durchschnittliche, quadrierte Abweichung aller Messwerte vom Mittelwert. Die Kovarianz erfasst das durchschnittliche Produkt korrespondierender Abweichungen der Messwerte von den Mittelwerten der Merkmale x und y. Tabelle 6.6 enthålt je ein
203
Beispiel fçr eine hohe positive Kovarianz, eine hohe negative Kovarianz und eine unbedeutende Kovarianz. In Tabelle 6.6 a sehen wir, dass durchgehend positiven Abweichungen in x auch positive Abweichungen in y und negativen Abweichungen in x negative Abweichungen in y entsprechen. Dies fçhrt zu der positiven Kovarianz cov
x; y 4;8. In Tabelle 6.6 b sind die Verhåltnisse genau umgekehrt. Hier unterscheiden sich die korrespondierenden Abweichungen çberwiegend (bis auf eine Ausnahme) im Vorzeichen. Die Kovarianz lautet cov
x; y 4;2. Im Beispiel 6.6 c haben die korrespondierenden Abweichungen zum Teil ein gleiches und zum Teil ein ungleiches Vorzeichen, was zu der unbedeutenden Kovarianz von cov
x; y 0;2 fçhrt. Wie die Beispiele zeigen, wird die Hæhe der Kovarianz nicht nur durch die Anzahl der gleich gerichteten bzw. ungleich gerichteten Abweichungen, sondern auch durch deren Græûe bestimmt. So kænnte eine Kovarianz von Null beispielsweise dadurch zustande kommen, dass ein hohes negatives Abweichungsprodukt durch mehrere kleine positive Abweichungsprodukte ausgeglichen wird. Sind zwei Merkmale stochastisch voneinander unabhångig, ist die Kovarianz zwischen den Merkmalen Null. Je hæher die Kovarianz (positiv oder negativ), desto enger ist der (lineare) Zusammenhang zwischen den Variablen bzw. desto hæher ist die (positive oder negative) Abhångigkeit. Die Kovarianz hat allerdings einen entscheidenden Nachteil. Sie ist abhångig vom Maûstab der zu Grunde liegenden Variablen bzw. von deren Varianz. Verdoppeln wir in unseren Beispielen den Maûstab der x-Werte, indem wir alle x-Werte mit 2 multiplizieren (wodurch sich die Varianz der x-Werte vervierfacht, vgl. Gl. 1.23), so hat dies zur Folge, dass sich auch die Abweichungen
xi x verdoppeln. Entsprechendes gilt fçr Verånderungen des Maûstabes der y-Werte. Werden die x-Werte mit einem Faktor k und die y-Werte mit dem Faktor ` multipliziert, veråndert sich die Kovarianz um den Faktor k `. Da nun gerade im human- und sozialwissenschaftlichen Bereich die Festlegung des Maûstabes einer intervallskalierten Variablen recht willkçrlich geschieht, ist die Kovarianz zur Kennzeichnung der Enge des Zusammenhangs zweier Merkmale wenig geeignet. Sie ist nur sinnvoll,
6
204
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
Tabelle 6.6. Numerische Veranschaulichung von Kovarianzen a) Hohe positive Kovarianz
Summen: x 4;
6
y 3;
x
y
y
x
x
y
x
2 1 9 5 3
1 2 6 4 2
±2 ±3 5 1 ±1
±2 ±1 3 1 ±1
4 3 15 1 1
15
0
0
24
20
n P
cov
xy i1
xi
x
yi
y
n
x
y
y
x
y
y
x
y
y
24 4;8 5
b) Hohe negative Kovarianz x
y
2 1 9 5 3 Summen: x 4;
y 3;
20
n P
cov
xy i1
xi
x
x
y
y
x
4 6 1 2 2
±2 ±3 5 1 ±1
1 3 ±2 ±1 ±1
±2 ±9 ±10 ±1 +1
15
0
0
±21
x
yi
y
n
21 5
4;2
c) Unbedeutende Kovarianz x
y 2 1 9 5 3
Summen: x 4;
y 3;
20
n P
cov
xy i1
xi
x
x
y
y
x
2 4 2 6 1
±2 ±3 5 1 ±1
±1 1 ±1 3 ±2
2 ±3 ±5 3 2
15
0
0
±1
x
yi n
y
1 5
0;2
wenn ein verbindlicher Maûstab, wie z. B. Maûeinheiten der Gewichts-, Lången- und Zeitmessung, vorgegeben ist. Werden jedoch beispielsweise in zwei Untersuchungen die Merkmale Intelligenz und Neurotizismus jeweils unterschiedlich quantifiziert, so erhalten wir in beiden Untersuchungen Kovarianzen zwischen diesen Merkmalen, die nicht miteinander vergleichbar sind.
Die Produkt-Moment-Korrelation Die Kovarianz ist ein ungeeignetes Maû, wenn man davon ausgeht, dass zwischen zwei Merkmalen ein ¹wahrerª Zusammenhang unabhångig von der Quantifizierung der Merkmale existiert. Es wurde deshalb ein weiteres Maû zur Kennzeichnung von Zusammenhången entwickelt, das ge-
gençber Maûstabsverånderungen der untersuchten Merkmale invariant ist: der Korrelationskoeffizient r. Die Abkçrzung r ist auf das Wort Regression zurçckzufçhren, womit zum Ausdruck gebracht wird, dass die Korrelations- und Regressionsrechnung eng miteinander verknçpft sind. Die ersten Anwendungen des Korrelationskoeffizienten stammen von Francis Galton und Karl Pearson, die mit diesem Zusammenhangsmaû die Beziehung von Kærperbaumaûen zwischen Eltern- und Kindergenerationen untersuchten. Wenngleich Pearson entscheidend an der Weiterentwicklung des Korrelationskoeffizienten beteiligt war, nahm die Korrelationsrechnung mit einem Artikel von Bravais (1846) ihren Anfang. Der klassische Korrelationskoeffizient wird deshalb gelegentlich ¹Bravais-Pearson-Korrelationª genannt. Eine weitere çbliche Bezeichnung fçr dieses Zusammenhangsmaû ist ¹Produkt-Moment-Korrelationª (wobei mit ¹Produkt-Momentª das erste Produktmoment zweier Zufallsvariablen gemeint ist, vgl. Hoel, 1971, S. 149). Den Korrelationskoeffizienten r erhalten wir, indem die Kovarianz zweier Variablen durch das Produkt der Standardabweichungen der Variablen
sx sy dividiert wird: r
cov
x; y : sx sy
6:57
Die Division der Kovarianz durch das Produkt der Standardabweichungen hat zur Folge, dass Maûstabs- bzw. Streuungsunterschiede zwischen den Variablen kompensiert werden. An dieser Stelle kænnte man zu Recht fragen, warum die Vereinheitlichung der Maûståbe nicht durch die bereits bekannte z-Transformation (vgl. Gl. 1.27) vorgenommen wird. Dass diese Transformation bereits in der Berechnungsvorschrift fçr den Korrelationskoeffizienten enthalten ist, zeigt der folgende Gedankengang: Ersetzen wir cov
x; y in Gl. (6.57) durch Gl. (6.22 a), erhalten wir: n P
r i1
xi
x
yi
y
n sx sy n X 1 xi x yi y : n i1 sx sy
6
205
a6.2.1 Kovarianz und Korrelation
6:58
Nach Gl. (1.27) ergibt sich somit die Korrelation zu r
n 1 X zxi zyi : n i1
6:59
Da der Mittelwert einer z-transformierten Variablen Null ist, kænnen z-Werte als Abweichungswerte vom Mittelwert der z-Werte interpretiert werden. Damit ist Gl. (6.59) auch als Kovarianz zweier z-transformierter Variablen interpretierbar. Die Korrelation zweier Variablen entspricht der Kovarianz der z-transformierten Variablen bzw. dem durchschnittlichen Produkt korrespondierender z-Werte.
Die in der Korrelationsberechnung enthaltene z-Standardisierung macht den Korrelationskoeffizienten gegençber linearen Transformationen vom Typus x0 c x d invariant
c > 0. Werden die x-Werte und/oder y-Werte in dieser Weise linear transformiert, erhalten wir eine Korrelation zwischen den neuen x0 - und y0 -Werten, die mit der Korrelation zwischen den ursprçnglichen x- und y-Werten identisch ist. Fçr c < 0 gilt jrxy j jrx0 y0 j. In den Beispielen der Tabelle 6.6 ermitteln wir (in allen 3 Fållen) als Streuungen die Werte sx 2;83 und sy 1;79. Die Korrelation zwischen den Variablen x und y lautet somit in den 3 Beispielen: 4;8 0;95; 2;83 1;79 4;2 0;83; b r 2;83 1;79 0;2 0;04: c r 2;83 1;79
a r
Man sollte sich davon çberzeugen, dass die gleichen Korrelationskoeffizienten resultieren, wenn die zuvor z-transformierten x- und y-Werte in Gl. (6.59) eingesetzt werden.
Berechnung einer Korrelation. Rechnerisch einfacher und weniger anfållig fçr Rundungsfehler ist die folgende Formel, die wir erhalten, wenn cov
x; y nach Gl. (6.22) und sx sowie sy nach Gl. (1.21) eingesetzt werden (um Doppelbrçche zu vermeiden, werden die Zåhler beider Gleichungen zuvor mit n erweitert).
206
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
1 2 6 4 2
4 1 81 25 9
1 4 36 16 4
2 2 54 20 6
Eingesetzt in Gl. (6.61) erhalten wir fçr r: q s2x s2y s2
yjx r sx sx sy q s2y s2
yjx ; sy
15
120
61
84
bzw. fçr r2
Tabelle 6.7. Berechnung einer Korrelation x 2 1 9 5 3 Summen: 20 n P i1
xi 20 ;
n P i1
6
n P i1
xi
2
x2
y
n P i1
yi 15 ;
400 ;
x2i 120 ;
n P i1
n P i1
yi
xy
n5 2
yi2 61 ;
y2
r2
225 n P i1
xi yi 84
n n n P P P n xi yi xi yi i1 i1 i1 r s n n 2 n n 2 P P P P n x2i n yi2 xi yi i1
i1
i1
5 84 20 15 p
5 120 400
5 61 225 0;95
i1
n n n P P P n xi yi xi yi i1 i1 i1 r s n n 2 n n 2 P P P P n x2i n yi2 xi yi i1
i1
i1
6:60
i1
Diese Gleichung soll an den Daten in Tabelle 6.6 a verdeutlicht werden (vgl. Tabelle 6.7). Fçr die Werte in Tabelle 6.3 ermitteln wir eine Korrelation von r 0;67.
Wertebereich der Korrelation Um zu ermitteln, welche Variationsbreite (¹rangeª) Korrelationskoeffizienten aufweisen, læsen wir Gl. (6.23) nach cov
x; y auf und setzen in Gl. (6.57) ein. Das Resultat lautet: r
s2x byx : sx sy
6:61
Fçr byx schreiben wir nach Umformen von Gl. (6.41): q s2y s2
yjx :
6:62 byx sx
s2y
s2
yjx s2y
:
6:63
6:64
Um diesen Ausdruck interpretieren zu kænnen, erinnern wir uns an die Bedeutung von s2
yjx . Die Wurzel aus s2
yjx haben wir Standardschåtzfehler genannt. s2
yjx kennzeichnet die Varianz der y-Werte um die Regressionsgerade. Vorhersagen von y-Werten aufgrund von x-Werten sind um so pråziser, je kleiner diese Varianz ist. Bei perfektem Zusammenhang liegen ± im Fall einer linearen Regression ± såmtliche y-Werte auf der Regressionsgeraden, d. h., die Varianz der y-Werte um die Regressionsgerade
s2
yjx ist Null. Im Fall einer perfekten linearen Beziehung ermitteln wir somit nach Gl. (6.64) ein r2 von 1 bzw. ein r von 1. Die ungçnstigste Vorhersagesituation ist gegeben, wenn der bivariate Punkteschwarm kreisfærmig ist. In diesem Fall wird als y-Wert fçr alle x-Werte der Mittelwert aller y-Werte vorhergesagt. Die Regressionsgerade entspricht einer Parallelen zur x-Achse, die durch y geht. Die Varianz der y-Werte um die Regressionsgerade
s2
yjx ist somit gleich der Varianz der y-Werte
s2y . In diesem Fall ermitteln wir nach Gl. (6.64) fçr r2 und damit auch fçr r den Wert Null. Da s2
yjx nur Werte zwischen Null und s2y annehmen kann, besagt Gl. (6.64), dass r2 im Bereich 0 r2 1 liegen muss. Berçcksichtigen wir das doppelte Vorzeichen der Wurzel aus r2 , ist der Wertebereich des Korrelationskoeffizienten durch die Grenzen 1 und 1 markiert (bei identischen Verteilungen der Merkmale; vgl. Carroll, 1961). Der Korrelationskoeffizient beschreibt die Enge des linearen Zusammenhangs zweier Merkmale durch eine Zahl r, die zwischen 1 und 1 liegt. Bei r 1 sprechen wir von einem perfekt positiven und bei r 1 von einem perfekt negativen Zusammenhang. Ist r 0, besteht kein linearer Zusammenhang.
207
a6.2.1 Kovarianz und Korrelation Ausgehend von diesen Grenzwerten fçr Korrelationskoeffizienten ergibt sich nach Gl. (6.57), dass Kovarianzen nur Werte zwischen sx sy und sx sy annehmen kænnen. Ist der lineare Zusammenhang zwischen zwei Variablen perfekt, sodass eine Korrelation von r 1 resultiert, erhalten wir eine positive oder negative Kovarianz, die dem Produkt der beiden Streuungen sx und sy entspricht. Allgemein ergibt sich die Kovarianz zu cov
xy r sx sy .
Korrelation und Regression Auf S. 205 wurde darauf hingewiesen, dass der Absolutbetrag des Korrelationskoeffizienten gegençber beliebigen Lineartransformationen der Merkmale x und y invariant ist. Da die ^ y-Werte durch Lineartransformation aus den x-Werten hervorgehen
^ y b x a, und die Korrelation r^yy immer positiv ist, muss also gelten: jrxy j r^yy . Der Absolutbetrag der Korrelation zwischen x und y entspricht der Korrelation zwischen den empirischen y-Werten und den vorhergesagten ^ y-Werten: jrxy j r^yy .
Dividieren wir in Gl. (6.61) Zåhler und Nenner durch sx , resultiert fçr r: sx
6:65 r byx : sy Aus Gl. (6.65) ersehen wir, dass negative Korrelationskoeffizienten bei einer Regressionsgeraden mit negativer Steigung und positive Korrelationskoeffizienten bei Regressionsgeraden mit positiver Steigung auftreten. Auf S. 190 wurde darauf hingewiesen, dass die Regressionsgeraden zur Vorhersage von x-Werten und zur Vorhersage von y-Werten bei maximaler Kovarianz zusammenfallen. Da bei maximaler Kovarianz die Korrelation perfekt ist
r 1, sind die beiden Regressionsgeraden fçr r 1 identisch. Sind die Variablen z-standardisiert
x y 0; sx sy 1, resultiert fçr r 1 eine Regressionsgerade mit einer Steigung von 1 bzw. ±1, die durch den Ursprung des Koordinatensystems verlåuft. Dies wird auch aus Gl. (6.61) ersichtlich, wonach sich im Fall z-standardisierter Variablen die Beziehung r byx ergibt. Die auf die x-Achse bezogene Steigung der 1. Regressionsgeraden (von
x auf y) entspricht der Korrelation. Entsprechendes gilt fçr die auf die y-Achse bezogene Steigung der 2. Regressionsgeraden (von y auf x), die ebenfalls mit der Korrelation identisch ist. Beziehen wir beide Steigungen auf die x-Achse, ergibt sich fçr die 1. Regressionsgerade byx r und fçr die 2. Regressionsgerade bxy 1=r.
Regressionsresiduen Als Nåchstes wollen wir die Differenz s2y s2
yjx in Gl. (6.64) nåher untersuchen. s2y enthålt die Abweichungsquadrate
yi y2 und s2
yjx die Abweichungsquadrate
yi ^yi 2 . Gehen wir auf unquadrierte Abweichungen zurçck, erhalten wir die beiden Abweichungen
yi y und
yi ^yi , fçr die offensichtlich folgende Gleichung gilt:
6:66
yi y
yi ^yi
^yi y : Diese fçr die Korrelations- und Regressionsrechnung wichtige Beziehung sei an einem kleinen Beispiel verdeutlicht. Es soll die Rechtschreibfåhigkeit eines Schçlers i vorhergesagt werden. Haben wir keinerlei Informationen çber den Schçler, stellt die durchschnittliche Rechtschreibfåhigkeit aller Schçler die beste Schåtzung dar. Diese mæge y 40 betragen. Hat nun Schçler i eine tatsåchliche Rechtschreibfåhigkeit von yi 60, ist die Vorhersage anhand des Mittelwertes mit folgendem Fehler behaftet:
yi
y 60
40 20 :
Nehmen wir weiter an, die allgemeine Intelligenz des Schçlers i und die Beziehung der allgemeinen Intelligenz zur Rechtschreibfåhigkeit seien bekannt. Aufgrund der Regressionsgleichung wird fçr Schçler i eine Rechtschreibleistung von ^yi 52 vorhergesagt. Der Vorhersagefehler lautet in diesem Fall:
yi
^yi 60
52 8 :
Den Ausdruck y ^y bezeichnet man auch als Regressionsresiduum. Das Regressionsresiduum kennzeichnet die Abweichung eines empirischen y-Wertes vom vorhergesagten ^ y-Wert.
In unserem Beispiel wird der Vorhersagefehler von 20 auf 8, das Regressionsresiduum, reduziert. Die Græûe eines Regressionsresiduums (bzw. eines
6
208
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
Vorhersagefehlers) hångt natçrlich von der Hæhe der Korrelation ab: Je hæher die Korrelation (positiv oder negativ), desto kleiner ist das Regressionsresiduum. Da Regressionsresiduen in mehreren Verfahren der folgenden Kapitel eine wesentliche Rolle spielen, ist es angebracht, einige Eigenschaften von Regressionsresiduen genauer zu untersuchen.
6
Inhaltliche Bedeutung. Regressionsresiduen enthalten Anteile der Kriteriumsvariablen y, die durch die Prådiktorvariable x nicht erfasst werden. In diesen Anteilen sind Messfehler enthalten, aber vor allem auch Bestandteile des Kriteriums, die durch andere, mit der Prådiktorvariablen nicht zusammenhångende Merkmale erklårt werden kænnen. In unserem Beispiel ist es unmittelbar einleuchtend, dass die Rechtschreibfåhigkeit eines Schçlers nicht nur von dessen allgemeiner Intelligenz, sondern von weiteren Merkmalen, wie z. B. Sprachverståndnis, Merkfåhigkeit, Lesehåufigkeit, Anzahl der Schreibçbungen etc., abhångt. Eine genaue Untersuchung der Residuen kann deshalb åuûerst aufschlussreich dafçr sein, durch welche Merkmale die geprçfte Kriteriumsvariable zusåtzlich determiniert ist. Mittelwert. Der Mittelwert der Regressionsresiduen ist Null. Um dies zu zeigen, prçfen wir zunåchst, welche Beziehung zwischen dem Mittelwert (bzw. der Summe) der vorhergesagten ^ y-Werte und der empirischen y-Werte besteht. Unsere Behauptung lautet: n X
yi
i1
n X
^ yi :
6:67
i1
Ersetzen wir ^y durch die rechte Seite der Gl. (6.3), erhalten wir: n X i1
yi
n X
byx xi ayx
i1
byx
n X
xi n ayx
i1
bzw. nach Einsetzen von ayx gemåû Gl. (6.9):
6:68
n X
yi byx
i1
byx
n X i1 n X
xi n
y xi n y
byx x byx n x :
6:69
i1
Da n x n X
n P i1
xi und n y
yi byx
i1
n X
n X
xi
i1
n X i1
yi :
n P i1
yi
yi , ergibt sich: byx
n X
xi
i1
6:70
i1
Die mit Gl. (6.67) aufgestellte Behauptung ist also richtig. Hieraus folgt n n n X X X ^yi yi
yi ^yi 0 :
6:71 i1
i1
i1
Damit ist gezeigt, dass die Summe der Regressionsresiduen bzw. deren Mittelwert 0 ist.
Zerlegung der Kriteriumsvarianz. Mit wachsender Korrelation verkleinern sich die Regressionsresiduen. Dies hat zur Folge, dass auch die Streuung bzw. die Varianz der Regressionsresiduen mit græûer werdender Korrelation sinkt. Hierauf wurde bereits bei der Erlåuterung des Standardschåtzfehlers s
yjx auf S. 194 f. hingewiesen, der mit der Streuung der Regressionsresiduen identisch ist. Læsen wir Gl. (6.64) nach s2
yjx auf, resultiert: s2
yjx s2y
1
r2 :
6:72
Die Varianz der Regressionsresiduen ist bei perfekter Korrelation Null
s2
yjx 0 und fçr r 0 identisch mit der Varianz der y-Werte
s2yjx s2y . Hierzu gegenlåufig veråndert sich die Varianz der vorhergesagten y-Werte. Sie entspricht der Varianz der y-Werte, wenn r 1 ist
s2^y s2y , und sie ist Null, wenn kein Zusammenhang besteht
s2^y 0. Man erhålt also ) s2
yjx 0 f ur r 1 und s2^y s2y s2
yjx s2y s2^y 0
) f ur r 0 :
Die Varianz der y-Werte låsst sich additiv in die Varianz der Regressionsresiduen
s2
yjx und die Varianz der vorhergesagten y-Werte
s2^y zerlegen: s2y
s2
yjx
s2^y
:
Die Herleitung von Gl. (6.73) ist relativ einfach. Mit dem deskriptiven Standardschåtzfehler erhalten wir nach Gl. (6.41) b2yx s2x :
6:74
Da ^y aus einer Lineartransformation der x-Werte hervorgeht
^y byx x a, resultiert fçr deren Varianz nach Gl. (1.23) s2^y b2yx s2x :
6:75
Die Summe aus Gl. (6.74) und Gl. (6.75) ergibt s2y .
Korrelationen. Da die ^y-Werte såmtlich auf einer Geraden (der Regressionsgeraden) liegen, korrelieren die ^y-Werte natçrlich mit den x-Werten zu 1 : rx^y 1. Zu fragen ist jedoch, wie die Regressionsresiduen
y ^ y mit den x-Werten korrelieren. Hierfçr betrachten wir zunåchst die entsprechende Kovarianz. Wir erhalten nach Gl. (6.22) unter Verwendung von ^ yi byx xi a: cov
x; y
1 ^ y n
n X
xi
yi
byx xi
i1
n X
xi
i1
n X
a !
yi byx xi a=n :
i1
(6.76) Wird dieser Ausdruck ausmultipliziert, lassen sich die folgenden Vereinfachungen nutzen: n n n P P P xi yi xi yi =n i1 i1 i1 cov
x; y n n n P P x2i x2i =n i1 i1 s2x : n Man erhålt dann cov
x; y
^y cov
x; y
byx
s2x
6:77 a
cov
x; y gemåû Gl. (6.23) s2x cov
x; y 2 ^y cov
x; y sx s2x
bzw. wegen byx cov
x; y
6:73
Die Varianz der y-Werte setzt sich additiv aus der Varianz der Regressionsresiduen und der Varianz der vorhergesagten ^ y-Werte zusammen.
s2
yjx s2y
6
209
a6.2.1 Kovarianz und Korrelation
0:
6:77 b
Damit ist auch die Korrelation zwischen den Regressionsresiduen und den x-Werten Null: rx;y
^ y
0:
6:78
Die Regressionsresiduen
y ^ y und die Prådiktorvariable (x) sind unkorreliert.
Residualanalyse. Die Regressionsresiduen sind ein wichtiges Hilfsmittel zur Ûberprçfung der Frage, ob die Voraussetzungen fçr inferenzstatistische Absicherungen im Rahmen einer Korrelations-/ Regressionsanalyse erfçllt sind (vgl. S. 191 f. bzw. S. 213). Die Analyse der Verteilung der Regressionsresiduen heiût Residualanalyse. Sie dient der Ûberprçfung der · Normalverteilungsannahme, · der Homoskedastizitåtsannahme und der · Linearitåtsannahme (bei linearer Regression). Wir werden dieses Thema auf S. 216 erneut aufgreifen.
Determinationskoeffizient Die Varianz der y^-Werte wird ausschlieûlich çber die Regressionsgerade durch die x-Werte bestimmt. Dividieren wir diese Varianz durch die Varianz der y-Werte und multiplizieren den Quotienten mit 100, erhalten wir den prozentualen Anteil der Varianz der y-Werte, der auf Grund der x-Werte erklårbar bzw. redundant ist. Die Redundanz der y-Werte bei Bekanntheit der x-Werte Red
yx lautet somit: Red
yx
s2^y s2y
100 :
6:79
Da s2^y s2y s2
yjx , ergibt sich die Redundanz unter Berçcksichtigung von Gl. (6.64) auch nach folgender Beziehung: Red
yx r2 100 : Aus Gl. (6.79) und (6.80) folgt:
6:80
210
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
r2
6
s2^y s2y
:
6:81
r2 wird als Determinationskoeffizient bezeichnet. Er gibt den auf 1 bezogenen und Red
yx den auf 100 bezogenen Anteil der gemeinsamen Varianz zweier Merkmale wieder. Der gemeinsamen Varianz zweier Merkmale entspricht die auf 1 bzw. 100 bezogene Kovarianz der Merkmale. Im Rahmen der Regressionsrechnung haben wir gelernt, dass die Regressionsgleichung zur Vorhersage von ^ y-Werten anders lautet als die Regressionsgleichung zur Vorhersage von ^x-Werten. Im Unterschied hierzu erhalten wir jedoch nur einen Korrelationskoeffizienten zwischen zwei Merkmalen. Dies wird leicht einsichtig, wenn wir Gl. (6.22 a) und Gl. (6.57) betrachten: sx und sy sind konstante Werte, und die Kovarianz ist von der Vorhersagerichtung unabhångig. Deshalb resultiert nur ein Korrelationskoeffizient und damit auch nur ein Redundanzwert bzw. Determinationskoeffizient. Bei gegebener Korrelation sind die y-Werte bei Bekanntheit der x-Werte genauso redundant wie die x-Werte bei Bekanntheit der y-Werte. (Dass dies nicht bei allen Korrelationsarten der Fall ist, werden wir in Kap. 19 im Rahmen der kanonischen Korrelationsanalyse zeigen.)
Die Hæhe des IQ ist fçr die Abiturnote informationslos, da Schçler mit einem IQ < Mdx zu gleichen Anteilen in die Kategorien Note < Mdy bzw. Note > Mdy fallen (Entsprechendes gilt fçr die Schçler mit IQ > Mdx ). Bei einer Korrelation von 0 ergibt sich also eine Fehlerquote von 50% bzw. ein Fehleranteil von 0;5. (Die Bezeichnung ¹Fehlerª geht hierbei von einem perfekt positiven Zusammenhang aus, bei dem sich alle Fålle in den Feldern a und d der 4-Felder-Tafel befinden. Ist r < 1, informieren die Håufigkeiten in den Feldern b und c çber die Anzahl der Fålle, die ± bezogen auf einen perfekt positiven Zusammenhang ± fehlklassifiziert wurden. Bei negativer Korrelation sind die Felder a und d indikativ fçr die Fehlklassifikationen.) Tabelle 6.8 ist nun mit derjenigen Tafel zu vergleichen, die sich aus den tatsåchlichen IQ- und Notenwerten ergibt (vgl. Tabelle 6.9). Hier sind nur 40 Fålle bzw. 20% fehlklassifiziert, d. h., der zufållige Fehleranteil von 0;5 wurde um 0;3 auf 0;2 reduziert. Relativieren wir diese Reduktion am zufålligen Fehleranteil, resultiert als relative Fehlerreduktion
rF der Wert 0;3=0;5 Tabelle 6.8. 4-Felder-Tafel fçr r 0
Interpretationshilfen fçr r Angenommen, ein Schulpsychologe ermittelt zwischen der Gesamtabiturnote
y und dem Intelligenzquotienten
x IQ von 200 Abiturienten eine Korrelation von r 0;60. Was ± so die håufig gestellte Frage ± bedeutet diese Zahl? Um die Hæhe dieses Zusammenhangs zu veranschaulichen, dichotomisieren wir beide Variablen am Median und erhalten so eine 4-Felder-Tafel mit den Zeilen > = < Mdx und den Spalten > = < Mdy . Wir nehmen an, beide Merkmale seien symmetrisch (z. B. normal) verteilt. Die Aufgabe des Schulpsychologen mæge lauten, die Abiturnoten der 200 Schçler (oberhalb oder unterhalb des Medians?) auf Grund des IQ (ebenfalls oberhalb oder unterhalb des Medians) vorherzusagen. Bestçnde zwischen den beiden Merkmalen kein Zusammenhang
r 0, mçsste der Schulpsychologe raten, d. h., man wçrde die in Tabelle 6.8 dargestellte 4-Felder-Tafel erwarten.
< Mdx IQ
x
> Mdx
< Mdy 50 50
Note (y) a b c d
100
> Mdy 50
50 100
100
100 200
Tabelle 6.9. 4-Felder-Tafel fçr r 0;6
< Mdx IQ
x
> Mdx
< Mdy 80 20 100
Note (y) a b c d
> Mdy 20
80 100
100
100 200
0;6 (bzw. 60%). Dieser Wert ist mit der oben genannten Korrelation identisch. Werden zwei symmetrisch verteilte Merkmale mediandichotomisiert, gibt die mit 100% multiplizierte Korrelation r an, um wie viel Prozent die Fehlerquote der empirischen 4-Felder-Klassifikation gegençber einer zufålligen Klassifikation reduziert wird.
Da die zufållige Fehlerquote wegen der doppelten Mediandichotomisierung 0;5 betrågt, erhålt man unter Verwendung der Symbole einer 4-Felder-Tafel (vgl. Tabelle 6.8) fçr die relative Fehlerreduktion
rF bc n rF 0;5 20 20 0;5 200 0;6 : 0;5 0;5
6:82
Errechnet man das 4-Felder-v2 der empirischen Tafel nach Gl. (5.73), resultiert 200
80 80 20 202 72;0 : 100 100 100 100 Wie auf Seite 227 f. beschrieben wird, låsst sich dieser v2-Wert in einen U-Koeffizienten (U: lies phi!) transformieren, der mit der Produkt-Moment-Korrelation zweier dichotom kodierter Variablen identisch ist. Man errechnet nach Gl. (6.107) r r v2 72 U 0;6 : 200 n v2
Man erhålt also fçr rF und U ( r) identische Werte.
Øquivalenz von U- und rF. Die formale Øquivalenz von U und rF låsst sich zeigen, wenn man, wegen a b c d a c b d n=2; fçr a n=2 b und fçr d n=2 c setzt. Man erhålt dann fçr Gl. (5.73) v2
n
n=2
b
n=2
n=24
c
U rF
bc 2 2 n : v 1=
4 n p Wegen U v2 =n ergibt sich also
0;5
bc n : 0;5
Es låsst sich ferner zeigen, dass rF bzw. U mit dem Kappa-Maû von Cohen (1960) çbereinstimmt (vgl. Feingold, 1992).
k-fach gestufte Merkmale. Zur hier beschriebenen relativen Fehlerreduktion lieûe sich kritisch anmerken, dass durch die Mediandichotomisierungen erhebliche Informationen verloren gehen, die fçr eine genaue Kennzeichnung des Zusammenhangs erforderlich sind. Um im Beispiel zu bleiben, kænnte es sich bei einer Fehlklassifikation um einen Abiturienten handeln, dessen IQ nur geringfçgig çber Mdx und dessen Note deutlich unter Mdy liegt oder um einen Abiturienten, dessen IQ ebenfalls nur wenig çber Mdx liegt, aber dessen Note Mdy kaum unterschreitet. Kurz: Verschiedene Fehlklassifikationen kænnen unterschiedlich gravierend sein (entsprechendes gilt natçrlich auch fçr richtige Klassifikationen). Um derartige Unterschiede berçcksichtigen zu kænnen, wåre es erforderlich, beide Merkmale feiner abzustufen. Tabelle 6.10 zeigt ein Beispiel, bei dem beide Merkmale vierfach gestuft sind. Man erhålt diese Tabelle, indem man beide Merkmale in Quartile (vgl. S. 40) einteilt, sodass jeder Schçler nach seiner Quartilzugehærigkeit in x und y einem der 16 Felder zugeordnet werden kann. Die Quartile werden jeweils von 1 bis 4 durchnummeriert. In der Diagonale befinden sich die ± wiederum gemessen an einem perfekt positiven Zusammenhang ± richtig klassifizierten Fålle. FehlklassifikatioTabelle 6.10. Bivariate Håufigkeitsverteilung mit vierfach gestuften Merkmalen
b c2
bzw. zusammengefasst
0;5
6
211
a6.2.1 Kovarianz und Korrelation
1 IQ
x
2 3 4
1 30(0) 9(1) 8(4) 3(9) 50
Note
y 4 2 3 11(1) 6(4) 3(9) 25(0) 11(1) 5(4) 9(1) 25(0) 8(1) 5(4) 8(1) 34(0) 50 50 50
50 50 50 50 200
212
6
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
nen kænnen hier danach unterschieden werden, wie weit sie von der Diagonale entfernt sind. Die 3 Fålle im Feld x 1 und y 4 sind z. B. deutlicher fehlklassifiziert als die 11 Fålle im Feld x 1 und y 2. Um diesen Sachverhalt zu berçcksichtigen, werden ± einem Vorschlag Cohens (1968) folgend ± græûere Abweichungen von der Diagonale stårker ¹bestraftª als kleinere. Dies geschieht, indem man die Håufigkeiten mit den in der Tafel eingeklammerten Gewichten multipliziert, wobei die Gewichte die quadrierten Abweichungen von der Diagonale darstellen: Die richtig klassifizierten Fålle in der Diagonale erhalten ein Gewicht von 0, Abweichungen um eine Kategorie werden mit 12 1, Abweichungen um 2 Kategorien mit 22 4 und Abweichungen um 3 Kategorien mit 32 9 gewichtet. Die Summe aller so gewichteten Fehlklassifikationen ergibt einen Wert von 206. Dieser Wert ist mit der Summe der gewichteten Fehlklassifikationen zu vergleichen, die sich bei zufålliger Klassifikation
r 0 ergeben wçrde. In diesem Fall sind die Håufigkeiten çber die 16 Zellen gleichverteilt, d. h., der erwartete Wert fçr jede der 16 Zellen ergibt sich zu 12,5. Unter Verwendung der gleichen Gewichte resultiert bei zufålliger Klassifikation fçr die Summe der gewichteten Fehlklassifikationen der Wert 500. Damit werden die zufållig entstandenen, gewichteten Fehlklassifikationen von 500 um 294 auf 206 reduziert. Setzen wir ± wie bei der relativen Fehlerreduktion fçr median dichotomisierte Merkmale ± die zufålligen Fehlklassifikationen auf 100%, ergibt sich eine Reduktion der gewichteten Fehlklassifikation um
500 206=500 0;588 bzw. 58,8%. Dieser Wert entspricht dem von Cohen (1968) vorgeschlagenen gewichteten Kappa
jw : k P k P
jw 1
i1 j1 k P k P i1 j1
vij fij vij eij
206 0;588
6:83 500 mit vij = quadratische Gewichte, fij = beobachtete Håufigkeiten, eij = gemåû H0 erwartete Håufigkeiten (s. Gl. 5.72), k = Anzahl der Kategorien. 1
Im Weiteren macht Cohen (1968) darauf aufmerksam, dass jw mit der hier verwendeten quadratischen Gewichtungsstruktur und den Ziffern 1 bis k fçr die Merkmalskategorien in x und y mit der Produkt-Moment-Korrelation r der Merkmale x und y çbereinstimmt. Verwendet man in unserem Beispiel als Ausprågungen der Merkmale x und y die Ziffern 1 bis 4, resultiert nach Gl. (6.60) 200 1397 5002 0;588 : 200 1500 5002 (Eine Beweisskizze fçr die Identitåt von jw und r unter den hier angegebenen Bedingungen findet man bei Cohen, 1968, S. 218.) In Erweiterung der fçr dichotomisierte Merkmale genannten Interpretationshilfe kænnen wir also formulieren: r
Dem Wert r 100% ist zu entnehmen, um wieviel Prozent zufållige Fehlklassifikationen durch einen empirischen Zusammenhang der Græûe r reduziert werden, wenn man die Schwere der Fehlklassifikation durch eine quadratische Gewichtung berçcksichtigt.
Unsere bisherigen Ûberlegungen gingen von einer Aufteilung der Merkmale in 4 Quartile (oder allgemein in k Perzentile mit jeweils n=k Fållen) aus mit einer åquidistanten Abstufung der Merkmalskategorien. Diese an der Mediandichotomisierung orientierte Bedingung låsst sich jedoch liberalisieren, denn es wird lediglich gefordert, dass fi . f. j ist, dass also die Randverteilungen identisch sind. Damit gilt die Ûbereinstimmung von jw und r nicht nur fçr gleich verteilte Merkmale, sondern fçr beliebige symmetrisch (z. B. normal-) verteilte Merkmale. Cohen (1968, S. 219) macht zudem darauf aufmerksam, dass Abweichungen von der Identitåt der Randverteilungen die Ûbereinstimmung von jw und r nur geringfçgig beeintråchtigen, wobei in diesem Fall jw < r ist. Weitere Interpretationshilfen fçr Korrelationen findet man bei Bliesener (1992) sowie Rosenthal u. Rubin (1979, 1982).
Korrelation fçr nichtlineare Zusammenhånge. Der bisher besprochene Korrelationskoeffizient erfasst ausschlieûlich die Enge des linearen Zusammenhangs. Darçber hinaus gibt es jedoch auch Zusammenhånge, bei denen ein nichtlineares Vorhersagemodell mehr leistet als ein lineares. Dieser
a6.2.2
Ûberprçfung von Korrelationshypothesen
Ansatz wurde in 6.1.3 als nichtlineare Regression bezeichnet. Die mit einem nichtlinearen Zusammenhang verbundene Korrelation låsst sich einfach ermitteln, wenn man gemåû Gl. (6.81) die Varianz der çber eine nichtlineare Regressionsgleichung vorhergesagten ^ y-Werte
s2^y durch die Varianz von y
s2y dividiert: Der resultierende Wert entspricht dem nichtlinearen r2 .
" 6.2.2 Ûberprçfung von Korrelationshypothesen Wird aus einer bivariaten, intervallskalierten Grundgesamtheit eine Stichprobe gezogen, kann ungeachtet der Verteilungseigenschaften ein Produkt-Moment-Korrelationskoeffizient berechnet werden. Er kennzeichnet als deskriptives Maû die Enge des in der Stichprobe angetroffenen, linearen Zusammenhangs zwischen zwei Merkmalen bzw. als Determinationskoeffizient r2 den Anteil gemeinsamer Varianz, der auf die lineare Beziehung zurçckgeht. Soll auf Grund des Stichprobenergebnisses auf die Grundgesamtheit geschlossen werden bzw. soll das Stichprobenergebnis als Schåtzwert der in der Grundgesamtheit gçltigen Korrelation % (rho) eingesetzt werden, mçssen einige Voraussetzungen erfçllt sein, die im Folgenden behandelt werden.
Voraussetzungen Die inferenzstatistische Absicherung von Korrelationskoeffizienten (in Form von Signifikanztests) setzt ± wie die inferenzstatistische Absicherung von Regressionskoeffizienten ± voraus, dass die Grundgesamtheit, aus der die Stichprobe entnommen wurde, bivariat normalverteilt ist. Diese Voraussetzung gilt als erfçllt, wenn einerseits die Merkmale x und y fçr sich genommen normalverteilt sind (normale Randverteilungen) und wenn andererseits die Verteilung der zu einem x-Wert gehærenden y-Werte normal ist (normale Arrayverteilungen). Zusåtzlich mçssen die Varianzen der Array-Verteilungen homogen sein (Homoskedastizitåt). In der Praxis stæût die Ûberprçfung dieser Voraussetzungen auf erhebliche Schwierigkeiten. Der nahe liegende Weg, die in den einzelnen Merkmalsstufenkombinationen beobachteten erwarteten Håufigkeiten mit dem v2 -Verfahren auf Normalitåt
213
zu prçfen (vgl. unter 5.3.2), ist aus zwei Grçnden problematisch: 1. Die Ermittlung der erwarteten Håufigkeiten setzt ± wie aus den Parametern der Dichtefunktion der bivariaten Normalverteilung (vgl. S. 191) hervorgeht ± voraus, dass u. a. die Korrelation bzw. Kovarianz der Merkmale in der Grundgesamtheit bekannt ist. Diese kann jedoch normalerweise nur aus den Stichprobendaten geschåtzt werden, wobei diese Schåtzung nur dann die Kriterien einer guten Parameterschåtzung erfçllt, wenn die Grundgesamtheit, aus der die Stichprobendaten stammen, bivariat normalverteilt ist. Die Ûberprçfung der Voraussetzung setzt somit voraus, dass die Voraussetzung bereits erfçllt ist. 2. Ist die Korrelation in der Grundgesamtheit bekannt (oder wird sie als bekannt vorausgesetzt) und von Null verschieden, sind die Håufigkeiten in den einzelnen Merkmalsstufenkombinationen nicht mehr voneinander unabhångig. Diese Unabhångigkeitsforderung muss jedoch erfçllt sein, damit der ermittelte v2 -Wert sinnvoll interpretiert werden kann (vgl. S. 175 f.). Bei der Ûberprçfung der Voraussetzung, dass die Grundgesamtheit bivariat normalverteilt ist, beschrånkt man sich deshalb darauf, die Normalitåt der beiden einzelnen Merkmale nachzuweisen. Normalverteilte Einzelmerkmale sind jedoch noch keine Garantie dafçr, dass die beiden Merkmale auch bivariat normalverteilt sind. Ist der Stichprobenumfang hinreichend groû und liegen die Daten in Bezug auf ein Merkmal gruppiert vor, sollten deshalb zusåtzlich die Array-Verteilungen auf Normalitåt und Homoskedastizitåt çberprçft werden. Entsteht bei kleineren Stichproben der Verdacht, die Verteilung kænnte nicht bivariat normalverteilt sein, sollte zumindest çberprçft werden, ob der bivariate Punkteschwarm angenåhert eine elliptische Form hat. (Literaturhinweise zur genaueren Ûberprçfung der bivariaten Normalverteilung findet man auf S. 192 und S. 450.) Hilfreich fçr die Ûberprçfung der Normalitåts- und Homoskedastizitåtsannahme ist ferner die Residualanalyse (s. S. 216). Verletzungen der Voraussetzungen kænnen dazu fçhren, dass Entscheidungen çber die geprçfte Zusammenhangshypothese entweder mit einem erhæhten a-Fehler oder b-Fehler behaftet sind. Die
6
6
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
Selektionsfehler Fçr die Verallgemeinerung einer Korrelation auf eine Grundgesamtheit ist zu fordern, dass die untersuchte Stichprobe tatsåchlich zufållig gezogen wurde und keine irgendwie geartete systematische Selektion darstellt. Im Folgenden sei darauf aufmerksam gemacht, zu welchen Korrelationsverzerrungen es kommen kann, wenn systematische Selektionsfehler vorliegen. Zunåchst wollen wir verdeutlichen, wie der Korrelationskoeffizient beeinflusst wird, wenn in der Stichprobe nicht die gesamte Variationsbreite der Merkmale realisiert ist. In Abb. 6.13 ist ein Punkteschwarm dargestellt, der in der Grundgesamtheit deutlich elliptischen Charakter hat. Werden aus dieser Grundgesamtheit Objekte gezogen, deren Variationsbreite stark eingeschrånkt ist, resultiert in der Stichprobe eine angenåhert kreisfærmige Punkteverteilung. Die Stichprobenkorrela-
Population
y
Frage, wie sich verschiedenartige Verletzungen der Voraussetzungen auf a- und b-Fehler auswirken, wird bei Norris u. Hjelm (1961), McNemar (1969, Kap. 10) sowie bei Carroll (1961) behandelt. Wie man vorgeht, wenn die Array-Verteilungen nicht homoskedastisch sind, wird bei Carroll u. Ruppert (1988) beschrieben (gewichtete Regression oder Variablen- und/oder Modelltransformationen). Wie Havlicek u. Peterson (1977) zeigen, erweist sich der unten aufgefçhrte Signifikanztest fçr Korrelationskoeffizienten als åuûerst robust sowohl gegençber Verletzungen der Verteilungsannahme als auch gegençber Verletzungen des vorausgesetzten Intervallskalenniveaus. (Ûberlegungen zur Entwicklung eines Zusammenhangskoeffizienten fçr Intervallskalen, der keine bivariat normalverteilten Merkmale voraussetzt, wurden von Wainer u. Thissen, 1976 angestellt.) Kann die Voraussetzung der bivariat normalverteilten Grundgesamtheit als erfçllt gelten, stellt die Produkt-Moment-Korrelation einer Stichprobe eine erschæpfende und konsistente Schåtzung des Populationsparameters % dar, die jedoch nicht erwartungstreu ist. Die Stichprobenkorrelation verschåtzt die Populationskorrelation um den Betrag 1=n, der mit græûer werdendem Stichprobenumfang vernachlåssigt werden kann (vgl. Hays u. Winkler, 1970, Bd. 2, S. 13).
Stichprobe
x
Abb. 6.13. Stichprobe mit zu kleiner Streubreite
Population
y
214
Stichprobe
x
Abb. 6.14. Eine aus Extremgruppen zusammengesetzte Stichprobe
tion unterschåtzt somit die Populationskorrelation erheblich.
Hinweis: Ist die Populationsstreuung bekannt, kann die zu kleine Korrelation korrigiert werden (vgl. hierzu z. B. Elshout u. Roe, 1973; Forsyth, 1971; Gullikson u. Hopkins, 1976; Gross u. Kagan, 1983; Levin, 1972; Lowerre, 1973). Ûber Korrelationskorrekturen bei unbekannter Populationsstreuung bzw. Streuungen, die aus der Stichprobe geschåtzt werden mçssen, berichten Hanges et al. (1991). Weitere Hinweise zur Berechnung von Korrelationen bei ¹gestutztenª Verteilungen findet man bei Holmes (1990) und Duan u. Dunlap (1997).
a6.2.2
215
Ûberprçfung von Korrelationshypothesen
a
b
Gesamtkorrelation: negativ
Gesamtkorrelation: Null
r1 = pos. r2 = neg.
y
y
r1 = pos.
r2 = pos.
x
c
x
d
Gesamtkorrelation: positiv
Gesamtkorrelation: positiv
y
r2 = neg.
y
r1 = pos.
r2 = pos.
r1 = pos.
x
x
Abb. 6.15 a±d. Vereinigung heterogener Untergruppen zu einer Stichprobe
Weitere Stichprobenfehler. Abbildung 6.14 zeigt das Gegenstçck zu Abb. 6.13. Hier wurden in die Stichprobe vor allem solche Untersuchungsobjekte aufgenommen, die extreme Merkmalsausprågungen aufweisen (Extremgruppenbildung). In der Grundgesamtheit befinden sich jedoch auch Untersuchungseinheiten mit mittlerer Merkmalsausprågung. Die Korrelation ist somit in der Grundgesamtheit niedriger als in der Stichprobe. Ferner ist darauf zu achten, dass sich in der Stichprobe keine Untergruppen befinden, die sich in Bezug auf den untersuchten Merkmalszusammenhang unterscheiden. Hiermit wåre zu rechnen, wenn die Wirksamkeit von Moderatorvariablen nicht auszuschlieûen ist (vgl. S. 222). Die Abb. 6.15 a±d zeigen, wie sich die Vereinigung derartiger Untergruppen zu einer Stichprobe auf die Gesamtkorrelation auswirkt.
Eine weitere Fehlerquelle sind einzelne Extremwerte (Ausreiûer oder ¹Outliersª), die einen korrelativen Zusammenhang betråchtlich verfålschen kænnen. So ergeben beispielsweise die Punkte in Abb. 6.16 eine Korrelation von r 0;05. Wird der durch einen Kreis markierte Extremwert mitberçcksichtigt, erhæht sich die Korrelation auf r 0;48! Das Ausmaû, in dem eine Korrelation durch Extremwerte beeinflusst wird, nimmt ab, je græûer die untersuchte Stichprobe ist. Ûber weitere Einzelheiten bezçglich der Auswirkungen von Selektionsfehlern auf die Korrelation berichten McCall (1970, S. 127 ff.) und Wendt (1976). Eine Modifikation der Produkt-Moment-Korrelation, die weniger empfindlich auf Ausreiûerwerte (¹Outliersª) und Selektionsfehler reagiert, hat Wilcox (1994) vorgeschlagen.
6
216
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
120 110 100 90 80
y
70 60 50 40 30 20 10 0 0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15
x
6
Abb. 6.16. Beeinflussung einer Korrelation durch Extremwerte
Residualanalyse. Die Analyse der Regressionsresiduen ist zentraler Bestandteil von Korrelationsoder Regressionsstudien. Sie informiert darçber, ob die Voraussetzungen fçr inferenzstatistische Auswertungen (Signifikanztests, Konfidenzintervalle) erfçllt sind. Die Residualanalyse beginnt mit der graphischen Darstellung der Residuen (Residualplot). Auf der Abszisse wird die Prådiktorvariable X (oder auch die vorhergesagte Kriteriumsvariable ^ abgetragen und auf der Ordinate die Residuen. Y) Zu Vergleichszwecken empfiehlt es sich, z-standardisierte Residuen
ei zu verwenden. Da der Mittelwert der Residuen Null ist (s. Gl. 6.71), mçssen die Residuen
yi ^ yi lediglich durch deren Streuung (Standardschåtzfehler, s. Gl. 6.42) dividiert werden. Abbildung 6.17 a zeigt, wie ein Residualplot idealerweise aussehen sollte. Die Residuen schwanken unsystematisch um die Nulllinie. Sie sind im mittleren x-Bereich dichter verteilt als in den Randbereichen, was auf einen normalverteilten Prådiktor hinweist. Abbildung 6.17 b verdeutlicht eine nichtlineare Abhångigkeit zwischen X und Y, der dem linearen Trend der Regressionsgeraden çberlagert ist. Zeigen die Residuen einen positiven Trend wie in Abb. 6.17 c, bedeutet dies, dass die Regressionsresiduen bei unterdurchschnittlichem x-Wert eher negativ und bei çberdurchschnittlichem x-Wert eher positiv sind. Da die lineare Beziehung zwi-
schen X und Y durch die Regressionsgerade erfasst wird, weist dieser Residualplot meistens auf einen systematischen Rechenfehler bei der Bestimmung der (standardisierten) Residuen hin. Keinen Rechenfehler, sondern eine Verletzung der Homoskedastizitåtsannahme signalisiert Abb. 6.17 d. Bei diesem trichterfærmigen Gebilde (das sich auch mit kleiner werdenden x-Werten æffnen kann) wird deutlich, dass sich die Varianzen der Residuen bzw. der Array-Verteilungen in Abhångigkeit von der Græûe des x-Wertes veråndern. Wenn ± bei nicht perfektem Zusammenhang ± x und y bivariat normal verteilt sind, mçssen auch die Residuen normal verteilt sein. Dies zu testen, ist also auch ein wichtiger Bestandteil der Voraussetzungsçberprçfung. Hierfçr werden die Residuen kategorisiert (vgl. S. 27 ff.) und die resultierende Håufigkeitsverteilung graphisch ± ggf. als Stem-and-Leaf-Plot (vgl. S. 33 ff.) ± dargestellt. Es sollte sich eine eingipfelige symmetrische Verteilung ergeben. Fçr eine statistische Ûberprçfung der Normalverteilungsannahme kænnen der ¹v2-Goodness-of-fit-Testª (vgl. S. 164) oder der KSA-Test (vgl. Bortz u. Lienert, 2003, Kap. 4.2.1 und 4.2.2) eingesetzt werden. Ausreiûerwerte (Outliers) werden ebenfalls zuverlåssig im Residualplot identifiziert. Individuen mit Ausreiûerwerten sollten gesondert untersucht werden, um mægliche Ursachen fçr die extremen Merkmalsausprågungen aufzudecken. Ausreiûerresiduen kænnen auf Grund extremer x-Werte, extremer y-Werte oder beider Werte zustande kommen. Håufig sind sie jedoch lediglich auf Codieroder Rechenfehler zurçckzufçhren, die natçrlich im Nachhinein korrigiert werden kænnen oder mçssen. Techniken zur Identifizierung von ¹Outliersª behandelt Bacon (1995). Im Ûbrigen gibt es viele Arbeiten zum Thema ¹Residualanalyseª, çber die z. B. bei Draper u. Smith (1998) oder auch bei v. Eye u. Schuster (1998, Kap. 6) berichtet wird. Zur Ûberprçfung der Normalverteilungsannahme wird auch der Shapiro-und-Wilk-Test empfohlen, der bei Royston (1995) beschrieben wird. Zahlreiche ¹Diagnostic Toolsª im Rahmen der Residualanalyse, die çber die optische Prçfung von Residualplots hinausgehen, findet man u. a. bei Toutenburg (2002, Kap. 3.10).
a6.2.2
Ûberprçfung von Korrelationshypothesen
217
Abb. 6.17 a±d. Residualplots mit der Prådiktorvariablen als Abszisse und den standardisierten Residuen e
y ^ y=^ r
yjx als Ordinate. a Idealplot; b nichtlinearer Zusammenhang zwischen x und y; c vermutlicher Rechenfehler; d heteroskedastische Array-Verteilungen
Signifikanztest Ziehen wir aus einer Grundgesamtheit, in der zwischen zwei Merkmalen die Korrelation % 0 besteht, (theoretisch unendlich) viele Stichproben des Umfangs n, kænnen wir pro Stichprobe eine Korrelation berechnen. Diese Korrelationen konstituieren ± wie alle Stichprobenkennwerte ± eine Zufallsvariable, die bei hinreichend groûem n angenåhert normal ist. Daû sich Korrelationen auch bei sehr groûem n nicht perfekt normalverteilen kænnen, geht aus der anschaulichen Tatsache hervor, dass Korrelationen einen begrenzten Wertebereich haben, wåhrend die Normalverteilung nach beiden Seiten hin unbegrenzt ist. Ob eine empirisch ermittelte Korrelation r mit der H0: % 0 zu vereinbaren ist, låsst sich mit folgendem Signifikanztest çberprçfen: p r n 2 p : t
6:84 1 r2 Fçr Stichproben des Umfangs n > 3 kann man zeigen, dass der Ausdruck mit n 2 Freiheitsgraden t-verteilt ist (vgl. Kreyszig, 1973, S. 279 ff.). Anhand Gl. (6.84) kann somit çberprçft werden, ob die Hypothese, die Stichprobe stamme aus einer Population mit einem Merkmalszusammenhang % 0, verworfen werden kann. Wenn sich beispielsweise in einer Untersuchung von n 18 Vpn zwischen den Merkmalen ¹Umfang des Wortschatzesª und ¹Rechtschreibungª eine
Korrelation von r 0;62 ergeben hat, ermitteln wir nach Gl. (6.84) den folgenden t-Wert: p 0;62 18 2 t p 3;16 : 1 0;622 Tabelle D entnehmen wir fçr einseitigen Test
H1: % > 0 und 16 Freiheitsgrade fçr das 1%-Niveau einen kritischen Schrankenwert von t
16;99% 2;58. Die Nullhypothese, r 0;62 stamme bei n 18 aus einer Grundgesamtheit mit % 0, kann somit auf dem a 1%-Niveau verworfen werden. Die Korrelation weicht signifikant von Null ab. Vereinfachend sagen wir: Die Korrelation ist auf dem 1%-Niveau signifikant. Læsen wir Gl. (6.84) nach r auf, kænnen diejenigen kritischen Korrelationen ermittelt werden, die fçr das 1%- bzw. 5%-Niveau bei gegebener Anzahl von Freiheitsgraden die Signifikanzgrenzen markieren. Diese die Durchfçhrung des Signifikanztests erleichternden Werte sind in Tabelle D (in den beiden letzten Spalten) aufgefçhrt. Ûberschreitet (bei zweiseitigem Test) ein empirisch ermittelter Korrelationskoeffizient den fçr bestimmte Freiheitsgrade auf einem bestimmten a-Niveau vorgegebenen Korrelationswert, ist die Korrelation auf dem 1%- oder 5%-Niveau signifikant. Aus Gl. (6.65) folgt, dass die Korrelation den Wert Null annimmt, wenn die Steigung der Regressionsgeraden byx ebenfalls Null ist. Umgekehrt kænnen wir hieraus folgern, dass die Ûberprçfung
6
218
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
der H0: % 0 mit der Ûberprçfung der H0: b yx 0 formal gleichwertig ist. Erweist sich eine Korrelation als nicht signifikant von Null verschieden, weicht auch der entsprechende Regressionskoeffizient nicht signifikant von Null ab.
Wie fçr die wichtigsten Verfahren der vorangegangenen Kapitel sollen auch fçr die Produkt-Moment-Korrelation ¹optimaleª Stichprobenumfånge angegeben werden, mit denen vorgegebene Effektgræûen mit einem mæglichst geringen Untersuchungsaufwand statistisch abgesichert werden kænnen. (Zur Theorie der ¹optimalenª Stichprobenumfånge vgl. S. 126 f.) Die im Folgenden genannten Stichprobenumfånge gelten fçr a 0;05, 1 b 0;80 und einseitigen Test. Ûber diese Angaben hinausgehende Planungshilfen findet man bei Cohen (1988) oder Bortz u. Dæring (2002, Kap. 9.2.2). Die Stichprobenumfånge gelten auch fçr die in 6.3 behandelten Korrelationen, soweit sich diese als Spezialfålle der Produkt-MomentKorrelation darstellen lassen. Die Effektgræûe ist fçr die vorliegende Problemstellung einfachheitshalber durch r bzw. den Populationsparameter % definiert, dem im jeweiligen Untersuchungskontext eine praktische Bedeutung beigemessen wird. Die Angaben beziehen sich auf positive Korrelationen und sind auf negative Korrelationen analog anwendbar. % 0;10 (schwacher Effekt)
nopt 618
% 0;15
nopt 271 nopt 153 nopt 68
% 0;20 % 0;30 (mittlerer Effekt) % 0;40 % 0;50 (starker Effekt)
za 2 Z2 2
6:85 Z2 mit z1 b z-Wert der Standardnormalverteilung fçr 1 b za z-Wert fçr das Signifikanznniveau (bei ein- oder zweiseitigem Test) Z Fishers Z-Wert fçr den Korrelationskoeffizienten (s. u.). nopt
¹Optimaleª Stichprobenumfånge
6
Will man fçr beliebige Korrelationseffekte, variable Teststårken und Signifikanzniveaus optimale Stichprobenumfånge bestimmen, ist folgende von Darlington (1990) bzw. Gorman et al. (1995) vorgeschlagene Nåherungsformel hilfreich:
nopt 37 nopt 22
In unserem Beispiel (Zusammenhang zwischen Wortschatz und Rechtschreibung) wurde eine Korrelation von r 0;62 ermittelt, die als sehr starker Effekt zu klassifizieren ist. Erwartet man in einer Korrelationsstudie einen mittleren Effekt
% 0;30, wåre ein Stichprobenumfang von n 68 erforderlich, um diesen Effekt mit 1 b 0;8 und a 0;05 abzusichern (einseitiger Test).
z1
b
Fçr eine Teststårke von 80%
z0;8 0;84, ein Signifikanzniveau von 5%
z0;95 1;65; einseitiger Test) und einen Korrelationsparameter von % 0;3
Z 0;31 gem. Tabelle H; s. u.) ergåbe sich also: nopt
0;84 1;652 0;312 2 68 0;312
Dieser Wert stimmt mit dem oben genannten optimalen Stichprobenumfang
nopt 68 çberein. Ein anderes Beispiel: Korrelationen aus einer Population mit % 0;45
Z 0;485 werden mit einer Wahrscheinlichkeit von 90%
z0;9 1;28 auf dem 1%-Niveau
z0;995 2;58; zweiseitiger Test) signifikant, wenn nopt 66 Individuen untersucht werden. Gl. (6.85) kann auch dann eingesetzt werden, wenn optimale Stichprobenumfånge fçr Effektgræûen anderer Teststatistiken
t; F; v2 ; z zu ermitteln sind. Hierfçr ist es allerdings erforderlich, dass die entsprechende Teststatistik zuvor in ein Korrelationsåquivalent transformiert wird. Derartige Transformationsregeln, die z. B. im Kontext von Metaanalysen von Bedeutung sind, findet man z. B. bei Friedman (1982), Kraemer u. Thiemann (1987), Fricke u. Treinies (1985) oder Bortz u. Dæring (2002, Kap. 9.4.3).
Fishers Z-Transformation Besteht in der Grundgesamtheit zwischen zwei Merkmalen ein Zusammenhang % 6 0, erhalten wir fçr (theoretisch unendlich) viele Stichproben eine rechtssteile (bei % > 0) bzw. linkssteile (bei % < 0) Korrelationsverteilung. Eine Nullhypothese,
a6.2.2
219
Ûberprçfung von Korrelationshypothesen
nach der % c
c 6 0 ist, kann somit nicht çber Gl. (6.84) çberprçft werden. Wie R. A. Fisher (1918) zeigt, lassen sich Korrelationskoeffizienten so transformieren, dass die Verteilung der transformierten Werte auch fçr % 6 0 zumindest angenåhert normal ist. Diese Transformation, die als Fishers Z-Transformation bezeichnet wird (und die nicht mit der z-Transformation gemåû Gl. 1.27 verwechselt werden darf!), lautet: ! 1 1r Z ln :
6:86 a 2 1 r wobei ln Logarithmus zur Basis e
2;718. Nach r aufgelæst, resultiert aus Gl. (6.86 a) (vgl. Charter u. Larsen, 1983): r
e2Z 1 : e2Z 1
6:86 b
Zur Z-Transformation von Korrelationen bei gestutzten Verteilungen (restriction of range) findet man Informationen bei Mendoza (1993). Die Verteilungsform von Fishers Z-Werten nåhert sich um so mehr der Normalverteilung, je græûer n und je weiter % von 1 entfernt ist (vgl. Alexander et al., 1985 b). Tabelle H des Anhangs enthålt die Z-Werte, die gemåû Gl. (6.86 a) den Korrelationen entsprechen. Da Fishers Z-Werte symmetrisch um Null verteilt sind, ist nur die positive Seite der Verteilung wiedergegeben.
Zusammenfassung von Korrelationen Neben der Normalverteilung haben Fishers Z-Werte im Unterschied zu Korrelationswerten die Eigenschaft, dass sie Maûzahlen einer Kardinalskala darstellen (vgl. Guilford u. Fruchter, 1978). Wenn beispielsweise in einer Untersuchung eine Korrelation von r 0;40 und in einer anderen Untersuchung eine Korrelation von r 0;80 ermittelt wurde, kann man nicht davon ausgehen, dass die zweite Korrelation einen doppelt so hohen Zusammenhang anzeigt wie die erste. Transformieren wir anhand Tabelle H die Werte in Fishers Z-Werte, ergeben sich fçr r 0;40 ein Z 0;42 und fçr r 0;80 ein Z 1;10. Wie der Vergleich der beiden Z-Werte zeigt, weist die Korrelation von r 0;80 auf einen beinahe dreimal so hohen Zusammenhang hin wie die Korrelation von
r 0;40. Auch ist eine Zuwachsrate von beispielsweise 0;05 Korrelationseinheiten im oberen Korrelationsbereich bedeutsamer als im unteren. Die Verbesserung einer Korrelation von r 0;30 um 0;05 Einheiten auf r 0;35 ist weniger bedeutend als die Verbesserung einer Korrelation von 0;90 auf 0;95. Da Korrelationswerte in diesem Sinn keine Maûzahlen auf einer Kardinalskala darstellen, sind auch Mittelwerte und Varianzen von mehreren Korrelationen nicht interpretierbar. Soll beispielsweise die durchschnittliche Korrelation aus den drei Korrelationskoeffizienten r1 0;20, r2 0;50, r3 0;90 ermittelt werden (wobei das n der 3 Korrelationen gleich sein sollte), mçssen wir zunåchst die einzelnen Korrelationen in Fishers Z-Werte transformieren, das arithmetische Mittel der Z-Werte berechnen und das arithmetische Mittel der Z-Werte wieder in eine Korrelation zurçcktransformieren (zur Begrçndung dieser Vorgehensweise vgl. Silver u. Dunlap, 1987). Fçr unser Beispiel entnehmen wir Tabelle H: Z1 0;20, Z2 0;55, Z3 1;47, woraus sich ein Mittelwert von Z 0;37 ergibt. Diesem durchschnittlichen Z-Wert entspricht gemåû Tabelle H (bzw. nach Gl. 6.86 b) eine durchschnittliche Korrelation von r 0;35. Bei direkter Mittelung der drei Korrelationen håtten wir einen Wert von 0;20 erhalten. Die Fishers Z-Transformation bewirkt, dass hæhere Korrelationen bei der Mittelwertberechnung stårker gewichtet werden als kleine Korrelationen. Bei Korrelationen, die auf ungleich groûen Stichprobenumfången basieren, verwendet man folgende Transformation: , k k X X Z
nj 3 Zj
nj 3 :
6:87 j1
j1
Hierbei sind Zj die Fishers Z-Werte der zu mittelnden Korrelationen und nj die entsprechenden Stichprobenumfånge. Der Z-Wert ist gemåû Tabelle H in einen durchschnittlichen Korrelationswert zu transformieren. Weitere Informationen zur Frage der Mittelung von Korrelationskoeffizienten kænnen einem Aufsatz von Jåger (1974) entnommen werden. Ein Basic-Programm zur Bestimmung durchschnittlicher Korrelationen wurde von Barker (1990) entwickelt.
6
220
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
Nullhypothese: q = q0 (q0=0)
t
n
Die Verteilung von Fishers Z-Werten hat fçr eine Populationskorrelation von % einen Erwartungswert von ! 1 1% Z
%
6:88 Z ln 2 1 % und eine Standardabweichung von r 1 : rZ n 3
6
6:89
Zur Ûberprçfung der Nullhypothese, dass eine Stichprobe mit einer Korrelation vom Betrag r zu einer Grundgesamtheit mit einer Korrelation von %0 gehært, kann somit unter der Voraussetzung normalverteilter Z-Werte der folgende z-Wert (z als Einheit der Standardnormalverteilung!) berechnet werden: z
Z
Z rZ
:
6:90
BEISPIEL In einer repråsentativen Erhebung mæge sich zwischen der Musikalitåt von Eltern und ihrer Kinder eine Korrelation von r %0 0; 80 ergeben haben. Die entsprechende Korrelation betrågt bei Kindern, die in einem Heim aufgewachsen sind (n 50), r 0;65. Es soll çberprçft werden, ob die Heimkinder in Bezug auf den untersuchten Merkmalszusammenhang zur Grundgesamtheit der im Elternhaus aufgewachsenen Kinder zåhlen kænnen. Der Test soll zweiseitig mit a 5% durchgefçhrt werden. Tabelle H entnehmen wir fçr r 0;65 : Z 0;8 ; %0 0;80 : Z 1;10 : Nach Gl. (6.89) ermitteln wir fçr r r 1 1 rZ 0;15 : n 3 47 Der z-Wert lautet also: Z 0;78 1;10 2;13 : 0;15 rZ Da wir auf dem 5%-Niveau gemåû der H0 einen z-Wert erwarten, der innerhalb der Grenzen 1;96 liegt, muss die H0: %0 0;80 zurçckgewiesen werden. Die Stichprobe stammt nicht aus einer Grundgesamtheit, in der eine Korrelation von %0 0;80 besteht. Alternativ zu Gl. (6.90) wurde von Kristof (1981) folgender Test vorgeschlagen: z
2
p r %0 n 2: p 2
1 r2
1 %0
6:90a
Fçr das oben stehende Beispiel errechnen wir: p 0;65 0;80 t48 p 48 ; 2 2
1 0;65
1 0;80
2;28 :
Auch dieser Wert ist fçr tcrit 2;01 auf dem a 0;05-Niveau signifikant.
Konfidenzintervall. Da die Stichprobenkennwerteverteilung des Korrelationskoeffizienten bekannt ist, bereitet die Bestimmung von Konfidenzintervallen keine Schwierigkeiten. In Analogie zu Gl. (3.22) ergibt sich das Konfidenzintervall eines durch r geschåtzten Korrelationskoeffizienten % zu: Dcrit
Z Z z
a=2 rZ :
6:91
Dabei ist Z der anhand Tabelle H transformierte Korrelationskoeffizient. Die r-Øquivalente der ermittelten Z-Wert-Grenzen entnimmt man ebenfalls Tabelle H.
Nullhypothese: q1 = q2 (zwei unabhångige Stichproben) Gelegentlich ist man daran interessiert zu erfahren, ob sich zwei Korrelationen, die fçr zwei voneinander unabhångige Stichproben mit den Umfången n1 und n2 ermittelt wurden, signifikant unterscheiden (bzw. ob gemåû der H0 beide Stichproben aus derselben Grundgesamtheit stammen). In diesem Fall kann der folgende z-Wert berechnet werden: z
Z1 Z2 ; r
Z1 Z2
wobei r
Z1
Z
Z2
r 1 1 : n1 3 n2 3
6:92
6:93
BEISPIEL In einer Untersuchung von n 60 Unterschichtkindern mæge sich ergeben haben, dass die Merkmale Intelligenz und verbale Ausdrucksfåhigkeit zu r1 0;38 korrelieren. Eine vergleichbare Untersuchung von n 40 Kindern der Oberschicht fçhrte zu einer Korrelation von r2 0;65. Kann auf Grund dieser Ergebnisse die Hypothese aufrecht-
a6.2.2
erhalten werden, dass beide Stichproben in Bezug auf den angesprochenen Merkmalszusammenhang aus der gleichen Grundgesamtheit stammen? Die Nullhypothese soll einseitig (H0: %1 %2 ) auf dem 5%-Niveau getestet werden. Wir ermitteln: r1 0;38 : Z1 0;40 ;
r
Z1
r2 0;65 : Z2 0;78 ; r 1 1 0;21 ; Z2 60 3 40 3 0;40 0;78 z 1;81 : 0;21
Der kritische Wert lautet z5% 1;65. Da der gefundene Wert græûer ist als der kritische Wert, muss die H0 verworfen werden. Die Behauptung, Intelligenz und verbale Ausdrucksfåhigkeit korrelieren in beiden Populationen gleich, wird auf Grund der Daten abgelehnt.
Fçr den Vergleich vieler Korrelationen aus zwei unabhångigen Stichproben stellen die von Millsap et al. (1990) entwickelten Tabellen eine Hilfe dar, denen die fçr Korrelationsvergleiche mit variablem n1 und n2 kritischen Differenzen entnommen werden kænnen. Die Tabellen gelten allerdings nur fçr zweiseitige Tests.
¹Optimaleª Stichprobenumfånge. Sind zwei Korrelationen r1 und r2 aus zwei unabhångigen Stichproben zu vergleichen, empfiehlt es sich, die Stichprobenumfånge n1 und n2 so festzulegen, dass nur praktisch bedeutsame Unterschiede zwischen den Populationskorrelationen statistisch abgesichert werden und keine unbedeutenden Unterschiede. Dieser praktisch bedeutende Unterschied wird in eine Effektgræûe " çbertragen, die wie folgt definiert ist: " Z1
Z2
Z1 > Z2 :
" 0;10 (schwacher Effekt)
nopt 1240
" 0;15
nopt 553 nopt 312
" 0;30 (mittlerer Effekt) " 0;40 " 0;50 (starker Effekt)
Im Beispiel (mit "^ 0;38) ist von einem mittleren bis starken Effekt auszugehen. Fçr eine Effektgræûe von " 0;5 wåren fçr n1 und n2 jeweils 52 Untersuchungseinheiten ¹optimalª gewesen. Diese Effektgræûe ergibt sich gemåû Tabelle H fçr Korrelationspaare wie %1 0;20 und %2 0;60, %1 0;30 und %2 0;67, %1 0;40 und %2 0;73 etc. (Man beachte, dass åquivalente Korrelationsdifferenzen mit wachsendem Zusammenhang kleiner werden, vgl. S. 219.) Bei ungleich groûen Stichproben sollte der durchschnittliche Stichprobenumfang dem ¹optimalenª Stichprobenumfang entsprechen (genauer hierzu vgl. Bortz u. Dæring, 2002, S. 614).
Nullhypothese: q1 = q2 = ´ ´ ´ = qk (k unabhångige Stichproben) Wird der Zusammenhang zwischen zwei Merkmalen nicht nur fçr 2, sondern allgemein fçr k voneinander unabhångige Stichproben ermittelt, kann die folgende, v2 -verteilte Prçfgræûe V
df k 1 zur Ûberprçfung der Nullhypothese, dass die k Stichproben aus derselben Grundgesamtheit stammen, herangezogen werden: V
nopt 140 80
nopt nopt
52 :
k X
nj
3
Zj
U2 ;
6:95
j1
wobei: k P
U
6:94
Z1 und Z2 sind die Fishers Z-Werte fçr die Populationskorrelationen %1 und %2 , die çber Tabelle H zu ermitteln sind. Die ¹optimalenª Stichprobenumfånge (zur Theorie vgl. S. 126 f.) ergeben sich fçr a 0;05, 1 b 0;80 und einseitigem Test zu:
" 0;20
6
221
Ûberprçfung von Korrelationshypothesen
j1
nj
k P j1
3 Zj :
nj
6:96
3
BEISPIEL Es soll der Zusammenhang zwischen den Leistungen in einem Intelligenztest und einem Kreativitåtstest çberprçft werden. Die Vpn werden zuvor nach ihren Interessen in 3 Gruppen eingeteilt: Gruppe 1 mit Interessenschwerpunkt im technischen Bereich (n1 48), Gruppe 2 mit Interessenschwerpunkt im sozialen Bereich (n2 62), Gruppe 3 mit Interessenschwerpunkt im kçnstlerischen Bereich (n3 55).
222
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
Fçr diese 3 Untergruppen mægen sich die folgenden Korrelationen zwischen Intelligenz und Kreativitåt ergeben haben: Gruppe 1: r1 0;16, Gruppe 2: r2 0;38, Gruppe 3: r3 0;67. Es soll die H0 çberprçft werden, nach der die 3 Gruppen hinsichtlich des geprçften Zusammenhangs aus der gleichen Grundgesamtheit stammen
a 5%. Zunåchst werden die Korrelationen in Fishers Z-Werte transformiert: r1 0;16 :
Z1 0;16 ;
r2 0;38 :
Z2 0;40 ;
r3 0;67 :
Z3 0;81 :
Nach Gl. (6.96) ermitteln wir den folgenden U-Wert:
6
k P
U
nj
j1
k P
3 Zj
nj
j1
3
45 0;16 59 0;40 52 0;81 0;47 : 45 59 52
Nullhypothese: qab = qac (eine Stichprobe)
Fçr V ergibt sich somit nach Gl. (6.95): V
k X
nj
3
Zj
U2
j1
45
0;16 52
0;81
0;472 59
0;40 0;47
ten zur simultanen Ûberprçfung mehrerer Korrelationsdifferenzen kænnen den Arbeiten von Kraemer (1979), Kristof (1980), Levy (1976) und Marascuilo (1966) entnommen werden. Gl. (6.95) wird håufig auch in sog. Metaanalysen eingesetzt, mit denen die Ergebnisse verschiedener Untersuchungen zur gleichen Thematik aggregiert werden (vgl. Cooper u. Hedges, 1994; Hedges u. Olkin, 1985; Fricke u. Treinies, 1985 oder Beelmann u. Bliesener, 1994). Mit Gl. (6.95) låsst sich also çberprçfen, ob die in verschiedenen Untersuchungen ermittelten Zusammenhånge zweier Variablen (oder anderer Maûzahlen, die sich in Korrelationsåquivalente transformieren lassen) homogen sind oder nicht (genauer hierzu vgl. z. B. Bortz u. Dæring, 2002, Kap. 9.4). Eine vergleichende Analyse dieses Ansatzes mit einem Vorgehen, das auf die Fishers Z-Transformation verzichtet, findet man bei Alexander et al. (1989) und einen Vergleich mit anderen Homogenitåtstests bei Cornwell (1993).
0;472
2
4;32 0;29 6;01 10;62 : Der v2 -Tabelle (Tabelle C) entnehmen wir als kritischen Wert fçr df 3 1 2 : v2
2;95% 5;99 (zweiseitiger Test, vgl. Erlåuterungen S. 157 f.). Da der empirische v2 -Wert græûer ist als der kritische, verwerfen wir die H0 . Die 3 Korrelationen unterscheiden sich statistisch signifikant. Der Zusammenhang zwischen Intelligenz und Kreativitåt ist fçr Personen mit unterschiedlichen Interessen verschieden. Die Interessenvariable ¹moderiertª gewissermaûen den untersuchten Zusammenhang. Derartige Variablen werden in Anlehnung an Saunders (1956) als Moderatorvariablen bezeichnet.
Hinweise: Zur Ûberprçfung der Frage, welche Korrelationen sich signifikant voneinander unterscheiden, findet man bei Levy (1976) ein adåquates Verfahren. Dieses Verfahren ist Gl. (6.92) vorzuziehen, wenn ein ganzer Satz von Korrelationsvergleichen simultan geprçft wird (vgl. hierzu auch die Einzelvergleichsverfahren im Kontext der Varianzanalyse, z. B. unter 7.3). Weitere Einzelhei-
Nicht selten ist es erforderlich, zwei Korrelationen zu vergleichen, die an einer Stichprobe ermittelt wurden und deshalb voneinander abhången. Der erste hier zu behandelnde Fall betrifft den Vergleich zweier Korrelationen, bei dem zwei Merkmale jeweils mit einem dritten Merkmal in Beziehung gesetzt werden, wie z. B. bei der Frage, ob die Deutschnote (b) oder die Mathematiknote (c) der bessere Prådiktor fçr die Examensleistung im Fach Psychologie (a) sei (H0: %ab %ac ). Fçr diese Problematik haben Olkin u. Siotani (1964) bzw. Olkin (1967) ein Verfahren vorgeschlagen, das allerdings von Steiger (1980) bezçglich seiner Testeigenschaften vor allem bei kleineren Stichproben kritisiert wird. Sein Verfahren fçhrt zu der folgenden Standard normalverteilten Prçfgræûe z: p
n 3
Zab Zac p z
6:97
2 2 CV1 mit n Stichprobenumfang, Zab , Zac Fishers Z-Werte fçr die Korrelationen rab und rac . CV1 kennzeichnet die Kovarianz der Korrelationsverteilungen von rab und rac , die wie folgt ge-
a6.2.2
223
Ûberprçfung von Korrelationshypothesen
schåtzt wird (zur Theorie vgl. Pearson u. Filon, 1898): 1 CV1 rbc
1 2 r2a :
1 r2a : 2 0;5 r2a :
1 2 r2a : r2bc mit ra :
rab rac =2. BEISPIEL Bezogen auf das obige Beispiel habe man die folgenden Werte ermittelt: rab 0;41; rac 0;52; rbc 0;48 und n 100. Fçr CV1 resultiert also (mit ra :
0;41 0;52=2 0;465): 1 0;48
1 2 0;4652 CV1 2
1 0;4652 0;5 0;4652
1 2 0;4652 0;482 0;3841 : Nach Gl. (6.97) ermitteln wir (mit Zab 0;436 und Zac 0;576 gemåû Tabelle H): p 100 3
0;436 0;576 p z 1;24 : 2 2 0;3841 Auf dem a 5%-Niveau haben wir bei zweiseitigem Test kritische Werte von zcrit 1;96, d. h., die H0 kann nicht verworfen werden. Deutschnote und Mathematiknote unterscheiden sich nicht signifikant als Prådiktoren fçr die Examensleistung in Psychologie.
Der in Gl. (6.97) wiedergegebene Test ist nach Angaben des Autors fçr n 20 gçltig. Werden fçr eine Stichprobe die Korrelationen rab , rac und rbc berechnet, låsst sich zeigen, dass bei festgelegtem rac und rbc die Korrelation rab nicht mehr beliebig variieren kann. Ûber die Restriktionen, denen rab in diesem Fall unterliegt, berichteten Glass u. Collins (1970) (vgl. hierzu auch S. 449). Sind mehrere abhångige Korrelationen zwischen k Prådiktoren und einer Kriteriumsvariablen zu vergleichen, kann auf ein Verfahren von Meng et al. (1992) zurçckgegriffen werden. Hier wird auch beschrieben, wie man çberprçfen kann, ob das Vorhersagepotenzial einer Teilgruppe der k Prådiktoren dem Vorhersagepotenzial der restlichen Prådiktoren çberlegen ist.
Nullhypothese: qab = qcd (eine Stichprobe) Ein weiterer von Steiger (1980) angegebener Test prçft die H0: %ab %cd , wobei auch hier von nur einer Stichprobe ausgegangen wird. Ein typisches Anwendungsbeispiel sind ¹cross-lagged-panelª-Korrelationen, bei denen zwei Merkmale zu zwei verschiedenen Zeitpunkten an der gleichen Stichprobe korreliert werden. Hier interessiert die Frage, ob sich der Zusammenhang der beiden Merkmale im Verlauf der Zeit signifikant veråndert hat (vgl. hierzu auch Kenny, 1973). Der fçr n 20 gçltige Test lautet: p
n 3
Zab Zcd p z
6:98
2 2 CV2 mit n Stichprobenumfang; Zab ; Zcd Fishers Z-Werte der Korrelationen rab ; rcd ; CV2
1
Za ; r2ab;cd 2 rab rbc
rbd
Za 0;5
rac
rab ;cd
rbc rcd
rad
rac rcd
rbc
rab rac
rac
rad rcd
rbd
rab rad
rad rab rbd
rbc
rab rcd =2 :
rbd rcd ;
BEISPIEL Es soll çberprçft werden, ob der Zusammenhang zwischen Introversion und erlebter Einsamkeit Zeit unabhångig ist (a 0;05, zweiseitiger Test). Mit geeigneten Instrumenten werden beide Variablen zu zwei verschiedenen Zeitpunkten t1 und t2 an einer Stichprobe mit n 103 erhoben: t1 : t2 :
Introversion (a) und Einsamkeit (b) ; Introversion (c) und Einsamkeit (d) .
Es resultieren die folgenden Korrelationen: rab 0;5 ;
rac 0;8 ;
rad 0;5 ;
rbc 0;5 ;
rbd 0;7 ; rcd 0;6 :
6
224
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
Man errechnet: Za 0;5
0;8
0;5 0;5
0;7
0;5 0;6
0;5
0;8 0;6
0;5
0;5 0;8
0;8
0;5
0;5 0;6
0;7 0;5 0;7
0;5
0;5 0;5 0;7 0;6
0;2295
rab ;cd
0;5 0;6=2 0;55 CV2
1
0;2295 0;4717 0;552 2
p 100
0;549 0;693 p 2 2 0;4717 1;40 :
Tabelle 6.11. Ûbersicht der bivariaten Korrelationsarten Merkmal x Merkmal y Intervallskala dichotomes Ordinalskala Merkmal 2) Punkt- 3) Rangkor 1) ProduktIntervall skala biseriale Moment relation Korrelation Korrelation 4) U-Koef- 5) Biseriale dichotomes ± Merkmal Rangkor fizient relation 6) Rang Ordinal ± ± korrelation skala
z
6
Dieser Wert ist nach Tabelle B nicht signifikant ( 1;96 z 1;96), d. h., H0 ist beizubehalten. Eine Zeitabhångigkeit des Zusammenhanges von Introversion und Einsamkeit kann nicht belegt werden.
Hinweise: Ein vereinfachtes Alternativverfahren zu Gl. (6.98) wird bei Raghunathan et al. (1996) beschrieben. Steiger (1980) nennt weitere Verfahren, mit denen eine vollståndige Korrelationsmatrix gegen eine hypothetisch vorgegebene Korrelationsstruktur getestet werden kann. Auf Verfahren, die Abweichungen einer empirischen Korrelationsmatrix von einer Einheitsmatrix prçfen, bei der alle bivariaten Korrelationen Null sind, wird auf S. 546 eingegangen. Weitere Hinweise zur Prçfung der Unterschiede zwischen abhångigen Korrelationen findet man bei Olkin u. Finn (1990), Dunn u. Clark (1969), Larzelere u. Mulaik (1977), Staving u. Acock (1976) sowie Yu u. Dunn (1982).
Tabelle 6.11 zeigt in einer Ûbersicht mægliche Skalenkombinationen und die dazugehærenden Korrelationskoeffizienten (ausfçhrlicher hierzu s. Kubinger, 1990). Die entsprechenden Verfahren werden im Folgenden unter 6.3.1 bis 6.3.6 beschrieben. Unter 6.3.7 behandeln wir einen weiteren Koeffizienten, der den Zusammenhang zweier nominalskalierter Merkmale bestimmt: den Kontingenzkoeffizienten. Da dieser Koeffizient kein Korrelationsmaû im engeren Sinn darstellt, wurde er nicht mit in Tabelle 6.11 aufgenommen.
6.3.1 Korrelation zweier Intervallskalen Sind beide Merkmale intervallskaliert, wird der Produkt-Moment-Korrelationskoeffizient berechnet, der bereits dargestellt wurde.
6.3.2 Korrelation einer Intervallskala mit einem dichotomen Merkmal
" 6.3 Spezielle Korrelationstechniken
Punktbiseriale Korrelation
Im letzten Abschnitt haben wir uns mit der Produkt-Moment-Korrelation befasst, die den linearen Zusammenhang zweier Intervall skalierter Merkmale angibt. Wenn Merkmal x und/oder Merkmal y nur zwei Ausprågungen aufweisen (dichotomes Merkmal), kænnen spezielle Korrelationskoeffizienten berechnet werden, die im Folgenden behandelt werden. Zusåtzlich werden Verfahren fçr ordinalskalierte Merkmale behandelt.
Der Zusammenhang zwischen einem dichotomen Merkmal (z. B. månnlich-weiblich) und einem intervallskalierten Merkmal (z. B. Kærpergewicht) wird durch die punktbiseriale Korrelation
rpb oder auch produkt-moment-biseriale Korrelation erfasst. Eine punktbiseriale Korrelation erhålt man, wenn in die Gleichung fçr die Produkt-Moment-Korrelation (Gl. 6.60) fçr das dichotome Merkmal die Werte 0 und 1 eingesetzt werden.
a6.3.2
225
Korrelation einer Intervallskala mit einem dichotomen Merkmal
(Beispiel: Alle månnlichen Vpn erhalten auf der dichotomen Variablen den Wert 0 und alle weiblichen den Wert 1.) Dadurch vereinfacht sich die Korrelationsformel zu folgender Gleichung (zur Herleitung von rpb aus r vgl. Downie u. Heath, 1970, S. 106 ff.): r y1 y0 n0 n1 rpb ;
6:99 sy n2 wobei n0 ; n1 Anzahl der Untersuchungsobjekte in den Merkmalskategorien x0 und x1 , y0 ; y1 durchschnittliche Ausprågung des kontinuierlichen Merkmals y bei den Untersuchungsobjekten in den Kategorien x0 und x1 , n n0 n1 Gesamtstichprobenumfang, sy Streuung der kontinuierlichen y-Variablen. Die Signifikanzçberprçfung (H0: % 0) erfolgt wie bei der Produkt-Moment-Korrelation durch folgenden Test: rpb t q :
6:100 2
1 rpb =
n 2 Der so ermittelte t-Wert ist mit n 2 Freiheitsgraden versehen und wird mit dem gemåû Tabelle D fçr ein bestimmtes a-Niveau kritischen t-Wert verglichen. (Eine Tabelle, der man direkt die Signifikanzgrenzen fçr die punktbiseriale Korrelation entnehmen kann, findet man bei Terrell, 1982 a.) BEISPIEL Das dichotome Merkmal verheiratet (x0 ) vs. nicht verheiratet (x1 ) wird mit der anhand eines Fragebogens ermittelten Kontaktbereitschaft korreliert. Es wird erwartet, dass verheiratete Personen weniger kontaktbereit sind als nicht verheiratete. Tabelle 6.12 zeigt den Rechengang fçr n0 12 verheiratete und n1 15 nicht verheiratete Personen (a 0;01, einseitiger Test). Das Vorzeichen der Korrelation rpb 0;47 hångt davon ab, welche Kategorien wir als x0 und x1 bezeichnen. Den gleichen Wert wçrden wir ermitteln, wenn in die ProduktMoment-Korrelationsformel 27 Messwertpaare, jeweils bestehend aus einem Testwert und der Ziffer 0 oder 1, eingesetzt werden. Da in unserem Beispiel das Merkmal ¹verheiratetª mit 0 kodiert wurde, bedeutet eine positive Korrelation, dass verheiratete Personen weniger kontaktbereit sind als nicht verheiratete Personen. Diese Interpretation ist
Tabelle 6.12. Beispiel fçr eine punktbiseriale Korrelation verheiratet (x 0)
nicht verheiratet (x 1)
18 12 16 15 12 14 13 9 12 17 13 11
17 12 16 19 20 16 11 18 12 17 19 20 19 13 18
n0 P i1
yi 162
y0 13;5
n1 P i1
yi 247
y1 16;47
n0 12 n1 15 n 27 v !2 u n u P u yi un v u uP 2 2 i1 u6461 409 u yi t ti1 n 27 3;13 sy 27 n r 16; 47 13; 50 12 15 0;47 rpb 3; 13 272
auch den Mittelwerten zu entnehmen y1 16;47). Fçr den Signifikanztest ergibt sich:
(y0 13;5,
0;47 t p 2;66 :
1 0;472 =
27 2 Der kritische t-Wert lautet bei a 1% (einseitiger Test) und df 25: t
25;99% 2;48. Da der empirische Wert diesen Wert çberschreitet, ist die Korrelation auf dem 1%-Niveau signifikant.
Punktbiseriale Korrelation und t-Test. Die punktbiseriale Korrelation entspricht als Verfahren zur Ûberprçfung einer Zusammenhangshypothese dem t-Test fçr unabhångige Stichproben als Verfahren zur Ûberprçfung einer Unterschiedshypothese (vgl. 5.1.2). Im Beispiel håtte statt der Zusammenhangshypothese: ¹Zwischen dem Merkmal verheiratet vs. nicht verheiratet und dem Merkmal Kontaktbereitschaft besteht ein Zusammenhangª
6
226
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
auch die Unterschiedshypothese: ¹Verheiratete und nicht verheiratete Personen unterscheiden sich in ihrer Kontaktbereitschaftª mit einem t-Test fçr unabhångige Stichproben çberprçft werden kænnen. Der t-Wert des t-Tests (Gl. 5.15) und der nach Gl. (6.100) ermittelte t-Wert sind identisch. Die punktbiseriale Korrelation entspricht dem t-Test fçr unabhångige Stichproben.
Biseriale Korrelation
6
Gelegentlich wird ein eigentlich Intervall skaliertes Merkmal aus untersuchungstechnischen oder ækonomischen Grçnden in zwei Kategorien eingeteilt (Beispiel: Personen, die ålter als c Jahre sind, werden als alt und Personen, die nicht ålter als c Jahre sind, als jung klassifiziert). Interessiert der Zusammenhang zwischen einem solchen kçnstlich dichotomisierten Merkmal und einem Intervall skalierten Merkmal, berechnet man unter der Voraussetzung, dass beide Merkmale (also auch das dichotomisierte Merkmal) normalverteilt sind, statt der punktbiserialen Korrelation eine biseriale Korrelation (rbis ). Die biseriale Korrelation gilt dann als Schåtzwert fçr die ¹wahreª Produkt-Moment-Korrelation der beiden intervallskalierten Merkmale. Fçr die biseriale Korrelation ergibt sich (vgl. Walker u. Lev, 1953, S. 267 ff.): rbis
y1
sy
y 0 n0 n1 : # n2
6:101
# (theta) ist hierbei die Ordinate (Dichte) desjenigen z-Wertes der Standardnormalverteilung, der die Grenze zwischen den Teilflåchen n0 =n und n1 =n markiert. Die çbrigen Symbole wurden im Zusammenhang mit Gl. (6.99) erlåutert. Eine Alternative fçr Gl. (6.101) stellt die folgende Formel dar: rbis
y1
y sy
n1 ; n#
6:102
y Gesamtmittelwert des kontinuierlichen Merkmals y. (Eine Diskussion weiterer Schåtzformeln findet man bei Kraemer, 1981 bzw. Bedrick, 1992.) Fçr die Signifikanzprçfung kann bei kleinen Stichproben behelfsmåûig der Unterschied der
Mittelwerte fçr die Kategorien x0 und x1 mit dem t-Test çberprçft werden. Ist die biseriale Korrelation in der Grundgesamtheit Null, verteilen sich nach McNamara u. Dunlap (1934) rbis -Werte aus hinreichend groûen Stichproben normal um Null mit einer Streuung (Standardfehler) von p n0 n1 p : rrbis
6:103 #n n Die Signifikanzçberprçfung kann somit anhand der Normalverteilungstabelle durchgefçhrt werden, indem der folgende z-Wert mit dem fçr ein bestimmtes a-Niveau kritischen z-Wert verglichen wird: rbis z :
6:104 rrbis Nach Baker (1965) ist der Signifikanztest nach Gl. (6.104) fçr Stichproben bis zu einem minimalen n von 15 zulåssig. Weitere Informationen zur biserialen Korrelation und deren Prçfung findet man bei Bedrick (1990).
Tabelle 6.13. Beispiel fçr eine biseriale Korrelation durchgefallen (x 0) Anzahl der Fahrstd. (y)
8 13 11 12
nicht durchgefallen (x 1) 9 14 15 13 11 16
Summen:
44 78 y0 11 y1 13 n0 4 n1 6 n 10 v ! u 2 n u P u yi un v u uP 2 2 i1 u1546 122 u yi t ti1 n 10 sy 2;4 10 n # 0;386 Ordinate desjenigen z-Wertes
z 0;25, der die Standardnormalverteilung in die Teile 4/10 und 6/10 teilt (vgl. Tabelle B) rbis
13 11 46 0;52 2; 4 0; 386 100
a6.3.4
227
Korrelation fçr zwei dichotome Variablen
BEISPIEL Gesucht wird die Korrelation zwischen der Anzahl der absolvierten Fahrstunden (y) und der Leistung in der Fçhrerscheinprçfung (x). Wir gehen davon aus, dass die tatsåchlichen Leistungen zum Zeitpunkt der Fahrprçfung normalverteilt sind, sodass die Alternativen durchgefallen (x0 ) vs. nicht durchgefallen (x1 ) eine kçnstliche Dichotomie dieser Variablen darstellen. Tabelle 6.13 zeigt den Rechengang fçr n 10 Absolventen. Wir ermitteln eine biseriale Korrelation von rbis 0;52. Das positive Vorzeichen ist darauf zurçckzufçhren, dass wir ¹durchgefallenª mit x0 und ¹nichtdurchgefallenª mit x1 gekennzeichnet haben. Eine umgekehrte Zuordnung håtte zu einer negativen Korrelation gefçhrt. Verwenden wir die Formel (6.102), ergibt sich der gleiche Wert 12;2 6 0;52 : 2;4 10 0;386 Fçr den behelfsmåûigen Signifikanztest (t-Test) ermittelt man mit t 1;26 einen nicht signifikanten Wert. Fçhren wir zu Demonstrationszwecken den Signifikanztest nach Gl. (6.104) durch, resultieren p 46 p 0;40 rrbis 0;386 10 10 rbis
13
Zusammenhang zweier normalverteilter Merkmale durch die punktbiseriale Korrelation unterschåtzt wird (vgl. hierzu Bowers, 1972). Punktbiseriale und biseriale Korrelationen sind durch folgende Beziehung miteinander verknçpft: p n0 n1 rpb rbis :
6:105 #n Eine Tabelle zur Transformation von rbis in rpb findet man bei Terrell (1982 b).
Polyseriale Korrelation. In Ergånzung zur biserialen Korrelation wurden triseriale bzw. polyseriale Korrelationen entwickelt, in denen das Merkmal x nicht 2fach, sondern 3- bzw. mehrfach gestuft ist. Diese Generalisierung der biserialen Korrelationen wurde von Jaspen (1946) vorgenommen. Ûber die Arbeit von Jaspen berichten z. B. Wert et al. (1954). Weitere Entwicklungen zu diesem Thema behandeln Olsson et al. (1982) u. Bedrick u. Breslin (1996).
bzw. z
0;52 1;30 : 0;40
Auch dieser Wert ist nicht signifikant. Der Zusammenhang zwischen der Anzahl der Fahrstunden und der Fahrleistung ist also statistisch unbedeutend.
Hinweis: Biseriale Korrelationen kænnen Werte annehmen, die auûerhalb des Bereichs 1 rbis 1 liegen. Sollte dieser Fall eintreten, ist dies ein Anzeichen dafçr, dass ± insbesondere bei kleineren Stichproben ± das intervallskalierte Merkmal nicht normal, sondern flachgipflig verteilt ist. Umgekehrt kænnen, bei zu schmaler Verteilung der intervallskalierten Variablen, die theoretischen Grenzen von rbis enger sein als bei der ProduktMoment-Korrelation. (Ausfçhrlichere Informationen hierzu bei Stanley, 1968.) Vergleich rpb und rbis. Gelegentlich wird man in der Praxis vor der Frage stehen, welche der beiden Korrelationen, die punktbiseriale oder die biseriale, anzuwenden sei. Da die biseriale Korrelation mehr voraussetzt (normalverteilte Merkmale), sollte im Zweifelsfall immer die punktbiseriale Korrelation vorgezogen werden, wenngleich der
6.3.3 Korrelation einer Intervallskala mit einer Ordinalskala Erste Ansåtze zur Entwicklung eines fçr Intervallund Ordinalskalen geeigneten Korrelationsmaûes wurden von Janson u. Vegelius (1982) vorgeschlagen (vgl. hierzu auch Vegelius, 1978). Fçr die Praxis empfehlen wir, die intervallskalierten Messungen in eine Rangreihe zu bringen, um çber die dann vorliegenden zwei Rangreihen eine Rangkorrelation zu berechnen, die wir unter 6.3.6 behandeln.
6.3.4 Korrelation fçr zwei dichotome Variablen Phi-Koeffizient (U) Handelt es sich bei den Merkmalen x und y jeweils um dichotome Merkmale, kann ihr Zusammenhang durch den U-Koeffizienten ermittelt werden. Wenn wir die beiden Merkmalsausprågungen der Variablen jeweils mit 0 und 1 kodieren, erhalten wir zwei Messwertreihen, die nur aus 0- und 1-Werten bestehen. Die Produkt-Moment-Korrelation çber diese Messwertreihen entspricht exakt dem U-Koeffizienten.
6
228
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
Da fçr diesen Fall nur 0- und 1-Werte in die Produkt-Moment-Korrelationsformel eingehen, ren n P P 2 sultiert fçr xi und fçr xi die Håufigkeit i1
i1
der Merkmalsalternative 1 des Merkmals x. Diese Øquivalenz trifft auch auf die dichotomen y-Werte zu, sodass sich die Produkt-Moment-Korrelation fçr Alternativdaten zu folgender Berechnungsvorschrift vereinfacht: ad bc U p :
ac
bd
ab
cd
6
6:106
(Zur Ableitung dieser Formel vgl. z. B. Bortz et al., 2000, Kap. 8.1.1.1.) Die Buchstaben a, b, c und d kennzeichnen die Håufigkeiten eines 4-FelderSchemas, das sich fçr die Kombinationen der beiden Merkmalsalternativen ergibt (vgl. Tabelle 6.14). Ein Vergleich von Gl. (6.106) mit Gl. (5.73) zeigt uns ferner, dass zwischen einem 4-Felder-v2 und dem U-Koeffizienten die folgende Beziehung besteht: r v2 :
6:107 U n Die Signifikanzprçfung von U erfolgt çber den 4-Felder-v2 -Test. v2 n U2
df 1 :
6:108
BEISPIEL Es soll çberprçft werden, ob die Bereitschaft von Eltern, ihre Kinder in die Vorschule zu schicken, davon abhångt, ob das Kind månnlichen oder weiblichen Geschlechts ist. Fçr eine Stichprobe von n 100 Kindern im Vorschulalter resultiert die in Tabelle 6.14 wiedergegebene Håufigkeitsverteilung. Das Vorzeichen des U-Koeffizienten hångt von der Anordnung der Merkmalsalternativen im 4-Felder-Schema ab. Eine inhaltliche Interpretation kann deshalb nur auf Grund der angetroffenen Håufigkeiten erfolgen. In unserem Beispiel besuchen 40% aller befragten Jungen, aber nur 20% aller befragten Mådchen die Vorschule. Der sich hiermit andeutende Zusammenhang ist gemåû Gl. (6.108) statistisch signifikant. v2 100
0;222 4;84 : Der kritische Wert fçr das a 5%-Niveau und df 1 lautet: v2
1;95% 3;84 (zweiseitige Fragestellung, vgl. Erlåuterungen S. 157 f.). Da der empirische v2 -Wert græûer ist, besteht zwischen den untersuchten Merkmalen ein auf dem a 5%-Niveau abgesicherter Zusammenhang.
Tabelle 6.14. Beispiel fçr einen Phi-Koeffizienten Vorschule x keine Vorschule
månnlich 20
30 50
a c
y b d
weiblich 10
40 50
30
70 100
20 40 10 30 U p 0;22
2030
1040
2010
3040
Wertebereich von U. Bei der Interpretation ist zu berçcksichtigen, dass U-Koeffizienten nur dann innerhalb des çblichen Wertebereichs einer Korrelation von 1 bis 1 liegen, wenn die Aufteilung der Stichprobe in die Alternative von x der Aufteilung in die Alternative von y entspricht. Zur Verdeutlichung dieses Sachverhalts betrachten wir Tabelle 6.15. Fçr die obere 4-Felder-Tafel, die sich empirisch ergeben haben mæge, resultiert ein U 0;10. Wie mçssten die Håufigkeiten bei konstanten Randsummen angeordnet sein, damit der Zusammenhang maximal wird? Diese Anordnung zeigt Tafel b, in der ein Feld (im Beispiel Feld c) eine Håufigkeit von Null hat. Damit die Randsummen konstant bleiben, mçssen 5 Untersuchungsobjekte von c nach a und von b nach d wechseln. Gehært nun eines der Untersuchungsobjekte zur Kategorie 1 des Merkmals x, wissen wir mit Sicherheit, dass es gleichzeitig zur Kategorie 1 des Merkmals y zåhlt. Wissen wir hingegen, dass ein Untersuchungsobjekt zur Alternative 1 beim Merkmal y gehært, so ist die Zugehærigkeit zu einer der beiden Alternativen von x uneindeutig. Die 40 zu y1 gehærenden Untersuchungsobjekte verteilen sich çber die beiden Alternativen von x im Verhåltnis 1 : 3. Um eine x-Alternative aufgrund einer y-Alternative richtig vorhersagen zu kænnen, mçssten alle in y1 befindlichen Untersuchungsobjekte gleichzeitig in x1 sein. Erst dann wåre eine eindeutige Vorhersage in beiden Richtungen mæglich. Eine solche Verånderung håtte allerdings identische Randsummen fçr x und y zur Folge. Veråndern wir die Randsummen nicht, ergibt sich fçr Tafel b
a6.3.4
229
Korrelation fçr zwei dichotome Variablen
Tabelle 6.15. Maximales Phi bei festliegenden Randverteilungen a) 0 x 1
b) 0 x 1
0 5 5 10 0 10 0 10
a c
a c
y
y
1 b d
15
25 40
1 b d
10
30 40
20 30 50
20 30 50
nach Gl. (6.106) ein U-Wert von Umax 0;61, der bei gegebener Randverteilung maximal ist. Allgemein sind bei der Bestimmung von Umax 2 Fålle zu unterscheiden: 1. Das Vorzeichen von Umax soll mit dem Vorzeichen des empirischen U-Wertes çbereinstimmen. 2. Das Vorzeichen von Umax ist beliebig. Fçr Fall 1 finden wir in Anlehnung an Zysno (1997) das ¹Nullfeldª nach folgender Regel: Man bestimmt zunåchst das kleinere Diagonalprodukt min
a d; b c und setzt das Feld mit der kleineren Håufigkeit Null. Die restlichen Felder ergeben sich dann aus den festgelegten Randsummen (im Beispiel Tabelle 6.15 a: 5 25 > 5 15, d. h., das kleinere Diagonalprodukt resultiert fçr b c. Da c 5 < b 15, wird ± wie in Tabelle 6.15 b geschehen ± Feld c Null gesetzt). Bei gleich groûen Werten ist die Wahl beliebig. Will man Umax nur aufgrund der Randsummen bestimmen, lauten die Berechnungsvorschriften bei positivem U-Wert: s s! Px Qy Py Qx Umax
min ;
6:109 a Py Qx Px Qy
und bei negativem U-Wert: s s! Px Py Qx Qy Umax
max ; Qx Qy Px Py
6:109 b mit Px a b Qx c d Py a c Qy b d Durch die min-/max-Vorschrift ist sichergestellt, dass Umax
1 und Umax
1 ist. Fçr das Beispiel mit einem positiven u-Wert ergibt sich nach Gl. (6.109 a) r r! 20 40 10 30 ; Umax
min 10 30 20 40 min
1;63; 0;61 0;61 Diesen Wert haben wir bereits mit Gl. (6.106) fçr Tafel 6.15 b errechnet. Fçr Fall 2 (beliebiges Vorzeichen von umax ) suchen wir das maximale Diagonalprodukt max
a d; b c und setzen das Feld mit der kleineren Håufigkeit Null. Im Beispiel mit 5 25 > 5 15 und 5 < 25 wåre also a das Nullfeld. Fçr die hieraus ableitbare 4-Felder-Tafel resultiert nach Gl. (6.106) Umax 0;41, dessen Betrag geringer ist als Umax
. Auf der Basis der Randhåufigkeiten bestimmen wir Umax nach Gl. (6.109 a) oder (6.109 b). Da Umax
0;61 bereits bekannt ist, muss nur noch Umax
geprçft werden: r r! 20 10 30 40 ; umax
max 30 40 20 10 max
0;41;
2;45
0;41
Dies ist der Wert mit a als Nullfeld. In diesem Fall ist also Umax Umax
. Ein anderes Beispiel: Die Tafel 20 30 50 40 50 90 60
80
fçhrt zu U 0;04. Fçr das ¹vorzeichengerechteª Umax (Fall 1) ergibt sich nach Gl. (6.109 b) Umax
0;65. Fçr Fall 2 ist dieser Wert mit
6
230
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
Umax
zu vergleichen, fçr den sich nach Gl. (6.109 a) Umax
0;86 ergibt. Auch hier ist Umax Umax
, obwohl der empirische u-Wert negativ ist. Fçr das oben erwåhnte Beispiel (Tabelle 6.14) ergibt sich ein maximales U von r 30 50 0;65 Umax 70 50
6
mit Umax
0;65 und Umax
0;65: Manche Autoren empfehlen, einen empirisch ermittelten U-Koeffizienten durch Relativierung am maximal erreichbaren U-Wert aufzuwerten (vgl. Cureton, 1959). Damit soll der U-Koeffizient hinsichtlich seines Wertebereichs mit der Produkt-Moment-Korrelation vergleichbar gemacht werden. Man beachte allerdings, dass auch die Produkt-Moment-Korrelation nur bei identischen Randverteilungen einen Wertebereich von 1 r 1 aufweist (vgl. Carroll, 1961, bzw. S. 206), sodass diese ¹Aufwertungª von U nicht unproblematisch ist.
Hinweise: Gelegentlich wird man daran interessiert sein zu erfahren, wie viel Prozent der Untersuchungsobjekte den Merkmalsalternativen des einen Merkmals zugeordnet werden kænnen, wenn die Verteilung hinsichtlich der anderen Merkmalsalternative bekannt ist. Dieser ¹regressionsanalytischeª Ansatz wird bei Berry et al. (1974), Eberhard (1968) und Steingrçber (1970) diskutiert. Weitere, aus 4-Felder-Tafeln abgeleitete Maûe, die vor allem fçr die klinische Forschung von Bedeutung sind (z. B. Spezifitåt und Sensitivitåt einer Behandlung; vgl. S. 58), findet man z. B. bei Bortz und Lienert (2003, S. 237 ff.). Tetrachorische Korrelation Stellen beide Variablen kçnstliche Dichotomien normalverteilter Variablen dar, kommt der tetrachorische Korrelationskoeffizient (rtet ) zur Anwendung. Der tetrachorische Korrelationskoeffizient schåtzt die ¹wahreª Korrelation zwischen den beiden kçnstlich dichotomisierten Intervallskalen. Die Entwicklung der tetrachorischen Korrelation geht ebenfalls auf Pearson (1907) zurçck. Die von ihm vorgeschlagene Formel ist allerdings sehr kompliziert, sodass wir hier nur die folgende Nåherungsformel vorstellen wollen (nach Glass u. Stanley, 1970, S. 166):
rtet cos
180 p : 1 a d=
b c
6:110
Vor der Berechnung einer tetrachorischen Korrelation wird eine 4-Felder-Tafel angefertigt, die die Håufigkeiten des Auftretens der 4 Kombinationen der beiden Merkmalsalternativen enthålt. Diese 4 Håufigkeiten werden wie in Tabelle 6.14 mit den Buchstaben a, b, c und d gekennzeichnet. Die tetrachorische Korrelation erhalten wir als Kosinus des Winkelwertes des Quotienten in Gl. (6.110). (Einige Statistiklehrbçcher, wie z. B. Glass u. Stanley, 1970, enthalten vorgefertigte Tabellen fçr rtet ; vgl. hierzu auch Lienert u. Raatz, 1998, Tafel 7). Die tetrachorische Korrelation kommt håufig in der Testkonstruktion zur Anwendung, wenn zwei ja-nein- (oder åhnlich) kodierte Fragen (Items) miteinander korreliert werden sollen. Man geht hierbei von der Annahme aus, dass das durch eine Frage (Item) angesprochene Merkmal tatsåchlich normalverteilt ist. Ist n > 20, kann die H0: %tet 0 durch folgenden Signifikanztest çberprçft werden: rtet z ;
6:111 rrtet wobei rrtet
r p x p y qx qy 1 : #x #y n
6:112
Hierin bedeuten: px
py Anteil derjenigen Untersuchungseinheiten, die beim Merkmal x (y) zu der einen Alternative gehæren, qx
qy 1 px
1 py Anteil derjenigen Untersuchungseinheiten, die beim Merkmal x (y) zur anderen Alternative gehæren, #x
#y Ordinate desjenigen z-Wertes der Standardnormalverteilung, der die Verteilung in die Anteile px und qx (py und qy ) trennt (vgl. Tabelle B). BEISPIEL Tabelle 6.16 zeigt die Auswertung einer 4-Felder-Tafel, die sich auf Grund der Beantwortung von zwei Fragen x und y durch n 270 Personen ergeben hat. Das Vorzeichen der Korrelation ist davon abhångig, wie die Kategorien in der 4-Felder-Tafel angeordnet werden. Ei-
a6.3.5.
231
Korrelation eines dichotomen Merkmals mit einer Ordinalskala
Tabelle 6.16. Beispiel fçr eine tetrachorische Korrelation
ja Frage x nein
rtet cos
ja 80 50 130
Frage y a b c d
nein 65
75 140
145 125 270
180 p cos 76;31 0;24 1 80 75=
65 50
ne inhaltliche Interpretation der Korrelation muss deshalb jeweils der Anordnung der 4 Håufigkeiten entnommen werden. In unserem Beispiel ermitteln wir fçr den Signifikanztest: px 145=270 0;54 ; qx 125=270 0;46 ; py 130=270 0;48 ; qy 140=270 0;52 ; #x 0;397 ; #y 0;398 ; r 0;54 0;46 0;48 0;52 1 rrtet 270 0;397 0;398 0;096 ; 0;24 z 2;50 : 0;096 Die Korrelation ist somit bei zweiseitigem Test auf dem a 5%-Niveau signifikant (zcrit 1;96.
Hinweise: Nach Brown u. Benedetti (1977) çberschåtzt die nach Gl. (6.110) bestimmte tetrachorische Korrelation den wahren Merkmalszusammenhang, wenn die Randverteilungen der 4-Felder-Tafel stark asymmetrisch sind oder wenn die kleinste Zellhåufigkeit unter 5 liegt. Genauere Schåtzformeln findet man bei Divgi (1979) bzw. Kirk (1973) und einen Vergleich verschiedener Nåherungsformeln bei Castellan (1966). Tabellen, denen auch bei extrem asymmetrischen Randverteilungen Signifikanzgrenzen der tetrachorischen Korrelation zu entnehmen sind, haben Jenkins (1955) bzw. ± genauer ± Zalinski et al. (1979) aufgestellt.
Analog zur polyserialen Korrelation als Verallgemeinerung der biserialen Korrelation wurde auch die tetrachorische Korrelation fçr zwei mehrfach gestufte Variablen weiterentwickelt. Ausfçhrungen hierzu findet man bei Lancaster u. Hamdan (1964) bzw. Ollson (1979). Weitere Zusammenhangsmaûe fçr 4-Felder-Tafeln sind einer vergleichenden Ûbersicht von Alexander et al. (1985 a) bzw. Kubinger (1993) zu entnehmen.
6.3.5 Korrelation eines dichotomen Merkmals mit einer Ordinalskala (biseriale Rangkorrelation) Die biseriale Rangkorrelation (rbisR ) wird berechnet, wenn ein Merkmal (x) in kçnstlicher oder natçrlicher Dichotomie vorliegt und das andere Merkmal y Rang skaliert ist. Wir wollen diesen Koeffizienten, der von Cureton (1956) bzw. Glass (1966) entwickelt wurde, an folgendem Beispiel erlåutern: BEISPIEL Ein Lehrer einer Abiturklasse wird aufgefordert, seine Schçler (n 15) hinsichtlich ihrer Beliebtheit in eine Rangreihe zu bringen (Merkmal y). Es soll çberprçft werden, ob die Sympathien des Lehrers mit dem Geschlecht der Schçler (Merkmal x) korreliert sind (a 0; 05; zweiseitiger Test). Es mæge sich die in Tabelle 6.17 dargestellte Rangreihe ergeben haben (Rangplatz 1 = hæchste Sympathie). Ein perfekter Zusammenhang låge vor, wenn beispielsweise alle weiblichen Schçler die unteren und alle månnlichen Schçler die oberen Rangplåtze erhalten håtten. Es Tabelle 6.17. Beispiel fçr eine biseriale Rangkorrelation Schçler
Geschlecht
Rangplatz
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
< < , < , , , < , < < < < , ,
9 2 3 10 8 11 1 12 7 6 13 14 15 4 5
6
232
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
wird nun çberprçft, wie weit die empirische Rangverteilung von dieser extremen Rangverteilung abweicht, indem fçr jeden Rangplatz in der einen Gruppe ausgezåhlt wird, wie viel hæhere Rangplåtze ( U) bzw. wie viel niedrigere Rangplåtze (U0 ) sich in der anderen Gruppe befinden. Dies ist genau die Vorgehensweise, die wir bereits beim U-Test kennengelernt haben (vgl. S. 150 ff.). Das Auszåhlen der Rangplatzçberschreitungen und Rangplatzunterschreitungen kann man umgehen, wenn man çber Gl. (5.45) unter Zuhilfenahme der Rangsummen T1 und T2 die Werte U und U0 (U < U0 ) ermittelt. Im Beispiel resultiert fçr die Summe der Rangplåtze aller weiblichen Schçler
n1 7 T1 39 und fçr die månnlichen Schçler
n2 8 T2 81. Man errechnet also U0 7 8 U78
6
78 39 45 und 2 45 11 :
Unter Verwendung von Umax n1 n2 56 ergibt sich: U U0 Umax U U0 11 45 34 n1 n2 78 56
rbisR
0;61 ;
6:113
wobei n1 Håufigkeit des Auftretens der Merkmalsalternative x1 , n2 Håufigkeit des Auftretens der Merkmalsalternative x2 .
Wie Glass (1966) gezeigt hat, ist rbisR mit der biserialen Korrelation fçr ordinalskalierte Variablen identisch. Hieraus leitet sich die folgende, vereinfachte Berechnungsvorschrift fçr rbisR ab: 2 rbisR
y1 y2 ;
6:114 n wobei y1 durchschnittlicher Rangplatz der zu x1 gehærenden Untersuchungseinheiten, y2 durchschnittlicher Rangplatz der zu x2 gehærenden Untersuchungseinheiten, n Umfang der Stichprobe. Nach dieser Formel erhalten wir den gleichen Wert: 2 rbisR
5;57 10;13 0;61 : 15 Die Ûberprçfung der H0: %bisR 0 erfolgt bei hinreichend groûem n çber den approximativen U-Test (vgl. Gl. 5.48). In unserem Beispiel ermitteln wir:
U 11 U n1 n2 =2 7 8=2 28 ; r r n1 n2
n 1 7 8 16 8;64 ; rU 12 12 11 28 17 1;97 : z 8;64 8;64 Dieser Wert wåre auf dem 5%-Niveau signifikant. Da jedoch der Stichprobenumfang nicht groû genug ist (n1 oder n2 > 10), sollte der Signifikanztest nicht çber die Normalverteilungsapproximation durchgefçhrt werden, sondern çber die Ermittlung der exakten Wahrscheinlichkeit des U-Wertes (unter der Annahme einer gçltigen H0 ). Tabelle F entnehmen wir fçr U 11, n1 7 und n2 8 einen Wahrscheinlichkeitswert von 0;027. Wegen des zweiseitigen Tests ist dieser Wert zu verdoppeln, sodass der Zusammenhang wegen 2 0;027 0;054 > 0;05 nicht signifikant ist.
Hinweise: Die Anwendung von Gl. (6.114) wird problematisch, wenn verbundene Rangplåtze (= gleiche Rangplåtze bei mehreren Untersuchungseinheiten, vgl. S. 152 f.) auftreten. Dieser Fall wird bei Cureton (1968 c) diskutiert. Weitere Informationen zum Umgang mit verbundenen Rangplåtzen bei der biserialen Rangkorrelation findet man bei Wilson (1976) oder Bortz et al. (2000, Kap. 8.2.1.2 oder 8.2.2.2).
6.3.6 Korrelation zweier Ordinalskalen Der Zusammenhang zweier ordinalskalierter Merkmale wird durch die Rangkorrelation nach Spearman (rs oder %) erfasst. rs ist mit der Produkt-Moment-Korrelation identisch, wenn beide Merkmale jeweils die Werte 1 bis n annehmen, was bei Rangreihen der Fall ist. Eine Rangkorrelation kænnte somit berechnet werden, indem in die Produkt-Moment-Korrelationsformel statt der intervallskalierten Messwerte die Rangdaten eingesetzt werden. Daû Spearmans rs dennoch eine fçr Ordinalskalen zulåssige Statistik ist, zeigt Marx (1982). Fçr die Bestimmung von rs machen wir von der Tatsache Gebrauch, dass sich der Mittelwert der Zahlen 1; 2 . . . n zu x
n 1=2
a6.3.6
ergibt und die Varianz zu n2 1 : 12 Unter Berçcksichtigung dieser Vereinfachung erhalten wir aus der Formel der Produkt-MomentKorrelation fçr die Rangkorrelation folgende Berechnungsvorschrift: n P 6 d2i i1 ;
6:115 rs 1 n
n2 1 s2
wobei di Differenz der Rangplåtze, die ein Untersuchungsobjekt i bezçglich der Merkmale x und y erhalten hat. Eine Ableitung dieser Gleichung aus der Produkt-Moment-Korrelation findet man z. B. bei Bortz et al. (2000, Kap. 8.2.1). Die H0: %s 0 kann fçr n 30 approximativ durch folgenden t-Test çberprçft werden: rs t p ;
6:116 2
1 rs =
n 2 wobei df n
2.
BEISPIEL Zwei Kunstkritiker bringen 12 Gemålde nach ihrem Wert in eine Rangreihe. Die in Tabelle 6.18 dargestellten Rangreihen korrelieren zu rs 0;83. Fçr den Signifikanztest ermitteln wir nach Gl. (6.116): 0;83 t p 4;71 :
1 0;832 =
12 2 Tabelle 6.18. Beispiel fçr eine Rangkorrelation Gemålde
Kritiker 1
Kritiker 2
d
d2
1 2 3 4 5 6 7 8 9 10 11 12
8 7 3 11 4 1 5 6 10 2 12 9
6 9 1 12 5 4 8 3 11 2 10 7
2 ±2 2 ±1 ±1 ±3 ±3 3 ±1 0 2 2
4 4 4 1 1 9 9 9 1 0 4 4 n X
rs 1
6 50 1 12
122 1
6
233
Korrelation zweier Ordinalskalen
0;17 0;83
i1
Um die H0 auf dem 1%-Niveau beibehalten zu kænnen, mçsste der empirische t-Wert bei zweiseitigem Test und df 10 im Bereich 3;17 < t < 3;17 liegen. Der gefundene Wert liegt auûerhalb dieses Bereichs, d. h. die H0 wird zu Gunsten der H1 verworfen: Zwischen den beiden Rangreihen besteht ein sehr signifikanter Zusammenhang. Man beachte allerdings, dass n < 30 ist.
Hinweise: Fçr n 30 existieren Tafelwerke, die der Literatur çber verteilungsfreie Verfahren entnommen werden kænnen (z. B. Bortz u. Lienert, 2003 Tafel O). Will man im Bereich 30 n 100 genauer als çber Gl. (6.116) testen, ist die Arbeit von Zar (1972) hilfreich. Weitere Informationen zum Signifikanztest von rs findet man bei Hjek (1969) und Nijsse (1988). Fçr n < 10 hat Kendall (1962) eine Tabelle der exakten Wahrscheinlichkeiten fçr rs-Werte bei Gçltigkeit der H0 angefertigt, die in der Literatur çber verteilungsfreie Verfahren (z. B. Lienert, 1973; Siegel, 1956) wiedergegeben ist. Wie man eine Rangkorrelation rs in eine Produkt-Moment-Korrelation r çberfçhren kann, wird bei Rupinski u. Dunlap (1996) beschrieben. Verbundene Rånge. Liegen in einer (oder beiden) Rangreihen verbundene Rangplåtze vor, kann Gl. (6.115) nur eingesetzt werden, wenn die Gesamtzahl aller verbundenen Rånge maximal 20% aller Rangplåtze ausmacht. Andernfalls muss rs nach folgender Gleichung berechnet werden (vgl. hierzu Horn, 1942): ! n X n3 n T U 2 d2i 12 i1 rs v ! ! ; u 3 u n3 n n n T U 2t 12 12
6:117 wobei T
k
x X j1
d2i 50
U
k
y X j1
t3j
tj =12 ;
u3j
uj =12 ;
tj Anzahl der in tj zusammengefassten Rånge in der Variablen x,
234
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
uj Anzahl der in uj zusammengefassten Rånge in der Variablen y, k
x; k
y Anzahl der verbundenen Rånge (Ranggruppen) in der Variablen x (y). BEISPIEL Zu berechnen ist die Korrelation der Deutschnoten bei 10 Bruder-Schwester-Paaren. Tabelle 6.19 zeigt die Daten und den Rechengang (zur Vergabe von verbundenen Rången, vgl. S. 152 f.). Der ermittelte rs -Wert kann ebenfalls ± allerdings nur approximativ ± çber Gl. (6.116) auf statistische Signifikanz getestet werden. Der t-Wert lautet im vorliegenden Fall: 0;65 t p 2;42
1 0;652 =
10 2
6
:
Dieser Wert ist bei zweiseitigem Test auf dem 5%-Niveau signifikant (t
8;97;5% 2;31). Ein genauerer Test wurde von Hjek (1969) entwickelt; er wird bei Bortz et al. (2000, Kap. 8.2.1.1) behandelt.
Hinweis: Ein weiteres Korrelationsmaû ist Kendalls s (Kendall, 1962). Ausfçhrliche Informationen hierzu findet man z. B. bei Bortz u. Lienert (2003, Kap. 5.2.5).
6.3.7 ¹Korrelationª zweier Nominalskalen (Kontingenzkoeffizient) Das bekannteste Maû zur Charakterisierung des Zusammenhangs zweier nominalskalierter Merkmale ist der Kontingenzkoeffizient C. Seine Berechnung und Interpretation sind eng mit dem k ` v2 -Test (vgl. S. 172 ff.) verknçpft. Mit dem k ` v2 -Test çberprçfen wir die Nullhypothese, dass zwei nominalskalierte Merkmale stochastisch voneinander unabhångig sind. Ist dieser v2-Test signifikant, gibt der Kontingenzkoeffizient den
Tabelle 6.19. Beispiel fçr eine Rangkorrelation mit verbundenen Rången Geschwisterpaar
x Note (Bruder)
y Note (Schwester)
x Rang (1. G.)
y Rang (2. G.)
d2
1 2 3 4 5 6 7 8 9 10
2 4 2 3 3 2 1 3 4 3
3 5 3 3 1 2 2 3 4 3
3 9,5 3 6,5 6,5 3 1 6,5 9,5 6,5
6 10 6 6 1 2,5 2,5 6 9 6
9 0,25 9 0,25 30,25 0,25 2,25 0,25 0,25 0,25 n P i1
verbundene Rånge in x 3Rangplatz 3 (t1 3) 4Rangplatz 6,5 (t2 4) 2Rangplatz 9,5 (t3 2)
verbundene Rånge in y 2Rangplatz 2,5 (u1 2) 5Rangplatz 6 (u2 5)
k
x 3 T
k
x P j1
t3j
k
y P
tj =12
33
3
43
4
23
2=12 7; 5
uj =12
23 2
53 5=12 10; 5 103 10 7; 5 10; 5 52 2 95 12 0;65 rs r 3 103 10 146;97 10 10 2 7; 5 10; 5 12 12
U
j1
u3j
k
y 2
d2i 52
a6.4
235
Korrelation und Kausalitåt
Grad der Abhångigkeit beider Merkmale wieder. Er wird nach folgender Gleichung berechnet: s v2 C ;
6:118 v2 n wobei v2 v2 -Wert des k ` v2 -Test und n Stichprobenumfang. Dieses Maû ist jedoch nur bedingt mit einer Produkt-Moment-Korrelation vergleichbar. Zum einen ist C nur positiv definiert. Seine Græûe hat nur theoretisch die Grenzen 0 und 1;00. Bei maximaler Abhångigkeit strebt C nur gegen 1; 00, wenn die Anzahl der Felder der k `-Tafel gegen unendlich geht. Zum anderen ist das Quadrat von C nicht als Determinationskoeffizient (vgl. S. 209 f.) zu interpretieren, da Varianzen (bzw. gemeinsame Varianzanteile) bei nominalskalierten Merkmalen nicht definiert sind. Der maximale Kontingenzkoeffizient ergibt sich fçr eine gegebene k `-Tafel nach folgender Beziehung (vgl. Pawlik, 1959): r R 1 Cmax
6:119 R mit R min
k; `. Fçr einen Vergleich mit anderen Korrelationsmaûen empfiehlt sich der folgende Koeffizient CI (Cramers Index) : s v2 ;
6:120 CI n
R 1 wobei R min
k; `. Wie man leicht erkennt, geht dieser Koeffizient fçr 4-Felder-Tafeln (mit R 2) in den U-Koeffizienten (vgl. Gl. 6.107) çber. BEISPIEL Zur Demonstration der hier aufgefçhrten Zusammenhangsmaûe wåhlen wir erneut das k ` v2 -Beispiel auf S. 172, bei dem es um den Zusammenhang zwischen der Art von Rorschach-Deutungen und dem Alter der Testperson ging. (Man beachte, dass in diesem Beispiel eine Nominalskala mit einer in Intervalle eingeteilten Verhåltnisskala in Beziehung gesetzt ist. Die Verhåltnisskala wird hier also ± unter Informationsverlust ± wie eine Nominalskala behandelt. Einen allgemeinen Ansatz, der die Besonderheiten der jeweils in Beziehung gesetzten Skalen berçcksichtigt, haben Janson u. Vegelius, 1982 entwickelt.) Fçr die 4 3-Tafel im Beispiel resultierte ein v2 -Wert von 34;65 (n 500). Wir ermitteln nach Gl. (6.118) folgenden Kontingenzkoeffizienten:
C
r 34;65 0;25 : 34;65 500
Der maximale Zusammenhang fçr diese Kontingenztafel lautet: r 3 1 0;82 : Cmax 3 Fçr CI ergibt sich s 34;65 0;19 : CI 500
3 1
Hinweis: Weitere Anregungen zur Auswertung von Kontingenztafeln findet man bei Hays (1994, Kap. 18.12) bzw. Bortz et al. (2000, Kap. 8.1.3). C und CI werden bei Bortz u. Lienert (2003, S. 251) vergleichend analysiert.
" 6.4 Korrelation und Kausalitåt Zum Abschluss dieses Kapitels wollen wir uns noch einige Gedanken zur Interpretation von Korrelationskoeffizienten machen. Hat man zwischen zwei Variablen x und y eine statistisch abgesicherte, d. h. signifikante Korrelation gefunden, kann diese Korrelation im kausalen Sinn folgendermaûen interpretiert werden: 1. x beeinflusst y kausal, 2. y beeinflusst x kausal, 3. x und y werden von einer dritten oder weiteren Variablen kausal beeinflusst, 4. x und y beeinflussen sich wechselseitig kausal. Der Korrelationskoeffizient liefert keine Informationen darçber, welche der 4 Interpretationen richtig ist. Die meisten korrelativen Zusammenhånge dçrften vom Typus 3 sein, d. h., der Zusammenhang der beiden Variablen ist ursåchlich auf andere Variablen zurçckzufçhren, die auf beide Variablen Einfluss nehmen. So mæge beispielsweise zwischen den Merkmalen ¹Ehrlichkeitª und ¹Håufigkeit des Kirchgangsª ein positiver Zusammenhang bestehen. Kann hieraus der Schluss gezogen werden, dass die in der Kirche vermittelten Werte und Einstellungen das Merkmal Ehrlichkeit in positiver Weise beeinflussen, oder ist es so, dass Personen, die ohnehin ehrlich sind, sich mehr durch
6
236
6
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
religiæse Inhalte angesprochen fçhlen und deshalb den Gottesdienst æfter besuchen? Plausibler erscheint dieser Zusammenhang, wenn man davon ausgeht, dass die allgemeine familiåre und auûerfamiliåre Sozialisation sowohl das eine als auch andere Merkmal beeinflussen und damit fçr den angetroffenen korrelativen Zusammenhang ursåchlich verantwortlich ist. Eine Korrelation zwischen zwei Variablen ist eine notwendige, aber keine hinreichende Voraussetzung fçr kausale Abhångigkeiten. Dies gilt sowohl fçr lineare als auch nonlineare Zusammenhånge. Korrelationen kænnen deshalb nur als Koinzidenzen interpretiert werden. Sie liefern bestenfalls Hinweise, zwischen welchen Merkmalen kausale Beziehungen bestehen kænnten. Diesen Hinweisen kann in weiteren, kontrollierten Experimenten nachgegangen werden, um die Vermutung einer kausalen Beziehung zu erhårten. Wenn sich beispielsweise zwischen Testangst wåhrend der Durchfçhrung eines Intelligenztests und der Intelligenzleistung eine Korrelation von r 0;60 ergibt, lieûe sich dieser Zusammenhang dadurch erklåren, dass die hohe Testangst eine hohe Intelligenzleistung verhindert hat oder dass intelligente Versuchspersonen von vornherein weniger Angst (z. B. vor Misserfolgen) haben. Mehr Klarheit wçrde ein Experiment verschaffen, in dem zwei gleich intelligente, randomisierte Gruppen hinsichtlich ihrer Testleistung verglichen werden, nachdem das Angstniveau der einen Gruppe zuvor durch eine entsprechende Instruktion nachweislich erhæht wurde. Korrrelationen dçrfen ohne Zusatzinformationen nicht kausal interpretiert werden.
Der Kausalitåtsbegriff selbst ist sehr umstritten, und es gibt Vertreter, die der Ansicht sind, dass Kausalitåt empirisch çberhaupt nicht nachweisbar sei. (Zu dieser Problematik vgl. z. B. Blalock, 1968; Bunge, 1987; Eberhard, 1973; Kraak, 1966 und Sarris, 1967.) Wenn çberhaupt, seien es nur Mittel der Logik, mit denen ein Kausalnachweis gefçhrt werden kænne. Wenn beispielsweise ein Stein in eine ruhige Wasserflåche fållt, gibt es keinen Zweifel daran, dass die sich ausbreitenden Wellen vom Stein verursacht wurden. Eine umgekehrte Kausalrichtung wåre mit der Logik unserer
physikalischen Kenntnisse nicht zu vereinbaren. In åhnlicher Weise akzeptieren wir in der Regel, dass zeitlich frçher eingetretene Ereignisse (z. B. die Vorbereitung auf eine Prçfung) ein nachfolgendes Ereignis (z. B. die tatsåchliche Note in der Prçfung) beeinflussen kann und nicht umgekehrt. Dies sind Kausalaussagen, die logisch bzw. mit dem ¹gesunden Menschenverstandª begrçndet werden und nicht empirisch. Die Kausalitåtskontroverse betrifft auch ein regressionsanalytisches Verfahren zur Aufschlçsselung von Bedingungsketten, das in den Sozialwissenschaften unter dem Namen ¹Pfadanalyseª bekannt wurde und das in den Grundzçgen bereits 1921 vom Biometriker Wright entwickelt wurde (vgl. z. B. Blalock, 1971; Brandståtter u. Bernitzke, 1976; Boudon, 1965; Boyle, 1970; Heise, 1969; Land, 1969; LeRoy, 1967; Weede, 1970). Auf diesen Ansatz sowie auf die unter dem Namen ¹LISRELª bekannt gewordene Methode werden wir unter 13.3 kurz eingehen. Ûber formale Randbedingungen, die ein Regressionsmodell erfçllen muss, um kausal interpretiert werden zu kænnen, berichtet Steyer (1992). ÛBUNGSAUFGABEN 1. Stellen Sie die folgenden Funktionsgleichungen graphisch dar: a) y 0;3 x 6 , b) y 12 x 1 , c) y 0;5
5 x: 2. Nach welchem Kriterium wird die Regressionsgerade zur Vorhersage von ^ y-Werten festgelegt? 3. Was hat die Differenzialrechnung mit der Regressionsrechnung zu tun? 4. Welche Besonderheiten ergeben sich fçr die beiden Regressionsgeraden, wenn die Variablen zuvor z-standardisiert wurden? 5. Erlåutern Sie den Begriff ¹Kovarianzª. 6. Sherif et al. (1961) untersuchten Zusammenhånge zwischen Leistungen und Rangpositionen von Mitgliedern in kçnstlich zusammengestellten Gruppen. Die Aufgabe der Vpn bestand darin, mit einem Ball auf eine Zielscheibe zu werfen, deren konzentrische Kreise allerdings durch ein Tuch verdeckt waren. Wåhrend die Vpn somit nicht wussten, wie gut ihre Trefferleistungen waren, konnte der Vl durch eine Einrichtung, die den Aufprallort des Balles elektrisch registrierte, die Wurfleistung sehr genau kontrollieren. Ferner wurde die Wurfleistung einer jeden Vp durch die çbrigen Gruppenmitglieder geschåtzt. Auf grund soziometrischer Tests war auûerdem die soziale Rangposition der einzelnen Gruppenmitglieder bekannt.
237
aÛbungsaufgaben In einer dem sherifschen Experiment nachempfundenen Untersuchung mægen sich fçr 12 Vpn folgende Werte ergeben haben: Vp
tatsåchliche durchschnittliche Leistung geschåtzte Leistung
soziale Rangposition
1 2 3 4 5 6 7 8 9 10 11 12
6 3 3 9 8 5 6 6 7 4 5 6
7 1 10 4 6 12 11 3 2 9 5 8
5,2 6,5 4,8 5,9 6,0 4,3 4,0 6,2 6,1 5,7 5,8 4,9
a) Wie lautet die Regressionsgleichung zur Vorhersage der tatsåchlichen Leistungen auf Grund der durchschnittlichen geschåtzten Leistungen? b) Wie hoch ist die Korrelation zwischen der tatsåchlichen Leistung und der durchschnittlichen geschåtzten Leistung? c) Ist die Korrelation signifikant, wenn wir davon ausgehen, dass die tatsåchlichen Leistungen und die durchschnittlichen geschåtzten Leistungen in der Population bivariat normalverteilt sind? d) Mit welchem Korrelationsverfahren kann der Zusammenhang zwischen der sozialen Rangposition und 1. der durchschnittlichen geschåtzten Leistung und 2. der tatsåchlichen Leistung ermittelt werden? e) Wie hoch sind die unter d) erfragten Korrelationskoeffizienten? f) Ûberprçfen Sie beide Korrelationen auf Signifikanz. 7. Ein Schulpsychologe hat an 500 Vorschulkindern die folgenden Kennwerte eines Schuleignungstests ermittelt: x 40, sx 5. Nach Ablauf des 1. Schuljahres werden mit einem geeigneten Verfahren die tatsåchlichen Leistungen dieser Stichprobe gemessen, die folgende Kennwerte aufweisen: y 30, sy 4. Die Kovarianz zwischen dem Schuleignungstest und dem Schulleistungstest mæge cov
x; y 10 betragen. a) Ermitteln Sie die Korrelation zwischen den beiden Tests. b) Wie lautet die Regressionsgleichung zur Vorhersage der schulischen Leistungen aufgrund des Schuleignungstests? c) Mit welcher schulischen Leistung ist bei einem Schçler zu rechnen, der im Eignungstest einen Wert von x 45 erzielt hat? d) Wie lautet das Konfidenzintervall, in dem sich die durchschnittliche Schulleistung aller Schçler mit einem Eignungstestwert von x 45 mit 99%iger Wahrscheinlichkeit befindet? Diskutieren Sie Mæglichkeiten, das Konfidenzintervall zu verkleinern.
8. Wie veråndern sich byx , wenn bei gleich bleibender Korrelation a) sx b) sy græûer wird? 9. Besteht zwischen zwei Variablen eine Korrelation von 1 oder 1, wissen wir, dass beide Variablen durch eine eindeutige funktionale Beziehung verknçpft sind. Mçssen wir deshalb fçr den Fall, dass die Korrelation von 1 oder 1 abweicht, eine perfekte funktionale Beziehung ausschlieûen? 10. Welche Voraussetzungen mçssen erfçllt sein, um a) eine Korrelation als deskriptives Maû zu berechnen, b) eine Korrelation statistisch abzusichern? 11. Wie groû ist der gemeinsame Varianzanteil der beiden Tests in Aufgabe 7? 12. Erlåutern und begrçnden Sie, unter welchen Umstånden die Regressionsgerade zur Vorhersage von y-Werten mit der Regressionsgeraden zur Vorhersage von x-Werten identisch ist. 13. Welche Mæglichkeiten kennen Sie, Regressionsgleichungen fçr nichtlineare Zusammenhånge zu bestimmen? 14. Birch (1945) untersuchte den Einfluss der Motivstårke auf das Problemlæseverhalten bei Schimpansen. Die Stårke des Hungermotivs wurde variiert, indem den Tieren vor dem Experiment unterschiedlich lange nichts zu fressen gegeben wurde. Die Aufgabe der Schimpansen bestand darin, eine auûerhalb des Kåfigs liegende Banane zu erreichen, was jedoch nur mit Hilfe eines Stockes, der in erreichbarer Distanz ebenfalls auûerhalb des Kåfigs lag, mæglich war. Bei jedem Tier wurde die Zeit, die zum Erreichen der Banane benætigt wurde, registriert. Es mægen sich folgende Motivstårken (operationalisiert durch die Dauer der Hungerperiode in Stunden) und Problemlæsezeiten ergeben haben: Tier
Motivstårke
Problemlæsezeit
1 2 3 4 5 6 7 8 9 10
1 3 5 7 9 11 13 15 17 19
120 110 70 90 50 60 60 80 90 90
Zwischen beiden Variablen wird ein umgekehrt U-færmiger Zusammenhang erwartet (optimales Problemlæseverhalten bei mittlerer Motivstårke). Wie lautet die quadratische Regressionsgleichung? Stellen Sie die Funktion zusammen mit den 10 Messpunkten graphisch dar.
6
238
Kapitel 6 ´ Verfahren zur Ûberprçfung von Zusammenhangshypothesen
15. Erlåutern Sie, warum korrelative Zusammenhånge nicht als kausale Zusammenhånge interpretiert werden kænnen. 16. Nennen Sie Beispiele fçr negative Korrelationen. 17. Was ist der Unterschied zwischen einer Korrelation und einer Kovarianz? 18. Ist der Determinationskoeffizient mit der Kovarianz identisch? 19. In welche Anteile wird die Varianz der y-Werte bei der Regressionsvorhersage zerlegt? 20. Was versteht man unter Homoskedastizitåt?
6
21. In drei verschiedenen Untersuchungen wurden folgende Zusammenhånge zwischen den Merkmalen Extraversion und Stimulationsbedçrfnis ermittelt: r1 0;75; r2 0;49; r3 0;62. Wie lautet die durchschnittliche Korrelation, wenn wir davon ausgehen kænnen, dass die untersuchten Stichproben gleich groû waren? 22. Mit einem Interessentest wird ermittelt, wie åhnlich die Interessen von jung verheirateten Ehepartnern sind. Die Korrelation mæge bei einer Stichprobe von n 50 Ehepaaren r 0; 30 betragen. Fçr n 60 Ehepaare, die bereits 20 Jahre verheiratet sind, lautet der entsprechende Wert r 0;55. Ist der Unterschied zwischen den Korrelationen bei zweiseitigem Test signifikant? 23. Thalberg (1967, zit. nach Glass u. Stanley, 1970) korrelierte fçr eine Stichprobe von n 80 Studenten die Merkmale Intelligenz (x), Lesegeschwindigkeit (y) und Leseverståndnis (z). Die folgenden Korrelationen wurden ermittelt: rxy
0;034 ;
rxz 0;422 ;
ryz
0;385 :
Ûberprçfen Sie die H0 , dass Lesegeschwindigkeit und Leseverståndnis gleich hoch mit Intelligenz korreliert sind. 24. Wie kænnen sich Stichprobenselektionsfehler auf die Korrelation auswirken? 25. Die folgenden Eigenschaften werden in folgender Weise gemessen: 1. 2. 3. 4.
Geschlecht: 0 = månnlich, 1 = weiblich, Neurotizismus: intervallskalierte Werte, sozialer Status in der Gruppe: ordinalskalierte Werte, mit Abitur ± ohne Abitur: mit Abitur = 1, ohne Abitur = 0.
Mit welchen Verfahren kænnen die Zusammenhånge zwischen folgenden Merkmalen quantifiziert werden? a) Geschlecht ± Neurotizismus, b) Geschlecht ± mit/ohne Abitur, c) Neurotizismus ± sozialer Status, d) mit/ohne Abitur ± Neurotizismus, e) Geschlecht ± sozialer Status, f) mit/ohne Abitur ± sozialer Status.
26. 20 Patienten einer psychiatrischen Klinik werden von einem Verhaltenstherapeuten und einem Gespråchspsychotherapeuten hinsichtlich des Ausmaûes ihrer emotionalen Gestærtheit jeweils in eine Rangreihe gebracht. Patient Nr.
Verhaltenstherapeut
Gespråchspsychotherapeut
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
7 13 6 8 1 12 5 3 15 14 2 18 11 19 4 16 9 20 17 10
8 4 16 7 3 14 15 2 13 11 17 18 9 20 1 6 10 19 12 5
Ermitteln Sie die Korrelation zwischen den beiden Rangreihen und çberprçfen Sie, ob die Korrelation statistisch signifikant ist, wenn bei gerichteter Fragestellung ein positiver Zusammenhang erwartet wird. 27. Ein Lehrer stuft die Aufsåtze seiner 15 Schçler danach ein, ob das Thema eher kreativ (1) oder wenig kreativ (0) behandelt wurde. Ferner bringt er die Schçler nach ihren allgemeinen Leistungen im Deutschunterricht in eine Rangreihe. Berechnen Sie fçr die folgenden Werte den Zusammenhang zwischen der Kreativitåt des Aufsatzes und den allgemeinen Deutschleistungen. Schçler Nr.
Kreativitåt d. Aufsatzes
allgemeine Deutschleistung
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 1 1 1 0 0 1 0 1 1 0 0 0 1 1
5 6 1 11 15 2 3 9 10 4 12 13 14 7 8
239
aÛbungsaufgaben 28. Von 100 Groûstådtern mægen 40% und von 100 Dorfbewohnern 20% konfessionslos sein. Ûberprçfen Sie, ob die Merkmale Groûstadt vs. Dorf und konfessionell gebunden vs. nichtgebunden stochastisch unabhångig sind. Bestimmen und çberprçfen Sie die Korrelation zwischen den beiden Merkmalen. 29. Ein Lehrer einer 4. Grundschulklasse will çberprçfen, ob die Anzahl der Rechtschreibfehler im Diktat mit dem Merkmal Rechtshåndigkeit vs. Linkshåndigkeit zusammenhångt. Er untersucht 9 Linkshånder und 13 Rechtshånder, die folgende Rechtschreibleistungen (Fehler im Diktat) aufweisen: Linkshånder
Rechtshånder
3 8 0 12 14 7 6 2 1
4 5 2 2 0 8 11 9 7 7 0 2 2
Berechnen und çberprçfen Sie die Korrelation zwischen den Merkmalen Rechtschreibleistung und Linksvs. Rechtshåndigkeit. 30. Wie lautet der maximale U-Koeffizient zu Aufgabe 28?
6
a
Teil II Varianzanalytische Methoden
243
" Einleitung
Kapitel 5 behandelte u.a. Verfahren, mit denen wir çber 2 Stichproben ermitteln kænnen, ob ein Merkmal in 2 verschiedenen Populationen unterschiedlich ausgeprågt ist. Hat dieses Merkmal beispielsweise Intervallskalencharakter, çberprçft ± so haben wir gelernt ± der t-Test, ob sich die Mittelwerte zweier abhångiger oder unabhångiger Stichproben signifikant voneinander unterscheiden. Viele human- bzw. sozialwissenschaftliche Fragestellungen lassen sich jedoch erst dann einigermaûen zufrieden stellend beantworten, wenn das Zusammenwirken und die Mæglichkeit der wechselseitigen Beeinflussung mehrerer Variablen berçcksichtigt bzw. wenn Stichproben aus Populationen, die sich systematisch in Bezug auf mehrere Merkmale oder Merkmalskombinationen unterscheiden, miteinander verglichen werden. Komplexere Probleme dieser Art kænnen mit dem t-Test, der ¹nurª die Unterschiedlichkeit eines Merkmals in 2 Populationen analysiert, nicht mehr gelæst werden. Zur Verdeutlichung stellen wir uns vor, jemand sei an der psychologischen Therapieforschung interessiert und beherrscht als einzige statistische Analysetechnik nur den t-Test. Welche empirischen Untersuchungsmæglichkeiten eræffnen sich, mit dem t-Test abgesicherte Informationen çber die Wirkungsweise verschiedener Therapieformen bei verschiedenen Klienten zu gewinnen? Man kænnte beispielsweise 2 Zufallsstichproben von depressiven Patienten ziehen, die eine Stichprobe psychoanalytisch, die andere verhaltenstherapeutisch behandeln lassen, beide Stichproben nach identischer Therapiezeit mit einem Depressionsfragebogen testen und mit dem t-Test fçr unabhångige Stichproben çberprçfen, ob sich die verschieden behandelten Patienten hinsichtlich ihrer Depressivitåt unterscheiden. Der Untersuchungsansatz wçrde somit den gesamten Komplex der
Therapiewirkung nur in einem sehr kleinen, wenngleich nicht unwichtigen Ausschnitt erfassen und viele Variablen, die potenziell fçr den Therapieerfolg relevant sein kænnen, auûer Acht lassen. Betrachten wir zunåchst die untersuchten Patienten. Fçr den Therapieerfolg ist es sicher nicht ohne Belang, wie die Merkmale Stårke und Art der Depressivitåt, Dauer der Erkrankung, soziales und familiåres Milieu, Intelligenz, Alter usw. ausgeprågt sind. Ferner benætigen wir Informationen çber Therapeutenmerkmale: Praxis- und Ausbildungserfahrung, Alter und Geschlecht, emotionale Aufgeschlossenheit, eigene psychische Probleme, åuûeres Erscheinungsbild usw., um einige Merkmale zu nennen, die ebenfalls als unabhångige Variablen auf den therapeutischen Prozess Einfluss nehmen kænnen. Schlieûlich mçssen wir berçcksichtigen, dass sich diese unabhångigen Variablen in ihrer Bedeutung fçr den Therapieerfolg wechselseitig beeinflussen kænnen, dass beispielsweise die Frage, ob die behandelnde Person jung oder alt ist, fçr einen Patienten belanglos, fçr einen anderen jedoch von erheblicher Bedeutung sein kann, dass also ± allgemein gesprochen ± bestimmte Kombinationen von Patienten- und Therapeutenvariablen (und nicht die einzelnen Variablen isoliert betrachtet) fçr den Therapieerfolg relevant sein kænnen. Fragestellungen, die ± wie in diesem Beispiel ± die gleichzeitige Berçcksichtigung mehrerer unabhångiger Variablen erfordern, kænnen mit den im Teil I besprochenen statistischen Auswertungstechniken nur unbefriedigend bearbeitet werden. Im Teil II behandeln wir deshalb eine Verfahrensgruppe, die die simultane Kontrolle mehrerer unabhångiger Variablen ermæglicht und die fçr die statistische Bearbeitung komplexerer Fragestellungen eher geeignet ist als einfache Mittelwertvergleiche ± die Varianzanalyse. (Verfahren, mit de-
244
Einleitung
nen gleichzeitig mehrere abhångige Variablen geprçft werden kænnen, behandeln wir in Teil III.) Das Gemeinsame aller varianzanalytischen Versuchsplåne ist darin zu sehen, dass sie die Unterschiedlichkeit von Versuchspersonen in Bezug auf ein Merkmal (abhångige Variable) auf eine oder mehrere unabhångige Variablen zurçckfçhren.
Vereinfacht gesprochen, werden im Teil II die Verfahren zur Ûberprçfung von Unterschiedshypothesen und im Teil III die Verfahren zur Ûberprçfung von Zusammenhangshypothesen ausgebaut. Hierzu haben wir im Teil I einfçhrend den t-Test (Kap. 5) und die Korrelationsrechnung (Kap. 6) kennengelernt. Dass die Ermittlung der Bedeutung verschiedener ¹Varianzquellenª fçr eine abhångige Variable nicht nur fçr Human- und Sozialwissenschaftler interessant ist, zeigt ein kurzer Blick auf die historische Entwicklung der Varianzanalyse. Der Begriff ¹Varianzanalyseª wurde erstmals 1918 von R. A. Fisher in einer Arbeit çber Fragen der Populationsgenetik erwåhnt. Erste ausfçhrliche Beschreibungen varianzanalytischer Techniken finden sich ebenfalls bei Fisher in seinem grundlegenden Werk ¹Statistical Methods of Research Workersª (1. Aufl. 1925, 17. Aufl. 1972). Biologie, Landwirtschaft und Astronomie waren die ersten Disziplinen, in denen die Varianzanalyse praktisch angewandt wurde. In der Folgezeit erschien eine Reihe weiterer varianzanalytischer Lehrbçcher, wie z. B. von Tippet (1931), Snedecor (1937) und Goulden (1939), in denen vor allem die mathematischen Grundlagen der Varianzanalyse weiterentwickelt wurden. Wishart veræffentlichte 1934 eine rund 150 Titel umfassende Bibliographie von Arbeiten aus den Jahren 1931±1933, in denen die Varianzanalyse zur Anwendung kam. Im deutschsprachigen Raum war die Varianzanalyse vor dem 2. Weltkrieg praktisch unbekannt. Erst durch Erscheinen der Lehrbçcher von Linder ¹Statistische Methodenª (1. Aufl. 1945), der sich vorwiegend an Naturwissenschaftler, Mediziner und Ingenieure wendet, und Weber ¹Grundriss der biologischen Statistikª (1. Aufl. 1947) wurde das Verfahren auch hier breiteren Kreisen zugånglich gemacht. Mit ersten, sich speziell an Psychologen wendenden Einfçhrungen
machten Mittenecker (1948) sowie Hofståtter u. Wendt (1966) die Varianzanalyse auch in den Humanwissenschaften bekannt. Ûber die historische Bedeutung der Varianzanalyse fçr die Psychologie berichten Rucci u. Tweney (1980). Die mathematischen Grundlagen der Varianzanalyse werden ausfçhrlich bei Scheff (1963) ¹The Analysis of Varianceª dargestellt. Weitere Einzelheiten çber die historische Entwicklung der Varianzanalyse kænnen einem Aufsatz von Weiling (1973) entnommen werden. Die Bezeichnung ¹Varianzanalyseª fçr die im Teil II zu behandelnden Verfahren ist in soweit irrefçhrend, als praktisch alle statistischen Verfahren die bezçglich eines untersuchten Merkmals angetroffene Unterschiedlichkeit der Vpn bzw. deren Varianz analysieren (vgl. hierzu auch S. 39 f.). Dies wurde erstmals explizit deutlich, als wir im Kontext der Korrelations- und Regressionsrechnung die Varianz einer Kriteriumsvariablen in die Varianz der vorhergesagten ^y-Werte und die Varianz der Regressionsresiduen zerlegten (vgl. S. 207 ff.). Auch der t-Test låsst sich in diesem Sinn ¹varianzanalytischª interpretieren, denn hier wird letztlich çberprçft, welcher Varianzanteil einer abhångigen Variablen durch ein zweifach gestuftes, unabhångiges Merkmal erklårbar ist. Wenn man so will, zåhlen auch die v2 -Techniken unter 5.3 zur ¹Varianzanalyseª, wenngleich bekanntermaûen die unter 1.4.2 eingefçhrte Varianz kardinalskalierte Merkmale voraussetzt. Aber auch hier geht es letztlich darum, die Unterschiedlichkeit von Vpn hinsichtlich eines nominalen Merkmals zu analysieren. Wenn wir dennoch die in Teil II zu behandelnden Verfahren mit der Bezeichnung ¹Varianzanalyseª çberschreiben, wird hiermit ein historisch gewachsener Begriff çbernommen, der in der internationalen Statistikliteratur nahezu durchgångig gebråuchlich ist. Dessen ungeachtet sei darauf hingewiesen, dass sich hinter der Mathematik der Varianzanalyse ein allgemeiner Ansatz (das sog. ¹allgemeine lineare Modellª) verbirgt, fçr den die varianzanalytischen Techniken im engeren Sinn wie auch die meisten anderen statistischen Verfahren nur Spezialfålle darstellen. Auf diese Zusammenhånge gehen wir jedoch erst in Teil III (Kap. 14 und 19.3) ein, nachdem die varianzanalytischen Methoden mit den Vorkenntnissen aus Teil I erarbeitet wurden.
aEinleitung Der anspruchsvollere Weg, aus der Theorie des allgemeinen linearen Modells die konkreten statistischen Verfahren, wie z. B. die Varianzanalyse, deduktiv abzuleiten, sei denjenigen empfohlen, die çber das hierfçr erforderliche mathematische Rçstzeug (z. B. Matrixalgebra) verfçgen. Die hier gewåhlte Sequenz der zu behandelnden Verfahren ist mit der didaktischen Erfahrung begrçndet, dass es den meisten Studierenden der Humanund Sozialwissenschaften leichter fållt, sich anhand konkreter, ohne besondere Vorkenntnisse nachvollziehbarer Zahlenbeispiele in wichtige Gedankengånge einzuarbeiten, die spåter in einen allgemeinen, integrierenden Ansatz mçnden, der die Beziehungen der Verfahren untereinander erkennen låsst. Teil II beschåftigt sich mit folgenden varianzanalytischen Methoden: · Kap. 7: Einfaktorielle Plåne. Hier wird die Bedeutsamkeit einer unabhångigen Variablen fçr eine abhångige Variable untersucht. · Kap. 8: Mehrfaktorielle Plåne. Statt einer werden hier simultan 2 oder mehr unabhångige Variablen in ihrer Bedeutung fçr eine abhångige Variable geprçft. · Kap. 9: Versuchsplåne mit Messwiederholungen. Untersucht man eine Stichprobe mehrfach (z. B. vor, wåhrend und
245
nach einer Behandlung), resultieren abhångige (Daten-) Stichproben. Die Analyse von abhångigen Stichproben ist Gegenstand von Kap. 9. · Kap. 10: Kovarianzanalyse. Auf S. 7 haben wir den Begriff ¹Stærvariableª eingefçhrt. Wie man die Wirksamkeit von Stærvariablen im Rahmen ein- oder mehrfaktorieller Plåne varianzanalytisch ¹neutralisierenª kann, wird in Kap. 10 gezeigt. · Kap. 11: Unvollståndige mehrfaktorielle Plåne. Hierzu zåhlen Plåne, bei denen die Stufen der unabhångigen Variablen nicht vollståndig miteinander kombiniert werden. Behandelt werden hierarchische und quadratische Plåne. · Kap. 12: Theoretische Grundlagen. Die Darstellung der Verfahren in den Kap. 7 bis 11 ist Praxis orientiert. Wer sich mehr fçr die theoretischen Grundlagen der Varianzanalyse interessiert, dem sei Kap. 12 empfohlen. Abschlieûend sei noch auf Anhang E (SPSS-Beispiele) hingewiesen, in dem EDV-Låufe fçr die wichtigsten Verfahren dieses Buches dokumentiert sind.
247
Kapitel 7
Einfaktorielle VersuchsplaÈne
ÛBERSICHT Quadratsummenzerlegung ± Freiheitsgrade ± Varianzaufklårung ± Signifikanztest ± ¹optimale Stichprobenumfångeª ± ungleiche Stichprobengræûen ± Varianzanalyse ohne Einzelmessungen ± t-Test und Varianzanalyse ± A-priori-Einzelvergleiche ± orthogonale Einzelvergleiche ± Scheff-Test ± a-Fehler-Adjustierung ± polynomiale Trendtests ± monotone Trendtests ± Voraussetzungen
Bevor wir uns mit dem Grundprinzip der einfachsten Form einer Varianzanalyse, der einfaktoriellen Varianzanalyse, befassen, sollen einige Begriffe erlåutert werden, die zum besseren Verståndnis varianzanalytischer Verfahren beitragen. Es sind dies die Begriffe abhångige Variable, unabhångige Variable, Faktor und Treatment. Mit der abhångigen Variablen bezeichnen wir dasjenige Merkmal, dessen Varianz mittels einer Varianzanalyse untersucht wird. Wir registrieren beispielsweise, dass Vpn auf einer Skala zur Erfassung der Einstellungen zum marktwirtschaftlichen System Unterschiede aufweisen und fragen uns, wie diese Varianz zustande kommt. Variablen, die am Zustandekommen der Einstellungsunterschiede beteiligt sein kænnen, werden unabhångige Variablen genannt. Bezogen auf das Einstellungsbeispiel sind die soziale Schicht der Vpn, ihre Parteizugehærigkeit, berufliche Position, die Ausbildung, die Einstellung der Eltern usw. unabhångige Variablen, die potenziell Varianz auf der abhångigen Variablen erzeugen kænnen. Varianzanalysen werden u. a. danach klassifiziert, wie viele unabhångige Variablen in ihrer Bedeutung fçr eine abhångige Variable simultan untersucht werden. Diejenigen unabhångigen Variablen, die fçr eine varianzanalytische Untersuchung aus der Menge aller mæglichen unabhångigen Variablen herausgegriffen werden, bestimmen den Typus der Varianzanalyse. Eine Varianzanalyse, die den Einfluss einer unabhångigen Variablen auf
die abhångige Variable çberprçft, bezeichnen wir als eine einfaktorielle Varianzanalyse. Im Unterschied zur abhångigen Variablen, die immer kardinalskaliert sein muss (d. h. Mittelwerte und Varianzen mçssen interpretierbar sein), kænnen die unabhångigen Variablen ein beliebiges Skalenniveau aufweisen. Allerdings mçssen die Variablen kategorial gestuft sein. Es muss dann lediglich gewåhrleistet sein, dass jede Vp eindeutig einer Kategorie der unabhångigen Variablen bzw. des Faktors (bzw. bei mehrfaktoriellen Varianzanalysen einer Faktorstufenkombination) zugeordnet werden kann. (Ausnahmen von dieser Regel werden wir in Kap. 9 kennen lernen.) Bezogen auf das Beispiel lieûe sich mit einer einfaktoriellen Varianzanalyse sowohl die Parteipråferenz der Vpn (nominales Niveau) als auch das in Kategorien eingeteilte Einkommen der Vpn (Kardinalniveau) als unabhångige Variable bzw. varianzgenerierende Quelle untersuchen. Berçcksichtigen wir bei den Parteipråferenzen 3 Parteien, sprechen wir von einer 3fach gestuften, unabhångigen Variablen bzw. einem 3fach gestuften Faktor. Teilen wir das Einkommen in 6 Kategorien ein, hat der Faktor bzw. die unabhångige Variable ¹Einkommenª 6 Stufen. Allgemein bezeichnen wir die Anzahl der untersuchten Stufen einer unabhångigen Variablen mit p. Die einfaktorielle Varianzanalyse çberprçft die Auswirkung einer p-fach gestuften, unabhångigen Variablen auf eine abhångige Variable.
Werden zwei unabhångige Variablen simultan in ihrer Bedeutung fçr eine abhångige Variable kontrolliert, sprechen wir von einer zweifaktoriellen Varianzanalyse (z. B. mit den Faktoren ¹Parteipråferenzª und ¹Einkommenª). Dementsprechend çberprçfen wir in mehrfaktoriellen Varianzanaly-
7
248
7
Kapitel 7 ´ Einfaktorielle Versuchsplåne
sen die Bedeutung mehrerer unabhångiger Variablen fçr eine abhångige Variable. Wir wollen einmal annehmen, dass eine einfaktorielle Varianzanalyse mit dem Faktor ¹Parteipråferenzª und der abhångigen Variablen ¹Einstellung zum marktwirtschaftlichen Systemª zu einem signifikanten Ergebnis gefçhrt hat, was ± wie wir noch sehen werden ± bedeutet, dass sich Vpn mit unterschiedlichen Parteipråferenzen hinsichtlich ihrer Einstellung zum marktwirtschaftlichen System unterscheiden. Kann man deshalb behaupten, dass die Einstellungen durch die Parteipråferenzen im kausalen Sinn beeinflusst werden? Sicherlich nicht, denn wie ein signifikanter Determinationskoeffizient in der Korrelationsrechnung (vgl. S. 209 f.) besagt dieses Ergebnis lediglich, dass ein statistisch signifikanter Varianzanteil der abhångigen Variablen durch die unabhångige Variable ¹gebundenª wird. In Termini der Korrelationsrechnung kænnen wir auch sagen, dass die unabhångige und die abhångige Variable çberzufållig bzw. signifikant kovariieren, ohne damit einen kausalen Zusammenhang zu postulieren. Eher im Sinn einer kausalen Beeinflussung sind dagegen Untersuchungen interpretierbar, in denen mehrere randomisierte Stichproben unterschiedlich ¹behandeltª werden und in denen sich die Stichproben nach der ¹Behandlungª hinsichtlich einer abhångigen Variablen signifikant voneinander unterscheiden. Wenn ein Arzt beispielsweise 3 zufållig zusammengestellte Stichproben mit unterschiedlichen Beruhigungsmitteln behandelt, wåre man eher bereit, signifikante Unterschiede zwischen den Stichproben hinsichtlich der abhångigen Variablen auf die Wirkungsweise der Medikamente zurçckzufçhren, wenngleich auch hier gilt, dass der zweifelsfreie Nachweis einer eindeutig kausalen Beziehung empirisch nicht zu erbringen ist (vgl. 6.4). Werden randomisierte Stichproben unterschiedlich behandelt, bezeichnen wir die unabhångige Variable ¹Behandlungsartenª als einen Treatmentfaktor oder kurz als Treatment. Ûber diese enge Definition eines Treatments hinausgehend ist es jedoch çblich, auch dann von einem Treatmentfaktor zu sprechen, wenn sich die Vpn-Stichproben durch andere Merkmale, wie z. B. das Geschlecht, das Alter, die soziale Schicht usw. unterscheiden. Die Bezeichnung ¹Treatmentfaktorª oder einfach ¹Treatmentª wird in der Statistikliteratur håufig synonym
fçr die untersuchte, unabhångige Variable eingesetzt. Auch hier sollen die Begriffe unabhångige Variable (u. V.). Faktor und Treatment konzeptionell nicht unterschieden werden. Untersuchungen, die Behandlungen vergleichen, denen Vpn zufållig zugewiesen werden (randomisierte Stichproben), bezeichneten wir auf S. 8 f. als experimentelle Untersuchungen. Werden Stichproben aus verschiedenen ¹natçrlichenª Populationen verglichen (z. B. verschiedene Alterspopulationen, Populationen mit unterschiedlicher Ausbildung etc.), spricht man von einer quasiexperimentellen Untersuchung. Eine Diskussion dieser beiden Untersuchungsvarianten hinsichtlich der Kriterien ¹interne Validitåtª (dieses Kriterium erfasst, inwieweit die Ergebnisse einer Untersuchung logisch eindeutig interpretierbar sind) und ¹externe Validitåtª (dieses Kriterium erfasst, inwieweit die Ergebnisse einer Untersuchung generalisierbar sind) findet man z. B. bei Bortz u. Dæring (2002, Kap. 2.3.3). Nach diesen Vorbemerkungen wollen wir uns der Durchfçhrung einer einfaktoriellen Varianzanalyse zuwenden. Der theoretische Hintergrund dieses Verfahrens wird zusammen mit anderen varianzanalytischen Versuchsplånen im Kap. 12 behandelt.
" 7.1 Grundprinzip der einfaktoriellen Varianzanalyse Es soll çberprçft werden, ob sich 4 Lehrmethoden fçr den Englischunterricht (= unabhångige Variable) in ihrer Effizienz unterscheiden. Der Lernerfolg (= abhångige Variable) wird durch die Punktezahl in einem Englischtest gemessen. Aus einer Grundgesamtheit von Schçlern werden jeder Methode n 5 Schçler zufållig zugeordnet und nach den entsprechenden Methoden unterrichtet. An der Untersuchung nehmen somit 4 5 20 Schçler teil. Die Ergebnisse des abschlieûenden Englischtests sind in der folgenden Datenmatrix zusammengefasst:
a7.1
249
Grundprinzip der einfaktoriellen Varianzanalyse
Unterrichtsmethoden
Summen
Ai : Mittelwerte
Ai :
1
2
3
4
2 1 3 3 1
3 4 3 5 0
6 8 7 6 8
5 5 5 3 2
10
15
35
20
2
3
7
4
Die 5 Werte in der 1. Spalte entsprechen den Testwerten, die diejenigen 5 Vpn erzielt haben, die nach Methode 1 unterrichtet wurden. Unter den Spalten sind die Summen der Testwerte
Ai bzw. deren Mittelwerte
Ai notiert. Danach wurde mit der 3. Methode der beste
A3 7 und mit der 1. Methode der schlechteste durchschnittliche Lernerfolg
A1 2 erzielt.
Terminologie Allgemein wollen wir die in Tabelle 7.1 dargestellte Terminologie zur Kennzeichnung eines Datenschemas vereinbaren. Als unabhångige Variable soll ein Faktor A untersucht werden, der in p Stufen eingeteilt ist. Zur Tabelle 7.1. Allgemeines Datenschema fçr eine einfaktorielle Varianzanalyse Faktor A 1
2
i
p
x11 x21 ... xm1 .. . xn1
x12 x22 .. . xm2 .. . xn2
x1i x2i .. . xmi .. . xni
x1p x2p .. . xmp .. . xnp
Ai
n P m1
xmi
P m
xmi
Ai Ai =n p p n P P PP P P G xmi xmi Ai Ai m1 i1
G G=
n p
m
i
i1
i
Kennzeichnung einer beliebigen Faktorstufe wåhlen wir den Index i, wobei i 1; 2; . . . ; p (d. h. i kann die Werte 1, 2 usw. bis p annehmen). Die einzelnen, unter den Faktorstufen erhobenen Messwerte sind doppelt indiziert, wobei der 1. Index (allgemein m, wobei m 1; 2; . . . ; n mit n = Anzahl der Personen pro Faktorstufe) die Person und der 2. Index die Faktorstufe kennzeichnet. x12 repråsentiert somit den Messwert der 1. Person, die zur Faktorstufe 2 gehært (in unserem Beispiel x12 3). Die Summe aller unter einer Faktorstufe i beobachteten Werte nennen wir Ai, wobei Ai n P xmi . Da die Summenschreibweise im Rahmen m1 varianzanalytischer Methoden sehr håufig benutzt n P P vereinfacht . Entwird, schreiben wir fçr m m1 sprechendes gilt fçr andere Summen, wenn durch den Kontext hinreichend deutlich wird, welche Werte der jeweilige Laufindex des Summenzeichens annehmen kann (vgl. Anhang A). Den Mittelwert aller Werte unter einer Faktorstufe i kennzeichnen wir durch Ai , wobei Ai Ai =n. Fçr die Gesamtsumme aller Messwerte (= Messwerte unter allen p Faktorstufen) fçhren wir das Symbol G ein, wobei sich G aus der Doppelsumme PP xmi ergibt. Da im Datenschema p n Messwerm i te enthalten sind, errechnet sich das arithmetische Mittel aller Messwerte nach G G=
p n.
Hypothesen Mit der einfaktoriellen Varianzanalyse çberprçfen wir in unserem Beispiel die Nullhypothese, dass sich Schçler, die nach vier verschiedenen Methoden unterrichtet wurden, in ihren Englischkenntnissen nicht unterscheiden bzw. dass die Mittelwertparameter i der entsprechenden Schçlerpopulation identisch sind
H0: 1 2 3 4 . Allgemein schreiben wir H0: 1 2 p . Die entsprechende Alternativhypothese lautet nicht H1: 1 6 2 6 6 p , sondern H1: i 6 i0 . Die Alternativhypothese besagt also nicht, dass alle -Parameter voneinander verschieden sind, sondern lediglich, dass sich mindestens 2 beliebige Parameter i und i0 voneinander unterscheiden. Im Beispiel wåre die H1 also beståtigt, wenn sich mindestens 2 Unterrichtsmethoden bzgl. ihrer Testwertdurchschnitte signifikant unterscheiden.
7
250
7
Kapitel 7 ´ Einfaktorielle Versuchsplåne
Mehrere t-Tests statt einer Varianzanalyse?
Quadratsummenzerlegung
Aufgrund der in Kap. 5 besprochenen Verfahren zur Ûberprçfung von Unterschiedshypothesen ist es naheliegend, die H0 der Varianzanalyse durch mehrere t-Tests fçr unabhångige Stichproben zu çberprçfen, bei denen die einzelnen Stichproben jeweils paarweise miteinander verglichen werden. In unserem Beispiel mçssten 42 6 (vgl. 2. Kombinationsregel S. 60 f.) t-Tests durchgefçhrt werden. Diese Vorgehensweise håtte gegençber einer einfaktoriellen Varianzanalyse einen entscheidenden Nachteil (weitere Vorteile der einfaktoriellen Varianzanalyse werden deutlich, wenn wir Verfahren besprechen, die im Anschluss an eine einfaktorielle Varianzanalyse durchgefçhrt werden kænnen; vgl. 7.3 und 7.4): Werden viele t-Tests durchgefçhrt, mçssen wir damit rechnen, dass einige dieser t-Tests zufållig ¹signifikantª werden. Wir erwarten z. B., dass bei 100 (voneinander unabhångigen) t-Tests ca. 5 per Zufall auf dem 5%-Niveau zu ¹signifikantenª Resultaten fçhren. Dies ergibt sich aus der Definition der Irrtumswahrscheinlichkeit, nach der die Alternativhypothese bei a 0;05 mit einer Wahrscheinlichkeit von 5% fålschlicherweise angenommen wird. Werden nun 100 Signifikanztests mit a 0;05 durchgefçhrt, ist damit zu rechnen, dass ca. 5 Tests die H0 fålschlicherweise verwerfen (dass es ¹ca.ª und nicht ¹genauª 5 Tests sind, hångt damit zusammen, dass a einen Wahrscheinlichkeitswert kennzeichnet und keine relative Håufigkeit; vgl. S. 52). Die Irrtumswahrscheinlichkeit, mit der wir normalerweise eine H0 verwerfen (5% oder 1%), mçsste somit modifiziert werden, wenn mehrere Tests (in unserem Beispiel 6 t-Tests) durchgefçhrt werden. Wir haben diese Thematik (a-Fehler-Kumulierung) bereits auf S. 129 f. angesprochen und werden sie auf S. 271 f. erneut aufgreifen. Das Problem der a-Fehler-Kumulierung stellt sich natçrlich nicht, wenn nur zwei Stichproben zu vergleichen sind. Auf S. 262 f. werden wir zeigen, dass fçr diese Spezialfall t-Test und Varianzanalyse çbereinstimmen.
Die einfaktorielle Varianzanalyse geht von folgendem Ansatz aus: Wir registrieren eine durch die Gesamtvarianz aller Messwerte quantifizierte Unterschiedlichkeit in den Leistungen der Schçler. Es wird gefragt, in welchem Ausmaû die Gesamtunterschiedlichkeit auf die verschiedenen Lehrmethoden zurçckgefçhrt werden kann. Ist dieser Anteil gençgend groû, wird die H0 verworfen, und wir behaupten, die 4 Lehrmethoden fçhren zu signifikant unterschiedlichen Lernerfolgen.
Sind nur 2 Stichproben miteinander zu vergleichen, fçhren die einfaktorielle Varianzanalyse und der t-Test fçr unabhångige Stichproben zu identischen Ergebnissen.
Totale Quadratsumme. Der 1. Schritt besteht somit darin, die Gesamtvarianz aller Messwerte zu ermitteln. Da die Varianz in diesem Zusammenhang nicht als deskriptives Maû, sondern als Schåtzwert fçr die Populationsvarianz r2 herangezogen wird (vgl. Anhang B), verwenden wir Gl. (3.2): P
xm x2 m 2 ^ : r n 1 Die Varianz ergibt sich aus der Summe der quadrierten Abweichungen aller Messwerte vom Mittelwert, dividiert durch die Freiheitsgrade der VaP rianz
n 1. Den Ausdruck
xm x2 haben m
wir auf S. 42 vereinfachend als Quadratsumme (QS) bezeichnet. (In der englischsprachigen Literatur wird die Quadratsumme durch ¹SSª = ¹sum of squaresª gekennzeichnet.) Da wir es im Rahmen varianzanalytischer Methoden mit verschiedenen Quadratsummen zu tun haben, kennzeichnen wir die fçr die Varianz aller Messwerte benætigte Quadratsumme als totale Quadratsumme
QStot . Wenden wir Gl. (3.2) analog auf unser Datenbeispiel an, ist zunåchst das arithmetische Mittel aller Messwerte zu bestimmen. In unserem Beispiel resultiert: 10 15 35 20 4: G 20 G entspricht dem x in Gl. (3.2). Fçr die Berechnung der QStot benætigen wir ferner die quadrierten Abweichungen aller Messwerte von G. Diese sind in der folgenden Aufstellung enthalten:
a7.1
P m
251
Grundprinzip der einfaktoriellen Varianzanalyse
xmi
G2 :
1
2
3
4
4 9 1 1 9
1 0 1 1 16
4 16 9 4 16
1 1 1 1 4
24
19
49
8
Eine Spaltensumme kennzeichnet die Summe der quadrierten Abweichungen aller Werte einer FakP torstufe i von G :
xmi G2 . Summieren wir m
diese Summen çber die Faktorstufen, erhalten wir die totale Quadratsumme QStot : XX
xmi G2 :
7:1 QStot i
m
In unserem Beispiel ergibt sich fçr die QStot : QStot 24 19 49 8 100 : ^2tot ermitteln wir, indem die QStot Die Varianz r durch die Anzahl der Freiheitsgrade dividiert wird. Da insgesamt n p Werte in die QStot -Berechnung eingingen, erhalten wir n p 1 Freiheitsgrade: dftot n p
1:
7:2
(Zur Bedeutung der Freiheitsgrade einer Varianz vgl. S. 138.) ^2tot (bzw. geDie Gesamtvarianz aller Daten r nauer die geschåtzte Populationsvarianz) lautet somit: PP
xmi G2 m ^2tot QStot =dftot i :
7:3 r np 1 Die Werte unseres Beispiels haben also eine Gesamtvarianz von: ^2tot 100=19 5;26: r Die Varianzberechnung nach Gl. (7.3) ist vællig identisch mit der Varianzberechnung nach Gl. (3.2). In Gl. (7.3) wird lediglich berçcksichtigt, dass die Messwerte doppelt indiziert sind, wåhrend in Gl. (3.2) nur ein Index vorkommt. (In der varianzanalytischen Literatur wird die Varianz^2 håufig auch als ¹MSª = ¹mean schåtzung r squareª bezeichnet.)
Treatmentquadratsumme. Im 2. Schritt wird derjenige Anteil der Unterschiedlichkeit aller Messwerte bestimmt, der auf die 4 verschiedenen Lehrmethoden zurçckzufçhren ist. Hierzu fragen wir uns, wie die einzelnen Messwerte aussehen mçssten, wenn sie ausschlieûlich von den 4 verschiedenen Lehrmethoden bestimmt wåren bzw. wenn die 4 Lehrmethoden die einzige ¹varianzgenerierende Quelleª darstellten. In diesem Fall dçrften sich Messwerte von Personen, die nach derselben Lehrmethode unterrichtet wurden, nicht unterscheiden. Als beste Schåtzung fçr die Wirkungsweise einer Lehrmethode wåhlen wir die durchschnittliche Leistung aller Personen, die nach derselben Methode unterrichtet wurden. Wenn die Testwerte der Vpn ausschlieûlich von den Lehrmethoden abhången, mçssten alle Vpn, die nach derselben Methode unterrichtet wurden, identische Testwerte erzielen. Der beste Schåtzwert hierfçr ist das arithmetische Mittel der Leitungen dieser Vpn. Diese theoretische Ûberlegung fçhrt zu folgender Datenmatrix: 1
2
3
4
2 2 2 2 2
3 3 3 3 3
7 7 7 7 7
4 4 4 4 4
In dieser Matrix wurde jeder individuelle Messwert xmi durch das jeweilige Gruppenmittel Ai ersetzt. Die Unterschiedlichkeit dieser Werte wird ausschlieûlich durch die 4 Lehrmethoden bestimmt. Um diese Unterschiedlichkeit zu quantifizieren, berechnen wir die Quadratsumme dieser Werte, indem wieder die quadrierten Abweichungen aller Werte vom Gesamtmittelwert G summiert werden. Da sich die Mittelwerte Ai durch die oben vorgenommene Modifikation der Messwerte nicht veråndern, bleibt auch der Gesamtmittelwert G erhalten. Zur Ermittlung der Quadratsumme, die auf die 4 Lehrmethoden zurçckzufçhren ist (allgemein: QStreat ), benætigen wir somit die quadrierten Abweichungen von G 4, die in der folgenden Aufstellung enthalten sind:
7
252
n
Ai
7
Kapitel 7 ´ Einfaktorielle Versuchsplåne
G2 :
1
2
3
4
4 4 4 4 4
1 1 1 1 1
9 9 9 9 9
0 0 0 0 0
20
5
45
0
In unserem Beispiel erhalten wir: ^2treat 70=
4 r
Eine Spaltensumme kennzeichnet die Summe der quadrierten Abweichungen aller Werte (die ausschlieûlich durch die entsprechende Lehrmethode bestimmt sind) vom Gesamtmittel. Da alle zu einer Lehrmethode i gehærenden Messwerte durch den Mittelwert der Lehrmethode Ai ersetzt wurden, erhalten wir fçr eine Spaltensumme die n-fache quadrierte Abweichung n
Ai G2 . Werden diese 4 Einzelsummen addiert, ergibt sich die Treatmentquadratsumme
QStreat , die auf die 4 Lehrmethoden zurçckzufçhren ist: QStreat 20 5 45 0 70 : Allgemein lautet die Gleichung fçr die Ermittlung der QStreat : X n
Ai G2 QStreat i
n
X
Ai
G2 :
7:4
i
Um die Anzahl der Freiheitsgrade fçr die QStreat zu ermitteln, çberprçfen wir, wie viele Werte bei der Berechnung der QStreat frei variieren kænnen. Die Werte innerhalb einer Treatmentstufe sind durch den Mittelwert der Treatmentstufe eindeutig festgelegt und kænnen deshalb nicht frei variieren. Von den p Treatmentstufenmittelwerten kænnen bei festgelegtem G p 1 Werte frei variieren. Hieraus folgt, dass von den Werten, die zur Ermittlung der QStreat fçhren, insgesamt nur p 1 Werte frei variieren kænnen: dftreat p
1:
7:5
Die Varianz, die auf die 4 Treatmentstufen zurçckzufçhren ist, lautet somit: ^2treat QStreat =
p 1 ; r P n
Ai G2 i : p 1
7:6
1 23;33 :
Fehlerquadratsumme. Dem Varianzanteil, der auf den Treatmentstufen beruht, steht ein restlicher Varianzanteil gegençber, der vom Treatment unabhångig ist und der auf andere, die Messwerte beeinflussende Variablen, wie z. B. unterschiedliche Motivation, unterschiedliche Sprachbegabung, Messungenauigkeiten usw. zurçckzufçhren ist. Diesen restlichen Varianzanteil bezeichnen wir zusammenfassend als Fehlervarianzanteil. Der Fehlervarianzanteil enthålt diejenigen Messwertunterschiede, die nicht auf das Treatment zurçckzufçhren sind. Diejenigen Variablen, die die Græûe des Fehlervarianzanteils bestimmen, bezeichnen wir zusammenfassend als ¹Stærvariablenª. Um die ¹Stårkeª des Treatments abschåtzen zu kænnen, mçssen wir çberprçfen, in welchem Ausmaû die Treatmenteffekte durch Stærvariablen çberlagert sind bzw. ob sich die Treatmenteffekte hinreichend deutlich von den Stæreffekten abheben. Im 3. Schritt ist also ein quantitatives Maû zu bestimmen, das uns darçber informiert, wie groû der auf Stærvariablen zurçckzufçhrende Fehlervarianzanteil ist. Wåren die Testwerte unseres Beispiels von Stæreffekten unbeeinflusst, mçssten alle nach einer Methode unterrichteten Personen die gleichen Werte erhalten. Dies war der Ausgangspunkt fçr die Bestimmung der Treatmentquadratsumme. Unterscheiden sich hingegen Personen, die nach derselben Lehrmethode unterrichtet wurden, in ihren Testwerten, so kann dies nur auf Stærvariablen, d. h. Variablen, die nicht mit dem Treatment identisch sind, zurçckgefçhrt werden. Das Ausmaû der Unterschiedlichkeit der Messwerte innerhalb der Gruppen charakterisiert somit die Wirkungsweise von Stærvariablen. Um die entsprechende Quadratsumme zu berechnen, mçssen wir diejenigen Effekte, die auf die 4 Lehrmethoden zurçckzufçhren sind, aus den ursprçnglichen Testwerten eliminieren. Da die Gruppenmittelwerte die Wirkungsweise der 4 Lehrmethoden am besten kennzeichnen, ziehen wir von den individuellen Messwerten den jeweiligen Gruppenmittelwert ab. Dies ist in der folgenden Aufstellung geschehen:
a7.1
P m
253
Grundprinzip der einfaktoriellen Varianzanalyse
xmi
1
2
3
4
0 ±1 1 1 ±1
0 1 0 2 ±3
±1 1 0 ±1 1
1 1 1 ±1 ±2
0
0
0
0
Ai :
Die Werte innerhalb dieser Aufstellung erhalten wir nach der Beziehung
xmi Ai , d. h., von jedem Messwert xmi wird das entsprechende Gruppenmittel Ai abgezogen. Die Summe dieser Abweichungen muss pro Gruppe den Wert Null ergeben (vgl. S. 37). Die Abweichungen
xmi Ai entsprechen den auf S. 207 ff. behandelten Regressionsresiduen, wenn man als Prådiktorvariable die 4 verschiedenen Unterrichtsmethoden und als Kriteriumsvariable die Testwerte betrachtet (auf die formale Øquivalenz des Regressionsansatzes und des varianzanalytischen Ansatzes gehen wir auf S. 490 f. ein). Wie bei den Regressionsresiduen ist auch bei den hier betrachteten Abweichungswerten davon auszugehen, dass ihre Græûe nicht nur von zufålligen Effekten, sondern auch von weiteren, die abhångige Variable beeinflussenden Variablen abhången (im Beispiel also Variablen, die die Testleistungen zusåtzlich zu den Unterrichtsmethoden beeinflussen). Dieser Sachverhalt wird bereits in Kap. 8 (zweifaktorielle Varianzanalyse) eine Rolle spielen. Zuvor jedoch wollen wir die auf ¹Stærvariablenª zurçckgehende Fehlerquadratsumme bestimmen, die sich ergibt, wenn die Abweichungen der Werte vom jeweiligen Mittelwert quadriert und pro Gruppe summiert werden. Das Resultat zeigt die folgende Aufstellung:
P m
xmi
Ai 2 :
1
2
3
4
0 1 1 1 1
0 1 0 4 9
1 1 0 1 1
1 1 1 1 4
4
14
4
8
Die Summe dieser quadrierten Abweichungen ergibt pro Gruppe die Fehlerquadratsumme QSFehler
i . Sie lauten in diesem Beispiel: QSFehler
1 4; QSFehler
2 14; QSFehler
3 4; QSFehler
4 8 : Fçr die Berechnung der Varianzschåtzungen benætigen wir wiederum die Freiheitsgrade. Da die Summe der Abweichungswerte innerhalb jeder Gruppe Null ergeben muss, sind von den 5 Summanden jeweils 4 (bzw. allgemein n 1) frei variierbar. Wir dividieren also die einzelnen Quadratsummen durch 4 und registrieren in den 4 Gruppen die folgenden Fehlervarianzen: ^2Fehler
1 1 ; r ^2Fehler
2 3;5 ; r ^2Fehler
3 1 ; r ^2Fehler
4 2 : r Wenn wir davon ausgehen, dass Stærvariablen bei allen 4 Lehrmethoden annåhernd gleich wirksam sind, mçssten die 4 Fehlervarianzen gleich bzw. homogen sein, d. h., sie dçrften sich statistisch nicht signifikant unterscheiden (vgl. 7.5, Voraussetzung 2). Ausgehend von dieser Annahme stellen die 4 einzelnen Fehlervarianzen Schåtzungen dar, die wir zu einer gemeinsamen Schåtzung der Populationsfehlervarianz zusammenfassen. Die durchschnittliche Varianz mehrerer Varianzen erhålt man, indem die Summe der Quadratsummen durch die Summe der Freiheitsgrade dividiert wird (vgl. Gl. 5.11). In unserem Beispiel erhalten wir somit als durchschnittliche Fehlervarianzschåtzung
^ r2Fehler : 4 14 4 8 30 1;88 : 4444 16 In allgemeiner Schreibweise wird die Fehlervarianz folgendermaûen berechnet: P QSFehler
i i 2 P ^Fehler r :
7:7 dfFehler
i ^2
Fehler r
i
Da
7
254
Kapitel 7 ´ Einfaktorielle Versuchsplåne
QSFehler
i
X m
Ai 2 ;
xmi
erhalten wir als Summe der Fehlerquadratsummen: X QSFehler QSFehler
i i
XX
xmi
i
A i 2 :
m
7:8
Addieren wir die Freiheitsgrade der einzelnen QSFehler
i çber die p Gruppen, ergibt sich: X dfFehler
i dfFehler
i X
n
1 p
n
1 :
7:9
i
7
Die Gesamtfehlervarianz(-Schåtzung) hat somit p
n 1 Freiheitsgrade. Setzen wir Gl. (7.8) und Gl. (7.9) in Gl. (7.7) ein, erhalten wir als Fehlervarianz: ^2Fehler r
QSFehler dfFehler PP
xmi i
m
p
n
Herleitung der Grundgleichungen. Dass diese Beziehungen allgemein richtig sind, zeigt der folgende Gedankengang. Es soll gelten: QStot QStreat QSFehler bzw. nach Gl. (7.1), (7.4) und (7.8): XX
xmi G2 m
i
n
X
Ai
G2
i
Ai 1
:
7:10
Ai
G ui
7:14
und fçr die Abweichung einer Messung xmi vom Gruppenmittel Ai :
xmi Ai vmi : Fçr ui vmi erhalten wir somit: ui vmi
Ai
G
xmi
^2treat 23;33 ; r
QSFehler 30
dfFehler 16
^2Fehler 1;88 ; r
QStot 100
dftot 19
^2tot 5;26 : r
Nach diesen Werten gelten folgende Beziehungen: QStreat QSFehler QStot ;
7:11
dftreat dfFehler dftot :
7:12
Die totale Quadratsumme setzt sich additiv aus der Treatmentquadratsumme und der Fehlerquadratsumme zusammen. Die Freiheitsgrade der Gesamtvarianz ergeben sich additiv aus den Freiheitsgraden der Treatmentvarianz und den Freiheitsgraden der Fehlervarianz.
Nicht additiv verhalten sich hingegen die Varianzen.
7:15 Ai
G :
7:16
Fçr die linke Seite von (7.13) ergibt sich: XX XX
xmi G2
ui vmi 2 m
m
Grundgleichungen der einfaktoriellen Varianzanalyse. Die folgende Ûbersicht zeigt die bisher ermittelten Werte: dftreat 3
Ai 2 :
7:13
xmi
Fçr die Abweichung eines Mittelwertes Ai von G schreiben wir vereinfacht:
i
QStreat 70
m
i
xmi 2
XX
i X X m
i
XX m
i
2 PP
2
u2i vmi 2ui vmi
u2i
XX i
m
XX m
i
2 vmi
ui vmi :
7:17
PP n und 2 ui vmi Hierin sind i i m P Pi m P 2
ui vmi (vgl. Anhang A). vmi stellt u2i
P
u2i
m
i
m
die Summe der Abweichungen der xmi-Werte vom jeweiligen Ai dar, die jeweils Null ergibt. Gl. (7.17) reduziert sich somit zu: X XX XX 2
xmi G2 n u2i vmi : i
m
i
i
m
7:18 Ersetzen wir ui und vmi durch Gl. (7.14) und Gl. (7.15), erhalten wir Gl. (7.13). Fçr dftot dftreat dfFehler
7:12
schreiben wir gemåû Gl. (7.2), (7.5) und (7.9):
a7.1
255
Grundprinzip der einfaktoriellen Varianzanalyse
np
1p p
1 p
n 1pn
pn
1:
1 p
7:19
Ausgehend von Gl. (7.11) håtten wir somit z. B. die QSFehler auch subtraktiv nach der Beziehung QSFehler QStot
QStreat
7:20
bestimmen kænnen. Zur Kontrolle der Rechnung empfehlen wir jedoch, die QSFehler nach Gl. (7.8) zu bestimmen.
Varianzaufklårung. Der auf die 4 Lehrmethoden zurçckgehenden Quadratsumme von QStreat 70 steht somit eine auf Stærvariablen zurçckzufçhrende QSFehler 30 gegençber. Die Gesamtunterschiedlichkeit aller Messwerte ist zu 100% 70=100 70;0% auf die verschiedenen Lehrmethoden zurçckzufçhren. Diesen Prozentwert ermitteln wir allgemein nach folgender Gleichung: QStreat Varianzaufklarung 100% :
7:21 QStot Der in Gl. (7.21) enthaltene Quotient QStreat =QStot wird als g2 (eta-Quadrat) bezeichnet (vgl. Kerlinger, 1964, S. 200 ff.). Auf die Bedeutung dieses Koeffizienten werden wir auf S. 280 ausfçhrlich eingehen. Hier sei vorab angemerkt, dass mit Gl. (7.21) ein deskriptives Maû der Varianzaufklårung definiert ist, das die wahre, fçr Populationsverhåltnisse gçltige Varianzaufklårung çberschåtzt.
Signifikanztest Zu fragen bleibt, ob die 70,0%ige Varianzaufklårung zufållig aufgrund der getroffenen Stichprobenauswahl zustande gekommen ist oder ob sie tatsåchliche Unterschiede zwischen den Lehrmethoden widerspiegelt. Anders formuliert: Wir mçssen prçfen, wie groû die Wahrscheinlichkeit ist, dass die angetroffenen Mittelwertunterschiede zufållig håtten zustande kommen kænnen, wenn die H0 gilt, nach der sich die 4 Lehrmethoden nicht unterscheiden. Ist diese Wahrscheinlichkeit kleiner als eine zuvor festgelegte Irrtumswahrscheinlichkeit
a 1%; 5%, verwerfen wir die H0 zugunsten der H1 und sagen, von den gefundenen Mittelwerten unterscheiden sich mindestens zwei signifikant voneinander. Andernfalls muss die H0 beibehalten werden, und wir betrachten die Mit-
telwertunterschiede als zufållig. Im 4. Schritt wird deshalb çberprçft, ob die Mittelwertunterschiede statistisch bedeutsam sind. Die H0 lautet: 1 2 p . Als Schåtzung fçr die Parameter verwenden wir die gefundenen Mittelwerte A1 ; A2 ; . . . ; Ap . Falls die H0 richtig ist, mçssen zwar die i -Parameter, aber nicht die Ai -Werte identisch sein. Diese streuen Stichproben bedingt zufållig um G mit einer Varianz von X ^2A
Ai G2 =
p 1 : r i
Da nun angenommen wird, dass die H0 gilt, ist davon auszugehen, dass die den Stichproben zu Grunde liegenden Grundgesamtheiten identisch sind, d. h., die p Stichproben gehæren einer gemeinsamen Grundgesamtheit an. Damit sind die Ûberlegungen zum Standardfehler des Mittelwertes auf die vorliegende Problematik çbertragbar. Unter 3.2.2 haben wir erfahren, dass Mittelwerte aus Stichproben des Umfangs n, die alle derselben Grundgesamtheit entnommen wurden, eine ^2x r ^2 =n aufweisen. Diese Varianz Varianz von r ist mit der Varianz der Mittelwerte einer Varianzanalyse identisch, falls H0 gilt: ^2 =n : ^2A r r Multiplizieren wir beide Seiten mit n, erhalten wir nach Gl. (7.6) auf der linken Seite die Treatmentvarianz: ^2treat n r ^2A r ^2 : r Die Treatmentvarianz ist bei Gçltigkeit von H0 ^2 identisch. r ^2 entspricht der Varianz des mit r Merkmals in der Population, die im Kontext der Varianzanalyse durch die Varianz innerhalb der Stichproben bzw. durch die Fehlervarianz geschåtzt wird. Sind die stichprobenspezifischen ^2Fehler eine erwarFehlervarianzen homogen, stellt r 2 ^ dar. Man erhålt also tungstreue Schåtzung von r bei Gçltigkeit von H0 : ^2Fehler : ^2treat r r Bei Gçltigkeit von H0 stellt die Treatmentvarianz eine erwartungstreue Schåtzung der Fehlervarianz dar.
(Genauer hierzu vgl. 12.1). Die H0: 1 2 p ist damit åquivalent zur H0: r2treat r2Fehler.
7
256
Kapitel 7 ´ Einfaktorielle Versuchsplåne
Sollte nicht die H0 , sondern die H1 richtig sein, ^2treat græûer sein als r ^2Fehler . mçûte r Die H0 , dass zwei voneinander unabhångige Varianzschåtzungen identisch sind, prçfen wir nach Gl. (5.39) çber den F-Test. Der Signifikanztest der einfaktoriellen Varianzanalyse heiût somit: ^2treat =^ Fr r2Fehler :
7:22
In unserem Beispiel ermitteln wir als F-Wert: F 23;33=1;88 12;41 :
7
Dieser F-Wert wird mit demjenigen F-Wert verglichen, den wir bei p 1 Zåhlerfreiheitsgraden und p
n 1 Nennerfreiheitsgraden auf dem a 1% (5%)-Niveau erwarten. Tabelle E entnehmen wir als kritischen F-Wert: F
3;16;99% 5;29. Der empirische F-Wert ist græûer als der kritische F-Wert, sodass wir die Nullhypothese auf dem a 1%-Niveau verwerfen: Mindestens 2 der 4 Lehrmethoden unterscheiden sich hinsichtlich des Lernerfolges auf dem 1%-Niveau signifikant. (Genauer hierzu s. Kap. 7.3.) Die Durchfçhrung eines F-Tests erçbrigt sich, ^2Fehler græûer als r ^2treat ist, weil in diesem wenn r Fall die Treatmentstufenunterschiede, verglichen mit den Fehlereffekten, unbedeutend sind. In Tabelle E sind deshalb nur die Werte F > 1 wiedergegeben, die mit einer Irrtumswahrscheinlichkeit von hæchstens 25, 10, 5 oder 1% auftreten. (In der Tabelle sind diejenigen Fcrit -Werte wiedergegeben, die von der rechten Seite der F-Verteilung 25, 10, 5 und 1% abschneiden.) Der Varianzunterschied wird somit einseitig geprçft. Dieser einseitigen Varianzçberprçfung entspricht jedoch die Ûberprçfung einer ungerichteten Mittelwerthypothese. Ausgehend von der H0: 1 2 p formulieren wir als Alternativhypothese H1: i 6 i0 . (Mindestens 2 Mittelwerte i und i0 sind ungleich.) Welche Mittelwerte sich in welcher Weise voneinander unterscheiden, wird durch diese Alternativhypothese nicht festgelegt. Da konstante, aber verschieden gerichtete Mittelwertsunterschiede durch die Quadrierung zur gleichen Treatmentvarianz fçhren, çberprçft der einseitige F-Test eine ungerichtete Alternativhypothese bezçglich der Mittelwerte.
Rechnerische Durchfçhrung Die Durchfçhrung einer einfaktoriellen Varianzanalyse gliedert sich zusammenfassend in die folgenden 4 Schritte: ^2tot , · Bestimmung von QStot und r ^2treat , · Bestimmung von QStreat und r ^2Fehler · Bestimmung von QSFehler und r (Kontrolle: QStot QStreat QSFehler , · Durchfçhrung des Signifikanztests ^2treat =^ Fr r2Fehler . Die Berechnung der Quadratsummen und Varianzen kann natçrlich so erfolgen, wie es auf den letzten Seiten beschrieben wurde. Fçr die Durchfçhrung einer Varianzanalyse ¹per Handª oder mit einem Taschenrechner empfiehlt es sich jedoch, von rechnerisch einfacheren (und weniger fehleranfålligen) Formeln auszugehen, die der Umformung einer Varianz nach Gl. (1.21) entsprechen. Analog zu dieser Transformation gelten die folgenden Øquivalenzen: XX QStot
xmi G2 m
i
XX m
i
QStreat n P
X
Ai
G2 ; np
7:23
G2
i
A2i
G2 ; n np XX
xmi Ai 2
QSFehler
x2mi
i
i
m
XX i
m
P x2mi
i
A2i
n
7:24
:
7:25
Hier und in den folgenden Kapiteln definieren wir nach Winer et al. (1991) Kennziffern, die eine çbersichtlichere Quadratsummenberechnung gestatten. Fçr die einfaktorielle Varianzanalyse lauten diese Ziffern: P 2 Ai 2 X X G ;
2 :
1 x2mi ;
3 i pn n m i Setzen wir diese Ziffern in Gl. (7.23), (7.24) und (7.25) ein, ergeben sich folgende Rechenregeln fçr die einzelnen Quadratsummen:
a7.1
257
Grundprinzip der einfaktoriellen Varianzanalyse
QStot
2
1 ;
QStreat
3 QSFehler
2
1 ;
QSFehler
2
3 :
Datenrçckgriff. In unserem Beispiel ermitteln wir fçr die Kennziffern G2 802
1 320 ; pn 45 XX x2mi
2 m 2
2 1 32 52 32 22 420 ; P 2 Ai i
3 n 102 152 352 202 1950 390 : 5 5 Die Varianzanalyse kann somit, ausgehend von diesen Ziffern, mit folgenden 4 Rechenschritten durchgefçhrt werden: ^2tot : · Ermittlung von QStot und r QStot
2 ^2tot r
1 420
320 100 ;
^2treat : · Ermittlung von QStreat und r ^2treat r
1 390
QSFehler =dfFehler 30=16 1;88 :
· Durchfçhrung des Signifikanztests: F
^2treat 23; 33 r 12;41 : 2 ^Fehler 1; 88 r
Ergebnisdarstellung Fçr die Darstellung der Ergebnisse einer Varianzanalyse verwendet man das in Tabelle 7.2 wiedergegebene Schema. In unserem konkreten Beispiel lautet die Ergebnistabelle: Q.d.V. Lehrmethoden (A) Fehler Total
QS
df
^2 r
F
70 30
3 16
23,33 1,88
12,41
100
19
5,26
Die beiden ** deuten an, dass der empirische F-Wert græûer als der fçr das 1%-Niveau kritische F-Wert und damit sehr signifikant ist. (Eine 5%-Niveau-Signifikanz kennzeichnen wir durch *.) Zusåtzlich sollte angegeben werden, wie viel Prozent der Gesamtvariation
QStot durch das Treatment aufgeklårt wird (vgl. Gl. 7.21). Fçr das Beispiel resultiert g2 0;7:
QStot =dftot 100=19 5;26 :
QStreat
3
390 30
(Kontrolle: 100 70 30 ; ^2Fehler r
Auch nach diesen Berechnungsvorschriften gilt natçrlich die Beziehung QStot QStreat QSFehler .
i 2
3 420
320 70 ;
QStreat =dftreat 70=3 23;33 :
^2Fehler : · Ermittlung von QSFehler und r
Tabelle 7.2. Ergebnistabelle einer einfaktoriellen Varianzanalyse Quelle der Variation (Q.d.V.)
Quadratsumme (QS)
Freiheitsgrade
df
Varianz
^ r2
F-Wert
F
Treatment
3
1
p
QStreat dftreat
^2treat r ^2Fehler r
Fehler
2
3
p
n
Total
2
1
pn
1 1
1
QSFehler dfFehler QStot dftot
7
258
Kapitel 7 ´ Einfaktorielle Versuchsplåne
¹Optimaleª Stichprobenumfånge
7
Auch fçr eine Untersuchung, die mit einer einfaktoriellen Varianzanalyse ausgewertet werden soll, empfiehlt es sich, aus untersuchungsækonomischen Grçnden ¹optimaleª Stichprobengræûen einzusetzen (zur Theorie vgl. 4.8). Man bestimmt nach Kriterien der praktischen Bedeutsamkeit eine Effektgræûe " und wåhlt die Stichprobenumfånge so, dass die mit der Effektgræûe " festgelegte H1 mit einer Irrtumswahrscheinlichkeit von a und einer Teststårke von 1 b angenommen werden kann, wenn die H1 gilt. Wie beim t-Test fçr unabhångige Stichproben hångt die Effektgræûe " auch in der Varianzanalyse · von den unter H1 erwarteten Populationsparametern und · von der Streuung r innerhalb der zu vergleichenden Populationen ab. Die Effektgræûe ist wie folgt definiert (vgl. Cohen, 1988, S. 281): "
rl : r
7:26
rl ist die Streuung der Populationsparameter li. Da es in der Regel schwer fållt, alle p i -Parameter fçr die H1 zu spezifizieren, kann man sich damit begnçgen, eine Mindestdifferenz zwischen dem græûten und kleinsten i -Wert vorzugeben
max min ). Die hierauf basierende Effektgræûe bezeichnen wir mit "0 . Wenn man keine Vorkenntnisse çber die Græûe von r hat, helfen Abschåtzungen des vermuteten Streubereiches (¹rangeª) der untersuchten abhångigen Variablen innerhalb der Populationen weiter. Dividiert man die Streubreite durch 6, resultiert fçr normalverteilte Merkmale eine akzeptable Vorabschåtzung fçr r (vgl. Schwarz, 1975, oder auch Bortz u. Dæring, 2002, Kap. 7.1.5). Damit låsst sich d
max
min r
7:27
berechnen. Fçr die Bestimmung von "0 sind zudem Ûberlegungen darçber erforderlich, wie sich die çbrigen i -Parameter zwischen max und min verteilen. Geht man einfachheitshalber von åquidistanten Abstånden aus, ergibt sich die Effektgræûe "0 wie folgt:
d "0 2
s p1 : 3
p 1
7:26 a
(Hinweise zur Theorie und zu weiteren Verteilungsmustern fçr die i -Werte findet man bei Cohen, 1988, S. 274 ff.) Fçr a 0;05 und 1 b 0;80 ergeben sich in Abhångigkeit von " und der Anzahl der Zåhlerfreiheitsgrade die in Tabelle 7.3 dargestellten ¹optimalenª Stichprobenumfånge fçr jede Stufe der unabhångigen Variablen. Die fçr dfz = 1 genannten Werte sind ± anders als die auf S. 143 genannten optimalen Stichprobenumfånge fçr den t-Test mit unabhångigen Stichproben ± fçr den zweiseitigen Test vorgesehen. Die in Tabelle 7.3 genannten Stichprobenumfånge gelten fçr jede Treatmentstufe und implizieren damit ein konstantes n. Falls ungleich groûe Stichproben untersucht werden (vgl. 7.2), sollte die durchschnittliche Stichprobengræûe dem optimalen Stichprobenumfang entsprechen.
Datenrçckgriff. Fçr den genannten Vergleich der 4 Unterrichtsmethoden håtte die Planung der Stichprobenumfånge wie folgt aussehen kænnen: Auf Grund pådagogischer Erfahrungen geht man davon aus, dass ein praktisch bedeutsamer Unterrichtseffekt vorliegt, wenn sich die durchschnittliche Anzahl der Testpunkte, die nach der besten und schlechtesten Methode erzielt werden, um mindestens 3 Testpunkte unterscheiden
max min 3. Ferner sei der Test so angelegt, dass im ungçnstigsten Fall von einem Schçler 0 Punkte und vom besten Schçler 8 Punkte erreicht werden kænnen. Akzeptiert man diesen Wertebereich fçr jede Unterrichtsmethode, wird ± normalverteilte Punkte vorausgesetzt ± die Streuung der Punktzahlen in den 4 Populationen auf r 86 1;33 geschåtzt. Damit resultieren d
3 2;25 1;33
und 2;25 " 2 0
s 41 0;84 : 3
4 1
Dieser Wert liegt deutlich çber dem "-Wert fçr einen starken Effekt
" 0;40. Nach Tabelle 7.3 sollte wegen dfz 3 pro Unterrichtsmethode ein Stich-
a7.1
7
259
Grundprinzip der einfaktoriellen Varianzanalyse
Tabelle 7.3. ¹Optimaleª Stichprobenumfånge fçr die einfaktorielle Varianzanalyse Freiheitsgrade
dfz
Effektgræûe " 0,05
0,10 a
0,15
0,20
0,25 b
0,30
0,35
0,40c
0,50
0,60
0,70
0,80
1 2 3 4 5 6 8 10 12 15 24
1571 1286 1096 956 856 780 669 591 534 471 363
393 322 274 240 215 195 168 148 134 118 91
175 144 123 107 96 87 75 66 60 53 41
99 81 69 61 54 50 42 38 34 30 23
64 52 45 39 35 32 27 24 22 20 15
45 36 31 27 25 22 19 17 16 14 11
33 27 23 20 18 17 14 13 12 10 8
26 21 18 16 14 13 11 10 9 8 6
17 14 12 10 9 9 8 7 6 6 4
12 10 9 8 7 6 6 5 5 4 3
9 8 7 6 5 5 4 4 4 3 3
7 6 5 5 4 4 4 3 3 3 2
a b c
Schwacher Effekt (g2 1%) Mittlerer Effekt
g2 6%) Starker Effekt
g2 14%)
probenumfang von n&5 untersucht werden (genauere Angaben findet man bei Cohen, 1988). Im Beispiel wurden deshalb n = 5 Schçler pro Methode untersucht. Die Ex-post-Analyse des Beispiels fçhrt zu folgendem Resultat: Wir errechnen fçr d nach Gl. (7.27) (mit r geq r2Fehler ): schåtzt durch b 7 2 5 3;65 : d p 1;88 1;37 Die in der Planungsphase mit 8/6 = 1,33 geschåtzte Streuung entspricht der empirisch ermittelten Streuung (r = 1,37) also recht gut. Weiter ergibt sich nach Gl. (7.26 a) r 3;65 41 0 "b 1;36 : 2 33 Man erhålt diesen Wert auch çber Gl. (7.26) mit Ai als Schåtzwerte fçr i. Im Beispiel ergibt sich ein åuûerst groûer Effekt, fçr dessen Absicherung (mit 1±b = 0,8 und a = 0,05) auch kleinere Stichprobenumfånge ausgereicht håtten. Man beachte, dass derart groûe Effekte in der Forschungspraxis hæchst selten vorkommen; sie sind immer der ¹Manipulationª verdåchtig und sollten deshalb besonders kritisch geprçft werden. (Die Beispielzahlen sind fiktiv; sie wurden unter dem Gesichtspunkt eines leicht nachvollziehbaren Rechenganges ausgewåhlt.)
Effektgræûe und Varianzaufklårung. Die Effektgræûe " låsst sich çber folgende Gleichung auch als Anteil erklårter Varianz
g2 ausdrçcken: g2
"2 : 1 "2
7:28
Man beachte, dass g2 hier çber den Populationsparameter " definiert ist (s. Gl. 7.26). Verwenden wir den çber Gl. (7.26 a) errechneten Schåtzwert "b 0 , ergibt sich b g2
1;362 0;65 : 1 1;362
Hier wird nochmals deutlich, dass das auf S. 255 errechnete deskriptive g2 = 0,70 zu optimistisch ist. Eine andere Mæglichkeit, die wahre Varianzaufklårung zu schåtzen, findet man bei Hays (1994, S. 409). Dort wird der entsprechende Schåtzwert b 2 genannt: x b2 x
QStreat
p 1 b r2Fehler : QStot b r2Fehler
7:28 a
Wir errechnen fçr das Beispiel b2 x
70 3 1;88 0;63 : 100 1;88
b 2 = 0,63 ± Beide Schåtzwerte ± b g2 = 0,65 und x stimmen recht gut çberein.
260
Kapitel 7 ´ Einfaktorielle Versuchsplåne
Mit Gl. (7.28) kænnen Effektgræûen in Varianzaufklårungen umgerechnet werden. Ein starker Effekt
" 0;4 wçrde einer Varianzaufklårung von ca. 14% entsprechen. Dieser Wert und die Varianzaufklårung fçr einen schwachen bzw. mittleren Effekt sind ebenfalls in Tabelle 7.3 genannt. Hat man eine Vorstellung darçber, welche minimale Varianzaufklårung praktisch bedeutsam ist, erhålt man die Effektgræûe " auch çber Gl. (7.29): s g2 " :
7:29 1 g2 Einer Varianzaufklårung von 20% entspråche also ein sehr starker Effekt von " = 0.5.
7
7.2 Ungleiche Stichprobengræûen Die bisher behandelte einfaktorielle Varianzanalyse sieht vor, dass jeder Faktorstufe eine Zufallsstichprobe des Umfangs n zugewiesen wird. Gelegentlich kann es jedoch vorkommen, dass die unter den einzelnen Treatmentstufen beobachteten Stichproben nicht gleich groû sind. Dies wird vor allem dann der Fall sein, wenn die Vpn nicht fçr einzelne Behandlungen im Sinn eines echten Treatments zufållig zusammengestellt werden, sondern ¹natçrlichª gruppiert sind (quasiexperimenteller Ansatz, vgl. S. 8 f.). Fçr ungleich groûe Stichproben gelten die folgenden, modifizierten Berechnungsvorschriften einer einfaktoriellen Varianzanalyse: Unter den einzelnen Treatmentstufen i werden jeweils ni Untersuchungseinheiten beobachtet. Als Gesamtzahl aller Untersuchungseinheiten erhalten wir: X N ni :
7:30 i
Gleichung (7.4) lautet fçr ungleiche Stichproben: X ni
Ai G2 :
7:31 QStreat i
Bei der Berechnung der Treatmentquadratsumme werden somit die einzelnen quadrierten Abweichungen der Ai -Werte von G mit dem jeweiligen Stichprobenumfang ni gewichtet. Ein Ai -Wert, der auf einer groûen Stichprobe beruht, geht mit står-
kerem Gewicht in die Treatmentquadratsumme ein als ein Ai -Wert, dem eine kleinere Stichprobe zu Grunde liegt. Als Kennziffern fçr die Berechnung der Quadratsummen verwendet man im Fall ungleich groûer Stichproben:
1 G2 =N; p X ni X x2mi ;
2 i1 m1
3
X A2 i
i
ni
:
(Die etwas ungewæhnlich aussehende Schreibweise fçr Ziffer (2) beinhaltet nichts anderes als die Summe aller quadrierten Messwerte. Der 2. Summenindex m låuft fçr verschiedene Stufen von i bis ni , dem jeweiligen Stichprobenumfang.) Ausgehend von diesen Kennziffern ist die Ermittlung der Quadratsummen mit den in Tabelle 7.2 angegebenen Berechnungsvorschriften identisch. Fçr die Freiheitsgrade ermitteln wir bei ungleich groûen Stichproben: dftreat p
1;
dfFehler N p; dftot N 1 : Diese hier vorgenommenen Verallgemeinerungen treffen natçrlich auch auf den Spezialfall gleichgroûer Stichproben zu. Ist n1 n2 np n, erhalten wir fçr Ziffer (3): P 2 Ai X A2 i i :
3 ni n i Da ferner p n N, gilt fçr dfFehler die folgende Beziehung: dfFehler N
pnp
p p
n
1
bzw. fçr die Freiheitsgrade der totalen Quadratsumme: dftot N
1np
1:
BEISPIEL Es wird çberprçft, wie sich Schlafentzug auf die Konzentrationsfåhigkeit auswirkt. 35 Vpn nehmen an der Untersuchung teil. Diese 35 Vpn werden per Zufall in 5 Gruppen eingeteilt, die jeweils unterschiedlich lang wach bleiben mçssen:
a7.2
261
Ungleiche Stichprobengræûen
1. 2. 3. 4. 5.
Gruppe Gruppe Gruppe Gruppe Gruppe
12 18 24 30 36
Stunden Stunden Stunden Stunden Stunden
ohne ohne ohne ohne ohne
Varianzanalyse ohne Einzelmessungen
Schlaf, Schlaf, Schlaf, Schlaf, Schlaf.
Nach den Wachzeiten wird mit den Vpn ein Konzentrationstest durchgefçhrt. Wir wollen annehmen, dass einige Vpn die Untersuchungsbedingungen nicht eingehalten haben und deshalb ausgeschlossen werden mçssen. Die verbleibenden Gruppengræûen mægen lauten: n1 5, n2 6, n3 4, n4 7, n5 4. Tabelle 7.4 zeigt die erzielten Konzentrationsleistungen (hoher Wert = hohe Konzentrationsleistung) sowie den Rechengang der Varianzanalyse. Der empirisch ermittelte F-Wert ist sehr viel græûer als der kritische F-Wert fçr das 1%-Niveau. Wir verwerfen deshalb die Nullhypothese und behaupten, dass sich unterschiedlich lange Schlafentzugszeiten entscheidend auf die Konzentrationsfåhigkeit auswirken.
In den bisher besprochenen varianzanalytischen Ansåtzen gingen wir davon aus, dass die einzelnen Messwerte xmi bekannt seien. Gelegentlich ist man jedoch darauf angewiesen, Stichproben varianzanalytisch miteinander zu vergleichen, von denen man lediglich die Mittelwerte, Varianzen und Umfånge kennt. (Ein solcher Fall låge beispielsweise vor, wenn man z. B. im Kontext von Metaanalysen ± vgl. S. 222 ± Untersuchungen zusammenfassen bzw. vergleichen will, in denen çber die untersuchten Stichproben nur summarisch berichtet wird.) Nach Gordon (1973, korrigiert nach Rossi, 1987 u. Finstuen et al., 1994) ermitteln wir in diesem Fall die Kennziffern (1) bis (3) folgendermaûen:
Tabelle 7.4. Beispiel fçr eine einfaktorielle Varianzanalyse mit ungleichen Stichprobengræûen Schlafentzugsgruppen 1. Gruppe
2. Gruppe
3. Gruppe
4. Gruppe
5. Gruppe
18 15 19 19 17
18 16 17 17 19 16
16 13 14 14
11 12 16 11 12 11 13
8 7 10 9
Ai:
88
103
57
86
34
Ai:
17,60
17,17
14,25
12,29
^2 r
F
66,54 2,25
29,57
G 368 G 14;15 N
P i
ni 5 6 4 7 4 26 2
G 3682 5208;62 N 26 p n P Pi 2 xmi 182 152 102 92 5522
2
1
3
i1 m1 P A2i i
ni
882 1032 572 862 342 5474;79 5 6 4 7 4
Quelle der Variation
QS
df
Schlafentzugsgruppen Fehler
3
2
1 266;17 p
3 47;21 N
14 p 21
Total
2
1 313;38 N
1 25
F
4;21;99% 4;40
8,50
7
262
Kapitel 7 ´ Einfaktorielle Versuchsplåne
n1 A1 n2 A2 np Ap 2 n1 n2 np 2 P n i Ai i P ; ni
1 G2 =N
i
ni XX x2mi
n1 s21 n2 s22 np s2p
2 m1
i
2 A1
2 A2
n1 n2 np X X 2
ni s2i
ni Ai ; i
3
7
2 Ap
i
df
^2 r
F
Schichten
3
1 9497;33
2
3 13650
p 1 2 N p 147
4748,67
51,14
2
1 23147;33
N 1 149
Fehler Total
92,86
Der bei 2 Zåhlerfreiheitsgraden und 147 Nennerfreiheitsgraden fçr das 1%-Niveau kritische F-Wert lautet: F
2;147;99% 4;77. Da der empirische Wert erheblich græûer ist, unterscheiden sich die 3 verglichenen Stichproben sehr signifikant in ihrer verbalen Intelligenz.
t-Test und Varianzanalyse
ni 2
2
2
n 1 A 1 n 2 A 2 n p Ap X 2
ni Ai : i
(Man beachte, dass fçr Ziffer (2) die Stichproben^2 benætigt varianz s2 und nicht der Schåtzwert r wird.) Ausgehend von diesen Kennzifferdefinitionen kann die Varianzanalyse wie eine Varianzanalyse mit ungleichen Stichprobengræûen, bei denen die Kennziffern durch die einzelnen Messwerte xmi bestimmt sind, durchgefçhrt werden. BEISPIEL Aus unterschiedlichen Arbeiten çber die verbale Intelligenz von Schçlern entnimmt man folgende Werte fçr Schçler der Unterschicht
a1 , der Mittelschicht
a2 und der Oberschicht
a3 : A1 85;
s21 65;
n1 50;
A2 98;
s22 110;
n2 60;
A3 105;
s23 95;
n3 40 :
Die einzelnen Kennziffern lauten somit:
1
QS
i
X A2 i
Q.d.V.
50 85 60 98 40 1052 1368992;67 ; 50 60 40
2
50 65 60 110 40 95
50 852 60 982 40 1052 13650 1378490 1392140 ;
3 50 852 60 982 40 1052 1378490 : Die Ergebnisse fassen wir in folgender Tabelle zusammen:
Ausgehend von den Rechenregeln fçr die Durchfçhrung einer Varianzanalyse mit Mittelwerten und Varianzen låsst sich die Identitåt des t-Tests fçr unabhångige Stichproben und der einfaktoriellen Varianzanalyse fçr p 2 (Vergleich zweier Stichproben) relativ einfach zeigen. Nach Gl. (5.13) und (5.15) ermitteln wir den folgenden t-Wert: x1 x2 t s : 2 ^1
n2 1 r ^22
n1 1 r 1 1 n1 n2
n1 1
n2 1 Fçr den F-Bruch der Varianzanalyse benætigen ^2treat : wir r ^2treat r
3
1 dftreat 2
2
n1 A1 n2 A2 2 n1 n2
7:32 p 1
n1 A1 n2 A2
^2Fehler : und r
2
3 dfFehler
n1 s21 n2 s22 N p
^2Fehler r
2
2
2
2
n1 A1 n2 A2 N p
n1 A1 n2 A2 : N p
7:33
263
a7.3.1 Konstruktionsprinzipien Da p 2 ist, erhalten wir dftreat 1 und fçr dfFehler n1 n2 2. Es ergibt sich somit der folgende F-Bruch: F
^2treat r ^2Fehler r
n1 A1 n2 A2 2 n1 n2 2 2 2 2 :
n1 s21 n2 s22
n1 A1 n2 A2
n1 A1 n2 A2 n1 n2 2 2
2
n1 A1 n2 A2
Multiplizieren wir Zåhler und Nenner mit
n1 n2 und fassen den Nenner zusammen, resultiert: 2
F
2
n1 n2
n1 A1 n2 A2
n1 A1 n2 A2 2 : n1 s21 n2 s22
n n 1 2 n1 n2 2
7:34
Durch Ausmultiplizieren und Zusammenfassen erhalten wir: 2
F
2
2
2
2
n22 A2 n21 A1 2n1 n2 A1 A2 n22 A2 n1 s21 n2 s22 n1 n2 2
n1 n2 2
2
n21 A1 n1 n2 A2 n1 n2 A1 n1 s21 n2 s22 n1 n2 2
n1 n2
2
n1 n2 A2 n1 n2 A1 2n1 n2 A1 A2 n1 s21 n2 s22 n1 n2 2
n1 n2
n1
Quadrieren wir Gl. (5.15), zeigt ein Vergleich mit Gl. (7.35) (wobei wir die Mittelwerte A durch x ersetzen), dass Gl. (2.60) erfçllt ist. Die einfaktorielle Varianzanalyse fçr p 2 ist mit dem t-Test fçr unabhångige Stichproben identisch.
7.3 Einzelvergleiche Fçhrt eine einfaktorielle Varianzanalyse zu einem signifikanten F-Wert, kænnen wir hieraus schlieûen, dass sich die p Mittelwerte in irgendeiner Weise signifikant unterscheiden (¹Overallª-Signifikanz gemåû der H1, vgl. S. 249). Eine differenziertere Interpretation der Gesamtsignifikanz wird ± ausgenommen beim Fall p 2 ± erst mæglich, wenn wir wissen, welche Mittelwerte sich von welchen anderen Mittelwerten signifikant unterscheiden. So wåre es beispielsweise denkbar, dass sich unter den p Mittelwerten ein ¹Ausreiûerª befindet, der zu einem signifikanten F-Wert gefçhrt hat, und dass sich die çbrigen p 1 Mittelwerte nicht signifikant voneinander unterscheiden.
7.3.1 Konstruktionsprinzipien
A1 A2 2 : 1 1 n1 s21 n2 s22 n1 n2 2 n1 n2
F
t2n F
1;n :
Durch Einzelvergleiche (oder auch Kontraste) finden wir heraus, zwischen welchen einzelnen Treatmentstufen signifikante Unterschiede bestehen.
n1 n2
A1 A2 2 n1 s21 n2 s22
n1 n2 n1 n2 2
^21
n1 1=n1 und s22 r ^22
n2 Da s21 r ergibt sich fçr F:
Nach Gl. (2.60) besteht zwischen einem t-Wert und einem F-Wert die folgende Beziehung:
1=n2
A1 A2 2 : ^21
n2 1 r ^22 1 r 1 1 n1 n2 n1 n2 2
7:35
Nehmen wir einmal an, es sollen in einer einfaktoriellen Varianzanalyse 4 Treatmentstufen
p 4 miteinander verglichen werden (z. B. drei verschiedene Behandlungsmethoden mit einer Kontrollbedingung), und die Stichproben seien gleichgroû. Neben der Frage nach der Overall-Signifikanz soll hier zunåchst ein Vergleich der ersten Behandlungsmethode
a1 mit der zweiten Behandlungsmethode
a2 interessieren. Fçr diesen Vergleich kåme çblicherweise der unter 5.1.2 beschriebene t-Test fçr unabhångige Stichproben in Betracht, der allerdings ± wie noch zu zeigen sein
7
264
Kapitel 7 ´ Einfaktorielle Versuchsplåne
wird ± eine geringere Teststårke aufweist als der im folgenden beschriebene Einzelvergleichstest.
Einzelvergleichstest fçr 2 Mittelwerte Aus 3.2.2 wissen wir, dass die Varianz der Kennwerteverteilung (¹sampling distributionª) des Mit^2 =n geschåtzt wird. Betrachten telwertes durch r wir nun die Differenz
D fçr p 2 Mittelwerte (z. B. A1 A2 , so låsst sich diese als Linearkombination bzw. gewichtete Summe zweier Mittelwerte auffassen, wenn wir A1 mit c1 1 und A2 mit c2 1 gewichten: D 1 A1
1 A2 A1
7
A2 :
Wir fragen nun nach der Varianz der Kennwerteverteilung fçr D A1 A2, die sich nach Gl. B 37 (s. Anhang B) bzw. S. 140 wie folgt schåtzen låsst: ^2A r
1
A2
^2A c22 r ^2A : c21 r 1
2
7:36
^2A und r ^2A sind die quadrierten Standardfehler r 1 2 ^2 =n der Mittelwerte A1 und A2 , die wir mit r schåtzen. ^2 kennzeichnet die Varianz der abhångigen r Variablen. Fçr diese Schåtzung verwenden wir jedoch ± anders als im t-Test ± nicht nur die Messungen unter a1 und a2 , sondern eine genauere Schåtzung unter Verwendung aller Messungen unter den p 4 Treatmentstufen. Fçr diese Varianz ^2Fehler bereits einen geeigneten haben wir mit r Schåtzwert kennengelernt. Wir erhalten also c21 c22 2 ^Fehler r
7:37 1 n bzw., wenn wir fçr c1 1 und c2 1 einsetzen, 1 ^2Fehler : ^2A A 2 r
7:38 r 1 2 n Dividieren wir wie im t-Test die Differenz D ^A 1 A 2 , resultiert bei durch den Standardfehler r normalverteilter abhångiger Variable eine t-verteilte Variable (bzw. bei græûeren Stichprobenumfången eine Standard normalverteilte Variable): D t :
7:39 ^A 1 A 2 r ^2A r
A2
Dieser t-Wert hat N p p
n 1 Freiheitsgrade. Der Freiheitsgradgewinn gegençber dem t-Test fçr zwei unabhångige Stichproben (mit 2
n 1 Freiheitsgraden) begrçndet die hæhere Teststårke des Einzelvergleichstests im Vergleich zum t-Test.
Da nach Gl. (2.60) t2n F
1;n ist, kænnen wir den Einzelvergleich auch çber die F-Verteilung testen: F
D2 ^2A r
1
7:40 A2
mit einem Zåhlerfreiheitsgrad
dfZ 1 und N p Nennerfreiheitsgraden
dfN dfFehler N p.
Einzelvergleichstest fçr p Mittelwerte Bislang gingen wir davon aus, dass ein Einzelvergleich nur aus der Differenz zweier Treatmentmittelwerte besteht. Die Verallgemeinerung dieses Ansatzes låsst jedoch auch den Vergleich von Kombinationen aus Mittelwerten zu. So wåre es in unserem Beispiel interessant zu erfahren, ob sich die drei behandelten Gruppen signifikant von der Kontrollgruppe
a4 unterscheiden, bzw. ob die Differenz D
A1 A2 A3 =3
A4
statistisch bedeutsam ist. Auch dies wåre eine Linearkombination der Treatmentmittelwerte, wobei die Gewichtungskoeffizienten in diesem Fall wie folgt lauten: c1 1=3;
c2 1=3;
c3 1=3;
c4
1:
Statt dieser Gewichte kænnte man auch andere wie z. B. c1 1;
c2 1;
c3 1;
c4
3
verwenden, was auf einen Vergleich des dreifach gewichteten Kontrollgruppenergebnisses mit der Summe der drei Experimentalgruppenergebnisse hinausliefe bzw. auf eine Multiplikation der ursprçnglichen Gewichte mit der Konstanten K 3. Die zu prçfende Differenz oder ein Einzelvergleich ergibt sich allgemein nach folgender Beziehung: D c1 A1 c2 A2 cp Ap X ci Ai ;
7:41
i
wobei fçr die Gewichtungskoeffizienten ci die ¹Kontrastbedingungª gelten muss: X ci 0
7:42 i
(zur Begrçndung dieser Kontrastbedingung vgl. S. 266). d Fçr die Varianzschåtzung Var
D der Stichprobenkennwerteverteilung von D ergibt sich in Analogie zu Gl. (7.37): X 1 d ^2Fehler : c2i r
7:43 Var
D n i Fçr die Prçfung einer Einzelvergleichshypothese çber die F-Verteilung erhålt man also: F
2
2
D nD P 2 d Var
D ^2Fehler ci r
7:44
i
mit dfZahler 1 und dfNenner N p dfFehler . Dieser F-Test ist gegençber Multiplikationen der Gewichte ci mit einer Konstanten K invariant (s. u.). Gerichtete Einzelvergleichshypothesen prçfen wir nach folgender Gleichung: D t q d Var
D mit df N
7:45
D 1=3
16 14 18
15 1
und nach Gl. (7.44)
1=32
20 12 20 3;00 : 1=32
12 5 6;67
Dieser F-Wert ist bei dfZahler 1 und dfNenner 4 19 76 nicht signifikant, d. h., eine Besonderheit der drei Behandlungsmethoden insgesamt gegençber der Kontrollbedingung kann nicht nachgewiesen werden. Wir kommen zum gleichen Ergebnis, wenn wir die Gewichte (z. B.) mit 3 multiplizieren: c1 1; c2 1; c3 1; c4 3: D
16 14 18 F
Nehmen wir einmal an, bei einer Untersuchung mit konstantem n und p 3 Faktorstufen sollen alle Mittelwerte paarweise verglichen werden: A1
A2 ;
A1
A3
und
A2
A3 :
Von diesen drei Einzelvergleichen ist einer informationslos, weil er sich aus den beiden anderen ergibt. Man erhålt z. B.
A1
A3
A1
A 2 A2
A3 :
Der Wert des dritten Einzelvergleichs liegt also fest, wenn die beiden ersten bekannt sind. Eine ¹Redundanzª ergibt sich auch fçr die beiden folgenden, fçr p 4 Stufen konstruierten Einzelvergleiche: D1
A1 A2 A3 =3
A4 ;
D 2 A1
A4 :
Auch wenn sich D1 und D2 wechselseitig nicht vollståndig determinieren, kann man erkennen, dass sich D1 in Abhångigkeit von D2 åndert und umgekehrt. Unabhångig sind hingegen die beiden folgenden Einzelvergleiche: A2 ;
D4
A3
A4
oder auch
Eine Varianzanalyse mit drei Behandlungsmethoden und einer Kontrollbedingung
p 4; n 20; abhångige Variable ^2Fehler 5 gefçhrt haben. Es = Behandlungserfolg) mæge zu r soll geprçft werden, ob sich die drei Behandlungsmethoden (mit A1 16; A2 14; A3 18 signifikant von der Kontrollbedingung
A4 15 unterscheiden
a 0; 05, zweiseitig). Unter Verwendung der Gewichte c1 1=3, c2 1=3, c3 1=3 und c4 1 erhålt man nach Gl. (7.41):
1=32
Orthogonale Einzelvergleiche
D3
A1
p.
BEISPIEL
F
7
265
a7.3.1 Konstruktionsprinzipien
3 15 3 ; 2
20 3 180 3;00 : 60 12 12 12
32 5
D5
A1 A2 =2
A3 A4 =2;
D6
A1 A3 =2
A2 A4 =2 :
Offenbar unterscheiden sich jeweils zwei Einzelvergleiche darin, ob sie gemeinsame Informationen enthalten, also in ihrer Græûe voneinander abhången, oder ob sie jeweils spezifische Informationen erfassen und damit voneinander unabhångig sind. Formal wird dieser Unterschied ersichtlich, wenn wir die entsprechenden Gewichtskoeffizienten betrachten. Sie lauten fçr die o. g. 6 Einzelvergleiche mit p 4: D1 D2 D3 D4 D5 D6
1/3; 1; 1; 0; 1/2; 1/2;
1/3; 0; ±1; 0; 1/2; ±1/2;
1/3; 0; 0; 1; ±1/2 ; 1/2 ;
±1 ±1 0 ±1 ±1/2 ±1/2
Zunåchst stellen wir fest, dass alle Einzelvergleiche der Kontrastbedingung gemåû Gl. (7.42)
266
Kapitel 7 ´ Einfaktorielle Versuchsplåne
gençgen. Ferner betrachten wir die Summe aller Produkte korrespondierender Gewichtungskoeffizienten (kurz: Produktsumme) fçr zwei Einzelvergleiche. Sie lautet fçr die zwei ¹redundantenª oder abhångigen Einzelvergleiche D1 und D2 : 1 1 1 1 D1 vs. D2: 1 0 0
1
1 1 : 3 3 3 3 Fçr die beiden Einzelvergleiche D3 und D4 mit jeweils spezifischen Informationen erhalten wir D3 vs. D4: 1 0
1 0 0 1 0
1 0
7
und fçr D5 im Vergleich zu D6 : 1 1 1 1 D5 vs. D6: 2 2 2 2 1 1 1 2 2 2
1 2
1 1 1 1 X A 1 A2 A p Ai : p p p p i
G entspricht also einer Linearkombination aller Ai unter Verwendung des konstanten Gewichtes ci 1=p. Wir prçfen die Produktsumme der Linearkombination fçr G und eines beliebigen nach Gl. (7.41) definierten Einzelvergleichs Dj : 1 1 1 1 X ci : Dj vs: G: c1 c2 cp p p p p i Man erkennt, dass diese P Produktsumme nur Null ci 0 ist. Alle Einzelverwerden kann, wenn i P ci 0 sind damit orthogonal zum gleiche mit
i
Mittelwert G (vgl. Hays, 1973, Kap. 14.9).
0:
Schlieûlich stellen wir noch D2 und D5 gegençber mit der Besonderheit, dass D2 zumindest teilweise in D5 enthalten ist. Wir erhalten 1 1 1 D2 vs. D5 : 1 0 0 2 2 2 1 1:
1 2 Die sich hier abzeichnende Systematik ist nicht zu çbersehen: Erfassen zwei Einzelvergleiche gemeinsame Informationen, resultiert fçr die Produktsumme ein Wert ungleich Null. Sind die Informationen zweier Einzelvergleiche hingegen çberschneidungsfrei, hat die Produktsumme den Wert Null. Derartige Einzelvergleiche bezeichnen wir als orthogonal. Zwei Einzelvergleiche sind orthogonal, wenn die Produktsumme ihrer Gewichtungskoeffizienten Null ergibt.
Allgemein lautet die Orthogonalitåtsbedingung fçr zwei Einzelvergleiche j und k: c1j c1k c2j c2k cpj cpk X cij cik 0 :
G
7:46
i
Begrçndung der Kontrastbedingung. Einzelvergleiche, die die in Gl. (7.42) genannte Kontrastbedingung erfçllen, sind ± wie im Folgenden gezeigt wird ± orthogonal zum Mittelwert G. Bei gleichgroûen Stichproben ergibt sich:
Vollståndige Såtze orthogonaler Einzelvergleiche Im letzten Abschnitt haben wir festgestellt, dass z. B. die beiden Einzelvergleiche D3 und D4 orthogonal sind. Wir wollen nun prçfen, ob es weitere Einzelvergleiche gibt, die sowohl zu D3 als auch D4 orthogonal sind. Fçr D5 resultiert diese Ûberprçfung in folgender Produktsumme: 1 1 1 D5 vs: D3: 1
1 0 2 2 2 1 0 0; 2 1 1 1 D5 vs: D4: 0 0 1 2 2 2 1
1 0: 2 D5 ist also sowohl zu D3 als auch zu D4 orthogonal. Die Prçfung bezçglich D6 fçhrt zu folgendem Resultat: 1 1 1 0 D6 vs: D3: 1
1 2 2 2 1 1; 0 2 1 1 1 D6 vs: D4: 0 0 1 2 2 2 1 1:
1 2
a7.3.2
Obwohl orthogonal zu D5 , ist D6 nicht orthogonal zu D3 und D4 . Das gleiche gilt fçr D1 und D2 , die zwar wechselseitig, aber nicht gegençber D3 und D4 orthogonal sind. Man mag sich davon çberzeugen, dass es zu den drei wechselseitig orthogonalen Einzelvergleichen D3 , D4 und D5 keinen weiteren Einzelvergleich gibt, der sowohl zu D3 , D4 als auch D5 orthogonal ist. Die Einzelvergleiche D3 , D4 und D5 bilden einen vollståndigen Satz orthogonaler Einzelvergleiche. Ein vollståndiger Satz orthogonaler Einzelvergleiche besteht aus p 1 wechselseitig orthogonalen Einzelvergleichen.
Neben D3 ; D4 und D5 existieren weitere vollståndige Såtze orthogonaler Einzelvergleiche. So kænnte man beispielsweise zu D5 und D6 einen weiteren Einzelvergleich D7 konstruieren, bei dem a1 und a4 mit a2 und a3 kontrastiert werden. Dieser Vergleich D7 håtte also die Gewichte D7:
1=2 ;
1=2 ;
1=2 ;
7
267
Zerlegung der Treatmentquadratsumme
D 1 A2 D 2 A3 D 3 A4 .. .
7:48
Dp
2
Ap
Dp
1
Ap
1
1
p 1 p
2 1
A1 A2 Ap 2 ;
A1 A2 Ap 1 :
7.3.2 Zerlegung der Treatmentquadratsumme Die mit einem Einzelvergleich erfasste Quadratsumme ist definiert durch: n
c1 A1 c2 A2 cp Ap 2 c21 c22 c2p 2 P n ci Ai n D2 i P P 2 :
7:49 2 ci ci
QSD
1=2
und wåre damit orthogonal sowohl zu D5 als auch zu D6 . Die Vergleiche D5 ; D6 und D7 bilden einen weiteren vollståndigen Satz orthogonaler Einzelvergleiche fçr p 4.
A1 ; 1
A1 A2 ; 2 1
A1 A2 A3 ; 3
i
i
Diese Quadratsumme hat einen Freiheitsgrad, sodass gilt: ^2D r
QSD n D2 P 2 : 1 ci
7:50
i
Helmert-Kontraste. Einen vollståndigen Satz orthogonaler Einzelvergleiche erzeugt man auch nach den Regeln fçr sog. Helmert-Kontraste: D 1 A1 D 2 A2
1 p p
1
1 2
Dp Dp
F
A2 A3 Ap ;
A3 A4 Ap ;
.. .
7:47 2
Ap
1
Ap
2 1
1
Ap 2 Ap ;
1
Ap ;
oder fçr umgekehrte Helmert-Kontraste:
d (Man beachte, dass Var
D gemåû Gl. 7.43 und ^2D nicht identisch sind). Fçr Gl. (7.44) kænnen r wir also auch schreiben: ^2D r
^2Fehler r
:
7:51
Im Folgenden betrachten wir zwei orthogonale Einzelvergleiche D1 und D2 fçr eine Varianzanalyse mit p 3 Stufen. Diese Einzelvergleiche mægen lauten: D 1 A1
A2 ;
A1 A 2 A3 : 2 Die auf diese Einzelvergleiche entfallenden Quadratsummen ergeben sich gemåû Gl. (7.49) zu: D2
268
Kapitel 7 ´ Einfaktorielle Versuchsplåne
QStreat 175. Geprçft werden soll der folgende vollståndige Satz orthogonaler Einzelvergleiche:
n
A1 A2 2 ; 2 n
A1 A2 =2 1;5
QSD 1 QSD 2
A3 2
D1 A1
:
Wir addieren QSD 1 und QSD 2 und erhalten nach einigen Umformungen: n 2 2 2
A1 A2 A3 QSD 1 QSD 2 2 3 A1 A2
A1 A3
A2 A3 :
n
7
3 X
i1 2 A1
2
2
A2 A 3 2
2G
A1 A2 A3 3 G
Fçr die entsprechenden Quadratsummen errechnet man nach Gl. (7.49): 20
16 142 40;00 ; 2 20
15 182 120;00 ; 1;5
QSD 1
QSD 3
20
16 152 15;00 : 1;33
20
16 142
16 182
16 152 4
14 182
14 152
18 152 175:
QStreat
G durch 1=3
A1 A2 A3 ersetzt wird. Generell gilt, dass sich die QStreat additiv aus den Quadratsummen von p 1 orthogonalen Einzelvergleichen zusammensetzt: QStreat QSD 1 QSD 2 QSDp 1 :
A4 :
Gl. (7.52) wird also beståtigt: QStreat QSD 1 QSD 2 QSD 3 . Unter Verweis auf S. 271 ff. verzichten wir vorerst auf eine Ûberprçfung dieser Einzelvergleiche. Nach Gl. (7.53) erhalten wir
G2
Ai
A3 ;
D3
A1 A2 A3 =3
QSD 2
Das Resultat ist mit der QStreat identisch, was man erkennt, wenn in der Gleichung QStreat n
A2 ;
D2
A1 A2 =2
7:52
Die Quadratsummen eines vollståndigen Satzes orthogonaler Einzelvergleiche addieren sich zur Treatmentquadratsumme.
Da die QStreat p 1 Freiheitsgrade und die QSD einen Freiheitsgrad hat, kænnen wir auch sagen, dass jeder Freiheitsgrad der QStreat mit einem Einzelvergleich aus einem vollståndigen Satz orthogonaler Einzelvergleiche assoziiert ist. Eine weitere Zerlegung der QStreat bezieht sich auf Einzelvergleiche, die sich aus allen p
p 1=2 Paaren von Mittelwerten ergeben. Man kann zeigen, dass die Unterschiede zwischen den Gruppenmittelwerten auf folgende Weise mit der QStreat verbunden sind: n X
Ai Aj 2 :
7:53 QStreat p i<j BEISPIEL Fçr das Beispiel auf S. 265 mit p 4, n 20, A1 16, ^2Fehler 5 errechnen wir A2 14, A3 18, A4 15 und r
Ungleichgroûe Stichproben Sind bei ungleichgroûen Stichprobenumfången Einzelvergleiche zu prçfen, an denen Zusammenfassungen von Mittelwerten beteiligt sind (z. B. mehrere Experimentalgruppen vs. eine Kontrollgruppe), muss zwischen zwei verschiedenen Vorgehensweisen unterschieden werden: 1. Variante: Durchschnittsbildung ohne Gewichtung, 2. Variante: Durchschnittsbildung mit Gewichtung. Die erste Variante geht vom arithmetischen Mittel der zusammenzufassenden Mittelwerte aus, d. h., die jeweiligen Stichprobenumfånge bleiben unberçcksichtigt. Diese Variante ist vor allem in experimentellen Untersuchungen zu verwenden, bei denen die Untersuchungsteilnehmer den Treatmentstufen nach Zufall zugeordnet werden, sodass eventuelle Unterschiede in den Stichprobenumfången zufallsbedingt sind. Typische Beispiele fçr Einzelvergleiche mit ungewichteten Durchschnitten sind Untersuchungen, in denen Effekte (Behandlungserfolge, Lerneffekte, Medikamentwir-
a7.3.2
kungen etc.) zu prçfen sind, also Untersuchungen, bei denen Stichproben aus Populationen entnommen werden, die theoretisch unendlich groû oder zumindest gleichgroû sind. Die zweite Variante verwendet als Durchschnitt das gewichtete Mittel der zusammenzufassenden Mittelwerte gemåû Gl. (1.13), also eine Zusammenfassung, bei der die unterschiedlichen Stichprobenumfånge berçcksichtigt werden. Dieser Variante ist der Vorrang zu geben, wenn die Stichprobenumfånge unterschiedlich groûe Populationen abbilden, also idealerweise proportional zu den Populationsgræûen sind, was håufig bei quasiexperimentellen Untersuchungen mit vorgefundenen natçrlichen Gruppen der Fall ist. Diese Unterscheidung ist irrelevant, wenn einzelne Mittelwerte nur paarweise zu vergleichen sind. In diesem Fall kommen beide Berechnungsvorschriften ± die fçr gewichtete und die fçr ungewichtete Durchschnitte ± zu identischen Resultaten. Sie sind natçrlich auch identisch, wenn die Stichprobenumfånge gleichgroû sind.
Ungewichtete Durchschnittsbildung. Wie bei gleichgroûen Stichprobenumfången (s. Gl. 7.41) wird ein Einzelvergleich nach folgender Gleichung gebildet: X X D ci Ai mit ci 0 : i
i
Die Quadratsumme errechnet sich zu QSD P i
D2 : c2i =ni
7
269
Zerlegung der Treatmentquadratsumme
7:54
Wegen df 1 entspricht diese Quadratsumme der Einzelvergleichsvarianz, die gemåû Gl. (7.51) an der Fehlervarianz auf Signifikanz geprçft wird. Zwei Einzelvergleiche j und k sind orthogonal, wenn folgende Bedingung erfçllt ist: X cij cik 0:
7:55 ni i Wie noch gezeigt wird, fçhrt die Konstruktion orthogonaler Einzelvergleiche nach dieser Regel håufig zu Ergebnissen, die inhaltlich nur schwer interpretierbar sind.
Gewichtete Durchschnittsbildung. Ein Einzelvergleich hat hier folgende formale Struktur:
D
X
ni ci Ai
7:56
i
mit X
ni ci 0 :
7:57
i
Fçr die Quadratsumme errechnet man 2 P ni ci Ai D2 i P P : QSD ni c2i ni c2i i
7:58
i
Die Ûberprçfung eines Einzelvergleichs erfolgt hier ebenfalls nach Gl. (7.51) mit dfZ 1 und dfN N p. Zwei Einzelvergleiche Dj und Dk sind orthogonal, wenn gilt X ni cij cik 0 :
7:59 i
Um die Bedingungen der Gl. (7.57) und (7.59) zu erfçllen, geht man einfachheitshalber wie folgt vor: Jeder Einzelvergleich besteht aus einem Minuenden, der alle links vom Minuszeichen stehenden Gruppen zusammenfasst, und einem Subtrahenden, der alle rechts vom Minuszeichen stehenden Gruppen zusammenfasst. Die mit einem negativen Vorzeichen versehene Summe der Stichprobenumfånge aller Gruppen des Minuenden bildet das Gewicht der Gruppen des Subtrahenden, und die mit einem positiven Vorzeichen versehene Summe der Stichprobenumfånge aller Gruppen des Subtrahenden ist das Gewicht der Gruppen des Minuenden. Die an einem Einzelvergleich nicht beteiligten Gruppen erhalten wie çblich das Gewicht Null. Eine Anwendung dieser Regel findet man im folgenden Beispiel. BEISPIEL In einer Studie çber erlebte Einsamkeit (abhångige Variable) werden die folgenden vier Gruppen untersucht: a1 : a2 : a3 : a4 :
Deutsche in Deutschland
n1 300 Auslånder in Deutschland
n2 50 Franzosen in Frankreich
n3 270 Auslånder in Frankreich
n4 40
Es interessieren die Alternativhypothesen, dass ± man in Deutschland einsamer ist als in Frankreich
H0: 1 2 3 4 und dass ± Auslånder in Deutschland einsamer sind als Deutsche in Deutschland
H0: 1 2 . Wir setzen a 0;05.
270
Kapitel 7 ´ Einfaktorielle Versuchsplåne
Die varianzanalytischen Ergebnisse der Untersuchung mægen lauten: ^2Fehler 30; A1 8; A2 10; A3 9; A4 9 und damit r nach Gl. (7.31) QStreat 255, 3030 (mit G 8;6212 gemåû Gl. 1.13). Gewichtete Durchschnittsbildung. Wir çberprçfen die Einzelvergleichshypothesen zunåchst nach der hier angemessenen Variante 2 mit gewichteten Durchschnitten, weil die Stichprobenunterschiede populations- und nicht zufallsbedingt sind. Wir erhalten c11 c21 n3 n4 310 und c31 c41
n1 n2
D1 300 310 8 50 310 10
270
350 9 40
350 9 77500 :
Die Quadratsumme errechnen wir nach Gl. (7.58) QSD 1
775002 300 3102 50 3102 270
3502 40
3502
83;8745 :
Ungewichtete Durchschnittsbildung. Wçrde man fålschlicherweise die Einzelvergleichstests nach den Richtlinien fçr ungewichtete Durchschnitte vornehmen, ergåbe sich nach Gl. (7.41)
300;
c32 0;
D2 300 50 8 50
300 10
9 9=2 0
und damit auch QSD 1 0. Nach diesem Ergebnis mçsste man also interpretieren, dass sich Deutschland und Frankreich insgesamt in ihrem Einsamkeitsniveau nicht unterscheiden, was angesichts der Tatsache, dass die mehrheitlich befragten Inlånder in Deutschland weniger einsam sind als die Inlånder in Frankreich, wenig plausibel ist. Das Ergebnis ist nur darauf zurçckzufçhren, dass Inlånder und Auslånder trotz unterschiedlich groûer Populationen in beiden Låndern gleichgewichtet wurden. Der zweite Vergleich impliziert keine Zusammenfassung von Mittelwerten und kann deshalb mit beiden Varianten geprçft werden. Wir errechnen nach Gl. (7.41)
QSD 2
mit dfZ 1 und dfN 660 4 656. Die Ûberprçfung des zweiten Einzelvergleichs setzt sich aus folgenden Schritten zusammen: c22
QStreat QSD 1 QSD 2 QSD 3 83;8745 171;4286 0 255;3030 :
2
bzw. nach Gl. (7.54)
83;8745 2;80 30
c12 50;
Damit ist auch QSD 3 0, und es gilt:
D2 1 8
1 10 0 9 0 9
Fçr den F-Bruch erhålt man nach Gl. (7.51): F
D3 270 40 9 40
270 9 0 :
D1
8 10=2
350 :
Fçr D1 resultiert also nach Gl. (7.56):
7
Fçr einen vollståndigen Satz orthogonaler Einzelvergleiche wåre ein dritter Einzelvergleich erforderlich, der a3 und a4 kontrastiert. Wir erhalten:
c42 0 ; 30000 ;
300002 171;4286 ; QSD 2 2 300 50 50
3002 171;4286 5;71 : F 30 Wir prçfen die Kontrastbedingung nach Gl. (7.57) D1: 300 310 50 310 270
350 40
350 0 D2: 300 50 50
300 270 0 40 0 0 und die Orthogonalitåtsbedingung nach Gl. (7.59) 300 310 50 50 310
300 270
350 0 40
350 0 0 : Auf eine Interpretation der Testergebnisse wollen wir unter Verweis auf S. 271 ff. vorerst verzichten.
22 171;4286 : 1
12 300 50
Dieses Ergebnis stimmt mit dem bereits nach Gl. (7.58) ermittelten Ergebnis çberein. Allerdings ist der Vergleich D2 ± wie man çber Gl. (7.55) prçfen kann ± fçr die Version mit ungewichteten Mittelwerten nicht orthogonal zu D1 : 1 1 1
1 2 2 300 50
1 0 2 270
1 0 2 40
0;0083 :
Errechnet man unter Verwendung der Kontrastbedingung und der Orthogonalitåtsbedingung c-Koeffizienten fçr einen Vergleich D2 , der orthogonal zu D1 ist, erhålt man z. B. c12 1;
c22
1;
c32 0;78;
c42
0;78 :
Dieser Vergleich macht inhaltlich wenig Sinn, da er ± neben der Kontrastierung von A1 und A2 ± Anteile von A3 und A4 enthålt, deren Gewichte nur von der Unterschiedlichkeit der Stichprobenumfånge bestimmt sind. Die Konstruktion eines vollståndigen Satzes orthogonaler Einzelvergleiche mit ungewichteter Durchschnittsbildung ist deshalb zwar mæglich, aber inhaltlich wenig sinnvoll.
a7.3.3
7.3.3 a-Fehler-Korrektur
1
Wird in einer einfaktoriellen Varianzanalyse die H0: 1 2 i p zugunsten der H1: i 6 i0 mit a 0;05 verworfen, betrågt die Wahrscheinlichkeit einer irrtçmlichen Entscheidung 5%. Nachdem wir in den vergangenen Abschnitten Einzelvergleichstests kennengelernt haben, kænnte man auf die Idee kommen, die H0 der einfaktoriellen Varianzanalyse çber p 1 orthogonale Einzelvergleiche mit a 0; 05 zu prçfen. Im Folgenden soll gezeigt werden, dass diese Vorgehensweise nicht korrekt ist.
a-Fehler-Kumulierung. Wir wollen zunåchst annehmen, dass nur ein Einzelvergleichstest durchgefçhrt wird, fçr den natçrlich auch gilt, dass bei a 0; 05 die Wahrscheinlichkeit fçr die fålschliche Annahme von H1 5% betrågt. Die Wahrscheinlichkeit, dass die H0 korrekterweise beibehalten wird, betrågt also bei Gçltigkeit von H0 1 a 0;95. Werden zwei (orthogonale) Einzelvergleiche durchgefçhrt, erhålt man fçr das Ereignis, dass in beiden Tests die H0 korrekterweise beibehalten wird, die Wahrscheinlichkeit 0;95 0;95 0;952 (vgl. hierzu das Multiplikationstheorem fçr voneinander unabhångige Ereignisse auf S. 55 f.). Allgemein ergibt sich diese Wahrscheinlichkeit bei p 1 durchzufçhrenden Einzelvergleichen zu: p
1
ap
1
:
Nun fragen wir nach der Wahrscheinlichkeit, dass in mindestens einem der p 1 Tests die H0 fålschlicherweise verworfen wird. Dies ist offensichtlich die Komplementårwahrscheinlichkeit dazu, dass in allen Fållen die H0 korrekterweise beibehalten wird, d. h., wir erhalten p
k 1 1
1
7
271
-Fehler-Korrektur
ap
1
7:60
mit k Anzahl der Tests, in denen H0 verworfen wird. Da nun die globale H0 der Varianzanalyse bereits mit einem einzigen signifikanten Einzelvergleichstest zu verwerfen ist, wird sie nicht mit einer Wahrscheinlichkeit von a, sondern mit der nach Gl. (7.60) errechneten Wahrscheinlichkeit fålschlicherweise verworfen. Setzen wir a 0;05 und p 1 4, ist dies immerhin eine Irrtumswahrscheinlichkeit von
1
0;054 0;185 :
Das Risiko, die varianzanalytische H0 çber einen Einzelvergleichstest fålschlicherweise zu verwerfen, ist also gegençber dem nominellen, ursprçnglich ins Auge gefassten a-Niveau um nahezu das Vierfache erhæht. Dies ist ± vereinfacht gesprochen ± gewissermaûen das ¹Entgeltª dafçr, dass wir viermal die Gelegenheit hatten, ein und dieselbe H0 zu verwerfen.
Ûberprçfung einer Hypothese durch mehrere Tests. Wie auf S. 129 f. bereits angesprochen, treten a-Fehler-Kumulierungen dieser Art treten generell auf, wenn eine ¹globaleª Hypothese anhand mehrerer Signifikanztests çberprçft wird. Sie sind z. B. auch zu berçcksichtigen, wenn die globale Zusammenhangshypothese geprçft werden soll, dass zwischen dem Erziehungsstil der Eltern und dem Sozialverhalten der Kinder ein Zusammenhang besteht, wobei der Erziehungsstil z. B. durch 8 und das Sozialverhalten z. B. durch 5 Variablen operationalisiert wird, sodass letztlich 8 5 40 Korrelationen als Einzelhypothesen zu prçfen wåren (korrekterweise setzt man fçr diese Fragestellung die in Kap. 19 behandelte kanonische Korrelationsanalyse ein). Wann immer mit m ¹simultanen Testsª dieser Art operiert wird, ist die Wahrscheinlichkeit dafçr, dass die globale H0 durch mindestens einen der m simultanen Tests fålschlicherweise verworfen wird, nach folgender Beziehung zu ermitteln: p
k 1 1
1
am :
7:61
Soll eine globale Nullhypothese çber m verschiedene Einzeltests auf einem zuvor spezifizierten a-Niveau verworfen werden, muss mindestens ein Einzeltest die folgende Irrtumswahrscheinlichkeit a0 erreichen oder unterschreiten: a0 1
1
a1=m :
7:62
Fçr m p 1 4 orthogonale Einzelvergleiche und a 0;05 ergibt sich also a0 1
1
0;051=4 0;0127 :
Erreicht (oder unterschreitet) mindestens ein Test diese Irrtumswahrscheinlichkeit, kann die globale H0 mit a 0;05 verworfen werden. Dies wird deutlich, wenn wir den a0 -Wert fçr a in Gl. (7.61) einsetzen:
272
Kapitel 7 ´ Einfaktorielle Versuchsplåne
p
k 1 1
7
1
0;01274 0;05 :
Die Wahrscheinlichkeit, dass mindestens eine Nullhypothese (und damit die globale H0 ) fålschlicherweise verworfen wird, betrågt also unter Verwendung von a0 0;0127 genau 5%. Die nach Gl. (7.61) errechnete Wahrscheinlichkeit p
k 1 bezeichnet man auch als die ¹experiment wiseª oder ¹family wise error rateª im Unterschied zu der auf einen Einzelvergleichstest bezogenen ¹test wise error rateª, die bei m simultanen Tests den Wert a0 unterschreiten muss. Fçr die obigen 40 Korrelationen wçrde bei einer ¹test wise error rateª von a 0;05 eine ¹experiment wise error rateª von 0,8715 resultieren! Um die ¹experiment wise error rateª auf 0,05 zu reduzieren, mçsste man gemåû Gl. (7.62) fçr jeden Einzeltest einen ¹test wise error rateª von a0 0;00128 ansetzen.
Bonferoni-Korrektur. Der nach Gl. (7.62) ermittelte a0 -Wert låsst sich mit wachsendem m durch eine sehr viel einfachere Gleichung approximieren, die in der Literatur als Bonferoni-Korrektur bekannt ist (vgl. hierzu auch S. 129): a0 a=m :
7:63 Nach dieser Gleichung erhålt man fçr m 40 den Wert a0 0;00125, der mit dem nach Gl. (7.62) errechneten Wert recht gut çbereinstimmt. Fçr m 4 orthogonale Einzelvergleiche ergibt sich mit a0 0;0125 ein Wert, der etwas kleiner ist als der nach Gl. (7.62) errechnete Wert von 0,0127. Man sollte allerdings beachten, dass die a-Fehlerkorrektur nach Gl. (7.62) oder auch nach Bonferoni der Tendenz nach eher konservativ ausfållt. In diesem Sinn verbesserte Bonferoni-Korrekturen findet man bei Holland u. Copenhaver (1988), Hsu (1996), Krauth (1993, Kap. 1.7), Rasmussen (1993), Shaffer (1986) oder Wright (1993). Eine sequentielle ¹Bonferoni-Korrekturª schlågt Holm (1979) vor: Der græûte Kennwert (Einzelvergleich, Korrelation o. å.) wird çber Gl. (7.63) bewertet. Ist er signifikant, wird der nåchst græûte Kennwert auf einem Signifikanzniveau von a=
m 1 getestet. Fçhrt auch dieser Test zu einem signifikanten Resultat, wåhlt man a=
m 2 als Signifikanzniveau fçr den drittgræûten Kennwert usw. Die Prozedur endet, wenn nach k signifikanten Kennwerten der Kennwert auf dem
Rangplatz k 1 auf einem Signifikanzniveau von a=
m k nicht mehr signifikant ist (vgl. auch hierzu S. 129).
Abhångige Tests. Zu beachten ist ferner, dass die hier behandelte a-Fehler-Adjustierung davon ausgeht, dass die m Tests voneinander unabhångig sind. Diese Voraussetzung ist jedoch verletzt, wenn die Orthogonalitåtsbedingung fçr mehrere Einzelvergleiche nicht erfçllt ist oder wenn die obigen Erziehungsstilvariablen untereinander korreliert sind. Wie sich die Abhångigkeit der Tests (bzw. der Testergebnisse) auf die a-Fehler-Adjustierung auswirkt, låsst sich leicht am Extrem einer perfekten Abhångigkeit verdeutlichen: In diesem Fall gençgt ein einziger Test zur Entscheidung çber die globale H0 , weil alle çbrigen Tests zum gleichen Ergebnis fçhren wçrden. Eine a-Fehler-Korrektur wåre also nicht erforderlich. Hieraus ist zu folgern, dass mit wachsender Abhångigkeit der Tests die a-Fehler-Korrektur konservativer ausfållt. Man ist also immer auf der ¹sicheren Seiteª, wenn man auch bei abhångigen Tests die hier vorgeschlagene a-Fehler-Adjustierung fçr unabhångige Tests einsetzt (vgl. hierzu auch Cross u. Chaffin, 1982, oder Thompson, 1990 a). Hinweise: Die nach Gl. (7.62) resultierenden a0 -Werte wurden von Jacobs (1976) fçr unterschiedliches m und a tabelliert. Ûber die Notwendigkeit einer b-Fehler-Adjustierung bei der Ûberprçfung spezifischer Hypothesen mit vorgegebener Effektgræûe berichten Hager u. Westermann (1983 a) bzw. Keselman et al. (1980 a). Weitere Methoden und Hinweise zur a-Fehler-Adjustierung findet man bei Bortz et al. (2000, Kap. 2.2.11).
7.3.4 Einzelvergleiche a priori oder a posteriori? Man kann wiederholt beobachten, dass es Politikern nach einer Wahl keine Mçhe bereitet, die erzielten Wahlergebnisse im Nachhinein wortreich zu erklåren. Derartige Ex-post-Erklårungen klingen meistens sehr plausibel und geraten deshalb leicht in die Gefahr, mit einer gelungenen Hypothesenprçfung verwechselt zu werden. Sie haben jedoch nur den Status einer Hypothese und soll-
a7.3.4
Einzelvergleiche a priori oder a posteriori?
ten nicht mit einer wissenschaftlichen Hypothesenprçfung gleichgesetzt werden, die voraussetzt, dass die Hypothese vor dem Bekanntwerden der Ergebnisse aufgestellt wurde. Fçr Verwechslungen dieser Art gibt es nicht nur im politischen oder alltåglichen Leben, sondern auch in der empirischen Forschung zahlreiche Belege. Bezogen auf die hier anstehende Einzelvergleichsproblematik sind es zwei vællig verschiedene Dinge, ob man vor der Durchfçhrung einer Untersuchung begrçndet behauptet, von p Mittelwerten wçrden sich genau die beiden ersten bedeutsam unterscheiden, oder ob man nach Abschluss der Untersuchung feststellt, dass unter allen mæglichen Paaren von Mittelwerten gerade zwischen den beiden ersten Mittelwerten ein bedeutsamer Unterschied besteht, den man zudem auch noch ex post erklåren kann. Der Erkenntnisgewinn, der mit der Beståtigung einer a priori, d. h. vor der Untersuchungsdurchfçhrung aufgestellten Hypothese erzielt wird, ist ungleich hæher einzuschåtzen als der Informationswert eines Ergebnisses, das sich ohne vorherige Erwartungen a posteriori oder im Nachhinein plausibel machen låsst. Geradezu verwerflich bzw. dem wissenschaftlichen Fortschritt wenig dienlich wåre es, wenn man ein a posteriori gefundenes Ergebnis nachtråglich zu einer scheinbar a priori formulierten Hypothese machen wçrde, denn die Beståtigung solcher Hypothesen wçrde dann letztlich zur Trivialitåt. Die Begrçndung und Ûberprçfung einer Hypothese mit ein und demselben Datensatz ist wissenschaftlich nicht haltbar.
Wie ist nun nach diesen Vorbemerkungen mit Einzelvergleichen im Kontext einer Varianzanalyse bzw. mit deren a-Fehler-Korrektur umzugehen? Hier wird die Auffassung vertreten, dass a priori formulierte Einzelvergleichshypothesen, die theoretisch gut begrçndet sind, oder die aufgrund von Vorversuchen aufgestellt werden konnten, keine aFehler-Korrektur erforderlich machen (vgl. hierzu auch Saville, 1990). In der Regel sind es nur eine oder zwei Einzelvergleichshypothesen, die man im Rahmen einer einfaktoriellen varianzanalytischen Untersuchung den Status einer ¹echtenª A-prioriHypothese zubilligen kann, und die deshalb ± je-
273
de fçr sich ± mit dem unkorrigierten, nominellen a-Niveau getestet werden kænnen. Typischerweise sind A-priori-Hypothesen gerichtet, sodass statt des F-Tests nach Gl. (7.44) oder (7.51) ein einseitiger t-Test nach Gl. (7.45) gerechtfertigt ist. Der t-Wert låsst sich einfach als Wurzel des F-Wertes ermitteln (s. Gl. 2.60). A-posteriori-Einzelvergleiche hingegen kænnen jederzeit durchgefçhrt werden, wenn man nach einer ¹Overallª-Signifikanz feststellen mæchte, welche Einzelvergleiche maûgeblich dafçr verantwortlich sind, dass die globale H0 der Varianzanalyse zu verwerfen ist. In diesem Fall muss der a-Fehler gemåû Gl. (7.62) oder Gl. (7.63) korrigiert werden. Wenn ein Einzelvergleich mit dem korrigierten a0 -Niveau signifikant wird, so ist dies zwar ein wichtiger Hinweis fçr die Interpretation der Overall-Signifikanz, aber noch keine Beståtigung der entsprechenden Einzelvergleichshypothese. Diese kann nur in einer neuen Untersuchung erbracht werden, der diese Einzelvergleichshypothese als A-priori-Hypothese vorangestellt wird. Die hier vorgeschlagene Vorgehensweise fçr A-posteriori-Vergleiche ist einer gewissen Willkçr ausgesetzt, die darin bestehen kænnte, dass man nur eine bestimmte Teilmenge aller mæglichen Vergleiche ± z. B. nur Paarvergleiche von Mittelwerten ± ex post betrachtet, was zur Folge håtte, dass çber m, die Anzahl der ¹betrachtetenª Einzelvergleiche, a0 ¹manipulierbarª wåre. Es wird deshalb empfohlen, A-posteriori-Einzelvergleiche mit dem im Folgenden behandelten Scheff-Test durchzufçhren, der ex post alle mæglichen Einzelvergleichshypothesen ¹family wiseª auf einem vorgegebenen a-Niveau prçft. Zuvor jedoch soll noch çber die beiden auf S. 269 f. durchgefçhrten Einzelvergleichstests entschieden werden. Wenn wir davon ausgehen, dass beide Hypothesen a priori formuliert wurden, wåre fçr beide Tests das unkorrigierte a-Niveau von 0,05 einzusetzen. Da beide Hypothesen gerichtet formuliert wurden, transformieren wir die fçr einseitige Tests ungeeigneten F-Werte gemåû Gl. (2.60) in t-Werte und erhalten p fçr D1 : t 2;80 1;67 und p fçr D2 : t 5;71 2;39. Da das Vorzeichen der Einzelvergleiche nur fçr D2 hypothesenkonform ist, kann wegen t
656;0;95 1;645 nur die H0 des zweiten Einzelvergleichs
7
274
Kapitel 7 ´ Einfaktorielle Versuchsplåne
verworfen werden: Auslånder in Deutschland sind einsamer als Deutsche in Deutschland. Als A-posteriori-Einzelvergleiche wåre eine Entscheidung vom Resultat des im Folgenden behandelten Scheff-Tests abhångig zu machen.
7.3.5 Scheff-Test
7
Fçr die Durchfçhrung von A-posteriori-Vergleichen wurden mehrere Verfahren entwickelt (z. B. Verfahren von Newman-Keuls, Tukey, Duncan und Scheff). Vergleiche dieser Verfahren findet man bei Hopkins u. Chadbourn (1967), Hsu (1996), Keselman u. Rogan (1977), Keselman et al. (1979), Ramsey (1981, 2002) sowie Ryan (1980). Wir behandeln im Folgenden den Scheff-Test, der sich gegençber Verletzungen von Voraussetzungen als relativ robust erwiesen hat und der zudem tendenziell eher konservativ (d. h. zu Gunsten der H0 ) entscheidet. Eine kurze Beschreibung des theoretischen Hintergrundes des Verfahrens findet man bei Boik (1979 a) bzw. ausfçhrlicher bei Scheff (1953, 1963, S. 68 ff.).
Theoretischer Hintergrund. Der Scheff-Test garantiert, dass die Wahrscheinlichkeit eines a-Fehlers fçr jeden beliebigen, a posteriori durchgefçhrten Einzelvergleichstest nicht græûer ist als das Signifikanzniveau a fçr den Overall-Test der Varianzanalyse. Ein Einzelvergleich ist auf dem fçr die Varianzanalyse spezifizierten a-Niveau signifikant, wenn der empirische F-Wert des Einzelvergleichs gemåû Gl. (7.51) mindestens so groû ist wie der nach folgender Gleichung ermittelte kritische Wert S: S
p
1 F
p
1;N p;1 a
:
7:64
Hierbei ist F
p 1;N p;1 a der kritische F-Wert fçr den F-Test der Varianzanalyse. Die Bedeutung dieser Gleichung sei an einem Beispiel veranschaulicht. Angenommen, eine Varianzanalyse mit p 4 und n 20 hat zu folgenden Ergebnissen gefçhrt: A1 9, A2 9, A3 9, A4 13, G 10 und damit QStreat 20
12 12 12 32 240. Zu vergleichen sei der Durchschnitt der ersten drei Mittelwerte mit dem vierten Mittelwert, d. h., wir erhalten D
1 9
1 9
1 9 3 13 12 : Als Quadratsumme des Einzelvergleichs ermittelt man nach Gl. (7.49):
QSD
20 122 240 :
12
12
12 32
Wir stellen fest, dass die Quadratsumme des Einzelvergleichs
QSD mit der Treatment-Quadratsumme
QStreat çbereinstimmt. Da sich die QStreat additiv aus p 1 orthogonalen Einzelvergleichsquadratsummen zusammensetzt, stellt die gefundene QSD die græût mægliche Einzelvergleichsquadratsumme dar. Allgemein ergibt sich die maximale Einzelvergleichsquadratsumme
QSD max fçr einen Einzelvergleich, der wie folgt definiert ist: Dmax ^s1 A1 ^s2 A2 ^sp Ap mit ^si Ai
G
und
X
7:65
^si 0 :
i
Die c-Koeffizienten werden hier also durch die geschåtzten Effektparameter si ersetzt (lies: tau), die sich als Differenzen zwischen den einzelnen Mittelwerten und G ergeben (vgl. 12.1). Dementsprechend wurde das Beispiel konstruiert: c1 ^s1 9 c2 ^s2 9 c3 ^s3 9 c4 ^s4 13
10
1
10
1
10
1
10 3 :
Damit verbindet sich nun ein Problem: Da jede Einzelvergleichsquadratsumme ± und damit auch QSD max ± nur einen Freiheitsgrad, die QStreat jedoch p 1 Freiheitsgrade hat, ist der F-Test fçr ^2D max gemåû Gl. (7.51) genau um den Faktor r ^2treat gemåû p 1 græûer als der F-Test fçr r Gl. (7.22). Damit beide Tests zum gleichen Ergebnis kommen (was wegen QSD max QStreat erforderlich ist), muss der empirische F-Wert fçr ^2D max mit dem nach Gl. (7.64) kritischen Schranr kenwert S
p 1 F
p 1;N p;1 a verglichen werden, denn nur unter dieser Voraussetzung kommen der Overall-F-Test der Varianzanalyse und der Einzelvergleichstest fçr Dmax zu identischen Resultaten: Wenn die H0 im Overall-Test mit einer Irrtumswahrscheinlichkeit von a verworfen wird, ist auch die Nullhypothese des Einzelvergleichs Dmax mit a zu verwerfen. Da nun keine Einzelvergleichsquadratsumme græûer sein kann als QSD max , ist sichergestellt,
275
a7.3.5 Scheff-Test dass kein Einzelvergleich mit einer Irrtumswahrscheinlichkeit signifikant werden kann, die græûer als a ist. Mit dem Scheff-Test wird der gesamte, mit allen mæglichen Einzelvergleichen verbundene Hypothesenkomplex auf dem a-Niveau der Varianzanalyse abgesichert.
Paarvergleiche von Mittelwerten. Håufig begnçgt man sich bei der Interpretation einer Overall-Signifikanz mit der Ûberprçfung der Differenzen fçr alle Mittelwertpaare, die man einfachheitshalber wie folgt vornimmt. Wir læsen Gl. (7.44) nach D auf und erhalten: v u P 2 2 u ^ r c F i Fehler t i D :
7:66 n Fçr den Vergleich von Ai mit Aj lauten die Gewichte ci 1 und cj 1; die restlichen c-Koeffizienten werden Null gesetzt. Ersetzt man ferner F durch S gemåû Gl. (7.64), also den kritischen Wert, der fçr die Ablehnung von H0 vom F-Wert des Einzelvergleichs P 2 çberschritten werden muss, resultiert mit ci 2:
Tabelle 7.5. Mittelwertdifferenzen A1 A1 A2 A3 A4
A2 1
A3 5 4
A4 2 1 3
den Wert F
3;16;0;99 5;29. Nach Gl. (7.67) ergibt sich die folgende kritische Differenz: r 2
4 1 1;88 5;29 Diff crit 3;45 : 5 Vergleichen wir diese kritische Differenz mit den Absolutbetrågen der empirischen Differenzen in Tabelle 7.5, stellen wir fest, dass sich Methode 3 auf dem 1%-Niveau signifikant von den Methoden 1 und 2 unterscheidet. Erhæhen wir die Irrtumswahrscheinlichkeit auf 5% F
3;16;0;95 3;24, resultiert folgende kritische Differenz: r 2
4 1 1;88 3;24 Diff crit 2;70 : 5 Auf dem a 5%-Niveau unterscheiden sich somit zusåtzlich Methode 3 und Methode 4 signifikant. Die çbrigen Mittelwertunterschiede sind statistisch nicht bedeutsam.
i
Diff crit
s ^2Fehler F
p 1;N p;1 a 2
p 1 r : n
7:67 F
p 1;N p;1 a ist wiederum der kritische F-Wert, den wir Tabelle E entnehmen. Empirische Differenzen Ai Aj mit einem Absolutbetrag, der græûer ist als die kritische Differenz Diffcrit , sind auf dem a%-Niveau signifikant. BEISPIEL Wir wollen diesen Test am Beispiel der 4 Lehrmethoden verdeutlichen, das zu Beginn des Kap. 7 (S. 248 ff.) behandelt wurde. Die Mittelwerte dieses Beispiels lauten: A1 2;
A2 3;
A3 7;
A4 4 :
Fçr diese Mittelwerte ergeben sich die in Tabelle 7.5 genannten Differenzen. In der 1. Zeile der Tabelle sind die Werte A1 A2 , A1 A3 und A1 A4 wiedergegeben. Die çbrigen Werte resultieren analog. In diesem Beispiel setzen wir n 5, p 4 und ^2Fehler 1;88. Tabelle E entnehmen wir fçr das 1%-Niveau r bei 3 Zåhlerfreiheitsgraden und 16 Nennerfreiheitsgraden
Ungleich groûe Stichproben. Sollen 2 Mittelwerte Ai und Aj miteinander verglichen werden und sind die Stichprobenumfånge nicht gleich, erhalten wir fçr diesen Vergleich die folgende kritische Differenz: s 1 1 Diff crit
p 1 ni nj q ^2Fehler F
p 1;N p;1 a :
7:68 r Der hier einzusetzende F-Wert hat wieder
p 1 Zåhlerfreiheitsgrade
dftreat und N p Nennerfreiheitsgrade, die den Freiheitsgraden der Fehlervarianz im Fall ungleich groûer Stichproben entsprechen. Ist ni nj , vereinfacht sich Gl. (7.68) zu Gl. (7.67).
Hinweis: Es kann vorkommen, dass trotz einer Gesamtsignifikanz in der einfaktoriellen Varianzanalyse kein Paarvergleich nach dem Scheff-Test signifikant wird. Der Grund hierfçr ist darin zu sehen, dass das mathematische Rationale, das dem Scheff-Test zugrunde liegt, nicht nur von allen
7
276
Kapitel 7 ´ Einfaktorielle Versuchsplåne
mæglichen Paarvergleichen, sondern von allen Einzelvergleichen çberhaupt (also auch von Vergleichen, die sich auf Kombinationen von Mittelwerten beziehen) ausgeht. Liegt eine Gesamtsignifikanz vor, muss mindestens einer der mæglichen Einzelvergleiche, der jedoch kein Paarvergleich zu sein braucht, signifikant sein (vgl. hierzu auch Swaminathan u. De Friesse, 1979). Im Zweifelsfall ist dies der nach Gl. (7.65) definierte Dmax -Einzelvergleich.
7
Vergleich beliebiger Mittelwertkombinationen. Nach Gl. (7.41) kænnen alle Einzelvergleiche konstruiert werden, die auf Grund der jeweiligen Fragestellung interessant erscheinen. Es ist darauf zu achten, dass die Bedingung der Gl. (7.42) fçr Einzelvergleiche erfçllt ist. (Diese Einzelvergleiche mçssen keineswegs orthogonal sein.) Man beachte ferner, dass der Scheff-Test bei der Zusammenfassung von Mittelwerten aus ungleich groûen Stichproben vom ungewichteten Mittel gemåû Gl. (7.41) ausgeht. Unter Verwendung der jeweiligen c-Koeffizienten wird fçr jeden Einzelvergleich die folgende kritische Differenz berechnet: s X c2 i Diff crit
p 1 ni i q ^2Fehler F
p 1;N p;1 a :
7:69 r Ist der Absolutwert des nach Gl. (7.41) ermittelten D-Wertes græûer als Diffcrit , dann ist der entsprechende Einzelvergleich signifikant. BEISPIEL Es soll die Wirkung eines neuen Pråparates zur Behandlung von Depressionen geprçft werden
a 0;01. 7 Patienten erhalten ein Plazebo (= chemisch wirkungslose Substanz), 6 Patienten eine einfache Dosis und 9 Patienten eine doppelte Dosis des Medikaments. Die 22 Patienten wurden aufgrund von Vortests als annåhernd gleich depressiv eingestuft. Abhångige Variable sind die Ergebnisse einer Fragebogenerhebung, die 6 Wochen nach der Behandlung der Patienten durchgefçhrt wurde. Tabelle 7.6 zeigt die Daten, die Ergebnisse der Varianzanalyse und den Scheff-Test, der zu Demonstrationszwecken çber alle mæglichen Einzelvergleiche durchgefçhrt wird. In Tabelle 7.6 kennzeichnet Spalte 1 alle mæglichen Einzelvergleiche. Gemåû Gl. (7.42) muss die Summe der c-Koeffizienten in den Spalten 2, 3 und 4 zeilenweise (fçr jeden Vergleich) Null ergeben. Setzen wir die Mittelwerte und die c-Koeffizienten in Gl. (7.41) ein, ergeben sich die Werte der Spalte 5. Spalte 6 enthålt den fçr Gl. (7.69) benætigten Aus-
druck
P i
c2i =ni . Diffcrit erhalten wir, indem die Werte in
Spalte 6 mit
p 1 ^ r2Fehler F
p 1;N p;1 a multipliziert werden und aus dem Produkt die Wurzel gezogen wird. ^2Fehler 3; 28 und In unserem Beispiel sind:
p 1 2, r F
2;19;0;99 5;93. Der fçr Spalte 7 benætigte Faktor lautet somit: 2 3;28 5;93 38;90. Wir multiplizieren die Werte in Spalte 6 mit 38,90, ziehen die Wurzel und erhalten die Werte in Spalte 7. Diejenigen D-Werte (Spalte 5), deren Absolutbetrag græûer als Diffcrit (Spalte 7) ist, sind auf dem 1%-Niveau signifikant.
7.4 Trendtests Eine spezielle Form von Einzelvergleichen stellen Trendtests dar. Durch Trendtests wird die Treatmentquadratsumme in Anteile zerlegt, die auf verschiedene Trends (linear, quadratisch, kubisch usw.) in den Mittelwerten der abhångigen Variablen zurçckzufçhren sind. Die Durchfçhrung von Trendtests setzt voraus, dass nicht nur die abhångige Variable, sondern auch die unabhångige Variable kardinalskaliert ist.
Bei dem zunåchst zu besprechenden trendanalytischen Ansatz mçssen zusåtzlich die einzelnen Treatmentstufen auf einer Kardinalskala åquidistant gestuft und die zu vergleichenden Stichproben gleichgroû sein. Anschlieûend werden wir einen Ansatz darstellen, der die einschrånkenden Bedingungen åquidistanter Abstånde und gleichgroûer Stichproben nicht erfçllen muss. Das letzte hier behandelte Verfahren betrifft die Ûberprçfung eines monotonen Trends.
7.4.1 Øquidistante Stufen Die Trendanalyse sei an einem Beispiel erlåutert. Es soll çberprçft werden, wie sich verschiedene Lårmstårken auf die Arbeitsleistung auswirken. Jeweils 5 Personen arbeiten unter 6 verschiedenen Lårmbedingungen, von denen wir annehmen wollen, dass sie auf der subjektiven Lautheitsskala åquidistant gestuft sind. Wir kænnen deshalb vereinfachend die 6 Lårmstufen mit den Ziffern 1 bis 6 bezeichnen. Die Varianzanalyse çber die Arbeitsleistungen mæge zu den in Tabelle 7.7 dargestellten Ergebnissen gefçhrt haben.
277
a7.4.1 Øquidistante Stufen Tabelle 7.6. Beispiel fçr einen vollståndigen Scheff-Test Daten:
Behandlungsart Plazebo 18 22 25 19 22 19 21
Ai : Ai : ni :
1 1 2 1 2 3
vs. vs. vs. vs. vs. vs.
19 16 16 15 17 16
146 20,86 7
Scheff-Test (1) Vergleich
Einfache Dosis
Doppelte Dosis 16 13 12 12 14 16 13 13 14
99 16,50 6
123 13,67 9
QS
df
^2 r
F
Behandlungsart Fehler
204,00 62,36
2 19
102,00 3,28
31,10
Total
266,36
21
G 368 G 16;73 N 22
(2) c1
(3) c2
(4) c3
1 1 0 2 1 1
1 0 1 1 2 1
0 1 1 1 1 2
2 3 3 2+3 1+3 1+2
Varianzanalyse Q.d.V
Tabelle 7.7. Ergebnis der Varianzanalyse, an die Trendtests angeschlossen werden sollen df
^2 r
F
Lårmstårken 27,5 Fehler 31,2
5 24
5,5 1,3
4,23
Total
29
Q.d.V.
QS
58,7
Auf die Wiedergabe der ursprçnglichen Messwerte kænnen wir in diesem Beispiel verzichten. Die 6 Mittelwerte lauten: A1 3;6;
A2 3;8;
A3 5;8;
A4 4;0;
A5 3;6;
A6 2;6 :
Fçr G ergibt sich der Wert 3,9. Wie die Varianzanalyse zeigt, unterscheiden sich die Mittelwerte auf dem 1%-Signifikanz-
(5) D 4,36 7,19 2,83 11,55 1;53 10;02
(6) P i
c2i =ni
0,31 0,25 0,28 0,85 0,92 0,75
(7) Diffcrit 3,47 3,12 3,30 5,75 5,98 5,40
niveau. Es wird vermutet, dass sich die Arbeitsleistungen nicht proportional (linear) zur Lårmstårke veråndern, sondern dass sich ein mittlerer Lårmpegel am gçnstigsten auf die Arbeitsleistungen auswirkt. Wir werden im Folgenden anhand dieses Beispiels zeigen, wie eine QStreat in einzelne Trendkomponenten aufgeteilt wird.
Lineare Komponente. Um denjenigen Anteil der QStreat zu ermitteln, der auf einen linearen Trend der Mittelwerte zurçckzufçhren ist, benætigen wir gemåû Gl. (7.49) fçr einen Einzelvergleich bzw. eine Trendkomponente c-Koeffizienten, die bei p 6 einen linearen Trend kennzeichnen. Diese Werte sind in Tabelle I des Anhangs enthalten. (Auf die Berechnungsvorschriften fçr die Koeffizienten, die als orthogonale Polynome bezeichnet werden, wollen wir nicht weiter eingehen. Nåheres hierzu findet sich bei Anderson u. Houseman, 1942, Fisher u.
7
278
Kapitel 7 ´ Einfaktorielle Versuchsplåne
Yates, 1957, Mintz, 1970 bzw. Bortz et al., 2000, S. 606 ff. Ein Computer-Programm zur Berechnung orthogonaler Polynome auch fçr ungleich groûe Stichproben und/oder nicht åquidistante Treatmentstufen wurde von Berry, 1993 entwickelt.) Fçr eine lineare Komponente und p 6 lauten diese Koeffizienten: 5
3
1
Da die Bedingung
7
P i
1
3
5:
ci 0 erfçllt ist, definieren
diese Koeffizienten gemåû Gl. (7.42) einen Einzelvergleich, der nach Gl. (7.51) auf Signifikanz getestet werden kann. Wir ermitteln: 2 P n ci Ai i P ^2lin QSlin r c2i i
5
5 3;6
3 3;8
1 5;8
52
32
12 12 32 52 1 4;0 3 3;6 5 2;62
52
32
12 12 32 52 273;80 3;91 : 70 Der Signifikanztest dieser Trendkomponente fçhrt nach Gl. (7.51) zu 3;91 F 3;01 : 1;3 Der kritische F-Wert lautet: F
1;24;95% 4;26, d. h., die lineare Komponente ist nicht signifikant. Die Nullhypothese, nach der die Mittelwerte keinem linearen Trend folgen, kann deshalb nicht verworfen werden. Weil die unabhångige Variable Intervallskalenqualitåt hat, kann nach Gl. (6.60) zwischen den Merkmalen Lårmstårke und Arbeitsleistung eine Produkt-Moment-Korrelation berechnet werden. Die hierfçr benætigten Wertepaare ergeben sich, wenn wir bei jeder Person fçr y die Arbeitsleistung (die hier nicht im einzelnen wiedergegeben ist) und fçr x den Lårmpegel (d. h. je nach Gruppenzugehærigkeit die Werte 1 bis 6) einsetzen. Nach dieser Vorgehensweise ermitteln wir eine Korrelation von r 0;26. Ausgehend von den varianzanalytischen Ergebnissen kann diese Korrelation einfacher nach folgender Beziehung berechnet werden:
rlin
r QSlin : QStot
7:70
In unserem Beispiel erhalten wir auch nach dieser Gleichung r 3;91 0;26 : r 58;7 Das Vorzeichen der Korrelation entnehmen wir der Steigung der Regressionsgeraden, die in diesem Fall negativ ist (vgl. Abb. 7.1 S. 282). Diese Korrelation beståtigt gemåû Tabelle D des Anhangs den nicht signifikanten F-Wert. Wir çberprçfen deshalb im nåchsten Schritt, ob die verbleibende, auf nichtlineare Zusammenhånge zurçckgehende Quadratsumme signifikant ist. Es resultiert allgemein QSnonlin QStreat
QSlin
7:71
bzw. im Beispiel: QSnonlin 27;5
3;91 23;59 :
Die lineare Komponente ist mit einem Freiheitsgrad versehen, sodass die QSnonlin
dftreat dflin ^2nonlin ermit 5 1 4 Freiheitsgrade hat. Fçr r teln wir somit: ^2nonlin r
23;59 5;90 : 4
Die Varianz çberprçfen wir wieder an der Fehlervarianz auf Signifikanz. Wir erhalten: F
5;90 4;54 : 1;3
Der kritische Wert lautet F
4;24;99% 4;22, d. h., der auf nonlineare Trends zurçckzufçhrende Varianzanteil ist auf dem 1%-Niveau signifikant. Es lohnt sich also, den Varianzanteil, der auf nichtlineare Trendkomponenten zurçckzufçhren ist, genauer zu untersuchen.
Quadratische Komponente. Wir çberprçfen als nåchstes den Varianzanteil, der auf der quadratischen Komponente beruht. Tabelle I entnehmen wir die c-Koeffizienten fçr die quadratische Komponente und p 6. Sie lauten: 5
1
4
4
1
5:
279
a7.4.1 Øquidistante Stufen Auch diese Koeffizienten erfçllen die Bedingung von Gl. (7.42), nach der gefordert wird, dass ihre Summe Null ergeben muss. Vergleichen wir die Koeffizienten fçr den linearen Trend mit denen des quadratischen Trends, zeigt sich ferner, dass die lineare Komponente und die quadratische Komponente orthogonal sind. Die Summe der Produkte korrespondierender Koeffizienten ergibt nach Gl. (7.46) ebenfalls Null: 5 5
3
1
1
4 1
4 3
1 5 5 0 : Setzen wir die quadratischen Trendkoeffizienten zusammen mit den Mittelwerten in Gl. (7.49) ein, erhalten wir als quadratische Komponente: QS
quad 5 5 3;6
1 3;8
4 5;8 2 5
12
42
42
12 52
4 4;0
1 3;6 5 2;62 52
12
42
42
12 52 1216;8 14;49 : 84 Auch diese Komponente hat einen Freiheitsgrad, ^2quad . Die Ûberprçfung der Komsodass QSquad r ponente nach Gl. (7.51) ergibt: 14;49 11;15 : F 1;3
Dieser Wert ist sehr signifikant
F
1;24;99% 7;82, d. h., die Mittelwerte folgen in çberzufålliger Weise einem quadratischen Trend. Eine Veranschaulichung dieses quadratischen Trends zeigt Abb. 7.1 (S. 282). Die Hypothese, dass sich ein mittlerer Lårmpegel am gçnstigsten auf die Arbeitsleistungen auswirkt, wird durch einen signifikanten quadratischen Trend beståtigt. Wieder kænnen wir çberprçfen, wie groû die Korrelation zwischen den Lårmstårken und der Arbeitsleistung ist, wenn der quadratische Zusammenhang berçcksichtigt wird. Sie lautet: s QSlin QSquad rquad :
7:72 QStot (Der Grund, warum hier die QSlin mit eingeht, ist darin zu sehen, dass in der quadratischen Regressionsgleichung auch eine lineare Komponente enthalten ist: ^ym a b1 xm b2 x2m .)
Fçr die quadratische Korrelation ergibt sich: r 3;91 14;49 rquad 0;56 : 58;7 Den verbleibenden Varianzanteil der QStreat ermitteln wir, indem von der QStreat die QSlin und die QSquad abgezogen werden. Diese Vorgehensweise ist mæglich, da ± wie wir gesehen haben ± die Trendkomponenten wechselseitig voneinander unabhångig bzw. orthogonal sind. Als Restquadratsumme erhalten wir QStreat
QSlin
QSquad 27;5
3;91
14;49
9;10 : Da jede Trendkomponente mit einem Freiheitsgrad versehen ist, hat die verbleibende Quadratsumme dftreat dflin dfquad 5 1 1 3 df. Die entsprechende Restvarianz lautet somit: ^2Rest r
9;10 3;03 : 3
Relativieren wir diese Varianz an der Fehlervarianz, erhalten wir einen F-Wert, der nicht mehr signifikant ist: F
3;03 2;33 : 1;3
Kubische Komponente. Der Vollståndigkeit halber soll auch noch die kubische Trendkomponente çberprçft werden. Tabelle I entnehmen wir die hierfçr benætigten, kubischen Trendkoeffizienten fçr p 6: 5
7
4
4
7
5:
Auch diese Koeffizienten addieren sich zu Null. Ferner sehen wir, dass die Summe der Produkte korrespondierender Koeffizienten sowohl im Vergleich zu den linearen Trendkoeffizienten als auch zu den quadratischen Trendkoeffizienten Null ergibt. Die kubische Trendkomponente ist somit sowohl zu der linearen als auch zu der quadratischen Trendkomponente orthogonal. Wir setzen die kubischen Trendkoeffizienten zusammen mit den Mittelwerten in Gl. (7.49) ein und erhalten die kubische Trendkomponente
7
280
Kapitel 7 ´ Einfaktorielle Versuchsplåne
QScub
5
5 3;6 7 3;8 4 5;8
52 72 42
42
72 52
4 4;0
7 3;6 5 2;62
52 72 42
42
72 52 5 3;62 0;36 : 180
7
Da auch diese Komponente nur einen Freiheits^2cub . Die auf den kubischen grad hat, ist QScub r Trend zurçckgehende Varianz ist kleiner als die Fehlervarianz und damit statistisch nicht bedeutsam. Die Korrelation, die auf den kubischen Trend zurçckzufçhren ist, ermitteln wir nach s QSlin QSquad QScub rcub
7:73 QStot zu rcub
r 3;91 14;49 0;36 0;57 : 58;7
Trends hæherer Ordnung. Da eine Treatment-Quadratsumme p 1 df hat, kænnen maximal p 1 orthogonale Trendkomponenten bestimmt werden. Ist p 2, existiert nur ein linearer Trend (2 Punkte legen eine Gerade fest). Fçr p 3 ist ein quadratischer (oder parabolischer) und p 4 ein kubischer Trend festgelegt. Allgemein sind bei p Treatmentstufen die Positionen aller p Punkte (Treatmentstufenmittelwerte) durch ein Polynom
p 1-ter Ordnung exakt erfasst. Ist p beispielsweise 3, kænnen nur der lineare und quadratische Trend berechnet werden. Es empfiehlt sich allerdings, Trendanalysen nur dann durchzufçhren, wenn die Anzahl der Treatmentstufen gençgend groû ist. (Der Nachweis eines linearen Trends bei p 2 ist trivial!) Zu çberprçfen wåren in unserem Beispiel noch der quartische und quintische Trend. Da jedoch in der Forschungspraxis selten Theorien çberprçft werden, aus denen sich quartische oder noch hæhere Trends ableiten lassen, wollen wir auf die Angabe der Berechnungsvorschriften hæherer Trendkomponenten verzichten. Sollte dennoch in einem konkreten Fall Interesse an der Ermittlung hæherer Trendkomponenten bestehen, låsst sich der hier skizzierte Ansatz problemlos generalisie-
ren: Tabelle I werden die fçr eine bestimmte Anzahl von Faktorstufen p und fçr den gewçnschten Trend benætigten c-Koeffizienten entnommen und zusammen mit den Treatmentmittelwerten in Gl. (7.49) eingesetzt. Die statistische Ûberprçfung einer Trendkomponente, die jeweils mit einem Freiheitsgrad versehen ist, erfolgt nach Gl. (7.51).
Varianzaufklårung. Addieren wir die p 1 Quadratsummen, die auf die p 1 verschiedenen Trends zurçckzufçhren sind, muss die QStreat resultieren (vgl. S. 267 f.). Die Treatmentquadratsumme låsst sich in p gonale Trendkomponenten zerlegen.
1 ortho-
In Analogie zur Korrelationsberechnung nach Gl. (7.70), (7.72) und (7.73) kænnen wir einen Korrelationskoeffizienten ermitteln, der alle, auf die verschiedenen Trends zurçckgehenden, Zusammenhånge enthålt. Dieser Koeffizient wird mit g (eta) bezeichnet: s QSlin QSquad QStrend
p 1 g QStot r QStreat :
7:74 QStot In unserem Beispiel ermitteln wir g zu r 27;5 0;68 : g 58;7 An dieser Stelle sehen wir, dass die Ûberprçfung einer Unterschiedshypothese auch durch die Ermittlung eines Zusammenhangskoeffizienten erfolgen kann. Je deutlicher sich die Treatmentmittelwerte unterscheiden, um so græûer ist der irgendwie geartete Zusammenhang zwischen der kardinalskalierten unabhångigen Variablen und der abhångigen Variablen. Quadrieren wir g und multiplizieren g2 mit 100, erhalten wir denjenigen Varianzanteil der abhångigen Variablen, der auf die unabhångige Variable zurçckzufçhren ist (vgl. Gl. 7.21). In unserem Beispiel sind dies 47%. g ist allerdings lediglich ein deskriptives Maû, das den in einer Stichprobe angetroffenen, unspezifischen Zusammenhang zwischen unabhångiger und abhångiger Variable charakterisiert. Soll auf Grund der Stichprobendaten die gemeinsame Va-
rianz zwischen abhångiger und unabhångiger Variable in der Population, aus der die Stichprobe entnommen wurde, geschåtzt werden, empfiehlt ^ 2 (omega) nach folgensich die Berechnung von x der Beziehung: ^2 x
^2Fehler QStreat
p 1 r : 2 ^Fehler QStot r
7:75
(Zur Herleitung dieser Beziehung vgl. Hays u. Winkler, 1970, Vol. II, Kap. 11.18.) Wir haben diese Gleichung bereits auf S. 259 als Gl. (7.28 a) kennengelernt. In unserem Beispiel ermitteln wir ^2 x
27;5
7
281
a7.4.2 Beliebige Abstufungen
6 1 1;3 0;35 : 58;7 1;3
Ausgehend von den erhobenen Daten schåtzen wir somit, dass in der Population 35% der Varianz der abhångigen Variablen auf die unabhångige Variable zurçckzufçhren sind. Dieses Maû gilt auch, wenn die Stichprobenumfånge ungleich groû oder proportional zu den Umfången der Populationen sind, denen die Stichproben entnommen wurden (vgl. hierzu und zum Fall disproportionaler Stichprobenumfånge Wang, 1982).
7.4.2 Beliebige Abstufungen Die bisher beschriebene Trendanalyse basiert auf der Annahme åquidistanter Treatmentstufen und gleichgroûer Stichproben. Sind die Treatmentstufen nicht åquidistant gestuft und/oder die Stichprobenumfånge ungleich, kann auf eine von Cohen (1980) vorgeschlagene Methode zurçckgegriffen werden. (Der Ansatz Cohens gilt natçrlich auch fçr den Fall åquidistanter Stufen und/oder gleichgroûer Stichproben. Der Grund, warum wir diesen allgemeinen Ansatz nicht von vornherein eingefçhrt haben, ist darin zu sehen, dass diese Variante der Trendanalyse auf multiplen Korrelationen basiert, die erst in Kap. 13 behandelt werden! Die Berechnung einer multiplen Korrelation setzt sinnvollerweise den Einsatz einer EDV-Anlage voraus, was bei der bisher behandelten Variante von Trendtests auch fçr Trendkomponenten hæherer Ordnung nicht unbedingt erforderlich ist.) Alternativ zu dem im Folgenden beschriebenen Ansatz kann man auch mit orthogonalen Polynomen fçr ungleich groûe Stichproben und/oder
nicht åquidistante Treatmentstufen operieren, fçr deren Berechnung das bereits erwåhnte ComputerProgramm von Berry (1993) empfohlen wird. Eine unabhångige Variable x sei kardinalskaliert und p-fach in beliebigen Abstånden gestuft. Jeder Stufe i wird eine Stichprobe des Umfanges ni zugeordnet. (Beispiel: Man vergleicht 4 unterschiedlich groûe Stichproben mit n1 6, n2 8, n3 7 und n4 10, die bei einer Lernaufgabe x1 1 mal, x2 2 mal, x3 4 mal und x4 6 mal verstårkt werden. Abhångige Variable y sind die Lernleistungen.) Jeder individuelle Messwert wird durch den jeweiligen Stichprobenmittelwert yi ersetzt. Diese Werte korreliert man mit den Ausprågungen der unabhångigen Variablen, also im Beispiel mit der Håufigkeit der Verstårkung. Im Beispiel gehen damit folgende Wertepaare in die Korrelation ein: 6-mal y1 und 1; 8-mal y2 und 2; 7-mal y3 und 4 sowie 10-mal y4 und 6. Die Korrelation ry i ;x rlin basiert also auf 31 Messwertpaaren. Die QSlin ergibt sich dann einfach nach folgender Beziehung: QSlin r2lin QStreat :
7:76
Fçr die Berechnung einer quadratischen Komponente werden die Werte der unabhångigen Variablen x (Verstårkungshåufigkeiten) zunåchst quadriert. (Im Beispiel: x21 1, x22 4, x23 16 und x24 36: Zwischen der unabhångigen Variablen x sowie der quadrierten unabhångigen Variablen x2 einerseits und der abhångigen Variablen yi andererseits berechnet man eine multiple Korrelation Ry;xx2 . (In die multiple Korrelation gehen also 31 Wertetripel ein. Wiederum wird pro Vp der individuelle Wert durch den jeweiligen Stichprobenmittelwert ersetzt.) Fçr die quadratische Komponente resultiert dann QSquad
R2y;xx2
r2y;x QStreat
r2y
x2 x QStreat :
7:77
r2y
x2 x stellt hierbei eine quadrierte Semipartialkorrelation (oder Partkorrelation, vgl. S. 455 f.) zwischen y und x2 dar, wobei der lineare Varianzanteil von x aus x2 herauspartialisiert ist. Die Semipartialkorrelation bestimmt somit den Zusammenhang zwischen y und der um x bereinigten Variablen x2 . Fçr die kubische Komponente benætigen wir eine Semipartialkorrelation zwischen y und x3 , wo-
Kapitel 7 ´ Einfaktorielle Versuchsplåne
QScub
7
R2y;xx2 x3 r2y
x3 xx2
R2y;xx2
QStreat
QStreat :
10
8 7 6 5 4 3
7:78
2
Das weitere Vorgehen fçr Trendkomponenten hæherer Ordnung liegt damit auf der Hand.
1
Graphische Darstellung. EDV-Routinen zur Berechnung multipler Korrelationen bestimmen çblicherweise auch multiple Regressionsgleichungen (s. unter 13.2). Mit Hilfe dieser Regressionsgleichungen låsst sich die Anpassung eines linearen oder nichtlinearen Trends an die Treatmentmittelwerte auch optisch veranschaulichen. Bezogen auf das auf S. 276 ff. (Tabelle 7.7) entwickelte Beispiel resultieren die unten genannten Regressionsgleichungen. (Da in diesem Beispiel die Stichprobenumfånge mit n 5 gleich groû sind, benætigen wir fçr die Korrelations- bzw. Regressionsberechnung nur p 6 verschiedene Messwertepaare und nicht ± wie oben beschrieben ± 6-mal 5 identische Messwertepaare.) Man mæge zur Erprobung dieses Ansatzes die im Beispiel berichteten Trendkomponenten sowie die folgenden Regressionsgleichungen çberprçfen: linear: ^ ym 4;64
0;21 xm ;
quadratisch: ^ ym 2;04 1;74 xm kubisch: ^ ym 1;20 2;79 xm
linear quadratisch kubisch
9
y
bei aus x3 sowohl x als auch x2 herauspartialisiert sind. Wir berechnen zunåchst das Quadrat der multiplen Korrelation zwischen x, x2 und x3 einerseits und y andererseits
R2y;xx2 x3 und ziehen hiervon R2y;xx2 ab. Das Produkt dieser Differenz mit QStreat ergibt denjenigen Varianzanteil der QStreat , der ausschlieûlich auf den kubischen Trend zurçckgeht:
∧
282
0;28 x2m ; 0;63 x2m
0;03 x3m : Abbildung 7.1 zeigt, wie sich diese Regressionsgleichungen den 6 Treatmentmittelwerten anpassen. (Bei der Darstellung von Regressionen fçr nicht åquidistante Treatmentstufen achte man darauf, dass die x-Achse entsprechend abgestuft wird.)
Hinweis: Weitere Informationen zur Trendanalyse çber Treatmentstufen mit ungleichen Abstånden bzw. ungleichen Stichprobengræûen findet man bei Gaito (1977), Grandage (1958), Peng (1967),
0 0
1
2
3
4
5
6
x
Abb. 7.1. Graphische Darstellung der Regressionsgleichungen 1., 2. und 3. Ordnung
Robson (1959) sowie Wishart u. Metakides (1953).
7.4.3 Monotone Trends Trendtests in der bisher behandelten Form setzen voraus, dass die unabhångige Variable kardinalskaliert ist. Aber auch bei nicht kardinalskalierten unabhångigen Variablen ist man håufig in der Lage, die H1 der einfaktoriellen Varianzanalyse (mindestens fçr 2 Treatmentstufen gilt i 6 i0 genauer zu formulieren. Ein linearer Trend (oder ein anderer polynomialer Trend) ist fçr die Treatmentmittelwerte einer unabhångigen Variablen, deren Skalenniveau unter dem einer Intervallskala liegt, nicht bestimmbar. Dennoch låsst sich gelegentlich auch fçr Mittelwerte der Faktorstufen einer ordinalen unabhångigen Variablen eine Systematik hypothetisch vorhersagen, die çber die Konstatierung, nicht alle Mittelwerte seien gleich, hinausgeht. Eine solche Systematik kænnte beispielsweise besagen, dass die Mittelwerte der Faktorstufen eine bestimmte Rangfolge aufweisen. Die entsprechende Alternativhypothese wåre also als H1: 1 2 3 . . . p zu formulieren (mit mindestens einer Kleiner-Relation). Hypothesen dieser Art bezeichnet man als monotone Trendhypothesen. Die Treatmentstufen werden gemåû ihrer erwarteten Mittelwerte in eine hypothetische Rangfolge gebracht.
Durch eine monotone Trendhypothese wird eine Rangfolge der Treatment-Mittelwerte vorgegeben.
Tests zur Ûberprçfung einer monotonen Trendhypothese wurden von mehreren Autoren vorgeschlagen. In einer vergleichenden Studie von Berenson (1982) erwies sich jedoch der T-Test (Johnson u. Mehrotra, 1971; Berenson, 1976) am robustesten. Er soll deshalb im Folgenden ausfçhrlicher dargestellt werden. Der Test beginnt mit einer Rangtransformation aller n p Messungen xim einer abhångigen Variablen, die in einer Untersuchung mit p zu vergleichenden Stichproben des Umfangs n (gleichgroûe Stichproben) erhoben wurden. Alle n p Werte werden in eine gemeinsame Rangreihe gebracht, wobei Rangplatz 1 dem kleinsten Wert zugewiesen wird. Die Rånge Rim ihrerseits werden einer Normalrangtransformation nim (xi; expected normal order scores) unterzogen. Eine Tabelle fçr die Transformation von Rången in Normalrangwerte n findet man im Anhang, Tabelle L. (Auf den mathematischen Hintergrund dieser Normalrangtransformation wollen wir hier nicht nåher eingehen. Ausfçhrlichere Hinweise hierzu und einen Algorithmus zur Berechnung dieser Werte findet man bei Pearson u. Hartley, 1972, S. 27 ff.) Die Prçfgræûe T wird in folgender Weise berechnet: T
X i
Mi ni ;
7:79
wobei ni = Mittelwert der Normalrangwerte in Stichprobe i. Mi sind ¹optimaleª Kontrastkoeffizienten, die nach folgender Gleichung bestimmt werden (vgl. Abelson u. Tukey, 1963): s i 1 Mi
i 1 1 p s i : i 1 p
7
283
a7.4.3 Monotone Trends
7:80
Aus T ermitteln wir nach folgender Gleichung einen z-Wert der Standardnormalverteilung:
T z vX : X u n2im u t i m P M2 n
N 1 i i
7:81
BEISPIEL Zur Verdeutlichung des T-Tests greifen wir erneut das auf S. 248 ff. erwåhnte Beispiel auf. Ûberprçft werden soll die Hypothese, dass die 4. Methode am besten, die 3. am zweitbesten, die 2. am drittbesten und die 1. Methode am schlechtesten abschneidet.
H1: 1 2 3 4 .) Die folgende Tabelle gibt noch einmal die Ausgangswerte dieser Untersuchung wieder:
1
Unterrichtsmethoden 2 3
4
2 1 3 3 1
3 4 3 5 0
5 5 5 3 2
6 8 7 6 8
Unter Berçcksichtigung von Verbundrången (vgl. S. 152 f.) ersetzen wir diese Werte durch ihre Rangplåtze in der gemeinsamen Rangreihe. 1
2
3
4
4,5 2,5 8 8 2,5
8 11 8 13,5 1
16,5 19,5 18 16,5 19,5
13,5 13,5 13,5 8 4,5
Diese Rangplåtze werden anhand Tabelle L in nim -Werte transformiert. Diese Tabelle ist folgendermaûen zu handhaben: Fçr unser Beispiel suchen wir die Spalte fçr N 20 auf. Die dort aufgefçhrten Werte erhalten fçr die ersten 10 Rangplåtze negative Vorzeichen (d. h. z. B., dass Rangplatz 1 den Wert 1;87 erhålt). Da die Normalrangwerte symmetrisch um Null verteilt sind, gelten die hier aufgefçhrten Werte mit positiven Vorzeichen und umgekehrter Reihenfolge fçr die Rangplåtze 11 bis 20 (Rangplatz 11 erhålt z. B. den Wert 0,06). Bei Verbundrången ist nach einem Vorschlag von Fisher u. Yates (1963, S. 94) folgendermaûen zu verfahren: Man transformiert die in einem Verbundrangplatz vereinigten Rangplåtze einzeln in n-Werte und verwendet deren Mittelwert als n-Wert der verbundenen Rangplåtze. (Im Beispiel erzielten die 2. Vp in Stichprobe 1 und die 5. Vp in Stichprobe 1 jeweils einen Testwert von 1. Der verbundene Rangplatz, basierend auf den Rangplåtzen 2 und 3, lautet 2,5. Fçr die Rangplåtze 2 und 3 entnehmen wir Tabelle L n2 1;41 und n3 1;13 mit einem Mittelwert von
284
Kapitel 7 ´ Einfaktorielle Versuchsplåne
±1,270, d. h., der Verbundrangplatz von 2,5 wird fçr beide Vpn durch n 1;270 ersetzt. Auf diese Weise erhålt man die folgende Tabelle der Normalrangwerte: 1
2
3
4
±0,835 ±1,270 ±0,320 ±0,320 ±1,270
±0,320 0,060 ±0,320 0,385 ±1,870
0,835 1,640 1,130 0,835 1,640
0,385 0,385 0,385 ±0,320 ±0,835
±4,015
±2,065
6,080
0,000
Die Summe der n-Werte muss den Wert 0 ergeben. Als Stichprobenmittelwerte berechnen wir n1
7
0;803;
n3 1;216;
n2
0;413;
z
0;914 1;72 : 0;53
Dieser z-Wert schneidet gemåû Tabelle B weniger als 5% von der rechten Seite der Standardnormalverteilungsflåche ab, d. h., der T-Wert ist bei einseitigem Test auf dem a 5%-Niveau signifikant. Die H0 wird zu Gunsten der H1
1 2 3 4 verworfen. (Man beachte, dass das Ergebnis fçr die H1 spricht, obwohl A3 > A4 ist.)
Hinweis: Eine andere, verteilungsfreie Testvariante fçr monotone Trends, der Jonckhere-Test, wird bei Bortz und Lienert (2003, S. 162) beschrieben. Dieser Test ist auch fçr ungleich groûe Stichproben geeignet. Weitere Informationen zur Ûberprçfung monotoner Trendhypothesen findet man bei Braver u. Sheets (1993).
n4 0;000 :
Fçr die Kontrastkoeffizienten ergibt sich nach Gl. (7.80) s s 0 1 1 1 M1
1 1 1 4 4 r 3 0;866 ; 4 s s 1 2
2 1 1 2 1 4 4 1 p 3 1 0;134 ; 2
M2
s 2 M3
3 1 1 4 1 p 3 0;134 ; 1 2 s 3 M4
4 1 1 4 r 3 0;866 4
s 3 3 1 4 s 4 4 1 4
bzw. fçr T nach Gl. (7.79) T 0;866 0;803
0;134 0;413
0;134 1;216 0;866 0;000 0;914 : Fçr den Nenner in Gl. (7.81) errechnen wir r 17;276 1;536 0;53 ; 5 19 d. h., wir erhalten
" 7.5 Voraussetzungen der einfaktoriellen Varianzanalyse Die Zerlegung der totalen Quadratsumme in die Treatmentquadratsumme und die Fehlerquadratsumme sowie die Zerlegung der Treatmentquadratsumme in einzelne Komponenten (Einzelvergleiche) ist an keinerlei Voraussetzungen geknçpft. Sollen die Mittelwertunterschiede jedoch mit dem F-Test auf Signifikanz geprçft werden, mçssen die folgenden Bedingungen erfçllt sein (vgl. auch Kap. 12). · Die Fehlerkomponenten mçssen in den Grundgesamtheiten, denen die untersuchten Stichproben entnommen wurden, normalverteilt sein. · Die Varianzen der Fehlerkomponenten mçssen in den Grundgesamtheiten, denen die Stichproben entnommen wurden, gleich sein. · Die Fehlerkomponenten mçssen (innerhalb einer und zwischen mehreren Stichproben) voneinander unabhångig sein, d. h., die Treatmenteffekte und die Fehlereffekte mçssen additiv sein.
Normalverteilte Fehlerkomponenten. Bezogen auf Stichprobendaten kennzeichnen wir eine Fehlerkomponente als die Abweichung eines Messwertes vom jeweiligen Stichprobenmittel. (Die Fehlerkomponenten entsprechen den Regressionsresiduen im Rahmen der Regressionsrechnung, vgl.
a7.5
S. 207 ff.). Die Verteilungsform dieser Abweichungen darf sich pro Treatmentstufe nicht signifikant von einer Normalverteilung unterscheiden. Da die ursprçnglichen Messwerte nur durch eine additive Konstante (nåmlich den Gruppenmittelwert) mit den Abweichungswerten verbunden sind, gilt die Normalverteilungsvoraussetzung gleichermaûen fçr die Messwerte innerhalb der Stichproben (vgl. hierzu auch Wottawa, 1982). Werden unter einer Treatmentstufe gençgend Untersuchungseinheiten beobachtet, kann die Normalverteilungsvoraussetzung mit dem auf S. 164 ff. beschriebenen v2 -Verfahren çberprçft werden. In der Praxis wird diese Voraussetzung allerdings selten çberprçft (s. u.).
Homogene Fehlervarianzen. Die Fehlervarianzschåtzung wird ± wie auf S. 252 ff. beschrieben ± additiv aus den unter den einzelnen Treatmentstufen beobachteten Varianzen zusammengesetzt. Diese Vorgehensweise geht von der Annahme aus, dass die Stichproben aus Grundgesamtheiten stammen, in denen die Messwerte die gleiche Varianz aufweisen. Die Varianzen innerhalb der Stichproben dçrfen sich deshalb nicht signifikant unterscheiden. Diese Voraussetzung kann z. B. mit dem Bartlett-Test çberprçft werden. Wie Bartlett (1954) zeigt, ist der folgende Ausdruck mit p 1 Freiheitsgraden approximativ v2 -verteilt: X 2;303 2 ni p lg
^ r2Fehler v C i X ^2Fehler
i ;
ni 1 lg r
7:82 i
7
285
Voraussetzungen der einfaktoriellen Varianzanalyse
wobei
X 1 1 C1 3
p 1 n 1 i i
P i
1 ni
p
;
^2Fehler
i Varianz innerhalb der Stichprobe i, r lg Logarithmus zur Basis 10. BEISPIEL Die Durchfçhrung des Bartlett-Tests sei anhand der Daten in Tabelle 7.6 erlåutert. Zweckmåûigerweise fertigen wir hierfçr das in Tabelle 7.8 dargestellte Rechenschema an ^2Fehler
i vgl. S. 253): (zur Berechnung von r Der v2 -Wert lautet: v2 2;37. Als kritischen Wert erhalten wir fçr df 3 1 2 und das 5%-Niveau einen v2 -Wert von 5,99. Da wir uns bei der Ûberprçfung dieser Voraussetzung dagegen absichern mçssen, fålschlicherweise die H0 zu akzeptieren
b-Fehler), sollte der empirische v2 -Wert mit dem auf dem a 25%-Niveau erwarteten v2 -Wert verglichen werden. Dieser Wert
v2
2;75% 2;77) ist ebenfalls græûer als der empirische v2 -Wert, d. h., wir kænnen die H0 beibehalten. Die einzelnen Fehlervarianzen sind homogen.
Wie das Beispiel zeigt, ist der Bartlett-Test auch dann anwendbar, wenn die Stichproben ungleich groû sind. Allerdings fçhrt der Bartlett-Test nur dann zu richtigen Entscheidungen, wenn die Populationsverteilungen normal sind. Da der Bartlett-Test sogar sensibler auf Verletzungen dieser Voraussetzung reagiert als der F-Test selbst, kann es durchaus vorkommen, dass die Durchfçhrung einer Varianzanalyse auf Grund eines signifikanten Bartlett-Tests kontraindiziert erscheint, obwohl der F-Test als robustes Verfahren (s. u.) durchaus noch zu richtigen Entscheidungen fçhren wçrde. Die Entscheidung, eine Varianzanalyse
Tabelle 7.8. Beispiel fçr einen Bartlett-Test Stichprobe 1 2 3 Summen:
ni
1
1=
ni
6 5 8
0,167 0,200 0,125
19
0,492
2;303 v2
22 3 lg 3;28 8;78 C 1 1 1;07 C1 0;492 3
3 1 19 2;303 v2
19 0;52 8;78 2;37 1; 07
1
^2Fehler
i r
^2Fehler
i lg r
ni
5,81 1,90 2,25
0,76 0,28 0,35
4,56 1,40 2,82 8,78
^2Fehler
i 1 lg r
286
Kapitel 7 ´ Einfaktorielle Versuchsplåne
nicht durchzufçhren, sollte deshalb nicht vom Ausgang des Bartlett-Tests allein abhångig gemacht werden. (Ein Varianzhomogenitåtstest, der gegençber Verletzungen der Normalverteilungsvoraussetzungen relativ unempfindlich ist ± der Levene-Test ±, wird bei Dayton, 1970, S. 34 f. beschrieben.)
Fmax-Test. Im Fall gleich groûer Stichproben kann die Varianzhomogenitåtsvoraussetzung einfacher çber den Fmax -Test çberprçft werden. Hierfçr wird lediglich der Quotient aus dem græûten und ^2Fehler
i-Werte benætigt: kleinsten der r Fmax
7
^2Fehler
max r ^2Fehler
min r
:
7:83
Der so ermittelte Fmax -Wert kann anhand einer speziell fçr diesen Test entwickelten Tabelle auf statistische Bedeutsamkeit çberprçft werden (vgl. Pearson u. Hartley, 1966). Diese Tabelle ist im Anhang (Tabelle K) wiedergegeben. Fçr das unter 7.1 erwåhnte Lehrmethodenbeispiel mit den Fehlervarianzen 1; 3,5; 1 und 2 resultiert fçr Fmax : 3;5 3;5 : Fmax 1 Die Verteilung von Fmax hångt von der Anzahl der Treatmentstufen
p und der Anzahl der Freiheitsgrade einer einzelnen Fehlervarianz
n 1 ab. Fçr p 4 und n 1 4 entnehmen wir Tabelle K den fçr das a 5%-Niveau kritischen Fmax -Wert von 20,6. Da der empirische Fmax -Wert erheblich kleiner ist, unterscheiden sich die 4 Fehlervarianzen statistisch nicht bedeutsam.
Hinweise: Im Fall heterogener Varianzen kann insbesondere bei kleineren Stichproben die sog. Welch-James-Prozedur die einfaktorielle Varianzanalyse ersetzen. Eine Beschreibung dieses Verfahrens findet man bei Algina u. Olejnik (1984). (Weitere Hinweise hierzu s. unter 8.6.) Varianzheterogenitåt wird in der varianzanalytischen Literatur çblicherweise bezçglich ihrer Effekte auf den F-Test der Varianzanalyse untersucht, ohne besondere Beachtung ihrer Ursachen. Bryk u. Raudenbush (1988) machen jedoch darauf aufmerksam, dass Varianzheterogenitåt håufig nicht ¹zufålligª entsteht, sondern als Folge von Treatmentwirkungen, die sich nicht nur in unter-
schiedlichen Mittelwerten, sondern auch in unterschiedlichen Varianzen niederschlagen kænnen. Sie resultieren aus spezifischen Reaktionsweisen der Vpn auf die Treatmentstufen, mit denen insbesondere bei quasiexperimentellen Untersuchungen mit natçrlichen Gruppen (also ohne Randomisierung) zu rechnen ist. Die Autoren entwickeln einen Ansatz, in dem die Varianzheterogenitåt in diesem Sinn ¹konstruktivª genutzt wird.
Unabhångige Fehlerkomponenten. Gemåû der 3. Voraussetzung wird gefordert, dass die Beeinflussung eines Messwertes durch Stærvariablen (Fehlereffekte) davon unabhångig sein muss, wie die çbrigen Messwerte durch Stærvariablen beeinflusst werden (unabhångige Fehlerkomponenten). Wir kænnen davon ausgehen, dass diese Voraussetzung erfçllt ist, wenn die Untersuchungseinheiten den Treatmentstufen tatsåchlich zufållig zugeordnet und unter den Treatmentstufen verschiedene Stichproben untersucht werden. Die Unabhångigkeit der Fehlerkomponenten zwischen den Stichproben wåre beispielsweise verletzt, wenn dieselben Untersuchungseinheiten ( Vpn) unter mehreren Treatmentstufen beobachtet werden. Dieser in der Praxis nicht selten anzutreffende Fall wird in Kap. 9 (Varianzanalyse mit Messwiederholungen) behandelt. Fçr die hier beschriebene einfaktorielle Varianzanalyse ist zu fordern, dass den einzelnen Treatmentstufen verschiedene Stichproben zugeordnet werden. Nur unter dieser Voraussetzung ist das additive Modell der Varianzanalyse (vgl. Kap. 12), nach dem sich ein Messwert additiv aus einem Treatmentanteil und einem Fehleranteil zusammensetzt, aufrechtzuerhalten. Bewertung der Voraussetzungen. Zur Frage, wie die Varianzanalyse reagiert, wenn eine oder mehrere ihrer Voraussetzungen verletzt sind, wurden zahlreiche Untersuchungen durchgefçhrt (vgl. hierzu den Literaturçberblick von Glass et al., 1972 oder auch Boehnke, 1983; Box, 1953, 1954 a; Boneau, 1971; Feir-Walsh u. Toothaker, 1974). Generell gilt, dass die Voraussetzungen der Varianzanalyse mit wachsendem Umfang der untersuchten Stichproben an Bedeutung verlieren. Im Einzelnen kommen Glass et al. (1972) zu folgenden Schlçssen (vgl. hierzu auch Winer et al., 1991, Tabelle 3.8):
· Abhångige Fehlerkomponenten kænnen den F-Test sowohl hinsichtlich a als auch b entscheidend beeinflussen. · Abweichungen von der Normalitåt sind zu vernachlåssigen, wenn die Populationsverteilungen schief sind. Bei extrem schmalgipfligen Verteilungen neigt der F-Test zu konservativen Entscheidungen. Bei breitgipfligen Verteilungen ist das tatsåchliche a-Risiko etwas hæher als das nominelle. Die Teststårke wird durch schmalgipflige Verteilungen vergræûert und durch breitgipflige Verteilungen verkleinert. Dies gilt vor allem fçr kleine Stichproben. · Heterogene Varianzen beeinflussen den F-Test nur unerheblich, wenn die untersuchten Stichproben gleichgroû sind. · Bei ungleichgroûen Stichproben und heterogenen Varianzen ist die Gçltigkeit des F-Tests vor allem bei kleineren Stichprobenumfången erheblich gefåhrdet. Zusammenfassend ist festzustellen, dass die Varianzanalyse bei gleich groûen Stichproben gegençber Verletzungen ihrer Voraussetzungen relativ robust ist. Besteht bei kleinen
ni < 10 und ungleichgroûen Stichproben der Verdacht, dass eine oder mehrere Voraussetzungen verletzt sein kænnen, sollte statt der Varianzanalyse ein verteilungsfreies Verfahren wie z. B. der Kruskal-WallisTest (vgl. z. B. Bortz u. Lienert, 2003, Kap. 3.2.2) eingesetzt werden. Das, was hier fçr die einfaktorielle Varianzanalyse gesagt wurde, gilt weitgehend auch fçr die Durchfçhrung von Einzelvergleichen nach dem Scheff-Test bzw. fçr Trendanalysen. Wie Keselman u. Toothaker (1974) zeigen, fçhrt der Scheff-Test nur dann zu einem vergræûerten a-Fehlerrisiko, wenn kleinere Stichproben mit unterschiedlichen Umfången und unterschiedlichen Varianzen verglichen werden sollen und die Varianzen negativ mit den Stichprobenumfången korrelieren. Weitere Informationen çber Einzelvergleichsverfahren bei ungleichgroûen Stichproben findet man bei Games et al. (1981).
ÛBUNGSAUFGABEN 1. Welche H0 wird mit der einfaktoriellen Varianzanalyse çberprçft? 2. Was versteht man unter einer Fehlervarianz?
7
287
aÛbungsaufgaben
3. Begrçnden Sie, warum eine Treatmentvarianz p Freiheitsgrade hat.
1
4. In welche Anteile wird die totale Quadratsumme in einer einfaktoriellen Varianzanalyse zerlegt? 5. Worin unterscheiden sich paarweise durchgefçhrte A-posteriori-Einzelvergleiche von t-Tests? 6. Was sind orthogonale Einzelvergleiche? Nennen Sie Beispiele. 7. In wie viele orthogonale Varianzkomponenten låsst sich eine Treatmentquadratsumme mit 6 df zerlegen? 8. Wozu dient der Scheff-Test? 9. Welche speziellen Voraussetzungen erfordern im Anschluss an eine Varianzanalyse durchgefçhrte polynomiale Trendtests? 10. Wie lauten die Trendkoeffizienten fçr den linearen und quadratischen Trend bei k 8 Treatmentstufen? Zeigen Sie, dass die lineare und quadratische Trendkomponente orthogonal sind. 11. Was besagt der g-Koeffizient? 12. Welche Voraussetzungen mçssen fçr die Durchfçhrung eines F-Tests im Anschluss an eine Varianzanalyse erfçllt sein? 13. Von verschiedenen Stichproben sind lediglich die Mittelwerte, Streuungen und Umfånge bekannt. Skizzieren Sie, wie die Stichproben auf Grund dieser Angaben varianzanalytisch miteinander verglichen werden kænnen. 14. 4 Stichproben 20 Vpn werden varianzanalytisch untersucht. Wie mçssten die Daten der Vpn aussehen, damit folgende F-Werte resultieren? a) F 0 b) F ! 1 c) Wie groû muss der empirische F-Wert mindestens sein, damit die H0 auf dem 5%-Niveau verworfen werden kann? 15. Es soll çberprçft werden, ob die sensomotorische Koordinationsfåhigkeit durch Training verbessert werden kann. 7 Stichproben 6 Vpn nehmen an der Untersuchung teil. Die 2. Stichprobe erhålt Gelegenheit, an einem Reaktionsgeråt 1 h zu çben, die 3. Stichprobe 2 h, die 4. Stichprobe 3 h usw. bis hin zur 7. Stichprobe, die 6 h trainiert. Die 1. Stichprobe fçhrt kein Training durch. In einem abschlieûenden Test wurden folgende Fehlerzahlen registriert: 0h
1h
2h
3h
4h
5h
6h
8 10 10 11 9 12
11 9 8 9 7 8
8 6 4 6 7 7
5 6 6 6 4 5
6 3 3 4 2 5
4 2 3 3 2 5
3 3 2 3 4 1
288
Kapitel 7 ´ Einfaktorielle Versuchsplåne
a) Ûberprçfen Sie mit dem Fmax -Test, ob die Fehlervarianzen homogen sind. b) Ûberprçfen Sie mit einer einfaktoriellen Varianzanalyse, ob sich die Stichproben hinsichtlich der Fehlerzahlen signifikant unterscheiden. c) Ist der Unterschied zwischen der Stichprobe, die nicht trainieren durfte, und der Stichprobe mit einer Stunde Training signifikant? d) Welcher Prozentsatz der Gesamtvarianz ist auf unterschiedliche Trainingsbedingungen zurçckzufçhren? e) Ûberprçfen Sie, ob die Leistungsverbesserungen einem linearen Trend folgen.
7
f) Wie lautet die lineare Korrelation zwischen der Trainingszeit und der Fehleranzahl? g) Ermitteln Sie die lineare Regressionsgleichung und stellen Sie sie zusammen mit den Stichprobenmittelwerten graphisch dar. h) Welche Fehlerzahl erwarten Sie fçr eine Vp, die 2,5 h trainiert? i) Wie groû ist der Prozentanteil der QStreat, der auf nichtlineare Zusammenhånge zwischen der abhångigen und unabhångigen Variablen zurçckzufçhren ist?
a
289
Kapitel 8 Mehrfaktorielle Versuchsplåne
ÛBERSICHT Fehlervarianzreduktion ± zweifaktorielle Varianzanalyse ± Interaktionsdiagramme ± Klassifikation von Interaktionen ± feste und zufållige Effekte ± optimale Stichprobenumfånge ± Trendtests ± Einzelvergleiche ± drei- und mehrfaktorielle Varianzanalyse ± Quasi-F-Brçche ± ¹Poolingª-Prozeduren ± Interaktion 2. Ordnung ± Missing-data-Technik bei ungleichgroûen Stichproben ± Varianzanalyse fçr proportional geschichtete Stichproben ± Varianzanalyse mit dem harmonischen Mittel (¹unweighted means solutionª) ± Additivitåtstest fçr n 1 ± Voraussetzungen
Fçhrt eine einfaktorielle Varianzanalyse zu keinem signifikanten Ergebnis, so kann dies auf folgende Ursachen zurçckgefçhrt werden: · Das Treatment çbt tatsåchlich keinen Einfluss auf die abhångige Variable aus (zu kleine ^2treat ), r · die Fehlervarianz ist im Vergleich zur Treat^2Fehler ). mentwirkung zu groû (zu groûe r Die ¹wahreª Bedeutsamkeit eines Treatments fçr eine Variable ist untersuchungstechnisch nicht zu ^2treat ) ist bei gegebeeinflussen, d. h., r2treat (nicht r bener Problemstellung konstant. Die relative Bedeutung der Treatmentvarianz kann deshalb nur durch Reduktion der Fehlervarianz erhæht werden, die ihrerseits durch unsystematische Effekte nichtkontrollierter Stærvariablen generiert wird. Wollen wir die Pråzision einer Untersuchung verbessern, mçssen wir dafçr Sorge tragen, dass der Einfluss dieser Variablen mæglichst klein gehalten wird. Hierfçr bieten sich folgende Maûnahmen an:
Variablen konstant halten. Werden in einer Untersuchung mæglichst viele Variablen, die potenziell einen Einfluss auf die abhångige Variable ausçben, konstant gehalten, kænnen diese Variablen die Fehlervarianz nicht beeinflussen (z. B. Alter, Geschlecht, soziale Herkunft usw.). Wenn bei-
spielsweise in einer einfaktoriellen Varianzanalyse das Geschlecht konstant gehalten wird, weil nur månnliche Personen untersucht werden, kann die Variable Geschlecht nicht zur Unterschiedlichkeit der Messwerte innerhalb der Treatmentstufen und damit zur Fehlervarianz beitragen. Werden hingegen månnliche und weibliche Personen unter einer Treatmentstufe untersucht und çbt das Geschlecht auf die abhångige Variable einen differenziellen Einfluss aus, trågt das Merkmal Geschlecht zur Erhæhung der Fehlervarianz bei. Der Nachteil dieser Fehlervarianz reduzierenden Technik ist darin zu sehen, dass die Ergebnisse nur im Rahmen der konstant gehaltenen Variablen generalisiert werden kænnen. (Untersucht man nur månnliche Vpn, kænnen Aussagen çber die Wirksamkeit des Treatments selbstverståndlich nur fçr månnliche Personen gelten.)
Variablen kontrollieren. Eine andere Mæglichkeit, die Fehlervarianz zu reduzieren, besteht darin, andere unabhångige Variablen, die neben dem Treatment die abhångige Variable auch beeinflussen kænnen, vorsorglich mitzuerheben. Die Bedeutsamkeit dieser kontrollierten Variablen fçr die Fehlervarianz kann dann im Nachhinein ermittelt werden. Die hierfçr einschlågige Technik (Kovarianzanalyse) wird in Kap. 10 besprochen. Variablen systematisch variieren. Der Einfluss bestimmter Stærvariablen kann ferner aus der Fehlervarianz eliminiert werden, indem diese Stærvariablen systematisch variiert werden. Dies geschieht in mehrfaktoriellen Varianzanalysen. Wir gruppieren die Vpn nicht nur nach den Stufen der uns eigentlich interessierenden unabhångigen Variablen, sondern zusåtzlich nach Variablen, von denen wir annehmen, dass sie neben dem Treatment ebenfalls einen Einfluss auf die abhångige Variable ausçben (randomized block design). Der
8
290
8
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
Effekt dieser Variablen wird auf diese Weise nicht nur aus der Fehlervarianz herausgezogen, sondern kann zusåtzlich auf seine statistische Bedeutsamkeit çberprçft werden. Der Grund, anstatt einer einfaktoriellen Varianzanalyse mehrfaktorielle Varianzanalysen zu rechnen, ist deshalb nicht nur in dem Anliegen zu sehen, die Fehlervarianz zu reduzieren. Vielmehr werden wir håufig daran interessiert sein, die Wirkungsweise mehrerer unabhångiger Variablen, die auf Grund inhaltlich-theoretischer Erwågungen die abhångige Variable beeinflussen kænnen, direkt zu erfassen. Darçber hinaus bietet ± wie wir noch sehen werden ± die mehrfaktorielle Varianzanalyse im Gegensatz zur einfaktoriellen Varianzanalyse die Mæglichkeit, Effekte zu prçfen, die sich aus der Kombination mehrerer unabhångiger Variablen ergeben (Interaktion). Der Nachteil dieser Fehlervarianz reduzierenden Technik liegt darin, dass mit steigender Anzahl systematisch variierter Variablen, d. h. mit der Erhæhung der Anzahl der çberprçften, unabhångigen Variablen (= Faktoren), die Anzahl der zu untersuchenden Vpn rapide anwåchst. So mçssten beispielsweise bei 4 dreifach gestuften Faktoren 3 3 3 3 34 81 Gruppen untersucht werden. Bei einer Gruppengræûe von n 10 benætigen wir somit eine Gesamtstichprobe von 810 Vpn. Die Wahrscheinlichkeit fçr ein signifikantes Ergebnis låsst sich natçrlich auch durch Vergræûerung der Stichprobenumfånge erhæhen. Hierbei riskiert man jedoch, dass auch minimale, praktisch unbedeutende Effekte signifikant werden. Es empfiehlt sich deshalb, Varianzanalysen mit ¹optimalenª Stichprobenumfången durchzufçhren, çber die wir auf S. 303 f. berichten.
· In welchem Ausmaû ist die abhångige Variable stæranfållig (Reliabilitåt der abhångigen Variablen bzw. Standardfehler der Kennwerte; vgl. 3.2)? · Welche Faktoren soll der Untersuchungsplan çberprçfen, und wie sollen die Faktoren gestuft sein? (Frage nach den systematisch variierten Variablen.) · Inwieweit kann auf eine Generalisierung der Ergebnisse verzichtet werden? (Frage nach den konstant gehaltenen Variablen.) · Welche weiteren, die abhångige Variable vermutlich beeinflussenden Variablen sollen miterhoben werden? (Frage nach den kontrollierten Variablen.) · Was ist die Græûenordnung der zu erwartenden varianzanalytischen Effekte? (Frage nach den optimalen Stichprobenumfången.) Wie diese Fragen beantwortet werden, hångt wesentlich davon ab, wie ausfçhrlich das zu bearbeitende Problem zuvor theoretisch und inhaltlich vorstrukturiert wurde. Grçndliche Kenntnisse in den Auswertungstechniken allein garantieren noch keine inhaltlich sinnvollen Untersuchungen! Im Folgenden wollen wir uns zunåchst der zweifaktoriellen Varianzanalyse (8.1), den darauf bezogenen Einzelvergleichstechniken (8.2) und der dreibzw. mehrfaktoriellen Varianzanalyse (8.3) zuwenden. Daran anschlieûend werden einige Modifikationen mehrfaktorieller Varianzanalysen behandelt, die fçr die Analyse ungleichgroûer Stichproben erforderlich sind (8.4). Steht pro Faktorstufenkombination nur eine Untersuchungseinheit zur Verfçgung, erfolgt die Analyse nach einem unter 8.5 zu besprechenden Verfahren. Zum Abschluss dieses Kapitels diskutieren wir die Voraussetzungen mehrfaktorieller Varianzanalysen (8.6).
Planungshilfen Man sollte sich darum bemçhen, bereits in der Planungsphase die fçr eine Untersuchung optimale Kombination der hier aufgefçhrten Mæglichkeiten zu finden. Dabei ist es nçtzlich, sich vor der Festlegung des endgçltigen Versuchsplanes folgende Fragen zu stellen: · Wie lautet die abhångige Variable, und wie soll sie gemessen (operationalisiert) werden? · Welche unabhångigen Variablen kænnen die abhångige Variable potenziell beeinflussen?
" 8.1 Zweifaktorielle Varianzanalyse Terminologie Mit der zweifaktoriellen Varianzanalyse çberprçfen wir, wie eine abhångige Variable von 2 unabhångigen Variablen ( Faktoren) beeinflusst wird. Den 1. Faktor bezeichnen wir mit A und den 2. Faktor mit B. Der Faktor A habe p Stufen, der Faktor B q Stufen.
a8.1
291
Zweifaktorielle Varianzanalyse
Tabelle 8.1. Allgemeines Datenschema fçr eine zweifaktorielle Varianzanalyse 1 2 Faktor B j q
1 x111 x112 .. . x11m .. . x11n x121 x122 .. . x12m .. . x12n
x1j1 x1j2 .. . x1jm .. . x1jn .. . x1q1 x1q2 .. . x1qm .. . x1qn
Faktor A ... 2 x211 x212 .. ... . x21m .. . x21n x221 x222 .. ... . x22m .. . x22n x2j1 x2j2 .. ... . x2jm .. . x2jn .. . x2q1 x2q2 .. ... . x2qm .. . x2qn
i xi11 xi12 .. . xi1m .. . xi1n xi21 xi22 .. . xi2m .. . xi2n
xij1 xij2 .. . xijm .. . xijn .. . xiq1 xiq2 .. . xiqm .. . xiqn
. . . p xp11 x p12 .. . . . . xp1m . . . xp1n x p21 x p22 . . . . .. x p2m .. . xp2n xpj1 xpj2 . . . . .. xpjm . .. xpjn . .. xpq1 xpq2 . . . . .. x pqm . . . xpqn
Fçr die Stufen des Faktors A vereinbaren wir den Laufindex i und fçr die Stufen des Faktors B den Index j. Die Stufen der einzelnen Faktoren kennzeichnen wir mit Kleinbuchstaben (ai, bj). Insgesamt ergeben sich p q Faktorstufenkombinationen. Jeder dieser p q Faktorstufenkombinationen wird eine Zufallsstichprobe des Umfangs n zugewiesen, sodass die Gesamtstichprobe aus N p q n Untersuchungobjekten (z. B. Vpn) besteht. Fçr jedes Untersuchungsobjekt wird die abhångige Variable x erhoben. Die Messwerte werden nach dem in Tabelle
8.1 verdeutlichten allgemeinen Datenschema angeordnet. Die Messwerte sind hier 3fach indiziert (allgemein xijm ). Der erste Index (i) kennzeichnet die Zugehærigkeit zu einer der Stufen des Faktors A, der zweite Index (j) kennzeichnet die Stufe des Faktors B und der dritte Index (m) die Nummer der unter der Faktorstufenkombination ij beobachteten Untersuchungseinheit. (Der Messwert x214 stellt somit die Ausprågung der abhångigen Variablen bei der 4. Vpn dar, die unter den Faktorstufen a2 und b1 beobachtet wurde.) Ausgehend von den Einzelmessungen xijm kann fçr jede Stichprobe (Faktorstufenkombination P oder Zelle) die Summe ABij xijm berechnet m
werden. Aus den Summen fçr die einzelnen Stichproben ergeben sich folgende Summen fçr die einzelnen Faktorstufen: X X Ai ABij ; Bj ABij j
i
und als Gesamtsumme: X XX X Ai Bj ABij G i
j
XXX i
j
m
i
j
xijm :
Man beachte: Kleine Buchstaben kennzeichnen Faktorstufen und groûe Buchstaben Summen. Aus den Summen werden Mittelwerte, wenn die Groûbuchstaben einen Querstrich tragen (Ai ; Bj ; ABij ; G). Wir wollen uns das Prinzip der zweifaktoriellen Varianzanalyse in Abgrenzung zur einfaktoriellen Varianzanalyse zunåchst an einem einfachen Beispiel erarbeiten und auf die zu prçfenden Hypothesen erst spåter eingehen. Die Theorie der zweifaktoriellen Varianzanalyse ist Gegenstand von 12.2.
Von der einfaktoriellen zur zweifaktoriellen Varianzanalyse Anknçpfend an Tabelle 7.6 soll zunåchst mit einer einfaktoriellen Varianzanalyse çberprçft werden, wie sich 3 Behandlungsformen (Plazebo, einfache Dosis, doppelte Dosis eines Medikaments) auf die Depressivitåt von jeweils n 10 Patienten (gleichgroûe Stichproben!) auswirken. Tabelle 8.2 zeigt die Daten und das Ergebnis der einfaktoriellen Varianzanalyse.
8
292
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
Tabelle 8.2. Beispiel fçr eine einfaktorielle Varianzanalyse
Tabelle 8.3. Beispiel fçr eine zweifaktorielle Varianzanalyse
Behandlungsart
Faktor A
Plazebo einfache Dosis
Ai : Ai :
doppelte Dosis
18 22 25 19 22 19 21 17 21 22
19 16 16 15 17 16 20 15 16 16
16 13 12 12 14 16 13 13 14 12
206 20,6
166 16,6
135 13,5
G 507 G 16; 9
Faktor B
Plazebo (1)
einfache Dosis (2)
doppelte Dosis (3)
månnlich (1)
22 25 22 21 22
16 16 16 15 15
13 12 12 13 12
weiblich (2)
18 19 17 21 19
19 20 17 16 16
16 14 16 13 14
Ergebnis der Varianzanalyse:
8
Q.d.V.
QS
df
^2 r
F
Behandlungsart Fehler
253,4 95,3
2 27
126,70 3,53
35,89
Total
348,7
29
A1 20;6 A2 16;6 A3 13;5 :
Wir wollen nun annehmen, dass sich die 10 unter den einzelnen Treatmentstufen beobachteten Vpn zu gleichen Teilen aus månnlichen und weiblichen Patienten zusammensetzen. Tabelle 8.3 zeigt die gleichen, aber zusåtzlich nach dem Geschlecht der Patienten gruppierten Daten der Tabelle 8.2. Zunåchst fassen wir die Datenmatrix zu Mittelwerten zusammen. Wir berechnen fçr jede Faktorstufenkombination die einzelnen Mittelwerte P nach der allgemeinen Beziehung ABij xijm =n. m
Die Ergebnisse sind in der folgenden Aufstellung enthalten: a1
a2
a3
b1 (<)
22,4
15,6
12,4
b2 (,)
18,8
17,6
14,6
Der Mittelwert AB31 12;4 als Beispiel ergibt sich aus den Werten
13 12 12 13 12=5 12;4. Ferner benætigen wir die Mittelwerte der Stufen des Faktors A, die bereits in Tabelle 8.2 berechnet wurden. Sie lauten:
Die 15 unter Stufe 1 des Faktors B und die 15 unter Stufe 2 des Faktors B beobachteten Werte haben die folgenden Mittelwerte: B1 252=15 16;18 B2 255=15 17;0 : Das Gesamtmittel aller Werte lautet: G 16;90. In der einfaktoriellen Varianzanalyse wirkt das Geschlecht als unkontrollierte Stærvariable mæglicherweise Fehlervarianz vergræûernd. Wir wollen nun durch eine zweifaktorielle Varianzanalyse çberprçfen, ob die Fehlervarianz verringert werden kann, wenn die Geschlechtsvariable in der Auswertung berçcksichtigt wird. Zusåtzlich wollen wir wissen, ob månnliche und weibliche Patienten signifikant unterschiedlich auf die Behandlungen reagieren.
Quadratsummenzerlegung Totale Quadratsumme. Wie bei der einfaktoriellen Varianzanalyse benætigen wir zunåchst die totale Quadratsumme
QStot , die die Unterschiedlichkeit aller Messwerte kennzeichnet. Da die 30 Daten gegençber Tabelle 8.2 nicht veråndert wurden, kænnen wir den Wert fçr die QStot çbernehmen. Sie lautet:
a8.1
QStot 348;70 ;
QSFehler
oder allgemein: XXX
xijm QStot i
XXX i
G2 :
8:1
m
j
8
293
Zweifaktorielle Varianzanalyse
22
m
j
xijm
22;42
25
. . .
13
ABij 2
8:3
22;42
14;62
14
14;62
40;80 :
Quadratsumme der Zellen. Als nåchstes çberprçfen wir, wie die Werte beschaffen sein mçssten, wenn sie nur von den beiden Faktoren abhången wçrden. Wir fragen beispielsweise, wie groû die Testwerte der månnlichen Personen sein mçssten, wenn sie ausschlieûlich durch das Geschlecht und die Plazebo-Wirkung bestimmt wåren (Gruppe ab11 ). Da alle unter dieser Faktorstufenkombination beobachteten Vpn bezçglich der Merkmale Geschlecht und Behandlung vergleichbar sind, mçssten sie auch die gleichen Testwerte aufweisen. Als Schåtzung der Messwerte, die alle zur selben Faktorstufenkombination bzw. Zelle gehæren, verwenden wir wie in der einfaktoriellen Varianzanalyse deren Mittelwert. Bei ausschlieûlicher Wirksamkeit der beiden untersuchten Faktoren erhalten wir somit eine modifizierte Datenmatrix, in der die 5 jeweils zu einer Zelle gehærenden Messwerte durch den jeweiligen Zellenmittelwert ersetzt sind. Summieren wir die quadrierten Abweichungen dieser Werte von G, resultiert die Quadratsumme, die auf die beiden Faktoren zurçckzufçhren ist. Fçr diese Quadratsumme, die wir mit QSZellen bezeichnen wollen, ergibt sich: XX
ABij G2
8:2 QSZellen n i
j
5
22;4
16;92
5
18;8
16;92
5
15;6
16;92
5
17;6
16;92
5
12;4
16;92
5
14;6
16;92
307;90 :
Fehlerquadratsumme. Die Fehlerquadratsumme entspricht der Quadratsumme innerhalb der 6 Zellen, die wir erhalten, indem pro Zelle die Summe der quadrierten Abweichungen der Einzelwerte vom Zellenmittelwert berechnet und çber die 6 Zellen summiert wird. Es resultiert:
Wir stellen somit fest, dass die QSFehler gegençber der einfaktoriellen Varianzanalyse in Tabelle 8.2 kleiner geworden ist, und zwar genau um den Betrag, um den die QSZellen gegençber der QStreat græûer geworden ist. Die Summe QSZellen + QSFehler ergibt wieder QStot . Durch die Aufteilung der Vpn nach ihrem Geschlecht wurde die Fehlerquadratsumme um den Betrag 54,5 zu Gunsten der QSZellen verkleinert. Håtte das Geschlecht keinen Einfluss auf die abhångige Variable ausgeçbt, wçrde die Einteilung der Vpn nach ihrem Geschlecht zu keiner Reduktion der QSFehler fçhren. Die QSFehler einer zweifaktoriellen Varianzanalyse ist somit kleiner oder hæchstens genauso groû wie die QSFehler einer einfaktoriellen Varianzanalyse, gerechnet çber dieselben, aber nur nach einem Faktor gruppierten Daten. Bis hierher wird man feststellen, dass sich die bisher besprochenen Rechenschritte durch nichts von einer normalen einfaktoriellen Varianzanalyse unterscheiden. Statt ± wie in Tabelle 8.2 ± 3 Gruppen 10 Vpn wurden lediglich 6 Gruppen 5 Vpn varianzanalytisch miteinander verglichen. In der Tat kænnten wir wie bei einer einfaktoriellen Varianzanalyse fortfahren, indem wir die Quadratsummen durch die entsprechenden Freiheitsgrade teilen und den F-Bruch nach Gl. (7.22) bilden. Am Ende dieser Analyse stçnde eine Aussage darçber, ob sich die aus 3 Behandlungsarten und 2 Geschlechtern gebildeten 6 Gruppen statistisch signifikant unterscheiden.
Quadratsummen der Haupteffekte. Um das Besondere einer zweifaktoriellen Varianzanalyse kennenzulernen, wollen wir die QSZellen genauer untersuchen. Es ist leicht einzusehen, dass die QSZellen vergræûert wird, wenn sich die 3 Behandlungsarten stårker unterscheiden. In diesem Fall werden die Unterschiede zwischen den 2 nach derselben Methode behandelten Geschlechtsgruppen zwar nicht vergræûert; die Unterschiedlichkeit zwischen jeweils 2 nach verschiedenen Methoden behandelten Gruppen nimmt jedoch zu. Desglei-
294
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
chen ist mit einer Vergræûerung der QSZellen zu rechnen, wenn die Geschlechtsunterschiede deutlicher werden. Hiervon bleiben zwar die 3 jeweils geschlechtshomogenen Gruppen unberçhrt; es wåre dafçr jedoch mit einer Zunahme des Unterschieds zwischen Gruppen verschiedenen Geschlechts zu rechnen. Man kænnte also meinen, dass sich die QSZellen einerseits aus der von den 3 Behandlungsmethoden herrçhrenden Unterschiedlichkeit und andererseits aus der geschlechtsspezifischen Unterschiedlichkeit zusammensetzt. Wir wollen deshalb prçfen, ob sich die QSZellen additiv aus der Quadratsumme fçr den Faktor A
QSA und der Quadratsumme fçr den Faktor B
QSB ergibt, die wir als Quadratsummen der Haupteffekte A und B bezeichnen. Die QSA entspricht der in Tabelle 8.2 ermittelten QStreat . Sie lautet: QSA 253;40 ;
8
oder allgemein: QSA n q
X
Ai
G2 :
8:4
i
Um die QSB zu ermitteln, ersetzen wir die 30 unter den beiden B-Stufen beobachteten Messwerte durch den Mittelwert der jeweiligen B-Stufe und berechnen die Summe der quadrierten Abweichungen von G. Sie lautet: QSB 15
16;8
16;92 15
17;0
16;92
0;30 ; oder allgemein: QSB n p
X
Bj
G2
8:5
j
Fçr QSA QSB erhalten wir somit: QSA QSB 253;40 0;30 253;70 : Vergleichen wir diesen Wert mit der QSZellen 307;90, stellen wir fest, dass die QSZellen nicht mit der Summe QSA QSB identisch ist. Die QSZellen ist um einen Differenzbetrag von 54,20 græûer als die beiden Haupteffektquadratsummen. Offenbar ist in der QSZellen eine Teilvariation enthalten, die weder auf die 3 Behandlungsmethoden (Haupteffekt A) noch auf Geschlechtsunterschiede (Haupteffekt B) zurçckzufçhren ist.
Quadratsumme der Interaktion. Die Interpretation dieser Teilvariation wird erleichtert, wenn wir uns çberlegen, unter welchen Umstånden die Zellenmittelwerte so geartet sind, dass die QSZellen nur Unterschiede zwischen den Behandlungsmethoden bzw. zwischen den Geschlechtern reflektiert. Dies wåre der Fall, wenn die Geschlechtsunterschiede unter allen 3 Behandlungsmethoden in konstanter Weise deutlich werden bzw. wenn die 3 Behandlungen die Depressivitåt der månnlichen und weiblichen Patienten in gleicher Weise beeinflussen. Dies trifft auf unsere Daten jedoch nicht zu. Insgesamt unterscheiden sich die Geschlechter um den Betrag 16;8 17;0 0;20. Fçr die 1. Behandlungsmethode registrieren wir hingegen eine Geschlechtsdifferenz von 22;4 18;8 3;6, fçr die 2. Behandlungsmethode 15;6 17;6 2; 00 und fçr die 3. Behandlungsmethode 12;4 14;6 2;2. Wåren die Zellenmittelwerte nur von der Art der Behandlung und dem Geschlecht der behandelten Personen abhångig, mçssten sie folgender Gleichung gençgen: 0
ABij Ai Bj
Gi :
8:6
Fçr die mit einem Plazebo behandelte månnliche Stichprobe (AB11 ) resultiert demnach 0
AB11 20;6 16;8
16;9 20;5 :
Tatsåchlich hat die Zelle ab11 jedoch den Mittelwert AB11 22;4. 0 Tabelle 8.4 zeigt, welche Zellenmittelwerte ABij wir bei ausschlieûlicher Wirksamkeit der Faktoren A und B zu erwarten håtten. In dieser Tabelle sind die Unterschiede zwischen den Geschlechtern bei allen 3 Behandlungsmethoden konstant (spaltenweiser Vergleich), und konstant sind auch die Unterschiede zwischen den 3 Behandlungsarten bei beiden Geschlechtern (zeilenweiser Vergleich). 0
Tabelle 8.4. Mittelwerte ABij bei additiver Wirkung der Faktoren A und B a1
a2
a3
b1 (<)
20,5
16,5
13,4
16,8
b2 (,)
20,7
16,7
13,6
17,0
20,6
16,6
13,5
a8.1
Mit diesen Mittelwerten entspricht die QSZellen der Summe aus QSA und QSB . Zur Kontrolle ersetzen wir die individuellen Werte durch diese Mittelwerte und berechnen nach den bereits bekannten Regeln die QS0Zellen : XX 0
ABij G2
8:7 QS0Zellen n i
j
5
20;5
16;9
2
16;9
2
16;9
2
5
20;7
16;9
2
5
16;7
16;92
5
13;6
16;92
5
16;5 5
13;4
8
295
Zweifaktorielle Varianzanalyse
253;70 : Die Summe aus QSA und QSB lautet: QSA QSB 253;40 0;30 253;70 : Repråsentieren die Zellenmittelwerte die Unterschiede zwischen den Zeilenmittelwerten und die Unterschiede zwischen den Spaltenmittelwerten, ergibt sich eine QSZellen , die der Summe aus QSA und QSB entspricht. Fçr die QSZellen , die von den empirisch gefundenen Zellenmittelwerten ausgeht, haben wir den Wert QSZellen 307;90 ermittelt. Die Differenz von 54,20 muss deshalb darauf zurçckgefçhrt werden, dass die empirischen Zellenmittelwerte nicht mit denjenigen Zellenmittelwerten çbereinstimmen, die wir erwarten, wenn sich Geschlechtsunterschiede bei allen Behandlungen und Behandlungsunterschiede bei beiden Geschlechtern gleichermaûen auswirken (kurz: erwartete Mittelwerte). Dieser Restbetrag der QSZellen von 54,20 resultiert, wenn wir die individuellen Messwerte durch die empirisch gefundenen Zellenmittelwerte ABij ersetzen und diese Werte mit den erwarteten Mit0 telwerten ABij vergleichen. Die Quadratsumme, die sich aus diesem Vergleich ergibt, bezeichnen wir in Abgrenzung von den Quadratsummen der Haupteffekte als Quadratsumme der Interaktion, die mit QSAB symbolisiert wird:
QSAB n
XX i
j
5
20;5
0
ABij
ABij 2
8:8
22;42
5
16;5
15;62
5
13;4
12;42
5
20;7
18;82
5
16;7
17;62
5
13;6
14;62
54;20 : Die Interaktion oder Wechselwirkung kennzeichnet einen çber die Haupteffekte hinausgehenden Effekt, der nur dadurch zu erklåren ist, dass mit der Kombination einzelner Faktorstufen eine eigenståndige Wirkung oder ein eigenståndiger Effekt verbunden ist.
Die in unserem Beispiel gefundene Interaktion besagt inhaltlich, dass die 3 Behandlungsarten geschlechtsspezifisch wirksam sind. Das Plazebo ist bei weiblichen Patienten wirksamer als bei månnlichen und das Medikament ist (in einfacher oder doppelter Dosis) bei månnlichen Patienten wirksamer als bei weiblichen Patienten (vgl. auch Abb. 8.1, S. 300). Eine Interaktion kann besagen, dass man die çber eine einfaktorielle Varianzanalyse ermittelte Bedeutung eines Faktors A nicht beliebig generalisieren kann. Håufig wird man feststellen, dass die Wirkung dieses Faktors fçr verschiedene Stufen eines weiteren Faktors B unterschiedlich ist. Zwei- (bzw. mehr-)faktorielle Varianzanalysen sind also einfaktoriellen Varianzanalysen nicht nur deshalb vorzuziehen, weil sie eine Reduktion der Fehlervarianz bewirken kænnen, sondern zusåtzlich wegen der Mæglichkeit des Aufdeckens von Interaktionen.
Zusammenfassung der Quadratsummen. Die zweifaktorielle Varianzanalyse fçhrt in unserem Beispiel zusammenfassend zu folgenden Quadratsummen: QSA 253;40 QSB 0;30 QSAB 54;20 QSZellen 307;90 QSFehler 40;80 QStot 348;70 :
296
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
In der zweifaktoriellen Varianzanalyse gelten die folgenden additiven Beziehungen: QStot QSZellen QSFehler :
8:9
Im Beispiel: 348;70 307;90 40;80 : QSZellen QSA QSB QSAB :
8:10
Im Beispiel:
dfAB p q
307;90 253;40 0;30 54;20 :
8:11
Die totale Quadratsumme wird in der zweifaktoriellen Varianzanalyse in die Quadratsumme des Faktors A, die Quadratsumme des Faktors B, die Wechselwirkungsquadratsumme und die Fehlerquadratsumme zerlegt.
8
p q
pq
Aus Gl. (8.9) und (8.10) resultiert die Beziehung: QStot QSA QSB QSAB QSFehler :
mit nicht p, sondern p 1 Mittelwerte und pro Spalte nicht q, sondern q 1 Mittelwerte frei variierbar, d. h., es sind eine Zeile und eine Spalte bzw. p q 1-Werte festgelegt. (Der Wert 1 muss abgezogen werden, weil bei der Addition der Anzahl der Werte in einer Zeile und der Anzahl der Werte in einer Spalte ein Wert doppelt gezåhlt wird.) Die dfAB lauten somit:
(Auf eine allgemeine Herleitung dieser grundlegenden Gleichung der zweifaktoriellen Varianzanalyse wollen wir verzichten. Sie wird analog durchgefçhrt wie die Herleitung der Grundgleichung in der einfaktoriellen Varianzanalyse, vgl. S. 254.) Die Messungen in einer zweifaktoriellen Varianzanalyse werden damit von 4 varianzgenerierenden Quellen beeinflusst: Faktor A, Faktor B, Interaktion A B und Fehlereffekte. Diese Effekte sind wechselseitig unabhångig.
Freiheitsgrade Offen blieb bisher die Frage, ob die gefundenen Haupteffekte und die Interaktion auch statistisch bedeutsam sind. Wie in der einfaktoriellen Varianzanalyse mçssen wir zur Ûberprçfung dieser Frage die Quadratsummen zunåchst in Varianzen çberfçhren. Hierfçr benætigen wir die entsprechenden Freiheitsgrade. Fçr die Haupteffekte A und B erhalten wir die Freiheitsgrade analog zur einfaktoriellen Varianzanalyse als die um 1 verminderte Anzahl der Faktorstufen: dfA p
1;
8:12
dfB q
1:
8:13
In die Berechnung der QSAB gehen jeweils p q empirische und erwartete Mittelwerte ein. Diese Mittelwerte mçssen jedoch im Zeilendurchschnitt die Zeilenmittelwerte bzw. im Spaltendurchschnitt die Spaltenmittelwerte ergeben. Pro Zeile sind so-
p
p
1
q1
1
q
1 :
8:14
Im Beispiel basiert die Berechnung der QSA ´ B auf 6 Summanden (vgl. S. 295). Wie man sich leicht çberzeugen kann, sind von diesen Summanden bei Vorgabe der Zeilen- und Spaltenmittelwerte nur (3 1) ´ (2 1) = 2 frei variierbar. Die Bestimmung der QSZellen geht von den Abweichungen der ABij -Werte von G aus. Da sich diese Abweichungen zu Null addieren mçssen, sind p q 1 Abweichungen frei variierbar, d. h., dfZellen p q
1:
8:15
Wie fçr die Quadratsummen (Gl. 8.10) gilt fçr die Freiheitsgrade folgende Beziehung: dfZellen dfA dfB dfAB p
1q
pq
1
p
1
q
1:
1
8:16
Bei der Ermittlung der QSFehler wird die Summe der quadrierten Abweichungen der einzelnen Messungen von ihrem jeweiligen Zellenmittelwert berechnet. Da die Summe der Abweichungen Null ergeben muss, sind pro Zelle n 1 bzw. bei p q Zellen p q
n 1 Werte frei variierbar: dfFehler p q
n
1 :
8:17
Fçr die dftot erhalten wir in Analogie zur einfaktoriellen Varianzanalyse dftot p q n
1:
In unserem Beispiel ermitteln wir: dfA
3 dfB
2
1 2 1 1
dfAB
3 1
2 1 2 dfFehler 3 2
5 1 24 dftot 3 2 5
1 29 :
8:18
a8.1
297
Zweifaktorielle Varianzanalyse
Die Fehlervarianz der zweifaktoriellen Varianzanalyse hat somit im Beispiel 3 Freiheitsgrade weniger als die entsprechende Fehlervarianz in der einfaktoriellen Varianzanalyse. Durch die Einfçhrung des Faktors B wurden der Fehlervarianz 3 Freiheitsgrade entzogen, die wir in der zweifaktoriellen Varianzanalyse als dfB und dfAB wiederfinden. Die Reduktion der Fehlerquadratsumme wird somit durch die Abgabe von 3 Freiheitsgraden ¹erkauftª. Es bleibt abzuwarten, ob sich dieser ¹Kaufª gelohnt hat. Wie man sich leicht çberzeugen kann, gilt Gl. (8.11) analog fçr die Freiheitsgrade: dftot dfA dfB dfAB dfFehler :
8:19
Die Anzahl aller Freiheitsgrade (dftot) setzt sich in der zweifaktoriellen Varianzanalyse additiv aus den Freiheitsgraden der Haupteffekte (dfA und dfB), den Freiheitsgraden der Interaktion (dfA ´ B) und den Fehlerfreiheitsgraden (dfFehler) zusammen.
Fehlervarianz, die ± wie wir noch sehen werden ± eine sehr viel klarere Entscheidung hinsichtlich der Unterschiedlichkeit der 3 Behandlungsmethoden gestattet. Die Tatsache, dass die QSFehler einer einfaktoriellen Varianzanalyse niemals kleiner sein kann als die QSFehler einer entsprechenden zweifaktoriellen Varianzanalyse, bedeutet keineswegs, dass auch die Fehlervarianz einer einfaktoriellen Varianzanalyse niemals kleiner sein kann als die Fehlervarianz einer zweifaktoriellen Varianzanalyse. Die Einfçhrung eines neuen Faktors reduziert bei gleichbleibender Vpn-Zahl die Freiheitsgrade der Fehlerquadratsumme, d. h., die Fehlervarianz wird bei unverånderter Fehlerquadratsumme græûer. Wåre in unserem Beispiel die Interaktion Geschlecht Behandlungsmethoden genauso unbedeutend wie der Geschlechtsfaktor selbst, håtte dies in der zweifaktoriellen Varianzanalyse zu einer Fehlervarianz gefçhrt, die græûer ist als die Fehlervarianz der einfaktoriellen Varianzanalyse.
Varianzschåtzungen
Hypothesen
Dividieren wir die Quadratsummen durch die entsprechenden Freiheitsgrade, resultieren in unserem Beispiel die folgenden Varianzschåtzungen:
Die zweifaktorielle Varianzanalyse çberprçft 3 verschiedene, voneinander unabhångige Nullhypothesen, die sich auf die beiden Haupteffekte und die Interaktion beziehen. Sie lauten: · Die unter den Stufen des Faktors A beobachteten Untersuchungsobjekte gehæren Grundgesamtheiten mit gleichen Mittelwerten an (H0: 1 2 p ). · Die unter den Stufen des Faktors B beobachteten Untersuchungsobjekte gehæren Grundgesamtheiten mit gleichen Mittelwerten an (H0: 1 2 q ). · Die Zellenmittelwerte der Faktorstufenkombinationen ij setzen sich additiv aus den Haupteffekten zusammen (H0: ij i j ) oder kurz: zwischen den beiden Faktoren besteht keine Interaktion.
^2A 253;40=2 126;70 r ^2B 0;30=1 0;30 r ^2AB 54;20=2 27;10 r ^2Fehler 40;80=24 1;70 : r ^2Zellen wird fçr die weitere Auswertung in (Die r der Regel nicht benætigt.) ^2A entspricht, wie zu erwarten, der r ^2treat Die r aus der einfaktoriellen Varianzanalyse. Ferner stel^2Fehler in der zweifaktoriellen len wir fest, dass die r Varianzanalyse gegençber der einfaktoriellen Varianzanalyse kleiner geworden ist. In der einfaktoriellen Varianzanalyse enthålt die Fehlervarianz (^ r2Fehler 3;53) Anteile, die auf das Geschlecht der Patienten bzw. vor allem auf die Interaktion des Geschlechts mit den Behandlungsmethoden zurçckzufçhren sind. Die zweifaktorielle Varianzanalyse ermæglicht somit nicht nur eine quantitative Bestimmung der spezifischen Reaktionsweise månnlicher bzw. weiblicher Patienten auf die verschiedenen Behandlungsmethoden, sondern fçhrt zusåtzlich (in diesem Fall) zu einer verkleinerten
Signifikanztests Die Nullhypothesen werden geprçft, indem wir die 3 entsprechenden Varianzen durch die Fehlervarianz dividieren und die so ermittelten F-Werte mit den fçr ein bestimmtes Signifikanzniveau kritischen F-Werten, die wir Tabelle E entnehmen, vergleichen (zur theoretischen Herleitung vgl. unter 12.2).
8
298
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
In unserem Beispiel resultieren die folgenden empirischen F-Werte: 126;70 74;53 FA 1;70 0;30 FB 0;18 1;70 27;10 15;94 : FAB 1;70
Rechnerische Durchfçhrung Die rechnerische Durchfçhrung einer zweifaktoriellen Varianzanalyse kann erleichtert werden, wenn wir folgende Kennziffern einsetzen: XXX G2
1 ;
2 x2ijm ; pqn m i j P 2 P 2 Bj Ai
3
Der fçr das 1%-Niveau kritische F-Wert lautet fçr den Faktor A und die Interaktion: F
2;24;99% 5;61 :
8
Die H0 bezçglich der 3 Behandlungsmethoden kann also auf Grund der zweifaktoriellen Varianzanalyse deutlicher verworfen werden als in der einfaktoriellen Varianzanalyse, obwohl der kritische Wert mit 5,61 in der zweifaktoriellen Varianzanalyse wegen der reduzierten dfFehler græûer ist als in der einfaktoriellen (F
2;27;99% 5;50). Ferner zeigt die zweifaktorielle Varianzanalyse, dass die Interaktion Behandlungsart Geschlecht, die in Abb. 8.1 (S. 300) graphisch dargestellt wird, ebenfalls hochsignifikant ist. FB ist kleiner als 1 und damit nicht signifikant. Gemessen an der durchschnittlichen Wirkung aller 3 Behandlungsmethoden reagieren månnliche und weibliche Patienten nicht unterschiedlich.
i
qn PP i
j
;
4
j
pn
;
AB2ij
: n In diesen Ziffern werden lediglich Summen benætigt, was gegençber der Vorgehensweise im einfçhrenden Beispiel zu erhæhter Rechengenauigkeit fçhrt. (Die Gleichungen 8.1 bis 8.8 operieren mit Mittelwerten, die in der Regel gerundet sind.) Tabelle 8.5 zeigt, wie die einzelnen Quadratsummen auf Grund der Kennziffern bestimmt werden. Man erhålt QSA QSB QSAB QSFehler QStot :
5
3
1
4
2
1
5
5
2
Quelle der Variation (Q.d.V.)
Quadratsumme (QS)
Freiheitsgrade
df
Varianz
^ r2
F-Wert
F
A
3
1
p
1
QSA dfA
^2A r 2 ^Fehler r
B
4
1
q
1
QSB dfB
^2B r 2 ^Fehler r
A´B
5
3
QSAB dfAB
^2AB r ^2Fehler r
Fehler
2
5
p q
n
Total
2
1
pqn
q
4
1
In unserem Beispiel (Tabelle 8.3) ermitteln wir folgende Kennziffern:
Tabelle 8.5. Allgemeine Ergebnistabelle einer zweifaktoriellen Varianzanalyse
4
1
3
1 :
1
q
1 1
1
QSFehler dfFehler QStot dftot
a8.1
299
Zweifaktorielle Varianzanalyse
1 G2 =p q n 5072 =3 2 5 8568;30 ; XXX x2ijm
2 i
m
j
2
2
22 25 132 142 8917 ; X A2i =q n
3 i
2062 1662 1352 =
2 5 8821;70 ; X B2j =p n
4 j
2
2
252 255 =
3 5 8568;60 ; XX AB2ij =n
5 i
j
2
112 782 622 942 882 732 =5 8876;20 : Fçr das Beispiel ergibt sich die unten aufgefçhrte Ergebnistabelle.
Hinweis: Auf S. 261 f. haben wir erfahren, wie eine einfaktorielle Varianzanalyse durchgefçhrt wird, wenn nur die Mittelwerte, Varianzen und Stichprobenumfånge bekannt sind. Eine Erweiterung dieses Ansatzes fçr zweifaktorielle Varianzanalysen findet man bei Huck u. Malgady (1978). Varianzaufklårung Auch in der zweifaktoriellen Varianzanalyse kænnen wir ermitteln, welcher prozentuale Anteil der Variation in der abhångigen Variablen auf die beiden Haupteffekte und die Interaktion zurçckgefçhrt werden kann. Ein deskriptives Maû (g2 100) resultiert, wenn wir die entsprechenden Quadratsummen durch die QStot dividieren und die Ergebnisse mit 100% multiplizieren (vgl. Kennedy, 1970; Haa-
se, 1983). In unserem Beispiel ermitteln wir folgende Werte: 253;40 Faktor A: 100% 72;67% ; 348;70 0;30 Faktor B: 100% 0;09% ; 348;70 54;20 100% 15;54% : Interaktion AB: 348;70
Hinweis: Andere Ansåtze zur Schåtzung der Varianzaufklårung durch Haupteffekte bzw. Interaktionen (partielles g2 und x2 ) diskutieren Cohen (1973) sowie Keren u. Lewis (1979). Das partielle g2 als varianzanalytische Effektgræûe wird auf S. 303 dargestellt. Ein Verfahren, mit dem Unterschiede in der Varianzaufklårung durch verschiedene Effekte auf Signifikanz getestet werden kænnen, wird von Ronis (1981) vorgestellt. Dieses Verfahren ist jedoch nur auf 2 2 Plåne (bzw. allgemein 2k -Plåne) anwendbar. Eine Berechnungsvorschrift fçr die Varianzaufklårung g2 , die nur auf F-Werten und Freiheitsgraden basiert, findet man bei Haase (1983). Diese Berechnungsvorschrift ist hilfreich, wenn man z. B. im Rahmen von Metaanalysen Varianzaufklårungen auf Grund varianzanalytischer Ergebnistabellen berechnen will, in denen die einzelnen Quadratsummen ± was leider håufig vorkommt ± nicht aufgefçhrt sind. Interaktionsdiagramme Die Interpretation einer signifikanten Interaktion wird durch eine graphische Darstellung erleichtert. Hierfçr fertigen wir ein Interaktionsdiagramm an, auf dessen Abszisse der Faktor mit der græûeren Stufenzahl abgetragen wird. Die Or-
Ergebnistabelle fçr das Beispiel Q.d.V.
QS
df
^2 r
F
A B AB Fehler
(3)±(1) = 253,40 (4)±(1) = 0,30 (5)±(3)±(4)+(1) = 54,20 (2)±(5) = 40,80
3±1 = 2 2±1 = 1 (3±1)(2±1) = 2 32(5±1) = 24
126,70 0,30 27,10 1,70
74,53** 0,18 15,94**
Total
(2)±(1) = 348,70
325±1 = 29
8
300
dinate bezeichnet die abhångige Variable (Mittelwerte der Faktorstufenkombinationen). Fçr jede Stufe des anderen Faktors ergibt sich ein Linienzug, der die Græûe der Mittelwerte der entsprechenden Faktorstufenkombinationen veranschaulicht. Abbildung 8.1 zeigt das Interaktionsdiagramm des zuletzt behandelten Beispiels. Verlaufen die Linienzçge wie in unserem Beispiel nicht parallel, besteht zwischen den Faktoren eine Interaktion. Erweist sich in einer zwei- (oder mehr-)-faktoriellen Varianzanalyse eine Interaktion als signifikant, ist die Interpretation der entsprechenden Haupteffekte an der Interaktion zu relativieren. Zwar ist es richtig, wenn man im Beispiel auf Grund des nichtsignifikanten Geschlechtsfaktors behauptet, dass sich månnliche und weibliche Patienten insgesamt nach der Behandlung nicht unterscheiden. Die signifikante Interaktion fordert jedoch eine weitergehende Interpretation, die besagt, dass die Plazebo-Behandlung bei weiblichen Patienten stårker depressionsreduzierend wirkt als bei månnlichen Patienten, wåhrend umgekehrt die Behandlung mit einer einfachen oder doppelten Dosis bei månnlichen Patienten stårker wirkt als bei weiblichen. Dem signifikanten Haupteffekt A (verschiedene Behandlungsarten) entnehmen wir, dass die doppelte Dosis generell stårker wirkt als die einfache und diese wiederum stårker als das Plazebo. Diese Rangfolge gilt fçr weibliche und månnliche Patienten. Rosnow u. Rosenthal (1989) machen darauf aufmerksam, dass die Interpretation von Interaktions-
A.V.
8
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
22 21 20 19 18 17 16 15 14 13 12
2
b2 weiblich
1
0
-1
b1 männlich
-2 a1
a2
a3
Abb. 8.2. Interaktionsdiagramm auf der Basis der ResidualMittelwerte Tabelle 8.6. Residual-Mittelwerte ABij
b1 b2
a1
a2
a3
1;9 1;9
0;9 0;9
1;0 1;0
0
ABij
effekten håufig durch die gleichzeitige Berçcksichtigung von Haupteffekten verfålscht wird. Sie schlagen deshalb vor, die Interpretation einer Interaktion an den residualen Mittelwerten vorzunehmen, die man erhålt, wenn die gemåû Gl. (8.6) erwarte0 ten Mittelwerte ABij von den empirischen Mittelwerten abgezogen werden. Bezogen auf unser Beispiel ergeben sich die in Tabelle 8.6 wiedergegebenen Residual-Mittelwerte. Das Interaktionsdiagramm auf der Basis dieser Residual-Mittelwerte zeigt Abb. 8.2. Dieses Interaktionsdiagramm kennzeichnet die inhaltliche Aussage der Interaktion eindeutiger als Abb. 8.1. Weniger geçbte Varianzanalytiker sollten deshalb die in Abb. 8.2 gewåhlte Darstellungsform pråferieren.
weiblich (b2) männlich (b1)
Placebo (a1)
einfache Dosis (a2)
doppelte Dosis (a3)
Faktor A
Abb. 8.1. Interaktionsdiagramm fçr die Daten in Tabelle 8.3
Klassifikation von Interaktionen Die Beantwortung der Frage, welche Haupteffekte eindeutig interpretierbar sind, wird durch die Klassifikation der (signifikanten) Interaktionen erleichtert. Leight u. Kinnear (1980) schlagen hierfçr 3 Kategorien von Interaktionen vor: ordinale, hybride und disordinale Interaktion.
Hybride Interaktion. Das linke Diagramm in Abb. 8.3 b zeigt zwei Linienzçge mit gegenlåufigem Trend, was zwangslåufig dazu fçhrt, dass sich die Linienzçge im rechten Diagramm çberschneiden. Dennoch sind die Trends im rechten Diagramm gleichsinnig. Die Rangfolge der Mittelwerte des Haupteffektes B (B1 > B2 ) gilt fçr beide Stufen des Faktors A, d. h., der Haupteffekt B ist eindeutig interpretierbar. Haupteffekt A hingegen sollte nicht interpretiert werden. Die Aussage A1 < A2 gilt nur fçr die Stufe b1 . Fçr b2 ist der Trend genau umgekehrt.
b2
A.V.
A.V.
b1
a2 a1
a1
a2
b hybrid
b1
b2
b1
A.V.
a1 a2
b2
a1
a2
b1
b2
c disordinal b1
b2
a1
A.V.
Ordinale Interaktion. Abbildung 8.3 a zeigt, dass die Linienzçge sowohl im linken als auch im rechten Diagramm den gleichen Trend aufweisen (links: steigend; rechts: fallend). Die Rangfolge der A-Stufen ist fçr b1 und b2 identisch, und die Rangfolge der B-Stufen ist fçr a1 und a2 identisch. Beide Haupteffekte sind damit eindeutig interpretierbar. Die Rangfolge der Mittelwerte des Haupteffektes A (A1 < A2 ) gilt fçr beide Stufen des Faktors B (AB11 < AB21 und AB12 < AB22 ), und die Rangfolge der Mittelwerte des Haupteffektes B gilt fçr beide Stufen des Faktors A.
a ordinal
A.V.
Fçr die Klassifikation einer Interaktion fertigt man einfachheitshalber 2 Interaktionsdiagramme an. Im ersten Diagramm werden die Stufen des Faktors A und im zweiten Diagramm die Stufen des Faktors B auf der Abszisse abgetragen. Abbildung 8.3 a±c verdeutlicht die 3 Interaktionsmuster fçr Plåne mit zweifach gestuftem Faktor A und zweifach gestuftem Faktor B (2 2 Plåne).
8
301
Zweifaktorielle Varianzanalyse
A.V.
a8.1
a2
a1
a2
b1
b2
Abb. 8.3 a±c. Klassifikation von Interaktionen: a ordinale Interaktion, b hybride Interaktion, c disordinale Interaktion
Disordinale Interaktion. Abbildung 8.3 c verdeutlicht divergierende Linienzçge sowohl im linken als auch im rechten Diagramm, d. h., beide Haupteffekte sind fçr sich genommen inhaltlich bedeutungslos. Unterschiede zwischen a1 und a2 sind nur in Verbindung mit den Stufen des Faktors B und Unterschiede zwischen b1 und b2 nur in Verbindung mit den Stufen des Faktors A sinnvoll interpretierbar.
des Diagramm mit den Stufen des Faktors B als Abszisse an, wird deutlich, dass die Linienzçge fçr a2 und a3 monoton steigen und der Linienzug fçr a1 monoton fållt. Faktor B wåre ± auch wenn er signifikant sein sollte ± nicht interpretierbar. (Die gleichen Informationen lassen sich natçrlich auch der Mittelwerttabelle auf S. 292 direkt entnehmen. In der ersten Spalte (a1 ) zeigt sich ein fallender und in der zweiten und dritten Spalte (a2 und a3 ) ein ansteigender Trend. Die Mittelwerte der beiden Zeilen sind monoton fallend.) Die im Beispiel gefundene Interaktion ist damit als hybrid zu klassifizieren.
Datenrçckgriff. Nach diesen Ausfçhrungen kænnen wir auch die Interaktion im Beispiel klassifizieren. Die Linienzçge fçr b1 und b2 in Abb. 8.1 weisen den gleichen Trend auf, d. h., Faktor A ist eindeutig interpretierbar. Fertigt man ein entsprechen-
Hinweis: Eine Diskussion der Bedeutung ordinaler und disordinaler Interaktionen am Beispiel der Unterrichtsforschung findet man bei Bracht u. Glass (1975). Prçfmæglichkeiten fçr diese drei Interaktionsformen werden bei Shaffer (1991) diskutiert.
302
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
Feste und zufållige Effekte
8
Die bisher behandelte inferenzstatistische Absicherung varianzanalytischer Effekte durch F-Tests (vgl. S. 298 bzw. Tabelle 8.5) geht von der Vorstellung aus, dass tatsåchlich nur Aussagen çber die in einer Untersuchung realisierten Treatmentstufen gemacht werden. Gelegentlich kommt es jedoch vor, dass man unabhångige Variablen als varianzanalytische Faktoren untersuchen mæchte, bei denen die konkrete Auswahl der Faktorstufen im Grunde beliebig ist. In diesem Zusammenhang wåre beispielsweise an Untersuchungen zu denken, die den Einfluss von Untersuchungsleitern auf Untersuchungsergebnisse, den Einfluss von Therapeuten auf den Therapieerfolg, die Abhångigkeit der Schçlerleistungen von Lehrern u. Ø. çberprçfen. Hier geht es nicht darum, Unterschiede zwischen bestimmten Untersuchungsleitern festzustellen, sondern um die Frage, ob Untersuchungsleiter çberhaupt die abhångige Variable beeinflussen. Die Auswahl der Untersuchungsleiter ist fçr diese Fragestellung beliebig. Will man zudem die Ergebnisse auf die Population aller mæglichen Untersuchungsleiter generalisieren, wird man als Stufen des Faktors ¹Untersuchungsleiterª eine Stichprobe zufållig ausgewåhlter Untersuchungsleiter einsetzen, wobei das Ausmaû der Generalisierbarkeit natçrlich von der Repråsentativitåt und Græûe dieser Stichprobe abhångt. Analog kænnte man in Bezug auf die Auswahl von Therapeuten, Lehrern etc. argumentieren. Faktoren, deren Stufen aus der Population mæglicher Faktorstufen zufållig ausgewåhlt werden, bezeichnet man als Faktoren mit zufålligen Effekten (¹random factorsª). Wåhlt man jedoch systematisch nur diejenigen Faktorstufen aus, çber die man letztlich Aussagen formulieren will, sprechen wir von einem Faktor mit festen Effekten (¹fixed factorsª). Dies gilt auch fçr Faktoren, die alle mæglichen Abstufungen einer unabhångigen Variablen umfassen (z. B. månnlich±weiblich, Unterschicht±Mittelschicht±Oberschicht, jung±alt). Fçr die rechnerische Durchfçhrung einer einfaktoriellen Varianzanalyse ist es unerheblich, ob der untersuchte Faktor zufållig oder fest ist. Unterschiede ergeben sich lediglich in der Interpretation. Die einfaktorielle Varianzanalyse çber einen festen Faktor çberprçft die H0: 1 2 . . . p , d. h., bei einem signifikanten F-Test kænnen wir behaupten, dass sich mindestens 2 der tatsåch-
Tabelle 8.7. Prçfvarianzen in der zweifaktoriellen Varianzanalyse Prçfvarianzen zu prçfende Varianz
I A fest B fest
II A fest B zufållig
III A zufållig B zufållig
^2A r
^2Fehler r
^2AB r
^2AB r
^2B r
^2Fehler r
^2Fehler r
^2AB r
^2AB r
^2Fehler r
^2Fehler r
^2Fehler r
lich untersuchten Faktorstufen unterscheiden. Stellen die in einer Untersuchung realisierten Faktorstufen eine Zufallsauswahl aller mæglichen Faktorstufen dar, besagt ein signifikanter F-Test, dass die Wirkungen aller mæglichen Faktorstufen nicht gleich sind. Die Interpretation eines signifikanten zufålligen Faktors ist damit weitergehend als die Interpretation eines signifikanten festen Faktors. Dieser interpretative Vorteil wird allerdings durch eine zusåtzliche Voraussetzung ¹erkauftª: Die Varianzanalyse çber zufållige Faktoren setzt voraus, dass die mit allen mæglichen Faktorstufen verbundenen Treatmenteffekte normalverteilt sind. Die Indizes zur Varianzaufklårung (vgl. S. 280 f. bzw. S. 299) sind auf Faktoren mit zufålligen Effekten nicht çbertragbar. Die hierfçr einzusetzende ¹Intraklassenkorrelationª wird bei Hays (1994, Kap. 13.5) beschrieben. Wie in Kap. 12 gezeigt wird, ergeben sich fçr Plåne mit zwei festen Faktoren (Modell I), mit einem festen und einem zufålligen Faktor (Modell II) und mit zwei zufålligen Faktoren (Modell III) fçr die einzelnen Varianzen unterschiedliche Prçfvarianzen, die in Tabelle 8.7 wiedergegeben sind. Die Tabelle zeigt, dass z. B. der feste Faktor im Modell II nicht an der Fehlervarianz, sondern an der Interaktionsvarianz getestet wird. Ein signifikanter F-Test fçr den festen Faktor A besagt in diesem Plan, dass die Unterschiede zwischen den Stufen des Faktors A nicht nur fçr die konkret untersuchten Stufen des zufålligen Faktors B gelten, sondern fçr alle mæglichen Stufen, es sei denn, die Interaktion A B ist ebenfalls signifikant. In diesem Fall wåre eine Generalisierung nicht mæglich.
a8.1
BEISPIEL Nehmen wir an, es wird çberprçft, ob die Testergebnisse von Abiturienten von 3 verschiedenen Testinstruktionen (Faktor A: feste Effekte) und 8 verschiedenen Testleitern (Faktor B: zufållige Effekte) abhången. Jeder Testleiter untersucht unter jeder Instruktion eine Zufallsstichprobe von n Abiturienten. Ein signifikanter Haupteffekt B besagt zunåchst, dass die Testergebnisse nicht nur von den 8 eingesetzten Testleitern, sondern von Testleitern generell (bzw. von der Art von Testleitern, die die eingesetzten 8 Testleiter repråsentieren) abhången. Ein signifikanter Haupteffekt A wçrde bei einer nicht signifikanten Interaktion A B bedeuten, dass die gefundenen Instruktionsunterschiede nicht an die untersuchten Testleiter gebunden sind, sondern auch bei anderen Testleitern der gleichen Population auftreten kænnen. Ist jedoch die Interaktion A B signifikant, hången die Instruktionseffekte davon ab, welcher Testleiter den Test durchfçhrt.
Hinweis: Bei Plånen dieser Art kann es durchaus vorkommen, dass Faktor A signifikant wird, wenn man Faktor B wie einen zufålligen Faktor behan^2AB die Prçfvarianz delt (in diesem Fall wåre die r fçr Faktor A), bzw. dass Faktor A nicht signifikant wird, wenn die gleichen Stufen des Faktors B als systematische Auswahl (fester Faktor) betrach^2Fehler als Prçfvarianz fçr Faktor tet werden (mit r A). Bezogen auf das oben erwåhnte Beispiel mçsste man dann also behaupten, dass sich die 3 untersuchten Testinstruktionen nicht unterscheiden, wenn man bestimmte, nicht zufållig ausgewåhlte Testleiter einsetzt, dass aber mit bedeutsamen Instruktionsunterschieden sehr wohl zu rechnen ist, wenn man zufållig andere Testleiter ¹von der Artª der ausgewåhlten Testleiter eingesetzt håtte. Diese offenkundig widersinnige Schlussfolgerung veranlasste Hopkins (1983), fçr diese und åhnliche Plåne zu fordern, F-Tests mit Interaktionen als Prçfvarianzen nur dann durchzufçhren, wenn sich der zu testende Effekt in einem F-Test mit ¹normalerª Fehlervarianz als signifikant erwiesen hat. Hinter dieser Forderung verbirgt sich der plausible Gedanke, dass generalisierende Aussagen çber Unterschiede, die in einer Population gçltig sein sollen, erst dann zu rechtfertigen seien, wenn die in einer Stichprobe angetroffenen Unterschiede statistisch bedeutsam sind. Gelegentlich kann es sinnvoll sein, nicht nur zwischen Faktoren mit fester oder zufålliger Stufenauswahl zu unterscheiden, sondern auch zwischen Faktoren, die eine Randomisierung der Stichproben gestatten (z. B. verschiedene Be-
8
303
Zweifaktorielle Varianzanalyse
handlungsformen), und solchen, bei denen eine Randomisierung nicht mæglich ist (organismische Variablen wie z. B. Geschlecht, Alter o. Ø.). Schlussfolgerungen, die man aus dem Vergleich mehrerer randomisierter Stichproben zieht, haben ± wie bereits auf S. 248 erwåhnt ± eine hæhere interne Validitåt als Untersuchungsergebnisse, die an nicht randomisierten Stichproben gewonnen wurden (vgl. hierzu auch Bortz u. Dæring, 2002, unter den Stichworten experimentelle bzw. quasiexperimentelle Untersuchung). Organismische Variablen sind in der Regel mit vielen anderen Variablen konfundiert, sodass man bei einem Vergleich von Stichproben aus verschiedenen ¹natçrlichenª Populationen oftmals nicht entscheiden kann, welche Variablen tatsåchlich fçr mægliche Unterschiede verantwortlich sind. Plant man eine Untersuchung, die sowohl ¹randomisierbareª als auch ¹nicht randomisierbareª Variablen als varianzanalytische Faktoren kontrolliert (z. B. 3 verschiedene Behandlungsarten als randomisierbare Variable und das Geschlecht als nicht randomisierbare Variable), kann es aufschlussreich sein, dies in der Auswertung zu berçcksichtigen. Ûber einen Ansatz, der eine Separierung der Effekte organismischer Variablen und der Effekte randomisierter Treatmentvariablen gestattet, berichtet Lienert (1984).
¹Optimaleª Stichprobenumfånge Die Bestimmung ¹optimalerª Stichprobenumfånge fçr zweifaktorielle Plåne knçpft unmittelbar an die entsprechenden Ûberlegungen fçr einfaktorielle Plåne an (vgl. S. 258 ff.).
Haupteffekte: Fçr die Haupteffekte schåtzen wir die Streuung des Merkmals (der abhångigen Variablen) innerhalb der Populationen fçr die Faktorstufenkombinationen und ermitteln eine Effektgræûe " nach Gl. (7.26 oder 7.26 a). Soll die Effektgræûe çber die Varianzaufklårung g2 bestimmt werden (Gl. 7.29), ist hierfçr ein partielles g2p zu verwenden: g2p
QSEffekt QSEffekt QSPruf
8:20
mit QSEffekt Quadratsumme desjenigen Effektes, fçr den ¹optimaleª Stichprobenumfånge errechnet werden sollen, und QSPruf Quadratsumme, aus der die Prçfvarianz des Effektes berechnet wird. Hierzu åquivalente Bestimmungsgleichungen findet man bei Cohen (1973). In Gl. (8.20) wird die Quadratsumme des fraglichen Effektes (z. B. QSA ) nicht an der totalen Quadratsumme relativiert (vgl. S. 299), sondern an
304
8
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
der Summe aus QSEffekt und der Quadratsumme der Prçfvarianz (z. B. QSFehler bei festen Effekten). g2p ist also mit dem (deskriptiven) g2 der einfaktoriellen Varianzanalyse vergleichbar, da hier QStot QStreat QSFehler gilt. Die Ermittlung von Effektgræûen oder Teststårken in bereits durchgefçhrten Untersuchungen ± beispielsweise fçr Metaanalysen einer bestimmten Thematik ± bereitet Probleme, wenn die fçr Gl. (8.20) erforderlichen Quadratsummen nicht mitgeteilt werden. In diesem Fall sind die von Seifert (1991) vorgeschlagenen Alternativen zu Gl. (8.20) hilfreich. (Zur Frage der Vergleichbarkeit von Effektgræûen in mehrfaktoriellen varianzanalytischen Plånen im Kontext von Metaanalysen s. auch Morris u. De Shon, 1997). Fçr die Bestimmung optimaler Stichprobenumfånge geht man wie folgt vor: Tabelle 7.3 entnehmen wir fçr a 0;05, 1 b 0;80 und eine vorgegebene Effektgræûe " einen Stichprobenumfang n0 , der in einen fçr alle Faktorstufenkombinationen erforderlichen Stichprobenumfang n umzurechnen ist: n
n0 1
df 1 1: Anzahl der Faktorstufenkombinationen
8:21
Fçr df setzen wir die Anzahl der Freiheitsgrade desjenigen Effektes ein, der fçr die Bestimmung der optimalen Stichprobenumfånge ausschlaggebend sein soll. Wenn fçr beide Haupteffekte Effektgræûen vorgegeben werden kænnen und p 6 q ist, resultiert fçr die Absicherung des einen Haupteffektes ein anderer Stichprobenumfang als fçr die Absicherung des anderen Haupteffektes. In diesem Fall sollte der græûere Stichprobenumfang gewåhlt werden, denn er gewåhrleistet auch fçr den Haupteffekt, fçr den eine kleinere Stichprobe ausreichend wåre, (mindestens) die gewçnschte statistische Teststårke. Wenn wir in der Planungsphase des Beispiels davon ausgehen, dass das eingesetzte Antidepressivum auf Grund vorliegender Erfahrungen sehr wirksam ist, wåre es gerechtfertigt, fçr den Faktor A einen starken Effekt anzunehmen (" = 0,4 bzw. g2 & 0,14 gemåû Tabelle 7.3) Hierfçr entnehmen wir Tabelle 7.3 fçr dfA = 2 den Wert n0 21. Man
erhålt also nach Gl. (8.21) pro Faktorstufenkombination 1
2 1 1 11 : 6 Man mçsste also fçr die Untersuchung insgesamt 6 ´ 11 = 66 Patienten einplanen. Ex post ermitteln wir nach Gl. (8.20) ein partielles g2 von n
21
^g2p
QSA 253;40 0;86 OSA QSFeher 253;40 40;80
bzw. çber Gl. (7.29) s 0;862 "^ 1;68 : 1 0;862 Auch dieser extrem groûe Wert wåre ± wie der auf S. 259 ermittelte Wert ± der Manipulation verdåchtig, wenn man ihn als Ergebnis einer konkreten empirischen Untersuchung ermittelt håtte.
Interaktionen. Das Auffinden eines optimalen Stichprobenumfangs fçr die statistische Absicherung einer praktisch bedeutsamen Interaktion bereitet keine Probleme, wenn man sich mit der Vorgabe einer globalen Effektgræûe (schwach, mittel, stark) begnçgt. Man entnimmt Tabelle 7.3 einen n0 -Wert und transformiert diesen nach Gl. (8.21) in den fçr jede Faktorstufenkombination geforderten Stichprobenumfang n. Bezogen auf unser Beispiel (Tabelle 8.3) resultiert fçr a 0;05, 1 b 0;80 und " 0;25 (mittlere Effektgræûe) wegen dfAB 2 der Wert n0 52 bzw. n 27. Mit dieser Planungsgrundlage wåren also insgesamt 6 ´ 27 = 162 Patienten fçr die Untersuchung vorzusehen. Wenn es in der Untersuchung primår darauf ankommt zu zeigen, dass die Patienten auf die 3 Behandlungsformen geschlechtsspezifisch reagieren (Interaktion) und weniger darauf, dass sich die 3 Behandlungen im Durchschnitt unterscheiden (Haupteffekt A), sollten nicht 66, sondern insgesamt 162 Patienten untersucht werden. Erwartet man allerdings nicht nur einen starken Haupteffekt A, sondern auch einen starken Interaktionseffekt, reichen (wegen dfA ´ B = dfA = 2) 66 Patienten aus (fçr 1 b 0,8 und a 0,05). Soll eine Effektgræûe durch ein gemåû H1 erwartetes Interaktionspattern konkretisiert werden, ist wie folgt zu verfahren: In Analogie zu Gl. (8.6)
bestimmt man zunåchst diejenigen Zellenmittelwerte 0ij , die nach der H0 (keine Interaktion) zu erwarten wåren: 0ij i j
8
305
a8.2 Einzelvergleiche
:
8:22
Dieser Schritt setzt also voraus, dass man schon in der Planungsphase Vorstellungen çber die Græûe der Haupteffekte hat. Ferner wird çber die ij -Werte das Pattern der gemåû H1 erwarteten Interaktion festgelegt, sodass die folgende Effektgræûe berechnet werden kann (vgl. Cohen, 1988; Gl. 8.3.7): v uP P u
ij 0ij 2 1 u t i j " :
8:23 r pq Nehmen wir einmal an, die fçr Tabelle 8.3 gefundenen Mittelwerte ABij entspråchen dem a priori gemåû H1 festgelegten Interaktionspattern ij und die Ai - bzw. Bj -Werte den theoretisch erwarteten Populationsparametern i bzw. j . In diesem Fall 0 kænnten die in Tabelle 8.4 genannten ABij -Werte als Schåtzungen der 0ij-Werte interpretiert werden, die man bei Gçltigkeit von H0 (rq 0) erwarten AB wçrde. Unter Verwendung von
^2Fehler = 1,30 als r
Schåtzung von r schåtzen wir "^ çber Gl. (8.23) wie folgt: 1 "^ f
20;5 22;42
16;5 15;62 1;30 . . .
13;6 14;62 =3 2g1=2 r 1 10;84 1;03 : 1;30 6 Der Interaktionseffekt wåre also im Nachhinein ebenfalls als åuûerst stark zu klassifizieren. Die mit ihm verbundene Varianzaufklårung errechnet man çber Gl. (7.28) zu g2 = 0,51. Dieser Wert ist etwas kleiner als der eher ¹optimistischeª g2p -Wert nach Gl. (8.20). g2p 54;2=
54;2 40;8 0;57 :
Zufållige Effekte: Die bisherigen Ausfçhrungen galten fçr mehrfaktorielle Plåne, deren Faktoren feste Stufenauswahlen aufweisen (fixed factors). Enthålt ein mehrfaktorieller Plan einen oder mehrere Fak-
toren mit zufålligen Stufenauswahlen (¹random factorsª), åndern sich dadurch die Prçfvarianzen (vgl. Tabelle 8.7). Dies ist bei der Festlegung von Effektgræûen zu beachten. Statt der Streuung innerhalb der Populationen in den Gl. (8.23) und (7.27) verwenden wir allgemein eine Schåtzung derjenigen Streuung, die der Wurzel aus der jeweiligen Prçfvarianz entspricht.
8.2 Einzelvergleiche Wie bei der einfaktoriellen Varianzanalyse kænnen auch im Rahmen zweifaktorieller Varianzanalysen a priori formulierte Einzelvergleichshypothesen oder Trendhypothesen geprçft bzw. Unterschiede zwischen Mittelwerten a posteriori durch ScheffTests genauer analysiert werden.
Einfache Einzelvergleiche und Trendtests Eine Komponente bzw. einen Einzelvergleich des Faktors A definieren wir folgendermaûen:
^2D
A QSD
A r
nq
P Pi i
ci Ai
c2i
2
8:24
Fçr Faktor B ergibt sich eine Komponente zu: 2 P np cj Bj j P 2 ^2D
B
8:25 QSD
B r cj j
Als c-Koeffizienten kænnen in Gl. (8.24) bzw. (8.25) entweder die fçr einen geplanten A-prioriVergleich benætigten Werte bzw. die fçr eine bestimmte Trendkomponente erforderlichen Werte eingesetzt werden (vgl. 7.3 und 7.4). Die Prçfvarianz fçr eine Komponente ist auch hier von der Art der untersuchten Faktoren abhångig. Eine Komponente wird genauso getestet wie die Varianz, aus der sie entnommen wurde. Tabelle 8.7 informiert also auch çber die richtigen Prçfvarianzen fçr einzelne Varianzkomponenten. Der Scheff-Test lautet fçr den paarweisen Vergleich der Stufen des Faktors A:
306
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
s ^2t F
p 1;dft ;1 a 2
p 1 r Diff crit ; nq
8:26
^2Fehler , wenn B fest ist oder r ^2AB, ^2t r wobei r wenn B zufållig ist; dft dfFehler , wenn B fest ist oder dft dfAB, wenn B zufållig ist. Fçr Faktor B: s ^2t F
q 1;dft ;1 a 2
q 1 r Diff crit ;
8:27 np
8
^2Fehler , wenn A fest oder r ^2AB, wenn ^2t r wobei r A zufållig ist; dft dfFehler , wenn A fest ist oder dft dfAB , wenn A zufållig ist. Fçr den paarweisen Vergleich von Zellenmittelwerten: r ^2Fehler 2
p q 1 r Diff crit n p
8:28 F
pq 1;pq
n 1;1 a : Beim paarweisen Vergleich der Mittelwerte aller Faktorstufenkombinationen nach Gl. (8.28) ist zu beachten, dass die Ergebnisse sowohl von der Græûe der Haupteffekte als auch von der Interaktion abhången. Ein vollståndiger Satz orthogonaler Einzelvergleiche addiert sich hier zur QSZellen . Will man einen signifikanten Interaktionseffekt genauer explorieren bzw. prçfen, bieten sich verschiedene Techniken an, die im Folgenden dargestellt werden:
Bedingte Haupteffekte Bedingte Haupteffekte (oder auch ¹simple main effectsª) beziehen sich auf die Unterschiedlichkeit der Stufen des Faktors A unter den einzelnen Stufen des Faktors B (oder auch die Unterschiedlichkeit der Stufen des Faktors B unter den einzelnen Stufen des Faktors A). Die auf die Zellenmittelwerte unter bj bezogene Quadratsumme ergibt sich zu X
ABij Bj 2
8:29 QSAjbj n i
mit dfAjbj p 1. Fçr den bedingten Haupteffekt Bjai errechnet man X
ABij Ai 2
8:30 QSBjai n j
mit dfBjai q
1.
Falls mehrere bedingte Haupteffekte a posteriori an der Fehlervarianz getestet werden, sollte der Satz bedingter Haupteffekthypothesen analog zum Scheff-Test ¹family wiseª auf einem nominellen a-Niveau abgesichert werden. Da sich der ScheffTest nur auf Einzelvergleiche mit einem Freiheitsgrad bezieht, wåhlen wir fçr die Tests der bedingten Haupteffekte mit jeweils p 1 (bzw. q 1) Freiheitsgraden eine auf Gabriel (1964, 1969) zurçckgehende Verallgemeinerung des ScheffTests (vgl. hierzu auch Boik, 1979 b). F-Tests fçr bedingte Haupteffekte, die einem Overall-F-Test mit df1 Zåhlerfreiheitsgraden und df2 Nennerfreiheitsgraden angehæren, sind demnach signifikant, wenn der empirische F-Wert eines bedingten Haupteffektes den folgenden kritischen Wert erreicht oder çberschreitet: S df1 F
df1 ;df2 ;1
a =df3
8:31
mit df3 = Anzahl der Freiheitsgrade des bedingten Haupteffektes. (Diese Gleichung gilt generell fçr bedingte Effekte, s. u.) Es låsst sich zeigen, dass die Summe der Quadratsummen fçr die ¹simple main effectsª eines Haupteffektes der Summe aus der Haupteffektquadratsumme und der Interaktionsquadratsumme entspricht: X QSAjbj QSA QSAB
8:32 j
oder auch X QSBjai QSB QSAB : i
Dementsprechend sind auch die Freiheitsgrade additiv. Der zu einem bedingten Haupteffekt (z. B. fçr Faktor A) gehærende Overall-F-Test lautet also F
QSA QSAB =
dfA dfAB ^2Fehler r
8:33
Zåhlerfreiheitsgraden und mit dfA dfAB p q
n 1 Nennerfreiheitsgraden (entsprechendes gilt fçr den Overall-Test des bedingten Haupteffektes des Faktors B: Ûbertragen auf Gl. (8.31) resultiert damit fçr die bedingten Haupteffekte des Faktors A:
S
Ajbj
p
1
p
1
q
F
dfA dfAB ;dfFehler ;1
a =
p
q F
dfA dfAB ;dfFehler ;1
1 1
8:34
a
und fçr die bedingten Haupteffekte des Faktors B: S
Bjai
q
1
p
1
q
F
dfB dfAB ;dfFehler ;1
1
a =
q
p F
dfB dfAB ;dfFehler ;1
a
:
1
8:35
Werden diese Vergleiche a posteriori durchgefçhrt, sind die empirischen F-Werte mit einem kritischen S-Wert zu vergleichen, den man durch folgende Ûberlegung erhålt: Die bedingten Einzelvergleiche gehæren, wie die bedingten Haupteffekte, zu einem Overall-Effekt, der den jeweiligen Haupteffekt mit dem Interaktionseffekt zusammenfasst. Da der bedingte Einzelvergleich jedoch nur einen Freiheitsgrad aufweist, erhålt man nach Gl. (8.31) fçr bedingte Einzelvergleiche des Faktors A: SD
Ajbj
p
Bedingte Einzelvergleiche
Ds
Ajbj c1s AB1j c2s AB2j . . . cps ABpj X cis ABij
8:36
i
mit s 1; 2; . . . ; t und t Anzahl der bedingten Einzelvergleiche fçr A. Fçr die Quadratsumme resultiert: 2 P n cis ABij i P 2
8:37 QSDs
Ajbj cis i
mit df 1. Analog hierzu erhålt man fçr bedingte Einzelvergleiche des Haupteffektes B: Du
Bjai c1u ABi1 c2u ABi2 . . . cqu ABiq X cju ABij
8:38
j
mit u 1; 2; . . . ; v und v Anzahl der bedingten Einzelvergleiche fçr B. Als Quadratsumme erhålt man: !2 P n cju ABij j
P j
mit df 1.
c2ju
1
p
1
q
F
dfA dfAB ;dfFehler ;1
Ein Einzelvergleich, der nicht auf den gesamten Haupteffekt A, sondern auf einen bedingten Haupteffekt Ajbj bezogen ist, wird folgendermaûen bestimmt:
QSDu
Bjai
8
307
a8.2 Einzelvergleiche
8:39
a
1 :
8:40
Fçr B resultiert: SD
Bjai
q
1
p
1
q
F
dfB dfAB ;dfFehler ;1
a
1 :
8:41
Ein nach Gl. (8.36) oder (8.38) definierter bedingter Einzelvergleich ist auf dem a-Niveau signifikant, wenn sein Absolutbetrag den kritischen SD -Wert gemåû Gl. (8.40) oder (8.41) erreicht oder çberschreitet.
Homogenitåt bedingter Einzelvergleiche Will man erfahren, ob ein bestimmter Einzelvergleich (z. B. a1 vs. a2 ) unter allen Stufen von B gleich ausfållt, ist folgende Quadratsumme zu bestimmen: QSDs
Ajb: hP P 2 i n Ds
Ajbj 2 Ds
Ajbj =q j j P 2 cis mit df q 1. Die Varianz
8:42
i
^2Ds
Ajb: QSDs
Ajb: =
q r
1
8:43
wird an der Fehlervarianz getestet. Die bedingten Einzelvergleiche unterscheiden sich signifikant, wenn der empirische F-Wert den folgenden kritischen S-Wert erreicht oder çberschreitet: SD
Ajb:
p
1
q
1
F
dfAB ;dfFehler ;1
p
a =
q
1 F
dfAB ;dfFehler ;1
1 a
:
8:44
308
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
Man erhålt diesen S-Wert nach Gl. (8.31), wenn man berçcksichtigt, dass die QSDs
Ajb: ein Bestandteil der QSAB ist. Die Einzelvergleiche sind homogen, wenn die an der Fehlervarianz getestete Einzelvergleichsvarianz wegen F < S nicht signifikant ist (was nicht bedeuten muss, dass die Interaktion insgesamt unbedeutend ist, denn diese kænnte auf anderen, nicht geprçften bedingten Einzelvergleichen beruhen). Zur Ûberprçfung der Homogenitåt bedingter Einzelvergleiche vom Typus Du
Bjai berechnet man analog QSDu
Bja: hP P 2 i n Du
Bjai 2 Du
Bjai =p i P 2 i
8:45 cju
BEISPIEL Das folgende Beispiel (in Anlehnung an Boik, 1979 b) soll die verschiedenen Varianten fçr Einzelvergleiche im Kontext einer zweifaktoriellen Varianzanalyse verdeutlichen. 72 Medizinstudenten mit extremer Håmophobie (Angst vor Blut) werden zufållig in Gruppen zu jeweils n 6 Studenten den 12 Faktorstufenkombinationen zugeordnet, die sich aus einem 3-stufigen Treatment A (a1 Kontrollgruppe; a2 Verhaltenstherapie; a3 Gespråchspsychotherapie) und einem 4-stufigen Treatment B (b1 Plazebo, b2 schwache, b3 mittlere und b4 starke Dosis eines Angst reduzierenden Medikaments) ergeben. Beide Faktoren haben feste Stufen. Abhångige Variable ist ein der psychogalvanischen Hautreaktion (PGR) entnommener Indikator. (Je hæher der Wert, desto græûer ist die Angst.) Es sollen die folgenden, a priori formulierten Einzelvergleichshypothesen geprçft werden: Faktor A:
Studenten der Kontrollgruppe haben hæhere PGR-Werte als Studenten der beiden psychologisch therapierten Gruppen: a1 vs. a2 und a3 (a 0;01). Studenten der Plazebogruppe haben hæhere PGR-Werte als Studenten der 3 medikamentæs behandelten Gruppen: b1 vs. b2 bis b4 (a 0;01).
j
8
Faktor B:
mit df p 1. Der kritische S-Wert lautet: SD
Bja:
q
1 F
dfAB ;dfFehler ;1
a
:
8:46
Interaktions-Einzelvergleiche Interaktions-Einzelvergleiche erhålt man durch die Kontrastierung bedingter Einzelvergleiche fçr A und B (z. B. a1 vs. a2 fçr die Stufe b1 verglichen mit a1 vs. a2 fçr die Stufe b2 ). Ein Interaktions-Einzelvergleich wird wie folgt definiert (vgl. Boik, 1979 b): X Dw
D
A D
B cju Ds
Ajbj
8:47 j
mit w 1; 2; . . . ; z und z Anzahl der Interaktions-Einzelvergleiche. Die Quadratsumme lautet n Dw
D
A D
B ! QSDw
D
AD
B P 2 P 2 cis cju i
2
1
q
j
A-priori-Einzelvergleich fçr A. Fçr den auf Faktor A bezogenen A-priori-Einzelvergleich errechnen wir nach Gl. (8.24): ^2D
A QSD
A r 6 4
47;9 0;5 33;9 0;5 38;52 12
0;52
0;52 24 11;72 2190;24 : 1;5
Es ergibt sich also: F
a
:
8:49
Weitere Informationen zu Interaktions-Einzelvergleichen findet man bei Abelson u. Prentice (1997).
2190;24 114;37 : 19;15
Da die Hypothese gerichtet formuliert wurde, transformieren wir den F-Wert nach Gl. (2.60) in einen t-Wert: t
1
F
dfAB ;dfFehler ;1
Falls die Interaktionshypothese zutreffen sollte, ist vorgesehen, den Interaktionseffekt durch weitere A-posteriori-Einzelvergleiche zu explorieren. Tabelle 8.8 zeigt die resultierenden Mittelwerte und die Ergebnisse der zweifaktoriellen Varianzanalyse. (Auf die Wiedergabe der Individualdaten wird verzichtet.)
8:48
mit df 1. Der empirische F-Wert ist signifikant, wenn er den folgenden, nach Gl. (8.31) ermittelten kritischen S-Wert erreicht oder çberschreitet: SD
D
AD
B
p
Interaktion A B: Es wird erwartet, dass die beiden Faktoren miteinander interagieren (a 0;01).
p 114;37 10;69 :
Der fçr einseitige Tests kritische Wert lautet gemåû Tabelle D: t
60;0;01 2;39. Wegen 10;69 > 2;39, und wegen des Hypothesen konformen Vorzeichens des Einzelvergleiches wird die auf Faktor A bezogene Einzelvergleichshypothese beståtigt.
A-priori-Einzelvergleich fçr B. Fçr den Einzelvergleich des Faktors B ergibt sich nach Gl. (8.25):
a1
46
2
6 3
3 48;6 41;6 37;0 33;2 32
12
12
12 18 342 1734;00 : 12
42 38 34
Der F-Bruch lautet
a3
30
1734;00 90;55 : 19;15
26
p Fçr den einseitigen Test benætigen wir t 90;55 9;52. Dieser Wert ist deutlich græûer als der kritische Wert, d. h., auch diese Einzelvergleichshypothese wird beståtigt. Scheff-Test fçr Zellenmittelwerte. Ferner stellen wir fest, dass die Interaktion signifikant ist, dass also die Wirkung des Medikaments von der Art der psychologischen Behandlung abhångt. Abbildung 8.4 veranschaulicht diese Interaktion graphisch. Die Interaktion ist disordinal. Man erkennt, dass die zunehmende Dosierung des Medikaments bei einer verhaltenstherapeutischen Behandlung (a2 ) deutlich effektiver ist als bei der gespråchspsychotherapeutischen Behandlung
a3 und dass die Kontrollgruppe
a1 von der unterschiedlich starken Dosierung des Medikaments praktisch çberhaupt nicht profitiert. Zur genaueren Exploration dieser Interaktion vergleichen wir zunåchst alle Faktorstufenmittelwerte paarweise nach dem Scheff-Test gemåû Gl. (8.28). Unter Verwendung
Tabelle 8.8 Beispiel fçr Einzelvergleiche Faktor A a1
a2
a3
Bj
b1
50,2
49,9
45,7
48,6
b2
47,5
38,2
39,1
41,6
b3
46,0
28,5
36,5
37,0
b4
47,9
19,0
32,7
33,2
Ai
47,9
33,9
38,5
G 40;1
Faktor B
54 50
^2D
B QSD
B r
F
8
309
a8.2 Einzelvergleiche
Q.d.V.
QS
df
^2 r
F
A B AB Fehler
2444,16 2370,96 1376,40 1149,00
2 3 6 60
1222,08 790,32 229,50 19,15
63,82 41,27 11,98
Total
7340,52
71
22 a2
18
b1
b2
b3
b4
Abb. 8.4. Graphische Darstellung der Interaktion in Tabelle 8.8 von F
11;60;0;99 2;56 gemåû Tabelle E errechnen wir eine kritische Differenz von r 2
12 1 19;15 2;56 Diff crit 13;41 : 6 Tabelle 8.9 zeigt die empirischen Mittelwertdifferenzen fçr alle Faktorstufenkombinationen. Alle Differenzen, deren Absolutbetrag græûer ist als die kritische Differenz, sind signifikant. Es wird deutlich, dass sich die meisten signifikanten Unterschiede auf Vergleiche der Kontrollgruppe
a1 mit den behandelten Gruppen bzw. auf Vergleiche der Plazebogruppe
b1 mit den behandelten Gruppen beziehen ± ein Ergebnis, das im Wesentlichen auf die Haupteffekte zurçckgeht und das aus den beiden bereits beståtigten A-priori-Einzelvergleichen der Tendenz nach schon bekannt ist. Bedingte Haupteffekttests. Den Mittelwerten des Haupteffektes A (vgl. Tabelle 8.8) ist zu entnehmen, dass die Verhaltenstherapie am wirksamsten ist, gefolgt von der Gespråchspsychotherapie und der Kontrollgruppe. Fçr den Haupteffekt B zeigt sich eine zunehmende Angstreduktion mit wachsender Dosierung des Medikaments. Da sich jedoch eine disordinale Interaktion andeutet, stehen diese Haupteffektinterpretationen unter Vorbehalt. Um zu çberprçfen, auf welche Faktorstufen diese Interpretationen zutreffen, berechnen wir die bedingten Haupteffekte (¹simple main effectsª). Sie lauten fçr den Faktor A und Stufe b1 gemåû Gl. (8.29): QSAjb1 6
50;2
45;7 ^2Ajb1 r
48;62
49;9 48;62 75;96
75;96=2 37;98 37;98 1;98 ; F 19;15
48;62
310
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
Tabelle 8.9. Differenzentabelle fçr die Mittelwerte aus Tabelle 8.8
AB11 AB12 AB13 AB14 AB21 AB22 AB23 AB24 AB31 AB32 AB33 AB34
AB11
AB12
AB13
AB14
AB21
AB22
AB23
AB24
AB31
±
2,7 ±
4,2 1,5 ±
2,3 ±0,4 ±1,9 ±
0,3 ±2,4 ±3,9 ±2,0 ±
12,0 9,3 7,8 9,7 11,7 ±
21,7 19,0 17,5 19,4 21,4 9,7 ±
31,2 28,5 27,0 28,9 30,9 19,2 9,5 ±
4,5 11,1 13,7 17,5 1,8 8,4 11,0 14,8 0,3 6,9 9,5 13,3 2,2 8,8 11,4 15,2 4,2 10,8 13,4 17,2 ±7,5 ±0,9 1,7 5,5 ±17,2 ±10,6 ±8,0 ±4,2 ±26,7 ±20,1 ±17,5 ±13,7 ± 6,6 9,2 13,0 ± 2,6 6,4 ± 3,8 ±
fçr die Stufe b2 : QSAjb2 6
47;5
8
39;1
2
41;6
38;2
41;6
2
41;62 315;72
315;72=2 157;86 157;86 F 8;24 ; 19;15
36;5
37;02
28;5
37;02
37;02 921;00
und fçr Stufe b4 :
32;7
33;22
19;0
^2Bja1 18;12; r
F 0;95
QSBja2 3153;96;
^2Bja2 r ^2Bja3 r
1051;32
F 54;90
179;68;
F 9;38 :
SB 3 2;72 8;16 :
^2Ajb3 921=2 460;5 r 460;5 F 24;05 19;15 QSAb4 6
47;9
AB34
Gl. (8.32) ist erfçllt. Fçr den kritischen S-Wert errechnet man nach Gl. (8.35):
fçr Stufe b3 : QSAjb3 6
46;0
AB33
QSBja1 54;36; QSBja3 539;04;
^2Ajb2 r
AB32
33;22
33;22 2507;88
^2Ab4 r
2507;88=2 1253;94 1253;94 65;48 : F 19;15
Wir stellen zunåchst fest, dass Gl. (8.32) beståtigt ist: 75;96 315; 72 921;00 2507; 88 2444;16 1376;40 : Unter Verwendung von F
8;60;0;99 2;82 lautet der kritische S-Wert gemåû Gl. (8.34): SA 4 2;82 11;28 : Damit sind nur die bedingten Haupteffekte Ajb3 und Ajb4 signifikant, d. h., die unterschiedliche Wirkung der drei psychologischen Behandlungsformen kommt nur bei mittlerer (b3 ) bzw. starker Dosierung (b4 ) zum Tragen. Der Vollståndigkeit halber prçfen wir auch die bedingten Haupteffekte fçr den Faktor B. Sie lauten:
Es sind also nur die bedingten Haupteffekte Bja2 und Bja3 signifikant. Mit zunehmender Dosierung der Medikamente kommt es nur bei der verhaltenstherapeutischen und gespråchspsychotherapeutischen Behandlung zu einer Angstreduktion, aber nicht in der Kontrollgruppe. Tests fçr bedingte Einzelvergleiche. Ferner wollen wir çberprçfen, unter welchen medikamentæsen Bedingungen (Faktor B) der Unterschied zwischen den psychologischen Behandlungen (a2 und a3 ) und der Kontrollgruppe (a1 ) signifikant ist. Hierfçr werden nach Gl. (8.36) und Gl. (8.37) die folgenden bedingten Einzelvergleiche berechnet: D1
Ajb1 2 50;2
1 49;9
1 45;7 4;8 ; ^2D1
Ajb1 QSD1
Ajb1 r F
6 4;82 23;04 ; 6
23;04 1;20 ; 19;15
D1
Ajb2 2 47;5
1 38;2
1 39;1 17;7 ; ^2D1
Ajb2 QSD1
Ajb2 r F
6 17;72 313;29 ; 6
313;29 16;36 ; 19;15
D1
Ajb3 2 46;0
1 28; 5
1 36;5 QSD1
Ajb3
F
6 27;02 729;00 ; 6
729;00 38;07 ; 19;15
D1
Ajbj 4;8 17;7 27;0 44;1 93;6
und
^2D1
Ajb4 QSD1
Ajb4 r
X
D1
Ajbj 2 4;82 17;72 27;02 44;12
j
3010;14 : Damit erhålt man
D1
Ajb4 2 47;9
1 19;0
1 32;7 44;1 ;
F
X j
27;0 ; ^2D1
Ajb3 r
8
311
a8.2 Einzelvergleiche
6 44;12 1944;81 ; 6
1944;81 101;56 : 19;15
Der kritische S-Wert errechnet sich nach Gl. (8.40) zu: SD
Ajbj
2 2 3 2;82 22;56 : Die oben geprçften bedingten Haupteffekte sind damit genauer interpretierbar. Die signifikanten Effekte
Ajb3 und
Ajb4 sind hauptsåchlich darauf zurçckzufçhren, dass sich die Kontrollgruppe von den beiden psychologischen Behandlungsgruppen bei mittlerer und starker Dosierung unterscheidet. Bei Plazebobehandlung oder auch schwacher Dosierung machen die Behandlungen gegençber der Kontrollgruppe keinen Effekt. Zu Kontrollzwecken çberprçfen wir noch einen weiteren bedingten Einzelvergleich, der zum ersten orthogonal ist. Dieser zweite Einzelvergleich kontrastiert die verhaltenstherapeutische Behandlung mit der gespråchspsychotherapeutischen Behandlung (a2 vs. a3 ) unter den einzelnen Stufen von B. Wir ermitteln: D2
Ajb1 4;2;
^2D2
Ajb1 52;92; r
F 2;76
D2
Ajb2
0;9;
2;43;
F 0;13
D2
Ajb3
8;0;
192;0;
F 10;03
D2
Ajb4
13;7;
r ^2D2
Ajb2 ^2D2
Ajb3 r ^2D2
Ajb4 r
563;07;
F 29;40
Verglichen mit dem kritischen S-Wert (22,56) wird deutlich, dass eine Ûberlegenheit der verhaltenstherapeutischen Behandlung gegençber der gespråchspsychotherapeutischen Behandlung nur unter starker Medikamentendosis nachgewiesen werden kann. Im Ûbrigen ist festzustellen, dass sich die Quadratsummen der bedingten Einzelvergleiche jeweils zur Quadratsumme des bedingten Haupteffektes addieren, was immer der Fall ist, wenn jeder bedingte Haupteffekt in einen vollståndigen Satz orthogonaler Einzelvergleiche zerlegt wird. Auf eine Untersuchung bedingter Einzelvergleiche fçr den Faktor B wollen wir verzichten. Sie folgt gemåû Gl. (8.38) und (8.39) dem gleichen Prinzip und wçrde z. B. die Frage çberprçfen, unter welchen psychologischen Behandlungsformen (Faktor B) sich die Plazebogruppe (b1 ) von den drei medikamentæs behandelten Gruppen (b2 bis b4 ) unterscheidet. Homogenitåt der bedingten Einzelvergleiche. Stattdessen prçfen wir die Homogenitåt der bedingten Einzelvergleiche zum Faktor A. Wir ermitteln fçr den ersten Einzelvergleich fçr Gl. (8.42) zunåchst:
QSD1
Ajb:
6
3010;14 93;62 =4 819;90 ; 22
12
12
^2D1
Ajb: 819;90=3 273;3 r 273;3 und F 14;27 : 19;15 Gemåû Gl. (8.44) errechnen wir fçr den kritischen S-Wert: S 2 3;12 6;24 : Erwartungsgemåû sind die 4 bedingten Einzelvergleiche fçr Faktor A nicht homogen (14;27 > 6;24). Fçr den zweiten Einzelvergleich fçhrt die Homogenitåtsprçfung zu folgendem Resultat: QSD2
Ajb:
6 270;14
18;42 =4 556;50 ; 12
12
^2D2
Ajb: 556;5=3 185;5 ; r 185;5 F 9;69 : 19;5 Auch der zweite Einzelvergleich ist çber die Stufen des Faktors B hinweg heterogen (9;69 > 6;24). Da die beiden Einzelvergleiche orthogonal sind, addieren sich die Quadratsummen der beiden Homogenitåtstests zur Interaktionsquadratsumme: 819;90 556;50 1376;40. Die dosierungsspezifischen Unterschiede zwischen der Kontrollgruppe und den beiden psychologisch behandelten Gruppen (also der Vergleich D1
Ajb: ) trågt mit einem Quadratsummenanteil von 819;90=1376;40 0;60 jedoch mehr zur QSAB bei als die dosierungsspezifischen Unterschiede zwischen der verhaltenstherapeutisch und gespråchspsychotherapeutisch behandelten Gruppe (D2
Ajb: mit einem Anteil von 556;50=1376;40 0;40). Tests fçr Interaktionseinzelvergleiche. Die soeben durchgefçhrten Homogenitåtstests bezogen sich auf Einzelvergleiche von A, die çber alle Stufen von B gerechnet wurden. Sollen auch auf dem Faktor B nur bestimmte Stufen kontrastiert werden, sind Interaktionseinzelvergleiche durchzufçhren, die wir im Folgenden veranschaulichen wollen: Wir beginnen mit dem ersten bedingten Einzelvergleich fçr Faktor A (a1 vs. a2 und a3 ), von dem wir bereits wissen, dass er çber alle Stufen von B heterogen ist. Es soll nun geprçft werden, ob dieser Einzelvergleich auch signifikant wird, wenn wir auf dem Faktor B b1 mit b2 bis b4 kontrastieren. Wir fragen also, ob der Unterschied zwischen der Kontrollgruppe (a1 ) und den beiden psychologisch behandelten Gruppen (a2 und a3 ) in der Plazebogruppe (b1 ) genauso groû ist wie in den drei zusammengefassten, medikamentæs behandelten Gruppen (b2 , b3 , b4 ). Der erste Interaktionseinzelvergleich kombiniert damit die Einzelvergleiche a1 vs. a2 und a3 mit b1 vs. b2 bis b4 .
312
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
Nach Gl. (8.47) errechnet man unter Verwendung der Einzelvergleiche D1
Ajbj D1
D
A D
B 3 4;8
1
17;7
D4
D
A D
B mit D2
A A2
1 27;0
1 44;1
74;4 :
32
Wegen df 1 entspricht diese Quadratsumme der Varianzschåtzung, d. h., wir erhalten 461;28 24;09 : 19;15
Dieser F-Wert ist mit folgendem, nach Gl. (8.49) kritischen S-Wert zu vergleichen:
8
SD
D
AD
B 2 3 3;12 18;72 : Der F-Wert ist also signifikant. Die Kontrollgruppe und die beiden psychologisch behandelten Gruppen unterscheiden sich ohne medikamentæse Behandlung erheblich weniger als mit medikamentæser Behandlung. Zusåtzlich kænnte interessieren, ob der Unterschied a1 vs. (a2 und a3 ) in der Gruppe mit schwacher Dosierung (b2 ) genauso groû ist wie in den Gruppen mit mittlerer bzw. starker Dosierung (b3 und b4 ). Wir prçfen deshalb D2
D
A D
B mit D1
A 2 A1 A2 A3 und D2
B 2 B2 B3 B4 35;7 ;
6
35;72 212;415 ; 66 212;415 11;09 : F 19;15
^2D2
D
AD
B r
Der F-Wert ist nicht signifikant (11;09 < 18;72). Schlieûlich vergleichen wir den Unterschied zwischen a1 vs. a2 und a3 in den Gruppen b3 und b4 : D3
D
A D
B mit D1
A 2 A1 und D3
B B3
A2 B4 :
Man erhålt: D3
D
A D
B
17;1 ;
6
17;12 146;205 ; 62 146;205 7;63 : F 19;15
^2D3
D
AD
B r
Auch dieser F-Wert ist nicht signifikant.
B3
B4 :
B4 :
6 35;22 309;760 ; 2 12 309;760 16;18 : F 19;15
D5
D
A D
B mit D2
A A2 und D2
B 2 B2
A3
D5
D
A D
B 19; 9 ; 6 19;92 198;005 ; 26 198;005 F 10;34 : 19;15
^2D5
D
AD
B r
D6
D
A D
B mit D2
A A2 und D3
B B3
A3 B4 :
D6
D
A D
B 5;7 ; 6 5;72 48;735 ; 22 48;735 2;54 : F 19;15
^2D6
D
AD
B r
Alle F-Werte sind kleiner als S 18;72, d. h., es ist kein weiterer Interaktionseinzelvergleich signifikant. Man beachte, dass sich die Quadratsummen der 6 Interaktionseinzelvergleiche zur Interaktionsquadratsumme addieren (461;280 212;415 146;205 309;760 198;005 48;735 1376; 40). Dies ist immer der Fall, wenn die Interaktionseinzelvergleiche aus allen Kombinationen von p 1 orthogonalen Einzelvergleichen fçr Faktor A und q 1 orthogonalen Einzelvergleichen fçr den Faktor B bestehen.
und errechnen hierfçr: D2
D
A D
B
B3
^2D4
D
AD
B r
6
74;42
12
12
12 461;280 :
F
B2
D4
D
A D
B 35;2 ;
1
22
12
12
A3
und D1
B 3 B1
Fçr die Quadratsumme ergibt sich nach Gl. (8.48) QSD1
D
AD
B
Der Vollståndigkeit halber kombinieren wir auch den Vergleich D2
A (a2 vs. a3 ) mit den drei obigen B-Vergleichen:
A3
8.3 Drei- und mehrfaktorielle Varianzanalysen Die Frage, wie eine abhångige Variable durch 3 unabhångige Variablen beeinflusst wird, kænnen wir mit der dreifaktoriellen Varianzanalyse untersuchen. Diese Analyse zerlegt die totale Quadratsumme in die folgenden, voneinander unabhångigen Anteile: · Drei Haupteffekte A, B und C. · Drei Interaktionseffekte A B, A C und B C.
a8.3
313
Drei- und mehrfaktorielle Varianzanalysen
· Interaktion 2. Ordnung (Tripelinteraktion) A B C. Diese varianzgenerierende Quelle taucht erstmalig in der dreifaktoriellen Varianzanalyse auf. Sie beinhaltet denjenigen Varianzanteil, der auf spezifische Effekte der Kombinationen aller 3 Faktoren zurçckzufçhren ist und der weder aus den Haupteffekten noch aus den Interaktionen 1. Ordnung erklårt werden kann. · Fehlereffekte. Wie in allen bisher besprochenen Varianzanalysen gehen Fehlereffekte auf Stærvariablen zurçck, die dazu fçhren, dass die Messwerte von Untersuchungseinheiten, die unter einer Faktorstufenkombination beobachtet werden, nicht identisch sind.
Wie bei der zweifaktoriellen Varianzanalyse beginnen wir auch hier mit der Berechnung der Summen der Messwerte pro Stichprobe (pro Faktorstufenkombination): X ABCijk xijkm : m
Hieraus werden die Summen fçr alle Zweierkombinationen von Faktorstufen berechnet: X ABCijk ; ABij k X
ACik
ABCijk ;
j
X
BCjk
ABCijk :
i
Terminologie Fçr die rechnerische Durchfçhrung einer dreifaktoriellen Varianzanalyse vereinbaren wir folgende Terminologie: Faktor A hat p Stufen. Der Laufindex heiût i. Faktor B hat q Stufen. Der Laufindex heiût j. Faktor C hat r Stufen. Der Laufindex heiût k. Eine dreifaktorielle Varianzanalyse benætigt p q r Zufallsstichproben der Græûe n. Der Laufindex fçr die Personen innerhalb einer Stichprobe heiût m. Insgesamt werden bei der dreifaktoriellen Varianzanalyse somit p q r n Vpn untersucht. Jeder Vp ist ein Messwert xijkm der abhångigen Variablen zugeordnet. (Der Messwert der 2. Person, die zur 1. Stufe des Faktors A, zur 3. Stufe des Faktors B und zur 1. Stufe des Faktors C gehært, lautet somit x1312 .)
Aus diesen Summen lassen sich folgende Summen fçr die Faktorstufen der 3 Faktoren ermitteln: X X ABij ACik ; Ai j
Bj
X
k
ABij
i
Ck
X
X
BCjk ;
k
ACik
i
X
BCjk :
j
Die Gesamtsumme G ergibt sich zu: X X X Ai Bj Ck : G i
j
k
Hypothesen Entsprechend der Quadratsummenzerlegung in 3 Haupteffekte, 3 Interaktionen 1. Ordnung und einer Interaktion 2. Ordnung çberprçft die drei-
Tabelle 8.10. Allgemeine Ergebnistabelle einer dreifaktoriellen Varianzanalyse Q.d.V.
QS
df
A B C AB AC BC ABC Fehler
(3)±(1) (4)±(1) (5)±(1) (6)±(3)±(4)+(1) (7)±(3)±(5)+(1) (8)±(4)±(5)+(1) (9)±(6)±(7)±(8)+(3)+(4)+(5)±(1) (2)±(9)
p±1 q±1 r±1 (p±1)(q±1) (p±1)(r±1) (q±1)(r±1) (p±1)(q±1)(r±1) pqr(n±1)
Total
(2)±(1)
pqrn±1
8
314
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
faktorielle Varianzanalyse folgende Nullhypothesen:
dftot dfA dfB dfC dfAB dfAC dfBC dfABC dfFehler :
Faktor A: 1 2 . . . p Faktor B: 1 2 . . . q Faktor C: 1 2 . . . r
8
8:51
Wie çblich ermitteln wir die Varianzen, indem die Quadratsummen durch die entsprechenden Freiheitsgrade dividiert werden. Die Ûberprçfung der Interaktion A B: ij i j 7 Nullhypothesen erfolgt wiederum durch F-Tests. ^2Fehler Haben alle Faktoren feste Effekte, ist die r Interaktion A C: ik i k fçr alle Haupteffekte und Interaktionen die adåInteraktion B C: jk j k quate Prçfvarianz. Im Ûbrigen richtet sich die Interaktion A B C: ijk ij ik jk Prçfvarianz fçr die einzelnen zu testenden Effekte i j k : danach, welche Faktoren feste und welche zufållige Effekte aufweisen. Tabelle 8.11 zeigt die Prçfvarianzen, die im Einzelnen zu wåhlen sind. Rechnerische Durchfçhrung (Auf die theoretische Herleitung der Prçfvarianzen werden wir in Kap. 12 eingehen.) Fçr die Berechnung der Quadratsummen werden Wir unterscheiden 4 verschiedene Modelle, die folgende Hilfsgræûen benætigt: sich aus den Kombinationen der Faktorarten ergeXXXX ben. In Tabelle 8.11 wird beispielsweise der Fall G2 ;
2
1 x2ijkm ; A fest, B zufållig, C fest nicht gesondert npqr m i j k behandelt, da er durch einfache Umbenennung P 2 P 2 Bj der Faktoren dem unter II erwåhnten Modell entAi j i spricht. Aus Tabelle 8.11 wird ersichtlich, dass ;
4 ;
3 nqr npr beim Modell III (mit einem festen und 2 zufålPP 2 P 2 ligen Faktoren) der feste Faktor und beim Modell AB Ck ij i j k IV (3 zufållige Faktoren) die 3 Haupteffekte nicht ;
6 ;
5 npq nr direkt çberprçfbar sind. PP 2 PP 2 BCjk ACik j k Quasi-F-Brçche. Falls ein Effekt nicht direkt prçfbar i k ;
8 ;
7 ist, besteht die Mæglichkeit, durch die Bildung von nq np PPP sog. ¹Quasi-F-Brçchenª die entsprechenden Effekte ABC2ijk zumindest approximativ zu testen. Die Konstruktii j k :
9 on der Quasi-F-Brçche basiert auf dem theoren Tabelle 8.10 zeigt, wie aus diesen Hilfsgræûen die Quadratsummen und wie die Freiheitsgrade berechnet werden. Auf die Herleitung der Berechnungsvorschriften fçr die Quadratsummen und Freiheitsgrade, die vællig analog zur ein- bzw. zweifaktoriellen Varianzanalyse verlåuft, wollen wir verzichten. Die Summe der Quadratsummen fçr die Haupteffekte, die Interaktionen 1. Ordnung und die Interaktion 2. Ordnung ergibt zusammen mit der Fehlerquadratsumme die totale Quadratsumme QStot QSA QSB QSC QSAB QSAC QSBC QSABC QSFehler : Entsprechendes gilt fçr die Freiheitsgrade:
8:50
Tabelle 8.11. Prçfvarianzen in der dreifaktoriellen Varianzanalyse Prçfvarianzen zu prçfende I Varianz A fest B fest C fest
II A fest B fest C zufållig
III A fest B zufållig C zufållig
IV A zufållig B zufållig C zufållig
^2A r ^2B r ^2C r ^2AB r ^2AC r ^2BC r ^2ABC r
^2AC r ^2BC r ^2Fehler r ^2ABC r ^2Fehler r ^2Fehler r ^2Fehler r
± ^2BC r ^2BC r ^2ABC r ^2ABC r ^2Fehler r ^2Fehler r
± ± ± ^2ABC r ^2ABC r ^2ABC r ^2Fehler r
^2Fehler r ^2Fehler r ^2Fehler r ^2Fehler r ^2Fehler r ^2Fehler r ^2Fehler r
a8.3
315
Drei- und mehrfaktorielle Varianzanalysen
tischen Erwartungswertmodell der einzelnen Varianzen, auf das wir in Kap. 12 eingehen. Danach lassen sich die in Tabelle 8.11 nicht direkt testbaren Effekte durch die in Tab. 8.12 genannten QuasiF-Brçche
F0 çberprçfen, die angenåhert F-verteilt sind. (Man beachte, dass hier ausnahmsweise Varianzen und nicht Quadratsummen addiert werden.) Zusåtzlich bedarf es bei der Konstruktion von Quasi-F-Brçchen einer Korrektur der Freiheitsgrade. Diese Freiheitsgradkorrektur hat folgende allgemeine Form (vgl. Satterthwaite, 1946): dfZahler
u v2 ;
u2 =fu
v2 =fv
8:52
wobei u und v die entsprechenden Varianzen im Zåhler des F0 -Bruches; fu und fv die entsprechenden Freiheitsgrade der Varianzen im Zåhler des F0 -Bruches.
w x2 ;
8:53 dfNenner 2
w =fw
x2 =fx wobei w und x die entsprechenden Varianzen im Nenner des F0 -Bruches; fw und fx die entsprechenden Freiheitsgrade der Varianzen im Nenner des F0 -Bruches. Die so ermittelten Zåhler- und Nennerfreiheitsgrade werden ganzzahlig abgerundet. Tabelle E entnehmen wir, welcher F-Wert fçr ein bestimmtes a-Niveau bei den korrigierten Werten fçr die Zåhler- und Nennerfreiheitsgrade erwartet wird. Ist dieser F-Wert græûer als der Quasi-F-Wert, muss die H0 bezçglich des getesteten Faktors beibehalten werden. Auf S. 319 f. wird die Konstruktion von Quasi-F-Brçchen an einem Beispiel demonstriert. Tabelle 8.12. Quasi-F-Brçche in der dreifaktoriellen Varianzanalyse mit festen und zufålligen Effekten Modell III, Faktor A:
F0
^2A r ^2ABC r 2 ^2AC ^AB r r
Modell IV, Faktor A:
F0
r ^2A r ^2ABC 2 ^AB r ^2AC r
Modell IV, Faktor B:
F0
^2B r ^2ABC r 2 ^AB r ^2BC r
Modell IV, Faktor C:
F0
^2C r ^2ABC r 2 ^2BC ^AC r r
Eine Untersuchung çber die testtheoretischen Eigenschaften von Quasi-F-Brçchen findet man bei Santa et al. (1979). Nach dieser Studie kann man davon ausgehen, dass auch Quasi-F-Brçche relativ robust sind gegençber Verletzungen der Voraussetzungen der Varianzanalyse (vgl. unter 8.6).
¹Poolingª-Prozeduren. Eine Alternative zu den Quasi-F-Brçchen fçr nicht direkt testbare Effekte besteht darin, unbedeutende Interaktionen, an denen Faktoren mit zufålligen Effekten beteiligt sind, mit anderen Interaktionen oder der Fehlervarianz zusammenzufassen (zum theoretischen Hintergrund vgl. S. 423). Wenn sich beispielsweise im Modell III der Tabelle 8.11 herausstellen sollte, dass alle 4 Interaktionen (A B, A C, B C, A B C) unbedeutend sind, kænnten diese mit der Fehlervarianz zusammengefasst werden. Die so gebildete neue Varianz (man erhålt sie, indem die Summe aller Quadratsummen durch die Summe der entsprechenden Freiheitsgrade dividiert wird) wåre dann als Prçfvarianz fçr Faktor A einzusetzen. Die hier skizzierte Vorgehensweise ist allerdings nicht unproblematisch. Paull (1950) empfiehlt eine Zusammenlegung von Interaktionsvarianz und Fehlervarianz nur, wenn 1. sowohl die jeweilige Interaktionsvarianz als auch die Fehlervarianz mehr als 6 Freiheitsgrade haben und 2. der F-Wert fçr die Interaktion kleiner als 2 ist. Eine sequenzielle Strategie fçr den kombinierten Einsatz von QuasiF-Brçchen und ¹pooling proceduresª, die auch die auf S. 303 ff. problematisierte Durchfçhrung von F-Tests mit Interaktionen als Prçfvarianz berçcksichtigt, findet man bei Hopkins (1983). ¹Optimaleª Stichprobenumfånge Fçr dreifaktorielle Varianzanalysen gelten die Ausfçhrungen auf S. 303 ff. (zweifaktorielle Varianzanalysen) nahezu analog. Falls sich der ¹optimaleª Stichprobenumfang an einer praktisch bedeutsamen Interaktion zweiter Ordnung orientieren soll (was in der Praxis selten vorkommt), ist die Effektgræûe wie folgt zu ermitteln (bzw. ex post zu schåtzen): v uP P P 0 u
ijk ijk 2 u 1 t i j k "
8:54 r pqr
8
316
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
mit 0ijk ij ik jk
i
j
k .
Fçr r ist als Schåtzung die Wurzel der Prçfvarianz fçr die Interaktion 2. Ordnung einzusetzen, also çblicherweise die Fehlervarianz bzw. die Varianz innerhalb der Populationen der Faktorstufenkombinationen.
Einzelvergleiche und Trendtests
8
Wie in der ein- und zweifaktoriellen Varianzanalyse kænnen auch im Rahmen der dreifaktoriellen Varianzanalyse A-priori-Einzelvergleiche, Trendund Scheff-Tests durchgefçhrt werden. Die hierfçr benætigten Gleichungen lassen sich direkt aus den entsprechenden Formeln fçr die zweifaktorielle Varianzanalyse ableiten. Eine Komponente des Faktors A erhalten wir, indem der Zåhler in Gl. (8.24) um den Faktor r erweitert wird. Entsprechendes gilt fçr den Haupteffekt B. Eine Komponente des Faktors C, die wie alle Komponenten einen Freiheitsgrad hat, lautet: 2 P npq ck Ck Pk 2 ^2D
C QSD
C r : ck k
8:55 Fçr die kritischen Paardifferenzen nach dem Scheff-Test ergeben sich ± analog zu Gl. (8.26) bis (8.28) ± im dreifaktoriellen Fall folgende Gleichungen: Fçr Faktor A: s ^2t F
d;e;1 a 2
p 1 r Diff crit : nqr Fçr Faktor B: s ^2t F
d;e;1 a 2
q 1 r : Diff crit npr Fçr Faktor C: s ^2t F
d;e;1 a 2
r 1 r : Diff crit npq
8:56
8:57
Fçr die A C-Kombinationen: s ^2t F
d;e;1 a 2
p r 1 r Diff crit :
8:60 nq Fçr die B C-Kombinationen: s ^2t F
d;e;1 a 2
q r 1 r :
8:61 Diff crit np Fçr die A B C-Kombinationen: r ^2t F
d;e;1 a 2
p q r 1 r :
8:62 Diff crit n wobei ^2t r
F
d;e;1
Prçfvarianz des Effektes, fçr den die kritische Differenz berechnet wird. Die Prçfvarianzen sind Tabelle 8.11 zu entnehmen. (Fçr Effekte, die nicht direkt testbar sind, kænnen keine Einzelvergleiche durchgefçhrt werden.) der bei d Zåhlerfreiheitsgraden und e a Nennerfreiheitsgraden fçr das a-Niveau kritische F-Wert. d Freiheitsgrade des Effektes, fçr den die kritische Differenz berechnet wird. ^2t . e Freiheitsgrade von r
Die Ausfçhrungen unter 8.2 çber bedingte Haupteffekte, bedingte Einzelvergleiche und Interaktionseinzelvergleiche gelten analog fçr dreifaktorielle Varianzanalysen. BEISPIEL In einer (fiktiven) sozialpsychologischen Untersuchung soll die Einstellung zur Politik der Regierung untersucht werden (abhångige Variable = Einstellung zur Politik). Die Einstellung wird durch die Beantwortung folgender Frage gemessen: ¹Wie beurteilen Sie die Politik Ihrer Regierung?ª Als Antwortalternativen stehen den Vpn zur Verfçgung: negativ ( 0) , neutral ( 1) , positiv ( 2).
8:58
Fçr die A B-Kombinationen: r ^2t F
d;e;1 a 2
p q 1 r :
8:59 Diff crit nr
Die abhångige Variable kann somit nur die Werte 0, 1 und 2 annehmen. (Dieses Beispiel wurde gewåhlt, um den Rechengang der dreifaktoriellen Varianzanalyse nachvollziehbar zu gestalten. Ausgehend von einem Einstellungskontinuum, das durch 3 Messpunkte, von denen wir Øquidistanz annehmen, erfasst wird, sind Mittelwertunterschiede und damit auch varianzanalytische Ergebnisse interpretierbar.)
a8.3
317
Drei- und mehrfaktorielle Varianzanalysen
Als unabhångige Variablen sollen çberprçft werden: · Geschlecht (Faktor A, p 2) a1 månnlich, a2 weiblich.
Fçr die Stufenkombinationen der Faktoren A und B ergeben sich folgende Summen: X ABC11k 4 5 3 12 AB11
· Alter (Faktor B, q 3) b1 jung (20±34 Jahre), b2 mittel (35±49 Jahre), b3 alt (50±64 Jahre).
AB12
· Soziale Schicht (Faktor C, r 3) c1 Oberschicht (OS), c2 Mittelschicht (MS), c3 Unterschicht (US).
AB21
Alle 3 Faktoren haben feste Effekte. Die varianzanalytischen Hypothesen sollen mit a 0;01 geprçft werden. Um den Rechenaufwand des Beispiels in Grenzen zu halten, wird jeder Faktorstufenkombination eine Zufallsstichprobe der Græûe n 3 aus den entsprechenden Populationen zugewiesen. Es werden somit insgesamt 2 3 3 3 54 Vpn benætigt. Die Daten der Untersuchung zeigt Tabelle 8.13. Die Summen X ABCijk xijkm
AB23
m
fçr die einzelnen Stichproben lauten: ABC111 4 ABC131 1 ABC221 5 ABC112 5 ABC132 0 ABC222 5 ABC113 3 ABC133 2 ABC223 6 ABC121 3 ABC211 5 ABC231 2
k X
ABC12k 3 4 5 12
k
AB13
X k X
ABC13k 1 0 2 3 ABC21k 5 6 2 13
k
AB22
X
ABC22k 5 5 6 16
k
X
ABC23k 2 1 3 6 :
k
Fçr die Stufenkombinationen der Faktoren A und C: X AC11 ABC1j1 4 3 1 8 j
AC12
X
ABC1j2 5 4 0 9
j
AC13
X
ABC1j3 3 5 2 10
j
AC21
X
ABC2j1 5 5 2 12
j
AC22
X
ABC2j2 6 5 1 12
j
AC23
ABC122 4 ABC212 6 ABC232 1 ABC123 5 ABC213 2 ABC233 3 :
Tabelle 8.13. Beispiel fçr eine dreifaktorielle Varianzanalyse månnlich (1) weiblich (2) 20±34 Faktor C 20±34 35±49 50±64 35±49 (1) # (2) (3) (2) (1) 1 1 OS (1) 1 1 2 1 2 1 0 2 1 0 1 2 2 MS (2) 2 0 2 1 2 2 2 1 0 2 1 0 1 2 2 US (3) 2 1 2 2 2 1 0 2 1 2 0 0 1 0 2
X
ABC2j3 2 6 3 11 :
j
50±64 (3) 1 1 0 1 0 0 1 1 1
Faktor A Faktor B
8
318
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
Fçr die Stufenkombinationen der Faktoren B und C: X BC11 ABCi11 4 5 9 i X
BC12
i X
BC13
i X
BC21
ABCi12 5 6 11 ABCi13 3 2 5 ABCi21 3 5 8
i
X
BC22
ABCi22 4 5 9
i
X
BC23
i X
BC31
i X
BC32
ABCi23 5 6 11 ABCi31 1 2 3 ABCi32 0 1 1
i
X
BC33
ABCi33 2 3 5 :
i
Hieraus lassen sich folgende Summen fçr die einzelnen Faktorstufen ermitteln:
8
Faktor A: X AB1j 12 12 3 27 A1 j
A2
X
AB2j 13 16 6 35 ;
j
Faktor B: X B1 ABi1 12 13 25 i
B2 B3
X i X
ABi2 12 16 28 ABi3 3 6 9 ;
i
Faktor C: X ACi1 8 12 20 C1 i
C2
X
ACi2 9 12 21
i
C3
X
ACi3 10 11 21 :
i
Die Gesamtsumme G ergibt sich zu: X X X G Ai Bj Ck 62 : i
j
k
Ausgehend von den Einzelsummen resultieren die folgenden Kennziffern: G2 622 71;19 ;
1 pqrn 2333 XXXX
2 x2ijkm i
j
2
m
k
2
2
1 1 2 . . . 12 12 12 12 02 22 12 20 22 102 ; P 2 Ai 272 352 72;73 ;
3 i qrn 333 P 2 Bj 252 282 92 j
4 82;78 ; prn 233 P 2 Ck 202 212 212 71;22 ;
5 k pqn 233 PP 2 ABij
6
i
j
rn 122 122 32 132 162 62 84;22 ; 33 PP 2 ACik i k
7 qn 82 92 102 122 122 112 72;67 ; 33 PP 2 BCjk
8
j
k
pn 92 112 52 82 92 112 32 12 52 23 88;00 PPP ABC2ijk
9
i
j
k
n 42 52 32 . . . 22 12 32 90 : 3
Unter Verwendung dieser Kennziffern erhalten wir die in Tabelle 8.14 genannten Ergebnisse. (Rechenkontrolle: Die einzelnen Quadratsummen mçssen aufaddiert die totale Quadratsumme ergeben. Das Gleiche gilt fçr die Freiheitsgrade. Es ist darauf zu achten, dass die Hilfsgræûen (1)±(9) mæglichst genau berechnet werden. Negative Quadratsummen sind immer ein Anzeichen dafçr, dass Rechenfehler vorliegen!) Die prozentuale Varianzaufklårung (g2 100%) der abhångigen Variablen durch die Faktoren und Interaktionen ermitteln wir, indem die entsprechenden Quadratsummen an der QStot relativiert und mit 100 multipliziert werden. Diese Vorgehensweise ist in unserem Beispiel zulåssig, da alle Faktoren feste Effekte aufweisen (vgl. jedoch auch S. 299). Alle Haupteffekte und Interaktionen werden an der Fehlervarianz getestet. Sowohl der B-Effekt (Alter) als auch die B C-Interaktion (Alter Schicht) sind somit sehr signifi-
a8.3
Tabelle 8.14. Ergebnistabelle der dreifaktoriellen Varianzanalyse 2
QS
df
^ r
A B C AB AC BC ABC Fehler
1,19 11,60 0,04 0,26 0,26 5,19 0,29 12,00
1 2 2 2 2 4 4 36
1,19 5,80 0,02 0,13 0,13 1,30 0,07 0,33
Total
30,82
53
2,0 1,8 1,6
F 3,60 17,58
1,4 1,2
A.V.
Q.d.V.
1,0 US
0,8
3,94
0,6 OS
0,4 0,2
MS
0 b1
Tabelle 8.15. Mittelwerte der B C-Interaktion fçr Tabelle 8.13
OS MS US
8
319
Drei- und mehrfaktorielle Varianzanalysen
jung
mittel
alt
1,50 1,83 0,83
1,33 1,50 1,83
0,50 0,16 0,83
kant (F2;36;99% 5;26; F4;36;99% 3;90). Die Einstellung zur Politik ist altersabhångig. Alte Personen haben gegençber jçngeren Personen eine negativere Einstellung (B1 1;39, B2 1;56, B3 0;5). Diese Interpretation ist wegen der signifikanten, disordinalen B C-Interaktion jedoch zu relativieren (s. u.). Die Einstellung zur Politik ist unabhångig vom Geschlecht und vom Schichtfaktor (keine Signifikanz auf Faktor A und C). Interaktion. Die B C-Interaktion basiert auf den in Tabelle 8.15 genannten Mittelwerten. Da die Mittelwerte weder zeilenweise noch spaltenweise einheitlich einem monotonen Trend folgen, handelt es sich um eine disordinale Interaktion (vgl. S. 301). Abbildung 8.5 zeigt die graphische Darstellung dieser Interaktion. Aus der Abbildung geht hervor, dass bei der Oberschicht und noch deutlicher bei der Mittelschicht mit zunehmendem Alter die Einstellung negativer wird. Dies trifft jedoch nicht auf die Unterschicht zu. Hier sind junge und alte Personen im Vergleich zu Personen mittleren Alters am meisten negativ eingestellt. Um zu çberprçfen, welche Schicht Alter-Kombinationen sich paarweise signifikant voneinander unterscheiden, ermitteln wir nach Gl. (8.54) folgende kritische Differenz: r 2
3 3 1 0;33 3;10 Diff crit 1;65: 32 Mittelwertdifferenzen der B C-Kombinationen, deren Absolutbetråge græûer als 1,65 sind, bezeichnen wir als auf dem 1%-Niveau signifikant.
b2
b3
Abb. 8.5. Graphische Darstellung der B C-Interaktion in Tabelle 8.15 Quasi-F-Brçche. Um die Bildung von Quasi-F-Brçchen zu verdeutlichen, nehmen wir einfachheitshalber an, dass das in Tabelle 8.13 enthaltene Datenmaterial aus einer Untersuchung stammt, in der der Faktor A fest und die Faktoren B und C zufållig sind. An den Berechnungen der in Tabelle 8.14 enthaltenen Varianzen åndert sich hierdurch nichts. Die Ûberprçfung der Varianzen erfolgt jedoch nicht durchgångig an der Fehlervarianz, sondern an den in Tabelle 8.11 unter III angegebenen Varianzen. Nach diesem Prçfschema ermitteln wir die folgenden F-Werte: 0;13 1;86 0;07 0;13 FAC 1;86 0;07 1;30 FBC 3;94 0;33
FA
nicht testbar FAB 5;80 4;46 1;30 0;02 FC 0;01 1;30 0;07 0;21 : FABC 0;33 FB
Die F-Werte fçr den Haupteffekt C und die Tripelinteraktion A B C sind kleiner als 1 und damit nicht signifikant. Fçr Faktor B erwarten wir auf dem a 5%-Niveau bei 2 Zåhlerfreiheitsgraden und 4 Nennerfreiheitsgraden ( dfBC ) den kritischen F-Wert von F
2;4;95% 6;94. Der Haupteffekt B ist somit fçr den Fall, dass B und C zufållige Faktoren sind, nicht mehr signifikant. Ebenfalls keine Signifikanz ergibt sich fçr die Interaktionen A B und A C (F
2;4;95% 6;94). Da sich die Prçfvarianz fçr die B C-Interaktion nicht geåndert hat, ist sie auch in diesem Fall auf dem 1%-Niveau signifikant. Als Nåchstes berechnen wir fçr den Faktor A einen Quasi-F-Bruch, der gemåû Tabelle 8.12 lautet: F0
^2A r ^2ABC 1;19 0;07 r 4;85 : 2 ^AB r ^2AC 0;13 0;13 r
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
Die Freiheitsgrade ermitteln wir nach Gl. (8.52) und (8.53) zu:
20
2
16
2
0;13 0;13 4;00 :
0;132 =2
0;132 =2
16
12 8
Interaktionen 2. Ordnung
Norden
Süden
A.V.
8 4
0
0 Herbst
20
16
Aufwåndig ist die Interpretation einer signifikanten Interaktion 2. Ordnung (Tripelinteraktion). Da die Interaktion 2. Ordnung in unserem Beispiel nicht signifikant war, wåhlen wir dazu ein anderes. Es soll çberprçft werden, ob sich ein Faktor A Jahreszeiten (p 4), ein Faktor B Wohngegend (q 2, Norden vs. Sçden) und ein Faktor C Geschlecht (r 2) auf das Ausmaû der Verstimmtheit von Personen (= abhångige Variable) auswirken. Den 4 2 2 16 Faktorstufen werden jeweils n 30 Vpn aus den entsprechenden Populationen per Zufall zugeordnet. Die Erhebung der abhångigen Variablen erfolgt mit einem Stimmungsfragebogen. (Je hæher der Wert, um so stårker die Verstimmung.) Tabelle 8.16 enthålt die in den 16 Gruppen erzielten Durchschnittswerte. Die graphische Darstellung dieser Interaktion zeigt Abb. 8.6. Hier wurde fçr jede Stufe des Faktors A ein Diagramm fçr die bedingten B C-Interaktionen (d. h. die B C-Interaktion unter der Bedingung einer bestimmten A-Stufe) angefertigt. Wåre die Tripelinteraktion nicht bedeutsam, ergåben sich in der graphischen Darstellung fçr alle
12
4
20
16
12
Norden
8
Süden
Winter Norden
12 8
4
4
0
0
Süden
Abb. 8.6. Graphische Darstellung der Interaktion 2. Ordnung in Tabelle 8.16
4 Jahreszeiten åhnliche Verlaufsmuster, was inhaltlich besagen wçrde, dass die Stimmungsunterschiede zwischen weiblichen und månnlichen Personen im Sçden und Norden zu allen 4 Jahreszeiten in etwa gleich sind. Die Interpretation der unbedingten B C-Interaktion wåre also fçr alle Stufen von A gçltig. Bei den von uns angenommenen Werten ist dies jedoch nicht der Fall. Hier mçssen die bedingten B C-Interaktionen fçr jede Stufe von A getrennt interpretiert werden, wobei dafçr die gleichen Regeln gelten wie fçr die Interpretation der Interaktion einer zweifaktoriellen Varianzanalyse.
Tabelle 8.16. Beispiel fçr eine Interaktion 2. Ordnung Norden
Süden
Norden
Fçr diese Freiheitsgrade und a 5% lautet der kritische F-Wert: F
1;4;95% 7;71. Der Haupteffekt A ist somit auch unter der Modellannahme III nicht signifikant.
8
Sommer 20
A.V.
dfNenner
1;19 0;07 1;12 1 ;
1;192 =1
0;072 =4 A.V.
dfZahler
Frühling
A.V.
320
Sçden
Faktor B
Faktor A #
månnlich
weiblich
månnlich
weiblich
Frçhling Sommer Herbst Winter
12 12 16 14
14 14 12 16
16 8 8 4
8 20 8 8
Faktor C
321
a8.4 Ungleiche Stichprobengræûen
Mehr als 3 Faktoren Die Rechenregeln fçr die Durchfçhrung einer Varianzanalyse mit mehr als 3 Faktoren lassen sich problemlos aus der dreifaktoriellen Varianzanalyse ableiten. Im vierfaktoriellen Fall benætigen wir 17 Kennziffern, wovon sich die ersten 2 ± analog zur dreifaktoriellen Varianzanalyse ± auf die Gesamtsumme bzw. die Summe aller quadrierten Messwerte beziehen. Die nåchsten 4 Kennwerte gehen von den Summen fçr die 4 Haupteffekte aus. Es folgen 42 6 Ziffern fçr die Summen der Faktorstufenkombinationen von jeweils 2 Faktoren und 4 4 Ziffern fçr die Summen der Faktorstufen3 kombinationen von jeweils 3 Faktoren. Die 17. Kennziffer bezieht sich auf die Zellensummen. Die Berechnung der Quadratsummen geschieht in der Weise, dass analog zur dreifaktoriellen Varianzanalyse von der Kennziffer (1) diejenigen Kennziffern, in denen der jeweilige Effekt enthalten ist, subtrahiert bzw. addiert werden. Das Berechnungsprinzip fçr die Freiheitsgrade kann ebenfalls verallgemeinernd der dreifaktoriellen Varianzanalyse entnommen werden. Alle Varianzen werden bei Faktoren mit ausschlieûlich festen Effekten an der Fehlervarianz getestet. Allgemeine Regeln fçr die Konstruktion adåquater F-Brçche fçr Faktoren mit zufålligen Effekten werden wir in Kap. 12 kennenlernen.
8.4 Ungleiche Stichprobengræûen Die bisher besprochenen, mehrfaktoriellen varianzanalytischen Versuchsplåne sehen vor, dass jeder Faktorstufenkombination eine Zufallsstichprobe gleichen Umfangs zugewiesen wird. Dies ist in der Praxis jedoch nicht immer zu gewåhrleisten. Auf Grund von Fehlern in der Untersuchungsdurchfçhrung, Schwierigkeiten beim Auffinden der benætigten Vpn usw. kann es vorkommen, dass die untersuchten Stichproben nicht gleichgroû sind. In diesem Fall versagen die unter 8.1 bis 8.3 genannten Rechenregeln, die von einer einheitlichen Stichprobengræûe n fçr alle Faktorstufenkombinationen ausgehen. Fçr mehrfaktorielle Varianzanalysen mit ungleichgroûen Stichproben werden wir ferner in Kap. 14 feststellen, dass eine wichtige
Eigenschaft der Varianzanalyse, die Unabhångigkeit bzw. Orthogonalitåt von Haupteffekten und Interaktionseffekten, nicht mehr realisiert ist. Wir bezeichnen deshalb Varianzanalysen mit ungleichgroûen Stichproben auch als nichtorthogonale Varianzanalysen. Fçr die Durchfçhrung einer Varianzanalyse mit ungleichgroûen Stichproben stehen zumindest theoretisch 4 Alternativen zur Verfçgung: · Varianzanalyse mit Schåtzung der fehlenden Daten (¹Missing-dataª-Techniken), · Varianzanalyse mit proportional geschichteten Stichproben, · Varianzanalyse mit dem harmonischen Mittel der Stichprobenumfånge, · Varianzanalyse nach dem allgemeinen linearen Modell. In diesem Kapitel behandeln wir nur die ersten drei Methoden ausfçhrlicher. Auf Methode 4 gehen wir in Kap. 14, S. 494 ff. ein.
¹Missing-dataª-Techniken Diese Technik sollte fçr Untersuchungen reserviert bleiben, die ursprçnglich gleich groûe Stichproben vorsahen, und bei denen ein zu vernachlåssigender Prozentsatz der Daten unbrauchbar ist, verloren ging oder nicht erhoben werden konnte. Man ersetzt fehlende Daten durch den jeweiligen Stichprobenmittelwert bzw. den Mittelwert der jeweiligen Faktorstufenkombination. Dass mit diesem Notbehelf åuûerst sparsam umgegangen werden sollte, wird deutlich, wenn man die Auswirkung dieser Technik auf die Gçltigkeit des F-Tests çberprçft: Das Ersetzen fehlender Werte durch den jeweiligen Mittelwert hat zur Folge, dass die Fehlervarianz reduziert wird, sodass der F-Test eher progressiv entscheidet. Weitere ¹Missing dataª-Techniken werden bei Frane (1976) Little u. Rubin (1987), Schafer u. Graham (2002), West (2001) bzw. Læsel u. Wçstendærfer (1974) beschrieben.
Proportional geschichtete Stichproben Dieses Verfahren ist nur dann anwendbar, wenn die Stichprobengræûen zeilen- und spaltenweise zueinander proportional sind. Dies wåre beispielsweise der Fall, wenn Klausurergebnisse (abhångi-
8
322
8
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
ge Variable) von Studierenden 4 verschiedener Fåcher (Faktor A) an 3 verschiedenen Universitåten (Faktor B) zu vergleichen sind und die Stichprobenumfånge zu den Umfången der entsprechenden Studierendenpopulationen proportional sind. Nehmen wir an, die Anzahl aller Studierenden in den zu vergleichenden Fåchern stehen im Verhåltnis 1 : 4 : 2 : 3 zueinander, und fçr die Græûen der zu vergleichenden Universitåten gilt das Verhåltnis 1 : 3 : 2. Tabelle 8.17 zeigt eine Anordnung von Stichprobengræûen, die diese Proportionalitåtsbedingungen erfçllt. In allen 4 Zeilen unterscheiden sich die Stichproben im Verhåltnis 1 : 3 : 2 und in den 3 Spalten im Verhåltnis 1 : 4 : 2 : 3. Sind die Stichprobengræûen in einer zweifaktoriellen Varianzanalyse in diesem Sinn proportional, ergeben sich fçr die rechnerische Durchfçhrung der Varianzanalyse gegençber einer Varianzanalyse mit gleichen Stichprobenumfången nur geringfçgige Modifikationen. Die Varianzanalyse geht in diesem Fall von folgenden Kennziffern aus: XX G2
1 ; wobei N nij N i j
2
nij XXX i
3
i
ni :
i
4
m
j
X A2 X B2j n:j XX
x2ijm ;
;
i
;
AB2ij nij
j
ni :
X
nij ;
j
j
5
wobei wobei
n:j
X
nij ;
i
:
Unter Verwendung dieser Kennziffern kænnen die Quadratsummen nach den Vorschriften in Tabelle 8.5 berechnet werden. Die Freiheitsgrade ermitteln wir zu: dfA p
1
dfB q 1 dfAB
p 1
q
dfFehler N dftot N
pq 1
1 :
Man beachte, dass bei dieser Varianzanalyse Gl. (8.11) erfçllt ist, d. h., die Varianzanalyse mit proportional geschichteten Stichproben gehært zu den orthogonalen Varianzanalysen.
Tabelle 8.17. Proportional geschichtete Stichprobenumfånge fçr eine zweifaktorielle Varianzanalyse Faktor B 1 Faktor A
1 2 3 4
n11 n21 n31 n41
2 5 20 10 15
n12 n22 n32 n42
3 15 60 30 45
n13 n23 n33 n43
10 40 20 30
Die Verallgemeinerung dieses Ansatzes auf mehrfaktorielle Versuchsplåne zeigen Huck u. Layne (1974). Wie zu verfahren ist, wenn die Stichprobenumfånge geringfçgig von der geplanten Proportionalitåt abweichen, beschreibt Bonett (1982 a).
Ausgleich durch das harmonische Mittel Sind die Stichprobengræûen ungleich und nicht proportional geschichtet, besteht die Mæglichkeit, die einzelnen Stichprobenumfånge durch das harmonische Mittel aller Stichprobenumfånge zu ersetzen (¹unweighted means solutionª). Der hier beschriebene Ansatz fçhrt zu akzeptablen Nåherungslæsungen, wenn das Verhåltnis vom græûten zum kleinsten Stichprobenumfang kleiner als 5 ist (vgl. Elliot, 1989). Das Verfahren setzt voraus, dass ursprçnglich gleich groûe Stichprobenumfånge geplant waren und dass die Ausfålle von Untersuchungseinheiten von den Faktorstufenkombinationen unabhångig sind. Nach Gl. (1.12) ergibt sich das harmonische Mittel aller Stichprobengræûen eines zweifaktoriellen Planes zu: pq 1 1 1 ... n11 n12 npq pq PP : 1 i j nij
HM nh
8:63
Wir verwenden in diesem Zusammenhang statt des arithmetischen Mittels das harmonische Mittel, weil der Standardfehler des Mittelwertes prop p portional zu 1= n und nicht zu n ist (vgl. 3.2.2). Je græûer der Stichprobenumfang, desto
kleiner wird der Standardfehler. Entsprechend tragen im harmonischen Mittel græûere Stichproben weniger zur Vergræûerung von nh bei als kleinere Stichproben. (Das arithmetische Mittel der Werte 5 und 10 betrågt 7,5, das harmonische Mittel 6,67.) Kleinere Stichprobenumfånge werden sozusagen beim harmonischen Mittel stårker gewichtet als beim arithmetischen Mittel. Fçr die Durchfçhrung einer Varianzanalyse mit dem harmonischen Mittel aller Stichprobenumfånge berechnen wir zunåchst die arithmetischen Mittelwerte der Messwerte fçr alle Faktorstufenkombinationen. Diese lauten im zweifaktoriellen Fall: ABij
nij X
xijm =nij :
m1
Ausgehend von diesen Mittelwerten werden die folgenden Mittelwertsummen bestimmt: Ai
X
ABij ;
j
Bj
X
ABij ;
i
G
X i
Ai
X
Bj :
j
Die fçr die Quadratsummenberechnung benætigten Kennziffern lauten: P 2 Ai 2 G i ;
3 ;
1 pq q P 2 Bj XX 2 j ;
5
4 ABij : p i j Die Kennziffer 2, die wir çblicherweise zur Bestimmung der Fehlerquadratsumme benætigen, wurde hier ausgelassen. Bei nicht gleichgroûen Stichprobenumfången mçssen wir die Fehlerquadratsumme direkt aus den Quadratsummen innerhalb der einzelnen Zellen in folgender Weise ermitteln: Die Quadratsumme fçr eine Zelle ij lautet: nij 2 P x nij ijm X m1 QSFehler
i;j x2ijm :
8:64 nij m1
8
323
a8.4 Ungleiche Stichprobengræûen
Summieren wir (unter der Annahme der Varianzhomogenitåt) diese Quadratsummen çber alle Zellen, resultiert: XX QSFehler QSFehler
i;j :
8:65 i
j
Die Freiheitsgrade fçr die QSFehler erhalten wir nach: XX dfFehler nij p q i
N
j
p q:
8:66
Die Bestimmung der Quadratsummen und Freiheitsgrade zeigt Tabelle 8.18. Man mæge sich davon çberzeugen, dass diese Art der Quadratsummenberechnung, in der die Kennzifferdifferenzen mit dem harmonischen Mittel multipliziert werden, im Fall gleichgroûer Stichprobenumfånge mit der Quadratsummenberechnung nach Tabelle 8.5 identisch ist. Hier gilt allerdings nicht, dass sich die QStot additiv aus den çbrigen Quadratsummen zusammensetzt. Je stårker die QStot von der Summe der çbrigen Quadratsummen abweicht, desto mehr ist die Angemessenheit des hier beschriebenen Verfahrens anzuzweifeln. Treten starke Diskrepanzen auf, sollte die Varianzanalyse nach dem in Kap. 14, S. 497, Modell I, beschriebenen Ansatz durchgefçhrt werden. BEISPIEL Tabelle 8.19 zeigt eine Varianzanalyse mit ungleichen Stichprobengræûen unter Verwendung des harmonischen Mittels. Die Diskrepanz zwischen der additiv ermittelten QStot (QSA QSB QSAB QSFehler 132;78) und der auf Grund der Individualwerte bestimmten QStot 131;88 kann vernachlåssigt werden, d. h., der Ausgleich der ungleichgroûen Stichproben çber das harmonische Mittel ist angemessen.
Tabelle 8.18. Allgemeine Ergebnistabelle einer zweifaktoriellen Varianzanalyse mit ungleichen Stichprobengræûen unter Verwendung des harmonischen Mittels Q.d.V.
QS
df
A B AB Fehler
nh
3
1 nh
4
1 nh
5
3
4
1 s. Gl. (8.65)
p 1 q 1
p 1
q N pq
1
324
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
Tabelle 8.19. Beispiel fçr eine zweifaktorielle Varianzanalyse mit ungleichen Stichprobengræûen unter Verwendung des harmonischen Mittels Faktor A mit p 3 Stufen Faktor B mit q 4 Stufen Faktor B
Faktor A 1
8
2
3
1
5 6 5 4 6
6 5 7 6
6 6 7 5 6
5 5 7 6 5
7 7 8 7 6
8 6 6
2
4 5 5 4 6
5 6 5
6 6 7 7 6
5 7 5 6
6 6 8 7 8
8 7 7 6
3
4 5 6 6 7
7 6 5 7
6 5 5 7 5
4 4 5
7 6 8 7 6
8 8 7 7
4
5 6 6 7 6
6 5 6 5 7
5 6 5 6 7
6 5 5 4
6 7 8 7 8
7 8 5 8 8
Mittelwerttabelle Faktor B
Faktor A
1 2 3 4
1
2
3
5,56 5,00 5,89 5,90
5,80 6,11 5,13 5,44
6,88 7,00 7,11 7,20
B1 B2 B3 B4
A2 22;48
A3 28;19
G 73;02
A1 22;35 G2 73;022 444;33 p q 12 P 2 Bj 1333;10 j
4 444;37 3 p
1
P
3
5
i
A2i
q
XX i
j
1799;55 449;88 4 2
ABij 451;02
pq 12 8;94 nh P P 1 1;34 i j nij
QSA nh
3
1 8;94
449;88 444;33 49;62 QSB nh
4
1 8;94
444;37 444;33 0;36 QSAB P nh P
5
3
4
1 8;94
451;02 449; 88 444; 37 444;33 9;83 QSFehler QSFehler
ij 6;22 5;60 . . . 6;22 9;60 72;97 i
dfA p
j
1 2 dfB q
13
dfAB
p
1
q
1 6
Q.d.V.
QS
df
^2 r
F
A B AB Fehler
49,62 0,36 9,83 72,97
2 3 6 96
24,81 0,12 1,64 0,76
32,64 0,16 2,16
dfFehler
PP i
j
nij
p q 108
12 96
F
2;96;99% 4;85 F
6;96;99% 2;20
QStot 131;88 ; QSA QSB QSAB QSFehler 132; 78
18;24 18;11 18;13 18;54
a8.5
325
Varianzanalyse mit einer Untersuchungseinheit pro Faktorstufenkombination (n = 1)
Analog hierzu wird eine dreifaktorielle Varianzanalyse mit ungleichen Stichprobengræûen durchgefçhrt.
8.5 Varianzanalyse mit einem Untersuchungsobjekt pro Faktorstufenkombination (n = 1) Ein weiterer varianzanalytischer Spezialfall ist dadurch gekennzeichnet, dass pro Faktorstufenkombination nur ein Untersuchungsobjekt vorliegt. Diese Situation kænnte beispielsweise eintreten, wenn in einer ersten Erkundungsuntersuchung die chemische Wirkung mehrerer neuer Substanzen ( = Faktor A) an verschiedenen Tieren ( = Faktor B) untersucht werden soll und wenn die Behandlung mehrerer Tiere einer Art mit jeder Substanz (was einem zweifaktoriellen Versuchsplan mit mehreren Untersuchungsobjekten pro Faktorstufenkombination entspråche) zu kostspielig bzw. riskant wåre. Die Besonderheit dieses varianzanalytischen Untersuchungsplanes liegt darin, dass wir die Fehlervarianz nicht in çblicher Weise bestimmen kænnen. Fçr die Fehlervarianzermittlung ist es im Normalfall erforderlich, dass pro Faktorstufenkombination mehrere Untersuchungsobjekte beobachtet werden, deren Unterschiedlichkeit indikativ fçr die Fehlervarianz ist. Da im Fall n 1 ein Untersuchungsobjekt pro Faktorstufenkombination keine Varianz erzeugt, mçssen wir uns bei diesem Versuchsplan nach einer anderen Art der Prçfvarianzbestimmung umsehen. Subtrahieren wir in der zweifaktoriellen, orthogonalen Varianzanalyse von der QStot die QSA und die QSB , erhalten wir eine Restquadratsumme, die sich aus der QSAB und QSFehler zusammensetzt. Liegen mehrere Beobachtungen pro Faktorstufenkombination vor, kænnen die Quadratsumme innerhalb der p q Zellen ( QSFehler ) und der Interaktionsanteil in der Restquadratsumme getrennt voneinander bestimmt werden. Diese Mæglichkeit ist im Fall n 1 nicht gegeben. Wir sagen: Fehlervarianz und Interaktionsvarianz sind im Fall n 1 konfundiert und nicht einzeln bestimmbar. Ziehen wir bei einer zweifaktoriellen Varianzanalyse mit nur einem Untersuchungsobjekt pro Faktorstufenkombination von der QStot die QSA und QSB ab, erhalten wir eine Restquadratsumme, die sowohl Fehleranteile als auch Interaktionsanteile enthålt.
Mit Hilfe eines auf Tukey (1949) zurçckgehenden Verfahrens sind wir allerdings in der Lage zu çberprçfen, ob çberhaupt mit einer Interaktion zwischen den beiden Haupteffekten zu rechnen ist. Auf S. 294 haben wir erfahren, wie die Zellenmittelwerte beschaffen sein mçssten, wenn keine Interaktion zwischen den beiden Haupteffekten besteht (wenn sich also die QSZellen additiv aus der QSA und QSB zusammensetzt). Von vergleichbaren Ûberlegungen ausgehend entwickelte Tukey einen Additivitåtstest, der die Nullhypothese çberprçft, dass sich die QSZellen additiv nur aus der QSA und QSB zusammensetzt. Kann diese Annahme im Fall n 1 aufrechterhalten werden, muss die Restvariation der QStot, die sich nach Abzug der QSA und QSB ergibt, eine Fehlervariation darstellen, die als Prçfgræûe fçr die Haupteffekte herangezogen werden kann. Die Durchfçhrung dieses Verfahrens veranschaulicht das folgende Beispiel: BEISPIEL Es soll geprçft werden, ob vergleichbaren Fachbereichen an verschiedenen Universitåten die gleichen finanziellen Mittel zur Verfçgung gestellt werden. In die Untersuchung mægen 5 Fachbereiche ( Faktor A) aus 6 Universitåten ( Faktor B) eingehen. Wåhlen wir nur ein Rechnungsjahr zufållig aus, steht pro Fachbereich an jeder Universitåt nur ein Messwert zur Verfçgung. Aus den Unterlagen mægen sich die in Tabelle 8.20 dargestellten (fiktiven) Werte (in 100 000,± 1 ) ergeben haben. Tabelle 8.20 enthålt neben den Daten die Zeilen- und Spaltensummen sowie die Mittelwerte Ai und Bj . Der Gesamtmittelwert lautet G 10. (Auf die Bedeutung der ci und cj -Werte gehen wir spåter ein.) Wir bestimmen wie in einer normalen zweifaktoriellen Varianzanalyse die Kennziffern (1) bis (5), wobei wir n 1 setzen. 3002
1 G2 =p q 3000 ; 56 XX x2ij 3568 ;
2 i
P
3
i
4
q
P j
j
A2i
662 632 872 352 492 3253;33 ; 6
B2j
p 422 542 582 392 772 302 3278;80 ; 5 X X XX 2 2 ABij xij 3568 :
5 i
j
i
j
8
326
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
Tabelle 8.20. Beispiel fçr eine zweifaktorielle Varianzanalyse mit n = 1 Fachbereiche (A) 1 2 3 4 5 Bj Bj cj
Universitåten (B)
1
2
3
4
5
6
8 9 13 5 7
12 11 15 7 9
12 13 16 7 10
9 8 11 4 7
18 16 23 9 11
7 6 9 3 5
42
54
58
39
77
30
8,4
10,8
11,6
7,8
15,4
6,0
±1,6
0,8
1,6
±2,2
5,4
±4,0
Ai
Ai
ci
66 63 87 35 49
11,0 10,5 14,5 5,83 8,17
1,0 0,5 4,5 ±4,17 ±1,83
G = 300
G = 10
Tabelle 8.21. Ergebnistabelle der zweifaktoriellen Varianzanalyse mit n 1
8
Q.d.V.
QS
df
^2 r
Faktor A Faktor B Residual Nonadd Balance
(3)±(1) = 253,33 (4)±(1) = 278,80 (5)±(3)±(4)+(1) = 35,87 24,56 11,31
p±1 = 4 q±1 = 5 (p±1)(q±1) = 20 1 (p±1)(q±1)±1 = 19
63,33 55,76 1,79 24,56 0,60
Total
(2)±(1) = 568,00
Da ist, ergibt sich
2
5 bzw. P P n 2 1 P P ABij x2ij . Gemåû Tabelle 8.5 ermitteln wir fçr i
j
i
j
die QSA , QSB und QStot die in Tabelle 8.21 wiedergegebenen Werte. Die QSAB enthålt fçr n 1 sowohl mægliche Interaktionseffekte als auch Fehlereffekte. Wir kennzeichnen sie deshalb in Absetzung von der reinen Interaktion als Residualquadratsumme
QSRes . Sie wird genauso bestimmt wie QSAB im Fall mehrerer Untersuchungsobjekte pro Faktorstufenkombination
QSRes
5
3
4
1. Ihre Freiheitsgrade werden ebenfalls wie in einer zweifaktoriellen Varianzanalyse mit mehreren Untersuchungsobjekten pro Faktorstufenkombination ermittelt. Additivitåtstest. Mit dem Additivitåtstest çberprçfen wir, ob die in der QSRes enthaltenen Interaktionsanteile zu vernachlåssigen sind. Ist dies der Fall, kann die QSRes , dividiert durch die Freiheitsgrade dfRes
p 1
q 1, als Prçfvarianz fçr die Haupteffekte eingesetzt werden. Tabelle 8.20 enthålt eine Spalte ci und eine Zeile cj , die folgendermaûen bestimmt wurden: ci Ai
G;
cj Bj
G:
Der 1. Wert in Spalte ci ergibt sich somit zu 11;0 10;0 1 bzw. der 4. Wert in der Zeile cj zu P P 7;8 10;0 2; 2 Kontrolle: ci cj 0 . i
j
Ausgehend von den c-Werten definieren wir eine neue Matrix D, deren Elemente nach der Beziehung dij ci cj berechnet werden. Das Ergebnis zeigt Tabelle 8.22: Der Wert d11 ergibt sich in dieser Tabelle zu d11 1;0
1;6 1;6 bzw. der Wert d34 zu d34 4;5
2;2 9;9. Tabelle 8.22 muss ± bis auf Rundungsungenauigkeiten ± zeilen- und spaltenweise Summenvon P PP P ci cj ci cj ci cj 0 . Null aufweisen i
j
i
j
Ausgehend von der D-Matrix und der Matrix der ursprçnglichen Werte bilden wir nach folgender Gleichung eine Komponente QSnonadd der QSRes : !2 PP dij ABij QSnonadd
i
j
PP i
j
d2ij
:
8:67
a8.5
327
Varianzanalyse mit einer Untersuchungseinheit pro Faktorstufenkombination (n = 1)
Tabelle 8.22. D-Matrix der zweifaktoriellen Varianzanalyse mit n 1 Faktor B Faktor A 1 2 3 4 5 P i
1
2
3
6
P j
dij
0,80 0,40 3,60 ±3,34 ±1,46
1,60 0,80 7,20 ±6,67 ±2,93
±2,20 ±1,10 ±9,90 9,17 4,03
5,40 2,70 24,30 ±22,52 ±9,88
±4,00 ±2,00 ±18,00 16,68 7,32
0,00 0,00 0,00 (±0,01) (0,01)
0,00
0,00
0,00
0,00
0,00
0,00
0,00
In unserem Fall ermitteln wir als Komponente QSnonadd : QSnonadd
1;608 0;8012
9;8811 7;3252
1;602 0;802
9;882 7;322 240;522 24;56 : 2355;17 PP 2 P 2 P 2 (Kontrolle: dij ci cj . Im Beispiel: 2355;17
j
i
j
42;24 55;76:) Diese Komponente hat, wie alle Komponenten, einen Freiheitsgrad. Sie beinhaltet denjenigen Quadratsummenanteil der QSRes, der auf Interaktionseffekte zwischen den beiden Faktoren zurçckzufçhren ist. Subtrahieren wir die QSnonadd von der QSRes, erhalten wir eine Restquadratsumme, die Balance
QSBal ) genannt wird (vgl. Winer, 1971, Kap. 6.8): QSBal QSRes
QSnonadd :
8:68
Wir ermitteln: QSBal 35;87
^2Res als Prçfvarianz, fçhrt dies Benutzen wir dennoch r allerdings zu konservativen Entscheidungen, weil die Prçfvarianz um den Betrag, der auf Interaktionen zurçck^2Res als Prçfvarianz, resulgeht, zu groû ist. Verwenden wir r tieren zu kleine empirische F-Werte, d. h., tatsåchlich vorhandene Signifikanzen kænnten çbersehen werden. In unserem Fall sind die Haupteffekte allerdings so deutlich ausgeprågt, dass sie, auch gemessen an der zu groûen Prçfvarianz, signifikant werden. Wir ermitteln fçr den Haupteffekt A: F
63;33 35;38 1;79
F
4;20;99% 4;43
und fçr den Haupteffekt B: F
55;76 31;15 1;79
F
5;20;99% 4;10 :
Auf Grund dieser Ergebnisse kænnen wir die beiden Nullhypothesen bezçglich der Faktoren A und B verwerfen, obwohl keine adåquate Prçfvarianz existiert.
24;56 11;31 :
Die QSBal hat
p 1
q 1 1 20 1 19 df. Dividieren wir diese Quadratsummen durch ihre Freiheitsgrade, erhalten wir die entsprechenden Varianzen. Die Nullhypothese, nach der wir keine Interaktion erwarten, wird durch folgenden F-Bruch çberprçft: F
5
±1,60 ±0,80 ±7,20 6,67 2,93 dij
i
4
^2nonadd r ^2Bal r
8:69
In unserem Beispiel resultiert ein F-Wert von: 24;56 F 40;93 : 0;60 Da wir uns bei der Entscheidung çber die H0 gegen einen mæglichen b-Fehler absichern mçssen (die H0 sollte nicht fålschlicherweise akzeptiert werden), wåhlen wir das a 25%-Niveau (vgl. 4.7 und auch S. 165). Der kritische F-Wert lautet: F
1;19;75% 1;41, d. h. der empirische F-Wert ist erheblich græûer. Die H0 wird deshalb verworfen: Die QSRes enthålt bedeutsame Interaktionsanteile und kann nicht als Prçfvarianz fçr die Haupteffekte A und B herangezogen werden.
Hinweis: Tukey's Additivitåtstest reagiert nur auf eine Interaktionskomponente sensibel. Diese Interaktionskomponente basiert auf dem Produkt der linearen Haupteffekte (¹linear by linearª: dij ci cj
Ai G
Bj G: Interaktionen kænnen jedoch auch durch Verknçpfung nichtlinearer Haupteffekte wie z. B. c2i cj ; c3i log cj etc. entstehen, die im Test von Tukey nicht berçcksichtigt werden (vgl. hierzu Winer et al., 1991, S. 353). Falls derartige Interaktionskomponenten vorhanden sind, reagiert der Test jedoch konservativ. Dreifaktorielle Plåne. In einer dreifaktoriellen Varianzanalyse mit n 1 erhalten wir c-Koeffizienten nach den Beziehungen ci Ai G, cj Bj G und ck Ck G. Ein Element der
8
328
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
D-Matrix lautet in diesem Fall: dijk ci cj ck . Der çbrige Rechengang folgt den hier beschriebenen Regeln. Es wird çberprçft, ob die QSRes neben Fehleranteilen auch bedeutsame Interaktionsanteile 2. Ordnung enthålt, indem sie, analog zu den Gl. (8.60) bzw. (8.61), in einen Nonadditivitåtsanteil und einen Balanceanteil zerlegt wird. Ist ^2nonadd ± getestet an r ^2Bal ± auf dem a 25%-Nir ^2Res eine adåquate veau nicht signifikant, stellt die r Prçfvarianz fçr die 3 Haupteffekte und die Interaktionen 1. Ordnung dar.
8
Hinweise: Zur mathematischen Ableitung dieses Verfahrens vgl. Scheff (1963, Kap. 4.8) oder auch Neter et al. (1985, Kap. 23.2). Ein anderes Verfahren fçr eine Varianzanalyse mit n 1 wurde von Johnson u. Graybill (1972) entwickelt. Einen Vergleich dieses Verfahrens mit dem hier beschriebenen Tukey-Test findet man bei Hegemann u. Johnson (1976).
8.6 Voraussetzungen mehrfaktorieller Versuchsplåne Die bereits unter 7.5 erwåhnten Voraussetzungen fçr die einfaktorielle Varianzanalyse gelten ohne Einschrånkung auch fçr mehrfaktorielle Versuchsplåne, wobei sich die normalverteilten und varianzhomogenen Fehlerkomponenten im Fall mehrfaktorieller Varianzanalysen auf die Abweichungswerte innerhalb der einzelnen Zellen beziehen. Verletzungen der Voraussetzungen fçhren im Fall hinreichend groûer und gleicher Stichprobenumfånge zu keinen gravierenden Entscheidungsfehlern (vgl. Box, 1954 b). Dessen ungeachtet soll im Folgenden ein Varianzhomogenitåtstest vorgestellt werden, der sich ± anders als der Bartlett-Test (vgl. S. 285) ± als åuûerst robust gegençber Verletzungen der Normalitåtsannahme erwiesen hat. Das Verfahren, das von O'Brien (1981) entwickelt wurde, weist gegençber anderen Varianzhomogenitåtstests relativ gute Testeigenschaften auf. (Vergleiche verschiedener Varianzhomogenitåtstests findet man z. B. bei
Games et al., 1979; Olejnik u. Algina, 1988 oder O'Brien, 1978.) Die Durchfçhrung des Varianzhomogenitåtstests (verdeutlicht fçr eine zweifaktorielle Varianzanalyse) gliedert sich in 4 Schritte: · Berechne fçr jede Stichprobe (Faktorstufenkombination) den Mittelwert ABij und die Va^2ij . rianz r · Jeder Rohwert xijm wird nach folgender Gleichung in einen rijm -Wert transformiert: rijm
nij
1;5 nij
xijm ABij 2
nij 1
nij 2
^2ij
nij 0;5 r
1
nij
2
1
nij
:
8:70
· Ûberprçfe, ob der Mittelwert rij der rijm-Werte ^2ij çbereinstimmt: einer Stichprobe mit r ^2ij : rij r · Ûber die rijm -Werte wird eine normale zweifaktorielle Varianzanalyse gerechnet. Tritt kein signifikanter Effekt auf, kann die H0 : ¹Die Varianzen sind homogenª beibehalten werden. Signifikante F-Brçche weisen darauf hin, bzgl. welcher Haupteffekte oder Faktorstufenkombinationen Varianzunterschiede bestehen. (Bei nicht gleich groûen Stichproben wird die Varianzanalyse çber die rijm -Werte nach den unter 14.2.4 beschriebenen Regeln durchgefçhrt.) Die Durchfçhrung eines Varianzhomogenitåtstests fçr drei- oder mehrfaktorielle Plåne ist hieraus ableitbar. Wie bereits im Zusammenhang mit einfaktoriellen Plånen erwåhnt, kann bei heterogenen Varianzen und kleinen Stichprobenumfången ersatzweise die bei Algina u. Olejnik (1984) beschriebene Welch-James-Prozedur eingesetzt werden (vgl. hierzu auch Hsiung, et al. 1994 a). Ein Computerprogramm fçr dieses Verfahren haben Hsiung et al. (1994 b) entwickelt. Weitere Informationen zu obiger Thematik findet man bei Lix u. Keselman (1995).
8
329
aÛbungsaufgaben ÛBUNGSAUFGABEN 1. In einem vierfaktoriellen Versuchsplan sei Faktor A 3fach, Faktor B 2fach, Faktor C 4fach und Faktor D 2fach gestuft. Jeder Faktorstufenkombination sollen 15 Vpn zufållig zugeordnet werden. Wieviele Vpn werden insgesamt fçr die Untersuchung benætigt? 2. In einer zweifaktoriellen Varianzanalyse (p 3, q 2, n 10) wurden folgende Quadratsummen bestimmt: QStot 200 ; QSA 20 ; QSAB 30 ; QSB 15 : Ist der Haupteffekt B signifikant? (Beide Faktoren mit fester Stufenauswahl.) 3. Welche voneinander unabhångigen Nullhypothesen werden in einer vierfaktoriellen Varianzanalyse çberprçft? 4. In einer Untersuchung geht es um die Frage, wann in einem Lehrbuch Fragen zum Text gestellt werden sollen: bevor der jeweilige Stoff behandelt wurde (um eine Erwartungshaltung zu erzeugen und damit ein zielgerichtetes Lesen zu ermæglichen) oder nachdem der jeweilige Text behandelt wurde (um zu çberprçfen, ob der gelesene Text auch verstanden wurde). Zusåtzlich wird vermutet, dass die Bedeutung der Position der Fragen auch davon abhången kann, ob es sich um
Wissensfragen oder Verståndnisfragen handelt. 4 Zufallsstichproben 6 Versuchspersonen werden den 4 Untersuchungsbedingungen, die sich aus den Kombinationen der beiden Faktoren (Faktor A mit den Stufen ¹Fragen vorherª vs. ¹Fragen nachherª und Faktor B mit den Stufen ¹Wissensfragenª vs. ¹Verståndnisfragenª) ergeben, zugewiesen. Nachdem die Studenten 10 Stunden unter den jeweiligen Bedingungen gelernt haben, werden sie anhand eines Fragebogens mit 50 Fragen çber den gelesenen Stoff geprçft. Hierbei wurden die folgenden Testwerte erzielt (nach Glass u. Stanley, 1970):
Wissensfragen
Verståndnisfragen
vorher
nachher
19 29 30
23 26 17
31 26 35
28 27 32
27 20 15
21 26 24
36 39 41
29 31 35
Ûberprçfen Sie mit einer zweifaktoriellen Varianzanalyse, ob die Haupteffekte bzw. die Interaktion signifikant sind. 5. Nennen Sie Beispiele fçr Faktoren mit fester und zufålliger Stufenauswahl.
6. Es soll der Einfluss des Trainers im gruppendynamischen Training auf die Gruppenatmosphåre untersucht werden. Hierfçr werden 6 Trainer zufållig ausgewåhlt, die jeweils mit einer Gruppe, deren Mitglieder der Oberschicht angehæren, und einer Gruppe, deren Mitglieder der Unterschicht angehæren, ein gruppendynamisches Training durchfçhren. Nach Abschluss des Trainings werden die 12 Gruppen mit einem Fragebogen çber die Gruppenatmosphåre befragt. Es ergaben sich folgende Werte (Hinweis: die unterschiedlichen Gruppengræûen sind zufallsbedingt): Trainer (A)
B
1
2
3
4
5
6
Oberschicht
7, 8, 7 6, 8
7, 9, 9 6, 5, 6
5, 3, 2 2, 4, 4
5, 6, 6 4, 2, 3, 2
7, 9, 9 8, 9
5, 5, 5 4, 5, 4
Unterschicht
4, 3, 3 2, 3, 4
3, 2, 2, 3 4, 3, 3
5, 4, 6 5, 6, 4
7, 9, 5 4, 8, 7
6, 3, 5 5, 4, 5, 4
3, 4, 3 2, 3
a) Ûberprçfen Sie mit einer zweifaktoriellen Varianzanalyse die Haupteffekte und die Interaktion (Hinweis: Faktor A hat zufållige Stufen.). b) Stellen Sie die Interaktion graphisch dar.
330
Kapitel 8 ´ Mehrfaktorielle Versuchsplåne
7. Was versteht man unter einem Quasi-F-Bruch? 8. Welche Besonderheiten sind bei einer Varianzanalyse mit nur einem Messwert pro Faktorstufenkombination zu beachten? 9. Um das Fremdwærterverståndnis von Abiturienten testen zu kænnen, werden aus dem Fremdwærterduden 4 100 Fremdwærter zufållig ausgewåhlt. Jeweils 100 Fremdwærter stellen einen ¹Fremdwærtertestª (T) dar. Getestet werden 60 månnliche und 60 weibliche Abiturienten, die aus 5 Gymnasien zufållig ausgewåhlt wurden. In diesem dreifaktoriellen Versuchsplan (Faktor A 4 Tests, Faktor B 5 Schulen, Faktor C månnlich vs. weiblich) werden pro Faktorstufenkombination 3 Schçler untersucht. Die abhångige Variable ist die Anzahl der richtig erklårten Fremdwærter. Die Untersuchung mæge zu folgenden Ergebnissen gefçhrt haben (um die Berechnungen zu erleichtern, wurden die Werte durch 10 dividiert und ganzzahlig abgerundet): Test 1
8
2
3
4
Schule 1 < ,
4, 5, 5 5, 5, 6
5, 7, 4 6, 4, 6
6, 7, 7 8, 6, 7
4, 3, 2 3, 3, 3
Schule 2 < ,
6, 5, 6 4, 6, 6
6, 5, 5 5, 5, 5
6, 7, 7 7, 6, 5
5, 3, 2 4, 2, 2
Schule 3 < ,
6, 6, 5 7, 6, 6
6, 7, 7 8, 6, 7
9, 8, 8 7, 6, 7
6, 5, 6 7, 6, 6
Schule 4 < ,
5, 4, 5 3, 5, 5
2, 5, 5 3, 4, 3
6, 6, 6 6, 7, 6
4, 4, 3 5, 4, 3
Schule 5 < ,
6, 5, 5 7, 5, 5
7, 4, 5 4, 6, 6
7, 6, 7 8, 7, 7
3, 4, 4 4, 3, 6
a) Ûberprçfen Sie die Haupteffekte und Interaktionen. (Hinweis: Faktor A und Faktor B sind Faktoren mit zufålliger Stufenauswahl). b) Stellen Sie die signifikante(n) Interaktion(en) graphisch dar. c) Wie lautet die kritische Differenz (a 5%) fçr die A B-Kombinationen?
331
Kapitel 9 Versuchsplåne mit Messwiederholungen
ÛBERSICHT Einfaktorielle Plåne ± Einzelvergleiche ± Trendtests ± Varianzanalyse mit ipsativen Werten ± zweifaktorielle Plåne ± Kontrolle von Sequenzeffekten ± ungleichgroûe Stichproben ± Varianten fçr dreifaktorielle Plåne ± komplette Messwiederholung ± ¹optimaleª Stichprobenumfånge ± Voraussetzungen ± Freiheitsgradkorrektur ± konservative F-Tests
Eine sehr vielseitig einsetzbare Versuchsanordnung sieht vor, dass von jedem Untersuchungsobjekt (z. B. Vp) ± anders als in den bisher besprochenen Untersuchungsplånen ± nicht nur eine, sondern mehrere, z. B. p Messungen, erhoben werden. Wiederholte Messungen an den Vpn werden z. B. in der Therapieforschung benætigt, um die Auswirkungen einer Behandlung durch Untersuchungen vor, wåhrend und nach der Therapie zu ermitteln, in der Gedåchtnisforschung, um den Erinnerungsverlauf erworbener Lerninhalte zu çberprçfen, in der Einstellungsforschung, um die Verånderung von Einstellungen durch Medieneinwirkung zu erkunden, oder in der Wahrnehmungspsychologie, um mægliche Verånderungen in der Bewertung von Kunstprodukten nach mehrmaligem Betrachten herauszufinden. Wie die genannten Beispiele verdeutlichen, sind Messwiederholungsanalysen vor allem dann indiziert, wenn es um die Erfassung von Verånderungen çber die Zeit geht. (Das allgemeine Problem der Erfassung von Verånderung wird ausfçhrlich bei Gottmann, 1995 bzw. Bortz u. Dæring, 2002, Kap. 8.2.5 behandelt.) Eine weitere Indikation der Varianzanalyse mit Messwiederholungen liegt vor, wenn die unter den p Faktorstufen beobachteten Stichproben zuvor parallelisiert wurden (matched samples, vgl. S. 143 f.). Nach einem (oder mehreren) relevanten Kontrollmerkmal(en) werden ± je nach Anzahl der Faktorstufen ± homogene Tripel, Quadrupel
oder bei allgemein p Treatmentstufen p-Tupel gebildet, deren Vpn jeweils per Zufall den Faktorstufen zuzuweisen sind. Diese Verfahrensindikation haben wir in eingeschrånkter Form bzw. fçr p 2 bereits fçr den t-Test mit abhångigen Stichproben kennengelernt. Die Beziehung dieses t-Tests zur Varianzanalyse ist also wie folgt zu beschreiben: So, wie die einfaktorielle Varianzanalyse ohne Messwiederholung eine Erweiterung des t-Tests fçr unabhångige Stichproben darstellt, ist die einfaktorielle Varianzanalyse mit Messwiederholungen als Erweiterung des t-Tests fçr abhångige Stichproben anzusehen.
Einfaktorielle Messwiederholungsanalysen werden wir unter 9.1 und mehrfaktorielle Messwiederholungsanalysen unter 9.2 behandeln. Zum Abschluss dieses Kapitels werden die Voraussetzungen, die bei Messwiederholungsanalysen erfçllt sein mçssen, dargestellt und diskutiert. Ferner werden Alternativen erærtert, die ± bei verletzten Voraussetzungen ± die Varianzanalyse mit Messwiederholungen ersetzten kænnen (9.3).
" 9.1 Einfaktorielle Varianzanalyse mit Messwiederholungen Terminologie Werden n Vpn unter p Faktorstufen wiederholt beobachtet, ergibt sich das in Tabelle 9.1 dargestellte Datenschema. Das gleiche Datenschema erhålt man, wenn p abhångige Stichproben untersucht werden. Hier und im Folgenden soll der in diesem Kapitel behandelte Varianzanalyse-Typ jedoch am Beispiel der mehrfachen Untersuchung einer Stichprobe (Messwiederholung) verdeutlicht werden, weil uns diese Anwendungsvariante fçr die prakti-
9
332
Kapitel 9 ´ Versuchsplåne mit Messwiederholungen
Tabelle 9.1. Allgemeines Datenschema einer einfaktoriellen Varianzanalyse mit Messwiederholungen Faktorstufen
Vpn
1
2
i
p
Summen
1 2 .. .
x11 x21 .. .
x12 x22 .. .
x1i x2i .. .
x1p x2p .. .
P1 P2 .. .
m .. .
xm1 .. .
xm2 .. .
xmi .. .
xmp .. .
Pm .. .
n
xn1
xn2
xni
xnp
Pn
Summen:
A1
A2
Ai
Ap
G
In dieser Tabelle bedeuten: xmi p Ai Pm G
9
i-ter Messwert der Vp m Anzahl der Faktorstufen Summe aller Messwerte unter Faktorstufe i Summe aller Messwerte der Vp m Gesamtsumme aller Messwerte
sche Forschung bedeutsamer erscheint als die Analyse von p abhångigen Stichproben. Um welche Daten es sich bei dem in Tabelle 9.1 dargestellten Datenschema handeln kænnte, erlåutert das folgende Beispiel: BEISPIEL In der Pauli-Arbeitsprobe wird ausgezåhlt, wie viele fehlerfreie Additionen von jeweils 2 einstelligen Zahlen eine Vp pro Minute schafft. Låsst man eine Vp viele Minuten (z. B. p 30 min) hintereinander Zahlen addieren, erhålt man pro Minute einen bzw. insgesamt p Werte. Diese p Werte einer Vp bilden eine Zeile im Datenschema der Tabelle 9.1. Werden mehrere Vpn untersucht, ergibt sich das vollståndige Datenschema.
Hypothesen Die einfaktorielle Varianzanalyse mit Messwiederholungen çberprçft die H0: 1 2 p . Wie in der einfaktoriellen Varianzanalyse ohne Messwiederholungen behauptet die H1 , dass mindestens 2 Mittelwerte verschieden sind
H1: i 6 i0 . Bezogen auf das obige Beispiel wçrde die H0 also besagen, dass sich die Rechen-
genauigkeit der Vpn wåhrend der einfærmigen Dauerbelastungsaufgabe nicht veråndert.
Quadratsummenzerlegung Die totale Quadratsumme wird bei dieser Analyse in einen Anteil zerlegt, der die Unterschiedlichkeit zwischen den Vpn
QSzw Vpn charakterisiert, und einen weiteren Anteil, der Verånderungen innerhalb der Werte der einzelnen Vpn beschreibt
QSin Vpn : QStot QSzw Vpn QSin Vpn :
9:1
Die QSin Vpn låsst sich weiter zerlegen in einen Anteil, der auf Treatmenteffekte zurçckgeht
QStreat , und einen Anteil, der Interaktionseffekte (Vpn Treatment) sowie Fehlereffekte enthålt. Diese beiden Effekte werden zu einer Residualquadratsumme zusammengefasst
QSres : QSin Vpn QStreat QSres :
9:2
Abbildung 9.1 veranschaulicht diese Quadratsummenzerlegung graphisch. Zur Verdeutlichung dieser Variationsquellen greifen wir erneut das oben erwåhnte Beispiel auf. Die totale Quadratsumme aller Messwerte wird in einen Teil zerlegt, der die Leistungsschwankungen
a9.1
Total (QS tot)
zwischen Vpn (QS zw Vpn )
innerhalb Vpn (QS in Vpn )
Die Quadratsummen werden folgendermaûen bestimmt: XX QStot
xmi G2 ;
9:3 i
QSzw Vpn p zwischen Faktorstufen (QS treat )
Residual (QS Res )
Abb. 9.1. Quadratsummenzerlegung bei einer einfaktoriellen Varianzanalyse mit Messwiederholungen
9
333
Einfaktorielle Varianzanalyse mit Messwiederholungen
QSin Vpn
m
X m
Pm
XX i
QStreat n
m
X
xmi
Ai
G2 ;
9:4
Pm 2 ;
9:5
G2 ;
9:6
Ai
Pm G2 :
9:7
i
der einzelnen Vpn charakterisiert
QSin Vpn und einen weiteren Teil, der die Leistungsunterschiede zwischen den Vpn erfasst
QSzw Vpn . Die Unterschiede zwischen den Vpn sind fçr diese Analyse ± im Gegensatz zur einfaktoriellen Varianzanalyse ohne Messwiederholungen, in der sie die Fehlervarianz konstituieren ± ohne Bedeutung. Sie reflektieren A-priori-Unterschiede, also Leistungsunterschiede, die unabhångig von der Untersuchung bestehen, und die bei allen Messungen der Vpn mehr oder weniger deutlich werden (vgl. hierzu auch unter 9.3). Entscheidend ist bei dieser Analyse die Frage, wie die Schwankungen innerhalb der Leistungen der einzelnen Vpn zustande kommen. Hierbei interessieren uns vor allem die Treatmenteffekte, d. h. die bei allen Vpn von Minute zu Minute feststellbaren Leistungsverånderungen. Darçber hinaus kænnen die Vpn jedoch auch in spezifischer Weise auf die Dauerbelastungssituation reagieren: Manche Vpn beginnen auf einem hohen Leistungsniveau, ermçden aber schnell, andere Vpn beginnen langsam und enden mit einem rasanten ¹Endspurtª etc. Dies sind die oben angesprochenen Interaktionseffekte zwischen den Treatmentstufen und den Vpn. Weitere Anteile der intraindividuellen Leistungsschwankungen sind auf mægliche Fehlerquellen, wie z. B. unsystematisch variierende Arbeitsbedingungen, zurçckzufçhren. In der einfaktoriellen Varianzanalyse mit Messwiederholungen erhalten wir fçr jede Faktorstufe Vp-Kombination nur einen Messwert, sodass die Interaktionseffekte nicht isoliert werden kænnen (vgl. 8.5). Eliminieren wir aus der QSin Vpn die auf die Faktorstufen zurçckgehende Variation
QStreat , erhalten wir eine Residualvariation
QSRes , in der Fehlereffekte mit Interaktionseffekten konfundiert sind.
QSres
XX i
m
xmi
Pm ist der Mittelwert aller Messwerte der Vp m. Diese Quadratsummen sind voneinander unabhångig. Wie man leicht zeigen kann, fçhren sie zu der in Gl. (9.1) bzw. Gl. (9.2) genannten additiven Beziehung. Einfacher (und rechnerisch auch genauer) erhålt man die Quadratsummen unter Verwendung folgender Kennziffern: XX G2
1 ;
2 x2mi ; pn m i P 2 P 2 Ai Pm ;
4 m :
3 i n p Hier ist Pm die Summe der Messwerte der Vp m. Tabelle 9.2 zeigt, wie die Quadratsummen aus diesen Kennziffern errechnet werden.
Freiheitsgrade Die Zerlegung der Freiheitsgrade erfolgt ebenfalls nach dem in Abb. 9.1 dargestellten Schema. Insgesamt stehen p n 1 Freiheitsgrade zur Verfçgung, die entsprechend der Quadratsummenzerlegung in
n 1 Freiheitsgrade fçr die QSzw Vpn und n
p 1 Freiheitsgrade fçr die QSin Vpn aufgeteilt werden. Kontrolle: p n 1
n 1 n
p 1. Die n
p 1 Freiheitsgrade der QSin Vpn setzen sich aus p 1 Freiheitsgraden fçr die QStreat und
n 1
p 1 Freiheitsgraden fçr die QSRes zusammen. Kontrolle: n
p 1
p 1
n 1
p 1. Tabelle 9.2 fasst die Berechnung der Quadratsummen und ihrer Freiheitsgrade zusammen.
334
Kapitel 9 ´ Versuchsplåne mit Messwiederholungen
Tabelle 9.2. Quadratsummen und Freiheitsgrade einer einfaktoriellen Varianzanalyse mit Messwiederholungen Q.d.V.
QS
df
Vpn
zwischen Vpn
QSzw Vpn
4
1
n
innerhalb Vpn
QSin Vpn
2
4
n
p
Treatment
QStreat
3
1
p
Residual
QSRes
2
3
4
1
n
Total
QStot
2
1
1 1
1
pn
1
p
1
1
Signifikanztest Die Varianzschåtzungen erhalten wir ± wie çblich ±, indem die Quadratsummen durch ihre Freiheitsgrade dividiert werden. Unter der Voraussetzung, dass die Stufen des Treatmentfaktors fest und die Vpn zufållig ausgewåhlt sind, kann die Nullhypothese durch folgenden F-Bruch çberprçft werden:
9
^2 r F treat : ^2Res r
Tabelle 9.3. Numerisches Beispiel fçr eine einfaktorielle Varianzanalyse mit Messwiederholungen
9:8
Man beachte, dass die Validitåt dieses F-Tests an spezielle Voraussetzungen geknçpft ist, auf die wir unter 9.3 eingehen. (Zum theoretischen Hintergrund dieses F-Bruches vgl. Kap. 12.) Tabellen 9.3. und 9.4 erlåutern den Rechengang an einem Beispiel. Im Allgemeinen wird man bei Versuchsplånen mit Messwiederholungen nur daran interessiert sein, den Treatmenteffekt bzw. den Effekt der Faktorstufen zu çberprçfen. Soll darçber hinaus auch die Unterschiedlichkeit der Vpn çberprçft werden, kann die r ^2zw Vpn ebenfalls an der r ^2Res getestet werden. In Abhångigkeit von der Hæhe der zwischen den Faktorstufen und den Vpn bestehenden, aber nicht prçfbaren Interaktion wird dieser Test konservativ ausfallen. Mit græûer werdender Interaktion zwischen Faktorstufen und Vpn verliert dieser F-Test an Teststårke.
Trendtest und Einzelvergleiche Wie in der einfaktoriellen Varianzanalyse ohne Messwiederholungen kænnen auch bei dieser Analyse Trends oder a priori formulierte Einzelvergleiche geprçft werden. Als Prçfvarianz ist hier ^2Fehler die r ^2Res einzusetzen. Entjedoch statt der r sprechendes gilt fçr Einzelpaarvergleiche nach dem Scheff-Test:
morgens mittags
abends
1 2 3 4 5 6 7 8 9 10
7 5 8 6 7 7 5 6 7 5
7 6 9 8 7 9 10 7 8 7
6 8 5 6 5 7 6 4 6 5
Ai
63
78
58
Pm
Pm
20 19 22 20 19 23 21 17 21 17
6,67 6,33 7,33 6,67 6,33 7,67 7,00 5,67 7,00 5,67
G 199 G 6;63
Tabelle 9.4. Ergebnistabelle der Daten aus Tabelle 9.3 Q.d.V.
QS
zwischen Vpn
4
1 11;64 innerhalb Vpn
2
4 45;33 Tageszeiten
3
1 21;67 Residual
2
3
4
1 23;66 Total
2
1 56;97
Diff crit
df
^2 r
F
9 20 2
1;29 2;27 10;84
8;27
18 29
1;31
r ^2Res 2
p 1 r n p F
p 1;
n 1
p 1;1 a :
9:9
Wie der F-Test nach Gl. (9.8) setzen auch Einzelvergleichstests voraus, dass die unter 9.3 beschriebenen Voraussetzungen erfçllt sind. Sind die Voraussetzungen nicht erfçllt, kænnen Einzelvergleichstests deutlich progressiv oder konservativ ausfallen (vgl. Boik, 1981). In diesem Fall sollten Prçfvarianzen eingesetzt werden, die nur auf den Daten der jeweils verglichenen Stichproben basieren (vgl. hierzu auch O'Brien u. Kaiser, 1985). Literatur zu voraussetzungsårmeren Einzelvergleichsverfahren wird auf S. 358 genannt. BEISPIEL Es wird çberprçft, ob der Hautwiderstand Tagesschwankungen unterliegt
a 1%. Hierzu wird bei 10 Vpn morgens, mittags und abends der Hautwiderstand gemessen. Das ¹Treatmentª besteht in dieser Untersuchung also in drei Tageszeiten. Tabelle 9.3 enthålt die Messwerte, denen aus rechentechnischen Grçnden ein einfacher Maûstab zu Grunde gelegt wurde.
a9.1
335
Einfaktorielle Varianzanalyse mit Messwiederholungen
Die fçr die Berechnung der Quadratsummen benætigten Hilfsgræûen lauten:
1
2
G2 1992 1320;03 ; p n 3 10 XX m
i 2
F
x2mi 72 52 82 2
2
2
2
7 6 9 4 6 5
A2i
i
n 1341;70 ;
3
P
4
P2m
m
632 782 582 13417 10 10
202 192 212 172 3
p 3995 1331;67 : 3
Mit diesen Hilfsgræûen resultieren die in Tabelle 9.4 dargestellten Ergebnisse der Varianzanalyse. Zur Kontrolle der Rechnung çberprçfen wir die in Abb. 9.1 angegebenen Beziehungen: QStot QSzw Vpn QSin Vpn : 56;97 11;64 45;33 ;
Falls die Voraussetzung fçr diesen Test erfçllt ist, erweist sich also nur die Differenz zwischen mittags und abends
A2 A3 7;8 5;8 2;0 als statistisch signifikant
a 0;01.
Ipsative Daten
QSin Vpn QStreat QSRes : 45;33 21;67 23;66 :
Tabelle 9.5. Ipsative Daten fçr Tabelle 9.3 Vpn
^2treat 10;84 r 8;27 : ^2Res r 1;31
Der kritische F-Wert lautet: F
2;18;99% 6;01. Die gefundenen Mittelwertunterschiede wåren somit sehr signifikant, wenn wir davon ausgehen, dass die Voraussetzungen fçr die Durchfçhrung dieses F-Tests erfçllt sind. Da hierçber noch keine Informationen vorliegen, stellen wir die endgçltige Entscheidung çber die Nullhypothese in unserem Beispiel zunåchst zurçck. Wir werden das Beispiel unter 9.3 erneut aufgreifen. Fçr den Scheff-Test ermitteln wir als kritische Paarvergleichsdifferenz: r 2
3 1 1; 31 6; 01 Diff crit 1;77 : 10
2
407 622 348 1377; P
Wie çblich werden die Varianzen
^ r2 ermittelt, indem die Quadratsummen (QS) durch die entsprechenden Freiheitsgrade
df dividiert werden. Die Ûberprçfung der H0: 1 2 3 erfolgt çber den F-Bruch:
morgens
mittags
abends
Pm
1 2 3 4 5 6 7 8 9 10
0;33 1;33 0;67 0;67 0;67 0;67 2;00 0;33 0;00 0;67
0;33 0;33 1;67 1;33 0;67 1;33 3;00 1;33 1;00 1;33
0; 67 1;67 2;33 0;67 1;33 0;67 1;00 1;67 1;00 0;67
0,00 0;00 0;00 0;00 0;00 0;00 0;00 0;00 0;00 0;00
Ai
3;33
11;66
8;33
G0
Eine einfaktorielle Varianzanalyse mit Messwiederholungen låsst sich auch als einfaktorielle Varianzanalyse ohne Messwiederholungen darstellen, wenn man die ursprçnglichen Messungen der Vpn ¹ipsativiertª (vgl. hierzu auch Greer u. Dunlap, 1997). Hierfçr wird von jedem individuellen Messwert der Personen bezogene Durchschnittswert Pm abgezogen, sodass ipsative Daten entstehen, bei denen die Unterschiedlichkeit zwischen den Personen eliminiert ist. Tabelle 9.5 zeigt die Ergebnisse. Fçhren wir mit diesen Daten gemåû 7.1 eine einfaktorielle Varianzanalyse durch, ergeben sich zunåchst die folgenden Kennziffern:
Tabelle 9.6. Ergebnis der Varianzanalyse mit ipsativen Daten Q.d.V.
QS
Tageszeiten Fehler
3
2
df
1 21;66
3 23;65
p
p
1 2 1
n
1 18
^2 r
F
10;83 1;31
8;27
9
336
Kapitel 9 ´ Versuchsplåne mit Messwiederholungen
G2 0; pn XX
2 x2im 45;33;
1
i
P
3
9
i
m 2 Ai
21;66 :
n Das Ergebnis der Varianzanalyse zeigt Tabelle 9.6. Wie ein Vergleich mit Tabelle 9.4 zeigt, sind beide Ergebnisse ± bis auf Rundungsungenauigkeiten ± identisch. Bei der Durchfçhrung der einfaktoriellen Varianzanalyse çber ipsative Daten ist lediglich zu beachten, dass ± bedingt durch die Tatsache, dass die Summe der Werte einer Vp Null ergeben muss ± jede Vp einen Freiheitsgrad verliert. Die Gesamtzahl der fçr die QSFehler zur Verfçgung stehenden Freiheitsgrade betrågt somit nicht ± wie im Normalfall ± p
n 1 27 df, sondern
p 1
n 1 18 df. Dies jedoch sind die Freiheitgrade der Residualvarianz, d. h., die F-Tests nach Gl. (9.8) und nach Gl. (7.22) sind identisch.
Fehlende Werte. Die Durchfçhrungsbestimmungen einer einfaktoriellen Varianzanalyse mit Messwiederholungen setzen voraus, dass von jeder untersuchten Vp p Messwerte vorliegen. Gelegentlich, vor allem bei Messwiederholungen çber långere Zeitråume, kommt es jedoch vor, dass die individuellen Messwertreihen wegen ¹Drop Outsª nicht vollståndig sind bzw. dass einzelne Messwerte fehlen. In diesem Falle rechnet man einfachheitshalber çber die ipsativen Daten eine einfaktorielle Varianzanalyse ohne Messwiederholungen mit ungleich groûen Stichproben (vgl. Kap. 7.2). Wenn im Beispiel der Tabelle 9.3 die Mittagsmessung der 1. Vp ausgefallen wåre, ergåben sich P = (7 + 6)/2 = 6,5 und fçr morgens und abends ipsative Werte von 7±6,5 = 0,5 bzw. 6±6,5 = ±0,5. Diese Werte wåren in Tabelle 9.5 einzutragen, und der Mittagswert wåre zu streichen, d. h. man håtte eine einfaktorielle Varianzanalyse ohne Messwiederholungen mit n1 = 10, n 2 = 9 und n3 = 10 zu rechnen.
9.2 Mehrfaktorielle Varianzanalysen mit Messwiederholungen Terminologie In der einfaktoriellen Varianzanalyse mit Messwiederholungen wird eine Stichprobe von Vpn unter mehreren Treatmentstufen beobachtet. Unterteilen wir die Stichprobe nach den Stufen eines weiteren Faktors in mehrere Gruppen bzw. ± korrekter formuliert ± weisen wir den Stufen eines weiteren Faktors je eine Zufallsstichprobe zu, resultiert ein Datenschema, das wir mit einer zweifaktoriellen Varianzanalyse mit Messwiederholungen auswerten. Bezogen auf das Beispiel fçr die einfaktorielle Varianzanalyse mit Messwiederholungen kænnten die Vpn nach ihrem Geschlecht in 2 Gruppen eingeteilt werden und, wie bisher, morgens, mittags und abends untersucht werden. Allgemein erhalten wir in der zweifaktoriellen Varianzanalyse mit Messwiederholungen das in Tabelle 9.7 dargestellte Datenschema. In Tabelle 9.7 wurde gegençber dem allgemeinen Datenschema der einfaktoriellen Varianzanalyse mit Messwiederholungen (vgl. Tabelle 9.1) eine vereinfachte Darstellungsart gewåhlt. Aus dem Schema geht hervor, dass den p Stufen des Faktors A (¹Gruppierungsfaktorª) jeweils eine Stichprobe Si zugeordnet wird, die unter jeder Stufe j
j 1; . . . ; q des Faktors B (¹Messwiederholungsfaktorª) beobachtet wird. Das ausfçhrliche Datenschema wçrden wir erhalten, wenn das allgemeine Datenschema fçr eine einfaktorielle Varianzanalyse mit Messwiederholung fçr p verschiedene
Tabelle 9.7. Allgemeines Datenschema einer Varianzanalyse mit Messwiederholungen b1 b2 bj S1 S1 a1 S1 a2 S 2 S2 S2 . .. . . .. .. .. . Si Si ai Si . . . ... . . . . . . Sp Sp ap S p B B2 Bj 1
zweifaktoriellen bq S1 S2 .. . Si ... Sp Bq
A1 A2 .. . Ai ... Ap G
a9.2
Stichproben des Umfanges n p-mal untereinander geschrieben wird. Von jeder zu einer Stichprobe i gehærenden Person m werden q Messwerte erhoben, die wir allgemein mit xijm kennzeichnen. Die Summe aller n q Messwerte einer Stichprobe i nennen wir Ai : XX xijm : Ai m
j
Die Summe aller unter der Stufe j des Faktors B beobachteten Messwerte kennzeichnen wir mit Bj : XX xijm : Bj m
i
Ferner benætigen wir die Summe der Messwerte fçr jede einzelne Vp, die wir durch Pim kennzeichnen wollen: X Pim xijm : j
Die Summe der Werte einer Stichprobe i unter der j-ten Stufe des Faktors B nennen wir wie in der zweifaktoriellen Varianzanalyse ohne Messwiederholung ABij : X xijm : ABij m
G ist wieder die Gesamtsumme aller Messwerte. Auch in dieser Analyse kænnen statt einer Stichprobe i, die q mal untersucht wird, q parallelisierter Stichproben (matched samples) eingesetzt werden, die den q Stufen des Faktors B zufållig zuzuordnen sind. In dieser Anwendungsvariante werden somit p q Stichproben benætigt, wobei die q Stichproben unter jeder Faktorstufe i parallelisiert sind. Die Auswertung dieses Plans entspricht der hier beschriebenen Vorgehensweise. Eine andere Variante der zweifaktoriellen Varianzanalyse mit Messwiederholungen, bei der nur eine Stichprobe unter allen p ´ q Faktorstufenkombinationen beobachtet wird (komplette Messwiederholung), wird auf S. 347 beschrieben.
Quadratsummenzerlegung Die totale Quadratsumme wird ± wie in der einfaktoriellen Varianzanalyse mit Messwiederholungen ± in eine Quadratsumme zerlegt, die auf Unterschiede zwischen den Vpn zurçckgeht
QSzw Vpn , und eine weitere Quadratsumme, die
9
337
Mehrfaktorielle Varianzanalysen mit Messwiederholungen
auf Unterschieden innerhalb der Vpn beruht
QSin Vpn : QStot QSzw Vpn QSin Vpn :
9:10
Die QSzw Vpn setzt sich einerseits aus Unterschieden zwischen den Stichproben bzw. Stufen des Faktors A
QSA und andererseits aus Unterschieden zwischen den Vpn innerhalb der einzelnen Stichproben
QSin S zusammen: QSzw Vpn QSA QSin S :
9:11
Die Unterschiedlichkeit der Messwerte einer einzelnen Vp beruht auf der Wirkungsweise des Faktors B
QSB , der Interaktionswirkung der Kombinationen von A und B
QSAB sowie der spezifischen Reaktionsweise der Vp auf die Stufen von B
QSBVpn : QSin Vpn QSB QSAB QSBVpn :
9:12
(Die QSB ´ Vpn entspricht der QSRes in der einfaktoriellen Varianzanalyse mit Messwiederholungen, d. h., auch hier ist die Interaktionsquadratsumme mit Fehleranteilen konfundiert. Da in den noch zu besprechenden Plånen mehrere Residualquadratsummen von der Art der QSRes vorkommen, kennzeichnen wir hier und im Folgenden die jeweiligen Residualquadratsummen durch die in ihr enthaltene Interaktionsquadratsumme). Fçr die Ermittlung der Quadratsummen verwenden wir die folgenden Kennziffern: XXX G2
1 ;
2 x2ijm ; pqn m i j P 2 P 2 Bj Ai j i ;
4 ;
3 nq np PP 2 PP 2 ABij Pim i j i m ;
6 :
5 n q Tabelle 9.8 zeigt, wie die einzelnen Quadratsummen und Freiheitsgrade berechnet werden. Man erkennt, dass sich die Quadratsummen gemåû Gl. (9.10), (9.11) und (9.12) additiv zusammensetzen. Die Zerlegung der Freiheitsgrade erfolgt in gleicher Weise.
338
Kapitel 9 ´ Versuchsplåne mit Messwiederholungen
Tabelle 9.8. Quadratsummen und Freiheitsgrade einer zweifaktoriellen Varianzanalyse mit Messwiederholungen Q.d.V.
QS
A in S
3
6
1
3
p 1 p
n
zwischen Vpn
6
1
pn
B AB B Vpn
4
5
2
1
3
5
innerhalb Vpn
2
6
p n
q
Total
1
npq
(2
df
4
1
6
3
1 1
q 1
p 1
q 1 p
q 1
n 1 1 1
Signifikanztests
9
Die Varianzschåtzungen ermitteln wir, indem die Quadratsummen durch ihre Freiheitsgrade dividiert werden. Unter der Annahme, dass die Faktoren A und B feste Effekte aufweisen, werden die ^2A an der r ^2in S und die r ^2B sowie die r ^2AB an der r 2 ^BVpn getestet (zur Herleitung dieser F-Tests und r zur Ûberprçfung von Faktoren mit zufålligen Effekten vgl. 12.3). BEISPIEL Es soll çberprçft werden, wie sich 3 verschiedene Arten des Kreativitåtstrainings (Faktor A) auf die Kreativitåt von Vpn auswirken
a 1%. 3 Zufallsstichproben
S1 ; S2 und S3 ) 5 Vpn werden vor Beginn des Trainings
b1 , wåhrend des Trainings
b2 und nach Abschluss des Trainings
b3 hinsichtlich ihrer Kreativitåt getestet, wobei jede Stichprobe ein anderes Kreativitåtstraining erhålt. Tabelle 9.9 zeigt die Testwerte und die rechnerische Durchfçhrung der Varianzanalyse. Die Kreativitåt der Vpn åndert sich somit durch das Training, wobei sich die 3 verschiedenen Trainingsarten statistisch nicht bedeutsam unterscheiden. (Zur Ûberprçfung der Voraussetzungen dieser Analyse vgl. 9.3.)
analyse mit Messwiederholungen Effekte, die auf ^2in S, und Efden Faktor A bezogen sind, an der r fekte, die auf den Faktor B bzw. die Interaktion ^2BVpn geprçft werA B bezogen sind, an der r den. Beim Vergleich von Mittelwerten fçr Faktorstufenkombinationen
ABij gelten die folgenden Prçfvarianzen (vgl. Winer et al., 1991, S. 526 ff.): · zwei verschiedene Gruppen zu einem Messzeitpunkt
ABij ABi0 j : ^2in Zellen r
p
n
QSin S QSBVpn 1 p
q 1
n
1
^2in Zellen r
ist die Varianz der Messwerte inDie nerhalb der p q Zellen. Sie entspricht der Fehlervarianz in einer zweifaktoriellen Varianzanalyse ohne Messwiederholungen. · Eine Gruppe zu zwei verschiedenen Messzeitpunkten
ABij ABij0 : ^2BVpn ; r · zwei verschiedene Gruppen zu zwei verschiedenen Messzeitpunkten
ABij ABi0 j0 : ^2in Zellen : r Wie Einzelvergleichshypothesen bei verletzten Voraussetzungen (vgl. S. 352 ff.) zu prçfen sind, wird bei Kowalchuk u. Keselman (2001) erærtert.
Hinweis: Auf S. 282 ff. haben wir ein Verfahren kennen gelernt, mit dem çberprçft wird, ob die Treatmentmittelwerte einer in der Alternativhypothese festgelegten Rangordnung folgen (monotone Trendhypothese). Ein åhnliches Verfahren wurde fçr Messwiederholungsplåne von Huynh (1981) entwickelt. Dieses Verfahren çberprçft die Nullhypothese, dass sich die Mittelwerte von 2 (oder mehreren) Populationen wåhrend des Untersuchungszeitraums gleichsinnig veråndern. Sequenzeffekte
Trendtests und Einzelvergleiche Zur Ûberprçfung von A-priori-Einzelvergleichen, Trends oder A-posteriori-Einzelvergleichen (Scheff-Test) wird auf die entsprechenden Ausfçhrungen zur zweifaktoriellen Varianzanalyse (vgl. S. 305 ff.) bzw. einfaktoriellen Varianzanalyse mit Messwiederholungen (vgl. S. 334) verwiesen. Man beachte, dass in der zweifaktoriellen Varianz-
Bei der wiederholten Untersuchung von Vpn unter verschiedenen Treatmentstufen kann es zu Sequenzeffekten kommen, die abfolgespezifisch die Treatmenteffekte çberlagern. Zu denken wåre beispielsweise an drei verschiedene Behandlungen b1, b2 und b3, die als ¹therapeutisches Paketª eingesetzt werden sollen. Hier kænnte sich die Frage stellen, ob bezçglich der Behandlungswirkungen die Reihenfolge der Behandlungen beliebig ist
a9.2
339
Mehrfaktorielle Varianzanalysen mit Messwiederholungen
Tabelle 9.9. Numerisches Beispiel fçr eine zweifaktorielle Varianzanalyse mit Messwiederholungen Faktor A
Faktor B b1
b2
b3
a1
56 57 55 58 54
52 54 51 51 53
48 46 51 50 46
A1 782
a2
54 53 56 52 55
50 49 48 52 51
49 48 52 50 46
A2 765
a3
57 55 56 58 58
49 51 48 50 46
50 47 51 48 52
A3 776
B1 834
B2 755
B3 734
G 2323
G2 23232 119918;4 pqn 335 XXX
2 x2ijm 562 572 482 522 120461;0
1
i
P
3
4
5
6
i
qn P 2 Bj j
pn PP i
j
n PP i
m
j
A2i
m
7822 7652 7762 119928;3 15
8342 7552 7342 120289;1 15
AB2ij P2im
q
2802 2702 2452 2482 120344;6 5
1562 1572 1562 1562 119943;7 3 ^2 r
Q.d.V.
QS
A in S
3
6
1 9;9
3 15;4
p 12 p
n 1 12
zwischen Vpn
6
1 25;3
pn
B AB B Vpn
4
5
2
1 370;7
3
4
1 45;6
5
6
3 101;0
q 12
p 1
q 1 4 p
q 1
n 1 24
innerhalb Vpn
2
6 517;3
p n
q
Total
2
1 542;6
npq
F
2;12;0;99 6;93
df
F
2;24;0;99 5;61
F
4;24;0;99 4;22
F 4;95 1;28
3;87
1 14
1 30 1 44
185;35 11;40 4;21
44;03 2;71
9
340
9
Kapitel 9 ´ Versuchsplåne mit Messwiederholungen
(H0) oder ob mit abfolgespezifischen Sequenzeffekten zu rechnen ist (H1). Zur Ûberprçfung derartiger Sequenzeffekte wird eine spezielle Anwendungsvariante der zweifaktoriellen Varianzanalyse mit Messwiederholungen eingesetzt, die in Tabelle 9.10 veranschaulicht ist. Die 3 Treatmentstufen des Faktors B werden hier in den 6 mæglichen Abfolgen dargeboten. (Resultieren wegen einer græûeren Anzahl von Treatmentstufen sehr viele Abfolgen, wåhlt man eine Zufallsstichprobe von Abfolgen und behandelt den Abfolgefaktor wie einen Faktor mit zufålligen Effekten. Das entsprechende Prçfmodell ist aus Tabelle 12.9, S. 425, ableitbar.) Wir ordnen jeder Abfolge eine Stichprobe des Umfangs n zu und fçhren die Varianzanalyse in der oben beschriebenen Weise durch. Mægliche Signifikanzen kænnen folgendermaûen interpretiert werden: 1. Ist der Faktor B signifikant, unterscheiden sich die 3 Treatmentstufen unabhångig von den Abfolgen. 2. Ein signifikanter Faktor A besagt, dass es von Bedeutung ist, in welcher Abfolge die Treatmentstufen vorgegeben werden. 3. Eine signifikante Interaktion A B deutet auf Kontext- bzw. Positionseffekte hin. Die spezielle Wirkung eines Treatments ist davon abhångig, welche Treatments zuvor und welche danach eingesetzt werden. Bei der Anlage des Datenschemas ist darauf zu achten, dass z. B. unter der Stufe 1 des Faktors B alle unter b1 erhobenen Messungen zusammengefasst werden, unabhångig von der Position innerhalb der durch Faktor A festgelegten Abfolge.
Tabelle 9.10. Zweifaktorielle Varianzanalyse mit Messwiederholungen zur Ûberprçfung von Sequenzeffekten Abfolge der Treatments (A)
123 132 213 231 312 321
Treatment (B) 1
2
3
S1 S2 S3 S4 S5 S6
S1 S2 S3 S4 S5 S6
S1 S2 S3 S4 S5 S6
Unterschiedliche Stichprobenumfånge Sind die untersuchten Stichproben, die den Stufen des Faktors A zugewiesen werden, ungleich groû, ergeben sich fçr die Kennziffern folgende Modifikationen: P 2 Ai =ni G2 ;
3 i ;
1 Nq q P 2 Bj X X AB2ij j ;
5
4 ; N ni i j N P
6
m1
P2m
q
(wobei N
P i
; ni Gesamtzahl aller Vpn, aber
nicht die Anzahl aller Messwerte). Kennziffer (2) bleibt unveråndert. Die Ermittlung der Quadratsummen erfolgt wiederum nach Tabelle 9.8. Fçr die Freiheitsgrade gelten die folgenden Beziehungen: p
n pn p
q
1
n p n
q npq
1 N
p
1N
1
1
N
p
q
1 N
q 1Nq
1
1 1:
Diese Modifikationen gelten nur, wenn die einzelnen Stichproben Si çber die Messwiederholungen hinweg gleich groû bleiben, d. h. wenn im Verlauf der Messwiederholungen keine Vpn ausfallen. Fçr den Fall, dass pro Vp unterschiedlich viele Messungen vorliegen, hat Weiss (1985) eine spezielle varianzanalytische Auswertung vorgeschlagen. Wir verzichten auf die Wiedergabe dieses Verfahrens, da von der sehr restriktiven Annahme ausgegangen wird, dass in jeder Stichprobe die gleiche Anzahl von Vpn mit q1 Messungen, mit q2 Messungen . . . vorkommen muss (bezogen auf Tabelle 9.9 also in S1 , S2 und S3 z. B. jeweils 2 Personen mit 3 Messungen und 3 Personen mit 2 Messungen). Zudem ist mit diesem Verfahren nur der Gruppierungsfaktor A zu prçfen und nicht der Messwiederholungsfaktor B bzw. die Interaktion A B. Stattdessen schlagen wir vor, die auf S. 336 beschriebene Analyse ipsativer Messwerte bei feh-
a9.2
lenden Daten auf zweifaktorielle Plåne zu erweitern. Nehmen wir an, die ersten beiden Versuchspersonen im Beispiel der Tabelle 9.9 seien nicht zur Abschlussmessung (b3) erschienen, d. h., die Werte 48 und 46 fehlen. Die Ipsativierung kann sich deshalb bei diesen beiden Vpn nur auf die unter b1 und b2 erhobenen Messungen beziehen. Es resultiert also ein zweifaktorieller Plan, in dem die Stichprobe n13 = 3 ipsative Werte und die çbrigen Stichproben fçnf ipsative Messwerte umfassen. Zur weiteren Analyse dieser Daten wird auf Kap. 8.4 verwiesen (mehrfaktorielle Plåne ohne Messwiederholungen mit ungleich groûen Stichprobenumfången).
Dreifaktorielle Varianzanalysen Bei dreifaktoriellen Varianzanalysen mit Messwiederholungen mçssen wir unterscheiden, ob die Messwiederholungen auf einem Faktor oder auf 2 Faktoren erfolgen. Tabelle 9.11 und Tabelle 9.12 verdeutlichen diese beiden Versuchsplåne. In Tabelle 9.11 sind die Vpn nach 2 Faktoren gruppiert, und jede Stichprobe wird unter den r Stufen des Faktors C beobachtet. Beispiel: Der Gesundheitszustand (= abhångige Variable) von Patienten, die nach Art der Krankheit (= Faktor A) und Art der Behandlung (= Faktor B) gruppiert sind, wird an mehreren Behandlungstagen (= Faktor C) beobachtet. Die Messwiederholungen erfolgen hier çber die Stufen des Faktors C. In Tabelle 9.12 hingegen sind die Vpn nur nach einem Kriterium (Faktor A) gruppiert, und die Messwiederholungen erfolgen çber die Kombinationen der Faktoren B und C. Beispiel: Die Ablenkbarkeit (= abhångige Variable) von Vpn, die nach dem Alter (= Faktor A) gruppiert sind, wird unter den Kombinationen aus 3 Lårmbedingungen (= Faktor B) und zwei Temperaturbedingungen (= Faktor C) çberprçft. Die rechnerische Durchfçhrung richtet sich danach, welche dieser beiden Versuchsanordnungen jeweils vorliegt. Wir beginnen mit dem in Tabelle 9.11 dargestellten Fall, bei dem die Messwiederholungen auf einem Faktor erfolgen.
Fall 1: Zwei Gruppierungsfaktoren und ein Messwiederholungsfaktor. Die QStot beinhaltet wiederum die QSzw Vpn und QSin Vpn , wobei sich
9
341
Mehrfaktorielle Varianzanalysen mit Messwiederholungen
Tabelle 9.11. Fall 1: Dreifaktorielle Varianzanalyse mit Messwiederholungen auf einem Faktor c1
c2
ck
cr
a1
b1 b2 bj bq
S11 S12 S1j S1q
S11 S12 S1j S1q
S11 S12 S1j S1q
S11 S12 S1j S1q
a2
b1 b2 bj bq
S21 S22 S2j S2q
S21 S22 S2j S2q
S21 S22 S2j S2q
S21 S22 S2j S2q
ai
b1 b2 bj bq
Si1 Si2 Sij Siq
Si1 Si2 Sij Siq
Si1 Si2 Sij Siq
Si1 Si2 Sij Siq
ap
b1 b2 bj bq
Sp1 Sp2 Spj Spq
Sp1 Sp2 Spj Spq
Sp1 Sp2 Spj Spq
Sp1 Sp2 Spj Spq
Tabelle 9.12. Fall 2: Dreifaktorielle Varianzanalyse mit Messwiederholungen auf zwei Faktoren b1
b2
bj
bq
c1 c2 ck cr
c1 c2 ck cr
c1 c2 ck cr
c1 c2 ck cr
a1
S1 S1 S1 S1
S1 S1 S1 S1
S1 S1 S1 S1
S1 S1 S1 S1
a2
S2 S2 S2 S2
S2 S2 S2 S2
S2 S2 S2 S2
S2 S2 S2 S2
ai
Si Si Si Si
Si Si Si Si
Si Si Si Si
Si Si Si Si
ap
Sp Sp Sp Sp
Sp Sp Sp Sp
Sp Sp Sp Sp
Sp Sp Sp Sp
QSzw Vpn und QSin Vpn in folgender Weise zusammensetzen: QSzw Vpn QSA QSB QSAB QSin S ;
9:13
QSin Vpn QSC QSAC QSBC QSABC QSC Vpn :
9:14
Die Messwerte werden wie in einer dreifaktoriellen Varianzanalyse ohne Messwiederholungen (vgl. 8.3) in Summen zusammengefasst. Ferner bestimmen wir die Summe der Messwerte pro Vp
Pijm . Die Bestimmungsgleichungen fçr die Kennziffern lauten:
342
Kapitel 9 ´ Versuchsplåne mit Messwiederholungen
Tabelle 9.13. Quadratsummen und Freiheitsgrade einer dreifaktoriellen Varianzanalyse mit Messwiederholungen auf einem Faktor (Fall 1) Q.d.V.
QS
df
A B AB in S
3
1
4
1
6
3
4
1
10
6
p 1 q 1
p 1
q 1 p q
n 1
zwischen Vpn
10
npq
C AC BC ABC C Vpn
5
7
8
9
2
1
3
4
6
9
innerhalb Vpn
2
10
n p q
r
Total
2
1
npqr
1
9
2
G2 ; pqrn XXXX i
P
3
5
7
i
j
qrn P 2 Ck k
k
i
j
k
P
4
;
6
qn PPP
5
1
5
1
7
8
3
4
5
10
6
;
ABC2ijk
8
j
B2j
; prn PP 2 ABij i
j
rn PP 2 BCjk j
k
pn PPP i
j
m
; ;
P2ijm
Unterschiedliche Stichprobenumfånge. Sind die den Faktorstufenkombinationen A B zugewiesenen Stichproben Sij nicht gleich groû, kann im Fall geringfçgiger Abweichungen eine Varianzanalyse mit dem harmonischen Mittel (vgl. 8.4) durchgefçhrt werden. Wir berechnen zunåchst fçr jede der p q r Zellen den Mittelwert ABCijk : ABCijk
nij X m1
xijkm =nij :
r 1
p 1
r 1
q 1
r 1
p 1
q 1
r 1 p q
n 1
r 1
1
k
0
G ergibt sich zu G0
1 1
XXX i
;
10 : n r Tabelle 9.13 zeigt, wie die Quadratsummen und Freiheitsgrade berechnet werden.
9
1
Die Mittelwerttabelle wird nach den Haupteffekten und Interaktionen (vgl. Tabelle 8.19) summiert. Die Summen der Mittelwerte kennzeichnen wir im Gegensatz zu den Summen der ursprçnglichen Werte mit einem Strich. AB0ij z. B. enthålt somit die çber die r Stufen des Faktors C zusammengefassten Mittelwerte: X AB0ij ABCijk
x2ijkm ;
;
pqn PP 2 ACik i
m
k
A2i
1
j
ABCijk :
k
Die Kennziffernberechnung bezieht sich teilweise auf die Mittelwerttabelle und teilweise auf die Tabelle der ursprçnglichen Werte. Diejenigen Kennziffern, die von Mittelwerten ausgehen, kennzeichnen wir im Folgenden mit einem Strich: P 02 Ai 02 G i 0 0 ;
3 ;
1 pqr qr P 02 P 02 Bj Ck
40 0
6 0
8
j
pr PP i
j
r PP j
k
p
50
;
AB02 ij
k ; pq PP 0
;
7
;
90
BC02 jk
i
k
AC02 ik
q
XXX i
j
k
; 2
ABCijk ;
a9.2
2
nij XXXX i
9
j
k m1
x2ijkm ;
6
XXX ABC2ijk i
j
k
nij
;
10
XX AB2ij nij r i j PPP 2 Pijm i
m
j
r
;
:
Das harmonische Mittel der Stichprobenumfånge lautet: pq nh P P :
9:15 1=nij i
9
343
Mehrfaktorielle Varianzanalysen mit Messwiederholungen
j
Tabelle 9.14 zeigt, wie die Quadratsummen und Freiheitsgrade ermittelt werden. Haben alle Faktoren feste Effekte, werden die Varianzen
^ r2 QS=df sowohl bei gleichgroûen als auch ungleichgroûen Stichproben in folgender Weise getestet (fçr Varianzanalysen mit zufålligen Effekten vgl. Tabelle 12.10): ^2A ; r ^2B ; r ^2AB an der r ^2in S ; r ^2AC ; r ^2BC ; r ^2ABC an der r ^2CVpn : ^2C ; r r
kungen des Nachhilfeunterrichts zu erfassen, werden zusåtzlich die Noten nach Ablauf eines halben Jahres mitanalysiert (= 3. Note) (Faktor C, r 3. Tabelle 9.15 zeigt die Daten und den Rechengang dieser Varianzanalyse. (Bezçglich des Rechengangs ist anzumerken, dass die Mittelwertstabelle ABCijk natçrlich nicht benætigt wird, wenn die Stichproben gleichgroû sind. In diesem Fall werden die Quadratsummen und Freiheitsgrade nach Tabelle 9.13 berechnet.) Wie das Ergebnis der Varianzanalyse zeigt, ist lediglich der Faktor C auf dem 1%-Niveau signifikant. Die Noten haben sich insgesamt (summiert çber die Faktoren A und B) verbessert. Da die A C-Interaktion nicht signifikant ist, haben sich die Noten der Schçler mit Nachhilfeunterricht nicht çberzufållig anders veråndert als die Noten der Schçler ohne Nachhilfeunterricht.
Eine Alternative zu der hier beschriebenen Auswertung nennen Woodward u. Overall (1976 a).
Fall 2: Ein Gruppierungsfaktor und zwei Messwiederholungsfaktoren. Bei der Varianzanalyse mit Messwiederholungen çber die Kombinationen zweier Faktoren (vgl. Tabelle 9.12) wird die QStot folgendermaûen zerlegt: QStot QSzw Vpn QSin Vpn ;
BEISPIEL Es soll çberprçft werden, ob Nachhilfeunterricht die Schulnoten signifikant verbessert
a 0;01. 5 Schçler, die Nachhilfeunterricht erhalten, werden 6 vergleichbaren Schçlern ohne Nachhilfeunterricht (Kontrollgruppe) gegençbergestellt (Faktor A, p 2). In der Nachhilfegruppe befinden sich 3 Jungen und 2 Mådchen und in der Kontrollgruppe 3 Jungen und 3 Mådchen (Faktor B = Geschlecht; q 2). Als abhångige Variable werden die Noten der Schçler vor Beginn (= 1. Note) und nach Abschluss des Nachhilfeunterrichts (= 2. Note) untersucht. Fçr die Kontrollgruppe gelten entsprechende Zeitpunkte. Um mægliche långerfristige Wir-
9:16
wobei QSzw Vpn QSA QSin S
9:17
und QSin Vpn QSB QSAB QSBVpn QSC QSAC QSCVpn QSBC QSABC QSBCVpn :
9:18
Tabelle 9.14. Quadratsummen und Freiheitsgrade einer dreifaktoriellen Varianzanalyse mit Messwiederholungen auf einem Faktor (ungleiche Stichprobengræûen) Q:d:V:
QS
A B AB in S C AC BC ABC C Vpn
nh
30 nh
40 nh
60
10
6 nh
50 nh
70 nh
80 nh
90
2
9
df
10
10
30
40
10
10
30
50
10
40
50
10
60
70
80
30
40
50
10
6
10
p q
p N r
p
q
p
N
1 1 1
q 1 pq 1 1
r 1 1
r 1 1
q 1
r 1 p q
r 1 XX wobei N nij i
j
344
Kapitel 9 ´ Versuchsplåne mit Messwiederholungen
Tabelle 9.15. Beispiel fçr eine dreifaktorielle Varianzanalyse mit Messwiederholungen auf einem Faktor (ungleiche Stichprobengræûen)
mit Nachhilfeunterricht
a1
ohne Nachhilfeunterricht
a2
1. Note
c1
2. Note
c2
3. Note
c3
Pijm
b1
5 4 5
4 2 3
4 3 4
13 9 12
b2
4 5
4 3
4 3
12 11
b1
4 4 5
3 4 5
3 4 5
10 12 15
b2
5 4 5
4 5 4
4 4 4
13 13 13
ABC Summen
9
ABC c1
c2
c3
c1
c2
c3
a1
b1 b2
14 9
9 7
11 7
a1
b1 b2
4;67 4,50
3;00 3;50
3;67 3;50
a2
b1 b2
13 14
12 13
12 12
a2
b1 b2
4;33 4;67
4;00 4;33
4;00 4;00
AB-Summen
AC-Summen
a1
b1 b2
34 23
a2
b1 b2
37 39
AB0 -Summen
c1
c2
c3
23 27
16 25
18 24
AC0 -Summen
a1
b1 b2
11;34 11;50
a2
b1 b2
12;33 13;00
A01 22;84; B01 23;67; C01 18;17; G0 48;17;
a1 a2
BC-Summen
a1 a2
b1 b2
c1
c2
c3
27 23
21 20
23 19
c1
c2
c3
9;00 9;17
7;00 7;83
7;67 7;50
BC0 -Summen
c1
c2
c3
9;17 9;00
6;50 8;33
7;17 8;00
A02 25;33; B02 24;50; C02 14;83; C03 15;17 N 11; 22 2;67 ; nh 1=3 1=2 1=3 1=3
b1 b2
a9.2
345
Mehrfaktorielle Varianzanalysen mit Messwiederholungen
Tabelle 9.15 (Fortsetzung) 48;172 193;36 223
10
22;842 25;332 193;88 23 23;672 24;502 193;42
40 23
30
50
18;172 14;832 15;172 195;05 22
60
11;342 11;502 12;332 13;002 193;96 3
70
9;172 6;502 7;172 9;002 8;332 8;002 196;07 2
80
9;002 7;002 7;672 9;172 7;832 7;502 195;24 2
90 4;672 3;002 4;332 4;002 196;33
2 52 42 42 42 555;00
6
342 232 372 392 537;72 33 23 33 33
9
142 92 92 122 544;17 3 3 2 3
10
132 92 132 132 545;00 3
Q:d:V:
QS
df
^2 r
F
A B AB in S C AC BC ABC C Vpn F
1;7;0;99 12; 2 F
2;14;0;99 6;51
1;39 0;16 0;05 7;28 4;51 1;33 0,35 0;13 3;55
1 1 1 7 2 2 2 2 14
1;39 0;16 0;05 1;04 2;26 0;67 0;18 0;07 0;25
1;34 0;15 0;05
Wie çblich werden die Messwerte zu verschiedenen Summen fçr die Haupteffekte, Interaktionen und Personen zusammengefasst. Gegençber der dreifaktoriellen Varianzanalyse mit Messwieder-
9;04 2;68 0;72 0;28
holungen auf einem Faktor (Fall 1) werden hier zwei weitere Summen benætigt, die sich aus den Kombinationen der Vpn mit den Messwiederholungsfaktoren B und C ergeben:
9
346
Kapitel 9 ´ Versuchsplåne mit Messwiederholungen
Tabelle 9.16. Quadratsummen und Freiheitsgrade einer dreifaktoriellen Varianzanalyse mit Messwiederholungen auf 2 Faktoren (Fall 2)
9
Q:d:V:
QS
df
A in S
3
1
10
3
p 1 p
n
zwischen Vpn
10
1
np
B AB B Vpn C AC C Vpn BC ABC B C Vpn
4
6
11
5
7
12
8
9
2
1
3
6
1
3
7
4
6
9
innerhalb Vpn
2
10
n p
q r
Total
2
1
npqr
ABPijm
X xijkm ;
5
1
10
3
5
1
7
8
3
4
5
1
11
12
6
7
10
3
X j
k
PP
xijkm :
8
Fçr die Quadratsummenbestimmung setzen wir folgende Kennziffern ein:
1
2
G2 ; pqrn XXXX i
j
P
3
5
6
7
i
A2i
qrn P 2 Ck
m
k
4
; pqn PP 2 ABij i
j
rn PP 2 ACik i
k
qn
;
;
i
;
j
10 B2j
prn
;
11
j
k
i
m
i
j
ABC2ijk ;
n P2im
m
r PPP k
1
;
qr PPP
i
1
BC2jk
pn PPP
12
k
k
PP
P ;
j
9 x2ijkm
1
q 1
p 1
q 1 p
n 1
q 1 r 1
p 1
r 1 p
n 1
r 1
q 1
r 1
p 1
q 1
r 1 p
n 1
q 1
r 1
4
1
10
3
ACPikm
1
m
q
;
ABPijm ; ACPikm :
Tabelle 9.16 zeigt, wie die Quadratsummen und Freiheitsgrade berechnet werden. Haben alle Faktoren feste Effekte, werden die einzelnen Varianzen
^ r2 QS=df in folgender Weise getestet (fçr Varianzanalysen mit zufålligen Effekten vgl. Tabelle 12.11):
a9.2
^2in S ; ^2A an der r r ^2B r
an der
^2AB an der r ^2C an der r ^2AC an der r ^2BC an der r ^2ABC r
an der
^2B Vpn ; r ^2B Vpn ; r ^2C Vpn ; r ^2C Vpn ; r ^2BC Vpn r ^2BC Vpn r
; :
BEISPIEL Untersucht wird die Frage, ob sich Testangst (hohe vs. niedrige Testangst: Faktor A; p 2) auf die verbale und praktische Intelligenz (Faktor C; r 2) unterschiedlich auswirkt. Zusåtzlich wird gefragt, ob Testangst die Leistungen in einem Gruppentest oder in einer Einzeltestsituation (Faktor B; q 2) mehr beeinflusst (a 0;05). Abhångige Variable sind die Testleistungen, die die Vpn
n 6) in 2 Parallelformen eines verbalen Intelligenztests und eines Tests zur Erfassung der praktischen Intelligenz erzielen. Die Tests sind so standardisiert, dass sie in der Eichstichprobe gleiche Mittelwerte und gleiche Streuungen aufweisen. Tabelle 9.17 zeigt die Daten und den Rechengang. Es erweisen sich somit die A C- und A B-Interaktion als signifikant. Die Leistungen der Vpn mit hoher bzw. niedriger Testangst hången in unterschiedlicher Weise von der Art der Aufgaben (verbale vs. praktische Aufgaben) und von der Testsituation (Gruppe vs. einzeln) ab. Differenziertere Interpretationen kænnen den jeweiligen Summentabellen bzw. Interaktionsdiagrammen entnommen werden.
Unterschiedliche Stichprobenumfånge. Ungleich groûe Stichproben fçhren bei diesem Versuchsplan nur zu geringfçgigen Ønderungen. Da die ungleichgroûen Stichproben unter allen Stufen der Faktoren B und C beobachtet werden, sind die Stichprobenumfånge zeilen- und spaltenweise proportional zueinander, sodass der unter 8.4 erwåhnte Ansatz fçr proportional geschichtete Stichproben çbertragen werden kann. In den Kennziffern und FreiheitsgraP den werden deshalb n p durch N ni und n i
durch ni ersetzt. An der çbrigen Quadratsummenund Freiheitsgradbestimmung åndert sich nichts.
Komplette Messwiederholung Die beiden bisher besprochenen dreifaktoriellen Varianzanalysen mit Messwiederholungen sehen vor, dass entweder jeder Stufe des Faktors A (Tabelle 9.12) oder jeder Kombination der A B-
9
347
Mehrfaktorielle Varianzanalysen mit Messwiederholungen
Faktorstufen (Tabelle 9.11) eine Zufallsstichprobe zugewiesen wird. Gelegentlich kann es eine Untersuchung jedoch erforderlich machen, dass nur eine Stichprobe unter allen Faktorstufen untersucht wird (komplette Messwiederholung). Tabelle 9.18 veranschaulicht einen entsprechenden zweifaktoriellen Versuchsplan. Wåhrend in der zweifaktoriellen Varianzanalyse ohne Messwiederholungen jeder Faktorstufenkombination eine eigene Zufallsstichprobe zugewiesen werden muss, wird in diesem Fall unter allen Faktorstufenkombinationen dieselbe Stichprobe untersucht. Ein typisches Beispiel fçr diesen Versuchsplan wåre gegeben, wenn eine Stichprobe Reize beurteilt, die systematisch in Bezug auf 2 (oder mehr) Faktoren variieren. Da hierbei die Messwerte zwischen den Faktorstufenkombinationen nicht mehr voneinander unabhångig sind, kann eine Varianzanalyse ohne Messwiederholungen zu fehlerhaften Resultaten fçhren. Wir erweitern deshalb die einfaktorielle Varianzanalyse mit Messwiederholungen in der Weise, dass jede Vp nicht nur unter allen Stufen eines Faktors A, sondern unter allen Kombinationen mehrerer Faktoren beobachtet wird. Tabelle 9.19 zeigt das Datenschema fçr einen zweifaktoriellen Plan mit kompletter Messwiederholung. Die totale Quadratsumme wird hier wie folgt zerlegt: QStot QSzw Vpn QSin Vpn
9:19
und QSin Vpn QSA QSB QSAB QSA Vpn QSB Vpn QSAB Vpn :
9:20
Zur Berechnung der Quadratsummen verwenden wir: G2 ; pqn P 2 Ai i ;
3 qn PP 2 ABij
2
1
5
7
i
j
n PP i
m
i
P
4 ;
AP2im
q
XXX
6 ;
8
j
m
j
B2j ;
pn P 2 Pm m
pq PP j
x2ijm ;
m
; BP2jm
p
:
348
Kapitel 9 ´ Versuchsplåne mit Messwiederholungen
Tabelle 9.17. Beispiel fçr eine dreifaktorielle Varianzanalyse mit Messwiederholungen auf 2 Faktoren
A
C
Verbale Intelligenz
Praktische Intelligenz
B
Einzelvers.
Gruppenvers.
Einzelvers.
Gruppenvers.
Pim
hohe Testangst
99 102 97 104 103 97
104 103 101 106 106 99
102 101 103 107 104 104
106 104 104 112 109 103
411 410 405 429 422 403
niedrige Testangst
107 109 104 110 102 105
103 104 105 105 99 102
104 104 106 104 102 102
98 106 102 103 96 99
412 423 417 422 399 408
A B C-Summen c1
9
a1 a2
c2
b1
b2
b1
b2
602 637
619 618
621 622
638 604
A B-Summen
a1 a2
B C-Summen
b1
b2
1233 1259
1257 1222
b1 b2
A B P-Summen
a1
a2
A C-Summen
c1
c2
1239 1237
1243 1242
a1 a2
c1
c2
1221 1255
1259 1226
A C P-Summen b1
b2
P1 P2 P3 P4 P5 P6
201 203 200 211 207 201
210 207 205 218 215 202
P1 P2 P3 P4 P5 P6
211 213 210 214 204 207
201 210 207 208 195 201
a1
a2
c1
c2
P1 P2 P3 P4 P5 P6
203 205 198 210 209 196
208 205 207 219 213 207
P1 P2 P3 P4 P5 P6
210 213 209 215 201 207
202 210 208 207 198 201
a9.2
9
349
Mehrfaktorielle Varianzanalysen mit Messwiederholungen
Tabelle 9.17 (Fortsetzung) A1 2480 B1 2482 C1 2476 G 4961
A2 2481 B2 2479 C2 2485
1 49612 =48 512740;0
2 992 1022 992 513261
3
24802 24812 =24 512740;0
4
24822 24792 =24 512740;2
5
24762 24852 =24 512741;7
6
12232 12592 12572 12222 =12 512845;3
7
12212 12552 12592 12262 =12 512835;3
8
12392 12372 12432 12422 =12 512741;9
9
6022 6372 6192 6042 =6 512940;5
10
4112 4102 4052 4082 =4 512972;8
11
2012 2032 2002 2012 =2 513099; 5
12
2032 2052 1982 2012 =2 513099;5 ^2 r
Q:d:V:
QS
df
A in S
3
1 0;0
10
3 232;8
p 11 p
n 1 10
zwischen Vpn
10
np
B AB B Vpn C AC C Vpn BC ABC
4
1 0;2
6
3
4
1 105;1
11
6
10
3 21;4
5
1 1;7
7
3
5
1 93;6
12
7
10
3 31;4
8
4
5
1 0;1
9
6
7
8
3
4
5
1 0;1
2
9
11
12
6
7
10
3 34;9
q 11
p 1
q 1 1 p
n 1
q 1 10 r 11
p 1
r 1 1 p
n 1
r 1 10
q 1
r 1 1
p 1
q 1
r 1 1
innerhalb Vpn
2
10 288;2
n p
q r
Total F
1;10;0;95 4;96 F
1;10;0;99 10;04
2
1 521;0
n p q r 47
B C Vpn
1 232;8
Tabelle 9.18. Zweifaktorielle Varianzanalyse mit kompletter Messwiederholung
a1 a2 ai ap
p
n
F
0;0 23;3
0;00
0;2 105;1 2;1 1;7 93;6 3;1 0;1
0;09 50;04
1 11
1
q
1
r
1 10
0;53 30;19 0;03
0;1
0;03
3;5
1 36
Tabelle 9.19. Datenschema einer zweifaktoriellen Varianzanalyse mit kompletter Messwiederholung
b1
b2
bj
bq
a1
S1 S1 S1 S1
S1 S1 S1 S1
S1 S1 S1 S1
S1 S1 S1 S1
Vp b1
b2
bj
bq
b1
b2
bj
bq
1 2 .. .
x121 x122 .. .
x1j1 x1j2 .. .
x1q1 x1q2 .. .
x211 x212 .. .
x221 x222 .. .
x2j1 x2j2 .. .
x2q1 x2q2 .. . x2qm .. .
m .. . n
x111 x112 .. .
x11m .. . x11n
a2
x12m .. .
x1jm .. .
x12n x1jn
x1qm .. .
x21m .. .
x22m .. .
x2jm .. .
x1qn x21n x22n x2jn
x2qn
350
Kapitel 9 ´ Versuchsplåne mit Messwiederholungen
Tabelle 9.20. Quadratsummen und Freiheitsgrade einer zweifaktoriellen Varianzanalyse mit kompletter Messwiederholung Q:d:V:
QS
df
A B AB A Vpn B Vpn A B Vpn
3
4
5
7
8
2
1
1
4
3
4
5
in Vpn zw Vpn
2
6
6
1
n
p q n 1
Total
2
1
pqn
3
1
6
1
6
1
7
8
3
4
6
Tabelle 9.20 zeigt, wie die Quadratsummen und deren Freiheitsgrade ermittelt werden. Sind A und B Faktoren mit festen Effekten, werden die beiden Haupteffekte und die Interaktion in folgender Weise getestet (zur Herleitung der Prçfvarianzen vgl. Ûbungsaufgabe 3 zu Kap. 12): ^2A an der r ^2A Vpn ; r
9
^2B Vpn ; ^2B an der r r ^2AB Vpn : ^2AB an der r r BEISPIEL Es soll çberprçft werden, wie sich die Einstellung (= abhångige Variable) gegençber 3 Politikern (Faktor B, q 3) anlåsslich eines wichtigen politischen Ereignisses veråndert
a 0; 01). 5 Personen geben vor und nach diesem Ereignis (Faktor A, p 2) ihr Urteil çber die 3 Politiker auf einer 6-Punkte-Ratingskala ab (hoher Wert = positive Einstellung). Tabelle 9.21 zeigt die Daten und den Rechengang. Damit ist lediglich die Interaktion A B signifikant: Vor dem Ereignis positiv beurteilte Politiker werden nach dem Ereignis negativ beurteilt und umgekehrt.
Die Verallgemeinerung dieses Ansatzes fçr den Fall, dass eine Stichprobe unter den Stufenkombinationen von mehr als zwei Faktoren untersucht wird, låsst sich relativ einfach vornehmen.
¹Optimaleª Stichprobenumfånge Optimale Stichprobenumfånge fçr Varianzanalysen mit Messwiederholungen hången von der Hæhe der Korrelationen zwischen den einzelnen Messwertreihen ab. Gegençber einer Varianzanalyse ohne Messwiederholungen verringert sich der
1
p 1 q 1
p 1
q
p 1
n
q 1
n
p 1
q
1 1 1 1
n
1
1 1
optimale Stichprobenumfang mit græûer werdenen Korrelationen, oder anders formuliert: Ein gegebener Stichprobenumfang reicht bei der Varianzanalyse mit Messwiederholungen zur Absicherung eines kleineren Effektes "0 aus als bei der Varianzanalyse ohne Messwiederholungen, wobei das Ausmaû der Verkleinerung wiederum korrelationsabhångig ist. Im Einzelnen gilt: " "0 p :
9:21 1 r Mit " = varianzanalytische Effektgræûe (Gl. 7.26) oder Gl. (7.29) und r = durchschnittliche Korrelation der Korrelationen zwischen allen Paaren von Messwertreihen. Fçr die einfaktorielle Varianzanalyse mit Messwiederholungen nennt Tabelle 9.22 optimale Stichprobenumfånge fçr r = 0,30; 0,50 und 0,80 mit a = 0,01 (0,05) und 1±b = 0,8. Die Effektgræûen entsprechen dem schwachen, mittleren bzw. starken Effekt gemåû Tabelle 7.3 nach Transformation p çber Gl. (9.21) (z. B. 0,14 = 0,10/ 1 0;5). Will man in einer Untersuchung mit 5 Messungen (p = 5) einen mittleren Effekt (" = 0,25 bzw. "0 = 0,56) mit einer Teststårke von 1±b = 0,8 und a = 0,05 nachweisen, wçrde man 13 Vpn benætigen, wenn man eine Durchschnittskorrelation von r = 0,80 annimmt. Ex post ergibt sich fçr das Beispiel der Tabelle 9.3 r12 = 0,22, r13 = ±0,22 und r23 = ±0,03 bzw. r = ±0,01&0,00 (gemittelt çber Fishers Z-Werte, vgl. S. 218). Fçr die Effektgræûe errechnen wir zu- q 2 b nåchst d = 1,76 (çber Gl. 7.27 mit rzwischen Vpn als Schåtzung fçr r) und schåtzen "0 çber
a9.2
351
Mehrfaktorielle Varianzanalysen mit Messwiederholungen
Tabelle 9.21. Beispiel fçr eine zweifaktorielle Varianzanalyse mit kompletter Messwiederholung a1 b1
b2
5 5 4 6 4
3 3 2 3 4
24
15
Vp 1 2 3 4 5
A P-Summen
P1 P2 P3 P4 P5
a2 b3
b1
b2
b3
Pm
1 2 2 1 2
3 4 2 2 1
3 2 3 2 2
4 3 6 6 5
19 19 19 20 18
8
12
12
24
95
B P-Summen
a1
a2
9 10 8 10 10
10 9 11 10 8
P1 P2 P3 P4 P5
A B-Summen
b1
b2
b3
8 9 6 8 5
6 5 5 5 6
5 5 8 7 7
a1 a2
b1
b2
b3
24 12
15 12
8 24
A1 47 A2 48 B1 36 B2 27 B3 32 G 95
1 952 =2 3 5 300;83
2 52 52 42 52 365
3
472 482 =3 5 300;87
4
362 272 322 =2 5 304;90
5
242 152 242 =5 345;80
6
192 192 182 =2 3 301;17
7
92 102 82 =3 303;67
8
82 92 72 =2 314;50 df
^2 r
F
p 11 q 12
p 1
q
p 1
n
q 1
n
p 1
q
0;03 2;03 20;43 0;62 1;16 0;89
0;05 1;75 23; 00
Q:d:V:
QS
A B AB A Vpn B Vpn A B Vpn
3
4
5
7
8
2
1 0;03
1 4;07
4
3
1 40;87
3
6
1 2;47
4
6
1 9;27
5
7
8
3
4
6
in Vpn zw Vpn
2
6
6 63;83
1 0;33
n
p q 1 25 n 14
Total
2 F
1;4;0;99 21;2 F
2;8;0;99 8;65
1 64;17
pqn
1 7;13
Gl. (7.26 a): "^0 = 0,72. Dieser Effekt kann wegen r = 0 nicht von der Messwiederholung ¹profitierenª; er wåre demnach nach Tabelle 7.3 als sehr groûer Effekt zu klassifizieren.
1 2 1 4 1 8 1
n
1 8
1 29
Bezçglich der Kalkulation optimaler Stichproben bei mehrfaktoriellen Varianzanalysen mit Messwiederholungen sind derzeit keine einschlågigen Arbeiten bekannt (vgl. Davis, 2002, Kap. 1.5).
9
352
Kapitel 9 ´ Versuchsplåne mit Messwiederholungen
Tabelle 9.22. Optimale Stichprobenumfånge fçr die einfaktorielle Varianzanalyse mit Messwiederholungen. (Nach Stevens 2002, Tabelle 13.5) Durchschn. Korrelation
Effektgræûe
0,30 0,50 0,80
0,30 0,50 0,80
9
Anzahl der Messungen 2
3
0,12 0,30 0,49 0,14 0,35 0,57 0,22 0,56 0,89
404 68 28 298 51 22 123 22 11
324 56 24 239 43 19 100 20 11
0,12 0,30 0,49 0,14 0,35 0,57 0,22 0,56 0,89
268 45 19 199 34 14 82 15 8
223 39 17 165 30 14 69 14 8
a = 0,01
a = 0,05
Hinweise: Messwiederholungsdaten kænnen auch dann einer Varianzanalyse unterzogen werden, wenn sie nach 4 oder mehr Faktoren gruppiert sind. Das Auswertungsschema fçr beliebig-faktorielle Messwiederholungsplåne wird bei Winer (1971, Kap. 7.5) beschrieben. Eine Variante der Messwiederholungsanalyse fçr dichotome abhångige Variablen wurde von Guthrie (1981) vorgestellt.
9.3 Voraussetzungen der Varianzanalyse mit Messwiederholungen Die Voraussetzungen der Varianzanalyse ohne Messwiederholungen wurden auf den S. 284 ff. und 328 dargestellt und diskutiert. Eine dieser Voraussetzungen besagt, dass die Messungen zwischen verschiedenen Treatmentstufen unabhångig sein mçssen. Diese Voraussetzung ist bei Messwiederholungsanalysen ± wie im folgenden Text gezeigt wird ± in der Regel verletzt. Dennoch fçhren die in diesem Kapitel behandelten F-Tests zu richtigen Entscheidungen, wenn eine zusåtz-
4
5
6
7
273 49 22 202 38 18 86 19 11
238 44 21 177 35 18 76 18 12
214 41 21 159 33 18 69 18 12
195 39 21 146 31 18 65 18 13
192 35 16 142 27 13 60 13 8
170 32 16 126 25 13 54 13 9
154 30 16 114 24 13 50 14 10
141 29 16 106 23 14 47 14 10
liche Voraussetzung, die die Korrelationen zwischen den Messzeitpunkten betrifft, erfçllt ist. Verletzungen dieser Voraussetzung haben gravierendere Konsequenzen als Verletzungen der çbrigen varianzanalytischen Voraussetzungen. Sie fçhren zu progressiven Entscheidungen, d. h. zu Entscheidungen, die die H1 håufiger begçnstigen, als nach dem nominellen a-Niveau zu erwarten wåre (vgl. hierzu Box, 1954 b; Collier et al., 1967; Gaito, 1973; Geisser u. Greenhouse, 1958; Huynh, 1978; Huynh u. Feldt, 1970; Huynh u. Mandeville, 1979; Keselman et al., 1980 b; Kogan, 1948; Rogan et al., 1979; Stoloff, 1970). Wir werden diese Voraussetzung im Folgenden am Beispiel der einfaktoriellen Varianzanalyse mit Messwiederholungen ausfçhrlich erlåutern.
Korrelationen zwischen wiederholten Messungen: Ein Beispiel Es geht um die Frage, wie sich 3 verschiedene Beleuchtungsstårken (Faktor A) auf die Arbeitsleistungen von 5 verschiedenen Vpn auswirken. Wir wollen einmal annehmen, dass die unter verschie-
a9.3
353
Voraussetzungen der Varianzanalyse mit Messwiederholungen
denen Beleuchtungsbedingungen erbrachten Leistungen aller Vpn im Durchschnitt 8 Arbeitseinheiten betragen mægen: G 8:
Tabelle 9.23. Numerisches Beispiel fçr maximale Abhångigkeit der Daten unter den Faktorstufen Beleuchtung Vpn
Ferner gehen wir davon aus, dass die durchschnittlichen Arbeitsleistungen der 5 Vpn in folgender Weise vom Gesamtdurchschnitt G 8 abweichen:
a1
a2
a3
8 6 5 3 3
12 10 9 7 7
13 11 10 8 8
3 1 0 2 2
1
2
G8
Vp 1:
G 3 11 ;
1 2 3 4 5
Vp 2:
G 1 9;
Beleuchtungseffekt 3
Vp 3:
G 0 8;
Vp 4:
G
2 6;
Vp 5:
G
2 6:
Ûben die 3 Beleuchtungsstårken keinen Einfluss auf die Arbeitsleistungen aus, erwarten wir folgende Messwerte fçr die 5 Vpn:
Vp 1 2 3 4 5
a1
a2
a3
11 9 8 6 6
11 9 8 6 6
11 9 8 6 6
Personeneffekt 3 1 0 ±2 ±2 G8
Die einzelnen Vpn erzielen unter den 3 Beleuchtungsstårken jeweils die gleichen Werte. Die A-priori-Unterschiede zwischen den Vpn (= Personeneffekte) werden unter jeder Beleuchtungsart repliziert. Als Nåchstes nehmen wir an, dass sich die 3 Beleuchtungsstårken im Durchschnitt folgendermaûen auf die Arbeitsleistungen auswirken: a1:
G
a2:
G 1 9;
a3:
G 2 10 :
3 5;
Wenn wir davon ausgehen, dass sich jede von einer Vp unter einer bestimmten Beleuchtungsbedingung erbrachte Leistung additiv aus dem allgemeinen Gesamtdurchschnitt, der individuellen Durchschnittsleistung und dem Beleuchtungseffekt zusammensetzt, erhalten wir die in Tabelle 9.23 zusammengestellten Einzelleistungen. Die
Personeneffekt
Leistung der 4. Vp unter der Beleuchtung a2 z. B. ergibt sich zu: x42 8
2 1 7. In diesem theoretischen Beispiel wirken sich die A-priori-Unterschiede zwischen den Vpn in gleicher Weise auf alle erhobenen Messungen aus, d. h., die unter jeder Beleuchtungsstårke erhobenen Daten geben die A-priori-Unterschiede zwischen den Vpn exakt wieder. Dies hat zur Konsequenz, dass die unter den 3 Beleuchtungsbedingungen erhobenen Messwerte jeweils paarweise zu 1 miteinander korrelieren, d. h. r12 r13 r23 1 : In empirischen Untersuchungen beinhalten die individuellen Leistungen jedoch zusåtzlich zufållige Fehlerkomponenten und eventuell Interaktionskomponenten (in unserem Beispiel wåren dies Effekte, die auf die spezielle Reaktionsweise einer Vp auf eine bestimmte Beleuchtung zurçckzufçhren sind), die die Messwerte spaltenweise unsystematisch veråndern und damit zu einer Verringerung der korrelativen Abhångigkeiten zwischen den Messwertreihen fçhren. Eine der 3 unter 7.5 erwåhnten Voraussetzungen der Varianzanalyse besagt, dass die unter den einzelnen Faktorstufen (Faktorstufenkombinationen) beobachteten Fehlervarianzen homogen sein mçssen. Ûbertragen wir diese Voraussetzung auf die Residualvarianz der Varianzanalyse mit Messwiederholung, so leitet sich hieraus die Forderung ab, dass die Messwerte unter jeder Faktorstufe in gleichem Ausmaû Fehler- und Interaktionseffekte (= Residualeffekte) enthalten. Im Beispiel mçssten also die bestehenden A-priori-Unterschiede zwischen den Vpn bei jeder Beleuchtungsart im glei-
9
354
Kapitel 9 ´ Versuchsplåne mit Messwiederholungen
chen Ausmaû durch Residualeffekte çberlagert sein. Die Ûberlagerung der A-priori-Vpn-Unterschiede durch Residualeffekte bedeutet ferner, dass die Korrelationen zwischen den Messungen der Treatmentstufen nicht mehr perfekt sind. Soll der F-Test im Rahmen einer Messwiederholungsanalyse zu richtigen Entscheidungen fçhren, ist zu fordern, dass die perfekten Korrelationen in Tabelle 9.23 einheitlich um einen konstanten Betrag reduziert werden bzw. dass alle Stichprobenkorrelationen zwischen den Treatmentstufen Schåtzungen einer gemeinsamen Populationskorrelation sind.
9
Tabelle 9.24. Beispiel Residualvarianzen
fçr
Vpn
a1
a2
a3
Pm
1 2 3 4 5
10 6 3 4 2
11 10 10 8 6
12 11 11 6 10
33 27 24 18 18
Ai
25
45
50
r12 0;75 r13 0;44 G 120 r23 0;53
b) Heterogene Korrelationen Vpn
a1
a2
a3
Pm 33 27 24 18 18
1 2 3 4 5
9 3 2 4 7
5 10 11 11 8
19 14 11 3 3
Man beachte, dass die Forderung nach homogenen Korrelationen bedeutungslos ist, wenn nur 2 Messzeitpunkte untersucht werden. Die Korrelationen kænnen im Extremfall såmtlich Null werden, was bedeutet, dass zwischen den Messwertreihen unter den Treatmentstufen keine Abhångigkeiten bestehen bzw. dass die A-priori-Unterschiede zwischen den Vpn die Leistungen unter den verschiedenen Beleuchtungsbedingungen wegen zu starker Residualeffekte çberhaupt nicht beeinflussen. Man kann zeigen, dass in diesem Fall die Varianzanalyse mit Messwiederholungen mit einer Varianzanalyse ohne Messwiederholungen identisch ist. In Tabelle 9.24 sind die in Tabelle 9.23 enthaltenen Messwerte so modifiziert (durch Residualeffekte çberlagert), dass sich im Fall a) homogene und im Fall b) heterogene Korrelationen ergeben. Wie man sich leicht çberzeugen kann, repråsentieren die Leistungen unter allen drei Beleuchtungsstårken die A-priori-Unterschiede im Fall a) besser als im Fall b).
Ai
25
45
50
Im Folgenden werden wir ein Korrekturverfahren vorstellen, das eventuelle Verletzungen dieser Voraussetzung kompensiert. Das Rationale dieses Verfahrens basiert jedoch nicht auf der strengen
korrelierte
a) Homogene Korrelationen
In Varianzanalysen mit Messwiederholungen mçssen die Varianzen unter den einzelnen Faktorstufen und die Korrelationen zwischen den Faktorstufen homogen sein. Eine Verletzung dieser Voraussetzung fçhrt zu progressiven Entscheidungen.
Korrektur der Freiheitsgrade
unterschiedlich
r12 r13 G = 120 r23
0;94 0;22 0;52
Annahme homogener Korrelationen, sondern auf einer liberaleren Voraussetzung, nach der die Varianzen der Differenzen der Messungen von jeweils 2 Treatmentstufen homogen sein mçssen
r2a i ai0 const. fçr i 6 i0 . Genauer sind die Bedingungen fçr einen validen F-Test in der sog. Zirkularitåtsannahme zusammengefasst (vgl. hierzu etwa Keselman et al., 1981). Ein Spezialfall dieser Voraussetzung ist die oben erwåhnte Homogenitåt der Korrelationen. Das im folgenden behandelte Korrekturverfahren ist nach Wallenstein u. Fleiss (1979) auch dann zu verwenden, wenn ± was fçr Varianzanalysen mit Messwiederholungen typisch ist ± die Korrelationen zwischen 2 Messzeitpunkten mit wachsendem zeitlichen Abstand abnehmen. Verletzungen der Zirkularitåtsannahme liegen vor, wenn heterogene Korrelationen zwischen den Messzeitpunkten unsystematisch variieren. Sie lassen sich nach Box (1954 b) dadurch kompensieren, dass man fçr den kritischen F-Wert des F-Tests in der Messwiederholungsanalyse modifizierte Freiheitsgrade verwendet. Der F-Test der einfaktoriellen Varianzanalyse mit Messwiederholungen hat normalerweise p 1 Zåhlerfreiheitsgrade und
p 1
n 1 Nenner-
a9.3
freiheitsgrade (vgl. S. 333). Dieser F-Test ist nur gçltig, wenn die oben erwåhnte Voraussetzung erfçllt ist. Bei Verletzung dieser Voraussetzung folgt der empirische F-Wert einer theoretischen F-Verteilung mit reduzierten Zåhler- und Nennerfreiheitsgraden. Diese reduzierten Freiheitsgrade erhålt man, indem die ¹normalenª Freiheitsgrade mit einem Faktor "
" < 1 gewichtet werden. Je stårker die Zirkularitåtsannahme verletzt ist, desto kleiner wird ", d. h., man erhålt bei einer deutlichen Verletzung der Voraussetzung weniger Zåhler- und Nennerfreiheitsgrade fçr den kritischen F-Wert. Der so modifizierte F-Test vergleicht damit den empirischen F-Wert mit einem græûeren kritischen F-Wert als der ¹normaleª F-Test, d. h., die Wahrscheinlichkeit einer progressiven Entscheidung zu Gunsten von H1 wird verringert. Wie Geisser u. Greenhouse (1958) zeigen, ergibt sich bei einer maximalen Heterogenitåt der Korrelationen bzw. Kovarianzen fçr " der Wert 1=
p 1, d. h. 1 p
1
" 1:
Der Faktor " låsst sich auf Grund der Daten einer Untersuchung durch folgende Gleichung schåtzen (vgl. Huynh u. Feldt, 1976): 1
9
355
Voraussetzungen der Varianzanalyse mit Messwiederholungen
dfZahler "^
p dfNenner "^
p
1 ; 1
n
9:23 1 :
9:24
Fçr "^ > 0;75 empfehlen Huynh u. Feldt (1976) statt "^ folgenden Korrekturfaktor "~: "~
p
n
p 1 n
1 "^ 2 : 1
p 1 "^
9:25
Da "~ (wie auch "^) eine Schåtzung von " darstellt, kann es vorkommen, dass "~ græûer als 1 ist. In diesem Fall setzt man "~ 1. Fçr zweifaktorielle Plåne errechnet man "~ wie folgt: "~
q
p n
q 1 p n
1 "^ 2 p
q 1 "^
9:26
Man beachte, dass p und q hierbei nach Tabelle 9.7 definiert sind, d. h., p kennzeichnet die Anzahl der Gruppen und q die Anzahl der Messungen. Weitere Hinweise zur "-Korrektur und alternative Ansåtze findet man bei Algina (1994). Ûber die Verwendung der sog. Welch-James-Prozedur bei heterogenen Kovarianzen berichten Keselman et al. (1993).
Beispiel fçr einen einfaktoriellen Plan
wobei p Anzahl der Treatmentstufen (Messzeitpunkte), 2 ^ii Mittelwert der unter den p Treatmentstufen r ^2ii , beobachteten Varianzen r 2 ^ij Kovarianz zwischen der i-ten und j-ten r Treatmentstufe, ^2i: Mittelwert aus der Varianz der i-ten Treatr mentstufe und den Kovarianzen aller çbrigen Treatmentstufen mit Treatmentstufe i, ^2:: Gesamtmittel aller Varianzen und Kovarir anzen.
Das eingangs dieses Kapitels erwåhnte Beispiel (Vergleich von Hautwiderstandsmessungen zu verschiedenen Tageszeiten) resultiert in einem signifikanten F-Wert (vgl. Tabelle 9.4). Die Interpretation dieses Befundes stellten wir vorerst zurçck, da die Frage, ob die Voraussetzungen fçr die Durchfçhrung des F-Tests erfçllt sind, offen geblieben war. Wir wollen nun çberprçfen, ob eine Verletzung der Zirkularitåtsannahme vorliegt, was eine Korrektur der Freiheitsgrade erforderlich machen wçrde. Hierfçr bestimmen wir zunåchst alle Varianzen und Kovarianzen, die in einer Varianz-KovarianzMatrix S zusammengefasst werden. Wir ermitteln fçr S: 2 3 1;12 0;29 0; 27 S 4 0;29 1;51 0;04 5 : 0;27 0;04 1;29
Resultiert nach Gl. (9.21) ein "^-Wert im Bereich "^ < 0;75, sind die Freiheitsgrade in folgender Weise zu korrigieren:
^2 bzw. (Zur Berechnung einer Varianzschåtzung r einer Kovarianzschåtzung vgl. S. 92 und S. 189. Bei der Berechnung der Kovarianzschåtzungen ist
"^
p
1
PP i
j
^ r2ij 2
^ 2 2 p2
^ r2ii r ; P 2 2 2 p
^ ri: p2
^ r2:: 2 i
(9.22)
356
Kapitel 9 ´ Versuchsplåne mit Messwiederholungen
darauf zu achten, dass die Kreuzproduktsumme im Zåhler nicht durch n, sondern durch n 1 dividiert wird.) Nach der Terminologie von Gl. (9.22) haben die 10 Werte unter der Bedingung ^211 1;12, und die ¹morgensª eine Varianz von r Kovarianz zwischen den Bedingungen ¹morgensª ^212 0;29. Durch Beund ¹mittagsª hat den Wert r rechnung des Mittelwertes einer Zeile (oder einer Spalte) von S resultieren: ^21: 0;38 ; r ^22: 0;59 ; r ^23: 0;33 : r Der Mittelwert der 3 Varianzen (Diagonalelemente von S) heiût ^2ii 1;31; r und der Gesamtmittelwert aller Elemente von S lautet ^2:: 0;43 : r
9
Wir setzen in Gl. (9.22) ein und erhalten r2ii p2
^ XX i
j
^2:: 2 32
1;31 r
Konservative F-Tests. Die Berechnung eines Korrekturfaktors " kann man sich ersparen, wenn der F-Test der einfaktoriellen Varianzanalyse mit Messwiederholungen bereits fçr einen Zåhlerfreiheitsgrad und n 1 Nennerfreiheitsgrade signifikant ist. Diese Freiheitsgrade resultieren fçr einen minimalen "-Wert
" 1=
p 1, dem eine maximale Verletzung der Zirkularitåtsvoraussetzung entspricht (s. o.), d. h., dieser F-Test fçhrt immer dann zu konservativen Entscheidungen, wenn ± was auf die meisten Untersuchungen zutreffen dçrfte ± die Homogenitåtsvoraussetzung nicht extrem verletzt ist.
0;432 6;97 ;
^ r2ij 2 1;122 0;292 1;292 5;52 ;
X r2i: 2 23
0;382 0;592 0;332 3;61 ; 2p
^ i
r2:: 2 32 0;432 1;66: p2
^ Damit erhålt man: "^
Gl. 9.9 durchgefçhrten Scheff-Test) kann als erfçllt angesehen werden. Ist wegen "~ (bzw. "^ < 1 eine Korrektur der Freiheitsgrade erforderlich, werden die korrigierten Freiheitsgrade ganzzahlig abgerundet. Die Ungenauigkeit, die hierdurch besonders fçr kleinere Anzahlen von Freiheitsgraden entsteht, kann nach einer Tabelle von Imhoff (1962) korrigiert werden (vgl. hierzu auch Huynh u. Feldt, 1976, S. 80).
6;97 6;97 0;98 : 2
5;52 3;61 1;66 7;14
Es resultiert "^ > 0;75. Wir errechnen deshalb den Korrekturfaktor "~ nach Gl. (9.25): 10
3 1 0;98 2
3 1 10 1
3 1 0;98 17;60 1;25 : 14;08
"~
Der Wert ist græûer als 1, d. h., wir setzen "~ 1. Die mit diesem Faktor durchgefçhrte Freiheitsgradkorrektur nach Gl. (9.23) und (9.24) veråndert die Freiheitsgrade nicht. Die Voraussetzung fçr den F-Bruch in Tabelle 9.4 (und fçr den nach
Beispiel fçr einen zweifaktoriellen Plan Die oben beschriebene Annahme zur Struktur der Varianz-Kovarianz-Matrix (Zirkularitåtsannahme) gilt auch fçr mehrfaktorielle Varianzanalysen mit Messwiederholungen, d. h., auch fçr diese Verfahren ist gegebenenfalls eine Korrektur der Freiheitsgrade geboten. Diese Korrektur ist jedoch nur fçr Messwiederholungsfaktoren bzw. Interaktionen mit diesen Faktoren erforderlich. Wir wollen die Verallgemeinerung dieses Ansatzes anhand der Daten einer zweifaktoriellen Varianzanalyse mit Messwiederholungen verdeutlichen und greifen hierfçr erneut das Beispiel in Tabelle 9.9 auf. Das Beispiel vergleicht çber 3 Messzeitpunkte 3 Stichproben, deren Kreativitåt jeweils nach einem anderen Verfahren trainiert wurde. Wir berechnen zunåchst fçr jede Stichprobe (d. h. fçr jede Stufe des Faktors A) eine Varianz-KovarianzMatrix: 2 3 2;50 0;25 0;75 S1 4 0;25 1;70 2;80 5 ; 0;75 2;80 5;20
a9.3
357
Voraussetzungen der Varianzanalyse mit Messwiederholungen
2
2;50 S2 4 1;50 0;50 2 1;70 S3 4 1;30 1;15
1;50 2;50 1;50 1;30 3;70 3;85
3 0;50 1;50 5 ; 5;00 3 1;15 3;85 5 : 4;30
Die 3 Matrizen werden zu einer Durchschnittsmatrix S0 zusammengefasst, indem man jeweils die korrespondierenden Elemente der Matrizen mittelt. (Bei ungleich groûen Stichproben mçssen die Quadratsummen und Freiheitsgrade getrennt summiert und aus den Summen der Quotient berechnet werden.) Im Beispiel errechnen wir fçr S0 2 3 2;23 1;02 0;80 S0 4 1;02 2;63 2;72 5 : 0;80 2;72 4;83 Eine Ûberprçfung der Homogenitåt der 3 (bzw. allgemein p) Varianz-Kovarianz-Matrizen erçbrigt sich nach Keselman et al. (1980 b), da der hierfçr çblicherweise eingesetzte Box-Test (vgl. S. 619 f. bzw. Winer, 1971, Kap. 7.7) seinerseits åuûerst progressiv auf Voraussetzungsverletzungen reagiert. Fçr das praktische Vorgehen empfiehlt es sich deshalb, ausgehend von S0 , einen "-korrigierten bzw. sogar konservativen F-Test einzusetzen (vgl. hierzu auch Rogan et al., 1979). Fçr die zusammengefasste Varianz-KovarianzMatrix ermitteln wir nach Gl. (9.22) folgenden Korrekturfaktor "^ (in Gl. 9.22 ist nach der Terminologie zweifaktorieller Plåne p durch q Anzahl der Messzeitpunkte zu ersetzen). 32
3;23 0;422
3 1
53;38 2 3 1;53 32 0;422 71;06 0;78 : 91;57
"^
Da "^ > 0; 75 ist, errechnen wir "~ nach Gl. (9.26) 3 5
3 1 0;78 2 "~
3 1 3 5 3
3 1 0;78 21;4 1;02 : 20;9 (Bei ungleich groûen Stichproben wird p n durch P N ni ersetzt.) Da "~ 1;02 > 1;00 ist, erçbrigt sich eine Freiheitsgradkorrektur, d. h., die in Tabelle 9.9 durchgefçhrten F-Tests sind valide.
Fçr " (^ " oder "~ < 1 werden die Freiheitsgrade wie folgt korrigiert: Faktor B: dfZahler "
q
1 ;
dfNenner " p
q
1
n
1 :
Interaktion A B: dfZahler "
p 1
q 1 ; dfNenner " p
q 1
n 1 : (Man beachte, dass der Gruppierungsfaktor A von der Freiheitsgradkorrektur nicht betroffen ist.)
Konservative F-Tests. Wie bereits in der einfaktoriellen Varianzanalyse mit Messwiederholungen gilt auch hier, dass sich eine "-Korrektur der Freiheitsgrade erçbrigt, wenn bereits der extrem konservative F-Test zu einem signifikanten Resultat fçhrt. Tabelle 9.25 enthålt die Freiheitsgrade der kritischen F-Werte, die fçr diese konservativen F-Tests im Rahmen einer zweifaktoriellen bzw. fçr die beiden Varianten einer dreifaktoriellen Varianzanalyse mit Messwiederholungen benætigt werden. (Zur "-Korrektur der Freiheitsgrade in dreifaktoriellen Plånen vgl. Huynh, 1978.) Hinweise: Gelegentlich wird bei Messwiederholungsdaten die varianzanalytische Hypothesenprçfung durch ein multivariates Verfahren (Hotellings T2 -Test, vgl. S. 590 ff.) eingesetzt, wobei die wiederholten Messungen einer Vp wie Messungen auf verschiedenen abhångigen Variablen behandelt werden. Dass dieses Verfahren der Varianzanalyse mit Messwiederholungen keinesfalls immer çberlegen ist, zeigen Romanuik et al. (1977). Es wird empfohlen, dieses Verfahren nur einzusetzen, wenn n > 20 und " < 0;75 (vgl. auch Algina u. Keselman, 1997; Huynh u. Feldt, 1976 oder Rogan et al., 1979). Zur Frage, wie die Messwiederholungsanalyse, Hotellings T2 -Test sowie ein verteilungsfreies Verfahren (Hollander u. Sethuraman, 1978) auf Voraussetzungsverletzungen reagieren, haben Rassmussen et al. (1989) eine Studie durchgefçhrt. Den Ergebnissen ist summarisch zu entnehmen, dass das verteilungsfreie Verfahren bei deutlichen Verletzungen der Normalverteilungsannahme und der Varianz-Kovarianz-Homogenitåt den beiden
9
358
Kapitel 9 ´ Versuchsplåne mit Messwiederholungen
Tabelle 9.25. Freiheitsgradkorrekturen fçr konservative F-Tests in mehrfaktoriellen Varianzanalysen mit Messwiederholungen Normaler F-Test zu prçfender Effekt
Konservativer F-Test
dfZahler
dfNenner
zweifaktorielle B Varianzanalyse Messwiederholungen A B çber B (vgl. Tabelle 9.7)
q
p
q
1
n
p
q
1
n
dreifaktorielle Varianzanalyse: Messwiederholungen çber C (vgl. Tabelle 9.11)
C
r
AC BC ABC
p
q
p
dreifaktorielle Varianzanalyse: Messwiederholungen çber B C (vgl. Tabelle 9.12)
B
q
AB C AC BC ABC
p 1
q r 1
p 1
r
q 1
r
p 1
q
1
p
1
q
1
1 1
r 1
r 1
q
1 1 1
r
1 1 1
r
dfNenner
1
1
p
n
1
1
p
p
n
1
1
p q
r
1
n
1
1
p q
r p q
r 1 p q
r
1
n 1
n 1
n
1 1 1
p 1 q 1
p 1
q
1 1
dfZahler
p
q
1
n
1
p
q p
r p
r p
q 1 p
q
1
n 1
n 1
n 1
r 1
r
1 1 1 1
n 1
n
1 p 1 p 1 1 1 p
1 1 1
p q
n
1
p q
n p q
n 1 p q
n
1 1 1
p
n
1
p
n p
n p
n p
n p
n
1 1 1 1 1
9 anderen Verfahren çberlegen ist. Eine Anwendung der Bootstrap-Methode (vgl. S. 132 f.) auf Messwiederholungsplåne findet man bei Lunneborg u. Tousignant (1985). Ein Einzelvergleichsverfahren, das auf Verletzungen der Voraussetzungen der Messwiederholungsanalyse robust reagiert, wird bei Keselman (1982) bzw. Keselman et al. (1981) beschrieben. Weitere Alternativen findet man bei Kirk (1982, Kap. 6). Die Ûberprçfung von ¹Pattern-Hypothesenª beschreiben Furr u. Rosenthal (2003).
Auswertungsalternativen Die Varianzanalyse mit Messwiederholungen kann in vielen Fållen durch Auswertungsalternativen ersetzt werden, die weniger restriktive Annahmen machen. In der Terminologie von Davis (2002) handelt es sich um einfache, zusammenfassende Statistiken, zu denen auch die Steigung der pro Vp wiederholt erhobenen Messungen zåhlt. Ein Beispiel (nach Davis, 2002, Kap. 2.2) soll die Vorgehensweise verdeutlichen. Es geht um die Abhångigkeit des Atemvolumens (y) von der Temperatur der geatmeten Luft
(x). 8 Vpn haben die in Tabelle 9.26 dargestellten Werte produziert. Es handelt sich also um ein typisches Datenschema fçr eine Varianzanalyse mit Messwiederholungen. Hier jedoch soll die spezielle Hypothese geprçft werden, dass das Atemvolumen mit steigender Temperatur linear abnimmt. Die Spalte ¹Steigungª enthålt pro Vp den Regressionskoeffizienten byx zwischen Atemvolumen und Lufttemperatur, der nach Gl. (6.12) berechnet wurde. Die durchschnittliche Steigung betrågt xb = ±0,04475 und die Streuung r ^b = 0,04586. Ûber Gl. (5.2; t-Test zum Vergleich eines Stichprobenmittelwertes mit einem Populationsparameter) çberprçfen wir unter der Annahme normalverteilter Steigungskoeffizienten, ob xb = ±0,04475 signifikant von b = 0 abweicht. 0;04475 0 p 2;76 : t 0;04586= 8 Dieser t-Wert ist fçr df = 7 und einseitigem Test auf dem a = 0,05-Niveau nach Tabelle D des Anhangs signifikant (t7; 5% = ±1,94 >±2,76), d. h., insgesamt ist davon auszugehen, dass das Atemvolumen mit steigender Temperatur linear abnimmt.
a9.3
359
Voraussetzungen der Varianzanalyse mit Messwiederholungen
Tabelle 9.26. Atemvolumen in Abhångigkeit von der Lufttemperatur Vp
1 2 3 4 5 6 7 8
Temperatur (8C)
Steigung
±10
25
37
50
65
80
74,5 75,5 68,9 57,0 78,3 54,0 72,5 80,8
81,5 84,6 71,6 61,3 84,9 62,8 68,3 89,9
83,6 70,6 55,9 54,1 64,0 63,0 67,8 83,2
68,6 87,3 61,9 59,2 62,2 58,0 71,5 83,0
73,1 73,0 60,5 56,6 60,1 56,0 65,0 85,7
79,4 75,0 61,8 58,8 78,7 51,5 67,7 79,6
Statt auf Linearitåt håtte man auch auf einen monoton fallenden Trend prçfen kænnen. Hierfçr wåren die Steigungskoeffizienten (z. B.) durch Spearmans Rang-Korrelations-Koeffizienten (s. Gl. 6.115) zu ersetzen. Fçr nichtlineare Trends wåren die in Kap. 6.1.3 beschriebenen Techniken einschlågig. Anders als in der einfaktoriellen Varianzanalyse mit Messwiederholungen bereiten fehlende Werte (missing data) bei den hier beschriebenen Auswertungsvarianten keine besonderen Probleme. Im Beispiel wurden pro Vp p = 6 Messwerte erhoben, d. h., fçr die Regressionskoeffizienten stehen jeweils 6 Messwertpaare zur Verfçgung. Sollten bei einer oder mehreren Vpn Messungen ausfallen, kænnen die entsprechenden Steigungskoeffizienten aus einer reduzierten Anzahl von Messwertpaaren berechnet werden (vgl. hierzu jedoch Delucchi u. Bostrom, 1999). Hat man zwei Stichproben zu vergleichen (im Atemvolumen-Beispiel etwa eine Stichprobe weiblicher Vpn und eine Stichprobe månnlicher Vpn), kænnte der Stichprobenvergleich parametrisch çber einen t-Test fçr unabhångige Stichproben bzw. nonparametrisch çber den U-Test erfolgen (s. Kap. 5.2.1). Fçr mehr als zwei Stichproben kåmen die einfaktorielle Varianzanalyse bzw. ± nonparametrisch ± der H-Test als Auswertungsalternativen in Frage (vgl. z. B. Bortz u. Lienert, 2003, Kap. 3.2.2). Davis (2002) nennt weitere aus Messwiederholungsdaten abgeleitete ¹einfache Statistikenª, die man zur abhångigen Variablen machen kann. Je nach Fragestellung kåmen hierfçr die Differenz zwischen der ersten und den letzten Messungen
±0,00916 ±0,02009 ±0,10439 0,00443 ±0,12029 ±0,03838 ±0,05672 ±0,01336
(oder auch nur der letzten Messung) in Betracht, der Durchschnitt der letzten Messungen oder die Differenz der Durchschnitte der ersten Messungen und der letzten Messungen, die individuellen Flåchen unter der Kurve der wiederholt erhobenen Messungen etc. Falls die Fragestellung mehrere einfache Statistiken sinnvoll erscheinen låsst, sollten multivariate Verfahren wie z. B. Hotellings T2-Test oder multivariate Varianzanalysen (MANOVA) eingesetzt werden (vgl. Kap. 17). ÛBUNGSAUFGABEN 1. Worin unterscheiden sich Varianzanalysen mit Messwiederholungen von Varianzanalysen ohne Messwiederholungen? 2. Erlåutern Sie, was man unter der Homogenitåt einer Varianz-Kovarianz-Matrix versteht. 3. In welcher Weise kann ein Messwiederholungsplan zur Kontrolle von Sequenzeffekten eingesetzt werden? 4. Erlåutern Sie, warum die einfaktorielle Messwiederholungsanalyse als eine Erweiterung des t-Tests fçr abhångige Stichproben interpretiert werden kann. 5. Es soll die Hypothese çberprçft werden, dass bei neurologisch geschådigten Kindern der Verbal-IQ auf der Wechsler-Intelligenz-Skala fçr Kinder hæher ausfållt als der Handlungs-IQ. Hopinks (1964, zit. nach Glass u. Stanley, 1970) verglich in einer Gruppe von 30 Kindern im Alter von 6 bis 12 Jahren, die als neurologisch geschådigt diagnostiziert wurden, den Verbal-IQ mit dem Handlungs-IQ und erhielt folgende Werte:
9
360
9
Kapitel 9 ´ Versuchsplåne mit Messwiederholungen
Kind
Verbal-IQ
Handlungs-IQ
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
87 80 95 116 77 81 106 97 103 109 79 103 126 101 113 83 83 92 95 100 85 89 86 86 103 80 99 101 72 96
83 89 100 117 86 97 114 90 89 80 106 96 121 93 82 85 77 84 85 95 99 90 93 100 94 100 107 82 106 108
a) Ûberprçfen Sie mit einem t-Test fçr abhångige Stichproben, ob sich der durchschnittliche Verbal-IQ der Kinder signifikant vom durchschnittlichen Handlungs-IQ unterscheidet.
Die 3 untersuchten Paar-Assoziationslisten unterscheiden sich in der Sinnfålligkeit der zu erlernenden Wortpaare: Die 1. Liste enthålt Wortpaare mit sinnvollen Assoziationen (wie z. B. hoch±tief, warm±kalt usw.), die 3. Liste sinnlose Wortpaare (wie z. B. arm±grçn, schnell±artig) und die 2. Liste nimmt hinsichtlich der Sinnfålligkeit der Wortpaare eine mittlere Position ein. Untersucht werden 10 Vpn, die in 2 Gruppen 5 Vpn aufgeteilt werden. Die eine Gruppe wird in der Lernphase durch das nachtrågliche Projizieren des richtigen Wortes auf eventuelle Fehler aufmerksam gemacht (Instruktion I), die andere Gruppe dadurch, dass der Vl entweder ¹falschª oder ¹richtigª sagt (Instruktion II). Abhångige Variable ist die Anzahl der in einer Testphase richtig assoziierten Wærter. Es mægen sich die folgenden Werte ergeben haben: Liste 1
Liste 2
Liste 3
Instruktion I
35 41 42 40 38
30 29 33 31 26
18 23 17 19 4
Instruktion II
40 36 32 41 39
27 26 29 25 26
17 12 11 14 15
Ûberprçfen Sie mit einer zweifaktoriellen Varianzanalyse mit Messwiederholungen unter Verwendung von Tabelle 9.25, ob die Haupteffekte und die Interaktion signifikant sind, wenn wir davon ausgehen, dass beide Faktoren eine feste Stufenauswahl aufweisen. 7. Nennen Sie Beispiele fçr
b) Ûberprçfen Sie mit einer einfaktoriellen Varianzanalyse mit Messwiederholungen, ob sich der durchschnittliche Verbal-IQ der Kinder vom durchschnittlichen Handlungs-IQ der Kinder unterscheidet.
a) eine dreifaktorielle Varianzanalyse mit Messwiederholungen auf einem Faktor, b) eine dreifaktorielle Varianzanalyse mit Messwiederholungen çber die Kombinationen zweier Faktoren.
c) Zeigen Sie die Øquivalenz beider Ergebnisse (Hinweis: unter Zuhilfenahme von 2.5.5).
8. Was versteht man unter einer konservativen Entscheidung?
6. In einer gedåchtnispsychologischen Untersuchung erhalten die Vpn die Aufgabe, 3 Paar-Assoziationslisten (Faktor B) zu lernen. (In Paar-Assoziationsexperimenten mçssen die Vpn einem vorgegebenen Wort ein anderes zuordnen. Dies geschieht, indem die Vpn zunåchst die vollståndigen Wortpaare, wie z. B. Lampe±Licht, Himmel±Wolke usw., dargeboten bekommen. Danach erhalten die Vpn jeweils nur ein Wort und sollen das fehlende Wort ergånzen, wie z. B. Lampe±? oder Himmel±?).
9. In einer einfaktoriellen Varianzanalyse mit Messwiederholungen wurden folgende Werte ermittelt: ^2A r 2 ^Res r
17;48 ;
dfA 3 ;
1;92 ;
dfRes 57 :
Entscheiden Sie, ob die H1 auf dem 1%-Niveau akzeptiert werden kann.
361
Kapitel 10 Kovarianzanalyse
ÛBERSICHT Einfaktorielle Plåne ± Quadratsummenzerlegung ± ungleichgroûe Stichproben ± Einzelvergleiche ± ¹optimaleª Stichprobenumfånge ± Voraussetzungen ± zweifaktorielle Plåne ± Einzelvergleiche ± kovarianzanalytische Plåne mit Messwiederholungen
In Kap. 8 haben wir im Rahmen mehrfaktorieller Versuchsplåne die Mæglichkeit erærtert, durch die Einfçhrung mehrerer Faktoren die Fehlervarianz zu reduzieren. Dieser Ansatz fçhrt jedoch mit steigender Faktoren- und Faktorstufenzahl rasch zu sehr groûen Vpn-Zahlen. Wir benætigen weniger Vpn, wenn ± wie wir im letzten Kapitel gesehen haben ± die einzelnen Stichproben unter mehreren Faktorstufen beobachtet werden (Messwiederholungen). Nachteilig kann sich bei Messwiederholungsplånen die Mæglichkeit auswirken, dass die Vpn durch wiederholte Untersuchungen zu sehr beansprucht werden, was zu Motivationsund Aufmerksamkeitsabnahme bzw. allgemein zu Sequenzeffekten fçhren kann, wodurch die Interpretation einer Untersuchung erschwert wird. Im vorliegenden Kapitel soll eine fehlervarianzreduzierende Technik behandelt werden, mit der die Bedeutung weiterer, die abhångige Variable potenziell beeinflussender Variablen ermittelt werden kann, ohne die Gesamtzahl der Vpn, wie in mehrfaktoriellen Varianzanalysen, erhæhen zu mçssen. Eine Mehrbelastung der Vpn ergibt sich nur dadurch, dass die zusåtzlich interessierenden Variablen in der Untersuchung miterhoben werden mçssen. Derartige Variablen wurden in Kap. 8 als Kontrollvariablen bezeichnet, die fçr eine Kovarianzanalyse kardinalskaliert sein mçssen (vgl. jedoch auch S. 499). Mit der Kovarianzanalyse çberprçfen wir, wie bedeutsam eine kardinalskalierte Kontrollvariable fçr die Untersuchung ist.
Kovarianzanalysen kænnen beispielsweise eingesetzt werden, wenn die vor einer Untersuchung angetroffenen A-priori-Unterschiede zwischen den Vpn in Bezug auf eine abhångige Variable das Untersuchungsergebnis nicht beeinflussen sollen. Die vor der Untersuchung bestehenden Vpn-Unterschiede werden kovarianzanalytisch aus den Messungen ¹herauspartialisiertª. Die gleiche Fragestellung haben wir im letzten Kapitel im Zusammenhang mit Messwiederholungsanalysen kennengelernt: Von mehreren Vpn liegen mehrere Messungen vor, sodass die Daten auch gemåû einer Varianzanalyse mit Messwiederholungen analysiert werden kænnen. In der Tat fçhren beide Verfahren in diesem Fall zu weitgehend vergleichbaren Ergebnissen. Nach Werts u. Linn (1971) sollte eine Kovarianzanalyse dann durchgefçhrt werden, wenn die Verånderungsraten differenziell durch die A-priori-Unterschiede im Sinn einer Wirkungsfortpflanzung beeinflusst sind, wåhrend die Messwiederholungsanalyse vor allem dann indiziert ist, wenn die Verånderungsraten von den ¹Startbedingungenª weitgehend unbeeinflusst sind. Darçber hinaus kann mit der Kovarianzanalyse jedoch nicht nur die Bedeutung von A-priori-Unterschieden zwischen den Vpn in Bezug auf die abhångige Variable, sondern die Bedeutung jeder beliebigen anderen Variablen ermittelt werden. Wenn beispielsweise die Zufriedenheit von Vpn mit verschiedenen Arbeitsplatzbeleuchtungen untersucht werden soll, kænnte die Vermutung, dass die in der Untersuchung geåuûerte Zufriedenheit auch von der jeweiligen Intensitåt des Tageslichtes (Kontrollvariable) mitbestimmt wird, durch eine Kovarianzanalyse çberprçft werden. Ebenfalls einsetzbar wåre die Kovarianzanalyse beispielsweise, wenn bei einem Schulnotenvergleich zwischen verschiedenen Schçlergruppen die Intelligenz der Schçler kontrolliert werden soll.
10
362
Kapitel 10 ´ Kovarianzanalyse
Mit Hilfe der Kovarianzanalyse wird der Einfluss einer Kontrollvariablen auf die abhångige Variable ¹neutralisiertª.
10
(Die ¹Neutralisierungª mehrerer Kontrollvariablen fçr eine oder mehrere abhångige Variablen werden wir unter 14.2.5 und auf S. 642 kennenlernen.) Als Auswertungsalternative fçr die hier genannte Problemstellung kåme auch eine zweifaktorielle Varianzanalyse in Betracht, bei der die Vpn nicht nur nach den Stufen des eigentlich interessierenden Faktors, sondern zusåtzlich nach der Ausprågung des Kontrollmerkmals gruppiert werden (post-hoc blocking). Einen Vergleich dieser Auswertungsvariante mit der Kovarianzanalyse findet man bei Bonett (1982 b). In der Kovarianzanalyse werden varianzanalytische Techniken mit regressionsanalytischen Techniken kombiniert. Mit Hilfe der Regressionsrechnung bestimmen wir ± vereinfacht gesprochen ± eine Regressionsgleichung zwischen der abhångigen Variablen und der Kontrollvariablen, die eingesetzt wird, um die abhångige Variable auf Grund der Kontrollvariablen vorherzusagen. Die vorhergesagten Werte der abhångigen Variablen sind dann vollståndig durch die Kontrollvariable determiniert. Berechnen wir die Differenzen zwischen den tatsåchlichen Werten der abhångigen Variablen und den vorhergesagten Werten, resultieren Regressionsresiduen, die von der Kontrollvariablen unbeeinflusst sind. Eine Kovarianzanalyse ist eine Varianzanalyse çber Regressionsresiduen.
Wenn beispielsweise untersucht wird, ob sich 3 verschiedene Lehrmethoden (E-learning mit Computer, Unterricht mit programmiertem Lehrbuch und Unterricht mit konventionellem Lehrbuch) in ihrer Wirksamkeit unterscheiden, mçssen wir damit rechnen, dass die individuellen Leistungen der nach den verschiedenen Methoden unterrichteten Vpn auch durch ihre Intelligenz (= Kontrollvariable) beeinflusst werden. Dieser Einfluss der Intelligenz, der mæglicherweise die Fehlervarianz vergræûert, soll aus der abhångigen Variablen entfernt werden. Bestimmen wir nun zwischen der Intelligenz und den Leistungswerten der Vpn eine Regressionsgleichung, kænnen Leistungswerte vor-
hergesagt werden, die ausschlieûlich von der Intelligenz abhången. Diese Werte ziehen wir von den tatsåchlichen Leistungswerten ab und erhalten so Residualwerte, deren Unterschiedlichkeit von der Intelligenz unbeeinflusst ist. Dieses ¹Herauspartialisierenª einer Kontrollvariablen aus der abhångigen Variablen kann zur Folge haben, dass die Fehlervarianz verkleinert wird und/oder die Treatmentvarianz vergræûert bzw. verkleinert wird. Unter welchen Umstånden mit welchen Verånderungen zu rechnen ist, werden wir unter 10.1 (S. 366) erærtern. Unter 10.2 beschåftigen wir uns mit einigen Rahmenbedingungen, die erfçllt sein sollten, wenn die Kovarianzanalyse zur Anwendung kommt. Die Verallgemeinerung der einfaktoriellen Kovarianzanalyse auf mehrfaktorielle Versuchsplåne wird unter 10.3 behandelt. Zum Abschluss dieses Kapitels gehen wir auf ein- und mehrfaktorielle Kovarianzanalysen mit Messwiederholungen ein (10.4).
" 10.1 Einfaktorielle Kovarianzanalyse Das Grundprinzip einer Kovarianzanalyse sei an einem Beispiel demonstriert. Es soll çberprçft werden, wie sich eine psychotherapeutische Behandlung auf verschiedene Verhaltensstærungen auswirkt. Die unabhångige Variable (Faktor A) besteht aus 3 verschiedenen Formen der Verhaltensstærung (a1 Konzentrationsstærung, a2 Schlafstærung, a3 hysterische Verhaltensstærung). Die abhångige Variable y(!) sei der anhand einer Checkliste von einem Expertengremium eingestufte Therapieerfolg. Je hæher der Gesamtscore ymi eines Patienten, desto græûer ist der Therapieerfolg. Da vermutet wird, dass der Therapieerfolg auch von der Verbalisationsfåhigkeit der Klienten mitbestimmt wird, soll als Kontrollvariable x(!) ein Test zur Erfassung der verbalen Ausdrucksfåhigkeit miterhoben werden (Kontrollvariable = verbale Intelligenz). Fçr jede Art der Verhaltensstærung werden n 5 Klienten untersucht. Die in Tabelle 10.1 aufgelisteten (fiktiven) Werte mægen sich ergeben haben.
a10.1
10
363
Einfaktorielle Kovarianzanalyse
Tabelle 10.1. Daten fçr eine Kovarianzanalyse a1
a2
x
Summen: Mittelwerte:
y
a3
x
y
5 6 6 4 5
11 12 8 7 9
5 4 2 1 3
12 10 9 10 13
2 1 1 1 2
34
26
47
15
54
7
Gx 135;
Gy 48
10,8
1,4
Gx
Gy 3;2
6,8
5,2
9,4
3
Fçr die Kovarianzanalyse vereinbaren wir folgende Terminologie: Die Summe der x-Werte unter einer Faktorstufe i kennzeichnen wir mit Ax
i und die Summe der y-Werte unter einer Faktorstufe i mit Ay
i . Entsprechend sind Gx die Summe aller x-Werte und Gy die Summe aller y-Werte.
Vortest: Varianzanalyse. Ûber die Werte der abhångigen Variablen (y) rechnen wir zunåchst eine einfaktorielle Varianzanalyse, ohne die Kontrollvariable x zu berçcksichtigen. Die Kennziffern lauten:
2
G2y
pn XX m
i
3
X i
482 153;60 ; 35 2 ymi 52 62 12 22 204 ;
A2y
i =n
262 152 72 =5 190 :
Wir erhalten das in Tabelle 10.2 erfasste varianzanalytische Ergebnis.
Tabelle 10.2. Einfaktorielle Varianzanalyse çber die abhångige Variable in Tabelle 10.1 Q.d.V. QS A
3 Fehler
2
y
7 9 8 5 5
Terminologie
1
x
^2 r
df
1 36;40
3 14
Total
2
1 50;40 F
2;12;0;99 6;93
F
p 12 18,20 15,56 p
n l 12 1,17 pn
1 14
9;0;
Die drei behandelten Gruppen unterscheiden sich somit signifikant, obwohl damit zu rechnen ist, dass die verbale Intelligenz zur Vergræûerung der Fehlervarianz beitrågt. Nach Gl. (7.21) gehen 72,2% der Gesamtunterschiedlichkeit in den Therapieerfolgen auf die 3 verschiedenen Verhaltensstærungen zurçck. Offenbar fçhrte die Therapie bei Konzentrationsstærungen zum græûten Erfolg, wåhrend der Behandlungserfolg bei Klienten mit hysterischen Verhaltensstærungen als sehr gering eingeschåtzt wird.
Quadratsummenzerlegung Mit der Kovarianzanalyse çberprçfen wir nun, wie sich das Ergebnis der Varianzanalyse åndert, wenn das Merkmal verbale Intelligenz kontrolliert bzw. aus den Daten herauspartialisiert wird.
Totale Quadratsumme. Wir fragen zunåchst, in welchem Ausmaû die totale Unterschiedlichkeit aller 15 y-Werte
QSy
tot durch die x-Werte beeinflusst wird. Hierfçr bestimmen wir folgende Regressionsgleichung çber alle 15 Messwertpaare (d. h. ohne Berçcksichtigung der Gruppenzugehærigkeit): ^ymi btot
xmi
Gx Gy (vgl. Gl. 6.27) :
10:1
Fçr jede Vp ermitteln wir die Differenz bzw. das Regressionsresiduum ymi ^ymi :
10:2 ymi Die resultierenden y-Werte bilden diejenigen Therapieerfolge ab, die von der Verbalintelligenz der Klienten unbeeinflusst sind. Die Quadratsum-
364
Kapitel 10 ´ Kovarianzanalyse
Tabelle 10.3. Matrix der y-Werte auf Grund der totalen Regression a1
a2
a3
1,36 2,80 2,58 ±0,08 0,92
2,24 1,46 ±1,42 ±2,64 ±0,20
±0,54 ±1,98 ±2,20 ±1,98 ±0,32
kennzeichnet somit diejeme der y-Werte
QStot nige Unterschiedlichkeit in den Therapieerfolgen, die sich ergeben wçrde, wenn die Verbalintelligenz den Therapieerfolg nicht beeinflusst. Die Regressionsgleichung lautet in unserem Beispiel: ^ymi
10
0;219
xmi
9;00 3;2 :
Nach dieser Gleichung wird fçr jeden xmi -Wert ein ^ ymi -Wert vorhergesagt und die Differenz ymi ^ymi ermittelt. Diese Differenzen sind ymi in Tabelle 10.3 eingetragen. Den Wert y11 1;36 z. B. erhalten wir in folgender Weise: In die Regressionsgleichung setzen wir fçr xmi den Wert x11 7 ein und erhalten ^ y11 0;219
7 9;00 3;2 3;64. Die Differenz lautet somit 5 3;64 1;36. Gemåû Gl. (6.67) muss die Summe der vorhergesagten ^y-Werte mit der Summe y-Werte çbereinstimmen, sodass P P der PP ymi
ymi ^ ymi 0 ergeben muss. m i m i Damit ist auch y 0, d. h., die Summe der quadrierten y-Werte stellt direkt die Abweichungs dar. Im Beispiel ermitteln wir: quadratsumme QStot XX 2 ymi QStot m
i
1;362 2;802
1;982
0;322 46;45 : Im Vergleich zu Tabelle 10.2 sehen wir, dass die QStot nach Herauspartialisieren der Kontrollvariablen um den Betrag 50;40 46;45 3;95 kleiner geworden ist. In Prozenten ausgedrçckt bedeutet dies, dass die Gesamtunterschiedlichkeit aller Werte zu
3;95 : 50;40 100% 7;8% auf verbale Intelligenzunterschiede zurçckzufçhren ist.
Fehlerquadratsumme. Als Nåchstes wollen wir uns fragen, um welchen Betrag sich die Fehlervarianz
åndert, wenn die verbale Intelligenz herauspartialisiert wird. Hierfçr verwenden wir jedoch nicht die Regressionsgleichung çber alle Messwertpaare, sondern die Regressionsgleichungen, die sich innerhalb der 3 Gruppen ergeben. Aus den 3 Regressionsgleichungen schåtzen wir einen gemeinsamen Steigungskoeffizienten bin (= zusammengefasster Steigungskoeffizient der Innerhalb-Regressionen) und verwenden ihn zur Vorhersage von ^y-Werten nach folgender Regressionsgleichung: ^ymi bin
xmi
Ax
i Ay
i :
10:3
In dieser Gleichung wird zwar ein gemeinsamer Steigungskoeffizient, aber die jeweils gruppenspezifische Hæhenlage der Regressionsgleichungen eingesetzt. Diese Vorgehensweise kann folgendermaûen begrçndet werden: Die Durchfçhrung einer Varianzanalyse setzt u. a. voraus, dass die einzelnen Fehlervarianzen (= Varianzen innerhalb der Treatmentstufen) homogen sind. Wird zu den Messwerten unter einer Treatmentstufe eine bestimmte Konstante addiert, åndert dies nichts an der Homogenitåt der Varianzen, auch wenn fçr jede Treatmentstufe eine andere Konstante gewåhlt wird (vgl. Gl. 1.23). Die Verwendung gruppenspezifischer Hæhenlagen in Gl. (10.3) åndert somit die ursprçngliche Varianzhomogenitåt der y-Werte nicht, sondern çbertrågt lediglich die Mittelwertsunterschiede, die in den ursprçnglichen y-Werten vorhanden sind, auf die vorhergesagten ^y-Werte. Anders wåre es, wenn in Gl. (10.3) fçr die Gruppen die jeweiligen ± mæglicherweise stark unterschiedlichen ± Steigungskoeffizienten eingesetzt werden. Die Multiplikation von Messwertreihen gleicher Varianz mit unterschiedlichen Konstanten resultiert in neuen Messwertreihen, deren Varianzen unterschiedlich sind (vgl. Gl. 1.23). Die Verwendung eines gemeinsamen Regressionskoeffizienten låsst hingegen die Varianzen unter den Treatmentstufen homogen. Diese Vorgehensweise setzt allerdings voraus, dass die Steigungskoeffizienten der Regressionsgleichungen innerhalb der Treatmentstufen gleich bzw. homogen sind. Eine Mæglichkeit, diese Voraussetzung zu çberprçfen, werden wir in 10.2 kennenlernen. Zunåchst interessiert uns die Frage, wie aus den einzelnen Steigungskoeffizienten ein gemeinsamer Steigungskoeffizient ermittelt werden kann. Nach Gl. (6.12) berechnen wir einen Steigungskoeffizienten wie folgt:
a10.1
365
Einfaktorielle Kovarianzanalyse
P P b
m
x m ym
m
xm n
X X m
m
x2m
P m
Tabelle 10.4. Matrix der y-Werte auf Grund der gemeinsamen Steigung der Innerhalb-Regressionen
ym
!2
:
xm
n
Bezeichnen wir den Zåhler mit QSxy und den Nenner mit QSx , kænnen wir auch schreiben: QSxy : b QSx
a2
a3
±0,30 ±0,31 0,19 ±0,29 0,71
1,19 ±0,31 ±0,29 ±0,79 0,20
±0,01 0,00 0,51 0,00 ±0,51
0,00
0,00
0,00
10:4
Nach dieser Beziehung bestimmen wir fçr die Wertepaare einer jeden Treatmentstufe i den Innerhalb-Regressionskoeffizienten bin
i : bin
i
a1
QSxy
i : QSx
i
10:5
Den gemeinsamen Regressionskoeffizienten erhalten wir, indem wir die QSxy
i im Zåhler und die QSx
i im Nenner getrennt addieren und aus den Summen den Quotienten bilden: P QSxy
i i bin P :
10:5 a QSx
i i
In unserem Beispiel ermitteln wir den gemeinsamen Steigungskoeffizienten zu: 5;20 12;00 3;40 bin 12;80 17;20 10;80 20;60 0;505 : 40;80 (QSxy
1 z. B. errechnen wir in folgender Weise: 182 34 26=5 5;20.) Setzen wir bin zusammen mit den entsprechenden Mittelwerten in Gl. (10.3) ein und ermitteln nach Gl. (10.2) die ymi -Werte, resultiert die Matrix gemåû Tabelle 10.4. In dieser Tabelle mçssen sich die Werte spaltenweise zu Null addieren. Die Summe der quadrierten Werte gibt somit direkt die Fehlerquadratsumme wieder, die frei von verbalen Intelligenzeffekten ist. Sie lautet in unserem Beispiel: QS
0;302
0;312 Fehler
0;002
0;512 3;60 : Vergleichen wir diese Fehlerquadratsumme mit der ursprçnglichen Fehlerquadratsumme in Tabel-
le 10.2, stellen wir eine Reduktion um den Betrag 10;40 bzw. um 74;3% fest. Das Herauspartialisieren der Kontrollvariablen ¹verbale Intelligenzª, die in der ursprçnglichen Varianzanalyse als unkontrollierte Stærvariable mit in der Fehlervarianz enthalten ist, hat somit zu einer erheblichen Fehlerquadratsummenreduktion gefçhrt.
Treatmentquadratsumme. Die Ermittlung der Quadratsumme, die auf die Treatmentstufen zurçckzufçhren ist, kann nur indirekt erfolgen, indem wir von der QStot die QSFehler abziehen: :
10:6 QS QS QS treat
tot
Fehler
In unserem Beispiel ermitteln wir: QStreat 46;45 3;60 42;85 : Dieser Wert ist im Vergleich zur QStreat in Tabelle 10.2 sehr viel græûer ± ein Befund, der in dieser Deutlichkeit selten auftritt (s. unten).
Freiheitsgrade Die totale Quadratsumme hat in der Kovarianzanalyse nicht ± wie in der Varianzanalyse ± p n 1, sondern p n 2 Freiheitsgrade. (Die y-Werte mçssen sich nicht nur zu Gy aufaddieTabelle 10.5. Ergebnis der Kovarianzanalyse Q.d.V.
QS
df
2 ^ r
Faktor A Fehler
42,85 3,60
2 11
21,425 0,327
Total 46,45 F
2;11;0;99 7;21
13
F 65,52
10
366
Kapitel 10 ´ Kovarianzanalyse
ren; ein weiterer Freiheitsgrad geht verloren, weil btot aus den Daten geschåtzt wird.) p n 2: dftot
10:7 verliert (wegen der Schåtzung von Die QS Fehler
bin ) ebenfalls gegençber der QSFehler einen Freiheitsgrad: p
n 1 1 :
10:8 dfFehler Die Freiheitsgrade fçr die QStreat bleiben unveråndert: dftreat p dftreat
1:
10:9
Ergebnisse und Interpretation
10
Die Kovarianzanalyse fçhrt somit zusammenfassend zu dem in Tabelle 10.5 dargestellten Ergebnis. Die Irrtumswahrscheinlichkeit der angetroffenen Mittelwertunterschiede ist somit durch das Herauspartialisieren der verbalen Intelligenz erheblich kleiner geworden. Das Ergebnis ist hochsignifikant (zur Begrçndung des F-Tests vgl. 12.4). Ein Vergleich des varianzanalytischen Ergebnisses (Tabelle 10.2) mit dem kovarianzanalytischen Ergebnis (Tabelle 10.5) zeigt, dass erwartungsgemåû die Fehlervarianz reduziert, aber gleichzeitig die Treatmentvarianz vergræûert wurde. Diese (konstruierte) Besonderheit ist auf folgende Umstånde zurçckzufçhren: Innerhalb der 3 Gruppen korreliert der Therapieerfolg positiv mit der verbalen Intelligenz. (Die Werte lauten: r1 0;87, r2 0;91, r3 0;94.) Betrachten wir hingegen die durchschnittlichen Therapieerfolge (5,2; 3,0; 1,4) und die durchschnittlichen Verbalintelligenzen (6;8; 9;4; 10;8), stellen wir einen gegenlåufigen Trend fest. Die Korrelation der Durchschnittswerte betrågt: rzw 0;997. Diejenige Gruppe, die im Durchschnitt die hæchste verbale Intelligenz aufweist (hysterische Verhaltensstærungen), hat den geringsten Therapieerfolg zu verzeichnen, wenngleich auch innerhalb dieser Gruppe diejenigen am besten therapierbar sind, deren verbale Intelligenz am hæchsten ist. Diese Gegenlåufigkeit der Korrelationen ist untypisch. Normalerweise wird die Kontrollvariable sowohl mit der abhångigen Variablen innerhalb der Faktorstufen als auch çber die Mittelwerte der Faktorstufen gleichsinnig korrelieren. In diesem Fall wird die Fehlerquadratsumme verkleinert,
und die Treatmentquadratsumme bleibt in etwa erhalten. Korreliert die Kontrollvariable hingegen innerhalb der Gruppen positiv mit der abhångigen Variablen und auf der Basis der Mittelwerte negativ, fçhrt dies zu einer Reduktion der Fehlervarianz bei gleichzeitiger Vergræûerung der Treatmentvarianz (weitere Einzelheiten hierzu S. 369 f.).
Rechnerische Durchfçhrung Wie bei allen bisher besprochenen varianzanalytischen Methoden wollen wir auch bei der Kovarianzanalyse die zwar anschaulichere, aber rechnerisch aufwendigere Vorgehensweise durch einzelne, leichter durchzufçhrende Rechenschritte ersetzen. Die formale Øquivalenz beider Ansåtze werden wir durch das bisher besprochene Beispiel belegen. Wir berechnen zunåchst die folgenden Hilfsgræûen: G2x pn G x Gy
1xy pn G2y ;
1y pn XX
2x x2mi
1x
m
2xy
i X X m
i
2y
XX m
i
P
3x
3xy
i
xmi ymi 2 ymi ;
A2x
i
Pn Ax
i Ay
i i
P i
n A2y
i
: n Hieraus lassen sich folgende Quadratsummen berechnen:
3y
QSx
tot
2x
QSxy
tot
2xy
QSy
tot
2y
1x ;
1xy ;
1y ;
a10.1
367
Einfaktorielle Kovarianzanalyse
QSx
treat
3x
Gx Gy 135 48 432;00 ; 35 pn PP
2xy xmi ymi
1x ;
QSxy
treat
3xy
1xy ;
QSy
treat
3y
1y ;
QSx
Fehler
2x
3x ;
QSxy
Fehler
2xy QSy
Fehler
2y
1xy
i
7 5 9 6 10 1 13 2
3xy ;
3y :
Ausgehend von den Quadratsummen mit dem Index y kann eine normale einfaktorielle Varianzanalyse çber die abhångige Variable y durchgefçhrt werden (vgl. Tabelle 7.2). Die Quadratsummen mit dem Index x sind ± falls gewçnscht ± die Grundlage fçr eine einfaktorielle Varianzanalyse çber die Kontrollvariable. Fçr die Kovarianzanalyse mçssen die Quadratsummen der abhångigen Variablen folgendermaûen korrigiert werden: QS2xy
tot
QStot QSy
tot
QSx
tot
QSFehler QSy
Fehler QStreat QStot
;
QS2xy
Fehler QSx
Fehler
QSFehler :
10:10 a ;
10:10 b
10:10 c
Zur Erlåuterung dieser Rechenschritte greifen wir das anfangs erwåhnte Beispiel erneut auf. Wir ermitteln zunåchst die folgenden Kennziffern: G2x 1352 1215;00 ; pn 35 PP 2
2x xmi 72 92 102 132
1x
m
244 459 594 1297 ; P
3x
i
A2x
i
n 1256;20 ;
342 472 542 5
182 153 79 414 ; P Ax
i Ay
i i
3xy n 34 26 47 15 54 7 393;40 ; 5 G2y
482 153;60 ; pn 35 PP 2
2y ymi 52 62 12 22 204 ; i m P 2 Ay
i 262 152 72 190 :
3y i n 5 Es ergeben sich folgende Quadratsummen:
1y
QSx
tot
2x
Die entsprechenden Freiheitsgrade ergeben sich gemåû Gl. (10.7) bis (10.9). Aus QS und df lassen sich wie çblich durch Division die Varianz^2 berechnen. Die Ûberprçfung der schåtzungen r korrigierten Treatmenteffekte erfolgt durch folgenden F-Test (vgl. 12.4): 2 ^y
treat r F 2 :
10:11 ^ y
Fehler r
i
m
1x 1297
1215;00
82;00 ; QSxy
tot
2xy
1xy 414
432;00
18;00 ;
QSy
tot
2y
1y 204
153;60
50;40 ; QSx
Fehler
2x
3x 1297
1256;20
40;80 ; QSxy
Fehler
2xy
3xy 414
393;40
20;60 ; QSy
Fehler
2y
3y 204
190
14 ; QSx
treat
3x
1x 1256;20
1215;00
41;20 ; QSxy
treat
3xy
1xy 393;40
432;00
38;60 ;
QSy
treat
3y
1y 190
153;60
36;40 : Die mit xy indizierten Quadratsummen stellen nach Division durch die Freiheitsgrade Kovarianzen dar und kænnen somit auch ein negatives Vorzeichen haben. Nach Gl. (10.10 a±c) ermitteln
10
368
Kapitel 10 ´ Kovarianzanalyse
wir die korrigierten Quadratsummen fçr die Kovarianzanalyse: QS2xy
tot
QStot QSy
tot
QSx
tot
QSFehler QSy
Fehler
QSx
Fehler
Ay
2 3;0 Ay
3 1;4
2
20;60 3;60 ; 40;80 QStreat QStot QSFehler 14
46;45
3;60 42;85 :
Diese Werte stimmen mit den in Tabelle 10.5 genannten Werten çberein.
Unterschiedliche Stichprobenumfånge. Sind die unter den einzelnen Treatmentstufen beobachteten Stichproben nicht gleich groû, ergeben sich fçr die rechnerische Durchfçhrung folgende Modifikationen:
10
3x
X A2x
i i
3xy
ni
ni
i
3y
;
X Ax
i Ay
i X A2y
i i
ni
;
:
Im Ûbrigen ersetzen wir p n durch N
P i
ni .
Einzelvergleiche Einzelvergleichsverfahren im Kontext der Kovarianzanalyse basieren auf der bereinigten abhångigen Variablen. Wir berechnen deshalb die Mittelwerte, die vom Einfluss der Kontrollvariablen frei sind: Ay
i A y
i
bin
A x
i
Gx :
Ay
i Ay
j2 #: " 2
A A 2 x
i x
j 2 ^y
Fehler r n QSx
Fehler
10:13
Der F-Wert ist signifikant, wenn F >
p 1 F
p 1; p
n 1 1; 1 a ist (vgl. Winer et al., 1991, S. 764). Im Beispiel ermitteln wir: Ay
1 5;2 0;505
6;8 9;00 6;31 ;
18;002 46;45 ; 82;00 QS2xy
Fehler
50;40
F
10:12
A posteriori durchgefçhrte Einzelvergleiche (Scheff-Tests) çber Paare von korrigierten Mittelwerten Ay
i und Ay
j kænnen mit folgendem F-Test auf Signifikanz geprçft werden:
0;505
9;4
9;00 2;80 ;
0;505
10;8
9;00 0;49 :
Die Therapieerfolge unterscheiden sich somit auch nach dem Herauspartialisieren der Verbalintelligenz noch deutlicher als zuvor. Nach Gl. (10.13) çberprçfen wir, ob die kleinste Paardifferenz
Ay
2 Ay
3 signifikant ist: F
2;80 0;492 5;34 # " 2 0;15 2
9;4 10;8 0;33 5 40;80
35;60 : Mit F
2;11;0;99 7;21 erhalten wir 2 7;21 14;42 < 35;60, d. h., Ay
2 und Ay
3 unterscheiden sich sehr signifikant. Die beiden çbrigen Paarvergleiche sind ebenfalls sehr signifikant. Weitere Informationen çber Paarvergleichsverfahren im Rahmen der Kovarianzanalyse findet man bei Bryant u. Paulson (1976, zit. nach Stevens, 2002, Kap. 9.12).
¹Optimaleª Stichprobenumfånge Nachdem in den vergangenen Abschnitten verdeutlicht wurde, dass die Kovarianzanalyse letztlich eine Varianzanalyse çber Regressionsresiduen ist, sind alle Regeln zur Bestimmung ¹optimalerª Stichprobenumfånge im Kontext einer Varianzanalyse auch fçr Kovarianzanalysen gçltig. Zu beachten ist lediglich, dass die Angaben zur Bestimmung einer Effektgræûe (z. B. Gl. 7.26 oder 7.29) von der bereinigten abhångigen Variablen bzw. den Regressionsresiduen ausgehen. Da bei einer Kovarianzanalyse die Fehlervarianz durch das Herauspartialisieren einer Kontrollvariablen in der Regel reduziert ist, sind die Stichprobenumfånge, die fçr eine kovarianzanaly-
a10.2
Voraussetzungen der Kovarianzanalyse
tische Absicherung einer vorgegebenen Effektgræûe benætigt werden, kleiner als in der Varianzanalyse. Die in Gl. (7.26) einzusetzende Streuung innerhalb der Population
r wird um so kleiner, je græûer die Korrelation rxy zwischen der Kontrollvariablen und der abhångigen Variablen innerhalb der Population ist. Sie lautet fçr die Regressionsresiduen: q ry ry 1 r2xy :
10:14 Um den Stichprobenvorteil einer Kovarianzanalyse planerisch ausnutzen zu kænnen, ist es also erforderlich, vor Durchfçhrung der Untersuchung eine Vorstellung von der Græûenordnung fçr rxy zu haben. Die fçr die Effektgræûenbestimmung angenommene Differenz lmax lmin bezieht sich in der Kovarianzanalyse auf die korrigierten Mittelwerte (siehe Gl. 10.12). Hat man nicht nur eine Vorstellung çber die Græûe von ry , sondern auch çber die Græûe der Streuung der Kontrollvariablen (rx ), kann man in Gl. (10.12) bin gemåû Gl. (6.65) durch rxy ry =rx ersetzen und damit eine Schåtzung der korrigierten Populationsparameter li ermitteln. Zu beachten ist schlieûlich, dass die Fehlervarianz in der Kovarianzanalyse gegençber der Varianzanalyse einen Freiheitsgrad verliert. Der hiermit verbundene Teststårkeverlust ist jedoch fçr praktische Zwecke zu vernachlåssigen, d. h., die in Tabelle 7.3 genannten Stichprobenumfånge kænnen auch im Kontext einer Kovarianzanalyse fçr 1 b 0;80 als akzeptabel angesehen werden. Insgesamt dçrften die Vorinformationen, die man fçr eine verlåssliche Schåtzung des optimalen Stichprobenumfangs im Rahmen einer Kovarianzanalyse benætigt, nur in Ausnahmefållen bekannt sein. Im Zweifelsfall orientiert man sich an den Werten der Tabelle 7.3 und ist damit auf der ¹sicheren Seiteª. Ex post schåtzen wir den kovarianzanalytischen Effekt des Beispiels (Tabelle 10.1) wie folgt: lmax und lmin q schåtzen 6,31 bzw. 0,49 wirpmit 2 ^
Fehler 0;33. Damit erhålt und r durch r p man nach Gl. (7.27) d
6;31 0;49= 0;33 10;13 und nach Gl. (7.26 a) ^e0 4;14. Dies wåre ein sehr groûer Effekt, der fçr empirisch erhobene Daten vællig unrealistisch ist.
369
10.2 Voraussetzungen der Kovarianzanalyse Neben den çblichen Voraussetzungen der Varianzanalyse, die auch fçr die Kovarianzanalyse gelten (Verletzungen dieser Voraussetzungen sind nach Glass et al., 1972, fçr die Kovarianzanalyse åhnlich zu bewerten wie fçr die Varianzanalyse; vgl. S. 286 f.), basiert das mathematische Modell der Kovarianzanalyse auf der Annahme homogener Steigungen der Regressionen innerhalb der Stichproben (vgl. Hollingsworth, 1980). Mehrere Arbeiten belegen jedoch, dass Verletzungen dieser Voraussetzung zumindest bei gleichgroûen Stichproben weder das a-Fehlerrisiko noch die Teststårke entscheidend beeinflussen (vgl. Dretzke et al., 1982; Hamilton, 1977 oder Rogosa, 1980). Eine Kovarianzanalyse ist nach Levy (1980) nur dann kontraindiziert, wenn die Innerhalb-Regressionen heterogen, die Stichproben ungleich groû und die Residuen (y-Werte) nicht normalverteilt sind. Im Ûbrigen handelt es sich bei der Kovarianzanalyse um ein ausgesprochen robustes Verfahren. Wu (1984) kommt in einer Monte-Carlo-Simulation zu dem Ergebnis, dass Unterschiede zwischen den standardisierten Regressionssteigungen unter 0;4 nur zu unbedeutenden Testverzerrungen fçhren. Eine ¹effektiveª Reduktion der Fehlervarianz durch die Berçcksichtigung einer Kontrollvariablen setzt voraus, dass die abhångige Variable und die Kontrollvariable signifikant miteinander korrelieren. Will man sicher sein, dass die Fehlervarianzreduktion kein Zufallsergebnis darstellt, empfiehlt es sich zu çberprçfen, ob diese Korrelation statistisch signifikant ist. Hiermit verbunden ist die Frage nach der Reliabilitåt der Kontrollvariablen. Kontrollvariablen mit geringer Reliabilitåt reduzieren die Teststårke der Kovarianzanalyse und kænnen in nicht randomiserten Untersuchungen zu erheblichen Verzerrungen der korrigierten Treatmenteffekte fçhren (vgl. hierzu Stevens, 2002, Kap. 9.5). In der Literatur wird gelegentlich darauf hingewiesen, dass die Gruppenmittelwerte von abhångigen Variablen und Kontrollvariablen unkorreliert sein mçssen, bzw. dass die Regression zwischen den Gruppenmittelwerten der Kontrollvariablen und der abhångigen Variablen (¹between group regressionª) und die Regression innerhalb der Stichproben (¹within group regressionª) gleich sein mçssen (vgl. z. B. Evans u. Anastasio, 1968).
10
370
10
Kapitel 10 ´ Kovarianzanalyse
Auch diese Forderung ist nach Untersuchungen von Overall u. Woodward (1977 a u. b) nicht aufrechtzuerhalten. Man beachte jedoch, dass ein substantieller Zusammenhang zwischen den Gruppenmittelwerten der abhångigen Variablen und der Kontrollvariablen die in einer Varianzanalyse ohne Kontrollvariablen festgestellten Treatmenteffekte reduziert. Mit diesem ¹Abbauª der Treatmenteffekte wåre beispielsweise zu rechnen, wenn die Ausgaben fçr die Erziehung der Kinder (abhångige Variable) in Abhångigkeit von der sozialen Schicht der Eltern (unabhångige Variable) untersucht werden und das Merkmal ¹Einkommen der Elternª als Kontrollvariable herauspartialisiert wird. Da das Einkommen ein wesentliches, schichtkonstituierendes Merkmal darstellt, korrelieren die Gruppenmittelwerte der abhångigen Variablen und der Kontrollvariablen hoch miteinander. Zusåtzlich ist mit einer positiven Innerhalb-Korrelation zwischen der abhångigen und der Kontrollvariablen zu rechnen. Wird mit der Kovarianzanalyse die Bedeutung des Einkommens aus der abhångigen Variablen eliminiert, werden Schichtunterschiede in Bezug auf die abhångige Variable reduziert, weil die Schichten u. a. durch das Einkommen definiert sind. Probleme dieser Art sind typisch fçr Untersuchungen mit nicht randomisierten Gruppen (quasiexperimentelle Untersuchungen). Hier kann die Kovarianzanalyse kontraindiziert sein; Plåne dieser Art sollten besser durch eine ¹normaleª Varianzanalyse ohne Berçcksichtigung der Kontrollvariablen ausgewertet werden (vgl. z. B. Frigon u. Laurencelle, 1993 oder Stevens, 2002, Kap. 9.6).
Homogene Regressionen Um die Voraussetzung der Homogenitåt der Innerhalb-Regressionen zu çberprçfen, zerlegen wir die QSFehler in die folgenden 2 Komponenten: X QS2xy
i
S1 QSy
Fehler
QSx
i
i
S2
X QS2xy
i
QS2xy
Fehler
QSx
i
QSx
Fehler
i
QSx
i
X m
x2mi
A2x
i n
;
;
10:15 ;
10:16
QSxy
i
X m
xmi ymi
Ax
i Ay
i : n
(Kontrolle: S1 S2 QSFehler .) S1 kennzeichnet die Variation der Messwerte um die Regressionsgeraden innerhalb der einzelnen Faktorstufen. Diese Residualbetråge mçssen um Null normalverteilt sein und innerhalb der einzelnen Faktorstufen die gleiche Varianz aufweisen. Die Teilkomponente S1 hat p
n 2 Freiheitsgrade. S2 hat p 1 Freiheitsgrade und kennzeichnet die Variation der Steigungskoeffizienten der einzelnen Innerhalb-Regressionen um die durchschnittliche Innerhalb-Regression. Je græûer dieser Anteil der QSy
Fehler ist, um so heterogener sind die einzelnen Innerhalb-Regressionskoeffizienten. Die H0: b in
1 b in
2 . . . b in
p wird approximativ durch folgenden F-Test çberprçft: F
S2 =
p 1 : S1 =p
n 2
10:17
Dieser F-Wert hat p 1 Zåhlerfreiheitsgrade und p
n 2 Nennerfreiheitsgrade. Um das b-Fehlerrisiko gering zu halten, sollte der Test auf einem hohen a-Fehler-Niveau durchgefçhrt werden (vgl. S. 165). Kænnen wir davon ausgehen, dass die Steigungen homogen sind, stellt der folgende Ausdruck eine Schåtzung der in der Population gçltigen Steigung dar: bin
QSxy
Fehler : QSx
Fehler
10:18
Hinweise: Alexander u. De Shon (1994) weisen darauf hin, dass der F-Test gemåû Gl. (10.17) gegençber Verletzungen der Varianzhomogenitåtsannahme wenig robust ist. Erweisen sich die Innerhalb-Regressionen nach Gl. (10.17) als deutlich heterogen, und treffen zudem die beiden weiteren von Levy (1980) genannten ungçnstigen Randbedingungen fçr eine Kovarianzanalyse zu (ungleich groûe Stichproben und nicht normalverteilte Residuen; s. o.), sollte das Datenmaterial mit einem verteilungsfreien Verfahren ausgewertet werden. Die Beschreibung einer verteilungsfreien Kovarianzanalyse findet man beispielsweise bei Burnett u. Barr (1977). Ein Homogenitåtstest, der nicht an die Normalverteilung der Regressionsresiduen gebunden ist, wird bei Penfield u. Koffler (1986) beschrieben.
a10.2
Ist die Voraussetzung der Homogenitåt der Innerhalb-Regressionen deutlich verletzt, empfehlen wir, zu Kontrollzwecken neben der Kovarianzanalyse eine mehrfaktorielle Varianzanalyse mit einem Faktor, der die Vpn nach dem Kontrollmerkmal gruppiert (¹post hoc blockingª), zu rechnen. Alternativ hierzu schlågt Huitema (1980) die sog. Johnson-Neyman-Technik vor, die auf eine Analyse der Interaktion zwischen der unabhångigen Variablen und der Kontrollvariablen hinauslåuft (vgl. hierzu auch Frigon u. Laurencelle, 1993). Ein anderes, auf dem Maximum-likelihood-Prinzip basierendes kovarianzanalytisches Modell findet man bei Særbom (1978).
Korrelationen mit der Kontrollvariablen Die Korrelation zwischen der Kontrollvariablen und der abhångigen Variablen låsst sich durch folgende Gleichung einfach bestimmen: s QS2xy
Fehler rin :
10:19 QSx
Fehler QSy
Fehler Je hæher diese Korrelation ausfållt, desto stårker reduziert die Kontrollvariable die Fehlervarianz. Ist diese Korrelation nicht signifikant, muss ihr Zustandekommen auf stichprobenbedingte Zufålligkeiten zurçckgefçhrt werden, sodass die Reduktion der Fehlervarianz ebenfalls zufållig ist. Eine systematische, d. h. tatsåchlich auf den Einfluss der Kontrollvariablen zurçckgehende Fehlervarianzreduktion wird nur erzielt, wenn rin signifikant ist. Es empfiehlt sich deshalb, die H0: %in 0 zu çberprçfen. Da eine Regressionsgerade mit einer Steigung von Null eine Korrelation von Null impliziert (vgl. S. 217), ist die Ûberprçfung dieser H0 mit der Ûberprçfung der H0: b in 0 formal gleichwertig. Der entsprechende Signifikanztest lautet: F
QS2xy
Fehler QSx
Fehler QSy
Fehler
p
n 1
2
:
10
371
Voraussetzungen der Kovarianzanalyse
QS2xy
Fehler
lineare Zusammenhånge im Allgemeinen zu unbedeutenden linearen Regressionen fçhren, çberprçft dieser Test auch indirekt die Linearitåt des Zusammenhangs zwischen der abhångigen Variablen und der Kontrollvariablen. Fçhrt Gl. (10.17) zu einem nicht signifikanten und Gl. (10.20) zu einem signifikanten F-Wert, wissen wir, dass die Steigungskoeffizienten der einzelnen Regressionsgeraden in den Faktorstufen homogen sind und signifikant von Null abweichen. Sind zusåtzlich auch die Hæhenlagen der Innerhalb-Regressionen praktisch identisch, fallen die Innerhalb-Regressionsgeraden bis auf zufållige Abweichungen zusammen, und wir erhalten eine gemeinsame Regressionsgerade. Diese Gerade verlåuft fçr den Fall, dass die Korrelation zwischen der abhångigen Variablen und der Kontrollvariablen gleich der Korrelation zwischen den Mittelwerten der abhångigen Variablen (Treatment) und der Kontrollvariablen ist, durch die Mittelwertkoordinaten A x
i und A y
i . Dieses Ergebnis tritt ein, wenn die Treatmentwirkung ausschlieûlich von der Kontrollvariablen bestimmt wird. Eine Kovarianzanalyse wird in diesem Fall dazu fçhren, dass mægliche Mittelwertunterschiede zwischen den Faktorstufen in Bezug auf die abhångige Variable durch das Herauspartialisieren der Kontrollvariablen verschwinden. Die Korrelation zwischen den Mittelwerten der Kontrollvariablen und der abhångigen Variablen (rzw ) ergibt sich nach der Beziehung: s QS2xy
treat rzw :
10:21 QSx
treat QSy
treat Die Regressionsgerade hat die folgende Steigung: bzw
QSxy
treat : QSx
treat
10:22
Sie verlåuft durch den Punkt mit den Koordinaten Gx und Gy .
Datenrçckgriff
10:20
Dieser F-Wert hat einen Zåhlerfreiheitsgrad und p
n 2 Nennerfreiheitsgrade. Ein signifikanter F-Wert besagt, dass die zusammengefasste Steigung (bin ) bedeutsam von Null abweicht. Da non-
Die theoretischen Ausfçhrungen zu den Voraussetzungen der Kovarianzanalyse seien am Beispiel aus 10.1 demonstriert. Die Steigungskoeffizienten innerhalb der 3 Treatmentstufen lauten nach Gl. (10.5):
372
Kapitel 10 ´ Kovarianzanalyse
QSxy
1 5;20 0;41 ; 12;80 QSx
1 QSxy
2 12;00 0;70 ; 17;20 QSx
2 QSxy
3 3;40 0;31 : 10;80 QSx
3
bin
1 bin
2 bin
3
S1 QSy
Fehler 14 14
Bei der Berechnung der einzelnen Steigungskoeffizienten kænnen wir die Zwischengræûen benutzen, die bereits im Zusammenhang mit der Kennzifferbestimmung ausgerechnet wurden (z. B. QSxy
1 182 34 26=5 5;20). Die zusammengefasste Steigung ermitteln wir nach Gl. (10.5 a) zu 5;20 12;00 3;40 0;505 bin 12;80 17;20 10;80 oder nach Gl. (10.18) zu 20;60 0;505 : bin 40;80
10
Regressionsgeraden innerhalb der Stichproben Regressionsgeraden aufgrund der gemeinsamen Steigung Regressionsgerade aufgrund der Mittelwerte
9 8 7 6
y
10
a1 a2
5 4 3 2
a3
1 0 0
1
2
3
4
5
6
7
8
9
10 11 12 13 14
x
Abb. 10.1. Veranschaulichung der Regressionsgeraden in einer Kovarianzanalyse
i
QSx
i
2
5;20 12;002 3;402 12;80 17;20 10;80
11;55 2;45 :
Fçr S2 ermitteln wir: S2
X QS2xy
i
QS2xy
Fehler
QSx
i
QSx
Fehler
i
20;602 1;15 : 40;80 (Kontrolle: QSFehler S1 S2 : 3;60 2;45 1;15.) Der F-Wert lautet somit nach Gl. (10.17): 11;55
F
Abbildung 10.1 zeigt die 3 Regressionsgeraden fçr die Stufen a1 , a2 und a3 im Vergleich zu den Regressionsgeraden mit gemeinsamer Steigung. (Als Bestimmungsstçcke der einzelnen Geraden wurden die Steigungen und Mittelwerte A x
i und A y
i herangezogen.) Um zu çberprçfen, ob die Abweichungen von der gemeinsamen Steigung statistisch bedeutsam sind, berechnen wir zunåchst S1 nach Gl. (10.15):
X QS2xy
i
S2 =
p 1 1;15=2 2;11 : S1 =p
n 2 2;45=9
Dieser Wert ist bei einer kritischen Grenze von F
2;9;0;90 3;01 nicht signifikant, d. h., die Regressionskoeffizienten sind homogen. (Wir wåhlen a 10%, um das b-Fehler-Risiko zu verringern.) Nach Gl. (10.20) testen wir, ob die durchschnittliche Steigung bin signifikant von Null abweicht. Wir ermitteln: F
QS2xy
Fehler QSx
Fehler QSy
Fehler
QS2xy
Fehler
p
n 2 1 20;602 33 40;80 14 20;602 1 2;89 9 26;01 :
Mit F
1;9;0;99 10;6 als kritischen Wert, ist der empirische F-Wert sehr signifikant. Die durchschnittliche Steigung weicht bedeutsam von Null ab. Die Reduktion der Fehlervarianz durch das Herauspartialisieren der verbalen Intelligenz ist nicht auf Zufall zurçckzufçhren. Ferner interessiert uns, wie die Kontrollvariable mit der abhångigen Variablen korreliert. Fçr rin ermitteln wir nach (10.19) s 20;602 0;86 : rin 40;80 14
a10.3
Mehrfaktorielle Kovarianzanalyse
Da QSxy
Fehler positiv ist, hat auch die Korrelation ein positives Vorzeichen (vgl. auch die gemeinsame Steigung der Regressionsgeraden in Abb. 10.1). Die Korrelation zwischen den Gruppenmittelwerten der abhångigen Variablen (¹Treatmentª) und der Kontrollvariablen lautet nach Gl. (10.21): s 38;602 rzw 0;997 : 41;20 36;40 Das Vorzeichen dieser Korrelation entnehmen wir dem Vorzeichen der QSxy
treat. Die beiden Korrelationen haben somit ein verschiedenes Vorzeichen, was darauf hinweist, dass nicht nur die Fehlervarianz verkleinert, sondern zusåtzlich die Treatmentvarianz vergræûert wird. Dieses Ergebnis wurde unter 10.1 bereits ausfçhrlich diskutiert. Die Regressionsgerade, die durch den Punkt Gx und Gy verlåuft, hat gemåû Gl. (10.22) die Steigung 38;60 0;94 : bzw 41;20 Auch diese Regressionsgerade ist in Abb. 10.1 eingezeichnet.
10.3 Mehrfaktorielle Kovarianzanalyse Das Prinzip der Kovarianzanalyse ist auf alle in Teil II angesprochenen Versuchsplåne anwendbar. Wir wollen zunåchst den kovarianzanalytischen Ansatz auf den zweifaktoriellen varianzanalytischen Versuchsplan erweitern. Die hierbei deutlich werdenden Rechenregeln kænnen ohne besondere Schwierigkeiten fçr den drei- oder mehrfaktoriellen Fall verallgemeinert werden.
Quadratsummenzerlegung Mit der einfaktoriellen Kovarianzanalyse wollen wir erreichen, dass die QSFehler und QStreat bezçglich einer Kontrollvariablen korrigiert werden. Die QStreat wird hierbei indirekt bestimmt, indem von der QStot die QSFehler subtrahiert wird. Fçr zweifaktorielle Plåne mçssen jedoch die QSA , QSB , QSAB und QSFehler korrigiert werden, sodass wir die korrigierten Quadratsummen fçr die Haupteffekte und die Interaktion nicht mehr
373
einzeln subtraktiv aus der korrigierten QStot und der korrigierten QSFehler bestimmen kænnen. Dennoch bleibt das Grundprinzip auch im mehrfaktoriellen Fall erhalten: Zur Berechnung der korrigierten Haupteffekte bzw. Interaktionen subtrahieren wir die korrigierte Fehlerquadratsumme von einer Quadratsumme, die nur Fehleranteile und Anteile des jeweils interessierenden Haupteffektes (Interaktion) enthålt. In einem zweifaktoriellen kovarianzanalytischen Versuchsplan untersuchen wir p q Zufallsstichproben des Umfangs n, die den einzelnen Faktorstufenkombinationen zugewiesen werden. Von jeder Vp erheben wir eine Messung fçr die abhångige Variable (yijm ) und eine weitere Messung fçr die Kontrollvariable (xijm ). Wir ermitteln fçr jede Zelle den Steigungskoeffizienten bin
i;j und fassen die einzelnen bin
i;j -Werte çber alle Zellen zu einem gemeinsamen Steigungskoeffizienten bin zusammen. Diese Zusammenfassung setzt wieder voraus, dass die einzelnen Steigungskoeffizienten homogen sind. (Man beachte die Diskussion dieser Voraussetzung auf S. 369 ff., die hier analog gilt.) Die korrigierte Fehlerquadratsumme QSFehler erhalten wir ebenfalls nach den bereits unter 10.1 genannten Rechenregeln. Auf Grund der gemeinsamen Steigung der Innerhalb-Regressionen werden pro Zelle ^yijm -Werte vorhergesagt, wobei in Gl. (10.3) statt der Treatmentstufenmittelwerte die Zellenmittelwerte eingesetzt werden. Wir berechnen die Differenzen yijm yijm ^yijm und bestimmen die Quadratsummen der yijm -Werte innerhalb der einzelnen Zellen. Die Summe dieser einzelnen Quadratsummen ist die korrigierte Fehlerquadratsumme QSFehler . Die korrigierten Quadratsummen fçr die Haupteffekte und die Interaktion erhalten wir auf indirektem Wege, indem zunåchst die unkorrigierte Quadratsumme fçr einen bestimmten Haupteffekt (Interaktion) mit der unkorrigierten Fehlerquadratsumme zusammengefasst wird. Diese zusammengefasste Quadratsumme wird bezçglich des Kontrollmerkmals korrigiert. Von der korrigierten, zusammengefassten Quadratsumme subtrahieren wir die korrigierte Fehlerquadratsumme und erhalten als Rest die korrigierte Quadratsumme fçr den jeweiligen Haupteffekt (Interaktion). Die Freiheitsgrade der Haupteffekte und der Interaktion sind gegençber der zweifaktoriellen Varianzanalyse nicht veråndert.
10
374
Kapitel 10 ´ Kovarianzanalyse
Rechnerische Durchfçhrung
QSxy
A
3xy
1xy ;
Bei der rechnerischen Durchfçhrung gehen wir von folgenden Kennziffern aus (die Symbole stellen Kombinationen aus den Notationen in Kap. 8 und 10.1 dar):
QSxy
B
4xy
1xy ;
1x
2x
G2x npq XXX i
x2ijm
PP i
i
4y
j
pn
1xy
Gx G y npq
2xy
XXX xijm yijm i
P
3xy
i
P
4xy
j
i
j
AB2y
i;j n
:
m
j
qn Bx
j By
j
j
ABx
i;j ABy
i;j :
n
Unter Zuhilfenahme dieser Kennziffern berechnen wir die folgenden Quadratsummen: QSx
A
3x
1x ;
QSx
B
4x
1x ;
QSx
AB
5x
3x
QSx
Fehler
2x
5x ;
1y ;
QSy
B
4y
1y ;
QSy
AB
5y
3y
QSy
Fehler
2y
5y :
4y
1y ;
QS2xy
Fehler QSx
Fehler
10:23
mit dfFehler p q
n 1 1. Zur Ûberprçfung der Homogenitåt der Steigungen der Innerhalb-Regressionen wird diese Quadratsumme in die folgenden Komponenten zerlegt: ! X X QS2xy
i;j S1 QSy
Fehler :
10:24 QSx
i;j i j ! X X QS2xy
i;j QS2xy
Fehler :
10:25 S2 QSx
i;j QSx
Fehler i j
F
pn i
5xy ;
QSy
A
3y
4xy
1xy ;
(Kontrolle: S1 S2 QSFehler .) Der folgende F-Test hat p q 1 Zåhlerfreiheitsgrade und p q
n 2 Nennerfreiheitsgrade:
Ax
i Ay
i
PP
5xy
B2y
j
5y
QSxy
Fehler
2xy
QSFehler QSy
Fehler
PP
n
3xy
Die korrigierte Fehlerquadratsumme der abhångigen Variablen ergibt sich nach
A2y
i
AB2x
i;j
j
m
j
qn
P
pn
5x
i
B2x
j
j
4x
npq
XXX 2
2y yijm
3y
qn
P
G2y
P
A2x
i
i
3x
m
j
P
10
1y
QSxy
AB
5xy
S2 =
p q 1 : S1 =
p q
n 2
10:26
Ist dieser F-Wert auf dem a 10%-(25%)-Niveau signifikant, muss die H0: b 11 b 12 . . . b pq verworfen werden. Ist der F-Wert nicht signifikant, wird die zusammengefasste Steigung nach Gl. (10.18) bestimmt. Die korrigierten Quadratsummen fçr die beiden Haupteffekte und die Interaktion lauten: QSA QSy
A QSy
Fehler
4x
1x ;
QSxy
A QSxy
Fehler 2 QSx
A QSx
Fehler ; QS Fehler
10:27 a
a10.3
375
Mehrfaktorielle Kovarianzanalyse
QSB QSy
B QSy
Fehler
QSxy
B QSxy
Fehler 2 QSx
B QSx
Fehler ; QS
10:27 b
Fehler
QSAB QSy
AB QSy
Fehler
QSxy
AB QSxy
Fehler 2 QSx
AB QSx
Fehler QS Fehler
10:27 c
p 1
q 1 :
dfA p 1 ; dfB q 1 ; dfAB ^2 ermitteln wir, inDie korrigierten Varianzen r dem die korrigierten Quadratsummen durch die entsprechenden Freiheitsgrade dividiert werden. 2 ^A , Haben alle Faktoren feste Effekte, kænnen die r 2 2 2 ^B und r ^AB an der r ^Fehler getestet werden r (vgl. 12.4).
Einzelvergleiche. Die korrigierten Mittelwerte, die sich nach dem Herauspartialisieren der Kontrollvariablen ergeben, werden nach folgenden Gleichungen bestimmt: Ay
i A y
i By
j By
j
ABy
i;j ABy
i;j
bin
A x
i bin
Bx
j
Gx ; Gx ;
bin
ABx
i;j
10:28 a
10:28 b
Gx :
10:28 c
A-posteriori-Einzelvergleichshypothesen çber Paarvergleiche sind wie folgt zu testen (vgl. Winer et al., 1991, S. 808): Fçr 2 Stufen i und i0 des Faktors A: 1 F ^2 2r Fehler nq 0 2 Ay
i A y
i :
10:29 a QSx
A 1
p 1 QSx
Fehler Fçr 2 Stufen j und j0 des Faktors B: 1 F 2 ^ 2r
Fehler
np
By
j 1
q
0 2 By
j : QSx
B 1 QSx
Fehler
10:29 b
Fçr 2 Faktorstufenkombinationen (Zellen) ij und i0 j0 : 1 F 2 ^Fehler 2r n 0 ;j0 2 ABy
i;j ABy
i
10:29 c QSx
AB 1 :
p 1
q 1 QSx
Fehler Die F-Tests haben einen Zåhlerfreiheitsgrad und p q
n 1 1
dfFehler Nennerfreiheitsgrade. Das folgende Beispiel erlåutert die Berechnungen: BEISPIEL Im Rahmen der Forschung zum programmierten Unterricht werden 3 verschiedene Programme fçr einen Lehrgegenstand (Faktor A) getestet. Ferner wird çberprçft, wie sich die Leistungsmotivation auf den Lernerfolg auswirkt. Die Motivationsunterschiede sollen mit 2 verschiedenen Instruktionen (Faktor B) herbeigefçhrt werden. Den 3 2 6 Faktorstufenkombinationen werden Zufallsstichproben des Umfangs n 6 zugewiesen. Abhångige Variable
y ist die Testleistung, und kontrolliert werden soll das Merkmal Intelligenz
x. Tabelle 10.6 zeigt die Daten und die Durchfçhrung der Kovarianzanalyse. Das Herauspartialisieren der Intelligenz hat zur Folge, dass sich sowohl die 3 Programme, die gemåû der Varianzanalyse keinen bedeutsamen Einfluss auf den Lernerfolg ausçben, als auch die beiden Instruktionen sehr signifikant unterscheiden. Zusåtzlich ist die (ordinale) Interaktion in der Kovarianzanalyse signifikant geworden.
Unterschiedliche Stichprobenumfånge. Sind die Stichproben in den einzelnen Zellen nicht gleich groû, und sind die Abweichungen gering, ersetzen wir wie unter 8.4 die einzelnen Stichprobenumfånge durch das harmonische Mittel
nh aller Stichprobenumfånge. Wir berechnen die folgenden Kennziffern:
1x nh G2x =p q XXX
2x x2ijm i
3x nh
j
X i
4x nh
X j
m
1y nh G2y =p q XXX 2
2y yijm i
A2x
i =q
3y nh
B2x
j =p
4y nh
j
X i
X j
m
A2y
i =q
B2y
j =p
10
376
Kapitel 10 ´ Kovarianzanalyse
5x nh
XX i
50 x
XX i
j
j
2
ABx
i;j
5y nh
AB2x
i;j =nij
50 y
XX i
XX i
j
j
2
ABy
i;j
AB2y
i;j =nij
1xy nh Gx Gy =p q XXX
2xy xijm yijm i
3xy nh
j
X i
4xy nh
X
m
Ax
i Ay
i =q
XX i
50 xy
XX i
j
ABx
i;j ABy
i;j
ABx
i;j ABy
i;j =nij
j
Ausgehend von diesen Kennziffern erfolgt die Quadratsummenberechnung in der oben beschriebenen Weise mit folgenden Ausnahmen: QSx
Fehler
2x
50 x
QSy
Fehler
2y
50 y
QSxy
Fehler
2xy
10
Bei einer einfaktoriellen Kovarianzanalyse mit Messwiederholungen çber p Erhebungszeitpunkte mçssen die abhångige Variable und die Kontrollvariable jeweils p-mal erhoben werden. Das einmalige Erheben der Kontrollvariablen ist fçr das varianzanalytische Ergebnis bedeutungslos.
Bx
j By
j =p
j
5xy nh
schreibung der ¹Startbedingungenª der Vpn) das Ergebnis der Messwiederholungsanalyse nicht.
50 xy
Bei den Freiheitsgraden wird p q n durch N ersetzt. Ein Beispiel fçr eine zweifaktorielle Kovarianzanalyse mit ungleich groûen Stichproben findet man bei Winer et al. (1991, S. 818 ff.).
Rechnerische Durchfçhrung. Die rechnerische Durchfçhrung geht von folgenden Kennziffern aus (die Symbole stellen Kombinationen aus den Notationen der Kap. 9.1 und 10.1 dar).
1x G2x =p n XX
2x x2im m
i
Einfaktorieller Plan Wird eine Stichprobe des Umfangs n unter p Stufen eines Faktors A beobachtet, kænnen die Daten nach einer einfaktoriellen Varianzanalyse mit Messwiederholungen untersucht werden (vgl. 9.1). Wird zusåtzlich zu der abhångigen Variablen eine Kontrollvariable erhoben, erhalten wir einen einfaktoriellen kovarianzanalytischen Versuchsplan mit Messwiederholungen. In dieser Analyse wird aus den wiederholten Messungen der abhångigen Variablen der Einfluss einer wiederholt gemessenen Kontrollvariablen herauspartialisiert. Wie wir noch sehen werden (vgl. S. 382), beeinflusst eine einmalig erhobene Kontrollvariable (z. B. zur Be-
m
i
X
3x A2x
i =n
3y
X
A2y
i =n
i
i
X P2x
m =p
4x
X
4y
m
m
P2y
m =p
1xy Gx Gy =p n
2xy
XX i
10.4 Kovarianzanalyse mit Messwiederholungen
1y G2y =p n XX 2
2y yim
3xy
X
m
xim yim
Ax
i Ay
i =n
i
4xy
X m
Px
m Py
m =p :
Hieraus lassen sich die Treatmentquadratsumme QSA und die QSRes in folgender Weise bestimmen: QSx
A
3x
1x
QSx
Res
2x
3x
QSy
A
3y
1y
QSy
Res
2y
3y
QSxy
A
3xy
1xy
QSxy
Res
2xy
3xy
4x
1x ;
4y
1y ;
4xy
1xy :
Die korrigierte QSy
Res ermitteln wir nach der Beziehung:
a10.4
377
Kovarianzanalyse mit Messwiederholungen
Tabelle 10.6. Beispiel fçr eine zweifaktorielle Kovarianzanalyse Faktor A
Faktor B b1
b2
x
y
x
y
a1
5 6 6 4 3 5
13 17 18 10 9 12
7 6 4 4 6 5
20 16 14 12 19 15
a2
5 7 7 9 6 6
10 14 17 19 11 14
6 8 7 5 5 8
17 22 19 13 12 20
a3
8 7 5 4 7 6
21 19 13 13 16 15
5 6 5 5 4 5
14 25 22 19 15 18
Summen:
b1 x
a1 a2 a3 Total
1x
b2 y
Total
x
y
x
y
29 40 37
79 85 97
32 39 30
96 103 113
61 79 67
175 188 210
106
261
101
312
207
573
2
207 1190;25 632
2x 52 62 62 . . . 52 1255 612 792 672 1204;25 62 1062 1012 1190;94
4x 63 292 322 402 392 372 302 1209;17
5x 6 207 573 3294;75
1xy 632
3x
2xy 5 13 6 17 6 18 . . . 5 18 3410 61 175 79 188 67 210 3299;75 62 106 261 101 312 3287;67
4xy 63 29 79 32 96 40 85 39 103 37 97 30 113 3293;17
5xy 6
3xy
10
378
Kapitel 10 ´ Kovarianzanalyse
Tabelle 10.6 (Fortsetzung)
1y
5732 9120;25 632
2y 132 172 182 . . . 182 9635 1752 1882 2102 9172;42 62 2612 3122 9192;50
4y 63 792 962 852 1032 972 1132 9244;83
5y 6
3y
QSx
A 1204;25
1190;25 14;00
QSx
B 1190;94
1190;25 0;69
QSx
AB 1209;17 QSx
Fehler 1255
1204;25
1209;17 45;83
QSxy
A 3299;75
3294;75 5;00
QSxy
B 3287;67
3294;75
QSxy
AB 3293;17 QSxy
Fehler 3410
10
1190;94 1190;25 4;23
3299;75
7;08 3287;67 3294;75 0;50
3293;17 116;83
QSy
A 9172; 42
9120;25 52;17
QSy
B 9192;50
9120;25 72;25
QSy
AB 9244; 83
9172;42
9192;50 9120;25 0;16
QSy
Fehler 9635
9244;83 390;17
QSFehler 390;17
116;832 92;35 45;83
QSA 52;17 390;17 QS B 72;25 390;17 0;16 390;17 QSAB
5;00 116;832 14;00 45;83
92;35 101;90 2
7;08 116;83 0;69 45;83
0;50 116;83 4;23 45;83
2
92;35 111;15 92;35 22;99
Varianzanalyse
Kovarianzanalyse r ^2
QdV
QS
df
A B AB Fehler
52,17 72,25 0,16 390,17
p 12 26,09 q 11 72,25
p 1
q 1 2 0,08 p q
n 1 30 13,00
F
1;30;0;95 4;17 F
2;30;0;95 3;32
F
QS
df
2,01 5,56 0,01
101,90 111,15 22,99 92,35
p 12 50,95 q 11 111,15
p 1
q 1 2 11,50 p q
n 1 1 29 3,18
F
1;29;0;99 7;60 F
2;29;0;99 5;42
2 r ^
F
2;29;0;95 3;33
F 16,02 34,95 3,61
a10.4
379
Kovarianzanalyse mit Messwiederholungen
Tabelle 10.6 (Fortsetzung) 116;83 2;55 45;83
Mittelwertkorrekturen: bin Mittelwerte:
a1 a2 a3
Total
Gx
b1
b2 ABy
ABy
ABx
ABy
ABy
Ax
Ay
Ay
4,83 6,67 6,17
13,17 14,17 16,17
15,52 11,82 15,10
5,33 6,50 5,00
16,00 17,17 18,83
17,07 15,26 20,74
5,08 6,58 5,58
14,58 15,67 17,50
16,29 13,55 17,93
Bx
By
By
Bx
By
By
5,88
14,50
14,17
5,61
17,33
17,69
By
1 vs.
16;29 17;932 4;40 2 3;18 14;00 1 62 2 45;83
315;68 74;49
14;17 17;692 34;55 2 3;18 0;69 1 63 1 45;83 F
1;29;99% 7;60
QSRes QSy
Res
512;002
575 170;67 152
S2 315;68
Kontrolle: 74;49 17;86 92;35
QS2xy
Res QSx
Res
By
2
F
Homogenitåt der Steigungen: X X QS2xy
i;j
402 381;832
529 QSx
i;j 147 140;17 178 i j S1 390;17
Total
ABx
Einzelvergleiche: Ay
1 vs. Ay
3 F
207 5;75 36
116;832 17;86 45;83
17;86 3 F 2 1 1;15 74;49 324
:
F
5;24;0;75 1;43
10:30
Die QSRes hat
p 1
n 1 1 Freiheitsgrade. Die korrigierte Treatmentquadratsumme lautet: QS QS QS A
y
A
y
Res
QSxy
A QSxy
Res 2 QSx
A QSx
Res QS Res
565;002 315;68 150;00
10:31
mit df p 1. Wir dividieren die QS-Werte durch die entsprechenden Freiheitsgrade und bilden den 2 2 ^A =^ F-Bruch r r Res .
BEISPIEL Es soll çberprçft werden, ob sich 3 verschiedene Rorschachtafeln in ihrem Assoziationswert unterscheiden. Der Assoziationswert der Tafeln wird durch die Anzahl der Deutungen, die die Vpn in einer vorgegebenen Zeit produzieren (abhångige Variable: y), gemessen. Man vermutet, dass die Anzahl der Deutungen von der Reaktionszeit der Vpn, d. h. der Zeit bis zur Nennung der ersten Deutung, mitbeeinflusst wird und erhebt deshalb die Reaktionszeiten der 5 Vpn bei den 3 Tafeln als Kontrollvariable (x). Tabelle 10.7 zeigt die Daten und den Rechengang der Analyse. Wenngleich der F-Wert durch das Herauspartialisieren der Reaktionszeit græûer geworden ist, unterscheiden sich die 3 Rorschachtafeln nicht signifikant hinsichtlich ihres Assoziationswertes.
10
380
Kapitel 10 ´ Kovarianzanalyse
Tabelle 10.7. Beispiel fçr eine einfaktorielle Kovarianzanalyse mit Messwiederholungen a1 Vp
a2
x
1 2 3 4 5 Summen Mittelwerte
y
a3
x
1 3 5 1 4
4 6 4 7 4
14 2,8
25 5
y
2 2 1 0 1
3 2 5 5 4
6 1,2
19 3,8
x 9 11 7 8 7 42 8,4
Px
Py
12 16 13 9 12
11 13 14 16 14
Gx 62;
Gy 68
F
y 4 5 5 4 6 24 4,8
1x 622 =3 5 256;27
2x 12 32 82 72 426
3x
142 62 422 =5 399;20
4x
122 162 132 92 122 =3 264;67
1xy 62 68=3 5 281;07
2xy 1 4 3 6 8 4 7 6 284
3xy
14 25 6 19 42 24=5 294;40
4xy
12 11 16 13 13 14 9 16 12 14=3 278;00
1y 682 =3 5 308;27
10
2y 42 62 42 62 330
3y
252 192 242 =5 312;40
4y
112 132 142 162 142 =3 312;67 QSx
A 399;20 QSx
Res 426
256;27 142;93
399;20
QSxy
A 294;40 QSxy
Res 284
264;67 256;27 18;40
281;07 13;33
294;40
QSy
A 312;40
278;00 281;07
308;27 4;13
QSy
Res 330
312;40
13;20 QSRes
7;332 10;28 18;40
QSA 4;13 13;20 Q.d.V.
A Residual
7;33
312;67 308;27 13;20
13;33
7;332 142;93 18;40
10;28 6;83
Varianzanalyse
Kovarianzanalyse
QS
df
^2 r
F
QS
df
2 ^ r
4,13 13,20
2 8
2,07 1,65
1,25
6,83 10,28
2 7
3,42 1,47
F
2;8;0;95 4;46
F
2;7;0;95 4;74
2,33
a10.4
Mehrfaktorielle Plåne Einen mehrfaktoriellen Versuchsplan mit Messwiederholungen erhalten wir, wenn mehrere Stichproben, die sich in Bezug auf einen oder mehrere Faktoren unterscheiden, mehrfach untersucht werden. Wird zusåtzlich eine Kontrollvariable aus der abhångigen Variablen herauspartialisiert, sprechen wir von einer mehrfaktoriellen Kovarianzanalyse mit Messwiederholungen. Wir wollen zum Abschluss dieses Kapitels die zweifaktorielle Kovarianzanalyse mit Messwiederholungen behandeln. Die Tabellen 10.8 a und b zeigen, dass hierbei 2 Fålle unterschieden werden mçssen: In beiden Tabellen wird angedeutet, dass p Stichproben des Umfangs n, die sich in Bezug auf die Stufen eines Faktors A unterscheiden, q-mal untersucht werden. Tabelle 10.8 a verdeutlicht zudem, dass hier lediglich eine Kontrollmessung (x) erhoben wird. Dies ist çblicherweise eine Messung, die vor der Untersuchung der Stichproben unter den Stufen des Faktors B durchgefçhrt wurde. Mit der Kovarianzanalyse wird çberprçft, wie sich diese einmalig gemessene Kontrollvariable auf die Unterschiede zwischen den Stichproben (Stufen des Faktors A) auswirkt. Wie wir noch sehen werden, çbt diese einmalig gemessene Kontrollvariable keinen Einfluss auf den Messwiederholungsfaktor B bzw. die Interaktion A B aus. Tabelle 10.8 b veranschaulicht, dass hier nicht nur die abhångige Variable, sondern auch die Kontrollvariable unter den Stufen des Faktors B wiederholt gemessen wird. Die Messwiederholungen beziehen sich somit nicht nur auf die abhångige Variable, sondern auch auf die Kontrollvariable. In diesem Fall werden durch das Herauspartialisieren der Kontrollvariablen sowohl der Haupteffekt A als auch der Haupteffekt B und die Interaktion A B korrigiert. Sind die unter den einzelnen Stufen des Faktors B beobachteten x-Werte von Stufe zu Stufe identisch, entspricht der in Tabelle 10.8 b dargestellte Versuchsplan dem Plan in Tabelle 10.8 a. Wir werden deshalb die Rechenregeln fçr den in Tabelle 10.8 b verdeutlichten Fall mit mehreren Kontrollmessungen erlåutern, die ohne weitere Modifikationen auf einen Versuchsplan mit einer Kontrollmessung (Tabelle 10.8 a) angewandt werden kænnen.
10
381
Kovarianzanalyse mit Messwiederholungen
Tabelle 10.8 a. Zweifaktorielle Kovarianzanalyse mit Messwiederholungen und einer Kontrollmessung
a1 .. .
Vp 1 2 .. .
x
b1
b2
...
bq
x11 x12 .. .
y111 y112 .. .
y121 y122 .. .
... ...
y1q1 y1q2 .. .
...
Tabelle 10.8 b. Zweifaktorielle Kovarianzanalyse mit Messwiederholungen und mehreren Kontrollmessungen b1
a1 .. .
Vp 1 2 .. .
b2
...
bq
x
y
x
y
...
x
y
x111 x112 .. .
y111 y112 .. .
x121 x122 .. .
y121 y122 .. .
... ...
x1q1 x1q2 .. .
y1q1 y1q2 .. .
...
Rechnerische Durchfçhrung. Unter Verwendung von Symbolen, die Kombinationen der Notationen unter 9.2 und 10.3 darstellen, berechnen wir die folgenden Kennziffern:
1x
2x
G2x pqn XXX i
P i
3x
j
x2ijm
A2x
i
qn
P
4x
m
j
i
5x
j
PP
6x
1xy
i
pqn XXX 2
2y yijm i
P
3y
m
4y AB2x
i;j
n P2x
i;m
q
Gx G y pqn
i
5y
A2y
i
j
B2y
j
pn PP i
j
PP
6y
m
j
qn
P
B2x
j
pn PP
G2y
1y
i
m
AB2y
i;j n P2y
i;m
q
382
Kapitel 10 ´ Kovarianzanalyse
2xy
XX i
P
3xy
i
P
4xy
5xy
j
erscheinen unter allen Faktorstufen die gleichen Messwerte, d. h. die QSx
B wird Null.) Die korrigierten Quadratsummen lauten:
xijm yijm
j
Ax
i Ay
i
QSinS QSy
inS
qn Bx
j By
j
inS
n i
m
10
10:32
10:33
QSBVpn QSy
BVpn
Px
i;m Py
i;m
: q Aus diesen Kennziffern werden die folgenden Quadratsummen ermittelt (vgl. auch Tabelle 9.8).
6xy
;
QSxy
A QSxy
inS 2 QSx
A QSx
inS QS ;
j
PP
QSx
inS
QSA QSy
A QSy
inS
pn PP ABx
i;j ABy
i;j i
QS2xy
inS
QS2xy
BVpn QSx
BVpn
;
QSB QSy
B QSy
BVpn
QSxy
B QSxy
BVpn 2 QSx
B QSx
BVpn QS
QSx
A
3x
1x
QSx
inS
6x
3x
QSx
B
4x
1x
QSx
AB
5x
3x
4x
1x
QSx
BVpn
2x
5x
6x
3x
QSy
A
3y
1y
QSy
inS
6y
3y
QSy
B
4y
1y
QSy
AB
5y
3y
4y
1y
QSy
BVpn
2y
5y
6y
3y
BVpn
1xy
QSxy
inS
6xy
3xy
QSxy
B
4xy
1xy
QSxy
AB
5xy
3xy
4xy
1xy
QSxy
BVpn
2xy
5xy
6xy
3xy :
Bei einer einmaligen Kontrollmessung (Tabelle 10.8 a) werden die folgenden Quadratsummen Null: QSx
B , QSx
AB , QSx
BVpn , QSxy
B , QSxy
AB und QSxy
BVpn . (QSx
B stellt beispielsweise diejenige Quadratsumme dar, die auf die Unterschiedlichkeit der Kontrollvariablen zwischen den Stufen des Faktors B zurçckgeht. Wird nur eine Kontrollvariablenmessung durchgefçhrt,
10:35
QSAB QSy
AB QSy
BVpn
QSxy
AB QSxy
BVpn 2 QSx
AB QSx
BVpn QS : BVpn
QSxy
A
3xy
10:34
10:36
Wie man sich leicht çberzeugen kann, hat das Herauspartialisieren der einmalig erhobenen Kontrollvariablen (Tabelle 10.8 a) keinen Einfluss auf die QSy
BVpn , QSy
B und QSy
AB . Die in Gl. (10.34) bis (10.36) benætigten Quadratsummen mit den Indizes xy und x werden Null. Da die Messwiederholungen çber die Stufen des Faktors B erfolgen, der durch das Herauspartialisieren der einmalig erhobenen Kontrollvariablen nicht beeinflusst wird, ist das einmalige Erheben einer Kontrollvariablen in der einfaktoriellen Kovarianzanalyse mit Messwiederholungen sinnlos. In der einfaktoriellen Varianzanalyse mit Messwiederholungen werden A-priori-Unterschiede zwischen den Vpn, die zum Teil auch durch die einmalig gemessene Kontrollvariable quantifiziert werden, ohnehin aus der Prçfvarianz eliminiert. Zudem wird die Unterschiedlichkeit zwischen den Treatmentstufenmittelwerten in der einfaktoriellen Varianzanalyse mit Messwiederholungen durch die
a10.4
383
Kovarianzanalyse mit Messwiederholungen
Tabelle 10.9. Beispiel fçr eine zweifaktorielle Kovarianzanalyse mit Messwiederholungen und einer Kontrollmessung Faktor A
Faktor B b1 x
b2 y
x
Total y
x
y
a1
14 19 18 13 16 15
5 7 8 4 7 6
14 19 18 13 16 15
4 7 6 4 5 3
28 38 36 26 32 30
9 14 14 8 12 9
a2
14 16 16 15 18 13
5 4 7 6 9 5
14 16 16 15 18 13
6 7 7 5 10 5
28 32 32 30 36 26
11 11 14 11 19 10
Summen:
b2
b1 x
y
x
95 92
37 36
95 92
29 40
190 184
66 76
Total
187
73
187
69
374
142
Mittelwerte:
b1 y
x
y
x
a1 a2
x
y
x
Total
b2
y
Total y
a1 a2
15,83 15,33
6,16 6,00
15,83 15,33
4,83 6,67
15,83 15,33
5,5 6,33
Total
15,58
6,08
15,58
5,75
15,58
5,92
3742 5828;17 622 2 190 1842
3x 5829;67 62 2 2 95 95 922 922 5829;67
5x 6 374 142
1xy 2212;83 622 190 66 184 76 2210;33
3xy 62 95 37 95 29 92 36 92 40 2210;33
5xy 6
1x
1422 840;17 622 662 762
3y 844;33 62 2 2 37 29 362 402 851;00
5y 6
1y
2x 142 192 182 132 5914 1872 1872 5828;17 62 2 2 28 38 362 262
6x 5914;00 2
4x
2xy 14 5 19 7 18 8 13 5 2266 187 73 187 69 2212;83 62 28 9 38 14 36 14 26 10
6xy 2 2266;00
4xy
2y 52 72 82 52 906 732 692 840;83 62 2 2 9 14 142 102
6y 891;00 2
4y
10
384
Kapitel 10 ´ Kovarianzanalyse
Tabelle 10.9 (Fortzsetzung) QSx
inS 5914;00
5829;67 84;33
QSx
A 5829;67
5828;17 1;50
QSx
BVpn 5914
5829;67
QSx
B 5828;17
5828;17 0;00
QSx
AB 5829;67
5829;67
QSxy
inS 2266;00
2212;83
2210;33
QSxy
B 2212;83
2;50
2266;00 2210;33 0;00
2212;83 0;00
QSxy
AB 2210;33
2210;33
2212;83 2212;83 0;00
QSy
inS 891;00
844;33 46;67
QSy
A 844;33
840;17 4;16
QSy
BVpn 906
851;00
QSy
B 840;83
QSinS 46;67
844;33
840;83 840;17 6;01
55;672 9;92 84;33
2;50 55;672 1;50 84;33
QSA 4;16 46;67 QSBVpn 8;33
891;00 844;33 8;33
840;17 0;66
QSy
AB 851;00
10
5828;17 5828;17 0;00
2210;33 55;67
QSxy
A 2210;33 QSxy
BVpn 2266
5914;00 5829;67 0;00
9;92 7;97
0;002 8;33 0;00
QSB 0;66 8;33
0;00 0;002 0;00 0;00
8;33 0;66
QSAB 6;01 8;33
0;00 0;002 0;00 0;00
8;33 6;01
Varianzanalyse
Kovarianzanalyse
Q.d.V.
QS
df
^2 r
F
QS
df
2 ^ r
A inS B AB B Vpn
4,16 46,67 0,66 6,01 8,33
p 11 p
n 1 10 q 11
p 1
q 1 1 p
q 1
n 1 10
4,16 4,67 0,66 6,01 0,83
0,89
7,97 9,92 0,66 6,01 8,33
p 11 p
n 1 1 9 q 11
p 1
q 1 1 p
q 1
n 1 10
7,97 1,10 0,66 6,01 0,83
F
1;10;0;95 4;96
0,80 7,24
F
1;9;0;95 5;12
F 7,25 0,80 7,24*
385
aÛbungsaufgaben einmalig erhobene Kontrollvariable nicht beeinflusst. In der zweifaktoriellen Kovarianzanalyse mit Messwiederholungen wirkt sich das Herauspartialisieren einer einmalig erhobenen Kontrollvariablen nur auf den Gruppierungsfaktor (in unserem Fall Faktor A) bzw. dessen Prçfvarianz aus. Wird die Kontrollvariable wiederholt gemessen, fçhrt das Herauspartialisieren der Kontrollvariablen zur Modifizierung aller Varianzen.
Die Varianzschåtzungen ermitteln wir, indem die Quadratsummen durch die entsprechenden Freiheitsgrade dividiert werden. Die Prçfvarianz fçr 2 den Faktor A
^ rinS hat p
n 1 1 Freiheitsgrade, und die Prçfvarianz fçr den Faktor B bzw. die 2 hat fçr den Fall, dass Interaktion A B
^ rBVpn die Kontrollvariable wiederholt gemessen wurde, p
q 1
n 1 1 Freiheitsgrade. (Dies sind die Prçfvarianzen fçr Faktoren mit festen Effekten.) Die çbrigen Freiheitsgrade sind gegençber der zweifaktoriellen Varianzanalyse mit Messwiederholungen (vgl. Tabelle 9.8) unveråndert. Ûber Einzelvergleiche berichten Winer et al. (1991, S. 825 f.). BEISPIEL Eine Firma ist daran interessiert, in einer Voruntersuchung die Werbewirksamkeit von 2 Plakaten (Faktor B) zu çberprçfen. 6 Kåufer und 6 Nichtkåufer des Produktes (Gruppierungsfaktor A) werden gebeten, die vermutete Werbewirksamkeit beider Plakate auf einer 10-Punkte-Skala (je hæher der Wert, desto græûer die vermutete Werbewirksamkeit) einzustufen (abhångige Variable). Jede Person muss also 2 Plakate beurteilen (Messwiederholungsfaktor B). Als Kontrollvariable wird mit einem Fragebogen die allgemeine Einstellung zur Werbung erhoben. Wir haben es also mit einer zweifaktoriellen Kovarianzanalyse (2 2) mit Messwiederholungen und einer einmalig erhobenen Kontrollvariablen zu tun. Tabelle 10.9 zeigt die Daten und den Rechengang. Um die Analogie zwischen den in Tabelle 10.8 a und b dargestellten Plånen zu verdeutlichen, ist die einmalig erhobene Kontrollvariable unter beiden Stufen des Faktors B eingetragen. Die QSB , QSAB und QSBVpn åndern sich durch das Herauspartialisieren der Kontrollvariablen nicht. Die signifikante Interaktion A B besagt, dass sich Kåufer und Nichtkåufer hinsichtlich des 1. Plakates praktisch nicht unterscheiden und dass dem 2. Plakat von den Nichtkåufern eine hæhere Werbewirksamkeit zugesprochen wird als von den Kåufern. Die Werbewirksamkeit beider Plakate wird von Kåufern und Nichtkåufern erst nach Herauspartialisieren der allgemeinen Einstellung zur Werbung unterschiedlich eingeschåtzt (Haupteffekt A).
ÛBUNGSAUFGABEN 1. Wozu dient eine Kovarianzanalyse? 2. In welcher Weise wird die Regressionsrechnung in der Kovarianzanalyse eingesetzt? 3. Welche zusåtzliche Voraussetzung sollte bei einer Kovarianzanalyse erfçllt sein? 4. Unter welchen Umstånden ist die Fehlervarianz einer Kovarianzanalyse genauso groû wie die Fehlervarianz der entsprechenden Varianzanalyse? 5. Die folgende experimentelle Anordnung wird gelegentlich eingesetzt, um das Entscheidungsverhalten von Vpn in Abhångigkeit von verschiedenen ¹pay-offsª zu untersuchen: Eine Vp sitzt vor 2 Låmpchen, die in zufålliger Abfolge einzeln aufleuchten. Den Låmpchen sind 2 Knæpfe zugeordnet, und die Vp muss durch Druck auf den entsprechenden Knopf vorhersagen, welches Låmpchen als nåchstes aufleuchten wird. Mit dieser Versuchsanordnung soll das folgende Experiment durchgefçhrt werden: 8 zufållig ausgewåhlte Vpn erhalten fçr richtige Reaktionen kein ¹reinforcementª (a1 ). 7 Vpn werden fçr richtige Reaktionen mit einem Geldbetrag belohnt (a2 ), und weitere 6 Vpn werden ebenfalls fçr richtige Reaktionen belohnt, mçssen aber fçr falsche Reaktionen einen kleinen Geldbetrag bezahlen (a3 ). In einer Versuchsserie leuchten die Låmpchen insgesamt 100-mal in zufålliger Abfolge auf, das eine Låmpchen jedoch nur 35-mal und das andere 65-mal. Es soll die Trefferzahl (abhångige Variable: y) in Abhångigkeit von den 3 Pay-off-Bedingungen (unabhångige Variable) untersucht werden. Da der Vl vermutet, dass die ¹Leistungenª der Vpn auch von ihrer Motivation bzw. Bereitschaft, an der Untersuchung teilzunehmen, abhången kænnen, bittet er die Vpn, ihre Einstellung zu Glçcksspielen auf einer 7-Punkte-Skala (1 = negative Einstellung, 7 = positive Einstellung) einzustufen (Kontrollvariable x). Es wurden die folgenden Werte registriert: a1
a2
a3
x
y
x
y
x
y
4 2 4 6 6 5 3 4
65 52 55 68 58 63 51 59
5 4 4 4 7 4 2
71 64 68 59 75 67 58
3 1 6 5 5 4
62 52 73 64 68 59
a) Rechnen Sie çber die abhångige Variable y eine Varianzanalyse. b) Ûberprçfen Sie, ob die Steigungen der Regressionsgeraden innerhalb der Faktorstufen homogen sind. c) Ûberprçfen Sie, ob die Steigungskoeffizienten signifikant von Null abweichen.
10
386
Kapitel 10 ´ Kovarianzanalyse
d) Rechnen Sie çber die abhångige Variable y eine Kovarianzanalyse. e) Wie lauten die korrigierten Mittelwerte? f) Unterscheidet sich der korrigierte Mittelwert der Stufe a2 signifikant vom korrigierten Mittelwert der Stufe a3 ?
10
6. Nennen Sie Beispiele fçr zweifaktorielle Kovarianzanalysen. 7. Zeigen Sie, dass sich eine einmalig gemessene Kontrollvariable in einer zweifaktoriellen Kovarianzanalyse mit Messwiederholungen nicht auf den Messwiederholungsfaktor auswirkt.
387
Kapitel 11 Unvollståndige, mehrfaktorielle Versuchsplåne
ÛBERSICHT Zweifaktorielle hierarchische Plåne ± geschachtelte Faktoren ± teilhierarchische Plåne ± dreifaktorielle hierarchische Plåne ± lateinische Quadrate ± Konstruktionsregeln fçr lateinische Quadrate ± Ausbalancierung ± griechisch-lateinische Quadrate ± hyperquadratische Anordnungen ± quadratische Anordnungen mit Messwiederholungen ± Sequenzeffekte
Die bisher behandelten, mehrfaktoriellen Versuchsplåne (Kap. 8) sind dadurch charakterisierbar, dass allen mæglichen Faktorstufenkombinationen eine Zufallsstichprobe zugewiesen wird. Derartige Versuchsplåne bezeichnen wir als vollståndige Versuchsplåne. In einem zweifaktoriellen Versuchsplan mit p-Stufen fçr Faktor A und q-Stufen fçr Faktor B ergeben sich p q Faktorstufenkombinationen, deren spezifische Auswirkung auf die abhångige Variable jeweils an einer gesonderten Stichprobe ermittelt wird. In einem dreifaktoriellen Versuchsplan resultieren bei vollståndiger Kombination aller Faktorstufen p q r Dreierkombinationen. Diese Dreierkombinationen kænnen auch so interpretiert werden, dass alle Zweierkombinationen der Faktoren A und B mit allen Stufen des Faktors C, alle Zweierkombinationen der Faktoren A und C mit allen Stufen des Faktors B und alle Zweierkombinationen der Faktoren B und C mit allen Stufen des Faktors A kombiniert sind. Diese Anordnung eines vollståndigen varianzanalytischen Versuchsplans ermæglicht die Ûberprçfung der Haupteffekte und aller Interaktionen. Gelegentlich hat man es jedoch mit Fragestellungen zu tun, bei denen die Interaktionen zwischen den untersuchten Faktoren nicht interessieren bzw. bei denen auf Grund bereits vorliegender Untersuchungen keine Interaktionen erwartet werden. Eine vollståndige Kombination aller Faktorstufen fçhrt in diesem Fall zu varianzanalytischen
Ergebnissen, die z. T. çberflçssige bzw. uninteressante Informationen enthalten, wobei diese zusåtzlichen Informationen durch einen unnætig groûen Vpn-Aufwand ¹erkauftª werden mçssen. Es sollen deshalb in diesem Kapitel einige Versuchsplåne besprochen werden, mit denen jeweils nur eine Auswahl der in vollståndigen Plånen prçfbaren Effekte getestet werden kann. In diesen Versuchsplånen werden nicht alle Faktorstufenkombinationen schematisch miteinander kombiniert, sondern es gehen nur diejenigen Kombinationen in die Analyse ein, die benætigt werden, um Informationen çber Haupteffekte und gezielt ausgewåhlte Interaktionen zu erhalten. Versuchsplåne, bei denen nicht alle mæglichen Faktorstufenkombinationen untersucht werden, bezeichnet man als unvollståndige Versuchsplåne.
Manchmal sind es auch untersuchungstechnische Grçnde, die uns dazu zwingen, auf bestimmte Faktorstufenkombinationen zu verzichten. Wenn beispielsweise verschiedene psychotherapeutische Behandlungsmethoden (Faktor A) miteinander verglichen werden sollen und man zusåtzlich çberprçfen will, ob sich einzelne Therapeuten (Faktor B) in ihren Therapieerfolgen unterscheiden, wåre eine vollståndige Kombination aller Stufen des Faktors A (verschiedene Therapien) und aller Stufen des Faktors B (verschiedene Therapeuten) von vornherein undenkbar. Von einem Therapeuten, der sich auf einige Behandlungsmethoden spezialisiert hat, kann nicht erwartet werden, dass er andere Therapiemethoden in gleicher Weise beherrscht. Eine vollståndige Kombination aller Stufen des Therapiefaktors mit allen Stufen des Therapeutenfaktors wåre deshalb wenig sinnvoll. Die varianzanalytische Auswertung derartiger Fragestellungen werden wir unter 11.1 im Rahmen hierarchischer und teilhierarchischer Versuchsplå-
11
388
Kapitel 11 ´ Unvollståndige, mehrfaktorielle Versuchsplåne
ne kennenlernen. Eine Mæglichkeit, mit minimalem Vpn-Aufwand drei Haupteffekte testen zu kænnen, stellen die sog. lateinischen Quadrate dar (11.2). Sollen mæglichst ækonomisch mehr als drei Haupteffekte çberprçft werden, kænnen griechisch-lateinische Quadrate bzw. hyperquadratische Anordnungen eingesetzt werden (11.3). Durch die Verbindung quadratischer Anordnungen mit Messwiederholungsanalysen resultieren Versuchsplåne, mit denen u. a. Sequenzeffekte kontrolliert werden kænnen (11.4).
11.1 Hierarchische und teilhierarchische Versuchsplåne Zweifaktorielle hierarchische Plåne
11
In einem Konditionierungsexperiment mit Hunden sollen 3 Konditionierungsarten (Faktor A) miteinander verglichen werden: simultane Konditionierung (der konditionierte Reiz wird gleichzeitig mit dem unkonditionierten Reiz dargeboten a1 ), verzægerte Konditionierung (der konditionierte Reiz wird vor dem unkonditionierten dargeboten a2 ) und rçckwårtige Konditionierung (der konditionierte Reiz wird nach dem unkonditionierten Reiz dargeboten a3 ). Der konditionierte Reiz (Faktor B) wird in 6 Stufen variiert: Glockenton (b1 ), Pfeifton (b2 ), mehrere, schnell aufeinander folgende Lichtblitze (b3 ), Dauerlicht (b4 ), Pfeifton mit Dauerlicht kombiniert (b5 ) und Glockenton mit Lichtblitzen kombiniert (b6 ). Da man erwartet, dass zwischen den Konditionierungsarten und den konditionierten Reizen keine Interaktion besteht, entscheidet man sich fçr den Untersuchungsplan gemåû Tabelle 11.1 a. Die simultane Konditionierung wird mit dem Glockenton und dem Pfeifton durchgefçhrt, die verzægerte Konditionierung mit den Lichtblitzen und dem Dauerlicht und die rçckwårtige Konditionierung mit den beiden kombinierten Reizen. Diesen 6 Faktorstufenkombinationen werden jeweils Zufallsstichproben von Versuchstieren zugewiesen.
Geschachtelte Faktoren. Diese Untersuchung kombiniert zwei Faktoren derart, dass jede Faktorstufe des einen Faktors nur mit bestimmten Faktorstu-
Tabelle 11.1. Vergleich eines zweifaktoriellen hierarchischen Versuchsplans mit einem zweifaktoriellen vollståndigen Versuchsplan a) Hierarchischer Versuchsplan a1 a2 b3 b1 b2 b4 S11
1 S12
1 S21
2 S22
2
b5 S31
3
a3 b6 S32
3
b) Vollståndiger Versuchsplan
b1 b2 b3 b4 b5 b6
a1
a2
a3
S11 S12 S13 S14 S15 S16
S21 S22 S23 S24 S25 S26
S31 S32 S33 S34 S35 S36
fen des anderen Faktors auftritt. Die Stufen des Faktors B sind gewissermaûen in die Stufen des Faktors A hineingeschachtelt (¹nestedª). Die Art der Schachtelung wird in Tabelle 11.1 a verdeutlicht. Versuchsplåne, bei denen durch die Schachtelung des einen Faktors unter den anderen Faktor eine Hierarchie der Faktoren entsteht, bezeichnen wir als zweifaktorielle, hierarchische Versuchsplåne.
Tabelle 11.1 b stellt den analogen vollståndigen zweifaktoriellen Versuchsplan dar, bei dem jede der 3 Stufen des Faktors A mit jeder der 6 Stufen des Faktors B kombiniert ist. Der vollståndige zweifaktorielle Versuchsplan benætigt 3 6 18 Stichproben, wåhrend der hierarchische Plan mit 3 2 6 Stichproben auskommt. (Die 6 Stichproben des hierarchischen Versuchsplans sind im vollståndigen Plan unterstrichen.) Dieser erheblichen Vpn-Ersparnis steht jedoch der Nachteil gegençber, dass die Interaktion zwischen den Faktoren A und B im hierarchischen Plan nicht çberprçfbar ist. Im vorliegenden zweifaktoriellen hierarchischen Plan sind somit nur die Haupteffekte prçfbar. Signifikante Haupteffekte sind zudem nur dann als reine Haupteffekte interpretierbar, wenn die Interaktion zwischen den Faktoren zu vernachlåssigen ist.
a11.1
Dies ist zweifellos eine Schwachstelle hierarchischer Plåne. Da Interaktionen direkt nicht prçfbar sind, ist man darauf angewiesen, theoretisch zu rechtfertigen, dass mit Interaktionen nicht zu rechnen ist. Andernfalls sollte man auf vergleichbare Untersuchungen mit vollståndigen Plånen zurçckgreifen kænnen, in denen die entsprechenden Interaktionen in Relation zur Bedeutung der Haupteffekte zu vernachlåssigen waren. Zu denken wåre beispielsweise an eine Untersuchung, in der drei Medikamente (Faktor A in Tabelle 11.1) in sechs Krankenhåusern (Faktor B) vergleichend evaluiert werden, wobei jeweils zwei zufållig ausgewåhlte Krankenhåuser gemeinsam ein Medikament prçfen. Hier wåre eine Interaktion zwischen Medikamenten und Krankenhåusern åuûerst unwahrscheinlich, sodass sich ein hierarchischer Plan gemåû Tabelle 11.1 rechtfertigen lieûe. In hierarchischen Versuchsplånen kænnen die Interaktionen zwischen den ineinandergeschachtelten Faktoren nicht getestet werden. Ferner muss man rechtfertigen kænnen, dass mit Interaktionen nicht zu rechnen ist.
schachtelte Faktor B wird durch B
A beschrieben.
Quadratsummen und Freiheitsgrade. Die Quadratsummenbestimmung geht von folgendem Grundgedanken aus: Insgesamt gibt es p q Mittelwerte fçr B
A, deren Unterschiedlichkeit wir als QSZellen bezeichnen. Die QSZellen wird durch Unterschiede, die auf Faktor A zurçckgehen, und durch Unterschiede zwischen den B-Stufen innerhalb der einzelnen Stufen von A bestimmt: QSZellen QSA QSB
A :
11:1
Die QSA ermitteln wir in çblicher Weise, indem die einzelnen Messwerte durch die Mittelwerte Ai ersetzt werden und die Summe der quadrierten Abweichungen von G bestimmt wird. Subtrahieren wir von der QSZellen die QSA , erhalten wir die QSB
A . Die QSB
A kænnen wir jedoch auch direkt bestimmen, indem die einzelnen Messwerte durch die jeweiligen Gruppenmittel Bj
i ersetzt werden. Deren Abweichungsquadratsumme von den Mittelwerten Ai ergibt die QSB
A : XX
Bj
i Ai 2 :
11:2 QSB
A n i
Terminologie. Bei hierarchischen Versuchsplånen (z. B. B in A geschachtelt) ist es erforderlich, dass jede Stufe des Faktors A mit der gleichen Anzahl von B-Stufen kombiniert wird. Die Anzahl der mit einer A-Stufe kombinierten B-Stufen nennen wir q. Dieser Wert gibt also nicht die Anzahl aller B-Stufen, sondern die Anzahl der mit einer A-Stufe kombinierten B-Stufen an. (In unserem Beispiel in Tabelle 11.1 a ist jede Stufe von A mit jeweils 2 verschiedenen Stufen von B kombiniert, d. h. q 2.) Die Stichproben werden mit den Indizes ij
i gekennzeichnet. Sij
i ist diejenige Stichprobe, die der Stufe i des Faktors A und der j-ten Stufe des Faktors B unter der Stufe ai zugewiesen wird. Mit S31
3 ist somit diejenige Stichprobe gemeint, die der Kombination aus der 3. Stufe des Faktors A und der 1. Stufe der unter a3 geschachtelten B-Stufen (b5 ) zugeordnet wird. Diese etwas umståndlich erscheinende Indizierung wird sich bei der rechnerischen Durchfçhrung der Analyse als vorteilhaft erweisen. Ausgehend von dieser Schreibweise hat Faktor A wie çblich p-Stufen, und Faktor B hat unter jeder A-Stufe q-Stufen bzw. insgesamt p q Stufen. Der unter A ge-
11
389
Hierarchische und teilhierarchische Versuchsplåne
j
Die Fehlerquadratsumme ergibt sich wie çblich als Summe der quadrierten Abweichungen aller Messungen von ihrem jeweiligen Gruppenmittelwert. Die Summe der Messwerte, die unter den q B-Stufen einer Stufe ai beobachtet werden, ist mit der Summe aller Messwerte unter der Stufe ai identisch: X Bj
i Ai : j
Von den q-Summen unter einer Stufe ai sind somit nur q 1 frei variierbar. Die Gesamtzahl aller Freiheitsgrade fçr den Faktor B ergibt sich deshalb zu p
q 1. Fçr Faktor A erhålt man p 1 und fçr die Fehlerquadratsumme p q
n 1 Freiheitsgrade.
Rechnerische Durchfçhrung. Die Kennziffern werden wie in der vollståndigen, zweifaktoriellen Varianzanalyse (vgl. S. 298) bestimmt. Eine Ausnahme stellt die Kennziffer (4) dar, die in der zweifaktoriellen hierarchischen Varianzanalyse nicht errechnet werden kann. In der vollståndi-
390
Kapitel 11 ´ Unvollståndige, mehrfaktorielle Versuchsplåne
Tabelle 11.2. Quadratsummen und Freiheitsgrade einer zweifaktoriellen hierarchischen Varianzanalyse Q.d.V.
QS
A B
A Fehler
3
5
2
df
1
3
5
p 1 p
q 1 p q
n 1
gen, zweifaktoriellen Varianzanalyse wird die Ziffer (4) folgendermaûen berechnet: X
4 B2j =p n ; j
wobei Bj
XX i
11
m
xijm :
Da die Stufe bj im hierarchischen Fall jedoch nur mit einer A-Stufe kombiniert ist, entspricht die Summe Bj
i in der hierarchischen Analyse der Summe ABij in der vollståndigen zweifaktoriellen Analyse. Die Quadratsummen und Freiheitsgrade werden gemåû Tabelle 11.2 berechnet. Die Varianzschåtzungen erhalten wir, indem die Quadratsummen durch die entsprechenden Freiheitsgrade dividiert werden.
Prçfvarianzen. Je nachdem, ob die Faktoren A und B feste oder zufållige Stufen aufweisen, ergeben sich die aus Tabelle 11.3 ersichtlichen Prçfvarianzen fçr die Haupteffekte A und B (vgl. 12.5). Zucker (1990) weist allerdings zu Recht darauf hin, dass alle Plåne mit festen B-Effekten zu åuûerst progressiven Entscheidungen fçr den A-Effekt fçhren kænnen. Der Grund hierfçr ist darin zu sehen, dass der Test fçr Faktor A bei einem festen B-Faktor die Unterschiedlichkeit der B-Stufen çberhaupt nicht berçcksichtigt, obwohl jede A-Stufe mit einer Teilmenge der B-Stufen perfekt konfundiert ist. Es kann also vorkommen, dass die A-Effekte vællig bedeutungslos sind, dass aber dennoch der Haupteffekt A signifikant wird, weil sich die Durchschnitte der jeweils geschachtelten B-Stufen signifikant unterscheiden. Er empfiehlt deshalb, Faktor B grundsåtzlich ^2A nicht als zufålligen Faktor aufzufassen, sodass r ^2B
A zu tesan der Fehlervarianz, sondern an der r ten ist. Auch wenn in praktischen Anwendungsfål-
Tabelle 11.3. Prçfvarianzen in einer chischen Varianzanalyse Zu prçfende Prçfvarianz Varianz A-fest A-fest B-fest B-zufållig 2 ^ ^2B
A ^2A r r r Fehler 2 r ^2B
A ^2Fehler r r ^Fehler
zweifaktoriellen hierar-
A-zufållig A-zufållig B-fest B-zufållig ^2Fehler r
^2B
A r
^2Fehler r
^2Fehler r
Tabelle 11.4. Numerisches Beispiel fçr eine zweifaktorielle hierarchische Varianzanalyse Faktor A a a a a 1 2 3 4 b1 b2 b3 b4 b5 b6 b7 b8 b9 b10 b11 b12 Faktor B 7 6 9 5 10 15 9 13 9 12 17 13 9 5 6 8 8 11 10 15 10 16 19 15 12 8 5 9 12 9 13 18 7 15 19 10 7 6 8 7 12 12 12 16 13 17 15 13 Bj 35 25 28 29 42 47 44 62 39 60 70 51 88 118 145 181 Ai Total
532
5322 5896;33 434
2 72 92 122 132
1
6612 882 1182 1452 1812 34 6287;83
3
352 252 282 512 4 6462;50
5
Q.d.V. QS A
3 B(A)
5 Fehler
2
df
r ^2
F
1 391;50 p 1 3 130,50 5,98
3 174;67 p
q 1 8 21,83 5,26
5 149;50 p q
n 1 36 4,15
F
3;8; 0;95 4;07
F
8;36; 0;99 3; 06
a11.1
391
Hierarchische und teilhierarchische Versuchsplåne
len eine Zufallsauswahl von B-Stufen nicht realisierbar ist, sollte darauf geachtet werden, dass zumindest die Zuordnung der B-Stufen zu den A-Stufen zufållig erfolgt. In diesem Fall besagt ein signifikanter F-Wert fçr Faktor A, dass bestehende Unterschiede zwischen den A-Stufen nicht systematisch durch die geschachtelten B-Stufen bedingt sind. Hierbei muss allerdings ± anders als bei einer ¹echtenª Zufallsauswahl ± offenbleiben, ob der gleiche A-Effekt auch auftritt, wenn andere B-Stufen realisiert oder zugeordnet werden. BEISPIEL Es soll die Attraktivitåt von 4 Computerspielen geprçft werden (Faktor A mit p 4 festen Stufen). Dies geschieht in 12 Kaufhåusern (Faktor B, zufållige Stufen), wobei jeweils 3 zufållig ausgewåhlte Kaufhåuser den ¹Testmarktª fçr ein Spielzeug darstellen
q 3. In jedem Kaufhaus låsst man n 4 Jugendliche mit dem jeweiligen Spiel spielen, die anschlieûend das Spiel anhand einer 20-Punkte-Skala bewerten (abhångige Variable). Tabelle 11.4 zeigt die Daten, die rechnerische Durchfçhrung und das Ergebnis der Varianzanalyse. Die Spiele unterscheiden sich auf dem 5%-Niveau und die Kaufhåuser auf dem 1%-Niveau signifikant.
Die Kalkulation ¹optimalerª Stichprobenumfånge erfolgt nach den gleichen Regeln wie auf S. 258 ff. bzw. S. 303 f. beschrieben.
Teilhierarchische Plåne (Version 1) Bei unvollståndigen dreifaktoriellen Versuchsplånen unterscheiden wir zwischen teilhierarchischen und hierarchischen Plånen. Tabelle 11.5 veranschaulicht beispielhaft, wie die Faktorstufen miteinander kombiniert werden, wenn nur Faktor B unter Faktor A geschachtelt ist (teilhierarchischer Plan, Version 1). In diesem Plan kænnen die Haupteffekte A, B und C getestet werden. Da ferner alle Stufen des Faktors A mit allen Stufen des Faktors C sowie alle Stufen des Faktors B mit allen Stufen des Faktors C kombiniert sind, ergeben sich weitere Prçfmæglichkeiten fçr die Interaktionen A C und B C. Die Interaktionen A B und A B C sind hingegen nicht testbar. Dieser teilhierarchische Plan untersucht 12 Stichproben der Græûe n, wåhrend im entsprechenden vollståndigen, dreifaktoriellen Plan 2 6 2 24 Stichproben erforderlich sind. Bei der Fest-
legung der fçr die Quadratsummenbestimmung benætigten Kennziffern ist zu beachten, dass Faktor B nicht mit allen Stufen von Faktor A kombiniert ist. Wir ersetzen deshalb Ziffer 4 (B-Summen im vollståndigen, dreifaktoriellen Plan, vgl. S. 314) in der teilhierarchischen Anordnung durch Ziffer 6 (A B-Summen im vollståndigen Plan). Die Summen fçr die B C-Kombinationen werden durch die A B C-Summen in der vollståndigen Analyse ersetzt. Kennziffer 8 wird somit auch nicht berechnet. Ausgehend von den verbleibenden Kennziffern ermitteln wir die Quadratsummen nach Tabelle 11.6. Da q wieder die Anzahl der Stufen unter einer Stufe ai angibt, hat die Quadratsumme fçr den Faktor B p
q 1 Freiheitsgrade und die Quadratsumme fçr die Interaktion B
A C p
q 1
r 1 Freiheitsgrade. Die Berechnungsvorschriften fçr die QSB
A und QSB
AC ergeben sich auf Grund analoger Ûberlegungen wie die Berechnungsvorschriften fçr die QSB
A in der zweifaktoriellen hierarchischen Analyse. Die Varianzschåtzungen erhalten wir, indem die Quadratsummen durch ihre entsprechenden Freiheitsgrade dividiert werden. In Abhångigkeit davon, welche Faktoren feste und welche zufållige Stufen aufweisen, resultieren gem. 12.5 fçr einige ausgewåhlte Kombinationen die in Tabelle 11.7
Tabelle 11.5. Datenschema einer teilhierarchischen dreifaktoriellen Varianzanalyse (Version 1) a1 a2 b1 b4 b2 b3 b5 b6 c1 S11
11 S12
11 S13
11 S21
21 S22
21 S23
21 c2 S11
12 S12
12 S13
12 S21
22 S22
22 S23
22
Tabelle 11.6. Quadratsummen und Freiheitsgrade einer dreifaktoriellen teilhierarchischen Varianzanalyse (Version 1) Q.d.V.
QS
A B(A) C AC B
A C Fehler
3
6
5
7
9
2
df
1
3
1
3
6
9
5
1
7
3
p 1 p
q 1 r 1
p 1
r 1 p
q 1
r 1 p q r
n 1
11
392
Kapitel 11 ´ Unvollståndige, mehrfaktorielle Versuchsplåne
Tabelle 11.7. Prçfvarianzen in einer dreifaktoriellen teilhierarchischen Varianzanalyse (Version 1) zu prçfende Varianz
Prçfvarianz A-fest B-fest C-fest
A-fest B-fest C-zufållig
A-fest B-zufållig C-zufållig
A-zufållig B-zufållig C-zufållig
A-zufållig B-fest C-zufållig
A-fest B-zufållig C-fest
^2A r
^2Fehler r
^2AC r
±
±
^2AC r
^2B
A r
^2B
A r
^2Fehler r
^2B
AC r
^2B
AC r
^2B
AC r
^2B
AC r
^2Fehler r
^2C r
^2Fehler r r ^2Fehler ^2Fehler r
^2Fehler r r ^2Fehler ^2Fehler r
^2B
AC r r ^2B
AC ^2Fehler r
^2AC r
^2AC r
^2B
AC r
r ^2B
AC
r ^2Fehler
r ^2B
AC
^2Fehler r
^2Fehler r
^2Fehler r
r ^2AC ^2B
AC r
wiedergegebenen Prçfvarianzen. (Man beachte allerdings die einschrånkenden Bemerkungen zu Tabelle 11.3, die auch hier gçltig sind.) Die Tabelle zeigt, dass bei einigen Kombinationen der Haupteffekt A nicht testbar ist. Grundsåtzlich besteht auch hier die Mæglichkeit, QuasiF-Brçche zu bilden bzw. nichtsignifikante Interaktionen mit zufålligen Faktoren mit der Fehlervarianz zusammenzufassen (vgl. S. 314 f.). Die Regeln hierfçr werden wir in Kap. 12 kennenlernen.
11
BEISPIEL Es soll çberprçft werden, ob das Interesse von Schçlern (abhångige Variable) an 2 verschiedenen Unterrichtsfåchern (Faktor C) vom Lehrer (Faktor B) und/oder der Art der Schule (Faktor A) abhångt. Untersucht werden ein humanistisches Gymnasium (a1 ) und ein naturwissenschaftliches Gymnasium (a2 ) sowie die Schulfåcher Biologie (c1) und Deutsch (c2). Aus jeder Schule werden 3 Lehrer ausgewåhlt, die beide Fåcher unterrichten. Der Lehrerfaktor (B) ist somit unter dem Schulfaktor (A) geschachtelt. Die Faktoren A und C haben feste Stufen, und Faktor B hat zufållige Stufen. Aus den von den einzelnen Lehrern unterrichteten Klassen werden pro Klasse n 6 Schçler mit annåhernd gleichem Alter per Zufall ausgewåhlt. Tabelle 11.8 zeigt die Daten und die Auswertung (a 1%). Das Ergebnis zeigt, dass das allgemeine Interesse der Schçler lehrerabhångig ist (Haupteffekt B
A) und dass das Interesse an den Unterrichtsfåchern davon abhångt, welcher Lehrer diese Fåcher unterrichtet (Interaktion B
A C).
Teilhierarchische Plåne (Version 2) Wenn im letzten Beispiel (Tabelle 11.8) die Lehrer nicht beide Fåcher, sondern nur ein Fach unterrichten, ergibt sich der in Tabelle 11.9 dargestellte
Untersuchungsplan. (Die Stichproben mçssten korrekterweise mit Sijk
i;j gekennzeichnet werden. Auf die Klammer
i; j, die besagt, dass k jeweils unter i und j geschachtelt ist, wurde in Tabelle 11.9 verzichtet.) In diesem Plan ist Faktor C (die Lehrer!) unter Faktor B (die Fåcher) und Faktor A (die Schulen) geschachtelt, wåhrend die Faktoren A und B vollståndig kombiniert sind. Im Gegensatz zur 1. Version, bei der 2 Interaktionen prçfbar waren, kann hier neben den 3 Haupteffekten nur die Interaktion A B getestet werden. Tabelle 11.10 zeigt, wie man in diesem Fall Quadratsummen und die Freiheitsgrade berechnet (zur Berechnung der Kennziffern vgl. S. 314). In diesem Plan sollten Faktor C zufållige und die beiden anderen Faktoren feste Stufen haben, sodass die Haupteffekte A und B sowie die Interaktion A B am C-Effekt getestet werden kænnen(vgl. die Ausfçhrungen zu den Tabellen 11.3 und 11.7). Der C-Effekt wåre in diesem Fall an der Fehlervarianz zu testen.
Dreifaktorielle, hierarchische Plåne Einen Plan, bei dem nicht nur Faktor C unter Faktor A und B, sondern zusåtzlich Faktor B unter Faktor A geschachtelt ist, bezeichnen wir als einen dreifaktoriellen hierarchischen Versuchsplan. Dieser Plan resultiert, wenn wir in unserem Beispiel in jeder Schule (Faktor A) andere Fåcher (Faktor B) und pro Fach 2 verschiedene Lehrer (Faktor C) untersuchen. Tabelle 11.11 verdeutlicht einen dreifaktoriellen hierarchischen Versuchsplan
a11.1
393
Hierarchische und teilhierarchische Versuchsplåne
Tabelle 11.8. Numerisches Beispiel fçr eine dreifaktorielle teilhierarchische Varianzanalyse (Version 1) Faktor A!
humanistisch
Faktor B!
Lehrer 1
Lehrer 2
Lehrer 3
Lehrer 4
Lehrer 5
Lehrer 6
Faktor C # Biologie
8 11 10 8 6 5
11 10 8 7 12 8
7 9 6 10 8 5
9 12 14 11 13 12
14 17 13 11 15 12
8 11 10 13 9 9
Deutsch
5 8 7 10 9 6
12 9 14 10 11 13
13 15 12 10 14 15
6 7 4 4 9 6
8 13 11 15 14 14
11 8 10 6 9 7
A-Summen
naturwissenschaftlich
C-Summen
a1
a2
c1
c2
342
375
362
355
AC-Summen c1 c2
AB-Summen a1
a2
b1
b2
b3
b4
b5
b6
93
125
124
107
157
111
ABC-Summen
G 717
a1
a2
a1
149 193
213 162
b1
b2
b3
b4
b5
b6
48 45
56 69
45 79
71 36
82 75
60 51
c1 c2
a2
7172 7140;13 6232
2 82 112 102 72 7803
1
3422 3752 7155;25 632 3622 3552 7140;81
5 623 2 2 93 125 1242 1072 1572 1112
6 7339;08 62 1492 2132 1932 1622 7281;28
7 63 2 2 2 2 48 56 45 51 7563;17
9 6
3
Q.d.V.
QS
A B(A) C AC B
A C Fehler
3
6
5
7
9
2
1 15;12
3 183;83
1 0;68
3
5
1 125;35
6
7
3 98;06
9 239;83
df
^2 r
F
p 11 p
q 1 4 r 11
p 1
r 1 1 p
q 1
r 1 4 p q r
n 1 60
15,12 45,96 0,68 125,35 24,52 4,00
0,33 11,49 0,03 5,11 6,13
11
394
Kapitel 11 ´ Unvollståndige, mehrfaktorielle Versuchsplåne
Tabelle 11.9. Datenschema fçr eine dreifaktorielle teilhierarchische Varianzanalyse (Version 2) a1 a2 b1 b b b2 2 1 c1 c2 c3 c4 c5 c6 c7 c8 c9 c10 c11 c12 S111 S112 S113 S121 S122 S123 S211 S212 S213 S221 S222 S223 A) Schulen B) Fåcher C) Lehrer
Tabelle 11.10. Quadratsummen und Freiheitsgrade einer dreifaktoriellen teilhierarchischen Varianzanalyse (Version 2)
11
Q.d.V.
QS
A B C(A, B) AB Fehler
3
4
9
6
2
df
1
1
6
3
9
p 1 q 1 p q
r 1 (p 1
q 1 p q r
n 1
4
1
Tabelle 11.11. Datenschema einer dreifaktoriellen hierarchischen Varianzanalyse a1 a2 b b2 b3 b5 b6 b1 4 c1 c2 c3 c4 c5 c6 c7 c8 c9 c10 c11 c12 S111 S112 S121 S122 S131 S132 S211 S212 S221 S222 S231 S232
Tabelle 11.12. Quadratsummen und Freiheitsgrade einer dreifaktoriellen hierarchischen Varianzanalyse Q.d.V.
QS
A B(A) C(B(A)) Fehler
3
6
9
2
df
1
3
6
9
p 1 p
q 1 p q
r 1 p q r
n 1
mit p 2, q 3 und r 2. (Ausfçhrlich mçssten die Stichproben in diesem Fall mit Sij
ik
j
i indiziert werden. Auf die Klammerausdrçcke wurde in Tabelle 11.11 verzichtet.)
Tabelle 11.13. Prçfvarianzen in einer dreifaktoriellen hierarchischen Varianzanalyse Prçfvarianz Zu prçfende Varianz A-fest A-fest A-fest A-zufållig A-zufållig B-fest B-fest B-zufållig B-zufållig B-fest C-fest C-zufållig C-zufållig C-zufållig C-fest 2 2 r ^2C
B
A ^2B
A ^2B
A ^2Fehler ^A r r r r ^Fehler r r r ^2B
A ^2C
B
A r ^2C
B
A r ^2C
B
A r ^2Fehler ^2Fehler r ^2C
B
A r ^2Fehler ^2Fehler ^2Fehler ^2Fehler ^2Fehler r r r r r
In diesem Plan werden statt der 2 6 12 144 Stichproben des vollståndigen dreifaktoriellen Planes nur 12 Stichproben benætigt. Dafçr kænnen hier keine Interaktionen getestet werden. Die Berechnung der Quadratsummen und Freiheitsgrade ist in Tabelle 11.12 dargestellt (zur Kennzifferberechnung vgl. S. 314). Die Varianzschåtzungen ergeben sich, indem die Quadratsummen durch die entsprechenden Freiheitsgrade dividiert werden. Die Prçfvarianzen sind Tabelle 11.13 zu entnehmen. Fçr die Faktoren B und C wåren nach den Ausfçhrungen zu Tabelle 11.3 zufållige Stufen zu fordern, sodass Haupteffekt A am Haupteffekt B, Haupteffekt B am Haupteffekt C und Haupteffekt C an der Fehlervarianz zu testen wåren. BEISPIEL Es soll çberprçft werden, ob sich 3 Kliniken (Faktor A) in ihren Behandlungserfolgen bei einer bestimmten Krankheit (abhångige Variable) unterscheiden. Jede Klinik verfçgt çber 2 ¹hauseigeneª Spezialtherapien (Faktor B: 6 verschiedene Therapien, q 2). Behandelt werden n 7 Patienten von jeweils 2 Therapeuten bzw. Ørzten, die die gleiche Therapie ausçben (Faktor C: 12 Therapeuten, r 2). Die Therapeuten sind somit unter den Therapien und die Therapien unter den Kliniken geschachtelt. Wir wollen davon ausgehen, dass alle 3 Faktoren zufållige Effekte aufweisen. Tabelle 11.14 zeigt die Daten und ihre Auswertung. Die Behandlungserfolge der Therapeuten unterscheiden sich auf dem 1%-Niveau und die der Therapieformen auf dem 5%-Niveau.
Hinweis: Ausgehend von den Rechenregeln, die im Rahmen der hier besprochenen Versuchsplåne deutlich wurden, lassen sich ohne besondere Schwierigkeiten weitere teilhierarchische und hierarchische Varianzanalysen durchfçhren. Einzel-
a11.1
395
Hierarchische und teilhierarchische Versuchsplåne
Tabelle 11.14. Numerisches Beispiel fçr eine dreifaktorielle hierarchische Varianzanalyse A: Kliniken B: Therapien C: Therapeuten
a1 b1 c c2 1 20 18 23 19 19 16 22 14 21 15 15 19 18 17 ABC-Summen 142 114 AB-Summen 256 A-Summen 576 Total
b2 c3
c4
20 23 25 24 21 23 25
24 23 22 19 24 24 23
161
159 320
a2 b 3 c6 c5 24 25 25 27 20 24 24 22 21 23 24 26 25 23 163 170 333 564
b4 c7
c8
16 17 19 18 18 21 17
14 13 15 17 18 15 13
126
105 231
a3 b6 b 5 c10 c11 c12 c9 21 22 23 16 19 22 20 18 21 19 21 19 19 18 21 23 24 17 22 17 20 18 20 16 18 17 21 16 147 134 144 123 281 267 548
1688
16882 33920;76 7322
2 202 232 192 . . . 162 34846
1
5762 5642 5482 33934;86 722 2562 3202 3332 2312 2812 2672 34459;71
6 72 2 2 2 2 142 114 161 . . . 123 34594;57
9 7
3
Q.d.V.
QS
A B(A) C(B(A)) Fehler
3
6
9
2
F
2;3;0;95 9;55
l 14;10
3 524;85
6 134;86
9 251;43
F
3;6;0;95 4;76
df
^2 r
F
p 12 p
q 1 3 p q
r 1 6 p q r
n 1 72
7,05 174,95 22,48 3,49
0,04 7,78 6,44
F
6;72;0;99 3;09
vergleiche kænnen nach den in Kap. 8 genannten Regeln auch im Rahmen hierarchischer und teilhierarchischer Plåne gerechnet werden. Sind die untersuchten Stichproben nicht gleich groû und die Abweichungen geringfçgig, kann die (teil-)-
hierarchische Varianzanalyse mit dem harmonischen Mittel aller Stichprobenumfånge eingesetzt werden. (Nåheres hierzu vgl. unter 8.4 bzw., bezogen auf die hier besprochenen Versuchsplåne, Dayton, 1970, S. 232 ff.)
11
396
Kapitel 11 ´ Unvollståndige, mehrfaktorielle Versuchsplåne
11.2 Lateinische Quadrate
Konstruktionsregeln
Lateinische Quadrate stellen eine besondere Variante unvollståndiger Versuchsplåne dar. Wie bei hierarchischen Versuchsplånen sind auch hier Interaktionen nicht prçfbar, und es werden weniger Vpn benætigt als in vergleichbaren vollståndigen Versuchsplånen. Die Anwendung lateinisch-quadratischer Anordnungen ist dadurch stark eingeschrånkt, dass im Fall nicht zu vernachlåssigender Interaktionen die Haupteffekte nicht eindeutig interpretierbar sind. Lateinische Quadrate kænnen deshalb nur dann zum Einsatz kommen, wenn man theoretische rechtfertigen kann oder auf Grund von Voruntersuchungen weiû, dass Interaktionen unwahrscheinlich sind.
Die Anordnung der c-Stufen in Tabelle 11.15 wird so vorgenommen, dass in jeder Zeile und jeder Spalte jede c-Stufe genau einmal erscheint. Diese Eigenschaft lateinischer Quadrate erfçllen auch die Anordnungen in Tabelle 11.16: In beiden lateinischen Quadraten taucht jede c-Stufe genau einmal in jeder Zeile und jeder Spalte auf. Fçr p 3 lassen sich insgesamt 12 verschiedene Anordnungen finden, bei denen diese Bedingung erfçllt ist. Unter diesen lateinischen Quadraten befindet sich jedoch nur eine Anordnung, in der die c-Stufen in der 1. Zeile und der 1. Spalte in natçrlicher Abfolge
c1 ; c2 ; c3 angeordnet sind. Diese Anordnung (Standardform) ist in Tabelle 11.15 wiedergegeben.
Wenn Interaktionen zu vernachlåssigen sind, kænnen im lateinischen Quadrat 3 Haupteffekte çberprçft werden.
11
Mit dem Wort ¹Quadratª wird zum Ausdruck gebracht, dass die 3 Faktoren die gleiche Anzahl von Faktorstufen aufweisen mçssen. (Eine Begrçndung fçr die Bezeichnung ¹lateinischª findet man auf S. 400.) Fçr alle quadratischen Anordnungen gilt, dass Faktoren mit zufålligen Effekten nicht zulåssig sind (zur Begrçndung s. S. 430). Die Anzahl der Faktorstufen bezeichnen wir fçr alle Faktoren mit p. Tabelle 11.15 veranschaulicht ein allgemeines Datenschema fçr ein lateinisches Quadrat mit p 3. Die Darstellungsart in Tabelle 11.15 ist folgendermaûen zu verstehen: Die Faktorstufenkombination a1 b1 wird mit c1 kombiniert, a2 b1 mit c2 , a3 b1 mit c3 , a1 b2 mit c2 usw. Jeder der 9 Faktorstufenkombinationen wird eine Zufallsstichprobe des Umfangs n zugewiesen. Tabelle 11.15. Datenschema fçr ein lateinisches Quadrat (p 3) a1 b1 b2 b3
c1 c2 c3
a2
a3
c2 c3 c1
c3 c1 c2
Lateinische Quadrate, bei denen die Stufen des Faktors C in der 1. Zeile und der 1. Spalte in natçrlicher Abfolge auftreten, bezeichnet man als Standardform eines lateinischen Quadrates.
Setzen wir p 4, existieren bereits 4 Standardformen (vgl. Tab. 11.17).
Tabelle 11.16. Weitere lateinische Quadrate mit p 3
b1 b2 b3
a1
a2
a3
c3 c2 c1
c1 c3 c2
c2 c1 c3
b1 b2 b3
a1
a2
a3
c2 c1 c3
c1 c3 c2
c3 c2 c1
Tabelle 11.17. 4 Standardformen des lateinischen Quadrates fçr p 4 a) b1 b2 b3 b4 c) b1 b2 b3 b4
a1
a2
a3
a4
c1 c2 c3 c4
c2 c1 c4 c3
c3 c4 c2 c1
c4 c3 c1 c2
a1
a2
a3
a4
c1 c2 c3 c4
c2 c1 c4 c3
c3 c4 c1 c2
c4 c3 c2 c1
b) b1 b2 b3 b4 d) b1 b2 b3 b4
a1
a2
a3
a4
c1 c2 c3 c4
c2 c4 c1 c3
c3 c1 c4 c2
c4 c3 c2 c1
a1
a2
a3
a4
c1 c2 c3 c4
c2 c3 c4 c1
c3 c4 c1 c2
c4 c1 c2 c3
a11.2
Tabelle 11.18. Standardform des lateinischen Quadrates fçr p5
b1 b2 b3 b4 b5
11
397
Lateinische Quadrate
a1
a2
a3
a4
a5
c1 c2 c3 c4 c5
c2 c3 c4 c5 c1
c3 c4 c5 c1 c2
c4 c5 c1 c2 c3
c5 c1 c2 c3 c4
Die letzte der 4 Standardformen
d ist deshalb von besonderer Bedeutung, weil sie von einem einfachen schematischen Konstruktionsprinzip (zyklische Permutation) ausgeht. Wir schreiben zunåchst die 1. Zeile des lateinischen Quadrates auf, die die 4 c-Stufen in natçrlicher Abfolge enthålt. Die 2. Zeile bilden wir, indem zu den Indizes der 1. Zeile der Wert 1 addiert und von dem Index, der durch die Addition von 1 den Wert p 1 erhålt, p abgezogen wird. Entsprechend verfahren wir mit den çbrigen Zeilen. Fçr p 5 ermitteln wir nach diesem Verfahren die in Tabelle 11.18 dargestellte Standardform. Fçr p 5 lassen sich 56 Standardformen und insgesamt 161 280 verschiedene lateinische Quadrate konstruieren (vgl. hierzu Winer et al. 1991, S. 677).
Ausbalancierung Die Beziehung zwischen einem lateinischen Quadrat (Standardform fçr p 3) und einem vollståndigen Versuchsplan wird in Tabelle 11.19 verdeutlicht. Die Pfeile in dieser Tabelle sind auf diejenigen Faktorstufenkombinationen gerichtet, die im lateinischen Quadrat (Tabelle 11.15) realisiert sind. Von den insgesamt 27 Faktorstufenkombinationen des vollståndigen Versuchsplans enthålt das lateinische Quadrat 9. Das lateinische Quadrat stellt bei p 3 somit 1=3 des vollståndigen Versuchs-
plans dar und benætigt mithin auch nur 1=3 der im vollståndigen Plan erforderlichen Vpn. Allgemein unterscheidet sich der Versuchspersonenaufwand eines lateinischen Quadrates von dem eines vollståndigen Plans um den Faktor 1=p. Die Anordnung der c-Stufen im lateinischen Quadrat
p 3 hat zur Konsequenz, dass die 3 c-Stufen mit folgenden Stufen der Faktoren A und B kombiniert sind. (Die Zahlen in Klammern geben die jeweilige Pfeilnummer in Tabelle 11.19 an.) c1 :
a1
1 ;
a2
6 ;
a3
8
b2
8 ;
b3
6 ;
c2 :
b1
1 ; a1
2 ;
a2
4 ;
a3
9
b2
2 ;
b3
9 ;
c3 :
b1
4 ; a1
3 ;
a2
5 ;
a3
7
b1
7 ;
b2
5 ;
b3
3 :
Jede Stufe des Faktors C ist mit jeder Stufe des Faktors A und mit jeder Stufe des Faktors B genau einmal kombiniert. Wir sagen: Das lateinische Quadrat ist in Bezug auf die Haupteffekte vollståndig ausbalanciert. Als Nåchstes çberprçfen wir, mit welchen A B-Kombinationen die 3 c-Stufen kombiniert sind. c1 :
a1 b1
1;
a2 b3
6;
a3 b2
8
c2 : c3 :
a1 b2
2;
a2 b1
4;
a3 b3
9
a1 b3
3;
a2 b2
5;
a3 b1
7 :
Jede Stufe des Faktors C ist somit nur mit 3 A B-Kombinationen kombiniert, obwohl insgesamt 3 3 9 A B-Kombinationen vorliegen. Da jede c-Stufe mit anderen A B-Kombinationen zusammen auftritt, sagen wir: Das lateinische Quadrat ist in Bezug auf die Haupteffekte vollståndig und in Bezug auf die Interaktion 1. Ordnung nur teilweise ausbalanciert.
Tabelle 11.19. Beziehung zwischen einem vollståndigen Versuchsplan und einem lateinischen Quadrat (p 3) a1 a a3 2 b1 b b b b b b b 2 3 1 2 3 1 2 c1 c2 c3 c1 c2 c3 c1 c2 c3 c1 c2 c3 c1 c2 c3 c1 c2 c3 c1 c2 c3 c1 c2 c3 c1 " " " " " " " " 1 2 3 4 5 6 7 8
b3 c2 " 9
c3
398
Kapitel 11 ´ Unvollståndige, mehrfaktorielle Versuchsplåne
Tabelle 11.20. Balancierte lateinische Quadrate (zusammen mit Tabelle 11.15) a)
a1
a2
a3
b)
a1
a2
a3
b1 b2 b3
c2 c3 c1
c3 c1 c2
c1 c2 c3
b1 b2 b3
c3 c1 c2
c1 c2 c3
c2 c3 c1
Rçcken wir die Pfeile in Tabelle 11.19 alle um eine Position nach rechts bzw. richten einen Pfeil, falls er bereits auf c3 zeigt, auf c1 , resultieren die folgenden Faktorstufenkombinationen: a1 b1 c2 ; a1 b2 c3 ; a1 b3 c1 ; a2 b1 c3 ; a2 b2 c1 ; a2 b3 c2 ; a3 b1 c1 ; a3 b2 c2 ; a3 b3 c3 : Diese Faktorstufen konstituieren wieder ein lateinisches Quadrat (vgl. Tabelle 11.20 a). Durch eine weitere Verschiebung um eine Position erhalten wir folgende Kombinationen: a1 b1 c3 ; a1 b2 c1 ; a1 b3 c2 ; a2 b1 c1 ; a2 b2 c2 ; a2 b3 c3 ; a3 b1 c2 ; a3 b2 c3 ; a3 b3 c1 :
11
Auch diese Faktorstufen bilden wieder ein lateinisches Quadrat (Tabelle 11.20 b). Wir sehen also, dass ein vollståndiger 3 3 3-Plan in 3 lateinische Quadrate zerlegt werden kann. Vergleichen wir die beiden lateinischen Quadrate in Tabelle 11.20 mit dem lateinischen Quadrat in Tabelle 11.15, stellen wir fest, dass an jeder ai bj -Position jede c-Stufe einmal auftaucht. Lateinische Quadrate, die diese Bedingung erfçllen, bezeichnen wir als einen balancierten Satz lateinischer Quadrate. Ein vollståndiger p p p-Plan kann in p balancierte lateinische Quadrate zerlegt werden.
Freiheitsgrade und Quadratsummen In einem lateinischen Quadrat werden den p2 Faktorstufenkombinationen Zufallsstichproben des Umfangs n zugewiesen. Unterschiede zwischen den n einer Faktorstufenkombination zugewiesenen Vpn mçssen auf Stærvariablen zurçckgefçhrt werden und bedingen somit die Fehlervarianz. Die Fehlervarianz hat also p2
n 1 Freiheitsgrade. Die Quadratsumme der p2 -Zellenmittelwerte hat p2 1 Freiheitsgrade. Da jeder Faktor p-
Stufen aufweist, resultieren fçr die 3 Faktoren insgesamt 3
p l Freiheitsgrade. Von den Freiheitsgraden der Zellenquadratsumme verbleiben damit:
p2 1 3
p 1 p2 3 p 2
p 1
p 2. Fçr p 3 ergeben sich 9 1 Freiheitsgrade fçr die Unterschiedlichkeit zwischen den Zellen. 3
3 1 6 Freiheitsgrade beziehen sich auf die 3 Haupteffekte. Es bleiben somit 2 Freiheitsgrade çbrig. Dies sind die Freiheitsgrade fçr eine Residualvariation, die verschiedene Interaktionsanteile enthålt. Wie diese Residualvariation zustande kommt, soll an einem kleinen Zahlenbeispiel verdeutlicht werden. BEISPIEL Im Rahmen einer Krankenhausplanung soll erkundet werden, wie sich 3 verschiedene Arten der Krankenzimmerbeleuchtung (Faktor A) auf 3 Patientenkategorien (Faktor B) auswirken. Um den normalen Krankenhausbetrieb durch die Untersuchung nicht allzusehr zu stæren, entschlieût man sich, die mit der Untersuchung notwendigerweise verbundenen Belastungen auf 3 Krankenhåuser (Faktor C) zu verteilen. Legen wir der Untersuchung das in Tabelle 11.15 dargestellte lateinische Quadrat zu Grunde, wçrde die folgende Experimentalanordnung resultieren: n Patienten der Kategorie b1 aus dem Krankenhaus c1 erhalten Beleuchtungsart a1 ; n Patienten der Kategorie b1 aus Krankenhaus c2 erhalten Beleuchtungsart a2 . . . und n Patienten der Kategorie b3 in Krankenhaus c2 erhalten Beleuchtungsart a3 . Fçr n 5 Patienten pro Faktorstufenkombination mægen sich die in Tabelle 11.21 dargestellten Mittelwerte (z. B. fçr die Zufriedenheit der Patienten als abhångige Variable) ergeben haben. (Auf die Wiedergabe der Einzelwerte kænnen wir in diesem Zusammenhang verzichten.) Fçr G ermitteln wir den Wert 99=9 11. Fçr die QSZellen ergibt sich: X QSZellen n
ABCijk G2 5
12
15
112
10 112
9
112 . . . 112
5 50 250 : (Da die Summation nicht çber alle ijk-Kombinationen verlåuft, verwenden wir in diesem Zusammenhang ein SumTabelle 11.21. Beispiel zur Veranschaulichung der Residualvariation a1
a2
a3
Bj
b1 b2 b3
12 10 12
8 11 8
14 15 9
34 36 29
Ai
34
27
38
99
a11.2
399
Lateinische Quadrate
menzeichen ohne Index, womit angedeutet werden soll, dass nur çber die 9 vorhandenen, quadrierten Mittelwertdifferenzen summiert wird.) Die Mittelwerte der Stufen des Faktors A lauten: A1 11;3 ;
A2 9 ;
A3 12;7 :
Wir erhalten somit als QSA : X
Ai G2 QSA n p i
5 3
11;3
112
9
112
12;7
112
15 6;98 104;70 : Faktor B hat die folgenden Mittelwerte: B1 11;3 ;
B2 12;
B3 9;7 :
Fçr die QSB errechnen wir: X QSB n p
Bj G2 j
5 3
11;3
112
12
112
9;7
112
15 2;78 41;70 : Ausgehend von der Verteilung der c-Stufen in Tabelle 11.15 ergeben sich folgende Mittelwerte fçr die Stufen des Faktors C: C1
12 15 8=3 11;7 C2
8 10 9=3 9 C3
14 11 12=3 12;3 : Die QSC lautet somit: X QSC n p
Ck
G2
k
5 3
11;7
112
9
112
12; 3
112
15 6;18 92;70 : Subtrahieren wir die 3 Haupteffekt-Quadratsummen von der QSZellen, erhalten wir: 250
104;70
41;70
92;70 10;90 :
Es verbleibt somit eine Residualquadratsumme von QSRes 10;90, die mit 2 Freiheitsgraden versehen ist. Was diese restliche Quadratsumme inhaltlich bedeutet, zeigen die folgenden Ûberlegungen: Von der QSZellen wird u. a. die QSA abgezogen, fçr die wir die Spaltenmittelwerte der Tabelle 11.21 benætigen. Die 3 in einer Spalte befindlichen Werte werden auûer von Stufe a1 auch von den Stufen des Faktors B und C beeinflusst. Das gleiche gilt jedoch auch fçr die Werte unter a2 und a3 . Haben die Faktoren B und C somit eine Wirkung, ist diese fçr alle Stufen des Faktors A konstant, d. h., Unterschiede zwischen den Stufen des Faktors A kænnen weder auf die Wirkung des Faktors B noch auf die Wirkung des Faktors C zurçckgefçhrt werden. Befånden sich unter allen Stufen von A zusåtzlich die gleichen B C-Kombinationen, wåre die Unterschiedlichkeit zwischen den Stufen des Faktors A ausschlieûlich durch die Wirkung des Faktors A bestimmt.
Dies ist jedoch nicht der Fall. Unter a1 befinden sich andere B C-Kombinationen als unter a2. Der Mittelwert von a1 wird zusåtzlich zur Haupteffektwirkung von den Interaktionskomponenten b1 c1 , b2 c2 und b3 c3 beeinflusst und der Mittelwert von a2 zusåtzlich durch b1 c2 , b2 c3 und b3 c1 . Haupteffekt A ist somit nur dann eindeutig interpretierbar, wenn die entsprechenden B C-Interaktionskomponenten vernachlåssigt werden kænnen. Das Gleiche gilt fçr die çbrigen Haupteffekte. Haupteffekt B ist nur ohne eine A C-Interaktion und Haupteffekt C ohne eine A B-Interaktion eindeutig im Sinn eines Haupteffektes interpretierbar.
Damit wird ersichtlich, was die QSRes enthålt. Durch den Abzug der QSA von der QSZellen wird die QSZellen um den reinen Haupteffekt A und zusåtzlich um diejenige Unterschiedlichkeit vermindert, die sich zwischen den Durchschnitten aus
b1 c1 b2 c2 b3 c3 ,
b1 c2 b2 c3 b3 c1 und
b1 c3 b2 c1 b3 c2 ergibt. Unterschiede zwischen den Kombinationen innerhalb der Klammern werden durch die QSA nicht erfasst und sind damit Bestandteil der QSRes. Entsprechendes gilt fçr die çbrigen Faktoren. Die QSRes enthålt somit ein Gemisch aus denjenigen Interaktionskomponenten, die die Haupteffekte nicht erfassen. Damit Haupteffekte eindeutig interpretiert werden kænnen, muss bekannt sein, welche Interaktionen zu vernachlåssigen sind. Die Varianzanalyse çber das lateinische Quadrat liefert hierçber jedoch keine direkten Informationen. Lediglich die QSRes bietet einen Anhaltspunkt dafçr, ob çberhaupt mit Interaktionen zu rechnen ist. Je græûer die QSRes , um so wahrscheinlicher ist es, dass Interaktionen existieren, was bedeutet, dass die Haupteffekte nicht interpretierbar sind. Je kleiner die QSRes , um so unwahrscheinlicher ist es, dass Interaktionen bestehen. Da die QSRes jedoch gerade diejenigen Kombinationsvergleiche enthålt, die die Haupteffekte nicht beeinflussen, bietet auch eine QSRes von Null noch keine hinreichende Gewåhr dafçr, dass die Haupteffekte von Interaktionseffekten frei sind. Eindeutig kænnen die Haupteffekte erst interpretiert werden, wenn durch Voruntersuchungen oder theoretische Ûberlegungen plausibel gemacht werden kann, dass zwischen den geprçften Faktoren keine Interaktionen bestehen.
11
400
Kapitel 11 ´ Unvollståndige, mehrfaktorielle Versuchsplåne
Rechnerische Durchfçhrung
BEISPIEL
Die Kennziffern fçr die vereinfachte rechnerische Durchfçhrung einer Varianzanalyse çber ein lateinisches Quadrat lauten: X G2
1 ;
2 x2 ; 2 np P 2 P 2 Bj Ai
3
5
i
;
k
;
np P 2 Ck np
4
j
; np P ABC2
6 : n
Tabelle 11.22 zeigt, wie die Quadratsummen und Freiheitsgrade ermittelt werden. Die Varianzschåtzungen berechnen wir, indem die Quadratsummen durch die entsprechenden Freiheitsgrade dividiert werden. Haben alle Stichproben den Umfang n und weisen alle Faktoren ± wie auf S. 396 gefordert ± feste Stufen auf, kænnen ^2Fehler getestet werdie drei Haupteffekte an der r den. Zuvor çberprçfen wir, ob mit Interaktionen gerechnet werden muss. Dies geschieht durch die Bildung des folgenden F-Bruchs: F
11
^2Res r : ^2Fehler r
11:3
Ist dieser F-Wert auf dem a 10%-Niveau nicht signifikant, kænnen statistisch bedeutsame Haupteffekte in çblicher Weise interpretiert werden. Ûber a posteriori durchzufçhrende Einzelvergleiche im Rahmen lateinischer Quadrate berichtet Dayton (1970, S. 147 ff.). Konservative Einzelvergleiche werden mit dem analog angewandten Scheff-Test (vgl. 8.2) durchgefçhrt. Zur Kalkulation ¹optimalerª Stichprobenumfånge wird auf S. 258 ff. bzw. S. 303 f. verwiesen. Tabelle 11.22. Quadratsummen und Freiheitsgrade eines lateinischen Quadrates Q.d.V.
QS
A B C Fehler Residual
3
4
5
2
6
df
1
1
1
6
3
4
5 2
1
p 1 p 1 p 1 p2
n 1
p 1
p
2
Es soll çberprçft werden, ob sich Farbkodierungen oder Formkodierungen besser einprågen. In einer Trainingsphase lernen 64 Vpn 16 konstruierte Figuren richtig zu bezeichnen (Zuordnung von Namen zu den Figuren). Die 16 Figuren unterscheiden sich in Bezug auf 4 verschiedene Formen (Faktor A) und 4 verschiedene Farben (Faktor B). (4 Formen und 4 Farben werden vollståndig zu 16 Figuren kombiniert.) Untersucht werden 4 Berufsgruppen (Faktor C), aus denen jeweils 4 Zufallsstichproben 4 Vpn gezogen wurden. Abhångige Variable ist die Zeit, die eine Vp benætigt, um einer Figur den richtigen Begriff zuzuordnen. In der Testphase werden die Figuren in zufålliger Reihenfolge vorgegeben, sodass die Position der personenspezifischen ¹Zielfigurª pro Vp zufållig variiert. Tabelle 11.23 zeigt die Daten und den Rechengang. Da die Residualvarianz auf dem 10%-Niveau nicht signifikant ist, existieren offenbar keine Interaktionen zwischen den 3 Faktoren. Die Zuordnungsleistungen werden in statistisch bedeutsamer Weise nur von den Farben der Figuren beeinflusst.
11.3 Griechisch-lateinische Quadrate In lateinischen Quadraten kænnen ± vorausgesetzt, es existieren keine Interaktionen ± 3 Faktoren kontrolliert werden. Die Ûberprçfung von 4 Faktoren ist mit einer Versuchsanordnung mæglich, die im Vergleich zu einem vollståndigen vierfaktoriellen Plan mit einer betråchtlich reduzierten Vpn-Zahl auskommt. Diese Versuchsanordnung hat die Bezeichnung ¹griechisch-lateinisches Quadratª. (Der Name griechisch-lateinisches Quadrat ist vermutlich darauf zurçckzufçhren, dass die Stufen des 3. Faktors ursprçnglich mit lateinischen Buchstaben und die des 4. Faktors mit griechischen Buchstaben gekennzeichnet wurden.) Im griechisch-lateinischen Quadrat sind die Haupteffekte nicht nur mit den Interaktionen 1. Ordnung, sondern auch mit den Interaktionen 2. Ordnung konfundiert. Die Anwendung eines griechisch-lateinischen Quadrates ist deshalb auf solche Fålle begrenzt, in denen die entsprechenden Interaktionen zu vernachlåssigen sind. Wenn Interaktionen zu vernachlåssigen sind, kænnen im griechisch-lateinischen Quadrat 4 Haupteffekte çberprçft werden.
401
a11.3 Griechisch-lateinische Quadrate Tabelle 11.23. Numerisches Beispiel fçr eine Varianzanalyse çber ein lateinisches Quadrat
b1
b2
b3
b4
a1
a2
a3
a4
Zellen-Summen
c1
c2
c3
c4
a1
a2
a3
a4
13 17 14 14
14 18 16 16
16 14 12 13
12 15 15 16
b1 b2 b3 b4
58 54 68 59
64 68 66 66
55 61 71 68
58 66 72 67
c2
c3
c4
c1
A-Summen
10 15 15 14
19 15 17 17
17 16 15 13
18 17 15 16
a1
a2
a3
a4
239
264
255
263
c3
c4
c1
c2
B-Summen
17 18 19 14
17 19 12 18
18 18 16 19
13 20 19 20
b1
b2
b3
b4
235
249
277
260
c4
c1
c2
c3
C-Summen
15 14 13 17
18 18 14 16
19 17 17 15
19 17 15 16
c1
c2
c3
c4
261
258
258
244
G 1021
10212 16288; 14 4 42 2
2 13 172 142 . . . 162 16597
1
2392 2642 2552 2632 16313;19 44 2352 2492 2772 2602
4 16347;19 44 2 2 2 2 261 258 258 244 16299;06
5 44 582 642 552 . . . 672
6 16405;25 4
3
Q.d.V.
QS
A B C Fehler Residual
3
4
5
2
6
F
3;48;0;95 2;81
1 25;05
1 59;05
1 10;92
6 191;75
3
4
5 2
1 22;09
F
3;48;0;99 4;24
Uberpr ufung der H0: r2Res 0:
df
^2 r
F
p 13 p 13 p 13 p2
n 1 48
p 1
p 2 6
8,35 19,68 3,64 3,99 3,68
2,09 4,93 0,91
F
3;68 0;92 3;99
F
6;48;0;90 1;92
11
402
Kapitel 11 ´ Unvollståndige, mehrfaktorielle Versuchsplåne
Konstruktionsregeln
11
Die Konstruktion eines griechisch-lateinischen Quadrates erfolgt auf der Basis zweier orthogonaler lateinischer Quadrate. Zwei lateinische Quadrate sind orthogonal, wenn in der Kombination der lateinischen Quadrate jedes Faktorstufenpaar genau einmal vorkommt (Tabelle 11.24). Die Vereinigung der Quadrate a und b, bei der die Elemente aus a) mit den korrespondierenden, d. h. an gleicher Stelle stehenden Elementen aus b) kombiniert werden, fçhrt zu einer Anordnung d), in der die Kombinationen a1 b2 , a2 b3 und a3 b1 jeweils dreimal vorkommen; a) und b) sind somit nicht wechselseitig orthogonal. In der Kombination der Tabelle 11.24 b und 11.24 c taucht hingegen jedes bj ck -Paar nur einmal auf, d. h., diese beiden lateinischen Quadrate sind orthogonal. Die Vereinigung der beiden lateinischen Quadrate b) und c) fçhrt zu einem griechisch-lateinischen Quadrat. Unter Verwendung der Anordnung in Tabelle 11.24 e erhalten wir das in Tabelle 11.25 dargestellte Datenschema fçr eine Varianzanalyse çber ein griechisch-lateinisches Quadrat
p 3. Griechisch-lateinische Quadrate kænnen nur konstruiert werden, wenn zwei orthogonale lateinische Quadrate existieren, was keineswegs immer der Fall ist. Notwendige (aber nicht hinreichende) Bedingung fçr die Existenz zweier orthogonaler lateinischer Quadrate ist die Darstellbarkeit der Faktorstufenzahl als ganzzahlige Potenz einer Primzahl (z. B. p 3 31 , p 4 22 , p 5 51 , p 8 23 ). Fçr p 6 und p 10 beispielsweise existieren keine orthogonalen lateinischen Quadrate, d. h., es kænnen fçr diese Faktorstufenanzahlen auch keine griechisch-lateinischen Quadrate konstruiert werden. Vorgefertigte Anordnungen findet man z. B. bei Cochran u. Cox
Tabelle 11.24. Orthogonale und nicht-orthogonale lateinische Quadrate a) b) a1 a2 a3 b2 b3 a2 a3 a1 b3 b1 a3 a1 a2 b1 b2 |{z} a1 b2 a2 b3 a3 b1 d) a2 b3 a3 b1 a1 b2 a3 b1 a1 b2 a2 b3
c) b1 c1 c2 c3 b2 c3 c1 c2 b3 c2 c3 c1 |{z} b2 c 1 b3 c 2 b1 c 3 e) b3 c3 b1 c1 b2 c2 b1 c 2 b2 c 3 b3 c 1
(1966, S. 146 ff.) fçr p 3 ; 4 ; 5 ; 7 ; 8 ; 9, 11 und 12 oder bei Peng (1967).
Ausbalancierung. Im griechisch-lateinischen Quadrat kommen unter jeder Stufe eines Faktors alle Stufen der çbrigen Faktoren genau einmal vor, d. h., der Plan ist in Bezug auf die 4 Haupteffekte ausbalanciert. Zusåtzlich sind in einem griechisch-lateinischen Quadrat såmtliche C DKombinationen enthalten, die jedoch nicht mit allen A B-Kombinationen zusammen auftreten. In Bezug auf die Interaktionen ist das griechisch-lateinische Quadrat somit nur partiell ausbalanciert. Rechnerische Durchfçhrung Das griechisch-lateinische Quadrat benætigt p2 Stichproben des Umfangs n, wåhrend im vergleichbaren vierfaktoriellen vollståndigen Versuchsplan p4 Stichproben untersucht werden mçssen. Die Stichprobe, die der Faktorstufenkombination a1 b1 zugewiesen wird, beobachten wir nach Tabelle 11.25 gleichzeitig unter der Kombination c2 d1 . Die 2. Stichprobe wird der Faktorstufenkombination a2 b1 c3 d2 , die 3. der Kombination a3 b1 c1 d3 zugeordnet usw. Bei der Ermittlung der Quadratsummen gehen wir von folgenden Kennziffern aus: G2 ; n p2 X
2 x2 ; P 2 Ai i ;
3 np P 2 Bj
1
4
5
j
np P 2 Ck k
np P 2 Dl
; ;
l ; np P ABCD2 :
7 n Die fçr die Kennziffern
5 und
6 benætigten Summen erhalten wir, indem die Werte mit glei-
6
a11.4
403
Quadratische Anordnungen mit Messwiederholungen
Tabelle 11.25. Datenschema eines griechisch-lateinischen Quadrates (p 3)
b1 b2 b3
a1
a2
a3
c2 d1 c3 d3 c1 d2
c3 d2 c1 d1 c2 d3
c1 d3 c2 d2 c3 d1
Tabelle 11.27. Datenschema eines griechisch-lateinischen Quadrates (p 4)
b1 b2 b3 b4
a1
a2
a3
a4
c1 d1 c2 d2 c3 d3 c4 d4
c2 d3 c1 d4 c4 d1 c3 d2
c3 d4 c4 d3 c1 d2 c2 d1
c4 d2 c3 d1 c2 d4 c1 d3
Tabelle 11.26. Quadratsummen und Freiheitsgrade eines griechisch-lateinischen Quadrates Q.d.V.
QS
A B C D Residual Fehler
3
4
5
6
7
2
df
1
1
1
1
3
7
4
5
p 1 p 1 p 1 p 1
6 3
1
p 1
p 3 p2
n 1
chem c-Index (bzw. d-Index) gemåû Tabelle 11.25 zusammengefasst werden. Die Quadratsummen und Freiheitsgrade ermitteln wir nach Tabelle 11.26. Die Varianzschåtzungen resultieren aus den Quadratsummen, dividiert durch ihre Freiheitsgrade. Alle Faktoren mçssen feste Stufen haben (vgl. S. 430) und werden dementsprechend an der Fehlervarianz getestet. Die Ûberprçfung der Voraussetzung, dass keine Interaktionen existieren, erfolgt durch die Bildung des F-Bruchs nach Gl. (11.3). BEISPIEL Es soll der Einfluss von 4 Umweltvariablen auf die Arbeitsleistung (abhångige Variable) untersucht werden: Faktor Faktor Faktor Faktor
A: B: C: D:
4 Lårmbedingungen
a1 ; a2 ; a3 ; a4 , 4 Temperaturbedingungen
b1 ; b2 ; b3 ; b4 , 4 Beleuchtungsbedingungen
c1 ; c2 ; c3 ; c4 , 4 Luftfeuchtigkeitsbedingungen
d1 ; d2 ; d3 ; d4 .
Diese 4 4-Stufen werden gemåû Tabelle 11.27 zu einem griechisch-lateinischen Quadrat kombiniert. Jeder der 16 Faktorstufenkombinationen wird eine Stichprobe des Umfangs n 4 zugewiesen. Tabelle 11.28 zeigt die Daten und ihre Auswertung. Die signifikante Residualvariation weist auf bedeutsame Interaktionen hin, d. h. die Haupteffekte kænnen nur unter Vorbehalt interpretiert werden.
Hyperquadratische Anordnungen. Die Kombination von mehr als 2 wechselseitig orthogonalen lateinischen Quadraten fçhrt zu hyperquadratischen Anordnungen, in denen mehr als 4 Faktoren kontrolliert werden kænnen. Die hierfçr benætigten Rechenregeln lassen sich ohne besondere Schwierigkeiten aus den oben erwåhnten ableiten. Ein Beispiel fçr ein 4 4-Hyperquadrat, mit dem 5 Faktoren kontrolliert werden kænnen, nennt Dayton (1970, S. 150).
11.4 Quadratische Anordnungen mit Messwiederholungen Messwiederholungsanalysen wurden bereits in Kap. 9 ausfçhrlich behandelt. Die bisher besprochenen quadratischen Anordnungen machen es erforderlich, dass jeder Faktorstufenkombination eine Zufallsstichprobe zugewiesen wird. Beide Ansåtze lassen sich miteinander zu quadratischen Anordnungen mit Messwiederholungen kombinieren, in denen die Stichproben nicht nur unter einer, sondern unter mehreren Faktorstufenkombinationen beobachtet werden.
Sequenzeffekte Lateinische Quadrate setzen voraus, dass die Messwerte unter den einzelnen Faktorstufenkombinationen voneinander unabhångig sind, dass also die unter einer Faktorstufenkombination gemachten Beobachtungen nicht von den Beobachtungen unter anderen Faktorstufenkombinationen abhången. Ist diese Voraussetzung deshalb nicht erfçllt, weil die zu einem frçheren Zeitpunkt erhobenen Messungen die zu einem spåteren Zeitpunkt erhobenen Messungen beeinflussen, spre-
11
404
Kapitel 11 ´ Unvollståndige, mehrfaktorielle Versuchsplåne
Tabelle 11.28. Numerisches Beispiel einer Varianzanalyse çber ein griechisch-lateinisches Quadrat
b1
b2
a1
a2
a3
a4
a1
a2
a3
a4
c1 d1
c2 d3
c3 d4
c4 d2
c3 d3
c4 d1
c1 d2
c2 d4
12 9 10 9
10 14 11 13
10 13 13 10
8 8 9 11
8 11 9 8
11 12 11 11
c2 d2
c1 d4
c4 d3
c3 d1
c4 d4
c3 d2
c2 d1
c1 d3
15 12 14 15
8 13 12 13
11 11 14 13
11 12 9 9
12 9 9 10
8 11 12 12
12 9 10 9
10 7 7 8
Zellen-Summen
b1 b2 b3 b4
b4
A-Summen
5 9 8 6
11 8 10 11
B-Summen
a1
a2
a3
a4
a1
a2
a3
a4
b1
b2
b3
b4
40 56 36 40
48 46 45 43
46 49 28 40
36 41 40 32
172
182
163
149
170
192
149
155
C-Summen
11
b3
D-Summen
G 666
c1
c2
c3
c4
d1
d2
d3
d4
146
184
166
170
166
163
165
172
6662 6930;56 4 42 1722 1822 1632 1492 6967;38
3 44 2 2 2 2 146 184 166 170 6976;75
5 44 402 482 462 322
7 7107;00 4
1
Q.d.V.
QS
A B C D Residual Fehler
3
4
5
6
7
2
F
3;48;0;95 2;81
l 36;82
1 68;82
1 46;19
1 2;82
3
4
5
7 119 F
3;48;0;99 4;24
2 122 92 102 82 7226 1702 1922 1492 1552 6999;38 44 2 2 2 2 166 163 165 172
6 6933;38 44
4
6 3
1 21;79
df
^2 r
F
p 13 p 13 p 13 p 13
p 1
p 3 3 p2
n 1 48
12,27 22,94 15,40 0,94 7,26 2,48
4,95 9,25 6,21 0,38 2,93
a11.4
405
Quadratische Anordnungen mit Messwiederholungen
chen wir von sequentiellen Ûbertragungseffekten (carry-over effects). Sequenz- oder Ûbertragungseffekte treten vor allem auf, wenn dieselben Vpn unter mehreren Stufen eines Treatments beobachtet werden, wobei die Wahrscheinlichkeit fçr Sequenzeffekte um so kleiner wird, je græûer die zeitlichen Abstånde zwischen den einzelnen Messungen sind. Die håufigsten Ursachen fçr Sequenz- oder Ûbertragungseffekte sind zunehmende Ermçdung, systematisch schwankende Motivation, abnehmende (oder zunehmende) Testangst, Lernfortschritte u. å.. Spielen derartige Variablen bei der mehrfachen Untersuchung einer Stichprobe eine Rolle, kænnen quadratische Anordnungen mit Messwiederholungen eingesetzt werden.
Konstruktionsregeln Eine Mæglichkeit zur Ûberprçfung von Sequenzeffekten haben wir bereits unter 9.2 kennengelernt. Eine weitere Sequenzeffekte kontrollierende Technik geht auf Williams (1949) zurçck. Hier werden lateinische Quadrate in der Weise angeordnet, dass jede Treatmentstufe einmal Nachfolger der çbrigen Treatmentstufen ist. Fçr p 2 Treatmentstufen (Faktor A) resultiert dann ein 2 2-Quadrat mit Messwiederholungen, wobei die erste Stichprobe das Treatment a1 zum Zeitpunkt b1 und das Treatment a2 zum Zeitpunkt b2 erhålt. Fçr die zweite Stichprobe ist die Reihenfolge der Treatments umgekehrt. Ausfçhrliche Hinweise zu diesem in der Literatur als ¹two period cross over designª oder ¹change over designª genannten Versuchsplans findet man bei Cotton (1989). Ist die Anzahl der Treatmentstufen, fçr die Sequenzeffekte zu erwarten sind, geradzahlig, hat die 1. Zeile des lateinischen Quadrates allgemein die folgende Form: 1; 2; p; 3; p 1; 4; p 2; 5; p 3; 6; p 4; . . . : In dieser Sequenz werden alternierend ein Element der Abfolge 1, p, p 1, p 2, p 3 . . . und ein Element der Abfolge 2, 3, 4, 5 . . . aneinandergereiht. Fçr p 4 lautet die 1. Zeile des lateinischen Quadrates beispielsweise: 1 2
4 3:
Die 2. und darauffolgenden Zeilen erhalten wir, indem der Wert 1 zur vorausgehenden Zeile ad-
diert bzw., falls die Zahl p 1 entsteht, zusåtzlich p subtrahiert wird. Das vollståndige, sequentiell ausbalancierte lateinische Quadrat fçr p 4 verwendet daher folgende Anordnung: 1 2 3 4
2 3 4 1
4 3 1 4 2 1 3 2:
In dieser Anordnung folgt die 1 einmal auf die 2, auf die 3 und auf die 4. Die 2 steht einmal unmittelbar hinter der 1, hinter der 3 und hinter der 4. Entsprechendes gilt fçr die çbrigen Ziffern. (Man beachte, dass dieses Prinzip des Ausbalancierens nur einen Teil der Sequenzen realisiert, die durch vollståndige Permutation ± vgl. S. 60 ± entstehen.) Bestehen die Treatmentstufen beispielsweise aus verschiedenen Medikamenten, so ist jedes Medikament einmal der unmittelbare Nachfolger aller çbrigen Medikamente. Unterschiede zwischen den Medikamenten kænnen somit nicht auf Nachwirkungen des zuvor verabreichten Medikaments zurçckgefçhrt werden, es sei denn, das vorangegangene Medikament veråndert die Wirkung der nachfolgenden Medikamente nicht in gleicher Weise (Interaktionseffekte). Muss mit dem Auftreten solcher Interaktionseffekte gerechnet werden, kænnen die Haupteffekte ± wie çblich in lateinischen Quadraten ± nicht eindeutig interpretiert werden. Fçr p 6 erhalten wir das folgende, sequentiell ausbalancierte lateinische Quadrat: 1 2 3 4 5 6
2 3 4 5 6 1
6 1 2 3 4 5
3 4 5 6 1 2
5 6 1 2 3 4
4 5 6 1 2 3
Ist die Anzahl der Faktorstufen ungerade, werden 2 lateinische Quadrate benætigt, die zusammengenommen so angeordnet sind, dass jede Treatmentstufe zweimal hinter jeder anderen Treatmentstufe erscheint. Das 1. lateinische Quadrat bestimmen wir nach dem oben genannten Bildungsprinzip. Das 2. erhalten wir, indem die erste Zeile des 1. lateinischen Quadrates in umgekehrter Reihenfolge aufgeschrieben wird und fçr die folgende Zeile wieder jeweils 1 addiert (bzw. p zusåtzlich abgezogen) wird.
11
406
Kapitel 11 ´ Unvollståndige, mehrfaktorielle Versuchsplåne
Tabelle 11.29. Datenschema fçr ein sequentiell ausbalanciertes lateinisches Quadrat mit Messwiederholungen
S 1 c1 S 2 c2 S 3 c3 S 4 c4
a1
a2
a3
a4
b1 b2 b3 b4
b2 b3 b4 b1
b4 b1 b2 b3
b3 b4 b1 b2
Dies ist in den beiden folgenden Anordnungen fçr p 5 geschehen: 1 2 3 4 5
11
2 3 4 5 1
5 1 2 3 4
3 4 5 1 2
4 5 1 2 3
4 5 1 2 3
3 4 5 1 2
5 1 2 3 4
2 3 4 5 1
1 2 3 4 5
Eine sequentiell ausbalancierte quadratische Anordnung mit p 4 kann beispielsweise in einen Versuchsplan zur Kontrolle von 3 Faktoren wie in Tabelle 11.29 eingebaut werden. Vier Stichproben (S1 ±S4 ) unterscheiden sich in Bezug auf einen Faktor C. Die zu c1 gehærende Stichprobe S1 erhålt die 4 Treatmentstufen (Faktor B) in der Reihenfolge b1 , b2 , b4 , b3 , wobei b1 mit a1 , b2 mit a2 , b4 mit a3 und b3 mit a4 kombiniert werden (Faktor A: Messzeitpunkte). Das Datenerhebungsschema fçr die çbrigen Stichproben ist der Tabelle 11.29 in entsprechender Weise zu entnehmen. Der analoge vollståndige varianzanalytische Versuchsplan mit Messwiederholungen sieht vor, dass jede Stichprobe unter allen A B-Kombinationen, d. h. p2 -mal beobachtet wird (vgl. Tabelle 9.12). Unter Verwendung des lateinischen Quadrates hingegen untersuchen wir jede Vp nicht p2 -mal, sondern lediglich p-mal. Dies hat jedoch zur Folge, dass Interaktionen zwischen den Faktoren nicht getestet werden kænnen. Wiederum ist der Einsatz des lateinischen Quadrates nicht zu empfehlen, wenn mit Interaktionen gerechnet werden muss bzw. wenn Interaktionen von speziellem Interesse sind. In diesem Fall muss auf den fçr die Vpn aufwendigeren, vollståndigen Versuchsplan mit Messwiederholungen (vgl. Tabelle 9.12) zurçckgegriffen werden.
Quadratsummen und Freiheitsgrade Wie in allen Messwiederholungsanalysen wird auch hier die totale Quadratsumme in einen Anteil zerlegt, der auf Unterschiede zwischen den Vpn zurçckgeht, und einen weiteren Anteil, der Unterschiede innerhalb der einzelnen Vpn enthålt: QStot QSzw Vpn QSin Vpn :
11:4
QSin Vpn und QSzw Vpn enthalten die folgenden Teilkomponenten: QSzw Vpn QSc QSFehler
zw ;
11:5
QSin Vpn QSA QSB QSRes
11:6
QSFehler
in : Die drei Haupteffekte haben jeweils p 1 Freiheitsgrade. Die auf Unterschiede der Vpn in den Stichproben zurçckgehende Fehlerquadratsumme QSFehler
zw hat p
n 1 Freiheitsgrade (vgl. Tabelle 9.8) und die Residualquadratsumme
p 1
p 2 Freiheitsgrade (vgl. S. 398). QSFehler
in basiert auf spezifischen Interaktionseffekten der Vpn mit Faktor A und den jeweils realisierten A BKombinationen. Sie hat deshalb p
n 1
p 1 Freiheitsgrade. Wie die Quadratsummen gemåû Gl. (11.4) bis (11.6) sind auch die Freiheitsgrade additiv.
Rechnerische Durchfçhrung Fçr die Quadratsummenberechnung ermitteln wir die folgenden Kennziffern: X G2
1 ;
2 x2ijkm ; n p2 P 2 P 2 Bj Ai
3
5
7
i
np P 2 Ck k
np PP k
m
p
;
4
; P2km
6
j
np PP i
k
;
AC2ik
n
;
:
Das nicht indizierte Summenzeichen (Ziffer 2) låuft çber diejenigen Messwerte, die in der Untersuchung realisiert sind. Tabelle 11.30 zeigt, wie die Quadratsummen und Freiheitsgrade in diesem Fall bestimmt werden.
a11.4
407
Quadratische Anordnungen mit Messwiederholungen
Tabelle 11.30. Quadratsummen und Freiheitsgrade fçr ein sequentiell ausbalanciertes lateinisches Quadrat mit Messwiederholungen Q.d.V.
QS
C Fehlerzw A B Residual Fehlerin
5
7
3
4
6
2
stimmen nach der Untersuchung die fçr die einzelnen Kennziffern benætigten Summen auf Grund beider Datenmatrizen.
df
1
5
1
1
3
6
p 1 p
n 1 p 1 p 1
4
5 2
1 (p 1
p 2
7
5 p
n 1
p 1
Die Varianzschåtzungen ermitteln wir, indem die Quadratsummen durch die entsprechenden Freiheitsgrade dividiert werden. Haben alle Fak^2C an der r ^2Fehler
zw toren feste Stufen, werden die r 2 2 2 ^A sowie r ^B an der r ^Fehler
in getestet. Dieund die r ^2Res , getestet an se Tests setzen voraus, dass die r 2 ^Fehler
in, auf dem a 10% nicht signifikant der r ist. (Zu den speziellen Voraussetzungen von Messwiederholungsanalysen vgl. 9.3.) Ist p eine ungerade Zahl, sodass 2 sequentiell balancierte lateinische Quadrate eingesetzt werden mçssen, teilen wir die den Stufen des Faktors C zugewiesenen Stichproben in 2 Hålften und be-
BEISPIEL Vier Patientengruppen (Faktor C) des Umfangs n 3 erhalten çber den Tag verteilt (Faktor A: 4 Zeitpunkte) 4 Medikamente (Faktor B). Die Medikamente werden nach den in Tabelle 11.29 festgelegten Reihenfolgen verabreicht. Eine Stunde nach Einnahme der Medikamente wird die Temperatur (abhångige Variable) gemessen. Tabelle 11.31 zeigt die Messwerte sowie die Durchfçhrung dieser Varianzanalyse. Die Residualeffekte sind signifikant, d. h., es bestehen Interaktionen zwischen den Faktoren. Die beiden signifikanten Haupteffekte (Zeitpunkte und Medikamente) kænnen nur mit Vorbehalt interpretiert werden. Werden die Patienten nach dem Plan gemåû Tabelle 11.29 an mehreren Tagen untersucht, fassen wir die Messwerte der einzelnen Tage zusammen und rechnen eine Varianzanalyse çber die durchschnittlichen Messwerte. Wenn Verånderungen der abhångigen Variablen çber die Tage hinweg interessieren, erweitern wir die Varianzanalyse zu einem vierfaktoriellen unvollståndigen Plan (Faktor D Untersuchungstage). Eine åhnliche Versuchsanordnung wird bei Winer et al. (1991, S. 731 ff.) unter Plan 12 beschrieben.
Tabelle 11.31. Numerisches Beispiel fçr ein sequentiell ausbalanciertes lateinisches Quadrat mit Messwiederholungen
c1
c2
c3
c4
a1
a2
a3
a4
b1
b2
b4
b3
38,2 38,9 38,4
39,6 39,4 39,3
38,4 38,0 38,7
38,7 39,4 38,9
b2
b3
b1
b4
38,4 39,0 38,7
38,6 39,1 39,3
38,7 39,3 39,0
38,5 38,7 39,5
b3
b4
b2
b1
38,4 38,7 38,2
37,5 37,8 38,0
38,4 39,0 38,7
39,2 39,5 39,0
b4
b1
b3
b2
38,0 38,7 38,5
38,1 37,9 38,4
38,9 39,4 39,2
38,6 38,2 38,4
Pm
154,9 155,7 155,3
154,2 156,1 156,5
153,5 155,0 153,9
153,6 154,2 154,5
11
408
Kapitel 11 ´ Unvollståndige, mehrfaktorielle Versuchsplåne
Tabelle 11.31 (Fortsetzung) AC-Summen
c1 c2 c3 c4
B-Summen
a1
a2
a3
a4
b1
b2
b3
b4
115,5 116,1 115,3 115,2
118,3 117,0 113,3 114,4
115,1 117,0 116,1 117,5
117,0 116,7 117,7 115,2
464,6
465,7
466,8
460,3
A-Summen a2
a1
462,1 463,0
C-Summen
G 1857;4
a3
a4
c1
c2
c3
c4
465,7
466,6
465,9
466,8
462,4
462,3
1857;42 71873;641 3 42 2
2 38;2 38;92 38;42 38;42 71885;62
1
462;12 463;02 465;72 466;62 71874;788 34 2 2 2 2 464;6 465;7 466;8 460;3 71875;665
4 34 2 2 2 2 465;9 466;8 462;4 462;3
5 71875;008 34 2 2 2 115;5 118;3 115;1 . . . 115;22 71882;473
6 3 2 2 2 2 154;9 155;7 155;3 . . . 154;5 71876;250
7 4
3
11
Q.d.V.
QS
C Fehlerzw A B Residual Fehlerin
5
7
3
4
6
2
F
3;8;0;95 4;47
1 1;367
5 1;242
1 1;147
1 2;024
3
4
5 2
1 4;294
6
7
5 1;905
F
3;24;0;99 4;72
df
^2 r
F
p 13 p
n 1 8 p 13 p 13
p 1
p 2 6 p
n 1
p 1 24
0,456 0,155 0,382 0,675 0,716 0,079
2,94 4,84 8,54 9,06
F
6;24;0;99 3;67
ÛBUNGSAUFGABEN 1. Was versteht man unter geschachtelten Faktoren (¹nested factorsª)? 2. Erærtern Sie die Vor- und Nachteile (teil)-hierarchischer Versuchsplåne im Vergleich zu vollståndigen Versuchsplånen. 3. Die zu Beginn des Kap. 11.1 erwåhnte Untersuchung mæge gezeigt haben, dass die Versuchstiere nach den jeweiligen Konditionierungsphasen mit folgenden Håufigkeiten auf den konditionierten Reiz reagiert haben, ohne dass der unkonditionierte Reiz dargeboten wurde.
a1
a2
a3
b1
1
b2
1
b1
2
b2
2
b1
3
b2
3
18 16 16 22 19
19 17 17 16 11
16 18 15 17 17
17 15 16 15 14
9 11 10 10 8
9 9 7 11 8
Ûberprçfen Sie, ob sich die 3 Konditionierungsarten (Faktor A: feste Stufenauswahl) bzw. die 6 konditio-
11
409
aÛbungsaufgaben nierten Reize (Faktor B: zufållige Stufenauswahl) signifikant voneinander unterscheiden.
a1
4. Welche Nullhypothesen werden mit einer dreifaktoriellen, teilhierarchischen Varianzanalyse çberprçft, in der Faktor C unter Faktor B, aber nicht unter Faktor A geschachtelt ist?
8 12 9 12
11 11 7 12
7 9 7 6
6 10 9 9
10 13 10 12
11 11 10 14
9 9 13 11
13 8 7 8
8 8 9 9
6 7 9 6
12 13 10 12
12 14 13 15
10 7 10 9
7 9 13 12
11 10 6 6
9 7 6 7
12 13 12 13
15 12 15 11
5. In einem dreifaktoriellen, hierarchischen Plan haben alle 3 Faktoren eine zufållige Stufenauswahl. Wie lauten die Prçfvarianzen fçr die 3 Faktoren? 6. Was versteht man unter einem a) lateinischen Quadrat, b) griechisch-lateinischen Quadrat? 7. Erstellen Sie mit Hilfe zyklischer Permutationen eine Standardform eines lateinischen Quadrates fçr p 6. 8. Erlåutern Sie, warum lateinische Quadrate in Bezug auf die Haupteffekte vollståndig ausbalanciert sind. 9. Die folgenden 3 Faktoren sollen in ihrer Bedeutung fçr das Stimulationsbedçrfnis von Personen untersucht werden: Faktor A Beruf (Handwerker, Beamte, Kçnstler), Faktor B Wohngegend (låndlich, kleinstådtisch, groûstådtisch) und Faktor C Kærperbau (pyknisch, leptosom, athletisch). Die Faktoren werden gemåû der Standardform des lateinischen Quadrates fçr p 3 miteinander kombiniert, und jeder Faktorstufenkombination werden 8 Vpn zugewiesen. Zur Messung der abhångigen Variablen dient ein Test zur Erfassung von Stimulationsbedçrfnis. Die folgende Tabelle zeigt die Testergebnisse:
b1
b2
b3
a2
a3
Ûberprçfen Sie, von welchen Faktoren das Stimulationsbedçrfnis der Personen abhångt. 10. Als 4. Faktor soll im oben genannten Problem das Alter der Vpn (Faktor D: 21 bis 30 Jahre, 31 bis 40 Jahre, 41 bis 50 Jahre) mitberçcksichtigt werden. In welchen Kombinationen taucht die Stufe d1 (21 bis 30 Jahre) auf, wenn das lateinische Quadrat in Aufgabe 9 zu einem griechisch-lateinischen Quadrat erweitert wird? 11. Was versteht man unter einem sequentiell ausbalancierten lateinischen Quadrat?
411
Kapitel 12 Theoretische Grundlagen der Varianzanalyse
ÛBERSICHT Einfaktorielle Varianzanalyse mit festen und zufålligen Effekten ± zweifaktorielle Varianzanalysen (Modell I, II und III) ± dreifaktorielle Varianzanalyse ± Konstruktion von Quasi-F-Brçchen ± ¹Poolingª-Prozeduren ± einfaktorielle Varianzanalyse mit Messwiederholungen ± Homogenitåt der Kovarianzen ± mehrfaktorielle Analysen mit Messwiederholungen ± Kovarianzanalysen ± Analyse quadratischer Anordnungen ± allgemeine Regeln fçr die Bestimmung von Erwartungswerten fçr Varianzen in beliebigen Varianzanalysen
In den bisher behandelten Kapiteln des Teils II war die Darstellung vorwiegend darauf gerichtet, den Rechengang der einzelnen varianzanalytischen Verfahren mæglichst nachvollziehbar zu beschreiben. Auf Begrçndungen und theoretische Herleitungen, die vor allem die Art der Hypothesençberprçfung mit dem F-Test betreffen, wurde weitgehend verzichtet. Dieser theoretische Hintergrund soll in diesem Kapitel aufgearbeitet werden. (Diejenigen, die weniger an der Theorie der Varianzanalyse und mehr an Anwendungsmæglichkeiten interessiert sind, mægen dieses Kapitel çberschlagen.) Die in Kap. 7±11 behandelten Verfahren und deren Kombinationsmæglichkeiten erfassen einen groûen Teil der in der Forschungspraxis anfallenden varianzanalytischen Versuchsplåne. Die gesamte Anwendungsbreite varianzanalytischer Methoden kann jedoch erst voll genutzt werden, wenn zusåtzlich zu den Rechenregeln die Grundprinzipien der varianzanalytischen Hypothesenprçfung bekannt sind, deren Verståndnis allerdings einige theoretische Ûberlegungen voraussetzt. Den theoretischen Hintergrund der varianzanalytischen Methoden werden wir in der Reihenfolge der Kapitel von Teil II behandeln, d. h. unter 12.1 kommt zunåchst noch einmal die einfaktorielle Va-
rianzanalyse zur Sprache. Unter 12.2 werden wir die in Kap. 8 genannten Prçfvorschriften bei mehrfaktoriellen varianzanalytischen Plånen mit zufålligen und festen Faktoren sowie die Vorgehensweise bei der Konstruktion von Quasi-F-Brçchen und bei der Zusammenfassung von Interaktionsvarianzen mit der Fehlervarianz (pooling-procedures) begrçnden. Die Theorie der Messwiederholungsplåne, Kovarianzanalysen, (teil-)hierarchischen Plåne und lateinischen Quadrate werden Gegenstand der folgenden Abschnitte sein. Wir beenden dieses Kapitel und damit den Teil II mit einem allgemeinen Ansatz, der das Auffinden adåquater Prçfvarianzen bei beliebigen varianzanalytischen Versuchsplånen erleichtert.
12.1 Einfaktorielle Varianzanalyse In einer einfaktoriellen Varianzanalyse wird den p-Stufen eines Faktors jeweils eine Zufallsstichprobe aus einer Grundgesamtheit zugewiesen. Wiederholen wir die Untersuchung mit anderen Zufallsstichproben, werden nicht nur die einzelnen Messwerte xim , sondern auch die Mittelwerte Ai und G anders ausfallen. Ai und G sind Realisierungen von Zufallsvariablen, die mit wachsendem Stichprobenumfang gemåû dem zentralen Grenzwerttheorem normalverteilt sind (vgl. hierzu die Ausfçhrungen auf S. 93 f.). Fçhren wir die Untersuchung (theoretisch) mit Populationen durch, liefert uns die Varianzanalyse Populationsparameter. Das resultierende Gesamtmittel aller Messwerte kennzeichnen wir mit l, und die Mittelwerte der unter den einzelnen Faktorstufen i beobachteten Messwerte nennen wir li. Mit Hilfe der Methode der kleinsten Quadrate (bzw. mit der Maximum-likelihood-Methode, wenn ein Faktor zufållige Stufen hat) kann man
12
412
Kapitel 12 ´ Theoretische Grundlagen der Varianzanalyse
zeigen, dass G eine erwartungstreue Schåtzung von l und Ai eine erwartungstreue Schåtzung von li sind (vgl. 3.4 und zum Rechnen mit Erwartungswerten Anhang B): E
G l ;
12:1
E
Ai li :
12:2
Feste und zufållige Effekte Die Anzahl aller mæglichen Faktorstufen bzw. die Anzahl der Faktorstufen, auf die die Aussagen einer Untersuchung begrenzt sein sollen, sei P. Ist p P, sprechen wir von einem Faktor mit festen Effekten. Hier gilt die Beziehung l
p X i1
li =P :
12:3
Wåhlen wir hingegen eine Zufallsstichprobe aus P, sodass p sehr viel kleiner als P ist
p P; sprechen wir von einem Faktor mit zufålligen Effekten. Hier ist li eine Zufallsvariable mit dem Erwartungswert E
li l :
12
12:4
In diesem Fall gilt Gl. (12.3) nicht. Im Unterschied zum Modell mit festen Effekten werden in wiederholten Untersuchungen je nach Zufall andere Faktorstufen untersucht. Bei gençgend groûen Stichproben sind alle theoretischen li -Werte um l herum normalverteilt.
Die Wirkung einer Treatmentstufe i kennzeichnen wir durch folgenden Parameter: l:
12:5
si gibt somit an, in welchem Ausmaû eine Treatmentstufe in ihrer Wirkung vom Durchschnitt aller Treatmentstufen abweicht. P Hat ein Faktor eine feste Stufenauswahl, ist si 0. Bei zufålliger P i si Stufenauswahl ist si eine Zufallsvariable und i
im Allgemeinen ungleich Null. Zeigen alle TreatP si 0. mentstufen keine Wirkung, ist si bzw. Eine Messung xim setzt sich aus i folgenden Strukturkomponenten zusammen:
12:6
l ist fçr alle Beobachtungen xim konstant und kennzeichnet das untersuchungsspezifische allgemeine Messniveau. si beinhaltet die spezifische Wirkung der Treatmentstufe i und ist fçr alle Beobachtungen unter dieser Stufe konstant. eim ist die Realisierung einer Zufallsvariablen, die auf eine Vielzahl von Variationsquellen, die eine individuelle Messung xim beeinflussen, zurçckgeht. Wir bezeichnen eim als Fehlerkomponente einer Einzelmessung, die auf der Wirksamkeit von Stærvariablen beruht. Im Modell der Varianzanalyse wird vorausgesetzt, dass eim von si unabhångig ist, woraus sich die untersuchungstechnische Forderung ableitet, dass die einzelnen Untersuchungseinheiten den Treatmentstufen zufållig zugewiesen werden mçssen. Da l und si fçr alle Beobachtungen unter einer Treatmentstufe konstant sind, muss die Unterschiedlichkeit der Messwerte unter einer Treatmentstufe auf Fehlerkomponenten eim zurçckgefçhrt werden. Die Varianz innerhalb einer Treatmentstufe i entspricht deshalb der Fehlervarianz: r2i r2e
i :
12:7
Ausgehend von (12.6) ergibt sich fçr eim : eim xim
l
si ;
12:8
d. h. eim kann positiv oder negativ werden. Der Erwartungswert aller Fehlerkomponenten, die mit den unter einer Treatmentstufe beobachteten Messungen verbunden sind, ist Null: E
eim 0 :
Strukturkomponenten
si li
xim l si eim :
12:9
Da sich eim aus einer Vielzahl voneinander unabhångig wirkender Variablen zusammensetzt, wird angenommen, dass eim um Null normalverteilt ist (vgl. S. 78 f.). Werden die Untersuchungseinheiten den Treatmentstufen zufållig zugeordnet, ist damit zu rechnen, dass Art und Ausmaû der Wirkungsweise von Fehlerkomponenten unter allen Treatmentstufen gleich sind. Hieraus resultiert die folgende Varianzhomogenitåtsannahme: r2e
1 r2e
2 r2e
i r2e
P r2e
12:10
r2e kennzeichnet somit die unter allen Treatmentstufen beobachtete Fehlervarianz.
a12.1
Ûber die unterschiedlichen Wirkungen der einzelnen Treatmentstufen informiert der folgende Ausdruck: P 2 si r2s i p 1 P
li l2 i :
12:11 p 1 Gemåû der Nullhypothese erwarten wir, dass r2s 0 bzw. dass s1 s2 sp 0 oder l1 l2 lp ist. Fçr die ¹wahreª Fehlervarianz (Gl. 12.10) und die ¹wahreª Treatmentvarianz (Gl. 12.11) errechnen wir im Kontext einer einfaktoriellen Varianzanalyse nach den im Kap. 7 genannten Regeln Schåtzungen, von denen im Folgenden gezeigt wird, dass es sich hierbei um zwei voneinander unabhångige, erwartungstreue Schåtzungen fçr r2e handelt, sofern die H0 gilt. Wir behandeln zunåchst die einfaktorielle Varianzanalyse mit festen Effekten und anschlieûend die einfaktorielle Varianzanalyse mit zufålligen Effekten, wobei wir vorerst davon ausgehen, dass die Stichprobenumfånge gleichgroû sind.
Feste Effekte 1. Schåtzung fçr r2e . Die Varianz der in einer Untersuchung unter der Faktorstufe i beobachteten Messwerte lautet: P
xim Ai 2 ^2i r ^2Fehler
i m r :
12:12 n 1 Dies ist nach Gl. (B 27, Anhang B) eine erwartungstreue Schåtzung der Populationsvarianz auf ^2Fehler
i ist somit eider Basis von n-Messwerten. r ne erwartungstreue Schåtzung von r2e
i r2e . Eine bessere Schåtzung erhalten wir jedoch, wenn wir die Varianzschåtzungen unter den einzelnen Treatmentstufen unter der Voraussetzung der Varianzhomogenitåt zu einer gemeinsamen Varianz zusammenfassen. Bei dieser Zusammenfassung werden die Quadratsummen und Freiheitsgrade getrennt summiert. Fçr den Erwartungswert der Varianz unter einer Treatmentstufe gilt zunåchst: E
^ r2Fehler
i
E
QSFehler
i r2e : n 1
12
413
Einfaktorielle Varianzanalyse
12:13
Der Erwartungswert der Quadratsumme unter der Faktorstufe i lautet somit: E
QSFehler
i
n
1 r2e :
12:14
Summieren wir die Erwartungswerte der Quadratsummen aller Treatmentstufen, resultiert: E
QSFehler
X E
QSFehler
i i
X
n i
p
n
1 r2e 1 r2e :
12:15
^2Fehler : Wir entnehmen 7.1 die Definition fçr r ^2Fehler r
QSFehler p
n 1
12:16
und erhalten E
QSFehler p
n 1 p
n 1 r2e r2e : p
n 1
E
^ r2Fehler
12:17
Unter der Voraussetzung, dass die einzelnen Varianzen unter den Treatmentstufen homogen sind, ^2Fehler somit eine erwartungstreue Schåtzung stellt r von r2e dar. Bei dieser Ableitung wurde lediglich vorausgesetzt, dass die Stichproben aus Populationen mit gleichen Varianzen stammen. Ûber die Beschaffenheit der Mittelwerte der Populationen wurden keinerlei Annahmen gemacht.
2. Schåtzung fçr r2e . Die auf die Treatments zurçckgehende Unterschiedlichkeit der Messun^2treat erfasst: gen wurde in Kap. 7 durch die r ^2treat r
n
P i
G2
Ai
p
1
:
Wir wollen im Folgenden çberprçfen, welchen Erwartungswert diese Varianzschåtzung bei Gçltigkeit der H0 aufweist. Hierzu betrachten wir zu i erhalnåchst die Abweichungen
Ai G. Fçr A ten wir nach Gl. (12.6)
414
Kapitel 12 ´ Theoretische Grundlagen der Varianzanalyse
P Ai
m
xim
n
"
1 X
l si eim n m
nE
X
#
ei
e
2
E n
i
i
l s i ei :
2ne
Fçr G ermitteln wir PP G
i
bzw., da Null ist,
m
xim
P i
si fçr Faktoren mit festen Effekten
G l e:
E n n
wegen
P i
X i
Zusammengenommen erhalten wir fçr eine Abweichung
Ai G: G si ei
e
si
ei
e
12:18
bzw. fçr die Treatmentquadratsumme
12
QStreat n
X
n
i
n
e2
si
ei
i
X
s2i 2 n X
ei
X
X
X i
i
ei n p e
si
ei
e
i 2
e :
12:19
X
s2i n
"
s2i n E
#
ei e2
i
X
12:20 #
ei e2 :
i
Der rechte Ausdruck låsst sich in folgender Weise umformen:
X i
!
e2i
n p e2
E
e2i
n p E
e2
i
s2i
n p r2ei
n p r2e : (12.21)
r2ei und r2e sind quadrierte Standardfehler des durchschnittlichen Fehlers in Stichproben des Umfangs n bzw. p n. Wir ersetzen sie nach Gl. (B 23) X E
QStreat n s2i p r2e r2e i X
s2i
p
Wird Gl. (12.22) durch p X n s2i E
^ r2treat
i
n
n
X
i
Der Erwartungswert der Treatmentquadratsumme heiût somit wegen E
ei e 0: E
QStreat E n
! 2
Nach Gl. (B 21) (vgl. Anhang B, S. 709) ersetzen wir E
e2i durch r2ei l2e bzw., da le 0, durch r2ei . Fçr E
e2 schreiben wir entsprechend r2e . Wir erhalten damit fçr Gl. (12.20): X X s2i n r2ei n p r2e E
QStreat n
n
i
"
X
ei p e.
i
Ai
e2i
i
1 XX
l si eim pn i m 1 X si e l p i
pn
X
p
bzw., da si li
i
1
1 r2e :
12:22
1 dividiert, resultiert
r2e
l,
E
^ r2treat n r2s r2e :
12:23
^2treat ebenfalls eiTrifft die H0: r2s 0 zu, stellt die r ne erwartungstreue Schåtzung der Fehlervarianz ^2treat um dar. Ist die H0 falsch, vergræûert sich r denjenigen Varianzbetrag, der auf die verschiedenen Treatmentstufen zurçckzufçhren ist. ^ 2Fehler und r ^2treat zwei unabBei Gçltigkeit von H0 sind r hångige und erwartungstreue Schåtzungen fçr r2e .
a12.1
Wir kænnen r2e somit auf Grund der Daten auf zweierlei Weise schåtzen. Die beiden voneinander unabhångigen Schåtzungen sind bei Gçltigkeit der H0 bis auf zufållige Abweichungen identisch. Nach 5.1.5 wissen wir, dass der Quotient zweier voneinander unabhångiger Varianzschåtzungen F-verteilt ist. Mit dem F-Test ermitteln wir somit die ^2treat bei Gçltigkeit der Wahrscheinlichkeit, dass r H0 um einen bestimmten Betrag zufållig græûer ^2Fehler ist. Resultiert hierfçr ein Wert, der als die r kleiner als ein festgelegtes a-Niveau ist, verwerfen ^2treat stellt keine erwartungstreue wir die H0 : die r Schåtzung der r2e dar, sondern enthålt zusåtzlich Treatmenteffekte.
Zufållige Effekte Im Folgenden wenden wir uns den Erwartungs^2Fehler und r ^2treat unter der Annahme werten von r zufålliger Effekte zu.
1. Schåtzung fçr r2e . Da bei der Herleitung von E
^ r2Fehler P die fçr feste Faktorstufen geltende Beziehung si 0 nicht zum Tragen kam, ist die i 2 ^Fehler auch dann eine erwartungstreue Schåtzung r von r2e , wenn die Faktorstufen zufållig ausgewåhlt sind. 2. Schåtzung fçr r2e . Auch fçr Faktoren mit zufålligen Effekten gehen wir von der bereits bekann^2treat aus und ten Berechnungsvorschrift fçr die r betrachten zunåchst eine Abweichung
Ai G. Fçr Ai resultiert nach Gl. (12.6): Ai l si ei : Da fçr zufållige Effekte G P si i e Gl p lse
P
12:24 si 6 0, erhalten wir fçr
12:25
" E
QStreat E n
X
#
si
s
ei
i
nE
X
e
2
!
si
s
2
i
!
X
si 2nE
s
ei
i
nE
X
ei
e
! e
2
:
12:27
i
Wegen der Unabhångigkeit von Treatment- und Fehlereffekten entfållt der zweite Ausdruck. Die si -Werte im ersten Ausdruck konstituieren eine Zufallsstichprobe von Treatmenteffekten. Dividieren wir beide Seiten von Gl. (12.27) durch p 1, resultiert fçr den ersten Ausdruck P nE
si s2 i
12:28 n r2s p 1 mit r2s als Varianz der s-Effekte. Fçr den dritten Ausdruck erhalten wir nach Division durch p 1 P 2 nE
ei e i n r2ei :
12:29 p 1 r2ei ist der Standardfehler der durchschnittlichen Fehlerkomponente von n-Messungen unter Treatment i. Fçr ihn schreiben wir nach Gl. (B 23) r2ei
r2e n
12:30
bzw. n r2ei r2e :
12:31
Fçr die linke Seite von Gl. (12.27) erhalten wir E
QStreat E
^ r2treat ; p 1
12:32
d. h., es resultiert zusammenfassend
bzw.
Ai
12
415
Einfaktorielle Varianzanalyse
G
si
s
ei
e :
12:26
Der Erwartungswert der Treatmentquadratsumme errechnet sich damit zu
E
^ r2treat n r2s r2e :
12:33
Auch bei Faktoren mit zufålligen Effekten schåtzt ^2treat bei Gçltigkeit der H0: r2s 0 die Fehlerdie r varianz. Die statistische Ûberprçfung der Nullhypothese erfolgt auch hier wie im Fall fester Fak^2treat =^ torstufen durch den F-Test: F r r2Fehler .
416
Kapitel 12 ´ Theoretische Grundlagen der Varianzanalyse
Tabelle 12.1. Erwartungswerte fçr die Varianzen in der einfaktoriellen Varianzanalyse Q.d.V.
Erwartungswert der Varianzen
Treatment
r2e n r2s
Fehler
r2e
Die Fehlervarianz ist fçr Faktoren mit festen und zufål^ 2treat. ligen Effekten die adåquate Prçfvarianz fçr r
Ungleich groûe Stichproben. Die Ableitungen bezogen sich bisher auf den Fall, dass allen Faktorstufen gleich groûe Stichproben zugewiesen wurden. Sind die Stichprobenumfånge ungleich groû, ergeben sich ± zumindest fçr Faktoren mit festen Effekten ± nur geringfçgige Modifikationen. Bei der Herleitung von E
^ r2Fehler und E
^ r2treat wird jeweils n durch ni und n p durch N ersetzt. Es resultieren auch fçr ungleich groûe Stichproben bei Faktoren mit festen oder zufålligen Effekten die in Tabelle 12.1 zusammengefassten Erwartungswerte der Varianzen.
lj Durchschnittswert der Faktorstufe bj (geschåtzt durch Bj ) l Gesamtdurchschnittswert (geschåtzt durch G). Die Wirkungsweise einer Faktorstufe ai kennzeichnen wir wie in der einfaktoriellen Varianzanalyse durch die Abweichung des li -Wertes von l: ai li
l:
12:34
ai ist der spezifische Effekt der Stufe ai . Mit der Varianzanalyse çberprçfen wir die H0 : a1 a2 ai ap 0 bzw. l1 l2 li lp : Die vereinfachte Schreibweise der H0 lautet: r2a 0 : b j stellt den spezifischen Effekt der Stufe bj dar: b j lj
l:
12:35
Die H0 bezçglich des Faktors B lautet: b1 b2 bj bq 0
12.2 Zwei- und mehrfaktorielle Varianzanalysen
12
In der zweifaktoriellen Varianzanalyse werden zwei Haupteffekthypothesen und eine Interaktionshypothese geprçft. Ziel der folgenden Ausfçhrungen ist es, die in der Tabelle 8.7 genannten Prçfvarianzen fçr diese Hypothesen zu begrçnden. Hierbei ist zwischen Modell I (beide Faktoren mit festen Effekten), Modell II (ein Faktor mit festen und ein Faktor mit zufålligen Effekten) sowie Modell III (beide Faktoren mit zufålligen Effekten) zu unterscheiden.
Strukturkomponenten Fçr die Populationsparameter einer zweifaktoriellen Varianzanalyse vereinbaren wir folgende Terminologie: lij = Durchschnittswert der Faktorstufenkombination abij (geschåtzt durch ABij ) li = Durchschnittswert der Faktorstufe ai (geschåtzt durch Ai )
bzw. l1 l2 . . . lj . . . lq : Diese Schreibweisen sind åquivalent mit der H0 : r2b 0 : Die Interaktionswirkung der Kombination abij erhalten wir, indem von lij l die Effekte der Stufen ai und bj (ai und b j ) abgezogen werden: abij
lij
l
ai b j
lij
l
li
lij
li
l lj
lj l :
l
12:36
Fçr alle Messwerte, die unter einer Faktorstufenkombination beobachtet werden, sind die Komponenten l, ai , b j und abij konstant. Unterschiede zwischen den Messwerten innerhalb einer Zelle werden auf Fehlereffekte zurçckgefçhrt. Die Fehlereffekte, die eine Messung xijm beeinflussen, werden im Ausdruck eijm zusammengefasst. Wir setzen voraus, dass die Fehlerkomponenten in allen Zellen gleichermaûen wirksam sind (Homogenitåt der Fehlervarianz), sodass die Beziehung
a12.2
PP
r2e
i;j r2e
i r2e
j r2e erfçllt ist. Es wird wieder unterstellt, dass sich die Fehlereffekte aus der Wirkungsweise vieler, voneinander unabhångiger Stærvariablen zusammensetzen, sodass sich die Fehlerkomponenten in jeder Zelle um Null normalverteilen. Sind die Fehlerkomponenten von den Haupteffekten und der Interaktion unabhångig, was durch die randomisierte Zuweisung der Vpn gewåhrleistet wird, setzt sich ein Messwert xijm aus folgenden Strukturkomponenten zusammen: xijm l ai b j abij eijm :
12:37
E
^ r2Fehler
Der Erwartungswert der Varianz der Messwerte einer Zelle ij ist nach Gl. (B 34) gleich der Summe der Varianzen derjenigen voneinander unabhångigen Komponenten, aus denen sich ein Messwert xijm zusammensetzt. Da jedoch nach Gl. (12.37) l, ai , b j und abij fçr alle Messwerte einer Zelle konstant sind, erhalten wir den folgenden Erwartungswert fçr die Varianz der Messwerte in einer Zelle ij:
12:39
ist laut Homogenitåtsvoraussetzung fçr alle Zellen gleich. Der Durchschnitt der Fehlervarianzschåtzungen aller Zellen, den wir in der zweifaktoriellen Varianzanalyse als beste Schåtzung von r2e heranziehen, lautet somit:
j
EVARij
xijm
12:40
p q
^2Fehler ist eine erwartungstreue Schåtzung von r2e . r
^2A als Schåtzung fçr r2e . Bei dieser Schåtzung ber nutzen wir nur diejenigen Informationen, die in den Mittelwerten des Faktors A enthalten sind. i erhalten wir Fçr den Stichprobenmittelwert A nach Gl. (12.37): XX m
xijm =
q n
1 XX xijm qn j m 1 XX
l ai b j abij eijm qn j m P P bj ab ij
Fçr die Varianzanalyse mit zwei festen Faktoren ^2A , r ^2B und r ^2AB bei Gçltigkeit ist zu zeigen, dass r der jeweiligen H0 erwartungstreue Schåtzungen der Fehlervarianz r2e darstellen. Zunåchst jedoch ^2Fehler eine erwarsoll çberprçft werden, ob die r 2 tungstreue Schåtzung von re darstellt.
r2e
ij
j
^2Fehler als Schåtzung fçr r2e . Die Fehlervarianzr ^2Fehler geht von den quadrierten Abweischåtzung r chungen der Messwerte innerhalb einer Zelle ij aus. Fçr die Fehlervarianzschåtzung innerhalb einer Zelle schreiben wir P
xijm ABij 2 m VARij
xijm :
12:38 n 1
i
r2e
ij r2e :
i A
Modell I
EVARij
xijm r2e
ij :
12
417
Zwei- und mehrfaktorielle Varianzanalysen
j
l ai
q
j
ei :
q
12:41
Haben die Faktoren A undPB feste Stufen (Modell I in Tabelle 8.7), ist l lj =q. Da b j lj l, j
ergibt die Summe aller b j-Effekte Null: X X X bj
lj l lj q l 0 : j
j
j
Entsprechendes gilt, ausgehend von Gl. (12.36), fçr die Interaktionskomponenten ab ij unter einer Stufe ai : X X ab ij
lij li lj l j
j
X j
lij
q li
X
q li q li
j
lj q l
qlql
0: Unter der Modellannahme Gl. (12.41) zu: Ai l ai ei :
I
reduziert
sich
12:42
Da l fçr alle Ai konstant ist, und ai und ei wechselseitig unabhångig sind, ergibt sich der Erwartungswert der Varianz der Ai-Werte additiv aus
418
Kapitel 12 ´ Theoretische Grundlagen der Varianzanalyse
den Varianzen der ai -Komponenten und der ei -Komponenten (vgl. Gl. B 33): EVAR
Ai r2a r2e
i :
12:43
r2e
i kennzeichnet den Standardfehler (bzw. dessen Quadrat) der durchschnittlichen Fehlerkomponenten, der jeweils auf n q Messwerten (den Messwerten unter einer Stufe des Faktors A) basiert. Nach Gl. (B 23) schreiben wir fçr r2e
i : r2
12:44 r2e
i e : qn Fçr die Varianz der Mittelwerte Ai erhalten wir deshalb r2
12:45 EVAR
Ai e : qn ^2A besteht folgende BezieZwischen VAR
A und r hung: P q n
Ai G2 i ^2A q n VAR
Ai : r p 1 r2a
^2A lautet deshalb: Der Erwartungswert fçr r E
^ r2A n q r2a r2e :
12:46
H0: r2a
Trifft die 0 zu, erhålt man mit Gl. (12.46) eine weitere Schåtzung der Fehlervarianz.
12
^2B als Schåtzung fçr r 2e . Fçr diese Schåtzung r hen wir von den Mittelwertsunterschieden Stufen des Faktors B aus. Die Herleitung des ^2A. wartungswertes E
^ r2B entspricht der fçr r Unter der Modellannahme I schreiben wir einen Mittelwert Bj : Bj l b j ej :
geder Erfçr
12:47
Der Erwartungswert fçr die Varianz der Bj-Werte heiût: EVAR
Bj r2b
r2e : pn
12:48
^2B , resultiert: Ûberfçhren wir VAR
Bj in r E
^ r2B n p r2b r2e : ^2B r
12:49 H0: r2b
stellt also bei Gçltigkeit der weitere Fehlervarianzschåtzung dar.
0 eine
^2A´B als Schåtzung fçr r2e . Fçr die Herleitung des r ^2AB beginnen wir mit den Erwartungswertes fçr r Zellenmittelwerten ABij . Es gilt: X ABij xijm =n m
1 X
l ai b j ab ij eijm n m l ai b j abij eij :
12:50
Werden aus den Zellenmittelwerten die ai - und b j -Komponenten abgezogen, erhalten wir
ABij ABij
ai
bj
l ab ij eij :
12:51
(Man beachte, dass ABij nicht mit AB0ij in Gl. 8.6 identisch ist.) Der Erwartungswert der Varianz der ABij -Werte lautet also nach Gl. (B 34) und (B 24):
EVAR
ABij r2ab r2e
ij r2e :
12:52 n ^2AB besteht die BezieZwischen VAR
ABij und r hung: PP n
ABij Ai Bj G2 r2ab
^2AB r
i
j
p 1
q 1 PP n
ABij G2 i
p
n
j
1
q
1
VAR
ABij :
^2AB heiût somit: Der Erwartungswert von r
E
^ r2AB n EVAR
ABij n
r2ab
r2e
12:53
:
^2AB schåtzt bei Gçltigkeit der H0: r2AB 0 die r Fehlervarianz. Zusammenfassend errechnen wir somit in der zweifaktoriellen Varianzanalyse eine unbedingte (direkte) und drei bedingte Fehlervarianzschåtzungen. Die drei bedingten Fehlervarianzschåt^2B und r ^2AB sind erwartungstreue zungen
^ r2A ; r 2 Schåtzungen von re , wenn die entsprechenden Nullhypothesen zutreffen. Sind die Nullhypothesen falsch, werden die bedingten Fehlervarianzschåtzungen um denjenigen Betrag græûer als r2e
a12.2
Tabelle 12.2. Erwartungswerte fçr die Varianzen in der zweifaktoriellen Varianzanalyse (Modell I) Q.d.V.
Erwartungswert der Varianzen
Faktor A
r2e n q r2a
Faktor B
r2e n p r2b
Interaktion A B
r2e n r2ab
Fehler
r2e
sein, der auf den jeweiligen Haupteffekt oder die Interaktion zurçckzufçhren ist. Alle drei Nullhypothesen kænnen also çber den F-Test mit ^2Fehler als Prçfvarianz getestet werden. r Haben in einer zweifaktoriellen Varianzanalyse beide Faktoren feste Effekte, werden beide Faktoren und ihre Interaktion an der Fehlervarianz getestet.
Die Erwartungswerte der Varianzen in der zweifaktoriellen Varianzanalyse fassen wir in Tabelle 12.2 zusammen.
ergeben mçssen. Wir definieren deshalb P bj =q b als durchschnittliche Wirkung der im j
Experiment realisierten Faktorstufen. P Das Gleiche gilt fçr den Ausdruck abij =q. j
Auch dieser Wert muss sich çber die einzelnen Stufen des Faktors B nicht zu Null addieren. Zusåtzlich ist die durchschnittliche Interaktionswirkung der Stufen von B mit einer Stufe ai0 nicht gleich der durchschnittlichen Interaktionswirkung der P StufenPvon B mit einer anderen Stufe ai , d. h., abij 6 abi0 j . Wir definieren deshalb mit abi j
j
die durchschnittliche Interaktionswirkung der Stufen des Faktors B mit der Stufe ai . Nach (Gl. 12.41) schreiben wir also fçr Ai : Ai l ai b abi. ei :
Aus didaktischen Grçnden behandeln wir als nåchstes Modell III (nur zufållige Effekte) und anschlieûend Modell II. In Modell III sind p P und q Q (vgl. S. 412).
^2Fehler als Schåtzung fçr r2e . Die Ableitung des Err ^2Fehler war unabhångig davon, wartungswertes fçr r ^2Fehler ist ob die Faktoren fest oder zufållig sind. r somit auch unter der Modellannahme III eine erwartungstreue Schåtzung fçr r2e . 2 ^2A als Schåtzung fçr r2e + n ´ rab . Beim Erwarr 2 ^A unterP tungswert P fçr r Modell I gingen wir davon aus, dass b j =q und ab ij =q jeweils Null erge-
j
j
ben (vgl. Gl. 12.41). Dies ist jedoch bei Faktoren mit zufålligen Effekten nicht der Fall. Dieses Modell basiert auf der Annahme, dass alle b j und alle abij um Null normalverteilte Zufallsvariablen sind. Aus der Population aller Faktorstufen des Faktors B, deren Einzeleffekte b j sich çber alle Q Stufen zu Null addieren, wird eine Zufallsstichprobe q Q gezogen, die eine Teilmenge aller b j -Effekte repråsentiert und die summiert keineswegs Null
12:54
Der Erwartungswert der Varianz der Ai-Werte setzt sich additiv aus denjenigen Komponenten zusammen, die unabhångig voneinander fçr verschiedene i variieren (kurz: denjenigen Komponenten, die mit dem Index i versehen sind): EVAR
Ai r2a r2ab
i. r2e
i :
Modell III
12
419
Zwei- und mehrfaktorielle Varianzanalysen
12:55
Diese Gleichung enthålt das Quadrat von 2 Standardfehlern. r2ab
i. ist die Varianz der durchschnittlichen Interaktionswirkungen von q unter der Stufe ai befindlichen Interaktionskomponenten. Unter Verwendung von (B 23) schreiben wir deshalb: r2ab
i.
r2ab q
:
12:56
r2ab ist die Interaktionsvarianz in der Population aller Faktorstufen, aus der ¹Stichprobenª des Umfangs q gezogen werden. Fçr r2e
i schreiben wir gemåû Gl. (12.44) wieder r2e =
q n. Fçr Gl. (12.55) erhalten wir somit: EVAR
Ai r2a
r2ab q
r2e : nq
12:57
Mit den Ûberlegungen, die zu Gl. (12.46) fçhrten, ergibt sich fçr E
^ r2A : E
^ r2A n q EVAR
Ai n q r2a n r2ab r2e :
12:58
^2A die VaBei Gçltigkeit der H0: r2A 0 wird mit r rianzsumme r2e n r2ab geschåtzt.
420
Kapitel 12 ´ Theoretische Grundlagen der Varianzanalyse
^2B als Schåtzung fçr r2e +n ´ r2ab. Die Herleitung r ^2A låsst sich analog des Erwartungswertes von r 2 ^B çbertragen. Das Ergebnis lautet: auf r E
^ r2B n p EVAR
Bj n p r2b n r2ab r2e :
12:59
^2B bei GçltigUnter Modell III schåtzt die Varianz r 2 keit der H0: rB 0 die Varianzsumme r2e n r2ab .
^2A´B als r E
^ r2AB
2
Schåtzung fçr re . In die Herleitung der unter Modell I gingen keinerlei Annahmen çber die Art der Faktorstufen von A und B ^2AB somit bei ein. Auch im Modell III stellt die r 2 Gçltigkeit der H0: rab 0 eine erwartungstreue Schåtzung von r2e dar:
E
^ r2AB n EVAR
ABij n r2ab r2e :
12
12:60
Die Erwartungswerte sind in Tabelle 12.3 zusammengefasst. Der Tabelle entnehmen wir, dass die beiden Haupteffekte an der Interaktionsvarianz und die Interaktion an der Fehlervarianz getestet werden. Diese Prçfregeln sind eine Folge der Erwartungswerte der Varianzen im Modell III. Wenn z. B. die H0: r2A 0 nicht zutrifft, wird die Zåhlervarianz des F-Bruchs genau um den Betrag græûer sein als die Nennervarianz, der auf die Wirksamkeit des Faktors A zurçckgeht. Die allgemeine Regel fçr die Konstruktion eines F-Testes lautet: Der F-Bruch muss so geartet sein, dass sich die Varianzkomponenten des Zåhlers nur um den zu prçfenden Effekt von denen des Nenners unterscheiden.
Tabelle 12.3. Erwartungswerte fçr die Varianzen in der zweifaktoriellen Varianzanalyse (Modell III: alle Faktoren zufållig)
Modell II Unter der Modellannahme II hat ein Faktor feste Effekte (z. B. Faktor A) und der andere Faktor zufållige Effekte (Faktor B). Unter Verweis auf die Modelle I und III kænnen wir uns bei diesem Modell mit einer kurzen Herleitung der Erwartungswerte fçr die Varianzen begnçgen.
^2Fehler als Schåtzung fçr r2e . Wie in den Modellen I r ^2Fehler auch im Modell II eine erwarund III ist r tungstreue Schåtzung von r2e . ^2A als Schåtzung fçr r2e + n ´ r2ab . Da jede Stufe des r Faktors A mit q Q zufållig ausgesuchten Stufen des Faktors B kombiniert ist, gilt Gl. (12.54) und ^2A ist unter der Modelldamit auch Gl. (12.58). r annahme II eine erwartungstreue Schåtzung fçr r2e n r2ab , wenn die H0: r2a 0 zutrifft. ^2B als Schåtzung fçr r2e . Auf Faktor B trifft die in r den Gl. (12.47) bis (12.49) dargestellte Ableitung zu. Jede Stufe des Faktors B ist mit allen mæglichen pP P Stufen von A P kombiniert, sodass so^2B ist wohl ai 0 als auch abij 0 sind. r i
i
unter der Annahme H0: r2b 0 eine erwartungstreue Schåtzung von r2e .
^2A´B als Schåtzung fçr r2e . Wie in den Modellen I r ^2AB eine erwartungstreue Schåtzung und III ist r 2 fçr re , wenn die H0: r2ab 0 gilt. Die Varianzkomponenten fçr Modell II sind in Tabelle 12.4 zusammengefasst. Wenden wir die genannte Regel fçr die Konstruktion von F-Brçchen auf dieses Ergebnis an, erkennt man, dass ± wie ^2A an der Interaktiin Tabelle 8.7 vorgegeben ± r 2 ^B sowie r ^2AB an der Fehleronsvarianz und r varianz getestet werden.
Tabelle 12.4. Erwartungswerte fçr die Varianzen in der zweifaktoriellen Varianzanalyse (Modell II: A fest, B zufållig)
Q.d.V.
Erwartungswert der Varianzen
Q.d.V.
Erwartungswert der Varianzen
Faktor A
r2e n r2ab n q r2a
Faktor A
r2e n r2ab n q r2a
Faktor B
r2e n r2ab n p r2b
Faktor B
r2e n p r2b
Interaktion A B
r2e r2e
Interaktion A B
r2e n r2ab
Fehler
r2e
Fehler
n
r2ab
a12.2
12
421
Zwei- und mehrfaktorielle Varianzanalysen
Verallgemeinerungen Ein Vergleich der Tabellen 12.2±12.4 zeigt, dass sich die Varianzkomponenten der Haupteffekte in Abhångigkeit davon, welche Faktoren fest und welche zufållig sind, unterscheiden. Die Varianzkomponenten fçr die Interaktionsvarianz und die Fehlervarianz sind unter allen 3 Modellannahmen identisch. Die Interaktion r2ab ist im Haupteffekt A enthalten, wenn B zufållige Stufen hat, unabhångig davon, ob A fest oder zufållig ist. Ebenso ist die r2ab im Haupteffekt B enthalten, wenn A zufållige Stufen hat, wobei die Beschaffenheit des Faktors B fçr seine Varianzkomponenten ebenfalls keine Rolle spielt. Um die Tabellen 12.2 ± 12.4 zusammenzufassen, definieren wir fçr Faktor A einen Auswahlsatz fP p=P und fçr Faktor B fq q=Q. Fçr Faktoren mit festen Effekten ist p P (bzw. q Q) und damit fp 1
fq 1. Fçr Faktoren mit zufålligen Effekten nehmen wir an, die Zahl der ausgewåhlten Faktorstufen sei im Verhåltnis zur Græûe der Population aller Faktorstufen sehr klein, sodass wir fp 0 (bzw. fq 0) setzen kænnen. Hiervon Tabelle 12.5. Erwartungswerte fçr die Varianzen in der zweifaktoriellen Varianzanalyse (allgemeiner Fall) Q.d.V.
Erwartungswert der Varianzen
Faktor A
r2e Dq n r2ab n q r2a
Faktor B
r2e Dp n r2ab n p r2b
Interaktion A B
r2e n r2ab
Fehler
r2e
ausgehend, definieren wir Dq 1 fq ). Es gilt dann Dp Dp Dq Dq
0 1 0 1
fçr fçr fçr fçr
Faktor Faktor Faktor Faktor
Dp 1
fp
(bzw.
A mit festen Effekten, A mit zufålligen Effekten, B mit festen Effekten, B mit zufålligen Effekten.
Unter Verwendung dieser D-Gewichte fasst Tabelle 12.5 die Tabellen 12.2±12.4 zusammen. Dieser Tabelle sind die Erwartungswerte der Varianzen fçr beliebige Kombinationen von Faktoren mit festen bzw. zufålligen Effekten zu entnehmen.
Mehrfaktorielle Plåne. Die Herleitung der Erwartungswerte der Varianzen in mehrfaktoriellen Versuchsplånen erfolgt ebenso wie in der zweifaktoriellen Varianzanalyse. Wir wollen deshalb auf ausfçhrliche Ableitungen verzichten und uns nur mit dem Ergebnis befassen. (Bei der Ableitung des Erwartungswertes der Varianz fçr die Interaktion 2. Ordnung ist darauf zu achten, dass von der Zellenvarianz sowohl die 3 Haupteffekte als auch die 3 Interaktionen 1. Ordnung subtrahiert werden. Im vierfaktoriellen Fall werden von der Zellenvarianz die Haupteffekte, die Interaktionen 1. und die Interaktionen 2. Ordnung abgezogen.) Tabelle 12.6 enthålt die Erwartungswerte fçr die Varianzen einer dreifaktoriellen Varianzanalyse. Hat Faktor C zufållige Stufen, setzen wir Dr 1. Fçr feste Stufen ist Dr 0. Haben alle Faktoren feste Stufen
Dp Dq Dr 0, bestehen die Erwartungswerte der Haupteffekte, der Interaktionen 1. Ordnung und der Tripel-Interaktion aus dem zu testenden Effekt und der Fehlervarianz. Wie in Tabelle 8.11 bereits erwåhnt,
Tabelle 12.6. Erwartungswerte fçr die Varianzen in der dreifaktoriellen Varianzanalyse Q.d.V.
Erwartungswert der Varianzen
Faktor A
r2e Dq Dr nr2abc Dq rnr2ab Dr qnr2ac qrnr2a
Faktor B
r2e Dp Dr nr2abc Dp rnr2ab Dr pnr2bc prnr2b
Faktor C
r2e Dp Dq nr2abc Dp qnr2ac Dq pnr2bc pqnr2c
Interaktion A B
r2e Dr nr2abc rnr2ab
Interaktion A C
r2e Dq nr2abc qnr2ac
Interaktion B C
r2e Dp nr2abc pnr2bc
Interaktion A B C
r2e nr2abc
Fehler
r2e
422
Kapitel 12 ´ Theoretische Grundlagen der Varianzanalyse
werden deshalb in diesem Fall såmtliche Effekte an der Fehlervarianz getestet. BEISPIEL Tabelle 12.7 zeigt die Erwartungswerte fçr den Fall, dass die Faktoren A und B zufållig
Dp 1; Dq 1 und die Stufen des Faktors C fest sind
Dr 0.
Beim Auffinden der adåquaten Prçfvarianzen wenden wir die bereits bekannte Regel an, dass die Varianzkomponenten des Zåhlers nur um den zu testenden Effekt von denen des Nenners verschieden sein dçrfen. Fçr den Faktor A suchen wir somit eine Varianz, die die Komponenten r2e rnr2ab enthålt. Dies sind die Komponenten ^2AB ist somit die adåquader A B-Interaktion. r te Prçfvarianz fçr den Faktor A. Das Gleiche gilt fçr den Faktor B. Fçr Faktor C benætigen wir eine Prçfvarianz mit den Komponenten r2e nr2abc qnr2ac pnr2bc . Eine Varianz, deren Erwartungswert nur diese Komponenten enthålt, wird jedoch in der Varianzanalyse nicht ermittelt. Der feste Faktor C ist somit nicht direkt testbar. Wie man in diesem Fall mit dem Faktor C umgeht, wird weiter unten erlåutert (Quasi-F-Brçche bzw. ¹pooling proceduresª). Die Prçfvarianzen fçr die Interaktionen sind leicht zu ermitteln. Wir testen
12 und
Quasi-F-Brçche Falls ein Effekt nicht direkt testbar ist, sollte geprçft werden, ob ein Quasi-F-Bruch konstruierbar ist. Dabei werden Varianzen zåhler- und nennerweise so zusammengefasst, dass die Varianzkomponenten des Zåhlers nur um den zu testenden Effekt von denen des Nenners verschieden sind. Ausgehend von dieser Regel wollen wir çberprçfen, ob fçr Faktor C in Tabelle 12.7 ein Quasi-F-Bruch konstruiert werden kann. Dazu fassen wir E
^ r2C und E
^ r2ABC zusammen. Das Resultat lautet: r2ABC r2e nr2abc qnr2ac E
^ r2C E
^ pnr2bc pqnr2c r2e nr2abc 2r2e 2nr2abc qnr2ac pnr2bc pqnr2c : Es wird nun eine Prçfvarianz konstruiert, deren r2ABC idenVarianzkomponenten mit E
^ r2C E
^ 2 tisch sind bis auf rc . Wir erhalten diese Varianzkomponenten, wenn wir E
^ r2AC und E
^ r2BC zusammenfassen: r2BC r2e nr2abc E
^ r2AC E
^ qnr2ac r2e nr2abc pnr2bc
^2AB r
^2Fehler ; an r
^2AC r
^2ABC ; an r
^2BC r
^2ABC an r
^2ABC r
^2Fehler : an r
2r2e 2nr2abc qnr2ac pnr2bc :
Tabelle 12.7. Erwartungswerte fçr die Varianzen in der dreifaktoriellen Varianzanalyse (A und B zufållig, C fest) Q.d.V.
Erwartungswert der Varianzen
Faktor A
r2e rnr2ab qrnr2a
Faktor B
r2e rnr2ab prnr2b
Faktor C
r2e nr2abc qnr2ac pnr2bc pqnr2c
Interaktion AB
r2e rnr2ab
Interaktion AC
r2e nr2abc qnr2ac
Interaktion BC
r2e nr2abc pnr2bc
Interaktion ABC
r2e nr2abc
Fehler
r2e
a12.3
Vergleichen wir diese Summen, stellen wir fest, dass sich die Zåhlerkomponenten und Nennerkomponenten nur um den zu prçfenden Effekt r2c unterscheiden. Wir testen somit den Faktor C durch folgenden Quasi-F-Bruch: F0
^2ABC ^2C r r : 2 ^2BC ^AC r r
Dieser F0-Wert wird mit dem fçr die korrigierten Freiheitsgrade kritischen F-Wert verglichen (s. Gl. 8.52 und 8.53). Nach diesem relativ einfachen Schema lassen sich ± falls notwendig ± Quasi-F-Brçche auch in komplexeren mehrfaktoriellen Varianzanalysen mit festen und zufålligen Effekten konstruieren.
¹Poolingª-Prozeduren Im obigen Beispiel stellten wir fest, dass der Faktor C nicht direkt testbar ist. Eine Alternative zur Konstruktion eines Quasi-F-Bruchs ist das Zusammenfassen (¹Poolingª) unbedeutender Interaktionsvarianzen mit der Fehlervarianz oder anderen Prçfvarianzen, wenn an der fraglichen Interaktion Faktoren mit zufålligen Effekten betei^2AC zu testen, ligt sind. Faktor C wåre an der r falls sich zeigen lieûe, dass die ¹stærendeª Varianzkomponente r2bc zu vernachlåssigen ist. Wir ^2BC an r ^2ABC mit a 0;25. Solltesten deshalb r 2 ^BC in diesem Test als statistisch unbete sich r ^2AC zusamdeutend erweisen, kænnte sie mit der r mengefasst werden, indem der Quotient aus der Summe der Quadratsummen und der Summe der Freiheitsgrade gebildet wird. Die so errechnete Varianz hat
p 1
r 1
q 1
r 1 ^2C Freiheitsgrade und kann als Prçfvarianz fçr r eingesetzt werden. Das allgemeine Prinzip låuft darauf hinaus, die Angemessenheit des jeweiligen Erwartungswertmodells einer Varianz empirisch zu prçfen, um ggf. unbedeutende Varianzkomponenten aus dem Modell zu entfernen. Nach dieser Reduktion findet sich mæglicherweise eine adåquate Prçfvarianz, deren Freiheitsgrade durch ¹poolingª um die Freiheitsgrade des unbedeutenden Effektes erhæht werden (fçr das praktische Vorgehen beachte man allerdings die Hinweise auf S. 315).
12
423
Varianzanalysen mit Messwiederholungen
12.3 Varianzanalysen mit Messwiederholungen Einfaktorielle Analysen In der einfaktoriellen Varianzanalyse mit Messwiederholungen wird eine Zufallsstichprobe von n Vpn unter p Faktorstufen wiederholt beobachtet. Ein Messwert setzt sich in diesem Fall aus folgenden Strukturkomponenten zusammen: xim l ai pm apim eim ;
12:61
wobei: l Gesamtmittel. ai spezifische Wirkung der Treatmentstufe i. ai ist fçr alle Messwerte unter der Treatmentstufe i konstant. Hat der Faktor P eine feste Stufenauswahl (p P), ist ai 0; P i andernfalls ist ai 6 0. i
pm spezifische Reaktionsweise der Person m. pm ist çber alle Stufen des Faktors A konstant. Unterschiede der pm-Werte kennzeichnen A-priori-Unterschiede zwischen den Vpn. Es wird angenommen, dass pm çber alle Personen um Null normalverteilt ist und dass die Personen zufållig ausgewåhlt wurden. apim spezifische Reaktionsweise der Person m auf die Faktorstufe i. Es wird angenommen, dass die apim -Werte in der Population pro Stufe des Faktors i um Null normalverteilt sind. eim
Fehlereffekte, die die Messung xim beeinflussen. Es wird angenommen, dass die eim -Betråge um Null normalverteilt sind.
Auf Grund der Daten einer Varianzanalyse schåtzen wir l durch G, ai durch Ai G und pm durch Pm G. Fçr apim und eim existieren keine getrennten Schåtzwerte. Wir fassen diese Komponenten deshalb zu einer Residualkomponente Resim zusammen und erhalten das folgende reduzierte Strukturmodell: xim l ai pm Resim :
12:62
Es wird angenommen, dass Resim um Null normalverteilt und von ai und pm unabhångig ist. In der einfaktoriellen Varianzanalyse mit Messwiederholungen gilt: QSin Vpn QStreat QSRes :
12:63
424
Kapitel 12 ´ Theoretische Grundlagen der Varianzanalyse
Wir beginnen mit der Bestimmung des Erwar^2in Vpn unter der Annahme fester tungswertes fçr r Treatmentstufen.
Fçr den Erwartungswert der Treatmentvarianz erhålt man also:
^2in Vpn als Schåtzung fçr r2a r2Res. Die Bestimr mungsgleichung fçr QSin Vpn lautet: XX
xim Pm 2 :
12:64 QSin Vpn
12:71
m
i
Wir ersetzen xim nach Gl. (12.62) und erhalten fçr Pm : X Pm xim =p l 0 pm Resm : i
Fçr Gl. (12.64) kænnen wir also schreiben: XX
ai Resim Resm 2 :
12:65 QSin Vpn m
i
Da ai von Resim und Resm unabhångig ist, erhalten wir: X a2i QSin Vpn n
E
^ r2treat n EVAR
Ai n r2a r2Res :
^2Res als Schåtzung fçr r2Res. Fçr E
QSin Vpn ergibt r sich nach Gl. (12.68): E
QSin Vpn n
p
i
12
m
Resim
Resm 2 :
12:66
Fçr die Varianzschåtzung ergibt sich PP
xim Pm 2 m ^2in Vpn i r n
p 1 P 2 PP ai
Resim Resm 2 m i
12:67 i p 1 n
p 1 bzw. E
^ r2in Vpn r2a r2Res :
12:68
^2treat als Schåtzung fçr r2Res. Die Bestimmungsgleir chung fçr die QStreat lautet: X
Ai G2 : QStreat n i
Ûber Gl. (12.62) erhålt man fçr Ai : X Ai xim =n l ai p Resi
12:69
m
Nach Gl. (B 33) und Gl. (B 23) folgt hieraus fçr den Erwartungswert der Varianz der Ai-Werte: EVAR
Ai r2a r2Res r2a r2Res =n :
12:70
1 r2Res
und fçr E
QStreat nach Gl. (12.71): 1 r2a
p
E
QStreat n
p
1 r2Res :
Læsen wir Gl. (12.63) nach QSRes auf und setzen die Erwartungswerte ein, resultiert: 1 r2a n
p
E
QSRes n
p n
p
p
i
XX
1 r2a n
p
1 r2a
p
1 r2Res 1 r2Res
1 r2Res :
1
n
Wegen E
^ r2Res E
QSRes =
p man also
1
n
E
^ r2Res r2Res :
12:72 1 erhålt
12:73
Nach der auf S. 420 genannten Prçfregel ist also ^2A. Dies gilt auch fçr den ^2Res die Prçfvarianz fçr r r Fall, dass Faktor A zufållige Effekte hat.
Voraussetzung: Homogene Kovarianzen. In der einfaktoriellen Varianzanalyse ohne Messwiederholungen ist der Erwartungswert der Kovarianz zwischen zwei Treatmentstufen i und j voraussetzungsgemåû Null. Im Folgenden soll geprçft werden, wie der Erwartungswert dieser Kovarianz in einer einfaktoriellen Varianzanalyse mit Messwiederholungen lautet. Die Kovarianz zwischen den Messwertreihen von zwei Treatmentstufen i und j schåtzen wir nach folgender Gleichung: cd ovij
X
1 n
1 X m
m
! xmi
xmi xmj X m
! ! xmj
n :
12:74
Wir ersetzen xmi und xmj durch Gl. (12.62) und erhalten zusammengefasst:
a12.3
cd ovij
"
1 n
1
X m
X
p2m !
m
!2 pm
12
425
Varianzanalysen mit Messwiederholungen
xijm l ai b j pm
i ab ij
n
bpjm
i eijm :
!
12:78
ai , b j und abij entsprechen in çblicher Weise den spezifischen Effekten, die mit den einzelnen Fakm m m torstufen bzw. Faktorstufenkombinationen verbun! ! X X X den sind. pm
i kennzeichnet die spezielle Reaktipm Resjm pm Resjm n onsweise der Person m, die sich unter der i-ten m m m ! ! # Stufe des Faktors A befindet. Die Personen sind X X X unter den Stufen des Faktors A geschachtelt, was Resim Resjm n : wir hier in Analogie zu 11.1 durch das eingeklam Resim Resjm m m m merte i zum Ausdruck bringen. Auf eine ausfçhrliche Herleitung der Erwar(12.75) tungswerte fçr die Varianzen, die sich im GrundDamit ergibt sich fçr die Kovarianz der folgende prinzip von den bisher dargestellten Ableitungen Erwartungswert: nicht unterscheidet, wollen wir in diesem und den E
d covij r2p cov
p; Resi cov
p; Resj folgenden Versuchsplånen verzichten. (Auf Beson
12:76 derheiten, die sich durch die Schachtelung erge cov
Resi ; Resj : ben, gehen wir ausfçhrlicher unter 12.5 ein.) Da die drei Kovarianzen auf der rechten Seite der Tabelle 12.9 zeigt die Erwartungswerte der VaGleichung gemåû Voraussetzung Null sind, resul- rianzen. tiert also Die adåquaten Prçfvarianzen finden wir wieder E
d covij r2p :
12:77 nach der Regel, dass die Varianzkomponenten des Zåhlers nur um den zu testenden Effekt von deDie Kovarianz zwischen zwei Treatmentstufen i nen des Nenners verschieden sein dçrfen. Sind A und j entspricht der Varianz der Personeneffekte. und B feste Faktoren, wird die r ^2A an der r ^2Vpn in S Da diese konstant ist, mçssen die Schåtzungen getestet. Fçr den Haupteffekt B und die Interaktider Kovarianzen zwischen beliebigen Treatment- on A B lautet die Prçfvarianz r ^2BVpn . Ist Faktor stufen homogen sein. A (und/oder Faktor B) zufållig, sind einige Effekte Tabelle 12.8 zeigt die Erwartungswerte der Va- nicht direkt testbar. In diesem Fall ist zu çberprçrianzen in der einfaktoriellen Varianzanalyse mit fen, ob Quasi-F-Brçche gebildet werden kænnen. Messwiederholungen in zusammengefasster Form. Haben z. B. Faktor A und Faktor B zufållige Ef^2zw Vpn wird hier ver- fekte, berechnen wir zur Ûberprçfung von Faktor (Auf eine Herleitung von r zichtet.) A folgenden Quasi-F-Bruch: X pm Resim
X
pm
X
Resim
n
Zweifaktorielle Analysen In der zweifaktoriellen Varianzanalyse mit Messwiederholungen çber die Stufen des Faktors B setzt sich ein Messwert aus folgenden Strukturkomponenten zusammen: Tabelle 12.8. Erwartungswerte fçr die Varianzen in der einfaktoriellen Varianzanalyse mit Messwiederholungen
Tabelle 12.9. Erwartungswerte fçr die Varianzen in der zweifaktoriellen Varianzanalyse mit Messwiederholungen Q.d.V.
Erwartungswert der Varianzen
Faktor A
r2e Dq r2bp Dp nr2ab qr2p nqr2a
Vpn in S
r2e Dq r2bp qr2p
Q.d.V.
Erwartungswert der Varianzen
Faktor B
r2e r2bp Dp nr2ab npr2b
Faktor A
r2Res n r2a
Interaktion A B
r2e r2bp nr2ab
zw Vpn
r2e Dp r2ap p r2p
Interaktion B Vpn
r2e r2bp
Residual
r2Res
(Zur Erklårung der D-Gewichte vgl. S. 421)
426
Kapitel 12 ´ Theoretische Grundlagen der Varianzanalyse
F0
^2BVpn ^2A r r
^2Vpn in S r
^2AB r
(Zur Freiheitskorrektur vgl. S. 315.) ^2B wird an der r ^2AB und r ^2AB an der r ^2BVpn r getestet.
Fall 2. Erfolgen die Messwiederholungen çber die Kombinationen der Faktoren B und C (vgl. Tabelle 9.12), erhalten wir Erwartungswerte fçr die Varianzen, die in Tabelle 12.11 wiedergegeben sind. Fçr Faktoren mit festen Effekten (Dp Dq Dr 0) gelten folgende Prçfvarianzen:
Dreifaktorielle Analysen Fall 1. Tabelle 12.10 zeigt die Erwartungswerte der Varianzen in einer dreifaktoriellen Varianzanalyse mit Messwiederholungen, wobei die Messwiederholungen çber die Stufen des Faktors C erfolgen (vgl. Tabelle 9.11). Auch hier kennzeichnet D wieder, ob die entsprechenden Faktorstufen zufållig (D 1) oder fest (D 0) sind. Haben alle Faktoren feste Effek^2Vpn in S die adåquate Prçfvarianz fçr r ^2A, te, ist die r 2 2 2 2 2 2 ^B und r ^AB . Die r ^C , r ^AC , r ^BC und r ^ABC werr ^2CVpn getestet. Hat nur Faktor B zuden an der r fållige Effekte (d. h. Dp 0, Dq 1, Dr 0), ergeben sich folgende Prçfvarianzen:
12
^2A r
an der
^2AB r
^2B r
an der
^2AB r
^2AB r
an der
^2Vpn in S r
^2C r
an der
^2BC r
^2AC r
an der
^2ABC r
^2BC r
an der
^2CVpn r
^2ABC r
an der
^2CVpn : r
^2A r
an der
^2Vpn in S ; r
^2AB ^2B ; r r
an der
^2BVpn ; r
^2AC ^2C ; r r ^2ABC ^2BC ; r r
^2CVpn ; an der r ^2BCVpn : an der r
Im gemischten Modell mit festen und zufålligen Faktoren werden die D-Werte der Faktoren je nach Art der Faktoren 0 oder 1 gesetzt und die entsprechenden Prçfvarianzen nach der bereits bekannten Regel herausgesucht. Wir wollen dies an einem Beispiel verdeutlichen, bei dem die Faktoren A und C zufållig und Faktor B fest sind (Dp 1; Dq 0; Dr 1): ^2A : Quasi-F-Bruch: r ^2B : Quasi-F-Bruch: r ^2AB : Quasi-F-Bruch: r
^2CVpn ^2A r r ; 2 ^2AC ^Vpn in S r r ^2ABC ^2 r r F0 B2 ; ^2BC ^AB r r ^2BCVpn ^2AB r r F0 2 ^BVpn r ^2ABC r F0
;
Tabelle 12.10. Erwartungswerte fçr die Varianzen in der dreifaktoriellen Varianzanalyse mit Messwiederholungen çber die Stufen von C Q.d.V.
Erwartungswert der Varianzen
Faktor A
r2e Dr r2cp Dq Dr nr2abc Dr nqr2ac rr2p Dq nrr2ab nqrr2a
Faktor B
r2e Dr r2cp Dp Dr nr2abc Dr npr2bc rr2p Dq nrr2ab nprr2b
Interaktion A B
r2e Dr r2cp Dr nr2abc rr2p nrr2ab
Vpn in S
r2e Dr r2cp rr2p
Faktor C
r2e r2cp Dp Dq nr2abc Dq npr2bc Dp nqr2ac npqr2c
Interaktion A C
r2e r2cp Dq nr2abc nqr2ac
Interaktion B C
r2e r2cp Dp nr2abc npr2bc
Interaktion A B C
r2e r2cp nr2abc
Interaktion C Vpn
r2e r2cp
a12.4
12
427
Kovarianzanalyse
Tabelle 12.11. Erwartungswerte fçr die Varianzen in der dreifaktoriellen Varianzanalyse mit Messwiederholungen çber die Kombinationen B C Q.d.V.
Erwartungswert der Varianzen
Faktor A
r2e Dq Dr r2bcp Dq Dr nr2abc Dr qr2cp Dr nqr2ac Dq rr2bp Dq nrr2ab qrr2p nqrr2a
Vpn in S
r2e Dq Dr r2bcp Dr qr2cp Dq rr2bp
Faktor B
r2e Dr r2bcp Dp Dr nr2abc Dr npr2bc rr2bp Dp nrr2ab nprr2b
Interaktion A B
r2e Dr r2bcp Dr nr2abc rr2bp nrr2ab
Interaktion B Vpn
r2e Dr r2bcp rr2bp
Faktor C
r2e Dq r2bcp Dp Dq nr2abc qr2cp Dq npr2bc Dp nqr2ac npqr2c
Interaktion A C
r2e Dq r2bcp Dq nr2abc qr2cp nqr2ac
Interaktion C Vpn
r2e Dq r2bcp qr2cp
Interaktion B C
r2e r2bcp Dp nr2abc npr2bc
Interaktion A B C
r2e r2bcp nr2abc
Interaktion B C Vpn
r2e r2bcp
^2C r
an der
^2AC ; r
^2AC r
an der
^BC r
an der
^2ABC r
an der
^2CVpn ; r ^2ABC ; r ^2ACVpn r
^yim b
xim
:
im
In der Kovarianzanalyse wird aus der abhångigen Variablen (y) eine Kontrollvariable (x) herauspartialisiert. Weisen wir in der einfaktoriellen Kovarianzanalyse den Faktorstufen Populationen zu, erhalten wir pro Treatmentstufe einen Parameter ly
i , der die durchschnittliche Ausprågung der abhångigen Variablen unter der Stufe i kennzeichnet, und einen Parameter lx
i fçr die durchschnittliche Ausprågung der Kontrollvariablen. lx und ly kennzeichnen die Gesamtdurchschnitte. Eine Messung setzt sich in der einfaktoriellen Varianzanalyse aus den Komponenten l ai eim zusammen. In der Kovarianzanalyse berçcksichtigen wir zusåtzlich eine Komponente, die auf die Abhångigkeit zwischen der abhångigen Variablen und der Kontrollvariablen zurçckzufçhren ist: lx eim :
12:80
2 ^Fehler als Schåtzung fçr re 2. Lassen wir bei der r Schåtzung des Regressionskoeffizienten b die Unterschiede zwischen den Treatmentmittelwerten Ay
i auûer Acht, stellen die folgenden residualisierten y-Werte die Basis fçr die Fehlervarianzschåtzung dar: ^y y y
12.4 Kovarianzanalyse
yim ly ai b
xim
lx :
12:79
Der aufgrund der Kontrollvariablen vorhergesagte ^yim -Wert lautet
im
im
ly ai b
xim eim b
xim ly ai eim :
lx lx
12:81
Da ly und ai fçr alle Messungen unter einer Treatmentstufe konstant sind, resultiert ± wie in der 2 ^Fehler einfaktoriellen Varianzanalyse (vgl. S. 413) ± r 2 als erste erwartungstreue Schåtzung von re . 2 ^treat als Schåtzung fçr re 2. Die 2. Fehlervarianzr schåtzung geht von den korrigierten Treatmentstufenmittelwerten Ay
i aus. Wir erhalten P yim
12:82 Ay
i m n 1 X
l ai b
xim lx eim n m y
ly ai b
Ax
i
l x ei
428
Kapitel 12 ´ Theoretische Grundlagen der Varianzanalyse
und ^ b
A A y
i x
i
lx ;
12:83
sodass Ay
i Ay
i
^ A y
i
12:84
ly ai ei :
12
b ist hier der Regressionskoeffizient fçr die Regression auf der Basis der Stichprobenmittelwerte (between-class regression). Es wird angenommen, dass die aufgrund der Daten ermittelten Steigungskoeffizienten Schåtzungen eines gemeinsamen Steigungskoeffizienten b sind (zur Diskussion dieser Voraussetzung s. S. 369 f.). Das Strukturmodell entspricht dem Strukturmodell eines Treatmentmittelwertes der normalen einfaktoriellen Varianzanalyse. Man beachte allerdings, dass ai in Gl. (12.84) einen Treatmenteffekt bezeichnet, der von der Kontrollvariablen unabhångig ist, d. h., ai stellt den vom Einfluss der Kontrollvariablen bereinigten Treatmenteffekt dar. Wir erhalten ± wie in der einfaktoriellen Varianz2 ^treat analyse ± bei Gçltigkeit der H0: r2a 0 die r 2 als zweite erwartungstreue Schåtzung der re , d. h., auch in der Kovarianzanalyse wird die H0: r2a 0 çber den F-Test 2 ^treat r F 2
12:85 ^Fehler r geprçft. Generell gilt, dass die kovarianzanalytisch bereinigten Haupteffekte (und Interaktionen) genauso getestet werden wie die entsprechenden Effekte ohne Berçcksichtigung der Kontrollvariablen.
Die unter 12.1±12.3 genannten Regeln bzw. im nåchsten Kapitel zu nennenden Regeln fçr die Konstruktion adåquater F-Brçche kænnen somit analog angewandt werden.
Diese Versuchsplåne unterscheiden sich von vollståndigen Versuchsplånen darin, dass nicht jede Faktorstufenkombination realisiert ist.
Hierarchische und teilhierarchische Plåne Zweifaktorielle Analysen. Der einfachste unvollståndige Plan ist die zweifaktorielle, hierarchische Varianzanalyse, in der beispielsweise Faktor B unter Faktor A geschachtelt ist. In diesem Fall ist die Interaktion zwischen beiden Faktoren nicht prçfbar. Ein einzelner Messwert setzt sich aus folgenden Komponenten zusammen: xijm l ai b j
i eijm :
12:86
Mit der Schreibweise b j
i wird der Effekt der Stufe bj unter der Stufe ai gekennzeichnet. In diesem Strukturmodell wurde der Interaktionsausdruck abij
i weggelassen, obwohl nicht auszuschlieûen ist, dass die in einer Untersuchung realisierten A B-Kombinationen spezifische Effekte aufweisen. Die Græûe eines ai -Effektes hångt ± anders als in vollståndigen Plånen ± davon ab, welche Stufen bj unter den Stufen von ai untersucht werden. Umgekehrt sind auch Unterschiede zwischen den bj -Stufen von den Stufen des Faktors A, mit denen sie kombiniert werden, abhångig (entsprechendes gilt fçr komplexere hierarchische Plåne). Mit diesen Einschrånkungen kænnen ai und bj
i nur dann als reine Haupteffekte interpretiert werden, wenn Interaktionen zu vernachlåssigen sind. In Tabelle 12.12 sind die Erwartungswerte der Varianzen in einer zweifaktoriellen hierarchischen Varianzanalyse zusammengefasst. ^2B
A die adåquaHat B zufållige Stufen, ist die r 2 ^A . Der Haupteffekt B wird, te Prçfvarianz fçr die r unabhångig davon, ob A fest oder zufållig ist, an der Fehlervarianz getestet.
Tabelle 12.12. Erwartungswerte fçr die Varianzen in der zweifaktoriellen hierarchischen Varianzanalyse
12.5 Unvollståndige, mehrfaktorielle Varianzanalysen In Kap. 11 zåhlten wir zu den unvollståndigen, mehrfaktoriellen Varianzanalysen die (teil-)hierarchischen und quadratischen Anordnungen.
Q.d.V.
Erwartungswert der Varianzen
Faktor A
r2e Dq nr2b nqr2a
Faktor B
A
r2e nr2b
Fehler
r2e
a12.5
Dreifaktorielle Analysen (Version 1). Tabelle 11.5 zeigt das Datenschema fçr die Version 1 einer dreifaktoriellen teilhierarchischen Varianzanalyse. Ein Messwert setzt sich hier aus folgenden Strukturkomponenten zusammen: xijkm l ai b j
i ck acik bcj
ik eijkm :
12:87
Die Effekte ai und b j
i kænnen wiederum nur unter der Voraussetzung, dass die A B-Interaktion zu vernachlåssigen ist, als Haupteffekte interpretiert werden. Entsprechendes gilt fçr den bcj
ik -Effekt, der nur dann als Interaktion 1. Ordnung gedeutet werden kann, wenn keine TripelInteraktion A B C existiert. Tabelle 12.13 zeigt die Erwartungswerte fçr die Varianzen. Haben die Faktoren A und C feste (Dp 0, Dr 0) und der Faktor B zufållige Stufen (Dq 1), sind die Effekte wie folgt zu testen: ^2A r ^2B r ^2C r
an der
^2AC r
an der
^2B
AC r
an der
an der an der
^2B ; r ^2Fehler ; r ^2B
AC r ^2B
AC r ^2Fehler : r
; ;
Fçr andere Faktorkonstellationen ist ggf. die Konstruktion von Quasi-F-Brçchen erforderlich.
Dreifaktorielle Analysen (Version 2). In Version 2 des teilhierarchischen Plans (vgl. Tabelle 11.9) ist Faktor C sowohl unter Faktor A als auch unter Faktor B, aber Faktor B nicht unter Faktor A ge-
Tabelle 12.14. Erwartungswerte fçr die Varianzen in der dreifaktoriellen teilhierarchischen Varianzanalyse (Version 2) Q.d.V.
Erwartungswert der Varianzen
Faktor A
r2e Dq rnr2ab Dr nr2c qrnr2a
Faktor B
r2e Dp rnr2ab Dr nr2c prnr2b
Faktor C
A; B
r2e nr2c
Interaktion A B
r2e rnr2ab Dr nr2c
Fehler
r2e
schachtelt. Die Strukturkomponenten eines Messwertes heiûen: xijkm l ai b j ck
i;j abij eijkm :
Tabelle 12.13. Erwartungswerte fçr die Varianzen in der dreifaktoriellen teilhierarchischen Varianzanalyse (Version 1) Q.d.V.
Erwartungswert der Varianzen
Faktor A
r2e Dq Dr nr2bc Dr nqr2ac Dq nrr2b nqrr2a
Faktor B
A
r2e Dr nr2bc nrr2b
Faktor C
r2e Dq nr2bc Dp nqr2ac npqr2c
Interaktion A C
r2e Dq nr2bc nqr2ac
Interaktion B
A C
r2e
Fehler
r2e
12:88
In diesem Plan sind die drei Haupteffekte nur dann interpretierbar, wenn man die entsprechenden Interaktionen mit dem Faktor C vernachlåssigen kann. Tabelle 12.14 informiert çber die Erwartungswerte der Varianzen. ^2A , r ^2B und Ist Faktor C zufållig, werden die r 2 2 2 ^AB an der r ^C
A;B und die r ^C
A;B an der r ^2Fehler r getestet.
Dreifaktorielle hierarchische Analyse. Im dreifaktoriellen, vollståndig hierarchischen Plan sind Faktor C unter Faktor B und Faktor B unter Faktor A geschachtelt. Dies wird in folgender Weise im Strukturmodell eines Messwertes berçcksichtigt: xijkm l ai b j
i ck
j
i eijkm :
nr2bc
12
429
Unvollståndige, mehrfaktorielle Varianzanalysen
12:89
In dieser Analyse sind keine Interaktionen prçfbar, und die Haupteffekte sind nur ohne Interaktionen eindeutig zu interpretieren. Bei der Bestimmung der adåquaten Prçfvarianzen hilft Tabelle 12.15, in der die Erwartungswerte der Varianzen zusammengefasst sind. Haben Faktor A feste und die Faktoren B und C zufållige Effekte, ist wie folgt zu prçfen: ^2A r
an der
^2B
A ; r
^2B
A r
an der
^2C
B
A ; r
^2C
B
A r
an der
^2Fehler : r
430
Kapitel 12 ´ Theoretische Grundlagen der Varianzanalyse
Tabelle 12.15. Erwartungswerte fçr die Varianzen in der dreifaktoriellen hierarchischen Varianzanalyse Q.d.V.
Erwartungswert der Varianzen
Faktor A
r2e Dr nr2c Dq nrr2b nqrr2a
Faktor B
A
r2e Dr nr2c nrr2b
Faktor C
B
A
r2e nr2c
Fehler
r2e
Ebenfalls zu den unvollståndigen Versuchsplånen des Kap. 11 gehæren die quadratischen Anordnungen, die zwar in Bezug auf die Haupteffekte vollståndig ausbalanciert sind, nicht aber in Bezug auf die Interaktionen. Die Haupteffekte kænnen nur unter der Annahme zu vernachlåssigender Interaktionen interpretiert werden. Wir wollen diesen Sachverhalt im Folgenden begrçnden und wåhlen als Beispiel die Standardform eines lateinischen Quadrates mit p 3 (vgl. Tabelle 11.15). Ein Messwert, der unter der Kombination a1 b1 c1 erhoben wurde, setzt sich ± wie in der vollståndigen dreifaktoriellen Varianzanalyse ± aus folgenden Komponenten zusammen: x111m l a1 b 1 c1 ab 11 ac11 bc11 abc111 e111m :
12:90
Der Mittelwert der Messwerte unter der Kombination a1 b1 c1 basiert auf den gleichen Komponenten bis auf den Unterschied, dass der personenspezifische Fehler e111m durch den durchschnittlichen Fehler in der Stichprobe (e111 ) ersetzt wird. Der Mittelwert A1 ergibt sich aufgrund der Anordnung in Tabelle 11.15 als Durchschnitt der Mittelwerte ABC111 , ABC122 und ABC133 . A1 enthålt damit folgende Komponenten: ABC111 l a1 b 1 c1 ab 11 ac11 bc11 abc111 e111 ; ABC122 l a1 b 2 c2 ab 12 ac12 bc22 abc122 e122 ; ABC133 l a1 b 3 c3 ab 13 ac13 bc33 abc133 e133 : Fçr A1 erhalten wir also:
j
bj
P k
ck
P j
ab1j
A1 l a1 3 3 3 P P ac1k P bc abc e1 : k
12:91 3 3 3 Haben alle 3PFaktoren P P P feste Effekte, sind bj ck ab 1j ac1k 0. j
Analyse quadratischer Anordnungen
12
P
k
j
k
P Nicht Null P werden hingegen die Ausdrçcke bc und abc (durch das Weglassen der Indizes soll verdeutlicht werden, dass nicht alle, sondern nur bestimmte Kombinationen summiert werden), sodass der Mittelwert der Stufe a1 zusåtzlich von Teilen der B C-Interaktion und A B C-Interaktion beeinflusst wird. Die Varianz der Ai-Werte enthålt somit fçr den Fall, dass die B C-Interaktion und A B C-Interaktion nicht zu vernachlåssigen sind, neben dem reinen Haupteffekt Interaktionsanteile. E
^ r2A ist nur bei Gçltigkeit der H0: r2a 0, r2bc 0 und r2abc 0 eine erwartungstreue Schåtzung der r2e . Ein signifi^2A =^ kanter Wert fçr F r r2Fehler kann eindeutig im Sinn eines signifikanten Haupteffektes interpretiert werden, wenn B C und die A B C-Interaktion unbedeutend sind. Entsprechendes gilt fçr die çbrigen Haupteffekte. Sind die Stufen des Faktors B (und/oder C) zufållig, enthålt die Varianz der Ai -Werte zusåtzlich P A B- und/oder A C-Interaktionen. ( b j und P j ck sind fçr alle Ai -Stufen von A konstant, aber P P k ab ij und acik :) Die adåquate Prçfvarinicht j
k
anz wåre eine Interaktionsvarianz, die jedoch aufgrund der Daten eines lateinischen Quadrates nicht vollståndig geschåtzt werden kann. Im lateinischen Quadrat mçssen wir voraussetzen, dass alle Faktoren feste Stufen aufweisen.
Entsprechendes gilt fçr quadratische Anordnungen hæherer Ordnung.
12.6 Allgemeine Regeln fçr die Bestimmung der Erwartungswerte von Varianzen Mit den bisher in diesem Kapitel aufgefçhrten Tabellen sind wir in der Lage, die Erwartungswerte der Varianzen fçr beliebige Kombinationen fester
a12.6
Allgemeine Regeln fçr die Bestimmung der Erwartungswerte von Varianzen
und zufålliger Faktoren in einem der behandelten Varianzanalysetypen zu bestimmen. Unter Zuhilfenahme dieser Tabellen lassen sich nach der allgemeinen Regel, dass die Varianzkomponenten des Zåhlers nur um den zu testenden Effekt von denen des Nenners verschieden sein dçrfen, fçr jeden Effekt ± ggf. çber Quasi-F-Brçche oder das Zusammenlegen nichtsignifikanter Interaktionsvarianzen mit der Fehlervarianz (Pooling) ± adåquate Prçfvarianzen bestimmen. Die Flexibilitåt der Varianzanalyse als Untersuchungsinstrument wird jedoch um ein Weiteres erhæht, wenn die in den Kapiteln des Teiles II behandelten Verfahren so miteinander kombiniert werden, dass auch kompliziertere Untersuchungsplåne varianzanalytisch ausgewertet werden kænnen. Die Ûberprçfung einer Fragestellung kænnte beispielsweise aufgrund inhaltlicher Kriterien einen Versuchsplan nahelegen, in dem 4 Faktoren kontrolliert werden mçssen, wobei çber die Kombinationen von 2 ineinander geschachtelten Faktoren Messwiederholungen erfolgen und die beiden çbrigen Faktoren ebenfalls ineinandergeschachtelt sind. Zusåtzlich soll eine Kontrollvariable herauspartialisiert werden. Fçr einen solchen Versuchsplan reichen die in diesem Kapitel bisher erwåhnten Tabellen der Erwartungswerte der Varianzen nicht aus. Wenngleich sich die numerischen Berechnungsvorschriften relativ einfach aus den Rechenregeln der entsprechenden Kapitel zusammenstellen lassen, wissen wir nicht, wie die interessierenden Effekte getestet werden. Es soll deshalb im Folgenden ein allgemeiner Ansatz dargestellt werden, der es gestattet, die Erwartungswerte und damit die Prçfvarianzen in beliebigen Versuchsplånen zu bestimmen. Die hierbei deutlich werdenden Regeln gehen auf Cornfield u. Tukey (1956, zit. nach Winer et al. 1991, Kap. 5.16) zurçck. Die 12 Grundregeln dieses Verfahrens sollen am Beispiel der dreifaktoriellen Varianzanalyse, in der Faktor B unter Faktor A geschachtelt ist, verdeutlicht werden. Wir wollen hierbei die Bestimmung der in Tabelle 12.13 genannten Erwartungswerte nachvollziehen. Danach werden die Erwartungswerte in dem oben erwåhnten, komplizierteren Versuchsplan ermittelt.
1. Regel. Wir notieren die Strukturkomponenten fçr einen Messwert. Das Strukturmodell enthålt
431
· das allgemeine Messniveau (l); · såmtliche Haupteffekte (ai , b j , ck , . . .); · die Interaktionen zwischen Faktoren, die vollståndig miteinander kombiniert sind (Interaktionen zwischen ineinandergeschachtelten Faktoren werden nicht aufgefçhrt); · in Messwiederholungsanalysen den Personeneffekt (pm ); · in Messwiederholungsanalysen såmtliche Interaktionen zwischen Personen und denjenigen Faktoren, unter deren Stufen (Stufenkombinationen) die einzelnen Versuchspersonen durchgångig beobachtet werden; · den mit einer Messung verbundenen Fehler e. Es ist darauf zu achten, dass die einzelnen Effekte richtig indiziert werden. Ist ein Haupteffekt (Interaktion) unter einem anderen geschachtelt, wird zusåtzlich der Index desjenigen Effektes, unter dem die Schachtelung erfolgt, in Klammern aufgefçhrt (in unserem Beispiel b j
i ). In mehrfaktoriellen Plånen mit Messwiederholungen sind die Vpn im Allgemeinen ebenfalls unter einem Faktor (Faktorstufenkombinationen) geschachtelt, was auch hier durch einen zusåtzlichen eingeklammerten Index gekennzeichnet wird (z. B. sind in der zweifaktoriellen Varianzanalyse mit Messwiederholungen çber die Stufen des Faktors B ± vgl. Tabelle 9.7 ± die Vpn unter den Stufen von A geschachtelt. Wir schreiben deshalb: pm
i ). Da eine Einzelmessung immer nur unter einer bestimmten Faktorstufenkombination auftritt, werden bei der Fehlergræûe die Indizes der Faktorstufenkombination, zu der der Messwert gehært, ebenfalls in Klammern aufgefçhrt (z. B. in der zweifaktoriellen Varianzanalyse: statt eijm wie bisher em
ij ). In unserem Beispiel erhalten wir somit das folgende Strukturmodell: xijkm l ai b j
i ck acik bcj
ik em
ijk :
2. Regel. Wir fertigen eine Tabelle an, in der die einzelnen im Strukturmodell des Messwertes enthaltenen, indizierten Strukturkomponenten (d. h. mit Ausnahme von l) die Zeilen und die im Modell erscheinenden Laufindizes die Spalten bezeichnen. Die Anzahl der Zeilen ist also gleich der Anzahl der Komponenten des Modells, die mindestens einen Index haben, und die Anzahl
12
432
Kapitel 12 ´ Theoretische Grundlagen der Varianzanalyse
der Spalten entspricht der Anzahl der verschiedenen Indizes. Im Beispiel:
ai b j
i ck acik bcj
ik em
ijk
i
j
k
m
3. Regel. Die Werte in der Spalte i erhalten wir in folgender Weise: · Hat eine Komponente den Index i (wobei i nicht eingeklammert sein darf), tragen wir DP ein. · Hat eine Komponente einen eingeklammerten Index i, wird eine 1 eingetragen. · Hat eine Komponente keinen Index i, wird p eingetragen.
12
Im Beispiel: ai b j
i ck acik bcj
ik em
ijk
i
j
k
m
Dp 1 p Dp 1 1
4. Regel. Die Werte in Spalte j erhalten wir folgendermaûen: · Hat eine Komponente den Index j (wobei j nicht eingeklammert sein darf), tragen wir Dq ein. · Hat eine Komponente einen eingeklammerten Index j, wird eine 1 eingetragen. · Hat eine Komponente keinen Index j, wird q eingetragen.
Im Beispiel: ai b j
i ck acik bcj
ik em
ijk
i
j
Dp 1 p Dp 1 1
q Dq q q Dq 1
k
m
5. Regel. Die Werte in den çbrigen Spalten erhalten wir ebenfalls nach den unter 3. und 4. beschriebenen Regeln. Fçr Spalte k lauten die mæglichen Werte: Dr , 1 und r und fçr Spalte m: Dn und n (1 ist hier nicht mæglich, da m niemals eingeklammert auftreten kann). Im Beispiel: ai b j
i ck acik bcj
ik em
ijk
i
j
k
m
Dp 1 p Dp 1 1
q Dq q q Dq 1
r r Dr Dr Dr 1
n n n n n Dn
6. Regel. Der Erwartungswert fçr die Varianz eines nicht geschachtelten Haupteffektes ist die gewichtete Summe der Varianzen derjenigen Strukturkomponenten, die den Laufindex des entsprechenden Haupteffektes aufweisen, unabhångig davon, ob dieser Index in Klammern steht oder nicht. Das Gewicht der Varianz einer einzelnen Strukturkomponente mit dem Index des Haupteffektes entspricht dem Produkt der Werte, die sich in der Zeile der entsprechenden Strukturkomponente befinden, wobei der Wert aus der Spalte mit dem Index des Haupteffektes ausgelassen wird. In Analogie zu den bereits erwåhnten Erwartungswerttabellen beginnen wir mit der zuunterst stehenden Strukturkomponente em
.
a12.6
433
Allgemeine Regeln fçr die Bestimmung der Erwartungswerte von Varianzen
Im Beispiel: i D ai p b j
i 1 p ck acik Dp bcj
ik 1 em
ijk 1
j
k
m
q
r
n
Dq q
r Dr
n n
q Dq 1
Dr Dr 1
n n Dn
Erwartungswert der Varianz Dn r2e Dq Dr nr2bc qDr nr2ac Dq rnr2b qrnr2a Dn r2e Dq nr2bc Dp qnr2ac pqnr2c
Diese Regel bedarf zusåtzlicher Erlåuterungen. ^2A ermitteln wir folgenDen Erwartungswert von r dermaûen: Da der Haupteffekt ai den Index i hat, suchen wir alle Strukturkomponenten heraus, die mit einem i versehen sind, egal, ob i eingeklammert ist oder nicht. Dies sind die Komponenten ai , b j
i , acik , bci
jk und em
ijk . Die zu addierenden Varianzen lauten somit: r2a ;
r2b ;
r2ac ;
r2bc ;
r2e :
Als Nåchstes bestimmen wir die Gewichte fçr die einzelnen Varianzen. Wir beginnen von unten, d. h. mit r2e . In der Zeile em
ijk befinden sich die Werte 1, 1, 1, Dn , wobei wir die 1 in der Spalte i auslassen. r2e wird also mit Dn gewichtet (Dn r2e ). Fçr bcj
ik lauten die Gewichte 1, Dq , Dr und n, wobei die 1 in Spalte i ausgelassen wird. Wir erhalten somit Dq Dr nr2bc . Das Gewicht fçr r2ac erhalten wir aus den Werten Dp , q, Dr und n, wobei Dp als Wert in der Spalte i ausgelassen wird (qDr nr2ac ). Die Gewichte fçr r2b und r2a bestimmen wir auf die gleiche Weise, wobei darauf zu achten ist, dass der Wert, der in der Spalte mit dem Index des Haupteffektes steht, ausgelassen wird. Bei der Ermittlung der Gewichte fçr die Varianzen, die im Erwartungswert des Haupteffektes C enthalten sind, bleibt somit Spalte k unberçcksichtigt.
7. Regel. Der Erwartungswert fçr die Varianz einer Interaktion 1. Ordnung, an der kein geschachtelter Faktor beteiligt ist, entspricht der gewichteten Summe der Varianzen derjenigen Struk-
turkomponenten, die beide Indizes der entsprechenden Interaktion aufweisen, unabhångig davon, ob ein Index oder beide Indizes in Klammern stehen oder nicht. Das Gewicht der Varianz einer einzelnen Strukturkomponente mit den Indizes der Interaktion entspricht dem Produkt der Werte, die sich in der Zeile der entsprechenden Strukturkomponente befinden, wobei die Werte aus den Spalten mit den Indizes der Interaktion ausgelassen werden. Im Beispiel: i Dp ai b j
i 1 p ck acik Dp bcj
ik 1 em
ijk 1
j
k
q
r
Dq q
r Dr
q
Dr
Dq 1
Dr 1
m Erwartungswert der Varianz n Dn r2e Dq Dr nr2bc qDr nr2ac Dq rnr2b qrnr2a n n Dn r2e Dq nr2bc Dp qnr2ac pqnr2c n Dn r2e Dq nr2bc qnr2ac n Dn
Nur die Interaktion ac enthålt keinen geschachtelten Faktor. Die Indizes i und k tauchen bei em
ijk , bcj
ik und acik auf. Die einzelnen Gewichte finden wir in den entsprechenden Zeilen, wobei die Spalten i und k ausgelassen werden.
8. Regel. Der Erwartungswert der Varianz einer Interaktion hæherer Ordnung u v wxyz , an der keine geschachtelten Faktoren beteiligt sind, entspricht der gewichteten Summe der Varianzen derjenigen Strukturkomponenten, die alle Indizes xyz der entsprechenden Interaktion aufweisen, unabhångig davon, ob ein Index oder mehrere in Klammern stehen oder nicht. Das Gewicht der Varianz einer einzelnen Strukturkomponente mit den Indizes der Interaktion entspricht dem Produkt der Werte, die sich in der Zeile der jeweiligen Strukturkomponente befinden, wobei die Werte aus den Spalten mit den Indizes der Interaktion ausgelassen werden. 9. Regel. Der Erwartungswert fçr die Varianz eines geschachtelten Haupteffektes ist die gewichtete
12
434
Kapitel 12 ´ Theoretische Grundlagen der Varianzanalyse
Summe der Varianzen derjenigen Strukturkomponenten, die sowohl den eingeklammerten als auch den nicht eingeklammerten Index des entsprechenden Haupteffektes aufweisen, unabhångig davon, ob diese Indizes bei den Strukturkomponenten in Klammern stehen oder nicht. Das Gewicht der Varianz einer einzelnen Strukturkomponente mit den Indizes des geschachtelten Haupteffektes entspricht dem Produkt der Werte, die sich in der Zeile der jeweiligen Strukturkomponente befinden, wobei die Werte aus den Spalten des eingeklammerten und des nicht eingeklammerten Indexes ausgelassen werden. Im Beispiel: i D ai p b j
i 1 ck p acik Dp bcj
ik 1 em
ijk 1
j
k
q
r
Dq
r
q
Dr
q
Dr
Dq 1
Dr 1
m Erwartungswert der Varianz n Dn r2e Dq Dr nr2bc qD nr2 r ac D rnr2 qrnr2 q a b n Dn r2e Dr nr2bc rnr2 b n Dn r2e Dq nr2bc D qnr2 pqnr2 p ac c n Dn r2e Dq nr2bc qnr2ac n Dn
12 10. Regel. Der Erwartungswert fçr die Varianz einer Interaktion, an der geschachtelte Faktoren beteiligt sind, entspricht der gewichteten Summe der Varianzen derjenigen Strukturkomponenten, die sowohl den (die) eingeklammerten als auch den (die) nicht eingeklammerten Index (Indizes) aufweisen, unabhångig davon, ob Indizes in Klammern stehen oder nicht. Das Gewicht der Varianz einer einzelnen Strukturkomponente mit den Indizes der Interaktion entspricht dem Produkt der Werte, die sich in der Zeile der jeweiligen Strukturkomponente befinden, wobei die Werte mit dem (den) eingeklammerten und dem (den) nicht eingeklammerten Index (Indizes) weggelassen werden.
Im Beispiel: i D ai p b j
i 1 p ck acik Dp bcj
ik 1 em
ijk 1
j
k
q
r
Dq
r
q
Dr
q
Dr
Dq 1
Dr 1
m Erwartungswert der Varianz n Dn r2e Dq Dr nr2bc qDr nr2 ac D rnr2 qrnr2 q a b n Dn r2e Dr nr2bc rnr2 b n Dn r2e Dq nr2bc Dp qnr2ac pqnr2c n Dn r2e Dq nr2bc qnr2 ac n Dn r2e nr2bc Dn
11. Regel. Der Erwartungswert der Fehlervarianz ist Dn r2e . 12. Regel. In Abhångigkeit davon, welche Faktoren feste und welche zufållige Stufen aufweisen, werden die D-Werte 0 (bei festen Faktorstufen) und 1 (bei zufålligen Faktorstufen) gesetzt. Da n immer eine Zufallsauswahl von Untersuchungseinheiten darstellt, ist Dn grundsåtzlich 1. Varianzkomponenten, die ein Gewicht von D 0 enthalten, werden aus dem Erwartungsmodell der Varianz eliminiert. Die verbleibenden Varianzkomponenten sind die Grundlage fçr das Auffinden adåquater Prçfvarianzen: Die Varianzkomponenten des Zåhlers dçrfen sich nur um den zu testenden Effekt von denen des Nenners unterscheiden. BEISPIEL Im Folgenden sollen die 12 Regeln auf den eingangs erwåhnten Versuchsplan çbertragen werden, dessen Datenschema in Tabelle 12.16 aufgefçhrt ist. Faktor D hat allgemein s Stufen. Der Laufindex des Faktors D wird mit ` bezeichnet. In diesem Falle wurden p q r s 2 gesetzt. Der Versuchsplan kænnte beispielsweise eingesetzt werden, wenn 2 Lehrmeister (Faktor A: zufållige Stufen) Lehrlingsgruppen aus 4 (vgl. S. 389) verschiedenen Berufen (Faktor B: feste Stufen) mit 2 verschiedenen Unterrichtsmethoden (Faktor C: feste Stufen) in die Bedienung von 4 Maschinen (Faktor D: zufållige Stufen) einweisen. Abhångige Variable ist der Lernerfolg. Faktor B ist unter Faktor A und Faktor D unter Faktor C geschachtelt. Die den Kombinationen aus A und B zugewiesenen Stichproben werden unter den Kombinationen von C und D beobachtet.
a12.6
435
Allgemeine Regeln fçr die Bestimmung der Erwartungswerte von Varianzen
Tabelle 12.16. Datenschema einer vierfaktoriellen teilhierarchischen Varianzanalyse mit Messwiederholungen c2 c 1 d3 d1 d2 d4 S1 S1 S1 S1 b1 a1 S b S2 S2 2 2 S2 b3 S3 S3 S3 S3 a2 b S S4 S4 4 S4 4
xijk`m l ai b j
i ck d`
k acik adi`
k bcj
ik bdj
i`
k pm
j
i cpkm
j
i dp`
km
j
i em
ijk` : Tabelle 12.17 zeigt die Erwartungswerte der Varianzen. Da Dp 1, Dq 0, Dr 0 und Ds 1, reduziert sich Tabelle 12.17 zu Tabelle 12.18. Es ergeben sich somit die folgenden Prçfvarianzen: ^2D
C r
an der
^2AD
C ; r
^2AD
C r 2 ^B
AD
C r
an der
^2D
CVpn ; r
an der
^2D
CVpn : r
Kænnen keine Interaktionsausdrçcke mit der Fehlervarianz zusammengefasst werden (Pooling, vgl. S. 423), lassen sich die çbrigen Effekte durch folgende Quasi-F-Brçche testen (zur Freiheitsgradkorrektur vgl. S. 315):
Dieser Versuchsplan enthålt:
^2A: F0 r
4 Haupteffekte: ai , b j
i , ck , d`
k , 4 Interaktionen 1. Ordnung: acik , adi`
k , bcj
ik , bdj
i`
k . Die çbrigen Interaktionen entfallen wegen der beiden geschachtelten Faktorenpaare.
^2B
A: F0 r ^2C: F0 r
1 Personeneffekt: pm
j
i . Die Personen sind unter Faktor B geschachtelt, der seinerseits unter A geschachtelt ist. 2 Personen Faktor Interaktionen 1. Ordnung: cpkm
j
i , dp`
km
j
i . Fehlereffekte: em
ijk` . Das Strukturmodell eines Messwertes lautet somit:
Tabelle 12.17. ai b j
i ck d`
k acik adi`
k bcj
ik bdj
i`
k pm
j
i cpkm
j
i dp`
km
j
i em
ijk`
Erwartungswerte der Varianzen fçr i j k ` m q r s n Dp 1 Dq r s n s n p q Dr n p q 1 Ds q Dr s n Dp Dp q 1 Ds n Dr s n 1 Dq 1 Dq 1 Ds n 1 1 r s Dn s Dn 1 1 Dr 1 1 1 Ds Dn 1 1 1 1 Dn
^2A r ^2D
CVpn r
^2AD
C r ^2Vpn in S r
;
^2B
A r ^2D
CVpn r 2 ^B
AD
C r ^2Vpn in S r ^2C r ^2AD
C r ; 2 ^D
C r ^2AC r
^2AC: F0 r ^2B
AC: F0 r
;
^2AC r ^2D
CVpn r ^2AD
C r ^2CVpn r
;
^2B
AC r ^2D
CVpn r
^2B
AD
C r ^2CVpn r
:
den Versuchsplan in Tabelle 12.16 Erwartungswert der Varianzen r2e Ds r2dp Dr sr2cp rsr2p Dq Ds nr2bd Dq Dr snr2bc qDs nr2ad qDr snr2ac Dq rsnr2b qrsnr2a r2e Ds r2dp Dr sr2cp rsr2p Ds nr2bd Dr snr2bc rsnr2b r2e Ds r2dp sr2cp Dq Ds nr2bd Dq snr2bc Dp qDs nr2ad Dp qsnr2ac pqDs nr2d pqsnr2c r2e r2dp Dq nr2bd Dp qnr2ad pqnr2d r2e Ds r2dp sr2cp Dq Ds nr2bd Dq snr2bc qDs nr2ad qsnr2ac r2e r2dp Dq nr2bd qnr2ad r2e Ds r2dp sr2cp Ds nr2bd snr2bc r2e r2dp nr2bd r2e Ds r2dp Dr sr2cp rsr2p r2e Ds r2dp sr2cp r2e Ds r2dp r2e
12
436
Kapitel 12 ´ Theoretische Grundlagen der Varianzanalyse
Tabelle 12.18. Erwartungswerte der Varianzen fçr den Versuchsplan in Tabelle 12.16 (A und D zufållig, B und C fest) Q.d.V.
Erwartungswert der Varianzen
Faktor A
r2e r2dp rsr2p qnr2ad qrsnr2a
Faktor B
A
r2e r2dp rsr2p nr2bd rsnr2b
Faktor C
r2e r2dp sr2cp qnr2ad qsnr2ac pqnr2d pqsnr2c
Faktor D
C
r2e r2dp qnr2ad pqnr2d
Interaktion A C
r2e r2dp sr2cp qnr2ad qsnr2ac
Interaktion A D
C
r2e r2dp qnr2ad
Interaktion B
A C
r2e r2dp sr2cp nr2bd snr2bc
Interaktion B
A D
C
r2e r2dp nr2bd
Vpn in S
r2e r2dp rsr2p
Interaktion C Vpn
r2e r2dp sr2cp
Interaktion D
C Vpn
r2e r2dp
Fehler
r2e
Da pro Vpn Faktorstufenkombinationen nur ein Mess^2Fehler und r ^2D
CVpn nicht wert zur Verfçgung steht, sind r isoliert bestimmbar und werden deshalb zu einer gemeinsamen Residualvarianzschåtzung zusammengefasst. Bei der rechnerischen Durchfçhrung sind die in Kap. 8, 9 und 11 genannten Rechenregeln miteinander zu kombinieren. Das Herauspartialisieren einer Kontrollvariablen hat ± wie wir in 12.4 gesehen haben ± keinen Einfluss darauf, an welchen Varianzen die einzelnen Effekte getestet werden.
12
ÛBUNGSAUFGABEN 1. Aus welchen Strukturkomponenten setzt sich der Messwert in einer dreifaktoriellen, hierarchischen Varianzanalyse zusammen? 2. Wie lautet die allgemeine Regel fçr die Konstruktion von F-Brçchen im Rahmen der Varianzanalyse? 3. Zeigen Sie, dass die auf S. 350 genannten Prçfvarianzen fçr eine zweifaktorielle Varianzanalyse mit kompletter Messwiederholung korrekt sind.
a
Teil III
Multivariate Methoden
439
Einleitung
Die Beeinflussung einer abhångigen Variablen durch eine oder mehrere unabhångige Variablen kann auf vielfåltige Weise mit den in Teil II besprochenen varianzanalytischen Methoden untersucht werden. Wir befassen uns jedoch gelegentlich mit abhångigen Variablen, die nur schwer oder unzureichend mittels eines einzelnen Indikators operationalisiert bzw. gemessen werden kænnen. Dazu zåhlen beispielsweise komplexe Merkmale wie sozialer Status, berufliche Zufriedenheit, Therapieerfolg, Einstellungen, Begabungen, Interessen, Erziehungsstil, Krankheitssymptomatik usw. Die Erfassung dieser und åhnlich komplexer Merkmale durch nur eine Variable (univariater Ansatz) ist håufig unbefriedigend. Univariate Analysen fçhren nicht selten zu widersprçchlichen Ergebnissen, weil in thematisch vergleichbaren Untersuchungen jeweils andere Teilaspekte des komplexen Merkmals herausgegriffen werden. Untersucht man komplexe Merkmale hingegen bezçglich vieler Teilindikatoren, fçhrt dies zu stabileren und informationsreicheren Ergebnissen. Mit multivariaten Methoden werden Hypothesen geprçft, die sich auf das Zusammenwirken vieler abhångiger und unabhångiger Variablen beziehen.
Die in Teil III unter dieser summarischen Beschreibung behandelten Verfahren seien im Folgenden anhand einiger Fragestellungen vorgestellt: Nach wie vor problematisch ist die Zuordnung von psychiatrischen Patienten zu einzelnen psychiatrischen Krankheitskategorien. Es soll deshalb çberprçft werden, in welcher Weise sich Patienten, die als depressiv, schizophren, paranoid oder dement klassifiziert wurden, hinsichtlich ihrer Krankheitssymptomatik unterscheiden. Geschulte Psychiater werden gebeten, Patienten der 4 genannten Kategorien auf Ratingskalen da-
nach einzustufen, wie stark die folgenden Merkmale ausgeprågt sind: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16.
Angstgefçhle Denkstærungen Feindseligkeit Misstrauen hypochondrische Tendenzen emotionale Labilitåt motorische Verlangsamung innere Erregung Gedåchtnisschwåche Schuldgefçhle depressive Stimmungen Desorientierung ungewæhnliche Denkinhalte halluzinatorisches Verhalten affektive Stumpfheit Manieriertheit
Um vorurteilsfreie Ratings zu erhalten, werden die Psychiater çber die erste Diagnose fçr die Patienten, nach der die Zuordnung zu den 4 o. g. Kategorien erfolgte, nicht informiert. Formal geht es in diesem Beispiel um die Beeinflussung mehrerer abhångiger Variablen durch eine unabhångige Variable. Fçr nur eine abhångige Variable (z. B. Angstgefçhle) wåre die in Kap. 7 beschriebene einfaktorielle Varianzanalyse anzuwenden. Mit diesem Verfahren lieûe sich çberprçfen, ob und in welcher Weise sich depressive, schizophrene, paranoide und demente Patienten z. B. hinsichtlich der abhångigen Variablen ¹Angstgefçhleª unterscheiden. Das komplexe Merkmal ¹Krankheitssymptomatikª wird jedoch nicht nur durch ein, sondern durch 16 Merkmale erfasst, d. h., wir mçssten 16 einfaktorielle Varianzanalysen durchfçhren, um die 4 Patientengruppen hinsichtlich der gesamten Krankheitssymptomatik differenzieren zu kænnen.
440
Einleitung
Diese Vorgehensweise ist jedoch aus zweierlei Grçnden nicht empfehlenswert. Erstens ist damit zu rechnen, dass aufgrund der einzelnen Varianzanalysen Entscheidungen getroffen werden, deren a- bzw. b-Fehler nur schwer kalkulierbar sind (vgl. hierzu S. 271 ff.). Zweitens kænnen sich die einzelnen Krankheitssymptome bei der Differenzierung der Krankheitsbilder gegenseitig ergånzen bzw. in kombinierter Form zu einer deutlicheren und besser interpretierbaren Unterscheidung der Patientengruppen fçhren als die 16 univariaten Analysen. Den 16 univariaten einfaktoriellen Varianzanalysen wåre deshalb ein multivariater Mittelwertvergleich bzw. eine multivariate Varianzanalyse vorzuziehen. Soll die Bedeutung der erhobenen Merkmale fçr die Unterscheidung der 4 verschiedenen Gruppen genauer untersucht werden, wåhlen wir als Auswertungsverfahren eine Diskriminanzanalyse (vgl. Kap. 18). Multivariate Mittelwertvergleiche werden wir in Kap. 17 behandeln. Sie unterscheiden sich von univariaten Mittelwertvergleichen (t-Test, univariate Varianzanalyse) darin, dass statt einer abhångigen Variablen mehrere abhångige Variablen simultan untersucht werden. Darçber hinaus besteht wie in der univariaten Varianzanalyse die Mæglichkeit, die zu vergleichenden Vpn hinsichtlich mehrerer unabhångiger Variablen zu gruppieren. In diesem Fall sprechen wir von einer mehrfaktoriellen, multivariaten Varianzanalyse. Kapitel 6 behandelt Methoden, mit denen der Zusammenhang zwischen zwei Merkmalen bestimmt bzw. eine Gleichung zur Vorhersage des einen Merkmals aufgrund des anderen erstellt werden kann (Korrelations- und Regressionsrechnung). Auch diese Verfahren werden im Teil III wieder aufgegriffen und zu einem allgemeinen, multivariaten Ansatz ausgebaut. Das folgende Beispiel verdeutlicht, was wir unter multivariaten Korrelationsmethoden verstehen wollen. Ein Teilbereich der Psychologie, die physiologische Psychologie, untersucht u. a. die Frage, mit welchen physiologischen Variablen subjektiv empfundene Gefçhle zusammenhången. Mit den in Kap. 6 behandelten Verfahren kænnten bivariate Korrelationen zwischen einer subjektiven Gefçhlsvariablen (z. B. die vor einer Examens- oder Testsituation empfundene Angst) und einer physiologischen Variablen (wie z. B. die psychogalvanische Hautreaktion) ermittelt bzw. eine Regressionsglei-
chung zur Vorhersage von Angstgefçhlen aufgrund der psychogalvanischen Hautreaktion (oder umgekehrt) aufgestellt werden. Es ist jedoch bekannt, dass nicht nur die psychogalvanische Hautreaktion, sondern eine Reihe weiterer physiologischer Variablen, wie z. B. Pulsfrequenz, Blutdruck, Pupillenæffnung, Flimmer-Verschmelzungsfrequenz, pH-Wert des Speichels, Blutzuckerspiegel usw. fçr Gefçhlszustånde bedeutsam sein kænnen. Wollen wir das physiologische Korrelat eines spezifischen Gefçhlszustands erfassen, reicht es sicherlich nicht aus, hierfçr einzelne physiologische Indikatoren isoliert zu untersuchen; erfolgversprechender wåre eine Methode, die es gestattet, Gefçhlszustånde aufgrund des Zusammenwirkens mæglichst vieler physiologischer Variablen zu beschreiben. Sollen, wie im vorliegenden Beispiel, mehrere Prådiktorvariablen gleichzeitig mit einer Kriteriumsvariablen in Beziehung gesetzt werden, berechnen wir eine multiple Korrelation. Mit der multiplen Regressionsrechnung bestimmen wir eine Gleichung zur Vorhersage einer Kriteriumsvariablen bei gleichzeitiger Berçcksichtigung mehrerer Prådiktorvariablen (Kap. 13). Die Verallgemeinerung des multiplen Korrelations- und Regressionsansatzes låsst es zu, auch nominal-skalierte Variablen als Prådiktorvariablen einzusetzen. Wir werden hierauf im Kap. 14 unter dem Stichwort ¹Das allgemeine lineare Modellª eingehen. In diesem Kapitel wird gezeigt, dass die in Teil II behandelten varianzanalytischen Methoden Spezialfålle der multiplen Korrelations- und Regressionsrechnung sind. Eine andere Problemsituation liegt vor, wenn die Bedeutung mehrerer Prådiktorvariablen fçr mehrere Kriteriumsvariablen von Interesse ist. In der oben erwåhnten psychophysiologischen Untersuchung wåre beispielsweise zu prçfen, ob es sinnvoll ist, das subjektiv erlebte Angstgefçhl nur durch eine einzelne Variable zu erfassen. Dem Problem angemessener wåre ein aus mehreren Items bestehender Fragebogen, der neben der subjektiv erlebten Angst weitere Erlebnisinhalte, wie z. B. subjektive Leistungserwartung, Konzentrationsstærungen und Vitalitåt erfasst. Soll die Bedeutung mehrerer Prådiktorvariablen fçr ein in diesem Sinne komplexes Kriterium ermittelt werden, fçhren wir eine kanonische Korrelationsanalyse durch (Kap. 19).
aEinleitung Die kanonische Korrelation stellt eine Verallgemeinerung der multiplen Korrelation dar, die ihrerseits eine Verallgemeinerung der bivariaten Korrelation ist. Da Varianzanalysen im allgemeinen linearen Modell als Spezialfålle der multiplen Korrelations- und Regressionsanalyse aufgefasst werden, sind sie natçrlich auch Spezialfålle der kanonischen Korrelation. Unter 19.3 (Die kanonische Korrelation: Ein allgemeiner Læsungsansatz) werden wir zeigen, dass auch die multivariaten Mittelwertvergleiche bzw. die Diskriminanzanalyse als kanonische Korrelationsanalyse darstellbar ist. Die Behauptung, die kanonische Korrelationsanalyse sei ein allgemeiner Læsungsansatz, ist schlieûlich dadurch zu rechtfertigen, dass wir auch die t-Tests (Kap. 5.1) sowie die ChiQuadrat-Techniken (Kap. 5.3) als Sonderfålle der kanonischen Korrelation interpretieren kænnen. Die Zielvorstellung, ein komplexes Merkmal mæglichst breit und differenziert erfassen zu wollen, resultiert håufig in sehr umfangreichen Erhebungsinstrumenten, deren Einsatz mit erheblichem Zeit- und Arbeitsaufwand verbunden ist. Dieses Problem fçhrt zu der Frage, wie die Anzahl der zu erhebenden Variablen minimiert werden kann, ohne auf relevante Informationen zu verzichten. Ein unsystematisches Vorgehen bei der Variablenauswahl kann dazu fçhren, dass der Untersuchungsaufwand durch Variablen vergræûert wird, die redundante Informationen, d. h. Informationen, die bereits mit anderen Variablen erfasst werden, liefern. Mit in diesem Sinn çberflçssigen Informationen muss vor allem dann gerechnet werden, wenn die Variablen hoch miteinander korrelieren. So wissen wir beispielsweise, dass physiologische Indikatoren von Gefçhlszustånden, von denen oben einige erwåhnt wurden, wechselseitig korreliert sind. Es empfiehlt sich deshalb, eine Auswahl von physiologischen Variablen zu treffen, die wechselseitig mæglichst wenig korreliert und damit nur wenig redundant sind. Mit steigender Variablenanzahl kann die Variablenauswahl aufgrund der Interkorrelationen jedoch sehr bald nicht mehr zufriedenstellend vorgenommen werden, weil die Anzahl der simultan zu berçcksichtigenden Korrelationen zu groû wird. (Bei 10 Variablen mçssen bereits 45 Korrelationen und bei 20 Variablen 190 Korrelationen gleichzeitig betrachtet werden.) Wir werden deshalb in Kap. 15 ein Verfahren kennenlernen, das
441
die Zusammenhånge vieler Variablen analysiert und das damit entscheidend zur optimalen Variablenauswahl beitragen kann. Dieses Verfahren wird in seiner allgemeinen Form Faktorenanalyse genannt. Im Rahmen der multivariaten Verfahren nimmt dieses Verfahren eine Sonderstellung ein, da es nicht zwischen abhångigen und unabhångigen Variablen unterscheidet. Kapitel 16 behandelt als ein weiteres multivariates Verfahren die Clusteranalyse, die verwendet wird, um viele, multivariat beschriebene Untersuchungsobjekte in homogene Gruppen oder Cluster einzuteilen. Multivariate Methoden gestatten die simultane Berçcksichtigung sehr vieler Variablen, was zwangslåufig dazu fçhrt, dass der mit diesen Verfahren verbundene rechnerische Aufwand weitaus græûer ist als der Aufwand der bisher behandelten Verfahren. Der Einsatz multivariater Verfahren ist deshalb ohne EDV-Hilfen praktisch undenkbar. Zudem setzen multivariate Verfahren mehr mathematische Vorkenntnisse voraus als die bisher behandelten Verfahren, sodass mathematisch weniger geschulte Leserinnen und Leser eventuell die erforderlichen Rechenschritte nicht ohne weiteres nachvollziehen kænnen. Es fragt sich allerdings, ob ein vollståndiges Verståndnis dieser zum Teil recht komplizierten Techniken çberhaupt notwendig ist, denn die rechnerische Durchfçhrung låsst sich mçhelos mit einem statistischen Programmpaket erledigen. Wie in den vorangegangenen Kapiteln werden deshalb die SPSS-Ergebnisprotokolle der wichtigsten Verfahren im Anhang E dokumentiert und kurz interpretiert. Nicht zu den Servicefunktionen der Anbieter von Statistik-Software zåhlt jedoch im Allgemeinen die Vermittlung des Verståndnisses eines Verfahrens, das notwendig ist, wenn ein Datenmaterial problemadåquat ausgewertet und die Ergebnisse richtig interpretiert werden sollen. Wir werden deshalb neben der ausfçhrlichen, mit Beispielen versehenen Darstellung der Indikation und der Interpretation auch auf den Rechengang der Verfahren eingehen und damit dem Leser eine Mæglichkeit anbieten, sich auch mit der Mathematik der Verfahren ein wenig vertraut zu machen. Die Darstellung der Rechenregeln der multivariaten Verfahren wird durch den Einsatz der Matrixalgebra erleichtert. Wir empfehlen, sich vor
442
Einleitung
dem Lesen derjenigen Teile, die sich mit dem mathematischen Hintergrund der Verfahren bzw. ihrer rechnerischen Durchfçhrung befassen, mit
den Grundregeln der Matrixalgebra vertraut zu machen (vgl. hierzu Anhang C).
443
Kapitel 13 Partialkorrelation und multiple Korrelation
ÛBERSICHT Partialkorrelation ± Semipartialkorrelation ± multiple Regression ± b-Gewichte ± Strukturkoeffizienten ± multiple Korrelation ± Schrumpfungskorrektur ± Multikollinearitåt ± Suppressionseffekte ± schrittweise Regression ± ¹optimaleª Stichprobenumfånge ± mathematischer Hintergrund der multiplen Korrelations- und Regressionsrechnung ± Pfadanalyse ± lineare Strukturgleichungsmodelle
In Kap. 6 haben wir uns mit Fragen des Zusammenhangs zweier Merkmale (Korrelationsrechnung) bzw. der Vorhersagbarkeit eines Merkmals aufgrund eines anderen (Regressionsrechnung) befasst. Die multiple Korrelation und Regression stellen eine Erweiterung dieses bivariaten Ansatzes dar. Hier werden statt einer mehrere Prådiktorvariablen in ihrer Bedeutung fçr eine Kriteriumsvariable untersucht. In diesem und in den folgenden Kapiteln wollen wir die Indikation, die rechnerische Durchfçhrung und die Interpretation des jeweiligen Verfahrens losgelæst von seinem mathematischen Hintergrund behandeln. 13.2.1 befasst sich deshalb zunåchst nur mit dem Grundprinzip der multiplen Korrelation und soll dazu befåhigen, Problemsituationen zu erkennen, die sich mit einer multiplen Korrelationsoder Regressionsanalyse læsen lassen. Anhand von Beispielen wird ferner gezeigt, wie die Ergebnisse einer solchen Analyse interpretiert werden kænnen. 13.2.2 befasst sich mit speziellen Interpretationsproblemen, die sich mit den Stichworten ¹Multikollinearitåtª und ¹Suppressionseffekteª beschreiben lassen. Daran anschlieûend behandeln wir unter 13.2.3 den mathematischen Hintergrund des Verfahrens. Bezçglich der Interpretation der multiplen Korrelation gelten die Ausfçhrungen auf S. 235 f. zur bivariaten Korrelation analog: Aus einer multiplen Korrelation kann nicht geschlossen werden, dass eine Kriteriumsvariable durch die Prådiktorvariab-
len kausal bestimmt ist. Wie man dennoch zumindest ansatzweise korrelationsanalytisch kausale Modelle çber das Zusammenwirken mehrerer Variablen çberprçfen kann, zeigen wir unter 13.3 (lineare Strukturgleichungsmodelle oder kurz: LISREL). Zuvor jedoch wollen wir uns einer Technik zuwenden, mit der die Bedeutung einer oder mehrerer Variablen fçr den Zusammenhang zwischen zwei anderen Variablen ermittelt werden kann (Partialkorrelation). Mit diesem Verfahren låsst sich çberprçfen, ob die Beziehung zwischen zwei Merkmalen auf einer ¹Scheinkorrelationª beruht, also einer Korrelation, die nur durch die Wirksamkeit einer dritten oder weiterer Variablen zustande gekommen ist.
" 13.1 Partialkorrelation ¹Scheinkorrelationenª Eine Studie soll den Zusammenhang zwischen der Anzahl krimineller Delikte und der Anzahl von Polizisten ermitteln. Man erhebt diese beiden Variablen in Kommunen çber 30 000 Einwohner und errechnet eine hohe positive Korrelation. Je mehr Polizisten, desto mehr kriminelle Delikte!? Dieses Ergebnis çberrascht die Autoren, denn man hatte mit einer negativen Korrelation gerechnet ± je mehr Polizisten, desto weniger kriminelle Delikte, weil mehr Polizisten mehr kriminelle Delikte verhindern kænnen als wenige. Dieses Beispiel verdeutlicht einen Fehler, der håufig bei der Interpretation von Korrelationen anzutreffen ist. Wie bereits berichtet (vgl. S. 235 f.), fçhrt die kausale Interpretation von Korrelationen meistens in die Irre. Was im o.g. Beispiel errechnet wurde, ist eine typische ¹Scheinkorrelationª, die
13
444
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
man immer dann erhålt, wenn zwei zu korrelierende Variablen x und y gemeinsam mit einem Drittmerkmal z zusammenhången. Hier ist z die Græûe der Kommunen. Sowohl die Anzahl der kriminellen Delikte (x) als auch die Anzahl der Polizisten (y) nehmen mit wachsender Einwohnerzahl der Kommunen (z) zu, sodass eine positive Korrelation von x und y zu erwarten war. Der eigentlich plausible Zusammenhang ± eine negative Korrelation ± håtte sich mæglicherweise gezeigt, wenn man die Einwohnerzahl konstant gehalten håtte. (Weitere Beispiele und Informationen zum Thema ¹Korrelation und Kausalitåtª findet man bei Kråmer, 1995, Kap. 14). Wie man mit ¹Scheinkorrelationenª technisch umgeht, erlåutert folgendes Beispiel: Im Rahmen der Entwicklungspsychologie wird untersucht, wie die Merkmale Abstraktionsfåhigkeit
x und sensomotorische Koordination
y miteinander korrelieren. Zusåtzlich wird das Alter der Kinder
z erhoben. Tabelle 13.1 zeigt die an n 15 Kindern gewonnenen Testergebnisse sowie das Alter. Nach den in Kap. 6 angegebenen Rechenregeln ermitteln wir zwischen x und y folgende Korrelation:
13
v u P 2 u xm u uP 2 m r u xm tm 1866 1642 =15 n sx n 15 2;21 ; v u P 2 u ym u uP 2 m r u ym tm 1836 1622 =15 n sy n 15 2;40 ; P P covxy
m
xm ym
n
m
n 164 162=15 4;72 ; 15 covxy 4;72 0;89 : sx sy 2;21 2;40 1842
rxy
m
P xm ym
Tabelle 13.1. Zahlenbeispiel fçr eine Partialkorrelation Kind
Abstraktionsfåhigkeit (x)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
sensomotor. Koord. (y)
9 11 13 13 14 9 10 11 10 8 13 7 9 13 14 P m
P m
P m
Alter (z)
8 12 14 13 14 8 9 12 8 9 14 7 10 12 12 P
xm 164
m
x2m 1866
P m
xm ym 1842 P m
6 8 9 9 10 7 8 9 8 7 10 6 10 10 9 P
ym 162
m
2 ym 1836
P m
P m
zm 126 z2m 1086
ym zm 1400
xm zm 1412
Der gefundene Zusammenhang zwischen der Abstraktionsfåhigkeit und dem sensomotorischen Koordinationsvermægen ist mit r 0;89 recht hoch. Es ist jedoch zu vermuten, dass dieser Zusammenhang auf eine 3. Variable, nåmlich das Alter, das sowohl das Merkmal x als auch das Merkmal y beeinflusst, zumindest teilweise zurçckgefçhrt werden kann. Die Korrelation r 0;89 kænnte also eine ¹Scheinkorrelationª darstellen. (Wir setzen diesen Begriff in Anfçhrungszeichen, weil natçrlich auch eine ¹Scheinkorrelationª eine richtige Korrelation im statistischen Sinn ist. Mit der Bezeichnung ¹Scheinkorrelationª soll explizit darauf hingewiesen werden, dass der gefundene Zusammenhang nicht als kausale Abhångigkeit interpretiert werden kann.) Die Bedeutung des Alters kænnten wir indirekt abschåtzen, indem die gleiche Korrelation fçr eine altershomogene Stichprobe berechnet wird. Je kleiner die Korrelation in diesem Fall wird, um so bedeutsamer ist das Alter fçr das Zustandekommen der oben genannten Korrelation. Eine solche Korrelation wåre allerdings nur fçr die untersuchte Altersstufe gçltig.
a13.1
445
Partialkorrelation
Bereinigung von Variablen Einen anderen Weg, eine vom Alter unbeeinflusste Korrelation zwischen der Abstraktionsfåhigkeit und der sensomotorischen Koordinationsfåhigkeit zu erhalten, eræffnet die Partialkorrelation. Der Grundgedanke dieses Verfahrens ist folgender: Wenn die Korrelation zwischen 2 Variablen x und y von einer dritten Variablen z beeinflusst wird, kann dies nur in der Weise geschehen, dass die Variable z sowohl Variable x als auch Variable y beeinflusst bzw. dass Variable z mit x und zusåtzlich mit y korreliert. Suchen wir eine Korrelation zwischen x und y, die von der Variablen z nicht beeinflusst ist, mçssen wir die Variablen x und y vom Einfluss der dritten Variablen z befreien. Anders formuliert: Die Variablen x und y mçssen bzgl. des Einflusses einer Variablen z bereinigt werden. Dies geschieht mit Hilfe der Regressionsrechnung. Wir bestimmen zunåchst eine Regressionsgleichung, mit der ^x-Werte aufgrund der Variablen z vorhergesagt werden kænnen. Die Varianz dieser vorhergesagten Werte wird ausschlieûlich durch die Variable z bestimmt. Subtrahieren wir die vorhergesagten ^x-Werte von den tatsåchlichen x-Werten, resultieren Residualwerte bzw. Regressionsresiduen, deren Varianz von der Variablen z unbeeinflusst ist (vgl. S. 209 f.). Diesen Vorgang der regressionsanalytischen Bereinigung bezeichneten wir auf S. 361 f. kurz als ¹Herauspartialisierenª einer Variablen z aus einer Variablen x. Genauso verfahren wir mit der Variablen y, aus der ebenfalls regressionsanalytisch der Einfluss der Variablen z herauspartialisiert wird. Korrelieren wir die bezçglich der Variablen z ¹bereinigtenª Variablen x und y, ergibt sich eine Partialkorrelation zwischen den Variablen x und y, die von der 3. Variablen z unbeeinflusst ist.
Eine Partialkorrelation stellt eine bivariate Korrelation zwischen Regressionsresiduen dar.
Bezogen auf das Beispiel ermitteln wir zunåchst die Regressionsgleichung zur Vorhersage der Abstraktionsfåhigkeit
x aufgrund des Alters
z der Kinder. Nach Gl. (6.12) ergibt sich fçr bxz :
164 126 34;4 15 bxz 1;246 : 2 27;6 126 1086 15 Fçr axz erhalten wir nach Gl. (6.9): 1412
164 126 1;246 0;464 : 15 15 Die Regressionsgleichung zur Vorhersage der x-Werte lautet somit: axz
^xm 1;246 zm 0;464 : Die Regressionskoeffizienten fçr die Vorhersage der sensomotorischen Koordinationsfåhigkeit
y aufgrund des Alters
z heiûen: 162 126 39;20 15 1;420 ; byz 2 27;6 126 1086 15 162 126 1;420 1;13 : ayz 15 15 Als Regressionsgleichung ergibt sich also: 1400
^ym 1;420 zm
1;13 :
Wie in der Kovarianzanalyse (vgl. 10.1) berechnen wir als nåchstes fçr jede Vp die Regressionsresi xm ^xm und ym ym ^ym . Diese Abduen xm weichungswerte, aus denen der Alterseinfluss herauspartialisiert ist, sind in Tabelle 13.2 aufgefçhrt. Zur Kontrolle çberprçfen wir, ob sich die Summen der x- bzw. y-Werte jeweils zu Null addieren. Dies trifft bis auf geringfçgige Abweichungen, die auf Rundungsungenauigkeiten zurçckzufçhren sind, zu. Die Korrelation zwischen den xund y-Werten ist die Partialkorrelation zwischen x und y, aus der das Merkmal z herauspartialisiert wurde. Sie lautet im Beispiel nach Gl. (6.60): 15 21;92 0;00 rxyz p
15 30;00 0;00
15 30;72 0;00 0;72 : Mit der Schreibweise rxyz wird zum Ausdruck gebracht, dass das Merkmal z aus der Korrelation rxy herauspartialisiert ist. Die gemeinsame Varianz zwischen der Abstraktionsfåhigkeit der Kinder und ihren sensomotorischen Koordinationsleistungen ist somit von
13
446
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
Tabelle 13.2. Regressionsresiduen fçr die Partialkorrelation x
y
1,06 0,57 1,32 1,32 1,07 ±0,19 ±0,43 ±0,68 ±0,43 ±1,19 0,07 ±0,94 ±3,92 0,07 2,32
0,61 1,77 2,35 1,35 0,93 ±0,81 ±1,23 0,35 ±2,23 0,19 0,93 ±0,39 ±3,07 ±1,07 0,35
P xm 0;02 m P 2 xm 30;00 m
P m
ym
rxyz
0;03
m
P xm ym 21;92 m
2
100% 0;89 79;2% auf 100% 0;72 51;8% gesunken. Der Differenzbetrag von 27,4% ist auf das Alter zurçckzufçhren.
Rechnerische Durchfçhrung
13
Zu einer vereinfachten Berechnung der Partialkorrelation fçhrt der folgende Gedankengang: Nach Gl. (6.73) setzt sich die Varianz der x-Werte additiv aus der Varianz der ^x-Werte und der Varianz der Regressionsresiduen x zusammen. (Die Varianz der Regressionsresiduen bezeichneten wir auf S. 208 mit s2
yjx :) Die Varianz der x-Werte lautet nach Gl. (6.72): s2x s2x
1
r2xz :
13:1 Die Varianz der y-Werte heiût entsprechend: s2y s2y
1
r2yz :
13:2
Fçr die Korrelation zwischen den x-Werten und den y-Werten, die der Partialkorrelation rxyz entspricht, schreiben wir gemåû Gl. (6.57): rxy rxyz
covxy : sx sy
covxy bxz byz s2z q : p sx 1 r2xz sy 1 r2yz
13:4
Ersetzen wir covxy gemåû Gl. (6.57) und bxz sowie byz gemåû Gl. (6.65), resultiert als Partialkorrelation: rxz sx ryz sy 2 rxy sx sy sz sz sz q rxyz p sx 1 r2xz sy 1 r2yz
P 2 ym 30;72
2
Der Zåhler in Gl. (13.3) enthålt die Kovarianz von x
bxz z axz und y
byz z ayz . Rechnen wir den Zåhler in Gl. (13.3) aufgrund dieser Beziehungen aus, erhalten wir einen Ausdruck, der sich aus covxy ; bxz ; byz ; s2z , der Kovarianz zwischen den z-Werten und den x-Werten, sowie der Kovarianz zwischen den z-Werten und den y-Werten zusammensetzt. Da die beiden letztgenannten Kovarianzen definitionsgemåû Null sind (die Kovarianz einer hinsichtlich z residualisierten Variablen mit der Variablen z ist Null; vgl. S. 209 f.), ergibt sich unter Berçcksichtigung von Gl. (13.1) und (13.2) zusammengefasst:
13:3
rxy rxz ryz p q : 1 r2xz 1 r2yz
13:5
Zur Berechnung einer Partialkorrelation benætigen wir somit nur die 3 Produkt-Moment-Korrelationen zwischen den 3 beteiligten Variablen. Die Partialkorrelation gibt den linearen Zusammenhang zweier Variablen an, aus dem der lineare Einfluss einer dritten Variablen eliminiert wurde.
(Auf eine andere Art der Berechnung der Partialkorrelation gehen wir auf S. 456 f. ein.) Die Einzelkorrelationen haben in unserem Beispiel die Werte rxy 0;89, rxz 0;77 und ryz 0;80. Setzen wir diese Werte in Gl. (13.5) ein, erhalten wir als Partialkorrelation: 0;89 0;77 0;80 rxyz p p 0;72 : 1 0;772 1 0;802 Dieser Wert stimmt mit dem oben ermittelten çberein.
Semipartialkorrelationen. Wird eine Drittvariable z nicht aus beiden, sondern nur aus einer Variablen
a13.1
447
Partialkorrelation
(z. B. x) herauspartialisiert, sprechen wir von einer semipartialen Korrelation (ry
xz ) (engl.: PartCorrelation). Sie berechnet sich nach folgender Gleichung (vgl. Bush et al., 1980): rxy rxz ryz ry
xz p :
13:6 1 r2xz
Partialkorrelationen hæherer Ordnung. Eine Partialkorrelation hæherer Ordnung erhålt man, wenn aus dem Zusammenhang zweier Variablen nicht nur eine, sondern mehrere Variablen herauspartialisiert werden. Die Partialkorrelation fçr die Variablen 1 und 2, aus der der Einfluss der Variablen 3 und 4 herauspartialisiert ist, lautet: r123 r143 r243 p : r1234 p
13:7a 1 r2143 1 r2243 In diese Partialkorrelation zweiter Ordnung gehen nur Partialkorrelationen 1. Ordnung ein, die nach Gl. (13.5) bestimmt werden. Allgemein schreiben wir fçr eine Partialkorrelation hæherer Ordnung, bei der der Einfluss der Variablen 3, 4 . . . k aus dem Zusammenhang zweier Variablen 1 und 2 herauspartialisiert ist: r1234 ... k r1234 ...
k 1 r1k34 ...
k 1 r2k34 ...
k 1 q :
1 r21k34 ...
k 1
1 r22k34 ...
k 1
13:7b Fçr eine Partialkorrelation hæherer Ordnung mçssen zuvor såmtliche Partialkorrelationen niedriger Ordnung bestimmt werden, was bei groûen Werten fçr k sehr schnell zu einem erheblichen Rechenaufwand fçhrt. Einen allgemeinen Ansatz zur Læsung dieses Problems lernen wir auf S. 454 f. kennen (zur Berechnung von Semipartialkorrelationen hæherer Ordnung vgl. S. 455; weitere Hinweise hierzu findet man bei Algina u. Seaman 1984).
Signifikanztests Um die Hypothese zu çberprçfen, ob eine Partialkorrelation signifikant von einem Korrelationsparameter q0 abweicht, transformieren wir zunåchst die Partialkorrelation und q0 nach Tabelle H in Fischers Z-Werte Z und Z0 . Sind die beteilig-
ten Variablen paarweise bivariat normalverteilt, kann der folgende z-Wert der Standardnormalverteilung ermittelt werden (vgl. Finn, 1974, Kap. 6.2): p z
Z Z0 n 3
k 2 ;
13:8 wobei n Anzahl der Vpn, k Anzahl aller beteiligten Variablen. Fçr eine Partialkorrelation 1. Ordnung
k 3 reduziert sich Gl. (13.8) zu: p
13:9 z
Z Z0 n 4 : Die Partialkorrelation weicht ± bei zweiseitigem Test ± statistisch bedeutsam von q0 ab, wenn z auûerhalb der Bereiche 1;96 z 1;96
a 5% bzw. 2;58 z 2;58
a 1% liegt. In unserem Beispiel ermitteln wir fçr rxyz 0;72 und q0 0: Z 0;908 ; z
0;908
Z0 0 ; p 0 15 4 3;01 :
Die Partialkorrelation weicht somit auf dem 1%-Niveau signifikant von Null ab oder kurz: Sie ist auf dem 1%-Niveau signifikant. Schåtzen wir q0 durch die unbereinigte Korrelation rxy , kænnen wir die Gl. (13.8) oder (13.9) auch vewenden, um den Unterschied zwischen rxy und der Partialkorrelation auf Signifikanz zu testen (die Stichprobenkorrelation ist allerdings keine erwartungstreue Schåtzung der Populationskorrelation. Der ¹Biasª ist jedoch ± wie Gl. 13.21 fçr k 1 zeigt ± bei groûen Stichproben zu vernachlåssigen). Fçr unser Beispiel mit rxy ^q0 0;89 ergibt sich folgendes Resultat: Z 0;908 ; z
0;908
Z0 1;422 p 1;422 15 4
1;70 :
Durch die Berçcksichtigung des Alters wird die ursprçngliche Korrelation (bei einseitigem Test) also signifikant reduziert
1;70 < 1;65.
Hinweise: Zur Ûberprçfung der Frage, ob sich eine Partialkorrelation rxyz signifikant von der unbereinigten Korrelation rxy unterscheidet, wird auch auf Olkin u. Finn (1995) verwiesen. Die Autoren beschreiben zudem einen Test zur Ûberprçfung des Unterschiedes zweier Partialkorrelationen rxyz und rxyw . Einen Signifikanztest zur Prçfung des Unterschiedes zwischen einer unbereinigten Korrelation
13
448
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
rxy und einer Semipartialkorrelation
rx
yz findet man bei Malgady (1987). Diese Arbeit enthålt auch Signifikanztests fçr folgende Vergleiche von Semipartialkorrelationen: rx
yz vs. rx
zy ; rx
yz vs. rx
yw und rx
yz vs. rx
wz : Wie man çberprçfen kann, ob sich mehrere, unabhångige Partialkorrelationen signifikant unterscheiden, wird bei Silver et al. (1995) beschrieben. Ûber Signifikanztests, die die Reliabilitåt der Kontrollvariablen berçcksichtigen, berichtet Strauss (1981).
13.2 Multiple Korrelation und Regression
13
Die multiple Korrelations- und Regressionstechnik gehært neben der bivariaten Korrelation und der Varianzanalyse zu den am håufigsten eingesetzten statistischen Verfahren (vgl. Willson, 1980). Mit Hilfe der multiplen Korrelationsstatistik ist es mæglich, Beziehungen zwischen zwei oder mehreren Prådiktorvariablen und einer einzelnen Kriteriumsvariablen zu analysieren. Das Ergebnis dieser Analyse besteht in einer Gleichung zur Vorhersage von Kriteriumswerten (multiple Regressionsgleichung) und im multiplen Korrelationskoeffizienten R. Mit der multiplen Korrelation wird der Zusammenhang zwischen mehreren Prådiktorvariablen und einer Kriteriumsvariablen bestimmt. Die multiple Regressionsgleichung dient der Vorhersage einer Kriteriumsvariablen aufgrund mehrerer Prådiktorvariablen.
" 13.2.1 Grundprinzip und Interpretation Fçr die Berechnung einer multiplen Korrelation werden von n Vpn Messungen auf einer Kriteriumsvariablen (xc ) und k Prådiktorvariablen (xi , i 1; . . . ; k) benætigt, wobei n > k ist. Die Prådiktorvariablen kænnen dichotome Nominalskalen oder Intervallskalen sein, und die Kriteriumsvariable ist in der Regel eine Intervallskala. (Zur
Verwendung von mehrfach gestuften Nominalskalen als Prådiktorvariablen vgl. Kap. 14. Auf nominalskalierte Kriteriumsvariablen gehen wir auf S. 463 f. und S. 644 ein.)
Multiple Regressionsgleichungen Regressionsgleichungen haben fçr bivariate Fragestellungen folgende allgemeine Form: ^xcm b x1m a : Handelt es sich bei den Variablen um standardisierte Variablen (z-Werte), ergibt sich wegen cov
1;c r1c , s1 sc 1 und a 0 gem. Gl. (6.25) folgende vereinfachte Schreibweise: ^zcm r1c z1m :
13:10
Hierin bedeuten: ^zcm mittels der Regressionsgleichung vorhergesagter z-Wert der Person m auf der Kriteriumsvariablen xc , r1c Korrelation zwischen der Variablen 1 und der Kriteriumsvariablen, z1m z-Wert der m-ten Person auf der Variablen 1. Fçr k Prådiktorvariablen resultiert folgende Gleichung fçr die Vorhersage eines z-Wertes der Kriteriumsvariablen xc : ^zcm b1 z1m b2 z2m bk zkm :
13:11 Anstelle der Korrelation r1c in Gl. (13.10) tauchen hier als Gewichte die Koeffizienten b1 bis bk auf. Die Aufgabe der multiplen Regressionsrechnung besteht darin, diese b-Koeffizienten zu ermitteln. Sie werden auch als Standardpartialregressionskoeffizienten oder kurz als Beta-Gewichte bezeichnet, fçr die wir anstelle von b^i als Schåtzwerte der wahren Gewichtsparameter b i vereinfachend bi schreiben. Die Beta-Gewichte werden so bestimmt, dass die Regressionsgleichung die Kriteriumsvariable mæglichst genau vorhersagt. Wie in der bivariaten Regression wird auch in der multiplen Regression die Regressionsgleichung nach dem Kriterium der kleinsten Quadrate festgelegt (vgl. 13.2.3 bzw. Gl. 13.58). Statt standardisierter Werte kænnen Rohwerte mit folgender Gleichung vorhergesagt werden:
a13.2.1
^xcm b01 x1m b02 x2m b0k xkm a ;
13:12 wobei b0i bi
sc : si
Das Symbol a kennzeichnet ± wie in der bivariaten Regressionsrechnung ± die Hæhenlage. Fçr 2 Prådiktorvariablen repråsentiert die Regressionsgleichung eine Ebene im dreidimensionalen Raum, die zur Achse x1 die Steigung b01 und zur Achse x2 die Steigung b02 aufweist; a kennzeichnet den Schnittpunkt der Ebene mit der Kriteriumsachse xc . Wir berechnen a nach folgender Gleichung: a xc
13
449
Grundprinzip und Interpretation
b01 x1 b02 x2 b0k xk :
13:13
Multiple Korrelation Der multiple Korrelationskoeffizient R (im Unterschied zu r als bivariate Produkt-Moment-Korrelation) erfasst den Zusammenhang zwischen k Prådiktorvariablen und einer Kriteriumsvariablen. R hat definitionsgemåû einen Wertebereich von 0 bis 1. Berechnet man zwischen den vorhergesagten ^yim -Werten und den erhobenen yim -Werten eine bivariate Produkt-Moment-Korrelation, erhålt man als Resultat eine multiple Korrelation
R r^yy . Der multiple Korrelationskoeffizient entspricht der bivariaten Korrelation zwischen der vorhergesagten und der tatsåchlichen Kriteriumsvariablen.
Wird eine Kriteriumsvariable aufgrund von 2 Prådikatorvariablen vorhergesagt, berechnen wir die multiple Korrelation einfach nach der Beziehung: p Rc;12 b1 r1c b2 r2c :
13:14 Mit der Schreibweise Rc;12 bringen wir zum Ausdruck, dass eine Kriteriumsvariable c mit den Prådiktorvariablen 1 und 2 (allgemein: den nach dem Komma genannten Variablen) in Beziehung gesetzt wird. Die multiple Korrelation ist durch die positive Wurzel in Gl. (13.14) definiert. Die Beta-Gewichte b1 und b2 ermitteln wir nach folgenden Gleichungen:
r2c r12 ; 1 r212 r2c r1c r12 : b2 1 r212
b1
r1c
13:15a
13:15b
Setzen wir diese Gleichungen in Gl. (13.14) ein, erhalten wir: s r21c r22c 2 r12 r1c r2c Rc;12 :
13:14a 1 r212 Sind mehr als 2 Prådiktorvariablen beteiligt, errechnet sich die multiple Korrelation nach folgender Gleichung: v u k uX
13:16 bi ric : Rc;12 ... k R t i1
Fçr k 2 bestimmen wir die b-Gewichte nach der Beziehung: b Rx 1 rxc :
13:17
Auf die Bedeutung und Herleitung dieser Gleichung in Matrixschreibweise gehen wir unter 13.2.3 nåher ein. Der Koeffizient R2 gibt, wie bei der ProduktMoment-Korrelation, den Anteil der gemeinsamen Varianz zwischen der Kriteriumsvariablen und den Prådiktorvariablen an (Determinationskoeffizient). R2 100 schåtzt somit den prozentualen Teil der Varianz der Kriteriumsvariablen, der von den Prådiktoren vorhergesagt werden kann. Die Existenz einer multiplen Korrelation setzt voraus, dass der Ausdruck unter der Wurzel von Gl. (13.14a) nicht negativ wird. Dies ist gewåhrleistet, wenn fçr k 2 Prådiktorvariablen die folgende Ungleichung gilt (vgl. Stanley u. Wang, 1969 oder Glass u. Collins, 1970): q r1c r2c
1 r21c
1 r22c r12 r1c r2c
q
1 r21c
1 r22c :
13:18
Die Ungleichung zeigt, dass r12 nicht beliebig variieren kann, wenn r1c und r2c festgelegt sind. Eine Ûberprçfung dieser Beziehung erçbrigt sich, wenn die Korrelationen aus empirisch erhobenen Daten errechnet werden. (Man beachte, dass R fçr r12 1 nicht definiert ist). Die Verallgemeinerung
450
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
dieser Ungleichung auf mehr als zwei Prådiktorvariablen findet man bei Olkin (1981).
Hinweis: Eine Antwort auf die Frage, wie man mit fehlenden Daten (missing data) bei der Bestimmung einer multiplen Regressionsgleichung (mit 2 Prådiktoren) umgehen sollte, findet man bei Kromrey u. v. Hines (1994).
Voraussetzungen und Signifikanztests
13
Die inferenzstatistische Absicherung der multiplen Korrelation setzt voraus, dass alle beteiligten, kontinuierlichen Variablen multivariat normalverteilt sind, es sei denn, der Stichprobenumfang ist im Verhåltnis zur Anzahl der Variablen gençgend groû
n > 40 bei k < 10. Zur Ûberprçfung der multivariaten Normalverteilungsannahme existiert derzeit kein ausgereifter Test. Behelfslæsungen wurden von Stelzl (1980) und Thompson (1990 b) vorgeschlagen. Tests zur Ûberprçfung von Schiefe und Exzess einer multivariaten Verteilung hat Mardia (1970, 1974, 1985) entwickelt. Looney (1995) schlågt eine sequentielle Teststrategie unter Verwendung mehrerer Normalverteilungs-Tests vor. Diese Vorgehensweise wird damit begrçndet, dass keiner der bekannten Tests auf alle mæglichen Abweichungen von einer multivariaten Normalverteilung gleich gut anspricht. In diesem Zusammenhang wird zudem deutlich, dass die Annahme einer multivariaten Normalverteilung auch dann verletzt sein kann, wenn alle beteiligten Variablen fçr sich univariat normalverteilt sind. Ein SAS-Programm zur Ûberprçfung der multivariaten Normalverteilungsannahme wurde von Fan (1996) entwickelt. Dieses Programm verbindet den graphischen Ansatz von Johnson (1990 b) mit den Schiefe- und Exzesstests von Mardia (1970). Weitere Verfahrensvorschlåge und EDV-Hinweise, auch zur Ausreiûer(Outliers-)Problematik bei multivariaten Daten, findet man bei Timm (2002, Kap. 3.7). Liegen Prådiktorvariablen in dichotomisierter Form vor, muss die Kriteriumsvariable fçr alle Kombinationen der dichotomisierten Prådiktorvariablen normalverteilt und varianzhomogen sein. (Zur Verwendung dichotomer Kriteriumsvariablen s. unter 14.2.10 u. 14.2.11 sowie S. 463.)
Kænnen diese Voraussetzungen als erfçllt gelten, çberprçfen wir H0: % 0 mit folgendem F-Test: F
R2
n k 1 :
1 R2 k
13:19
Der resultierende F-Wert wird anhand der F-Tabelle (Tabelle E des Anhangs) mit dem fçr k Zåhlerfreiheitsgrade und n k 1 Nennerfreiheitsgrade auf einem bestimmten Signifikanzniveau kritischen F-Wert verglichen. Die Frage, welche Prådiktorvariable im Kontext der çbrigen einen signifikanten Beitrag zur Vorhersage der Kriteriumsvariablen leistet (Signifikanz der Beta-Gewichte), wird mit folgendem Test çberprçft (vgl. Overall u. Klett, 1972, S. 422 f.): bi t r :
13:20 ii r
1 R2 n k 1 Dieser approximativ t-verteilte Wert hat n k 1 Freiheitsgrade. rii ist das Element ii in der invertierten Korrelationsmatrix, auf die wir unter 13.2.3 nåher eingehen. Zur Ûberprçfung der Frage, ob eine Prådiktorvariable 1 in Kombination mit einer Prådiktorvariablen 2 oder in Kombination mit einer Prådiktorvariablen 3 besser geeignet ist, eine Kriteriumsvariable c vorherzusagen
Rc:12 vs: Rc:13 , haben Olkin u. Finn (1995) einen Test vorgeschlagen. Hier findet man auch ein Verfahren, mit dem man çberprçfen kann, ob ein Satz von Prådiktoren in einer Stichprobe A besser geeignet ist, ein Kriterium c vorherzusagen, als in einer Stichprobe B. (Zur Kritik dieses Verfahrens vgl. Algina u. Keselman, 1999.)
Schrumpfungskorrektur Eine nach Gl. (13.14) bzw. (13.16) ermittelte multiple Korrelation ist ± zumal bei vielen Prådiktorvariablen und kleinem Stichprobenumfang ± nur bedingt geeignet, den wahren, in der Population gçltigen Korrelationskoeffizienten zu schåtzen. Die anhand einer Stichprobe ermittelte multiple Korrelation çberschåtzt den wahren multiplen Zusammenhang, sodass eine ¹Schrumpfungskorrekturª (¹correction for shrinkageª) erforderlich ist. Nach Morrison (1976, S. 110; zit. nach Huberty u.
a13.2.1
451
Grundprinzip und Interpretation
Mourad, 1980) erwarten wir bei Gçltigkeit der H0: % 0 eine quadrierte multiple Korrelation von k :
13:21 n 1 Dieser Wert ergibt sich, wenn wir gemåû H0 in Gl. (13.19) F = 1 setzen und nach R2 auflæsen. Dass der Erwartungswert von R2 bei Gçltigkeit von H0 nicht Null ist, hat mehrere Autoren veranlasst, Formeln zu entwickeln, die die Ûberschåtzung des wahren multiplen Zusammenhangs durch eine Stichprobenkorrelation kompensieren. Eine Reihe dieser Formeln zur ¹Schrumpfungskorrekturª multipler Korrelationen wurden von Carter (1979) verglichen. Nach dieser Studie fçhrt die von Olkin u. Pratt (1958) vorgeschlagene Korrektur zu den genauesten Schåtzungen. Sie lautet n 3 2 ^ R 1 n k 1 2 2 2 2
1 R
1 R : n k1 (13.22) E
R2
Wenn die Schrumpfungskorrektur zu einem nega^ 2 fçhrt, ist davon auszugehen, tiven Wert fçr R dass in der Population zwischen den Prådiktorvariablen und der Kriteriumsvariablen kein Zusammenhang besteht. (Sowohl R als auch R2 kænnen nur positive Werte annehmen.) BEISPIEL Es soll die Intelligenz
xc von 10 Schçlern aufgrund ihrer Gedåchtnisleistung
x1 und ihrer Deutschnote
x2 vorhergesagt werden. Die Gedåchtnisleistungen werden durch die Anzahl der Fehler in einem Gedåchtnistest quantifiziert. (Je hæher der Wert, desto geringer die Gedåchtnisleistung.) Tabelle 13.3 zeigt die ursprçnglichen und die z-transformierten Werte. Die Korrelationen zwischen den 3 Variablen lauten: r12 0;16;
r1c
0;47;
r2c
0;87 :
Nach Gl. (13.15 a, b) errechnen wir folgende b-Gewichte: b1 b2
0;47
0;87 0;16 1 0;162 0;87
0;47 0;16 1 0;162
0;339 ; 0;816 :
Die multiple Korrelation ergibt sich nach Gl. (13.14) zu: p R
0;339
0;47
0;816
0;87 0;93 : Zu diesem Resultat fçhrt auch Gl. (13.14a):
R s
0;472
0;872 2 0;16
0;47
0;87 1 0;162 0;93 : Wir erhalten nach Gl. (13.11) folgende multiple Regressionsgleichung: ^zcm 0;339 z1m
0;816 z2m : Die Regressionsgleichung fçr die Rohwerte heiût nach Gl. (13.12) und (13.13): ^xcm
1;768 x1m
6;670 x2m 144;44 :
Nach diesen Gleichungen ermitteln wir die ^zcm -Werte bzw. ^xcm -Werte in Tabelle 13.3. Die Korrelation der vorhergesagten Kriteriumswerte
^xcm bzw. ^zcm mit den tatsåchlichen Kriteriumswerten
xcm bzw. zcm ) entspricht der oben ermittelten multiplen Korrelation. Der Signifikanztest fçhrt nach Gl. (13.19) zu einem F-Wert von: F
0; 932
10 2 1 22;41 :
1 0;932 2
(Ohne Rundung der Zwischenergebnisse ermittelt man F 24;24: Dieser F-Wert ist bei 2 Zåhlerfreiheitsgraden und 7 Nennerfreiheitsgraden hoch signifikant. Ist die gezogene Stichprobe repråsentativ, kann die Regressionsgleichung zur Vorhersage von Intelligenzwerten aufgrund der Gedåchtnisleistungen und Deutschnoten auch bei weiteren Untersuchungseinheiten der Population eingesetzt werden. (Die Ûberprçfung der Signifikanz eines b-Gewichts wird auf S. 467 f. demonstriert.) Einen besseren Schåtzwert des ¹wahrenª multiplen Zusammenhangs liefert die Schrumpfungskorrektur nach Gl. (13.22). Wir erhalten 10 3 ^2 1 R
1 0;932 10 2 1 2
1 0;932 2 10 2 1 1
1; 0
0;135 0;004
0;861 bzw. ^ 0;928 : R Aufgrund der b-Gewichte interpretieren wir die multiple Korrelation folgendermaûen: Zunåchst haben beide b-Gewichte ein negatives Vorzeichen, d. h., je græûer die Ausprågung der Prådiktorvariablen, desto kleiner ist der vorhergesagte Wert auf der Kriteriumsvariablen. Dieses Ergebnis war aufgrund der negativen Einzelkorrelationen zwischen den Prådiktorvariablen und der Kriteriumsvariablen zu erwarten. (Es gibt jedoch auch Fålle, bei denen das Vorzeichen eines b-Gewichts nicht mit dem Vorzeichen der Einzelkorrelation çbereinstimmt, s. S. 452 ff.).
13
452
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
Tabelle 13.3. Beispiel fçr eine multiple Korrelation und Regression (k 2) Schçler-Nr. Gedåchtnis
1 2 3 4 5 6 7 8 9 10
Deutschnote
x1
z1
x2
z2
12 12 13 10 11 13 12 10 14 15 P
±0,13 ±0,13 0,52 ±1,43 ±0,78 0,52 ±0,13 ±1,43 1,17 1,82
2 3 3 4 2 4 4 1 2 3 P
±0,82 0,20 0,20 1,22 ±0,82 1,22 1,22 ±1,84 ±0,82 0,20
m
P m
x1m 122
m
xc
zc
107 0,35 105 0,10 101 ±0,40 102 ±0,27 114 1,22 97 ±0,90 92 ±1,52 118 1,72 111 0,85 95 ±1,15 P xcm 1042
^xc 109,87 103,22 101,45 100,08 111,65 94,78 96,55 120,09 106,35 97,91
^zc 0,71 ±0,12 ±0,34 ±0,51 0,93 ±1,17 ±0,95 1,99 0,27 ±0,78
m
P 2 x21m 1512 x22m 88 xcm 109 218 m m P P x1m x2m 344 x2m xcm 2849 P m
13
x2m 28
P
m
x1 12;20 x2 2;80 xc 104;20
Intelligenz
m
x1m xcm 12 655
s1 1;536 s2 0;980 sc 8;010
Allgemein besagt ein positives b-Gewicht, dass eine Zunahme der entsprechenden Prådiktorvariablen zu einer Vergræûerung des vorhergesagten Kriteriumswertes beitrågt, und ein negatives b-Gewicht, dass eine Zunahme der entsprechenden Prådiktorvariablen zu einer Verkleinerung des Wertes der Kriteriumsvariablen fçhrt. Vergleichen wir die beiden b-Gewichte untereinander, stellen wir fest, dass die Deutschnote
x2 erheblich stårker an der Vorhersage der Kriteriumsvariablen beteiligt ist als die Gedåchtnisleistung
x1 . Allgemein formulieren wir: Je hæher das b-Gewicht einer Prådiktorvariablen (unabhångig vom Vorzeichen), desto bedeutsamer ist die Prådiktorvariable fçr die Vorhersage der Kriteriumsvariablen.
13.2.2 Multikollinearitåt und Suppressionseffekte Das Beispiel kænnte den Eindruck erwecken, dass die b-Gewichte in etwa die Verhåltnisse der bivariaten Korrelationen zwischen Prådiktor- und Kriteriumsvariablen wiedergeben. Dass das b-Gewicht einer Prådiktorvariablen jedoch nicht nur von der Korrelation der Prådiktorvariablen mit der Kriteriumsvariablen bestimmt ist, kann man im Fall zweier Prådiktorvariablen leicht anhand der Gl. (13.15 a, b) nachvollziehen. Das b-Gewicht
wird durch die Korrelation der beiden Prådiktorvariablen mit der Kriteriumsvariablen und zusåtzlich durch die Interkorrelation der beiden Prådiktorvariablen bestimmt. Die Græûe eines b-Gewichts hångt von den linearen Zusammenhången bzw. der Hæhe aller bivariaten Korrelationen der untersuchten Variablen ab. Stichprobenbedingte Zufålligkeiten in den einzelnen bivariaten Korrelationen beeinflussen deshalb auch die Græûe eines b-Gewichts. Dies ist bei der Interpretation der b-Gewichte zu beachten. (Ein Verfahren zur Ûberprçfung von Unterschieden zwischen den bivariaten Korrelationen wird bei Olkin u. Finn, 1990, beschrieben; vgl. auch S. 222 f.). Die b-Gewichte einzelner Variablen kænnen ± zumal bei kleineren Stichproben ± von Untersuchung zu Untersuchung stark schwanken. Zudem dçrfte es aufgrund der Berechnungsvorschriften einleuchtend sein, dass die Græûe des b-Gewichts einer Variablen davon abhångt, welche weiteren Prådiktorvariablen untersucht werden. Allein der Austausch bzw. das Weglassen einer einzigen Prådiktorvariablen in einem Satz von Prådiktorvariablen kann das gesamte Gefçge der b-Gewichte deutlich veråndern.
a13.2.2
Multikollinearitåt und Suppressionseffekte
Multikollinearitåt Die Instabilitåt der b-Gewichte ist eine Folge der Multikollinearitåt bzw. der wechselseitigen Abhångigkeit der Prådiktorvariablen. Unter Multikollinearitåt versteht man die wechselseitige, lineare Abhångigkeit von Variablen im Kontext multivariater Verfahren.
Multikollinearitåt beeintråchtigt den Einsatz der multiplen Korrelation auf dreifache Weise: · Bei extremer Multikollinearitåt ist die rechnerische Genauigkeit der b-Gewicht-Schåtzungen gefåhrdet (Belsley et al., 1980, S. 114 f.). · Multikollinearitåt kann zu Verzerrungen der Teststatistiken (Gl. 13.19 und Gl. 13.20) fçhren (Pedhazur, 1982, S. 235). · Multikollinearitåt erschwert die Interpretation der b-Gewichte.
Strukturkoeffizienten. Angesichts dieser Schwierigkeiten erscheint es sinnvoll, nach Kennziffern Ausschau zu halten, die in Ergånzung der b-Gewichte die Interpretation einer multiplen Regressionsgleichung erleichtern. Dies sind die sog. Strukturkoeffizienten
ci , die den Zusammenhang zwischen den Prådiktorvariablen und der vorhergesagten Kriteriumsvariablen beschreiben und die sich rechnerisch ergeben, wenn man die Einzelkorrelationen durch die multiple Korrelation dividiert: ric ci
13:23 R (zur Herleitung der Strukturkoeffizienten vgl. S. 470). Fçr unser Beispiel resultieren damit: 0;47 0;87 c1 0;51; c2 0;94 : 0;93 0;93 Die vorhergesagte Intelligenz korreliert also bedeutend hæher mit der Deutschnote als mit dem Gedåchtnis. In diesem Beispiel fçhren die Einzelkorrelationen, b-Gewichte und Strukturkoeffizienten im Prinzip zur gleichen Interpretation (die Deutschnote ist fçr die Intelligenz wichtiger als das Gedåchtnis). Dies ist jedoch nicht immer so, denn es sind Merkmalskonstellationen denkbar, bei denen eine Einzelkorrelation (und damit auch der entsprechende Strukturkoeffizient) ein anderes
453
Vorzeichen aufweist als das b-Gewicht. Wie Gl. (13.15 a) zeigt, ist dies bei zwei Prådiktoren immer der Fall, wenn jr1c j < jr2c r12 j ist (entsprechendes gilt fçr r2c ). Damit stehen zur Interpretation einer multiplen Regressionsgleichung zwei verschiedene Indizes mit jeweils spezifischer Bedeutung zur Verfçgung: · das b-Gewicht, dem zu entnehmen ist, welchen Beitrag eine einzelne Prådiktorvariable im Kontext aller çbrigen Prådiktorvariablen zur Klårung der tatsåchlichen Kriteriumsvarianz leistet; · der Strukturkoeffizient, der angibt, welchen Anteil eine Prådiktorvariable an der vorhergesagten Kriteriumsvarianz hat ohne Berçcksichtigung der çbrigen Prådiktorvariablen (vgl. auch Thorndike, 1978, S. 171 f. oder Thompson u. Borello, 1985). Die von Budescu (1993) vorgeschlagene ¹Dominanzanalyseª stellt eine weitere Mæglichkeit dar, die relative Bedeutung der Prådiktorvariablen zu bestimmen. Die Technik basiert auf der Nçtzlichkeit der Prådiktoren, die auf S. 456 f. behandelt wird. Hierbei werden R2-Werte verglichen, die man fçr alle mæglichen Teilmengen (Subsets) berechnet, die aus einem Satz von Prådiktorvariablen gebildet werden kænnen. Weiterfçhrende Entwicklungen dieser Technik werden bei Azen u. Budescu (2003) beschrieben. Weitere Hinweise zur Interpretation von b-Gewichten findet man bei Bring (1995).
Merkmalsvorhersagen. Weniger Auswirkungen hat die Multikollinearitåt auf reine Vorhersageaufgaben, bei denen die Interpretation der b-Gewichte von nachrangiger Bedeutung ist. Auch wenn eine geringfçgige Verånderung der Multikollinearitåt zu drastischen Verånderungen der b-Gewichtsstruktur fçhren sollte, veråndern sich dadurch die prognostizierten Kriteriumswerte nur unerheblich. Fçgt man beispielsweise zu einem Prådiktorvariablensatz eine weitere, mit anderen Prådiktorvariablen hoch korrelierte Prådiktorvariable hinzu, kænnen sich die b-Gewichte zwar deutlich veråndern; die vorhergesagten Werte veråndern sich jedoch kaum, wenn sich die multiple Korrelation durch das Hinzufçgen dieser zusåtzlichen Prådiktorvariablen nur unwesentlich erhæht.
13
454
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
Kreuzvalidierung. Wie stabil die Regressionsvorhersagen sind, kann mit einer sog. Kreuzvalidierung geprçft werden. Hierbei bestimmt man zwei Regressionsgleichungen aufgrund von zwei Teilstichproben A und B und verwendet die Regressionsgleichung von A zur Vorhersage der Kriteriumsvariablen in B und umgekehrt die Regressionsgleichung von B zur Vorhersage der Kriteriumswerte in A. Die Korrelation der so vorhergesagten Kriteriumsvariablen mit den tatsåchlichen Ausprågungen der Kriteriumsvariablen in der ¹Eichstichprobeª informiert çber die Stabilitåt der Merkmalsvorhersagen (weitere Einzelheiten hierzu findet man bei Wainer, 1978, Stone, 1974 und Geisser, 1975; çber die ¹multicross-validationªTechnik berichtet Ayabe, 1985). Verfahren, die ohne ein Splitting der untersuchten Stichprobe auskommen, behandeln Browne u. Cudeck (1989), Darlington (1968) sowie Browne (1975 a, b). Das Problem der Multikollinearitåt stellt sich nicht, wenn man statt korrelierter Variablen unkorrelierte Faktoren als Prådiktoren einsetzt. (Zur Bedeutung und Ermittlung von Faktoren vgl. Kap. 15.). Hierçber wird ausfçhrlich bei Jolliffe (2002, Kap. 8.1±8.3) berichtet. Partial-, Semipartial- und multiple Korrelation
13
Partialkorrelation hæherer Ordnung. Auf S. 445 ff. wurde erlåutert, dass eine Partialkorrelation r123 der Produkt-Moment-Korrelation zwischen den bezçglich einer Variablen 3 residualisierten Variablen 1 und 2 entspricht. Will man mit einer Partialkorrelation hæherer Ordnung
r1234 ... mehrere Variablen gleichzeitig kontrollieren, kænnen hierfçr statt des in Gl. (13.7) beschriebenen Ansatzes Residualwerte çber multiple Regressionsgleichungen bestimmt werden. Man benætigt hierfçr eine multiple Regressionsgleichung zur Vorhersage der Variablen 1 aufgrund der Variablen 3, 4 . . . und eine multiple Regressionsgleichung zur Vorhersage der Variablen 2 aufgrund der Variablen 3, 4 . . . . Die Korrelation der Regressionsresiduen stellt ± wie auf S. 445 fçr bivariate Regressionen beschrieben ± eine Partialkorrelation hæherer Ordnung dar. Bezeichnen wir allgemein die zu korrelierenden Variablen mit x und y und kennzeichnen einen Satz von p zu kontrollierenden Variablen mit B,
ergibt sich die folgende vereinfachte Berechnungsvorschrift fçr eine Partialkorrelation p-ter Ordnung (vgl. z. B. Cohen, 1988, S. 411 f.): r2xyB
R2y;
xB 1
R2y;B R2y;B
13:24
mit Ry;
xB multiple Korrelation zwischen y und den p 1 Variablen x und B. Ry;B multiple Korrelation zwischen y und den p Kontrollvariablen B. Der Zåhler von Gl. (13.24) enthålt die gemeinsame Varianz zwischen y und x, die çber die gemeinsame Varianz zwischen y und B hinausgeht. Dies ist die gemeinsame Varianz zwischen y und der bezçglich B bereinigten Variablen x, d. h., der Zåhler definiert eine Semipartialkorrelation p-ter Ordnung. Er erfasst den Varianzanteil von y, der durch x B (lies: x residualisiert bezçglich B erklårt wird. Das Quadrat der Partialkorrelation r2xyB kennzeichnet den Varianzanteil von y B, der auf x B zurçckgeht. Die Varianz von y B entspricht jedoch dem Nenner von Gl. (13.24)
1 R2y;B ist der Varianzanteil von y der nicht durch B erklårt wird), d. h., in Gl. (13.24) wird die bez. x B bereinigte Varianz von y an der bez. B bereinigten Varianz von y relativiert. Dies bedeutet, dass Gl. (13.24) eine Partialkorrelation p-ter Ordnung definiert, bei der die Variablen x und y bzgl. der p Variablen B bereinigt sind. Da dieser Gedankengang mæglicherweise nicht unmittelbar nachvollziehbar ist, wollen wir çber einen 2., eher formalen Weg zeigen, dass Gl. (13.24) tatsåchlich eine Partialkorrelation darstellt. Nach Gl. (6.81) ist das ¹normaleª bivariate Korrelationsquadrat durch s^2y =s2y definiert. Demnach muss der Quotient s2^y =s2y eine quadrierte Partialkorrelation sein, wobei s2y die Varianz der bezçglich z residualisierten Variablen y beinhaltet
y z und s2^y die Varianz der aufgrund von x, d. h. x z vorhergesagten ^y-Werte. Um zu zeigen, dass s2y =s2^y mit Gl. (13.24) åquivalent ist, multiplizieren wir zunåchst Zåhler und Nenner von Gl. (13.24) mit s2y . Nehmen wir vereinfachend an, dass B aus nur einer Kontrollvariablen z besteht
B z, erhalten wir im Nenner
a13.2.2
s2y
1 r2yz . Dies ist nach Gl. (6.72) die Varianz der y-Residuen, also s2y. Nun ist zu zeigen, dass der um s2y erweiterte Zåhler von Gl. (13.24), also s2y
R2y;
xz R2y;z die Varianz der aufgrund von x vorhergesagten ^y-Werte, also s2^y darstellt. Es sollte also gelten: s2^y s2y
R2y;
xz
r2yz
Um ^y-Werte aufgrund von x-Werten vorherzusagen, benætigen wir die entsprechende Regressionsgleichung. Sie lautet mit der hier verwendeten Notation: byx xm ayx ^ym Gemåû Gl. (6.9) entfållt ayx , da die durchschnittlichen Residuen fçr x und y jeweils Null sind. Fçr byx ergibt sich aus Gl. (6.65) byx rxy:z sy =sx Werden die x-Werte mit diesem Faktor multipliziert, resultieren die gesuchten ^ y-Werte. Deren Varianz erhålt man nach Gl. (1.23) çber die Beziehung s^2y b2yx s2x bzw. çber s2^y
r2xyz s2y s2x s2x
r2xyz s2y
Machen wir von der Beziehung s2y s2y
1 Gebrauch (s. o.), muss also gelten: s2y
R2y;
xz
r2yz s2y
1
r2yz
r2yz r2xyz
bzw. R2y;
xz
r2yz
1
13
455
Multikollinearitåt und Suppressionseffekte
r2yz r2xyz :
oder y herauspartialisiert. Sie wird berechnet als Zåhler von Gl. (13.24), wenn x zu bereinigen ist: r2y
xB R2y;
xB
R2y;B :
13:25
Man berechnet also eine multiple Korrelation zwischen der Kriteriumsvariablen y und allen çbrigen Variablen
xB sowie eine multiple Korrelation zwischen der (Kriteriums-)Variablen y und allen Kontrollvariablen B. Die Differenz der beiden Korrelationsquadrate ist das Quadrat der Semipartialkorrelation zwischen den Variablen x und y, bei der die p Kontrollvariablen B aus der Variablen x herauspartialisiert sind.
Multiple Partial- und Semipartialkorrelation. Bei einer Partialkorrelation hæherer Ordnung werden x und y und bei einer Semipartialkorrelation wird nur eine Variable (z. B. x bezçglich mehrerer Kontrollvariablen, die wir zusammenfassend mit B bezeichnen, bereinigt. Diese auf bivariate Korrelationen anwendbaren Ansåtze kænnen auf multiple Korrelationen erweitert werden. Wir sprechen von einer multiplen Partialkorrelation hæherer Ordnung, wenn sowohl die Kriteriumsvariable y als auch k Prådiktorvariablen, die wir zusammenfassend mit A bezeichnen, bezçglich eines Satzes B von p Kontrollvariablen bereinigt werden. Ausgehend von Gl. (13.24) erhålt man hierfçr mit y als Kriteriumsvariable: R2yAB
R2y;
AB 1
R2y;B R2y;B
:
13:26
Eine multiple Semipartialkorrelation hæherer Ordnung resultiert in Analogie zu Gl. (13.25) wie folgt:
Beide Seiten dieser Gleichung definieren die quadrierte Semipartialkorrelation nach Gl. (13.6). Dies wird deutlich, wenn wir R2y
xz nach Gl. (13.14 a) (mit y c und 1; 2 x; z) und r2xyz nach Gl. (13.5) substituieren. Zusammengefasst kommen wir also zu dem Ergebnis, dass Gl. (13.24) dem Ausdruck s2^y =s2y bzw. der quadrierten Partialkorrelation entspricht. Bezçglich des Signifikanztests fçr eine Partialkorrelation hæherer Ordnung wird auf Gl. (13.8) verwiesen.
mit dfZ k und dfN n
Semipartialkorrelation hæherer Ordnung. Fçr eine Semipartialkorrelation hæherer Ordnung werden die p Kontrollvariablen B nur aus der Variablen x
Zerlegung einer multiplen Korrelation in Semipartialkorrelationen. Fçr 3 Variablen x, y und z erhålt man nach Gl. (13.25):
R2y
AB R2y;
AB
R2y;B :
13:27
Die multiple Partialkorrelation und Semipartialkorrelation hæherer Ordnung werden nach folgender Gleichung auf Signifikanz getestet (vgl. Cohen u. Cohen, 1975, S. 441): F
R2y;
AB
1
R2y;B =k
R2y;
AB =
n
k
p k
13:28
1 p
1.
456
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
r2y
xz R2y;xz
r2yz :
13:29
Ersetzt man R2y;xz nach Gl. (13.14a), resultiert die bereits bekannte Bestimmungsgleichung (13.6) fçr eine Semipartialkorrelation. An Gl. (13.29) oder auch Gl. (13.25) wird eine interessante Eigenschaft der multiplen Korrelation deutlich: R2y;xz ist der gemeinsame Varianzanteil zwischen y und den Variablen x und z. Wird hiervon der gemeinsame Varianzanteil zwischen y und z abgezogen, mçsste ± so kænnte man meinen ± der gemeinsame Varianzanteil zwischen x und y çbrig bleiben. Das Resultat ist aber nicht r2yx , sondern r2y
xz , also die quadrierte Semipartialkorrelation. Stellen wir Gl. (13.29) um, wird ersichtlich, was bei der Berechnung einer multiplen Korrelation ¹passiertª: R2y;xz
r2yz
r2y
xz
:
13:30
Die gemeinsame Varianz zwischen der Kriteriumsvariablen y und den beiden Prådiktoren x und z setzt sich zusammen aus der gemeinsamen Varianz zwischen y und z sowie der gemeinsamen Varianz zwischen y und der bezçglich z residualisierten Variablen x. Fçr Gl. (13.30) kænnen wir auch schreiben R2y;xz r2yx r2y
zx :
13
13:31
Hier wird x als unbereinigte und z als bezçglich x bereinigte Variable berçcksichtigt. Verwenden wir eine beliebige Anzahl k von Prådiktorvariablen, so låsst sich die multiple Korrelation wie folgt ¹zerlegenª: R21;2345 ...k r212 r21
32 r21
423 . . .r21
k234...k
1
Die Reihenfolge, in der die k Prådiktoren in Gl. (13.32) berçcksichtigt werden, ist fçr das Endergebnis, also die Hæhe der multiplen Korrelation und die Hæhe der b-Gewichte, unerheblich. Wir werden diesen Gedanken erneut im Kontext der ¹stepwise-regressionª-Prozedur (vgl. S. 461 f.) aufgreifen. Gleichung (13.32) und Gl. (13.16) fçhren zum gleichen Ergebnis. Man beachte jedoch, dass sich die Summanden beider Gleichungen nicht entsprechen: Die Hæhe einer Semipartialkorrelation ist abhångig von ihrer Position innerhalb einer beliebig festzulegenden Sequenz von Semipartialkorrelationen, wåhrend das Produkt bi ric sequenzunabhångig und damit konstant ist.
Nçtzlichkeit von Prådiktoren. Wenn in einer multiplen Regressionsgleichung ein Satz A mit k Prådiktoren um eine Prådiktorvariable zu einem Satz A 1 mit k 1 Prådiktoren erweitert wird, erhæht sich die gemeinsame Varianz bzw. das Vorhersagepotential um das Quadrat der Semipartialkorrelation ry
A1A : r2y
A1A R2y;
A1
R2y;A :
13:33
Die Semipartialkorrelation zeigt also an, welcher Zugewinn an Vorhersagepotential durch die Aufnahme des Prådiktors k 1 erzielt wird. Nach Darlington (1968) bezeichnet man das Quadrat dieser Semipartialkorrelation auch als ¹Nçtzlichkeitª U (von ¹usefulnessª) einer Prådiktorvariablen im Kontext einer multiplen Regressionsgleichung: Uk1 r2y
A1A :
13:34
13:32 Bei einer sequentiellen Sichtweise besagt Gl. (13.32), dass der jeweils neu hinzukommende Prådiktor bezçglich der bereits im Modell enthaltenen Prådiktoren bereinigt wird. Jeder Prådiktor leistet damit einen Vorhersagebeitrag, der çber den Vorhersagebeitrag der im Vorhersagemodell bereits enthaltenen Prådiktoren hinausgeht. Eine multiple Korrelation ist darstellbar als eine Sequenz von Semipartialkorrelationen, wobei jede neu hinzukommende Prådiktorvariable bezçglich der bereits berçcksichtigten Prådiktorvariablen residualisiert wird.
Die Nçtzlichkeit Uk1 einer Prådiktorvariablen k 1 gibt an, um welchen Betrag die quadrierte multiple Korrelation erhæht wird, wenn eine Regressionsgleichung mit k Prådiktoren um den Prådiktor k 1 erweitert wird.
Beta-Gewichte und Partialkorrelationen. Die Verknçpfung einer Partialkorrelation r123 mit den b-Gewichten der multiplen Korrelation zeigt folgende Gleichung fçr k 2 Prådiktorvariablen: q
13:35 r123 b2
1;23 b1
2;13 ; wobei
a13.2.2
457
Multikollinearitåt und Suppressionseffekte
b2
1;23 Beta-Gewicht der Variablen 2 in der multiplen Regressionsgleichung zur Vorhersage der Variablen 1 aufgrund der Variablen 2 und 3, b1
2;13 Beta-Gewicht der Variablen 1 in der multiplen Regressionsgleichung zur Vorhersage der Variablen 2 aufgrund der Variablen 1 und 3. Zur Verdeutlichung der Gl. (13.35) greifen wir das Beispiel unter 13.1 noch einmal auf. Die Einzelkorrelationen lauten: r12 0;89, r13 0;77 und r23 0;80. Stellen wir Gl. (13.15 a u. b) zur Vorhersage der Variablen 2 bzw. der Variablen 1 um, erhalten wir folgende b-Gewichte: r12 r13 r23 b2
1;23 1 r223 0;89 0;77 0;80 0;761 ; 1 0;802 r12 r23 r13 b1
2;13 1 r213 0;89 0;80 0;77 0;673 : 1 0;772 Ausgehend von diesen b-Gewichten ermitteln wir die folgende Partialkorrelation: p r123 0;761 0;673 0;72 : Dieser Wert stimmt mit dem nach Gl. (13.3) bzw. (13.5) ermittelten Wert çberein.
Suppressionseffekte Das Zusammenwirken der Einzelkorrelationen beim Zustandekommen einer multiplen Korrelation zeigt Tabelle 13.4. Hier sind, in 3 Blæcke zusammengefasst, verschiedene Konstellationen von Einzelkorrelationen sowie die resultierenden b-Gewichte der Prådiktorvariablen x1 und x2 und die multiple Korrelation R der beiden Prådiktorvariablen mit der Kriteriumsvariablen xc zusammengestellt. Zur Vereinfachung der Terminologie bezeichnen wir im Folgenden die Korrelation einer Prådiktorvariablen mit der Kriteriumsvariablen als Validitåt. Die Validitåt einer Prådiktorvariablen i kennzeichnet deren Korrelation mit der Kriteriumsvariablen (ric ).
Im Block A ist in allen 3 Fållen r12 0, d. h., x1 und x2 sind 2 voneinander unabhångige Prådiktoren. Hier stimmen die Validitåten mit den jeweiligen b-Gewichten çberein. Die multiple Korrelation R ist in allen 3 Fållen græûer als die græûte der beiden Validitåten r1c und r2c . Allgemein gilt: Die multiple Korrelation ist immer græûer oder zumindest genauso groû wie die græûte Validitåt.
Voneinander unabhångige Prådiktorvariablen, die jeweils hoch mit der Kriteriumsvariablen korrelieren, sind am besten zur Vorhersage einer Kriteriumsvariablen geeignet.
Tabelle 13.4. Klassifikationskriterien fçr Prådiktorvariablen r12
r1c
r2c
b1
b2
R
A
0,00 0,00 0,00
0,60 0,30 ±0,60
0,50 0,50 0,50
0,60 0,30 ±0,60
0,50 0,50 0,50
0,78 0,58 0,78
B
0,20 0,70 0,30
0,95 0,60 0,90
0,30 0,50 0,40
0,93 0,49 0,86
0,11 0,16 0,14
0,96 0,61 0,91
C
0,70 0,85 0,70
0,60 0,70 0,50
0,00 0,30 ±0,20
1,18 1,60 1,25
±0,82 ±1,06 ±1,08
0,84 0,90 0,92
A B C
x2 x2 x2
Unabhangiger Pradiktor: Redundanter Pradiktor: Suppressorvariable allgemein:
r12 0 jb1 j < jr1c j jb1 j > jr1c j
13
458
13
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
Im Block B sind Beispiele von Korrelationskonstellationen enthalten, die fçr die Vorhersage einer Kriteriumsvariablen eher ungçnstig sind. Die Erhæhung der Korrelation durch die Aufnahme der Prådiktorvariablen x2 ist nur minimal. Offenbar haben die Prådiktorvariablen gemeinsame Informationen (vgl. r12 ), sodass eine Vorhersage des Kriteriums aufgrund beider Prådiktorvariablen nicht viel besser ist als die Vorhersage aufgrund einer Prådiktorvariablen allein. Prådiktorvariable 2 ist deshalb in allen 3 Beispielen eine redundante Prådiktorvariable. Da sich mit zunehmender Anzahl von Prådiktorvariablen die Signifikanzgrenze fçr die multiple Korrelation nach oben verschiebt (vgl. die Freiheitsgrade des Signifikanztests nach Gl. 13.19), empfiehlt es sich, redundante Prådiktorvariablen nicht mit in die Vorhersage einzubeziehen. Formal erkennen wir redundante Prådiktorvariablen daran, dass die Beziehungen jb1 j < jr1c j bzw. jb2 j < jr2c j erfçllt sind. Zwischen den Blæcken A und B gibt es flieûende Ûbergånge. Ist die Korrelation r12 nicht perfekt Null, kann die Beziehung jbi j < jric j erfçllt sein, obwohl keine der beiden Variablen redundant ist. Dies ist immer dann der Fall, wenn die multiple Korrelation deutlich græûer ist als die græûte der beiden Validitåten. Dieses Ergebnis weist darauf hin, dass beide Prådiktorvariablen neben gemeinsamer Varianz auch spezifische Informationen enthalten, die zur Vergræûerung der multiplen Korrelation beitragen. Wåhrend das Zustandekommen der multiplen Korrelationen in den Blæcken A und B noch einigermaûen einleuchtend ist, treffen wir in Block C auf einige çberraschende Phånomene. Im 1. unter C genannten Beispiel ist r1c 0;60 und r2c 0;00, d. h., nur die 1., aber nicht die 2. Prådiktorvariable ist mit der Kriteriumsvariablen korreliert. Da die 2. Prådiktorvariable nicht mit dem Kriterium zusammenhångt, kænnte man meinen, dass sie fçr die multiple Korrelation unbedeutend ist. Wir sehen aber, dass dies bei einer multiplen Korrelation von R 0;84 keineswegs der Fall ist. Die multiple Korrelation ist betråchtlich hæher als die Korrelation der 1. Prådiktorvariablen mit dem Kriterium, obwohl die 2. Prådiktorvariable nicht mit dem Kriterium korreliert. Betrachten wir den 2. unter C genannten Fall. Hier lauten die beiden Validitåten r1c 0;70 und r2c 0;30. Wåren die beiden Prådiktorvariablen
voneinander unabhångig
r12 0, wçrde nach p Gl. (13.14 a) R 0;702 0;302 0;76 resultieren. Die beiden Prådiktorvariablen sind jedoch nicht voneinander unabhångig, sondern korrelieren mit r12 0;85 betråchtlich. Man kænnte deshalb vermuten, dass wegen der hohen Prådiktorvariableninterkorrelation eine der beiden Prådiktorvariablen redundant ist, sodass eine Korrelation unter R 0;76 resultieren mçsste. Genau das Umgekehrte ist jedoch der Fall. Die multiple Korrelation ist mit R 0;90 erheblich hæher, als wir es erwarten wçrden, wenn die beiden Prådiktorvariablen voneinander unabhångig wåren. Noch çberraschender ist das 3. unter C genannte Beispiel. Hier korrelieren die beiden Prådiktoren lediglich zu r1c 0;50 und r2c 0;20 mit dem Kriterium. Wåren die Prådiktorvariablen voneinander unabhångig, wçrden wir R q 2 2 0;50
0;20 0;54 erwarten. Tatsåchlich betrågt die multiple Korrelation jedoch R 0;92. Offensichtlich ist trotz der hohen Prådiktorvariableninterkorrelation von r12 0;70 keiner der beiden Prådiktoren redundant. Verantwortlich fçr das Zustandekommen der unerwartet hohen multiplen Korrelationen sind sog. Suppressionseffekte bzw. die Wirksamkeit von Suppressorvariablen. Wie man sich die Suppressionswirkung einer Variablen vorstellen kann, soll das in Abb. 13.1 gezeigte Beispiel verdeutlichen. Eine Prådiktorvariable x1 mæge zu 70% das Merkmal a und zu 30% das Merkmal b erfassen. Beinhaltet die Kriteriumsvariable xc nun çberwiegend das Merkmal b, so kommt es zu einer nur måûigen Korrelation zwischen der Variablen x1 und dem Kriterium. Die Dominanz des Merkmals a in der Prådiktorvariablen x1 hat sozusagen eine r1C
r2C = 0
a-Anteil b-Anteil
r12
1. Prädiktorvariable 2. Prädiktorvariable (x1) (x2) (Suppressor)
Kriterium (x C)
Abb. 13.1. Veranschaulichung der Wirksamkeit einer Suppressorvariablen
a13.2.2
hæhere Korrelation verhindert. Enthielte die Prådiktorvariable x1 çberwiegend das Merkmal b, wåre eine erheblich bessere Vorhersage des Kriteriums mæglich. Eine Prådiktorvariable x2 mæge nur das Merkmal a erfassen. Die Korrelation zwischen der Variablen x2 und dem Kriterium ist somit Null, wåhrend die Korrelation zwischen x1 und x2 betråchtlich ist. Wird nun Variable x2 so gewichtet, dass in der Kombination der Variablen x1 und x2 die auf der Variablen x1 durch das Merkmal a generierte Varianz unterdrçckt wird, so kommt es zu einer hohen multiplen Korrelation, an der die Variable x2 trotz ihrer unbedeutenden Korrelation mit dem Kriterium indirekt stark beteiligt ist. Die Prådiktorvariable x2 ¹absorbiertª den stærenden Merkmalsanteil a in der Prådiktorvariablen x1 und erhålt deshalb ein entsprechend hohes b-Gewicht. Gleichzeitig erhæht sie das b-Gewicht der bereinigten Variablen. Anders formuliert: Residualisieren wir die 1. Prådiktorvariable hinsichtlich der 2. Prådiktorvariablen, verbleibt fçr die 1. Prådiktorvariable eine Residualvarianz, die neben Fehlereffekten ausschlieûlich vom Merkmal b bestimmt ist. Folglich korreliert die um die Prådiktorvariable 2 bereinigte Prådiktorvariable 1 hoch mit der Kriteriumsvariablen. Eine Suppressorvariable ist eine Variable, die den Vorhersagebeitrag einer (oder mehrerer) anderer Variablen erhæht, indem sie irrelevante Varianzen in der (den) anderen Prådiktorvariablen unterdrçckt.
Ein kleines Beispiel soll diesen Sachverhalt veranschaulichen. Nehmen wir einmal an, die Variable x1 sei die Examensnote, deren Varianz vom Fachwissen (a-Anteil), aber auch von Prçfungsangst (b-Anteil) bestimmt ist. Ferner nehmen wir an, die Kriteriumsvariable xc sei der spåtere berufliche Erfolg, der vor allem vom Fachwissen, aber nicht von der Prçfungsangst abhångt. Dementsprechend dçrfte die Korrelation r1c , also die Korrelation zwischen der Examensleistung und dem spåteren beruflichen Erfolg, nicht besonders hoch sein, weil das fçr den beruflichen Erfolg relevante Fachwissen in der Prçfungssituation durch die fçr den beruflichen Erfolg irrelevante Prçfungsangst ¹çberlagertª ist. Wenn wir nun mit der Variable x2 Prçfungsangst erfassen, mçsste r12 , also die Korrelation
13
459
Multikollinearitåt und Suppressionseffekte
zwischen der Examensnote und der Prçfungsangst, relativ hoch ausfallen, wåhrend die Korrelation r2c zwischen Prçfungsangst und beruflichem Erfolg eher unbedeutend sein dçrfte. Der Prådiktor ¹Examensnoteª korreliert also nur måûig und der Prådiktor ¹Prçfungsangstª praktisch gar nicht mit dem Kriterium ¹beruflicher Erfolgª. Bei diesen Ausgangsbedingungen wåre also eigentlich zu erwarten, dass auch die multiple Korrelation beider Prådiktoren mit dem Kriterium nicht besonders hoch ausfållt. Dies ist jedoch nicht der Fall. In der multiplen Korrelation werden die beiden Variablen so kombiniert (gewichtet), dass der fçr den beruflichen Erfolg irrelevante, auf Prçfungsangst beruhende Varianzanteil in der Variablen ¹Examensnoteª unterdrçckt wird. Die Variable ¹Prçfungsangstª bereinigt gewissermaûen die Variable ¹Examensnoteª um den ¹stærendenª Varianzanteil, der eine hæhere Korrelation der Examensleistung mit dem beruflichen Erfolg verhindert hat. Kurz: Die Variable ¹Prçfungsangstª ist in Kombination mit der Variablen ¹Examensleistungª und dem Kriterium ¹beruflicher Erfolgª eine Suppressorvariable. Das ¹Bereinigenª von Prådiktorvariablen geschieht als Folge des Kriteriums, nach dem die multiple Korrelation bestimmt wird (s. Gl. 13.32 oder unter 13.2.3), gewissermaûen automatisch, sodass unsere Aufgabe lediglich darin besteht, nach Vorliegen der Ergebnisse anhand der b-Gewichte und Validitåten zu prçfen, ob Suppressionseffekte wirksam waren. Hierbei ist vor allem darauf zu achten, ob das b-Gewicht einer Variablen gegençber ihrer Validitåt deutlich erhæht ist.
Identifikation von Suppressorvariablen. Eine genauere Definition eines Suppressionseffektes gibt Velicer (1978): Die Bedeutsamkeit einer Prådiktorvariablen i wird durch Suppressionseffekte beeinflusst, wenn die Nçtzlichkeit der Variablen græûer ist als die quadrierte Korrelation zwischen der Prådiktorvariablen und der Kriteriumsvariablen (Validitåt): Ui > r2ic :
13:36
In diesem Fall existiert (mindestens) eine Variable j, die auf Variable i einen Suppressionseffekt ausçbt. Diese Variable heiût Suppressorvariable. Auch die Suppressorvariable hat eine gegençber ihrer Validitåt erhæhte Nçtzlichkeit.
460
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
Eine Prådiktorvariable i ist eine Suppressorvariable, wenn ihre Nçtzlichkeit græûer ist als ihre quadrierte Validitåt. Der Effekt einer Suppressorvariablen besteht darin, dass sie die Nçtzlichkeit anderer Prådiktorvariablen erhæht.
Ob Suppressionseffekte vorliegen, erkennt man fçr k 2 auch an folgender Ungleichung: jb1 j > jr1c j :
13:37 a
Unter Verwendung der Partialkorrelation r1c:2 liegt nach Tzelgov u. Henik (1991) ein Suppressionseffekt vor, wenn folgende Ungleichung gilt: s 1 r212 r1c:2 > r1c
13:37 b 1 r22c Ein Suppressionseffekt setzt also voraus, dass der Wert der Wurzel deutlich unter 1 liegt bzw. dass die Interkorrelation der beiden Prådiktorvariablen græûer ist als die Validitåt des 2. Prådiktors
r12 > r2c . Eine weitere auf der Semipartialkorrelation basierende Strategie zur Identifizierung von Suppressorvariablen geht auf Smith et al. (1992) zurçck. Fçr nur zwei Prådiktorvariablen muss fçr r2c gelten: p r1c
1 1 r212 r2c <
13:38a r12 oder
13
p r1c
1 1 r212 r2c > : r12
13:38b
Der Prådiktor x2 ist eine Suppressorvariable, wenn Gl. (13.38a) oder (13.38b) erfçllt ist. Will man çberprçfen, ob mit x1 Suppressionseffekte verbunden sind, werden r1c und r2c in Gl. (13.38) ausgetauscht. Fçr die Verallgemeinerung auf mehr als zwei Prådiktorvariablen bezeichnen wir mit A einen Satz von k Prådiktorvariablen und nennen xk1 diejenige Prådiktorvariable, fçr die ein Suppressionseffekt çberprçft werden soll. Die Bedingungen fçr Suppression lauten in diesem Fall q r^xk1 xc 1 1 R2
k1;A ;
13:39 a rk1;c < R
k1;A
rk1;c >
q r^xk1 xc 1 1 R2
k1;A R
k1;A
:
13:39 b
Der Einsatz von Gl. (13.39 a und b) setzt voraus, dass die Prådiktorvariable xk1 aufgrund der anderen Prådiktoren çber eine multiple Regression vorhergesagt wird. Die vorhergesagten ^xk1 -Werte sind mit xc zu korrelieren, sodass man r^xk1 xc erhålt. R
k1;A ist die multiple Korrelation zwischen der Prådiktorvariablen k 1 und den çbrigen k Prådiktoren. Bei der Identifizierung von Suppressorvariablen ist zu beachten, dass die o. g. Ungleichungen stichprobenbedingt oder zufållig erfçllt sein kænnen. Ein Signifikanztest fçr Suppressionseffekte existiert u. W. bislang nicht. Die Resultate aus Gl. (13.36) bis (13.39) sind deshalb nur fçr deskriptive Zwecke zu verwenden.
Suppressionsarten. In der Literatur werden gelegentlich drei Arten von Suppression unterschieden, die alle den in Gl. (13.36) bzw. (13.37) genannten Bedingungen gençgen. Die spezifischen Bedingungen fçr diese drei Suppressionsarten seien im Folgenden fçr k 2 Prådiktorvariablen genannt: · Traditionelle Suppression: Bei dieser, erstmals von Horst (1941) erwåhnten Suppressionsform ist die Suppressorvariable (z. B. x2 ) mit der Kriteriumsvariablen (nahezu) unkorreliert
r2c 0. Zwischen den Variablen x1 und x2 hingegen besteht ein deutlicher Zusammenhang (vgl. hierzu Abb. 13.1). Bei der traditionellen oder auch ¹klassischenª Suppression ¹unterdrçcktª x2 die fçr das Kriterium irrelevante Varianz in x1 . · Negative Suppression: Der Prådiktor x2 wåre ein negativer Suppressor, wenn b2 ein negatives Vorzeichen håtte, obwohl r1c und r2c positiv sind (das Gleiche gilt fçr umgekehrte Vorzeichenverhåltnisse). Wie Gl. (13.15 b) zu entnehmen ist, sind die Bedingungen fçr eine negative Suppression erfçllt, wenn r2c r1c r12 < 0 ist (ausfçhrlicher hierzu siehe Conger, 1974 bzw. Cohen u. Cohen, 1975, die diese Suppressionsform ¹net suppressionª nennen). · Reziproke Suppression: Sind r1c und r2c positiv und r12 negativ, haben sowohl x1 als auch x2 b-Gewichte, die græûer sind als ihre Validitåten
a13.2.2
b1 > r1c und b2 > r2c . In diesem Fall sind sowohl x1 als auch x2 Suppressorvariablen, denn sie unterdrçcken wechselseitig jeweils irrelevante Varianzanteile (vgl. Conger, 1974 bzw. Cohen u. Cohen, 1975, die diese Suppressionsform ¹cooperative suppressionª nennen).
Hinweis: Weitere Informationen çber Suppressorvariablen findet man bei Lutz (1983), Conger u. Jackson (1972), Glasnapp (1984), Tzelgov u. Henik (1981, 1985), Holling (1983), Jåger (1976) sowie Tzelgov u. Stern (1978). Einen Vergleich der verschiedenen in der Literatur diskutierten Suppressionskonzepte haben Smith et al. (1992) erarbeitet. Schrittweise Regression Beim praktischen Arbeiten mit der multiplen Korrelations- und Regressionsrechnung wird man håufig feststellen, dass sich in einem Satz A von k Prådiktorvariablen eine Teilmenge von q Prådiktorvariablen befindet, deren Vorhersagepotential kaum çber das Vorhersagepotential der verbleibenden k q Prådiktorvariablen hinausgeht und die damit redundant sind. Diese Begleiterscheinung der Multikollinearitåt hat eine Reihe von Verfahren entstehen lassen, die in EDV-Programmpaketen unter der Bezeichnung ¹schrittweise Regressionª (stepwise regression) zu finden sind. Hierbei sind zwei verschiedene Techniken zu unterscheiden: · Bei der ersten Variante werden die Prådiktoren sukzessiv in das Regressionsmodell aufgenommen, wobei sich die Abfolge der Variablen nach ihrer Nçtzlichkeit
U richtet. Das Verfahren nimmt zunåchst die Variable mit der hæchsten Validitåt
ric auf und prçft dann Schritt fçr Schritt, durch welche weitere Variable das Vorhersagepotential
R2 der bereits im Modell enthaltenen Variablen maximal erhæht werden kann. Das Verfahren wird so lange fortgesetzt, bis die Nçtzlichkeit einer Variablen einen Minimalwert erreicht, der gerade noch fçr akzeptabel gehalten wird. Variablen, die diesen Minimalwert nicht çberschreiten, werden als redundante Variablen nicht in die Regressionsgleichung aufgenommen. Wir wollen diese Technik vereinfachend als ¹Vorwårts-Technikª bezeichnen. · Die zweite Technik beginnt mit einer vollståndigen Regressionsgleichung, in der alle Variab-
13
461
Multikollinearitåt und Suppressionseffekte
len enthalten sind. Es wird dann çberprçft, welche Prådiktorvariable gegençber den restlichen k 1 Prådiktorvariablen die geringste Nçtzlichkeit
U aufweist. Diese Variable wird ± falls ihre Nçtzlichkeit einen vorgegebenen Minimalwert unterschreitet ± aus dem Modell herausgenommen. In gleicher Weise werden sukzessiv weitere Variablen eliminiert, bis schlieûlich eine Restmenge von p k q Variablen mit hinreichender Nçtzlichkeit çbrigbleibt. Wir bezeichnen diese Technik vereinfachend als ¹Rçckwårts-Technikª. Die ¹Vorwårtsª- und ¹Rçckwårtsª-Technik kænnen auch miteinander kombiniert werden. So låsst sich beispielsweise çberprçfen, ob durch die Aufnahme einer neuen Variablen im Kontext der ¹Vorwårtsª-Technik eine bereits im Modell enthaltene Variable redundant geworden ist, die gemåû der ¹Rçckwårtsª-Technik dann aus dem Modell zu entfernen wåre. Zur Ûberprçfung der Frage, ob eine multiple Korrelation mit einem Satz A von k Prådiktorvariablen durch die Aufnahme eines Satzes B mit p weiteren Prådiktorvariablen signifikant erhæht wird, verwenden wir fçr n > 30 folgenden Signifikanztest (vgl. z. B. Kerlinger u. Pedhazur, 1973, S. 70 ff.): F
R2c;
AB
1
R2c;
AB =
n
R2c;A =p k
p
1
13:40
mit dfZ p und dfN n k p 1. Man erkennt, dass dies gleichzeitig der Signifikanztest fçr die Semipartialkorrelation R2c;
BA ist (s. Gl. 13.28). Eine Tabelle, der zu entnehmen ist, um welchen Betrag sich eine multiple Korrelation durch die Aufnahme einer weiteren Prådiktorvariablen mindestens erhæhen muss, um von einem signifikanten Zuwachs sprechen zu kænnen, findet man bei Dutoit u. Penfield (1979). Mit einem von Silver u. Finger (1993) entwickelten Computerprogramm kænnen diese signifikanten Zuwåchse fçr beliebige Stichprobenumfånge und eine beliebige Anzahl von Prådiktorvariablen ermittelt werden. Weitere Hinweise zu Signifikanztests bei schrittweise durchgefçhrten Regressionsanalysen geben Tisak (1994) und Wilkinson (1979). Zur schrittweisen Regressionstechnik ist anzumerken, dass die Entscheidung darçber, welche Teilmenge von Prådiktorvariablen als die ¹besteª
462
13
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
anzusehen ist, håufig vom Zufall bestimmt wird. Die Bedeutung einer Prådiktorvariablen bzw. ihre Nçtzlichkeit ist bei hoher Multikollinearitåt in starkem Maûe davon abhångig, welche Prådiktoren schon (bei der ¹Vorwårtsª-Technik) oder noch (bei der ¹Rçckwårtsª-Technik) im Regressionsmodell enthalten sind. Da hierfçr oftmals nur geringfçgige Nçtzlichkeitsunterschiede verantwortlich sind, die keinerlei statistische Bedeutung haben, gehært diese Technik eher in den Bereich der Hypothesenerkundung als zu den hypothesenprçfenden Verfahren. Um die Kontextabhångigkeit der Nçtzlichkeit einer Prådiktorvariablen vollståndig einschåtzen zu kænnen, wåre es erforderlich, alle k! mæglichen Abfolgen der k Prådiktorvariablen sequentiell zu testen. Zu dieser Problematik hat Thompson (1995 a) ein eindrucksvolles Beispiel entwickelt. Zu bestimmen waren die besten 2 von4 Prådiktorvariablen. Thompson prçfte alle 42 6 mæglichen Prådiktorvariablenpaare und stellte fest, dass das so ermittelte, tatsåchlich beste Variablenpaar in keiner einzigen Variablen mit dem ¹bestenª, çber ¹stepwiseª ermittelten Variablenpaar çbereinstimmte! Thompson macht zudem darauf aufmerksam, dass die meisten statistischen Programmpakete in der stepwise-Prozedur mit falschen Freiheitsgraden operieren. Wenn beispielsweise aus 50 Prådiktorvariablen die besten 5 ausgewåhlt werden, muss in Gl. (13.19) nicht k 5, sondern k 50 eingesetzt werden, denn die Auswahl der besten 5 setzt die Prçfung aller 50 Prådiktorvariablen voraus. k 5 wåre nur bei zufålliger Auswahl von 5 Prådiktorvariablen zu rechtfertigen. Der nicht korrekte Umgang mit den Freiheitsgraden fçhrt zu einer deutlichen Vergræûerung des empirischen F-Wertes, mit der Folge, dass man mit ¹stepwiseª praktisch immer ein ¹signifikantes Subsetª von Prådiktorvariablen findet. Statt dem Computer die Auswahl der ¹bestenª Prådiktorvariablen zu çberlassen, plådieren wir dafçr, den Einsatz der schrittweisen Regressionstechnik theoretisch vorzustrukturieren. Hilfreich hierfçr ist eine inhaltlich begrçndete Vorabgruppierung der Prådiktoren in unabhångige, ggf. redundante und suppressive Variablen, die in dieser Reihenfolge mit der Vorwårtstechnik zu verarbeiten wåren. Die unabhångigen Prådiktoren sind Bestandteil der Regressionsgleichung, sofern ihre
Nçtzlichkeit gençgend groû ist. Die Annahme, eine Prådiktorvariable sei redundant, ist sodann çber deren Nçtzlichkeit zu çberprçfen. Schlieûlich ist çber Gl. (13.34) zu zeigen, ob die vermeintlichen Suppressorvariablen tatsåchlich geeignet sind, das Vorhersagepotential der bereits im Modell befindlichen Variablen zu erhæhen. BEISPIEL Es soll çberprçft werden, durch welche Variablen die Rollençbernahmefåhigkeit von Kindern beeinflusst wird (in Anlehnung an Silbereisen, 1977). Rollençbernahme wird hierbei als eine Fåhigkeit verstanden, sich in die Position eines anderen Menschen zu versetzen, um dessen Sichtweise zu erkennen. Die Kriteriumsvariable ¹Rollençbernahmeª wurde bei n 50 Kindern mit einem speziell fçr die Untersuchung entwickelten Test erfasst und çber eine multiple Korrelationsanalyse mit folgenden Prådiktorvariablen in Beziehung gesetzt: 1. Sinnbezçge herstellen (als Teilaspekt der kindlichen Intelligenz) 2. Trost bei Fehlleistungen (als Teilaspekt der mçtterlichen Fçrsorge) 3. Unterstçtzung von Eigeninitiativen (als Teilaspekt der våterlichen Fçrsorge) 4. Verståndnis fçr Misserfolge (als Teilaspekt der mçtterlichen Fçrsorge) 5. Lob fçr gute Leistungen (als Teilaspekt der våterlichen Fçrsorge) 6. Instruktionsverståndnis. Aufgrund theoretischer Erwågungen werden die Prådiktorvariablen 1±3 vorab als unabhångige Prådiktorvariablen klassifiziert. Bezçglich der Variablen 4 und 5 wird vermutet, dass sie im Hinblick auf die Variablen 2 und 3 redundant sein kænnten. Die sechste Variable wird als mægliche Suppressorvariable aufgenommen, denn mangelndes Instruktionsverståndnis der Kinder kænnte das Vorhersagepotential der Variablen 1 bis 5 herabsetzen. Die Variablen 1±6 werden schrittweise in dieser Reihenfolge in die multiple Regressionsgleichung aufgenommen. Die Ergebnisse sind in Tabelle 13.5 zusammengefasst. Die b-Gewichte in der letzten Spalte sind das Resultat nach Aufnahme der sechsten Variablen. Die Spalte R2 zeigt das Quadrat der multiplen Korrelation nach der sukzessiven Einbeziehung der Prådiktorvariablen, und die Spalte U informiert çber die pro Schritt erzielten Verånderungen fçr R2 (Nçtzlichkeit gemåû Gl. 13.34 bzw. Gl. 13.33). Die F-Tests nach Gl. (13.40) signalisieren, dass die ersten drei Prådiktoren jeweils eigenståndige Vorhersagebeitråge leisten. Die Nçtzlichkeiten der Variablen 4 und 5 liegen deutlich unter den entsprechenden Validitåten (Spalte r2ic ), d. h., diese Variablen sind ± wie vorhergesagt ± redundant, zumal auch die F-Tests keine statistische Bedeutung signalisieren. Fçr Variable 6 gilt U6 > r26c , was nach Gl. (13.36) als Beståtigung des fçr diese Variablen vermuteten Suppressionseffektes angesehen werden kann. Da diese Suppressorvariable das Vorhersagepotential der Variablen 4 und 5
a13.2.2
463
Multikollinearitåt und Suppressionseffekte
Tabelle 13.5. Beispiel fçr eine multiple Korrelationsanalyse (schrittweise Regression)
1) 2) 3) 4) 5) 6)
Prådiktorvariablen
R2
U
F
r2ic
b
Sinnbezçge herstellen Trost bei Fehlleistungen Unterstçtzung von Eigeninitiativen Verståndnis fçr Misserfolge Lob fçr gute Leistungen Instruktionsverståndnis
0,20 0,36 0,43 0,44 0,46 0,51
0,20 0,16 0,07 0,01 0,02 0,05
12,0 11,8 5,6 0,8 1,6 4,4
0,20 0,18 0,11 0,17 0,16 0,02
0,45 0,38 0,21 0,02 0,05 0,35
nicht entscheidend verbessern konnte, kænnen diese Variablen im Sinne der ¹Rçckwårtsª-Technik aus dem Modell eliminiert werden.
Hinweise: Informationen zur schrittweisen Regression findet man z. B. bei Draper u. Smith (1998, Kap. 15), Efroymson (1967) bzw. Hemmerle (1967) und eine vergleichende Analyse verschiedener Techniken bei Rock et al. (1970). Ein iteratives Verfahren (Læsung nach der Gradientenmethode) wird bei McCornack (1970) beschrieben. Moderierte multiple Regression. Gelegentlich findet man in der Literatur den Begriff ¹moderierte multiple Regressionª (¹moderated multiple regression analysisª). Mit diesem Ansatz will man Moderatorvariablen (Saunders, 1956) identifizieren, die einen Einfluss auf den Zusammenhang zweier Merkmale (oder auch multipler Zusammenhånge) ausçben. Dies wåre beispielsweise der Fall, wenn der Zusammenhang zwischen verbaler Intelligenz
x und Gedåchtnisleistung
y vom Alter
z der untersuchten Personen abhinge, bzw. wenn x und z in Bezug auf y interagieren wçrden. Zum Nachweis dieses Moderator- bzw. Interaktionseffektes verwendet man zur Vorhersage von y neben den Prådiktoren x und z einen weiteren, aus dem Produkt x z gebildeten Prådiktor (Interaktionsprådiktor) und entscheidet anhand der Græûe und der Vorzeichen der b-Gewichte fçr diese Prådiktoren çber die moderierende Bedeutung von z. Einzelheiten hierzu findet man bei Aiken u. West (1991), Mossholder et al. (1990), MacCallum u. Mar (1995), Overton (2001), Stone-Romero u. Anderson (1994) sowie Nye u. Witt (1995). Logistische Regression. Die logistische Regression kommt zum Einsatz, wenn die Kriteriumsvariable nominalskaliert ist. Die Prådiktorvariablen kænnen
kardinalskaliert oder auch nominalskaliert sein, wobei nominalskalierte Prådiktoren çber Indikatorvariablen kodiert werden (vgl. Kap. 14.1). Auf eine Darstellung der logistischen Regression wird hier verzichtet. Ausfçhrliche Hinweise hierzu, eine Anleitung zum Rechnen einer logistischen Regression mit dem Programmpaket SPSS sowie weitere Literatur findet man bei Rese (2000). Ein alternativer Læsungsweg zur logistischen Regression bietet sich, wenn man die nominalskalierte Kriteriumsvariable als unabhångige Variable auffasst und çber die durch die Kategorien des nominalen Merkmals gebildeten Stichproben eine MANOVA (vgl. Kap. 17) bzw. eine Diskriminanzanalyse (Kap. 18) rechnet. Die Prådiktorvariablen der logistischen Regression wåren dann die abhångigen Variablen. Beispiel (nach Ruf, 2003): In einer Rehaklinik fçr Alkoholabhångige soll çberprçft werden, wie persænliche Ressourcen (Stårken und Fåhigkeiten, Stressbewåltigung, Unterstçtzung im Alltag, soziales Umfeld etc.) den Therapieerfolg (abstinent ± abstinent nach Rçckfall ± rçckfållig) beeinflussen. Fçr diese Fragestellung wåre eine logistische Regression einschlågig (die Kriteriumsvariable ist dreifach gestuft und nominal) oder aber ± alternativ ± eine Diskriminanzanalyse mit den drei Gruppen ¹abstinentª, ¹abstinent nach Rçckfallª und ¹rçckfålligª als Ausprågungen der unabhångigen Variablen und den Variablen zur Operationalisierung der persænlichen Ressourcen als abhångige Variablen.
¹Optimaleª Stichprobenumfånge Fçr die Kalkulation optimaler Stichprobenumfånge kænnen wir an die Ûberlegungen zur bivariaten Korrelation (vgl. S. 217 f.) anknçpfen. Fçr die multiple Korrelation ist die gemeinsame Varianz R2
13
464
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
Tabelle 13.6. L-Werte zur Bestimmung optimaler Stichprobenumfånge k: L:
1 7,8
2 9,7
3 11,1
4 12,3
5 13,3
6 14,3
7 15,1
8 15,9
k: L:
18 22,5
20 23,7
24 25,9
30 29,0
40 33,8
48 37,5
60 42,9
120 68,1
die fçr die Festlegung einer Effektgræûe e2 entscheidende Græûe. Die Effektgræûe e2 ist wie folgt definiert: R2 e : 1 R2 2
13:41
Diese Effektgræûe wird nach Cohen (1988) wie folgt klassifiziert: schwacher Effekt:
e2 0;02 bzw. R2 0;0196
mittlerer Effekt:
e2 0;15 bzw. R2 0;1304
starker Effekt:
e2 0;35 bzw. R2 0;2593
Die Beziehung zwischen R2 und e2 zeigt Gl. (13.42): R2
e2 : 1 e2
13:42
Die Græûenordnung des Stichprobenumfangs, der erforderlich ist, um eine gemåû H1 vorgegebene multiple Korrelation von R mit einer Teststårke von 1 b 0;8 als signifikant
a 0;05 nachweisen zu kænnen, wird wie folgt kalkuliert:
13
n
2
L
1 R : R2
13:43
Der nach Gl. (13.43) resultierende Wert ist fçr praktische Zwecke hinreichend genau. Hinweise zu einer verbesserten Schåtzung des ¹optimalenª Stichprobenumfangs findet man bei Cohen (1988, Kap. 9.4). Die L-Werte (Nonzentralitåtsparameter der nicht-zentralen F-Verteilungen) sind fçr variable k-Werte Tabelle 13.6 zu entnehmen. Die multiple Korrelation in Gl. (13.43) stellt einen Populationsparameter dar. Man beachte deshalb, dass eine Vorgabe fçr die H1 , die einer empirischen Untersuchung entnommen ist, nach Gl. (13.22) zu korrigieren ist. Fçr einen starken Effekt
R2 0;2593 wåre in unserem Beispiel mit k 6 folgender Stichprobenumfang zu kalkulieren:
9 16,7
n
10 17,4
11 18,1
12 18,8
13 19,5
14 20,1
15 20,7
14;3
1 0;2593 41 : 0;2593
Im Nachhinein ist also festzustellen, dass der im Beispiel gewåhlte Stichprobenumfang
n 50 etwa dem ¹optimalenª Stichprobenumfang fçr einen starken Effekt, a 0;05 und 1 b 0;8, entspricht. Tabellen, denen man fçr a 0;05 und variabler Effektgræûe den optimalen Stichprobenumfang bzw. die Teststårke des Signifikanztests entnehmen kann, sind bei Gatsonis u. Sampson (1989) zu finden (weitere Ûberlegungen hierzu s. Maxwell, 2000).
Partial- und Semipartialkorrelation. Fçr die Kalkulation eines ¹optimalenª Stichprobenumfangs fçr eine Partialkorrelation mit p Kontrollvariablen ist Gl. (13.43) wie folgt zu modifizieren: n
L
1
R2yAB
R2yAB
p:
13:44
Die Berechnungsvorschrift fçr R2yAB findet man in Gl. (13.26). Bezogen auf eine Semipartialkorrelation berechnet sich der Stichprobenumfang wie folgt: n
L
1 R2y;
AB
R2y;
AB R2y;B
p:
13:45
Dies ist der Stichprobenumfang fçr die Semipartialkorrelation R2y
AB R2y;
AB R2y;B , die den Zusammenhang zwischen y und den bezçglich B bereinigten Prådiktorvariablen A erfasst. In Analogie hierzu låsst sich auch ermitteln, wie groû der Stichprobenumfang n mindestens sein sollte, damit der Zuwachs der Varianzaufklårung durch die Erweiterung eines Prådiktorvariablensatzes A mit k Prådiktorvariablen um p Variablen eines Satzes B mit einer Teststårke von 1 b 0;80 und a 0;05 signifikant wird. Bezeichnen wir als Effektgræûe fçr diesen Zuwachs den Ausdruck R2y;
AB R2y;A , erhålt man fçr n:
a13.2.3
n
L
1 R2y;
AB
R2y;
AB R2y;A
k:
13
465
Mathematischer Hintergrund
13:46
13.2.3 Mathematischer Hintergrund Linearkombinationen Ein verbindendes Element aller multivariaten Verfahren sind Linearkombinationen, wobei fçr jedes Verfahren ein spezifisches Kriterium definiert ist, nach dem Linearkombinationen zu bestimmen sind. Dieser wichtige Begriff sei im Folgenden kurz erlåutert. Eine Person mæge auf 2 Variablen die Werte 7 und 11 erhalten haben. Die Summe der gewichteten Einzelwerte stellt eine Linearkombination der Messwerte dar. Unter Verwendung des Gewichtes 1 fçr beide Werte erhalten wir die Linearkombination:
1 7
1 11 18 : Wird die erste Variable dreifach und die zweite zweifach gewichtet, ergibt sich die Linearkombination
3 7
2 11 43 : Auch das arithmetische Mittel aus p Messungen einer Person låsst sich als Linearkombination der einzelnen Messungen darstellen: 1 1 1 x1m x2m xpm xm p p p 1X xim : p i In diesen Beispielen wurden die Gewichte willkçrlich bzw. nach der Berechnungsvorschrift fçr das arithmetische Mittel festgesetzt. Im Folgenden wollen wir çberprçfen, wie die Gewichte der Variablen fçr eine multiple Regression bestimmt werden.
Bestimmung der b-Gewichte Standardisierte Gewichte. Gleichung (13.11) stellt eine Linearkombination von z-Werten einer Vp m dar. Die z-Werte der Prådiktorvariablen in der Linearkombination sind bekannt und die b-Werte unbekannt.
Die Gewichte b1 ; b2 ; . . . ; bk gelten fçr alle Vpn, d. h., die Variablen werden fçr alle Vpn gleich gewichtet. Die standardisierten, d. h. von z-transformierten Variablen ausgehenden Gewichte erfçllen folgende Bedingung: X
zcm ^zcm 2 min :
13:47 m
Die unbekannten Gewichte der einzelnen Variablen werden in der multiplen Regression so bestimmt, dass die Summe der quadrierten Differenzen zwischen den tatsåchlichen Kriteriumswerten
zcm und den vorhergesagten Kriteriumswerten
^zcm minimal wird (Kriterium der kleinsten Quadrate).
Ersetzen wir ^zcm durch Gl. (13.11), ergibt sich: X zcm
b1 z1m b2 z2m bk zkm 2 min : m
(13.48)
Die Læsung fçr die b-Werte erhalten wir, wenn Gl. (13.48) partiell nach den unbekannten bi -Werten abgeleitet (differenziert) wird und die ersten Ableitungen Null gesetzt werden. Im Fall zweier Prådiktorvariablen
k 2 erhalten wir mit b als Vektor der b-Gewichte (vgl. Anhang C, I): F
b F
b1 ; b2 X
zcm b1 z1m m
b2 z2m 2 min : (13.49)
Durch Ausquadrieren des zu summierenden Ausdrucks und nach Zusammenfassung ergibt sich: F
b F
b1 ; b2 X
z2cm b21 z21m b22 z22m m
2b1 zcm z1m
2b2 zcm z2m 2b1 b2 z1m z2m :
13:50
Die ersten Ableitungen dieser Funktion nach b1 und b2 lauten: dF
b X
2b1 z21m db1 m dF
b X
2b2 z22m db2 m
2zcm z1m 2b2 z1m z2m ;
13:51a 2zcm z2m 2b1 z1m z2m :
13:51b
466
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
Die Ableitungen werden Null gesetzt sowie durch 2 und n dividiert. Ziehen wir das Summenzeichen in die Klammer, ergibt sich nach Umstellen: P 2 P P z1m z1m z2m zcm z1m b2 m m ;
13:52a b1 m Pn 2 P n P n z2m z1m z2m zcm z2m b1 m m :
13:52b b2 m n n n Nach Gl. (6.59) sind 1 X z1m z2m r12 ; n m 1 X zcm z1m r1c ; n m 1 X zcm z2m r2c n m und 1 X 2 1X 2 z1m z 1: n m n m 2m (Der letzte Ausdruck stellt die Korrelation einer Variablen mit sich selbst dar.) Fçr Gl. (13.52) kænnen wir somit schreiben:
13
b1 b2 r12 r1c ;
13:54a
b1 r12 b2 r2c :
13:54b
Fçr mehr als zwei Prådiktoren ergibt sich das folgende allgemeine Gleichungssystem: b1
b2 r12 b3 r13 bk r1k r1c
b1 r21 b2
b3 r23 bk r2k r2c
b1 r31 b2 r32 b3 .. .. .. . . .
rkc :
Rx b rxc :
13:56
Hierin ist Rx die Matrix der Prådiktorvariableninterkorrelationen, b der Spaltenvektor der unbekannten b-Gewichte und rxc der Spaltenvektor der k Korrelationen zwischen den Prådiktorvariablen und der Kriteriumsvariablen. Fçr k 2 ergibt sich: b1 1 r12 r1c Rx ; b ; rxc : r21 1 b2 r2c Gleichung (13.56) muss nach dem unbekannten Vektor b aufgelæst werden. Hierzu multiplizieren wir links beide Seiten von Gl. (13.56) mit der invertierten Korrelationsmatrix (vgl. Anhang C, IV) bzw. ¹dividierenª durch Rx : Rx 1 Rx b Rx 1 rxc :
(13.55)
Das Gleichungssystem enthålt k Gleichungen mit k unbekannten b-Gewichten. Die Interkorrelationen zwischen den Prådiktorvariablen (links vom Gleichheitszeichen) und die Korrelationen zwischen den Prådiktorvariablen und dem Kriterium (rechts vom Gleichheitszeichen) sind bekannt; das Gleichungssystem ist damit læsbar. Da die zweiten Ableitungen positiv sind, legt das Gleichungssystem (13.55) b-Gewichte fest, die ± wie in
13:57
Da das Produkt einer Matrix mit ihrer Inversen die Einheitsmatrix I ergibt (vgl. Gl. C 19), resultiert folgende Bestimmungsgleichung fçr den gesuchten Vektor b: I b b Rx 1 rxc :
bk r3k r3c .. .. . .
b1 rk1 b2 rk2 b3 rk3 bk
Gl. (13.47) gefordert ± die Summe der quadrierten Differenzen zwischen zcm und ^zcm minimieren. Die Læsung eines solchen Systems linearer Gleichungen ist ± zumal bei græûer werdendem k ± sehr aufwåndig. Mit Hilfe der Matrixalgebra (und mit Hilfe der elektronischen Datenverarbeitung) wird das Problem jedoch sehr viel handlicher (vgl. Anhang C, IV). Das System der k Gleichungen in Gl. (13.55) låsst sich durch das folgende Matrixprodukt darstellen:
13:58
(Die Multiplikation einer Matrix bzw. eines Vektors mit I entspricht der Multiplikation einer Zahl mit 1, d. h., die Matrix bzw. der Vektor werden durch die Multiplikation nicht veråndert; vgl. Gl. C 14.) Der folgende Gedankengang zeigt die Øquivalenz von Gl. (13.15) und der b-Gewichtsbestimmung nach Gl. (13.58) fçr k 2: Die Determinante von Rx lautet wegen r12 r21 gemåû Gl. (C 15): jRx j 1
r212 :
Unter Verwendung von Gl. (C 21) erhalten wir fçr Gl. (13.58):
a13.2.3
467
Mathematischer Hintergrund
b
1 r212
1
1 r12
r12 1
r1c : r2c
Nach den Regeln der Matrizenmultiplikation (vgl. Gl. C 8) ergibt sich: r12 r2c ; r212 1 r2c r12 r1c
r12 r1c r2c : b2 1 r212 1 r212 b1
1
1
r212
r1c
r12 r2c
r1c
1
Fçr k 2 impliziert Gl. (13.58) somit eine relativ einfache Bestimmung der b-Gewichte. Ist k jedoch græûer als 2, wird die algebraische Darstellung sehr komplex, sodass wir die matrix-algebraische Darstellungsweise vorziehen. Wie b-Gewichte, Standardfehler und multiple Korrelationskoeffizienten bei 3 Prådiktorvariablen ohne matrix-algebraische Gleichungen ermittelt werden kænnen, beschreibt Aiken (1974). Es ist darauf zu achten, dass die Bestimmung der b-Gewichte (und der multiplen Korrelation) voraussetzt, dass die Matrix der Prådiktorinterkorrelationen nicht singulår ist, da in diesem Fall die fçr Gl. (13.58) benætigte Inverse nicht existiert (vgl. Anhang C, IV). Sollte die Matrix singulår sein (was bei empirischen Daten åuûerst selten vorkommt), kann nach einem bei Tucker et al. (1972) oder Raju (1983) beschriebenen Verfahren (generalisierte Inverse) vorgegangen werden. Kritische Alternativen hierzu nennen Draper u. Smith (1998, S. 444).
Datenrçckgriff. Gleichung (13.58) sei an dem auf S. 451 f. genannten Beispiel verdeutlicht. Wir erhalten fçr Rx : 1;00 0;16 Rx 0;16 1;00 und fçr rxc 0;47 : rxc 0;87
Rx 1;00 0;16
b rxc b1 0;47 0;16 : 0;87 1;00 b2
Zur Læsung dieser Gleichung benætigen wir die Inverse von Rx . Nach Gl. (C 21) resultiert fçr Rx 1 : 1;00 0;16 1 Rx 1 0;16 1;00 1;00 0;162 1;026 0;164 : 0;164 1;026 Wir setzen Rx 1 in Gl. (13.58) ein und ermitteln fçr b: rxc b Rx 1 0;47 1;026 0;164 b1 0;87 0;164 1;026 b2 bzw. b1 1;026
0;47
0;164
0;87 0;339 b2
0;164
0;47 1;026
0;87 0;816 : Diese Werte stimmen mit den nach Gl. (13.15 a, b) bestimmten b-Gewichten çberein. Wir erhalten somit nach Gl. (13.14) wiederum die multiple Korrelation von: p R
0;339
0;47
0;816
0;87 0;93 : Nachdem die Inverse Rx 1 in unserem Beispiel bekannt ist, kænnen wir nach Gl. (13.20) den Signifikanztest fçr die b-Gewichte durchfçhren. Wir erhalten: r11 r22 1;026 und
Es muss somit das folgende lineare Gleichungssystem gelæst werden: b1 0;16 b2 0;16 b1
b2
0;47 0;87 :
In Matrixschreibweise erhalten wir:
0;339 t1 r 2;41 ; 1; 026
1 0; 932 10 3 0;816 t2 r 5;79 : 1; 026
1 0; 932 10 3 (Die genauen Werte bei Rundung nach 6 Nachkommastellen lauten t1 2;468 und t2 6;034.
13
468
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
Bei 7 Freiheitsgraden trågt somit nur die Prådiktorvariable 2 signifikant
a 1% zur Vorhersage des Kriteriums bei.
Rohwertgewichte. Die Schåtzgleichung zur Vorhersage eines ^ ym -Wertes auf der Basis der nicht-standardisierten Variablen (Rohwerte) heiût: ^ ym b1 x1m b2 x2m bk xkm a : (Aus darstellungstechnischen Grçnden kennzeichnen wir hier ± abweichend von Gl. 13.12 ± auch die Rohwertgewichte mit b und die Kriteriumsvariable mit y.) Wir ergånzen die k Prådiktorvariablen durch eine weitere Prådiktorvariable k 1, auf der alle n Vpn den Wert 1 erhalten. Das Gewicht der Variablen k 1 entspricht der Konstanten a. Die Regressionsgleichung heiût dann: ^ ym b1 x1m b2 x2m bk xkm bk1 xk1;m
13:59 bzw. in Matrixschreibweise (vgl. Anhang C): ^ y Xb :
13:60
Die b-Gewichte werden auch hier so bestimmt, ym dem dass die Regressionsresiduen em ym ^ Kriterium der kleinsten Quadrate gençgen: X e2m min m
Datenrçckgriff. Fçr die Bestimmung der Rohwertgewichte wåhlen wir erneut das auf S. 451 f. genannte Beispiel, das durch eine weitere Prådiktorvariable x3 ergånzt wird, auf der alle Vpn den Wert 1 erhalten. Die Datenmatrix X0 heiût also: X0 0 12 12 13 10 B @ 2 3 3 4 1 1 1 1
e e min 0
^ ym
e e
y
y
0
^y
y 0
Xb
y 0
0
13
12
10
14
2
4
4
1
2
C 3A
1
1
1
1
1
1
1 122 28 A 10
Die Inverse dieser Matrix errechnet man zu 0 1 0;0435 0;0109 0;5000 1 0 0;1069 0;1667 A
X X @ 0;0109 0;5000 0;1667 6;6667 Des Weiteren ergeben sich 0 1 12 655 X0 y @ 2 849 A 1 042 1 1;75 b
X0 X 1 X0 y @ 6;71 A 144;33
0
bzw., da em ym
15
1
11
Fçr X0 X ergibt sich 0 1512 344 X0 X @ 344 88 122 28
und
oder
13
Dies ist die Berechnungsvorschrift des unbekannten Vektors b der Rohgewichte.
^ y Xb
0
y y b X Xb
2b0 X0 y min:
13:61
Wir leiten Gl. (13.61) nach dem unbekannten Vektor b ab und setzen die 1. Ableitung Null: d
e0 e 2X0 Xb db 2X0 Xb 2X0 y 0 :
Diese Werte stimmen bis auf Rundungsungenauigkeiten mit den auf S. 451 genannten Rohwertgewichten çberein. Man beachte, dass das dritte Element des Vektors b
b3 der Regressionskonstanten a entspricht.
Bestimmung von R
2X0 y
Hieraus folgt: X0 Xb X0 y
X0 X 1
X0 Xb
X0 X 1 X0 y b
X0 X 1 X0 y :
0
13:62
Auf S. 449 wurde behauptet, dass R2 denjenigen Varianzanteil der Kriteriumsvariablen schåtzt, der durch die Prådiktorvariablen erklårt wird. Wir wollen diese Behauptung erneut aufgreifen und fçr k 2 zeigen, dass sich die Berechnungsvorschrift einer multiplen Korrelation (vgl. Gl. 13.14 a) aus R2 als dem gemeinsamen Varianzanteil der Kriteriums- und Prådiktorvariablen ab-
a13.2.3
leiten låsst. Diese Herleitung verwendet zunåchst z-standardisierte Variablen.
Standardisierte Variablen. Der Anteil der Kriteriumsvarianz, der auf die Prådiktorvariablen zurçckgeht, ist durch folgenden Quotienten definiert: s^2z R2 2c : szc
13:63
Die Varianz der z-normierten Kriteriumsvariablen ist 1, d. h., wir mçssen lediglich die Varianz der vorhergesagten Kriteriumswerte
s^2zc untersuchen. Wir schreiben P
^zcm ^zc 2 m 2 ;
13:64 s^zc n bzw., da der Mittelwert der vorhergesagten ^zcm -Werte Null ist
^zc 0; vgl. hierzu die Ausfçhrungen auf S. 208, die hier analog gelten), P 2 ^zcm m 2 :
13:65 s^zc n ^zcm ersetzen wir nach Gl. (13.11) durch b1 z1m b2 z2m und erhalten P
b1 z1m b2 z2m 2 s^2zc m P 2n P 2 z1m z2m b22 m b21 m nP n z1m z2m m : P
13:66 P 2 2b1 b2P 2 z1m z2mn z1m z2m Da m 1, m 1 und m r12 , n n n vereinfacht sich Gl. (13.66) zu s^2zc b21 b22 2b1 b2 r12 :
13:67
Wir ersetzen b1 und b2 nach Gl. (13.15 a, b) s^2zc
13
469
Mathematischer Hintergrund
r12 r2c 2
r2c r12 r1c 2
1 r212 2 2 r12
r1c r12 r2c
r2c r12 r1c :
1 r212 2
r1c
Nach Ausmultiplizieren und Zusammenfassen entsprechender Ausdrçcke resultiert
s^2zc
r21c r22c 2r2c r12 r1c
1 r212 2 r212 r21c r212 r22c 2r312 r1c r2c
1 r212 2
bzw. nach Ausklammern von
1
r212
r212
r21c r22c 2r2c r12 r1c
1 r212 2 r2 r22c 2r12 r1c r2c : 1c
1 r212
s^2zc
1
13:68
Ziehen wir aus Gl. (13.68) die Wurzel, erhalten wir die unter Gl. (13.14 a) aufgefçhrte Bestimmungsgleichung der multiplen Korrelation.
Nicht-standardisierte Variablen. Unter Verwendung der Rohwertgewichte nach Gl. (13.62) berechnet sich die multiple Korrelation wie folgt: Das Quadrat einer multiplen Korrelation definierten wir als denjenigen Anteil der Varianz der Kriteriumsvariablen, der durch die Prådiktorvariablen erklårt wird. Da sich die Quadratsummen nur durch einen konstanten Faktor von den Varianzen unterscheiden, ist das Quadrat einer multiplen Korrelation natçrlich auch durch den Quotienten QS^y =QSy definiert. Wir erhalten als Quadratsumme der Kriteriumsvariablen y: X QSy
ym y 2 m 0
yy
10 y2 =n :
13:69
10 ist hierbei ein aus Einsen bestehender Zeilenvektor. Die Quadratsumme der vorhergesagten ^ym -Werte
QS^y errechnen wir wegen y ^y (vgl. S. 208) zu X
^ym y 2 QS^y m 0
^y ^y
10 y2 =n :
13:70
Fçr ^y0 ^y schreiben wir unter Verwendung von Gl. (13.60) ^y0 ^y b0 X0 Xb bzw., da b
X0 X 1 X0 y ; ^y0 ^y b0 X0 X
X0 X 1 X0 y b0 X 0 y :
470
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
^z0 b0 Z0 :
Fçr die QS^y resultiert damit 0 0
QS^y b X y
0
2
1 y =n :
13:71
Fçr das Quadrat der multiplen Korrelation zwischen den Prådiktorvariablen xj und der Kriteriumsvariablen y erhalten wir damit R2
b0 X0 y
10 y2 =n : y0 y
10 y2 =n
13:72
Fçr das Beispiel auf S. 451 f. ermittelt man QSy 109 218
10422 =10 641;60 ;
QS^y 109 137;04
10422 =10 560;64
und damit R2 641;60=560;64 0;8738 bzw. R 0;9348 : Das Ergebnis stimmt mit dem auf S. 451 genannten Wert çberein. Die Forderung, dass die Korrelationsmatrix der Prådiktorvariablen fçr die Bestimmung von R nicht singulår sein darf (vgl. S. 467), bedeutet hier, dass XX0 nicht singulår sein darf, also eine Inverse haben muss.
Strukturkoeffizienten
13
Zu einer einfachen Berechnungsvorschrift fçr die auf S. 453 erwåhnten Strukturkoeffizienten fçhrt der folgende Gedankengang: Mit der multiplen Regressionsgleichung (13.11) sagen wir ^zcm -Werte vorher, die einen Mittelwert von Null aufweisen (in Analogie zu Gl. 6.67 ff.). Die Varianz der ^zcm -Werte entspricht der gemeinsamen Varianz zwischen der Kriteriumsvariablen und der Linearkombination aller Prådiktorvariablen. Die gemeinsame Varianz hat also den Wert R2 (s. Gl. 13.68). Dividieren wir die ^zcm -Werte durch R, erhalten wir ^z 0-Werte, die um Null mit einer Varianz von 1 verteilt sind. Die Korrelation der ^z 0-Werte mit den z-Werten der einzelnen Prådiktorvariablen (die gleich der Korrelation der ^z-Werte mit den z-Werten der Prådiktorvariablen ist) ergibt somit nach Gl. (6.59): 1 X ^zcm zim : r^zc0 zi ci
13:73 nR m Einen ^zcm -Wert erhalten wir nach Gl. (13.11) bzw. den Vektor der vorhergesagten ^z-Werte nach:
13:74
Unter Verwendung von Gl. (13.73) und (13.74) ergibt sich fçr den Vektor der Strukturkoeffizienten: 1 1 c0 b0 Z0 Z n R 1 0 1 0 b Z Z n R 1 0
13:75 b Rx : R Ferner ist jedoch nach Gl. (13.58) b Rx 1 rxc , d. h., 1 c0 r0xc Rx 1 Rx R 1 r0xc : R Die Strukturkoeffizienten erhalten wir, indem die Korrelationen der einzelnen Prådiktorvariablen mit dem Kriterium (Validitåten) durch die multiple Korrelation dividiert werden. Tabelle 13.7. Beispiel fçr eine multiple Korrelation und Regression
k > 2 x1 x1 1,00 x2 x3 x4 x5
x2
x3
x4
x5
Kriterium
xc
0,64 1,00
0,49 0,52 1,00
±0,15 ±0,10 ±0,02 1,00
0,62 0,38 0,40 0,04 1,00
0,60 0,67 0,33 ±0,04 0,44
Prådiktor-Nr. 1 2 3 4 5 R = 0,72 F = 5,12 Rohwertgewichte: b01 0; 02 b02 0; 54 b03 0; 17 b04 0; 05 b05 0; 06
b
t
b
0,25 0,52 ±0,12 0,05 0,13
1,13 2,66 ±0,67 0,31 0,71
c 0,84 0,93 0,46 ±0,05 0,61
Hæhenlage: a = ±0,839
BEISPIEL Gesucht werden die multiple Korrelation und die multiple Regressionsgleichung fçr Kreativitåt als Kriteriumsvariable und folgende Prådiktorvariablen:
a13.3
Lineare Strukturgleichungsmodelle
x1 x2 x3 x4 x5
allgemeines Wissen mechanisches Verståndnis Abstraktionsvermægen Soziabilitåt naturwissenschaftliches Interesse
Tabelle 13.7 zeigt die Ergebnisse der Analyse. Fçr n 30 Vpn resultiert eine multiple Korrelation von R 0;72, die auf dem 1%-Niveau signifikant ist. (Die Daten wurden dem ¹TalentProjektª von Cooley u. Lohnes, 1971, entnommen.) Aufgrund der b-Gewichte und der Strukturkoeffizienten erweist sich der Test zur Erfassung des mechanischen Verståndnisses als der beste Prådiktor fçr Kreativitåt.
13.3 Lineare Strukturgleichungsmodelle Mit linearen Strukturgleichungs- oder auch sog. ¹Kausalmodellenª werden anhand empirischer Daten a priori formulierte Kausalhypothesen zur Erklårung von Merkmalszusammenhången geprçft. Diese aus erkenntnistheoretischer Sicht hæchst attraktive Perspektive hat in den vergangenen 30 Jahren zu einer starken Verbreitung dieser Methode in den Sozialwissenschaften, der Úkonometrie und der Medizin gefçhrt. Wegen ihrer heutigen Bedeutung sollen im Folgenden zumindest einige Grundprinzipien dieses Ansatzes vorgestellt und kritisch durchleuchtet werden. Lineare Strukturgleichungsmodelle integrieren regressionsanalytische Ûberlegungen, Aspekte der Faktorenanalyse (die hier so verkçrzt dargestellt werden kænnen, dass eine Bearbeitung von Kap. 15 ± Faktorenanalyse ± vorab nicht erforderlich ist) und die Pfadanalyse, die als eine Methode zur Ûberprçfung kausaler Hypothesen bereits in den 30er Jahren in ihren Grundzçgen entwickelt wurde (Wright, 1921). Pfad-, Regressions- und (konfirmatorische) Faktorenanalyse kænnen somit als Teilmodelle der linearen Strukturgleichungsmodelle verstanden werden. Wåhrend mit der Pfadanalyse kausale Beziehungen zwischen direkt beobachtbaren Variablen geprçft werden sollen, ermæglichen lineare Strukturgleichungsmodelle zusåtzlich die Berçcksichtigung latenter Variablen, die ± wie z. B. Einstellungen, Motivation oder Erziehungsstil ± nicht direkt, sondern nur indirekt çber verschiedene Indikatoren erfassbar sind. Zudem werden explizit Messfehler der beobachteten Variablen als Bestandteil der Kausalmodelle aufgenommen. Das Arbeiten mit linearen Strukturgleichungsmodellen zwingt den Anwender, sich vor der Datenauswertung darçber Gedanken zu machen,
471
welche (latenten oder beobachteten) Variablen durch welche anderen Variablen kausal beeinflusst sein kænnten. Diese Kausalhypothesen werden in einer Graphik ± dem sog. Pfaddiagramm ± zusammengefasst, aus dem die zur Beschreibung des Kausalmodells erforderlichen Modellgleichungen abgeleitet werden. Ein weiterer Schritt çberprçft, ob sich das Modell durch die erhobenen Daten beståtigen låsst. Falls dies der Fall ist, wird çblicherweise interpretiert, dass die Kausalannahmen durch die Daten beståtigt seien (zur Kritik dieser Interpretation vgl. S. 480 f.). Fçr das konkrete Arbeiten mit linearen Strukturgleichungsmodellen stehen einige Computerprogramme zur Verfçgung, von denen LISREL (linear structural relationships) von Jæreskog u. Særbom (1993) das bekannteste ist. Andere bekannte Programme sind z. B. EQS von Bentler (1989), LISCOMP von Muthen (1986) oder LVPLS von Lohmæller (1981). Wichtige Hinweise zur Handhabung des EQS-Programms findet man bei Byrne (1994) und LISREL-Beispiele bei Stevens (2002, Kap. 11). Die folgenden Ausfçhrungen beziehen sich in der Hauptsache auf LISREL. Die Verwendung dieses Programms ¹verfçhrtª gelegentlich dazu, ein ursprçnglich ins Auge gefasstes, aber wenig taugliches Kausalmodell so lange zu modifizieren, bis es mit den Daten gut çbereinstimmt. Dieses ¹Ausprobierenª von Kausalmodellen kann fçr explorative Zwecke hilfreich sein; es ist jedoch mit Nachdruck davor zu warnen, das so gefundene Modell als beståtigt oder allgemein gçltig anzusehen, denn wie bei allen hypothesenprçfenden Untersuchungen muss natçrlich auch hier die zu prçfende Hypothese vor Kenntnis der Daten aufgestellt werden. Ein Modifizieren der Kausalhypothese angesichts eines erhobenen Datensatzes und das Ûberprçfen der modifizierten Hypothese mit dem gleichen Datensatz kann zu einem besseren, aber letztlich trivialen Ergebnis fçhren (vgl. hierzu auch McCallum et al. 1992). Bevor wir uns der Modellierung von Kausalhypothesen fçr eine LISREL-Auswertung zuwenden, sollen zunåchst einige grundsåtzliche Fragen zum Verhåltnis von Kausalitåt und Korrelation erærtert werden.
13
472
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
Anhand der Korrelation selbst kann nicht entschieden werden, welches dieser vier Kausalmodelle zutrifft (vgl. hierzu auch Stelzl, 1982). Fçr die Beståtigung einer Kausalhypothese ist die Korrelation eine notwendige, aber keine hinreichende Voraussetzung. (Hierbei steht der Begriff ¹Korrelationª allgemein fçr Zusammenhånge, zu denen auch nichtlineare Zusammenhånge gehæren. Beschrånkt man den Korrelationsbegriff auf lineare Zusammenhånge, wåre diese Korrelation nicht einmal eine notwendige Voraussetzung; zur Pfadanalyse auf der Basis kategorialer Daten vgl. Ritschard et al. 1996.) Im Folgenden betrachten wir drei Merkmale x1 ; x2 und x3 , die mit r12 0;3, r13 0;5 und r23 0;6 wechselseitig korrelieren. Auch hier sind mehrere hypothetische Kausalmodelle denkbar, die sich folgendermaûen darstellen lassen: a)
x1
13
K
K
x3
x2 x1 und x2 beeinflussen x3 kausal; zwischen x1 und x2 wird keine Kausalbeziehung postuliert (r12 kænnte mit der kausalen Wirksamkeit einer Variablen x4 erklårt werden). b)
x1 K x K 3
K
x2
Zusåtzlich zu a) wirkt hier x1 auch kausal auf x2 . K
x1
x2
K
c
x3
Partial- und Semipartialkorrelationen. Fçr die Ûberprçfung von Kausalmodellen kænnen wir die in den letzten Abschnitten behandelte Partialbzw. Semipartialkorrelation verwenden. Betrachten wir zunåchst das folgende Kausalmodell: d)
x1
x3 x2
K
Besteht zwischen zwei Merkmalen x1 und x2 eine (signifikante) Korrelation, kann dies bedeuten, dass: · x1 die Ursache fçr x2 ist, · x2 die Ursache fçr x1 ist, · x1 und x2 sich wechselseitig kausal beeinflussen oder dass · x1 und x2 von einem dritten oder weiteren Merkmalen beeinflusst werden.
x1 wird durch x2 und x2 durch x3 beeinflusst. Eine direkte Wirkung von x3 auf x1 wird nicht behauptet. Nach diesem graphischen Prinzip lassen sich mçhelos, z. B. durch Umkehrung der Pfeilrichtungen und Aufnahme neuer Pfeile bzw. Weglassen bereits gesetzter Pfeile weitere Kausalmodelle konstruieren, die alle mit den genannten Korrelationen kompatibel wåren.
K
Kausalitåt und Korrelation
Es wird also behauptet, dass x1 und x2 kausal durch x3 beeinflusst werden. Tråfe diese Behauptung zu, mçsste die Partialkorrelation r123 Null werden. Setzt man die o. g. Korrelationen in Gl. (13.5) ein, resultiert fçr den Zåhler r12 r13 r23 0 und damit r123 0. Die empirischen Korrelationen beståtigen damit das theoretische Kausalmodell. Man beachte jedoch, dass die gleichen Korrelationen auch das unter a) genannte Beispiel fçr ein Kausalmodell beståtigen. Beide Kausalmodelle wåren mit r123 > 0 bzw. im Extremfall mit r12 r123 falsifiziert. Ein anderes Modell kænnte wie folgt aussehen: e)
x1
K x2
K x3
Offenbar wird nicht erwartet, dass x1 die Variable x3 kausal beeinflusst (die obige Korrelation r13 0;5 kænnte durch die Wirksamkeit einer Variablen x4 auf x1 und x3 erklårbar sein). Dessen ungeachtet wåre beim Modell e) zu fragen, ob x1 çber x2 einen indirekten Einfluss auf x3 ausçbt. Diese Vermutung låsst sich mit einer Semipartialkorrelation çberprçfen. Falls x2 die Variable x3 nur deshalb beeinflusst, weil sie ihrerseits durch x1 beeinflusst wird (was fçr einen starken indirekten Effekt von x1 auf x3 sprechen wçrde), mçsste die Semipartialkorrelation r3
21 Null sein. Setzt
a13.3
473
Lineare Strukturgleichungsmodelle
man die o. g. Korrelationen in Gl. (13.6) ein, resultiert 0;6 0;5 0;3 r3
21 p 0;47 : 1 0;32 In diesem Beispiel widerspricht die ¹Realitåtª also deutlich dem Kausalmodell. Von den 36% gemeinsamer Varianz zwischen x2 und x3
r23 0;6 sind 22%
0;472 als eigenståndiger Beitrag von x2 zu erklåren, d. h., nur 14% sind als indirekter Effekt auf x1 zurçckzufçhren. Man kænnte nun ± nur zu Explorationszwecken ± ausprobieren, welches Modell (mit indirekten Effekten) mit der Realitåt besser in Einklang zu bringen ist. Dies ist offenbar Modell c), denn hierfçr erhålt man r1
23 0. Die Variable x2 beeinflusst x1 deshalb, weil x2 von x3 beeinflusst wird. Die gegebenen Korrelationsverhåltnisse beståtigen also fçr Modell c), dass x3 vermittelt çber x2 eine indirekte Wirkung auf x1 ausçbt und dass x2 fçr x1 ohne Wirkung von x3 bedeutungslos wåre. Im Modell b) kænnte x1 sowohl einen direkten als auch einen indirekten (çber x2 vermittelten) Einfluss auf x3 ausçben. x3 wird sowohl von x1 als auch von x2 beeinflusst. Die Korrelation r13 0;5 als direkten Effekt von x1 auf x3 anzusehen, wåre falsch, denn x1 korreliert mit x2 zu r12 0;3, d. h., Teile der Information von x1 sind auch in x2 enthalten. Den ausschlieûlich auf x1 zurçckgehenden Effekt bzw. den direkten Effekt von x1 auf x3 erhalten wir çber das b-Gewicht der Variablen x1 in der multiplen Regression ^x3 b1 x1 b2 x2 . Nach Gl. (13.15 a) ermittelt man b1
0;5 0;3 0;6 0;3516 : 1 0;32
Von der Korrelation r13 0;5 bleibt damit ein Rest von 0;5 0;3516 0;1484. Dieser Rest wird in kausalanalytischen Modellen als indirekter Effekt von x1 auf x3 interpretiert. Man erhålt diesen indirekten Effekt auch, wenn man die Korrelation r12 mit b2 in der Regressionsgleichung ^x3 b1 x1 b2 x2 multipliziert. Fçr b2 resultiert nach Gl. (13.15 b): b2
0;6 0;5 0;3 0;4945 ; 1 0;32
d. h., man erhålt als indirekten Effekt r13
b1 r12 b2 0;3 0;4945 0; 1484 :
Wir werden diesen Ansatz zur Bestimmung eines indirekten Kausaleffektes spåter verallgemeinern. Vorerst bleibt festzustellen: In kausalanalytischen Modellen kann die Korrelation zwischen einer Prådiktorvariablen und einer Kriteriumsvariablen additiv in einen direkten und indirekten Kausaleffekt zerlegt werden.
(In dieser Formulierung ist der Kausalbegriff eher technisch zu verstehen, denn die ¹wahreª Ursache fçr die Merkmalsausprågungen auf x3 kænnte ein im Modell nicht berçcksichtigtes oder çbersehenes Merkmal x4 sein, das sowohl auf x1 als auch auf x2 kausal einwirkt.) Der indirekte Effekt von x1 auf x3 låsst sich auch çber die Partialkorrelation herleiten. Unter Bezugnahme auf Gl. (13.35) erhålt man mit der dort verwendeten Terminologie: b1 b1
3;12
r2132 ; b3
1;23
d. h., fçr den indirekten Effekt von x1 auf x3 ergibt sich r12 b2 r12 b2
3;12 r13 0;5
r2132 b3
1;23
0;41932 0;1484 : 0;5
Uneindeutige Ergebnisse. Die hier genannten Beispiele verdeutlichen, dass sich Kausalhypothesen fçr beobachtete Merkmale durch einen flexiblen Einsatz von multipler, partieller und semipartieller Korrelationstechnik çberprçfen lassen. Die Resultate dieser Ûberprçfungen sind jedoch meistens nicht eindeutig. So konnte z. B. gezeigt werden, dass Modell a, das durch Umkehrung der Pfeile aus a hervorgehende Modell d sowie Modell c mit den genannten Korrelationen zu vereinbaren sind. Diese Uneindeutigkeit ist eine generelle Schwåche des LISREL-Ansatzes: Es lassen sich in der Regel mehrere Kausalmodelle finden, die mit einer gegebenen Kovarianz- bzw. Korrelationsstruktur im Einklang stehen. Diese Uneindeutigkeit macht die Forderung, nur a priori formulierte Kausalmodelle zu prçfen, um so dringlicher. Aber auch die Beståtigung eines a priori aufgestellten Kausalmodells schlieût nicht aus, dass andere Mo-
13
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
Im Folgenden wird gezeigt, wie man von einer graphischen Veranschaulichung eines Modells im sog. Pfaddiagramm zu linearen Strukturgleichungen kommt. Wird behauptet, dass eine Variable x1 eine Variable x2 kausal beeinflusst, wåre diese Beziehung durch das folgende Pfaddiagramm zu veranschaulichen: K x2 : x1 Die ¹Modellgleichungª fçr dieses Pfaddiagramm entnehmen wir der bivariaten Regressionsrechnung: ^x2m b x1m a : Sind x1 und x2 z-standardisiert, erhålt man hierfçr nach Gl. (13.10)
13
^z2m r12 z1m : Den Regressionskoeffizienten r12 ersetzen wir in der pfadanalytischen Terminologie durch einen Pfadkoeffizienten p21 , wobei der erste Index diejenige Variable nennt, auf die der Pfeil gerichtet ist. Berçcksichtigt man ferner Messfehleranteile e2 in x2 bzw. z2 (Regressionsresiduen, die auf Messfehler oder Effekte nicht erfasster Drittvariablen zurçckzufçhren sind), resultiert folgendes Pfadmodell: e2
K
z1
K z2
z2m p21 z1m e2m :
13:76
Fçr die Modellierung des folgenden Pfaddiagramms werden zwei Gleichungen benætigt: e2 K z2
z1
p32 K
Pfaddiagramme als Gleichungen
Die Gleichung hierzu lautet:
K z3
K
delle bei den gleichen Korrelationen genauso wahrscheinlich sind (vgl. hierzu auch die abschlieûenden Literaturhinweise). Nicht unproblematisch ist ferner die Entscheidung darçber, wann ein Kausalmodell als falsifiziert und wann es als beståtigt gelten kann (vgl. hierzu S. 479 f.). Im Kontext von LISREL wird hierfçr ein Modelltest durchgefçhrt, der darçber informiert, wie wahrscheinlich ein vorgegebenes Modell angesichts der erhobenen Daten ist (Maximum-Likelihood-Schåtzung, vgl. S. 99 f.). Ist diese Wahrscheinlichkeit nicht ¹gençgendª groû, gilt das Modell als falsifiziert.
K
474
1 z2m p21 z1m e2 ;
2 z3m p31 z1m p32 z2m e3 :
e3
13:77
Die erste Gleichung ¹erklårtª die Variable z2 und die zweite Gleichung die Variable z3 . Allgemein entspricht die Anzahl der Gleichungen der Anzahl der zu erklårenden Variablen (also derjenigen Variablen, auf die mindestens ein Pfeil gerichtet ist), wobei rechts vom Gleichheitszeichen alle Variablen stehen, die einen direkten Einfluss auf die zu erklårende Variable ausçben. Zur Bestimmung der Pfadkoeffizienten wendet man die sog. Multiplikationsmethode an: Jede Gleichung wird der Reihe nach mit jeder determinierenden Variablen multipliziert, die in der Gleichung vorkommt. (Im Beispiel wird also Gleichung 1 mit z1 und Gleichung 2 einmal mit z1 und ein weiteres Mal mit z2 multipliziert.) Die Residualanteile zåhlen nicht zu den determinierenden Variablen. Fçr unser Beispiel resultiert also:
1 z1m z2m p21 z1m z1m e2 z1m
2 z1m z3m p31 z1m z1m p32 z1m z2m e3 z1m
3 z2m z3m p31 z2m z1m p32 z2m z2m e3 z2m : (13.78)
a13.3
Werden diese Gleichungen çber alle n Vpn summiert und anschlieûendP durch n dividiert, erhålt man wegen rij
1=n zim zjm (s. Gl. 6.59) m
(1a)
r12 p21 r1
e2
(2a)
r13 p31 p32 r12 r1
e3
(3a)
r23 p31 r12 p32 r2
e3 :
13:79
Nimmt man ferner an, dass die Residuen mit den determinierenden Variablen zu Null korrelieren
r1
e2 r1
e3 r2
e3 0, erhålt man die 3 folgenden Gleichungen mit 3 unbekannten Pfadkoeffizienten: (1b)
r12 p21
(2b)
r13 p31 p32 r12
(3b)
r23 p31 r12 p32 :
13:80
13:81
Unter Verweis auf Gl. (13.15) erkennt man, dass die Pfadkoeffizienten p31 und p32 den standardisierten b-Gewichten einer Regressionsgleichung mit 2 Prådiktorvariablen entsprechen. Bei nur einer Prådiktorvariablen ist dies die bivariate Korrelation. Wird eine Variable durch k Variablen direkt determiniert, erhålt man als Pfadkoeffizienten die entsprechenden b-Gewichte der k Variablen. In unserem Beispiel kann z3 durch z1 sowohl direkt als auch indirekt (çber z2 vermittelt) beeinflusst werden. Der direkte Einfluss ergibt sich zu p31 r13 . Den indirekten Einfluss erhalten wir, wenn die Pfadkoeffizienten des indirekten Pfades miteinander multipliziert werden
p21 p32 ). Addieren wir den direkten und indirekten Einfluss von z1 auf z3 , resultiert die Korrelation r13 : r13 p31 p21 p32 r13 r23 r12 r23 r13 r12 r12 2 1 r12 1 r212 r13 :
Eine Korrelation låsst sich kausalanalytisch additiv in einen direkten und indirekten Effekt zerlegen, wobei der direkte Effekt dem Pfadkoeffizienten des direkten Pfades und der indirekte Effekt dem Produkt der Pfadkoeffizienten des indirekten Pfades entspricht.
Rekursive Systeme. Indirekte Effekte sind ein Bestandteil sog. rekursiver Systeme, in denen nur einseitig gerichtete kausale Wirkungen angenommen werden und in denen die Variablen bezçglich ihrer kausalen Prioritåt hierarchisch angeordnet werden kænnen. Abbildung 13.2 gibt ein Beispiel. Die Modellgleichungen fçr dieses Pfaddiagramm lauten: z2 p21 z1 e2 ;
Werden diese 3 Gleichungen nach den Pfadkoeffizienten aufgelæst, resultieren: p21 r12 ; r13 r23 r12 ; p31 1 r212 r23 r13 r12 : p32 1 r212
13
475
Lineare Strukturgleichungsmodelle
z3 p31 z1 p32 z2 e3 ; z4 p41 z1 p42 z2 p43 z3 e4 :
13:83
Die Variable z4 ist hier also eindeutig die zu erklårende Variable, von der keine kausale Wirkung ausgeht. z1 hingegen ist die Variable mit der hæchstens kausalen Prioritåt, weil såmtliche Variablen durch diese Variable beeinflusst werden. Neben einem direkten Pfad fçhren 3 indirekte Pfade von z1 nach z4 : z1 ! z2 ! z4 ; z1 ! z3 ! z4 und z1 ! z2 ! z3 ! z4 . Jede indirekte Wirkung ergibt sich als Produkt der Pfadkoeffizienten aus dem jeweiligen indirekten Pfad. Als Summe der indirekten Effekte und des direkten Effektes erhålt man r14 . e1
z1
z3
z4
e3
e4
z2
13:82 e2
Abb. 13.2. Beispiel fçr ein rekursives System
476
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
Latente Variablen
13
Unsere bisherigen Ûberlegungen gingen davon aus, dass alle in einem Kausalmodell erfassten Variablen direkt beobachtbar seien. Eine Besonderheit des LISREL-Ansatzes besteht nun darin, dass neben den direkt beobachtbaren Variablen auch latente Variablen geprçft werden, die nur çber indirekte Indikatoren zu erfassen sind (z. B. Fragebogenitems als Indikatoren fçr die latente Variable ¹politische Orientierungª). Eine beobachtbare Variable x ist dann in zwei Anteile dekomponierbar: ein Anteil, der durch das Konstrukt determiniert wird, das dieser Variablen zugrunde liegt, und ein weiterer Anteil, der auf Messfehler oder andere Konstrukte zurçckzufçhren ist. Bezogen auf die latenten Variablen werden endogene Variablen
g, lies: eta) und exogene Variablen
n, lies: ksi) unterschieden. Die endogenen Variablen sollen im Modell erklårt werden und entsprechen damit den Kriteriumsvariablen. Die exogenen oder Prådiktorvariablen dienen zur Erklårung der endogenen Variablen. Die Zuordnung der beobachtbaren x-Variablen zu der ihnen zugrunde liegenden exogenen latenten Variablen n erfolgt im sog. Messmodell der exogenen Variablen (vgl. Abb. 13.3; latente Variablen befinden sich in einem Kreis). In diesem Beispiel liegt die exogene Variable n1 (z. B. politische Orientierung) den zwei direkt beobachtbaren Indikatorvariablen x1 und x2 zugrunde (z. B. zwei Fragebogenitems). Die latente Variable beeinflusst die beobachtbaren Variablen, wobei die Stårke der Beeinflussung durch die Pfadkoeffizienten k11 und k21 (lies: lambda) symbolisiert ist. Die Messfehleranteile (Residualvariablen) von x1 und x2 heiûen hier d1 und d2 (lies: delta). In Gleichungsform erhålt man fçr das Messmodell in Abb. 13.3:
Die Pfeilrichtungen in Abb. 13.3 deuten an, dass die beiden beobachtbaren Variablen durch die latente Variable bestimmt sind, d. h., eine Korrelation zwischen x1 und x2 wåre auf n1 zurçckzufçhren. Die Pfadkoeffizienten k11 und k21 sind auch hier als Korrelationen zu interpretieren
k11 rn1 x1 ; k21 rn1 x2 . Im Kap. 15 (Faktorenanalyse) werden wir zeigen, dass diese Korrelationen wie sog. Faktorladungen zu interpretieren sind, wobei die latenten Merkmale Faktoren im Sinn der Faktorenanalyse sind. Vorerst gehen wir davon aus, dass diese Korrelationen unbekannt sind. In komplexeren Modellen kænnen auch mehrere exogene Variablen
ni vorkommen, die jeweils eigenen Indikatorvariablen zugrundeliegen. Diese exogenen Variablen kænnen voneinander unabhångig oder auch korreliert sein. Abbildung 13.4 zeigt das Messmodell fçr zwei latente endogene Variablen. Es wird angenommen, dass die erste latente endogene Variable g1 (z. B. Erziehungsstil) auf drei beobachtbare Variablen y1 , y2 und y3 Einfluss nimmt (z. B. Fragebogenitems zur Håufigkeit des Tadelns, zur gewåhrten Freizeit und zur Betreuungszeit fçr Hausaufgaben) und die zweite latente endogene Variable g2 (z. B. Umweltbewusstsein) auf zwei beobachtbare Merkmale (z. B. Fragebogenitems zur Nutzung von Glascontainern und zum Erwerb von Bioprodukten). Die Bedeutung der latenten endogenen Variablen gi fçr die beobachteten Variablen wird wiederum durch kij -Koeffizienten beschrieben, die auch hier den Faktorladungen entsprechen (Korrelationen zwischen yj und gi . Diese Faktorladungen sind als Ergebnisse einer konfirmativen Faktorenanalyse zu verstehen (vgl. S. 560 f.).
x1 k11 n1 d1 ;
λ 11
x2 k21 n1 d2 :
13:84
η1
λ 12 λ1
y1
ε1
y2
ε2
y3
ε3
y4
ε4
y5
ε5
3
δ1
x1
λ1
1
ξ1 δ2
x2
λ 21
Abb. 13.3. Messmodell einer latenten exogenen Variablen
η2
λ 24 λ25
Abb. 13.4. Messmodell fçr zwei latente endogene Variablen
a13.3
477
Lineare Strukturgleichungsmodelle
ξ1
γ1 γ2
η1
ζ1
η2
ζ2
Abb. 13.5. Strukturmodell fçr eine exogene und zwei endogene Variablen
Die Strukturgleichungen seien hier exemplarisch nur fçr Variable y1 verdeutlicht: y1 k11 g1 e1 :
13:85
Im Messmodell fçr latente endogene Variablen werden die Messfehleranteile der beobachteten Variablen yi mit ei gekennzeichnet. Die Verknçpfung der latenten Merkmale erfolgt in einem sog. Strukturmodell (vgl. Abb. 13.5). Hier wird also angenommen, dass die latente exogene Variable ¹politische Orientierungª
n1 sowohl die latente endogene Variable ¹Erziehungsstilª
g1 als auch die latente endogene Variable ¹Umweltbewusstseinª
g2 kausal beeinflusst, wobei c1 und c2 (lies: gamma) die Stårke der Beeinflussung symbolisieren. Zudem werden zwei Residualvariablen f1 und f2 (lies: zeta) definiert, die ebenfalls auf g1 und g2 einwirken. Werden die beiden Messmodelle mit dem Strukturmodell verknçpft, resultiert ein Pfaddiagramm fçr ein vollståndiges LISREL-Modell. Welche Schritte zur Ûberprçfung eines LISREL-Modells erforderlich sind, sei im Folgenden an einem einfachen Beispiel (in Anlehnung an Backhaus et al. 1987) verdeutlicht. BEISPIEL Anlåsslich einer Erdbebenkatastrophe wird die Bevælkerung zu aktiver Hilfe fçr die Not leidenden Menschen in Form von Spenden aufgerufen. Es soll çberprçft werden, ob die latente exogene Variable ¹Einstellung gegençber Notleidendenª die latente endogene Variable ¹Hilfeverhaltenª kausal beeinflusst. Die exogene Variable wird durch zwei Items
(Ratingskalen vom ¹trifft zu . . ., trifft nicht zuª-Typ) operationalisiert: · Unverschuldet in Not geratenen Menschen sollte man helfen. · Wahre Nåchstenliebe zeigt sich erst, wenn man bereit ist, mit anderen zu teilen. Die endogene Variable wird durch den tatsåchlichen gespendeten Betrag gemessen. Hypothesen. Die folgenden a priori formulierten Hypothesen sind zu çberprçfen: · Die Einstellung gegençber Notleidenden bestimmt das Hilfeverhalten der Menschen: Je positiver die Einstellung, desto ausgeprågter das Hilfeverhalten. · Eine positive Einstellung gegençber Notleidenden bedingt hohe Zustimmungswerte fçr die beiden Items. · Das Hilfeverhalten wird durch die gespendeten Betråge eindeutig und messfehlerfrei erfasst. Pfaddiagramm. Abbildung 13.6 fasst diese Hypothesen in einem Pfaddiagramm zusammen. Die in Klammern genannten Vorzeichen kennzeichnen, welche Vorzeichen fçr die Pfadkoeffizienten hypothetisch erwartet werden. Entsprechend der Annahme, dass Hilfeverhalten die Hæhe der Spenden eindeutig determiniert, wurde k3 1 gesetzt. Allgemein unterscheidet man bei einem LISREL-Modell drei Arten von Parametern: · Feste Parameter: Hier wird der Wert eines Parameters a priori numerisch festgelegt (im Beispiel ist dies k3 1). Falls zwischen zwei Variablen keine kausale Beziehung erwartet wird, setzt man den entsprechenden Parameter Null. Die Festlegung eines anderen Wertes als Null oder Eins ist zwar mæglich, setzt allerdings sehr pråzise Vorstellungen çber die Stårke des erwarteten Kausalzusammenhangs voraus. Feste Parameter werden nicht geschåtzt, sondern gehen mit ihrem jeweiligen Wert in die Bestimmung der nicht fixierten Parameter ein. · Restringierte Parameter: Ein Parameter, dessen Wert dem Wert eines anderen Parameters entsprechen soll, heiût restringiert. Man verwendet restringierte Parameter, wenn davon auszugehen ist, dass sich zwei oder mehr Variablen nicht in ihrer Kausalwirkung unterscheiden oder dass die Messfehleranteile gleich groû sind. Da von den gemeinsam restringierten Parametern nur einer zu schåtzen ist, kann durch restringierte Parameter die Anzahl der zu schåtzenden Parameter verringert werden.
ζ1 δ1
δ2
Item 1 (x1) Item 2 (x2)
(+)
λ1
λ2 (+)
Einstellung (ξ1)
Abb. 13.6. Pfaddiagramm des Beispiels
(+) γ
Hilfe verhalten (η1)
λ3 = 1
Spenden betrag (y1)
0
ε1
13
478
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
wenn man
Spezifizierung der Modellgleichungen. Aus Abb. 13.6 ergeben sich die folgenden Modellgleichungen:
13:87
Fçr die Korrelationen der beobachteten Variablen mit sich selbst erhålt man çber die Modellgleichungen (2) bis (4) 1X 2 x k21 d21 ;
13:94 rx1 x1 n m 1m 1X 2 rx2 x2 x k22 d22 ;
13:95 n m 2m 1X 2 ry 1 y 1 y k23 e21 :
13:96 n m 1m
13:88
Zusammenfassend resultieren also 6 Bestimmungsgleichungen fçr die Schåtzung der unbekannten Parameter:
Strukturmodell:
1 g1m c n1m f1m
13:86
Messmodell der latenten exogenen Variablen:
2 x1m k1 n1m d1m
3 x2m k2 n1m d2m Messmodell der latenten endogenen Variablen:
4 y1m k3 g1m e1m
13
1X 2 1X n 1 und n f 0 setzt. n m 1m n m 1m 1m
· Freie Parameter: Parameter, die aus den empirisch ermittelten Korrelationen (Kovarianzen) zu schåtzen sind, heiûen freie Parameter. Das Ergebnis dieser Schåtzungen entscheidet çber die Richtigkeit der im Modell angenommenen spezifischen Kausalhypothesen. (Im Beispiel zåhlen k1 ; k2 und c zu den freien Parametern.)
Læsbarkeit der Modellgleichungen. Mit diesem Schritt ist die Frage zu prçfen, ob die empirischen Informationen ausreichen, um die unbekannten Parameter der o. g. Modellgleichungen schåtzen zu kænnen. Die empirischen Informationen sind die Varianzen bzw. Kovarianzen der beobachteten Variablen x1 ; x2 und y1 , die wir hier vereinfachend als Korrelationen nutzen. Gehen wir davon aus, dass alle Variablen z-standardisiert sind, erhålt man die Korrelation rx1 x2 gemåû Modellgleichung (2) und (3): 1 X rx1 x2 z1m z2m n m 1 X
k1 n1m d1m
k2 n1m d2m n m P P k1 k2 n21m k1 n1m d2m m m P n P n d1m k2 n1m d1m d2m m m :
13:89 n n Jedem der vier Quotienten entspricht eine Korrelation. Nehmen wir an, dass die Residualvariablen d1 und d2 wechselseitig und mit n1 unkorreliert sind, erhålt man fçr die letzten drei Quotienten den Wert Null. Im ersten Quotienten ist die Korrelation von n1 mit sich selbst enthalten, die wir 1 setzen. Es resultiert also rx1 x2 k1 k2 1 0 0 0 ; k1 k2 :
13:90
Nach dem gleichen Verfahren erhålt man rx1 y1 k1 k3 rg1 n1 ; rx2 y1 k2 k3 rg1 n1 :
13:91
Die Korrelation zwischen den beiden latenten Variablen
rg1 n1 ) entspricht dem Pfadkoeffizienten c zwischen diesen Variablen. Man erweitert hierfçr die erste Modellgleichung 1X g n rg1 n1 c, durch den Faktor n1m und erhålt n m 1m 1m
Damit ergibt sich rx1 y1 k1 k3 c ;
13:92
rx2 y1 k2 k3 c :
13:93
rx1 x2 k1 k2 ; rx1 y1 k1 k3 c ; rx2 y1 k2 k3 c ; rx1 x1 k21 d21 ; rx2 x2 k22 d22 ; ry1 y1 k23 e21 :
13:97
Die empirische Kovarianz- bzw. in diesem Beispiel Korrelationsmatrix
x1 x2 y1
x1
x2
y1
1,0
rx1 x2 1,0
rx1 y1 rx2 y1 1,0
soll nun durch die im Modell implizierte Parametermatrix
x1 x2 y1
x1
x2
y1
k21 d21
k1 k2
k1 k3 c
k22
k2 k3 c
d22
k23 e21
rekonstruiert werden. Dies bedeutet, dass die jeweiligen Parameter so geschåtzt werden, dass die empirische Ausgangsmatrix mæglichst gut reproduziert wird. Das Gleichungssystem (13.97) mit 6 Gleichungen enthålt 7 Unbekannte
k1 , k2 , k3 , c, d1 , d2 , e1 und ist damit nicht læsbar. Da wir jedoch angenommen hatten, dass die Spendenbetråge
y1 fehlerfrei erfassbar sind, setzen wir e1 0 und erhalten ein læsbares Gleichungssystem mit 6 Gleichungen und 6 Unbekannten. Die Ûberprçfung der Læsbarkeit der Modellgleichungen kommt also zu dem Ergebnis, dass alle Modellparameter mit Hilfe der empirischen Korrelationen eindeutig bestimmt werden kænnen. Wir sagen: Das Modell ist genau identifiziert.
a13.3
Ûberidentifizierte Modelle. In unserem Beispiel wurden nur 3 Indikatorvariablen
x1 ; x2 ; y1 erhoben mit der Folge, dass genau 6 empirische Korrelationen zur Schåtzung von 6 unbekannten Parametern zur Verfçgung stehen. Im Regelfall wird man erheblich mehr Indikatorvariablen erheben, sodass die Anzahl der bekannten Korrelationen [sie ergibt sich bei k Indikatorvariablen zu k
k 1=2] deutlich græûer ist als die Anzahl der zu schåtzenden Parameter, zumal wenn einige Parameter zuvor fixiert oder restringiert wurden. In diesem Fall wåre das LISREL-Modell çberidentifiziert. (Dass die Anzahl der zu schåtzenden Parameter hæchstens so groû ist wie die Anzahl der Elemente oder ¹Datenpunkteª der empirischen Ausgangsmatrix, stellt fçr die Identifizierbarkeit der Parameter nur eine notwendige, aber keine hinreichende Bedingung dar. Eine ausfçhrliche Behandlung der Verfahren zur Ermittlung der Identifizierbarkeit der einzelnen Parameter wçrde jedoch den Rahmen dieser Darstellung sprengen.) Bei ¹çberidentifiziertenª Modellen beginnt die LISREL-Routine mit der Festsetzung von ersten Nåherungswerten fçr die unbekannten Parameter, die iterativ so lange veråndert werden, bis die aus den geschåtzten Parametern rçckgerechneten Korrelationen (bzw. Varianzen und Kovarianzen) den empirisch ermittelten Korrelationen (Varianzen und Kovarianzen) mæglichst gut entsprechen (Maximum-likelihood-Schåtzung). Die Gçte der Ûbereinstimmung (¹goodness of fitª) wird mit einem Modelltest geprçft (s. unten). Bei einem genau identifizierten Modell erçbrigt sich dieser Modelltest, da die aus den geschåtzten Parametern rçckgerechneten Korrelationen natçrlich den empirischen Korrelationen exakt entsprechen. Die Durchfçhrung eines Modelltests setzt also voraus, dass die Anzahl der bekannten ¹Datenpunkteª
s græûer ist als die Anzahl der zu schåtzenden Modellparameter
t. Die Differenz s t ergibt die Anzahl der Freiheitsgrade
df des Modelltests. Parameterschåtzung. Nachdem sichergestellt ist, dass alle Parameter geschåtzt werden kænnen, kann die Datenerhebung beginnen. In unserem Beispiel werden die 3 Variablen x1 , x2 und y1 an einer Stichprobe von n Personen erhoben. Die Korrelationen zwischen den Variablen mægen sich wie folgt ergeben haben: rx1 x2 0;54;
13
479
Lineare Strukturgleichungsmodelle
rx1 y1 0;72 und rx2 y1 0;48. Es ist damit das folgende Gleichungssystem zu læsen: k1 k2 0;54; k1 k3 c 0;72; k2 k3 c 0;48; k21 d21 1; k22 d22 1; k23 1 :
13:98
Als Læsungen erhålt man: k1 0;9; k3 1; d21
0;19;
k2 0;6; c 0;8; d22 0;64 :
Modelltest. Globale, d. h. auf das gesamte Modell bezogene Tests laufen im Prinzip auf einen Vergleich der empirischen Korrelationen (Datenpunkte) mit den aus den Parameterschåtzungen reproduzierten Korrelationen hinaus (vgl. hierzu die unten aufgefçhrte Literatur). Der hierbei håufig eingesetzte v2 -Test ist ein approximativer Anpassungstest, der die Gçte der Ûbereinstimmung der beobachteten und reproduzierten Datenpunkte çberprçft. Ist ± wie im vorliegenden Beispiel ± das Modell genau identifiziert, resultiert ein v2 -Wert von Null, der das triviale Ergebnis einer perfekten Ûbereinstimmung signalisiert. Bei çberidentifizierten Modellen çberprçft dieser v2-Test die H0 : Die empirischen Korrelationen entsprechen den aus den Modellparametern reproduzierten Korrelationen. Die H0 ist hier also gewissermaûen die ¹Wunschhypotheseª, d. h., die Beibehaltung der H0 wåre mit einer mæglichst kleinen b-Fehlerwahrscheinlichkeit abzusichern. Diese kann jedoch nicht berechnet werden, da die Alternativhypothese (die eine Struktur der reproduzierten Korrelationen vorzugeben håtte) unspezifisch ist. Der Test kann deshalb nur darauf hinauslaufen, die H0 bei einem ¹gençgendª kleinen v2 -Wert (und einer entsprechend hohen ¹Irrtumswahrscheinlichkeitª) als beståtigt anzusehen (was jedoch keineswegs ausschlieûen wçrde, dass andere Modelle die Datenpunkte genauso gut oder gar besser reproduzieren). Behelfsweise kænnte man ± wie auf S. 165 beschrieben ± mit a 0;25 testen und das geprçfte Modell akzeptieren, wenn die
480
13
Kapitel 13 ´ Partialkorrelation und multiple Korrelation
H0 bei diesem a-Fehlerniveau nicht verworfen werden kann. Natçrlich ist auch bei diesem Test das Ergebnis von der Græûe der Stichprobe abhångig. Mit wachsendem Stichprobenumfang erhæht sich die Wahrscheinlichkeit, dass die H0 verworfen wird, d. h., die Chancen, ein Kausalmodell zu beståtigen, sind bei kleinen Stichproben græûer als bei groûen Stichproben! Weitere Ûberlegungen zu dieser Problematik findet man z. B. bei LaDu u. Tanaka (1995). Hier werden auch ¹Fit Indicesª vorgestellt (und via Monte-Carlo-Studien miteinander verglichen), die von nicht-zentralen v2 -Verteilungen ausgehen. Einen Ûberblick zum Thema ¹Prçfung der Modellgçteª findet man z. B. bei Loehlin (1992). Nach Timm (2002, S. 544) werden in der Literatur mehr als 30 verschiedene Fit-Indices vorgeschlagen. Weitere Informationen findet man bei Browne und Arminger (1995).
stellungª als verursachende Variable fçr x1 und x2 vermutet wurde. Dass diese Annahme richtig war, zeigt die Partialkorrelation rx1 x2 n1 , fçr die sich der Wert Null ergibt. (Man erhålt fçr den Zåhler von Gl. 13.5 rxy k1 k2 0;54 0;9 0;6 0.) Die Interpretation eines LISREL-Ergebnisses wird erschwert, wenn insgesamt ein Modell mit gutem ¹fitª gefunden wurde, die Schåtzung der freien Parameter jedoch zu einem nicht signifikanten Resultat fçhrte oder sogar zu einem Resultat, das wegen falscher Vorzeichen der Parameter den eingangs aufgestellten Hypothesen widerspricht. In diesem Fall sollte das ursprçngliche Kausalmodell verworfen werden. Ein anderes, mit den Daten çbereinstimmendes Modell wåre dann als Hypothese in einer weiteren LISREL-Studie (mit neuen Daten!) zu beståtigen.
Interpretation. Die Vorzeichen der Pfadkoeffizienten k1 ; k2 und c beståtigen unsere eingangs formulierten Hypothesen: Eine positive Einstellung gegençber Notleidenden bewirkt eine Zustimmung zu den Items x1 und x2 . Auûerdem verstårkt eine positive Einstellung das Hilfeverhalten. Die Einstellung hat auf das Hilfeverhalten einen direkten Effekt von 0,8. Da nicht davon ausgegangen wurde, dass die Einstellung
n1 und das Hilfeverhalten
g1 durch weitere Variablen beeinflusst sind, entspricht der Pfadkoeffizient c der Korrelation rn1 g1 , d. h. 64% des latenten Merkmals ¹Hilfeverhaltenª sind durch die Einstellung erklårbar. Die restlichen 36% bilden die Varianz des Hilfeverhaltens, die nicht kausal erklårt werden kann
f1 . Da der Parameter k3 mit k3 1 fixiert wurde, entspricht der indirekte Effekt der Einstellung auf die Hæhe der Spendenbetråge dem direkten Effekt der Einstellung auf das Hilfeverhalten
c k3 0;8. Im Messmodell der latenten exogenen Variablen finden wir einen hervorragenden Indikator
x1 mit k1 0;9 und einen mittelmåûigen Indikator
x2 mit k2 0;6. Die Beantwortung von Item 1 wird also zu 81% und die Beantwortung von Item 2 nur zu 36% durch die Einstellung beeinflusst. Dementsprechend sind 64% der Varianz von x2 kausal nicht erklårt
d22 0;64. Die Korrelation rx1 x2 0;54 wird kausal nicht interpretiert, da nur die exogene Variable ¹Ein-
Das Arbeiten mit dem LISREL-Ansatz macht es erforderlich, sich vor Untersuchungsbeginn sehr genau zu çberlegen, zwischen welchen Variablen kausale Beziehungen oder kausale Wirkungsketten bestehen kænnten. Dies ist ein deutlicher Vorteil gegençber der multiplen Regressionsrechnung, deren Einsatz derartige Ûberlegungen nicht erfordert. Zudem ist diese Methode sehr hilfreich, wenn es ¹nurª darum geht, durch Ausprobieren verschiedene kausale Wirkungsgefçge zu explorieren. Der LISREL-Ansatz gestattet es jedoch nicht, Kausalitåt nachzuweisen oder gar zu ¹beweisenª. Dies geht zum einen daraus hervor, dass sich ± wie bei der Pfadanalyse ± immer mehrere, håufig sehr unterschiedliche Kausalmodelle finden lassen, die mit ein und demselben Satz empirischer Korrelationen im Einklang stehen (vgl. hierzu z. B. MacCallum, 1995 oder MacCallum et al., 1993). Zum anderen sind die Modelltests so geartet, dass lediglich gezeigt werden kann, dass ein geprçftes Modell nicht mit der Realitåt çbereinstimmt, dass es also falsifiziert werden muss. In diesem Sinne sind auch die Pfadkoeffizienten zu interpretieren: Sie geben die relative Stårke von Kausaleffekten an, wenn das Kausalmodell zutrifft. Ûber das Zutreffen der in einem Kausalmodell zusammengefassten Annahmen kann jedoch letztlich nur mit Mitteln der Logik entschieden werden. In diesem Sinn sind långsschnittliche Untersuchungen, in
Zusammenfassende Bemerkungen
481
aÛbungsaufgaben denen die zeitliche Abfolge von Ereignissen die Richtung mæglicher Kausalwirkungen vorgibt, besonders prådestiniert fçr LISREL-Auswertungen.
Hinweise. Weiterfçhrende Hinweise zu diesem Verfahren, dessen aufwendige Mathematik hier nur angedeutet werden konnte, findet man z. B. bei Bollen u. Long (1993), Byrne (1994), Duncan (1975), Hayduck (1989), Pfeifer u. Schmidt (1987), Rietz et al. (1996), Long (1983 a, b), James et al. (1982), Kelloway (1998) sowie Jæreskog (1982). Zur Vertiefung dieser Thematik seien die Arbeiten von Kaplan (2000), Pearl (2000), Marcoulides u. Schumacker (1996), Mæbus u. Schneider (1986), Andres (1990) und Rudinger et al. (1990) genannt. Einen kritischen Ûberblick zur Literatur çber Strukturgleichungsmodelle (SEM) findet man bei Steiger (2001). Regeln, mit denen man alternative Kausalmodelle aufstellen kann, die såmtlich durch eine empirisch ermittelte Korrelations- bzw. Kovarianzstruktur beståtigt werden, findet man bei Stelzl (1986). Weitere Hinweise zur korrekten Anwendung und Interpretation von LISREL nennt Breckler (1990). Erwåhnt sei ferner eine kritische Arbeit von Sobel (1990). ÛBUNGSAUFGABEN 1. Erlåutern Sie anhand von Beispielen die Unterschiede zwischen einer bivariaten Produktmomentkorrelation, einer Partialkorrelation und einer multiplen Korrelation. 2. In welcher Weise låsst sich eine Partialkorrelation als eine bivariate Produktmomentkorrelation darstellen? (Welche Werte mçssen korreliert werden?) 3. In welcher Weise låsst sich eine multiple Korrelation als eine bivariate Produktmomentkorrelation darstellen? (Welche Werte mçssen korreliert werden?) 4. In einer Untersuchung mæge sich bei n 40 Schçlern zwischen den Leistungen im Fach Deutsch
x und den Leistungen im Fach Mathematik
y eine Korrelation von rxy 0;71 ergeben haben. Wie lautet die Korrelation, wenn der Einfluss der Intelligenz
z aus beiden Schulleistungen herauspartialisiert wird
rxz 0;88, ryz 0;73)? Ûberprçfen Sie die Partialkorrelation auf Signifikanz.
5. Welche Voraussetzungen mçssen fçr die Signifikanzçberprçfung einer multiplen Korrelation erfçllt sein? 6. Fçr 10 verschiedene Produkte soll çberprçft werden, wie sich der Werbeaufwand und die Preisgestaltung auf die Verkaufszahlen fçr die Produkte auswirken. Die folgenden Werte wurden registriert: Werbeaufwand (in 10 000,± 1) 8 9 4 6 0 2 7 6 3 1
Preis (in 1) 7 3 4 8 7 5 9 2 5 2
Verkaufszahlen (in 1000 Stçck) 24 28 19 17 11 21 18 27 21 22
a) Bestimmen Sie die Korrelation zwischen Werbeaufwand und Verkaufszahlen. b) Bestimmen Sie die Korrelation zwischen Preis und Verkaufszahlen. c) Bestimmen Sie die multiple Korrelation zwischen Werbeaufwand und Preis einerseits und Verkaufszahlen andererseits. d) Wie lautet die multiple Regressionsgleichung zur Vorhersage standardisierter Verkaufszahlen? e) Wie lautet die multiple Regressionsgleichung zur Vorhersage der Verkaufszahlen in Rohwerteform? f) Welche Verkaufszahl wird aufgrund der unter e) berechneten Regressionsgleichung erwartet, wenn der Werbeaufwand durch 4,6 und der Preis durch 5,2 gekennzeichnet sind? g) Ist die multiple Korrelation unter der Annahme, dass die Voraussetzungen fçr eine Signifikanzçberprçfung erfçllt sind, signifikant? 7. Woran kann man eine Suppressorvariable erkennen? 8. Was versteht man unter einer Linearkombination? 9. Nach welchem Kriterium werden in der multiplen Regressionsrechnung Linearkombinationen erstellt? 10. Was versteht man unter Multikollinearitåt? 11. Wie ist die Nçtzlichkeit einer Prådiktorvariablen definiert?
13
483
Kapitel 14 Das allgemeine lineare Modell (ALM)
ÛBERSICHT Indikatorvariablen ± Dummycodierung ± Effektcodierung ± Kontrastcodierung ± t-Test fçr unabhångige Stichproben ± einfaktorielle Varianzanalyse ± zwei- und mehrfaktorielle Varianzanalysen mit gleichen und ungleich groûen Stichprobenumfången ± Kovarianzanalyse ± hierarchische Varianzanalyse ± lateinisches Quadrat ± t-Test fçr abhångige Stichproben ± ein- und mehrfaktorielle Varianzanalysen mit Messwiederholungen ± Vierfelder-v2 -Test ± k 2v2 -Test ± Mehrebenenanalyse
Fçr die wichtigsten in Teil I und Teil II dieses Buches behandelten elementarstatistischen bzw. varianzanalytischen Verfahren soll im Folgenden ein integrierender Læsungsansatz dargestellt werden, der çblicherweise als das ¹allgemeine lineare Modellª (ALM) bezeichnet wird. Das Kernstçck dieses von Cohen (1968) bzw. Overall u. Spiegel (1969) eingefçhrten Modells ist die multiple Korrelation bzw. die lineare multiple Regression, die wir in den letzten Abschnitten kennengelernt haben. Im ALM wird der Anwendungsbereich der multiplen Korrelationsrechnung in der Weise erweitert, dass in einer Analyse nicht nur intervallskalierte, sondern auch nominalskalierte Merkmale (bzw. beide Merkmalsarten gleichzeitig) berçcksichtigt werden kænnen. Hierfçr ist es allerdings erforderlich, dass die nominalskalierten Merkmale zuvor in einer fçr multiple Korrelationsanalysen geeigneten Form verschlçsselt werden. Das allgemeine lineare Modell integriert die wichtigsten Verfahren der Elementarstatistik, varianzanalytische Verfahren sowie die multiple Korrelations- und Regressionsrechnung.
Mit der Verschlçsselung nominaler Merkmale befassen wir uns unter 14.1. Die sich anschlieûende Behandlung verschiedener statistischer Verfahren
nach dem ALM (14.2) erfordert ± abgesehen von Grundkenntnissen in Elementarstatistik und Varianzanalyse ± lediglich, dass man in der Lage ist, multiple Korrelationen zu berechnen, was allerdings den Einsatz einer EDV-Anlage unumgånglich macht (vgl. hierzu auch Anhang E, SPSS-Beispiele). Im Ûbrigen wird die Notation der vergangenen Kapitel (weitgehend) çbernommen.
14.1 Codierung nominaler Variablen Indikatorvariablen Nehmen wir einmal an, wir interessieren uns fçr den Zusammenhang zwischen dem Geschlecht von Personen
x und ihrer psychischen Belastbarkeit
y. Fçr die Ûberprçfung dieser Zusammenhangshypothese haben wir ± wenn wir die psychische Belastbarkeit auf einer Intervallskala erfassen ± auf S. 224 f. die punktbiseriale Korrelation kennen gelernt. Diese Korrelation entspricht exakt einer Produkt-Moment-Korrelation, wenn das Merkmal Geschlecht in der Weise codiert wird, dass allen månnlichen Personen eine bestimmte Zahl und allen weiblichen Personen einheitlich eine andere Zahl zugeordnet wird. Aus rechentechnischen Grçnden wåhlen wir hierfçr einfachheitshalber die Zahlen 0 und 1: Allen månnlichen Personen wird z. B. die Zahl 0 und allen weiblichen Personen die Zahl 1 zugeordnet. Man erhålt also fçr jede Person der Stichprobe ein Messwertpaar, bestehend aus der Zahl 0 oder 1 fçr das Merkmal Geschlecht und einem y-Wert fçr die psychische Belastbarkeit. Die auf diese Weise kçnstlich erzeugte Variable x bezeichnet man als Indikatorvariable. Eine Indikatorvariable enthålt alle Informationen eines nominalskalierten Merkmals in codierter Form.
14
484
Kapitel 14 ´ Das allgemeine lineare Modell (ALM)
Die zur Erzeugung von Indikatorvariablen am håufigsten eingesetzten Codierungsvarianten sind die Dummycodierung, die Effektcodierung und die Kontrastcodierung.
Dummycodierung. Die Dummycodierung eines k-stufigen nominalen Merkmals wollen wir am Beispiel verschiedener Parteipråferenzen verdeutlichen, die beispielsweise mit der Einstellung zu Asylanten (intervallskaliertes Merkmal y) in Beziehung zu setzen sind. Hierbei verwenden wir das in Tabelle 14.1 a wiedergegebene kleine Zahlenbeispiel. Mit der Indikatorvariablen x1 wird entschieden, ob eine Person die Partei a1 pråferiert oder nicht. Die 4 Personen, deren Einstellungswerte in Tabelle 14.1a unter a1 aufgefçhrt sind, erhalten fçr x1 eine 1 und die çbrigen Personen eine 0. Auf x2 erhalten diejenigen Personen, die Partei a2 pråferieren, eine 1 und die çbrigen eine 0. Der Indikatorvariablen x3 wird fçr Personen, die die Partei a3 pråferieren, eine 1 zugewiesen und den restlichen Personen eine 0 (vgl. Tabelle 14.1 b). Es wåre nun naheliegend, auch fçr die Stufe a4 in åhnlicher Weise eine Indikatorvariable einzurichten. Wie man leicht erkennt, erçbrigt sich diese Indikatorvariable jedoch, denn alle Personen mit unterschiedlichen Parteipråferenzen haben bereits nach 3 Indikatorvariablen ein spezifisches Codierungsmuster:
Partei a1:
1
0
0
Partei a2: Partei a3:
0
1
0
0
0
1
Partei a4:
0
0
0
Aus der Tatsache, dass jemand weder a1 noch a2 noch a3 pråferiert, folgt zwingend, dass a4 pråferiert wird. (Hierbei gehen wir davon aus, dass Personen ohne Parteipråferenzen, mit einer Pråferenz fçr eine nicht aufgefçhrte Partei bzw. mit mehreren Parteipråferenzen in unserem Beispiel nicht untersucht werden.) Drei Indikatorvariablen informieren in unserem Beispiel also vollståndig çber die Parteipråferenzen der untersuchten Personen. Die letzte Spalte in Tabelle 14.1b enthålt die Messungen der abhångigen Variablen y.
Effektcodierung. Die zweite hier behandelte Codierungsart heiût nach Kerlinger u. Pedhazur (1973) Effektcodierung. Hierbei wird denjenigen Personen, die auf allen Indikatorvariablen in der Dummycodierung durchgångig eine 0 erhalten (çblicherweise sind dies die Personen der letzten Merkmalskategorie) eine 1 zugewiesen. Bezogen auf das oben erwåhnte Beispiel resultiert also die in Tabelle 14.2 wiedergegebene Codierung. Auch hier geben die 3 effektcodierten Indikatorvaria-
Tabelle 14.1. Beispiel fçr eine Dummycodierung Pråferierte Partei
14
a) Ursprçngliche Datenmatrix
a1
a2
a3
a4
8 6 6 7
4 2 1 1
7 6 6 4
3 5 5 6
b) Codierte Datenmatrix
x1
x2
x3
y
1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0
8 6 6 7 4 2 1 1 7 6 6 4 3 5 5 6
a14.1
485
Codierung nominaler Variablen
Tabelle 14.2. Beispiel fçr eine Effektcodierung
Tabelle 14.3. Beispiel fçr eine Kontrastcodierung
x1
x2
x3
y
x1
x2
x3
y
1 1 1 1 0 0 0 0 0 0 0 0 1 1 1 1
0 0 0 0 1 1 1 1 0 0 0 0 1 1 1 1
0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
8 6 6 7 4 2 1 1 7 6 6 4 3 5 5 6
1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
1=2 1=2 1=2 1=2 1=2 1=2 1=2 1=2 1=2 1=2 1=2 1=2 1=2 1=2 1=2 1=2
8 6 6 7 4 2 1 1 7 6 6 4 3 5 5 6
blen die Informationen des vierstufigen nominalen Merkmals vollståndig wieder.
Kontrastcodierung. Eine dritte Codierungsart bezeichnen wir als Kontrastcodierung. Fçr diese Codierung werden Regeln benætigt, die wir im Zusammenhang mit der Ûberprçfung a priori geplanter Einzelvergleiche kennengelernt haben (vgl. 7.3). Ein Einzelvergleich D wurde definiert als die gewichtete Summe der Treatmentmittelwerte, wobei P die Gewichte ci der Bedingung ci 0 gençgen i mçssen. Wåhlen wir fçr das Beispiel die Gewichte c1 1, c2 1, c3 0 und c4 0, kontrastiert diese Indikatorvariable x1 Personen mit den Parteipråferenzen a1 und a2 . Sollen mit x2 Personen aus a3 und Personen aus a4 kontrastiert werden, wåren a1 und a2 jeweils mit 0, a3 mit 1 und a4 mit 1 zu codieren. Eine dritte Indikatorvariable x3 kænnte a1 und a2 mit a3 und a4 kontrastieren; hierfçr wåren alle Personen aus a1 und a2 mit 1=2 und alle Personen aus a3 und a4 mit 1=2 zu codieren. Die c-Gewichte, die wir fçr die Konstruktion eines Einzelvergleichs verwenden, konstituieren jeweils eine kontrastcodierende Indikatorvariable. Fçr die 3 erwåhnten Einzelvergleiche erhalten wir so die in Tabelle 14.3 zusammengefasste Codierungsmatrix.
Bei der Kontrastcodierung unterscheiden wir unabhångige (orthogonale) und abhångige Einzelvergleiche. Fçr 2 orthogonale Einzelvergleiche j P und j0 muss neben der Bedingung ci 0 fçr jei
den Einzelvergleich auch die Bedingungen P cij cij0 0 erfçllt sein (vgl. Gl. 7.46). Nach diei
ser Regel sind die von uns gewåhlten Einzelvergleiche paarweise orthogonal zueinander. Ûber eine vierte Codierungsform ± die Trendcodierung ± berichten wir auf S. 491 ausfçhrlicher.
Indikatorvariablen und multiple Regression Nachdem die Informationen eines k-fach gestuften, nominalen Merkmals durch k 1 Indikatorvariablen verschlçsselt wurden, kænnen die Indikatorvariablen als Prådiktoren in eine multiple Regressionsgleichung zur Vorhersage der abhångigen Variablen
y eingesetzt werden. Wie noch zu zeigen sein wird (vgl. S. 490), entspricht das Quadrat der multiplen Korrelation zwischen den Indikatorvariablen und der abhångigen Variablen dem Varianzanteil der abhångigen Variablen, der durch die Kategorien des nominalen Merkmals erklårt wird. Zuvor jedoch wollen wir çberprçfen, warum diese Codierungsvarianten sinnvoll sind bzw. welche Bedeutung den b-Gewichten (wir bezeichnen hier mit b die unter 13.2 durch b0 gekennzeichneten Rohwertgewichte) im Kontext einer multiplen Regression mit Indikatorvariablen zukommt.
14
486
Kapitel 14 ´ Das allgemeine lineare Modell (ALM)
Dummycodierung. Bezogen auf unser Beispiel lautet die (Rohwerte-)Regressionsgleichung: ^ ym b1 x1m b2 x2m b3 x3m a :
14:1
Betrachten wir zunåchst eine Person mit der Parteipråferenz a4 , die in der codierten Datenmatrix (Tabelle 14.1 b) die Codierung x1m 0, x2m 0 und x3m 0 erhalten hat. Setzen wir diese Werte in die Regressionsgleichung ein, erhålt man ^ ym a , d. h., die Konstante a entspricht dem vorhergesagten Wert einer Person aus der Gruppe a4 . Die beste Vorhersage fçr eine Person aus a4 ist jedoch der durchschnittliche, unter a4 erzielte Wert y4 (man beachte hierbei die Ausfçhrungen zum Kriterium der kleinsten Quadrate in Bezug auf das arithmetische Mittel auf S. 98). Wir erhalten also: a y4 : Dieser Ûberlegung folgend mçsste fçr eine Person aus der Gruppe a1 der Wert y1 vorhergesagt werden. Da fçr eine Person m aus a1 x1m 1, x2m 0 und x3m 0 zu setzen sind, resultiert hier b1 y 4 : Man erhålt also fçr b1 : y4 :
Analog hierzu ergeben sich b2 y 2
14
y4
und b3 y 3
y4 :
In einer Regressionsgleichung mit dummycodierten Indikatorvariablen entspricht die Regressionskonstante a der durchschnittlichen Merkmalsausprågung in der durchgångig mit Nullen codierten Gruppe (Referenzgruppe). Ein bi -Gewicht errechnet sich als Differenz der Mittelwerte fçr die Gruppe i und der Referenzgruppe.
Unter Verwendung der Mittelwerte y1 6;75; y2 2;00 ; y3 5;75 und y4 4;75 aus Tabelle 14.1 a resultiert fçr unser Beispiel also folgende Regressionsgleichung: ^ ym 2;00 x1m
y4
b1
b2
b3 a :
Auch fçr die çbrigen Gruppen entspricht die beste Vorhersage dem jeweiligen Gruppenmittelwert. Setzt man die gruppenspezifischen Codierungen in die Regressionsgleichung ein, resultiert also nach Gl. (14.1) y 1 b1 a ; y 2 b2 a ; y 3 b3 a : Wir læsen diese Gleichungen jeweils nach bi auf und setzen dementsprechend in die Gleichung fçr y4 ein. Aufgelæst nach a ergibt sich dann: a y4
y1
a
y2
a
y3
a
bzw. a
y1 y2 y3 y4 =4 G :
^ y m y 1 b1 a
b1 y 1
Effektcodierung. Zu den b-Gewichten von Indikatorvariablen mit Effektcodierung fçhren folgende Ûberlegungen: Fçr die Gruppe a4 muss der vorhergesagte ^y4 -Wert wiederum y4 sein, d. h., wir erhalten mit x1m x2m x3m 1 gemåû Tabelle 14.2 nach Gl. (14.1)
2;75 x2m 1;00 x3m 4;75 :
Die Regressionskonstante a ist also mit dem Gesamtmittelwert fçr die abhångige Variable, fçr den wir aus der varianzanalytischen Terminologie die Bezeichnung G çbernehmen, identisch. Damit erhålt man fçr die b-Gewichte: b1 y 1
G;
b2 y 2
G;
b3 y 3
G:
In einer Regressionsgleichung mit effektcodierten Indikatorvariablen entspricht die Regressionskonstante a dem Gesamtmittelwert der abhångigen Variablen. Ein bi -Gewicht errechnet sich als Differenz des Mittelwertes der Gruppe i und dem Gesamtmittelwert.
Fçr das Beispiel (mit G 4;8125 heiût die Regressionsgleichung also: ^ym 1;9375 x1m
2;8125 x2m
0;9375 x3m 4;8125 : Bei ungleichgroûen Stichproben wird a G als ungewichteter Mittelwert der einzelnen Mittelwerte berechnet.
a14.1
Kontrastcodierung. Die beste Schåtzung fçr einen vorhergesagten Wert ^ ym einer Person aus Gruppe ai ist auch hier wieder der Mittelwert yi . Hierbei unterstellen wir, dass auch die kontrastcodierenden Indikatorvariablen die Informationen des nominalen Merkmals vollståndig abbilden. Dies ist ± wie in unserem Beispiel ± immer der Fall, wenn bei einem k-stufigen Merkmal k 1 Indikatorvariablen eingesetzt werden, die zusammengenommen einen vollståndigen Satz orthogonaler Einzelvergleiche codieren (vgl. S. 266 f.). Unter Verwendung der Codierungen fçr die vier Gruppen in Tabelle 14.3 erhålt man als Regressionsgleichungen çber Gl. (14.1):
bi Di u v=
u v :
b1 b3 =2 a ;
y2
b1 b3 =2 a ;
y3
b2
b3 =2 a ;
k P
y4
b2
b3 =2 a :
j1
Dies sind 4 Gleichungen mit 4 Unbekannten. Als Læsungen fçr die 4 unbekannten Regressionskoeffizienten b1 , b2 , b3 und a resultieren: y2 =2 ; y4 =2 ;
b3
y1 y2 =2
y3 y4 =2 ;
a G: Fçr das Beispiel ermittelt man also folgende Regressionsgleichung: ^ym 2;375 x1m 0;5 x2m 0;875 x3m 4;8125 : Zur Verallgemeinerung dieses Ansatzes verwenden wir die allgemeine Bestimmungsgleichung fçr einen Einzelvergleich bzw. einen Kontrast Di gem. (Gl. 7.41): Di c1i A1 c2i A2 cki Ak : Die 3 in Tabelle 14.3 codierten Einzelvergleiche lauten: D1 y 1 D2 y 3
y2 ; y4 ;
D3
y1 y2 =2
y3 y4 =2 :
Danach ergibt sich: b1 D1 =2; bzw. allgemein
b2 D2 =2;
b3 D 3
14:2
Hierbei bezeichnet u die Anzahl der Gruppen in einer Teilmenge U, die mit den v Gruppen in einer Teilmenge V kontrastiert werden. Die in U zusammengefassten Gruppen werden mit 1=u, die in V zusammengefassten Gruppen mit 1=v und die çbrigen Gruppen mit Null codiert. Im Beispiel (3. Indikatorvariable) gehæren zu U die Gruppen a1 und a2 und zu V die Gruppen a3 und a4 . Damit sind u v 2, d. h. a1 und a2 werden ± wie in Tabelle 14.3 geschehen ± mit 1=2 und a3 und a4 mit 1=2 codiert. Das b-Gewicht einer kontrastcodierenden Indikatorvariablen låsst sich unter Verwendung der c-Koeffizienten nach folgender Gleichung bestimmen:
y1
b1
y1 b2
y3
14
487
Codierung nominaler Variablen
bi
cij
yj n P j1
c2ij
G :
14:3
Angewandt auf unser Beispiel ergeben sich die bereits bekannten Resultate: 4;8125 2
1
2;00 4;8125 2 2;375 ;
b1
1
6;75
4;8125 2
1
4;75 4;8125 2 0;5 ;
b2
1
5;75
1=2
6;75 4;8125 1 1=2
2;00 4;8125 1 1=2
5;75 4;8125 1 1=2
4;75 4;8125 1 0;875 :
b3
488
Kapitel 14 ´ Das allgemeine lineare Modell (ALM)
In einer Regressionsgleichung mit kontrastcodierenden Indikatorvariablen entspricht die Regressionskonstante a dem Gesamtmittelwert der abhångigen Variablen. Das b-Gewicht einer Indikatorvariablen låsst sich als eine Funktion der Kontrastkoeffizienten darstellen, die den jeweiligen Kontrast codieren.
Man beachte, dass bei ungleichgroûen Stichproben eine ggf. erforderliche Zusammenfassung von Mittelwerten ungewichtet vorgenommen wird (vgl. hierzu jedoch S. 268 ff.). Dies gilt in gleicher Weise fçr a G .
Vergleich der Codierungsarten
14
Die Ausfçhrungen zu den drei Codierungsarten sollten deutlich gemacht haben, dass sich die b-Gewichte fçr eine multiple Regressionsgleichung mit Indikatorvariablen relativ einfach aus den Mittelwerten der untersuchten Gruppen bestimmen lassen. Natçrlich erhålt man die gleichen b-Gewichte, wenn man die multiple Regression nach den unter 13.2.1 bzw. 13.2.3 genannten Regeln (Gl. 13.62) ermittelt. Ist man also am Vergleich von Mittelwerten eines k-fach gestuften nominalen Merkmals interessiert, entnimmt man hierfçr den b-Gewichten einer multiplen Regression die folgenden Informationen: · Sind die Prådiktorvariablen dummycodierte Indikatorvariablen, entsprechen die b-Gewichte den Abweichungen der Gruppenmittelwerte vom Mittelwert einer durchgångig mit Nullen codierten Referenzgruppe. Diese Codierungsart ist deshalb z. B. fçr den Vergleich mehrerer Experimentalgruppen mit einer Kontrollgruppe besonders geeignet. · Sind die Indikatorvariablen effektcodiert, informieren die b-Gewichte çber die Abweichungen der Gruppenmittelwerte vom Gesamtmittel. Die b-Gewichte sind damit als Schåtzungen der unter 12.1 definierten Treatmenteffekte
si l li zu interpretieren. Die Effektcodierung ist deshalb die am håufigsten eingesetzte Codierungsvariante fçr varianzanalytische Auswertungen nach dem ALM. · Indikatorvariablen mit Kontrastcodierungen werden verwendet, wenn man die unter 7.3 beschriebenen Einzelvergleichsverfahren çber die multiple Regressionsrechnung realisieren will. Hier låsst sich aus den b-Gewichten relativ ein-
fach die Græûe des Unterschiedes zwischen den auf einer Indikatorvariablen kontrastierten Gruppen rekonstruieren. Unabhångig von der Art der Codierung fçhren alle Regressionsgleichungen, in die såmtliche Informationen des nominalen Merkmals eingehen (sog. vollståndige Modelle), zu vorhergesagten ^ym -Werten, die dem Mittelwert der abhångigen Variablen derjenigen Stichprobe entsprechen, zu der die Person m gehært. Der Mittelwert stellt die beste Schåtzung nach dem Kriterium der kleinsten Quadrate dar. Die Hæhe der multiplen Korrelation ist von der Codierungsart unabhångig.
14.2 Spezialfålle des ALM In diesem Abschnitt soll gezeigt werden, wie die wichtigsten elementarstatistischen und varianzanalytischen Verfahren mit Hilfe des ALM durchgefçhrt werden kænnen. Die praktische Umsetzung dieser Verfahren nach den Rechenregeln des ALM ist denkbar einfach, denn sie ist nur an zwei Bedingungen geknçpft: · Man muss in der Lage sein, fçr beliebige Variablensåtze multiple Korrelationen und Regressionen zu berechnen, was angesichts der Verfçgbarkeit von EDV-Statistikprogrammpaketen unproblematisch sein sollte. · Man muss in der Lage sein, nominale Merkmale durch Indikatorvariablen abzubilden. Auch hierfçr ist die Software der meisten Programmpakete hilfreich. (Bezogen auf das Programmpaket SPSS vgl. hierzu Anhang E, S. 727 ff.) Mit der Umsetzung eines nominalen Merkmals in mehrere Indikatorvariablen wird eine sog. DesignMatrix erstellt, die mit einer angemessenen Codierung die inhaltlichen Hypothesen abbildet. Die Konstruktion von Design-Matrizen ist ein wesentlicher Bestandteil der nachfolgenden Behandlung der einzelnen statistischen Verfahren. Auf die mathematischen Voraussetzungen der Verfahren sowie auf die Herleitung der jeweiligen Prçfstatistiken wird im Folgenden nicht mehr eingegangen, da hierçber bereits in den vorangegangenen Kapiteln berichtet wurde.
a14.2.1
Das gleiche gilt fçr die bereits erwåhnten Angaben zur Konstruktion ¹optimalerª Stichprobenumfånge, die hier nicht wiederholt werden. Ergånzend sei allerdings auf eine Arbeit von Rothstein et al. (1990) hingewiesen, die die Prçfung einer nach dem ALM auszuwertenden Untersuchung in Bezug auf Teststårke und ¹optimaleª Stichprobenumfånge durch die Bereitstellung eines dialogfåhigen Computerprogramms erleichtert. Øhnliche Hilfen bieten neuere Auflagen der meisten Statistik-Programmpakete. Da Auswertungen nach dem ALM auf der multiplen Korrelations- und Regressionsrechnung basieren, erçbrigt sich unter Verweis auf 13.2.3 ein eigenståndiger Beitrag zur Mathematik des ALM. Fçr diejenigen, die das ALM von seiner mathematischen Seite her genauer kennenlernen mæchten, seien z. B. die Arbeiten von Andres (1996), Bock (1975), Cohen u. Cohen (1975), Finn (1974), Gaensslen u. Schubæ (1973), Horton (1978), Jennings (1967), Kerlinger u. Pedhazur (1973), Moosbrugger (1978), Moosbrugger u. Zistler (1994), Neter et al. (1985), Overall u. Klett (1972), Rochel (1983), Timm (2002) sowie Werner (1997) empfohlen. Wir beginnen zunåchst mit der Behandlung von Verfahren, bei denen die Bedeutung einer (oder mehrerer) nominaler Variablen als unabhångige Variable fçr eine intervallskalierte abhångige Variable untersucht wird. Hierzu zåhlen der t-Test sowie die verschiedenen Varianten der Varianzanalyse, wobei zunåchst die Verfahren ohne Messwiederholungen, danach die Verfahren mit Messwiederholungen behandelt werden. Daran anschlieûend wird gezeigt, dass unter das ALM auch Verfahren zu subsumieren sind, bei denen die unabhångige und abhångige Variable nominalskaliert sind. Hierbei handelt es sich um die unter 5.3 behandelten v2 -Techniken (insbesondere Vierfelder-v2 -Quadrattest und k 2-v2 -Test).
14.2.1 t-Test fçr unabhångige Stichproben Der t-Test fçr unabhångige Stichproben prçft die H0: l1 l2 , wobei l1 und l2 Mittelwertparameter der abhångigen Variable y fçr zwei voneinander unabhångige Populationen a1 und a2 sind. Codieren wir die Zugehærigkeit einer Vp zu a1 mit x 1 und die Zugehærigkeit zu a2 mit x 1 (Ef-
14
489
t-Test fçr unabhångige Stichproben
fekt- bzw. Kontrastcodierung), sind die o. g. Unterschiedshypothese und die Hypothese, zwischen x und y bestehe kein Zusammenhang, formal gleichwertig (zum Beweis vgl. Tatsuoka, 1988, Kap. 9.6). BEISPIEL Tabelle 14.4 a zeigt einen kleinen Datensatz fçr einen t-Test und Tabelle 14.4 b dessen Umsetzung in eine Designmatrix mit einer effektcodierenden (bzw. wegen k 2 auch kontrastcodierenden) Indikatorvariablen. Den Mittelwertunterschied der beiden Stichproben in Tabelle 14.4 a çberprçfen wir zu Vergleichszwecken zunåchst mit dem t-Test nach Gl. (5.15). Es resultiert t 2;953 mit df 10: Die Produktmomentkorrelation zwischen den Variablen x und y in Tabelle 14.4 b betrågt r 0;6825. Diese Korrelation ist mit der punktbiserialen Korrelation (vgl. S. 224 f.) identisch. Fçr den Signifikanztest dieser Korrelation ermitteln wir nach Gl. (6.84) folgenden t-Wert: t 2;953 mit df 10 : Die beiden t-Werte und die Freiheitsgrade sind identisch. Die Regressionsgleichung hat gemåû den Ausfçhrungen auf S. 486 bzw. nach Gl. (14.2) die Koeffizienten b 1;25
A1 G und a 4;25
G. Mit einer Dummycodierung fçr die Indikatorvariable x wçrde man b 2;5
A1 A2 und a 3;0
A2 erhalten.
Tabelle 14.4. Codierung eines t-Tests fçr unabhångige Stichproben a)
a1
a2
5 4 8 7 6 3
2 4 3 3 2 4
b)
x
y
1 1 1 1 1 1 1 1 1 1 1 1
5 4 8 7 6 3 2 4 3 3 2 4
490
Kapitel 14 ´ Das allgemeine lineare Modell (ALM)
14.2.2 Einfaktorielle Varianzanalyse In der einfaktoriellen Varianzanalyse wird ein p-fach gestuftes Merkmal als unabhångige Variable mit einer kardinalskalierten abhångigen Variablen in Beziehung gesetzt. Die unabhångige Variable kann nominalskaliert sein oder aus Kategorien eines ordinal- bzw. kardinalskalierten Merkmals bestehen. Die unabhångige Variable wird in p 1 Indikatorvariablen umgesetzt, wobei wir fçr die Ûberprçfung der globalen H0: l1 l2 lp eine Effektcodierung bevorzugen. Die Anzahl der Indikatorvariablen entspricht der Anzahl der Freiheitsgrade der Treatmentvarianz. Das Quadrat der multiplen Korrelation zwischen den p 1 Indikatorvariablen und der abhångigen Variablen entspricht dem Varianzanteil der abhångigen Variablen, der durch die unabhångigen Variablen (d. h. die p 1 Indikatorvariablen) erklårt wird. Der nicht erklårte Varianzanteil
1 R2y;12 ... p 1 entspricht dem Fehlervarianzanteil. Der F-Test der einfaktoriellen Varianzanalyse lautet nach Gl. (7.22): F
2 ^treat QStreat =
p 1 r : 2 ^Fehler QSFehler =
N p r
14:4
In der einfaktoriellen Varianzanalyse wird die totale Quadratsumme additiv in die QStreat und QSFehler zerlegt. Der Quotient QStreat =QStot wurde auf S. 280 als g2 bezeichnet; er kennzeichnet wie R2y;12 ... p 1 den gemeinsamen Varianzanteil zwischen der unabhångigen und der abhångigen Variablen. Es gilt also
14
R2y;12 ... p 1 bzw.
QStreat QStot
QStreat R2y;12 ... p
1
QStot :
Analog hierzu ist QSFehler
1
R2y;12 ... p 1 QStot :
Setzen wir QStreat und QSFehler in Gl. (14.4) ein, erhålt man F
R2y;12 ... p
1
1
1 1 QStot =
p 2 Ry;12 ... p 1 QStot =
N 2 Ry;12 ... p 1
N p : R2y;12 ... p 1
p 1
p
14:5
Dies ist der im ALM eingesetzte F-Test der einfaktoriellen Varianzanalyse. Man erkennt, dass dieser F-Test mit dem auf S. 450 genannten F-Test fçr eine multiple Korrelation (Gl. 13.19) çbereinstimmt (mit k p 1. Die b-Gewichte fçr die Indikatorvariablen errechnet man çber Gl. (13.62), wobei die p 1 Indikatorvariablen fçr die Bestimmung der Regressionskonstanten a durch eine durchgångig mit 1 codierte Indikatorvariable (im Folgenden vereinfacht: Einservariable) zu ergånzen sind. Bei Indikatorvariablen mit Effektcodierung erhålt man bi Ai G und a G (als ungewichteten Mittelwert der p Mittelwerte).
Datenrçckgriff Tabelle 14.5 zeigt die Effektcodierung des auf S. 249 ff. genannten Zahlenbeispiels (Vergleich von 4 Unterrichtsmethoden). Auf die Wiedergabe der fçr die Bestimmung der Regressionskonstanten a erforderlichen Einservariablen wurde verzichtet. Wir errechnen R2y;123 0;70 und nach Gl. (14.5) 0;70 16 12;44 : F
1 0;70 3
Tabelle 14.5. Codierung einer einfaktoriellen Varianzanalyse (Beispiel s. S. 249) x1
x2
x3
y
1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1
0 0 0 0 0 1 1 1 1 1 0 0 0 0 0 1 1 1 1 1
0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
2 1 3 3 1 3 4 3 5 0 6 8 7 6 8 5 5 5 3 2
a14.2.3
Zwei- und mehrfaktorielle Varianzanalyse (gleiche Stichprobenumfånge)
Dieser Wert stimmt bis auf Rundungsungenauigkeiten mit dem auf S. 256 berichteten F-Wert çberein. Als Regressionsgewichte (Rohwertgewichte) fçr Gl. (14.1) ergeben sich b 1 A1
G
2;
b 2 A2
G
1;
b 3 A3
G
3;
4:
aG
Einzelvergleiche und Trendtests Fçr die Ûberprçfung a priori formulierter Hypothesen çber Einzelvergleiche wåhlt man Codierungsvariablen, fçr die Tabelle 14.3 einige Beispiele gibt. Ûber Gl. (13.20) (Signifikanztest der b-Gewichte) ist zu prçfen, welche der in der Designmatrix enthaltenen Einzelvergleiche signifikant sind. Hat man orthogonale Einzelvergleiche bzw. einen vollståndigen Satz orthogonaler Einzelvergleiche codiert (dies ist die hier empfohlene Vorgehensweise, vgl. S. 487), kann der Signifikanztest auch çber die bivariaten Korrelationen zwischen jeweils einer kontrastcodierenden Indikatorvariablen und der abhångigen Variablen erfolgen. Handelt es sich bei der unabhångigen Variablen um eine åquidistant gestufte Intervallskala, kænnen unter Verwendung einer trendcodierenden Designmatrix auch Trendhypothesen getestet werden. Fçr das Beispiel auf S. 267 ff. (Einfluss von 6 åquidistant gestuften Lårmbedingungen auf die Arbeitsleistung) wçrde man mit einer Indikatorvariablen x1 einen linearen Trend çberprçfen, wenn die Vpn unter der Stufe a1 mit 5, unter a2 mit 3 , . . . und unter a6 mit 5 codiert werden. Diese Trendkoeffizienten sind Tabelle I (S. 831) zu entnehmen. Entsprechend ist fçr quadratische, kubische etc. Trends zu verfahren. Werden mit p 1 Indikatorvariablen alle mæglichen p 1 Trends codiert (vollståndiges Trendmodell), erhålt man eine Regressionsgleichung, mit der wiederum gruppenspezifische Mittelwerte vorhergesagt werden. Das Quadrat der multiplen Korrelation entspricht dem auf S. 280 definierten g2 . Ist die unabhångige Variable nicht åquidistant gestuft, verwendet man den auf S. 281 f. beschriebenen Ansatz.
14
491
14.2.3 Zwei- und mehrfaktorielle Varianzanalyse (gleiche Stichprobenumfånge) In der zweifaktoriellen Varianzanalyse fçhren wir die Varianz der abhångigen Variablen auf die beiden Haupteffekte, die Interaktion und einen Fehleranteil zurçck. Im ALM mçssen die beiden Haupteffekte (Haupteffekt A mit p Stufen; Haupteffekt B mit q Stufen) und die Interaktion codiert werden. Die beiden Haupteffekte verschlçsseln wir genauso wie den Haupteffekt in der einfaktoriellen Varianzanalyse, d. h., wir benætigen p 1 Indikatorvariablen fçr den Faktor A und q 1 Indikatorvariablen fçr den Faktor B. Fçr die Interaktion setzen wir
p 1
q 1 Indikatorvariablen ein, die sich aus den Produkten der p 1 Indikatorvariablen fçr den Faktor A und der q 1 Indikatorvariablen fçr den Faktor B ergeben. Warum diese Bestimmung von Indikatorvariablen fçr die Interaktion sinnvoll ist, sei im Folgenden an einem kleinen Beispiel mit Effektcodierung verdeutlicht (zu anderen Codierungsvarianten in mehrfaktoriellen Plånen vgl. O'Grady u. Medoff, 1988).
Indikatorvariablen fçr Interaktionen Tabelle 14.6 zeigt ein kleines Zahlenbeispiel fçr einen 3 2-Plan. In der Designmatrix codieren x1 und x2 Faktor A; x3 Faktor B und x4
x1 x3 sowie x5
x2 x3 die Interaktion A B. Die Regressionsgleichung hat in diesem Beispiel also 5 Indikatorvariablen [allgemein:
p 1
q 1
p 1
q 1 Indikatorvariablen ohne Einservariable]. Soll mit dieser Regressionsgleichung ein ^ym -Wert vorhergesagt werden, entspricht der vorhergesagte Wert in diesem Falle nach dem Kriterium der kleinsten Quadrate dem Mittelwert derjenigen Faktorstufenkombination, zu der die Person gehært
ABij . Die vorhergesagten Werte sind damit auch bei einem zweifaktoriellen Plan bekannt. Die allgemeine Regressionsgleichung lautet: ^ym b1 x1m b2 x2m b3 x3m b4 x4m b5 x5m a :
14:6
Ersetzt man ^ym durch den jeweiligen Mittelwert einer Faktorstufenkombination (Zelle) und die xim -Werte durch die Codierung der Personen, die
492
Kapitel 14 ´ Das allgemeine lineare Modell (ALM)
Tabelle 14.6. Effektcodierung einer zweifaktoriellen Varianzanalyse a)
a1
a2
a3
b1
0 2
2 2
0 1
7
b2
2 0
1 0
0 2
5
4
5
3
12
b)
A x1 1 1 1 1 0 0 0 0 ±1 ±1 ±1 ±1
zu einer Zelle abij gehæren, ergeben sich die folgenden verkçrzten Regressionsgleichungen:
x2
A´B
x3
0 0 0 0 1 1 1 1 ±1 ±1 ±1 ±1
1 1 ±1 ±1 1 1 ±1 ±1 1 1 ±1 ±1
AB12
A1
2 A1
x4 1 1 ±1 ±1 0 0 0 0 ±1 ±1 1 1
x5
AB11
A1
AB11 A1 B1
b4 :
b4 a ;
AB22 b2
b3
b5 a ;
AB31
b1
b2 b3
AB32
b1
b2
b4
b5 a ;
b3 b4 b5 a :
14:7
Dies sind 6 Gleichungen mit 6 Unbekannten. Es ergeben sich die folgenden Læsungen (man beachte, dass z. B. AB11 AB21 AB31 3 B1 ist): b 1 A1
G;
b 2 A2
G;
b3 B 1
G;
b4 AB11
A1
B1 G ;
b5 AB21
A2
B1 G ;
a G:
14:8
Die Gewichte b4 und b5 entsprechen damit den auf S. 294 definierten Interaktionseffekten fçr die Zellen ab11 und ab21 . Weitere b-Gewichte werden nicht benætigt, da sich die çbrigen Interaktionseffekte aus den codierten Interaktionseffekten ableiten lassen. Wir erhalten z. B. fçr den Interaktionseffekt der Zelle ab12
0 2 2 0 2 2 1 0 0 1 0 2
B2 G
AB12 b1
b3
y
0 0 0 0 1 1 ±1 ±1 ±1 ±1 1 1
AB11 b1 b3 b4 a ; AB21 b2 b3 b5 a ;
14
B
2 G
B1 G
G
Die mit einer Faktorstufe verbundenen Interaktionseffekte addieren sich zu Null. Ausgehend von dieser Regel erhålt man mit b4 als Interaktionseffekt fçr die Zelle ab11 und mit b5 als Interaktionseffekt fçr die Zelle ab21 folgende Interaktionseffekte: Zelle ab11:
b4 ;
Zelle ab21: Zelle ab31:
b5 ; b4
b5 ;
Zelle ab12: Zelle ab22:
b4 ;
Zelle ab32:
b4 b5 :
b5 ;
Unter Verwendung der Regressionskoeffizienten b1 bis b5 und a werden fçr jede Zelle abij çber Gl. (14.6) die zellenspezifischen Mittelwerte vorhergesagt, wenn man fçr die Indikatorvariablen x1 bis x5 die entsprechenden Zellencodierungen einsetzt. Die b-Gewichte und die Regressionskonstante a G erhålt man auch çber Gl. (13.62), wenn die Designmatrix um eine Einservariable ergånzt wird (vgl. S. 468).
a14.2.3
F-Brçche
Fregr FZellen
Zur Vereinfachung der Terminologie bezeichnen wir mit xA die Indikatorvariablen, die Haupteffekt A codieren (im Beispiel x1 und x2 ), mit xB die Indikatorvariablen fçr B (im Beispiel x3 ) und mit xAB die Indikatorvariablen der Interaktion (im Beispiel x4 und x5 ). Ry;xA xB xAB ist damit die multiple Korrelation zwischen y und allen Indikatorvariablen. Quadrieren wir diese Korrelation, erhålt man den Varianzanteil der abhångigen Variablen, der durch alle Indikatorvariablen bzw. die beiden Haupteffekte und die Interaktion erklårt wird. Entsprechend den Ausfçhrungen zur einfaktoriellen Varianzanalyse gilt damit: QSregr R2y;xA xB xAB QStot :
14:9
QSregr ist identisch mit der QSZellen auf S. 293. Des Weiteren erhalten wir: QSA R2y;xA QStot ; QSB QSAB
QSFehler
1
FB FAB
1
p q
1
:
Die Theorie dieser F-Brçche ist den Ausfçhrungen zur zweifaktoriellen Varianzanalyse zu entnehmen (vgl. 12.2). BEISPIEL Fçr das in Tabelle 14.6 genannte Beispiel
p 3, q 2, n 2 errechnet man nach Gl. (13.72): R2y;xA xB xAB 0;300 ; R2y;xA 0;050 ; R2y;xB 0;033 und R2y;xAB 0;217 : Wie die Quadratsummen sind auch die quadrierten multiplen Korrelationen additiv:
14:14
0;050 3 2 1 0;21 ;
1 0;3 2 0;033 3 2 1 0;28 ; FB
1 0;3 1 0;217 3 2 1 FAB 0;93 ;
1 0;3 2 0;3 3 2 1 FZellen 0;51 :
1 0;3
3 2 1
Hiervon ausgehend ergeben sich unter Berçcksichtigung der in Tabelle 8.5 genannten Freiheitsgrade die folgenden F-Brçche der zweifaktoriellen Varianzanalyse: R2y;xA xB xAB
p
1
R2y;xA xB xAB
FA
wobei QSregr QSA QSB QSAB :
1
R2y;xA xB xAB p q
n
Fçr die F-Brçche erhålt man:
R2y;xA xB xAB QStot ;
R2y;xA p q
n
R2y;xA xB xAB R2y;xA R2y;xB R2y;xAB :
R2y;xB QStot ; R2y;xAB QStot
und
FA
14
493
Zwei- und mehrfaktorielle Varianzanalyse (gleiche Stichprobenumfånge)
1 1
R2y;xB p q
n 1
1 R2y;xA xB xAB
q 1 R2y;xAB p q
n
1 R2y;xA xB xAB
p 1
;
14:10
;
14:11
1
q
: 1 (14.12)
Will man zusåtzlich erfahren, ob die Effekte insgesamt eine signifikante Varianzaufklårung leisten, bildet man folgenden F-Bruch:
Als Regressionsgleichung ermittelt man nach Gl. (14.8) bzw. Gl. (13.62) ^ ym 0 x1m 0;25 x2m 1;167 x3m
0;167 x4m
0;583 x5m 1 :
Faktoren mit zufålligen Effekten Haben Faktoren zufållige Effekte (vgl. S. 302 f.), åndern sich die Prçfvarianzen und damit auch die F-Brçche. Wenn fçr einen Haupteffekt die Interaktion als Prçfvarianz adåquat ist (^ r2AB ), er2 setzen wir den Nenner
1 Ry;xA xB xAB Fehlervarianzanteil) durch R2y;xAB . Dementsprechend mçssen die Fehlerfreiheitsgrade durch die Freiheitsgrade der Interaktion ersetzt werden.
494
Kapitel 14 ´ Das allgemeine lineare Modell (ALM)
Mehrfaktorielle Plåne Fçr dreifaktorielle Plåne benætigen wir Indikatorvariablen, die neben den Haupteffekten und den Interaktionen 1. Ordnung auch die Interaktion 2. Ordnung codieren. Diese Indikatorvariablen erhalten wir ± åhnlich wie die Indikatorvariablen fçr die Interaktion 1. Ordnung in einer zweifaktoriellen Varianzanalyse ± durch Multiplikation der Indikatorvariablen der an der Interaktion 2. Ordnung beteiligten Haupteffekte. BEISPIEL In einem 2 2 3 -Plan codieren wir mit x1 Haupteffekt A x2 Haupteffekt B o x3 Haupteffekt C x4 x5 x1 x2 x6 x1 x3 x7 x1 x4 x8 x2 x3 x9 x2 x4 x10 x1 x2 x3 x11 x1 x2 x4
o o o
Interaktion A B Interaktion A C Interaktion B C Interaktion A B C
Der F-Bruch fçr die A B C-Interaktion lautet (mit x10 und x11 fçr xABC ): F
R2y;xABC 1
14
R2y;xA xB xC xAB xAC xBC xABC
p
p q r
n 1 : 1
q 1
r 1
Bei Plånen mit mehr als 3 Faktoren verfahren wir entsprechend.
Unvollståndige Modelle Bisher gingen wir davon aus, dass in der Designmatrix fçr einen mehrfaktoriellen Plan alle Haupteffekte und alle Interaktionen codiert werden (vollståndiges Modell). Dies ist nicht erforderlich, wenn z. B. Interaktionen hæherer Ordnung nicht interessieren. Unter Verzicht auf eine Codierung nicht interessierender Effekte erhålt man eine reduzierte Designmatrix bzw. ein unvollståndiges Modell. Fçr Plåne mit gleichgroûen Stichproben ist es fçr die Græûe eines Effektes unerheblich, welche weiteren Effekte im Modell berçcksichtigt sind.
Ûber die Verwendung der schrittweisen Regressionstechnik (vgl. S. 461 f.) fçr die sukzessive Einbeziehung von Indikatorvariablen berichtet Gocka (1973). Man beachte jedoch, dass die Regressionsvorhersagen bei einem unvollståndigen Modell um so stårker vom jeweiligen Zellenmittelwert abweichen, je græûer die nicht berçcksichtigten (Interaktions-)Effekte sind. Es empfiehlt sich deshalb, Regressionsgleichungen aus unvollståndigen Modellen nur dann zur Merkmalsvorhersage zu verwenden, wenn man zuvor sichergestellt hat, dass die nicht berçcksichtigten Effekte ohne Bedeutung sind.
14.2.4 Zwei- und mehrfaktorielle Varianzanalyse (ungleiche Stichprobenumfånge) Korrelierte und unkorrelierte Effekte Tabelle 14.7 a zeigt die effektcodierende Designmatrix eines 2 3-Versuchsplans mit n 2 (gleiche Stichprobenumfånge); x1 codiert die beiden Stufen von Faktor A; x2 und x3 die 3 Stufen von Faktor B; x4 und x5 die 2 3 Faktorstufenkombinationen. Die in der Korrelationsmatrix aufgefçhrten Korrelationen zwischen x1 und x2 sowie zwischen x1 und x3 repråsentieren somit den Zusammenhang zwischen den beiden Haupteffekten. Beide Korrelationen sind Null, d. h., die beiden Haupteffekte sind im Fall gleich groûer Stichproben voneinander unabhångig. Entsprechendes gilt fçr die Korrelationen zwischen den beiden Haupteffekten und der Interaktion. Auch diese Effekte sind wechselseitig unabhångig. Die Korrelationen zwischen x2 und x3 bzw. zwischen x4 und x5 von jeweils 0,50 sind darauf zurçckzufçhren, dass durch x2 und x3 auch die dritte Stufe von Faktor B (durch 1) bzw. durch x4 und x5 auch die Kombinationen ab21 , ab22 , ab23 und ab13 verschlçsselt werden. Sie sind fçr die Unabhångigkeit der Haupteffekte und der Interaktion belanglos. Håtte man statt der Effektcodierung eine orthogonale Kontrastcodierung gewåhlt (vgl. S. 485), wåren auch diese Korrelationen Null. Tabelle 14.7 b gibt die Designmatrix eines 2 3-Plans mit ungleich groûen Stichproben wieder. Hier bestehen zwischen den Indikatorvariablen, die jeweils die Haupteffekte bzw. die Interaktion codieren, Zusammenhånge (z. B. rx1 x2
a14.2.4
495
Zwei- und mehrfaktorielle Varianzanalyse (ungleiche Stichprobenumfånge)
Tabelle 14.7. Beispiel fçr unabhångige und abhångige Effekte a)
A
B
x1
x2
ab11
1 1 1 1 1 1 1 1 1 1 1 1
ab12 ab13 ab21 ab22 ab23
AB x3
1 1 0 0 1 1 1 1 0 0 1 1
x4
0 0 1 1 1 1 0 0 1 1 1 1
x5
1 1 0 0 1 1 1 1 0 0 1 1
0 0 1 1 1 1 0 0 1 1 1 1
Korrelationsmatrix x1
x2
x3
x4
x5
x1 x2 x3 x4 x5
1,00
0,00 1,00
0,00 0,50 1,00
0,00 0,00 0,00 1,00
0,00 0,00 0,00 0,50 1,00
b)
A
B
ab11 ab12 ab13 ab21 ab22
ab23
AB
x1
x2
x3
x4
x5
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 0 0 1 1 1 1 1 0 0 0 0 1 1
0 0 1 1 1 1 0 0 0 1 1 1 1 1 1
1 1 0 0 1 1 1 1 1 0 0 0 0 1 1
0 0 1 1 1 1 0 0 0 1 1 1 1 1 1
x2
x3
x4
x5
Korrelationsmatrix x1 x1 x2 x3 x4 x5
1,00
0;07 1;00
0;14 0;41 1;00
0;07 0;10 0;01 1;00
0;14 0;01 0;18 0;41 1;00
14
496
Kapitel 14 ´ Das allgemeine lineare Modell (ALM)
0;07; rx1 x3 0;14 fçr die beiden Haupteffekte). In diesem Falle kann nicht mehr zweifelsfrei entschieden werden, wie stark die korrelierten, varianzanalytischen Effekte die abhångige Variable beeinflussen, denn durch die Abhångigkeit der Effekte ist der Varianzanteil eines Effektes durch Varianzanteile der korrelierten Effekte çberlagert, sodass Gl. (14.14) nicht mehr gilt. Wir haben es also mit korrelierenden Prådiktoren zu tun, fçr die die Ausfçhrungen çber Multikollinearitåt und Suppressionseffekte (vgl. 13.2.2) analog gelten. In Abgrenzung von Varianzanalysen mit gleichgroûen Stichproben und damit unkorrelierten (orthogonalen) Effekten bezeichnet man zwei- oder mehrfaktorielle Varianzanalysen mit ungleichgroûen Stichproben als nichtorthogonale Varianzanalysen.
Læsungsvarianten Zur Frage, wie die Effektparameter in nicht-orthogonalen Varianzanalysen zu schåtzen seien, wurden verschiedene Læsungsansåtze vorgeschlagen, die leider zu unterschiedlichen Ergebnissen fçhren (vgl. z. B. Herr u. Gaebelein, 1978, Rengers, 2004, Tabelle 7.3-2, oder Rock et al., 1976. Die Abhångigkeit der Læsungsansåtze von der Art der Codierung diskutieren Blair u. Higgins, 1978, sowie Keren u. Lewis, 1977. Auf die Wirkungsweise korrelierter Indikatorvariablen als Suppressorvariablen geht Holling, 1983 ein.)
14
Die Existenz mehrerer Læsungsansåtze verfçhrt natçrlich dazu, ohne inhaltliche Begrçndung denjenigen Læsungsansatz zu wåhlen, der sich am besten eignet, die ¹Wunschhypothesenª zu beståtigen. Howell u. McConaughy (1982) fordern deshalb nachdrçcklich, die inhaltlichen Hypothesen genau zu pråzisieren und die Wahl des Læsungsansatzes von der Art der inhaltlichen Hypothesen abhångig zu machen. Nach einer Analyse verschiedener Læsungsansåtze kommen die Autoren zu dem Schluss, dass eigentlich nur zwei Verfahren inhaltlich sinnvolle Hypothesen prçfen. Wir wollen im Folgenden zunåchst darlegen, um welche Hypothesen es sich hierbei handelt, und werden anschlieûend die Verfahren zur Ûberprçfung dieser Hypothesen beschreiben. Hierfçr verwenden wir das von Howell u. McConaughy (1982) vorgestellte fiktive Zahlenbeispiel. BEISPIEL Eine Untersuchung der Verweildauer (abhångige Variable) von Patienten der Entbindungsstation
a1 und der geriatrischen Station
a2 mæge in 2 Krankenhåusern
b1 und b2 zu den in Tabelle 14.8 genannten Tagesangaben gefçhrt haben. Nehmen wir einmal an, dieses Datenmaterial wurde erhoben, um die Qualitåt der Krankenfçrsorge in beiden Krankenhåusern zu vergleichen. Die Anzahl der Krankenhaustage sei hierfçr ein einfacher operationaler Index. Ein Vergleich der Zellenmittelwerte zeigt, dass Patienten der Entbindungsstation im Krankenhaus b1 ungefåhr genauso lange behandelt werden wie Patienten der gleichen Station im Krankenhaus b2 (ca. 3 Tage). Das gleiche gilt fçr geriatrische Patienten, fçr die sich in beiden Krankenhåusern
Tabelle 14.8. Beispiel fçr einen nicht-orthogonalen 2 2-Plan Krankenhaus b1 Krankenhaus b2 2 Entbindungs- 2 2 2 station (a1 ) 3 3 4 4 4 n12 5 3 n11 10 2 2 AB11 3;0 AB12 2;6 3 3 4 geriatrische 20 22 19 20 23 Station (a2 ) 21 21 20 20 21 4 21 n 21 22 20 AB21 20;5 22 21 21 nb1 14
n22 12 AB22 21;0 nb2 17
na1 15
na2 16
N 31
a14.2.4
eine Aufenthaltsdauer von ca. 20 Tagen ergibt. Der Unterschied in der Krankenfçrsorge beider Krankenhåuser ist offensichtlich nur gering. Dieser Sachverhalt wird durch die ungewichteten Mittelwerte fçr die beiden Krankenhåuser b1 und b2 wiedergegeben. Wir erhalten fçr b1
3;0 20;5=2 11;75 und b2
2;6 21; 0=2 11;80. Das gleiche Zahlenmaterial sei einem Verleiher von Fernsehgeråten bekannt, der herausfinden mæchte, in welchem Krankenhaus das Angebot, Fernsehapparate zu verleihen, lohnender ist. Fçr dessen Fragestellung sind nicht die ungewichteten, sondern die gewichteten Mittelwerte von Interesse. Wenn wir davon ausgehen, dass Patienten mit einer långeren Verweildauer unabhångig von der Krankenstation eher bereit sind, einen Fernsehapparat zu leihen, als Patienten mit einer kçrzeren Verweildauer, wåre Krankenhaus b2 zweifellos der bessere ¹Marktª. Fçr dieses Krankenhaus errechnen wir nach Gl. (1.13) ein gewichtetes Mittel von
5 2;6 12 21; 0=17 15;59, und fçr Krankenhaus b1 ergibt sich
10 3;0 4 20;5=14 8. Dieser Unterschied zwischen den Krankenhåusern verdeutlicht lediglich das Faktum, dass im Krankenhaus b1 Patienten mit einer kurzen Verweildauer (Entbindungsstation) und im Krankenhaus b2 Patienten mit einer langen Verweildauer (geriatrische Station) çberwiegen. Der Unterschied in der Verweildauer auf beiden Stationen (Haupteffekt A) ¹çbertrågtª sich also auf den Unterschied zwischen den Krankenhåusern (Haupteffekt B), d. h., die beiden Haupteffekte sind wechselseitig voneinander abhångig. Dies ist der Sachverhalt, der mit der Bezeichnung ¹nicht-orthogonale Varianzanalyseª zum Ausdruck gebracht wird.
Hypothesen. Die Entscheidung, nach welchem Verfahren eine nicht-orthogonale Varianzanalyse auszuwerten sei, ist davon abhångig, wie die zu çberprçfenden Nullhypothesen lauten. Mit ungewichteten Mittelwerten (Modell I) çberprçfen wir fçr p q 2 die folgenden Nullhypothesen: l l12 l21 l22 ; H0
A: 11 2 2 l l21 l12 l22 H0
B: 11 ; 2 2 H0
AB: l11 l21 l12 l22 : (Die Verallgemeinerung dieser Hypothesen fçr Plåne mit mehr Faktorstufen ist hieraus einfach ableitbar.) Modell II vergleicht gewichtete Mittelwerte. Die entsprechenden Nullhypothesen lauten:
14
497
Zwei- und mehrfaktorielle Varianzanalyse (ungleiche Stichprobenumfånge)
n11 l11 n12 l12 n21 l21 n22 l22 ; na1 na2 n11 l11 n21 l21 n12 l12 n22 l22 ; H0
B : nb1 nb 2 :l l l l H : H0
A
0
AB
11
21
12
22
mit na1 n11 n12 ; na2 n21 n22 ; nb1 n11 n21 ; nb2 n12 n22 :
F-Brçche. Die Ûberprçfung dieser Nullhypothesen in Modell I und Modell II beginnt mit der Effektcodierung. Die Nullhypothesen im Modell I (ungewichtete Mittelwerte) werden durch die folgenden F-Tests geprçft: FA
R2y;xA xB xAB
1
R2y;xB xAB
N
R2y;xA xB xAB
p
p q 1
;
14:15 a FB
R2y;xA xB xAB
1
R2y;xA xAB
N
R2y;xA xB xAB
q
p q 1
;
14:15 b FAB
R2y;xA xB xAB
1
R2y;xA xB
N
R2y;xA xB xAB
q
p q
1
p
1
14:15 c
mit
xA Indikatorvariablen fçr Haupteffekt A, xB Indikatorvariablen fçr Haupteffekt B, xAB Indikatorvariablen fçr die Interaktion A B. Fçr das Modell II (gewichtete Mittelwerte) ergeben sich die folgenden F-Brçche: FA FB FAB
R2y;xA
N
p q
1 R2y;xA xB xAB
p R2y;xB
N p q
1 R2y;xA xB xAB
q
R2y;xA xB xAB R2y;xA xB
1 R2y;xA xB xAB
p
1 1
N
;
14:16 a
;
14:16 b p q
1
q
: 1
14:16 c
498
Kapitel 14 ´ Das allgemeine lineare Modell (ALM)
Im Beispiel errechnen wir fçr Modell I: FA 2270;53;
FB 0;02;
und fçr Modell II: FA 2802;13; FB 493;39;
FAB 1;43 FAB 1;43 :
Damit ergibt sich ± wie zu erwarten ± zwischen den Krankenhåusern unter Modell I kein statistisch bedeutsamer Unterschied und unter Modell II ein sehr bedeutsamer, statistisch signifikanter Unterschied.
14
Entscheidungshilfen. Wie das Beispiel zeigt, kænnen die Haupteffekttests çber Gl. (14.15) zu vællig anderen Resultaten fçhren als die Haupteffekttest nach Gl. (14.16). Die Wahl eines der beiden Modelle bedarf deshalb einer sorgfåltigen Begrçndung. Wann ist Modell I und wann Modell II angemessen? Im Modell I (ungewichtete Mittelwerte) spielt die Græûe der Stichproben nij keine Rolle, d. h., die Resultate der Hypothesenprçfung sind (bei konstantem N) von der Anzahl der Untersuchungsobjekte pro Faktorstufenkombination unabhångig. Dies genau kennzeichnet die erste Fragestellung des o. g. Beispiels: Die Qualitåt der Krankenhåuser hångt nicht davon ab, wie sich die Patienten auf die einzelnen Stationen verteilen. Dies ist bei der zweiten Fragestellung (TV-Verleih) anders. Fçr den Fernsehverleiher ist die ¹Attraktivitåtª der Krankenhåuser sehr wohl davon abhångig, wie sich die Patienten auf die einzelnen Stationen verteilen. Das Ergebnis der Hypothesenprçfung ist also auch theoretisch nicht invariant gegençber variierenden Umfången der Teilstichproben. Dies rechtfertigt bzw. erfordert die Anwendung von Modell II (gewichtete Mittelwerte). Hinweise: Fçr gleich groûe Stichprobenumfånge resultieren nach Gl. (14.15) und (14.16) identische F-Brçche. Horst u. Edwards (1982) weisen darauf hin, dass Modell I fçr 2k -Plåne der Varianzanalyse mit dem harmonischen Mittel der Stichprobenumfånge (vgl. S. 322 ff.) entspricht. Fçr Plåne mit mehr als zwei Faktoren gilt unter der Modellannahme I, dass såmtliche Effekte bez. aller çbrigen Effekte bereinigt werden mçssen. (Fçr den Haupteffekt C in einer dreifaktoriellen Varianzanalyse als Beispiel wçrde resultieren:
R2y;xA xB xC xAB xAC xBC xABC R2y;xA xB xAB xAC xBC xABC : Im Modell II sind die Haupteffekte nicht, die Interaktion 1. Ordnung bez. aller Haupteffekte und die Interaktion 2. Ordnung bez. aller Haupteffekte und Interaktionen 1. Ordnung zu bereinigen.) Wie man mit leeren Zellen (¹Empty Cellsª) in nicht-orthogonalen Varianzanalysen umgeht, wird bei Timm (2002, Kap. 4.10) beschrieben.
Voraussetzungen Milligan et al. (1987) kommen zu dem Ergebnis, dass die nicht-orthogonale Varianzanalyse im Unterschied zur orthogonalen Varianzanalyse auf Verletzungen der Voraussetzungen (Varianzhomogenitåt und normalverteilte Residuen) keineswegs robust reagiert. Zudem konnte keine Systematik festgestellt werden, unter welchen Umstånden der F-Test ± im Modell I oder Modell II ± konservativ bzw. progressiv reagiert. Da die von den Autoren diskutierten Alternativen zur nicht-orthogonalen Varianzanalyse ebenfalls nicht unumstritten sind, kommt der Voraussetzungsçberprçfung bei nichtorthogonalen Varianzanalysen also ± insbesondere bei kleineren Stichproben ± eine besondere Bedeutung zu. Sind die Voraussetzungen verletzt, empfiehlt es sich, statt der nicht-orthogonalen Varianzanalyse ein auf der Welch-James-Statistik basierendes Verfahren einzusetzen, das von Keselman et al. (1995) entwickelt wurde (vgl. hierzu auch Keselman et al., 1998). Dieses Verfahren ist allerdings mathematisch und rechnerisch aufwåndig; es hat jedoch den Vorteil, dass es bei erfçllten oder auch nichterfçllten Voraussetzungen eingesetzt werden kann, sodass sich eine Ûberprçfung der Voraussetzungen erçbrigt.
14.2.5 Kovarianzanalyse Einfaktorielle kovarianzanalytische Versuchsplåne werden nach dem ALM in folgender Weise ausgewertet: Zunåchst muss die Zugehærigkeit der Vpn zu den p-Stufen eines Faktors in çblicher Weise durch Indikatorvariablen verschlçsselt werden. Als weiteren Prådiktor der abhångigen Vari-
a14.2.5
ablen setzen wir die Kontrollvariable
z ein. Das Quadrat der multiplen Korrelation zwischen allen Indikatorvariablen und der Kontrollvariablen einerseits und der abhångigen Variablen andererseits ist der Varianzanteil der abhångigen Variablen, der auf den untersuchten Faktor und die Kontrollvariable zurçckgeht. Um den Varianzanteil zu erhalten, der auf den Faktor zurçckgeht und der nicht durch die Kontrollvariable erklårbar ist, subtrahieren wir vom Quadrat der multiplen Korrelation aller Prådiktorvariablen das Quadrat der Korrelation der Kontrollvariablen mit der abhångigen Variablen. Die Bereinigung der abhångigen Variablen bezçglich der Kontrollvariablen erfolgt also çber eine Semipartialkorrelation (vgl. S. 446 f. bzw. 455). Der auf den Regressionsresiduen basierende Fehlervarianzanteil ergibt sich zu 1 R2y;xA z . Im einfaktoriellen Fall kann der Treatmentfaktor folgendermaûen getestet werden: F
R2y;xA z
1
r2y;z
N R2y;xA z
p
p
1
14:17
1
mit xA Indikatorvariablen des Faktors A z Kontrollvariable.
R2y;xA z1 z2 ... zk
1
R2y;z1 z2 ... zk
N
R2y;xA z1 z2 ... zk
p
p 1
k
p N
1
< 0;10 :
Bei drei Gruppen
p 3 und N 60 sollte k < 4 sein. Bei einer græûeren Anzahl von Kontrollvariablen besteht die Gefahr instabiler kovarianzanalytischer Ergebnisse, die einer Kreuzvalidierung nicht standhalten. Verallgemeinerungen auf mehrfaktorielle kovarianzanalytische Plåne sind leicht mit Hilfe der auf S. 491 ff. angegebenen Regeln vorzunehmen. Um die Homogenitåt der Steigungen der Innerhalb-Regressionen zu çberprçfen (vgl. 10.2), bilden wir weitere Indikatorvariablen, die sich aus den Produkten der Indikatorvariablen des Faktors A und der (den) Kontrollvariablen ergeben
xA z. Ausgehend von diesen zusåtzlichen Indikatorvariablen testet der folgende F-Bruch die Homogenitåtsvoraussetzung im Rahmen einer einfaktoriellen Kovarianzanalyse: F
R2y;xA z
xA z
1
R2y;xA z
N
R2y;xA z
xA z
p
2 p 1
:
14:19
Dieser F-Wert hat p 1 Zåhlerfreiheitsgrade und N p 1 Nennerfreiheitsgrade. Die Generalisierung dieses Ansatzes auf k Kontrollvariablen liegt auf der Hand. Statt der einfachen Produkt-Moment-Korrelation zwischen der Kriteriums- und Kontrollvariablen subtrahieren wir im Zåhler von Gl. (14.17) R2y;z1 z1 ... zk von R2y;xA z1 z2 ... zk (s. auch Gl. 13.25). Der Nenner wird entsprechend korrigiert: F
14
499
Kovarianzanalyse
k
:
(14.18)
Dieser F-Wert hat N p k Nennerfreiheitsgrade mit k Anzahl der Kontrollvariablen. Man beachte, dass als Kontrollvariablen auch Indikatorvariablen eines nominalen Merkmals eingesetzt werden kænnen. Huitema (1980, S. 161; zit. nach Stevens, 2002, S. 346) empfiehlt, die Anzahl der Kontrollvariablen (k) so festzulegen, dass folgende Ungleichung erfçllt ist:
Der F-Wert hat p 1 Zåhlerfreiheitsgrade und N 2 p Nennerfreiheitsgrade.
Datenrçckgriff Zur Veranschaulichung wåhlen wir das Beispiel in Tabelle 10.1. Fçr diese Daten ergibt sich die in Tabelle 14.9 wiedergegebene, verkçrzte Designmatrix. (In Tabelle 14.9 sind nur die jeweils ersten beiden Vpn der 3 Gruppen codiert. In der kompletten Designmatrix erhålt jede Vp die Codierung ihrer Gruppe. x1 und x2 codieren Faktor A und z ist die Kontrollvariable. Die Einservariable ist nicht aufgefçhrt.) Wir ermitteln: R2y;xA z 0;929 ; r2y;z 0;078 ; und nach Gl. (14.17) F
0;929 0;078 11 65;92 :
1 0;929 2
Fçr den F-Test nach Gl. (14.19), der die Homogenitåt der Steigungen çberprçft, errechnen wir:
500
Kapitel 14 ´ Das allgemeine lineare Modell (ALM)
Tabelle 14.9. Verkçrzte Designmatrix fçr eine einfaktorielle Kovarianzanalyse (Daten der Tabelle 10.1) x1
x2
z
x1 z
x2 z
y
1 1 0 0 1 1
0 0 1 1 1 1
7 9 11 12 12 10
7 9 0 0 12 10
0 0 11 12 12 10
5 6 5 4 2 1
Die Auswertung einer hierarchischen Varianzanalyse nach den Regeln des ALM sei anhand der Daten des in Tabelle 11.4 wiedergegebenen Beispiels veranschaulicht. Tabelle 14.10 zeigt die verkçrzte Designmatrix ohne Einservariable (pro Gruppe die erste Vp). x1 bis x3
xA codieren Faktor A. Da die Stufen von B unter A geschachtelt sind, werden fçr jeweils 3 b-Stufen 2 Indikatorvariablen benætigt (z. B. x4 und x5 als xB
A1 ) bzw. insgesamt 8 Indikatorvariablen [allgemein p
q 1 Indikatorvariablen fçr B
A]. Wenn beide Faktoren eine feste Stufenauswahl beinhalten, çberprçfen wir sie durch die folgenden F-Brçche:
R2y;xA z
xA z 0;951 ; sodass F
14.2.6 Hierarchische Varianzanalyse
0;951 0;929 9 2;02 :
1 0;951 2
Die Werte stimmen bis auf Rundungsungenauigkeiten mit den in Tabelle 10.5 bzw. auf S. 372 genannten Werten çberein.
R2y;xA p q
n
1
R2y;xA xB
A
dfZahler p 1 dfNenner p q
n
Nicht-lineare Zusammenhånge Im ALM ist es mæglich, auch nicht-lineare Zusammenhånge zwischen einer oder mehreren Kontrollvariablen und der abhångigen Variablen aus der abhångigen Variablen herauszupartialisieren. Hierzu wird die gewçnschte nichtlineare Funktion der Kontrollvariablen berechnet [z. B. f
x x2 ; f
x ex ], die als weitere Prådiktorvariable in das Regressionsmodell eingeht (vgl. hierzu auch Bartussek, 1970).
14
FA
FB
A
1
p
1
R2y;xA xB
A
R2y;xA p q
n
R2y;xA xB
A
1
14:20
1
p
q
1
1
14:21
dfZahler p
q
1
dfNenner p q
n
1
In unserem Beispiel ermitteln wir:
Tabelle 14.10. Codierung einer zweifaktoriellen hierarchischen Varianzanalyse (Daten aus Tabelle 11.4) x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x11
y
1 1 1 0 0 0 0 0 0 1 1 1
0 0 0 1 1 1 0 0 0 1 1 1
0 0 0 0 0 0 1 1 1 1 1 1
1 0 1 0 0 0 0 0 0 0 0 0
0 1 1 0 0 0 0 0 0 0 0 0
0 0 0 1 0 1 0 0 0 0 0 0
0 0 0 0 1 1 0 0 0 0 0 0
0 0 0 0 0 0 1 0 1 0 0 0
0 0 0 0 0 0 0 1 1 0 0 0
0 0 0 0 0 0 0 0 0 1 0 1
0 0 0 0 0 0 0 0 0 0 1 1
7 6 9 5 10 15 9 13 9 12 17 13
(pro Zeile eine Faktorstufenkombination)
a14.2.7
0;547 36 31;41 ;
1 0;791 3
0;791 0;547 36 5;25 :
1 0;791 8
man auf die Abfolge der c-Stufen. Wir berechnen 4 multiple Korrelationen:
FA FB
A
R2y;xA xB xC 0;308 ; R2y;xA 0;081 ;
Testen wir wie in Tabelle 11.4 Faktor A an Faktor B
A (weil Faktor B zufållige Stufen hat), resultiert als F-Wert: F
R2y;xA
q R2y;xA xB
A
14
501
Lateinisches Quadrat
1 p
R2y;xA
p
1
0;547 8 5;98 :
0;791 0;547 3 Auch diese Werte stimmen mit den in Tabelle 11.4 genannten çberein.
R2y;xB 0;191 ; R2y;xC 0;035 : Die F-Tests fçr die Haupteffekte, die auch bei ungleichgroûen Stichproben eingesetzt werden kænnen, lauten: Fçr den Haupteffekt A: F
R2y;xA xB xC
R2y;xB xC
R2y;xA xB xC
p
1
2
N
p
p
1 1
p
2 :
14:22
2 :
14:23
2 :
14:24
Fçr den Haupteffekt B:
14.2.7 Lateinisches Quadrat Die Effektcodierung des in Tabelle 11.23 wiedergegebenen lateinischen Quadrates zeigt Tabelle 14.11. In dieser Tabelle ist zeilenweise der erste Wert aus jeder Stichprobe codiert (z. B. 1. Zeile abc111 , 6. Zeile abc223 oder 10. Zeile abc234 ). In der vollståndigen Designmatrix werden die çbrigen Werte in den einzelnen Stichproben entsprechend verschlçsselt. Bei der Codierung des Faktors C achte
F
R2y;xA xB xC
R2y;xA xC
R2y;xA xB xC
p
1
2
p
p
N
1 1
p
Fçr den Haupteffekt C: F
R2y;xA xB xC
R2y;xA xB
R2y;xA xB xC
p
1
N
2
p
p
1 1
p
Tabelle 14.11. Codierung eines lateinischen Quadrates (Daten aus Tabelle 11.23) A
B
C
x1
x2
x3
x4
x5
x6
x7
x8
x9
y
1 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1
0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1
0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1
1 1 1 1 0 0 0 0 0 0 0 0 1 1 1 1
0 0 0 0 1 1 1 1 0 0 0 0 1 1 1 1
0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
1 0 0 1 0 0 1 1 0 1 1 0 1 1 0 0
0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0
0 0 1 1 0 1 1 0 1 1 0 0 1 0 0 1
13 14 16 12 10 19 17 18 17 17 18 13 15 18 19 19
502
Kapitel 14 ´ Das allgemeine lineare Modell (ALM)
Die Prçfvarianz bestimmen wir fçr alle 3 Haupteffekte, indem wir von der totalen Varianz (die hier ± wie im ALM çblich ± auf 1 gesetzt wird) den Anteil, der auf die 3 Haupteffekte zurçckgeht, abziehen. Der verbleibende Varianzanteil enthålt somit Fehler- und Residualeffekte, wobei letztere bei zu vernachlåssigenden Interaktionen unbedeutend sind. Die F-Tests nach Gl. (14.22) bis (14.24) fçhren deshalb nur dann zu den gleichen Entscheidungen wie die F-Tests in Tabelle 11.23 (die mit der reinen Fehlervarianz als Prçfvarianz operieren), wenn keine Interaktionen existieren und die Residualvarianz damit Null ist. Die Freiheitsgrade fçr die Prçfvarianz in den oben genannten Gleichungen ergeben sich aus den Freiheitsgraden fçr die Fehlervarianz und den Freiheitsgraden der Residualvarianz: p2
n 1
p 1
p 2. (Man beachte den Freiheitsgradgewinn fçr die zusammengefasste Varianz, der dazu fçhren kann, dass die zusammengefasste Varianz kleiner ist als die reine Fehlervarianz.) Eine reine Fehlervarianzschåtzung wçrden wir erhalten, wenn von der totalen Varianz nicht nur der auf die Haupteffekte, sondern auch der auf die im lateinischen Quadrat realisierten Interaktionen (Residualvarianz) zurçckgehende Varianzanteil abgezogen wird. Die Codierung der im lateinischen Quadrat realisierten Interaktionen durch Indikatorvariablen wird bei Thompson (1988) beschrieben. Alle F-Werte haben allgemein
N p2
p 1
p 2 Nennerfreiheitsgrade und p 1 Zåhlerfreiheitsgrade. In unserem Beispiel ermitteln wir:
14
0;082 54 FA 2;13 ; 0;692 3 FB
0;192 54 4;99 ; 0;692 3
0;036 54 0;94 : FC 0;692 3
14.2.8 t-Test fçr abhångige Stichproben Der t-Test fçr abhångige Stichproben entspricht dem t-Test fçr unabhångige Stichproben, wenn die Messungen zu zwei Zeitpunkten t1 und t2 bez.
der Unterschiede zwischen den Vpn bereinigt werden (ipsative Messwerte, vgl. S. 335 f.). Entsprechendes gilt fçr parallelisierte Stichproben. Diesen Sachverhalt machen wir uns bei der Behandlung des t-Tests fçr abhångige Stichproben als Spezialfall des ALM in folgender Weise zunutze: Zunåchst konstruieren wir eine Indikatorvariable, mit der die beiden Messzeitpunkte effektcodiert werden. Fçr alle Messungen zum Zeitpunkt t1 setzen wir x1 1 und fçr die Messungen zum Zeitpunkt t2 x1 1. Das Quadrat der Korrelation dieser Indikatorvariablen mit der abhångigen Variablen y
r2y;1 gibt den Varianzanteil an, der auf die Unterschiedlichkeit der Messungen zum Zeitpunkt t1 und t2 zurçckgeht. Der verbleibende Varianzanteil
1 r2y;1 enthålt Residualanteile und die Unterschiedlichkeit zwischen den Vpn. Wir benætigen eine Prçfvarianz, aus der nicht nur die Unterschiede zwischen den Messzeitpunkten, sondern auch die Unterschiedlichkeit zwischen den Vpn eliminiert ist. Hierfçr machen wir eine zweite Indikatorvariable x2 auf, die die Mittelwerte (bzw. die Summen) der 2 Messungen einer jeden Vp enthålt. R2y;12 gibt dann denjenigen Varianzanteil der abhångigen Variablen wieder, der auf die beiden Messzeitpunkte und die Unterschiede zwischen den Vpn zurçckgeht, bzw. 1 R2y;12 den gesuchten Prçfvarianzanteil (vgl. Pedhazur, 1977). Wir berechnen die Prçfgræûe F
r2y;1
n
1
1
R2y;12
;
p die nach Gl. (2.60)
tn F1;n dem Gl. (5.23) berechneten t-Wert entspricht.
14:25 nach
Datenrçckgriff Zur Verdeutlichung dieser ALM-Variante wåhlen wir Tabelle 5.2 als Zahlenbeispiel (vgl. Tabelle 14.12). Man beachte, dass sich die Mittelwerte der Vpn auf x2 einmal wiederholen. (Der erste Wert der Vp 1 lautet 40 und der zweite 48. Der Durchschnittswert 44 wird einmal fçr die Codierung x1 1 und ein zweites Mal fçr die Codierung x1 1 eingesetzt.) Wir errechnen r2y;1 0;0505 und R2y;12 0;9290 und erhalten nach Gl. (14.25)
a14.2.9
Tabelle 14.12. Codierung eines t-Tests fçr abhångige Stichproben (Daten aus Tabelle 5.2)
Tabelle 14.13. Codierung einer einfaktoriellen Varianzanalyse mit Messwiederholungen (Daten aus Tabelle 9.3)
x1
x2
y
x1
x2
x3
y
1 1 1 .. .
44 57,5 37 .. .
40 60 30 .. .
1 1 1 1 1 1 .. .
14,5 46,5 57,5 44 57,5 37 .. .
10 40 55 48 55 44 .. .
1 1 1
14,5 46,5 57,5
19 53 60
1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
20 19 22 20 19 23 21 17 21 17 20 19 22 20 19 23 21 17 21 17 20 19 22 20 19 23 21 17 21 17
7 5 8 6 7 7 5 6 7 5 7 6 9 8 7 9 10 7 8 7 6 8 5 6 5 7 6 4 6 5
F
0;0505 14 9;958 :
1 0;9290
Dieser Wert entspricht ± bis auf Rundungsungenauigkeiten p± dem in Tabelle 5.2 ermittelten t-Wert: t 9;958 3;16.
14.2.9 Varianzanalyse mit Messwiederholungen
14
503
Varianzanalyse mit Messwiederholungen
Einfaktorielle Plåne Fçr die Durchfçhrung einer einfaktoriellen Varianzanalyse mit Messwiederholungen nach den Richtlinien des ALM greifen wir auf das bereits im letzten Abschnitt
t-Test fçr abhångige Stichproben) behandelte Codierungsprinzip zurçck. Die p-Messzeitpunkte werden ± wie in der einfaktoriellen Varianzanalyse ± durch p 1 Indikatorvariablen codiert. Wir erweitern das Modell um eine weitere Prådiktorvariable mit den Personensummen bzw. Personenmittelwerten. Diese Indikatorvariable erfasst die Varianz zwischen den Personen, die wir benætigen, um die Residualvarianz als Prçfvarianz zu bestimmen (vgl. Pedhazur, 1977, oder auch Gibbons u. Sherwood, 1985, zum Stichwort ¹criterion scalingª). Fçr das in Tabelle 9.3 genannte Zahlenbeispiel resultiert die in Tabelle 14.13 dargestellte Designmatrix. Die Variable x3 enthålt ± in dreifacher Wiederholung (vgl. S. 502) ± die Summen der Vpn
Pm
in Tabelle 9.3). Den Varianzanteil, der auf die drei Messzeitpunkte zurçckgeht, ermitteln wir mit R2y;12 . Wir erhalten R2y;12 0;3803 : Fçr den Varianzanteil, der auf die drei Messzeitpunkte und die Unterschiedlichkeit der Vpn zurçckgeht, errechnen wir R2y;123 0;5846 bzw. fçr den residualen Varianzanteil
1
R2y;123 0;4154 :
Der F-Test der H0: l1 l2 l3 ergibt F
R2y;12
p
1
1
n
R2y;123
p
1 1
8;24 :
14:26
504
Kapitel 14 ´ Das allgemeine lineare Modell (ALM)
Dieser Wert stimmt mit dem in Tabelle 9.4 genannten F-Wert bis auf Rundungsungenauigkeiten çberein. Bei dieser Art der Codierung hat die Regressionskonstante a einen Wert von 0. Die b-Gewichte der Indikatorvariablen x1 und x2 , die die Messzeitpunkte codieren, entsprechen ± wie çblicherweise bei der Effektcodierung (vgl. S. 486) ± den Abweichungen Ai G. Das Gewicht fçr x3 (Vektor der Vpn-Summen) ergibt sich als Reziprokwert fçr die Anzahl der Messzeitpunkte (im Beispiel 1/3).
Zweifaktorielle Plåne Bei einer zweifaktoriellen Varianzanalyse mit Messwiederholungen (vgl. Tabelle 9.7 mit gleichgroûen Stichproben) verfahren wir folgendermaûen: p 1 Indikatorvariablen codieren den Haupteffekt A. Wir nennen diese Indikatorvariablen zusammenfassend xA . Mit q 1 Indikatorvariablen
xB wird Haupteffekt B und mit weiteren
p 1
q 1 Indikatorvariablen
xAB die Interaktion A B codiert (vgl. S. 491 f.). Eine weitere Prådiktorvariable xp enthålt (in q-facher Wiederholung) die Summen (Mittelwerte) der Vpn. Der F-Test fçr den Haupteffekt A (Gruppierungsfaktor gem. S. 336) lautet dann: FA
R2y;xA
R2y;xA xP
p
n R2y;xA
1
p
1
:
14:27
Fçr den Haupteffekt B und die Interaktion A B bilden wir die folgenden F-Brçche: FB
14
FAB
R2y;xB p
q
1
1
n
R2y;xA xB xAB xP R2y;xAB p
q R2y;xA xB xAB xP
q
1 1
1
n
;
14:28 1
: 1 (14.29) Im Nenner von Gl. (14.28) und (14.29) kann R2y;xA xB xAB xP durch R2y;xB xAB xP ersetzt werden. Da der Varianzanteil R2y;xA in R2y;xP bereits enthalten ist, erhålt man identische Resultate.
1
p
1
q
Ungleich groûe Stichproben. Bei ungleich groûen Stichproben sind die Zåhler von Gl. (14.27) bis (14.29) wie folgt zu ersetzen (vgl. Silverstein, 1985): Haupteffekt A: R2y;xA
N
p
Haupteffekt B:
R2y;xA xB xp
R2y;xA xP
q
1
N
p
Interaktion A B:
R2y;xA xB xAB xp R2y;xA xB xp
q 1
N p ; P >wobei N ni ist. Die Nenner bleiben unveri åndert.
Dreifaktorielle Plåne Die Erweiterung des zweifaktoriellen Messwiederholungsplans auf einen dreifaktoriellen Messwiederholungsplan mit einem Messwiederholungsfaktor und zwei Gruppierungsfaktoren (vgl. Tabelle 9.11) ergibt sich durch Aufnahme weiterer Indikatorvariablen fçr den 2. Gruppierungsfaktor und die entsprechenden Interaktionen. Der Prçfvarianzanteil fçr die Faktoren A und B sowie die Interaktion A B (Vpn innerhalb der Stichproben) ergibt sich zu
R2y;xA xB xAB xp
R2y;xA xB xAB
und die Prçfvarianz fçr C, A C, B C und A B C zu
1
R2y;xA xB xC xAB xAC xBC xABC xp :
Die Freiheitsgrade der F-Brçche findet man in Tabelle 9.13. Die Codierung einer dreifaktoriellen Varianzanalyse mit Messwiederholungen auf zwei Faktoren (vgl. Tabelle 9.12) verdeutlicht das Zahlenbeispiel in Tabelle 14.14 (nach Pedhazur, 1977). x1 bis x7 codieren såmtliche Haupteffekte und Interaktionen. Unter x8 sind wieder die Vpn-Summen (in 4facher bzw. allgemein q r-facher Wiederholung) aufgefçhrt. x9 enthålt die entsprechenden B-Summen der Vpn (in 2facher bzw. allgemein in q-facher Wiederholung) und x10 die entsprechenden C-Summen (in 2facher bzw. allgemein in r-facher Wiederholung). Beispiele: Der 1. Wert in Spalte x9 ergibt sich durch Zusammenfassen der Werte bc11 und bc12 der Vp 1 unter der Stufe a1
3 2 5. Dieser Wert taucht in Zeile 5 fçr die 1. Vp mit der Kombination abc112 zum zweiten Mal auf. Der 5. Wert in Spalte x10 ergibt sich durch Zusammenfassen der Werte bc12 und bc22 der Vp 1 unter der Stufe a1 . Dieser Wert taucht in der Zeile 13 fçr die 1.
a14.2.10
505
4-Felder-2 -Test
Tabelle 14.14. Codierung einer dreifaktoriellen Varianzanalyse mit Meûwiederholungen auf 2 Faktoren a) Vpn
b)
a1
1 2
a2
1 2
b1 c1
c2
3 3
2 4
5 8
5 6
b2 c1
c2
5 5
4 6
7 5
6 6
x1
x2
x3
x4
x5
x6
x7
x8
x9
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
14 18 23 25 14 18 23 25 14 18 23 25 14 18 23 25
5 7 10 14 5 7 10 14 9 11 13 11 9 11 13 11
Vp mit der Kombination abc122 zum zweiten Mal auf. Bezugnehmend auf Tabelle 14.14 ergeben sich die folgenden Prçfvarianzanteile (R2y;18 ist die quadrierte multiple Korrelation der Variablen 1 und 8 mit der abhångigen Variablen y. Entsprechend sind die çbrigen quadrierten Korrelationen zu lesen.): F ur A: R2y;18
R2y;1 :
F ur B und AB: R2y;12489
R2y;1248 :
F ur C und AC: R2y;12345678910
R2y;12345689 :
F ur BC und ABC: 1 R2y;12 ... 10 : Die Freiheitsgrade fçr die F-Brçche findet man in Tabelle 9.16. Im Beispiel resultieren folgende F-Werte:
FA 12;80 ; FAB 1;78 ; FAC 0;25 ; FABC 0;25 :
x10 8 8 12 13 6 10 11 12 8 8 12 13 6 10 11 12
y 3 3 5 8 2 4 5 6 5 5 7 5 4 6 6 6
FB 1;78 ; FC 0;25 ; FBC 0;25 ;
14.2.10 4-Felder-v 2 -Test Im Folgenden soll gezeigt werden, dass auch die unter 5.3 behandelten v2 -Techniken im Kontext des ALM darstellbar sind. (Wir behandeln hier nur den Vierfeldertest und den k 2-Test. Bezçglich des k `-Tests wird auf S. 643 f. verwiesen.) Hierbei wird die nominalskalierte abhångige Variable ebenso codiert wie die nominalskalierte unabhångige Variable, d. h., jede Vp erhålt auf den Indikatorvariablen fçr die unabhångige Variable und auf den Indikatorvariablen fçr die abhångige Variable Werte, die gemåû den auf S. 483 ff. beschriebe-
14
506
Kapitel 14 ´ Das allgemeine lineare Modell (ALM)
nen Codierungsregeln die Gruppenzugehærigkeiten der Vpn bezçglich beider Variablen kennzeichnen. Zumindest fçr den Vierfeldertest ist die Frage, welche Variable als abhångige und welche als unabhångige aufzufassen ist, ohne Belang. Das konkrete Vorgehen sei im Folgenden an einem Beispiel demonstriert:
Datenrçckgriff Abschnitt 5.3.3 erlåutert den 4-Felder-v2 -Test an einem Beispiel, in dem 2 dichotome Merkmale x und y (månnlich/weiblich und mit Brille/ohne Brille) auf stochastische Unabhångigkeit geprçft werden. Fçr die Ûberprçfung dieser Hypothese nach dem ALM codieren wir beide dichotomen Merkmale mit den Zahlen 1= 1 (Effektcodierung): x 1 fçr månnliche Personen; x 1 fçr weibliche Personen; y 1 fçr Personen mit Brille; y 1 fçr Personen ohne Brille. Unter Verwendung der Håufigkeiten in Tabelle 5.13 resultieren die in Tabelle 14.15 dargestellten Indikatorvariablen. Die Codierungsmuster 1=1, 1= 1, 1=1, und 1= 1 erscheinen in dieser Designmatrix gemåû den in Tabelle 5.13 genannten Håufigkeiten. Zwischen den beiden Merkmalen x und y berechnen wir eine normale Produkt-Moment-Korrelation. Diese Korrelation entspricht dem U-Koeffizienten (vgl. S. 227 f.). Es resultiert
14
Tabelle 14.15. Codierung einer 4-Felder-Tafel (Daten aus Tabelle 5.13) x
y
1 1 .. .
1 1 .. .
1 1 .. .
1 1
.. . .. .
.. .
1 1
1 1 .. .
1 1
1 1
.. .
) 25-mal ) 25-mal ) 10-mal ) 40-mal
rxy U 0;314 bzw. nach Umstellen von Gl. (6.107) v2 n r2 100 0;3142 9;86 :
14:30
Dieser Wert stimmt bis auf Rundungsungenauigkeiten mit dem auf S. 169 genannten v2 -Wert çberein. Produkt-Moment-Korrelationen testen wir nach Gl. (6.84) auf statistische Signifikanz. p r n 2 t p : 1 r2 Dieser t-Wert hat n 2 Freiheitsgrade. Fçr t ergibt sich p 0;314 98 t p 3;27 ; mit df 98 : 1 0;3142
v2 -Test und t-Test Der genannte t-Wert resultiert auch, wenn man mit Hilfe eines t-Tests fçr unabhångige Stichproben (Gl. 5.15) die H0 çberprçft, nach der der Anteil der Brillentråger fçr Månner und Frauen gleich groû ist. Die Daten fçr den t-Test (zum Datenschema vgl. Tabelle 5.1) bestehen fçr die Gruppe der Månner und die Gruppe der Frauen nur aus Nullen (fçr ¹keine Brilleª) und Einsen (fçr ¹mit Brilleª). Die zu vergleichenden Mittelwerte sind hier also Anteilswerte. Es stellt sich nun die Frage, ob die Irrtumswahrscheinlichkeit des t-Wertes der Irrtumswahrscheinlichkeit des v2 -Wertes entspricht, denn schlieûlich sind die Voraussetzungen des t-Tests (vgl. S. 141) bei einer abhångigen Variablen, die nur aus Nullen und Einsen besteht, massiv verletzt. Um diese Frage zu çberprçfen, çberfçhren wir den ermittelten t-Wert gem. Gl. (2.60) in einen F-Wert: F
1;98 3;272 10;69 : Nach Gl. (2.62) gilt ferner F
1;1 v2
1, d. h., eine Identitåt von F und v2 gilt nur, wenn die Anzahl der Nennerfreiheitsgrade des F-Wertes
dfN gegen 1 geht. Fçr unser Beispiel resultiert (wegen dfN 98) F > v2
10;96 > 9;86, sodass auch die
a14.2.11
14
507
k ´ 2-v2-Test
Irrtumswahrscheinlichkeiten fçr F (bzw. t) und v2 geringfçgig verschieden sind. Sie liegen jedoch beide deutlich unter a 0;01. Will man nur erfahren, ob zwischen den Merkmalen einer Vierfeldertafel ein signifikanter Zusammenhang besteht, kommt man ± wie in unserem Beispiel ± çber den F-Test und den v2 -Test zum gleichen Resultat, sofern die Voraussetzungen fçr den v2 -Test
fe > 10 erfçllt sind. Offensichtlich reicht ein Stichprobenumfang, der mit fe > 10 verbunden ist, aus, um çber die Wirksamkeit des zentralen Grenzwerttheorems auch die Validitåt des t-Tests (bzw. des F-Tests) sicherzustellen (ausfçhrlicher hierzu vgl. Bortz u. Muchowski, 1988, oder Bortz et al., 1990, Kap. 8.1.1).
gehærigkeit zu den zwei Stufen der abhångigen Variablen çber eine Indikatorvariable als Kriterium gekennzeichnet. Zwischen den k 1 Prådiktoren und der dichotomen Kriteriumsvariablen wird eine multiple Korrelation bestimmt, die ± in Analogie zu Gl. (14.30) ± durch folgende Beziehung mit dem v2 -Wert der k 2-Tafel verknçpft ist (zum Beweis vgl. Kçchler, 1980): v2 n R2 :
14:31
BEISPIEL Gegeben sei die in Tabelle 14.16 dargestellte 3 2-Tafel. Nach den unter 5.3.4 genannten Rechenregeln ermitteln wir v2 0;99. Wir codieren mit x1 und x2 die Zugehærigkeit der Vpn zu den drei Stufen des Merkmals A und mit y die Zugehærigkeit zu den zwei Stufen des Merkmals B. Tabelle 14.16 b zeigt das in einer verkçrzten Designmatrix dargestellte Ergebnis (unter Verwendung der Dummycodierung; vgl. S. 484). Die erste der 10 Vpn aus der Gruppe ab11 erhålt auf x1 eine 1 (weil sie zu a1 gehært), auf x2 eine Null (weil sie nicht zu a2 gehært) und auf y eine 1 (weil sie zu b1 gehært). Die 35 Vpn der Gruppe ab32 erhalten auf allen drei Variablen eine Null, weil sie weder zu a1 , a2 noch b1 gehæren. Fçr das Quadrat der multiplen Korrelation zwischen den beiden Indikatorvariablen x1 und x2 sowie der Variablen y errechnen wir R2y;12 0;00735 bzw. nach Gl. (14.31):
14.2.11 k ´ 2-v2-Test Bei einer k 2-Tafel sollte das zweifach gestufte Merkmal die abhångige Variable und das k-fach gestufte Merkmal die unabhångige Variable darstellen. Die Zugehærigkeit der Vpn zu den k-Stufen des unabhångigen Merkmals wird çber k 1 Indikatorvariablen als Prådiktoren und die ZuTabelle 14.16. Codierung einer 3 2-Tafel a)
a1
a2
a3
b1 b2
10 20
15 30
25 35
30
45
60
b)
x1
x2
y
50 85
1 1 .. .
0 0 .. .
1 1 .. .
135
0 0 .. .
1 1 .. .
1 1 .. .
0 0 .. .
0 0 .. .
1 1 .. .
1 1 .. .
0 0 .. .
0 0 .. .
0 0 .. .
1 1 .. .
0 0 .. .
0 0 .. .
0 0 .. .
0 0 .. .
) 10-mal ) 15-mal ) 25-mal ) 20-mal ) 30-mal ) 35-mal
508
Kapitel 14 ´ Das allgemeine lineare Modell (ALM)
v2
2 135 0;00735 0;99 : 2
Dieser Wert ist mit dem oben errechneten v -Wert identisch.
v2±Test und F-Test Eine multiple Korrelation wird çber den F-Test gem. Gl. (13.19) auf Signifikanz getestet. Auch hier stellt sich die Frage, ob der F-Test und v2 -Test zu gleichen statistischen Entscheidungen fçhren. Dies ist ± wie bei Bortz u. Muchowski (1988) bzw. Bortz et al. (1990, Kap. 8.1.2) gezeigt wird ± der Fall, wenn die Voraussetzungen fçr einen validen v2 -Test erfçllt sind. Den F-Wert des Signifikanztests nach Gl. (13.19) erhalten wir auch, wenn çber die Daten der Tabelle 14.16 a eine einfaktorielle Varianzanalyse mit dem Merkmal A als unabhångige Variable und dem dichotomen Merkmal B als abhångige Variable gerechnet wird. (Die Daten unter a1 bestehen dann aus 10 Einsen und 20 Nullen.) Statt eines k 2-Tests kænnte man also auch eine einfaktorielle Varianzanalyse mit einer dichotomen abhångigen Variablen durchfçhren. Obwohl die Voraussetzungen der einfaktoriellen Varianzanalyse (vgl. S. 284 ff.) bei einer dichotomen abhångigen Variablen deutlich verletzt sind, kommen beide Verfahren zu den gleichen statistischen Entscheidungen, wenn die Stichprobenumfånge gençgend groû sind (vgl. auch Lunney, 1970, oder d'Agostino, 1972).
14
14.2.12 Mehrebenenanalyse Vor allem in der erziehungswissenschaftlichen Forschung hat man es gelegentlich mit Fragestellungen zu tun, bei denen mehrere Analyseebenen simultan zu berçcksichtigen sind. Als Beispiel kænnte die Frage dienen, ob sich verschiedene Schulen (1. Analyseebene) bezçglich des Zusammenhangs zwischen Schulnote und sozialer Herkunft der Schçler (2. Analyseebene) unterscheiden. Die fçr Fragestellungen dieser Art entwickelte Mehrebenenanalyse (bzw. des hierarchisch linearen Modells) geht auf Bryk u. Raudenbusch (1992) zurçck. Eine deutschsprachige Einfçhrung (sowie weitere Literatur zu diesem Thema) hat Ditton (1998) vorgelegt.
Eine Darstellung des Verfahrens wçrde den Rahmen dieses Buches sprengen. Stattdessen soll hier der Versuch unternommen werden, typische erziehungswissenschaftliche Fragestellungen der Mehrebenenanalyse mit den in den vergangenen Kapiteln behandelten Analysetechniken zu bearbeiten. Hierfçr bietet sich Kap. 14 insofern an, als in diesem Kapitel die meisten statistischen Verfahren unter dem Blickwinkel des ALM zusammengefasst wurden, von denen einige auch fçr Aufgaben der Mehrebenenanalyse geeignet sind. · Wie einleitend erwåhnt, sind zwei Schulen bezçglich des Zusammenhangs von Note und sozialer Herkunft ihrer Schçler zu vergleichen. Die Nullhypothese: ¹Die Schulen unterscheiden sich nichtª, kann mit Gl. (6.92) çberprçft werden. Hat man es allgemein mit k Schulen zu tun, wåre Gl. (6.95) zur Prçfung der o.g. Nullhypothese einschlågig. Allgemein geht es hierbei um die Bedeutung einer Moderatorvariablen (hier Schulen) fçr den Zusammenhang zweier Variablen. Weitere Einzelheiten zu dieser Thematik findet man unter ¹Hinweiseª auf S. 222. · Es sind mehrere Kategorien von Schulen (z. B. låndlich/stådtisch, katholisch/evangelisch, Grundschule/Realschule/Gymnasium etc.) zu vergleichen; pro Schulkategorie werden mehrere Schulen in die Untersuchung einbezogen. Wenn auch bei diesem Vergleich der Zusammenhang von Note und sozialer Herkunft (oder ein anderer Zusammenhang) interessiert, kænnte man die Nullhypothese: ¹Kein Unterschied zwischen den Schultypenª, mit dem t-Test fçr unabhångige Stichproben (2 Kategorien) bzw. der einfaktoriellen Varianzanalyse çberprçfen. Abhångige Variable wåre pro Schule erneut die Korrelation von Note und sozialer Herkunft. Falls innerhalb der Schulen jeweils verschiedene Klassen untersucht werden, kåme ein zweifaktorieller hierarchischer Plan nach Art von Tabelle 11.4 (S. 390) in Betracht mit Faktor A: Schultypen und Faktor B: unter A geschachtelte Schulklassen. Abhångige Variablen wåre die pro Schulklasse ermittelte Korrelation von Note und sozialer Herkunft. · Es wird gefragt, ob sich die Leistungen von Schçlerinnen und Schçlern (Faktor A) im Verlaufe von mehreren Jahren (Faktor B) unter-
509
aÛbungsaufgaben schiedlich veråndern und welche Bedeutung hierbei die Abschlussnote des Vaters hat (Kontrollvariable). Zur Bearbeitung dieser Messwiederholungsproblematik kann man auf die von Davis (2002) vorgeschlagenen ¹Summary Statisticsª zurçckgreifen, die auf S. 358 f. dargestellt wurden. Man charakterisiert die Verånderungen çber die Zeit pro Vp z. B. durch eine Regressionsgerade und verwendet die Steigungskoeffizienten als abhångige Variable in einem t-Test fçr unabhångige Stichproben zum Vergleich von Schçlerinnen und Schçlern. Die Bedeutung der Abschlussnote des Vaters kænnte im Rahmen einer einfaktoriellen Kovarianzanalyse (unabhångige Variable: Geschlecht, abhångige Variable: Steigungskoeffizienten, Kontrollvariable: Note des Vaters) ermittelt werden. Diese Beispiele mægen gençgen, um zu verdeutlichen, wie man auch mit ¹herkæmmlichenª Methoden einige Probleme der Mehrebenenanalyse læsen kann. Håufig besteht der ¹Trickª darin, auf der untersten Analyseebene (Schçler oder andere Untersuchungsobjekte) einfache statistische Kennwerte zu berechnen (je nach Fragestellung Mittelwertedifferenzen, bivarate oder multiple Korrelationen, Regressionskoeffizienten etc.), die als abhångige Variablen in einfachen oder komplexeren Plånen (einoder mehrfaktoriell, mit oder ohne Messwiederholung, hierarchisch oder teilhierarchisch) varianzanalytisch oder kovarianzanalytisch ausgewertet werden. Bei diesen Analysen sollten ± falls erforderlich ± die flexiblen Mæglichkeiten des ALM genutzt werden. Bei gefåhrdeten Voraussetzungen (insbesondere in Bezug auf die Verteilungsform der statistischen Kennwerte) ist der Einsatz verteilungsfreier Verfahren (z. B. Bortz u. Lienert, 2003) in Erwågung zu ziehen. ÛBUNGSAUFGABEN 1. Nach Gekeler (1974) lassen sich aggressive Reaktionen folgenden Kategorien zuordnen: a1 : reziprok-aggressives Verhalten (auf ein aggressives Verhalten wird in gleicher Weise reagiert), a2 : eskalierend-aggressives Verhalten (auf ein aggressives Verhalten wird mit einer stårkeren Aggression reagiert), a3 : deeskalierend-aggressives Verhalten (auf ein aggressives Verhalten wird mit einer schwåcheren Aggression reagiert).
Von 18 Personen mægen sich 5 reziprok-aggressiv, 6 eskalierend-aggressiv und 7 deeskalierend-aggressiv verhalten. Es soll çberprçft werden, ob sich die 3 VpnGruppen hinsichtlich der Bewertung aggressiven Verhaltens unterscheiden. Mit einem Fragebogen, der die Einstellungen gegençber aggressivem Verhalten misst, mægen sich folgende Werte ergeben haben (je hæher der Wert, desto positiver wird Aggressivitåt bewertet): a1
a2
a3
16 18 15 11 17
18 14 14 17 12 14
12 17 11 9 13 13 12
Erstellen Sie fçr diese Daten eine Designmatrix (Effektcodierung) und çberprçfen Sie nach dem ALM, ob sich die 3 Gruppen hinsichtlich der Bewertung aggressiven Verhaltens unterscheiden. Kontrollieren Sie die Ergebnisse, indem Sie die Daten çber eine einfaktorielle Varianzanalyse auswerten. 2. Ermitteln Sie, wie viele Indikatorvariablen zur Codierung der Vpn-Zugehærigkeit in folgenden Versuchsplånen benætigt werden: a) dreifaktorieller Plan mit p 2, q 3 und r 3, b) einfaktorieller Plan mit Messwiederholungen
n 8, p 4 ), c) dreifaktorieller hierarchischer Plan mit p 2, q 3 und r 2, d) griechisch-lateinisches Quadrat mit p 3. 3. Aus den in Aufgabe 2 genannten Versuchsplånen sollen folgende Effekte getestet werden: zu zu zu zu
2 a) 2 b) 2 c) 2 d)
Interaktion B C , Haupteffekt A; Faktor C, Faktor D.
Konstruieren Sie unter Zuhilfenahme multipler Korrelationen die entsprechenden F-Brçche. (Hinweis: Alle Faktoren haben eine feste Stufenauswahl; die Stichprobenumfånge fçr a), c) und d) sind gleich.)
14
511
Kapitel 15 Faktorenanalyse
ÛBERSICHT Allgemeine Beschreibung der Faktorenanalyse ± historische Entwicklung ± Grundprinzip der PCA (Hauptkomponentenanalyse) ± Faktorwert ± Faktorladung ± Kommunalitåt ± Eigenwert ± Rahmenbedingungen fçr die Durchfçhrung einer PCA ± substantielle Ladungen ± Mathematik der PCA ± Herleitung der ¹charakteristischen Gleichungª ± Bestimmung von Eigenwerten und Eigenvektoren ± Kaiser-Guttman-Kriterium ± Scree-Test ± Parallelanalyse ± Signifikanztest fçr Faktoren ± orthogonale und oblique Faktoren ± Einfachstrukturkriterium ± graphische Rotation ± VarimaxRotation ± Kriteriumsrotation ± Faktorstrukturvergleich ± Modell mehrerer gemeinsamer Faktoren ± Image-Analyse ± Alpha-Faktorenanalyse ± kanonische Faktorenanalyse ± konfirmative Faktorenanalyse ± Cattell's Kovariationsschema (O, P, Q, R, S, T-Technik) ± dreimodale Faktorenanalyse ± longitudinale Faktorenanalyse
Mit der Faktorenanalyse ist ein Verfahren zu behandeln, dessen herausragender Stellenwert fçr viele Fachdisziplinen, insbesondere aber fçr die psychologische Forschung unstrittig ist. Zum Anwendungsfeld der Faktorenanalyse gehæren vor allem explorative Studien, in denen fçr die wechselseitigen Beziehungen vieler Variablen ein einfaches Erklårungsmodell gesucht wird. Insoweit unterscheidet sich die Faktorenanalyse von den bisher behandelten Verfahren, die in Hypothesen prçfenden Untersuchungen einzusetzen sind. Die fçr Hypothesen prçfende Untersuchungen typische Unterteilung von Merkmalen in unabhångige und abhångige Variablen entfållt bei der Faktorenanalyse, deren primåres Ziel darin zu sehen ist, einem græûeren Variablensatz eine ordnende Struktur zu unterlegen. Kap. 15.1 befasst sich zunåchst mit dem Anliegen und den Eigenschaften der Faktorenanalyse. ¹Faktorenanalyseª ist ein Sammelbegriff fçr eine Reihe von Verfahren, von denen nur einige ausfçhrlicher behandelt werden. Hierzu zåhlt die Hauptkomponentenanalyse als die wohl wichtigste
Technik zur Bestimmung sog. ¹Faktorenª, deren Grundprinzip und Interpretation wir unter 15.2 behandeln. Die Mathematik der Hauptkomponentenanalyse ist Gegenstand von 15.3 (ein Durcharbeiten dieses Abschnittes ist fçr faktorenanalytische Anwendungen nicht erforderlich). Unter 15.4 befassen wir uns mit der Frage, wieviele Faktoren benætigt werden, um die Struktur eines Variablensatzes angemessen abbilden zu kænnen. Hilfreich fçr die Interpretation der Faktoren sind sog. Rotationstechniken, auf die wir unter 15.5 eingehen. In 15.6 schlieûlich werden weitere faktorenanalytische Ansåtze summarisch behandelt.
" 15.1 Faktorenanalyse im Ûberblick Erheben wir an einer Stichprobe 2 Variablen, kænnen wir çber die Korrelationsrechnung (vgl. Kap. 6) bestimmen, ob bzw. in welchem Ausmaû die beiden Variablen etwas Gemeinsames messen. Handelt es sich hierbei z. B. um 2 Leistungstests, lieûe sich das Zustandekommen der Korrelation beispielsweise dadurch erklåren, dass beide Tests neben gemeinsamen Leistungsaspekten auch Motivationsunterschiede der Vpn erfassen oder dass die Leistungsmessungen stark von der Intelligenz der Vpn beeinflusst sind. Neben diesen Hypothesen çber das Gemeinsame der beiden Tests sind je nach Art der gemessenen Leistungen weitere Hypothesen mæglich, çber deren Richtigkeit die Korrelation allein keine Anhaltspunkte liefert. Die fçr die praktische Anwendung der Tests åuûerst relevante Frage, was mit den Tests eigentlich gemessen wird, kann auf Grund der Korrelation zwischen den beiden Tests nicht befriedigend beantwortet werden. Ein klareres Bild erhalten wir erst, wenn die beiden Tests zusåtzlich mit anderen Variablen
15
512
Kapitel 15 ´ Faktorenanalyse
korreliert werden, von denen wir wissen oder zumindest annehmen, dass sie entweder reine Motivationsunterschiede oder reine Intelligenzunterschiede erfassen. Korrelieren die Motivationsvariablen hoch mit den Tests, kænnen wir davon ausgehen, dass die Tests vornehmlich Motivationsunterschiede messen; sind die Intelligenzvariablen hoch korreliert, sind die Leistungen der Vpn stark von ihrer Intelligenz beeinflusst. In der Praxis werden wir allerdings nur selten Korrelationskonstellationen antreffen, aus denen sich eindeutige Entscheidungen darçber ableiten lassen, ob die Tests entweder das eine oder das andere messen. Ziehen wir zur Klårung des gefundenen Zusammenhangs weitere Variablen heran, kænnen auch diese mehr oder weniger hoch mit den Tests und miteinander korrelieren, sodass unsere Suche nach dem, was beide Tests gemeinsam messen, schlieûlich in einem Gewirr von Korrelationen endet. Die Anzahl der Korrelationen, die wir simultan berçcksichtigen mçssen, um die Korrelation zwischen den Tests richtig interpretieren zu kænnen, nimmt schnell zu (bei 10 Variablen mçssen wir 45 und bei 20 Variablen bereits 190 Korrelationen analysieren) und çbersteigt rasch die menschliche Informationsverarbeitungskapazitåt. Hilfreich wåre in dieser Situation ein Verfahren, das die Variablen gemåû ihrer korrelativen Beziehungen in wenige, voneinander unabhångige Variablengruppen ordnet. Mit Hilfe eines solchen Ordnungsschemas lieûe sich relativ einfach entscheiden, welche Variablen gemeinsame und welche unterschiedliche Informationen erfassen. Ein Verfahren, das dieses leistet, ist die Faktorenanalyse.
15
Mit der Faktorenanalyse kænnen Variablen gemåû ihrer korrelativen Beziehungen in voneinander unabhångige Gruppen klassifiziert werden.
Die Faktorenanalyse liefert Indexzahlen (sog. Ladungen), die darçber informieren, wie gut eine Variable zu einer Variablengruppe passt. Diese Indexzahlen stellen die Basis fçr interpretative Hypothesen çber das Gemeinsame der Variablen einer Variablengruppe dar.
Bedeutung eines Faktors Umgangssprachlich verstehen wir unter einem ¹Faktorª eine Vervielfåltigungszahl oder auch eine
einen Sachverhalt mitbestimmende Einflussgræûe. Mit der letztgenannten Wortbedeutung haben wir varianzanalytische Faktoren kennengelernt. Faktoren im faktorenanalytischen Sinne hingegen sind hypothetische Græûen, die wir zur Erklårung von Merkmalszusammenhången heranziehen. Eine genauere Wortbedeutung vermittelt der folgende Gedankengang: Besteht zwischen 2 Variablen x und y eine hohe Korrelation, kænnen wir mit der in 13.1 behandelten Partialkorrelation bestimmen, ob diese Korrelation dadurch erklårt werden kann, dass eine dritte Variable z sowohl Variable x als auch Variable y beeinflusst. Dies ist immer dann der Fall, wenn die Korrelation rxy nach Herauspartialisieren der Variablen z praktisch unbedeutend wird. Wenn wir annehmen, dass neben den Variablen x und y weitere Variablen von der Variablen z beeinflusst werden, so hat dies zur Folge, dass alle Variablen hoch miteinander korrelieren. Partialisieren wir die Variable z aus den çbrigen Variablen heraus, resultieren unbedeutende Partialkorrelationen, weil Variable z die mit den çbrigen Variablen erfasste Information hinreichend gut repråsentiert. Je hæher die Variablen miteinander korrelieren, desto åhnlicher sind die Informationen, die durch sie erfasst werden, d. h., die Messung einer Variablen erçbrigt bei hohen Variableninterkorrelationen weitgehend die Messung der anderen Variablen. Damit ist die Zielsetzung der Faktorenanalyse leicht zu verdeutlichen. Ausgehend von den Korrelationen zwischen den gemessenen Variablen wird eine ¹synthetischeª Variable konstruiert, die mit allen Variablen so hoch wie mæglich korreliert. Diese ¹synthetischeª Variable bezeichnen wir als einen Faktor. Ein Faktor stellt somit eine gedachte, theoretische Variable bzw. ein Konstrukt dar, das allen wechselseitig hoch korrelierten Variablen zu Grunde liegt. Wird der Faktor aus den Variablen herauspartialisiert, ergeben sich Partialkorrelationen, die diejenigen Variablenzusammenhånge erfassen, die nicht durch den Faktor erklårt werden kænnen. Zur Klårung dieser Restkorrelationen wird deshalb ein weiterer Faktor bestimmt, der vom ersten Faktor unabhångig ist und der die verbleibenden korrelativen Zusammenhånge mæglichst gut erklårt (auf das Problem korrelierter Faktoren gehen wir unter 15.5 ein). Dieser Faktor wird aus
513
a15.1 Faktorenanalyse im Ûberblick den Restkorrelationen herauspartialisiert, was zu einer erneuten Reduktion der Zusammenhånge zwischen den Variablen fçhrt. Durch Herauspartialisieren weiterer wechselseitig unabhångiger Faktoren werden schlieûlich auch diese Restkorrelationen bis auf einen Messfehler bedingten Rest zum Verschwinden gebracht. Das Ergebnis der Faktorenanalyse sind wechselseitig voneinander unabhångige Faktoren, die die Zusammenhånge zwischen den Variablen erklåren. BEISPIEL Ein kleines Beispiel soll den Grundgedanken der Faktorenanalyse verdeutlichen. In einem Fragebogen werden Personen aufgefordert, u. a. die Richtigkeit der folgenden Behauptungen auf einer Skala einzustufen: 1. Ich erræte leicht. 2. Ich werde håufig verlegen. 3. Ich setze mich gern ans Meer und hære dem Rauschen der Wellen zu. 4. Ich gehe gern im Wald spazieren. Auf Grund der Beantwortungen werden zwischen den Fragen folgende Korrelationen ermittelt: r12 0;80;
r13 0;10;
r14
0;05;
r23 0;15;
r24
0;05;
r34
0;70 :
Es besteht somit zwischen den Behauptungen 1 und 2 sowie zwischen den Behauptungen 3 und 4 ein recht hoher Zusammenhang, wåhrend die Behauptungen 1 und 2 mit den Behauptungen 3 und 4 nur unbedeutend korrelieren. Mit der Faktorenanalyse wçrden wir deshalb einen Faktor ermitteln, der die beiden ersten Behauptungen repråsentiert, und einen zweiten Faktor, der mit dem ersten Faktor zu Null korreliert und das Gemeinsame der beiden letzten Behauptungen erfasst. Partialisieren wir den 1. Faktor aus den 4 Behauptungen heraus, wird die Korrelation r12 betråchtlich reduziert, und die çbrigen Korrelationen bleiben weitgehend erhalten. Wird auch der 2. Faktor aus den Restkorrelationen herauspartialisiert, dçrften såmtliche Korrelationen nahezu vom Betrag Null sein. Dieses Ergebnis besagt, dass auf Grund der Interkorrelationen die Gemeinsamkeiten der 4 Behauptungen durch 2 Faktoren beschrieben werden kænnen. Wegen der korrelativen Beziehungen lassen sich die beiden ersten Behauptungen durch Faktor 1 und die beiden letzten Behauptungen durch Faktor 2 ersetzen.
Das Beispiel verdeutlicht die erste wichtige Eigenschaft der Faktorenanalyse. Sie ermæglicht es, ohne entscheidenden Informationsverlust viele wechselseitig mehr oder weniger hoch korrelierende Variablen durch wenige voneinander unabhångige
Faktoren zu ersetzen. In diesem Sinne fçhrt die Faktorenanalyse zu einer ¹Datenreduktionª. Die Faktorenanalyse ist ein ¹Daten reduzierendesª Verfahren.
Zu fragen bleibt, was die beiden in unserem Beispiel angenommenen synthetischen Variablen bzw. Faktoren inhaltlich bedeuten. Den ersten Faktor ermitteln wir auf Grund der gemeinsamen Varianz zwischen den Fragen 1 und 2. Der Faktor ¹misstª somit das, was die Fragen ¹Ich erræte leichtª und ¹Ich werde håufig verlegenª gemeinsam haben. Die Faktorenanalyse liefert jedoch keinerlei Anhaltspunkte dafçr, was das Gemeinsame dieser Fragen ist, sondern lediglich, dass die untersuchte Stichprobe diese Fragen sehr åhnlich beantwortet hat. Sie gibt uns allerdings auf Grund der Faktorladungen, die wir noch ausfçhrlich behandeln werden, darçber Auskunft, wie hoch die beiden Fragen mit dem Faktor korrelieren. Auf Grund dieser Korrelationen formulieren wir Hypothesen darçber, wie der Faktor inhaltlich zu deuten ist. Bezogen auf die Fragen 1 und 2 kænnen wir vermuten, dass der Faktor so etwas wie ¹neurotische Tendenzenª, ¹vegetative Labilitåtª, ¹innere Unruheª oder åhnliches erfasst, und bezogen auf die Fragen 3 und 4 kænnte man spekulieren, dass eventuell ¹Ruhebedçrfnisª, ¹Liebe zur Naturª oder ¹romantische Neigungenª das Gemeinsame der beiden Fragen kennzeichnen. Faktorenanalysen werden im Allgemeinen nicht eingesetzt, wenn ± wie im oben erwåhnten Beispiel ± nur wenige Variablen zu strukturieren sind, deren korrelative Zusammenhånge auch ohne das rechnerisch aufwendige Verfahren interpretiert werden kænnen. Die Vorzçge dieser Analyse kommen erst zum Tragen, wenn die Anzahl der Variablen vergleichsweise groû ist, sodass eine Analyse der Merkmalszusammenhånge ¹per Augenscheinª praktisch nicht mehr mæglich ist. Durch die Faktorenanalyse wird dem Variablengeflecht eine Ordnung unterlegt, aus der sich die angetroffene Konstellation der Variableninterkorrelationen erklåren låsst. Wie wir noch sehen werden, existiert jedoch nicht nur ein Ordnungsprinzip, das die Merkmalszusammenhånge erklårt, sondern theoretisch unendlich viele. Eine wichtige Aufgabe beim Ein-
15
514
Kapitel 15 ´ Faktorenanalyse
satz einer Faktorenanalyse besteht darin, dasjenige Ordnungssystem herauszufinden, das mit den theoretischen Kontexten der untersuchten Variablen am besten zu vereinbaren ist. Ausgehend von den faktorenanalytischen Ergebnissen formulieren wir Hypothesen çber Strukturen, von denen wir vermuten, dass sie den untersuchten Merkmalen zu Grunde liegen. Dies fçhrt zu einer zweiten Eigenschaft der Faktorenanalyse: Die Faktorenanalyse ist ein heuristisches, Hypothesen generierendes Verfahren.
Eine dritte Eigenschaft leitet sich aus der Analyse komplexer Merkmale ab. Theoriegeleitet definieren wir, durch welche einzelnen Indikatoren komplexe Merkmale, wie z. B. sozialer Status, Erziehungsstil usw. zu operationalisieren sind. Mit der Faktorenanalyse, die çber die einzelnen Indikatorvariablen gerechnet wird, finden wir heraus, ob das komplexe Merkmal ein- oder mehrdimensional ist. Diese Information benætigen wir, wenn ein Test oder ein Fragebogen zur Erfassung des komplexen Merkmals konstruiert werden soll. Im ¹eindimensionalenª Test kænnen die Teilergebnisse zu einem Gesamtergebnis zusammengefasst werden; in Tests zur Erfassung mehrdimensionaler Merkmale hingegen benætigen wir Untertests, die getrennt ausgewertet werden und die zusammengenommen ein Testprofil ergeben. Die Faktorenanalyse ist ein Verfahren zur Ûberprçfung der Dimensionalitåt komplexer Merkmale.
Historischer Steckbrief der Faktorenanalyse
15
Die Entwicklung der Faktorenanalyse begann etwa um die Jahrhundertwende. (Ûber die historischen ¹Vorlåuferª berichtet Mulaik, 1987.) Sie wurde insbesondere von der psychologischen Intelligenzforschung vorangetrieben, die sich darum bemçhte herauszufinden, was Intelligenz eigentlich sei. Spearman (1904) ging in seinem Generalfaktormodell davon aus, dass alle intellektuellen Leistungen maûgeblich von einem allgemeinen Intelligenzfaktor abhången, und dass zusåtzlich bei der Læsung einzelner Aufgaben aufgabenspezifische Intelligenzfaktoren wirksam seien. Diese Theorie, nach der die Varianz jeder Testaufgabe in zwei
unabhångige Varianzkomponenten zerlegbar ist, von denen die eine die allgemeine Intelligenz und die andere die aufgabenspezifische Intelligenz beinhaltet, regte dazu an, Methoden zu ihrer Ûberprçfung zu entwickeln. Spearman sah seine Theorie durch die von ihm entwickelte Tetradenmethode, die als erster Vorlåufer der Faktorenanalyse gilt, beståtigt. (Eine Darstellung dieses historisch bedeutsamen Ansatzes findet der interessierte Leser z. B. bei Pawlik, 1976) Die Spearmansche Theorie wurde erstmalig von Burt (1909, 1914) widerlegt, der in seinem Gruppenfaktormodell zeigte, dass Korrelationen zwischen intellektuellen Leistungen besser durch mehrere gemeinsame Faktoren, die jeweils durch eine Gruppe intellektueller Leistungsvariablen gekennzeichnet sind, erklårt werden kænnen. An der methodischen Weiterentwicklung der Faktorenanalyse war vor allem Thurstone (1931, 1947) beteiligt, der mit seinem Modell mehrerer gemeinsamer Faktoren der Entwicklung mehrdimensionaler Verhaltensmodelle entscheidend zum Durchbruch verhalf. Die heute noch am meisten verbreitete Hauptkomponentenanalyse, die wir ausfçhrlich in 15.2 bzw. 15.3 darstellen werden, geht auf Hotelling (1933) und Kelley (1935) zurçck. Weitere methodische Verbesserungen und Ergånzungen fçhrten dazu, dass die Bezeichnung Faktorenanalyse heute ein Sammelbegriff fçr viele, zum Teil sehr unterschiedliche Techniken ist, von denen wir einige in 15.6 kurz ansprechen werden. Die Entwicklung der Faktorenanalyse wåre zweifellos nicht so stçrmisch verlaufen, wenn nicht gleichzeitig insbesondere von Psychologen die herausragende Bedeutung dieses Verfahrens fçr human- und sozialwissenschaftliche Fragestellungen erkannt und immer wieder nach differenzierteren und mathematisch besser abgesicherten Analysemæglichkeiten verlangt worden wåre. In diesem Zusammenhang sind vor allem Cattell, Eysenck und Guilford zu nennen, die in einer Fçlle von Arbeiten die Bedeutung der Faktorenanalyse fçr die Persænlichkeitsforschung eindrucksvoll belegen. (Ausfçhrlichere Hinweise çber die historische Entwicklung der Faktorenanalyse sind bei Burt, 1966, Royce, 1958, und Vincent, 1953, zu finden.) Nicht unwichtig fçr die sich rasch ausbreitende Faktorenanalyse war letztlich die Entwicklung leistungsstarker elektronischer Datenverarbeitungsanlagen, mit denen auch rechnerisch sehr aufwen-
a15.1 Faktorenanalyse im Ûberblick dige Faktorenanalysen çber græûere Variablensåtze mçhelos gerechnet werden kænnen. Die Mæglichkeit, Faktorenanalysen auf einer EDV-Anlage oder einem PC ohne besondere Probleme durchfçhren zu kænnen, hat allerdings dazu gefçhrt, dass dieses Verfahren gelegentlich unreflektiert eingesetzt wird. Wenn wir von einigen Neuentwicklungen wie z. B. der konfirmativen Faktorenanalyse (vgl. 15.6) einmal absehen, fçhrt die Faktorenanalyse zu interpretativ mehrdeutigen Ergebnissen, die zwar die Hypothesenbildung erleichtern, die jedoch keine Ûberprçfung inhaltlicher Hypothesen çber Variablenstrukturen gestatten. Das Problem der richtigen Bewertung faktorenanalytischer Forschung wird in einer Reihe von Arbeiten, wie z. B. Fischer (1967), Kallina (1967), Kalveram (1970 a u. b), Kempf (1972), Orlik (1967 a), Pawlik (1973), Royce (1973), Sixtl (1967) und Vukovich (1967) diskutiert. Die Anzahl der Lehrbçcher und Aufsåtze zum Thema Faktorenanalyse wåchst ståndig und ist bereits heute kaum noch zu çbersehen. Eine erschæpfende Darstellung dieses Themas ist deshalb in diesem Rahmen nicht mæglich. Wir werden uns auf die ausfçhrliche Darstellung der heute am håufigsten eingesetzten Hauptkomponentenanalyse (vgl. Velicer, 1977) beschrånken, die in der englischsprachigen Literatur ¹Principal Component Analysisª oder kurz: PCA genannt wird. Jolliffe (2002, S. 9) berichtet, dass im ¹Web of Scienceª fçr die Jahre 1999±2000 çber 2000 Publikationen mit dem Begriff ¹Principle Component(s) Analysisª dokumentiert sind. Anwendungen dieser Technik finden sich nicht nur in der Psychologie, sondern in vielen anderen Fachdisziplinen wie z. B. Agrarwissenschaft, Biologie, Chemie, Geographie, Úkonomie, Meteorologie oder Ozeanographie. Auf weitere faktorenanalytische Ansåtze werden wir unter 15.6 kurz eingehen. Fçr eine Vertiefung der faktorenanalytischen Methoden nennen wir im Folgenden einige inzwischen ¹klassischeª Lehrbçcher, die sich ausschlieûlich mit dem Thema Faktorenanalyse befassen. Die einzelnen Werke werden ± natçrlich nur subjektiv ± kurz kommentiert: Arminger (1979): Faktorenanalyse (kompakter, ausfçhrlicher Ûberblick; auch konfirmative Faktorenanalyse; setzt Grundwissen voraus; SPSS und LISREL-Beispiele)
515
Cattell (1952): Factor Analysis (mittlere Schwierigkeit, starke Betonung des Einfachstrukturrotationskriteriums; Kombination von Faktorenanalyse mit experimentellen Versuchsplånen) Comrey (1973): A first course in Factor Analysis (auch mit wenig mathematischen Vorkenntnissen leicht zu lesen, viele Zahlenbeispiele, verzichtet auf Ableitungen, computerorientiert) Fruchter (1954): Introduction to Factor Analysis (grundlegende, einfache Einfçhrung; zeitgenæssische Entwicklungen sind nicht berçcksichtigt) Guertin u. Bailey (1970): Introduction to modern Factor Analysis (inhaltlich orientierte Darstellung mit wenig Mathematik; auf Einsatz von Computern im Rahmen der Faktorenanalyse ausgerichtet; verzichtet auf Vermittlung des mathematischen Hintergrundes der Verfahren) Harman (1968): Modern Factor Analysis (grundlegendes Standardwerk fçr viele faktorenanalytische Techniken; ohne mathematische Vorkenntnisse nicht leicht zu lesen; sehr viele Literaturangaben) Holm (1976): Die Befragung; 3. Die Faktorenanalyse (auch mit wenigen mathematischen Vorkenntnissen verståndlich; behandelt zusåtzlich Spezialfålle der Faktorenanalyse) Horst (1965): Factor Analysis of data matrices (sehr stark matrixalgebraisch orientiert, mit mathematischen Beweisen, çbersichtliche Darstellung der Rechenregeln, Beispiele, viele Rechenprogramme) Jolliffe (2002): Principle Component Analysis. (In der 2. Aufl. derzeit wohl umfangreichstes Werk çber die Hauptkomponentenanalyse. Nicht speziell fçr die Psychologie, sondern ± was die Anwendungsbeispiele anbelangt ± einschlågig fçr viele Fachdisziplinen; setzt Kenntnisse in Matrixalgebra voraus) Lawley u. Maxwell (1971): Factor Analysis as a statistical method (im Wesentlichen auf die Darstellung der Maximum-likelihood Methode von Lawley konzentriert; ohne erhebliche mathematische Vorkenntnisse kaum verståndlich) Mulaik (1972): The Foundations of Factor Analysis (behandelt die mathematischen Grundlagen der Faktorenanalyse, ohne Vorkenntnisse kaum verståndlich) Pawlik (1976): Dimensionen des Verhaltens (sehr ausfçhrliche Darstellung mehrerer faktorenanalytischer Modelle mit gleichzeitiger Behandlung des mathematischen Hintergrundes; viele Beispiele, grundlegende Einfçhrung in Matrixalgebra und analytische Geometrie, im 2. Teil Anwendungen der Faktorenanalyse in der psychologischen Forschung) Revenstorf (1976): Lehrbuch der Faktorenanalyse (Darstellung verschiedener faktorenanalytischer Ansåtze und Rotationstechniken unter Berçcksichtigung neuerer Entwicklungen, mathematischer Hintergrund vorwiegend matrixalgebraisch, zahlreiche graphische Veranschaulichungen, diskutiert die Faktorenanalyse im wissenschaftstheoretischen Kontext) Revenstorf (1980): Faktorenanalyse (Kurzfassung der wichtigsten faktorenanalytischen Methoden; setzt matrixalgebraische Kenntnisse voraus; behandelt die traditionelle explorative Faktorenanalyse sowie die konfirmative Faktorenanalyse)
15
516
Kapitel 15 ´ Faktorenanalyse
Thurstone (1947): Multiple Factor Analysis (vor allem von historischer Bedeutung; u.a. ausfçhrliche Darstellung der Zentroidmethode und des Einfachstrukturkriteriums) Ûberla (1971): Faktorenanalyse (Darstellung mehrerer faktorenanalytischer Methoden, mathematischer Hintergrund relativ kurz, Beispiele EDV-orientiert, Programm fçr eine Rotationstechnik, Einfçhrung in die Matrixalgebra).
Zusåtzlich wird die Faktorenanalyse einfçhrend bei Geider et al. (1982) behandelt und in einigen Lehrbçchern çber multivariate Verfahren, wie z. B. bei Backhaus et al. (1987), Cooley u. Lohnes (1971), Gaensslen u. Schubæ (1973), van de Geer (1971), Hope (1968), Morrison (1990), Overall u. Klett (1972), Press (1972) sowie Timm (2002). Ûber Mæglichkeiten und Grenzen des Einsatzes der Faktorenanalyse in der Persænlichkeitsforschung berichtet Pawlik (1973) in einem von Royce (1973) herausgegebenen Buch çber multivariate Analysen und psychologische Theorienbildung. Einen kritischen Vergleich verschiedener faktorenanalytischer Methoden findet man bei Revenstorf (1978).
" 15.2 Grundprinzip und Interpretation der Hauptkomponentenanalyse
15
Das Prinzip einer PCA (wir çbernehmen diese Abkçrzung fçr principal components analysis) sei an einem einleitenden Beispiel verdeutlicht. Eine Person wird aufgefordert, die 5 folgenden Aufgaben zu læsen: · ein Bilderråtsel (Rebus), · eine Mathematikaufgabe, · ein Puzzle, · eine Reproduktions-(Gedåchtnis-)Aufgabe, · ein Kreuzwortråtsel. Fçr jede Aufgabe i wird die Punktzahl xi zur Kennzeichnung der Qualitåt der Aufgabenlæsung registriert. Lassen wir die Aufgaben von mehreren Personen læsen, kænnen zwischen den Aufgaben Korrelationen berechnet werden. Es ist zu erwarten, dass die 5 Aufgaben mehr oder weniger deutlich miteinander korrelieren, dass also die Punktzahlen nicht unabhångig voneinander sind. Sie kænnten z. B. von der allgemeinen Intelligenz in der Weise abhången, dass Personen mit hæherer
allgemeiner Intelligenz die Aufgaben besser læsen kænnen als Personen mit geringerer Intelligenz. Die allgemeine Intelligenz einer Person m wollen wir mit fm bezeichnen. Zusåtzlich ist die Annahme plausibel, dass das Ausmaû an allgemeiner Intelligenz, das zur Læsung der Aufgaben erforderlich ist, von Aufgabe zu Aufgabe unterschiedlich ist. Die Læsung eines Kreuzwortråtsels beispielsweise setzt weniger allgemeine Intelligenz voraus und ist vor allem eine Sache der Routine, wåhrend die Læsung einer Mathematikaufgabe neben allgemeiner Intelligenz auch ein spezielles, logisch-analytisches Denkvermægen erfordert. Das Ausmaû, in dem allgemeine Intelligenz zur Læsung einer Aufgabe i erforderlich ist, wollen wir mit ai bezeichnen. Die Werte a1 bis a5 geben somit an, in welchem Ausmaû die 5 Aufgaben Intelligenz erfordernde Eigenschaften aufweisen. Ungeachtet irgendwelcher Maûstabsprobleme nehmen wir an, dass sich die Leistungen xmi einer Person m folgendermaûen zusammensetzen: xm1 xm2 xm3 xm4 xm5
9 fm a 1 > > > fm a 2 > = fm a3 Rest. > fm a 4 > > > ; fm a 5
15:1
Nach diesem Gleichungssystem haben wir uns das Zustandekommen eines Wertes xmi folgendermaûen vorzustellen: Die Punktzahl fçr eine Aufgabe i ergibt sich aus dem Produkt der allgemeinen Intelligenz der Person m (fm ) und dem Ausmaû an Intelligenz, das bei der Læsung dieser Aufgabe erforderlich ist (ai ). Erfordert die Aufgabe viel allgemeine Intelligenz, wird sie um so besser gelæst, je mehr allgemeine Intelligenz die Person aufweist. Ist die Aufgabe so geartet, dass allgemeine Intelligenz zu ihrer Læsung nicht benætigt wird, fçhren Intelligenzunterschiede zwischen den Personen nicht zu verschiedenen Punktzahlen. Sicherlich sind mit der allgemeinen Intelligenz die Punktzahlen fçr die Aufgaben nicht eindeutig bestimmt. Es bleibt ein Rest, in dem spezifische Fåhigkeiten der Person enthalten sind, die ebenfalls zur Læsung der Aufgaben beitragen. Zusåtzlich wird die Punktzahl von Zufålligkeiten (Fehlereffekten) beeinflusst sein.
517
a15.2 Grundprinzip und Interpretation der Hauptkomponentenanalyse Man kann z. B. vermuten, dass einige Aufgaben eher theoretische Intelligenzaspekte erfordern, wåhrend andere Aufgaben mehr praktische Intelligenz voraussetzen. Bezeichnen wir die Ausprågung der praktischen Intelligenz bei einer Person m mit fm1 und die Ausprågung der theoretischen Intelligenz mit fm2 und nennen das Ausmaû, in dem die 5 Aufgaben praktische Intelligenz erfordern, a11 bis a51 , und das Ausmaû, in dem die Aufgaben theoretische Intelligenz erfordern, a12 bis a52 , erhalten wir folgende Gleichungen fçr die Punktzahlen einer Person m: 9 xm1 fm1 a11 fm2 a12 > > > xm2 fm1 a21 fm2 a22 > = xm3 fm1 a31 fm2 a32 Rest.
15:2 > xm4 fm1 a41 fm2 a42 > > > ; xm5 fm1 a51 fm2 a52 Die Fåhigkeit, eine Aufgabe zu læsen, stellt sich nun als die Summe zweier gewichteter Intelligenzkomponenten dar. Die Intelligenzkomponenten einer Person werden jeweils damit gewichtet, in welchem Ausmaû die Læsung der jeweiligen Aufgaben diese Intelligenzkomponenten erfordert. Die Intelligenzkomponenten bezeichnen wir als (Intelligenz-)Faktoren, von denen angenommen wird, dass sie die Testleistungen der Personen erklåren. Es ist jedoch davon auszugehen, dass die Messungen xm1 bis xm5 mit diesen beiden Komponenten nicht restfrei erklårt werden kænnen, d. h., es kænnte erforderlich sein, weitere Intelligenzfaktoren (oder besser: Testleistungsfaktoren) zu postulieren. Allgemein formuliert nehmen wir an, dass sich die Leistung einer Person m bezçglich einer Aufgabe i nach folgender Bestimmungsgleichung ergibt:
i Laufindex der p Aufgaben, j Laufindex der q Faktoren, m Laufindex der n Personen. In Matrixschreibweise (vgl. Anhang C) schreiben wir fçr Gl. (15.3 a): X F A0 :
15:3 b
Die fmj - und aij -Werte werden in der PCA so bestimmt, dass nach Gl. (15.3) Messwerte vorhergesagt werden kænnen, die mæglichst wenig von den tatsåchlichen xmi -Werten abweichen. Die PCA geht somit åhnlich wie die multiple Regressionsrechnung vor: Den (unbekannten) b-Gewichten in der multiplen Regression entsprechen die (unbekannten) aij -Werte in der PCA, und den (bekannten) Werten der Prådiktorvariablen in der multiplen Regression entsprechen die (unbekannten) fmj -Werte.
Bestimmung der PCA-Faktoren Fçr Gl. (15.3) lassen sich theoretisch unendlich viele Læsungen finden. Eine dieser Læsungen fçhrt zu den Faktoren der PCA, die durch folgende Eigenschaften gekennzeichnet sind (ausfçhrlicher hierzu vgl. 15.3): 1. Sie sind wechselseitig voneinander unabhångig. 2. Sie erklåren sukzessiv maximale Varianz. Abbildung 15.1 veranschaulicht an einem einfachen Zweivariablenbeispiel, wie die Faktoren in der PCA bestimmt werden. Aufgabe 2 FI
F II
xmi fm1 ai1 fm2 ai2 fmq aiq q X fmj aij :
15:3 a j1
In dieser Gleichung bedeuten: xmi Leistung der Person m bei der i-ten Aufgabe, aij Bedeutung des j-ten Faktors fçr die Læsung der Aufgabe i, fmj Ausstattung der Person m mit dem Faktor j, q Anzahl der Faktoren,
ϕ
Aufgabe 1
Abb. 15.1. Veranschaulichung einer varianzmaximierenden orthogonalen Rotationstransformation
15
518
Kapitel 15 ´ Faktorenanalyse
Die Abbildung zeigt die Leistungen der Vpn in den ersten beiden Aufgaben des oben genannten Beispiels, wobei die Aufgaben 1 und 2 die Achsen des Koordinatensystems bilden. Die Punkte im Koordinatensystem stellen die Vpn dar, deren Koordinaten den bezçglich der Aufgaben 1 und 2 erbrachten Leistungen entsprechen, d. h., die Projektionen der Punkte auf die Achsen ¹Aufgabe 1ª und ¹Aufgabe 2ª geben die Leistungen der Vpn bezçglich dieser Aufgaben wieder. Die Leistungen der Vpn haben in diesem Beispiel auf beiden Achsen annåhernd gleichgroûe Streuungen. Die Art des Punkteschwarms weist zudem darauf hin, dass zwischen den beiden Aufgaben eine hohe positive Kovarianz bzw. Korrelation besteht. Das Koordinatensystem wird nun in der PCA so gedreht (rotiert), dass 1. die Korrelation zwischen den beiden neuen Achsen Null wird und 2. die Punkte auf der 1. neuen Achse (F I) maximale Varianz haben.
15
In Abb. 15.1 werden die beiden ursprçnglichen Achsen um den Winkel u entgegen dem Uhrzeigersinn zu den neuen Achsen F I und F II rotiert. Ausgehend von den Projektionen der Vpn auf die neuen Achsen, unterscheiden sich die Vpn auf der Achse F I erheblich mehr als auf der alten Achse ¹Aufgabe 1ª, wåhrend die Unterschiede auf der neuen Achse F II gegençber den Unterschieden auf der alten Achse ¹Aufgabe 2ª kleiner geworden sind. Eine Vorhersage der Ausprågungen auf der Achse F II auf Grund der Ausprågungen auf der Achse F I ist nicht mæglich, denn die beiden neuen Achsen korrelieren zu Null miteinander. Darçber, was die beiden neuen Achsen F I und F II inhaltlich bedeuten, kann man ± zumal in diesem Beispiel nur 2 Variablen berçcksichtigt wurden ± nur Vermutungen anstellen. Plausibel erscheint jedoch, dass ein groûer Teil der Leistungsunterschiede sowohl bei der Læsung des Bilderråtsels (Aufgabe 1) als auch der Mathematikaufgabe (Aufgabe 2) durch das Konstrukt ¹Logisches Denkenª bedingt sind. Ein weiterer Teil kænnte vielleicht damit erklårt werden, dass die Punktzahlen fçr beide Aufgaben auch von der Kreativitåt der Vpn abhången. Die hohe Korrelation zwischen beiden Aufgaben wåre demnach auf die Konstrukte ¹Logisches Denkenª (F I) und ¹Kreativitåtª (F II) zurçckzufçhren, denn beide Konstrukte ± so unsere Ver-
mutung ± bestimmen die Læsungszeiten fçr das ¹Bilderråtselª und die ¹Mathematikaufgabeª. Eine Rotation, bei der die Rechtwinkligkeit der Achsen erhalten bleibt, bezeichnet man als orthogonale Rotationstransformation. Orthogonale Rotationstransformationen sind nicht nur fçr 2, sondern allgemein fçr p Variablen durchfçhrbar. (Im oben erwåhnten Beispiel ist p 5.) Die p Variablen machen ein geometrisch nicht mehr zu veranschaulichendes, p-dimensionales Koordinatensystem auf. Dieses Koordinatensystem wird so gedreht, dass die Projektionen der Vpn auf einer der p neuen Achsen maximal streuen. Diese neue Achse klårt dann von der Gesamtvarianz der Leistungen der Vpn einen maximalen Anteil auf. Die verbleibenden p 1 Achsen werden wiederum so gedreht, dass von der Restvarianz, die durch die erste neue Achse nicht aufgeklårt wird (in Abb. 15.1 ist dies die Varianz der Projektionen der Punkte auf die Achse F II), eine weitere Achse einen maximalen Anteil aufklårt. Nach Festlegung der ersten beiden Achsen werden die verbleibenden p 2 Achsen so gedreht, dass eine dritte neue Achse von der restlichen Varianz, die durch die beiden ersten Achsen nicht erfasst wird, einen maximalen Anteil aufklårt usw. Die p-te Achse ist nach Festlegung von p 1 Achsen nicht mehr frei rotierbar. Sie klårt zwangslåufig einen minimalen Varianzanteil auf. Dieses Vorgehen bezeichnet man als eine sukzessiv varianzmaximierende, orthogonale Rotationstransformation. Fçr p 3 stellen wir uns vor, dass der Punkteschwarm in Abb. 15.1 nicht 2-, sondern 3-dimensional ist (¹Punktewolkeª) und dass die 3. Dimension senkrecht auf der Ebene F I±F II steht. (Die 3. Dimension kann beispielsweise durch einen Bleistift, der senkrecht im Ursprung des Koordinatensystems auf die Buchseite gesetzt wird, verdeutlicht werden.) Diese 3. Achse mæge bereits maximale Varianz aufklåren, sodass die Punkte in Abb. 15.1 die Restvarianz veranschaulichen. Diese Restvarianz basiert auf den Projektionen der Vpn auf die Ebene F I±F II. Nach Festlegung der ¹Raumachseª (die dem senkrecht stehenden Bleistift entsprechen mæge) kænnen die beiden çbrigen Achsen beliebig in der zur ¹Raumachseª senkrecht stehenden Ebene rotiert werden. Dies geschieht in der Weise, dass eine der beiden verbleibenden Achsen von der Restvarianz einen maximalen Varianzanteil aufklårt. Man erhålt so die
a15.2 Grundprinzip und Interpretation der Hauptkomponentenanalyse Position der Achse F I. Nachdem die ¹Raumachseª und die Achse F I festgelegt sind, ist die Position von F II ebenfalls bestimmt, da sie sowohl zu F I als auch zur ¹Raumachseª senkrecht stehen muss. Die Projektionen der Vpn-Punkte auf die neuen Achsen lassen sich mathematisch als gewichtete Summen (Linearkombinationen) der Projektionen auf die alten Achsen darstellen (vgl. 15.3). Die Projektionen auf die alten Achsen sind jedoch nichts anderes als die Messwerte der Vpn auf den p-Variablen, sodass die Projektionen auf die neuen Achsen Linearkombinationen der ursprçnglichen Messwerte darstellen. Fçr diese Linearkombinationen werden in der PCA Gewichte errechnet, die einerseits orthogonale Rotationstransformationen bewirken (d. h. Drehungen des Achsensystems unter Beibehaltung der Rechtwinkligkeit der Achsen) und die andererseits dazu fçhren, dass die neuen Achsen sukzessiv maximale Varianz aufklåren. Die so ermittelten neuen Achsen stellen die PCA-Faktoren dar. Durch diese Technik der Ermittlung der PCA-Faktoren (in der faktorenanalytischen Terminologie sprechen wir von der ¹Extraktionstechnikª der Faktoren) ist sichergestellt, dass der erste ¹extrahierteª Faktor fçr die Erklårung der Vpn-Unterschiede auf den p Variablen am wichtigsten ist, gefolgt vom zweiten Faktor, dem dritten etc. . . . . PCA-Faktoren sind wechselseitig unabhångig und erklåren sukzessiv maximale Varianz.
Mit der PCA transformieren wir somit p Variablenachsen in p neue Achsen, wobei die Græûe der Varianzen auf den neuen Achsen durch die Hæhe der Variableninterkorrelationen bestimmt ist. Korrelieren im Extremfall alle Variablen wechselseitig zu 1, kann die gesamte Varianz aller Vpn auf allen Variablen mit einer einzigen neuen Achse erfasst werden (wie wir aus der bivariaten Regressionsrechnung wissen, liegen in diesem Fall såmtliche Punkte auf einer Geraden, die mit der neuen Achse identisch ist). Sind die Korrelationen hingegen såmtlich vom Betrag Null, benætigen wir zur Aufklårung der Gesamtvarianz ebensoviele Faktoren, wie Variablen vorhanden sind. In diesem Fall entsprechen die Faktoren den Variablen, d. h., jeder Faktor klårt genau die Varianz einer Variablen auf.
519
Je hæher die Variablen (absolut) miteinander korrelieren, desto weniger Faktoren benætigen wir zur Aufklårung der Gesamtvarianz.
Die Vpn-Messwerte auf p Variablen werden durch ¹Messwerteª auf q neuen Achsen ersetzt, wobei wir fçr empirische Daten den Fall vællig unkorrelierter Variablen ausschlieûen kænnen, d. h., q wird immer kleiner als p sein. Hiermit ist der datenreduzierende Aspekt der PCA verdeutlicht. Eine Antwort auf die Frage, wieviele Faktoren einem Variablensatz zu Grunde liegen, geben wir in 15.4.
Kennwerte der Faktorenanalyse Fçr die Interpretation einer PCA bzw. allgemein einer Faktorenanalyse werden einige Kennwerte berechnet, die im Folgenden erlåutert werden.
Faktorwerte. Wir wollen einmal annehmen, dass die Positionen der neuen Achsen bekannt seien. Werden die Projektionen der Vpn auf die neuen Achsen pro Achse z-standardisiert, erhalten wir neue Werte, die als Faktorwerte der Vpn bezeichnet werden. Die z-standardisierten Achsen selbst sind die Faktoren. Der Faktorwert fmj einer Vp m kennzeichnet die Position dieser Vp auf dem Faktor j. Er gibt darçber Auskunft, wie stark die in einem Faktor zusammengefassten Merkmale bei dieser Vp ausgeprågt sind.
Faktorladung. Jede Vp ist durch q Faktorwerte und p Messungen auf den ursprçnglichen Variablen beschreibbar. Korrelieren wir die Faktorwerte der Vpn auf einem Faktor j mit den Messungen auf einer Variablen i, erhalten wir einen Wert, der als Ladung der Variablen i auf dem Faktor j bezeichnet wird. Diese Ladung wird durch das Symbol aij bezeichnet. Eine Faktorladung aij entspricht der Korrelation zwischen einer Variablen i und einem Faktor j.
15
520
Kapitel 15 ´ Faktorenanalyse
Kommunalitåt. Aus der Elementarstatistik wissen wir, dass das Quadrat einer Korrelation den Anteil gemeinsamer Varianz zwischen den korrelierten Messwertreihen angibt. Das Quadrat der Ladung
a2ij einer Variablen i auf einem Faktor j kennzeichnet somit den gemeinsamen Varianzanteil zwischen der Variablen i und dem Faktor j. Summieren wir die quadrierten Ladungen einer Variablen i çber alle Faktoren, erhalten wir einen Wert h2 , der angibt, welcher Anteil der Varianz einer Variablen durch die Faktoren aufgeklårt wird. In der PCA gehen wir çblicherweise von Korrelationen, d. h. von Kovarianzen z-standardisierter Variablen aus, d. h., die Varianz der Variablen ist jeweils vom Betrag 1. Es gilt somit folgende Beziehung: 0 h2i
q X j1
a2ij 1 :
15:4
Die Summe der quadrierten Ladungen einer Variablen kann nicht græûer als 1 werden. Ûblicherweise wird diese Summe Kommunalitåt (abgekçrzt: h2 ) genannt. Die Kommunalitåt einer Variablen i gibt an, in welchem Ausmaû die Varianz dieser Variablen durch die Faktoren aufgeklårt bzw. erfasst wird.
15
Theoretisch låsst sich die Anzahl der Faktoren soweit erhæhen, bis die Varianzen aller Variablen vollståndig erklårt sind. Im Allgemeinen werden wir jedoch die Faktorenextraktion vorher abbrechen, weil die einzelnen Variablen bereits durch wenige Faktoren bis auf unbedeutende Varianzanteile erfasst sind, von denen wir vermuten kænnen, dass sie auf fehlerhafte, unsystematische Effekte zurçckgehen (vgl. 15.4). In der Regel wird die Kommunalitåt h2 deshalb kleiner als eins sein.
Eigenwert. Summieren wir die quadrierten Ladungen der Variablen auf einem Faktor j, ergibt sich mit kj (griech.: lambda) die Varianz, die durch diesen Faktor j aufgeklårt wird. Die Gesamtvarianz aller p Variablen hat den Wert p, wenn die Variablen ± wie çblich ± durch Korrelationsberechnungen z-standardisiert sind. kj Varianzaufklarung durch Faktor j p X a2ij p : i1
15:5
Der Wert kj , der die durch einen Faktor j erfasste Varianz kennzeichnet, heiût Eigenwert des Faktors j. Der Eigenwert kj eines Faktors j gibt an, wie viel von der Gesamtvarianz aller Variablen durch diesen Faktor erfasst wird.
Dividieren wir kj durch p, resultiert der Varianzanteil des Faktors j an der Gesamtvarianz bzw. ± multipliziert mit 100% ± der prozentuale Varianzanteil. Der Eigenwert desjenigen Faktors, der am meisten Varianz erklårt, ist um so græûer, je hæher die Variablen miteinander korrelieren. (Eine genauere Analyse der Beziehung zwischen der durchschnittlichen Variableninterkorrelation r und dem græûten Eigenwert kmax findet man bei Friedman u. Weisberg, 1981.) Ist die Varianz eines Faktors kleiner als 1 (d. h. kleiner als die Varianz einer einzelnen Variablen), wird dieser Faktor im Allgemeinen fçr unbedeutend gehalten. Er kann wegen der geringen Varianzaufklårung nicht mehr zur Datenreduktion beitragen. (Weitere Kriterien zur Bestimmung der Anzahl der bedeutsamen Faktoren werden wir unter 15.4 kennenlernen.) BEISPIEL Im Folgenden soll die PCA an einem auf Thurstone (1947, S. 117 ff.) zurçckgehenden Beispiel verdeutlicht werden, das zwar inhaltlich bedeutungslos ist, das aber die Grundintention der PCA klar herausstellt. (Ein weiteres Beispiel wird in 15.5 behandelt.) Untersuchungsmaterial sind 3 9 Zylinder, deren Durchmesser und Lången in Tabelle 15.1 zusammengestellt sind. (Warum in der Zylinderstichprobe jeder Zylinder 3-mal vorkommt, wird in der Originalarbeit nicht begrçndet.) Tabelle 15.1. Durchmesser
d und Lången
` von 27 Zylindern Zylinder Nr. d `
Zylinder Nr. d `
Zylinder Nr. d `
1 2 3 4 5 6 7 8 9
10 11 12 13 14 15 16 17 18
19 20 21 22 23 24 25 26 27
1 2 3 1 2 3 1 2 3
2 2 2 3 3 3 4 4 4
1 2 3 1 2 3 1 2 3
2 2 2 3 3 3 4 4 4
1 2 3 1 2 3 1 2 3
2 2 2 3 3 3 4 4 4
521
a15.2 Grundprinzip und Interpretation der Hauptkomponentenanalyse Tabelle 15.2. Korrelationsmatrix der 6 Zylindermerkmale
d ` a c v t
d
`
a
c
v
t
Zylinder
FI
FII
1,00
0,00 1,00
0,99 0,00 1,00
0,81 0,54 0,80 1,00
0,90 0,35 0,91 0,97 1,00
0,56 0,82 0,56 0,87 0,77 1,00
1 2 3 4 5 6 7 8 9
±1,45 ±0,63 0,43 ±1,01 ±0,10 1,10 ±0,57 0,45 1,79
±0,59 ±1,01 ±1,58 0,52 0,04 ±0,59 1,65 1,13 0,44
Tabelle 15.3. Faktorladungen und Kommunalitåten
h2 der 6 Zylindermerkmale FI d ` a c v t
FII
0,88 0,46 0,88 0,98 0,98 0,86
±0,46 0,89 ±0,46 0,10 ±0,11 0,48
k1 4;43
k2 1;46
h2 0,99 1,00 0,99 0,98 0,97 0,97
Durch den Durchmesser und die Långe ist die Form eines Zylinders eindeutig festgelegt. Zusåtzlich zu diesen beiden Bestimmungsstçcken werden pro Zylinder 4 weitere Maûe bzw. Variablen errechnet: 1. 2. 3. 4. 5. 6.
Tabelle 15.4. Faktorwerte der Zylinder
Durchmesser (d), Långe (`), Grundflåche (a p d2 =4), Mantelflåche (c p d `), Volumen (v pp d2 `=4), Diagonale (t d2 `2 ) .
Jeder Zylinder ist somit durch 6 Messwerte gekennzeichnet. Tabelle 15.2 zeigt die Korrelationen zwischen den 6 Variablen. Wie die Tabelle zeigt, wurden die Durchmesser und die Lången als voneinander unabhångige Græûen so gewåhlt, dass sie zu Null miteinander korrelieren. Die Grundflåche, die nur vom Durchmesser abhångig ist, korreliert ebenfalls zu Null mit der Långe des Zylinders. Die 6 Zylindermessungen spannen einen 6-dimensionalen Raum auf, in dem sich die 27 Zylinder gemåû ihrer Merkmalsausprågungen befinden. In der PCA wird das Koordinatensystem so gedreht, dass die einzelnen Achsen einerseits wechselseitig voneinander unabhångig sind und andererseits sukzessiv maximale Varianz aufklåren. Die Korrelationen zwischen den ursprçnglichen Merkmalsachsen und den neuen Achsen sind die Ladungen der Merkmale auf den neuen Achsen (Faktoren). Diese sind in Tabelle 15.3 wiedergegeben. Tabelle 15.4 enthålt die Faktorwerte, die die Positionen der Zylinder auf den neuen Achsen kennzeichnen. (Es sind nur die Faktorwerte der 9 verschiedenen Zylinder aufgefçhrt.)
Ausgangsmaterial fçr eine PCA ist çblicherweise die Matrix der Interkorrelationen der Variablen (gelegentlich werden auch Kovarianzen faktorisiert). Jede Variable hat ± bedingt durch die z-Standardisierung, die implizit mit der Korrelationsberechnung durchgefçhrt wird, s. Gl. (6.59) ± eine Varianz von 1, sodass sich fçr p 6 Variablen eine Gesamtvarianz von 6 ergibt. Die Varianz, die der 1. Faktor aufklårt, erhalten wir, wenn gemåû Gl. (15.5) die Ladungen der p Variablen auf dem ersten Faktor quadriert und aufsummiert werden. In unserem Beispiel resultiert k1 4;43, d. h., der 1. Faktor klårt 73;8% (4,43 von 6) der Gesamtvarianz auf. Fçr den 2. Faktor ermitteln wir k2 1;46, d. h., auf den 2. Faktor entfallen 24; 3% der Gesamtvarianz. Beide Faktoren klåren somit zusammen 98;1% der Gesamtvarianz auf. Die zwei Faktoren beschreiben damit die Zylinder praktisch genauso gut wie die 6 ursprçnglichen Merkmale. Mit einer 2-faktoriellen Læsung war auf Grund der Konstruktion der 6 Merkmale zu rechnen. Unterschiede zwischen den Zylinderformen lassen sich nach den oben beschriebenen Beziehungen eindeutig auf die Merkmale Långe und Durchmesser zurçckfçhren. Man kænnte deshalb meinen, dass mit 2 Faktoren die Gesamtvarianz vollståndig und nicht nur zu 98;1% håtte aufgeklårt werden mçssen. Dass dies nicht der Fall ist, liegt daran, dass die Merkmale zum Teil nicht linear voneinander abhången. Mit der PCA erfassen wir jedoch nur diejenigen Merkmalsvarianzen, die sich auf Grund linearer Beziehungen aus den Faktoren vorhersagen lassen. Aus dem gleichen Grund sind die Kommunalitåten, die wir nach Gl. (15.4) berechnen, nicht durchgehend vom Betrag 1.
15
522
Kapitel 15 ´ Faktorenanalyse
Graphische Darstellung. Die Interpretation der Faktoren wird erleichtert, wenn die Merkmale gemåû ihrer Ladungen in ein Koordinatensystem, dessen Achsen die Faktoren darstellen, eingetragen werden. (Fçhrt die PCA zu mehr als 2 Faktoren, benætigen wir fçr jedes Faktorenpaar eine eigene Darstellung.) Abbildung 15.2 zeigt die graphische Veranschaulichung der PCA-Læsung. Alle Variablen haben auf dem 1. Faktor (F I) positive Ladungen, d. h., sie korrelieren positiv mit dem 1. Faktor. Eine Interpretation dieser Faktorenlæsung, die sich an den Variablen mit den hæchsten Ladungen (Markiervariablen) orientieren sollte, fållt schwer. Da die am hæchsten ladenden Variablen Mantelflåche (c) und Volumen (v) jedoch stark den optischen Eindruck von der Græûe eines Zylinders bestimmen, lieûe sich der 1. Faktor als Græûenfaktor interpretieren. Der 2. Faktor (F II) wird im positiven Bereich vor allem durch die Långe (`) und im negativen Bereich durch den Durchmesser (d) und die Grundflåche (a), die nur vom Durchmesser abhångt, bestimmt. Man kænnte daran denken, diesen Faktor als Formfaktor (Långe vs. Durchmesser) zu bezeichnen, auf dem kurze, dicke und lange, schlanke Zylinder unterschieden werden. Faktor I wurde durch die PCA so bestimmt, dass mit ihm ein maximaler Varianzanteil aufF II
F II'
1,0 l
0,8 0,6
t
0,4
15
0,2 c
-1,0 -0,8 -0,6 -0,4 -0,2
0,2 - 0,2
0,4
0,6
v d
- 0,4 - 0,6
1,0 F I
0,8
a
F I'
- 0,8 -1,0
Abb. 15.2. Veranschaulichung der PCA-Læsung çber das Zylinderbeispiel
geklårt wird. Von der verbleibenden Varianz klårt Faktor II wieder einen maximalen Varianzanteil auf. Die Restvarianz nach Extraktion von 2 Faktoren (1;9%) ist zu klein, um noch einen dritten, sinnvoll interpretierbaren Faktor extrahieren zu kænnen. Die gefundenen Faktoren erfçllen zwar das Kriterium der PCA, nach dem sie sukzessiv maximale Varianz aufklåren sollen; sie sind jedoch nicht mit denjenigen Variablen identisch, die tatsåchlich die gesamte Merkmalsvarianz generieren, nåmlich dem Durchmesser und der Långe. Kombinationen dieser beiden Merkmale, wie beispielsweise die Mantelflåche (c) oder das Volumen (v), kænnen die Græûenunterschiede der Zylinder offenbar besser erfassen als eines der beiden systematisch variierten Merkmale. In diesem Zusammenhang kænnte man zu Recht einwenden, dass eine PCA-Læsung, die die beiden tatsåchlich varianzgenerierenden Merkmale als Faktoren ausweist, sinnvoller wåre als eine Læsung, nach der die Faktoren zwar sukzessiv maximale Varianz aufklåren, die aber inhaltlich nur schwer zu interpretieren ist. Hier zeigt sich die Uneindeutigkeit faktorenanalytischer Ergebnisse. Die PCA-Læsung stellt nur eine ± wenngleich mathematisch am einfachsten zu ermittelnde ± Læsung von unendlich vielen Læsungen dar. Die çbrigen Læsungen erhalten wir, wenn das Koordinatensystem der Faktoren in Abb. 15.2 um einen beliebigen Winkel rotiert wird. Dadurch resultieren neue Ladungen der Merkmale auf den rotierten Achsen, die die Variableninterkorrelationen in gleicher Weise erklåren wie die ursprçngliche PCA-Læsung. Es existiert kein objektives Kriterium dafçr, welche dieser unendlich vielen Læsungen die ¹richtigeª ist. Man entscheidet sich letztlich fçr diejenige Læsung, die nach dem jeweiligen Stand der Theorienbildung çber die untersuchten Variablen am plausibelsten ist. In unserem Beispiel ist es naheliegend, das Faktorensystem so zu rotieren, dass F I durch das Merkmal ¹Durchmesserª und F II durch das Merkmal ¹Långeª optimal repråsentiert werden. Dies ist in Abb. 15.2 geschehen, in der F I0 und F II0 die rotierten Faktoren bezeichnen. Die Unabhångigkeit der Merkmale Durchmesser und Långe wird in der rotierten Læsung dadurch ersichtlich, dass das Merkmal d auf F II0 und das Merkmal ` auf F I0 keine Ladungen haben.
Im Normalfall wird die PCA zur Aufklårung einer Korrelationsmatrix von Variablen eingesetzt, deren faktorielle Struktur im Gegensatz zum Zylinderbeispiel nicht bekannt ist. Die PCA liefert eine Læsung mit bestimmten mathematischen Eigenschaften, die jedoch sehr selten auch inhaltlich gut zu interpretieren ist. PCA-Læsungen sind deshalb vor allem dazu geeignet festzustellen, wie viele Faktoren (und nicht welche Faktoren) den Merkmalskorrelationen zu Grunde liegen. Ûber die statistische Absicherung dieser Faktorenanzahl werden wir unter 15.4 berichten. Bessere Interpretationsmæglichkeiten bieten im Allgemeinen Faktorenstrukturen, die nach analytischen Kriterien rotiert wurden, çber die unter 15.5 berichtet wird. (Dass man die ¹richtigeª Læsung im Zylinderbeispiel auch mit einer analytischen Rotationstechnik findet, zeigen wir auf S. 550 f.)
Bemerkungen zur Anwendung Bevor wir uns der rechnerischen Durchfçhrung einer PCA zuwenden, seien noch einige allgemeine Hinweise zum Einsatz der PCA erwåhnt. Die PCA ist als ein Daten reduzierendes und Hypothesen generierendes Verfahren nicht dazu geeignet, inhaltliche Hypothesen çber die Art einer Faktorenstruktur zu çberprçfen. Die Uneindeutigkeit des Verfahrens, die auf der formalen Gleichwertigkeit verschiedener Rotationslæsungen beruht (s. unter 15.5), låsst es nicht zu, eine Læsung als richtig und eine andere als falsch zu bezeichnen. Ausgehend von diesem gemåûigten Anspruch, den wir mit der PCA verbinden, sind einige Forderungen an das zu faktorisierende Material, die von einigen Autoren (z. B. Guilford, 1967, oder Comrey, 1973, Kap. 8) erhoben werden, nur von zweitrangiger Bedeutung.
Nicht-lineare Zusammenhånge. Nehmen wir in eine PCA Variablen auf, die nicht linear zusammenhången, sind andere faktorenanalytische Ergebnisse zu erwarten, als wenn dieselben Variablen linear miteinander korrelieren wçrden. Entscheidend ist die Interpretation, die ± bezogen auf die hier behandelte PCA ± davon auszugehen hat, dass nur die durch die Korrelationsmatrix beschriebenen linearen Zusammenhånge berçcksichtigt werden. Ist bekannt, dass eine Variable mit den çbrigen in bestimmter, nichtlinearer Weise zusammenhångt, sollte diese Variable zuvor einer linearisierenden
15
523
a15.2 Grundprinzip und Interpretation der Hauptkomponentenanalyse
Transformation unterzogen werden (vgl. 6.1.3). Woodward u. Overall (1976b) empfehlen bei nicht-linearen Zusammenhången eine PCA çber rangtransformierte Variablen. (Weitere Hinweise zur Behandlung nichtlinearer Zusammenhånge in der PCA findet man bei Jolliffe, 2002, Kap. 14, Gnanadesikan, 1977, oder bei Hicks, 1981. Eine nonmetrische Variante der Faktorenanalyse wurde von Kruskal u. Shepard, 1974, entwickelt.)
Stichprobengræûe und substantielle Ladungen. Um zu mæglichst stabilen, vom Zufall weitgehend unbeeinflussten Faktorenstrukturen zu gelangen, sollte die untersuchte Stichprobe mæglichst groû und repråsentativ sein. Es ist zu beachten, dass die Anzahl der Faktoren theoretisch nicht græûer sein kann als die Anzahl der Untersuchungseinheiten (vgl. hierzu auch Aleamoni, 1976, oder Witte, 1978). Fçr eine generalisierende Interpretation einer Faktorenstruktur sollten nach Guadagnoli u. Velicer (1988) die folgenden Bedingungen erfçllt sein: · Wenn in der Planungsphase dafçr gesorgt wurde, dass auf jeden zu erwartenden Faktor 10 oder mehr Variablen entfallen, ist ein Stichprobenumfang von n 150 ausreichend. · Wenn auf jedem bedeutsamen Faktor (vgl. hierzu 15.4) mindestens 4 Variablen Ladungen çber 0,60 aufweisen, kann die Faktorenstruktur ungeachtet der Stichprobengræûe generalisierend interpretiert werden. · Das gleiche gilt fçr Faktorstrukturen mit Faktoren, auf denen jeweils 10 bis 12 Variablen Ladungen um 0,40 oder darçber aufweisen. · Faktorstrukturen mit Faktoren, auf denen nur wenige Variablen geringfçgig laden, sollten nur interpretiert werden, wenn n 300 ist. Fçr n < 300 ist die Interpretation der Faktorstruktur von den Ergebnissen einer Replikation abhångig zu machen. Die Autoren entwickeln ferner eine Gleichung, mit der sich die Stabilitåt (FS) einer Faktorenstruktur abschåtzen låsst. Sie lautet mit einer geringfçgigen Modifikation FS 1
1;10 x1
0;12 x2 0;066 ;
15:6
wobei p x1 1= n ; x2 minimaler Ladungswert, der bei der Interpretation der Faktoren berçcksichtigt wird.
524
Kapitel 15 ´ Faktorenanalyse
Werden in einer Faktorenstruktur z. B. nur Ladungen çber 0,60 zur Interpretation herangezogen (x2 0;6), perrechnet man fçr n 100 (bzw. x1 1= 100 0;1) FS 1
1;10 0;1
0;12 0;6 0;066
0;896 : Fçr n 400 ergibt sich FS 0;951. Dies ist natçrlich vorerst nur ein deskriptives Maû zum Vergleich der Gçte verschiedener Faktorlæsungen, çber dessen praktische Brauchbarkeit bislang wenig bekannt ist. Den Ausfçhrungen der Autoren låsst sich entnehmen, dass Faktorenstrukturen mit FS < 0;8 nicht interpretiert werden sollten. Eine gute Ûbereinstimmung zwischen ¹wahrerª und stichprobenbedingter Faktorenstruktur liegt vor, wenn FS 0;9 ist. Eine weitere Gleichung zur Beschreibung der Stabilitåt von PCA-Faktoren wurde von Sinha u. Buchanan (1995) entwickelt. In dieser Gleichung ist die Faktorenstabilitåt eine Funktion von n und q (Anzahl der bedeutsamen Faktoren, vgl. 15.4). Auûerdem wird gezeigt, dass die Stabilitåt eines Faktors j auch davon abhångt, wie stark der Eigenwert kj dieses Faktors vom vorangehenden und nachfolgenden Eigenwert abweicht
kj 1 kj ; kj kj1 . Hohe Differenzwerte wirken sich gçnstig auf die Faktorstabilitåt aus. Ausfçhrlichere Informationen zum Thema ¹Stichprobengræûeª findet man bei MacCallum et al. (1999).
15
Skalenniveau der Variablen. Wichtig ist ferner die Frage, welches Skalenniveau die zu faktorisierenden Merkmale aufweisen mçssen, was gleichbedeutend mit der Frage ist, welche Korrelationsarten fçr eine PCA geeignet sind. Wir empfehlen, nur solche Variablen zu faktorisieren, zwischen denen die Enge des linearen Zusammenhangs bestimmt werden kann. Rangkorrelationen und Kontingenzkoeffizienten, die den Zusammenhang zwischen ordinalen bzw. nominalen Merkmalen quantifizieren, sind somit fçr die Faktorenanalyse weniger geeignet (vgl. hierzu jedoch die Arbeiten zur ¹multiplen Korrespondenzanalyseª ± MCA ± wie z. B. Gordon u. Primavera, 1993, Tenenhaus u. Young, 1985, de Leeuw u. Rijckevorstel, 1980, oder Kiers, 1991a). Idealerweise setzt sich eine Korrelationsmatrix nur aus Produktmomentkorrelationen zwischen Merkmalen mit Intervallskalencharakter zusammen.
Bezçglich der Anzahl der Intervalle auf den Intervallskalen gilt nach Martin et al. (1974), dass mit geringeren Faktorladungen und Kommunalitåten zu rechnen ist, je weniger Intervalle die Skalen aufweisen. Die gesamte Struktur wird jedoch auch dann nicht erheblich veråndert, wenn dichotomisierte Merkmale faktorisiert werden, deren Zusammenhånge çber U-Koeffizienten (s. Gl. 6.106) ermittelt wurden (bzw. çber punktbiseriale Korrelationen, wenn sowohl dichotomisierte als auch kardinalskalierte Merkmale vorkommen). Sind die Merkmalsalternativen jedoch stark asymmetrisch besetzt, sodass Umax nicht 1 werden kann (vgl. S. 228 ff.), ist mit mehr Faktoren zu rechnen als im Fall symmetrisch, unimodal verteilter Merkmale. Wie in diesem Fall vorzugehen ist, wird bei Hammond u. Lienert (1995) beschrieben. Weitere Hinweise zur Faktorenanalyse von U-Koeffizienten findet man bei Collins et al. (1986). Im Folgenden wenden wir uns der rechnerischen Durchfçhrung einer PCA zu. Wer nur an Anwendungsfragen interessiert ist, mag diesen Abschnitt çbergehen und mit den Kriterien fçr die Anzahl der Faktoren fortfahren, die in 15.4 behandet werden.
15.3 Rechnerische Durchfçhrung der Hauptkomponentenanalyse In der PCA wird das Koordinatensystem mit den zu faktorisierenden Merkmalen als Achsen so gedreht, dass neue Achsen entstehen, die sukzessiv maximale Varianz aufklåren. Wir gliedern in Anlehnung an Tatsuoka (1971) den Gedankengang, der zu den neuen Achsen fçhrt, in folgende Schritte: · Wie sind Rotationen des Koordinatensystems mathematisch darstellbar? · Wie wirken sich Rotationen des Koordinatensystems auf Mittelwerte, Varianzen und Korrelationen der Merkmale aus? · Wie muss das Koordinatensystem rotiert werden, damit die neuen Achsen sukzessiv maximale Varianz aufklåren? · Wie kænnen Faktorladungen und Faktorwerte rechnerisch bestimmt werden? Abschlieûend werden wir die einzelnen Rechenschritte an einem kleinen Beispiel verdeutlichen.
Rotationstransformation Zunåchst wird gezeigt, dass sich die Koordinaten der Vpn auf den neuen Achsen als Linearkombinationen der ursprçnglichen Koordinaten darstellen lassen (zum Begriff der Linearkombination vgl. S. 465). Liegen von einer Vp p Messungen x1 ; x2 . . . xp vor, so ergibt sich unter Verwendung der Gewichtungskoeffizienten v1 ; v2 . . . vp eine Linearkombination nach der Beziehung: y v1 x1 v2 x2 . . . vp xp :
15:7
Eine Vp mæge auf 2 Variablen die Werte 7 und 11 erhalten haben. Diese Vp ist in Abb. 15.3 in ein Koordinatensystem eingetragen (Punkt P), dessen Achsen X1 und X2 aus den Variablen x1 und x2 bestehen. Rotieren wir das Achsenkreuz um einen Winkel von beispielsweise u 30 entgegen dem Uhrzeigersinn, so erhalten wir fçr den Punkt P verånderte Koordinaten auf den neuen Achsen Y1 und Y2 . Derartige Verånderungen von Koordinaten, die durch Drehung des Koordinatensystems entstehen, bezeichnet man als Rotationstransformationen. Die Koordinaten y1 und y2 auf den neuen Achsen Y1 und Y2 ermitteln wir in folgender Weise: Fçr y2 schreiben wir: y2 PD cos u ;
15:8
x2 14
y2
12
14 H
F
P ϕ
10
12 10
ϕ
8 8
6 6
14 ϕ 22
D
4
12 10
8
4 2
y1
6
2 2 2
ϕ12 22
4 ϕ11 ϕ 21 4
ϕ = 30°
6
8
10
12
14
x1
E
15
525
a15.3 Rechnerische Durchfçhrung der Hauptkomponentenanalyse
wobei PD Strecke zwischen den Punkten P und D. Ferner gilt PD x2
DE
und
DE x1 tg u :
Eingesetzt in Gl. (15.8) erhalten wir somit fçr y2 : y2
x2
x1 tg u cos u ;
cos u x2
cos u tg u x1 ;
cos u x2
sin u x1 :
15:9
Fçr y1 ergibt sich: y1 HP cos u ;
15:10
wobei HP HF x1 und HF x2 tg u. Fçr y1 resultiert deshalb: y1
x2 tg u x1 cos u ; cos u tg u x2 cos u x1 ; sin u x2 cos u x1 :
15:11
Die neuen Koordinaten heiûen somit zusammengefasst: y1
cos u x1
sin u x2 ;
15:12 a
y2
sin u x1
cos u x2 :
15:12 b
Setzen wir die entsprechenden Winkelfunktionen fçr u 30 ein (cos 30 0;866 und sin 30 0;500), erhalten wir als neue Koordinaten: y1 0;866 7 0;500 11 11;56 ; y2
0;500 7 0;866 11 6;03 :
In Abb. 15.3 sind die Winkel, die sich nach der Rotation zwischen den neuen Y-Achsen und den alten X-Achsen ergeben, eingezeichnet. Die Indizes der Winkel geben an, zwischen welcher alten Achse (1. Index) und welcher neuen Achse (2. Index) der jeweilige Winkel besteht. Der Winkel u21 ist somit z. B. der Winkel zwischen der alten X2 -Achse und der neuen Y1 -Achse. Alle Winkel werden entgegen dem Uhrzeigersinn gemessen. In Abhångigkeit vom Rotationswinkel u ergeben sich die einzelnen, zwischen den Achsen bestehenden Winkel zu: u11 u ; u21 270 u ; u12 90 u ; u22 u :
Abb. 15.3. Veranschaulichung einer Rotationstransformation
Unter Verwendung der trigonometrischen Beziehung
526
Kapitel 15 ´ Faktorenanalyse
cos
90 u sin u
dar. Dieses System von Linearkombinationen låsst sich gemåû Gl.
C 8 in Matrixschreibweise folgendermaûen vereinfacht darstellen:
und wegen cos
270 u cos
90
u
erhalten wir fçr die Winkelfunktionen in Gl. (15.12 a u. b) cos u cos u11 ; sin u cos
90
u cos u21 ;
Fçr Gl. (15.12 a u. b) kænnen wir deshalb auch schreiben: y1
cos u11 x1
cos u21 x2 ;
15:12 c
y2
cos u12 x1
cos u22 x2 ;
15:12 d
bzw. in der Terminologie einer Linearkombination gem. Gl. (15.7): y1 v11 x1 v21 x2 ;
15:13 a
y2 v12 x1 v22 x2 :
15:13 b
Entsprechen die Gewichtungskoeffizienten vij in Gl. (15.13) den cos der Winkel zwischen der i-ten X-Achse und der j-ten Y-Achse, stellt die Linearkombination eine Rotationstransformation dar.
Liegen Daten einer Vp auf p Variablen vor, låsst sich die Vp als Vektor in einem p-dimensionalen Koordinatensystem darstellen, wobei wiederum die p Variablen die Achsen des Koordinatensystems bilden. Rotieren wir das Koordinatensystem in allen p
p 1=2 Ebenen des Koordinatensystems, erhalten wir die neuen Koordinaten y1 ; y2 . . . yp çber folgende Linearkombinationen: y1 v11 x1 v21 x2 . . . vp1 xp ; y2 v12 x1 v22 x2 . . . vp2 xp ; .. . yj v1j x1 v2j x2 . . . vpj xp ; .. . yp v1p x1 v2p x2 . . . vpp xp : Auch im p-dimensionalen Fall stellen die Gewichtungskoeffizienten vij bei einer Rotationstransformation die cos der Winkel zwischen der i-ten alten Achse
Xi und der j-ten neuen Achse
Yj
15:14
y1 ; y2 . . . yp 0
v11 B v21 B
x1 ; x2 . . . xp B . @ .. vp1
sin u cos
90 u cos u12 ; cos u cos u22 :
15
y0 x0 V 1 v12 . . . v1p v22 . . . v2p C C .. .. C : . . A vp2 . . . vpp
Hierin sind: y0 Zeilenvektor der p neuen Vp-Koordinaten, x0 Zeilenvektor der p alten Vp-Koordinaten, V Matrix der Gewichtungskoeffizienten, die wegen der oben erwåhnten Eigenschaften auch als Matrix der Richtungs-cos bezeichnet wird. Rotationstransformationen sind somit als Linearkombinationen darstellbar. Als Nåchstes wollen wir çberprçfen, welche Besonderheiten Linearkombinationen, die Rotationstransformationen bewirken, gegençber allgemeinen Linearkombinationen aufweisen. Hierzu betrachten wir Gl. (15.12 a), die eine Rotation der alten X1 -Achse um den Winkel u bewirkt. In dieser Gleichung treten der sin und cos des Rotationswinkels u als Gewichtungskoeffizienten der ursprçnglichen Koordinaten x1 und x2 auf. Zwischen diesen Winkelfunktionen besteht folgende einfache Beziehung: sin2 u cos2 u 1 : Diese Beziehung gilt auch fçr Gl. (15.12 b). Allgemein: Eine Linearkombination zweier Variablen yj v1j x1 v2j x2 bewirkt eine Rotationstransformation, wenn gilt: 2 2 v2j 1: v1j
15:15
Ist diese Beziehung erfçllt, stellt yj die Koordinate des Punktes P auf der neuen Yj -Achse dar. Die neue Yj -Achse hat zu den alten Achsen (Xi ) Winkel, deren cos vom Betrag vij sind. (Bezogen auf den Rotationswinkel u ist cos u v1j und sin u v2j .) Als Nåchstes wollen wir çberprçfen, ob diese fçr zwei Variablen gçltige Beziehung auch fçr 3 Variablen gilt. Abbildung 15.4 veranschaulicht ein
527
a15.3 Rechnerische Durchfçhrung der Hauptkomponentenanalyse
Bilden wir die Summe der quadrierten cos und setzen die Långe des Vektors y1 in Gl. (15.16) ein, erhalten wir:
x2
cos2 u11 cos2 u21 cos231
P
02 02 x02 1 x2 x3 02 02 x1 x2 x02 3
1: y1 ϕ21 ϕ11
P' x1
ϕ31
Auch im dreidimensionalen Fall muss somit bei einer Rotationstransformation die Summe der quadrierten Richtungs-cos bzw. die Summe der quadrierten Gewichtungskoeffizienten 1 ergeben. Da sich der gleiche Gedankengang auf den allgemeinen Fall mit p Variablen çbertragen låsst (der allerdings geometrisch nicht mehr darstellbar ist), kænnen wir formulieren: p X
x3
Abb. 15.4. Rotationstransformation im dreidimensionalen Raum
dreidimensionales Koordinatensystem, dessen Achsen durch die Variablen X1 , X2 und X3 bestimmt sind. Y1 stellt die neue Achse nach der Rotation der X1 -Achse in den drei Ebenen (X1 , X2 ), (X1 , X3 ) und (X2 , X3 ) dar. u11 , u21 und u31 sind die Winkel zwischen den drei alten X-Achsen und der neuen Y1 -Achse. Eine Vp mæge auf den drei Variablen die Werte x1 , x2 und x3 erhalten haben (Punkt P in Abb. 15.4). Punkt P0 kennzeichnet die y1 -Koordinate der Vp auf der neuen Y1 -Achse. Die (unbekannten) Koordinaten des Punktes P0 im unrotierten Koordinatensystem wollen wir mit x01 , x02 und x03 bezeichnen. Fçr die Winkel ergeben sich dann folgende Beziehungen: x01 ; y1 x0 cos u21 2 ; y1 x0 cos u31 3 : y1 cos u11
15:16 0
Da y1 den Abstand des Punktes P vom Ursprung darstellt, kænnen wir auch schreiben: q 02 02 y1 x02 1 x2 x3 :
i1
vij2 1 :
Eine Linearkombination
yj v1j x1 v2j x2 . . . vpj xp stellt immer dann eine Rotationstransformation dar, wenn die Summe der quadrierten Gewichtungskoeffizienten 1 ergibt.
Orthogonale Rotationstransformation. Wenn nicht nur eine, sondern mehrere X-Achsen rotiert werden, kænnen die neuen Y-Achsen rechtwinklig (orthogonal) oder schiefwinklig (¹obliqueª) aufeinanderstehen. Da wir uns im Rahmen der PCA nur fçr orthogonale Koordinatenachsen interessieren, muss çberprçft werden, unter welcher Bedingung die neuen Achsen nach der Rotation wieder senkrecht aufeinanderstehen. In unserem Zwei-Variablen-Beispiel wurden beide X-Achsen um den gleichen Winkel gedreht, sodass die neuen Y-Achsen natçrlich auch wieder senkrecht aufeinanderstehen. Die Koordinaten des Punktes P auf den beiden neuen Y-Achsen ergeben sich hierbei als Linearkombinationen der Koordinaten des Punktes P auf den alten X-Achsen nach den Gl. (15.12 a und b): y1
cos u x1
sin u x2 ; y2
sin u x1
cos u x2 : In diesen Gleichungen ergibt das Produkt der Gewichtungskoeffizienten fçr x1 (korrespondierende Gewichtungskoeffizienten) zusammen mit dem Produkt der Gewichtungskoeffizienten fçr x2 :
15
528
Kapitel 15 ´ Faktorenanalyse
cos u
sin u sin u cos u 0 : Verwenden wir statt der Winkelfunktionen die allgemeinen Gewichtungskoeffizienten vij gemåû Gl. (15.13), resultiert: v11 v12 v21 v22 0 bzw. im allgemeinen Fall: v11 v12 v21 v22 . . . vp1 vp2 0 :
15:17
Zwei neue Y-Achsen stehen dann orthogonal aufeinander, wenn die Summe der Produkte der korrespondierenden Gewichtskoeffizienten 0 ergibt.
Fassen wir zusammen: 1. Wird in einem p-dimensionalen Raum, dessen orthogonale Achsen durch p Variablen gebildet werden, eine Achse Xi in allen (oder einigen) der p
p 1=2 Ebenen des Koordinatensystems zur neuen Achse Yj rotiert, dann stellt die Linearkombination yj v1j x1 v2j x2 . . . vpj xp die Koordinate eines Punktes P auf der Yj-Achse dar, wenn die Bedingung p X i1
15
vij2 1
15:18
erfçllt ist. Hierbei hat der Punkt P im ursprçnglichen Koordinatensystem die Koordinaten x1 ; x2 . . . xP , und v1j ; v2j . . . vpj sind die cos der Winkel zwischen den alten X1 ; X2 . . . Xp -Achsen und der neuen Yj -Achse. 2. Werden in einem p-dimensionalen Raum, dessen orthogonale Achsen durch die p Variablen gebildet werden, die Achsen Xi und Xi0 rotiert, dann stehen die rotierten Achsen Yj und Yj0 senkrecht aufeinander, wenn die Summe der Produkte der korrespondierenden Gewichtungskoeffizienten in den beiden, die Rotationstransformationen bewirkenden Linearkombinationen (yj v1j x1 v2j x2 . . . vpj xp und yj0 v1j0 x1 v2j0 x2 . . . vpj0 xp ) Null ergibt: p X
vij vij0 0 :
15:19
i1
Sind bei zwei Linearkombinationen sowohl Gl. (15.18) als auch (15.19) erfçllt, sprechen wir von einer orthogonalen Rotationstransformation. [Wie wir noch sehen werden, sind Gl. (15.18) und (15.19) allerdings nur die notwendigen Bedingun-
gen fçr eine orthogonale Rotationstransformation.] Eine orthogonale Rotationstransformation bedeutet nicht, dass eine Achse orthogonal, d. h. um 90 gedreht wird, sondern dass beide Achsen um denselben Winkel gedreht werden, wobei die Orthogonalitåt zwischen den beiden Achsen gewahrt bleibt. Fçr eine orthogonale Rotation im zweidimensionalen Koordinatensystem mçssen somit mindestens drei Einzelbedingungen erfçllt sein: 1. 2. 3.
2 2 v11 v21 1, 2 2 v12 v22 1, v11 v12 v21 v22 0.
Sollen orthogonale Rotationstransformationen mit den drei Achsen eines dreidimensionalen Koordinatensystems durchgefçhrt werden, mçssen bereits die folgenden sechs Einzelbedingungen erfçllt sein: 1. 2. 3. 4. 5. 6.
2 2 2 v11 v21 v31 1, 2 2 2 v12 v22 v32 1, 2 2 2 v13 v23 v33 1, v11 v12 v21 v22 v31 v32 0, v11 v13 v21 v23 v31 v33 0, v12 v13 v22 v23 v32 v33 0.
(1) bis (3) gewåhrleisten, dass die drei Achsen rotiert werden und (4), (5) und (6) bewirken, dass die Achsen 1 und 2, 1 und 3 sowie 2 und 3 wechselseitig senkrecht aufeinanderstehen. Da die Anzahl der bei orthogonalen Rotationstransformationen zu erfçllenden Einzelbedingungen in hæher dimensionierten Råumen schnell anwåchst, empfiehlt es sich, die Bedingungen fçr orthogonale Rotationstransformationen in Matrixschreibweise auszudrçcken. Die Bedingung fçr eine einfache Rotationstransformation lautet zunåchst nach Gl. (15.18): p X i1
vij2 1 :
Hierfçr schreiben wir: v0j vj 1 :
15:20
Die Ausfçhrung dieses Produktes zeigt, dass Gl. (15.18) und (15.20) identisch sind.
0
1 v1j B v2j C B C
v1j ; v2j ; . . . ; vpj B . C @ .. A vpj 2 2 2 v2j . . . vpj v1j
x2 12
10 p X i1
8 8
vij2 :
6
v11 @ v12 v13
v21 v22 v23 0
v31 v32 A v33
0
v11 @ v21 v31
V v12 v22 v32
1
v13 v23 A v33
I
1 1 0 0 @0 1 0A: 0 0 1 Fçr die Diagonalelemente von I ergeben sich: 2 2 2 v21 v31 1; I11 v11 2 2 2 v22 v32 1; I22 v12 2 2 2 v23 v33 1: I33 v13
Fçr die Elemente auûerhalb der Diagonalen errechnen wir: I12 I21 v11 v12 v21 v22 v31 v32 0 ; I13 I31 v11 v13 v21 v23 v31 v33 0 ; I23 I32 v12 v13 v22 v23 v32 v33 0 : 0
Die Bedingung V V I enthålt damit sowohl die unter Gl. (15.20) als auch unter Gl. (15.19) genannten Voraussetzungen.
Reflexion. Dass V0 V I noch keine eindeutige orthogonale Rotationstransformation bewirkt, zeigt der folgende Gedankengang: In unserem eingangs erwåhnten Beispiel (Abb. 15.3) wurde eine orthogonale Rotationstransformation mit der Matrix
8 6
2 2
2
4
2
ϕ = 30°
4
6
P' 8 10
12 x1
-2 -4 -6
Hierin ist I die Identitåtsmatrix (vgl. Anhang C, I). Unter Verwendung der Regeln fçr Matrizenmultiplikationen (vgl. Anhang C, II) erhalten wir im dreidimensionalen Fall: 1
y1
10
4 4
15:21
V
12
6
V0 V I :
0
P
10
12
Die fçr orthogonale Rotationstransformationen geltenden notwendigen Voraussetzungen lassen sich summarisch in folgendem Matrizenprodukt zusammenfassen:
0
15
529
a15.3 Rechnerische Durchfçhrung der Hauptkomponentenanalyse
-8 -10 -12
y2
Abb. 15.5. Rotationstransformation mit Reflexion
V
cos 30 sin 30
sin 30 cos 30
durchgefçhrt. Die Bedingung V0 V I ist hierbei erfçllt. Betrachten wir hingegen die Matrix sin 30 cos 30 ; W sin 30 cos 30 mçssen wir feststellen, dass auch hier die Bedingung W0 W I erfçllt ist. Wie Abb. 15.5 zeigt, stellen Linearkombinationen unter Verwendung der Transformationsmatrix W jedoch keine reine orthogonale Rotationstransformation dar. Die neuen Koordinaten fçr P lauten: y 0;866 7 0;500 11 11;56 ; 1
y2 0;500 7
0;866 11
6;03 :
Auf der Y2-Achse hat der Punkt P somit nicht, wie bei einer orthogonalen Rotationstransformation um 30 zu erwarten, die Koordinate y2 6;03, sondern die Koordinate y2 6;03. Es wurde somit nicht nur das Koordinatensystem rotiert, sondern zusåtzlich die Achse Y2 an der Y1-Achse gespiegelt oder reflektiert. Die Verwendung von W als Transformationsmatrix bewirkt somit keine reine orthogonale Rotationsformation, sondern eine orthogonale Rotationstransformation mit zusåtzlicher Reflexion. Der Unterschied beider Ma-
530
Kapitel 15 ´ Faktorenanalyse
trizen wird deutlich, wenn wir ihre Determinanten betrachten. Fçr jVj erhalten wir nach Gl. (C 15): jVj cos2 u
i1
sin2 u 1
und fçr jWj: cos2 u
jWj
sin2 u
1:
Die beiden Determinanten unterscheiden sich somit im Vorzeichen. Eine orthogonale Rotationstransformation wird nur bewirkt, wenn zusåtzlich zu der Bedingung V0 V I die Bedingung jVj 1
15:22
erfçllt ist. Ist jVj 1, multiplizieren wir eine Spalte von V mit 1 und erhalten jVj 1. Hat eine Matrix V die Eigenschaften V0 V I und jVj 1, so bezeichnen wir die Matrix als orthogonale Matrix. Eine orthogonale Matrix hat die Eigenschaften V0 V I und jVj 1.
Bisher sind wir davon ausgegangen, dass lediglich von einer Vp Messungen x1 ; x2 ; . . . ; xp auf p Variablen vorliegen. Untersuchen wir n Vpn, erhalten wir eine Datenmatrix X, die p Messwerte von n Vpn enthålt. Unter Verwendung der Transformationsmatrix V kænnen wir nach der folgenden allgemeinen Beziehung fçr jede Vp Linearkombinationen ihrer Messwerte ermitteln:
15
y11 B y21 B B .. @ . yn1 0
x11 B x21 B B .. @ . xn1
Y y12 y22 .. . yn2
1 y1p y2p C C .. C . A ynp
X x12 x22 .. . xn2
10 x1p v11 B v21 x2p C CB .. CB .. . A@ . xnp vp1
Mittelwerte. Im Folgenden wollen wir çberprçfen, welche Beziehungen zwischen den Mittelwerten der ursprçnglichen x-Variablen (Spalten von X) und den Mittelwerten der aus den x-Werten durch Linearkombinationen gewonnenen y-Werten (Spalten von Y) bestehen. Zur terminologischen Vereinfachung bezeichnen wir Linearkombinationen verschiedener Vpn, die unter Verwendung gleicher Gewichte ermittelt wurden, als homologe Linearkombinationen. Demnach sind die in einer Spalte von Y befindlichen Linearkombinationen homolog. Der Mittelwert der homologen Linearkombinationen (z. B. 1. Spalte von Y) ergibt sich zu: y1
n 1 X ym1 : n m1
Ersetzen wir ym1 durch die rechte Seite von Gl. (15.24) und setzen j 1, erhalten wir:
Mittelwerte, Varianzen und Korrelationen von Linearkombinationen
0
ymj v1j xm1 v2j xm2 vpj xmp p X vij xmi :
15:24
15:23
y1
n 1 X
v11 xm1 v21 xm2 vp1 xmp : n m1
Ziehen wir das Summenzeichen in die Klammer, ergibt sich: y1
1 n
v11
vp1
n X m1
n X
xm1 v21 !
n X
xm2
m1
xmp :
m1
Nach Auflæsung der Klammer resultiert:
V v12 v22 .. . vp2
1 v1p v2p C C .. C : . A vpp
Die j-te Linearkombination einer Person m
ymj errechnet sich nach:
n n 1 X 1 X y1 v11 xm1 v21 xm2 n m1 n m1 n 1 X vp1 xmp n m1
v11 x1 v21 x2 . . . vp1 xp : Entsprechendes gilt fçr alle çbrigen homologen Linearkombinationen (Spalten von Y), sodass wir schreiben kænnen:
0 y 1 0 y1 v11 B y2 C B v12 B C B B .. C B .. @ . A @ . yp
v1p
V0 1 0 x 1
15:25 v21 . . . vp1 x1 B x2 C v22 . . . vp2 C C B C C B .. C A @ . A xp v2p . . . vpp
bzw. in Analogie zu Gl. (15.14): y 0 x0 V : Das arithmetische Mittel homologer Linearkombinationen entspricht der Linearkombination der Mittelwerte der ursprçnglichen Variablen.
Ist V eine orthogonale Matrix (d. h., V0 V I und jVj 1), beinhaltet y die durchschnittlichen Koordinaten der n Vpn auf den neuen Achsen nach orthogonaler Rotationstransformation des ursprçnglichen Koordinatensystems.
Varianzen und Korrelationen. Als Nåchstes betrachten wir die Varianzen der ursprçnglichen x-Variablen (Spalten von X) und die Korrelationen zwischen den Variablen (zwischen je 2 Spalten von X). Wir wollen çberprçfen, welche Beziehungen zwischen den Varianzen (Korrelationen) der X-Matrix der ursprçnglichen Werte und den Varianzen (Korrelationen) der Linearkombinationen in der Y-Matrix bestehen. Die Varianz einer Variablen i ergibt sich gemåû Gl. (1.16) zu: n P
xmi xi 2 s2xi m1 : n Fçr die Korrelation zwischen zwei Variablen i und j erhalten wir nach Gl. (6.58): n P
xmi xi
xmj xj rxi xj m1 : n sxi sxj Da n, sxi und sxj konstant sind, gençgt es, wenn wir in unsere Betrachtungen nur die Ausdrçcke n P a)
xmi xi 2 , b)
m1 n P
m1
xmi
xi
xmj
xj
einbeziehen, wobei a) und b) fçr i j identisch sind. Wir definieren eine Matrix D, in deren Dia-
15
531
a15.3 Rechnerische Durchfçhrung der Hauptkomponentenanalyse
gonale sich die Quadratsummen (d. h. die Summen der quadrierten Abweichungen der individuellen Werte vom Mittelwert) befinden (a). Auûerhalb der Diagonale stehen die Summen der Produkte der korrespondierenden Abweichungen der individuellen Werte auf zwei Variablen vom jeweiligen Variablenmittelwert, die wir kurz als Kreuzproduktsummen bezeichnen wollen (b). Matrixalgebraisch låsst sich die D-Matrix folgendermaûen darstellen: D X0 X
0
X X:
15:26
Hier ist X die Matrix der Mittelwerte, in der die individuellen Werte der einzelnen Vpn auf einer Variablen durch den jeweiligen Variablenmittelwert ersetzt sind. Dividieren wir die D-Matrix durch n, resultiert die Varianz-Kovarianz-Matrix der Variablen (vgl. S. 189), in deren Diagonale sich die Varianzen der Variablen befinden: 1 COV D :
15:27 n Werden die Elemente von COV durch die jeweiligen Produkte si sj dividiert, resultiert die Korrelationsmatrix R der Variablen: RS
1
1
COV S
15:28
1
mit S Diagonalmatrix mit den Elementen 1=sj . Bezeichnen wir nun die D-Matrix der ursprçnglichen x-Variablen mit D
x und die der linearkombinierten y-Variablen mit D
y, erhalten wir gemåû Gl. (15.26): D
x X0 X
0
15:29
0
15:30
X X
und D
y Y0 Y
Y Y:
Setzen wir in Gl. (15.30) fçr Y die rechte Seite von Gl. (15.23) ein, ergibt sich: D
y
X V0
X V
0
Y Y:
15:31
Nach Gl. (15.23) und (15.25) ermitteln wir fçr Y: Y X V:
15:32
Durch diese Gleichung wird die X-Matrix, in der die ursprçnglichen Variablenwerte der Vpn durch die jeweiligen Variablenmittelwerte ersetzt sind, in die Y-Matrix transformiert, in der die homologen Linearkombinationen durch ihren jeweiligen Mit-
532
Kapitel 15 ´ Faktorenanalyse
telwert ersetzt sind. Substituieren wir Y in Gl. (15.31) durch die rechte Seite von Gl. (15.32), resultiert: D
y
X V0
X V
V0 X0
X V
X V0
X V 0
V0 X
X V
(gemaû Gl. C 11) 0
V0
X0 X V
V0
X X V
(gemaû Gl. C 10) : Durch Ausklammern von V0 und V erhalten wir: D
y V0
X0 X
0
X X V :
Da nun gemåû Gl. (15.29)
X0 X ergibt sich:
0
X X D
x,
15:33
BEISPIEL Wir wollen diese wichtige Beziehung zwischen der D
x-Matrix der ursprçnglichen x-Werte und der D
y-Matrix der linearkombinierten y-Werte an einem kleinen Beispiel demonstrieren. Vier Vpn haben auf zwei Variablen die folgenden Werte erhalten:
15
1
2
2 3 1 1
3 2 3 4
1;325
1;325
3;919
:
Zum gleichen Ergebnis kommen wir, wenn die einzelnen Vpn-Punkte auf Grund der Rotation des Achsenkreuzes um 30 erst transformiert werden und dann die D
y-Matrix fçr die einzelnen transformierten Werte berechnet wird. Nach Gl. (15.23) erhalten wir die folgenden transformierten y-Werte: V 0 Y 0 X 1 1 2 3 3;232 1;598 B3 2C B 0;866 0;500 3;598 0;232 C B C C B @ 1 3 A 0;500 @ 2;366 2;098 A : 0;866 1 4 2;866 2;964 Die Matrix D
y kann ± ausgehend von Y ± auch nach Gl. (15.30) bestimmt werden: D
y Y0 Y Y Y 3;232 3;598 2;366 D
y 1;598 0;232 2;098 0 1 3;232 1;598 B 3;598 0;232 C B C B C @ 2;366 2;098 A 2;866 2;964 3;016 3;016 3;016 1;723 1;723 1;723 0 1 3;016 1;723 B 3;016 1;723 C B C B C @ 3;016 1;723 A
Bei einem Rotationswinkel von u 30 ergibt sich V zu: 0;866 0;500 : V 0;500 0;866 Nach Gl. (15.33) folgt fçr D
y:
2;00 2;00
0;500 0;866
2;866
2;964
3;016 1;723
3;016 1;723 37;203 19;458 36;373 19;458 15;794 20;783 0;830 1;325 : 1;325 3;919
Es soll eine orthogonale Rotationstransformation um 30 (gegen Uhrzeiger) durchgefçhrt werden. Wie lautet die D
y-Matrix der transformierten Werte? Fçr D(x) ermitteln wir: 2;75 2;00 D
x : 2;00 2;00
D
y V0 D
x V 0;866 0;500 2;75 D
y 0;500 0;866 2;00 0;866 0;500 0;500 0;866 1;382 0;732 0;866 3;107 2;732 0;500
0;831
0
D
y V0 D
x V :
1 2 3 4
20;783 11;875
Wie ein Vergleich zeigt, ist die nach Gl. (15.33) ermittelte D
y-Matrix bis auf Rundungsungenauigkeiten mit der nach Gl. (15.23) und (15.30) ermittelten D
y-Matrix identisch. Im Folgenden, insbesondere bei der Behandlung varianzmaximierender Rotationen, werden wir jedoch die mathematisch einfacher zu handhabende Gl. (15.33) benutzen. Ausgehend von der D
x-Matrix kænnen wir die Varianzen der ursprçnglichen Variablen und die Korrelationen zwischen den ursprçnglichen Variablen leicht ermitteln. Nach Gl. (15.27) erhalten wir: 2;75 2;00 1 COV
x 4 2;00 2;00 0;69 0;50 : 0;50 0;50 Die Varianzen der Variablen lauten somit: s2x1 0;69; s2x2 0;50. Fçr die Korrelationsmatrix ergibt sich nach (15.28):
a15.3 Rechnerische Durchfçhrung der Hauptkomponentenanalyse 0
1 0;69 0;50 p p p p B 0;69 0;69 0;69 0;50 C C R
x B @ A 0;50 0;50 p p p p 0;50 0;69 0;50 0;50 1;00 0;85 : 0;85 1;00 Zur Ermittlung der R-Matrix wird jedes Element cov
xij der COV
x-Matrix durch das Produkt der entsprechenden Streuungen sxi und sxj dividiert. Fçr die lineartransformierten y-Werte erhalten wir: 0;83 1;33 1 COV
y 4 1;33 3;92 0;21 0;33 und 0;33 0;98 1;00 0;73 R
y : 0;73 1;00
Der Vergleich zwischen COV
x und COV
y zeigt einen bemerkenswerten Tatbestand: Die Summe der Diagonalelemente, d. h. die Summe der Varianzen, ist in beiden Matrizen identisch. Dies bedeutet, dass die Gesamtvarianz beider Variablen nicht veråndert wird. Die Rotationstransformation bewirkt lediglich eine andere Verteilung der Gesamtvarianz. Wåhrend die Varianzen der beiden ursprçnglichen x-Variablen annåhernd gleich sind (s2x1 0;69; s2x2 0;50), haben sich durch die orthogonale Rotationstransformation wesentliche Varianzanteile auf die Y2 -Achse verlagert (s2y1 0;21; s2y2 0;98). Bei einer Rotationstransformation bleibt die Gesamtvarianz der p Variablen erhalten; die Transformation fçhrt jedoch zu einer anderen Verteilung der Varianz auf den neuen Achsen.
Orthogonale Rotationstransformation und PCA. Das Ziel der PCA besteht darin, orthogonale Rotationstransformationen zu finden, die bewirken, dass s2y1 maximal (und damit im Zwei-Variablen-Beispiel s2y2 minimal) wird. Anders formuliert: Gesucht wird eine neue Achse Y1 , die von der Gesamtvarianz aller Variablen maximale Varianz erfasst, und eine Achse Y2 , die die verbleibende Restvarianz aufklårt. Im Fall mehrerer Variablen soll s2y1 maximale Varianz aufklåren, und die weiteren Achsen Yj werden so rotiert, dass sie von der jeweils verbleibenden Rest-
533
varianz wiederum jeweils maximale Varianz aufklåren. Kurz: Die ursprçnglichen Variablenachsen X1 ; X2 . . . XP sollen so rotiert werden, dass die neuen Achsen Y1 ; Y2 . . . YP sukzessiv maximale Varianz aufklåren. Ein absolutes Maximum wçrde fçr s2y1 im ZweiVariablen-Beispiel dann resultieren, wenn die beiden ursprçnglichen Variablen zu 1 miteinander korrelieren. Es liegen dann såmtliche Punkte auf der Regressionsgeraden, die mit der rotierten Y1 -Achse identisch ist. In diesem Fall ist s2y1 s2x1 s2x2 und s2y2 0. Sind hingegen die beiden Variablen unkorreliert, so erhalten wir (bei bivariat normalverteilten Variablen) einen kreisfærmigen Punkteschwarm, und jede beliebige Rotation fçhrt dazu, dass die Varianz jeder Y-Achse mit der Varianz der X-Achsen identisch ist. Entsprechendes gilt fçr den allgemeinen Fall mit p Variablen: Je hæher die ursprçnglichen Variablen miteinander korrelieren, desto græûer wird die maximale Varianz s2y1 sein. Das Zahlenbeispiel zeigt ferner, dass die Korrelation zwischen den Variablen durch die Rotation kleiner geworden ist (rx12 0;85; ry12 0;73). In der PCA werden orthogonale Rotationstransformationen gesucht, die zu neuen Achsen Y1 ; Y2 . . . Yp fçhren, die sukzessiv maximale Varianz aufklåren und wechselseitig unkorreliert sind.
Varianzmaximierende Rotationstransformationen Nachdem geklårt ist, unter welchen Bedingungen Linearkombinationen orthogonale Rotationstransformationen bewirken, wenden wir uns dem schwierigsten Teil der PCA zu. Gesucht wird eine Transformationsmatrix, die folgende Eigenschaften aufweist: 1. Sie muss orthogonale Rotationstransformationen bewirken
V0 V I; jVj 1. 2. Sie muss so geartet sein, dass die Koordinaten (Projektionen) der Vpn-Punkte auf den neuen Achsen Y1 ; Y2 . . . Yp sukzessiv maximale Varianz aufklåren. Um diese Aufgabe etwas zu vereinfachen, gehen wir zunåchst davon aus, dass nur eine der ursprçnglichen X-Achsen rotiert werden soll. Gesucht wird derjenige Transformationsvektor, der die Varianz der Koordinaten der Vpn auf der neu-
15
534
Kapitel 15 ´ Faktorenanalyse
en rotierten Y1 -Achse maximal werden låsst. Es soll somit vorerst nur ein Element der D
y-Matrix maximiert werden, und zwar das Element d
y11 , das die Quadratsumme der Vpn-Koordinaten auf der neuen Y1 -Achse darstellt. Da sich d
y11 und s2y1 nur um den Faktor 1=n unterscheiden, bedeutet die Maximierung von d
y11 gleichzeitig die Maximierung von s2y1 . In Analogie zu Gl. (15.33) erhalten wir d
y11 aus der D
x-Matrix der ursprçnglichen Werte nach folgender Beziehung: 0
d
y11 v D
x v :
15:34
Fçr das Zahlenbeispiel auf S. 532 haben wir d
y11 0;831 errechnet. Der Transformationsvektor lautet hier: 0;866 v : 0;500 Gesucht wird nun derjenige Transformationsvektor v, der d
y11 maximiert. Verdoppeln wir die Elemente des v-Vektors, wird der d
y11-Wert vervierfacht. Nehmen wir noch græûere Werte fçr den Vektor v an, wird der d
y11 -Wert ebenfalls græûer. Hieraus folgt, dass das Element d
y11 maximiert werden kann, wenn fçr die Elemente des Vektors v beliebig groûe Werte angenommen werden. Das Maximierungsproblem ist jedoch nur sinnvoll, wenn die Långe des Vektors v, die durch v0 v definiert ist, begrenzt ist, wenn also nicht beliebig groûe Werte eingesetzt werden kænnen. Dies ist bereits durch die Rotationsbedingung v0 v 1 geschehen, die nur Vektoren mit der Långe 1 zulåsst. Die Forderung v0 v 1 ist somit doppelt begrçndbar.
15
Herleitung der ¹charakteristischen Gleichungª. Die Aufgabe, die wir zu læsen haben, wird in der Mathematik als Maximierung mit Nebenbedingungen bezeichnet. Wir suchen einen Vektor v, der nach der Beziehung d
y11 v0 D
x v d
y11 maximal werden låsst, wobei jedoch die Bedingung v0 v 1 erfçllt werden muss. Derartige Aufgaben lassen sich am einfachsten mit Hilfe der sog. ¹Lagrange-Multiplikatorenª (vgl. Anhang D) læsen. In unserem Fall erhalten wir die folgende zu maximierende Funktion:
d
y11 F
v
v0 D
x v
k
v0 v
1 :
15:35
Hierin ist k der zu bestimmende Lagrange-Multiplikator (Lambda). Wird diese Funktion nach den gesuchten Elementen des Vektors v partiell abgeleitet, ergibt sich der folgende Ausdruck: dF
v 2D
x v d
v
2kv:
15:36
Wir wollen diese Ableitung am Beispiel zweier Variablen ausfçhrlicher demonstrieren: F
v F
v1 ; v2 v0 D
x v k
v0 v 1 d
x11 d
x12 v1
v1 v2 d
x21 d
x22 v2 v1 1 k
v1 v2 v2
v1 d
x11 v2 d
x21 ; v1 d
x12 v1 v2 d
x22 k
v12 v22 v2
1
v12 d
x11 v1 v2 d
x21 v1 v2 d
x12 v22 d
x22
k
v12 v22
1
v12 d
x11 v1 v2
d
x21 d
x12 v22 d
x22
kv12
kv22 k :
Leiten wir diesen Ausdruck partiell nach v1 und v2 ab, resultiert: dF
v1 ; v2 2v1 d
x11 v2
d
x21 dv1 d
x12 2kv1 ; dF
v1 ; v2 v1
d
x21 d
x12 dv2 2v2 d
x22 2kv2 : Fassen wir die beiden Ableitungen in Matrixschreibweise zusammen, erhalten wir den folgenden zweidimensionalen Vektor: dF
v d
v 2v1 d
x11 v2
d
x21 d
x12
2kv1
v1
d
x21 d
x12 2v2 d
x22
2kv2
:
Dieser Spaltenvektor låsst sich als das Ergebnis des folgenden Matrizenproduktes darstellen:
0
dF
v dv 2d
x11 ; d
x21 d
x12 d
x d
x12 ; 2d
x22 21 v1 v1 2k v2 v2 d
x11 d
x21 d
x11 d
x12 d
x21 d
x22 d
x12 d
x22 v1 v1 2k v2 v2 0
D
x D
x v
2k v :
Da D
x quadratisch und D
x D0
x, erhalten wir:
symmetrisch
ist
dF
v 2 D
x v 2k v :
15:36 dv Zum Auffinden des Maximums setzen wir die erste Ableitung Null: 2 D
x v
2 k v 0:
Hierin ist 0 ein p-dimensionaler Spaltenvektor mit p Nullen. Dividieren wir beide Seiten durch 2 und klammern v aus, ergibt sich:
D
x
k I v 0 ;
15:37
wobei k I eine Diagonalmatrix mit k als Diagonalwerten und Nullen auûerhalb der Diagonale ist. Gleichung (15.37) ist die Bestimmungsgleichung des gesuchten, varianzmaximierenden Vektors v. Ausfçhrlich beinhaltet diese Gleichung:
15
535
a15.3 Rechnerische Durchfçhrung der Hauptkomponentenanalyse
B B B B B @
D
x d
x11
k
k I
d
x12
d
x21
d
x22
k
.. .
.. .
d
xp1
d
xp2
d
x1p
...
d
x2p
1 C C C C C A
.. . ...
d
xpp
k
0 0 1 v1 0 Bv C B0C B 2C B C C B C B B .. C B .. C @ . A @.A 0
v
...
1
0
vp
Nach Auflæsung des Matrizenproduktes resultiert das in Tabelle 15.5 wiedergegebene Gleichungssystem. In diesem System homogener Gleichungen sind die v-Werte und der k-Wert unbekannt. Die v-Werte mçssen zusåtzlich die Bedingung v0 v 1 erfçllen. Die einfachste Læsung dieses Gleichungssystems ergibt sich zunåchst durch Nullsetzen des Vektors v. Diese Læsung ist jedoch trivial; sie fçhrt zum Ergebnis 0 0. Wir wollen uns deshalb fragen, unter welchen Bedingungen das Gleichungssystem zu einer nicht-trivialen Læsung fçhrt. Dazu nehmen wir zunåchst einmal an, der k-Wert sei bekannt, womit die gesamte Matrix
D
x k I bekannt ist. Ferner gehen wir davon aus, dass die Matrix
D
x k I nicht singulår sei, was bedeutet, dass sie eine Inverse besitzt (vgl. Anhang C, IV). Fçr diesen Fall ergibt sich durch Vormultiplizieren der Gl. (15.37) mit
D
x k I 1 :
D
x
k I
D
x
1
D
x
k I
1
k I v
0:
Da das Produkt einer Matrix mit ihrer Inversen die Identitåtsmatrix ergibt und die Multiplikation Tabelle 15.5. Ausfçhrliche Schreibweise von Gl. (15.37)
d
x11
k v1 d
x12
d
x21
v1
d
x22 v1 d
xp2
vp 0
k v2 . . . d
x2p
vp 0 .. .
.. .
.. . d
xp1
v2 . . . d
x1p
v2 . . .
d
xpp
k vp 0 :
536
Kapitel 15 ´ Faktorenanalyse
eines Vektors mit der Identitåtsmatrix diesen Vektor nicht veråndert, reduziert sich die Gleichung zu: v
D
x
k I
1
00
v 0: Diese Operation fçhrt also wiederum zur trivialen Læsung des Gleichungssystems. Um zu einer nicht-trivialen Læsung zu gelangen, darf die Matrix
D
x k I keine Inverse besitzen, d. h., sie muss singulår sein. Singulåre Matrizen haben nach Satz a des Anhangs C, IV eine Determinante von Null. Wir suchen deshalb einen (oder mehrere) k-Wert(e), fçr den (die) gilt: j
D
x
k Ij 0 :
15:38
Dies ist die sog. ¹charakteristische Gleichungª der Matrix D
x. Die Entwicklung der Determinante (vgl. Anhang C, III) fçhrt zu einem Polynom p-ter Ordnung, von dem alle Læsungen (Nullstellen des Polynoms) mægliche k-Werte darstellen. Diese k-Werte bezeichnen wir als ¹charakteristische Wurzelnª oder auch als ¹Eigenwerteª einer quadratischen Matrix, und die Anzahl der Eigenwerte, die græûer als Null sind, kennzeichnen den Rang dieser Matrix. Die Summe der Eigenwerte ergibt die Spur der Matrix; sie entspricht der Summe der Diagonalelemente der Matrix. Hat eine Matrix nur positive Eigenwerte (also keine negativen Eigenwerte und keine Eigenwerte vom Betrag Null), nennen wir die Matrix positiv-definit. Sind alle Eigenwerte nicht negativ, heiût die Matrix positiv-semidefinit.
15
Datenrçckgriff. Wir wollen die Ermittlung der Eigenwerte an dem oben erwåhnten Zwei-VariablenBeispiel (S. 532) verdeutlichen. Gesucht werden die Eigenwerte der folgenden D-Matrix: 2;75 2;00 D
x : 2;00 2;00 Die Eigenwerte erhalten wir, indem die folgende Determinante Null gesetzt wird: j
D
x k Ij 0 2;75 k 2;00 2;00 2;00 k 0 : Die Entwicklung dieser Determinante fçhrt nach Gl. (C 15) des Anhanges zu:
2;75
k
2;00
k
2;00 2;00
2
2;75k
2
4;75k 1;50 0 :
k k
2;00k 5;50
4;00
Fçr diese quadratische Gleichung (Polynom zweiter Ordnung) erhalten wir als Læsungen: s 4;75
4;752 1;50 ; k1;2 2 4 k1 4;41 ; k2 0;34 : Diese beiden Eigenwerte erfçllen die Bedingung, dass die Determinante der Matrix jD
x k Ij Null wird.
Eigenwerte. Bei drei Variablen fçhrt die Determinantenentwicklung zu einem Polynom dritter Ordnung, d. h., wir erhalten drei Eigenwerte. Die Ermittlung der Eigenwerte in Polynomen dritter Ordnung oder allgemein p-ter Ordnung ist rechnerisch sehr aufwåndig und soll hier nicht nåher demonstriert werden. Das Problem ist formal mit der Nullstellenbestimmung in Polynomen p-ten Grades identisch. Man kann sich hierçber in einschlågigen Mathematikbçchern informieren. Fçr die PCA hat sich vor allem eine auf Jacobi (1846) zurçckgehende Methode (vgl. z. B. Ralston u. Wilf, 1967, S. 152 ff.) zur Eigenwertebestimmung bewåhrt. Ein Rechenprogramm wird z. B. bei Cooley u. Lohnes (1971) oder bei Adams u. Woodward (1984) wiedergegeben. Auûerdem verfçgen alle neueren Versionen der meisten Programmpakete fçr Statistik und Mathematik çber entsprechende Subroutinen. Bevor wir uns der Bestimmung des varianzmaximierenden Transformationsvektors zuwenden, betrachten wir noch einmal das Ergebnis unserer Eigenwertebestimmung. Ein Vergleich der beiden Eigenwerte mit der Diagonalen von D
x zeigt, dass die Summe der Eigenwerte mit der Summe der Diagonalelemente, die wir als Spur einer Matrix bezeichneten, identisch ist: 4;41 0;34 2;75 2;00. Da die Diagonalelemente von D
x die Quadratsummen der Variablen darstellen, ist die Summe der Eigenwerte von D
x mit der totalen Quadratsumme aller Variablen identisch. Entsprechendes gilt fçr jede beliebige quadratische Matrix A:
537
a15.3 Rechnerische Durchfçhrung der Hauptkomponentenanalyse Spur von A Summe der k-Werte von A :
15:39 Somit ist auch die Summe der Eigenwerte einer Varianz-Kovarianz-Matrix mit der Summe der Varianzen der einzelnen Variablen (= Summe der Diagonalelemente) identisch. Fçr Korrelationsmatrizen (mit Einsen in der Diagonale) gilt, dass die Summe der Eigenwerte die Anzahl der Variablen p ergibt. Die Summe der Eigenwerte einer Korrelationsmatrix entspricht der Anzahl der Variablen p.
Ferner kann man zeigen, dass die Produktkette der Eigenwerte einer Matrix A mit der Determinante jAj identisch ist: jAj
p Y
kj :
j1 p Q
Hierin ist
j1
15:40
kj k1 k2 . . . kj . . . kp .
Aus Gl. (15.40) folgt, dass die Determinante von A Null wird, wenn mindestens einer der kj -Werte Null ist, d. h., singulåre Matrizen haben mindestens einen Eigenwert von Null. Im Folgenden wollen wir çberprçfen, wie ein einzelner, ursprçnglich als Lagrange-Multiplikator eingefçhrter k-Wert (Eigenwert) zu interpretieren ist. Hierzu betrachten wir erneut Gl. (15.34): d
y11 v0 D
x v : Durch Ausmultiplizieren und Gl. (15.37) erhalten wir:
Umstellen von
D
x v k v :
15:41
Setzen wir die rechte Seite von Gl. (15.41) fçr das Teilprodukt D
x v in Gl. (15.34) ein, resultiert: d
y11 v0 k v ; v0 v k k
15:42 (weil k ein Skalar) ;
(weil v0 v 1 lt. Voraussetzung) :
Da die D
x-Matrix fçr p Variablen p Eigenwerte hat und wir die Quadratsumme d
y11 maximieren wollen, entspricht d
y11 dem græûten der p Eigenwerte von D
x. Dividieren wir Gl. (15.42) durch n, erhalten wir statt der Quadratsumme die Varianz auf der neuen Y-Achse, die dem græûten Eigenwert der Varianz-Kovarianz-Matrix entspricht.
Die neuen Achsen, die sukzessiv maximale Varianz aufklåren, haben Varianzen, die den nach ihrer Græûe geordneten Eigenwerten entsprechen.
Eigenvektoren. Die Bestimmungsgleichung fçr den Vektor v1, der zu homologen Linearkombinationen mit maximaler Varianz fçhrt, lautet somit gemåû Gl. (15.37):
D
x
k I v1 0:
Fçr die p Eigenwerte (von denen einer oder mehrere Null sein kænnen) lassen sich p Transformationsvektoren bestimmen. Einen mit einem bestimmten Eigenwert verbundenen Transformationsvektor bezeichnen wir als Eigenvektor. Fçr die Bestimmung eines Eigenvektors vj errechnen wir die adjunkte Matrix von
D
x kj I (vgl. S. 720 f.), deren Spalten wechselseitig proportional sind. Wir normieren einen Spaltenvektor dieser Matrix auf die Långe 1, indem wir jedes Vektorelement durch die Långe des Vektors (Wurzel aus der Summe der quadrierten Vektorelemente) dividieren. Als Resultat erhalten wir den gesuchten Vektor vj, der die Bedingung v0j vj 1 erfçllt.
Datenrçckgriff. In Fortfçhrung unseres Beispiels errechnen wir zunåchst fçr die Bestimmung von v1 die Matrix
D
x k1 I: 2;75 4;41 2;00 2;00
2;00 4;41 1;66 2;00 2;00
2;41
Nach Gl. (C 22) erhalten wir 2;41 adj
D
x k1 I 2;00
:
2;00 1;66
:
Die Spalten dieser Matrix sind proportional
2;41=2;00 2;00= 1;66. Wir normieren den 1. Spaltenvektor auf p die Långe 1, indem wir des sen Elemente durch 2;412 2;002 3;1318 dividieren, und erhalten somit v1 : 0;77 v1 : : 0;64 Auf die gleiche Weise ermitteln wir v2 :
15
538
Kapitel 15 ´ Faktorenanalyse
D
x
k2 I
2;41
2;00
; 2;00 1;66 1;66 2;00 : adj
D
x k2 I 2;00 2;41 p Wir dividieren durch 1;662 2;002 2;60 und erhalten 0;64 : v2 0;77
Prçfung.
V0 V I 0;77 0;64 0;77 0;64 1 0 0;64 0;77 0;64 0;77 0 1
Als Determinante von V errechnen wir: 0;77 0;64 jVj 0;64 0;77
0;77 0;77
0;64 0;64
1;00 :
Damit ist die in Gl. (15.22) genannte Bedingung
jVj 1 nicht erfçllt; wir multiplizieren deshalb nach den Ausfçhrungen auf S. 530 den ersten Eigenvektor mit 1 und erhalten damit die endgçltige Transformationsmatrix V: 0;77 0;64 : V 0;64 0;77
15
Mit Hilfe dieser beiden Eigenvektoren kænnen wir somit Rotationstransformationen durchfçhren, die zu neuen Achsen mit den Quadratsummen d
y11 4;41 und d
y22 0;34 bzw. den Varianzen s2y1 4;41=4 1;10 und s2y2 0;34=4 0;085 fçhren. Da s2y1 die græûere der beiden Varianzen ist, kennzeichnet v1 den gesuchten varianzmaximierenden Transformationsvektor. Rotieren wir die X1 -Achse um 39;6 entgegen dem Uhrzeigersinn (cos 39;6 0;77 v11 ), erhalten wir eine neue Y1 -Achse, auf der die Quadratsumme der Vpn-Koordinaten maximal und vom Wert k1 4;41 ist. Rotieren wir die X2 -Achse um den gleichen Winkel (cos 39;6 0;77 v22 ), erhalten wir eine neue Y2 -Achse, auf der die Quadratsumme der Vpn-Koordinaten minimal und vom Werte k2 0;34 ist. Entsprechendes gilt fçr die p-dimensionale Verallgemeinerung.
Ordnen wir die einzelnen kj -Werte der Græûe nach, dann bewirken die mit den kj -Werten assoziierten Eigenvektoren vj Rotationstransformationen, die zu neuen Achsen fçhren, die sukzessiv maximale Varianz aufklåren. Die Varianzen sind mit den jeweiligen Eigenwerten identisch.
Die Ermittlung der Eigenvektoren ist im p-dimensionalen Fall ebenfalls analog vorzunehmen.
Orthogonalitåt der Eigenvektoren. Dass die so ermittelten Eigenvektoren orthogonal sind, zeigt folgende Ûberlegung. Fçr die Eigenvektoren vi und vj zweier ungleichgroûer Eigenwerte ki und kj einer symmetrischen Matrix B gilt gemåû Gl. (15.41): B v i ki v i ; B v j kj v j
15:45 a (wobei ki 6 kj :
15:45 b
Transponieren wir beide Seiten von Gl. (15.45 a), erhalten wir: v0i B ki v0i
(wegen B0 B :
15:46
Werden beide Seiten von Gl. (15.45 b) mit v0i vormultipliziert, resultiert: v0i B vj v0i kj vj
kj v0i vj :
15:47
Setzen wir die rechte Seite von Gl. (15.46) links in Gl. (15.47) ein, ergibt sich: ki v0i vj kj v0i vj
15:48
bzw.
ki
kj
v0i vj 0 :
Da laut Voraussetzung ki 6 kj ist, muss v0i vj 0 sein, womit die Orthogonalitåt der Eigenvektoren bewiesen ist. Wegen v0i vj 0 muss fçr Gl. (15.47) auch v0i B vj 0 gelten. Unter Berçcksichtigung von Gl. (15.42) erhålt man also V0 B V K
15:49
V Matrix der Eigenvektoren von B und K Diagonalmatrix der Eigenwerte von B: Nach der Beziehung Y X V ermitteln wir im Beispiel die folgenden Koordinaten auf den beiden neuen Achsen Y1 und Y2 :
0
0;38 B 1;03 YB @ 1;15 1;79
1 3;59 3;46 C C: 2;95 A 3;72
Wie man sich leicht çberzeugen kann, entsprechen die Quadratsummen auf den beiden neuen Achsen den Eigenwerten der D
x-Matrix. Ferner ist die Korrelation zwischen den beiden Achsen Null.
Faktorwerte und Faktorladungen Wie in 15.2 erlåutert, stellen die Faktorwerte und Faktorladungen das interpretative Gerçst einer PCA dar. Sie lassen sich, nachdem die Eigenwerte und Eigenvektoren bekannt sind, vergleichsweise einfach berechnen. In den meisten faktorenanalytischen Arbeiten stellen nicht die ursprçnglichen Variablen, sondern z-standardisierte Variablen die Ausgangsdaten dar, d. h., es wird die Matrix der Variableninterkorrelationen faktorisiert. Durch die z-Standardisierung erhalten alle Variablen den Mittelwert 0 und die Streuung 1, wodurch die zu faktorisierenden Variablen bzgl. ihrer Metrik vergleichbar gemacht werden. Wir wollen deshalb die Ermittlung der Faktorwerte und Faktorladungen auf den Fall z-standardisierter Variablen beschrånken. Die faktorenanalytische Verarbeitung von Rohwerten wird bei Horst (1965) diskutiert. Eyferth u. Baltes (1969) untersuchen faktorenanalytische Ergebnisse in Abhångigkeit von der Art der Datenstandardisierung (einfache Kreuzproduktsummen, z-Standardisierung pro Variable und z-Standardisierung pro Vp) und kommen zu dem Ergebnis, dass es gelegentlich sinnvoll sein kann, nicht von z-standardisierten Variablen auszugehen. (Genauer hierzu bzw. zum Vergleich von Faktorenanalysen çber Korrelations- oder Kovarianzmatrizen vgl. Fung u. Kwan, 1995.)
Berechnung der Faktorwerte. Wir beginnen mit der Ermittlung der Varianz-Kovarianz-Matrix der z-standardisierten Variablen, deren Eigenwerte und Eigenvektoren zunåchst berechnet werden. Da die Varianz z-standardisierter Variablen vom Betrag 1 ist und die Kovarianz zweier z-standardisierter Variablen der Korrelation entspricht, ist die Varianz-Kovarianz-Matrix der z-standardisier-
15
539
a15.3 Rechnerische Durchfçhrung der Hauptkomponentenanalyse
ten Variablen mit der Korrelationsmatrix R der ursprçnglichen Variablen identisch. Unter Verwendung der Matrix der Eigenvektoren V der Korrelationsmatrix erhalten wir nach der Beziehung YZV
15:50
die Koordinaten der Vpn auf den neuen Yj -Achsen, die sukzessiv maximale Varianz vom Betrag kj aufklåren. Die Matrix der Faktorwerte F ergibt sich, wenn die Koordinaten der Vpn auf den einzelnen Y-Achsen z-standardisiert werden. Die z-Standardisierung der neuen Achsen ist fçr den hier diskutierten Fall, dass die ursprçnglichen Variablen ebenfalls z-standardisiert sind, einfach durchzufçhren. Nach Gl. (15.25) entspricht das arithmetische Mittel homologer Linearkombinationen der Linearkombination der ursprçnglichen Mittelwerte. Da die Mittelwerte der ursprçnglichen Variablen durch die z-Standardisierung Null sind, muss auch der Mittelwert homologer Linearkombinationen Null sein. Die VpnKoordinaten werden deshalb lediglich durch ihre Streuung psyj dividiert, die nach Gl. (15.42) vom Betrag kj ist (kj = Eigenwerte von R). Matrixalgebraisch erhalten wir fçr F: FYK
1=2
;
15:51
1=2
eine Diagonalmatrix darstellt, in dewobei K ren Diagonale sich die Reziprokwerte ! aus den 1 1 befinden Wurzeln der Eigenwerte p s kj yj (zur Berechnung der Faktorwerte çber die Faktorladungen vgl. S. 541). Die z-standardisierten Y-Achsen bezeichnen wir als Faktoren und die Koordinaten der Vpn auf den standardisierten Achsen als Faktorwerte.
Die Faktorwerte eines Faktors haben somit einen Mittelwert von 0 und eine Streuung von 1. Faktoren korrelieren çber die Faktorwerte wechselseitig zu 0 miteinander. Es gilt die Beziehung 1 F0 F I :
15:52 n Beweis: Wir ersetzen Y in Gl. (15.51) durch Gl. (15.50) und erhalten FZVK
1=2
bzw.
540
Kapitel 15 ´ Faktorenanalyse
F0 F
Z V K K
1=2
1=2 0
Z V K
V0 Z 0 Z V K
1=2
1=2
Division beider Seiten durch n fçhrt wegen 1 0 Z Z R zu n 1 0 F F K 1=2 V0 R V K 1=2 n bzw. nach Gl. (15.49) zu 1 0 F F K 1=2 K K 1=2 I : n Die z-Standardisierung der Faktoren hat zur Konsequenz, dass alle neuen Yj -Achsen die gleiche Långe aufweisen, p d. h., diejenigen Achsen, die eine Streuung kj < 1 haben, werden p gestreckt, und Achsen mit einer Streuung kj > 1 werden gestaucht. Dadurch veråndert sich der ursprçngliche, elliptische Punkteschwarm der Vpn (Hyperellipsoid im mehrdimensionalen Fall) zu einem kreisfærmigen Punkteschwarm (Hyperkugel im mehrdimensionalen Fall). In dem so geschaffenen Faktorraum stehen die Variablen nicht mehr senkrecht aufeinander, sondern bilden Winkel, deren cos den jeweiligen Variableninterkorrelationen entsprechen. Wir werden diesen Zusammenhang weiter unten an einem numerischen Beispiel demonstrieren.
15
Berechnung der Faktorladungen. Die Vpn sind sowohl durch die ursprçnglichen Variablen als auch die Faktoren gekennzeichnet. Um zu ermitteln, welcher Zusammenhang zwischen den ursprçnglichen Variablen zi und den neuen Faktoren Fj besteht, kænnen die Korrelationen zwischen den ursprçnglichen Variablen und den Faktoren berechnet werden. In beiden Fållen handelt es sich um z-standardisierte Werte, sodass wir die Korrelation zwischen einer Variablen zi und einem Faktor Fj nach folgender Beziehung ermitteln kænnen: n 1 X fmj zmi :
15:53 rij n m1 Fçr die Matrix aller Interkorrelationen ergibt sich: 1 RzF F0 Z :
15:54 n Ausgehend von der fçr z-Werte modifizierten Grundgleichung der PCA (s. Gl. 15.3 b)
Z F A0
15:55
kænnen wir fçr Gl. (15.54) auch schreiben: 1 RzF F0 F A0 : n Da nach Gl. (15.52) 1=n F0 F I, ergibt sich RzF A0 :
15:56
Die Korrelation rij zwischen einer ursprçnglichen Variablen i und einem Faktor j ist mit der Ladung aij der Variablen i auf dem Faktor j identisch.
Die hier beschriebene Art der Ermittlung der Faktorladungen setzt voraus, dass die Faktorwerte bekannt sind. Håufig ist man jedoch lediglich an den Faktorladungen interessiert und will auf die ± zumal bei vielen Vpn aufwendige ± Faktorwertebestimmung verzichten. Der folgende Gedankengang fçhrt zu einer Mæglichkeit, Faktorladungen zu errechnen, ohne zuvor die Faktorwerte ermittelt zu haben: Die Gleichung fçr die Bestimmung der Faktorwerte lautet (s. Gl. 15.51): FYK
1=2
:
Multiplizieren wir beide Seiten mit K1=2 , erhalten wir wegen K 1=2 K1=2 I: F K1=2 Y : Ersetzen wir Y durch die rechte Seite von Gl. (15.50), ergibt sich: F K1=2 Z V : Werden beide Seiten mit V resultiert wegen V V 1 I: F K1=2 V
1
1
nachmultipliziert,
Z:
Da jedoch nach Gl. (15.55) fçr Z auch Z F A0 gilt, kænnen die folgenden Ausdrçcke gleichgesetzt werden: F A0 F K1=2 V
1
:
Wir erhalten also: A0 K1=2 V
1
:
Einfacher låsst sich die Ladungsmatrix A ermitteln, wenn wir V 1 durch V0 ersetzen. Fçr V gilt: V0 V I :
541
a15.3 Rechnerische Durchfçhrung der Hauptkomponentenanalyse Werden beide Seiten rechts mit V ergibt sich: V0 V V
1
oder, da V V V0 V
1
multipliziert,
1
V 1
1
I,
:
Fçr die Ladungsmatrix erhalten wir somit folgende Bestimmungsgleichung: 0
A K
1=2
V
0
COV
z R
j
R
k Ij
1;00
F K1=2 V
1
Z:
Aufgelæst nach F resultiert FZVK
1=2
:
1=2
Wegen A V K AK
1
VK
gemåû Gl. (15.57) erhålt man
1=2
und damit FZAK
1
:
15:58
Datenrçckgriff. Wir wollen die Ermittlung der Faktorwerte und Faktorladungen anhand des auf S. 532 erwåhnten numerischen Beispiels erlåutern. Vier Vpn haben auf zwei Variablen folgende Werte erhalten: 0 1 2 3 B3 2C C XB @1 3A: 1 4 Standardisieren wir sich nach Gl. (1.27) 0 0;302 B 1;508 ZB @ 0;905 0;905
die beiden Variablen, ergeben folgende z-Werte: 1 0;000 1;414 C C: 0;000 A 1;414
Hieraus ermitteln wir die Varianz-Kovarianz-Matrix, die mit der Korrelationsmatrix der ursprçnglichen Variablen identisch ist.
:
k
1;00
k
0;85
0;85 k2
bzw. Aus Gl. (15.57) folgt A0 A K. Sind die Ladungen bekannt, ergibt sich folgende Bestimmung der Faktorwerte: Wir erhielten
0;85 1;00
Zur Berechnung der Eigenwerte von R entwickeln wir die Determinante der folgenden Matrix: 1;00 k 0;85
R k I ; 0;85 1;00 k
15:57
A V K1=2 :
1;00 0;85
2k 0;28 0 :
Mit dem Wert Null fçr diese Determinante (Gl. 15.38) fçhrt die Auflæsung der quadratischen Gleichung zu den Eigenwerten k1 1;85 und k2 0;15, deren Summe den Wert 2 ergibt. Die Summe der Eigenwerte entspricht also der Summe der Varianzen der ursprçnglichen Variablen, die wegen der z-Transformation jeweils vom Betrag 1 sind. Fçr den Eigenvektor v1 erhalten wir nach Gl. (15.37) als Bestimmungsgleichungen: 0;85v11
0;85v21 0 ;
0;85v11
0;85v21 0 :
Wir ermitteln, wie auf S. 537 beschrieben, 0;85 0;85 adj
R k1 I 0;85 0;85 und normieren den 1. Spaltenvektor auf Långe 1, indem wir dessen Elemente durch p 0;852 0;852 1;2021 dividieren. Das Resultat lautet 0;707 : v1 0;707 Nach dem gleichen Verfahren erhalten wir fçr v2 : 0;707 v2 : 0;707 Da die Determinante der aus v1 und v2 zu bildenden Matrix V den Wert 1 hat, multiplizieren wir v1 mit 1. Die Transformationsmatrix lautet somit: 0;707 0;707 V : 0;707 0;707 Wie man sich leicht çberzeugen kann, sind jetzt die Bedingungen V0 V I und jVj 1 erfçllt. Da cos 315 0;707 und sin 315 0;707, be-
15
542
Kapitel 15 ´ Faktorenanalyse
wirkt diese Transformationsmatrix eine orthogonale Rotation um 315 entgegen dem Uhrzeigersinn bzw. 45 im Uhrzeigersinn. (Dies ist eine Besonderheit aller Zwei-Variablen-Beispiele mit negativer Korrelation, bei denen durch die z-Standardisierung die Hauptachse des elliptischen Punkteschwarms mit der zweiten Winkelhalbierenden des Koordinatensystems identisch ist.) Nach Gl. (15.50) ermitteln wir die Matrix der transformierten Vpn-Koordinaten Y: 0
Z 0;302
0;000
B 1;508 B B @ 0;905 0;905 0 B B B @
1
1;414 C C C 0;000 A 1;414 Y
0;214
0;214
0;707
0;707
0;707
0;707
1
0;640
0;066 C C C: 0;640 A
1;640
0;360
2;066
Die nach Gl. (1.16) berechneten Varianzen auf den transformierten Y-Achsen (Spalten von Y) entsprechen den beiden gefundenen Eigenwerten. Die Korrelation zwischen den beiden neuen Achsen ist 0. Z-standardisieren wir die Y-Achsen, erhalten wir die gesuchten Faktoren mit den Faktorwerten der Vpn: 0
15
B B B @
K 1=2 1 0 1 0;214 0;214 1 p 0 C C 2;066 0;066 C B 1;85 C CB @ 1 A 0;640 0;640 A p 0 0;15 1;640 0;360 F 0 1 0;157 0;552 B 1;518 0;170 C B C B C: @ 0;470 1;652 A Y
1;204
RzF
0;930
Die gleichen Werte ergeben sich auch nach Gl. (15.58). Werden die Faktorwerte gemåû Gl. (15.54) mit den z-Werten korreliert, resultiert die Ladungsmatrix A:
0;96
0;96
0;27
0;27
bzw. R0zF
A
0;96
0;27
0;96
0;27
:
Das gleiche Ergebnis erhalten wir einfacher, wenn statt Gl. (15.54) die Gl. (15.57) eingesetzt wird:
V
K1=2 p 0;707 1;85 0 p 0;707 0 0;15
V 0;707 0;707
A 0;96
0;27
0;96
0;27
:
In A gibt die erste Spalte die Ladungen der beiden Variablen auf dem ersten Faktor wieder. Durch die relativ hohe Korrelation zwischen den beiden Variablen (r12 0;85) wird ein hoher Prozentsatz (0;962 100% 92;16%) einer jeden Variablen durch den ersten Faktor aufgeklårt. Summieren wir die quadrierten Ladungen des ersten Faktors, ergibt sich der durch den ersten Faktor aufgeklårte Varianzanteil: 0;962
0;962 1;84
92% der Gesamtvarianz von 2). Dieser Wert ist ± abgesehen von Rundungsungenauigkeiten ± mit dem ersten Eigenwert identisch. Entsprechendes gilt fçr den zweiten Faktor. Werden die Ladungsquadrate pro Variable summiert, resultiert die durch die Faktoren aufgeklårte Varianz einer Variablen. Da im vorliegenden Fall die gesamte Varianz der Variablen durch die Faktoren aufgeklårt wird und da z-standardisierte Variablen eine Varianz von 1 haben, ergibt die Summe der Ladungsquadrate jeweils den Wert 1. Werden nicht alle Faktoren zur Interpretation herangezogen (vgl. 15.4), erhalten wir fçr die Summe der Ladungsquadrate einen Wert zwischen 0 und 1. Dieser Wert wird ± wie bereits unter 15.2 erwåhnt ± als die Kommunalitåt einer Variablen bezeichnet.
Reproduktion der Korrelationsmatrix. Ein weiteres interessantes Ergebnis zeigt sich, wenn wir die Summe der Produkte der faktorspezifischen Ladungen fçr 2 Variablen ermitteln: 0;96
0;96 0;27 0;27 0;85. Dieser Wert ist mit der Kor-
relation der ursprçnglichen Variablen (r12 0;85) identisch. Im Fall einer reduzierten Faktorlæsung, bei der nicht alle Faktoren interpretiert werden, gibt dieser Wert an, wie gut der Zusammenhang zweier Variablen durch die Faktoren aufgeklårt wird. Dass dieser Wert bei einer vollståndigen Faktorlæsung mit der Korrelation identisch sein muss, zeigt der folgende Gedankengang: Nach Gl. (15.55) gilt die Beziehung:
F II 1,6 1,4 1,2
Werden beide Seiten links mit der jeweiligen Transponierten vormultipliziert, erhalten wir: 0 0
0
Z Z
F A
F A
1,0
4
0,8 0,6 2 a21 = -0,96 a22 = 0,27
-1,6
Z F A0 :
0
-1,2
- 0,8
- 0,4
1
0,4 0,2 149° -0,2 -0,4
z 21 =
0,4
1,508
0,8 z22 =
1
2
1,2 -1,41
1,6 F I
4
-0,6 f32 = -1,652
-0,8 -1,0
oder
-1,2
Vpn Variablen
Z0 Z A F0 F A0 :
3
Da nach Gl. (15.52) F0 F I n, kænnen wir auch schreiben: 0
15
543
a15.4 Kriterien fçr die Anzahl der Faktoren
-1,4 -1,6
f31 = -0,470
Abb. 15.6. Graphische Darstellung der PCA-Læsung
0
Z Z A A n: Dividieren wir beide Seiten durch n, ergibt sich: 1 0 Z Z A A0 : n 1 Wegen Z0 Z R, gilt fçr R: n R A A0
15:59
oder, bezogen auf eine einzelne Korrelation zwischen zwei Variablen i und i0 , rii0
p X
aij ai0 j :
j1
Graphische Darstellung. Abbildung 15.6 zeigt das Ergebnis der PCA. In das Koordinatensystem, dessen Achsen durch die Faktoren gebildet werden, sind die 4 Vpn gemåû ihrer Faktorwerte eingetragen. (Die Faktorwerte sind bei Vp 3 verdeutlicht.) Ferner kænnen wir in den Faktorenraum die Variablenvektoren, deren Endpunkte durch die Faktorladungen bestimmt sind, einzeichnen (verdeutlicht fçr Variable 2). Diese Variablenvektoren, die ursprçnglich senkrecht aufeinander standen, bilden durch die Standardisierungen, die zu den Faktoren gefçhrt haben, einen Winkel von 149 , dessen cos der Korrelation der beiden Variablen ent-
spricht (cos 149 0;85). Die Projektionen der Vpn-Punkte auf die schiefwinkligen VariablenAchsen entsprechen den ursprçnglichen z-standardisierten Ausprågungen der Variablen bei den Vpn (verdeutlicht bei Vp 2). Hierbei ist zu beachten, dass der positive Teil der Variablenachse 2 im oberen linken Quadranten liegt.
15.4 Kriterien fçr die Anzahl der Faktoren Bei der Darstellung des mathematischen Hintergrunds der PCA gingen wir davon aus, dass alle ursprçnglichen p Variablenachsen zu p wechselseitig unabhångigen Faktoren rotiert werden, die sukzessiv maximale Varianz aufklåren. Dieser Ansatz fçhrt dazu, dass die gesamte Varianz aller p Variablen durch p Faktoren aufgeklårt werden kann. Bei diesem Ansatz werden also p Variablen durch p Faktoren ersetzt, sodass die mit der Faktorenanalyse çblicherweise verbundene Datenreduktion nicht realisiert wird. Fçr die meisten empirischen Untersuchungen gilt jedoch, dass die Gesamtvarianz aller Variablen durch eine Faktorenanzahl ¹hinreichend gutª erfasst werden kann, die erheblich kleiner ist als die Anzahl der Variablen. Bezeichnen wir die Anzahl
544
Kapitel 15 ´ Faktorenanalyse
der Faktoren, die die Gesamtvarianz ¹hinreichend gutª aufklårt, mit q, verbleiben p q Faktoren, deren Eigenwerte nahezu vom Betrag Null und damit unbedeutend sind. Im Folgenden wollen wir uns mit der Frage befassen, wie die Anzahl q der ¹bedeutsamenª Faktoren bestimmt werden kann.
20 Eigenwerte der empirischen Korrelationen Eigenwerte von Zufallskorrelationen
18 16 14
Kaiser-Guttman-Kriterium
15
Die Daten reduzierende Funktion der PCA ist gewåhrleistet, wenn nur Faktoren interpretiert werden, deren Varianz græûer als 1 ist, denn nur in diesem Fall binden die Faktoren mehr Varianz als die ursprçnglichen, z-standardisierten Variablen. Faktoren, deren Eigenwerte kleiner oder gleich 1 sind, bleiben deshalb unberçcksichtigt (Guttman, 1954; Kaiser u. Dickmann, 1959). Nach diesem Kriterium (das håufig kurz ¹Kaiser-Guttman Kriteriumª oder ¹KGª-Kriterium genannt wird) entspricht die Anzahl q der bedeutsamen Faktoren der Anzahl der Faktoren mit Eigenwerten çber 1 (vgl. hierzu auch die Ausfçhrungen zu Gl. 15.82 auf S. 559). Dieses Kriterium fçhrt allerdings dazu, dass vor allem bei groûen Variablenzahlen zu viele Faktoren extrahiert werden, die selten durchgångig sinnvoll interpretierbar sind (vgl. hierzu auch Lee u. Comrey, 1979, oder Zwick u. Velicer, 1986). Die Voreinstellung in vielen Statistik-Programmpaketen, alle Faktoren mit k > 1 zu akzeptieren bzw. fçr eine Rotation vorzusehen (vgl. 15.5), ist deshalb nur in Ausnahmefållen zu rechtfertigen. Zu beachten ist ferner, dass die an einer Stichprobe gewonnenen Eigenwerte Parameterschåtzungen der wahren Eigenwerte darstellen, sodass korrekterweise fçr jeden Eigenwert ein Konfidenzintervall zu bestimmen ist, anhand dessen çber das Kriterium k > 1 (und alle anderen, Eigenwert abhångigen Kriterien) zu befinden wåre. Lambert et al. (1990) demonstrieren diesen Sachverhalt an einem Beispiel unter Verwendung der Bootstrap-Technik. Als untere Grenze dieses Konfidenzintervalls wird von Jolliffe (2002, S. 115) der Wert 0,7 vorgeschlagen. Demnach wçrden auch Faktoren mit Eigenwerten k 0;7 in den meisten Anwendungsfållen (dem ¹Parameter orientiertenª KG-Kriterium) gençgen. In einer Faktorenanalyse sollten nur Faktoren interpretiert werden, deren Eigenwerte græûer als 1 sind. Man beachte jedoch, dass die Anzahl der bedeutsamen Faktoren nach dieser Regel meistens çberschåtzt wird.
λ
12 10 8 6 4 2 0 0
1
2
3
4
5
6
7
8
9
10
Rangnummer
Abb. 15.7. Eigenwertediagramm mit dem Scree-Test und dem Testverfahren nach Horn
¹Scree-Testª Weitere Informationen çber die Anzahl der bedeutsamen Faktoren liefert das Eigenwertediagramm, das die Græûe der in Rangreihe gebrachten Eigenwerte als Funktion ihrer Rangnummern darstellt (Abb. 15.7; zur Erlåuterung der Eigenwerte von Zufallskorrelationen s. unten). Die Abbildung zeigt die 10 græûten Eigenwerte einer Korrelationsmatrix fçr p 45 Variablen und n 150. Der Eigenwert mit der Rangnummer 1 weist einen Betrag von k1 14;06 auf, der zweitgræûte Eigenwert betrågt k2 4;16 usw. Beginnend mit dem 10. græûten Eigenwert (oder mit dem kleinsten der 10 Eigenwerte) stellen wir bis zum 4. Eigenwert eine annåhernde Konstanz in der Græûe fest. Der 3. Eigenwert fållt aus dieser Kontinuitåt heraus, was in der Abbildung zu einem durch einen Pfeil markierten Knick im Eigenwerteverlauf fçhrt. Nach dem ¹Scree-Testª von Cattell (1966 a) betrachten wir diejenigen Faktoren, deren Eigenwerte vor dem Knick liegen, als bedeutsam. In unserem Beispiel wåre q somit 3. Weitere Informationen çber die Eigenschaften des Scree-Tests findet man bei Cattell u. Vogelmann (1977). Ansåtze zur ¹Objektivierungª des Scree-Tests werden bei Bentler u. Yuan (1998) Zoski u. Jurs (1996) erærtert.
15
545
a15.4 Kriterien fçr die Anzahl der Faktoren
Parallelanalyse Horn (1965) schlågt vor, den Eigenwerteverlauf der empirisch ermittelten Korrelationsmatrix mit dem Eigenwerteverlauf der Korrelationen zwischen normalverteilten Zufallsvariablen zu vergleichen (Parallelanalyse). Die graphische Darstellung weist diejenigen Eigenwerte als bedeutsam (d. h. nicht zufållig) aus, die sich vor dem Schnittpunkt der beiden Eigenwerteverlåufe befinden. Der mit einer Parallelanalyse verbundene rechnerische Aufwand ist nicht unerheblich. Fçr den Anwender dieser Technik stellen regressionsanalytische Ansåtze eine deutliche Erleichterung dar, bei denen die unbekannten ¹Zufallseigenwerteª ohne eine auf Zufallszahlen basierende Korrelationsmatrix çber einfache Gleichungen vorhergesagt werden kænnen. Fçr die hier interessierende Hauptkomponentenanalyse haben Allen u. Hubbart (1986) ein Gleichungssystem entwickelt, das von Lautenschlager et al. (1989) sowie Longman et al. (1989) verbessert wurde. Die gemeinsame Idee dieser Arbeiten besteht darin, die aus vielen Monte-CarloStudien gewonnenen ¹Zufallseigenwerteª mit multiplen Regressionsgleichungen vorherzusagen. Die Prådiktoren sind Parameter, die aus dem Stichprobenumfang (n), der Anzahl der Variablen (p), dem Verhåltnis von n zu p sowie dem jeweils vorangehenden Eigenwert gewonnen werden. Die Gewichtung dieser Parameter (b-Gewichte) wird gewissermaûen ¹empirischª ermittelt, indem die Eigenwerte vieler Matrizen von Zufallskorrelationen mit variablem n und p regressionsanalytisch vorhergesagt werden.
Tabelle 15.6. Regressionskoeffizienten fçr Gl. (15.60) Nr. des Eigenwertes (j)
b1 j
b2j
b3 j
b4j
aj
1 2 3 4 5 6 7 8 9 10
±0,101 0,056 0,041 0,038 0,032 0,027 0,022 0,021 0,018 0,017
0,072 ±0,007 ±0,005 ±0,011 ±0,010 ±0,009 ±0,005 ±0,004 ±0,007 ±0,006
0,000 1,217 1,166 1,217 1,192 1,189 1,140 1,149 1,138 1,138
0,810 ±0,143 ±0,103 ±0,146 ±0,132 ±0,126 ±0,098 ±0,097 ±0,093 ±0,086
0,547 ±0,431 ±0,315 ±0,264 ±0,219 ±0,190 ±0,168 ±0,160 ±0,122 ±0,116
Die hierbei resultierenden multiplen Korrelationen liegen ± zumindest in der hier referierten Arbeit von Lautenschlager et al. (1989), deren Gleichung genauere Vorhersagen ermæglicht als die Gleichung von Longman et al. (1989) ± bis auf eine Ausnahme alle bei R 0;999 oder sogar darçber und dokumentieren damit die hohe Zuverlåssigkeit dieses Ansatzes. Die Regressionsgleichung zur Vorhersage eines ¹Zufallseigenwertesª kj lautet: ln kj b1j ln
n
1
b2j ln
p j b3j ln kj 1
1
p
j 2=2
b4j p=n aj ;
15:60
wobei j = laufende Nummer der Eigenwerte (fçr j 1 wird kj 1 k0 1 gesetzt) und ln = Logarithmus naturalis. Tabelle 15.6 gibt fçr die ersten 10 Faktoren die bei Lautenschlager et al. (1989) genannten bij -Werte wieder (die Originalarbeit enthålt b-Gewichte fçr die ersten 48 Eigenwerte). Bezogen auf das o. g. Beispiel (p 45, n 150) errechnet man fçr den 1. ¹Zufallseigenwertª: ln k1
0;101 ln 149 0;072 ln 989 0;0 1 0;810 0;3 0;547 0;781
bzw. k1 e0;781 2;184 : Man errechnet ferner k2 2;032, k3 1;919, k4 1;825 etc. Wie aus Abb. 15.7 ersichtlich, befindet sich der Schnittpunkt der Eigenwertverlåufe fçr die empirischen Korrelationen und die Zufallskorrelationen zwischen dem 3. und 4. Eigenwert, d. h., auch nach der Parallelanalyse wåren 3 Faktoren zu interpretieren. Eine weitere Erleichterung fçr die Durchfçhrung einer Parallelanalyse stellen die Tabellen von Lautenschlager (1989) dar, in denen Zufallseigenwerte aus Korrelationsmatrizen fçr 5 p 80 und 50 n 2000 gelistet sind. Mit Hilfe geeigneter Interpolationstechniken låsst sich mit diesen Tabellen fçr praktisch alle faktoranalytischen Anwendungen die Anzahl der bedeutsamen Faktoren bestimmen. (Eine etwas ¹konservativereª Schåtzung der Faktorenzahl ermæglichen die von Cota et al., 1993 entwickelten Tabellen; vgl. hierzu auch Glorfeld, 1995.)
546
Kapitel 15 ´ Faktorenanalyse
Eine ¹nonparametrischeª Version der Parallelanalyse wurde von Buja u. Eyuboglu (1992) entwickelt. Weitere Hinweise und Literatur zur Parallelanalyse findet man bei Franklin et al. (1995).
Signifikanztest
15
Die Frage nach der statistischen Bedeutsamkeit von PCA-Faktoren wurde von mehreren Autoren bearbeitet. Mit diesen Verfahren wird çberprçft, ob eine empirisch ermittelte Korrelationsmatrix signifikant von der Identitåts- bzw. Einheitsmatrix abweicht. Ist dies nicht der Fall, mçssen wir davon ausgehen, dass die Variablen in der Population unkorreliert sind, sodass mit der PCA nur Faktoren extrahiert werden kænnen, die auf zufållige Gemeinsamkeiten der Variablen zurçckzufçhren sind. Silver u. Dunlop (1989) vergleichen in einer Monte-Carlo-Studie die diesbezçglichen Ansåtze von Bartlett (1950), Kullback (1967), Steiger (1980) sowie Brien et al. (1984) und kommen zu dem Resultat, dass das Verfahren von Brien et al. (1984) den anderen in Bezug auf Teststårke und Testgenauigkeit çberlegen ist. Øhnlich gut schneidet das Verfahren von Steiger ab, dessen Ûberlegenheit gegençber dem Bartlett-Test bereits von Wilson u. Martin (1983) belegt wurde. Nun haben Fouladi und Steiger (1993) jedoch darauf aufmerksam gemacht, dass der Test von O'Brien çberprçft, ob die durchschnittliche Korrelation einer Korrelationsmatrix signifikant von Null abweicht, was keineswegs mit der eigentlich interessierenden Frage gleichzusetzen ist, ob die gesamte Korrelationsmatrix signifikant von einer Identitåtsmatrix abweicht. Man sollte deshalb auf das Verfahren von O'Brien verzichten und stattdessen auf den Ansatz von Steiger (1980) zurçckgreifen. Nach dem Verfahren von Steiger wird die folgende, bei multivariat normalverteilten Variablen mit df p
p 1=2 approximativ v2 -verteilte Prçfgræûe errechnet: 2
v
n
3
p X p X i1 ji1
Z2ij ;
15:61
wobei Zij = Fishers Z-Werte fçr die Korrelationen der Korrelationsmatrix (s. Gl. 6.85 oder Tabelle H). Ist der v2-Wert nicht signifikant, sollte die Korrelationsmatrix nicht faktorisiert werden, da die
Variablen bereits als voneinander unabhångig angesehen werden mçssen. Ist der v2-Wert nach Gl. (15.61) signifikant, kann der 1. Faktor extrahiert werden. Ûber Gl. (15.59) ermitteln wir auf der Basis der Ladungen des 1. Faktors, um welchen Betrag die einzelnen Variableninterkorrelationen durch den 1. Faktor aufgeklårt bzw. reduziert werden. Die Matrix der Restkorrelationen, die nach Extraktion des 1. Faktors bestehen bleibt, gibt uns darçber Auskunft, ob mit einem 2. statistisch bedeutsamen Faktor gerechnet werden kann. Dies wåre der Fall, wenn auch die Matrix der Restkorrelationen gemåû Gl. (15.61) signifikant von der Einheitsmatrix abwiche. Die statistische Bedeutsamkeit weiterer Faktoren wird analog çberprçft. Es ist allerdings davon auszugehen, dass man nach diesem Verfahren deutlich mehr bedeutsame Faktoren erhålt als nach dem Scree-Test oder der Parallelanalyse (vgl. hierzu auch Gorsuch, 1973). Weitere Informationen çber Signifkanztests fçr PCA-Faktoren hat Timm (2002, Kap. 8.4) zusammengestellt.
Hinweise: Vergleichende Studien çber die hier genannten Regeln zur Bestimmung der ¹richtigenª Faktorenanzahl findet man bei Hakstian et al. (1982), Horn u. Engstrom (1979) sowie Zwick u. Velicer (1982, 1986). Ein Fortran-Programm zur Ermittlung von Bootstrap-Schåtzern der Faktorenstruktur wurde von B. Thompson (1988) entwickelt (eine Kurzbeschreibung der Bootstrap-Methode findet man auf 132 f.). Ûber die Absicherung der ¹richtigenª Faktorenanzahl mit Hilfe der Kreuzvalidierungsmethode berichten Krzanowski u. Kline (1995). Im Kontext der Test- oder Fragebogenkonstruktion interessiert håufig die Frage, ob die Items eines Untersuchungsinstrumentes ein eindimensionales oder mehrdimensionales Konstrukt repråsentieren. Ûber Kennziffern der Eindimensionalitåt, die çber den græûten Eigenwert der PCA hinausgehen, informiert Hattie (1984). Die in diesem Abschnitt behandelten Verfahren werden eingesetzt, um die ¹richtigeª Anzahl der bedeutsamen Faktoren herauszufinden. Gelegentlich will man jedoch nicht nur die Anzahl q p der bedeutsamen Faktoren ermitteln, sondern eine Auswahl von m < p Variablen finden, die als beste Repråsentanten der Gesamtheit aller Variab-
547
a15.5 Rotationskriterien len angesehen werden kænnen. Verfahren hierfçr werden bei Jolliffe (2002, Kap. 6.3) vorgestellt.
15.5 Rotationskriterien Die Ermittlung der Faktoren in der PCA erfolgt nach einem mathematischen Kriterium, das nur selten gewåhrleistet, dass die resultierenden Faktoren auch inhaltlich sinnvoll interpretiert werden kænnen. Durch die sukzessive Aufklårung maximaler Varianzen ist damit zu rechnen, dass auf dem 1. Faktor viele Variablen hoch laden, was die Interpretation sehr erschwert. Entsprechendes gilt fçr die çbrigen Faktoren, die durch viele mittlere bzw. niedrige Ladungen gekennzeichnet sind. Durch die Standardisierung der Faktoren wird die hyperellipsoide Form des Punkteschwarms in eine Hyperkugel çberfçhrt, in der die q bedeutsamen Faktoren beliebig rotiert werden kænnen. Die Rotation der Faktoren bewirkt, dass die Varianz der ersten q PCA-Faktoren auf die rotierten Faktoren umverteilt wird, was zu einer besseren Interpretierbarkeit der Faktoren fçhren kann. Die Anzahl der bedeutsamen PCA-Faktoren, die mit dem Ziel einer besseren Interpretierbarkeit rotiert werden sollen, entnimmt man am besten dem Scree-Test oder der Parallelanalyse. Bei einem uneindeutigen Eigenwertediagramm wird empfohlen, mehrere Rotationsdurchgånge mit unterschiedlichen Faktorzahlen vorzusehen. Die Festlegung der endgçltigen Anzahl der bedeutsamen Faktoren ist dann davon abhångig zu machen, welche Læsung inhaltlich am besten interpretierbar ist (zum Problem der Interpretation von Faktorenanalysen vgl. Holz-Ebeling, 1995). Bei den Rotationstechniken unterscheiden wir · graphische Rotationen, · analytische Rotationen und · Kriteriumsrotationen. Bevor wir diese verschiedenen Rotationsvarianten behandeln, soll der Unterschied zwischen sog. schiefwinkligen (obliquen) und rechtwinkligen (orthogonalen) Rotationen erlåutert werden.
Orthogonale und oblique Rotation Bei einer orthogonalen Rotationstechnik bleibt die Unabhångigkeit der Faktoren erhalten. Dies ist
bei einer obliquen Rotation nicht der Fall, denn das Ergebnis sind hier korrelierte Faktoren. Dadurch wird zwar im Allgemeinen eine gute Interpretierbarkeit der Faktorenstrukturen erreicht; die Faktoren beinhalten aber wegen ihrer Interkorrelationen zum Teil redundante Informationen, womit eine entscheidende Funktion der Faktorenanalyse, die Datenreduktion, wieder aufgegeben wird. Mit dieser Begrçndung behandeln wir vorzugsweise orthogonale Rotationstechniken. Zur obliquen Rotation ist noch anzumerken, dass man korrelierte bzw. schiefwinklige Faktoren als Faktoren erster Ordnung (Primårfaktoren) bezeichnet. Wird çber die Korrelationsmatrix der Faktoren eine weitere Faktorenanalyse gerechnet, resultieren Faktoren zweiter Ordnung (Sekundårfaktoren), die çblicherweise wechselseitig unkorreliert sind. (Zur Bestimmung von Sekundårfaktoren mit Hilfe des Programmpakets SAS vgl. Johnson u. Johnson, 1995.)
Graphische Rotation Von besonderer Bedeutung fçr die Rotationsmethoden ist das von Thurstone (1947) definierte Kriterium der Einfachstruktur (¹simple structureª). Ein Aspekt dieses Kriteriums besagt, dass auf jedem Faktor einige Variablen mæglichst hoch und andere mæglichst niedrig und auf verschiedenen Faktoren verschiedene Variablen mæglichst hoch laden sollen. Dadurch korrelieren die einzelnen Faktoren nur mit einer begrenzten Anzahl von Variablen, was im Allgemeinen eine bessere Interpretierbarkeit der Faktoren gewåhrleistet. Ist die Anzahl der bedeutsamen Faktoren nicht sehr groû (q 3), kann man versuchen, eine Einfachstruktur ¹per Handª durch graphische Rotation zu erreichen. Die graphische Rotation beginnt ± wie in Abb. 15.2 demonstriert ± mit der Darstellung der PCA-Struktur in einem Koordinatensystem, wobei jeweils eine durch zwei Faktoren aufgespannte Ebene herausgegriffen wird. In das Koordinatensystem zweier Faktoren werden die Variablen als Punkte eingetragen, deren Koordinaten den Ladungen der Variablen auf den jeweiligen Faktoren entsprechen. Ausgehend von dieser graphischen Darstellung einer PCA-Struktur versucht man, das Achsenkreuz so zu drehen, dass mæglichst viele Punkte (d. h. Variablen) durch die Achsen repråsentiert
15
548
Kapitel 15 ´ Faktorenanalyse
F II F II'
F I'
Cluster 2
Cluster 1 ϕ
FI
Abb. 15.8. Einfachstruktur durch graphische Rotation
15
werden. Dies wird in Abb. 15.8 an einem fiktiven, idealisierten Beispiel verdeutlicht. Die Abbildung zeigt, dass die beiden eingekreisten Merkmalscluster vor der Rotation auf beiden PCA-Faktoren mittelmåûige Ladungen aufweisen. Nach der Rotation wird das eine Cluster vorwiegend durch Faktor I0 und das andere durch Faktor II0 repråsentiert. Durch die Rotation soll also erreicht werden, dass Variablen, die auf zwei (oder mehreren) PCA-Faktoren mittelmåûig laden, eindeutig einem der Faktoren zugeordnet werden kænnen. Nach abgeschlossener Rotation in einer Ebene wird in der nåchsten Ebene rotiert. Hierbei muss man berçcksichtigen, dass durch diese Rotation die Ladungen auf dem Faktor, der bereits einmal rotiert wurde, wieder veråndert werden. (Wurde als erstes in der Ebene I±II rotiert, so werden durch eine Rotation in der Ebene I±III die Ladungen auf dem ersten Faktor erneut veråndert.) Die neuen Faktorladungen kænnen entweder durch einfaches Ablesen oder auf rechnerischem Weg bestimmt werden (Gl. 15.12 a u. b).
Analytische Rotation (Varimax) Die graphische Rotation ist bei græûeren Faktorenund Variablenzahlen sehr mçhsam und sollte durch ein analytisches Rotationsverfahren ersetzt werden. Eine vollståndige Behandlung aller bisher entwickelten Rotationstechniken ist in diesem Rahmen nicht mæglich. Einige dieser Verfahren lauten:
Binormamin Biquartimin Covarimin Equimax Maxplane Oblimax Oblimin Parsimax Promax Quartimax Quartimin Tandem Varimax Varisim
(Dickmann, 1960) (Carroll, 1957) (Carroll, 1960) (Landahl, 1938; Saunders, 1962) (Cattell u. Muerle, 1960; Eber, 1966) (Pinzka u. Saunders, 1954) (Jennrich u. Sampson, 1966) (Crawford, 1967) (Hendrickson u. White, 1964) (Neuhaus u. Wrigley, 1954) (Carroll, 1953) (Comrey, 1973) (Kaiser, 1958, 1959) (Schænemann, 1966 a).
Die meisten dieser Kriterien bewirken schiefwinklige (oblique) Faktorenstrukturen, in denen die Faktoren korreliert sind. Wir wollen uns auf eine orthogonale Rotationstechnik (die Varimax-Technik), durch die die Rechtwinkligkeit der Achsen erhalten bleibt, beschrånken, zumal Gorsuch (1970) in einer Vergleichsstudie berichtet, dass diese Technik zu åhnlich interpretierbaren Faktoren fçhrt wie die am håufigsten eingesetzten, obliquen Rotationstechniken. (Zum Vergleich verschiedener Rotationstechniken s. auch Schiller, 1988.)
Das Varimax-Kriterium. Eine Rotation nach dem Varimax-Kriterium (Kaiser, 1958, 1959) hat zum Ziel, auf analytischem Weg eine mæglichst gute Einfachstruktur (vgl. S. 547) fçr die q bedeutsamen Faktoren herzustellen. Das Einfachstrukturkriterium verlangt, dass pro Faktor einige Variablen mæglichst hoch und andere mæglichst niedrig laden, was mit der Forderung gleichzusetzen ist, dass die Varianz der Faktorladungen pro Faktor mæglichst groû sein soll. Zuvor werden die Faktorladungen quadriert, sodass sowohl hohe positive als auch hohe negative Ladungen zusammen mit Null-Ladungen zu einer Varianzerhæhung beitragen. Die Achsen werden nach diesem Kriterium so rotiert, dass Ladungen mittlerer Græûe entweder unbedeutender oder extremer werden. Nach dem Varimax-Kriterium werden die Faktoren so rotiert, dass die Varianz der quadrierten Ladungen pro Faktor maximiert wird.
Rechnerische Durchfçhrung. Die Varianz der quadrierten Ladungen eines Faktors j ermitteln wir nach der Beziehung: X 2 p p 1X 2 2 1 2 2
a aij :
15:62 sj p i1 ij p2 i1 Diese Gleichung stellt in modifizierter Form die Varianzbestimmung nach Gl. (1.21) dar. Die Varianz der quadrierten Ladungen soll auf allen Faktoren mæglichst groû werden. Wir suchen deshalb eine orthogonale Rotationslæsung, durch die der folgende Ausdruck maximiert wird: Q
q X j1
s2j
max :
15:63
Um Q zu finden, rotieren wir nacheinander alle Paare von Faktoren j und j0 so, dass jeweils die Summe s2j s2j0 maximal wird. Fçr jede Rotation berechnen wir eine Transformationsmatrix Vj , durch die s2j und s2j0 maximiert werden. Wir erhalten somit insgesamt q
q 1=2 Transformationsmatrizen. Um zu einer einzigen Transformationsmatrix zu gelangen, die gleichzeitig die Ladungsvarianzen aller Faktoren maximiert, berechnen wir das folgende Produkt (vgl. Harman, 1968, S. 300): V V1 V 2 . . . Vj . . . Vr
15:64
r q
q
15
549
a15.5 Rotationskriterien
1=2 :
In Gl. (15.64) behandeln wir die Vj -Matrizen als q q-Matrizen, in denen jeweils nur diejenigen Elemente besetzt sind, die den mit einer Vj -Matrix rotierten Faktoren entsprechen. Die çbrigen Elemente in der Hauptdiagonale werden 1 und die nicht-diagonalen Elemente 0 gesetzt. (Wenn mit Vj z. B. die Faktoren 2 und 4 rotiert werden und q 4 ist, sind die Elemente v22 , v24 , v42 und v44 zu berechnen. Fçr v11 und v33 setzen wir 1 und fçr die çbrigen Werte 0.) Wurden alle Faktoren paarweise rotiert, berechnen wir V nach Gl. (15.64). Die neue Ladungsmatrix B, in der fçr alle Faktoren die Varianz der quadrierten Ladungen maximal ist, bestimmen wir nach der Gleichung B A V ;
15:65 (wobei A die ursprçngliche und B die neue Ladungsmatrix darstellt).
Fçr B errechnen wir Q nach Gl. (15.63) und beginnen mit B als Ausgangsmatrix einen neuen Rotationszyklus. Die Rotationszyklen werden so lange wiederholt, bis sich Q einem maximalen Wert angenåhert hat, der durch weitere Zyklen nicht mehr vergræûert werden kann. Das zentrale Problem der Varimax-Rotation besteht darin, fçr jedes Faktorenpaar eine Transformationsmatrix Vj zu finden, die die Varianzen sj und sj0 maximiert. Ist Vj bekannt, ermitteln wir die neuen Ladungen fçr 2 Faktoren nach der Beziehung: Ajj0
0
1 0
a1j B a2j B B B .. @ .
a1j
apj
apj0
a2j0 C C cos u C .. C sin u . A
Vj
15:66 sin u
cos u
Bjj0 1 b1j b1j0 B b2j b2j0 C C B C B .. C : B .. @ . . A 0
bpj
bpj0
Bjj0 ist hierbei die neue Teilladungsmatrix fçr die Faktoren j und j0 mit den Elementen bij und bij0 , in der die Varianzen der quadrierten Ladungen auf beiden rotierten Faktoren maximal sind. Ausgehend vom Rotationswinkel u erhalten wir die Ladungen bij und bij0 nach den Gleichungen bij bij0
aij cos u aij0 sin u ;
15:67 a
aij sin u aij0 cos u :
15:67 b
Die Summe der Varianzen, die pro Faktorpaar zu maximieren ist, lautet: X X 2 1 1 2 2 2 2
bij b2ij s j s j0 p i p2 i X 2 X 1 1
b2ij0 2 b2ij0 :
15:68 p i p2 i Der folgende Gedankengang fçhrt zur Ermittlung des varianzmaximierenden Rotationswinkels u. (Hierbei ersetzen wir ± um mæglichen Verwechslungen vorzubeugen ± aij0 als Ladungen auf dem zweiten Faktor durch Aij .) Wir substituieren zu-
550
Kapitel 15 ´ Faktorenanalyse
nåchst die unbekannten neuen Ladungen in Gl. (15.68) durch Gl. (15.67 a u. b) und erhalten so eine Gleichung, in der sich nur der unbekannte Winkel u befindet. Wir leiten diese Gleichung nach u ab, setzen die erste Ableitung 0 und erhalten folgende Bestimmungsgleichung fçr den gesuchten Winkel (vgl. Comrey, 1973, Kap. 7.4): X C2 p
a2ij A2ij
2 aij Aij X i
i
a2ij
p
X
X i
A2ij
i
a2ij
X
2 aij Aij
a2ij
i
A2ij 2
2
d) Sind Zåhler und Nenner in Gl. (15.69) negativ, lautet der Rotationswinkel (45 u). Er wird im Uhrzeigersinn abgetragen. Fçr V erhalten wir: cos
45 u sin
45 u V : sin
45 u cos
45 u
15:71 d
2 X 2 1 BEISPIEL A2ij
2 aij Aij : Tabelle 15.7 zeigt in den ersten beiden Spalten die Laduni
(15.69)
15:70
Der Absolutwert von C entspricht dem tg des 4fachen Rotationswinkels u. Wir erhalten u somit, indem wir denjenigen Winkel ermitteln, dessen tg vom Betrag jCj ist; dieser Winkel wird durch 4 dividiert. Als Nåchstes legen wir fest, wie der Winkel u abgetragen werden muss. Wir unterscheiden die folgenden 4 Fålle:
15
im Uhrzeigersinn. Die Transforlautet: sin u :
15:71 c cos u
2 aij Aij
Aus C ermitteln wir: tg
4 u jCj :
den Winkel u mationsmatrix cos u V sin u
a) Sind Zåhler und Nenner von Gl. (15.69) positiv (der Nenner ist hier durch den Exponenten 1 gekennzeichnet), rotieren wir das Achsenkreuz um den Winkel u entgegen dem Uhrzeigersinn. Die Transformationsmatrix lautet in diesem Fall: cos u sin u :
15:71 a V sin u cos u b) Ist der Zåhler von Gl. (15.69) positiv und der Nenner negativ, rotieren wir das Achsenkreuz um den Winkel (45 u) entgegen dem Uhrzeigersinn. Die Transformationsmatrix lautet: sin
45 u cos
45 u : V cos
45 u sin
45 u
15:71 b c) Bei negativem Zåhler und positivem Nenner in Gl. (15.69) rotieren wir das Achsenkreuz um
gen von 4 Variablen auf 2 PCA-Faktoren. Mit diesen beiden Faktoren werden 52% der Gesamtvarianz aufgeklårt, wobei 33;25% auf Faktor 1 und 18;75% auf Faktor 2 entfallen. Die Varianz der quadrierten Ladungen lautet fçr Faktor 1: s21 0;059 und fçr Faktor 2: s22 0;005. Tabelle 15.7 enthålt die fçr die Gl. (15.69) benætigten Zwischenergebnisse. Wir ermitteln tg
4u j 1;5538j und 4 u 57;2% bzw. u 14;3 . Ferner ist der Zåhler von Gl. (15.69) positiv und der Nenner negativ, sodass wir das Achsenkreuz gemåû Gl. (15.71 b) um (45 u) entgegen dem Uhrzeigersinn rotieren. Die Elemente der Rotationsmatrix V ergeben sich nach Gl. (15.71 b) zu cos
45 14;3 cos 30; 7 0; 8599 und sin
45 14;3 sin 30;7 0;5105. Die Bedingungen V0 V I und jVj 1 sind erfçllt, d. h., V bewirkt eine orthogonale Rotationstransformation. Die neuen Ladungen der 4 Variablen sind in der Matrix B wiedergegeben. Die Varianzen der quadrierten Ladungen wurden erheblich vergræûert: s21 0;129 und s22 0;025. Die VarimaxRotation hat zu einer angenåherten Einfachstruktur in dem Sinn gefçhrt, dass nach der Rotation Faktor 1 deutlicher durch die Merkmale 1 und 2 und Faktor 2 durch die Merkmale 3 und 4 beschreibbar sind. Faktor I klårt nach der Rotation 36;4% und Faktor II 15;7% auf, d. h., die Summe ergibt ± bis auf Rundungsungenauigkeiten ± wieder 52% (zur Bestimmung des Varianzanteils eines Faktors vgl. S. 520.).
Die gesamte aufgeklårte Varianz wird durch die Rotation nicht veråndert, sondern lediglich ihre Verteilung auf die Faktoren.
Nach diesen Ausfçhrungen wollen wir das Zylinderbeispiel von S. 520 f. erneut aufgreifen. Wir hatten herausgefunden, dass die beiden ersten PCAFaktoren nicht den erwarteten Faktoren (mit Durchmesser und Långe als Markiervariablen) entsprechen, dass sich diese jedoch durch eine
551
a15.5 Rotationskriterien Tabelle 15.7. Beispiel fçr eine Varimax-Rotation ai1
Ai2
a2i1
0,80 0,70 0,40 0,20
0,30 0,50 ±0,50 ±0,40
2 ai1 Ai2
a2i1
0,55 0,24 ±0,09 ±0,12
0,48 0,70 ±0,40 ±0,16
0,3025 0,0576 0,0081 0,0144
0,58
0,62
Summen:
A2i2
2
4 0;4872 0;58 0;62 4
0;5234
0;582 0;622 3;1784 j 1;5538j tg
4 u 2;0456 14;3 0;8599
14;3 0;5105
sin
45 0
A 0;80
B 0;70 B B @ 0;40 0;20
0;30
1
0;50 C 0;8599 C C 0;50 A 0;5105 0;40
a2i1 A2i2
2 ai1 Ai2
a2i1 A2i2 2
2 ai1 Ai2 2
0,2304 0,4900 0,1600 0,0256
0,2640 0,1680 0,0360 0,0192
0,0721 ±0,4324 ±0,1519 ±0,0112
0,4872
±0,5234
u 57;2 =4 14;3
V
0;5105 0;8599
2 ai1 Ai2 2
4 u 57;2
C
cos
45
A2i2 2
0
B 0;84
B 0;86 B B @ 0;09 0;03
einfache graphische Rotation auffinden lassen. Wie wollen nun çberprçfen, zu welchem Ergebnis eine Varimax-Rotation der Ladungsmatrix aus Tabelle 15.3 fçhrt. Tabelle 15.8 zeigt das Ergebnis. Man erkennt, dass die varimax-rotierten Faktoren unsere ¹Zylindertheorieª perfekt beståtigen. Die beiden unabhångigen Merkmale ¹Durchmesserª und ¹Långeª markieren jeweils einen Faktor.
Bedeutsame Faktorladungen. Da die Faktorenanalyse hier als ein exploratives Verfahren verstanden wird, sollten mægliche Kriterien, nach denen eine Faktorladung als bedeutsam und damit als inter-
Tabelle 15.8. Varimax-Læsung des Zylinderbeispiels (Tabelle 15.3) F1 F2 Durchmesser 0,005 0,992 ±0,005 Långe 0,999 Grundflåche 0,005 0,992 Mantelflåche 0,583 0,797 0,903 Volumen 0,395 0,505 Diagonale 0,849
0;15
1
0;07 C C C 0;63 A 0;45
pretationswçrdig anzusehen ist, nicht allzu rigide gehandhabt werden. Dennoch empfehlen wir, sich auch bei der Interpretation einer varimax-rotierten Faktorenstruktur an die auf S. 523 f.. bereits genannten Empfehlungen von Guadagnoli u. Velicer (1988) zu halten, die hier (verkçrzt) erneut wiedergegeben werden: · Ein Faktor kann interpretiert werden, wenn mindestens 4 Variablen eine Ladung çber 0;60 aufweisen. Die am hæchsten ladenden Variablen sind die ¹Markiervariablenª fçr die Interpretation. · Ein Faktor kann interpretiert werden, wenn mindestens 10 Variablen Ladungen çber 0,40 haben. Dies ist nach Stevens (2002, S. 394) generell der untere Grenzwert fçr Faktorladungen, die bei der Interpretation eines Faktors berçcksichtigt werden kænnen. · Haben weniger als 10 Variablen eine Ladung çber 0;40, sollte nur interpretiert werden, wenn die Stichprobe mindestens aus 300 Vpn besteht (n 300). · Haben weniger als 10 Variablen eine Ladung çber 0;40, und ist der Stichprobenumfang kleiner als 300, muss mit zufålligen Ladungsstruk-
15
Kapitel 15 ´ Faktorenanalyse
turen gerechnet werden. Eine Ergebnisinterpretation wåre hier nur aussagekråftig, wenn sie sich in einer weiteren Untersuchung replizieren lieûe.
15
Im Ûbrigen wird auf Gl. (15.6) verwiesen, mit der sich auch bei Varimax-Læsungen die Stabilitåt der Faktorenstruktur abschåtzen låsst. Unter inferenzstatistischem Blickwinkel ist es sinnvoll, die Standardfehler der Ladungen zu berçcksichtigen, indem Signifikanztests fçr Ladungen durchgefçhrt bzw. Konfidenzintervalle festgelegt werden. Ûber die mathematisch schwierige, inferenzstatistische Absicherung von Ladungen der PCA-Faktoren berichten Girshick (1939), Rippe (1953) und Pennell (1972). Die Bestimmung der Standardfehler rotierter Ladungen wird bei Archer u. Jennrich (1973) sowie Cudeck u. O'Dell (1994) behandelt. Cliff u. Hamburger (1967) untersuchen die Verteilung von Faktorladungen in Monte-Carlo-Studien. Sie kommen zu dem Schluss, dass der Standardfehler einer Faktorladung in etwa dem einer Produktmomentkorrelation (mit gleichem n) entspricht. Fçr unrotierte Faktorladungen kann p als grobe Schåtzung fçr den Standardfehler 1= n angenommen werden. Der Standardfehler nimmt bei græûer werdender Ladung ab und ist bei rotierten Ladungen geringfçgig græûer als bei unrotierten Ladungen. Hat eine Variable auch nach einer Varimax-Rotation mittlere Ladungen auf mehreren Faktoren, stellt sich die Frage, welchem Faktor diese Variable zugeordnet werden soll. Fçrntratt (1969) hat hierfçr eine einfache Regel vorgeschlagen. Er fordert, dass eine Variable i nur dann einem Faktor j zugeordnet werden sollte, wenn der Quotient aus quadrierter Ladung und Kommunalitåt den Wert 0,5 nicht unterschreitet
a2ij =h2i 0;5, d. h. wenn mindestens 50% der aufgeklårten Varianz einer Variablen i auf den Faktor j entfallen. BEISPIEL Ein abschlieûendes Beispiel verdeutlicht den Einsatz der Varimax-Rotation im Anschluss an eine PCA. Es geht um die Frage, welche Faktoren beim Beurteilen des Klangs von Sprechstimmen relevant sind (Bortz, 1971). Eine Stichprobe von Urteilern wurde aufgefordert, 39 Sprechproben von verschiedenen månnlichen Sprechern (jeder Sprecher sprach die gleichen Texte) auf 18 bipolaren Adjektivskalen (Polaritåten) einzustufen. Ausgehend von den Durchschnittsurteilen pro Sprechstimme und Polaritåt wurden die Polaritåten
7 6 5
λ
552
4 3 2 1 0 0
1
2
3
4
5
6
7
8
9
10
Rangnummer von λ
Abb. 15.9. Eigenwertediagramm des PCA-Beispiels çber die 39 Sprechproben interkorreliert und die Korrelationen (18 18-Matrix) mit einer PCA faktorisiert. Abbildung 15.9 zeigt das Eigenwertediagramm der Korrelationsmatrix. Drei Eigenwerte weisen einen Betrag græûer als 1 auf. Da sich die Eigenwerte nach dem 3. Eigenwert asymptotisch der X-Achse nåhern, entscheiden wir uns auch nach dem Scree-Test (vgl. 15.4) fçr q 3. Die ersten 4 Zufallseigenwerte lauten nach Gl. (15.60): k1 2;5; k2 2;2; k3 2;0 und k4 1;8. Die empirischen Eigenwerte sind ab dem 4. Eigenwert deutlich kleiner als die Zufallseigenwerte, was ebenfalls fçr q 3 bedeutsame Faktoren spricht. Mit 3 Faktoren werden 83;3% der gesamten durchschnittlichen Urteilsvarianz aufgeklårt. Tabelle 15.9 zeigt die Ladungen der 18 Polaritåten auf den ersten 3 PCA-Faktoren sowie die Varimaxlæsung fçr diese 3 Faktoren. Der erste Faktor klårt in der PCA-Læsung 41;6% und in der Varimax-Læsung 37;0% der Varianz auf. (Man ermittelt den Varianzanteil eines Faktors, indem man die Summe seiner quadrierten Ladungen durch p dividiert; vgl. S. 520.) Gehen wir davon aus, dass nur Polaritåten mit Ladungen çber 0;60 fçr einen Faktor bedeutsam sind, wird der erste PCA-Faktor durch 12 und der erste Varimax-Faktor durch 8 Polaritåten gekennzeichnet. Zudem ist die Anzahl der Ladungen, die nahezu Null sind, in der Varimax-Rotation græûer als in der PCA-Læsung, d. h., die Varimax-Læsung åhnelt mehr einer Einfachstruktur als die PCA-Læsung. Der zweite Varimax-Faktor erklårt einen Varianzanteil von 30;4%, was ungefåhr dem Varianzanteil des zweiten PCA-Faktors entspricht (31;1%). Auf ihm laden ± wie auch auf dem zweiten PCA-Faktor ± 7 Variablen bedeutsam, sodass auch der zweite Faktor interpretiert werden kann (vgl. S. 551). Der dritte Faktor erklårt mit 15;9% zwar mehr Varianz als in der PCA-Læsung (10;6%); er hat jedoch nur drei bedeutsame Ladungen und sollte deshalb nur mit Vorsicht interpretiert werden. Die Varimax-Faktoren kænnen wir folgendermaûen interpretieren: Der erste Faktor wird auf der positiven Seite (man beachte die Vorzeichen der Ladungen!) durch die Merkmale laut (1), schnell (5), aktiv (8), kråftig (9), selbstsicher (11), lebendig (13), drångend (14) und temperamentvoll (16) und auf der negativen Seite entsprechend durch leise (1), langsam (5), passiv (8), schwach (9), schçchtern (11), ruhig (13), zægernd (14) und mçde (16) beschrieben.
553
a15.5 Rotationskriterien Tabelle 15.9. Beispiel fçr eine PCA mit anschlieûender Varimax-Rotation PCA-Faktoren
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18.
laut ± leise wohlklingend ± misstænend klar ± verschwommen flieûend ± stockend langsam ± schnell artikuliert ± verwaschen angenehm ± unangenehm aktiv ± passiv kråftig ± schwach tief ± hoch selbstsicher ± schçchtern verkrampft ± gelæst ruhig ± lebendig zægernd ± drångend korrekt ± nachlåssig temperamentvoll ± mçde groû ± klein håsslich ± schæn
Varimax-Faktoren h2
FI
F II
F III
FI
F II
F III
0,73 0,19 0,69 0,70 ±0,63 0,67 0,16 0,90 0,88 0,61 0,89 ±0,39 ±0,67 ±0,79 0,43 0,84 0,36 ±0,29
±0,44 0,85 ±0,02 0,20 0,65 0,23 0,93 ±0,37 0,27 0,46 0,14 ±0,81 0,64 0,50 0,35 ±0,38 0,76 ±0,85
0,04 0,01 ±0,65 0,00 ±0,06 ±0,64 0,02 0,06 0,24 0,48 0,08 ±0,03 ±0,12 ±0,15 ±0,72 0,16 0,43 0,01
0,84 ±0,26 0,42 0,48 ±0,86 0,28 ±0,31 0,95 0,67 0,41 0,69 0,06 ±0,90 ±0,94 0,01 0,93 0,04 0,17
±0,08 0,80 0,03 0,45 0,29 0,24 0,86 0,06 0,66 0,80 0,50 ±0,85 ±0,25 0,06 0,22 0,07 0,94 ±0,84
±0,17 ±0,22 ±0,86 ±0,30 0,07 ±0,88 ±0,21 ±0,23 ±0,17 0,12 ±0,30 0,27 0,03 0,08 ±0,88 ±0,11 0,11 0,28
0,73 0,75 0,91 0,52 0,82 0,91 0,88 0,95 0,91 0,81 0,81 0,80 0,87 0,90 0,82 0,88 0,89 0,80
41,6%
31,1%
10,6%
37,0%
30,4%
15,9%
83,3%
Mit diesem Faktor wird offensichtlich der Dynamikaspekt von Sprechstimmen erfasst. Den zweiten Faktor kennzeichnen auf der positiven Seite die Adjektive wohlklingend (2), angenehm (7), kråftig (9), tief (10), gelæst (12), groû (17) und schæn (18) und auf der negativen Seite misstænend (2), unangenehm (7), schwach (9), hoch (10), verkrampft (12), klein (17) und håsslich (18). Mit diesem Faktor wird also die gefçhlsmåûige Bewertung von Sprechstimmen erfasst. Wir wollen ihn als Valenzfaktor bezeichnen. Dem 3. Faktor sind die folgenden Polaritåten zugeordnet: Auf der positiven Seite verschwommen (3), verwaschen (6) und nachlåssig (15) und auf der negativen Seite klar (3), artikuliert (6) und korrekt (15). Wenngleich dieser Faktor nur durch wenige Urteilsskalen gekennzeichnet ist, wird ein weiterer Teilaspekt der Wirkungsweise von Sprechstimmen deutlich, den wir als Prågnanzfaktor bezeichnen wollen. Zusammenfassend låsst sich somit auf Grund dieser Untersuchung vermuten, dass die Faktoren Dynamik, Valenz und Prågnanz fçr die Charakterisierung von Sprechstimmen relevant sind. Generell ist zu beachten, dass sich die faktorielle Struktur natçrlich nur auf diejenigen Eigenschaften oder Merkmale beziehen kann, die in der Untersuchung angesprochen werden. Wie die Kommunalitåten zeigen, werden die Polaritåten mit den 3 Faktoren bis auf eine Ausnahme recht gut erfasst. Die Ausnahme ist die Polaritåt flieûend ± stockend (4), deren Varianz nur zu 52% (h2 0; 52) durch die 3 Faktoren aufgeklårt wird. Sie låsst sich nach dem Fçrntratt-Kriterium
a2ij =h2i 0;5 keinem der 3 Faktoren eindeutig zuordnen und erfasst vermutlich einen spezifischen Aspekt der Wirkungsweise von Sprechstimmen. Knapp verfehlt wird das Fçrntratt-Kriterium auch fçr die Polaritåt 9 (kråftig ±
schwach). Es lautet fçr Faktor I 0;672 =0;91 0;49 < 0;5 und fçr Faktor II 0;662 =0;91 0;48 < 0;5. Da diese Polaritåt jedoch sowohl fçr die Dynamik als auch die Valenz von (Månner-)Stimmen charakteristisch ist, kann sie ± wie geschehen ± ohne weiteres beiden Faktoren zugeordnet werden.
Hinweis: Einen allgemeinen Ansatz fçr orthogonale Rotationskriterien (Varimax, Quartimax, Equimax) findet der interessierte Leser bei Jennrich (1970) und Crawford u. Ferguson (1970). Hakstian u. Boyd (1972) unterziehen dieses sog. ¹Orthomaxª-Kriterium einer empirischen Ûberprçfung. Das Problem der Eindeutigkeit analytischer Rotationslæsungen wird z. B. von Rozeboom (1992) untersucht. Kriteriumsrotation In der Forschungspraxis ist man gelegentlich daran interessiert, zwei (oder mehrere) Faktorstrukturen miteinander zu vergleichen (z. B. Vergleich der Intelligenzstruktur weiblicher und månnlicher Vpn oder Vergleich der Einstellungsstruktur von Soldaten zum Militår vor und nach einem Einsatz).
15
554
15
Kapitel 15 ´ Faktorenanalyse
Fçr Vergleiche dieser Art wåre es falsch, hierfçr die jeweiligen Varimax-Læsungen heranzuziehen, denn diese erfçllen ± jeweils fçr sich ± das mathematische Varimax-Kriterium und kænnen deshalb græûere Strukturunterschiede vortåuschen als tatsåchlich vorhanden sind (vgl. hierzu z. B. Kiers, 1997). Aufgabe der Kriteriumsrotation ist es, unter den unendlich vielen åquivalenten Læsungen fçr jeden der zu vergleichenden Datensåtze diejenigen Faktorlæsungen ausfindig zu machen, die einander maximal åhneln. Hierbei geht man çblicherweise so vor, dass eine mæglichst gut interpretierbare (in der Regel varimax-rotierte) Læsung als Zielstruktur vorgegeben und die zu vergleichende Læsung (Vergleichsstruktur) so rotiert wird, dass sie zur Zielstruktur eine maximale Øhnlichkeit aufweist. Die Zielstruktur kann empirisch ermittelt sein (z. B. die varimax-rotierte Intelligenzstruktur weiblicher Vpn) oder auf Grund theoretischer Ûberlegungen vorgegeben werden. (Genauer hierzu vgl. S. 560 f. zum Stichwort ¹konfirmative Faktorenanalyseª.) Bei Vergleichen dieser Art wird vorausgesetzt, dass die zueinander in Beziehung gesetzten Strukturen auf den gleichen Variablen basieren. Zusåtzlich sollte die Anzahl der Faktoren in der Vergleichsstruktur mit der Anzahl der Faktoren in der Zielstruktur çbereinstimmen. Das Problem des Vergleichs zweier Faktorstrukturen wurde erstmals von Mosier (1939) aufgegriffen, der allerdings nur eine approximative Læsung vorschlug. Bessere Læsungen entwickelten Eyferth u. Sixtl (1965), Green (1952), Fischer u. Roppert (1964), Cliff (1966), Schænemann (1966 b) und Gebhard (1967). Das Grundprinzip der auf Faktorstrukturvergleiche zugeschnittenen Kriteriumsrotation låsst sich nach Cliff (1966) folgendermaûen darstellen:
Faktorstrukturvergleich. Gegeben sind die Faktorladungsmatrizen A und B (z. B. Intelligenzstrukturen månnlicher und weiblicher Vpn); gesucht wird eine Transformationsmatrix T, durch die eine Vergleichsstruktur B so rotiert wird, dass ihre Øhnlichkeit mit der vorgegebenen Zielstruktur A maximal wird. Zur Kennzeichnung der Øhnlichkeit zweier Faktoren j und k wird çblicherweise der folgende Kongruenzkoeffizient nach Tucker (1951) eingesetzt (vgl. hierzu auch Broadbooks u. Elmore, 1987):
p P
aij bik i1 Cjk s p p P 2 P 2 aij bik i1
15:72 a
i1
mit aij = Ladung der i-ten Variablen auf dem j-ten Faktor in der Struktur A und bik = Ladung der i-ten Variablen auf dem k-ten Faktor in der Struktur B. Dieses Maû hat ± wie eine Korrelation ± einen Wertebereich von 1 bis 1 (auf die besonderen Probleme dieses Koeffizienten bei Faktorstrukturen mit nur positiven Ladungen ± ¹positive manifoldª ± geht Davenport, 1990, ein). Will man die Faktorstrukturen nicht faktorweise, sondern als Ganze vergleichen, errechnet man (vgl. z. B. Gebhardt, 1967 a) tr
A0 B FC p ; tr
A0 A tr
B0 B
15:72 b
wobei tr fçr die Spur der jeweiligen Matrix steht (vgl. S. 536 f.). Gesucht wird eine Transformationsmatrix T, die den Zåhler von Gl. (15.72 b) maximiert. Diese Transformationsmatrix erhålt man nach folgenden Rechenschritten: Man berechnet zunåchst eine Matrix M: M B0 A A0 B :
15:73 a
Fçr diese Matrix sind die Eigenwerte
K und die Eigenvektoren
V zu bestimmen. Mit U A0 B V K 1=2
15:73 b resultiert die Transformationsmatrix T nach folgender Gleichung: T V U0 :
15:74
1=2
ist eine Diagonalmatrix mit den Reziprok
K werten der Wurzeln aus den Eigenwerten; zur Theorie vgl. Green u. Carroll, 1976, Kap. 5.7 in Ergånzung zu Revenstorf, 1976, S. 248 ff.). Man berechnet ferner B B T
15:75 und erhålt mit B die rotierte Matrix B, die zur Matrix A eine maximale Øhnlichkeit aufweist.
BEISPIEL Zu vergleichen seien die folgenden Faktorstrukturen A (Zielstruktur) und B (Vergleichsstruktur) mit jeweils 4 Variablen und 2 Faktoren:
FI
A
0,80 0,80 0,00 0,00
F II
FI
0,00 0,00 0,68 1,00
0,80 0,80 0,80 0,80
Man errechnet 3;445 M 0; 170
0;170 0;951
B
F II 0,40 0,40 ±0,20 ±0,60
:
Als Eigenvektoren erhålt man 0;998 0;068 V 0;068 0;998 mit den Eigenwerten k1 3;46 und k2 0;94. Fçr U ergibt sich: 0;664 0;748 U 0;748 0;664 und damit 0;713 T 0;701
0;701 0;713
:
Nach Gl. (15.75) ergibt sich die folgende rotierte Matrix B:
F0 I
B
0,851 0,851 0,430 0,149
15
555
a15.5 Rotationskriterien
F0 II 0,276 0,276 0,704 0,989
Die Kongruenz der beiden ersten Faktoren aus A und B betrågt nach Gl. (15.72 a) CI;I 0;71 und die der beiden zweiten Faktoren CII;II 0;72. Nach der Rotation von B zu B resultieren CI;I 0;93 und CII;II 0;95, d. h., die Øhnlichkeit der Faktoren wurde deutlich erhæht. Fçr die Øhnlichkeit der gesamten Ladungsstruktur lautet der Wert gem. Gl. (15.72 b) vor der Rotation FC 0;18 und nach der Rotation FC 0;94.
Bewertung der Øhnlichkeit von Faktorstrukturen. Das Kongruenzmaû fçr die Øhnlichkeit von Faktorstrukturen ist nur ein deskriptives Maû; die exakte Verteilung dieser Koeffizienten ist unbe-
kannt, d. h., Signifikanztests kænnen nicht durchgefçhrt werden. (Einen approximativen, empirischen Ansatz zur Konfidenzintervallbestimmung demonstrieren Schneewind u. Cattell, 1970; genaueres bei Korth u. Tucker, 1975, 1979.) Die Verteilung der Faktorstrukturåhnlichkeitskoeffizienten wurde allerdings mehrfach mit Monte-Carlo-Studien untersucht. Die Resultate dieser Studien lassen sich folgendermaûen zusammenfassen: Bei Stichproben aus ¹verwandtenª Populationen sprechen Øhnlichkeitskoeffizienten çber 0,90 fçr eine hohe Faktorstrukturçbereinstimmung (vgl. Gebhard, 1967; Kerlinger, 1967). Nesselroade u. Baltes (1970) untersuchten den Einfluss der Stichprobengræûe, der Variablenzahl und der Faktorenzahl auf die Øhnlichkeitskoeffizienten. Hierbei zeigte sich, dass der Øhnlichkeitskoeffizient fçr Zufallsstrukturen mit zunehmender Anzahl der Faktoren græûer wird und mit steigender Variablenzahl abnimmt, wåhrend sich die Stichprobengræûe nur unbedeutend auf die Øhnlichkeitskoeffizienten auswirkt. Nach Korth (1978) ergeben sich fçr 4 Faktoren die folgenden ¹Signifikanzgrenzenª (a 0;05): 10 Variablen
0;93;
30 Variablen
0;46;
50 Variablen
0;34;
70 Variablen
0;32:
Hilfreich fçr die Bewertung der Øhnlichkeit von Faktorstrukturen ist ferner eine Arbeit von Skakun et al. (1976, 1977), die zeigt, dass die Wurzel aus der durchschnittlichen Spur einer Matrix E0 E w tr
E0 E=p q1=2
15:76
(E A B, p = Anzahl der Variablen; q = Anzahl der Faktoren) bei Gçltigkeit der H0 approximativ normalverteilt ist. Fçr den Erwartungswert und die Streuung dieser Verteilung stellen die folgenden Ausdrçcke brauchbare Schåtzungen dar: s 1 q w
15:77 4 n (n = Stichprobenumfang).
556
Kapitel 15 ´ Faktorenanalyse
1 rw p : 12 n q
15:78
Unter Verwendung der z-Transformation (vgl. S. 44 f.) låsst sich ein empirischer w-Wert anhand der Standardnormalverteilung zufallskritisch bewerten. Signifikante w-Werte sind græûer als der folgende, kritische w-Wert: wcrit w z rw
15:79
(mit z 1;645 fçr a 5% und z 2;326 fçr a 1%). wcrit ist zu korrigieren, wenn ± was in der Regel der Fall sein dçrfte ± mit den zu vergleichenden Faktorstrukturen nicht die gesamte Varianz aufgeklårt wird: wcrit
korr wcrit s 100 aufgeklarte Varianz in % 1: q1 (15.80) Klåren die zu vergleichenden Faktorstrukturen unterschiedliche Varianzanteile auf, berechnet man fçr jede Faktorstruktur den Korrekturfaktor und setzt in Gl. (15.80) den Mittelwert beider Korrekturfaktoren ein. Håufig basieren die zu vergleichenden Faktorstrukturen auf unterschiedlich groûen Stichprobenumfången. In diesem Fall empfehlen Skakun et al. (1976), in Gl. (15.77) und (15.78) fçr n das harmonische Mittel (vgl. S. 39) der Stichprobenumfånge einzusetzen.
15
Datenrçckgriff. Bezogen auf das oben erwåhnte Zahlenbeispiel (S. 555) errechnet man 0 1 0;051 0;276 B 0;051 0;276 C C E A B B @ 0;430 0;024 A 0;149 0;011 und tr
EE0 0;3654. Damit ergibt sich nach Gl. (15.76) r 0;3654 0;2137 : w 42 Setzen wir n 100, resultieren ferner r 1 2 0;0345 und w 4 100 1 rw p 0;0204 : 12 100 2
Der kritische w-Wert ergibt sich damit zu wcrit 0;0354 1;645 0;0204 0;069 : Dieser Wert ist nach Gl. (15.80) wie folgt zu korrigieren: Korrekturfaktor fçr A: r 100 68;50 1 4;2404 ; 3 Korrekturfaktor fçr B : r 100 82;00 1 3;4495 : 3 Mit einem durchschnittlichen Korrekturfaktor von
4;2404 3;4495=2 3;845 heiût der korrigierte kritische w-Wert wcrit
korr 0;069 3;845 0;2653 : Da 0;2137 < 0;2653 ist, unterscheiden sich die Strukturen A und B nicht signifikant.
Hinweise: Weitere Informationen zur Durchfçhrung und Interpretation von Faktorstrukturvergleichen findet man bei ten Berge (1986 a, b), Paunonen (1997), Kiers (1997), Kiers u. Groenen (1996) bzw. Revenstorf (1976, Kap. 7). Zur inferenzstatistischen Absicherung von Faktorstrukturvergleichen hat Rietz (1996) einen Vorschlag unterbreitet (vgl. hierzu auch Chan et al., 1999). Wie man eine fçr mehrere Populationen gçltige PCA-Læsung ermittelt, wird bei Millsap u. Meredith (1988) bzw. Kiers u. ten Berge (1989) beschrieben.
15.6 Weitere faktorenanalytische Ansåtze Zum Begriff ¹Faktorenanalyseª zåhlen wir Faktorextraktionsverfahren, Faktorrotationsverfahren und faktoranalytische Modelle. Zu den Extraktionsmethoden gehæren die Diagonalmethode oder Quadratwurzelmethode, die von Dwyer (1944) auf Korrelations- und Regressionsprobleme angewandt wurde, die Zentroidmethode, die auf Thurstone (1947) zurçckgeht, und die Hauptachsenmethode (Hotelling, 1933). Vor allem die EDVEntwicklung hat dazu gefçhrt, dass heute praktisch nur noch die rechnerisch zwar aufwåndige, aber dafçr mathematisch exakte Hauptachsen-
557
a15.6 Weitere faktorenanalytische Ansåtze methode eingesetzt wird. Wir haben dieses Verfahren ausfçhrlich unter 15.2 bzw. 15.3 beschrieben und wollen auf die Darstellung der beiden anderen Extraktionsmethoden, die heute nur noch von historischer Bedeutung sind, verzichten. Ûber Rotationstechniken wurde unter 15.5 berichtet. Modifikationen der Faktorenanalyse leiten sich vor allem aus Modellannahmen ab, die bezçglich mæglicher Eigenschaften der Daten formuliert werden. So sind wir in der PCA davon ausgegangen, dass die Variablen mit sich selbst zu 1 korrelieren (die Diagonalelemente in der Korrelationsmatrix R wurden gleich 1 gesetzt), was zweifellos eine richtige Annahme ist, wenn die PCA nur im deskriptiven Sinn eingesetzt wird, um die fçr eine Stichprobe gefundenen Merkmalszusammenhånge çbersichtlicher aufzubereiten. Will man hingegen faktorenanalytische Ergebnisse inferenzstatistisch interpretieren, ist zu beachten, dass die auf Grund einer Stichprobe ermittelten Merkmalszusammenhånge nur Schåtzungen der in der Population gçltigen Merkmalszusammenhånge sind und damit mehr oder weniger fehlerhaft sein kænnen. Wie im Teil II çber varianzanalytische Methoden dargelegt wurde, setzt sich die Varianz einer Variablen aus tatsåchlichen, ¹wahrenª Unterschieden in den Merkmalsausprågungen der Vpn und aus Unterschieden, die auf Fehlereinflçsse zurçckzufçhren sind, zusammen. Es ist deshalb damit zu rechnen, dass wiederholte Messungen derselben Variablen an derselben Stichprobe keineswegs zu 1 korrelieren. Man geht davon aus, dass sich die wahren Merkmalsunterschiede sowohl in der 1. als auch 2. Messung zeigen und dass die wahre Unterschiedlichkeit der Vpn von unsystematischen Fehlereffekten çberlagert ist. Die Korrelation zwischen der 1. und 2. Messung, die in der psychologischen Testtheorie als Retest-Reliabilitåt bezeichnet wird, reflektiert somit die wahren Varianzanteile und wird im Allgemeinen kleiner als 1 sein. Die Frage, wie Faktoren ermittelt werden kænnen, die nur wahre bzw. reliable Varianzen aufklåren, ist Gegenstand einiger faktorenanalytischer Ansåtze, von denen die folgenden kurz behandelt werden: · Analyse nach dem Modell mehrerer gemeinsamer Faktoren, · Image-Analyse,
· Alpha-Faktorenanalyse, · kanonische Faktorenanalyse, · konfirmative Faktorenanalyse. Wir werden uns mit einer kurzen Darstellung des jeweiligen Modellansatzes begnçgen, denn letztlich sind die Unterschiede zwischen den Ergebnissen, die man mit den verschiedenen Verfahren erhålt, fçr praktische Zwecke zu vernachlåssigen (vgl. hierzu die Arbeiten von Fava u. Velicer, 1992; Harris u. Harris, 1971; Kallina u. Hartmann, 1976; Velicer, 1974; Velicer et al., 1982). Abschlieûend wird çber verschiedene Anwendungsmodalitåten der Faktorenanalyse berichtet.
Modell mehrerer gemeinsamer Faktoren Die Faktorenanalyse nach dem Modell mehrerer gemeinsamer Faktoren geht auf Thurstone (1947) zurçck. Dieses Verfahren wird in der Literatur gelegentlich kurz ¹Faktorenanalyseª (oder ¹Explorative Faktorenanalyseª bzw. EFA) genannt. Anders als in diesem Kapitel, in dem wir die Bezeichnung ¹Faktorenanalyseª als Sammelbegriff fçr unterschiedliche faktorenanalytische Techniken verwenden, steht die EFA im engeren Sinne in einem ¹Konkurrenzverhåltnisª zur PCA. (Eine Gegençberstellung von PCA und der Analyse gemeinsamer Faktoren bzw. Faktorenanalyse findet man bei Fabrigar et al., 1999; Schneeweiss u. Mathes, 1995 oder Snook u. Gorsuch, 1989.) Es wird angenommen, dass sich die Varianz einer Variablen aus einem Anteil zusammensetzt, den sie mit anderen Variablen gemeinsam hat (gemeinsame Varianz), einem weiteren Anteil, der die Besonderheiten der Variablen erfasst (spezifische Varianz), und einem Fehlervarianzanteil. (Ûberlegungen zur Unterscheidung der 3 genannten Varianzanteile einer Variablen findet man bei Bortz, 1972 a.) Die Faktorenanalyse nach dem Modell mehrerer gemeinsamer Faktoren bestimmt, welche gemeinsamen (d. h. durch mehrere Variablen gekennzeichneten) Faktoren die gemeinsamen Varianzen erklåren. In der PCA wird die gesamte Varianz einer Variablen, die durch die Standardisierung vom Betrag 1 ist, analysiert, d. h., es wird nicht zwischen gemeinsamer Varianz, spezifischer Varianz und Fehlervarianz der Variablen unterschieden. Die Faktorenextraktion ist im Allgemeinen beendet,
15
558
15
Kapitel 15 ´ Faktorenanalyse
wenn die verbleibende Restkorrelationsmatrix nach Extraktion von q Faktoren (q < p) nur noch unbedeutend ist bzw. nicht mehr interpretiert werden kann. In der Faktorenanalyse nach dem Modell mehrerer gemeinsamer Faktoren hingegen soll der gemeinsame Varianzanteil einer Variablen aufgeklårt werden, wobei spezifische und fehlerhafte Anteile unberçcksichtigt bleiben. Das zentrale Problem besteht darin, wie die gemeinsamen Varianzanteile der einzelnen Variablen geschåtzt werden kænnen. Eine brauchbare Schåtzung der gemeinsamen Varianz einer Variablen mit den çbrigen zu faktorisierenden Variablen ist nach Humphreys u. Taber (1973) das Quadrat der multiplen Korrelation dieser Variablen mit den çbrigen p 1 Variablen. Man ersetzt die Einsen in der Hauptdiagonale der Korrelationsmatrix durch das Quadrat der multiplen Korrelation, um eine Faktorenstruktur zu finden, die diese gemeinsamen Varianzen aufklårt. Die Bestimmung (Extraktion) der Faktoren wird çblicherweise nach der Hauptachsenmethode vorgenommen. Die Summe der Eigenwerte (d. h. die Summe der durch die Faktoren aufgeklårten Varianzen) kann in diesem Fall die Summe der quadrierten multiplen Korrelationen nicht çberschreiten. Stellen die quadrierten multiplen Korrelationen richtige Schåtzungen der gemeinsamen Varianzen dar, mçssen die Faktoren die gemeinsamen Varianzen der Variablen restfrei aufklåren. Die hieraus folgende Regel, alle Faktoren mit k > 0 zu interpretieren, fçhrt allerdings in den meisten praktischen Anwendungsfållen zu einer deutlichen Ûberschåtzung der Faktorenzahl. Coovert u. McNelis (1988) empfehlen deshalb, fçr die Bestimmung der Faktorenanzahl die von Humphreys u. Ilgen (1969) vorgeschlagene ¹parallel analysisª einzusetzen, die im Prinzip genauso funktioniert wie die Parallelanalyse fçr PCA-Faktoren (vgl. S. 545 f.). Fçr die Parallelanalyse im Kontext des Modells mehrerer gemeinsamer Faktoren haben Montanelli u. Humphreys (1976) eine sehr genaue Regressionsgleichung entwickelt. Die mit der Bestimmung der Faktorenanzahl verbundene Problematik låsst sich allgemein wie folgt skizzieren: Die Varianzaufklårung einer Variablen durch die Faktoren ermitteln wir nach Gl. (15.4) als die Summe der quadrierten Faktorladungen der Variablen. Diesen, durch das Faktorensystem auf-
geklårten Varianzanteil bezeichneten wir unter 15.2 als Kommunalitåt. Die Kommunalitåt einer Variablen ist somit im Modell mehrerer gemeinsamer Faktoren eine weitere Schåtzung der gemeinsamen Varianz einer Variablen. (Das Quadrat der multiplen Korrelation gilt als untere Grenze der Kommunalitåt; vgl. Harris, 1978.) Kennen wir die Anzahl der gemeinsamen Faktoren, kænnen wir çber die Kommunalitåten der Variablen die gemeinsamen Varianzen schåtzen. Kennen wir umgekehrt die ¹wahrenª gemeinsamen Varianzanteile, låsst sich auch die Anzahl der gemeinsamen Faktoren bestimmen. Normalerweise sind jedoch weder die gemeinsamen Varianzen noch die Anzahl der gemeinsamen Faktoren bekannt. Dieses Dilemma wird als das Kommunalitåtenproblem bezeichnet. Die Literatur berichtet çber einige Verfahren, mit denen entweder die Kommunalitåten ohne Kenntnis der Faktorenzahl oder die Faktorenzahl ohne Kenntnis der Kommunalitåten geschåtzt werden kænnen. Ûber diese Ansåtze informieren zusammenfassend z. B. Harman (1968, Kap. 5), Pawlik (1976) und Mulaik (1972, Kap. 7), und Timm (2002, Kap. 8.9). Das spezielle Problem der Kommunalitåtenschåtzung bei kleinen Korrelationsmatrizen wird bei Cureton (1971) behandelt. Einer der Læsungsansåtze (iterative Kommunalitåtenschåtzung) fçr das Kommunalitåtenproblem sei hier kurz veranschaulicht. Man beginnt wie in der PCA mit einer Korrelationsmatrix, in deren Diagonale Einsen stehen. Fçr diese Matrix wird die Anzahl q der bedeutsamen Faktoren (z. B. nach dem Scree-Test) bestimmt. Ausgehend von den Ladungen der Merkmale auf den bedeutsamen Faktoren errechnen wir nach Gl. (15.4) fçr jede Variable die Kommunalitåt. In einem zweiten Faktorenextraktionszyklus setzen wir in die Diagonale der ursprçnglichen Korrelationsmatrix diese ersten Kommunalitåtenschåtzungen ein und bestimmen wieder nach der Hauptachsenmethode die ersten q Faktoren, die die Grundlage fçr eine erneute Kommunalitåtenschåtzung darstellen. Im Weiteren werden die Kommunalitåtenschåtzungen der zuletzt ermittelten Faktorenstruktur in die Diagonale der Korrelationsmatrix eingesetzt, um wieder neue Kommunalitåtenschåtzungen zu erhalten. Wurde die Anzahl der gemeinsamen Faktoren q anfånglich richtig geschåtzt, konvergieren die Kommunalitåtenschåtzungen auf stabile Werte.
559
a15.6 Weitere faktorenanalytische Ansåtze Stabilisieren sich die Kommunalitåten nicht, beginnt man das gleiche Verfahren mit einer anderen Schåtzung fçr q.
Image-Analyse Einen anderen Ansatz zur Læsung des Kommunalitåtenproblems wåhlte Guttman (1953) mit der Image-Analyse. Guttman geht von einer Population von Vpn sowie einer Population von Variablen aus und definiert die gemeinsame Varianz einer Variablen als denjenigen Varianzanteil, der potenziell durch multiple Regression von allen anderen Variablen der Variablenpopulation vorhergesagt werden kann. Dieser gemeinsame Varianzanteil einer Variablen wird als das ¹Imageª der Variablen (im Sinn einer Abbildung der Variablen durch die anderen Variablen) bezeichnet. Derjenige Varianzanteil, der durch die anderen Variablen nicht vorhergesagt werden kann, wird ¹Anti-Imageª genannt. Fçr die konkrete Durchfçhrung einer ImageAnalyse stehen natçrlich nur eine begrenzte Variablen- und Vpn-Zahl zur Verfçgung, sodass das Image und das Anti-Image einer Variablen nur aufgrund der Stichprobendaten geschåtzt werden kænnen. Die Schåtzung des Images einer Variablen aufgrund einer Stichprobe wird als PartialImage der Variablen bezeichnet. Hierfçr werden die ursprçnglichen Messwerte einer Variablen i durch vorhergesagte ^x- (bzw. ^z-)Werte ersetzt, die man auf Grund der multiplen Regressionsgleichung zwischen der Variablen i und den çbrigen p 1 Variablen bestimmt. Aus der Korrelationsmatrix dieser vorhergesagten Messwerte (mit Einsen in der Diagonalen) werden nach der Hauptachsenmethode Faktoren extrahiert. Da die Korrelationen zwischen je 2 Variablen nur auf Grund gemeinsamer Varianzen mit allen Variablen zustandekommen, ist gewåhrleistet, dass die resultierenden Faktoren nur gemeinsame Varianz aufklåren. (Ausfçhrliche Informationen zur ImageAnalyse findet der interessierte Leser z. B. bei Mulaik, 1972, Kap. 7.2, und Horst, 1965, Kap. 16; çber Mæglichkeiten der Faktorwertebestimmung im Rahmen einer Image-Analyse informiert Hakstian, 1973.)
Alpha-Faktorenanalyse Einen anderen Weg, zu allgemein gçltigen Faktoren zu gelangen, haben Kaiser u. Caffrey (1965) mit ihrer Alpha-Faktorenanalyse beschritten. Die Bezeichnung Alpha-Faktorenanalyse geht auf den a-Koeffizienten von Cronbach (Cronbach, 1951; Cronbach et al. 1963) zurçck, der eine Verallgemeinerung der Kuder-Richardson-Formel Nr. 20 zur Reliabilitåts-(Interne-Konsistenz-)Bestimmung eines Tests darstellt. Mit dem a-Koeffizienten wird die Reliabilitåt der aus allen Testitems gebildeten Summenscores geschåtzt. Hierbei werden alle Testitems als eigenståndige ¹Testsª fçr ein- und dasselbe Merkmal angesehen; die Reliabilitåt des Summenscores (a) ergibt sich als durchschnittliche Paralleltestreliabilitåt fçr alle mæglichen Paare von Testitems. Zur Veranschaulichung des a-Koeffizienten stelle man sich vor, das komplexe Merkmal Intelligenz soll mit 10 Variablen erfasst werden, die einer Population von Variablen entnommen wurden, die potenziell geeignet ist, das Merkmal Intelligenz zu messen. Der a-Koeffizient fragt nach der Reliabilitåt (bzw. der ¹Generalisierbarkeitª) des aus den 10 Variablen gebildeten Summenscores bzw. einer Linearkombination der 10 Variablen, die alle Variablen mit 1 gewichtet. Der a-Koeffizient lautet in seiner allgemeinen Form (vgl. Lord, 1958): P 2! si p i a 1 :
15:81 p 1 s2tot Hierin sind: p Anzahl der Variablen, s2i Varianz der Variablen i und s2tot Varianz der Linearkombination (Summe).
Reliabilitåt von Faktoren. Nach Kaiser u. Caffrey (1965) bzw. Kaiser u. Norman (1991) besteht zwischen a und dem 1. PCA-Faktor der p Variablen folgende Beziehung: p 1 1 ;
15:82 a p 1 k wobei k der mit dem 1. PCA-Faktor verbundene Eigenwert (Varianz) ist. (Die Autoren bezeichnen den Eigenwert mit k2 , womit jedoch nicht ± wie
15
560
Kapitel 15 ´ Faktorenanalyse
man vermuten kænnte ± der quadrierte Eigenwert gemeint ist.) Mit dieser Gleichung wird håufig das KG-Kriterium (vgl. S. 544) begrçndet, nach dem die interpretierbaren Eigenwerte einer PCA græûer als Eins sein sollten (vgl. Kaiser, 1960), weil sonst negative a-Werte und damit negative Reliabilitåten resultieren wçrden. Diese Auffassung ist nach Cliff (1988) falsch, denn sie bezieht sich auf Populationskorrelationen und nicht auf die Eigenwerte stichprobenbedingter Korrelationen, die in der empirischen Forschung çblicherweise faktorisiert werden. Fçr die Bestimmung der Reliabilitåt eines Faktors j
rj bzw. dessen Faktorwerte nennt Cliff (1988) folgende Gleichung: kj rj
p P i1
vij2
1
ri ;
kj
15:83
wobei kj Eigenwert des j-ten Faktors vij Elemente des j-ten Eigenvektors i 1; . . . ; p Variablen und ri Reliabilitåt der i-ten Variablen.
bei
Hier wird also deutlich, dass die Reliabilitåt eines Faktors nicht nur von der Græûe des Eigenwertes, sondern auch von den gewichteten Reliabilitåten (bzw. Fehlervarianzen) der ursprçnglichen Variablen abhångt, die beim a-Koeffizienten unberçcksichtigt bleiben. Sind die Reliabilitåten nicht bekannt, kann man fçr die ri -Werte die durchschnittliche Variableninterkorrelation rii0 als untere Grenze der Reliabilitåten einsetzen (zur Berechnung durchschnittlicher Korrelationen vgl. S. 219 f.). Wegen der Normierung v0 v 1 resultiert dann
15
rj
kj
1 kj
rii0
:
15:84
Man erkennt, dass der Faktor j bei perfekter Reliabilitåt der Variablen unabhångig von kj ebenfalls perfekt reliabel ist (rj 1). Bestehen alle Variablen hingegen nur aus Fehlervarianz (womit rii0 einen Erwartungswert von 0 håtte), resultiert kj 1 und damit rj 0. Ferner ist Gl. (15.84) zu entnehmen, dass die Reliabilitåt eines Faktors mit wachsendem kj zunimmt (vgl. hierzu auch Lord, 1958). Das Anliegen der von Kaiser u. Caffrey (1965) entwickelten a-Faktorenanalyse ist es nun, Faktoren
mit mæglichst hoher Generalisierbarkeit (Reliabilitåt) zu bestimmen. Eine Kurzform dieses Ansatzes wird bei Mulaik (1972, S. 211 ff.) dargestellt.
Hinweise: Wittman (1978) diskutiert das Konzept der a-Generalisierbarkeit im Hinblick auf verschiedene faktorenanalytische Modelle. Ein Programm zur Bestimmung der faktoriellen Reliabilitåt wurde von Bardeleben (1987) entwickelt. Kanonische Faktorenanalyse In der von Rao (1955) entwickelten kanonischen Faktorenanalyse kommt die kanonische Korrelation zur Anwendung, mit der die Korrelation zwischen einem Prådiktorvariablensatz und einem Satz von Kriteriumsvariablen ermittelt werden kann (vgl. Kap. 19). In der kanonischen Faktorenanalyse werden die Faktoren (als Prådiktorvariablen) so bestimmt, dass sie maximal mit den ursprçnglichen Variablen korrelieren. Das Prinzip ist somit nicht ± wie in der PCA ± die sukzessive Varianzmaximierung der Faktoren, sondern die Maximierung der kanonischen Korrelation zwischen allen Faktoren und Variablen. Das Verfahren wird ausfçhrlich von Harris (1967, Kap. 8), Van de Geer (1971, Kap. 15.2) und Mulaik (1972, Kap. 8.4) behandelt.
Konfirmative Faktorenanalyse Das Grundprinzip dieses Verfahrens beruht auf der Faktorenanalyse nach der Maximum-likelihood-Methode (Lawley, 1940, 1942, 1949; Jæreskog, 1967; Jæreskog u. Lawley, 1968; Lawley u. Maxwell, 1971), das sich folgendermaûen zusammenfassen låsst: Wir nehmen an, die Variablen seien in der Grundgesamtheit multivariat normalverteilt. Unbekannt sind die Parameter der Verteilung (Mittelwerte, Varianzen und Kovarianzen der Variablen). Im Maximum-likelihood-Ansatz der Faktorenanalyse (zur Maximum-likelihood-Methode vgl. S. 99 f.) werden in der Population gçltige, gemeinsame Varianzparameter und spezifische Varianzparameter der Variablen gesucht, die die Wahrscheinlichkeit des Zustandekommens der empirisch gefundenen Korrelationsmatrix maximieren. Wesentlich fçr die Entwicklung des Maximum-likelihood-Ansatzes in der Faktorenanalyse ist u.a. eine Arbeit von Howe (1955), die zeigt,
a15.6 Weitere faktorenanalytische Ansåtze dass die strenge Annahme der multivariaten Normalverteilung fçr die Schåtzung einer Faktorenstruktur nach der Maximum-likelihood-Methode nicht unbedingt erforderlich ist (vgl. hierzu Morrison, 1990). Die Maximum-likelihood-Faktorenanalyse ist von Jæreskog (1973) zu einem vielseitig anwendbaren Analysemodell entwickelt worden. Eine besondere Anwendungsvariante ist die konfirmative Faktorenanalyse, mit der Hypothesen çber die Faktorenstruktur eines Datensatzes getestet werden kænnen. Die faktorenanalytischen Hypothesen beziehen sich hierbei auf die Anzahl der (orthogonalen oder obliquen) Faktoren bzw. auch auf das Ladungsmuster der Variablen. Das hypothetisch vorgegebene Ladungsmuster kann einer empirisch ermittelten Ladungsmatrix entnommen sein (vgl. hierzu auch die Ausfçhrungen çber den Faktorstrukturvergleich auf S. 554 f.) oder mehr oder weniger genaue, theoretisch begrçndete Angaben çber die mutmaûliche Græûe der Ladungen der Variablen enthalten. Mit Anpassungstests (einen Ûberblick geben z. B. Marsh et al., 1988; zur Kritik dieser Tests vgl. Bryant u. Jarnold 2000, S. 111 ff.) wird çberprçft, ob die Abweichung der empirisch ermittelten Ladungsmatrix von der hypothetisch angenommenen Ladungsmatrix zufållig oder statistisch bedeutsam ist. (Weitere Einzelheiten und EDV-Hinweise findet man z. B. Bryant u. Yarnold, 2000 oder bei Revenstorf 1980, Kap. 6.)
Anwendungsmodalitåten Zum Abschluss seien einige faktorenanalytische Varianten erwåhnt, deren Besonderheiten sich aus der Anwendungsperspektive fçr die Faktorenanalyse ergeben.
Cattells Kovariationsschema. Die Anwendungsvielfalt der Faktorenanalyse erfåhrt durch das Kovariationsschema von Cattell (1966b, Kap. 3) eine erhebliche Erweiterung. Cattell unterscheidet Faktorenanalysen nach der O, P, Q, R, S und T-Technik (die Buchstabenzuordnung erfolgte willkçrlich), wobei jeder Technik unterschiedliche Korrelationsmatrizen zu Grunde liegen. (Zur Entstehungsgeschichte dieser faktorenanalytischen Anwendungsvarianten vgl. Cronbach, 1984.) Das Kovariationsschema hat drei Dimensionen, die durch unterschiedliche Vpn, Variablen und
561
Zeitpunkte gekennzeichnet sind. Die zu faktorisierenden Daten beziehen sich immer auf zwei dieser Dimensionen, wobei die jeweils dritte Dimension konstant gehalten wird. Nach der cattellschen Terminologie wurde in diesem Kapitel ausschlieûlich die R-Technik behandelt, in der bei konstantem Zeitpunkt p Merkmale (Variablen oder Tests) çber n Vpn korreliert werden. Handelt es sich um Korrelationen zwischen n Vpn çber p Variablen (z. B. Korrelationen zwischen Schçlern auf Grund ihrer Leistungen), sprechen wir von der Q-Technik. Die Faktorenanalyse çber die p p-Korrelationsmatrix einer R-Analyse fçhrt zu Merkmalsfaktoren und die Faktorenanalyse çber die n n-Korrelationsmatrix einer Q-Analyse zu Personen(Typen)-Faktoren. (Auf mægliche Artefakte bei der Durchfçhrung von Q-Analysen hat Orlik, 1967 b, hingewiesen.) Werden Messungen von p Variablen an einer Person (oder unter Verwendung von Durchschnittswerten an einer Gruppe) zu t verschiedenen Zeitpunkten erhoben und çber die Zeitpunkte korreliert, erhalten wir eine Korrelationsmatrix der Variablen, die Ausgangsbasis fçr eine P-Analyse ist. Die Faktorenanalyse çber die p p-Matrix in einer P-Analyse resultiert in Faktoren, die Merkmale mit åhnlichen zeitlichen Entwicklungsverlåufen bei einer Vp (Gruppe) kennzeichnen. Die P-Technik ist damit eine Anwendung der Faktorenanalyse auf den Einzelfall. Tabelle 15.10 zeigt summarisch, wie die Korrelationsmatrizen fçr die 6 Techniken nach Cattell zu bestimmen sind. Es ist darauf zu achten, dass die Korrelationen jeweils zwischen den Spalten (çber die Zeilen) errechnet werden.
Dreimodale Faktorenanalyse. Die gleichzeitige Berçcksichtigung von 3 Variationsquellen (z. B. Vpn, Variablen und Zeitpunkte wie im cattellschen Ansatz oder Urteiler, Urteilsskalen und Urteilsgegenstånde) ist mit der dreimodalen Faktorenanalyse von Tucker (1966, 1967) mæglich. Die dreidimensionale Datenmatrix wird in diesem Verfahren in 3 zweidimensionale Matrizen zerlegt, die jeweils die gesamte dreidimensionale Matrix repråsentieren. Werden beispielsweise n Urteile, p Urteilsskalen und t Urteilsgegenstånde untersucht, ergibt sich eine n
p t-Datenmatrix (n Zeilen und p tSpalten), eine p
n t-Datenmatrix und eine
15
562
Kapitel 15 ´ Faktorenanalyse
Tabelle 15.10. Ermittlung der Korrelationen fçr die sechs faktorenanalytischen Techniken nach Cattell (Kovariationsschema)
Vpn
1 2 .. .
n
1
Merkmale 2 ...
p
? ? ? ? y
Merkmale
a) R-Technik çber p pKorrelationsmatrix (Zeitpunkt konstant)
Zeitpunkte
Zeitpunkte
1 2 .. .
t
1
Merkmale 2 ...
p
Merkmale
n
Vpn
e) S-Technik çber n nKorrelationsmatrix (Merkmal konstant)
15
p
1
Vpn 2
...
n ? ? ? ? y
b) Q-Technik çber n nKorrelationsmatrix (Zeitpunkt konstant)
? ? ? ? y
c) P-Technik çber p pKorrelationsmatrix (Vp konstant) Vpn 1 2 ... 1 ? 2 ? .. ? . ? y t
1 2 .. .
t
n p-Datenmatrix. Aus diesen 3 Datenmatrizen werden Korrelationsmatrizen bestimmt, çber die jeweils eine Faktorenanalyse gerechnet wird. Zusåtzlich benætigt man eine dreidimensionale sog. Kernmatrix, der entnommen werden kann, wie z. B. Urteilsskalen Urteilsgegenstand-Kombinationen gewichtet werden mçssen, um die Daten der Urteiler optimal reproduzieren zu kænnen. Ausfçhrliche Informationen zur Interpretation der fçr die dreimodale Faktorenanalyse wichtigen Kernmatrix kænnen einem Aufsatz von Bartussek (1973) bzw. dem Summax-Modell von Orlik (1980) entnommen werden. Weitere Informationen findet man bei Lohmæller (1979), Kiers (1991b) bzw. Kiers u. van Meckelen (2001) und EDV-Hinweise bei Snyder u. Law (1979).
1 2 .. .
p
1
Zeitpunkte 2 ...
t
? ? ? ? y
d) O-Technik çber t tKorrelationsmatrix (Vp konstant) Zeitpunkte 1 2 ... 1 ? 2 ? .. ? . ? y n
t
f) T-Technik çber t tKorrelationsmatrix (Merkmal konstant)
Longitudinale Faktorenanalyse. Einen Spezialfall des dreimodalen Ansatzes von Tucker stellt die longitudinale Faktorenanalyse von Corballis u. Traub (1970) dar. Das Verfahren ist anwendbar, wenn an einer Stichprobe zu 2 Zeitpunkten Messungen auf p Variablen erhoben werden. Es çberprçft, wie sich die Faktorladungen der Variablen çber die Zeit veråndern. Auch diese Analyse ist allerdings ± åhnlich wie die dreimodale Faktorenanalyse von Tucker ± schwer zu interpretieren. Nesselroade (1972) macht darauf aufmerksam, dass die longitudinale Faktorenanalyse von Corballis u. Traub vor allem dann weniger geeignet ist, wenn Verånderungen der Faktorwerte der Vpn çber die Zeit von Interesse sind. Als einen Alternativansatz schlågt er die Kanonische Korrelationsanalyse (vgl. Kap. 19) vor, in
563
aÛbungsaufgaben der die Messungen zum Zeitpunkt t1 als Prådiktoren fçr die Messungen zum Zeitpunkt t2 eingesetzt werden. Vergleiche von Faktorstrukturen, die fçr eine Stichprobe zu 2 Messzeitpunkten ermittelt wurden, kænnen natçrlich auch mit den unter dem Stichwort ¹Kriteriumsrotationª (S. 553 ff.) beschriebenen Verfahren durchgefçhrt werden. Eine andere Variante der longitudinalen Faktorenanalyse haben Olsson u. Bergmann (1977) entwickelt. ÛBUNGSAUFGABEN 1. 2. 3. 4.
Was ist eine Faktorladung? Was ist ein Faktorwert? Wie wird die Kommunalitåt einer Variablen berechnet? Welche Ursachen kann es haben, wenn eine Variable nur eine geringfçgige Kommunalitåt aufweist? 5. Nach welchen Kriterien werden die Faktoren einer PCA festgelegt? 6. Die Faktorisierung einer Korrelationsmatrix fçr 5 Variablen mæge zu folgendem Ergebnis gefçhrt haben: Variable 1 2 3 4 5
FI 0,70 0,80 0,80 0,50 0,10
F II 0,50 0,40 0,60 0,90 0,90
Fçr welche Variable wurden fehlerhafte Ladungen ermittelt? (Begrçndung)
7. Erlåutern Sie (ohne mathematische Ableitungen), warum die Summe der Eigenwerte einer p p-Korrelationsmatrix den Wert p ergeben muss! 8. Gegeben sei die folgende Korrelationsmatrix: 0 1 1;00 0;50 0;30 R @ 0;50 1;00 0;20 A : 0;30 0;20 1;00 Wie lautet der dritte Eigenwert, wenn fçr die beiden ersten k1 1;68 und k2 0;83 ermittelt wurden? 9. Warum sollten nur Faktoren, deren Eigenwerte græûer als eins sind, interpretiert werden? 10. Was ist ein Eigenwertediagramm? 11. Wie kann man zeigen, dass die PCA-Faktoren wechselseitig voneinander unabhångig sind? 12. Was versteht man unter dem Kriterium der Einfachstruktur? 13. In welcher Weise wird durch eine Varimax-Rotation die Faktorenstruktur veråndert? 14. Was ist das Grundprinzip eines Faktorenstrukturvergleichs? 15. Was versteht man unter dem Kommunalitåtenproblem? 16. Was leistet die konfirmative Faktorenanalyse? 17. Nennen Sie je ein Beispiel fçr eine R-, Q- und P-Analyse. 18. Was versteht man unter einer Parallelanalyse? 19. Wie kann man nach einer Varimax-Rotation feststellen, wie viel Prozent der Gesamtvarianz ein Faktor erfasst?
15
565
Kapitel 16 Clusteranalyse
ÛBERSICHT Øhnlichkeits- und Distanzmaûe ± S-Koeffizient ± ¹Simplematchingª-Koeffizienten ± euklidische Distanz ± Mahalanobis-Distanz ± City-Block- und Dominanzmetrik ± hierarchische Verfahren ± Dendrogramm ± ¹single linkageª ± ¹complete linkageª ± ¹average linkageª ± Medianverfahren ± Ward-Methode ± nicht-hierarchische Verfahren ± Optimierungskriterien ± Beispiel fçr Ward-Methode und k-means-Methode ± Evaluation clusteranalytischer Læsungen ± Zuordnungsregeln ± ¹Nearest-centroidª-Regel ± Minimum-v2 -Regel ± ¹Nearest-neighborª-Regel ± Clusterçbereinstimmung ± Kappa-Maû ± Rand-Index
Die Clusteranalyse ist ± åhnlich wie die Faktorenanalyse ± ein heuristisches Verfahren. Sie wird eingesetzt zur systematischen Klassifizierung der Objekte einer gegebenen Objektmenge. Die durch einen festen Satz von Merkmalen beschriebenen Objekte (Personen oder andere Untersuchungsobjekte) werden nach Maûgabe ihrer Øhnlichkeit in Gruppen (Cluster) eingeteilt, wobei die Cluster intern mæglichst homogen und extern mæglichst gut voneinander separierbar sein sollen. Entscheidend fçr das Ergebnis einer Clusteranalyse ist die Definition der Øhnlichkeit von Objekten bzw. Clustern und die Art des Optimierungskriteriums, mit dem man eine mæglichst gute Separation der Cluster erzielen will. Mit der Clusteranalyse werden die untersuchten Objekte so gruppiert, dass die Unterschiede zwischen den Objekten einer Gruppe bzw. eines ¹Clustersª mæglichst gering und die Unterschiede zwischen den Clustern mæglichst groû sind.
Der Name ¹Clusteranalyseª ist ± wie auch die Bezeichnung ¹Faktorenanalyseª± ein Sammelbegriff, hinter dem sich eine Vielzahl verschiedenartiger Techniken verbirgt. (Genau genommen stellt auch die Faktorenanalyse eine spezielle Variante der Clusteranalyse dar. Man kann sie verwenden, um
Objekte ± entweder çber die Faktorladungen einer Q-Analyse oder die Faktorwerte einer R-Analyse (vgl. S. 561) ± nach Maûgabe ihrer Faktorzugehærigkeit zu gruppieren. Einen ausfçhrlichen Vergleich von Faktorenanalyse und Clusteranalyse findet man bei Schlosser, 1976, Kap. 6.6. Ein clusteranalytisches Verfahren, bei dem Objekte und Merkmale simultan gruppiert werden, beschreibt Eckes, 1991.) Milligan (1981) stellt in einer Literaturçbersicht zum Thema ¹Clusteranalyseª fest, dass bereits im Jahr 1976 in monatlichen Abstånden ein neuer Cluster-Algorithmus bzw. eine gravierende Verånderung eines bereits bekannten Cluster-Algorithmus publiziert wurde. Dennoch basiert keine der heute verfçgbaren Clustermethoden auf einer Theorie, die es gewåhrleistet, dass die beste Struktur der Objekte entdeckt wird. An diesem Faktum hat sich seit den Anfången der Clusteranalyse nichts geåndert, die mit einer Bewertung Tryons (1939), die Clusteranalyse sei ¹die Faktorenanalyse der armen Leuteª, insoweit treffend beschrieben sind. Dessen ungeachtet erfreut sich die Clusteranalyse bei vielen human- und sozialwissenschaftlichen Anwendern (und Fachvertretern vieler anderer Disziplinen, wie z. B. der Biologie, Anthropologie, Wirtschaftswissenschaften, Archåologie, Ethnologie etc.) zunehmender Beliebtheit. Nach Blashfield u. Aldendorfer (1978) verdoppelt sich die Anzahl clusteranalytischer Publikationen ca. alle drei Jahre, wåhrend fçr andere sozialwissenschaftliche Publikationen hierfçr ein Zeitraum von 12 bis 15 Jahren typisch ist. Erstmalig erwåhnt wird der Begriff ¹Clusteranalyseª in einer Arbeit von Driver u. Kroeber (1932). Die heute aktuellen Cluster-Algorithmen gehen græûtenteils auf die Autoren Tryon (1939), Ward (1963) und Johnson (1967) zurçck (weitere Literaturangaben çber die Arbeiten dieser Autoren findet
16
566
16
Kapitel 16 ´ Clusteranalyse
man bei Blashfield, 1980). Diese drei Autoren gelten als die geistigen Våter von drei relativ unabhångigen, clusteranalytischen Schulen, deren Gedankengut durch die varianzanalytische Orientierung Wards, die faktoranalytische Orientierung Tryons und durch Johnsons Beschåftigung mit der multidimensionalen Skalierung geprågt sind (vgl. Blashfield, 1980). Entscheidende Impulse erhielt die clusteranalytische Forschung auch durch das Werk von Sokol u. Sneath (1963), das die Brauchbarkeit verschiedener clusteranalytischer Techniken fçr die Entwicklung biologischer Taxonomien diskutiert. Nicht unerwåhnt bleiben soll die Tatsache, dass letztlich erst leistungsstarke EDV-Anlagen die mit enormem Rechenaufwand verbundenen Clusteranalyse-Algorithmen praktikabel machten. Die Fçlle des Materials zum Thema ¹Clusteranalyseª låsst sich in diesem Rahmen nur andeuten. Diejenigen, die sich mehr als einen Ûberblick verschaffen wollen, mægen sich anhand der umfangreichen Spezialliteratur informieren (neben den bereits genannten Arbeiten etwa Anderberg, 1973; Arabie et al., 1996; Bailey, 1974; Ball, 1970; Bijman, 1973; Book, 1974; Clifford u. Stephenson, 1975; Cole, 1969; Duran u. Odell, 1974; Eckes u. Rossbach, 1980; Everitt, 1974; Gordon, 1981; Hartigan, 1975; Jajuga et al., 2003; Jardine u. Sibson, 1971; Meiser u. Humburg, 1996; Mirkin, 1998; Schlosser, 1976; Spåth, 1977; Steinhausen u. Langer, 1977; Tryon u. Bailey, 1970). Ûber die Anwendung clusteranalytischer Methoden in der Persænlichkeitsforschung berichten Moosbrugger u. Frank (1992). Wir gehen im Folgenden zunåchst auf einige Maûe zur Quantifizierung der Øhnlichkeit von Objekten ein (16.1) und geben unter 16.2 einen Ûberblick der wichtigsten clusteranalytischen Verfahren. Danach werden zwei clusteranalytische Algorithmen, die auf Grund der Literatur besonders bewåhrt erscheinen, genauer dargestellt (16.3). Abschnitt 16.4 behandelt Techniken zur Evaluation clusteranalytischer Læsungen.
16.1 Øhnlichkeits- und Distanzmaûe Die Øhnlichkeit von Objekten ist direkt nur auf der Basis von Merkmalen definierbar, die an allen zu gruppierenden Objekten erhoben wurden. Die
Auswahl der Merkmale entscheidet çber das Ergebnis der Clusteranalyse und sollte durch sorgfåltige, inhaltliche Ûberlegungen begrçndet sein. Bei zu vielen Merkmalen sind bestimmte Objekteigenschaften çberrepråsentiert, was zur Folge hat, dass fçr die Bildung der Cluster die Øhnlichkeit der Objekte bezçglich dieser Eigenschaften dominiert (vgl. hierzu 16.1.3). Zu wenig Merkmale fçhren zu nur wenigen Clustern, die sich bei Berçcksichtigung zusåtzlicher, nicht redundanter Merkmale weiter ausdifferenzieren lieûen. Irrelevante Merkmale kænnen die Clusterbildung verzerren bzw. erheblich erschweren (vgl. hierzu und zur Identifikation irrelevanter Merkmale z. B. Donoghue, 1995 a). Das Niveau der Skalen, die die Objekteigenschaften messen, sollte so hoch wie mæglich und ± falls die inhaltliche Fragestellung dies zulåsst ± einheitlich sein. Dadurch werden von vornherein Schwierigkeiten aus dem Weg geråumt, die entstehen, wenn man die Øhnlichkeit von Objekten aufgrund heterogener Merkmalsskalierungen bestimmen muss. Wir behandeln im Folgenden die gebråuchlichsten Methoden zur Bestimmung von Objektåhnlichkeiten, wenn die Objektmerkmale einheitlich nominal-, ordinal- oder kardinalskaliert sind (16.1.1 bis 16.1.3). Auf die Frage, wie man Objektåhnlichkeiten bei Merkmalen mit gemischtem Skalenniveau bestimmt, gehen wir unter 16.1.4 ein. Die folgende Aufstellung erhebt in keiner Weise den Anspruch, vollståndig zu sein. Da fçr die Wahl eines Øhnlichkeitsmaûes letztlich die inhaltliche Fragestellung entscheidend ist, sollte man die hier vorgeschlagenen Øhnlichkeitsmaûe ggf. durch andere Maûe ersetzen, die die wichtig erscheinenden Øhnlichkeitsaspekte formal besser abbilden. Anregungen hierzu und weiterfçhrende Literatur findet man z. B. bei Eckes u. Rossbach (1980, Kap. 3; hier werden auch die allgemeinen Voraussetzungen fçr die Messung von Øhnlichkeit diskutiert), bei Timm (2002, Kap. 9.2) und auf S. 617 f. Øhnlichkeit und Unåhnlichkeit (bzw. Distanz) sind zwei Begriffe, die fçr clusteranalytische Verfahren austauschbar sind. Jedes Øhnlichkeitsmaû låsst sich durch eine einfache Transformation in ein Distanzmaû çberfçhren und umgekehrt. Wir werden auf diese Transformation im Zusammenhang mit den jeweils behandelten Verfahren eingehen.
a16.1.1
16.1.1 Nominalskalierte Merkmale Bei der Øhnlichkeitsbestimmung von zwei Objekten auf der Basis nominaler Merkmale unterscheiden wir zweifach gestufte (dichotome) und mehrfach gestufte Merkmale. Zunåchst wenden wir uns der Quantifizierung der Øhnlichkeit zweier Objekte ei und ej
i; j 1 . . . n zu, die bezçglich p dichotomer (binårer) Merkmale beschrieben sind.
Tabelle 16.1. 4-Felder-Tafel zur Bestimmung von Øhnlichkeitsmaûen
Person A
Codieren wir die dichotomen Merkmale mit 0 und 1, resultiert fçr jedes Objekt ein Vektor mit p Messungen, wobei jede Messung entweder aus einer 0 oder 1 besteht. In einer 4-Felder-Tafel werden fçr die zwei zu vergleichenden Objekte die Håufigkeiten der Ûbereinstimmungen bzw. Nichtçbereinstimmungen in den beiden Objektvektoren zusammengestellt. BEISPIEL Nehmen wir an, es soll die Øhnlichkeit von zwei Personen A und B auf der Basis von 15 binåren Merkmalen bestimmt werden: Die Personenvektoren lauten: A: 0 0 1 0 1 1 1 0 1 0 0 1 1 0 1 B: 0 1 1 0 1 0 0 1 0 0 1 1 0 1 0 Wir definieren: a Anzahl der Merkmale, die bei beiden Personen mit 1 ausgeprågt sind
1; 1 b Anzahl der Merkmale, die bei Person A mit 0 und Person B mit 1 ausgeprågt sind
0; 1 c Anzahl der Merkmale, die bei Person A mit 1 und Person B mit 0 ausgeprågt sind
1; 0 d Anzahl der Merkmale, die bei beiden Personen mit 0 ausgeprågt sind
0; 0. Im Beispiel resultiert damit die in Tabelle 16.1 dargestellte 4-Felder-Tafel.
S-Koeffizient. Fçr derartige 4-Felder-Tafeln haben Jaccard (1908) bzw. Rogers u. Tanimoto (1960) den folgenden Øhnlichkeitskoeffizienten S vorgeschlagen (man beachte, dass dem Feld a die Kombination 1; 1 zugewiesen ist): a Sij :
16:1 a abc Das entsprechende Distanzmaû lautet
1 0
Person B 0 a =3 c =5 b =4 d =3 1
bc :
16:1 b abc Dieses Maû relativiert den Anteil gemeinsam vorhandener Eigenschaften (mit 1 ausgeprågte Merkmale) an der Anzahl aller Merkmale, die bei mindestens einem Objekt mit 1 ausgeprågt sind. Der Koeffizient hat einen Wertebereich von 0 Sij 1. Im Beispiel errechnen wir: 3 0;25 bzw. dAB 1 0;25 0;75 : SAB 12 dij 1
Dichotome Merkmale
16
567
Nominalskalierte Merkmale
Sij
SMC-Koeffizient. Will man auch die Ûbereinstimmung in Bezug auf das Nichtvorhandensein eines Merkmals (Feld d in Tabelle 16.1) mitberçcksichtigen, wåhlt man den von Sokal u. Michener (1958) vorgeschlagenen ¹Simple-matchingª-Koeffizient (SMC): SMCij
ad : abcd
16:2
Auch dieser Koeffizient hat einen Wertebereich von 0 SMCij 1. Das entsprechende Distanzmaû lautet 1 SMCij . Im Beispiel ermitteln wir 6 0;40 : SMCAB 15
Phi-Koeffizient. Ein weiteres Øhnlichkeitsmaû, das alle Felder gleichermaûen berçcksichtigt, ist der Phi-Koeffizient (vgl. S. 227 f.). Das entsprechende Distanzmaû erhålt man durch 1 U. Es ist allerdings darauf zu achten, dass die Græûe von U von der Art der Randverteilungen abhångt (vgl. S. 228 ff.). k-fach gestufte Merkmale Hat ein nominales Merkmal nicht nur 2, sondern allgemein k Kategorien, transformieren wir das
568
Kapitel 16 ´ Clusteranalyse
nominale Merkmal mit Hilfe der Dummycodierung in k 1 binåre Indikatorvariablen (vgl. Tabelle 14.1). Ûber die so ± ggf. fçr mehrere nominale Merkmale mit k Kategorien ± erzeugten Indikatorvariablen errechnet man nach den oben genannten Regeln einen Øhnlichkeitskoeffizienten. Bei mehreren nominalen Merkmalen hat diese Vorgehensweise allerdings den gravierenden Nachteil, dass durch die Anzahl der erforderlichen Indikatorvariablen das nominale Merkmal mit den meisten Kategorien çbermåûig stark gewichtet wird. Will man beispielsweise nur die Merkmale Beruf (z. B. 11 Kategorien) und Geschlecht (2 Kategorien) verwenden, benætigen wir 11 Indikatorvariablen (10 fçr das Merkmal Beruf und 1 fçr das Merkmal Geschlecht). Zwei Personen mit verschiedenen Berufen und verschiedenem Geschlecht håtten demnach Ûbereinstimmungen auf 8 Merkmalen (den Indikatorvariablen, die diejenigen Berufe mit 1 kodieren, denen beide Personen nicht angehæren), was ± zumindest nach Gl. (16.2) bzw. dem U-Koeffizienten ± zu einem çberhæhten Øhnlichkeitsindex fçhrt. Man vermeidet diese Ûbergewichtung, indem man ± wie das folgende Beispiel zeigt ± die k 1 Indikatorvariablen eines nominalen Merkmals mit 1=
k 1 gewichtet. BEISPIEL Bezogen auf zwei Personen A und B mit unterschiedlichem Beruf (11 Stufen) und unterschiedlichem Geschlecht (2 Stufen) kænnten die folgenden Dummykodierungen resultieren: Beruf z}|{ A: 1 0 0 0 0 0 0 0 0 0
Geschlecht
B: 0 1 0 0 0 0 0 0 0 0
0
1
Ohne Gewichtung erhålt man nach Gl. (16.2): SMCAB
16
08 0;72 : 11
1 1 Mit Gewichtung resultiert (fçr a 0, b 1, c 1 10 10 1 1 1, d 8: 10 1 0 8 10 SMCAB 0;4 : 2 Treffender wird die Øhnlichkeit durch Gl. (16.1) abgebildet, die im Zåhler nur gemeinsam vorhandene Merkmale berçcksichtigt. Es resultiert (wegen a 0) SAB 0.
16.1.2 Ordinalskalierte Merkmale Fçr ordinalskalierte Merkmale wurden einige Øhnlichkeitsmaûe vorgeschlagen, die allerdings nicht unproblematisch sind, weil sie Rangplåtze wie Maûzahlen einer Intervallskala behandeln (vgl. hierzu z. B. Steinhausen u. Langer, 1977, Kap. 3.2.2). Es wird deshalb empfohlen, ordinalskalierte Merkmale kçnstlich zu dichotomisieren (Mediandichotomisierung; alle Rangplåtze oberhalb des Medians erhalten eine 1 und die Rangplåtze unterhalb des Medians eine 0; zu Problemen der Mediandichotomisierung bei kardinalskalierten Merkmalen vgl. Mac Callum et al., 2002 oder Krauth, 2003). Alternativ kann man die Rangvariable in mehrere Indikatorvariablen aufzulæsen, um damit die unter 16.1.1 genannten Verfahren einsetzen zu kænnen. Hat man beispielsweise in einem Fragebogen die Reaktionskategorien schwach/mittel/stark als Wahlantworten vorgegeben, låsst sich dieses ordinale Merkmal durch 2 binåre Merkmale X1 und X2 abbilden. Als Kodierungsmuster resultieren dann fçr schwach: 1; 0, fçr mittel: 0; 1 und fçr stark: 0; 0. Fçr Merkmale mit vielen ordinalen Abstufungen sind die Ausfçhrungen çber gewichtete Indikatorvariablen unter 16.1.1 zu beachten. Eine weitere Mæglichkeit, Objektåhnlichkeiten zu bestimmen, ist durch die Rangkorrelation von Kendall (Kendalls s) gegeben, die z. B. bei Bortz et al. (2000) bzw. Bortz u. Lienert (2003, Kap. 5.2.5) beschrieben wird.
16.1.3 Kardinalskalierte Merkmale Bei kardinalskalierten Merkmalen wird die Distanz zweier Objekte çblicherweise durch das euklidische Abstandsmaû beschrieben. Alternativ hierzu kænnen Distanzen nach der sog. ¹CityBlockª-Metrik bzw. der ¹Supremum-Metrikª verwendet werden. Unter bestimmten Bedingungen ist auch die Produkt-Moment-Korrelation als Øhnlichkeitsmaû fçr je zwei Objekte geeignet.
Euklidische Metrik Fçr die Distanz zweier Objekte ei und ei0 , die durch Messungen auf p Intervall skalierten Merkmalen beschrieben sind, wird çblicherweise das euklidische Abstandsmaû verwendet:
a16.1.3
569
Kardialskalierte Merkmale
" dii0
p X
xij
#1=2 xi0 j
2
16:3
j1
mit xij
xi0 j Merkmalsausprågung des Objekts ei
ei0 auf dem Merkmal j. Fçr p 2 entspricht dii0 dem Abstand zweier Punkte mit den Koordinaten xij und xi0 j in der Ebene. Die Merkmalsausprågungen xij und/oder xi0 j kænnen auch dichotom (binår) sein. Die euklidische Metrik fçhrt zu verzerrten Distanzen, wenn fçr die p Merkmale unterschiedliche Maûståbe gelten, es sei denn, Maûstabsunterschiede sollen im Distanzmaû berçcksichtigt werden. Ûblicherweise geht man von vereinheitlichten Maûståben aus, indem die einzelnen Merkmale çber die Objekte z. B. z-transformiert (vgl. S. 44 f.) werden. BEISPIEL Zwei Personen A und B haben auf 10 Merkmalen die folgenden Werte erhalten (wir gehen davon aus, dass beide Merkmale denselben Maûstab haben, sodass sich eine z-Transformation erçbrigt): A : 11 9 8 7 B : 7 9 11 8
12 14 10 13
8 14 8 15
6 7
9 10 :
Es resultiert: q dAB
11 72
9 92
9 102 5;83 :
In der Regel korrelieren die Merkmale çber die untersuchten Objekte mehr oder weniger hoch, was zur Folge hat, dass Eigenschaften, die durch mehrere, wechselseitig korrelierte Merkmale erfasst werden, die Distanz stårker beeinflussen als Eigenschaften, die durch einzelne, voneinander unabhångige Merkmale erfasst werden. (Ûber den Einfluss von Merkmalsinterkorrelationen auf die Clusterbildung in Abhångigkeit von der clusteranalytischen Methode berichtet Donoghue, 1995 b). Man kann diese Ûbergewichtung bestehen lassen, wenn inhaltliche Grçnde dafçr sprechen, dass die durch mehrere Merkmale erfasste Eigenschaft fçr die Abbildung der Øhnlichkeit von besonderer Bedeutung ist. Ist diese ungleiche Gewichtung verschiedener Eigenschaften inhaltlich jedoch nicht zu rechtfertigen, ist dafçr Sorge zu tragen, dass die Distanzbestimmung nur auf
unkorrelierten Merkmalen basiert. Hierfçr bieten sich die folgenden Techniken an: · Faktorenanalyse. Die Merkmale werden mit einer PCA faktorisiert und die Faktoren anschlieûend nach dem Varimaxkriterium rotiert (vgl. 15.5). In die Distanzberechnung gehen dann die Faktorwerte der Objekte auf denjenigen Faktoren ein, die inhaltlich sinnvoll interpretierbar sind (vgl. hierzu 15.4 çber Kriterien fçr die Anzahl bedeutsamer Faktoren). Dieses Verfahren ist problemlos, wenn man davon ausgehen kann, dass die auf Grund der gesamten Stichprobe ermittelte Faktorstruktur im Prinzip auch fçr die durch die Clusteranalyse gebildeten Untergruppen gilt. · Residualisierte Variablen. Es werden residualisierte Variablen erzeugt, indem man die gemeinsamen Varianzen zwischen den Variablen herauspartialisiert (vgl. 13.1). Die Reihenfolge der Variablen kann hierbei nach inhaltlichen Gesichtspunkten festgelegt werden. Die Variable, die inhaltlich am bedeutsamsten erscheint, geht standardisiert, aber im çbrigen unbehandelt, in die Distanzformel ein. Diese Variable wird aus einer zweiten Variablen herauspartialisiert, und in die Distanzformel gehen statt der ursprçnglichen Werte die standardisierten Residuen ein. Aus der dritten Variablen werden die Variablen 1 und 2 herauspartialisiert, aus der vierten die Variablen 1 bis 3 usw. Im Unterschied zur Faktorisierungsmethode, bei der inhaltlich und statistisch unbedeutsame Faktoren unberçcksichtigt bleiben, geht bei diesem Ansatz keine Merkmalsvarianz verloren. Allerdings ist zu bedenken, dass vor allem die letzten Variablen, aus denen alle vorangegangenen Variablen herauspartialisiert sind, håufig nur noch Fehlervarianzanteile erfassen. Diese Variablen gehen mit gleichem Gewicht in die Distanzbestimmung ein wie die ¹substantiellenª Variablen, es sei denn, man kann Kriterien festlegen, nach denen diese Variablen heruntergewichtet werden. · Mahalanobis-Distanz. Mit der MahalanobisDistanz (Mahalanobis, 1936) erhålt man ein euklidisches Distanzmaû, das bzgl. der korrelativen Beziehungen zwischen den Merkmalen bereinigt ist:
16
570
Kapitel 16 ´ Clusteranalyse
p X p X
dii0
!1=2 jk
c
xij
xi0 j
xik
xi0 k
j1 k1
16:4 jk
mit c Element jk aus der Inversen der Varianz-Kovarianz-Matrix der p Variablen (vgl. C IV). Dieses Distanzmaû entspricht der euklidischen Distanz, berechnet çber Faktorwerte aller Faktoren einer PCA.
City-Block- und Dominanzmetrik Eine Verallgemeinerung des mit Gl. (16.3) beschriebenen Distanzmaûes erhålt man, wenn statt des Exponenten 2 (bzw. 1=2) der Exponent r (bzw. 1=r) eingesetzt wird: " p #1=r X r dii0
xij xi0 j :
16:5 j1
Mit Gl. (16.5) sind Distanzen fçr verschiedene Minkowski-r-Metriken definiert. Fçr r 1 resultiert die sog. City-Block-Metrik, nach der sich die Distanz zweier Punkte als Summe der (absolut gesetzten) Merkmalsdifferenzen ergibt. (Die Bezeichnung ¹City-Blockª-Distanz geht auf Attneave, 1950 zurçck und charakterisiert ± im Unterschied zur ¹Luftlinien-Distanzª der euklidischen Metrik ± die Entfernung, die z. B. ein Taxifahrer zurçcklegen muss, wenn er in einer Stadt mit rechtwinklig zueinander verlaufenden Straûen von A nach B gelangen will.) Im o. g. Beispiel errechnen wir fçr r 1 dii0 j11 7jj9 9j j6 7jj9 10j 14 :
16
Verschiedene Metrikkoeffizienten gewichten groûe und kleine Merkmalsdifferenzen in unterschiedlicher Weise. Mit r 1 werden alle Merkmalsdifferenzen unabhångig von ihrer Græûe gleichgewichtet. Fçr r 2 erhalten græûere Differenzen ein stårkeres Gewicht als kleinere Differenzen. (Die euklidische Distanz wird durch græûere Merkmalsdifferenzen stårker bestimmt als durch kleinere.) Lassen wir r ! 1 gehen, wird die græûte Merkmalsdifferenz mit 1 gewichtet, und alle çbrigen erhalten ein Gewicht von 0. Im Beispiel ergibt sich fçr r ! 1: dii0 11 7 4.
Die Metrik fçr r ! 1 heiût Dominanz- oder Supremumsmetrik. Distanzen nach dieser Metrik dçrften fçr die meisten clusteranalytischen Fragestellungen ohne Bedeutung sein. Die Wahl der City-Block-Metrik
r 1 ist jedoch sinnvoll, wenn man mit zufållig çberhæhten Merkmalsdifferenzen (Ausreiûerwerten) rechnet, die fçr r 1 stårker vernachlåssigt werden als in der euklidischen Distanz mit r 2.
Produkt-Moment-Korrelation Interessiert weniger der Abstand der Objektprofile, sondern deren Øhnlichkeit auf Grund der Profilverlåufe, kænnen die Objektåhnlichkeiten auch çber Produkt-Moment-Korrelationen bestimmt werden. Hierbei sollten die Merkmale allerdings gleiche Mittelwerte und Streuungen aufweisen (vgl. Schlosser, 1976 zur Kritik der Korrelation als Øhnlichkeitsmaû im Kontext von Clusteranalysen).
16.1.4 Gemischtskalierte Merkmale Gelegentlich kommt es vor, dass die Objekte durch Merkmale mit unterschiedlichem Skalenniveau beschrieben sind. Fçr diese Situation bieten sich drei Læsungswege an: 1. Man fçhrt fçr die Merkmalsgruppen mit einheitlichem Skalenniveau getrennte Clusteranalysen durch und vergleicht anschlieûend die fçr die einzelnen Merkmalsgruppen ermittelten Læsungen. Fçr die Ûberprçfung der Gçte der Clusterçbereinstimmung kænnen das KappaMaû bzw. der Rand-Index eingesetzt werden (vgl. S. 581 f.). 2. Merkmale mit einem hæheren Skalenniveau werden in Merkmale mit niedrigerem Skalenniveau umgewandelt. Kardinalskalierte Merkmale kænnen beispielsweise durch Mediandichotomisierung (oder eine andere Aufteilungsart, vgl. hierzu Anderberg, 1973, Kap. 3) in binåre Nominalskalen transformiert werden. Dieser Weg ist allerdings immer mit einem Informationsverlust verbunden. 3. Man berechnet fçr die nominalskalierten, die ordinalskalierten und kardinalskalierten Merkmale je ein Distanzmaû und bestimmt hieraus die gemeinsame Distanz. Bezeichnen wir mit dNii0 die Distanz zweier Objekte ei und ei0 auf
a16.2.1
571
Hierarchische Verfahren
der Basis der nominalskalierten Merkmale, mit d0ii0 die Distanz fçr ordinalskalierte Merkmale und mit dIii0 die Distanz fçr kardinalskalierte Merkmale, resultiert folgende Gesamtdistanz: dii0 gN dNii0 g0 d0ii0 gK dKii0
16:6
mit g relativer Anteil der Anzahl der Merkmale einer Skalierungsart an der Gesamtzahl der Merkmale.
" 16.2 Ûbersicht clusteranalytischer Verfahren Auf der Basis von Øhnlichkeiten (oder Distanzen) gruppieren clusteranalytische Verfahren die Objekte so, dass die Unterschiede der Objekte eines Clusters mæglichst klein und die Unterschiede zwischen den Clustern mæglichst groû sind. Dies ist ± so kænnte man meinen ± ein relativ einfaches Problem: Man sortiert die Objekte so lange in verschiedene Cluster, bis man die beste Læsung im Sinn des o. g. Kriteriums gefunden hat. Hiermit ist jedoch ± wie die folgenden Aufstellungen fçr nur 5 Objekte zeigen ± ein enormer Arbeitsaufwand verbunden. Wir fragen zunåchst, in welche Gruppengræûen sich 5 Objekte einteilen lassen. Denkbar wåren: 1 2 2 3 3 4 5
Gruppe mit der Objektzahl 5, Gruppen mit den Objektzahlen 2 und 3, Gruppen mit den Objektzahlen 1 und 4, Gruppen mit den Objektzahlen, 1;1 und 3, Gruppen mit den Objektzahlen 1, 2 und 2, Gruppen mit den Objektzahlen 1, 1, 1 und 2, Gruppen mit den Objektzahlen 1, 1, 1, 1 und 1.
Fçr die Verteilung der 5 Objekte auf die 7 verschiedenen Gruppierungsvarianten gibt es folgende Mæglichkeiten: 1 Gruppe mit 5 Objekten:
1 Mægl.
2 Gruppen mit 2 und 3 Objekten:
10 Mægl.
2 Gruppen mit 1 und 4 Objekten:
5 Mægl.
3 Gruppen mit 1, 1 und 3 Objekten:
10 Mægl.
3 Gruppen mit 1, 2 und 2 Objekten:
15 Mægl.
4 Gruppen mit 1, 1, 1 und 2 Objekten:
10 Mægl.
5 Gruppen mit 1, 1, 1, 1 und 1 Objekten: 1 Mægl.
Insgesamt gibt es also 52 verschiedene Varianten fçr die Einteilung von p 5 Objekten in Gruppen. Die Anzahl mæglicher Aufteilungen wåchst mit p exponentiell. Bei p 10 Objekten resultieren bereits 115 975 und bei p 50 Objekten 23;9 1021 verschiedene Aufteilungen. (Die Håufigkeiten fçr die verschiedenen Aufteilungen nennt man Bellsche Zahlen: Nåheres zur Berechnung dieser Zahlen findet man z. B. bei Steinhausen u. Langer, 1977, S. 16 ff.) Schon bei Stichproben mittlerer Græûe benætigt auch der schnellste Computer Rechenzeiten von mehreren Jahrhunderten, um unter allen mæglichen Aufteilungen die beste herauszufinden. Dies ist der Grund, warum keiner der heute existierenden Clusteralgorithmen in der Lage ist, die beste unter allen mæglichen Clusterlæsungen in einer vernçnftigen Zeit zu bestimmen. Man ist darauf angewiesen, die Anzahl aller zu vergleichenden Clusterlæsungen erheblich einzuschrånken, was natçrlich bedeutet, dass hierbei die beste Læsung çbersehen werden kann. Aber auch fçr eine begrenzte Anzahl von Clusterlæsungen resultieren bei græûeren Objektmengen vergleichsweise lange Rechenzeiten. Dies ist beim Einsatz der in den meisten Statistiksoftwarepaketen enthaltenen Clusterroutinen zu beachten. Speziell fçr Clusteranalysen wurde von Wishart (1987) das PC-taugliche Programmpaket ¹CLUSTANª entwickelt. Zur Implementierung clusteranalytischer Verfahren in S-Plus wird auf Handl (2002, Kap. 13) verwiesen. Methodisch unterscheidet man zwei Hauptgruppen von Clusteranalysen: hierarchische Clusteranalysen und nichthierarchische Clusteranalysen. Fçr beide Varianten geben wir im Folgenden einen Ûberblick.
16.2.1 Hierarchische Verfahren Die wichtigsten hierarchischen Verfahren beginnen mit der feinsten Objektaufteilung bzw. Partitionierung, bei der jedes Objekt ein eigenes Cluster bildet. Man berechnet die paarweisen Distanzen zwischen allen Objekten und fusioniert diejenigen zwei Objekte zu einem Cluster, die die kleinste Distanz (bzw. die græûte Øhnlichkeit) aufweisen. Dadurch reduziert sich die Anzahl der Cluster um 1. Die Clusterdistanzen der p 1 ver-
16
572
16
Kapitel 16 ´ Clusteranalyse
bleibenden Cluster werden erneut verglichen, um wieder diejenigen zwei Cluster, die eine minimale Distanz aufweisen, zusammenzufassen. Mit jedem Schritt reduziert sich die Anzahl der Cluster um 1, bis schlieûlich im letzten Schritt alle Objekte in einem Cluster zusammengefasst sind. Gelegentlich gibt man einen maximalen Distanzwert vor, der fçr zwei zu fusionierende Cluster nicht çberschritten werden darf. Hierbei kann es natçrlich vorkommen, dass der Clusterprozess vorzeitig abgebrochen wird, weil alle Clusterdistanzen dieses Kriterium çberschreiten. In einem Dendrogramm wird zusammenfassend verdeutlicht, in welcher Abfolge die Objekte schrittweise zusammengefasst werden. Zusåtzlich ist dem Dendrogramm die Distanz zwischen den jeweils zusammengefassten Clustern zu entnehmen. Damit stellt das Dendrogramm eines der wichtigsten Hilfsmittel dar, eine geeignet erscheinende Clusterzahl festzulegen. (Auf die Konstruktion eines Dendrogramms gehen wir ausfçhrlicher unter 16.3.1 ein.) Eine hierarchische Clusteranalyse, die mit der feinsten Partitionierung beginnt und die Anzahl der Cluster schrittweise verringert, bezeichnet man als eine agglomerative Clusteranalyse. (Auf divisive Clusteranalysen, die mit einem Gesamtcluster beginnen, welches sukzessive in Teilcluster aufgeteilt wird, gehen wir hier nicht ein. Hinweise zu diesem in der Praxis selten eingesetzten Ansatz findet man z. B. bei Eckes u. Rossbach, 1980.) Ein Nachteil hierarchisch-agglomerativer Verfahren ist darin zu sehen, dass die Zuordnung eines Objekts zu einem Cluster im Verlauf des Clusterprozesses nicht mehr revidierbar ist, was die praktische Anwendbarkeit hierarchischer Verfahren u. U. erheblich einschrånkt. Es wird deshalb empfohlen, eine mit einer hierarchischen Methode gefundene Partitionierung mit einem nichthierarchischen Verfahren zu beståtigen oder ggf. zu verbessern (vgl. 16.2.2).
Fusionskriterien Fçr die Fusionierung zweier Cluster wurden verschiedene Kriterien entwickelt, von denen die wichtigsten im Folgenden kurz dargestellt werden (eine formale Gegençberstellung verschiedener hierarchisch-agglomerativer Techniken findet man bei Scheibler und Schneider, 1985):
· ¹Single linkageª (auch Minimummethode genannt): Bei diesem Kriterium richtet sich die Øhnlichkeit zweier Cluster nach den paarweisen Øhnlichkeiten der Objekte des einen Clusters zu den Objekten des anderen Clusters. Es werden diejenigen zwei Cluster vereint, welche die zueinander am nåchsten liegenden Nachbarobjekte (¹nearest neighbourª) besitzen. Die Verbindung zweier Cluster wird hier also ¹brçckenfærmigª durch je ein Objekt der beiden Cluster (¹single linkª) hergestellt. ¹Single linkageª ist fçr alle Distanzmaûe geeignet. Dadurch, dass jeweils nur zwei nahe beieinanderliegende Einzelobjekte çber die Fusionierung zweier Cluster entscheiden, kann es zu Verkettungen bzw. kettenfærmigen Clustergebilden kommen (Chaining-Effekt), in denen sich Objekte befinden, die zueinander eine geringere Øhnlichkeit aufweisen als zu Objekten anderer Cluster. · ¹Complete linkageª (auch Maximummethode genannt): Dieses Cluster-Kriterium bestimmt auf jeder Fusionsstufe fçr alle Paare von Clustern die jeweils am weitesten entfernten Objekte (¹furthest neighbourª). Es werden diejenigen Cluster fusioniert, fçr die diese Maximaldistanz minimal ist. Auch hier kænnen alle Distanzmaûe verwendet werden. Da das Kriterium auf diese Weise alle Einzelbeziehungen berçcksichtigt, ist ± anders als bei ¹single linkageª ± gewåhrleistet, dass alle paarweisen Objektåhnlichkeiten innerhalb eines Clusters kleiner sind als der Durchschnitt der paarweisen Øhnlichkeiten zwischen verschiedenen Clustern. In diesem Sinn resultiert ¹complete linkageª in homogenen Clustern und ist damit fçr viele Fragestellungen geeignet. · ¹Average linkageª (auch ¹group averageª genannt): Man berechnet fçr je zwei Cluster den Durchschnitt aller Objektdistanzen und fusioniert die Cluster mit der kleinsten Durchschnittsdistanz. Als Distanzmaûe kommen alle unter 16.1 genannten Maûe bzw. alle Maûe, fçr die eine Durchschnittsbildung sinnvoll ist, in Betracht. Nach Scheibler u. Schneider (1985) schneidet diese Technik mit Korrelationen als Distanz- bzw. Øhnlichkeitsmaûen åhnlich gut ab wie die Ward-Methode (vgl. 16.3.1) mit euklidischen Distanzen. Vom Clustereffekt her ist diese Strategie zwischen ¹single linkageª und ¹complete linkageª
a16.2.2
573
Nichthierarchische Verfahren
anzusiedeln. Eine Erweiterung von ¹average linkageª sieht vor, dass man die durchschnittlichen Distanzen mit der Anzahl der Objekte, die sich in dem jeweiligen Clusterpaar befinden, gewichtet (weighted average linkage). · Medianverfahren: Dieses Verfahren ist nur fçr (quadrierte) euklidische Distanzen gemåû Gl. (16.3) sinnvoll. Es werden diejenigen Cluster fusioniert, deren quadrierter, euklidischer Zentroidabstand minimal ist. (Ein Clusterzentroid entspricht den durchschnittlichen Merkmalsausprågungen aller Objekte eines Clusters.) Das Verfahren låsst mægliche Unterschiede in den Objekthåufigkeiten der zu fusionierenden Cluster unberçcksichtigt, wodurch der Zentroid des neu gebildeten Clusters dem Mittelpunkt (Median) der Linie, die die Zentroide der zu fusionierenden Cluster verbindet, entspricht. Sollen unterschiedliche Objekthåufigkeiten berçcksichtigt werden (was bedeutet, dass der Zentroid des Fusionsclusters nåher an das græûere Cluster heranrçckt), wåhlt man das gewichtete Medianverfahren, das auch Zentroid-Verfahren genannt wird. · Ward-Verfahren: Dieses Verfahren wird unter 16.3.1 ausfçhrlicher behandelt.
Vergleich hierarchischer Verfahren Wie der letzte Abschnitt zeigte, stehen fçr die Læsung clusteranalytischer Probleme mehrere hierarchische Ansåtze zur Verfçgung, die zu sehr unterschiedlichen Resultaten fçhren kænnen. Die Wahl eines Clusteralgorithmus sollte vom inhaltlichen Problem abhången, das mæglicherweise eine spezielle Art der Clusterbildung besonders nahelegt. Timm (2002, S. 534 ff.) und Handl (2002, Kap. 13.2.3) verdeutlichen die Unterschiede zwischen den Fusionskriterien anhand von Zahlenbeispielen. Fçr weniger erfahrene Anwender sind MonteCarlo-Studien aufschlussreich, die verschiedene Clusteralgorithmen mit Computer-Simulationstechniken vergleichen. Diese Monte-Carlo-Studien çberprçfen, wie genau vorgegebene Gruppierungen durch die verschiedenen Clusteralgorithmen wieder entdeckt werden. Milligan (1981) kommt zu dem Schluss, dass die Ward-Methode zumindest fçr Øhnlichkeitsmaûe, die sich als euklidische Distanzen interpretieren lassen (hierzu zåhlt auch der auf S. 567 erwåhnte SMC-Koeffi-
zient), die besten Resultate erzielt (vgl. hierzu auch Breckenridge, 1989; Blashfield, 1984; Scheibler u. Schneider, 1985 sowie Dreger et al., 1988). Wir werden diese Methode unter 16.3.1 darstellen.
Hinweise: Die hier genannten hierarchisch-agglomerativen Verfahren sind als Spezialfålle sog. beta-flexibler Clustertechniken aufzufassen (vgl. Scheibler u. Schneider, 1985). Diese beta-flexiblen Verfahren gehen auf eine Rekursionsformel von Lance u. Williams (1966, 1967) zurçck, mit der sich die meisten herkæmmlichen hierarchischen Verfahren, aber darçber hinaus durch kontinuierliche Variation des in der Rekursionsformel enthaltenen b-Parameters auch andere Fusionsstrategien, entwickeln lassen. Eine Monte-Carlo-Studie çber optimale b-Parameter bei unterschiedlichen Datenkonstellationen findet man bei Milligan (1989). Eine erweiterte Rekursionsformel hat Podani (1988) entwickelt. Einen Ûberblick çber hierarchische Clustermethoden haben Gordon (1987) und Klemm (1995) vorgelegt. Die letztgenannte Arbeit widmet sich ausfçhrlich dem Problem der Distanzbindungen in der hierarchischen Clusteranalyse.
16.2.2 Nichthierarchische Verfahren Bei nichthierarchischen (oder auch partitionierenden) Clusteranalysen gibt man eine Startgruppierung (d. h. die anfångliche Zugehærigkeit der Objekte zu einem der k Cluster) vor und versucht, die Startgruppierung durch schrittweises Verschieben einzelner Objekte von einem Cluster zu einem anderen nach einem festgelegten Kriterium zu verbessern. Der Prozess ist beendet, wenn sich eine Gruppierung durch weiteres Verschieben von Objekten nicht mehr verbessern låsst. Diese Clusterstrategie wåre damit im Prinzip geeignet, fçr eine vorgegebene Anzahl von k Clustern die tatsåchlich beste Aufteilung der Objekte zu finden. Allerdings fçhrt auch dieser Ansatz bereits bei mittleren Objektzahlen zu unrealistischen Rechenzeichen (vgl. S. 571). Man ist deshalb darauf angewiesen, den Suchprozess auf eine begrenzte Anzahl geeignet erscheinender Partitionen zu begrenzen, was bedeuten kann, dass hierbei die tatsåchlich beste Læsung çbersehen wird. Fçr nichthierarchische Verfahren ist es wichtig, von vornherein eine inhaltlich plausible Anfangs-
16
574
Kapitel 16 ´ Clusteranalyse
partition vorzugeben. Hierfçr wåhlt man håufig eine mit einem hierarchischen Verfahren (z. B. Ward-Verfahren) gefundene Læsung, die man durch Einsatz eines nichthierarchischen Verfahrens zu optimieren sucht. Die Mæglichkeit, nur eine suboptimale Læsung zu finden, ist jedoch auch mit dieser Strategie nicht ausgeschlossen. Es wird deshalb empfohlen, eine gefundene, praktisch brauchbare Clusterlæsung durch verschiedene, plausibel erscheinende Anfangspartitionen (ggf. auch zufållige Anfangspartitionen) zu beståtigen. (In der Literatur findet man hierzu weitere Hinweise unter dem Stichwort ¹Vermeidung lokaler Optimaª.) Zudem kann es sinnvoll sein, die Anzahl der vorgegebenen Cluster zu variieren. Der allgemeine Algorithmus (¹hill climbing algorithmª, Rubin, 1967) besteht aus folgenden Schritten: · Es werden die Zentroide der k vorgegebenen Cluster berechnet. · Es wird fçr jedes Objekt çberprçft, ob sich durch Verschieben aus seinem jeweiligen Cluster in ein anderes Cluster eine verbesserte Aufteilung im Sinn des gewåhlten Optimierungskriteriums (s. u.) ergibt. · Nach der Neuzuordnung werden die Zentroide der Cluster erneut berechnet. · Dieser Vorgang wird so lange wiederholt, bis sich die Aufteilung nicht mehr verbessern låsst. Ein besonders bewåhrtes Verfahren ist die ¹kmeansª-Methode, bei der jedes Objekt demjenigen Cluster zugeordnet wird, zu dessen Zentroid die Objektdistanz minimal ist. Diese von MacQueen (1967) entwickelte und von Milligan (1981) empfohlene Methode wird unter 16.3.2 ausfçhrlich dargestellt.
16
Optimierungskriterien Fçr die Beschreibung der Gçte einer Clusterlæsung sind einige Kriterien gebråuchlich, die im Folgenden kurz dargestellt und kommentiert werden: · Varianzkriterium (auch Spur W-Kriterium oder Abstandsquadratsummenkriterium genannt): Man berechnet fçr jedes Cluster die quadrierten Abweichungen der Objekte eines Clusters vom Clusterzentroid und summiert diese quadrierten Abweichungen çber alle Cluster. Es re-
sultiert die Spur einer Matrix W, in deren Diagonale sich die Quadratsummen der Variablen und in deren nichtdiagonalen Elementen sich die Kreuzproduktsummen befinden. (Zur Berechnung einer W-Matrix vgl. S. 531 bzw. S. 593. Hier wird die W-Matrix DFehler -Matrix genannt.) Formal ergibt sich fçr ein Cluster i Spur Wi
p X n X
xijm
xij 2
16:7
j1 m1
mit j 1 . . . p
Anzahl der Variablen) m 1 . . . n
Anzahl der Objekte des Clusters i). Zusammengefasst çber die k Cluster resultiert Spur W
k X
Spur Wi :
16:8
i1
Es wird diejenige Partitionierung gesucht, fçr die die Spur von W minimal ist. Dieses einfach zu berechnende Kriterium ist vom Maûstab der Merkmale abhångig. Es sollte bei korrelierten Merkmalen nicht eingesetzt werden. Zudem fçhrt es zu verzerrten Clusterbildungen, wenn die Merkmalsvarianzen in den verschiedenen Clustern heterogen sind und/ oder die Anzahl der Objekte pro Cluster stark schwankt. · Determinantenkriterium: Es wird diejenige Gruppierung gesucht, fçr die die Determinante von W (Det W) ein Minimum ergibt. (Zur Berechnung einer Determinante vgl. Anhang C III.) Det (W) ist um so græûer, je heterogener die gebildeten Cluster sind. Dieses Kriterium ist unabhångig vom Maûstab der Merkmale und berçcksichtigt zudem die Korrelationen zwischen den Merkmalen. · Spur-Kriterium (auch Spur W 1 B-Kriterium): Dieses Kriterium maximiert die Spur einer Matrix W 1 B, wobei B die Unterschiede zwischen den Clustern abbildet. (Zur Berechnung von B vgl. S. 593; die Matrix B hat hier die Bezeichnung Dtreat .) Dieses Kriterium ist ± wie auch das Determinanten-Kriterium ± unabhångig vom Maûstab der Merkmale und berçcksichtigt Korrelationen zwischen den Variablen. Errech1 net man fçr Q W B die Eigenwerte ki , erhålt man mit
1 ki das sog. Wilks Lambdai
a16.3
Kriterium, das mit dem Kriterium Det
B W= Det
W çbereinstimmt; vgl. auch S. 593, 598 u. 609. Fçr Clusteranalysen mit vorgeschalteter Orthogonalisierung der Merkmale (vgl. S. 569) fçhren alle drei Kriterien zu vergleichbaren Ergebnissen. Fçr korrelierende Merkmale erweist sich das Determinanten-Kriterium als gçnstig (vgl. Blashfield, 1977, zit. nach Milligan, 1981).
Hinweis: Die hier behandelten Verfahren gehen davon aus, dass jedes Objekt nur einem Cluster zugeordnet wird (¹disjoint clustersª). Auf Verfahren, bei denen ein Objekt mehreren Clustern zugeordnet werden kann (¹overlapping clustersª; vgl. z. B. die MAPCLUS-Technik von Arabie u. Carroll, 1980, oder die nonhierarchische BINCLUS-Technik fçr binåre Daten von Cliff et al., 1986) wird hier nicht eingegangen.
16.3 Durchfçhrung einer Clusteranalyse Die Durchfçhrung einer Clusteranalyse setzt voraus, dass man Zugang zu einer leistungsstarken EDV-Anlage mit entsprechender Software hat. Neben den in den gångigen Statistikprogrammpaketen (SPSS, SAS, BMDP, STATISTICA etc.) enthaltenen Clusteranalysen sei auf das von Wishart (1978, 1982, 1987) entwickelte Programmsystem CLUSTAN verwiesen, das viele clusteranalytische Varianten bereithålt. Handl (2002) erlåutert die Durchfçhrung von Clusteranalysen mit S-Plus. (Einen Vergleich verschiedener Clusteralgorithmen findet man bei Dreger et al., 1988.) Diese Vielfalt an clusteranalytischen Algorithmen erschwert es, fçr ein gegebenes Problem einen geeigneten Clusteranalysealgorithmus auszuwåhlen. Es werden deshalb im Folgenden zwei Methoden vorgestellt, die sich ± auch in kombinierter Form ± in der Praxis gut bewåhrt haben: die Ward-Methode und die k-means-Methode. Wenn keine Grçnde fçr die Wahl eines anderen Verfahrens sprechen, wird empfohlen, mit der Ward-Methode eine Anfangspartition zu erzeugen und diese mit der k-means-Methode ggf. zu optimieren (vgl. Milligan u. Sokal, 1980).
16
575
Durchfçhrung einer Clusteranalyse
16.3.1 Die Ward-Methode Die Ward-Methode ist in der Literatur auch unter den Bezeichungen Minimum-Varianz-Methode, Fehlerquadratsummen-Methode oder HGROUP100-Methode bekannt. Ausgangsmaterial ist eine Datenmatrix, die fçr jedes Objekt Messungen auf p Merkmalen enthålt. Die Messwerte sollten so geartet sein, dass euklidische Abstånde zwischen den Objekten berechnet werden kænnen (d. h. kardinalskaliert oder binårskaliert). Bei heterogenen Maûståben der Merkmale wird die Datenmatrix pro Merkmal z-transformiert. Die Ward-Methode fusioniert als hierarchisches Verfahren sukzessive diejenigen Elemente (Cluster), mit deren Fusion die geringste Erhæhung der gesamten Fehlerquadratsumme einhergeht. Die Fehlerquadratsumme pro Variable ist genauso definiert wie die Fehlerquadratsumme in der einfaktoriellen Varianzanalyse (vgl. Kap. 7), wobei die Anzahl der Cluster der Anzahl der Treatmentstufen entspricht. BEISPIEL Ein kleines Zahlenbeispiel (vgl. Tabelle 16.2) mit p 2 Merkmalen und n 6 Objekten bzw. Elementen soll die Vorgehensweise verdeutlichen. (Hierbei gehen wir davon aus, dass beiden Merkmalen der gleiche Maûstab zu Grunde liegt, sodass sich z-Transformationen erçbrigen.) Jedes Element ei bildet anfånglich sein eigenes Cluster, d. h., die Fehlerquadratsumme ist fçr jede Variable zunåchst 0 (n 1 pro Cluster). Auf der ersten Fusionsstufe wird nun çberprçft, wie sich die Fehlerquadratsummen fçr die einzelnen Variablen erhæhen, wenn zwei Elemente ei und ei0 zu einem Cluster zusammengefasst werden. Man fusioniert diejenigen beiden Elemente, fçr die der kleinste Zuwachs der çber alle Variablen summierten Fehlerquadratsummen
DQSFehler resultiert. Tabelle 16.3 a zeigt die fçr alle denkbaren Fusionierungen zu erwartenden Fehlerquadratsummen-Zuwåchse. Wçrde man e1 und e2 fusionieren, håtte das neue Cluster einen Zentroid mit den Merkmalskoordinaten x1
2 0=2 1 und x2
4 1=2 2;5. Fçr die QSFehler dieses Clusters errechnen wir (Summe der quadrierten Abweichungen der Elemente 1 und 2 vom Clusterzentroid):
2 12
0 12
4 2;52
1 2;52 6;5. Dies ist der erste in Tabelle 16.3 a wiedergegebene Wert. Man erhålt ± insbesondere bei græûeren Clustern mit unterschiedlich vielen Objekten ± diesen und die folgenden Werte einfacher nach der Beziehung (16.9): DQSFehler
p ni ni0 X
xij 0 ni ni j1
xi0 j 2 ;
16:9
576
Kapitel 16 ´ Clusteranalyse
Tabelle 16.2. Datenmatrix fçr eine Clusteranalyse nach dem Ward-Verfahren
e1 e2 e3 e4 e5 e6
x1
x2
2 0 1 3 4 2
4 1 1 2 0 2
e1 e
2;3 e
4;6 e5
e1
e2
e3
e4
e5
e6
±
6,5 ±
5,0 0,5 ±
2,5 5,0 2,5 ±
10,0 8,5 5,0 2,5 ±
2,0 2,5 1,0 0,5 4,0 ±
e1 e
2;3 e4 e5 e6
2 0,5 3 4 2
4 1 2 0 2
Tabelle 16.4. 2. Fusionsstufe a) QSFehler -Zuwåchse (DQSFehler )
16
e1 e
2;3 e4 e5 e6
e1
e
2;3
e4
e5
e6
±
7,5 ±
2,5 4,8 ±
10,0 8,8 2,5 ±
2,0 2,2 0,5 4,0 ±
b) Datenmatrix nach der 2. Fusion
e1 e
2;3 e
4;6 e5
x1
x2
2 0,5 2,5 4
4 1 2 0
e
4;6
e5
7,5 ±
2,8 5,0 ±
10,0 8,8 4,2 ±
e
1;4;6 e
2;3 e5
x1
x2
2,33 0,50 4,00
2,67 1,00 0,00
wobei ni
ni0 Anzahl der Elemente im Cluster i
i0 und xij
xi0 j durchschnittliche Ausprågung des Merkmals j bei ni
ni0 Objekten des Clusters i
i0 . Nach Gl. (16.9) ermitteln wir fçr die Fusionierung von e1 und e2 den bereits bekannten Wert von DQSFehler 6;5: 11 1
2 02
4 12 13 6;5 : 11 2 (Man beachte, dass fçr die Fusionierung einzelner Objekte die Objektkoordinaten mit den Zentroid-Koordinaten çbereinstimmen.) Tabelle 16.3 a zeigt, dass sowohl aus der Fusionierung von e2 und e3 als auch aus der Fusionierung von e4 und e6 der kleinste Betrag fçr DQSFehler von 0,5 folgt. Wir entscheiden per Zufall, auf der 1. Fusionsstufe e2 und e3 zusammenzulegen (fettgedruckter Wert), und erhalten die in Tabelle 16.3 b wiedergegebene modifizierte Datenmatrix, in der e2 und e3 zusammengefasst sind. (Die hier praktizierte Vorgehensweise, bei identischen DQSFehler -Werten per Zufall zu fusionieren, ist nicht unproblematisch; vgl. hierzu Klemm, 1995.) Ausgehend von diesen Daten errechnen wir nach Gl. (16.9) die DQSFehler -Werte der 2. Fusionsstufe (Tabelle 16.4 a). Beispiel: Fçr die Zusammenlegung von e1 und e
2;3 resul12
2 0;52
4 12 7;5 . tiert: DQSFehler 12 Wir legen e4 und e6 als Objekte mit dem kleinsten DQSFehler -Wert zusammen und erhalten die in Tabelle 16.4 b wiedergegebene Datenmatrix nach der 2. Fusion. In gleicher Weise verfahren wir bis hin zur letzten, der 5. Fusionsstufe, die alle Objekte in einem Cluster vereint (vgl. Tabellen 16.5 bis 16.7). Die Berechnung der neuen Datenmatrizen erfolgt unter Berçcksichtigung der Anzahl der Objekte in den fusionierten Clustern. DQSFehler
b) Datenmatrix nach der 1. Fusion x2
±
e
2;3
b) Datenmatrix nach der 3. Fusion
a) QSFehler -Zuwåchse (DQSFehler )
x1
a) QSFehler -Zuwåchse (DQSFehler ) e1
Tabelle 16.3. 1. Fusionsstufe
e1 e2 e3 e4 e5 e6
Tabelle 16.5. 3. Fusionsstufe
Dendrogramm. Abbildung 16.1 veranschaulicht graphisch anhand eines Dendrogramms die auf den einzelnen Fusionsstufen vorgenommenen Cluster-
a16.3
Tabelle 16.6. 4. Fusionsstufe
9 8
a) QSFehler -Zuwåchse (DQSFehler )
e
1;4;6 e
2;3 e5
±
7
e
2;3
e5
7,37 ±
7,70 8,8 ±
6
∆ QS Fehler
e
1;4;6
e
1;2;3;4;6 e5
4
2
x2
1,6 4,0
5
3
b) Datenmatrix nach der 4. Fusion x1
16
577
Durchfçhrung einer Clusteranalyse
1 0
2,0 0,0
e2
e3
e4
e6
e1
e5
Abb. 16.1. Dendrogramm des Beispiels (Tabellen 16.3 bis 16.7)
Tabelle 16.7. 5. Fusionsstufe 9
a) QSFehler -Zuwåchse (DQSFehler )
e
1;2;3;4;6 e5
±
8
e5 8,13 ±
b) Datenmatrix nach der 5. Fusion x1 e
1;2;3;4;5;6 2,0
x2 1,67
7 6
∆ QSFehler
e
1;2;3;4;6
5 4 3 2 1 0
bildungen. Auf der Ordinate sind die DQSFehler Werte abgetragen, sodass man leicht erkennen kann, mit welchem Fehlerquadratsummen-Zuwachs die einzelnen Clusterneubildungen ¹erkauftª wurden.
Struktogramm. Anhaltspunkte fçr die Bestimmung der Anzahl der Cluster, in die sich eine Objektmenge sinnvoll einteilen låsst, liefert zudem das sog. Struktogramm (vgl. Abb. 16.2), das åhnlich auszuwerten ist wie ein Scree-Test im Rahmen einer Faktorenanalyse (vgl. S. 544). Von rechts kommend zeigt das Struktogramm, welcher Fehlerquadratsummen-Zuwachs mit jeder Fusionsstufe verbunden ist. In unserem Beispiel wird nach der zweiten bzw. dritten Fusionsstufe ein deutlicher Sprung in den DQSFehler -Werten erkennbar, d. h., man wçrde sich fçr eine Læsung mit 4 oder 3 Clustern entscheiden (zur Reliabilitåt und Validitåt dieser Methode vgl. Lathrop u. Williams, 1987, 1989, 1990).
0
1 5
2 4
3 3
4 2
5 1
6 Clusterzahl Fusionsstufe
Abb. 16.2. Struktogramm des Beispiels (Tabellen 16.3 bis 16.7)
¹Stopping rulesª. Um die Bestimmung der ¹wahrenª Clusteranzahl zu objektivieren, wurden ± åhnlich wie zum Scree-Test der Faktorenanalyse ± zahlreiche analytische Abbruchkriterien (sog. Stopping rules) entwickelt, die bei Milligan u. Cooper (1985) beschrieben und in einer MonteCarlo-Studie verglichen werden. Am besten bewåhrt haben sich in dieser Studie das Abbruchkriterium von Calinski u. Harabasz (1974), der Je(2)/Je(1)-Quotient von Duda u. Hart (1973), der C-Index (Hubert u. Levin, 1976) sowie die Gamma-Statistik (Baker u. Hubert, 1975). Ein graphentheoretisches Kriterium fçr die Bestimmung bedeutsamer Cluster wurde von Krolak-Schwerdt u. Eckes (1992) vorgeschlagen.
578
Kapitel 16 ´ Clusteranalyse
Eigenschaften des Ward-Algorithmus Nach Gl. (16.9) wird entschieden, welche Cluster zu fusionieren sind. Diese Gleichung zeigt einige wichtige Eigenschaften des Ward-Algorithmus. Zunåchst erkennt man, dass Gl. (16.9), nach der die Fehlerquadratsummen-Zuwåchse berechnet werden, (gewichtete) quadrierte, euklidische Distanzen zwischen Clusterschwerpunkten bestimmt. (Dieser Sachverhalt wurde im Beispiel numerisch verdeutlicht.) Die Minimierung der FehlerquadratsummenZuwåchse ist gleichbedeutend mit der Minimierung der quadrierten, euklidischen Distanz der zu fusionierenden Cluster. Nehmen wir ferner an, zwei Cluster A und B håtten zueinander die gleiche quadrierte, euklidische Distanz wie zwei Cluster C und D. In diesem Fall entscheiden nur die Besetzungszahlen der Cluster çber die Art der Fusionierung. Wenn nA nB nC nD , werden diejenigen Cluster fusioniert, deren Besetzungszahlen die græûeren Unterschiede aufweisen, denn mit zunehmender Differenz nA nB (bzw. nC nD ) wird das Produkt nA nB (nC nD kleiner. (Beispiel: nA nB nC nD 10; nA 2, nB 8 mit nA nB 16 und nC 5, nD 5 mit nC nD 25, d. h. nA nB < nC nD .) Ist das Verhåltnis der Besetzungszahlen konstant
nA =nB nC =nD const., werden diejenigen Cluster fusioniert, deren Gesamtumfang
nA nB oder nC nD ) kleiner ist. Beispiel: nA =nB nC =nD 0;5; nA 1, nB 2 und nC 5 und nD 10; es folgt fçr den Gewichtungsfaktor in Gl. (16.9) 12 5 10 < ; 1 2 5 10
16
d. h., es werden die Cluster A und B und nicht die Cluster C und D fusioniert. Die Eigenschaften des Ward-Algorithmus lassen sich damit folgendermaûen zusammenfassen: Mit den ersten Fusionsschritten werden bevorzugt kleine Cluster in Regionen mit hoher Objektdichte gebildet. Mit fortschreitender Fusionierung tendiert der Algorithmus dazu, Unterschiede in den Besetzungszahlen verschiedener Cluster auszugleichen, d. h., es werden Cluster mit annåhernd gleich groûen Besetzungszahlen gebildet. Diese Eigenschaft wirkt sich nachteilig aus, wenn die beste Gruppierung aus Clustern unterschiedlicher Græûe besteht. Fçr diese Konstellation sind die Zentroid-Methode
bzw. Average-linkage-Methode dem Ward-Algorithmus çberlegen (vgl. hierzu auch Kuiper u. Fisher, 1975). Bei binåren Merkmalen fçhrt die WardMethode zu guten Ergebnissen, wenn die Merkmalsanteile annåhernd symmetrisch verteilt sind (vgl. Hands u. Everitt, 1987).
16.3.2 Die k-means-Methode Als eines der bewåhrtesten, nichthierarchischen Verfahren wird im Folgenden die k-means-Methode von MacQueen (1967) behandelt. Sie wird håufig zur Verbesserung einer Gruppierung eingesetzt, die mit einer hierarchischen Methode (z. B. Ward-Methode, vgl. 16.3.1) gefunden wurde. Der Algorithmus besteht aus folgenden, wiederholt durchzufçhrenden Schritten: · Man erzeugt eine Anfangspartition mit k Clustern. · Beginnend mit dem 1. Objekt im 1. Cluster werden fçr alle Objekte die euklidischen Distanzen zu allen Clusterschwerpunkten gemåû Gl. (16.3) bestimmt. · Trifft man auf ein Objekt, das zu dem Schwerpunkt des eigenen Clusters eine græûere Distanz aufweist als zum Schwerpunkt eines anderen Clusters, wird dieses Objekt in dieses Cluster verschoben. · Die Schwerpunkte der beiden durch diese Verschiebung verånderten Cluster werden neu berechnet. · Man wiederholt Schritt 2 bis Schritt 4, bis sich jedes Objekt in einem Cluster befindet, zu dessen Schwerpunkt es im Vergleich zu den çbrigen Clustern die geringste Distanz aufweist. Die k Cluster werden in diesem Verfahren also durch ihre Schwerpunkte (Mittelpunkte) repråsentiert, was dem Verfahren seinen Namen gab: k-means-Methode. Anders als bei hierarchischen Verfahren ist in diesem nichthierarchischen Verfahren eine einmal vorgenommene Zuordnung eines Objekts zu einem Cluster nicht endgçltig; sie kann theoretisch beliebig håufig revidiert werden. BEISPIEL Gegeben sei eine Anfangspartition mit 3 Clustern und jeweils 3 Objekten, fçr die Messungen auf 2 Merkmalen vorliegen (vgl. Tabelle 16.8). Erneut nehmen wir an, beide Merkmale håtten den gleichen Maûstab, sodass sich eine z-Transformation erçbrigt.
a16.3.2
Tabelle 16.8. Zahlenbeispiel fçr eine Cluster-Analyse nach dem k-means-Verfahren
Im Beispiel ermitteln wir fçr das verkleinerte Cluster A:
Schwerpunkt:
x1
x2
1 2 0
2 1 3
1
2
x2
neu
Fçr das um ein Objekt em erweiterte Cluster ergeben sich die folgenden Schwerpunkt-Koordinaten: xj
x1
x2
4 3 2
3 0 0
3
1
x2
neu
nalt xj
alt xmj : nalt 1
16:11
x1
x2
3 2 1
3 0 0
2
1
322 2; 31 311 1: 31
Nach dieser Verschiebung stellten wir çber Gl. (16.3) fest, dass die beiden Elemente von A richtig platziert sind. Beide Elemente haben zum Schwerpunkt von A eine kleinere Distanz als zu den Schwerpunkten von B und C. Das erste falsch platzierte Element, das wir antreffen, ist das 3. Element in Cluster B
2; 0, das zum Schwerpunkt des Clusters C
2; 1 eine geringere Distanz aufweist als zum Schwerpunkt des eigenen Clusters
3; 1. Wir verschieben deshalb dieses Element in Cluster C und erhalten folgende Gruppierung: Cluster A
Ohne weitere Berechnungen erkennt man, dass das 1. Objekt im Cluster A richtig und das 2. Objekt in Cluster A falsch platziert ist. Das 2. Objekt mit den Messungen
2; 1 gehært offensichtlich in das Cluster C mit genau diesen Schwerpunktkoordinaten
2; 1. Wird dieses Element nach C verschoben, resultieren die folgenden Cluster: Cluster B
x1
neu
Cluster C
Schwerpunkt:
neu
Im Beispiel errechnen wir fçr Cluster C:
Cluster B
Schwerpunkt:
31 2 0;5 ; 3 1 32 1 2;5 : 3 1
x1
neu
Cluster A
Cluster A
16
579
Die k-means-Methode
Cluster B
Cluster C
x1
x2
x1
x2
x1
x2
1 0
2 3
4 3
3 0
0,5
2,5
3,5
1,5
3 2 1 2 2
3 0 0 1 0
2,0
0,8
Die dritte Verschiebung, die jetzt erforderlich wird, betrifft das 2. Objekt in B, dessen Distanz zu Cluster C am geringsten ist.
Cluster C
x1
x2
x1
x2
x1
x2
1 0
2 3
x2
x1
x2
1 0
2 3
4
3
1
3 0 0 1
x1
3
3 2 1 2
x2
2,5
3 0 0
x1
0,5
4 3 2
2
1
0,5
2,5
4
3
3 2 1 2 2 3
3 0 0 1 0 0
2,17
0,67
Cluster A
Die Schwerpunktkoordinaten xj
neu eines Clusters, aus dem ein Objekt em entfernt wurde, berechnet man allgemein ohne Rçckgriff auf die verbleibenden Einzelelemente nach folgender Beziehung: xj
neu
nalt xj
alt xmj : nalt 1
16:10
Cluster B
Cluster C
Nach dieser Verschiebung ist das 1. Element in Cluster C fehlplatziert. Es liegt nåher am Schwerpunkt von B als am Schwerpunkt von C und wird deshalb nach B verschoben.
580
Kapitel 16 ´ Clusteranalyse
Cluster A
Cluster B
Cluster C
x1
x2
x1
x2
x1
x2
1 0
2 3
4 3
3 3
0,5
2,5
3,5
3,0
2 1 2 2 3
0 0 1 0 0
2,0
0,20
Wie die nach Gl. (16.3) errechnete Distanzmatrix in Tabelle 16.9 zeigt, ist dies die endgçltige Clusterlæsung. Jedes Objekt hat zum Schwerpunkt des eigenen Clusters eine geringere Distanz als zu den Schwerpunkten der anderen Cluster.
Hinweis: Ein Nachteil der k-means-Methode ist darin zu sehen, dass das Clusterergebnis von der Reihenfolge der Objekte abhången kann. Es empfiehlt sich deshalb, verschiedene Startpartitionen zu verwenden, welche die Reihenfolge der Cluster und der Objekte innerhalb der Cluster variieren. Man akzeptiert diejenige Læsung, die durch verschiedene Startpartitionen am håufigsten beståtigt wird (zum Problem lokaler Optima vgl. auch Steinley, 2003).
16.4 Evaluation clusteranalytischer Læsungen
16
Unter 16.2 wurde die Vielfalt clusteranalytischer Verfahren verdeutlicht, die dem Anwender zur Partitionierung einer multivariat beschriebenen Objektmenge zur Verfçgung stehen und die in der Regel nicht zu identischen Resultaten fçhren. Auch wenn der hierarchischen Ward-Methode und der nichthierarchischen k-means-Methode in vielen Grundlagenstudien besonders gute Eigenschaften bescheinigt werden, bleibt zu fragen, ob ein anderer Algorithmus zu einer besseren Læsung fçhrt. Diese Frage låsst sich letztlich nur dadurch beantworten, dass man den empirischen Datensatz mit mehreren Clusteralgorithmen analysiert und vergleichend interpretiert.
Prçfung der Generalisierbarkeit Ein weiteres, hier vorrangig behandeltes Problem betrifft die Generalisierbarkeit einer clusteranalytischen Læsung. Wie alle statistischen Ergebnisse sind auch Clusterlæsungen stichprobenabhångig,
Tabelle 16.9. Distanzmatrix fçr die endgçltige Clusterlæsung Clusterschwerpunkte Objekte
A(0,5; 2,5)
B(3,5; 3,0)
C(2,0; 0,2)
A1
1; 2 A2
0; 3
0,71 0,71
2,69 3,50
2,06 3,44
B1
4; 3 B2
3; 3
3,54 2,54
0,50 0,50
3,44 2,97
C1
2; 0 C2
1; 0 C3
2; 1 C4
2; 0 C5
3; 0
2,92 2,55 2,12 2,92 3,54
3,35 3,91 2,50 3,35 3,04
0,20 1,02 0,80 0,20 1,02
was sich durch wiederholte Clusteranalysen einer Objektmenge mit gleicher Referenzpopulation verdeutlichen lieûe. Fçr die Stabilitåtsprçfung der Clusterlæsung eines einmalig erhobenen Datensatzes wird in der Literatur (z. B. Morey et al., 1983) eine Strategie empfohlen, deren Leitlinie im Folgenden beschrieben wird. Diese Evaluationsstrategie gliedert sich in vier Schritte: 1. Man unterteilt die Objektmenge zufållig in zwei gleichgroûe Teilmengen A und B. 2. Fçr A und B wird jeweils eine Clusteranalyse gerechnet. 3. Die Objekte aus A werden den Clustern aus B zugeordnet, sodass neue Cluster A entstehen. Das Gleiche geschieht mit den Objekten aus B, die zur Bildung von B-Clustern den Clustern von A zugeordnet werden (Doppelkreuzvalidierung). 4. Man çberprçft die Ûbereinstimmung der Clusterlæsungen A und A bzw. B und B. Zu diskutieren sind in diesem Abschnitt die Schritte 3 und 4, fçr die in der Literatur verschiedene Læsungen vorgeschlagen werden:
Zuordnungsregeln Breckenridge (1989) vergleicht in einer MonteCarlo-Studie 3 Zuordnungsregeln im Kontext einer Stabilitåtsprçfung von Ward-Læsungen.
¹Nearest-centroidª- oder ¹NCª-Regel. Man berechnet zunåchst fçr jedes Cluster i
i 1; . . . ; k aus A den Schwerpunkt bzw. Vektor xi der durch-
a16.4
schnittlichen Merkmalsausprågungen. Fçr jedes Objekt m
m 1; . . . ; nB aus B wird die euklidische Distanz des Vektors xm der individuellen Merkmalsausprågungen zu den Schwerpunkten aus A berechnet: #1=2 " p X 2 dNC
m;i
xmj xji
16:12 j1
mit p Anzahl der Merkmale. Ein Objekt aus B wird demjenigen Cluster aus A zugeordnet, zu dem der dNC-Wert minimal ist. Diese Partition der Objekte aus B konstituiert die B-Læsung. Entsprechend verfåhrt man zur Konstruktion der A-Læsung.
Minimum-v2 -Regel oder ¹MC-Regelª. Diese Zuordnungsregel setzt voraus, dass die p Merkmale multivariat normalverteilt sind. Der Abstand eines individuellen Merkmalsprofils zum durchschnittlichen Merkmalsprofil eines Clusters i ergibt sich hierbei zu: dMC
m;i d0im covi 1 dim ln jcovi j
16
581
Evaluation clusteranalytischer Læsungen
2 ln pi :
16:13
Diese Gleichung wird auf S. 621 ff. anhand eines konkreten Zahlenbeispiels erlåutert. Auch hier wird jedes Objekt aus B dem Cluster aus A mit dem kleinsten Abstandswert zugeordnet (und umgekehrt).
¹Nearest-neighborª oder ¹NN-Regelª. Wie bei der Single-linkage-Strategie (vgl. S. 572) wird fçr jedes Objekt m aus B die euklidische Distanz zu allen Objekten m0 aus A berechnet: " p #1=2 X 2
xmj xm0 j :
16:14 dNN
m;m0 j1
Jedes Objekt aus B wird demjenigen Cluster zugeordnet, in dem sich das Objekt m0 aus A mit dem kleinsten Abstand befindet. Diese Clusterlæsungen konstituieren die Partionierung B.
Vergleich der Zuordnungsregeln. Die Studie von Breckenridge (1989) belegt die deutliche Ûberlegenheit der NN-Zuordnungsregel. Zumindest bei Clusteranalysen nach dem Ward-Algorithmus fçhrt diese Regel zu hæheren Ûbereinstimmungen
von A und A (bzw. B und B) als die beiden çbrigen Regeln. Die MC-Regel versagte vor allem bei nicht multivariat-normalverteilten Merkmalen. Die NC-Regel wird empfohlen, wenn die Objektåhnlichkeiten in stårkerem Maû von Profilverlåufen bzw. der Profilform bestimmt werden (wie z. B. bei der Korrelation) und weniger durch die Abstånde der individuellen Profile voneinander, die in die Berechnung der euklidischen Distanzen (und damit auch in den Ward-Algorithmus) eingehen. Die Ûberlegenheit der NN-Regel kann damit also nur im Zusammenhang mit dem Ward-Algorithmus als nachgewiesen gelten. Sie mçsste allerdings auch auf die k-means-Methode çbertragbar sein, da diese Technik ebenfalls mit der euklidischen Metrik operiert.
Cluster-Ûbereinstimmung Nach der Bildung neuer Cluster A (bzw. B) mit Hilfe der o. g. Zuordnungsregeln ist im vierten Schritt zu prçfen, wie gut die ursprçnglichen und rekonstruierten Cluster çbereinstimmen. Hierfçr werden in der Literatur verschiedene Ûbereinstimmungsmaûe genannt (vgl. z. B. Milligan u. Schilling, 1985, oder Milligan u. Cooper, 1986).
Kappa-Maû. Fçr den Fall, dass fçr A und A die gleiche Anzahl k von Clustern resultiert, hat sich das von Cohen (1960) entwickelte Ûbereinstimmungsmaû Kappa
j bewåhrt (vgl. z. B. Blashfield, 1976, oder Breckenridge, 1989; zur Kritik von Kappa vgl. Klauer, 1996 b). Man berechnet j nach folgender Gleichung: P0 Pe j :
16:15 1 Pe Zur Berechnung von j fertigt man eine quadratische k k-Kontingenztafel an, in die jedes Objekt nach Maûgabe seiner Clusterzugehærigkeit in A und A eingetragen wird. Die Abfolgen der Aund A-Cluster sollten so abgestimmt sein, dass die Summe der Objekte in der Diagonale der k k-Tafel maximal ist. Mit k P
P0
i1
fii
n
16:16
582
Kapitel 16 ´ Clusteranalyse
bestimmt man den Anteil aller Objekte in der Diagonale bzw. den Anteil aller Objekte, die korrespondierenden Clustern in A und A zugeordnet sind. (Hier und im Folgenden bezeichnen wir mit n die Anzahl aller Objekte in A bzw. A.) Der Ausdruck Pe errechnet sich nach k P
Pe
i1
fi: f:i
;
16:17 n2 er gibt den Anteil aller zufållig korrekt klassifizierten Objekte wieder. BEISPIEL Die ¹natçrlicheª Abfolge der Cluster A und A mæge zu folgender Kontingenztafel gefçhrt haben: A1 3 2 20
A1 A2 A3
A2 30 2 1
A3 2 40 0
Wir arrangieren die Abfolge der A-Cluster so, dass die Diagonale maximal besetzt ist: A1 20 3 2 25
A3 A1 A2
A2 1 30 2 33
A3 0 2 40 42
21 35 44 n 100
Man errechnet P0
20 30 40 0;9 100
ligan u. Cooper (1986) ein Ûbereinstimmungsmaû, das auf eine von Hubert u. Arabie (1985) vorgeschlagene Korrektur des Rand-Indexes (Rand, 1971) zurçckgeht. (Eine Verallgemeinerung des Rand-Indexes auf nichtdisjunkte Cluster oder ¹overlapping clustersª findet man bei Collins u. Dent, 1988.) Beim Rand-Index wird fçr jedes der nA
nA 1=2 Objektpaare geprçft, ob sich die Paarlinge in A und A in einem oder in verschiedenen Clustern befinden, sodass sich die in Tabelle 16.10 dargestellte Vierfeldertafel fçr die Håufigkeiten von Objektpaaren anfertigen låsst: Die mit a gekennzeichnete Håufigkeit gibt an, wie viele Paarlinge sich sowohl in A als auch A im selben Cluster befinden, und die Håufigkeit d besagt, wie viele Paarlinge sich in A und A in verschiedenen Clustern befinden. Die Håufigkeiten a und d markieren damit ¹åquivalenteª Paare in A und A und die Håufigkeiten b und c ¹diskrepanteª Paare. Fçr den Rand-Index
RI berechnet man: RI
a d=
a b c d mit a b c d nA
nA 1=2 . Der korrigierte Index ergibt sich zu RIc
ad
21 25 35 33 44 42 0;3528 : 1002
n
n2 1
n 1 nc 2
Es resultiert also nach Gl. (16.15) j
16
0;9 0;3528 0;8455 : 1 0;3528
Entsprechend ist fçr den Vergleich von B und B zu verfahren. Der durchschnittliche j-Wert aus beiden Vergleichen beschreibt das Ergebnis der Doppelkreuzvalidierung. Einen Signifikanztest und weitere Einzelheiten zum j-Maû findet man z. B. bei Bortz et al. (2000, Kap. 9.2) bzw. Bortz u. Lienert (2003, Kap. 6.11).
Rand-Index. Stimmt die Anzahl der Cluster in A und A (bzw. B) nicht çberein, empfehlen Mil-
nc =
a b c d
nc
16:19
mit
und Pe
16:18
PP i
j
2
n
2
n fi:2
k P i1
fi:2
n 1
k P j1
f:j2
1
f:j2 =n
1
:
Die Korrekturgræûe nc beseitigt einen positiven Bias, der in einem Korrekturvorschlag von Morey u. Agresti (1984) enthalten ist; sie sorgt zudem fçr einen Erwartungswert von 0 bei Zufallsçbereinstimmung. BEISPIEL Zehn Objekte wurden in A (2 Cluster) und A (3 Cluster) wie in Tabelle 16.11 klassifiziert. Die Objekte 1 und 2 befinden sich in A im selben und in A in verschiedenen Clustern, d. h., dieses Objektpaar zåhlt zu c. Das Objektpaar 1 und 3 gehært zur Håufigkeit a, das Objektpaar 4 und 10
a16.4
583
Evaluation clusteranalytischer Læsungen
Tabelle 16.10. Håufigkeiten von Objektpaaren fçr den Rand-Index Paarlinge im selben Cluster Paarlinge im selben Cluster a Paarlinge in verschiedenen Clustern c
A
Tabelle 16.11. Datenbeispiel fçr den korrigierten Rand-Index Objekt-Nr.
Cluster-Nr. in A
Cluster-Nr. in A
1 2 3 4 5 6 7 8 9 10
1 1 1 2 1 2 2 1 2 1
2 3 2 1 2 1 1 3 2 1
A
Paarlinge in verschiedenen Clustern b d
und RIc
7 18
23;13=
45
23;13
0;0855 : Obwohl ein Signifikanztest fçr RIc u.W. noch nicht entwickelt wurde, ist davon auszugehen, dass die hier gefundene Ûbereinstimmung der Clusterlæsungen im Zufallsbereich liegt. Nach Milligan u. Cooper (1986) sprechen RIc -Werte çber 0,10 fçr çberzufållige Ûbereinstimmungen. Nach dem gleichen Verfahren wåre die Ûbereinstimmung zwischen B und B zu prçfen.
Weitere Prçfmæglichkeiten gehært zu b und das Objektpaar 3 und 4 zu d. Auf diese Weise erhålt man a 7 b 6 c 14 d 18 : Zur Errechnung von fi: und f:j verwenden wir die folgende Kontingenztafel: Cluster-Nr. in A Cluster-Nr. in A
1 2 3
1 1 3 2 6
2 3 1 0 4
4 4 2 n=10
(Beispiel: Ein Objekt ± das 10. Objekt ± befindet sich sowohl in A als auch A im Cluster 1.) Damit ergibt sich 11
62 42 11
42 42 22 29 2
62 42 62 42 42 22 =10 29 1010 572 396 374;4 18 23;13
nc
10 101
Um diejenigen Variablen zu identifizieren, die maûgeblich am Zustandekommen der Clusterlæsung beteiligt sind, kann çber die Clustergruppen eine Diskriminanzanalyse gerechnet werden (vgl. Kap. 18). Die diskriminanzanalytische Zuordnungsrate der Objekte zu den Clustern (vgl. S. 617 ff.) ist ein weiterer Indikator fçr die Gçte der Clusterlæsung. Zudem ist es gelegentlich sinnvoll oder erforderlich, die Cluster an externen Variablen zu validieren, die nicht in die Clusteranalyse einbezogen wurden. Auch hier wåre mit der Diskriminanzanalyse (bzw. ± bei nur einem externen Merkmal ± mit der einfaktoriellen Varianzanalyse) zu prçfen, wie gut oder bzgl. welcher externen Variablen sich die Cluster unterscheiden (weitere Einzelheiten hierzu findet man bei Breckenridge, 1989). Die Art der Clusterbildung ist manchmal von einem einzigen Objekt abhångig. Wie man feststellen kann, welchen Einfluss die einzelnen untersuchten Objekte auf die Clusterbildung ausçben, wird bei Cheng u. Milligan (1995) fçr hierarchische und bei Cheng u. Milligan (1996) fçr nichthierarchische Clusteranalysen (k-means-Methode) beschrieben.
16
584
Kapitel 16 ´ Clusteranalyse
ÛBUNGSAUFGABEN 1. Wann sollte die Øhnlichkeit von Objekten, die durch nominalskalierte Merkmale beschrieben sind, mit einem S-Koeffizienten und wann mit einem SMC-Koeffizienten erfasst werden? 2. Wie wirken sich korrelierte Merkmale auf die Clusterbildung aus? 3. Was versteht man unter einem hierarchisch-agglomerativen Algorithmus?
16
4. Welche Nachteile hat das Single-linkage-Verfahren? 5. Anhand welcher Kriterien wird bei nichthierarchischen Verfahren die Clusterbildung optimiert? 6. Beschreiben Sie die Vorgehensweise der Ward-Methode! 7. Beschreiben Sie die Vorgehensweise der k-means-Methode! 8. Welche Mæglichkeiten zur Evaluation von Clusterlæsungen sind Ihnen bekannt?
585
Kapitel 17 Multivariate Mittelwertvergleiche
ÛBERSICHT Multivariate und univariate Analysen im Vergleich ± Vergleich einer Stichprobe mit einer Population (Hotellings T21 -Test) ± Vergleich von zwei abhångigen Stichproben (Hotellings T22 -Test) ± Vergleich von zwei unabhångigen Stichproben (Hotellings T23 -Test) ± einfaktorielle Varianzanalyse mit Messwiederholungen (Hotellings T24 -Test) ± einfaktorielle multivariate Varianzanalyse ± Wilks Lambda-Statistik (K) ± Pillais Spurkriterium ± Voraussetzungen ± Einzelvergleiche ± weitere multivariate Teststatistiken ± mehrfaktorielle multivariate Varianzanalyse ± Verallgemeinerungen
In Kap. 5 wurden Verfahren behandelt, die Unterschiedshypothesen fçr zwei abhångige oder unabhångige Stichproben çberprçfen
t-Test). Die Verallgemeinerung dieses Ansatzes auf den Vergleich mehrerer Stichproben fçhrte zur Varianzanalyse, mit der in vielfåltiger Weise Mittelwertunterschiede zwischen Stichproben, die sich in Bezug auf die Stufen einer oder mehrerer unabhångiger Variablen unterscheiden, çberprçft werden kænnen. Charakteristisch fçr diese Verfahren ist der univariate Ansatz, d. h. die Analyse der Varianz von nur einer abhångigen Variablen. In diesem Kapitel geht es um Verfahren, die zwei oder mehrere Stichproben bzgl. mehrerer abhångiger Variablen vergleichen (multivariater Ansatz). Fragen wir beispielsweise nach der Wirkungsweise verschiedener Unterrichtsmethoden, so sollte diese sinnvollerweise nicht nur durch eine, sondern durch mehrere Messungen, wie z. B. das Lerntempo, den Lernerfolg, die Zufriedenheit der Schçler und des Lehrers mit dem Unterricht usw., erfasst werden. Sollen, wie in diesem Beispiel, Gruppenunterschiede gleichzeitig in Bezug auf mehrere abhångige Variablen untersucht werden, muss die statistische Analyse der Daten nach einem der in diesem Kapitel zu besprechenden Verfahren erfolgen.
Unterschiedshypothesen, die sich auf mehrere abhångige Variablen beziehen, sind mit einem multivariaten Mittelwertvergleich zu prçfen.
Zu dieser Forderung kænnte man kritisch anmerken, dass mehrere, auf die einzelnen abhångigen Variablen bezogene Tests zumindest genauso aussagekråftig seien wie ein multivariater Test. Warum das Gegenteil der Fall ist, wird unter 17.1 begrçndet. Ausfçhrlich werden danach die multivariaten Erweiterungen des Vergleichs einer Stichprobe mit einer Population (17.2), des t-Tests fçr abhångige und unabhångige Stichproben (17.3), der einfaktoriellen Varianzanalyse mit Messwiederholungen (17.4) und ohne Messwiederholungen (17.5) sowie der mehrfaktoriellen Varianzanalyse (17.6) behandelt. Ein weiteres wichtiges Verfahren fçr multivariate Mittelwertvergleiche ± die Diskriminanzanalyse ± ist Gegenstand von Kap. 18.
" 17.1 Mehrfache univariate Analysen oder eine multivariate Analyse? Es ist bekannt, dass fçr die Bestimmung des Zusammenhangs zwischen mehreren Prådiktorvariablen und einer Kriteriumsvariablen statt mehrerer bivariater Einzelkorrelationen die in Kap. 13 beschriebene multiple Korrelation zu berechnen ist. Dieser fçr Zusammenhangsanalysen inzwischen selbstverståndliche multivariate Ansatz scheint sich in Bezug auf die Unterschiedsanalyse von Stichproben, die durch mehrere abhångige Variablen beschrieben sind, bislang weniger durchgesetzt zu haben. Dies geht zumindest aus einer Arbeit von Huberty u. Morris (1989) hervor, die anhand von 222 einschlågigen Publikationen in psychologischen Zeitschriften belegt, dass die Ten-
17
586
Kapitel 17 ´ Multivariate Mittelwertvergleiche
denz zur univariaten Analyse (t-Test oder univariate Varianzanalysen) bei Hypothesen, die eigentlich eine multivariate Ûberprçfung erfordern (Hotellings T2 , multivariate Varianzanalyse oder Diskriminanzanalyse, s. u.) eindeutig çberwiegt. Deshalb soll vor der Behandlung der multivariaten Mittelwertvergleiche geklårt werden, wann univariat getestet werden darf und wann multivariat getestet werden muss. Huberty u. Morris (1989; vgl. auch Huberty, 1994 a) betonen ausdrçcklich, dass sich mit dem univariaten und dem multivariaten Ansatz verschiedene statistische Hypothesen verbinden. Der univariate Ansatz, also die Ûberprçfung von Unterschieden fçr jede einzelne abhångige Variable, ist nur unter den folgenden Randbedingungen zu rechtfertigen: · Die abhångigen Variablen sind zumindest theoretisch als wechselseitig unabhångig vorstellbar. · Die Untersuchung dient nicht der Ûberprçfung von Hypothesen, sondern der Erkundung der wechselseitigen Beziehungen der abhångigen Variablen untereinander und ihrer Bedeutung fçr Gruppenunterschiede. · Man beabsichtigt, die Ergebnisse der Untersuchung mit bereits durchgefçhrten univariaten Analysen zu vergleichen. · Man ist an Parallelstichproben interessiert und mæchte die Øquivalenz der untersuchten Stichproben bezçglich mæglichst vieler Variablen nachweisen.
17
Wann immer die Frage Vorrang hat, ob sich die Stichproben insgesamt, also in Bezug auf alle berçcksichtigten abhångigen Variablen unterscheiden, ist ein multivariater Mittelwertvergleich durchzufçhren. Typischerweise gilt dies fçr Untersuchungen, in denen ein komplexes Merkmal (Erziehungsstil, berufliche Zufriedenheit, politische Einstellungen, kognitive Fåhigkeiten etc.) durch mehrere, in der Regel korrelierte Indikatoren operationalisiert wird. Eine multivariate Analyse bzw. Diskriminanzanalyse (Kap. 18) ist immer erforderlich, wenn · eine Teilmenge von Variablen identifiziert werden soll, die am meisten zur Unterscheidung der Stichproben beitragen, · die relative Bedeutung der Variablen fçr die Unterscheidung der Stichproben ermittelt werden soll und
· ein den am besten trennenden Variablen gemeinsam zu Grunde liegendes Konstrukt zu bestimmen ist. Man beachte, dass keine dieser Informationen aus einzelnen univariaten Analysen ableitbar ist. Wie bereits im Zusammenhang mit der multiplen Korrelation ausgefçhrt, kann die Bedeutung einer Variablen immer nur im Kontext der çbrigen berçcksichtigten Variablen interpretiert werden, d. h., das Hinzufçgen oder die Entnahme einzelner Variablen kann die Bedeutung einer speziell interessierenden Variablen deutlich veråndern. Dies wird spåtestens nachvollziehbar, wenn wir im Anschluss an die multivariaten Mittelwertvergleiche im Kap. 18 die Diskriminanzanalyse behandeln. Eine weitere Problematik, die mit der mehrfachen Durchfçhrung univariater Analysen verbunden ist, betrifft die Kumulation von a- und b-Fehlern, auf die bereits auf S. 129 f. bzw. S. 440 hingewiesen wurde.
17.2 Vergleich einer Stichprobe mit einer Population Ziehen wir aus einer p-variat normalverteilten Grundgesamtheit (theoretisch unendlich) viele Stichproben des Umfangs n, erhalten wir eine Verteilung der Mittelwerte der p Variablen, die ihrerseits p-variat normalverteilt ist. In vælliger Analogie zu univariaten Prçfverfahren bestimmen wir bei multivariaten Mittelwertvergleichen die Wahrscheinlichkeit, mit der die in einer Stichprobe angetroffenen Mittelwerte fçr p Variablen (abgekçrzt: der Mittelwertsvektor x) zu einer Population gehært, in der die Variablen die Mittelwerte l1 ; l2 . . . lp (abgekçrzt: den Mittelwertsvektor l0 ) aufweisen.
Hotellings T21-Test Kennzeichnen wir den Vektor der Mittelwerte in der Population, der die Stichprobe entnommen wurde, mit l1 , lautet die zu prçfende H0 : l0 l1 . Ausgehend von dieser H0 fragen wir also nach der Wahrscheinlichkeit, mit der ein empirisch ermittelter Vektor x (einschlieûlich aller extremer von l0 abweichenden Vektoren x) auftritt, wenn
a17.2
die H0 gilt. Ist diese Wahrscheinlichkeit kleiner als ein zuvor festgelegtes a-Niveau, wird die H0 verworfen, d. h., x weicht signifikant von l0 ab. Dieser Test (Hotellings T21 -Test) ist als zweiseitiger Test konzipiert, d. h., er prçft die ungerichtete H1: l0 6 l1 . Die Frage, ob eine Stichprobe zu einer bestimmten Grundgesamtheit gehært, çberprçfen wir im univariaten Fall nach Gl. (5.2): t
x
l0
^x r
x l0 p : ^= n r
Ist dieser t-Wert græûer als der fçr n 1 Freiheitsgrade auf einem bestimmten a-Niveau kritische t-Wert, nehmen wir an, dass die Stichprobe mit dem Mittelwert x nicht zur Population mit dem Mittelwert l0 gehært. Fçr das Quadrat des t-Wertes erhalten wir: t2
x
l 0 2 n
x ^2 =n r
l0
^ r2
1
x
l0 :
17:1
Wird eine Stichprobe nicht nur durch eine, sondern durch p Variablen beschrieben, çberprçfen wir die multivariate H0: l0 l1 , indem wir in Gl. (17.1) fçr die Abweichung x l0 den Abwei^2 die Varianz-Kovachungsvektor x l0 und fçr r rianz-Matrix der Variablen
R einsetzen. Die multivariate Version von (17.1) lautet: Q n
x
l 0 0 R
1
x
l0 :
17:2
Dieser Q-Wert ist mit p Freiheitsgraden asymptotisch v2 -verteilt (vgl. z. B. Tatsuoka, 1971, 4.1). In Gl. (17.2) wird vorausgesetzt, dass die Varianz-Kovarianz-Matrix
R in der Population bekannt sei, was auf die meisten Fragestellungen nicht zutrifft. Im Normalfall sind wir darauf angewiesen, R auf Grund der Stichprobendaten zu schåtzen. Bei nur Peiner abhångigen Variablen stellt ^2
xm x2 =
n 1 eine erwartungstreue r m
Schåtzung der Populationsvarianz r2 dar. In multiP variaten Problemen ersetzen wir
xm x2 durch m
17
587
Vergleich einer Stichprobe mit einer Population
eine Matrix D, die in der Diagonale die Summen der quadrierten Abweichungen der Messwerte vom jeweiligen Variablenmittelwert (kurz: Quadratsummen) enthålt und auûerhalb der Diagonale die Summen korrespondierender Abweichungsprodukte (kurz: Summen der Kreuzprodukte; zur
Berechnung einer D-Matrix vgl. S. 531). In Analogie zur univariaten Analyse stellt fçr multivariate Probleme D=
n 1 eine erwartungstreue Schåtzung von R dar. Ersetzen wir R in Gl. (17.2) durch die erwartungstreue Schåtzung D=
n 1 [bzw. R 1 durch
n 1 D 1 ], resultiert: T21 n
n
1
x
l0 0 D 1
x
l0
17:3
T21
wurde erstmalig von Hotelling Die Prçfgræûe (1931) untersucht und heiût deshalb kurz Hotellings T21 . (Da wir im Folgenden noch andere Versionen des Hotellings T2 -Tests kennen lernen werden, indizieren wir den hier besprochenen T2 -Wert mit einer 1.) Ein T21 -Wert kann unter der Voraussetzung, dass die Variablen in der Population multivariat normalverteilt sind, nach folgender Beziehung anhand der F-Verteilung auf Signifikanz geprçft werden: n p F T2 :
17:4
n 1 p 1 (Eine ausfçhrlichere Herleitung dieser Prçfstatistik findet man z. B. bei Anderson, 1958; Morrison, 1990; Press, 1972, Kap. 3 u. 6.1; Tatsuoka, 1971, Kap. 4.) Ermitteln wir nach Gl. (17.4) einen F-Wert, der græûer ist als der auf einem bestimmten a-Niveau fçr p Zåhlerfreiheitsgrade und n p Nennerfreiheitsgrade kritische F-Wert, unterscheiden sich die Stichprobenmittelwerte insgesamt signifikant von den Populationsmittelwerten. Ist im univariaten Fall p 1, reduziert sich Gl. (17.4) zu der bereits bekannten Gl. (2.60): t2
n 1 F
1;n 1 . BEISPIEL In einer Untersuchung wird geprçft, ob durch die Einnahme eines bestimmten Medikaments spezifische kognitive Funktionen verbessert werden kænnen. Bei n 100 Vpn wird nach Verabreichung des Medikaments mit geeigneten Tests das mechanische Verståndnis
x1 und die Abstraktionsfåhigkeit
x2 çberprçft. Auf Grund von Voruntersuchungen sei bekannt, dass in der Grundgesamtheit ohne medikamentæse Beeinflussung im Durchschnitt Testleistungen von l1 40 und l2 50 erzielt werden. Gefragt wird, ob die durchschnittlichen Leistungen nach der Einnahme des Medikaments signifikant von diesen Populationswerten abweichen
a 0;01. Ausgehend von den 100 Messwerten pro Test wurden die folgenden Durchschnittsleistungen errechnet: x1 43; x2 52 : Ferner ermitteln wir die folgende D-Matrix. (Auf die ausfçhrliche Berechnung, die die vollståndige Wiedergabe aller
588
Kapitel 17 ´ Multivariate Mittelwertvergleiche
individuellen Daten erforderlich macht, wollen wir verzichten. Ein Zahlenbeispiel fçr eine D-Matrix findet man auf S. 532.) 350 100 D : 100 420 Setzen wir diese Werte in Gl. (17.3) ein, ergibt sich die folgende Bestimmungsgleichung fçr T21 : T21 100
100 1
43 40; 52 50 350 100 1 43 40 : 52 50 100 420 Wir berechnen zunåchst die Inverse D 1 nach Gl. (C 21): 420 100 1 D 1 350 420 100 100 100 350 3066 730 10 6 730 2555 (Kontrolle: D 1 D I). Fçr T21 erhalten wir: 3066 730 3 T21 9900
3; 2 10 730 2555 2 3 9900
7738; 2920 10 6 2 9900 29 054 10 287;63 :
6
6
100 2 287;63 142;36 :
100 1 2
Dieser F-Wert ist bei 2 Zåhlerfreiheitsgraden und 98 Nennerfreiheitsgraden hoch signifikant, d. h., die Mittelwerte x1 und x2 weichen insgesamt statistisch bedeutsam von l1 und l2 ab. Das Medikament trågt in signifikanter Weise zur Verbesserung des mechanischen Verståndnisses und der Abstraktionsfåhigkeit bei.
17
Wie im univariaten Fall unterscheiden wir auch bei der gleichzeitigen Berçcksichtigung mehrerer Variablen zwischen Mittelwertvergleichen fçr abhångige und unabhångige Stichproben. Der multivariate T2 -Test fçr 2 abhångige Stichproben wird vor allem dann eingesetzt, wenn an einer Stichprobe zu 2 verschiedenen Zeitpunkten (z. B. vor und nach einer Behandlung) p Variablen gemessen werden. Das gleiche Verfahren ist ± in Analogie zur univariaten Fragestellung ± jedoch auch indiziert, wenn 2 parallelisierte Stichproben (matched samples) miteinander bezçglich mehrerer Variablen verglichen werden sollen.
Abhångige Stichproben: Hotellings T22-Test
Nach Gl. (17.4) resultiert der folgende F-Wert: F
17.3 Vergleich zweier Stichproben
Hinweis: Im Anschluss an einen signifikanten T21 -Wert taucht gelegentlich die Frage auf, in welchem Ausmaû die einzelnen abhångigen Variablen am Zustandekommen der Signifikanz beteiligt sind. Ûber eine Mæglichkeit, diesbezçgliche Gewichtungskoeffizienten der Variablen zu bestimmen, berichten Lutz (1974) und Hollingsworth (1981). Zu beachten ist, dass derartige Gewichtungskoeffizienten ± åhnlich wie die Beta-Gewichte in der multiplen Korrelationsrechnung ± nicht nur von den Einzeldifferenzen xi li abhången, sondern auch von den Korrelationen zwischen den abhångigen Variablen. Wir werden dieses Thema unter 18.1 (Diskriminanzanalyse) aufgreifen.
Wird eine Stichprobe zu 2 Zeitpunkten bezçglich p Variablen untersucht, erhalten wir fçr jede Vp m
m 1; . . . ; n einen Messwertvektor xm1 mit den Messungen xim 1 zum Zeitpunkt t1 und einen zweiten Messwertvektor xm2, der die Messungen xim 2 zum Zeitpunkt t2 enthålt. Wir bestimmen fçr jede Vp m einen Differenzvektor dm, der die Differenzen der Messungen zwischen den beiden Zeitpunkten bezçglich aller Variablen enthålt: 0
dm
1
0
xm1
1
x1m1 d1m Bd C Bx C B 2m C B 2m1 C B . CB . C B . C B . C @ . A @ . A dpm
xpm1
0
xm2
1
17:5
x1m2 Bx C B 2m2 C B . C: B . C @ . A xpm2
Hierin ist z. B. xi21 der Messwert der 2. Person auf der i-ten Variablen zum 1. Zeitpunkt und d2m die Differenz zwischen der 1. und 2. Messung der Vp m auf der Variablen 2. Aus den n Differenzvektoren ermitteln wir den durchschnittlichen Differenzvektor d: X d dm =n :
17:6 m
Ein Element di des Vektors d entspricht somit dem xd -Wert in Gl. (5.19) bzw. der durchschnittlichen Differenz auf der Variablen i. Die H0: l1 l2 çberprçfen wir mit folgendem T22 -Wert: T22 n
n
0
1 d Dd 1 d :
17:7
a17.3
589
Vergleich zweier Stichproben
Dd stellt in dieser Gleichung die Matrix der Quadratsummen und Kreuzproduktsummen fçr die Differenzvektoren dm dar. Der resultierende T22 -Wert wird ebenfalls nach Gl. (17.4) in einen F-Wert transformiert, der mit p Zåhlerfreiheitsgraden und n p Nennerfreiheitsgraden auf Signifikanz çberprçft wird.
BEISPIEL 8 Personen werden aufgefordert, 1. ihre soziale Øngstlichkeit und 2. ihr Dominanzstreben in Gruppensituationen auf einer 7-Punkte-Skala (7 = extrem starke Merkmalsausprågung) einzustufen. Im Anschluss daran fçhren diese 8 Personen ein gruppendynamisches Training durch und werden dann erneut gebeten, auf den beiden Skalen ihr Sozialverhalten einzustufen. Tabelle 17.1 zeigt die Daten und die Durchfçhrung des T22 -Tests. Unter der Annahme, dass die Merkmalsdifferenzen in der Population bivariat normalverteilt sind, ist der ermittelte F-Wert fçr 2 Zåhlerfreiheitsgrade und 6 Nennerfreiheitsgrade auf dem a 1 %-Niveau signifikant, d. h., die gefun-
denen Verånderungen in den Selbsteinschåtzungen des Sozialverhaltens sind statistisch bedeutsam.
Unabhångige Stichproben: Hotellings T23-Test Werden 2 voneinander unabhångige Stichproben untersucht, çberprçfen wir die Nullhypothese der Identitåt der Mittelwertparameter im univariaten Fall (vgl. 5.1.2) nach der Beziehung: x1 x2 s t ; 1 1 ^ r n1 n2 wobei ^ r
vP P u u
xm1 x1 2
xm2 x2 2 tm m n1 n2
2
Quadrieren wir diesen t-Wert, resultiert
Tabelle 17.1. Beispiel fçr einen Hotellings T22 -Test fçr 2 abhångige Stichproben Vp-Nr.
1 2 3 4 5 6 7 8
vor dem Training
nach dem Training
soz. Angst
Dominanz
soz. Angst
Dominanz
5 4 6 6 7 5 4 3
3 3 2 3 2 4 4 3
3 3 2 4 5 3 2 2
3 4 3 4 4 3 4 5
2 1 4 2 ; d2 ; d3 ; d4 0 1 1 1 2 2 2 1 d5 ; d6 ; d7 ; d8 2 1 0 2 21422221 16 2 d :8 0
1
1
1
2 1 0
2 6 0;75 2 6;00 1;00 16 6 z.B. dd
11
22 12 22 12 Dd 8 1;00 7;50 7;50 1;00 0;17 0;02 1 Dd 1 6;00 7;50 1;00 1;00 6;00 0;02 0;14 0;17 0;02 2 2 2 T2 8 7
2; 0;75 56
0;36; 0;15 56 0;83 46;48 0;02 0;14 0;75 0;75 8 2 46;48 19;92 F
8 1 2 d1
:
17
590
Kapitel 17 ´ Multivariate Mittelwertvergleiche
x1 x2 2 1 1 2 ^ r n1 n2 n1 n2 2 ^
x1 x2 r n1 n2
Zur Kalkulation von Teststårke und optimalen Stichproben beim T23 -Test findet man Informationen bei Stevens (2002, Kap. 4.12).
t2
1
x1
x2 :
In der multivariaten Mittelwertanalyse ersetzen wir die Differenz der Mittelwerte
x1 x2 durch ^2 die Differenz der Mittelwertvektoren
x1 x2 . r stellt im univariaten Fall eine Schåtzung der Populationsvarianz auf Grund beider Stichproben dar. Im multivariaten Fall benætigen wir die in der Population gçltige D-Matrix der p Variablen, die auf Grund der Messwerte der p Variablen, die in beiden Stichproben erhoben wurden, geschåtzt wird. Fçr diese Schåtzung fassen wir die D-Matrizen der Messwerte, die wir fçr die beiden Stichproben erhalten, zu einer W-Matrix zusammen: W D1 D2 :
17:8
Die H0 : l1 l2 wird durch folgenden T23 -Test çberprçft: T23
n1 n2
n1 n2 2 n1 n2
x1 x2 0 W 1
x1
x2 :
17:9
T23 wird ebenfalls in einen F-Wert transformiert: F
n1 n2
n1 n2
p 1 2 T : 2 p 3
17:10
Dieser F-Wert hat p Zåhlerfreiheitsgrade und n1 n2 p 1 Nennerfreiheitsgrade. BEISPIEL
17
Eine Stichprobe von n 10 Schçlern wird nach einer Unterrichtsmethode A und eine andere Stichprobe von n 8 Schçlern nach einer Methode B unterrichtet. Abhångige Variablen sind 1. die Leistungen der Schçler und 2. die Zufriedenheit der Schçler mit dem Unterricht. Es soll çberprçft werden, ob sich die beiden Stichproben bezçglich der beiden abhångigen Variablen unterscheiden. Tabelle 17.2 zeigt die Daten und den Rechengang. Der ermittelte F-Wert ist bei 2 Zåhlerfreiheitsgraden und 15 Nennerfreiheitsgraden nicht signifikant, d. h., Lernleistungen und Zufriedenheit unterscheiden sich nicht bedeutsam zwischen den beiden nach verschiedenen Methoden unterrichteten Schçlergruppen.
Voraussetzung. Die Zusammenfassung der Matrizen D1 und D2 zu einer gemeinsamen Matrix W setzt voraus, dass die D-Matrizen (bzw. die entsprechenden Varianz-Kovarianz-Matrizen) homogen sind. Wie Hakstian et al. (1979) jedoch zeigen konnten, erweist sich der T23-Test bei gleich groûen Stichproben als relativ robust gegençber Verletzungen dieser Voraussetzung. Bei ungleich groûen Stichproben kænnen heterogene Varianz-Kovarianz-Matrizen den T23 -Test jedoch verfålschen. Fçr jD1 j > jD2 j und n1 > n2 (bzw. jD1 j < jD2 j und n1 < n2 fçhrt der T23-Test zu konservativen und fçr jD1 j > jD2 j und n1 < n2 (bzw. jD1 j < jD2 j und n1 > n2 ) zu progressiven Entscheidungen (ausfçhrlicher hierzu vgl. Hakstian et al., 1979, bzw. Algina u. Oshima, 1990). Bei deutlichen Voraussetzungsverletzungen werden die Verfahren von Yao (1965) und Zwick (1985 b) empfohlen.
17.4 Einfaktorielle Varianzanalyse mit Messwiederholungen Im Folgenden wollen wir einen varianzanalytischen Ansatz nachtragen, auf den bereits in Kap. 9 (S. 357) unter der Bezeichnung Hotellings T2 -Test hingewiesen wurde. Eine univariate, einfaktorielle Messwiederholungsanalyse kann auch multivariat çber den folgenden T24 -Test durchgefçhrt werden: Wir bestimmen einen Vektor y1, der die Differenzen zwischen der 1. und 2. Messung
x1m x2m enthålt (der Vektor besteht somit aus n Differenzen), einen Vektor y2 mit den Differenzen x2m x3m , einen Vektor y3 mit x3m x4m usw. bis yk 1 , der die Differenzen zwischen der vorletzten und letzten Messung enthålt. Aus diesen k 1 Vektoren wird ein Vektor y gebildet, dessen Elemente die arithmetischen Mittelwerte der Elemente der einzelnen y-Vektoren wiedergeben. (Das 1. Element in y kennzeichnet die çber alle Vpn gemittelte Verånderung von der 1. zur 2. Messung.) Ferner ermitteln wir die Varianz-Kovarianz-Matrix der d y Dy =
n 1 zur Schåtzung der y-Vektoren COV in der Population gçltigen Varianz-Kovarianz-Matrix. Hieraus bestimmen wir folgenden T24 -Wert:
a17.4
591
Einfaktorielle Varianzanalyse mit Messwiederholungen
Tabelle 17.2. Beispiel fçr Hotellings T23 -Test fçr 2 unabhångige Stichproben Methode A x1
Methode B x2
11 9 10 10 11 14 10 12 13 8 P m
P m
x1
5 3 4 4 3 4 5 7 3 6
P m
P
xim
A :
108
44
x2im
A :
1196
210
X m
m
10 8 9 9 10 13 8 12
4 4 4 7 5 3 3 6
xim
B :
79
36
x2im
B :
803
176
X
x1m
A x2m
A 472
m
x1
A 10;800 x2
A 4;400 29;60 DA 3;20
Z.B. dA
11 1196 dB
12 356
xA
xB
x2
B 4;500 22;875 DB 0;500
52;475
1 52;475 30;400 0;925
2;700
2;700
30;400 30;400 2 2;700
2;700
d y1 y: T24 n y 0 COV
2;700 52;475
17:11
Den T24 -Wert transformieren wir in einen F-Wert: F
n
0;500 14;000
191;43 17;00
17;00 330;46
0;100 191;43 17;00 0;925 10 8 16
0;925; 0;100 10 T23 10 8 17;00 330;46 0;100 0;925 1280
175;37; 17;32 10 4 18 0;100 71;11 163;95 10 4 1;17 10 8 2 1 F 1;17 0;55
10 8 2 2
n
x1
B 9;875
79 36=8 0;50
1
x1m
B x2m
B 356
1082 =10 29;60
W DA DB W
3;20 16;40
x2
k1 T2 ; 1
k 1 4
17:12
10
4
4
wobei n Anzahl der Vpn, k Anzahl der Messungen. Dieser F-Wert hat k 1 Zåhlerfreiheitsgrade und n k 1 Nennerfreiheitsgrade.
17
592
Kapitel 17 ´ Multivariate Mittelwertvergleiche
Datenrçckgriff. Tabelle 17.3 erlåutert den Rechengang des T24 -Tests anhand der Daten in Tabelle 9.3. Der hier ermittelte F-Wert stimmt bis auf unwesentliche Abweichungen mit dem in Tabelle 9.4 genannten Wert çberein, was immer der Fall ist, wenn ± wie in unserem Beispiel ± die Varianz-Kovarianz-Matrix homogen ist. Hinweis: Die Bestimmung der Differenzvektoren yi muss nicht notwendigerweise zwischen zwei jeweils aufeinander folgenden Messwertreihen erfolgen. Wir erhalten das gleiche Ergebnis, wenn beispielsweise die ersten k 1 Messungen von der k-ten Messung abgezogen werden, oder wenn von der ersten (oder einer anderen) die çbrigen Messungen abgezogen werden (Nåheres hierzu s. Morrison, 1990). In Kap. 9.3 wurden die Voraussetzungen der univariaten Varianzanalyse mit Messwiederholungen behandelt. Die wichtigste Voraussetzung besagt, dass die Varianz der Differenzen der Messungen von jeweils zwei Treatmentstufen homogen sein muss (Zirkularitåtsannahme). Diese Voraussetzung ist deshalb besonders wichtig, weil eine Verletzung diese Voraussetzung zu progressiven
Entscheidungen fçhrt. Heterogenitåt kann ± wie berichtet wurde ± durch eine Korrektur der Freiheitsgrade (¹e-Korrekturª) kompensiert werden. Wird ein Versuchsplan mit Messwiederholungen nicht varianzanalytisch, sondern multivariat çber den T24 -Test ausgewertet, erçbrigt sich eine Ûberprçfung der Zirkularitåtsannahme, weil der T24 -Test durch Verletzung dieser Voraussetzung nicht invalidiert wird (Stevens, 2002, S. 551). Allerdings sollte der T24-Test wegen zu geringer Teststårke vermieden werden, wenn n < k 10 ist.
17.5 Einfaktorielle, multivariate Varianzanalyse In der univariaten einfaktoriellen Varianzanalyse (ANOVA; vgl. Kap. 7) wird die totale Quadratsumme
QStot in eine Fehlerquadratsumme
QSFehler und eine Quadratsumme, die auf die Wirkungen der p Treatmentstufen zurçckgeht
QStreat , zerlegt. Es gilt die Beziehung QStot QStreat QSFehler , wobei wir unter Verwendung des Kenn-
Tabelle 17.3. Beispiel fçr Hotellings T24 -Test (einfaktorielle Varianzanalyse mit Messwiederholungen) Vp-Nr.
y1 x1
1 2 3 4 5 6 7 8 9 10
0 ±1 ±1 ±2 0 ±2 ±5 ±1 ±1 ±2
17
x3
20
2;056 1 1 2;889 1 2;889 1 0;585 0;202 d 1 COV y 2 1 2;056 0;202 0;416 2;056 2; 889
1 1;5 1;5 0;585 0;202 10 1;768 17;68 10
0;473; 0;529 T24 10
1;5; 2;0 2;0 2;0 0;202 0;416
y
F
1;5 2;0
y2 x2 1 ±2 4 2 2 2 4 3 2 2
±15
x2
;
dy COV
8 17;68 7;86 18
a17.5
ziffersystems die einzelnen Quadratsummen in folgender Weise bestimmen (vgl. S. 256 f.): QStreat
3
1;
QStot
2
1 :
QSFehler
2
3;
In der multivariaten Varianzanalyse (MANOVA) weisen wir den k Stufen eines Faktors jeweils eine Zufallsstichprobe zu, die allerdings nicht nur bezçglich einer abhångigen Variablen, sondern bezçglich p abhångiger Variablen beschrieben wird. Fçr jede dieser p abhångigen Variablen kænnen wir nach den oben genannten Regeln die Quadratsummen QStreat ; QSFehler und QStot bestimmen, die die Basis fçr p univariate einfaktorielle Varianzanalysen darstellen. Der multivariate Ansatz berçcksichtigt zusåtzlich die p
p 1=2 Kovarianzen zwischen den p Variablen. Statt der 3 Quadratsummen im univariaten Fall berechnen wir deshalb im multivariaten Fall 3 D-Matrizen, Dtreat ; DFehler und Dtot , deren Diagonale jeweils die Quadratsummen QStreat , QSFehler und QStot der p Variablen enthålt. Auûerhalb der Diagonale stehen die entsprechenden Summen der korrespondierenden Abweichungsprodukte (Summen der Kreuzprodukte). Im Einzelnen gehen wir folgendermaûen vor: Zur Bestimmung der Dtreat -Matrix errechnen wir zunåchst die QStreat -Werte fçr alle p Variablen: dtreat
i;i QStreat
i
3xi
k X
A2ij =nj j1
G2i =N :
17:13
j
und Aij die Summe der Messwerte auf der Variablen i unter der Stufe j; dtreat
i;i kennzeichnet somit das i-te Diagonalelement der Dtreat -Matrix, das der QStreat der i-ten Variablen entspricht. Ein Element auûerhalb der Diagonale dtreat
i;i0
i 6 i0 erhalten wir als die Summe korrespondierender Abweichungsprodukte:
k X
1xi xi0
Aij Ai0 j =nj Gi Gi0 =N :
univariaten Varianzanalyse. Fçr die Diagonalelemente, die den einzelnen QSFehler der p Variablen entsprechen, erhalten wir: dFehler
i;i QSFehler
i
2xi
3xi X XX x2ijm
A2ij =nj m
j
und fçr die Elemente auûerhalb der Diagonale: dFehler
i;i0
2xi xi0
3xi xi0 XX xijm xi0 jm j
m
X
Aij Ai0 j =nj :
j1
Die Elemente der DFehler-Matrix bestimmen wir ebenfalls in vælliger Analogie zur einfaktoriellen,
17:16
j
Zur Kontrolle ermitteln wir zusåtzlich die Matrix Dtot mit den Elementen: dtot
i;i QStot
i
2xi
1xi XX x2ijm G2i =N ; j
j
17:17
m
dtot
i;i0
2xi xi0
1xi xi0 XX xijm xi0 jm m
Gi Gi0 =N :
17:18
Der Additivitåt der Quadratsummen entspricht im multivariaten Fall die Additivitåt der D-Matrizen:
17:19
Aus Dtreat und DFehler errechnen wir nach folgender Gleichung eine Prçfgræûe K (groûes griechisches Lambda): K
jDFehler j jDFehler j : jDFehler Dtreat j jDtot j
17:20 a
Diese als Wilks K bezeichnete Prçfgræûe låsst sich auch nach folgender Beziehung berechnen (vgl. Wilks, 1932 oder Bock, 1975, S. 152): r Q K 1=
1 ki ;
17:20 b i1
1 wobei ki Eigenwerte der Matrix Dtreat DFehler r Q und Produktkette von 1=
1 ki fçr i1
17:14
17:15
j
Dtreat DFehler Dtot :
1xi
Hierbei sind i der Index der p abhångigen VariaP blen, j der Index der k Faktorstufen, N nj
dtreat
i;i0
3xi xi0
17
593
Einfaktorielle, multivariate Varianzanalyse
i 1; . . . ; r mit r Anzahl der Eigenwerte. Der K-Wert ist die Grundlage einiger weitgehend åquivalenter Tests der Nullhypothese, dass die Mittelwertvektoren xj der einzelnen Stichproben einheitlich aus einer multivariat-normalver-
594
Kapitel 17 ´ Multivariate Mittelwertvergleiche
teilten Grundgesamtheit stammen, deren Mittelwerte durch den Vektor l beschrieben sind. Wie Bartlett (1947) zeigt, ist der folgende Ausdruck approximativ v2 -verteilt: V c
ln K ;
17:21
wobei c NP 1 N nj ,
k p=2 und
j
Der Signifikanztest nach Gl. (17.21) fçhrt çber
k Anzahl der Stichproben, p Anzahl der abhångigen Variablen, ln Logarithmus zur Basis e.
c 15
V hat p
k 1 Freiheitsgrade. Die v -Approximation der Verteilung von V wird besser, je græûer N im Vergleich zu
p k ist. Bei kleineren Stichproben
dfFehler < 10 p dftreat empfiehlt Olson (1976, 1979), die von Pillai (1955) vorgeschlagene Teststatistik (PS; vgl. Tabelle 17.5) zu verwenden. Der folgende F-Test fçhrt bei kleineren Stichproben eher zu konservativen Entscheidungen:
17:22
wobei
3 3=2 11;0
V 11;0
ln 0;297 13;36 : Dieser Wert wåre gemåû Tabelle C fçr 3
3 1 6 Freiheitsgrade signifikant. Da jedoch die Stichprobenumfånge vergleichsweise klein sind, pråferieren wir Gl. (17.22) als Signifikanztest. Man errechnet 2;3005 0;0209 0;717 1 2;3005 1 0;0209 s min
3; 2 2
PS
b max
3; 2 3 dftreat 2 dfFehler 12 und damit
s min
p; dftreat b max
p; dftreat r X ki PS 1 ki i1 dftreat k
1
dfFehler N k ki Eigenwerte der Matrix 1 : Dtreat DFehler
17
1
zu 2
dfFehler p s PS ; F b
s PS
mittelt
p 3. Es soll çberprçft werden, ob sich die 3 sozialen Schichten bezçglich dieser linguistischen Variablen unterscheiden. Tabelle 17.4 zeigt die ermittelten Daten und den Rechengang. Den resultierenden K-Wert erhalten wir auch çber Gl. (17.20 b). Mit k1 2;3005 und k2 0;0209 als Eigen1 werte der Matrix Dtreat DFehler resultiert (zur Berechnung dieser Eigenwerte vgl. S. 614 f.): 1 1 0;297 : K 1 2;3005 1 0;0209
Dieser F-Wert hat s b Zåhlerfreiheitsgrade und s
dfFehler p s Nennerfreiheitsgrade. Eine weitere F-verteilte Prçfgræûe wurde von Rao (1952, zit. nach Bock, 1975, S. 135) vorgeschlagen. Auf diese Prçfgræûe gehen wir unter 19.3 ausfçhrlich ein. BEISPIEL Anhand der Aufsåtze von 6 Unterschichtkindern, 4 Mittelschichtkindern und 5 Oberschichtkindern (k 3 Stufen des Faktors A, N 15) wird ein Index fçr die Satzlången
x1 , ein Index fçr die Vielfalt der Wortwahl
x2 und ein Index fçr die Komplexitåt der Satzkonstruktionen
x3 er-
F
12 3 2 0;717 2;05 : 3
2 0;717
Dieser F-Wert hat 2 3 6 Zåhlerfreiheitsgrade und 2
12 3 2 22 Nennerfreiheitsgrade. Er ist gemåû Tabelle E nicht signifikant, was ± im Vergleich zum V-Wert nach Gl. (17.21) ± den konservativen Charakter des Tests nach Gl. (17.22) belegt. Die H0 wåre also in diesem Fall beizubehalten, d. h., Schçler der drei sozialen Schichten unterscheiden sich nicht hinsichtlich ihres durch drei linguistische Variablen operationalisierten Sprachverhaltens. Fçr eine differenziertere Interpretation dieses Ergebnisses kænnten univariate Varianzanalysen çber die drei abhångigen Variablen gerechnet werden. Man beachte jedoch, dass die univariaten Tests voneinander abhångig sind, wenn ± wie çblich ± die abhångigen Variablen miteinander korrelieren (vgl. z. B. Morrison, 1967, Kap. 5, oder Bock u. Haggert, 1968). Angemessen wåre fçr diesen Zweck eine Diskriminanzanalyse, die wir im Kap. 18 behandeln.
¹Optimaleª Stichprobenumfånge. Auf S. 126 ff. wurde der theoretische Hintergrund ¹optimalerª Stichprobenumfånge behandelt. Analoge Ûberlegungen gelten fçr die MANOVA, wobei der optimale Stichprobenumfang bei diesem Verfahren
a17.5
595
Einfaktorielle, multivariate Varianzanalyse
Tabelle 17.4. Beispiel fçr eine einfaktorielle multivariate Varianzanalyse Unterschicht
P P
Mittelschicht
x1
x2
x3
3 4 4 2 2 3
3 4 4 5 4 4
Oberschicht
x1
x2
4 3 6 5 5 6
3 2 4 5
4 5 3 5
x3
x1
4 5 6 6
4 4 3 4 6
x2
x3
5 6 6 7 5
7 4 6 6 6
xm :
18
24
29
14
17
21
21
29
29
x2m :
58
98
147
54
75
113
93
171
173
G1 18 14 21 53 G2 24 17 29 70 G3 29 21 29 79
1x1 532 =15 187;2667
2x1 32 42 42 62 205
3x1 182 =6 142 =4 212 =5 191;2000
1x2 702 =15 326;6667
2x2 32 42 72 52 344
3x2 242 =6 172 =4 292 =5 336;4500
1x3 792 =15 416;0667
2x3 42 32 62 62 62 433
3x3 292 =6 212 =4 292 =5 418;6167
1x1 x2 53 70=15 247;3333
2x1 x2 3 3 4 4 4 4 4 7 6 5 250
3x1 x2 18 24=6 14 17=4 21 29=5 253;3000
1x1 x3 53 79=15 279;1333
2x1 x3 3 4 4 3 4 6 4 6 6 6 284
3x1 x3 18 29=6 14 21=4 21 29=5 282;3000
1x2 x3 70 79=15 368; 6667
2x2 x3 3 4 4 3 4 6 7 6 5 6 373
3x2 x3 24 29=6 17 21=4 29 29=5 373;4500 0 1 3;9333 5;9667 3;1667 B C Dtreat @ 5;9667 9;7833 4;7833 A z.B. dtreat
1;3
3x1 x3
1x1 x3 3;1667 3;1667 4;7833 2;5500 0 1 13;8000 3;3000 1;7000 B C 7;5500 0;4500 A DFehler @ 3;3000 z.B. dFehler
2;2
2x2
3x2 7;5500 1;7000 0;4500 14;3833 0 1 17;7333 2;6667 4;8667 B C Dtot @ 2;6667 17;3333 4;3333 A z.B. dtot
2;3
2x2 x3
1x2 x3 4;3333 4;8667 4;3333 16;9333
17
596
Kapitel 17 ´ Multivariate Mittelwertvergleiche
Tabelle 17.4 (Fortsetzung) Kontrolle: 0
Dtreat
3;9333
B @ 5;9667 3;1667
5;9667 3;1667
1
0
DFehler 13;8000
C B 9;7833 4;7833 A @ 3;3000 4;7833 2;5500 1;7000
3;3000 7;5500 0;4500
1;7000
1
0
Dtot 17;7333
C B 0;4500 A @ 2;6667 14;3833 4;8667
2;6667 17;3333 4;3333
4;8667
1
C 4;3333 A 16;9333
Die Determinanten lauten nach Gl. (C 16): jDFehler j 13; 8000 7;5500 14;3833
3;3000
0;4500 1;7000 1;7000
3;3000
0;4500 1;7000 7;5500 1;7000
3;3000
3;3000 14;3833 13;8000
0;4500
0;4500 1498;5960 2;5245 2;5245 21;8195 156;6341 2;7945 1322;3969 jDtot j 17;7333 17;3333 16;9333 2;6667 4;3333 4;8667 4;8667 2;6667 4;3333 4;8667 17;3333 4;8667 2;6667 2;6667 16;9333 17;7333 4;3333 4;3333 5204;9003 56;2377 56;2377 410;5352 120;4176 332;9868 4453;4361 K
jDFehler j 1322;3969 0;2967 jDtot j 4453;4361
Tabelle 17.5. Optimale Stichprobenumfånge fçr die MANOVA
a 0;05; 1 b 0;8 Effektgræûe
Sehr groû Groû Mittel Klein
17
Anzahl der Stichproben 3
4
5
6
13±18 26±38 44±66 98±145
14±21 29±44 50±74 115±165
15±22 32±48 56±82 125±185
16±24 34±52 60±90 135±200
nicht nur vom a-Fehlerniveau, der Teststårke und der Effektgræûe abhångt, sondern auch von der Anzahl der untersuchten Stichproben und der Anzahl der abhångigen Variablen. In Analogie zu Gl. (5.17) ist die Effektgræûe wie folgt definiert (vgl. Stevens, 2002, S. 246): lij lij0 d
17:23 ri Die Effektgræûe basiert auf derjenigen abhångigen Variablen i, fçr die der d-Wert gemåû Gl. (17.23) am græûten ist. lij und lij' sind die Mittelwerteparameter zweier Treatmentstufen j und j' mit maximaler Unterschiedlichkeit.
Stevens (2002, Tabelle E) verwendet folgende Klassifikation der Effektgræûe d: · sehr groûer Effekt: d = 1,5, · groûer Effekt: d = 1,0, · mittlerer Effekt: d = 0,75, · kleiner Effekt: d = 0,5. Die optimalen Stichprobenumfånge fçr diese Effektgræûen sind Tabelle 17.5 zu entnehmen. Sie gelten fçr k = 3 bis 6 Stichproben (Treatmentstufen), a = 0,05, 1±b = 0,8 und p = 2±6 abhångige Variablen. Mit diesen Eingangsparametern und p = 2 abhångigen Variablen wåren zur Absicherung eines sehr groûen Effektes z. B. 3 Stichproben 13 Vpn erforderlich. Die kleinere der beiden Zahlen bezieht sich jeweils auf 2 abhångige Variablen und die græûere auf 6 abhångige Variablen. Stichprobengræûen fçr eine Variablenzahl zwischen 2 und 6 sind durch einfache lineare Interpolation zu ermitteln. Beispiel: Zur Absicherung eines groûen Effektes wåren fçr p = 4 abhångige Variablen und k = 5 Stichproben pro Treatmentstufe 40 Vpn erforderlich. Weitere Werte fçr a = 0,01, Teststårken im Bereich 0,7±0,9 und fçr maximal 15 Variablen berichtet Lauter (1978, zit. nach Stevens, 2002, Tabelle E).
a17.5
Einfaktorielle, multivariate Varianzanalyse
Die Ex-post-Analyse des Beispiels in Tabelle 17.4 fçhrt zu folgenden Resultaten: Als Mittelwerte errechnet man A11 3;00
A21 4;00
A31 4;83
A12 3;50
A22 4;25
A32 5;25
A13 4;20
A23 5;80
A33 5;80 :
Fçr die Streuungen ergeben sich (si = dFehler(i,i)/ni): s1 1;52
s2 1;37
s3 1;70 :
Man ermittelt als græûten d-Wert fçr x2: d = |4,0±5,8|/1,37 = 1,31, der als groûer bis sehr groûer Effekt zu klassifizieren wåre.
Voraussetzungen. Neben der Additivitåt der Fehlerkomponenten und der Unabhångigkeit der Fehlerkomponenten von den Treatment-Effekten setzen Signifikanztests im Rahmen multivariater Varianzanalysen voraus, dass die abhångigen Variablen in der Population multivariat normalverteilt sind. Literatur zur Ûberprçfung dieser Annahme wurde auf S. 450 genannt. Ferner sollten die fçr die p abhångigen Variablen unter den einzelnen Faktorstufen (Faktorstufenkombinationen bei mehrfaktoriellen Plånen; vgl. 17.6) beobachteten VarianzKovarianz-Matrizen homogen sein. Nach Ito (1969), Ito u. Schull (1964) und Stevens (1979) sind Verletzungen dieser Voraussetzungen bei groûen Stichproben praktisch zu vernachlåssigen, wenn die verglichenen Stichproben gleich groû sind. Die Bedeutung der Voraussetzungen der multivariaten Varianzanalyse fçr die Teststårke wurde von Stevens (1980) untersucht. Die Abhångigkeit der Teststårke von der Hæhe der Interkorrelationen der abhångigen Variablen ist Gegenstand einer Arbeit von Cole et al. (1994). Generell kann man davon ausgehen, dass sowohl die ANOVA als auch die MANOVA bei græûeren Stichproben (als Orientierung hierzu kann Tabelle 17.5 dienen) robuste und teststarke Verfahren sind (Stevens, 2002, Kap. 6.6). Weitere Hinweise zu den Voraussetzungen der multivariaten Varianzanalyse findet man bei Press (1972, Kap. 8.10). Sind ± insbesondere bei kleineren Stichproben ± die Voraussetzungen der multivariaten Varianzanalyse deutlich verletzt, kann ersatzweise ein verteilungsfreier multivariater Mittelwertvergleich durchgefçhrt werden (vgl. Zwick, 1985 a). In einer
597
Monte-Carlo-Studie (Zwick, 1985 b) wird dieses Verfahren mit Hotellings T2 -Test verglichen. Die multivariate Kovarianzanalyse (MANCOVA) wird z. B. bei Timm (2002, Kap. 4.4) beschrieben. In Kap. 4.6 findet man auch Hinweise zur MANOVA/ MANCOVA bei heterogenen Varianz-KovarianzMatrizen oder nicht normalverteilten Daten.
Einzelvergleiche. Ûber multivariate Einzelvergleiche im Anschluss an einen signifikanten V-Wert berichten Morrison (1967, Kap. 5.4) und Press (1972, Kap. 8.9.2). Wie man multivariate Einzelvergleiche mit SPSS durchfçhrt, wird von Stevens (2002, Kap. 5.9) demonstriert. Berechnungsvorschriften zur Bestimmung desjenigen Varianzanteils aller abhångigen Variablen, der auf den untersuchten Faktor (Treatment) zurçckgeht, werden bei Shaffer u. Gillo (1974) genannt. Weitere multivariate Teststatistiken. In der Literatur findet man neben dem in Gl. (17.20 a, b) genannten Testkriterium weitere zusammenfassende Statistiken, die ebenfalls aus den Matrizen Dtreat und DFehler abgeleitet sind. Tabelle 17.6 (nach Olson, 1976) fasst die wichtigsten multivariaten Prçfstatistiken zusammen (vgl. hierzu auch Wolf, 1988). Die Prçfstatistiken einer Zeile sind åquivalent. Da diese Prçfstatistiken generell, d. h. auch fçr mehrfaktorielle multivariate Varianzanalysen gelten, ersetzen wir hier die Matrix Dtreat durch eine Matrix H (Hypothesenmatrix oder D-Matrix des zu testenden Effekts) und die Matrix DFehler durch die Matrix E (Fehlermatrix, an der der zu prçfende Effekt getestet wird). Aus diesen Teststatistiken wurden von zahlreichen Autoren approximativ v2 -verteilte oder approximativ F-verteilte Prçfgræûen abgeleitet. Hierçber berichten z. B. Bock (1975), Davis (2002, Kap. 4.2.4), Kshirsagar (1972), Heck (1960), Jones (1966), Morrison (1990) und Ito (1962). Vergleichsstudien von Olson (1976) zeigen, dass alle in diesen Arbeiten genannten Prçfgræûen fçr praktische Zwecke zu den gleichen Resultaten fçhren, wenn dfE nicht kleiner als 10 p dfH ist. dfH und dfE sind mit den Freiheitsgraden der entsprechenden Effekte der univariaten Varianzanalyse identisch. Fçr die einfaktorielle, multivariate Varianzanalyse sind dfH dftreat k 1 und dfE dfFehler N k. Ûber weitere Teststatistiken berichten Coombs und Algina (1996). Einen Vergleich der wichtigs-
17
598
Kapitel 17 ´ Multivariate Mittelwertvergleiche
Tabelle 17.6. Multivariate Teststatistiken Teststatistik
1
HE
Roys græûter Eigenwert Hotellings Spurkriterium T Wilks Likelihood-Quotient K Pillais Spurkriterium PS
H
H E
c1 1 c1 s P ci
1
E
H E
`1
1
s P
`i i1 1 s Q
1 `i
i1 s Q
ci 1 ci i1 s P ci i1 1 ci
i1 s P i1
r1
s 1 P
`i
i1 s Q i1 s P
`i
1
ri
1
i1
ri ri ri
Hierbei sind ci Eigenwerte der Matrix HE
1
`i Eigenwerte der Matrix H
H E
1
ri Eigenwerte der Matrix E
H E
1
ten multivariaten Prçfkriterien bei heterogenen Varianz-Kovarianz-Matrizen findet man bei Tang u. Algina (1993).
17.6 Mehrfaktorielle, multivariate Varianzanalyse
menberechnung (Diagonalelemente der D-Matrizen), sondern auch auf die Berechnung der Summen der Kreuzprodukte anwenden. In allgemeiner Schreibweise benætigen wir folgende Kennziffern:
1xi xi0 Gi Gi0 =
k r n ; XXX xijsm xi0 jsm ;
2xi xi0 j
In der mehrfaktoriellen, multivariaten Varianzanalyse werden die gleichgroûen Stichproben, die den einzelnen Faktorstufenkombinationen zugewiesen werden, nicht nur bezçglich einer, sondern bezçglich p Variablen gemessen (fçr ungleichgroûe Stichproben s. S. 601). Wie in der einfaktoriellen, multivariaten Varianzanalyse ersetzen wir die Quadratsummen der univariaten Analyse durch D-Matrizen, wobei fçr den zweifaktoriellen Fall folgende Øquivalenzen gelten:
17
DA
ersetzt
QSA ;
DB
ersetzt
QSB ;
DAB
ersetzt QSAB ;
DFehler
ersetzt QSFehler ;
Dtot
ersetzt QStot :
Die Ermittlung der D-Matrizen erfolgt einfachheitshalber wieder çber das Kennziffernsystem, das wir, wie in der multivariaten, einfaktoriellen Varianzanalyse, nicht nur auf die Quadratsum-
3xi xi0
X
s
m
Aij Ai0 j =
r n ;
j
4xi xi0
5xi xi0
X s
Bis Bi0 s =
k n ;
XX j
s
ABijs ABi0 js =n :
Hierin sind: j 1; 2 . . . k (Stufen des Faktors A), s 1; 2 r (Stufen des Faktors B), i 1; 2 . . . p (abhångige Variablen), m 1; 2 . . . n (Vpn); Aij Summe der Messwerte der Variablen i unter der Stufe aj , Bis Summe der Messwerte der Variablen i unter der Stufe bs , ABijs Summe der Messwerte der Variablen i unter der Faktorstufenkombination abjs . Aus den Kennziffern ermitteln wir folgende Quadratsummen bzw. Kreuzproduktsummen, die die Elemente der einzelnen D-Matrizen darstellen:
a17.6
599
Mehrfaktorielle, multivariate Varianzanalyse
dA
i;i0
3xi xi0
1xi xi0 ;
dB
i;i0
4xi xi0
1xi xi0 ;
dAB
i;i0
5xi xi0
wåhnten Voraussetzungen der multivariaten Varianzanalyse (vgl. S. 597) erfçllt sind und beide Faktoren feste Stufen haben.
3xi xi0
4xi xi0
1xi xi0 ; dFehler
i;i0
2xi xi0
5xi xi0 ;
dtot
i;i0
2xi xi0
1xi xi0 :
BEISPIEL Es wird çberprçft, wie sich ein Medikament
a1 und ein Plazebo
a2 (Faktor A: k 2 feste Stufen) auf die sensomotorische Koordinationsfåhigkeit
x1 und die Gedåchtnisleistungen
x2 von månnlichen und weiblichen Vpn (Faktor B: r 2 feste Stufen) auswirken. Jeder Faktorstufenkombination wird eine Zufallsstichprobe von n 4 Vpn zugewiesen. Tabelle 17.8 zeigt die Daten und den Rechengang. Auf dem a 5 %-Niveau lautet der kritische v2 -Wert fçr df 2 v2crit 5;99. Die Interaktion zwischen den Medikamenten und dem Geschlecht ist somit bezogen auf beide abhångigen Variablen signifikant. Will man die Effekte çber die F-verteilte Teststatistik PS von Pillai çberprçfen, benætigt man fçr Gl. (17.22) die Eigenwerte der folgenden Matrizen: 0;418 0;021 1 DA DFehler 0;000 0;000
Ist i i0 , resultieren als Diagonalelemente der jeweiligen D-Matrix die entsprechenden Quadratsummen der Variablen i. (Fçr eine bestimmte Variable i reduziert sich somit das Kennziffernsystem auf das in Kap. 8 im Rahmen der Berechnungsvorschriften einer zweifaktoriellen, univariaten Varianzanalyse genannte Kennziffernsystem.) Unter der Bedingung i 6 i0 erhalten wir die Elemente auûerhalb der Diagonale, die den Summen der Kreuzprodukte entsprechen. In der multivariaten, zweifaktoriellen Varianzanalyse mit gleich groûen Stichprobenumfången gilt die Beziehung: Dtot DA DB DAB DFehler :
k1 0;418 : k2 0;000 ;
17:24
1 DB DFehler
Ausgehend von den D-Matrizen fertigen wir die in Tabelle 17.7 genannte Ergebnistabelle an. Die resultierenden V-Werte sind mit df
V Freiheitsgraden approximativ v2 -verteilt. Statt der Prçfgræûe V von Bartlett sollte vor allem bei kleineren Stichproben die Teststatistik PS von Pillai mit deren Prçfgræûe F verwendet werden. In Anlehnung an Gl. (17.22) werden hierfçr die Eigenwerte 1 1 der Matrizen DA DFehler (fçr PSA ), DB DFehler (fçr 1 PSB ) und DAB DFehler benætigt (fçr PSAB ). Mit diesen Werten bestimmt man çber Gl. (17.22) fçr jeden Effekt einen F-Wert, wobei dftreat entsprechend durch dfA ; dfB oder dfAB zu ersetzen ist. Die in Tabelle 17.7 wiedergegebenen Signifikanztests sind nur gçltig, wenn die bereits er-
0;161 0;214
0;158 0;211
k1 0;371 : k2 0;000 ; 1 DAB DFehler
0;130 0;293
0;348 0;783
k1 0;913 : k2 0;000 : Zur Kontrolle çberprçfen wir zunåchst, ob wir auch çber Gl. (17.20 b) die nach Gl. (17.20 a) bzw. Tabelle 17.6 ermittelten K-Werte erhalten: 1 1 0;70 ; 1 0;418 1 0 1 1 0;73 ; KB 1 0;371 1 0 1 1 KAB 0;52 : 1 0;913 1 0 KA
Tabelle 17.7. Allgemeine Ergebnistabelle einer zweifaktoriellen, multivariaten Varianzanalyse Q.d.V.
K
df(Q.d.V.)
A
j DFehler j = j DA DFehler j
k
1
dfFehler dfA
p dfA 1=2 ln KA
p
k
1
j DFehler j = j DB DFehler j
r
1
dfFehler dfB
p dfB 1=2 ln KB
p
r
1
j DFehler j = j DAB DFehler j
k
dfFehler dfAB
p dfAB 1=2 ln KAB
p
k 1
r 1
B AB Fehler
V
1
r
k r
n
1 1
df(V)
17
600
Kapitel 17 ´ Multivariate Mittelwertvergleiche
Tabelle 17.8. Beispiel fçr eine zweifaktorielle, multivariate Varianzanalyse Medikament
a1
Plazebo
a2
x1
x2
x1
x2
2 3 2 3 10
4 5 5 3 17
1 2 1 2 6
3 4 3 3 13
weiblich
b2
1 2 2 2
4 3 4 4
2 2 1 1
5 5 4 5
Summen:
7
15
6
19
A21 32
A12 12
A22 32
månnlich
b1 Summen:
A11 17
B12 13 B22 34 G1 29 G2 64
1x1 292 =16 52; 56
2x1 22 32 12 12 59
3x1
172 122 =8 54;13
4x1
162 132 =8 53;13
5x1
102 72 62 62 =4 55;25
1x2 642 =16 256
2x2 42 52 42 52 266
3x2
322 322 =8 256
4x2
302 342 =8 257
5x2
172 152 132 192 =4 261
1x1 x2 29 64=16 116; 00
3x1 x2
17 32 12 32=8 116;00
5x1 x2
10 17 7 15 6 13 6 19=4 116;75
2x1 x2 2 4 3 5 1 4 1 5 117;00
4x1 x2
16 30 13 34=8 115;25
DA
1;57 0;00
0;00 0;00
z.B. dA
1;1
3x1
1x1 1;57
0;57 0;75 0;75 1;00 0;55 1;50 DAB 1;50 4;00 3;75 0;25 DFehler 0;25 5;00 6;44 1;00 Dtot 1;00 10;00 DB
z.B. dB
1;2
4x1 x2 z.B. dAB
2;2
5x2
1x1 x2
3x2
0;75
4x2
1x2 4; 00
z.B. dFehler
1;1
2x1
5x1 3;75
z.B. dtot
1;2
2x1 x2
1x1 x2 1;00
Kontrolle: DA DB DAB DFehler Dtot 1;57 0;00 0;57 0;75 0;55 1;50 3;75 0;25 6;44 1;00 0;00 0;00 0;75 1;00 1;50 4;00 0;25 5;00 1;00 10;00
17
B11 16 B21 30
DA DFehler DB DFehler
5;32 0;25 4;32 0;50
DAB DFehler
0;25 ; 5;00 0;50 ; 6;00
4;30 1;75 ; 1;75 9;00
j DA DFehler j 5;32 5;00
0;252 26;54
j DB DFehler j 4;32 6;00
0;502 25;67
j DAB DFehler j 4;30 9;00 j DFehler j 3;75 5;00
1; 752 35;64
0;252 18;69
a17.6
17
601
Mehrfaktorielle, multivariate Varianzanalyse
Tabelle 17.8 (Fortsetzung) Q.d.V.
K
df(Q.d.V.)
V
df(V)
A B AB Fehler
18;69=26;54 0;70 18;69=25;67 0;73 18;69=35;64 0;52
1 1 1 12
11 ln 0;70 3;92 11 ln 0;73 3;46 11 ln 0;52 7;19
2 2 2
Diese Werte stimmen mit den in Tabelle 17.8 genannten K-Werten çberein. Mit den o. g. Eigenwerten berechnen wir nun die Teststatistik PS (s. Gl. 17.22 bzw. Tabelle 17.6) fçr A, B und A B: 0;418 0 0;295 ; 1 0;418 1 0 0;317 0 PSB 0;241 ; 1 0;317 1 0 0;913 0 0;477 : PSAB 1 0;913 1 0 Als F-Werte resultieren dann: Haupteffekt A
dfA 1, dfFehler 12, s 1, b 2): PSA
FA
12 2 1 0;295 2;30 : 2
1 0;295
Haupteffekt B
dfB 1; dfFehler 12, s 1, b 2): FB
12 2 1 0;241 1;75 : 2
1 0;241
Interaktion A B
dfAB 1, dfFehler 12, s 1, b 2): FAB
12 2 1 0;477 5;02 : 2
1 0;477
Fçr alle F-Brçche gilt: dfZahler 1 2 2 und dfNenner 1
12 2 1 11. Damit ist auch hier nur die Interaktion A B signifikant
F2;11;0;95 3;98), d. h. die Ergebnisse in Tabelle 17.8 werden beståtigt.
Nichtorthogonale MANOVA. Ûber Mæglichkeiten der Analyse mehrfaktorieller, multivariater Varianzanalysen mit ungleich groûen Stichproben (nichtorthogonale MANOVA) berichtet Timm (2002, Kap. 4.10). Wie im Kap. 14.2.4 wird unterschieden zwischen Analysen mit gewichteten und ungewichteten Mittelwerten. Ferner wird hier das Problem ¹leerer Zellenª (empty cells) behandelt. Einen alternativen Læsungsweg fçr die nichtorthogonale MANOVA findet man auf S. 642 (Gl. 19.46).
Verallgemeinerungen Feste und zufållige Effekte. Sind unter der Modellannahme III (vgl. S. 302 f.) die Stufen beider Faktoren zufållig bzw. unter der Modellannahme II die Stufen des einen Faktors fest und die des anderen zufållig, ersetzen wir in Tabelle 17.7 die Matrix DFehler durch diejenige D-Matrix, die der adåquaten Prçfvarianz entspricht (vgl. Tabelle 8.7) und die Freiheitsgrade dfFehler durch die Freiheitsgrade der jeweiligen Prçfvarianz. Sind beispielsweise beide ^2AB die Faktoren zufållig, ist im univariaten Fall r adåquate Prçfvarianz fçr beide Haupteffekte. Im multivariaten Fall ersetzen wir somit DFehler durch DAB , sodass z. B. der K-Wert fçr den Haupteffekt A nach der Beziehung KA jDAB j=jDA DAB j ermittelt wird. Fçr die Berechnung des V-Wertes ersetzen wir dfFehler durch dfAB . Will man çber Pillais F testen, werden fçr die Bestimmung von PS 1 1 die Eigenwerte der Matrizen DA DAB , DB DAB 1 und DAB DFehler benætigt (Modell III). Wilks K in komplexen Plånen. Die Erweiterung des multivariaten Ansatzes auf komplexere varianzanalytische Plåne liegt damit auf der Hand. Es werden zunåchst die fçr die univariate Analyse benætigten Quadratsummen durch D-Matrizen ersetzt. Die Ûberprçfung der Haupteffekte und ggf. der Interaktionen erfolgt in der Weise, dass die Determinante der D-Matrix der Prçfgræûe durch die Determinante der Summen-Matrix dividiert wird, die sich aus der D-Matrix des zu prçfenden Effekts und der D-Matrix der Prçfgræûe ergibt: KH
jEj ; jH Ej
17:25
wobei H D-Matrix desjenigen Effekts, der çberprçft werden soll, E D-Matrix der Prçfgræûe, an der der jeweilige Effekt getestet wird. Die adåquate Prçfgræûe kann je nach Art der Varianzanalyse den entsprechenden Tabellen des Teil-
602
Kapitel 17 ´ Multivariate Mittelwertvergleiche
s II entnommen bzw. nach dem in Kap. 12.6 beschriebenen Cornfield-Tukey-Verfahren bestimmt werden. Der Quotient in Gl. (17.25) fçhrt zu einem K-Wert, der nach folgender Beziehung in einen approximativ v2 -verteilten V-Wert transformiert wird (vgl. Bock, 1975, S. 153): VH
dfE dfH
p dfH 1=2 ln KH ;
17:26
wobei dfH Freiheitsgrade des zu prçfenden Effekts, dfE Freiheitsgrade der zur Prçfung des Effekts eingesetzten Prçfgræûe. Wie man erkennt, ist Gl. (17.21) eine Spezialform von Gl. (17.26). Die Freiheitsgrade der einzelnen Effekte in der multivariaten Varianzanalyse sind mit den Freiheitsgraden der entsprechenden Effekte in der univariaten Varianzanalyse identisch. Ein VH -Wert wird anhand der v2-Verteilung fçr p dfH Freiheitsgrade auf Signifikanz getestet. Rechenprogramme, mit denen multivariate Varianzanalysen fçr vollståndige Plåne mit gleich oder ungleich groûen Stichproben, fçr Messwiederholungsplåne, hierarchische und teilhierarchische Plåne durchgefçhrt werden kænnen, haben Bock (1965) sowie Clyde et al. (1966) entwickelt. Fçr die Auswertung dieser Plåne mit SAS (Proc GLM) wird auf Timm (2002) und mit SPSS auf Stevens (2002) bzw. Diehl u. Staufenbiel (2002) verwiesen.
17
Pillais PS in komplexen Plånen. Will man fçr die Ûberprçfung der Nullhypothese einer beliebigen multivariaten Varianzanalyse die von Olson (1976) empfohlene Prçfstatistik PS verwenden, sind die Eigenwerte der jeweiligen Matrix HE 1 (oder einer anderen Referenzmatrix; vgl. Tabelle 17.6) zu berechnen. Das so ermittelte PS låsst sich nach Gl. (17.22) auf Signifikanz testen, wobei dftreat durch dfH und dfFehler durch dfE ersetzt werden. (Zur Berechnung der Eigenwerte vgl. S. 613 f.) ÛBUNGSAUFGABEN 1. Einer Untersuchung von Doppelt u. Wallace (1955, zit. nach Morrison, 1990) zufolge ergaben sich fçr 101 åltere Personen im Alter zwischen 60 und 64 Jahren im Verbalteil des Wechsler-Intelligenztests ein Durchschnittswert von xv 55;24 und im Handlungsteil ein Durchschnittswert von xH 34;97. Fçr die Population aller er-
wachsenen Personen lauten die Werte: lv 60 und lH 50. Ûberprçfen Sie, ob sich die ålteren Personen in ihren Intelligenzleistungen signifikant von der ¹Normalpopulationª unterscheiden, wenn fçr die Population die folgende Varianz-Kovarianz-Matrix geschåtzt wird: 210;54 126;99 : cd ov 126;99 119;68 2. Fçr n 10 Vpn soll çberprçft werden, ob die Reaktionsleistungen verbessert werden kænnen, wenn vor dem eigentlichen Reiz, auf den die Vpn zu reagieren haben, ein ¹Vorwarnsignalª gegeben wird. Der Versuch wird einmal unter der Bedingung ¹mit Vorwarnsignalª und einmal ¹ohne Vorwarnsignalª durchgefçhrt. Bei jeder Vp wird auf Grund mehrerer Untersuchungsdurchgånge die durchschnittliche Reaktionszeit
x1 und die durchschnittliche Anzahl von Fehlreaktionen
x2 registriert. Die folgende Tabelle zeigt die Ergebnisse:
Vp 1 2 3 4 5 6 7 8 9 10
mit Vorwarnsignal
ohne Vorwarnsignal
x1
x2
x1
x2
18 14 14 15 17 12 16 16 14 15
3 2 2 4 2 3 5 2 3 3
17 21 22 18 20 21 17 23 22 22
2 4 4 4 5 3 5 4 6 4
Ûberprçfen Sie, ob sich die Reaktionen der Vpn unter den beiden Untersuchungsbedingungen signifikant unterscheiden, wenn die beiden Variablen in der Population bivariat normalverteilt sind. 3. In einer Untersuchung werden n1 7 Kinder, die einen schizophrenen Vater haben, mit n2 9 Kindern, deren Våter nicht schizophren sind, hinsichtlich ihrer Øngstlichkeit
x1 und Depressivitåt
x2 miteinander verglichen. Es mægen sich die folgenden Testwerte ergeben haben: Vater schizophren
Vater nicht schizophren
x1
x2
x1
x2
12 12 14 11 11 12 19
18 21 20 20 20 19 22
8 10 10 11 10 9 12 11 10
19 22 20 20 22 23 20 21 20
Unterscheiden sich die beiden Stichproben signifikant voneinander, wenn beide Variablen in der Population bivariat normalverteilt sind? 4. Acht starke Raucher wollen sich in einem verhaltenstherapeutischen Training das Rauchen abgewæhnen. Der durchschnittliche Tageskonsum an Zigaretten wird vor dem Training, unmittelbar danach und ein Jahr spåter ermittelt.
Vpn 1 2 3 4 5 6 7 8
vorher
nachher
1 Jahr spåter
45 50 40 35 60 50 40 30
10 0 0 20 0 0 5 8
22 0 20 40 30 15 10 20
6. Es soll die toxische Wirkung von 3 Medikamenten a1 , a2 und a3 bei Ratten çberprçft werden. Registriert wird die Gewichtsabnahme der Tiere in der ersten
x1 und zweiten Woche
x2 nach Injektion des jeweiligen Medikaments. Da man vermutet, dass die Wirkung der Medikamente vom Geschlecht der Tiere abhångt, wird jedes Medikament bei 4 månnlichen und 4 weiblichen Ratten untersucht. Die folgende Tabelle zeigt die ermittelten Gewichtsabnahmen (nach Morrison, 1990): a1 x1
5. 20 Vpn werden mit dem Rosenzweig-PF-Test hinsichtlich ihrer Aggressivitåt untersucht. Auf Grund der Testprotokolle reagieren 7 Vpn extrapunitiv (die Aggressivitåt ist gegen die Umwelt gerichtet), 5 Vpn intropunitiv (die Aggressivitåt ist gegen das eigene Ich gerichtet) und 8 Vpn impunitiv (die Aggressivitåt wird çberhaupt umgangen). Die Vpn werden ferner aufgefordert, einen Test abzuschreiben, wobei der beim Schreiben gezeigte Schreibdruck
x1 registriert und die durchschnittliche Unterlånge der Buchstaben
x2 pro Vpn ermittelt wird. Die folgenden Werte mægen sich ergeben haben: intropunitiv
impunitiv
x1
x2
x1
x2
x1
x2
12 14 13 13 12 15 14
4 6 7 7 5 5 6
14 14 16 15 12
5 8 8 4 5
11 15 15 12 16 12 12 14
7 6 6 5 8 4 6 7
Ûberprçfen Sie, ob sich die 3 Vpn-Gruppen hinsichtlich der beiden graphologischen Merkmale unterscheiden.
weibl. (b2 )
a2
a3
x2
x1
x2
x1
x2
6
7
6
21
15
4 9 6
7 9 6
7 12 8
14 17 12
11 12 10
7
10
10
13
16
12
6 9 8
6 7 10
8 7 6
7 6 9
14 14 10
9 8 5
månnl. 5 (b1 ) 5 9 7
Ûberprçfen Sie mit der Hotellings T24 -Statistik, ob sich das Raucherverhalten signifikant geåndert hat.
extrapunitiv
17
603
aÛbungsaufgaben
Ûberprçfen Sie mit einer zweifaktoriellen, multivariaten Varianzanalyse, ob die Medikamente zu unterschiedlichen Gewichtsabnahmen fçhren, ob sich die Geschlechter unterscheiden und ob zwischen der Medikamentenwirkung und den Geschlechtern eine Interaktion besteht, wenn beide Faktoren eine feste Stufenauswahl aufweisen.
605
Kapitel 18 Diskriminanzanalyse
ÛBERSICHT Diskriminanzkriterium ± Diskriminanzfaktor(-funktion) ± Ladungen und Faktorwerte ± Diskriminanzraum ± Signifikanztests ± mathematischer Hintergrund ± mehrfaktorielle Diskriminanzanalyse ± Klassifikation ± Øhnlichkeitsmaûe ± QCF-Regel ± LCF-Regel ± Box-Test ± Priorwahrscheinlichkeiten ± Zuordnungswahrscheinlichkeiten ± nicht klassifizierbare Personen ± Klassifikationsfunktionen ± Bewertung von Klassifikationen
Die im letzten Kapitel behandelten multivariaten Mittelwertvergleiche ermæglichen eine Ûberprçfung der Unterschiedlichkeit von Stichproben in Bezug auf mehrere abhångige Variablen. Fragen wir beispielsweise, ob sich das Erziehungsverhalten von Eltern verschiedener sozialer Schichten unterscheidet, wenden wir fçr den Fall, dass das Erziehungsverhalten durch mehrere Variablen erfasst wird (und nur so låsst sich dieses komplexe Merkmal sinnvoll operationalisieren), eine einfaktorielle, multivariate Varianzanalyse an. Bei signifikantem Ergebnis behaupten wir, dass das Erziehungsverhalten, das ± um einige Beispiele zu nennen ± in den Teilaspekten Strafverhalten, Belohnungsverhalten, Aufgeschlossenheit gegençber kindlicher Emotionalitåt, Fçrsorgeverhalten und Kontakthåufigkeit erfasst werden kænnte, schichtspezifisch sei. Wie aber kann ein solches Ergebnis insbesondere hinsichtlich der Bedeutung der einzelnen Teilaspekte des Erziehungsverhaltens interpretiert werden? Eine genauere Interpretation wird erst mæglich, wenn wir wissen, in welchem Ausmaû die einzelnen Teilaspekte bzw. ± um in der varianzanalytischen Terminologie zu bleiben ± die einzelnen abhångigen Variablen am Zustandekommen des Gesamtunterschieds beteiligt sind. Ein Verfahren, das hierçber Auskunft gibt, ist die Diskriminanzanalyse.
Mit der Diskriminanzanalyse finden wir heraus, welche Bedeutung die untersuchten abhångigen Variablen fçr die Unterscheidung der verglichenen Stichproben haben.
Um den Informationsgewinn zu verdeutlichen, den wir durch die Diskriminanzanalyse gegençber einer multivariaten Varianzanalyse erzielen, erinnern wir uns an die multiple Korrelationsrechnung. Resultiert in einer multiplen Korrelationsanalyse ein signifikanter Wert fçr R, wissen wir, dass alle Prådiktorvariablen zusammen çberzufållig mit der Kriteriumsvariablen korrelieren. Dem signifikanten R2 entspricht in der multivariaten Varianzanalyse ein signifikanter K-Wert oder auch ein signifikanter PS-Wert. Eine Interpretation der multiplen Korrelation wird jedoch erst ermæglicht, wenn wir zusåtzlich die b-Gewichte (bzw. die Strukturkoeffizienten) der einzelnen Variablen kennen, die darçber informieren, in welchem Ausmaû die einzelnen Prådiktorvariablen am Zustandekommen des Gesamtzusammenhangs beteiligt sind. In Analogie hierzu bestimmen wir mit der Diskriminanzanalyse Gewichtskoeffizienten, die angeben, in welchem Ausmaû die abhångigen Variablen am Zustandekommen des Gesamtunterschieds beteiligt sind. Diese Gewichtskoeffizienten besagen, wie die einzelnen abhångigen Variablen zu gewichten sind, um eine maximale Trennung bzw. Diskriminierung der verglichenen Stichproben zu erreichen. In diesem Zusammenhang kænnte man fragen, warum die Bedeutsamkeit der abhångigen Variablen nicht çber einzelne univariate Varianzanalysen, gerechnet çber jede abhångige Variable, ermittelt werden kann. Eine erste Antwort auf diese Frage wurde bereits unter 17.1 gegeben. Zur weiteren Klårung greifen wir erneut die Analogie zur multiplen Korrelation auf. Auch hier hatten wir die Vermutung geåuûert, dass die Bedeutsamkeit der Prådiktorvariablen mæglicherweise çber die
18
606
Kapitel 18 ´ Diskriminanzanalyse
bivariaten Korrelationen zwischen den einzelnen Prådiktorvariablen und der Kriteriumsvariablen erfasst werden kænnte. Erst durch die Analyse von Tabelle 13.4 wurde deutlich, dass der Beitrag einer Prådiktorvariablen zur multiplen Korrelation nicht nur von der bivariaten Kriteriumskorrelation abhångt, sondern zusåtzlich entscheidend durch die wechselseitigen Beziehungen zwischen den Prådiktorvariablen beeinflusst wird (Multikollinearitåt). In einigen Fållen machten Suppressionseffekte eine Einschåtzung der Bedeutsamkeit einer Prådiktorvariablen auf Grund ihrer Korrelation mit der Kriteriumsvariablen praktisch unmæglich. Mit åhnlichen Effekten mçssen wir auch in der multivariaten Varianzanalyse rechnen. Da çblicherweise die abhångigen Variablen einer multivariaten Varianzanalyse wechselseitig korreliert sind, kænnen die univariaten Varianzanalysen zu vællig falschen Schlçssen hinsichtlich der Bedeutsamkeit einzelner abhångiger Variablen fçr die Trennung der Gruppen fçhren. Erst in der Diskriminanzanalyse werden diese Zusammenhånge berçcksichtigt. Mit der Diskriminanzanalyse ermitteln wir diejenigen Gewichte fçr die abhångigen Variablen, die angesichts der wechselseitigen Beziehungen zwischen den abhångigen Variablen (Multikollinearitåt) zu einer maximalen Trennung der untersuchten Gruppen fçhren.
18
Die Ursprçnge der Diskriminanzanalyse gehen auf Fisher (1936) zurçck. Weitere Informationen zur historischen Entwicklung der Diskriminanzanalyse findet man bei Das Gupta (1973). Fçr eine ausfçhrliche Auseinandersetzung mit dem Thema ¹Diskriminanzanalyseª sei Huberty (1994 b) empfohlen. Wie alle multivariaten Verfahren ist auch die Diskriminanzanalyse mathematisch relativ aufwåndig. Wir werden deshalb ± wie bereits in den vorangegangenen Kapiteln ± die rechnerische Durchfçhrung (18.2) sowie das Grundprinzip und die Interpretation einer Diskriminanzanalyse (18.1) getrennt behandeln. Die Erweiterung der Diskriminanzanalyse auf mehrfaktorielle Untersuchungsplåne ist Gegenstand von Abschnitt 18.3. Unter 18.4 schlieûlich gehen wir auf Klassifikationsverfahren ein, die håufig im Anschluss an eine Diskriminanzanalyse eingesetzt werden.
" 18.1 Grundprinzip und Interpretation der Diskriminanzanalyse Allgemeine Zielsetzung Wir wollen einmal annehmen, dass fçr eine Stichprobe von 5 månnlichen und 5 weiblichen Personen Messungen bezçglich zweier Variablen x1 und x2 vorliegen. Die Messwerte dieser 10 Vpn sind in Abb. 18.1 a bis f graphisch dargestellt ( weiblich und månnlich). Ferner enthalten die Abbildungen den Mittelwert (Zentroid) der 5 månnlichen Personen (gekennzeichnet durch ) und den Mittelwert (Zentroid) der 5 weiblichen Personen
}. Gesucht wird eine neue Achse Y1 , auf der sich die Projektionen der Punkte der månnlichen Vpn mæglichst deutlich von denen der weiblichen Vpn unterscheiden. Diese neue Achse bezeichnen wir in Analogie zur Faktorenanalyse als Diskriminanzfaktor (bzw. Diskriminanzfunktion). Als einen Indikator fçr das Ausmaû der Unterschiedlichkeit der beiden Gruppen betrachten wir zunåchst die Differenz der Mittelwerte der Gruppen auf der neuen Y1 -Achse. Wåhlen wir fçr Y1 eine Position, wie sie in Abb. 18.1 a eingetragen ist, resultiert ± verdeutlicht durch den fett gezeichneten Achsenabschnitt ± eine relative geringe Mittelwertdifferenz. Eine maximale Mittelwertdifferenz erhalten wir, wenn die Achse Y1 so gelegt wird, dass sie parallel zur Verbindungslinie der beiden Mittelpunkte verlåuft. Dies ist in Abb. 18.1 c der Fall. Sind wir daran interessiert, eine neue Achse Y1 zu finden, auf der sich die beiden Gruppenmittel maximal unterscheiden, so wåre dies die gesuchte Achse. Ein weiterer Indikator fçr die Gçte der Trennung der beiden Gruppen ist das Ausmaû, in dem sich die Verteilungen der Messwerte çberschneiden. Es ist einsichtig, dass 2 Gruppen um so deutlicher verschieden sind, je kleiner ihr Ûberschneidungsbereich ist. Wåre dies das entscheidende Kriterium fçr die Unterschiedlichkeit der Gruppen, mçsste fçr Y1 eine Position gewåhlt werden, wie sie etwa in Abb. 18.1 d gewåhlt wurde (der Ûberschneidungsbereich ist durch den fett gedruckten Achsenabschnitt gekennzeichnet). Ausgesprochen ungçnstig ist nach diesem Kriterium die Position von Y1 in Abb. 18.1 f. Betrachten wir beide Kriterien fçr die Unterschiedlichkeit der Gruppen ± die Differenz der
a18.1
a
b
c
8
8
8
6
6
6
4
x2
10
x2
10
x2
10
4
2 2
4
6
8
10
y1
4
y1
2 0
18
607
Grundprinzip und Interpretation der Diskriminanzanalyse
0
2
4
x1
6
8
2
10
0
2
4
x1
6
8
10
x1
y1
d
e
f
8
8
8
6
6
6
4
x2
10
x2
10
x2
10
4
2
4
y1
2 0
2
4
6
8
10
x1
y1
0
2
4
6
8
10
x1
2 0
2
4
6
8
10
x1
y1
Abb. 18.1 Veranschaulichung des Einflusses von Rotationstransformationen auf Mittelwertdifferenzen und Ûberschneidungsbereiche
Mittelwerte und den Ûberschneidungsbereich ± zusammen, mçssen wir feststellen, dass sich durch die Verånderung der Achsenposition die Unterschiedlichkeit beider Gruppen in Bezug auf das eine Kriterium (z. B. Differenz der Mittelwerte) vergræûert und in Bezug auf das andere Kriterium (Ûberschneidungsbereich) verkleinert. Dies veranschaulichen die Abb. 18.1 a und d sowie c und f, in denen jeweils paarweise die gleichen Positionen fçr die Y1 -Achse gewåhlt wurden. Die Position von Y1 in Abb. 18.1 a und d ist ungçnstig fçr das Kriterium der Mittelwertdifferenz und gçnstig fçr das Kriterium des Ûberschneidungsbereichs, wåhrend umgekehrt in c und f eine ideale Position in Bezug auf das Differenzkriterium gewåhlt wurde, die jedoch gleichzeitig zu einem groûen Ûberschneidungsbereich fçhrt. Sollen beide Kriterien gleichzeitig berçcksichtigt werden, wåre eine Position fçr Y1, wie sie z. B. in Abb. 18.1 b und e wiedergegeben ist, den çbrigen Positionen vorzuziehen. Damit ist die Zielsetzung der Diskriminanzanalyse grob skizziert: Gesucht wird eine neue Achse
Y1 , auf der sich einerseits die Mittelwerte der verglichenen Gruppen mæglichst deutlich unterscheiden und auf der sich andererseits ein mæglichst kleiner Ûberschneidungsbereich ergibt.
Das Diskriminanzkriterium Anwendungen der Diskriminanzanalyse beziehen sich im Allgemeinen nicht nur auf den Vergleich von 2, sondern von allgemein k Stichproben, wobei die Anzahl der Vpn in der kleinsten Stichprobe græûer als die Anzahl der Variablen sein sollte. Fçr k Stichproben stellen die einfachen Differenzen zwischen den Mittelwerten bzw. einzelne Ûberschneidungsbereiche keine sinnvollen Differenzierungskriterien dar. Wir ersetzen deshalb die einfachen Mittelwertdifferenzen von Stichproben durch die Quadratsumme zwischen den Stichproben, die ± aus der Varianzanalyse als QStreat bekannt (vgl. S. 251 f.) ± die Unterschiedlichkeit der Gruppenmittelwerte kennzeichnet:
608
Kapitel 18 ´ Diskriminanzanalyse
QSy
treat
k X j1
X j
nj
Ay
j
Gy 2
A2y
j =nj
G2y =N :
18:1
Die Treatmentquadratsumme auf der neuen Y-Achse (QSy
treat ) ist der erste Bestandteil des Diskriminanzkriteriums. Den Ûberschneidungsbereich ersetzen wir durch die Quadratsumme der Messwerte innerhalb der Gruppen
QSFehler in der varianzanalytischen Terminologie; vgl. S. 252 ff.), die ± um die Gruppen mæglichst deutlich voneinander trennen zu kænnen ± mæglichst klein sein sollte. Die QSy
Fehler der Vpn auf der neuen Y1 -Achse ermitteln wir nach der Beziehung: QSy
Fehler
nj k X X
yjm
j1 m1
XX j
m
2 yjm
Ay
j 2 X j
A2y
j =nj :
18:2
Damit ist das mathematische Problem, das wir unter 18.2 zu læsen haben werden, gestellt: Das Achsenkreuz der ursprçnglichen Variablen muss so gedreht werden, dass eine neue Achse Y1 entsteht, auf der QSy
treat mæglichst groû und QSy
Fehler mæglichst klein werden. Zusammengenommen ist also fçr Y1 eine Position zu finden, die den folgenden Ausdruck maximiert: k
18
QSy
treat max : QSy
Fehler
18:3
Gleichung (18.3) definiert das Diskriminanzkriterium der Diskriminanzanalyse. Zu klåren bleibt, was die neue Achse Y1 bzw. die Rotation des Koordinatensystems der ursprçnglichen Variablen zu dieser neuen Achse Y1 inhaltlich bedeuten. Wie unter 15.3 ausfçhrlich gezeigt wurde, lassen sich Rotationstransformationen der Messwerte als Linearkombinationen der Messwerte darstellen, d. h., das Auffinden der optimalen Position fçr die neue Achse Y1 ist gleichbedeutend mit der Festlegung von Gewichtungskoeffizienten fçr die Variablen, die so geartet sind, dass die Summen der gewichteten Messwerte der Vpn (Linearkombinationen) eine maximale Trennung der untersuchten Stichproben gewåhrleisten.
In der Diskriminanzanalyse werden Linearkombinationen der abhångigen Variablen gesucht, die eine maximale Unterscheidbarkeit der verglichenen Gruppen gewåhrleisten.
Kennwerte der Diskriminanzanalyse Geometrisch lassen sich die linearkombinierten Messwerte der Vpn (= die Summen der gewichteten Originalmesswerte), wie in Abb. 18.1 an einem Zwei-Variablen-Beispiel verdeutlicht, als Projektionen der Vpn-Punkte auf die neue Y1 -Achse darstellen. In Analogie zur PCA bezeichnen wir die Y1 -Achse als ersten Diskriminanzfaktor. Die z-standardisierten Positionen der Vpn auf diesem Diskriminanzfaktor sind wieder als Faktorwerte interpretierbar. Neben diesen interessieren uns jedoch vor allem die Mittelwerte der verglichenen Gruppen auf dem Diskriminanzfaktor, denen wir entnehmen, wie gut die Gruppen durch den Diskriminanzfaktor getrennt werden. Die Interpretation eines Diskriminanzfaktors erfolgt ± ebenfalls wie in der PCA ± çber die Ladungen der einzelnen Variablen auf dem Diskriminanzfaktor, die den Korrelationen der ursprçnglichen Variablen mit dem Diskriminanzfaktor (korreliert çber die Vpn-Messwerte und VpnFaktorwerte) entsprechen. Lådt eine Variable hoch positiv oder hoch negativ, besagt dies, dass diese Variable besonders charakteristisch fçr den Diskriminanzfaktor ist. Dem Vorzeichen der Ladung entnehmen wir, ob Vergræûerungen der Variablenmesswerte mit Vergræûerungen der Faktorwerte einhergehen (positive Ladung) bzw. ob græûer werdende Variablenmesswerte mit abnehmenden Faktorwerten verbunden sind (negative Ladung). Zur Interpretation des diskriminanzanalytischen Ergebnisses kann man auûerdem die (standardisierten) Gewichte heranziehen, mit denen die Variablen in die Linearkombination eingehen (standardisierte Diskriminanzkoeffizienten, s. Gl. 18.25). Diese Koeffizienten informieren darçber, welche Variablen im Kontext aller untersuchten Variablen eher redundant sind (niedrige Diskriminanzkoeffizienten) und welche eher nicht (hohe Diskriminanzkoeffizienten). Zur Bestimmung der inhaltlichen Bedeutung eines Diskriminanzfaktors werden çblicherweise die Ladungen, d. h. die Korrelationen der Variablen mit den Diskriminanzfaktoren, herangezogen (vgl. Stevens, 2002, Kap. 7.4).
a18.1
Der Diskriminanzraum Rechnet man eine Diskriminanzanalyse çber mehr als zwei Gruppen, die durch mehrere Variablen beschrieben sind, wird durch den ersten Diskriminanzfaktor nur ein Teil des Diskriminanzpotenzials der Variablen erklårt. (Eine vollståndige Erfassung des Diskriminanzpotenzials durch einen Diskriminanzfaktor wåre theoretisch nur mæglich, wenn alle Variablen zu 1 miteinander korrelierten.) Øhnlich wie in der PCA bestimmen wir deshalb einen zweiten Diskriminanzfaktor, fçr den der Ausdruck QSy2
treat =QSy2
Fehler maximal wird. Hierfçr suchen wir einen zweiten Satz von Gewichtungskoeffizienten fçr die Variablen, der zu Linearkombinationen fçhrt, die mit den Linearkombinationen auf Grund der ersten Transformation unkorreliert sind. Der zweite Diskriminanzfaktor erfasst somit eine Merkmalsvarianz, die durch den ersten Diskriminanzfaktor nicht aufgeklårt wurde. In gleicher Weise werden weitere Diskriminanzfaktoren festgelegt, die paarweise voneinander unabhångig sind und die die noch nicht aufgeklårte Varianz so zusammenfassen, dass die Gruppen jeweils maximal getrennt werden. Die einzelnen Achsen werden somit nach dem Kriterium der sukzessiv maximalen Trennung der Gruppen festgelegt. Wie Tatsuoka (1971, S. 161 f.) zeigt, gibt es in einer Diskriminanzanalyse çber k Gruppen und p Variablen fçr den Fall, dass mehr Variablen als Gruppen untersucht werden, k 1 Diskriminanzfaktoren. Ist die Anzahl der Variablen kleiner als die Anzahl der Gruppen, ergeben sich p Diskriminanzfaktoren. [Allgemein: Anzahl der Diskriminanzfaktoren r min
p; k 1.] Die Gesamtheit aller Diskriminanzfaktoren bezeichnen wir als Diskriminanzraum. Der Diskriminanzraum besteht aus p oder k 1 Diskriminanzfaktoren, deren Reihenfolge so festgelegt wird, dass die verglichenen Stichproben sukzessiv maximal getrennt werden.
Zur besseren Interpretierbarkeit kænnen die statistisch bedeutsamen Diskriminanzfaktoren des Diskriminanzraumes (s. unten) nach dem VarimaxKriterium (oder auch einem anderem Kriterium, vgl. S. 548 ff.) rotiert werden. Wie man hierbei im Rahmen einer SPSS-Auswertung vorgeht, erlåutert Stevens (2002, Kap. 7.6). Weitere Hinweise zur In-
18
609
Grundprinzip und Interpretation der Diskriminanzanalyse
terpretation von Diskriminanzfaktoren findet man bei Thomas (1992).
Statistische Bedeutsamkeit der Diskriminanzfaktoren Øhnlich wie in der PCA ist damit zu rechnen, dass die Anzahl der Diskriminanzfaktoren, die das gesamte Diskriminanzpotenzial bis auf einen unbedeutenden Rest aufklåren, erheblich kleiner ist als die Anzahl der ursprçnglichen Variablen. Das relative Diskriminanzpotenzial eines Diskriminanzfaktors s ermitteln wir unter Verwendung von Gl. (18.3) nach der Beziehung: Diskriminanzanteil des Diskriminanzfaktors s ks 100% :
18:4 k1 k2 ks kr Die Summe der Diskriminanzanteile aller r Diskriminanzfaktoren entspricht dem Diskriminanzpotenzial der p Variablen. Das Diskriminanzpotenzial aller Diskriminanzfaktoren (des Diskriminanzraums) ist identisch mit dem Diskriminanzpotenzial der ursprçnglichen Variablen. Durch die Diskriminanzanalyse wird das gesamte Diskriminanzpotenzial durch die einzelnen Faktoren zusammengefasst bzw. auf die Faktoren umverteilt.
Diese Umverteilung geschieht so, dass der erste Diskriminanzfaktor die untersuchten Stichproben nach dem Diskriminanzkriterium am besten trennt, der zweite Diskriminanzfaktor am zweitbesten etc. Hierbei ist das Diskriminanzpotenzial des ersten Diskriminanzfaktors um so græûer, je hæher die abhångigen Variablen miteinander korrelieren. Ein signifikanter V-Test in der multivariaten Varianzanalyse (s. Gl. 17.21), der dem F-Test im univariaten Fall entspricht, bedeutet somit gleichzeitig, dass die Stichproben auf Grund aller Diskriminanzfaktoren signifikant voneinander getrennt werden kænnen. Um entscheiden zu kænnen, welche der r Diskriminanzfaktoren signifikant sind, wåhlen wir fçr das K-Kriterium von Wilks folgende zu Gl. (17.20 b) åquivalente Darstellung: 1
1 k1
1 k2 . . .
1 kr K
18:5
und ln
1 K
ln K :
18:6
610
Kapitel 18 ´ Diskriminanzanalyse
Wegen ln
r Q s1
1 ks
r P s1
ln
1 ks kænnen wir
fçr Gl. (17.21) auch schreiben: r X ln
1 ks ; V N 1
p k=2
18:7
s1
wobeiP N nj j p k ks
Gesamtstichprobenumfang, Anzahl der Variablen, Anzahl der Gruppen, Diskriminanzkriterium fçr den s-ten Diskriminanzfaktor (= der mit dem Diskriminanzfaktor s assoziierte Eigenwert; vgl. 18.2).
Auch dieser approximativ v2 -verteilte V-Wert hat wie V in Gl. (17.21) p
k 1 Freiheitsgrade. Alternativ kann der Signifikanztest çber PS durchgefçhrt werden (Gl. 17.22). Ist das gesamte Diskriminanzpotenzial nach Gl. (18.7) signifikant, kænnen wir çberprçfen, ob die nach Extraktion des ersten Diskriminanzfaktors verbleibenden Diskriminanzfaktoren die Gruppen noch signifikant differenzieren. Hierfçr berechnen wir folgenden V1 -Wert: r X ln
1 ks
18:8 a V1 N 1
p k=2 s2
Dieser V-Wert ist mit
p 1
k 2 Freiheitsgraden approximativ v2 -verteilt. Wurden bereits t Diskriminanzfaktoren extrahiert, ermitteln wir die Signifikanz des Diskriminanzpotenzials der verbleibenden r t Diskriminanzfaktoren wie folgt: r X Vt N 1
p k=2 ln
1 ks : st1
18:8 b Die Berechnungsvorschrift fçr die Freiheitsgrade dieses ebenfalls approximativ v2 -verteilten Vt -Wertes lautet
p t
k t 1. Der erste nicht signifikante Vt -Wert besagt, dass t Diskriminanzfaktoren signifikant und die restlichen r t Diskriminanzfaktoren nicht signifikant sind.
18
Voraussetzungen. Die Voraussetzungen der Diskriminanzanalyse entsprechen den Voraussetzungen der multivariaten Varianzanalyse (vgl. S. 597), d. h., die Ûberprçfung der statistischen Bedeutsamkeit der Diskriminanzfaktoren setzt voraus,
dass die Variablen in der Population multivariat normalverteilt sind und dass die Varianz-Kovarianz-Matrizen fçr die einzelnen Variablen çber die verglichenen Gruppen hinweg homogen sind (zur Einschåtzung dieser Voraussetzungen vgl. Melton, 1963 und S. 597; zur Diskriminanzanalyse bei nicht normalverteilten Variablen wird auf Huberty, 1975, verwiesen). Auch fçr die Diskriminanzanalyse gilt, dass Verletzungen der Voraussetzungen in Bezug auf a-Fehler und Teststårke mit wachsendem Stichprobenumfang weniger folgenreich sind. Unter dem Gesichtspunkt der Stabilitåt der Kennwerte der Diskriminanzanalyse (insbesondere der Faktorladungen) fordert Stevens (2002, Kap. 7.4), dass N mindestens 20-mal so groû sein sollte wie p (Beispiel: Bei 10 abhångigen Variablen sollte der gesamte Stichprobenumfang N ³ 200 sein).
Schåtzung des Diskriminanzpotenzials. In der uni^2 variaten Varianzanalyse schåtzen wir durch x denjenigen Varianzanteil der abhångigen Variablen, der in der Population durch das untersuchte Treatment aufgeklårt wird (s. Gl. 7.75). In Analogie hierzu schåtzen wir ein multivariates x2 nach der Beziehung ^2 1 x
N
N
k
1 k1
1 k2 . . .
1 kk 1
1
18:9
(vgl. hierzu Tatsuoka, 1970, S. 38). ^ 2 mit 100%, erhalten wir Multiplizieren wir x einen prozentualen Schåtzwert, der angibt, in welchem Ausmaû die Gesamtvariabilitåt auf allen Diskriminanzfaktoren durch Gruppenunterschiede bedingt ist. Dieser Ausdruck schåtzt somit das ¹wahreª Diskriminanzpotenzial der Diskriminanzfaktoren bzw. der ursprçnglichen Variablen. Ein Beispiel soll den Einsatz einer Diskriminanzanalyse verdeutlichen: BEISPIEL Jones (1961) ging der Frage nach, ob die Art der Beurteilung von Menschen durch autoritåre Einstellungen der Beurteiler beeinflusst wird. Er untersuchte 60 Studenten, die nach dem Grad ihres Autoritarismus (gemessen mit der California-F-Skala) in 3 Gruppen 20 Studenten mit hohem, mittlerem und niedrigem Autoritarismus eingeteilt wurden. Die Studenten beurteilten Tonfilmaufzeichnungen von therapeutischen Gespråchen mit der Instruktion, den im jewei-
a18.1
611
Grundprinzip und Interpretation der Diskriminanzanalyse
Tabelle 18.1. Beispiel fçr eine Diskriminanzanalyse (nach Jones, 1966) Nr. d. Eigenwert Diskriminanzfaktors (k)
V
df(V)
1 2
30,25 2,18
12 5
0,675 0,040
Diskriminanzkoeffizienten der Variablen fçr den 1. Diskriminanzfaktor gut ± schlecht freundlich ± feindlich kooperativ ± obstruktiv stark ± schwach aktiv ± passiv aufrichtig ± hinterlistig
0,35 0,20 0,04 0,18 0,17 ±0,88
ligen Film gezeigten Klienten anhand von 6 bipolaren Ratingskalen (vgl. Tabelle 18.1) einzuschåtzen. Mit dieser Untersuchung sollte çberprçft werden, ob sich die 3 Studentengruppen in ihrem Urteilsverhalten unterscheiden und welche Urteilsskalen zur Trennung der Gruppen besonders beitragen. Das Material wurde deshalb mit einer Diskriminanzanalyse, deren Ergebnis in Tabelle 18.1 wiedergegeben ist, ausgewertet. (Die Daten sind einem Bericht von Jones, 1966, entnommen und nach den unter 18.2 behandelten Regeln verrechnet. In der Originalarbeit von Jones wurden auch die Unterschiede zwischen den Filmen analysiert, worauf wir hier jedoch verzichten.) Da weniger Gruppen als abhångige Variablen untersucht wurden, resultieren im Beispiel 3 1 2 verschiedene Diskriminanzfaktoren. Beide Faktoren zusammen trennen die 3 Gruppen auf dem 1%-Niveau signifikant, d. h., auch eine multivariate Varianzanalyse håtte zu signifikanten Gruppenunterschieden (und zum gleichen V-Wert) gefçhrt. Lassen wir den ersten Diskriminanzfaktor auûer Acht, verbleibt ein Diskriminanzpotenzial, das die 3 Gruppen nicht mehr signifikant voneinander trennt, d. h., vor allem der erste Diskriminanzfaktor ist fçr das Zustandekommen der Signifikanz verantwortlich. Der erste Diskriminanzfaktor erfasst nach Gl. (18.4) 94,4% des gesamten Diskriminanzpotenzials. Fçr das ¹wahreª Diskriminanzpotenzial schåtzt man ^ 2 0;402
40;2%, was nach Cohen (1988) nach Gl. (18.9) x einem mittleren bis starken Effekt entspricht. Fçr die Interpretation betrachten wir die Diskriminanzkoeffizienten der abhångigen Variablen, die ebenfalls in Tabelle 18.1 wiedergegeben sind. (Der Gewichtungsvektor wurde auf die Långe 1 normiert.) Demnach kann das Urteilsverhalten der 3 Gruppen vor allem mit der Skala 6 (aufrichtig ± hinterlistig) differenziert werden. Diese Skala ist also fçr die Beschreibung des Urteilsverhaltens unterschiedlich autoritårer Studenten besonders wichtig. Die Frage, in welcher Weise der erste Diskriminanzfaktor die 3 Gruppen trennt, beantworten die Faktorwerte der Vpn auf dem Diskriminanzfaktor bzw. die Mittelwerte der 3 Gruppen. Abbildung 18.2 zeigt, wie sich die Faktorwerte verteilen.
hoher Autoritarismus
8 6 4 2 0 -3
-2
-1
0
1
2
3
2
3
2
3
mittlerer Autoritarismus
8 6 4 2 0 -3
-2
-1
0
1
niedriger Autoritarismus
8 6 4 2 0 -3
-2
-1
0
1
Abb. 18.2. Verteilung der Diskriminanzfaktorwerte unterschiedlich autoritårer Studenten (nach Jones, 1966) Sehr autoritåre Personen erhalten somit çberwiegend negative und weniger autoritåre Personen eher positive Diskriminanzfaktorwerte. Bei negativer Gewichtung der Skala ¹aufrichtig ± hinterlistigª besagt dieses Ergebnis, dass die in den Filmen gezeigten Klienten von den autoritåren Studenten eher als hinterlistig und von den wenig autoritåren Studenten eher als aufrichtig beurteilt wurden. Studenten, deren Autoritarismus mittelmåûig ausgeprågt ist, neigen ebenfalls eher dazu, die Klienten als aufrichtig einzustufen. Die (hier nicht wiedergegebenen) Mittelwerte der bipolaren Ratingskalen zeigen zudem, dass Studenten mit hohen Autoritarismuswerten die Klienten als feindlicher, obstruktiver und schwåcher einschåtzen als weniger oder mittelmåûig autoritåre Studenten. Jones kommt deshalb zusammenfassend zu dem Schluss, dass autoritåre Studenten dazu tendieren, psychisch kranke Personen abzulehnen, was mæglicherweise auf eine generelle Intoleranz gegençber Personen, die Schwierigkeiten mit der Bewåltigung ihrer Lebensprobleme haben, zurçckzufçhren ist.
Multikollinearitåt In den meisten Programmpaketen werden fçr die Diskriminanzanalyse ¹Stepwiseª-Prozeduren angeboten, mit denen versucht wird, aus den abhångigen Variablen eine Teilmenge herauszufinden, die sich am besten zur Trennung der Gruppen eignet. Die Identifikation dieser ¹bestenª Variablen ist insoweit problematisch, als bei korrelierenden Variablen (Multikollinearitåt) die Bedeutung einer Va-
18
612
18
Kapitel 18 ´ Diskriminanzanalyse
riablen davon abhångt, welche anderen Variablen bereits selegiert wurden. Auûerdem muss man ± wie bei Stepwise-Prozeduren im Rahmen der multiplen Regression ± bedenken, dass vor allem bei kleineren oder mittleren Stichprobenumfången die Auswahl der ¹am bestenª diskriminierenden Variablen stark vom Zufall bestimmt sein kann; sie låsst sich selten replizieren. Fçr die Bestimmung einer optimalen Teilmenge von Variablen ist es genau genommen erforderlich, alle mæglichen Teilmengen von Variablen bez. ihres Diskriminanzpotenzials zu vergleichen. Fortran-Programme, die diese Forderung berçcksichtigen, wurden von McCabe (1975) fçr einfaktorielle, von McHenri (1978) fçr mehrfaktorielle Plåne und fçr Diskriminanzanalysen çber 2 Gruppen von Morris u. Meshbane (1995) entwickelt. Will man auf diese aufwendige Vorgehensweise verzichten, ist die ¹F-to-removeª-Strategie zu empfehlen, bei der geprçft wird, wie das Diskriminanzpotenzial aller Variablen durch das Entfernen einer Variablen reduziert wird. Die Variable mit der græûten Reduktion ist fçr die Trennung der Gruppen am bedeutsamsten. Nach diesem Vorgehen lassen sich alle Variablen in eine Rangfolge ihrer Bedeutung bringen. (Man beachte allerdings, dass die so ermittelte Bedeutung einer Variablen eine andere sein kann, wenn man Variablen paarweise, in Dreiergruppen, in Vierergruppen etc. entfernt. Weitere Hinweise hierzu findet man bei Huberty, 1994 b, Kap. VIII, Gondek, 1981, Mc Lachlan 1992, Kap. 12 oder Thompson, 1995.) Stevens (2002, Kap. 10) empfiehlt, die sog. Step-down-Analyse, bei der die abhångigen Variablen auf Grund inhaltlicher Ûberlegungen vorab nach Maûgabe ihres vermuteten Diskriminanzpotenzials in eine Rangfolge gebracht werden. Danach wird geprçft, ob sich diese theoretische Rangfolge empirisch beståtigen låsst. Dies wåre ± wie auch die auf S. 462 empfohlene Vorgehensweise bei der Reihung von Prådiktorvariablen bei der multiplen Regression ± eine Hypothesen prçfende Vorgehensweise, im Unterschied zu Stepwise-Prozeduren, die nur zur Hypothesenerkundung eingesetzt werden sollten.
Hinweis: Varianten zur Durchfçhrung einer Diskriminanzanalyse bei nominalskalierten abhångigen Variablen diskutieren Huberty et al. (1986).
18.2 Mathematischer Hintergrund Eine Linearkombination der Messwerte einer Vp m auf p Variablen erhalten wir nach der Beziehung: ym v1 xm1 v2 xm2 vp xmp :
18:10
Gesucht werden homologe Linearkombinationen aller Vpn (d. h. Linearkombinationen unter Verwendung desselben Gewichtungsvektors v; vgl. S. 530), fçr die gilt: k
QSy1
treat max : QSy1
Fehler
18:11
QSy1
treat ist hierbei die Quadratsumme zwischen den Gruppen auf der neuen Y1 -Achse und QSy1
Fehler die Quadratsumme innerhalb der Gruppen auf der neuen Y1 -Achse.
Diskriminanzkriterium k In 15.3 wurde gezeigt, wie die Gesamtvarianz der ym1 -Werte, die sich nach einer Rotationstransformation ergibt, aus den ursprçnglichen Messwerten auf den p Variablen bestimmt werden kann. Vernachlåssigen wir die fçr einen Datensatz konstante Zahl der Freiheitsgrade und betrachten nur die Quadratsummen, lautet diese Beziehung: QSy1
tot v01 Dx
tot v1 :
18:12
Hierin ist Dx
tot eine p p-Matrix, in deren Diagonale die Quadratsummen der p Variablen stehen und die auûerhalb der Diagonale die Kreuzproduktsummen enthålt. QSy1
tot zerlegen wir ± wie in der einfaktoriellen Varianzanalyse ± in die Anteile: QSy1
tot QSy1
treat QSy1
Fehler :
18:13
Gesucht wird derjenige Vektor v1, der das Achsensystem der p Variablen so rotiert, dass der in Gl. (18.11) definierte k-Wert maximal wird. Um diesen Vektor zu finden, mçssen wir zuvor wissen, wie sich Rotationen auf die QSy1
treat und QSy1
Fehler auswirken. In vælliger Analogie zu Gl. (18.12) kann man zeigen, dass folgende Beziehungen gelten: QSy1
treat v01 Dx
treat v1 ; QSy1
Fehler
v01
Dx
Fehler v1 :
18:14
18:15
Dx
treat und Dx
Fehler sind die Quadratsummenund Kreuzproduktmatrizen, deren Berechnungsvorschrift in 17.5 behandelt wurde. Wie in der
a18.2
PCA (vgl. 15.3) ist v1 ein Transformationsvektor, dessen Elemente v11 ; v21 . . . vi1 . . . vp1 die cos der Winkel zwischen der i-ten alten und der ersten neuen Achse wiedergeben. Setzen wir Gl. (18.14) und (18.15) in Gl. (18.11) ein, erhalten wir folgenden Ausdruck fçr das zu maximierende Diskriminanzkriterium k: k
v01 Dx
treat v1 max : v01 Dx
Fehler v1
18:16
Herleitung der charakteristischen Gleichung Fçr 2 abhångige Variablen resultiert nach Gl. (18.16): k F
v1 F
v11 ; v21
v01 Dx
treat v1 v01 Dx
Fehler v1
2 2 t11 v11 t22 v21 2t12 v11 v22 : 2 2 f11 v11 f22 v21 2f12 v11 v21
18:16 a
(Um die Indizierung nicht zu unçbersichtlich werden zu lassen, wurden die Elemente von Dx
treat mit tii0 und die von Dx
Fehler mit fii0 gekennzeichnet.) Fçr die Maximierung von k leiten wir Gl. (18.16 a) partiell nach den Elementen von v ab und setzen die ersten Ableitungen gleich 0. Diese Ableitungen lauten fçr p 2: dF
v1 dv11
2t11 v11 2t12 v21
t21 ; t22 v1 k
f21 ; f22 v1 :
Gleichungen (18.17 a) und (18.17 b) fassen wir in folgender Weise zusammen: f11 f12 t11 t12 v1 k v1 t21 t22 f21 f22 bzw. Dx
treat v1 k Dx
Fehler v1 :
18:18
Durch Umstellen und Ausklammern von v1 resultiert:
Dx
treat
k Dx
Fehler v1 0 :
18:19
Das gleiche Resultat erhalten wir fçr p 2 (vgl. hierzu Tatsuoka, 1971, Anhang C). Ist die Matrix Dx
Fehler nicht singulår (d. h. jDx
Fehler j 6 0, sodass sie eine Inverse besitzt, 1 kænnen wir durch Vormultiplikation mit Dx
Fehler Gl. (18.19) in folgender Weise umformen: 1 Dx
treat
Dx
Fehler
k I v1 0 :
18:20
Dies ist die Bestimmungsgleichung des gesuchten Vektors v1 . Wie wir unter 15.3 gesehen haben, sind derartige Gleichungen nur læsbar, wenn die 1 Matrix
Dx
Fehler Dx
treat k I singulår ist bzw. eine Determinante von 0 hat: k Ij 0 :
18:21
Eigenwerte und Eigenvektoren
2f11 v11 2f12 v21 2 2 f22 v21 2f12 v11 v21 2 1=
f11 v11
2
t11 v11 t12 v21 k
f11 v11 f12 v21 : 2 f v2 2f v v
f11 v11 22 21 12 11 21
Dieser Ausdruck kann nur 0 werden, wenn der Zåhler 0 wird. Wir erhalten deshalb: k
f11 v11 f12 v21 0
bzw. t11 v11 t12 v21 k
f11 v11 f12 v21 : In Matrixschreibweise lautet diese Gleichung:
t11 ; t12 v1 k
f11 ; f12 v1 :
18:17 b
Gleichung (18.21) bezeichnen wir als die charakte1 Dx
treat . ristische Gleichung der Matrix Dx
Fehler
2 2
t11 v11 t22 v21 2t12 v11 v21
2
t11 v11 t12 v21
Die Ableitung von Gl. (18.16 a) nach v2 fçhrt zu der Beziehung:
1 Dx
treat jDx
Fehler
2 2 f22 v21 2f12 v11 v21
f11 v11
18
613
Mathematischer Hintergrund
18:17 a
Die Entwicklung der Determinante in Gl. (18.21) nach k fçhrt zu einem Polynom r-ter Ordnung, wobei r min
p; k 1. Das Polynom hat r k-Werte, die wir als Eigenwerte der Matrix 1 Dx
Fehler Dx
treat bezeichnen. (Ein Rechenprogramm zur Bestimmung der Eigenwerte und Eigenvektoren der nicht symmetrischen Matrix 1 Dx
Fehler Dx
treat wird z. B. bei Cooley u. Lohnes, 1971, Kap. 6.4 beschrieben. Auûerdem ist dieses Verfahren z. B. im Programmpaket S-PLUS implementiert.) Ausgehend vom græûten Eigenwert k1 berechnen wir nach der auf S. 537 f. beschriebenen Vorgehensweise den gesuchten Eigenvektor v1.
614
Kapitel 18 ´ Diskriminanzanalyse
Mit den weiteren Eigenwerten erhalten wir diejenigen Transformationsvektoren, die ± eingesetzt als Gewichtungsvektoren der Linearkombinationen ± zu neuen Achsen Y1 ; Y2 ; Y3 . . . Yr fçhren, die die Gruppen sukzessiv maximal trennen und wechselseitig unkorreliert sind. Allerdings sind die neuen Achsen nicht orthogonal, d. h., die neuen Achsen sind ± anders als in der PCA ± nicht das Ergebnis einer orthogonalen Rotationstransformation, sondern einer obliquen Rotation (vgl. Tatsuoka, 1988, S. 217). Wir setzen die Eigenvektoren v1 ; v2 . . . vs . . . vr in die allgemeine Gleichung fçr Linearkombinationen ein: yms v1s xm1 v2s xm2 vps xmp ; (18.22) und erhalten die Koordinaten der Vpn auf der neuen Ys -Achse. Nach Gl. (15.25) hat eine Gruppe j auf der Achse Ys den Mittelwert: yjs v1s xj1 v2s xj2 vps xjp :
18:23
Gelegentlich wird folgende Normierung verwendet (zur Begrçndung vgl. z. B. van de Geer, 1971, S. 251):
18:24 V0 DFehler V I : Die Eigenvektoren mit dieser Eigenschaft seien im Folgenden v genannt. Man erhålt v wie folgt: Aus der Matrix der Eigenvektoren (V) und Dx
Fehler wird D V0 Dx
Fehler V berechnet. V ergibt sich, wenn man die i-te Spalte von V durch die Wurzel des i-ten Diagonalelements von D dividiert. 1 vi p vi :
18:24 a D
i; i
Diskriminanzkoeffizienten
18
Zur Interpretation einer Diskriminanzanalyse werden håufig standardisierte Diskriminanzkoeffizienten
E herangezogen, denen die Bedeutung der abhångigen Variablen fçr die Diskriminanzfaktoren entnommen werden kann. (Zur Kritik dieser Koeffizienten vgl. Huberty, 1984): E Wdiag V :
18:25 Wdiag ist eine Diagonalmatrix, in deren Diagonale die Wurzeln der Diagonalelemente aus DFehler step hen
dFehler
i;i .
Nichtstandardisierte Diskriminanzkoeffizienten
B ermittelt man çber folgende Gleichung: p B N k V :
18:26
Faktorwerte und Faktorladungen Die Positionen der Vpn auf einem Diskriminanzfaktor s erhålt man nach folgender Gleichung: Fsmj cs
p X
bsi ximj :
18:27 a
i1
Analog hierzu ermittelt man die Gruppenmittelwerte auf den Diskriminanzfaktoren nach folgender Gleichung: Fsj cs
p X
bsi xij :
18:27 b
i1
Die Konstante cs ist wie folgt definiert: cs
p X
bsi xi ;
18:28
i1
wobei xi die auf allen Vpn basierenden Mittelwerte darstellen und bsi die Elemente der Matrix B. Man beachte, dass die Streuungen der so ermittelten Faktorwerte ± anders als in der PCA ± ungleich 1 sind. Die Ladungen der abhångigen Variablen auf den Diskriminanzfaktoren ergeben sich zu A D 1 DFehler V :
18:29 diag
Ein Element von A stellt die çber die Gruppen zusammengefassten Korrelationen zwischen den Variablen und Diskriminanzfaktoren dar. Bei der Ermittlung dieser Korrelation çber die individuellen Messwerte und Faktorwerte sind die Gruppen spezifischen Kovarianzen zwischen Fsmj und ximj und die Gruppen spezifischen Varianzen fçr Fsmj und ximj getrennt zusammenzufassen (vgl. hierzu S. 365).
Datenrçckgriff Ein Beispiel soll die einzelnen Rechenschritte der Diskriminanzanalyse numerisch erlåutern. Wir verwenden hierfçr erneut die in Tabelle 17.4 genannten Daten. Dieser Tabelle entnehmen wir auch die fçr Gl. (18.21) benætigten Matrizen Dx
Fehler und Dx
treat . Sie lauten:
a18.2
615
Mathematischer Hintergrund
Dx
Fehler 0 13;8000 B @ 3;3000
7;5500
1;7000
0;4500
0
3;3000
3;9333
B Dx
treat @ 5;9667 3;1667
1;7000
genwert ist 0. (Die additive Konstante ist bis auf Rundungsungenauigkeiten nach der 4. Dezimalstelle 0.) Die beiden çbrigen Eigenwerte erhalten wir aufgrund der quadratischen Gleichung:
1
C 0;4500 A ; 14;3833
5;9667
3;1667
k2
1
9;7833
C 4;7833 A :
4;7833
2;5500
2;32248k 0;05061 0 :
Sie lauten: k1 2;30048 ; k2 0;02091 :
Berechnung der Eigenwerte. Fçr die Inverse 1 Dx
Fehler ermitteln wir: 1 Dx
Fehler 0 0;08197 B @ 0;03532
0;03532 0;14791
C 0;00045 A :
Signifikanztests. Setzen wir die Eigenwerte in Gl. (18.5) ein, resultiert 1
1 2;30048
1 0;02091 K 3;3695
0;00858
0;00045
0;07055
bzw.
0;00858
1
K 0;2968 :
1 Dx
treat ergibt sich zu: Das Produkt Dx
Fehler 1 Dx
treat
Dx
Fehler 0 0;50593 0;79350 B @ 1;02289 1;65996
0;19237
0;40639
1
C 0;82051 A :
0;29071
0;15659
Gemåû Gl. (18.21) muss somit folgende Determinante 0 werden: 1 Dx
treat k Ij j
Dx
Fehler 0;50593 k 0;79350 1;02289 1;65996 k 0;19237 0;29071
0; 40639 0;82051 0;15659
k
0: Die Entwicklung dieser Determinante fçhrt nach Gl. (C 16) zu folgendem Polynom 3. Ordnung:
0;50593 0;79350 0;40639 0;40639
0;50593 0;79350
k
1;65996 0;82051 1;02289
1;65996 k 0;82051 1;02289
k3 2;32248k2
k
0;15659 0;19237 0;29071 k 0;19237 0;29071
0;15659
k
k
0;05061k 0;00005 0
Da wir wissen, dass die Anzahl der Diskriminanzfaktoren dem kleineren Wert von k 1 und p entspricht, erwarten wir 2 Diskriminanzfaktoren und damit auch nur 2 positive Eigenwerte. Der 3. Ei-
Dieser Wert stimmt mit dem in Tabelle 17.4 genannten Wert çberein. Wir erhalten somit auch çber Gl. (18.7) den signifikanten Wert V 13;36. Die beiden Diskriminanzfunktionen haben insgesamt das gleiche Diskriminanzpotenzial wie die ursprçnglichen Variablen. Als Nåchstes çberprçfen wir nach Gl. (18.8 a), ob das verbleibende Diskriminanzpotenzial nach Extraktion des ersten Diskriminanzfaktors noch signifikant ist. Hierzu ermitteln wir folgenden V1 -Wert: V1 15
1
3 3=2 ln
1 0;021
0;23 : Dieser Wert ist bei
3 1
3 1 1 2 Freiheitsgraden nicht signifikant. Der Beitrag des 2. Diskriminanzfaktors zur Trennung der Gruppen ist unbedeutend, sodass wir nur den 1. Diskriminanzfaktor zu interpretieren brauchen.
Bestimmung der Faktorwerte und Faktorladungen. 1 Als Eigenvektoren der Matrix Dx
Fehler Dx
treat erhålt man: 0 1 0;4347 0;5428 0;6741 V @ 0;9005 0;6110 0;0222 A : 0;1610 0;5442 0;7954 Als nåchstes wird D V0 Dx
Fehler V berechnet.
18
616
Kapitel 18 ´ Diskriminanzanalyse
0
1 6;6271 0;0000 0;0000 D @ 0;0000 14;6350 0;0000 A : 0;0000 0;0000 13;6347 V errechnen wir çber Gl. (18.24 a). 0 1 0;1689 0;1419 0;1825 V @ 0;3498 0;1597 0;0060 A : 0;0625 0;1422 0;2154 Diese Eigenvektoren erfçllen nannte Bedingung. Mit 0 3;7148 0;0000 @ Wdiag 0;0000 2;7477 0;0000 0;0000
F II 1,2 1,0 0,8 0,6 MS
die in Gl. (18.24) ge1 0;0000 0;0000 A 3;7925
-1,0 US
-0,6
-0,2 -0,2 -0,4
FI 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6
OS
-0,6 -0,8 -1,0
erhålt man çber Gl. (18.25) die standardisierten Diskriminanzkoeffizienten: 0 1 0;6273 0;5271 E @ 0;9612 0;4388 A : 0;2372 0;5394 Die fçr die Bestimmung der Faktorwerte benætigten, nichtstandardisierten Diskriminanzkoeffizienten ergeben sich nach Gl. (18.26) zu: 1 0 0;5849 0;4916 B @ 1;2118 0;5532 A : 0;2166 0;4927 Unter Verwendung der Konstanten c1 8;8628 und c2 1;7498 resultieren nach Gl. (18.27 a) die in Tabelle 18.2 genannten Faktorwerte. Fçr die Gruppenmittelwerte auf den Diskriminanzfaktoren erhålt man çber Gl. (18.27 b) bzw. çber die in Tabelle 18.2 genannten Einzelwerte: 0 1 1;2137 0;1068 F @ 0;5280 0;2059 A : 1;8789 0;0365 Tabelle 18.2. Faktorwerte der Vpn auf 2 Diskriminanzfaktoren
18
-1,4
0,4 0,2
Unterschicht
Mittelschicht
Oberschicht
FI
F II
FI
F II
FI
F II
±2,61 ±1,03 ±0,38 ±0,55 ±1,76 ±0,96
0,04 ±0,52 0,96 ±1,07 ±0,52 0,47
±1,39 ±0,55 ±1,59 1,42
±0,52 ±1,07 1,51 0,90
1,05 1,61 1,46 3,26 2,01
0,90 ±1,13 ±0,64 ±0,70 1,39
Abb. 18.3. Positionen der Gruppenmittelwerte im Diskriminanzraum
Abbildung 18.3 zeigt die Positionen der Gruppenmittelwerte im (hier orthogonal dargestellten) Diskriminanzraum. Der Abbildung ist zu entnehmen, dass der erste Diskriminanzfaktor vor allem die Oberschichtgruppe von den beiden çbrigen Gruppen trennt. Der zweite Diskriminanzfaktor ist ± wie bereits bekannt ± nicht signifikant. Ûber Gl. (18.29) errechnet man folgende Ladungsmatrix: 0 1 0;3451 0;7341 A @ 0;7482 0;6325 A 0;2714 0;6219
Interpretation. Inhaltlich fçhrt die Diskriminanzanalyse somit zu folgendem Ergebnis: Der 1. Diskriminanzfaktor, der vor allem die Oberschicht von der Mittelschicht und Unterschicht trennt, wird hauptsåchlich durch die 2. linguistische Variable (Satzlången) beschrieben. Die beiden çbrigen Variablen tragen weniger zur Trennung der Gruppen bei. Fçr den 2. Diskriminanzfaktor, der die Gruppen allerdings nicht signifikant trennt, ist die 1. Variable (Vielfalt der Wortwahl) am bedeutsamsten. Diese Interpretation wird der Tendenz nach auch durch die standardisierten Diskriminanz-Koeffizienten beståtigt.
a18.4
617
Klassifikation
18.3 Mehrfaktorielle Diskriminanzanalyse Die Ûberprçfung der Unterschiede zwischen Stichproben, die in Bezug auf die Stufen mehrerer unabhångiger Variablen gruppiert sind, erfolgt im Fall mehrerer abhångiger Variablen çber die mehrfaktorielle, multivariate Varianzanalyse (vgl. 17.6). Wenn man zusåtzlich erfahren will, welche Diskriminanzfaktoren den einzelnen Haupteffekten und Interaktionen zu Grunde liegen und wie die abhångigen Variablen jeweils gewichtet sind, wird eine mehrfaktorielle Diskriminanzanalyse erforderlich. Ûber eine mehrfaktorielle Diskriminanzanalyse erfåhrt man, wie bedeutsam die einzelnen abhångigen Variablen fçr die Haupteffekte und Interaktionen sind.
Im Rahmen der mehrfaktoriellen, multivariaten Varianzanalyse unterscheiden wir zwischen einer D-Matrix H, der im univariaten Ansatz die zu testende Varianz entspricht, und einer D-Matrix E als multivariates Gegenstçck zur univariaten Prçfvarianz (vgl. 17.6). In Abhångigkeit davon, ob die untersuchten Faktoren feste oder zufållige Stufen aufweisen, bestimmen wir E nach den in Teil II aufgefçhrten Tabellen bzw. nach dem unter 12.6 beschriebenen Cornfield-Tukey-Verfahren. Die Bestimmungsgleichung fçr die Transformationsvektoren (Eigenvektoren), die zu neuen Achsen (Diskriminanzfaktoren) fçhren, die die Gruppen sukzessiv maximal trennen, lautet in Analogie zu Gl. (18.20):
H E
1
k I v 0 :
18:30
Der çbrige Rechengang, der sich im Wesentlichen auf die Bestimmung der Eigenwerte und Eigenvektoren richtet, entspricht der unter 18.2 dargestellten Vorgehensweise. Ist die Matrix E singulår, sodass keine Inverse existiert, ermitteln wir die Eigenwerte und Eigenvektoren aufgrund der Gleichung
H
k E v 0 :
18:31
Ein Rechenprogramm zur Læsung dieser Gleichung wird bei Cooley u. Lohnes (1971, Kap. 6.4) beschrieben. Eine entsprechende Subroutine findet man z. B. auch im Programmpaket S-PLUS. In der mehrfaktoriellen Diskriminanzanalyse mit p abhångigen Variablen bestimmen wir fçr jeden Haupteffekt und jede Interaktion min
p; dfH
Diskriminanzfaktoren, deren Signifikanz wir nach Gl. (18.7) bzw. mit Pillais PS (vgl. S. 594) çberprçfen. Die Freiheitsgrade dfH sind mit den Freiheitsgraden des entsprechenden Effekts der univariaten Varianzanalyse identisch. Die Interpretation der Diskriminanzfaktoren erfolgt in gleicher Weise wie im Rahmen einer einfaktoriellen Diskriminanzanalyse.
18.4 Klassifikation Håufig stellt sich im Anschluss an eine Diskriminanzanalyse die Frage, wie gut die untersuchten Personen oder Objekte auf Grund der ermittelten Diskriminanzfaktoren den ursprçnglichen Gruppen zugeordnet werden kænnen. Diese Frage wird håufig im Kontext der Diskriminanzanalyse erærtert, obwohl sie eigentlich eine sehr viel allgemeinere, multivariate Technik betrifft. Klassifikationsprobleme tauchen z. B. auf, wenn fçr Personen im Rahmen der Berufsberatung aufgrund ihrer Interessen- bzw. Begabungsprofile ein geeigneter Beruf ausfindig gemacht werden soll, wenn Patienten nach ihrer Symptomatik diagnostiziert werden, wenn die ¹eigentlicheª Parteizugehærigkeit von Politikern auf Grund ihres politischen Verhaltens bestimmt werden soll, wenn fçr neue Mitarbeiter mit bestimmten Ausbildungsprofilen der optimale Arbeitsplatz gesucht wird ± wenn also die typischen Merkmalsprofile von Populationen bekannt sind und einzelne Personen derjenigen Population oder Referenzgruppe zugeordnet werden sollen, zu der sie eine maximale Øhnlichkeit aufweisen. Mit Klassifikationsverfahren kann man çberprçfen, zu welcher von k Gruppen ein Individuum auf Grund seines individuellen Merkmalsprofils am besten passt.
Klassifikationsverfahren unterscheiden sich vor allem in der Art, wie die Øhnlichkeit zweier Merkmalsprofile gemessen wird. Nach Schlosser (1976) unterscheiden wir: · Øhnlichkeitsmaûe auf der Basis von Produkten, wie z. B. die Produktmomentkorrelation. · Øhnlichkeitsmaûe auf der Basis von Differenzen, wie z. B. das Distanzmaû von Osgood u. Suci (1952), der G-Index von Holley u. Guilford (1964), der Psi-Index von Viernstein (1990) oder
18
618
Kapitel 18 ´ Diskriminanzanalyse
die Profil-Øhnlichkeitsmaûe von Cattell (1949), Du Mas (1946) und Cronbach u. Gleser (1953). · Øhnlichkeitsmaûe auf der Basis von Håufigkeits- und Wahrscheinlichkeitsinformationen wie z. B. der Kontingenzkoeffizient, der Øhnlichkeitsindex von Goodall (1966), informationstheoretische Maûe (Attneave, 1950, 1969; Orloci, 1969) bzw. Øhnlichkeitsmessungen nach Lingoes (1968).
Klassifikation und Diskriminanzanalyse
18
Im Kontext der Diskriminanzanalyse will man mit Klassifikationsverfahren herausfinden, wie gut die untersuchten Personen oder Objekte zu den diskriminanzanalytisch verglichenen Gruppen passen. Hierfçr wird ermittelt, in welchem Ausmaû ein individuelles Merkmalsprofil (d. h. die individuellen Merkmalsausprågungen auf den abhångigen Variablen) mit den durchschnittlichen Merkmalsprofilen der k Gruppen çbereinstimmt. Diese Vorgehensweise åhnelt damit einer nichthierarchischen Clusteranalyse, bei der sich die Clusterzugehærigkeit einer Vp ebenfalls danach richtet, wie gut die individuellen Merkmalsausprågungen mit den clusterspezifischen Durchschnittswerten (den Clusterzentroiden) çbereinstimmen. Zu beachten ist jedoch, dass die Gruppen in der Clusteranalyse neu gebildet werden, wåhrend sie bei der hier zu behandelnden Klassifikation vorgegeben sind. An dieser Stelle lieûe sich kritisch anmerken, dass fçr die so beschriebene Zielsetzung einer Klassifikationsprozedur eine Diskriminanzanalyse nicht erforderlich sei. Dieser Einwand ist berechtigt, denn die Feststellung, wie gut die Personen oder Objekte zu den Gruppen passen, ist auch ohne Diskriminanzanalyse mæglich. Man kann jedoch die abhångigen Variablen durch die ermittelten Diskriminanzfaktoren ersetzen und die gleiche Klassifikationsprozedur auf die individuellen Faktorwerte und durchschnittlichen Faktorwerte der Gruppen anwenden. Man fragt dann also nach der Ûbereinstimmung eines individuellen Faktorwertprofils mit den durchschnittlichen Faktorwertprofilen der Gruppen. Im Resultat unterscheiden sich diese beiden Vorgehensweisen nicht, denn die gesamte Information der abhångigen Variablen ist ± wie auf S. 609 bereits erwåhnt ± durch die Diskriminanzfaktoren vollståndig repråsentiert.
Anders wåre es, wenn man fçr die Klassifikation nicht alle, sondern nur die statistisch bzw. inhaltlich bedeutsamen Diskriminanzfaktoren verwenden will. In diesem Fall kænnen die Klassifikationsergebnisse anders ausfallen als bei Verwendung aller abhångigen Variablen bzw. Diskriminanzfaktoren. Im Kontext einer Diskriminanzanalyse kænnen zusåtzlich zu den Diskriminanzfaktoren sog. Klassifikationsfunktionen ermittelt werden (die nicht mit den Diskriminanzfaktoren verwechselt werden dçrfen, vgl. z. B. Gondek, 1981). Mittels dieser Klassifikationsfunktionen, die wir auf S. 623 f. behandeln, kommt man zu den gleichen Zuordnungen wie çber die zunåchst dargestellten Klassifikationsprozeduren.
Klassifikationsprozeduren Wir wollen im Folgenden ein Klassifikationsverfahren aufgreifen, bei dem die Profilåhnlichkeit durch den Abstand (Differenz) zwischen dem Vektor der Mittelwerte der Variablen in einer Zielpopulation bzw. Referenzgruppe und dem Vektor der Merkmalsausprågungen der zu klassifizierenden Person quantifiziert wird. In Verbindung mit der Diskriminanzanalyse werden die Merkmalsausprågungen durch Faktorwerte auf den Diskriminanzfaktoren ersetzt. In diesem Verfahren werden die Personen derjenigen Referenzgruppe zugeordnet, zu der sie den kleinsten Abstand aufweisen. Diese Methode, deren mathematischer Hintergrund bei Tatsuoka (1971, Kap. 4) dargestellt wird, sei im Folgenden fçr i 1; . . . ; p Variablen, die an j 1; . . . ; k Stichproben erhoben wurden, dargestellt.
QCF-Regel. Gegeben sei der folgende Differenzenvektor: 0
djm
1
0
xj
1
d1jm x1j Bd C Bx C B 2jm C B 2j C B C B C B . C B . C B .. C B .. C B C B C B CB C B dijm C B xij C B C B C B . C B . C B . C B . C @ . A @ . A dpjm
xpj
0
xm
1 x1m Bx C B 2m C B . C B . C B . C B C B x C: B im C B . C B . C @ . A xpm
18:32
a18.4
Ein Element dijm des Vektors djm gibt somit die Differenz zwischen der durchschnittlichen Ausprågung des Merkmals i in der Population j und der Ausprågung des Merkmals i bei der Person m wieder. Ferner benætigen wir die Varianz-Kovarianz-Matrix COVj der p Variablen in der Population j, die çblicherweise ± wie auch die Mittelwerte der Merkmale in der Population ± çber eine Stichprobe j geschåtzt wird. Sind die p Variablen in der Population multivariat normalverteilt, kennzeichnet der folgende v2 -Wert den Abstand des individuellen Merkmalsprofils einer Person m vom Durchschnittsprofil einer Population j: d 1 djm ln jCOV d jj : v2jm d0jm COV j
18:33
Diese Zuordnungsregel wird in der diskriminanzanalytischen Literatur (vgl. etwa Huberty, 1994 b, Kap. 4) mit dem Kçrzel ¹QCFª (¹quadratic classification functionª) gekennzeichnet.
LCF-Regel. Eine bessere Schåtzung fçr v2jm erhalten wir, wenn die Varianz-Kovarianz-Matrizen der k Gruppen homogen sind bzw. Schåtzungen einer fçr alle k Gruppen gçltigen Varianz-KovarianzMatrix darstellen, sodass die Varianz-KovarianzMatrizen der einzelnen Gruppen zu einer gemeinsamen Schåtzung zusammengefasst werden kænnen. Ob dies mæglich ist, låsst sich mit dem Box-Test (Box, 1949, s. u.) çberprçfen. Ausgehend von der zusammengefassten Varianz-Kovarianzd 0 errechnet man: Matrix COV d 0 1 djm : v2jm d0jm COV
18:34
Diese Zuordnungsregel wird in Abgrenzung von Gl. (18.33) ¹LCFª genannt (¹linear classification functionª). Fçr den univariaten Fall reduziert sich Gl. (18.34) zu
xjm
xj 2 =s2j z2 v2
1
(gem. Gl. 1.27) :
d 0 bestimmen wir in Analogie zur ZusammenCOV fassung von Varianzen (vgl. S. 140), indem die geschåtzten D-Matrizen der Populationen (Quadratsummen in der Diagonale, Summen der Kreuzprodukte auûerhalb der Diagonale) addiert und durch die Summe der Freiheitsgrade dividiert werden: d 0
D1 D2 Dk =
N COV wobei N n1 n2 nk .
18
619
Klassifikation
k;
18:35
Man berechnet fçr jedes Individuum entweder nach der QCF- oder LCF-Regel einen v2 -Wert und ordnet es derjenigen Referenzgruppe zu, fçr die sich der kleinste v2 -Wert ergibt. Hierbei kann es ± insbesondere bei heterogenen Gruppen ± durchaus vorkommen, dass ein Individuum zu einer anderen Gruppe besser passt als zu der eigenen Gruppe. Ob die QCF- oder die LCF-Regel angewendet werden soll, hångt davon ab, ob die Varianz-Kovarianz-Matrizen homogen sind. Huberty (1984, S. 165) pråferiert die LCF-Regel, weil deren Ergebnisse auch bei kleineren Stichproben und fraglicher Normalitåt der Merkmalsverteilungen stabiler sind.
Box-Test. Um die LCF-Regel anwenden zu kænnen, ist zuvor çber den Box-Test die Homogenitåt der Varianz-Kovarianz-Matrizen sicherzustellen. Der Box-Test bestimmt die folgende, approximativ v2 -verteilte Prçfgræûe B: B
1
C M
18:36
mit d 0j M N ln jCOV
k X
d jj nj ln jCOV
j1
und
2 p2 3 p C 6
p 1
k
! " X k 1 1 1 n j1 j
# 1 : N
B hat p
p 1
k 1=2 Freiheitsgrade. Dieser Test gilt fçr hæchstens 5 abhångige Variablen und hæchstens 5 Gruppen, wobei nj 20 sein sollte. In allen anderen Fållen ist einer approximativ F-verteilten Prçfgræûe (Box, 1949) der Vorzug zu geben, die z. B. bei Cooley und Lohnes (1971, S. 228 f.) oder Harris (1985, S. 130 f.) beschrieben wird. Fçr diesen F-Test sollten nj 10 sein (Genaueres hierzu vgl. Foerster u. Stemmler, 1990). Man beachte, dass der Box-Test multivariat normalverteilte Merkmale voraussetzt und auf Verletzungen dieser Voraussetzungen progressiv reagiert, d. h., er entscheidet eher zu Gunsten heterogener Varianz-Kovarianz-Matrizen, wenn die Normalverteilungsvoraussetzung verletzt ist (vgl. Olson, 1974). Ein robusteres Verfahren wurde ± zumindest fçr den Vergleich von zwei Gruppen ± von Tiku u. Balakrishnan (1985) entwickelt.
620
Kapitel 18 ´ Diskriminanzanalyse
BEISPIEL Fçr 3 Klienten soll entschieden werden, welche von k 3 zur Wahl stehenden Therapien am Erfolg versprechendsten ist. Von n1 50 Klienten, die bereits erfolgreich mit der ersten Therapie, n2 30 Klienten, die bereits erfolgreich mit der zweiten Therapie und n3 80 Klienten, die bereits erfolgreich mit der dritten Therapie behandelt wurden, seien die Ausprågungen von p 2 Therapie relevanten Merkmalen bekannt, sodass die Durchschnittsprofile der Variablen fçr die bereits erfolgreich behandelten Populationen geschåtzt werden kænnen. Es mægen sich die folgenden Mittelwertvektoren ergeben haben: 8 5 4 x1 x2 x3 : 4 6 7 Ausgehend von den Einzelwerten der Klientengruppen, auf deren Wiedergabe wir verzichten, resultieren folgende Varianz-Kovarianz-Matrizen: 4;00 1;50 d1 COV ; 1;50 3;00 3;00 2;00 d2 ; COV 2;00 3;50 3;00 0;50 d3 COV : 0;50 4;00 Die drei Klienten, fçr die die optimale Therapie herausgefunden werden soll, haben auf den beiden Variablen folgende Messwerte erhalten: 3 7 7 x2 x3 : x1 4 7 5 Zunåchst çberprçfen wir mit dem Box-Test, ob die 3 Varianz-Kovarianz-Matrizen homogen sind. Hiervon machen wir es abhångig, ob wir die v2 -Werte fçr die Gruppenzugehærigkeiten nach der QCF-Regel (heterogene VarianzKovarianz-Matrizen) oder nach der LCF-Regel (homogene Varianz-Kovarianz-Matrizen) ermitteln. Die D-Matrizen fçr die 3 Gruppen, die wir fçr die Zusammenfassung der Varianz-Kovarianz-Matrizen nach Gl. d j -Matrizen (18.35) benætigen, erhalten wir, indem die COV mit den entsprechenden Freiheitsgraden multipliziert werden: 4;00 1;50 196;00 73;50 D1 49 ; 1;50 3;00 73;50 147;00 3;00 2;00 87 58 D2 29 ; 2;00 3;50 58 101;5 3;00 0;50 237 39;5 : D3 79 0;50 4;00 39;5 316
18
Die durchschnittliche Varianz-Kovarianz-Matrix ergibt sich nach Gl. (18.35) zu:
d 0
D1 D2 D3 =
N k COV " 196;00 73;50 87 d0 COV 73;50 147;00 58 #, 237 39;5 157 39;5 316 3;31 0;35 : 0;35 3;60
58
101;5
Die fçr Gl. (18.36) benætigten Determinanten lauten: d 1 j 4;00 3;00 jCOV
1;502 9;75 ;
d 2 j 3;00 3;50 jCOV
2;002 6;50 ;
d 3 j 3;00 4;00 jCOV
0;502 11;75 ;
d 0 j 3;31 3;60 jCOV
0;352 11;79 :
Wir errechnen fçr M: M 160 ln 11;79
50 ln 9;75 30 ln 6;50 80 ln 11;75 394;76
367;13
27;63 und fçr C 2 22 3 2 C 6
2 1
3
1 1
1 1 1 50 30 80
1 160
0;36 0;0596 0;021 : Fçr B resultiert somit nach Gl. (18.36): B
1
0;021 27;63 27;05 :
Dieser B-Wert ist mit p
p 1
k 1=2 6 Freiheitsgraden approximativ v2 -verteilt. Der Wert ist signifikant, d. h., die Varianz-Kovarianz-Matrizen sind nicht homogen. Wir berechnen die v2 -Werte fçr die Gruppenzugehærigkeiten somit nach Gl. (18.33). Diese Berechnung sei am Wert v211 , der die Nåhe des Klienten 1 zur Gruppe 1 charakterisiert, verdeutlicht. Nach Gl. (18.32) errechnen wir folgenden Differenzvektor: x1 8 4
x1 d11 3 5 : 4 0
d 1 -Matrix lautet: Die Inverse der COV 0;31 0;15 d 1 : COV 1 0;15 0;41
a18.4
Der v211 -Wert ergibt sich damit zu: 0;31 0;15 5 v211
5; 0 ln 9;75 0;15 0;41 0 5 ln 9;75
1;55; 0;75 0 7;75 2;28 10;03 : In der gleichen Weise bestimmen wir die in Tabelle 18.3 zusammengestellten Werte. Fçr die Klienten 1 und 2 ergibt sich bei der Gruppe 3 und fçr den Klienten 3 bei der Gruppe 2 das kleinste v2 , d. h., die Variablenprofile der Klienten 1 und 2 unterscheiden sich vom Durchschnittsprofil der Gruppe 3 und das Variablenprofil des Klienten 3 vom Durchschnittsprofil der Gruppe 2 am wenigsten. Ausgehend von diesen Werten verspricht die 3. Therapie bei den Klienten 1 und 2 und die 2. Therapie beim Klienten 3 den græûten Erfolg. Diese Klassifikationen håtten mæglicherweise wegen der geringen Variablenzahl auch ohne Berechnung ¹per Augenscheinª erfolgen kænnen. Dies ist jedoch bei græûeren Variablenzahlen nicht mehr mæglich, da neben den Profildifferenzen auch die Kovarianzen zwischen den Variablen in den jeweiligen Zielgruppen mit berçcksichtigt werden mçssen.
Die Berechnung von Klassifikations-v2 -Werten muss nicht in jedem Fall zu einer eindeutigen Entscheidung çber die Populationszugehærigkeit fçhren. Es wåre beispielsweise denkbar, dass die v2 -Werte fçr mehrere Populationen vergleichbar niedrig ausfallen, sodass eine Person mit gleicher Berechtigung mehreren Populationen zugeordnet werden kann. Ferner ist nicht auszuschlieûen, dass fçr eine Person såmtliche v2 -Werte sehr groû sind, sodass eigentlich çberhaupt keine Zuordnung zu einer der untersuchten Zielpopulationen sinnvoll ist. Je nach Fragestellung wird man in einem solchen Fall auf eine Zuordnung gånzlich verzichten oder diejenige Population wåhlen, fçr die sich das kleinste v2 ergeben hat.
Priorwahrscheinlichkeiten. Eine Erweiterung des Klassifikationsverfahrens nach dem Kriterium des kleinsten v2 -Wertes sieht vor, dass neben den Variablenprofilen auch die A-priori-Wahrscheinlichkeiten fçr die Populationszugehærigkeiten (Priorwahrscheinlichkeiten) mit berçcksichtigt werden. Bezogen auf das oben angefçhrte Beispiel kænnten dies diejenigen Wahrscheinlichkeiten sein, mit denen die Therapien çberhaupt angewendet werden. Wenn Therapie A beispielsweise in 80% aller
18
621
Klassifikation
Tabelle 18.3. Beispiel fçr eine Klassifikation nach der QCFRegel Klient
v21m
v22m
v23m
Gruppenzugehærigkeit
1 2 3
10,03 7,18 3,30
8,33 5,72 3,26
4,85 5,53 7,01
Gruppe 3 Gruppe 3 Gruppe 2
Krankheitsfålle zur Anwendung kommt und Therapie B nur in 20% aller Fålle, wird ein zufållig herausgegriffener Klient mit einer Wahrscheinlichkeit von p 0;80 mit der Methode A behandelt werden, wenn keine weiteren Informationen çber den Klienten bekannt sind. Diese A-prioriWahrscheinlichkeiten kænnen auf Grund der bisherigen Erfahrungen mit den relativen Græûen der Zielgruppen geschåtzt, auf Grund theoretischer Ûberlegungen postuliert bzw. durch Extrapolation fçr die Zukunft prognostiziert werden. Nehmen wir einmal an, die Wahrscheinlichkeit, eine beliebig herausgegriffene Person gehære zu einer Population j, wird mit pj geschåtzt. Hierfçr erweitern wir die QCF-Regel in Gl. (18.33) wie folgt: d 1 djm v2jm d0jm COV j d jj ln jCOV
2 ln pj :
18:37
Aus dieser Gleichung wird ersichtlich, dass v2jm durch den Ausdruck
2 ln pj um so weniger vergræûert wird, je græûer die Priorwahrscheinlichkeit fçr die Population j ist (der ln von p-Werten ist negativ und nimmt mit græûer werdendem p-Wert ab). Zunehmende A-priori-Wahrscheinlichkeiten fçr eine Population j erhæhen somit ungeachtet der Øhnlichkeit der Merkmalsprofile die Wahrscheinlichkeit, dass eine beliebige Person dieser Population zugeordnet wird. Geht man davon aus, dass die A-priori-Wahrscheinlichkeiten fçr alle Populationen gleich sind, vergræûern sich die v2 -Werte fçr die einzelnen Populationen jeweils um einen konstanten Wert, sodass sich gegençber den Zuordnungen nach der Beziehung in Gl. (18.33) keine Verånderungen ergeben. Fçr homogene Varianz-Kovarianz-Matrizen ist der LCF-Regel in Gl. (18.34) ebenfalls der Ausdruck 2 ln pj hinzuzufçgen. d 1 djm v2jm d0jm COV 0
2 ln pj
18:38
622
Kapitel 18 ´ Diskriminanzanalyse
Tabelle 18.4. Beispiel fçr eine Klassifikation nach der QCF-Regel unter Berçcksichtigung von Priorwahrscheinlichkeiten p1 = 50/160 = 0,31; 2´ln 0,31 = ±2,34;
p2 = 30/160 = 0,19; 2´ln 0,19 = ±3,32;
p3 = 80/160 = 0,50 2´ln 0,50 = ±1,39
Klient
v21m
v22m
v23m
Gruppenzugehærigkeit
1 2 3
12,37 9,52 5,64
11,65 9,04 6,58
6,24 6,92 8,40
Gruppe 3 Gruppe 3 Gruppe 1
Datenrçckgriff. Repråsentieren die relativen Håufigkeiten in unserem Beispiel die Priorwahrscheinlichkeiten fçr die 3 Gruppen, resultieren die in Tabelle 18.4 genannten Zuordnungen auf Grund der nach Gl. (18.37) berechneten v2 -Werte. Die Berçcksichtigung der A-priori-Wahrscheinlichkeiten hat somit dazu gefçhrt, dass der dritte Klient nicht mehr ± wie in Tabelle 18.3 ± der 2., sondern der 1. Gruppe zuzuordnen ist.
j
18
v2jm =2
e
v2jm =2
;
e e e j
Ausgehend von Gl. (18.37) låsst sich relativ einfach die Wahrscheinlichkeit ermitteln, dass eine bestimmte Person mit dem Merkmalsprofil xm zur Grundgesamtheit j mit dem Profil xj gehært. Diese Wahrscheinlichkeit bestimmen wir nach folgender Beziehung:
18:39
wobei e 2;71828. Der Ausdruck p
Gj jxm kennzeichnet die Wahrscheinlichkeit, dass eine Person mit dem Profil xm zur Grundgesamtheit j gehært. Gleichung (18.39) stimmt mit anderen Notationen fçr die Berechnung von Zuordnungswahrscheinlichkeiten nach der QCF-Regel çberein (vgl. z. B. Huberty u. Curry, 1978, Gl. 2). Sollen Zuordnungswahrscheinlichkeiten nach der LCF-Regel bestimmt werden, verwendet man in Gl. (18.39) die v2jm -Werte nach Gl. (18.38). In unserem Beispiel erhalten wir fçr Gl. (18.39):
e 9;52=2 0;0086 e 9;04=2 0;0108 e 6;92=2 0;0314 P
v2 =2 e j2 0;0508
j
5;64=2 8;40=2
e
j
0;0596 0;0372 0;0150
6;58=2
P
Zuordnungswahrscheinlichkeiten
e p
Gj jxm P
e 12;37=2 0;0021 e 11;65=2 0;0029 e 6;24=2 0;0442 P
v2 =2 e j1 0;0492
v2j3 =2
0;1118 :
Dividieren wir e
v2jm =2
durch
P j
e
v2jm =2
, erhalten
wir die in Tabelle 18.5 genannten Zuordnungswahrscheinlichkeiten. Auch auf Grund dieser Wahrscheinlichkeitswerte werden ± wie in Tabelle 18.4 ± die Klienten 1 und 2 der Gruppe 3 und der Klient 3 der Gruppe 1 zugeordnet. Die sicherste Entscheidung kænnen wir bezçglich des Klienten 1 treffen, der mit einer Wahrscheinlichkeit von p
G3 jx1 0;898 zur Gruppe 3 gehært. Der Vollståndigkeit halber soll die Klassifikationsprozedur am gleichen Material auch fçr den Fall homogener Varianz-Kovarianz-Matrizen demonstriert werden, also gemåû Gl. (18.34) bzw. (18.38). Wir entnehmen dem Box-Test d 0 3;31 0;35 COV 0;35 3;60 Tabelle 18.5. Zuordnungswahrscheinlichkeiten nach der QCF-Regel Klient
p
G1 j xm
p
G2 j xm
p
G3 j xm
1 2 3
0,043 0,169 0,533
0,059 0,213 0,333
0,898 0,622 0,134
a18.4
18
623
Klassifikation
Tabelle 18.6. v2jm -Werte nach der LCF-Regel Klient
v21m
v22m
v23m
1 2 3
7,63 3,01 0,65
2,11 1,38 1,62
2,65 2,75 4,23
Cjm cj0 cj1 x1m cj2 x2m cjp xpm p X cj0 cji xim ;
18:40 i1
wobei d 1 xj cj COV 0
Tabelle 18.7. v2jm -Werte nach der LCF-Regel mit Priorwahrscheinlichkeiten Klient
v21m
v22m
v23m
1 2 3
9,96 5,46 2,97
5,46 4,73 4,97
4,04 4,13 5,61
p
G1 j xm
p
G2 j xm
p
G3 j xm
1 2 3
0,034 0,239 0,611
0,318 0,324 0,225
0,648 0,437 0,163
und bestimmen 0;3053 1 d COV0 0;0297
0;0297 : 0;2807
0;5 c0j xj :
c0
Die Klassifikationskoeffizienten fçr die Gruppe
j 1 lauten im Beispiel:
Tabelle 18.8. Zuordnungswahrscheinlichkeiten nach der LCF-Regel Klient
und
erste
d 1 COV 0
x1 c1 0;0297 8 2;3233 : 0;2807 4 0;8852
0;3053 0;0297
Fçr c10 ergibt sich c10
8 0;5
2;3233; 0;8852 4
11;0637 :
Damit erhålt man fçr die erste Person nach Gl. (18.40) den folgenden Klassifikationswert fçr die erste Gruppe: C11
:
Tabelle 18.6 zeigt die nach Gl. (18.34) errechneten v2jm -Werte. Unter Berçcksichtigung der in Tabelle 18.4 genannten A-priori-Wahrscheinlichkeiten erhålt man durch Subtraktion von 2 ln pj die in Tabelle 18.7 genannten Werte. Es ergeben sich also die gleichen Zuordnungen wie in Tabelle 18.4 mit heterogenen Varianz-Kovarianz-Matrizen. Diese Klassifikation wird durch die nach Gl. (18.39) berechneten Zuordnungswahrscheinlichkeiten beståtigt (Tabelle 18.8).
Klassifikationsfunktionen Die Zuordnung von Individuen zu den untersuchten Gruppen wird durch sog. Klassifikationsfunktionen erleichtert, die nach folgender Gleichung zu berechnen sind (vgl. z. B. Tabachnik u. Fidell, 1983, Kap. 9.4.2; zur Herleitung und Beziehung dieser Klassifikationsfunktionen zu den Diskriminanzfaktoren der Diskriminanzanalyse vgl. Green, 1979):
Mit c1 c3
11;0637 2;3233 3 0;8852 4 0;5529 : 2;3233
0;8852 1;0133
;
c2
1;3482 1;5356
;
1;8459
und c10 c30
11;0637;
c20
7;9773;
8;4873
ergeben sich die in Tabelle 18.9 wiedergegebenen Klassifikationswerte aller Personen fçr die 3 Gruppen. Unter Berçcksichtigung der aus den Stichprobenumfången geschåtzten Priorwahrscheinlichkeiten sind diese Klassifikationswerte wie folgt zu modifizieren. C0jm cj0
p X i1
cji xim ln pj :
18:41
624
Kapitel 18 ´ Diskriminanzanalyse
Tabelle 18.9. Klassifikationswerte (ohne Priorwahrscheinlichkeiten) Klient
C1m
1 2 3
±0,5529 11,3961 9,6256
C2m
C3m
2,2097 12,2093 9,1381
1,9362 11,5271 7,8352
Tabelle 18.10. Klassifikationswerte (mit Priorwahrscheinlichkeiten) C01m
Klient 1 2 3
±1,7160 10,2329 8,4624
C02m
C03m
0,5357 10,5353 7,4641
1,2431 10,8340 7,1421
Tabelle 18.11. Zuordnungswahrscheinlichkeiten auf Grund der Klassifikationswerte in Tabelle 18.10 Klient
p
G1 j xm
p
G2 j xm
p
G3 j xm
1 2 3
0,034 0,239 0,611
0,319 0,324 0,225
0,647 0,437 0,163
Nach dieser Gleichung ergeben sich die in Tabelle 18.10 genannten Klassifikationswerte. Aus diesen Werten kænnen nach folgender Gleichung die eigentlich interessierenden Zuordnungswahrscheinlichkeiten bestimmt werden: 0
ecjm p
Gj jxm P c0 : e jm
18:42
spiel) oder einer der Gruppen angehæren kænnen (interne Analyse). Die Klassifikationswerte kænnen im Fall einer ¹internen Analyseª auch unter Verwendung der Diskriminanzfaktoren bzw. der Faktorwerte der Vpn auf den Diskriminanzfaktoren ermittelt werden. Setzt man hierbei alle Diskriminanzfaktoren ein, kommen beide Vorgehensweisen zu identischen Ergebnissen (vgl. Kshirsagar u. Aserven, 1975).
Nicht klassifizierbare Personen Da die Mæglichkeit, dass eine Person eventuell zu keiner der untersuchten Gruppen gehært, in der Wahrscheinlichkeitsberechnung nicht berçcksichtigt wird, addieren sich die Einzelwahrscheinlichkeiten einer Person zu 1. Die Wahrscheinlichkeitswerte sind somit nur im Kontext der verglichenen Gruppen zu interpretieren und implizieren keine Absolutaussagen çber die Gruppenzugehærigkeit. Um eine Kategorie ¹nicht klassifizierbarª zu objektivieren, kænnte man einen Schwellenwert ± z. B. p
Gj jxm > 0,5 ± festlegen, der von einer individuellen Zuordnungswahrscheinlichkeit çberschritten werden muss, um eine Gruppenzuordnung rechtfertigen zu kænnen. Liegen alle Wahrscheinlichkeiten einer Person unter diesem Schwellenwert, wåre die Person der Kategorie ¹nicht klassifizierbarª zuzuordnen. Hierbei ist natçrlich zu beachten, dass die Wahl eines Schwellenwertes von der Anzahl der Gruppen abhångig sein sollte. Weitere Klassifikationshilfen findet man bei McKay u. Campbell (1982).
j
Man errechnet X c0 e j1 5;3548; j
X
X
0
ecj2 116 139;523;
j
e
c0j3
7 741;770
j
18
und damit die in Tabelle 18.11 wiedergegebenen Zuordnungswahrscheinlichkeiten. Diese Werte stimmen mit den in Tabelle 18.8 genannten Wahrscheinlichkeiten çberein. Die Gl. (18.40) und (18.41) verwenden als Input die Werte von Vpn auf den abhångigen Variablen, wobei die Vpn bereits existierenden Gruppen zugeordnet werden (externe Analyse wie im Bei-
Bewertung von Klassifikationen Ist die Gruppenzugehærigkeit der klassifizierten Personen oder Objekte, wie z. B. in der Diskriminanzanalyse, bekannt (¹interne Analyseª), kann man anhand einer Kontingenztafel prçfen, wie viele Personen richtig und wie viele falsch klassifiziert wurden. Tabelle 18.12 gibt hierfçr ein kleines Beispiel. Die richtig klassifizierten Personen (¹hitsª) befinden sich in der Diagonale und die falsch klassifizierten auûerhalb der Diagonale. In diesem Beispiel resultiert eine Hitrate von
140 40 35= 300 0;717 bzw. 71,7%.
a18.4
625
Klassifikation
Tabelle 18.12. Zusammenfassung einer Klassifikationsanalyse (interne Analyse)
1 wahre Gruppe 2 3
vorhergesagte Gruppe 2 3 1 140 20 40 5 40 5 2 13 35 147 73 80
200 50 50 300
Stichprobenbedingte Hitraten çberschåtzen in der Regel die wahren, fçr die Population gçltigen Hitraten und sollten deshalb einer Kreuzvalidierung (auch ¹externe Analyseª) unterzogen werden (vgl. z. B. Michaelis, 1973, oder Huberty et al., 1987). Hierfçr klassifiziert man eine weitere Stichprobe von Vpn, deren Gruppenzugehærigkeit bekannt ist, die aber nicht in die Berechnung der Klassifikationsvorschriften eingingen. Fçr den Fall, dass keine externe Stichprobe zur Verfçgung steht, kænnen ersatzweise die beiden folgenden Prozeduren angewendet werden (vgl. Huberty et al., 1987). · ¹Hold-out-sampleª-Methode: Hierbei bleiben die zu klassifizierenden Personen bei der Berechnung der Klassifikationsstatistiken unberçcksichtigt, d. h., man splittet die Gesamtstichprobe in eine ¹Konstruktionsstichprobeª und eine ¹Klassifikationsstichprobeª. Diese Methode ist nur fçr groûe Stichproben geeignet. · ¹Leave-one-outª-Methode: Bei dieser auf Lachenbruch (1967) zurçckgehenden Methode besteht die Konstruktionsstichprobe aus N 1 Personen, wobei die nicht berçcksichtigte Person zu klassifizieren ist. Diese Prozedur wird N-mal durchgefçhrt, sodass jede Person (d. h. die jeweils ausgelassene Person) auf der Basis einer Konstruktionsstichprobe von N 1 Personen klassifiziert werden kann. Mit einer Monte-Carlo-Studie belegen Huberty u. Curry (1978; vgl. auch Huberty, 1984), dass die LCF-Regel in Verbindung mit der ¹Leave-oneoutª-Methode der QCF-Regel geringfçgig çberlegen ist, vor allem bei kleineren Stichproben und zweifelhafter Normalverteilung. Bezogen auf eine
¹interne Analyseª, bei der die Konstruktionsstichprobe und Klassifikationsstichprobe identisch sind, votieren die Autoren eindeutig fçr die Anwendung der QCF-Regel.
Zufållige Hitraten. Bei der Interpretation der Ergebnisse einer (internen oder externen) Klassifikationsanalyse ist die zufållige Hitrate bzw. die Anzahl e der zufållig richtig klassifizierten Personen zu beachten. Diese ergibt sich fçr jede Gruppe zu ejj pj nj bzw. ± falls die Priorwahrscheinlichkeiten pj durch nj =N geschåtzt werden ± zu ejj n2j =N. Fçr alle k Gruppen erhålt man also X X 1 X 2 e ejj pj nj n :
18:43 N j j j j Der Anzahl der richtig klassifizierten Personen
o in Tabelle 18.12
o 215 oder 71,7%) stehen also e
2002 502 502 =300 150 (50%) zufållige Hits gegençber. Sind alle pj -Werte identisch, vereinfacht sich Gl. (18.43) zu 1 e k n2 n
18:44 N P mit n1 n2 nk n und nj N. j
Die Frage, ob die beobachtete Hitrate çberzufållig ist, låsst sich çber die Binomialverteilung çberprçfen, wenn man von einer zufållig erwarteten Hitrate von pe e=N ausgeht (Gl. 2.36 mit k = o, n = N und p = e/N). Ist die Anzahl N aller klassifizierten Personen groû, kann die Binomialverteilung durch eine Normalverteilung approximiert werden (vgl. S. 77 f.), sodass sich die folgende Standard normalverteilte Prçfgræûe ergibt: p
o e N p z :
18:45 e
N e (Hinter Gl. 18.45 verbirgt sich die bekannte z-Transformation: z p
x =r mit x o; e und r p q N, wobei p e=N und q 1 p
N e=N ist). Fçr das Beispiel in Tabelle 18.12 errechnet man p
215 150 300 z p 7;51 : 150
300 150 Die beobachtete Hitrate ist damit weit çberzufållig.
18
626
Kapitel 18 ´ Diskriminanzanalyse
Alternativ zu dem in Gl. (18.45) genannten Signifikanztest kann die statistische Bedeutung der Hitrate auch çber Cohens j (s. Gl. 16.15) geprçft werden (vgl. Wiedemann u. Fenster, 1978). Mit pe 150=300 0; 5 und po 215=300 0;717 errechnet man nach Cohen (1960): 0;717 0;5 0;434 : j 1 0;5 Auch dieser Wert ist nach dem einseitigen Signifikanztest von Fleiss et al. (1969; vgl. hierzu auch Bortz et al., 2000 oder Bortz u. Lienert, 2003, Kap. 6.1.1) hochsignifikant. Man beachte, dass Pe hier nicht çber Gl. (16.17) bestimmt wird. Die Anzahl zufållig richtig klassifizierter Personen hångt ausschlieûlich von der Prior-Wahrscheinlichkeit pj der Gruppe j und der Gruppengræûe nj ab (s. Gl. 18.43). Will man die Hitraten fçr einzelne Gruppen testen, ist in Gl. (18.45) o durch ojj (die beobachtete Anzahl richtig klassifizierter Personen in Gruppe j), e durch ejj n2j =N (die Anzahl zufållig richtig klassifizierter Personen in Gruppe j) und N durch nj zu ersetzen. Bezogen auf Tabelle 18.12 errechnet man fçr die erste Gruppe p
140 133;33 200 p z 1;00 : 133;33 66;67 Dieser Wert ist nicht signifikant. Die z-Werte fçr die beiden çbrigen Gruppen lauten 12,00 und 10,11. ÛBUNGSAUFGABEN
a) fçr Faktor A (6 Stufen) b) fçr Faktor B (2 Stufen) c) fçr die Interaktion A B ermittelt werden? 6. Nach Amthauer (1970) erreichen Ørzte, Juristen und Pådagogen in den Untertests Analogien (AN), Figurenauswahl (FA) und Wçrfelaufgaben (WÛ) des IntelligenzStruktur-Tests (IST) folgende Durchschnittswerte:
AN FA WÛ
Ørzte
Juristen
Pådagogen
114 111 110
111 103 100
105 101 98
Ein Abiturient hat in den gleichen Untertests folgende Leistungen erzielt: AN = 108,
FA = 112,
WÛ = 101.
Welcher Berufsgruppe wåre der Abiturient aufgrund dieser Informationen zuzuordnen, wenn wir fçr alle 3 Gruppen gleiche A-priori-Wahrscheinlichkeiten annehmen? Die durchschnittliche Varianz-Kovarianz-Matrix lautet: 0
1 30 32 100 44 A : 44 100
1. Nach welchem Kriterium werden in der Diskriminanzanalyse aus abhångigen Variablen Linearkombinationen erstellt?
100 c 0 @ 30 cov 32
2. Was versteht man unter einem Diskriminanzraum?
Als Inverse wurde ermittelt:
3. Ist es mæglich, dass sich k Gruppen bezçglich mehrerer abhångiger Variablen auf Grund einer einfaktoriellen, multivariaten Varianzanalyse nicht signifikant unterscheiden, dass aber eine Diskriminanzanalyse çber dasselbe Untersuchungsmaterial zu einer signifikanten Trennung der Gruppen fçhrt? 4. Auf Grund welcher Kennwerte lassen sich Diskriminanzfaktoren inhaltlich interpretieren?
18
5. Mit einer zweifaktoriellen Diskriminanzanalyse soll çberprçft werden, ob die Ausbildung im Fach Psychologie in 6 europåischen Låndern gleichwertig ist. 50 zufållig ausgewåhlte månnliche und 50 weibliche Examenskandidaten aus jedem der 6 Lånder erhalten hierfçr einen Fragebogen, mit dem der Wissensstand in 7 Teilbereichen der Psychologie erfasst wird. Es handelt sich somit um einen 6 2-Versuchsplan mit 7 abhångigen Variablen. Wieviele Diskriminanzfaktoren kænnen
0
c0 cov
1
0; 0115 @ 0; 0023 0; 0027
0; 0023 0; 0129 0; 0049
1 0; 0027 0; 0049 A : 0; 0130
7. Mit welchen Verfahren kann man diskriminanzanalytische Klassifikationen bewerten?
627
Kapitel 19 Kanonische Korrelationsanalyse
ÛBERSICHT Grundprinzip der kanonischen Korrelationsanalyse ± Anzahl der kanonischen Korrelationen ± Voraussetzungen ± Redundanzmaûe ± kanonische Faktorladungen ± Strukturkoeffizienten ± ¹setª-Korrelation ± mathematischer Hintergrund der kanonischen Korrelation ± die kanonische Korrelation als allgemeiner Læsungsansatz: multiple Korrelation ± Produkt-Moment-Korrelation ± Diskriminanzanalyse ± univariate Varianzanalyse ± t-Test fçr unabhångige Stichproben ± k `-v2 -Test ± k 2-v2 -Test ± Vierfelderv2 -Test ± Schlussbemerkung
Wåhrend die multiple Korrelation den Zusammenhang zwischen mehreren (Prådiktor-)Variablen und einer (Kriteriums-)Variablen çberprçft, wird durch die kanonische Korrelationsanalyse die Beziehung zwischen mehreren (Prådiktor-) Variablen und mehreren (Kriteriums-)Variablen ermittelt. Die kanonische Korrelationsanalyse, die von Hotelling (1935, 1936) entwickelt wurde, ist somit anwendbar, wenn es um die Bestimmung des Zusammenhangs zwischen zwei Variablenkomplexen geht.
auch das Erziehungsverhalten durch gezielte Tests, Fragebægen und Beobachtungen in mæglichst vielen Teilaspekten zu erfassen. Die kanonische Korrelation untersucht, wie das multivariat erfasste Erziehungsverhalten mit der multivariat erhobenen Persænlichkeitsstruktur zusammenhångt. Die Mæglichkeit, das angedeutete Problem durch die Berechnung vieler bivariater bzw. multipler Korrelationen zu læsen, scheidet aus, weil diese Vorgehensweise zu ¹Scheinsignifikanzenª fçhren kann (vgl. S. 271). Liegen beispielsweise 10 Prådiktorvariablen und 10 Kriteriumsvariablen vor, ergeben sich insgesamt 100 bivariate Korrelationen und 10 multiple Korrelationen, çber deren Signifikanz nur nach einer angemessenen a-Fehleradjustierung entschieden werden kann. Dieser Ansatz wåre zudem sehr umståndlich und fçhrt zu Ergebnissen, die den Gesamtzusammenhang im Allgemeinen unterschåtzen.
Die kanonische Korrelation erfasst den Zusammenhang zwischen mehreren Prådiktorvariablen und mehreren Kriteriumsvariablen.
So wie eine multiple Korrelation immer græûer oder zumindest genau so groû ist wie die græûte Einzelkorrelation, ist die kanonische Korrelation immer græûer oder zumindest genau so groû wie die græûte der einzelnen multiplen Korrelationen.
Diesem Verfahren kommt in den empirischen Human- und Sozialwissenschaften insoweit eine besondere Bedeutung zu, als hier viele Merkmale sinnvollerweise nur durch mehrere Variablen operationalisiert werden kænnen (z. B. sozialer Status, Intelligenz, Berufserfolg, Eignung, Therapieerfolg, psychopathologische Symptomatik, Erziehungsstil, Aggressivitåt usw.). Geht es beispielsweise um den Zusammenhang zwischen der Persænlichkeitsstruktur von Våtern und deren Erziehungsstil, wåre es angesichts der Komplexitåt beider Merkmale sinnvoll, sowohl die Persænlichkeitsstruktur als
Mit Hilfe der kanonischen Korrelationsanalyse sind wir in der Lage, die systemartigen Zusammenhånge zwischen den beiden Variablensåtzen durch wenige Koeffizienten vollståndig zu beschreiben. Geht es nicht um die Analyse von Zusammenhången, sondern um die Vorhersage mehrerer Kriteriumsvariablen durch mehrere Prådiktorvariablen, sollte statt mehrerer multipler Regressionen die multivariate Regression eingesetzt werden. Einzelheiten hierzu findet man z. B. bei Timm (2002, Kap. 4).
19
628
Kapitel 19 ´ Kanonische Korrelationsanalyse
" 19.1 Grundprinzip und Interpretation Soll der kanonische Zusammenhang zwischen p Prådiktorvariablen und q Kriteriumsvariablen berechnet werden, ermitteln wir zunåchst folgende Supermatrix von bivariaten Korrelationen: Rx Rxy R
19:1 Ryx Ry In dieser Gleichung bedeuten: Rx Korrelationsmatrix der Prådiktorvariablen, Ry Korrelationsmatrix der Kriteriumsvariablen, Rxy R0yx pxq-Matrix der Korrelationen zwischen den einzelnen Prådiktor- und Kriteriumsvariablen. Die weitere Vorgehensweise hat ± wie auch die Diskriminanzanalyse ± viele Gemeinsamkeiten mit der PCA (vgl. hierzu auch Witte u. Horstmann, 1976). In der PCA werden aus p Variablen diejenigen Linearkombinationen oder Faktoren bestimmt, die sukzessiv maximale Varianz aufklåren, wobei die einzelnen Faktoren orthogonal sein sollen. Das kanonische Modell impliziert im Prinzip zwei getrennt durchzufçhrende PCAs, wobei eine PCA çber die Prådiktorvariablen und die andere çber die Kriteriumsvariablen gerechnet wird. Wåhrend jedoch die erste Hauptachse in der PCA nach dem Kriterium der maximalen Varianzaufklårung festgelegt wird, werden in der kanonischen Korrelationsanalyse die ersten Achsen in den beiden Variablensåtzen so bestimmt, dass zwischen ihnen eine maximale Korrelation, die als kanonische Korrelation bezeichnet wird, besteht. In einer kanonischen Korrelationsanalyse werden die Prådiktorvariablen und Kriteriumsvariablen getrennt faktorisiert. Der erste Faktor der Prådiktorvariablen und erste Faktor der Kriteriumsvariablen werden so rotiert, dass deren Korrelation ± die kanonische Korrelation ± maximal wird.
Formal låsst sich das Problem folgendermaûen veranschaulichen: Aus dem Satz der Prådiktorvariablen werden Linearkombinationen ^xm bestimmt, die maximal mit den aus den Kriteriumsvariablen linear kombinierten ^ ym -Werten korrelieren:
19
^x1 v1 x11 v2 x12 vp x1p ^x2 v1 x21 v2 x22 vp x2p .. .. .. .. . . . . ^xn v1 xn1 v2 xn2 vp xnp
19:2 ^y1 w1 y11 w2 y12 wq y1q ^y2 w1 y21 w2 y22 wq y2q .. .. .. .. . . . . ^yn w1 yn1 w2 yn2 wq ynq : Das obere Gleichungssystem bezieht sich auf die p Prådiktoren (x-Variablen) und das untere Gleichungssystem auf die q Kriterien
y-Variablen). Die Gleichungssysteme (19.2) fassen wir in Matrixschreibweise folgendermaûen zusammen: ^x X v ; y^ Y w :
19:3 a
19:3 b
Die Aufgabe der kanonischen Korrelationsanalyse besteht darin, die beiden Gewichtungsvektoren v und w so zu bestimmen, dass die resultierenden ^x- und ^ y-Werte maximal miteinander korrelieren.
Die kanonische Korrelation (CR) ist dann nichts anderes als die Produkt-Moment-Korrelation zwischen den ^x-Werten und ^y-Werten: CR r^x^y :
19:4
Die Læsung dieses Problems låuft auf die Ermittlung der Eigenwerte der folgenden, nicht symmetrischen quadratischen Matrix hinaus:
Rx 1 Rxy Ry 1 Ryx
k2 I v 0 :
19:5
Die Wurzel aus dem græûten Eigenwert k2 dieser Matrix stellt die maximale kanonische Korrelation dar. Ausgehend von den Eigenwerten dieser Matrix kænnen der v-Vektor der Gewichte der Prådiktorvariablen und der w-Vektor der Gewichte der Kriteriumsvariablen bestimmt werden (genauer hierzu s. 19.2).
Anzahl der kanonischen Korrelationen Im Zusammenhang mit der PCA haben wir gelernt, dass durch einen Faktor praktisch niemals die Gesamtvarianz der Vpn auf den einzelnen Va-
a19.1
riablen aufgeklårt wird. Im Allgemeinen ergibt sich eine beachtliche Restvarianz, die ausreicht, um mindestens einen zweiten, vom ersten unabhångigen Faktor zu bestimmen. Entsprechendes gilt auch fçr die kanonische Korrelationsanalyse. Nachdem aus dem Satz der Prådiktorvariablen und dem Satz der Kriteriumsvariablen jeweils ein Faktor extrahiert wurde, die maximal miteinander korrelieren, verbleibt fçr beide Variablensåtze im Allgemeinen eine Restvarianz. Sowohl aus der Restvarianz der Prådiktorvariablen als auch der Restvarianz der Kriteriumsvariablen wird ein weiterer Faktor extrahiert, wobei der zweite Prådiktorfaktor unabhångig vom ersten Prådiktorfaktor und der zweite Kriteriumsfaktor unabhångig vom ersten Kriteriumsfaktor sein muss. Die Extraktion der beiden zweiten Faktoren unterliegt wiederum der Bedingung, dass sie maximal miteinander korrelieren. Die Korrelation dieser beiden Faktoren stellt die zweite kanonische Korrelation dar. Nach diesem Prinzip der sukzessiv maximalen Kovarianz-Aufklårung werden weitere kanonische Korrelationen ermittelt, bis die Gesamtvarianz in einem der beiden Variablensåtze erschæpft ist. Aus der Faktorenanalyse wissen wir, dass p wechselseitig korrelierte Variablen maximal in p wechselseitig unabhångige Faktoren çberfçhrt werden kænnen, d. h. die Varianz von p Variablen ist erschæpft, nachdem p Faktoren ermittelt wurden. Insgesamt kænnen in einer kanonischen Korrelationsanalyse also p (wenn p q bzw. q (wenn q p kanonische Korrelationen ermittelt werden. Die Anzahl der kanonischen Korrelationen entspricht der Anzahl der Variablen im kleineren Variablensatz.
Allgemein bezeichnen wir die Anzahl der kanonischen Korrelationen mit r min
p; q. Mit diesen r kanonischen Korrelationen wird die Varianz des kleineren Variablensatzes vollståndig erschæpft. Im græûeren Variablensatz bleibt eine Restvarianz çbrig, die mit dem kleineren Variablensatz keine gemeinsame Kovarianz hat.
Signifikanztests Die Frage, ob der durch alle r kanonischen Korrelationen erfasste Gesamtzusammenhang der bei-
19
629
Grundprinzip und Interpretation
den Variablensåtze statistisch bedeutsam ist, çberprçfen wir mit folgendem Test (vgl. z. B. Tatsuoka, 1971, S. 188): r X V N 3=2
p q=2 ln
1 k2s : s1
19:6 Der V-Wert ist mit p q Freiheitsgraden approximativ v2 -verteilt. Wurden bereits t kanonische Korrelationen bestimmt, çberprçfen wir mit Gl. (19.7), ob die verbleibende Kovarianz noch signifikant ist: r X Vt N 3=2
p q=2 ln
1 k2s : st1
19:7 Dieser Vt-Wert hat
p t
q t Freiheitsgrade. Ist Vt nicht signifikant, sind nur die ersten t kanonischen Korrelationen statistisch bedeutsam, und die çbrigen r t kanonischen Korrelationen mçssen auf Stichproben bedingte Zufålligkeiten zurçckgefçhrt werden. (Einen Vergleich dieser Teststatistik mit anderen Teststatistiken findet man bei Mendoza et al., 1978.)
Voraussetzungen. Die Signifikanzçberprçfung kanonischer Korrelationen setzt bei kardinalskalierten Prådiktorvariablen und Kriteriumsvariablen voraus, dass sowohl die Prådiktoren als auch die Kriterien in der Population multivariat normalverteilt sind. Haben die Prådiktoren dichotomen Charakter (Indikatorvariablen, vgl. 14.1), mçssen die Kriteriumsvariablen in allen durch die dichotomen Prådiktorvariablen spezifizierten Populationen multivariat normalverteilt sein. (Zur Verwendung dummykodierter Kriteriumsvariablen vgl. S. 643.) Ûber einen Signifikanztest, der keine multivariate Normalverteilung voraussetzt, berichtet Wilcox (1995). Kennwerte Fçr die Interpretation von Korrelationen wird håufig das Quadrat des Korrelationskoeffizienten (Determinationskoeffizient) als Anteil gemeinsamer Varianz zwischen zwei Messwertreihen herangezogen. Dieser Anteil der gemeinsamen Varianz dient dazu, die Vorhersagbarkeit der einen
630
Kapitel 19 ´ Kanonische Korrelationsanalyse
Variablen durch die andere Variable einzuschåtzen ± eine Interpretation, die bei der kanonischen Korrelation in dieser Weise nicht mæglich ist. Stattdessen verwenden wir hier sog. Redundanzmaûe (Steward u. Love, 1968).
Redundanzmaûe. Ein Variablensatz mæge aus allen Untertests eines Intelligenztests bestehen und ein weiterer nur aus zwei Untertests eines anderen Intelligenztests (z. B. rechnerisches Denken und råumliches Vorstellungsvermægen). Welcher Variablensatz als Prådiktorsatz oder Kriteriumssatz bezeichnet wird, ist formal ohne Bedeutung. Der eine Variablensatz erfasst somit das gesamte Spektrum der allgemeinen Intelligenz und der andere Variablensatz nur zwei spezielle Intelligenzaspekte. Es ist leicht einzusehen, dass in diesem Beispiel die Pråzision von Vorhersagen in beide Richtungen nicht identisch sein kann. Wollen wir die spezielle Intelligenz auf Grund der allgemeinen Intelligenz vorhersagen, wird dies eher mæglich sein als die Vorhersage der allgemeinen Intelligenz aufgrund der speziellen Intelligenz. Die kanonische Korrelationsanalyse liefert Redundanzmaûe, mit deren Hilfe man abschåtzen kann, wie redundant der eine Variablensatz ist, wenn die Messwerte der Vpn auf den anderen Variablen bekannt sind. Wie diese Redundanzmaûe zustande kommen, erlåutert das folgende Zahlenbeispiel. BEISPIEL
19
Aus einem Satz von Kriteriumsvariablen wird der fçr die Berechnung der ersten kanonischen Korrelation benætigte erste Kriteriumsfaktor extrahiert. Dieser Faktor mæge von der gesamten Varianz der Kriteriumsvariablen 80% aufklåren. Wenn nun die erste kanonische Korrelation CR 0;707 betrågt, existiert zwischen dem ersten Kriteriumsfaktor und dem ersten Prådiktorfaktor eine gemeinsame Varianz von 50%, die dem Quadrat der kanonischen Korrelation entspricht
0;7072 0;50. Da der erste Kriteriumsfaktor 80% der Kriteriumsvarianz aufklårt und die gemeinsame Varianz 50% betrågt, werden 40% der Kriteriumsvarianz durch den ersten Prådiktorfaktor vorhergesagt (50% von 80% 40%. Die erste kanonische Korrelation besagt somit, dass 40% der Kriteriumsvarianz auf Grund der Prådiktorvariablen redundant sind. Auf der Prådiktorseite mæge der erste Faktor 60% aufklåren, was bedeutet, dass (wegen der gemeinsamen Varianz von 50%) 30% der Prådiktorvariablenvarianz auf Grund der Kriteriumsvariablen redundant sind. Man erkennt also, dass wegen der unterschiedlichen ¹Beteiligungª der Prådiktor- und Kriteriumsvariablen an
der kanonischen Korrelation von CR 0;707 (die Prådiktorvariablen sind an dieser Korrelation mit 60% und die Kriteriumsvariablen mit 80% beteiligt) die Kriteriumsvariablen angesichts der Prådiktorvariablen eine hæhere Redundanz aufweisen als umgekehrt. Man spricht deshalb auch von asymmetrischen Redundanzmaûen. (Die Redundanzen wåren symmetrisch, wenn der erste Prådiktorfaktor ganauso viel Varianz erklårt wie der erste Kriteriumsfaktor.)
Die Redundanzmaûe werden fçr alle einzelnen kanonischen Korrelationen ermittelt und çber die kanonischen Korrelationen summiert. Es ergibt sich somit ein Gesamtredundanzmaû fçr die Prådiktorvariablen, das die Redundanz der Prådiktorvariablen bei Bekanntheit der Kriteriumsvariablen charakterisiert, und ein Gesamtredundanzmaû fçr die Kriteriumsvariablen, das die Redundanz der Kriteriumsvariablen bei Bekanntheit der Prådiktorvariablen wiedergibt (vgl. hierzu auch S. 636 f.). Fçr die inhaltliche Interpretation einer kanonischen Korrelationsanalyse stehen zusåtzlich die folgenden Indikatoren zur Verfçgung:
Gewichte. In Gl. (19.2) wurden Gewichte v und w eingefçhrt. Diese entsprechen den b-Gewichten der multiplen Regression, von denen bekannt ist, dass sie wegen mæglicher Suppressionseffekte bzw. Multikollinearitåt schwer interpretierbar sind. Dies gilt in verstårktem Maû fçr die Gewichte der kanonischen Korrelationsanalyse, wenn die Prådiktor- und Kriteriumsvariablen sowohl untereinander als auch wechselseitig hoch korreliert sind. Die Gewichtsvektoren v und w werden deshalb nur in Ausnahmefållen (wenn die Prådiktor- und Kriteriumsvariablen jeweils unkorreliert sind) zur Interpretation herangezogen. (Ein anderer, in eine Glosse gekleideter Standpunkt hierzu wird von Harris, 1989, vertreten.) Faktorladungen. Auf die enge Verwandtschaft der kanonischen Korrelationsanalyse und der Faktorenanalyse wurde bereits hingewiesen. Es liegt damit nahe, åhnlich wie in der Faktorenanalyse auch in der kanonischen Korrelationsanalyse die Faktorladungen zur Interpretation heranzuziehen, wobei allerdings in der kanonischen Korrelationsanalyse von zwei Ladungssåtzen ± den Ladungen der Prådiktorvariablen auf den Prådiktorfaktoren und den Ladungen der Kriteriumsvariablen auf den Kriteriumsfaktoren ± auszugehen ist. Die La-
a19.1
631
Grundprinzip und Interpretation
dungen entsprechen auch hier jeweils den Korrelationen zwischen den Merkmalsausprågungen und Faktorwerten (vgl. S. 519). Den Ladungen ist deshalb zu entnehmen, wie stark die Merkmale auf der Prådiktorseite und die Merkmale auf der Kriteriumsseite an einer kanonischen Korrelation beteiligt sind, d. h., aus den Ladungen wird abgeleitet, welche inhaltlichen Aspekte der Prådiktorund Kriteriumsvariablen die kanonischen Korrelationen konstituieren (vgl. hierzu auch Meredith, 1964, und Steward u. Love, 1968).
Strukturkoeffizienten. Eine weitere wichtige Interpretationshilfe sind die sog. Strukturkoeffizienten c, die ± wie auch die Strukturkoeffizienten in der multiplen Korrelation (vgl. S. 453) ± als Korrelationen zwischen den Prådiktorvariablen
x und den vorhergesagten Kriteriumsvariablen (^ y definiert sind (bzw. umgekehrt als Korrelation zwischen y und ^x, vgl. S. 636). Eine Prådiktorvariable mit einem hohen Strukturkoeffizienten ist damit eine Variable, die an der Vorhersage dessen, was mit einem kanonischen Kriteriumsfaktor erfasst wird (worçber die Ladungen der Kriteriumsvariablen informieren), in hohem Maû beteiligt ist.
n > 3 p q ist. Fçr kleinere Stichproben wird eine bei Thompson (1990 a) genannte Schrumpfungskorrektur empfohlen. Die stichprobenbedingte Verzerrung der kanonischen Korrelation als Schåtzwert des wahren Zusammenhangsparameters çbertrågt sich natçrlich auch auf alle anderen im Kontext der kanonischen Korrelationsanalyse berechneten Indizes. Das Ausmaû der in einem konkreten Beispiel zu erwartenden Verzerrung låsst sich mit Hilfe der Bootstrap-Technik abschåtzen (vgl. S. 132 f.). Eine Anwendung dieser Technik auf die Redundanzmaûe der kanonischen Korrelationsanalyse findet man bei Lambert et al. (1989, 1991).
Kanonische Korrelation mit Prådiktorund Kriteriumsfaktoren
Die Interpretation von kanonischen Korrelationen (wie auch multipler Korrelationen, vgl. S. 452 f.) wird bei hoher Multikollinearitåt erheblich erschwert. Insbesondere die v- und w-Gewichte sind bei kleineren Stichproben mit korrelierten Prådiktor- und Kriteriumsvariablen sehr instabil. Dieses Problem lieûe sich ausråumen, wenn es im Satz der Prådiktorvariablen und im Satz der Kriteri¹Setª-Korrelation umsvariablen keine wechselseitigen AbhångigkeiEin Maû zur Charakterisierung des Gesamtzusam- ten gåbe. Eine Mæglichkeit, korrelierte Variablen in unmenhangs zweier Variablensåtze wurde von Cohen (1982) vorgeschlagen. Dieses als ¹set-correla- korrelierte Faktoren zu transformieren, bietet die tionª bezeichnete Maû R2xy erfasst die verallgemei- PCA (vgl. Kap. 15). Es wird deshalb empfohlen, beide Variablensåtze getrennt zu faktorisieren und nerte, gemeinsame Varianz zweier Variablensåtze: die Prådiktorvariablen durch Prådiktorfaktoren 2 2 2 2 Rxy 1
1 CR1
1 CR2 . . .
1 CRr : sowie die Kriteriumsvariablen durch Kriteriums
19:8 faktoren zu ersetzen (vgl. hierzu auch Jolliffe, 2002, Kap. 8.1 und 9.3; zur Verwendung von Faktoren in der multiplen Korrelation vgl. Kukuk u. Schrumpfungskorrektur Baty, 1979, sowie Fleming, 1981). Die kanonische Korrelationsanalyse çber PråØhnlich wie die multiple Korrelation çberschåtzt auch die ¹set-correlationª den wahren Zusammen- diktor- und Kriteriumsfaktoren fçhrt zu deutlich hang zweier Variablensåtze. Es wurden deshalb ± stabileren Ergebnissen. Allerdings ist hierbei zu in Analogie zu Gl. (13.22) fçr die multiple Korre- beachten, dass die Ergebnisse der kanonischen lation ± ¹Schrumpfungskorrekturenª entwickelt, Korrelationsanalyse nur dann gut interpretierbar mit denen sich in Abhångigkeit von n, p und q sind, wenn die Faktoren ihrerseits eindeutig interdas Ausmaû der Ûberschåtzung errechnen låsst pretiert werden kænnen. Es ist deshalb ratsam, die kanonische Korrelationsanalyse çber (Varimax-) (vgl. Cohen u. Nee, 1984). Fçr die kanonische Korrelation kommt Thomp- rotierte Faktoren durchzufçhren. Bezçglich der Anzahl der zu berçcksichtigenson (1990 a) zu dem Ergebnis, dass die Zusammenhånge nur måûig çberhæht sind, solange den Faktoren ist anzumerken, dass die in Kap.
19
632
Kapitel 19 ´ Kanonische Korrelationsanalyse
15.5 behandelten Kriterien ungeeignet sein kænnen. Dort wurde argumentiert, dass Faktoren mit Eigenwerten kleiner 1 (k < 1; KG-Kriterium) nicht berçcksichtigt werden sollten, weil sie weniger Varianz erklåren als die z-standardisierten Variablen. Im Rahmen der kanonischen Korrelationsanalyse sind derartige Prådiktorfaktoren jedoch durchaus wertvoll, wenn sie spezifische Varianzanteile erfassen, die mit den Kriteriumsfaktoren hoch kovariieren. Es empfiehlt sich also, auch varianzschwache Prådiktorfaktoren bezçglich ihres Vorhersagepotenzials zu prçfen. Wenn es mæglich ist, viele Prådiktorvariablen durch wenige Prådiktorfaktoren und/oder viele Kriteriumsvariablen durch wenige Kriteriumsfaktoren zu ersetzen, ist hiermit eine erhebliche Freiheitsgradreduktion verbunden. Die in Gl. (19.6) definierte Prçfgræûe V hat p q Freiheitsgrade. Fçr p q 10 håtte man also 100 Freiheitsgrade und einen kritischen v2-Wert von v2krit 124;34
a 0;05. Wenn es gelingt, die Variablensåtze auf jeweils drei Faktoren zu reduzieren
df 3 3 9, wåre der empirische V-Wert mit v2krit 16; 92 zu vergleichen. Entspricht das Vorhersagepotenzial der drei Prådiktorfaktoren in etwa dem der 10 Prådiktorvariablen, håtte man mit den Prådiktor- und Kriteriumsfaktoren erheblich bessere Chancen auf signifikante kanonische Zusammenhånge als mit Prådiktor- und Kriteriumsvariablen. Hinzu kommt, dass auch der V-Wert bei einem gçnstigerem Verhåltnis von N zu (p + q) græûer wird (s. Gl. 19.6 oder 19.7). Das folgende Beispiel soll das Vorgehen verdeutlichen. BEISPIEL
19
In einer Untersuchung çber Anwendungen psychologischer Methoden auf stådtebauliche Fragen geht es darum, den Zusammenhang zwischen der Wirkungsweise von Håuserfassaden auf den Betrachter einerseits und strukturellen bzw. baulichen Merkmalen der Håuserfassaden andererseits zu bestimmen (vgl. Bortz, 1972 b). Eine Vpn-Stichprobe stufte hierfçr 26 Håuserfassaden auf 25 bipolaren Adjektivskalen (Polaritåten wie z. B. heiter ± dçster, eintænig ± vielfåltig, usw.) ein. Die Polaritåten wurden anhand der durchschnittlichen Beurteilungen çber die Fassaden interkorreliert; eine PCA çber die Korrelationsmatrix fçhrte zu 3 Faktoren, die sich nach einer Varimaxrotation als 1. erlebte Valenz (51,7%), 2. erlebte strukturelle Ordnung (20,8%) und 3. erlebte Stimulation (17,7%)
interpretieren lassen. (Die Zahlen in Klammern nennen die Varianzanteile der Faktoren.) Mit einer kanonischen Korrelationsanalyse sollte herausgefunden werden, durch welche architektonischen Strukturelemente diese 3 Erlebnisfaktoren (Kriteriumsfaktoren) vorhersagbar sind. Die architektonischen Strukturen der Fassaden wurden durch Flåchenvermessungen erfasst, aus denen 24 Variablen, wie z. B. Anteil der Wandflåche an der Gesamtfassade, Ûbergangswahrscheinlichkeiten zwischen architektonischen Elementen und informationstheoretische Maûe, abgeleitet wurden. Der Satz der 24 Prådiktorvariablen konnte faktorenanalytisch auf 6 Prådiktorfaktoren reduziert werden, die sich auf Grund einer Varimaxrotation folgendermaûen interpretieren lassen: 1. 2. 3. 4. 5. 6.
Wand vs. Fensterflåche (23,8%), Balkonflåche (15,4%), Dachflåche (13,0%), Stereotypie (9,4%), Entropie (8,7%), Grçnflåche (14,6%).
Der ursprçngliche Untersuchungsplan sah somit 24 Prådiktorvariablen (objektive Beschreibungsmerkmale der Håuserfassaden) und 25 Kriteriumsvariablen (Skalen zur Erfassung der Wirkungsweise der Håuserfassaden) vor. Da jedoch anzunehmen war, dass sowohl die Prådiktorvariablen untereinander als auch die Kriteriumsvariablen untereinander mehr oder weniger hoch korreliert sind, wurden beide Variablensåtze zuvor faktorenanalytisch reduziert. Durch diese, vor der eigentlich interessierenden kanonischen Korrelationsberechnung durchgefçhrten Analysen, wird zweierlei erreicht: Erstens wird die Wahrscheinlichkeit des a-Fehlers bei der Entscheidung çber die statistische Bedeutsamkeit der kanonischen Korrelation verringert. Durch die Faktorenanalysen werden sowohl die Prådiktorvariablen als auch die Kriteriumsvariablen ohne erheblichen Informationsverlust zu wenigen Prådiktorfaktoren und Kriteriumsfaktoren zusammengefasst, d. h., die Freiheitsgrade fçr V werden erheblich verringert, wobei das gesamte Vorhersagepotenzial der Prådiktorvariablen weitgehend erhalten bleibt. Durch diese Maûnahme veråndert sich die Hæhe der kanonischen Korrelation praktisch nicht, wenn ± wie im Beispiel ± die Varianz der Prådiktor- und Kriteriumsvariablen nahezu vollståndig durch die Prådiktor- und Kriteriumsfaktoren erfasst wird. Was sich allerdings erheblich åndert, ist die Irrtumswahrscheinlichkeit der kanonischen Korrelation: Sie wird sehr viel kleiner, wenn statt der ursprçnglichen Variablen die entsprechenden Faktoren eingesetzt werden. Der zweite Vorteil, der sich mit einer faktorenanalytischen Reduktion der Prådiktor- und Kriteriumsvariablen verbindet, liegt auf der Interpretationsebene. Die Verwendung von Prådiktorfaktoren und Kriteriumsfaktoren (anstelle von Prådiktor- und Kriteriumsvariablen) hat zur Folge, dass die Prådiktoren (und auch die Kriterien) untereinander nicht korrelieren, d. h., es treten keine Multikollinearitåtseffekte auf. Die in der kanonischen Korrelationsanalyse ermittelten Gewichtungskoeffizienten sind deshalb problemlos interpretierbar, wenn ± wie im Beispiel ± die ermittelten Prådiktor- und Kriteriumsfaktoren inhaltlich einwandfrei interpretiert werden kænnen.
a19.1
633
Grundprinzip und Interpretation
Tabelle 19.1 zeigt das Ergebnis der kanonischen Korrelationsanalyse zwischen den 3 Kriteriumsfaktoren und den 6 Prådiktorfaktoren. Um einer mæglichen terminologischen Verwirrung vorzubeugen, bezeichnen wir in der folgenden Interpretation die Kriteriums- und Prådiktorfaktoren als (unkorrelierte) Kriteriums- und Prådiktorvariablen. Es resultieren 2 signifikante kanonische Korrelationen vom Betrag CR1 0;88 und CR2 0;68. Der erste kanonische Kriteriumsfaktor erklårt 22,7% und der zweite 45,8% der gesamten Kriteriumsvarianz. (Man erhålt diese Werte çber die hier nicht wiedergegebenen quadrierten Ladungen der Kriteriumsvariablen auf den kanonischen Kriteriumsfaktoren; vgl. S. 638.) Die verbleibende Kovarianz zwischen den beiden Variablengruppen nach Extraktion der ersten beiden kanonischen Faktorpaare ist nach Gl. (19.7) statistisch nicht mehr bedeutsam, d. h. die 3. kanonische Korrelation [r min
p; q 3 ist nicht signifikant. Die o. g. Zahlen verdeutlichen, dass die Hæhe einer kanonischen Korrelation nichts damit zu tun hat, wie viel Varianz durch die kanonischen Faktoren prådiktor- und kriteriumsseitig gebunden wird. Im Beispiel resultiert CR1 0;88 bei 22,7% Kriteriumsvarianz und CR2 0;68 bei 45,8% Kriteriumsvarianz. Die kanonischen Faktoren erklåren sukzessiv maximale Kovarianz und nicht ± wie in der PCA ± sukzessiv maximale Varianz. Zur Interpretation der kanonischen Korrelation ziehen wir in dieser Analyse die normierten Gewichte der Prådiktorund Kriteriumsvariablen (d. h. die auf die Långe 1 transformierten Gewichtungsvektoren v und w) heran. Da die Prådiktor- und Kriteriumsvariablen jeweils wechselseitig unabhångig sind, kænnen die Gewichte bedenkenlos auf Grund ihrer numerischen Græûe interpretiert werden. (Auf die Wiedergabe der kanonischen Faktorladungen der Variablen wurde ± wie bereits erwåhnt ± verzichtet, weil diese im Fall unkorrelierter Prådiktor- und Kriteriumsvariablen keine neuen Informationen gegençber den Gewichten enthalten.) Die 1. kanonische Korrelation zwischen den beiden Variablensåtzen wird auf der Prådiktorseite vorrangig durch die Stereotypie (regelhafte Wiederholungen) und Entropie (Informationsgehalt) der Fassaden getragen und auf der Kriteriumsseite durch die erlebte strukturelle Ordnung. Je regelmåûiger sich einzelne Bauelemente wiederholen und je weniger Informationsgehalt (Verschiedenartigkeit der Bauelemente) eine Fassade besitzt, desto strukturierter wird
die Fassade erlebt. Die erste kanonische Korrelation erklårt von der Varianz des ersten kanonischen Kriteriumsfaktors 0;882 100% 77;4%. Da der erste kanonische Kriteriumsfaktor 22,7% der gesamten Kriteriumsvarianz erfasst, sind auf Grund der ersten kanonischen Korrelation 17,6% (77,4% von 22,7%) redundant. (Die Redundanz der Prådiktorvariablen auf Grund der Kriteriumsvariablen ist in diesem Fall inhaltlich wenig ergiebig und wird deshalb nicht gesondert aufgefçhrt.) Die mit der 2. kanonischen Korrelation aufgeklårte Kovarianz, die von der 1. kanonischen Korrelation unabhångig ist, besagt, dass die erlebte Valenz (Bewertung) der Fassaden vor allem mit der Græûe der Balkonflåchen und der Grçnflåche (bepflanzte Flåchen) zusammenhångt. Zunehmend positivere Bewertungen erfahren Fassaden mit stark durchgrçnter Struktur und ausgedehnten Balkonflåchen. Von der Varianz des 2. kanonischen Kriteriumsfaktors sind 0;682 100% 46;2% redundant. Da der 2. kanonische Kriteriumsfaktor 45,8% der gesamten Kriterumsvarianz erfasst, sind hier 46,2% von 45,8% bzw. 21,2% redundant, sodass sich zusammengenommen fçr beide kanonischen Korrelationen ein Redundanzwert von 38,8% fçr die durchschnittliche Beurteilung der Håuserfassaden ergibt. Die erlebte Stimulation ist nicht çberzufållig durch die (hier gemessene) architektonische Gestaltung der Fassaden vorhersagbar.
Hinweise. Um das Ergebnis einer kanonischen Korrelationsanalyse besser interpretieren zu kænnen, werden die kanonischen Prådiktor-/Kriteriumsfaktoren gelegentlich orthogonal rotiert. Hierbei ist allerdings zu beachten, dass diese Rotationen die Hæhe der einzelnen kanonischen Korrelationen veråndern. Nicht veråndert wird jedoch der Gesamtzusammenhang aller Prådiktorvariablen und Kriteriumsvariablen, d. h., die Summe der quadrierten, kanonischen Korrelationen (bzw. die ¹set-correlationª; s. Gl. 19.8) ist gegençber orthogonalen Rotationen der beiden Faktorsåtze invariant. (Weitere Einzelheiten hierzu findet man
Tabelle 19.1. Beispiel fçr eine kanonische Korrelationsanalyse CR1 0;88
CR2 0;68
Prådiktoren
Wand- vs. Fensterflåche Balkonflåche Dachflåche Stereotypie Entropie Grçnflåche
0,24 ±0,29 0,44 ±0,53 0,59 ±0,17
±0,40 0,58 ±0,13 ±0,12 0,25 0,64
Kriterien
Valenz strukturelle Ordnung Stimulation
±0,26 ±0,96 0,01
0,91 ±0,25 ±0,31
19
634
Kapitel 19 ´ Kanonische Korrelationsanalyse
bei Cliff u. Krus, 1976, Fornell, 1979, oder Reynolds u. Jackosfsky, 1981.) Die kanonische Korrelationsanalyse wurde von Horst (1961a) erweitert, um die Zusammenhånge zwischen mehr als zwei Variablensåtzen bestimmen zu kænnen. In einer anwendungsorientierten Arbeit (Horst, 1961b) werden beispielsweise verbale Fåhigkeiten, rechnerische Fåhigkeiten und Variablen des råumlichen Vorstellungsvermægens miteinander in Beziehung gesetzt. Ûber Mæglichkeiten, die Stabilitåt der Ergebnisse einer kanonischen Korrelationsanalyse zu çberprçfen, berichten Thorndike u. Weiss (1973) bzw. Wood u. Erskine (1976). Thompson (1995 b) schlågt hierfçr die Bootstrap-Technik (vgl. 4.10) vor. Ein Algorithmus, der statt der kanonischen Korrelationen die Redundanzmaûe maximiert, wird bei Fornell et al. (1988) beschrieben.
19.2 Mathematischer Hintergrund Fçr eine kanonische Korrelationsanalyse benætigen wir von n Vpn Daten auf p Prådiktorvariablen und auf q Kriteriumsvariablen. Bezeichnen wir die Messwerte einer Person m auf einer Prådiktorvariablen i mit xmi und einen Messwert derselben Person auf einer Kriteriumsvariablen j mit ymj , werden fçr die Linearkombinationen ^xm v1 xm1 v2 xm2 vp xmp und ^ ym w1 ym1 w2 ym2 wq ymq
19:9
19:10
19:13
QS^y w Dy w :
Hierin sind Dx und Dy die Matrizen der Quadratsummen und Kreuzproduktsummen der Prådiktorvariablen
Dx und Kriteriumsvariablen
Dy . Fçr die Kreuzproduktsummen der Linearkombinationen
QS^x ^y kann man zeigen, dass folgende Beziehung gilt: QS^x ^y v0 Dxy w :
Fçr die zu maximierende Korrelation zwischen den linearkombinierten ^xm - und ^ ym -Werten erhalten wir (indem Zåhler und Nenner in Gl. 6.57 mit n multipliziert werden)
19:11
Wie unter 15.3 gezeigt wurde, ergeben sich die Quadratsummen der linearkombinierten Werte nach den Beziehungen:
19:14
Ein Element von Dxy berechnen wir nach der Gleichung: X dxy
i;j
xmi xi
ymj yj : m
Setzen wir Gl. (19.12), (19.13) und (19.14) in Gl. (19.11) ein, ergibt sich: v0 Dxy w r^x ^y p :
v0 Dx v
w0 Dy w
19:15
Die Transformationsvektoren v und w, die zu einer maximalen Kovarianz zwischen ^xm und ^ym fçhren, sind nicht eindeutig bestimmt. Die Læsung des Eigenwerteproblems liefert lediglich Proportionalitåtskonstanten zwischen den Eigenvektoren, die im Allgemeinen auf die Långe 1 normiert werden
v0 v 1 und w0 w 1. Fçr die Bestimmung der Eigenwerte im Rahmen der kanonischen Korrelationsanalyse erweist sich jedoch folgende Annahme als gçnstig:
19:16
Gleichung (19.15) reduziert sich somit zu: r^x ^y v0 Dxy w :
19:17
Gehen wir von den in Gl. (19.1) genannten Korrelationsmatrizen aus, erhalten wir r^x ^y v0 Rxy w
Herleitung der charakteristischen Gleichung
19
19:12
0
v 0 Dx v w 0 Dy w 1 :
diejenigen v- und w-Gewichte gesucht, die zu einer maximalen Korrelation ± berechnet çber alle Vpn ± zwischen den ^xm - und ^ ym -Werten fçhren.
QS^x ^y r^x ^y p : QS^x QS^y
QS^x v0 Dx v ;
19:18
mit den Nebenbedingungen v 0 Rx v w 0 Ry w 1 :
19:19
Wir definieren eine Funktion F
v; w v0 Rxy w, die durch die mit den Lagrange-Multiplikatoren k=2 und =2 multiplizierten Nebenbedingungen ergånzt wird (vgl. Anhang D):
a19.2
Wir subtrahieren k Rx v und fassen in folgender Weise zusammen:
r^x ^y F
v; w 0
v Rxy w
k=2
v0 Rx v 1
=2
w0 Ry w 1 :
Rxy
1=k Ry 1 Ryx v
19:20
Die ersten Ableitungen von Gl. (19.20) nach v und w fçhren zu folgenden Gleichungen (vgl. Tatsuoka, 1971, Anhang C und Kap. 6.8), die wir zum Auffinden des Maximums gleich Null setzen: dF
v; w Rxy w k Rx v 0 ;
19:21 dv dF
v; w v0 Rxy w0 Ry 00 :
19:22 dw Wir multiplizieren Gl. (19.21) links mit v0 v0 Rxy w
k
v0 Rx v 0
19:23
und Gl. (19.22) rechts mit w v0 Rxy w
w0 Ry w 00 :
19:24
Da gemåû Gl. (19.19) v0 Rx v 1 und w0 Ry w 1, folgt aus Gl. (19.23) und (19.24): k. k v0 Rxy w :
19:25
Aus Gl. (19.11) bis (19.18) resultiert ferner, dass sowohl k als auch die maximale Korrelation ym -Werten darstellen. zwischen den ^xm - und ^ Fçr Gl. (19.21) und (19.22) schreiben wir: Rxy w k Rx v ; 0
0
v Rxy w Ry :
19:26
19:27
Transponieren wir beide Seiten von Gl. (19.27) und schreiben fçr k und fçr R0xy Ryx, ergibt sich wegen Ry R0y Ryx v k Ry w :
19:28
Wir haben somit zwei Gleichungen, (19.26) und (19.28), mit den unbekannten Vektoren v und w. Fçr deren Bestimmung læsen wir zunåchst Gl. (19.27) nach w auf. Unter der Voraussetzung, dass Ry nicht singulår ist und somit eine Inverse besitzt, erhalten wir (mit k) w 1=k Ry 1 Ryx v :
19:29
Setzen wir w gemåû Gl. (19.29) in Gl. (19.26) ein, resultiert: Rxy
1=k Ry 1 Ryx v k Rx v :
19
635
Mathematischer Hintergrund
19:30
1
1
Rx Rxy Ry Ryx v
k Rx v 0 ; k2 I v 0 ;
Rx 1 Rxy Ry 1 Ryx k2 I v 0 :
19:31 Hierbei wurden unter der Voraussetzung, dass Rx 1 existiert, beide Seiten mit k Rx 1 vormultipliziert und v ausgeklammert. Die Produktmatrix Rx 1 Rxy Ry 1 Ryx ist eine quadratische, nicht symmetrische Matrix, deren græûter Eigenwert k21 das Quadrat der maximalen kanonischen Korrelation zwischen den beiden Variablensåtzen darstellt. Die çbrigen Eigenwerte sind die Quadrate der kanonischen Korrelationen, die sukzessiv maximale Kovarianz aufklåren.
Eigenwerte. Die Eigenwerte erhalten wir wie çblich (vgl. S. 536 f. oder S. 613 f.), indem wir die Determinante der Matrix j
Rx 1 Rxy Ry 1 Ryx k2 Ij Null setzen. Die Entwicklung der Determinante fçhrt zu einem Polynom max
p; q-ter Ordnung, das min
q; p nicht negative Læsungen hat. Die min
p; q Eigenwerte sind die Quadrate der kanonischen Korrelationen. Eigenvektoren. Sind die Eigenwerte bekannt, kænnen wir çber Gl. (19.31) die zu den Eigenwerten gehærenden Eigenvektoren vs bestimmen, wobei s 1; 2; . . . ; min
p; q r. Zur Bestimmung der vorlåufigen, auf die Långe 1 normierten Eigenvektoren wird auf S. 537 f. verwiesen. Diese Eigenvektoren mçssen hier jedoch so normiert werden, dass die neuen Vektoren vs die Bedingung vs0 Rx vs 1 (bzw. Vs0 R Vs I erfçllen. Hierfçr berechnen wir zunåchst v0s Rx vs ks :
19:32
Werden beide Seiten durch ks dividiert, resultiert ks 1=2 v0s Rx vs ks 1=2 1 ; d. h., die gesuchten Vektoren vs ergeben sich zu vs ks 1=2 vs :
19:33
Unter Verwendung von vs und ks ergeben sich nach Gl. (19.29) die Gewichtungsvektoren ws fçr die Kriteriumsvariablen. Die Vektoren vs und ws
636
Kapitel 19 ´ Kanonische Korrelationsanalyse
erfçllen Gl. (19.19) und fçhren çber Gl. (19.18) zu den kanonischen Korrelationen r^x ^y k. Ûber die Gleichungen (19.9) und (19.10) (mit z-transformierten Variablen) erhålt man die Positionen der Vpn auf den kanonischen Prådiktor- bzw. Kriteriumsfaktoren, die mit x 0 und s 1 Faktorwerte darstellen: ^ V 0 X ; Fx X ^ W0 Y : Fy Y
ws CRs 1 Ry 1 R0xy vs bzw. R0xy vs Ry ws CRs ;
19:34 a
und damit wegen Ay
s Ry ws gemåû Gl. (19.35 b) cy
s R0xy vs Ay
s CRs :
19:38
19:34 b
Entsprechend gilt cx
s Ax
s CRs :
Faktorladungen. Zur Interpretation der kanonischen Faktoren wurden auf S. 630 f. die Faktorladungen genannt, die als Korrelationen zwischen Faktorwerten und Merkmalsausprågungen definiert sind. Verwendet man z-standardisierte Prådiktorvariablen (d. h. Prådiktorvariablen mit x 0 und sx 1, die hier mit X bezeichnet werden), ergibt sich fçr die Ladungen auf den Prådiktorfaktoren
rx^x ais : Ax n
1
n
1
^0 XX
X
V0 X0 n 1 X X 0 V Rx V :
19:35 a
Analog hierzu gilt fçr die Ladungen der Kriteriumsvariablen auf den kanonischen Kriteriumsfaktoren
ry^y ajs : Ay Ry W :
19:35 b
Strukturkoeffizienten. Als weitere Interpretationshilfe wurden auf S. 631. Strukturkoeffizienten
c als Korrelationen zwischen den Prådiktorvariablen und Kriteriumsfaktoren (vice versa) definiert
cx rx^y bzw. cy r^xy . Sie ergeben sich zu
19
Cx n
1
n
1
X
W0 Y0 n 1 X Y0 W Rxy W
19:36
bzw. fçr die Kriteriumsvariablen Cy R 0 V :
19:37
xy
Man erhålt die Strukturkoeffizienten, indem man die Ladungen eines s-ten Prådiktor- oder Kriteriumsfaktors mit der s-ten kanonischen Korrelation multipliziert.
Redundanzmaûe. Das Quadrat einer Ladung gibt an, welcher Anteil der Varianz einer Variablen durch den entsprechenden Faktor aufgeklårt wird. Die Summe der quadrierten Ladungen eines Faktors kennzeichnet somit die Gesamtvarianz dieses Faktors. Durch die Korrelationsberechnung werden die Variablen z-standardisiert, sodass jede Variable eine Varianz von 1 bzw. der gesamte Prådiktorsatz eine Varianz von p und der Kriteriumssatz eine Varianz von q aufweisen. Relativieren wir die Varianz eines Faktors an p (bzw. q), erhalten wir also den Varianzanteil dieses Faktors. Da das Quadrat der kanonischen Korrelation die gemeinsame Varianz zwischen einem Prådiktorfaktor und dem korrespondierenden Kriteriumsfaktor ergibt, berechnen wir die Redundanz eines Kriteriumsfaktors (d. h. die Vorhersagbarkeit der durch einen Kriteriumsfaktor erfassten Varianz bei Bekanntheit des entsprechenden Prådiktorfaktors) nach folgender Beziehung: X 1 CR2s a2js q j1 q
Redy
s
^0 XY
q
Die Berechnung der Strukturkoeffizienten låsst sich unter Verwendung von Gl. (19.29) noch weiter vereinfachen: Wir erhalten
19:39
1
c0y
s cy
s :
19:40
Multipliziert mit 100% ergibt sich die prozentuale Redundanz des Kriteriumsfaktors s. Will man die Gesamtredundanz aller r min
p; q Kriteriumsfaktoren errechnen, sind die Einzelredundanzen zu summieren: r X Redy Redy
s :
19:41 s1
a19.2
637
Mathematischer Hintergrund
Entsprechend ermittelt man ± falls gewçnscht ± die Redundanz der Prådiktorvariablen angesichts der Kriteriumsvariablen: X 1 CR2s a2is p i1 p
Redx
s
p
1
c0x
s cx
s
19:42
bzw. Redx
r X s1
Redx
s :
19:43
Hinweise: Redy und Redx sind Schåtzungen der wahren Redundanzwerte aufgrund einer Stichprobe, die insbesondere bei kleineren Stichproben verzerrt sein kænnen. Korrekturformeln, die diese Verzerrung kompensieren, findet man bei Dawson-Saunders (1982). Lambert et al. (1991) demonstrieren das Ausmaû der Verschåtzung in einem konkreten Beispiel mit Hilfe der BootstrapTechnik. In der Praxis kommt es håufig vor, dass die Redundanzwerte trotz hoher kanonischer Korrelationen gering ausfallen. Dies ist zumindest teilweise darauf zurçckzufçhren, dass der in diesem Abschnitt beschriebene Algorithmus die kanonischen Korrelationen, aber nicht die Redundanzmaûe maximiert. Steht eine Maximierung der Redundanzmaûe im Vordergrund, sind modifizierte Techniken zu verwenden, die bei Fornell et al. (1988) beschrieben werden. BEISPIEL Das folgende Miniaturbeispiel erlåutert den Rechengang einer kanonischen Korrelationsanalyse. In einer ausdruckspsychologischen Untersuchung wird erkundet, welcher Zusammenhang zwischen physiognomischen Merkmalen (1. Prådiktor = Stirnhæhe, 2. Prådiktor = Augenabstand, 3. Prådiktor = Mundbreite) einerseits und Persænlichkeitsmerkmalen (1. Kriterium = Intelligenz, 2. Kriterium = Aufrichtigkeit) besteht. Tabelle 19.2 zeigt die Daten von 10 Personen. Aus Grçnden der Rechenækonomie empfiehlt es sich, den græûeren Variablensatz mit y und den kleineren mit x zu bezeichnen, sodass p q ist. Deshalb bezeichnen wir in unserem Beispiel die Kriteriumsvariablen mit x und die Prådiktorvariablen mit y. Kanonische Korrelationen. Wir errechnen fçr Gl. (19.31) Rx , Ry und Rxy :
Tabelle 19.2. Rechenbeispiel fçr eine kanonische Korrelationsanalyse Vpn
Prådiktoren
1 2 3 4 5 6 7 8 9 10
14 15 12 10 12 11 16 13 13 15
Kriterien
2 2 2 3 2 3 3 4 2 3
5 3 3 4 6 3 4 4 5 4
108 98 101 111 113 95 96 105 92 118
18 17 22 23 19 19 15 21 17 19
1;0000 0;4449 ; 0;4449 1;0000 0 1 1;0000 0;0499 0;0058 B C Ry @ 0;0499 1;0000 0;2557 A ; 0;0058 0;2557 1;0000 0;0852 0;1430 0;3648 : Rxy 0;7592 0;2595 0;1825 Rx
Unter Verwendung von 1;2467 0;5546 Rx 1 0;5546 1;2467 und Ry 1
0
1;0029 0;0551 @ 0;0551 1;0730 0;0200 0;2747
erhålt man Rx 1 Rxy Ry 1 R0xy
1 0;0200 0;2747 A 1;0703 0;2244 0;0600
0;3074 0;7805
:
k2 ist so zu bestimmen, dass die folgende Determinante Null wird: 0;2244 k2 0;3074 2 0: 0;0600 0;7805 k Die Entwicklung dieser Determinante fçhrt zu folgendem Polynom 2. Ordnung: k4 1;0045k2 0;1564 0 : Die Læsungen lauten k21 0;8119 ; k22 0;1930 : Die Wurzeln aus diesen Werten ergeben die beiden kanonischen Korrelationen: CR1 0;901 ; CR2 0;439 :
19
638
Kapitel 19 ´ Kanonische Korrelationsanalyse
0
Nach Gl. (19.8) resultiert eine ¹set-correlationª von R2xy 1
1
0;812
1
0;193 0;848 :
Die Signifikanzprçfung nach Gl. (19.6) resultiert in folgendem V-Wert: V
10
1;5
w2 R
2 3=2 ln
1
0;8119
ln
1 0;1930 6
1;671
0;214 11;31 : Fçr 3 2 6 Freiheitsgrade lesen wir in Tabelle C des Anhangs fçr das 5%-Niveau einen kritischen v2 -Wert von 12,59 ab, d. h., der Gesamtzusammenhang zwischen den beiden Variablensåtzen ist nicht signifikant. Dennoch wollen wir zur Verdeutlichung des weiteren Rechengangs die Transformationsvektoren bestimmen. Eigenvektoren. Ûber Gl. (19.31) errechnen wir die folgenden, auf Långe 1 normierten Eigenvektoren vs (zur Berechnung vgl. S. 537 f.): 0;4637 0;9948 ; v2 : v1 0;8860 0;1016 Nach Gl. (19.32) ergeben sich k1 v01 Rx v1 0;6345 ; k2 v02 Rx v2 1;0899 ; sodass man nach Gl. (19.33) Vektoren vs erhålt, die der Be0 dingung v Rx v 1 gençgen: 0;4637 0;5822 0;6345 1=2 v1 ; 0;8860 1;1123 0;9529 0;9948 v2 : 1;0899 1=2 0;0973 0;1016 Die Vektoren w ergeben sich nach Gl. (19.29) zu 0 1 0;8813 w1 Ry 1 R0xy v1 k1 1 @ 0;0693 A 0;4484 und
y
1
R0xy
v2 k
2
1
1 0;3187 @ 0;5812 A : 0;8975
Auch diese Vektoren erfçllen die Bedingung w Ry w 1. 0
Faktorwerte. Gewichtet man die z-transformierten Kriteriumsvariablen mit V und die z-transformierten Prådiktorvariablen mit W (man beachte, dass in diesem Beispiel wegen p q die Prådiktorvariablen mit y und die Kriteriumsvariablen mit x bezeichnet werden; vgl. S. 637), resultieren gemåû Gl. (19.34) die Positionen (Faktorwerte Fx und Fy ) der Vpn auf den Prådiktor- und Kriteriumsfaktoren als z-Werte. Diese Werte sind in Tabelle 19.3 zusammengefasst. Man errechnet 1;0 0;0 F0x Fx n 1 ; 0;0 1;0 1;0 0;0 ; F0y Fy n 1 0;0 1;0 0;901 0;0 ; F0x Fy n 1 0;0 0;439 d. h., die Faktoren eines jeden Variablensatzes korrelieren zu Null, und die Korrelationen zwischen den jeweils ersten und zweiten Faktoren der Variablensåtze entsprechen den kanonischen Korrelationen. Faktorladungen. Nach Gl. (19.35) ergibt sich 0;087 0;996 Ax Rx V ; 0;853 0;521 0 1 0;882 0;353 B C Ay Ry W @ 0;228 0;368 A : 0;461
0;751
Diese Werte erhålt man auch durch Korrelation der Faktorwerte (Tabelle 19.3) mit den entsprechenden Ausgangsvariablen in Tabelle 19.2
Fx mit X und Fy mit Y. Will man das fiktive Beispiel interpretieren, wåre der 1. Prådiktorfaktor als ¹Stirnhæhenfaktorª mit einer Ladung von 0,882 fçr ¹Stirnhæheª zu interpretieren und der 1. Kri-
Tabelle 19.3. Positionen der Vpn auf den kanonischen Faktoren
19
Vpn
1. Prådiktorfaktor
2. Prådiktorfaktor
1. Kriteriumsfaktor
2. Kriteriumsfaktor
1 2 3 4 5 6 7 8 9 10
0,928 0,463 ±0,995 ±1,596 0,431 ±1,585 1,320 ±0,243 0,442 0,834
0,171 ±1,909 ±1,378 0,804 1,476 ±0,324 ±0,257 1,151 0,347 0,080
0,783 0,554 ±1,627 ±1,398 0,658 ±0,616 1,370 ±0,865 0,129 1,012
0,456 ±0,745 ±0,185 1,014 1,077 ±1,007 ±1,061 0,235 ±1,439 1,656
a19.3
teriumsfaktor als Intelligenzfaktor mit einer Ladung von 0;853 fçr Intelligenz. Fçr den 2. Prådiktorfaktor ist das Merkmal ¹Mundbreiteª charakteristisch (0,751) und fçr den 2. Kriteriumsfaktor das Merkmal ¹Aufrichtigkeitª
0;996. Strukturkoeffizienten. Multipliziert man die Faktorladungen mit den kanonischen Korrelationen, resultieren nach Gl. (19.38) und (19.39) die Strukturkoeffizienten: 0;087 0;078 cx
1 0;901 ; 0;853 0;769 0;996 0;437 0;439 : cx
2 0;521 0;229 Diese Werte erhålt man auch, wenn man die Kriteriumsvariablen (hier x genannt) mit den Prådiktorfaktoren korreliert. Die Strukturkoeffizienten fçr die Prådiktorvariablen (hier y genannt) lauten: 0 1 0 1 0;882 0;795 B C B C cy
1 @ 0;228 A 0;901 @ 0;205 A ; 0
cy
2
0;461
1
0
0;415
1 0;353 0;155 B C B C @ 0;368 A 0;439 @ 0;162 A : 0;751 0;330
Diese Werte resultieren auch durch Korrelation von Fy mit X. Die erste kanonische Korrelation basiert vor allem auf dem Zusammenhang von Stirnhæhe mit dem ersten Kriteriumsfaktor (0,795) und die zweite Korrelation auf dem Zusammenhang von Mundbreite und dem zweiten Kriteriumsfaktor (0,330). Redundanzmaûe. Die Redundanz errechnen wir nach Gl. (19.40) wie folgt: Redy
1 c0y
1 cy
1 q Redy
2
c0y
2
cy
2 q
1
0;282
1
0;053 0;335
Der erste Prådiktorfaktor erklårt 34,7% der Varianz aller Prådiktorvariablen:
0;8822
0;2282 0;4612 =3 0;347 (vgl. S. 520). Davon sind 0; 9012 100% 81;2% von 34,7%, also 28,18% redundant. Fçr den zweiten Prådiktorfaktor ergibt sich nach der gleichen Ûberlegung eine Redundanz von 5,3%, sodass insgesamt 33,5% der Varianz der y-Variablen angesichts der x-Variablen redundant sind. Fçr die Kriteriumsvariablen resultieren Redx
1 c0x
1 cx
1 p Redx
2
c0x
2
cx
2 p
1
0;299 ;
1
0;122 ; 0;421
d. h., 42,1% der Varianz der x-Variablen sind angesichts der y-Variablen redundant.
19
639
Die kanonische Korrelation: Ein allgemeiner Læsungsansatz
19.3 Die kanonische Korrelation: Ein allgemeiner Læsungsansatz In Ergånzung zum Kap. 14 çber das allgemeine lineare Modell (ALM) wird im Folgenden gezeigt, dass die meisten der in diesem Buch behandelten Verfahren als Spezialfålle der kanonischen Korrelation darstellbar sind. Die Ausfçhrungen orientieren sich an einer Arbeit von Cohen (1982), in der der Autor die ¹set-correlationª (vgl. S. 631) als eine allgemeine multivariate Analysetechnik vorstellt. Ein dialogfåhiges Computerprogramm dieses Ansatzes findet man bei Eber (1988). Im Mittelpunkt unserer Ûberlegungen steht der folgende, auf Rao (1952, zit. nach Knapp, 1978) zurçckgehende Signifikanztest einer kanonischen Korrelation. Dieser Test fçhrt ± zumindest bei groûen Stichproben ± zu den gleichen Entscheidungen wie der in Gl. (19.6) genannte Signifikanztest. Er ist jedoch fçr die folgenden Ableitungen besser geeignet als Gl. (19.6): F
1
mit Q r K
1 i1
K1=s
m s
p q=2 1 1=s
pqK
19:44
k2i ,
k2i Eigenwert i der Matrix Rx 1 Rxy Ry 1 Ryx
i 1 . . . r, r min
p; q, p Anzahl der Prådiktorvariablen, q Anzahl der Kriteriumsvariablen, m ns 3=2
p q=2, p 2 q2 4 s p 2 q2 5 (fçr p2 q2 4 setzen wir s 1, n Stichprobenumfang. Dieser F-Wert hat p q Zåhlerfreiheitsgrade und m s p q=2 1 Nennerfreiheitsgrade. Die Matrix Rx 1 Rxy Ry 1 Ryx entspricht der Matrix H
H E 1 in Tabelle 17.5, wenn man fçr H Ryx Rx 1 Rxy und E Ry Ryx Rx 1 Rxy einsetzt. Die Hypothesenmatrix H Ryx Rx 1 Rxy repråsentiert die Varianz-Kovarianz-Matrix der Kriteriumsvariablen, die durch die Prådiktorvariablen erklårt wird, und E als Fehlermatrix die restliche Varianz-Kovarianz-Matrix (vgl. Cohen, 1982).
640
Kapitel 19 ´ Kanonische Korrelationsanalyse
Datenrçckgriff. Wenden wir diesen Signifikanztest auf das in Tabelle 19.2 genannte Beispiel an, resultiert: K
1
0;8119
1
0;1930 0;1518 ;
p 3; q 2; n 10 ;
0;15181=2
6 2 6 0;15181=2
p 1=2
und 3 1
ms 2;611 :
Bei 6 Zåhlerfreiheitsgraden und 10 Nennerfreiheitsgraden hat dieser F-Wert ungefåhr die gleiche Irrtumswahrscheinlichkeit wie der auf S. 638 berichtete V-Wert, d. h., auch nach diesem Test ist der Gesamtzusammenhang der beiden Variablensåtze nicht signifikant.
Spezialfålle der kanonischen Korrelation
19
3=2
n p=2 2 ; s p2 12 4 1 s p2 12 5
und F
Die multiple Korrelation bestimmt den Zusammenhang zwischen p Prådiktorvariablen und einer Kriteriumsvariablen, d. h., wir setzen in Gl. (19.44) q 1. Wir erhalten dann mn
m 10 1;5 2;5 6 ; r 32 22 4 2 s 32 22 5
1
Multiple Korrelation
Im Folgenden soll gezeigt werden, dass die meisten statistischen Verfahren als Spezialfålle der kanonischen Korrelation darstellbar sind. Nachdem im Kap. 14 erærtert wurde, dass viele elementarstatistische Verfahren im Kontext des ALM als Spezialfålle der multiplen Korrelation aufzufassen sind, dçrfte dies nicht çberraschen, denn die multiple Korrelation ist ihrerseits ein Spezialfall der kanonischen Korrelation. Wir gehen deshalb zunåchst auf die Øquivalenz des Signifikanztests einer multiplen Korrelation (Gl. 13.19) und des Signifikanztests einer kanonischen Korrelation nach Gl. (19.44) ein. Die weiteren Verfahren, die hier unter dem Blickwinkel der kanonischen Korrelation behandelt werden, sind: · die Produkt-Moment-Korrelation, · die Diskriminanzanalyse bzw. multivariate (Ko-) Varianzanalyse, · die univariate Varianzanalyse, · der t-Test fçr unabhångige Stichproben, · der k `-v2 -Test, · k 2-v2 -Test, · der Vierfelder-v2 -Test.
pq=21 n p=2 2 p=21 n p 1 :
Die Matrix Rx 1 Rxy Ry 1 Ryx hat fçr q 1 nur einen Eigenwert k2 , der mit der quadrierten multiplen Korrelation R2 identisch ist (vgl. Knapp, 1978). Wir erhalten damit K
1
R2
und
1
K1=s 1
1
R2 R2 :
Gleichung (19.44) vereinfacht sich demnach zu F
R2
n p 1 :
1 R2 p
Dieser F-Test ist mit dem auf S. 450 genannten F-Test zur Ûberprçfung der Signifikanz einer multiplen Korrelation identisch.
Produkt-Moment-Korrelation Setzen wir p 1 und q 1, testet Gl. (19.44) eine einfache, bivariate Produkt-Moment-Korrelation. Es ergeben sich die folgenden Vereinfachungen: m n 3=2 1 n 2;5 ; r r 11 4 3 1; s 11 5 3 m s p q=2 1 n 2;5 0;5 1 n
2:
k2 ist fçr p 1 und q 1 mit r2 identisch, d. h., wir erhalten entsprechend den Ausfçhrungen zur multiplen Korrelation fçr F: F
r2
n 2 : 1 r2
a19.3
Nach Gl. (2.60) ist t2n F
1;n , sodass wir schreiben kænnen p p r n 2 t
n 2 F
1;n 2 p : 1 r2 Dies ist der auf S. 217 genannte Signifikanztest einer Produkt-Moment-Korrelation.
Diskriminanzanalyse Die Diskriminanzanalyse (oder multivariate Varianzanalyse) çberprçft, ob sich Stichproben, die den Stufen einer oder mehrerer unabhångiger Variablen zugeordnet sind, bezçglich mehrerer abhångiger Variablen unterscheiden. Diese Fragestellung låsst sich auch çber eine kanonische Korrelationsanalyse beantworten, wenn man als Prådiktorvariablen Indikatorvariablen einsetzt, die die Stichprobenzugehærigkeit der einzelnen Vpn kodieren. Hierbei ist es unerheblich, welche der unter 14.1 genannten Kodierungsarten verwendet wird. Die abhångigen Variablen werden als Kriteriumsvariablen eingesetzt.
Datenrçckgriff. Wir wollen diesen Ansatz anhand der Daten in Tabelle 17.4 nachvollziehen, die in Tabelle 19.4 fçr eine kanonische Korrelationsanalyse aufbereitet sind. Fçr die Indikatorvariablen wird hier die Effektcodierung gewåhlt. Tabelle 19.4. Codierung einer Diskriminanzanalyse (Daten aus Tabelle 17.4) Prådiktoren
Kriterien
x1
x2
y1
y2
y3
1 1 1 1 1 1 0 0 0 0 ±1 ±1 ±1 ±1 ±1
0 0 0 0 0 0 1 1 1 1 ±1 ±1 ±1 ±1 ±1
3 4 4 2 2 3 3 2 4 5 4 4 3 4 6
3 4 4 5 4 4 4 5 3 5 5 6 6 7 5
4 3 6 5 5 6 4 5 6 6 7 4 6 6 6
19
641
Die kanonische Korrelation: Ein allgemeiner Læsungsansatz
Als Eigenwerte der Matrix Rx 1 Rxy Ry 1 Ryx errechnen wir k21 0;697 und k22 0;020. Mit K
1 0;697
1 0;020 0;297, n 15, p 2, q 3, m 11 und s 2 erhalten wir nach Gl. (19.44) F
1
0;2971=2 20 2;784 : 6 0;2971=2
Dieser F-Wert hat bei 6 Zåhlerfreiheitsgraden und 20 Nennerfreiheitsgraden ungefåhr die gleiche Irrtumswahrscheinlichkeit wie der auf S. 594 bzw. S. 615 genannte V-Wert. Die Ûbereinstimmung dieser beiden Irrtumswahrscheinlichkeiten nimmt mit wachsendem n zu. Sind die Eigenwerte ki
D der Diskriminanzanalyse bekannt (vgl. S. 615), erhålt man die Eigenwerte k2i
K fçr die kanonische Korrelationsanalyse nach folgender Beziehung (vgl. Tatsuoka, 1953): k2i
K
ki
D : 1 ki
D
19:45
Im Beispiel: 2;30048 0;697 und 1 2;30048 0;02091 0;020 : 1 0;02091 Ûber weitere Øquivalenzen zwischen der kanonischen Korrelation, der Diskriminanzanalyse und der sog. multivariaten multiplen Regression berichten Lutz u. Eckert (1994).
Mehrfaktorielle Diskriminanzanalyse. Fçr mehrfaktorielle Diskriminanzanalysen (bzw. mehrfaktorielle multivariate Varianzanalysen) werden die Prådiktoren durch weitere Indikatorvariablen ergånzt, die die zusåtzlichen Haupteffekte und Interaktionen kodieren (vgl. hierzu z. B. Tabelle 14.6). Man fçhrt zunåchst eine kanonische Korrelationsanalyse mit allen Indikatorvariablen als Prådiktorvariablen (und den abhångigen Variablen als Kriteriumsvariablen) durch und berechnet einen Kv -Wert (vollståndiges Modell). Man ermittelt ferner einen Kr -Wert (reduziertes Modell), bei dem als Prådiktorvariablen alle Indikatorvariablen auûer denjenigen Indikatorvariablen, die den zu testenden Effekt kodieren, eingesetzt werden. Aus Kv und Kr berechnet man den folgenden K-Wert (vgl. Zinkgraf, 1983):
642
Kapitel 19 ´ Kanonische Korrelationsanalyse
K
Kv : Kr
19:46
Dieser Ansatz ist auch fçr ungleich groûe Stichprobenumfånge geeignet (nichtorthogonale multivariate Varianzanalyse). Er entspricht dem auf S. 497 beschriebenen Modell I (ungewichtete Mittelwerte). Die Prçfung dieses K-Wertes beschreibt der nåchste Abschnitt.
Multivariate Kovarianzanalyse. In multivariaten Kovarianzanalysen werden eine oder mehrere Kontrollvariablen aus den abhångigen Variablen herauspartialisiert. Auch in diesem Fall berechnen wir K nach Gl. (19.46), wobei fçr die Bestimmung von Kv alle effektkodierenden Indikatorvariablen und die Kontrollvariable(n) eingesetzt werden und fçr Kr die gleichen Variablen auûer den Indikatorvariablen, die den zu testenden Effekt kodieren. Fçr die Ûberprçfung eines nach Gl. (19.46) berechneten K-Wertes verwenden wir ebenfalls Gl. (19.44), wobei der Faktor m allerdings in folgender Weise zu korrigieren ist: mn
3=2
p q=2
kA
kg ;
19:47
wobei kA Anzahl der Kontrollvariablen, kg Anzahl der effektcodierenden Indikatorvariablen abzçglich der Anzahl der Indikatorvariablen des zu testenden Effekts. Im so modifizierten F-Test ist fçr p die Anzahl der Indikatorvariablen des zu testenden Effekts einzusetzen. Die Freiheitsgrade dieses F-Tests lauten: dfZahler p q und dfNenner m s p q= 2 1. (Ein allgemeiner F-Test, der auch zusåtzliche Kontrollvariablen fçr die Prådiktorvariablen berçcksichtigt, wird bei Cohen, 1982, beschrieben.)
Univariate Varianzanalyse
19
Ein- oder mehrfaktorielle univariate Varianzanalysen werden nach dem kanonischen Korrelationsmodell åhnlich durchgefçhrt wie multivariate Varianzanalysen (Diskriminanzanalysen), mit dem Unterschied, dass q 1 gesetzt wird. Damit sind die Ausfçhrungen zur multiplen Korrelation anwendbar. In der einfaktoriellen Varianzanalyse ersetzen wir 1 K durch R2y;xA (bzw. K durch 1 R2y;xA , sodass sich Gl. (19.44) folgendermaûen zusammenfassen låsst:
R2y;xA
n
F
p
1
R2y;xA
1
p
:
19:48
Diese Gleichung ist mit Gl. (14.5) identisch. Man beachte, dass n in Gl. (19.48) dem N in Gl. (14.5) entspricht. Ferner bezeichnet p in Gl. (14.5) die Anzahl der Faktorstufen. Fçr mehrfaktorielle (orthogonale oder nichtorthogonale) Varianzanalysen errechnen wir K nach Gl. (19.46). Wir verdeutlichen die Bestimmung von K am Beispiel des Haupteffekts A einer zweifaktoriellen Varianzanalyse. Es gelten dann die folgenden Øquivalenzen: Kv 1
R2y;xA xB xAB ;
Kr 1
R2y;xB xAB
und K
2 Kv 1 Ry;xA xB xAB : Kr 1 R2y;xB xAB
Wir erhalten ferner 1
K1
R2y;xA xB xAB
1
R2y;xA xB xAB
K K
R2y;xB xAB
R2y;xB xAB
1
Fçr den Ausdruck also 1
R2y;xB xAB
1
1
K K
R2y;xA xB xAB 1
:
in Gl. (19.44) ergibt sich
R2y;xB xAB
R2y;xA xB xAB
:
Fçr die Freiheitsgrade errechnen wir dfZahler p q p ; dfNenner m s p q=2 1 3 p1 dfB n 2 2 n p dfB dfAB n
dfA
dfB
dfAB
dfAB 1
p 1 2
1:
(m wird nach Gl. 19.47 bestimmt; s 1; kA 0; kg dfB dfAB ; p Anzahl der Indikatorvariablen des Effekts A dfA .) Setzen wir die entsprechenden Ausdrçcke in Gl. (19.44) ein, resultiert die bereits bekannte Gl. (14.15 a) (Modell I, ungewichtete Mittelwerte). Man beachte, dass in Gl. (14.15 a) N Gesamt-
a19.3
643
Die kanonische Korrelation: Ein allgemeiner Læsungsansatz
stichprobenumfang, p Anzahl der Faktorstufen von A und q Anzahl der Faktorstufen von B. In gleicher Weise gehen wir vor, wenn aus Gl. (19.44) die univariaten F-Brçche fçr Faktor B, die Interaktion A B bzw. ein F-Bruch fçr kovarianzanalytische Plåne abzuleiten sind.
t-Test fçr unabhångige Stichproben Fçr die Durchfçhrung eines t-Tests nach dem kanonischen Korrelationsmodell verwenden wir eine dichotome Prådiktorvariable, die die Gruppenzugehærigkeit kodiert
p 1 und eine Kriteriumsvariable (abhångige Variable, q 1. Es gelten damit die Vereinfachungen, die bereits im Zusammenhang mit der Produkt-Moment-Korrelation dargestellt wurden. Wir erhalten erneut den auf S. 217 beschriebenen t-Test zur Ûberprçfung der Signifikanz einer Produkt-Moment-Korrelation (in diesem Fall punktbiserialen Korrelation; vgl. S. 224 ff.). Die Øquivalenz von Gl. (6.84) und (5.15) (der t-Test-Formel) wurde (zumindest numerisch) bereits auf S. 489 gezeigt.
k ´ l-v 2-Test Fçr den k `-v2 -Test (und die folgenden v2 -Tests) verwenden wir nicht Gl. (19.44), sondern eine andere, auf Pillai (1955) zurçckgehende multivariate Teststatistik, die fçr die Analyse von Kontingenztafeln besser geeignet ist (vgl. hierzu die Kritik von Isaac u. Milligan, 1983, an den Arbeiten von Knapp, 1978, und Holland et al., 1980). Diese Teststatistik lautet r X PS k2i
19:49 i1
mit k2i Eigenwert i
i 1 Rx 1 Rxy Ry 1 Ryx (zur Øquivalenz 1
. . . r der Matrix dieser Matrix mit der Matrix H
H E in Tabelle 17.5, vgl. S. 639; man beachte, dass PS auf S. 594 fçr die Eigenwerte der Matrix H E 1 bestimmt wurde). Wie Kshirsagar (1972, Kap. 9.6) zeigt, besteht zwischen dem v2 einer k `-Kontingenztafel und dem in Gl. (19.49) definierten PS-Wert die folgende einfache Beziehung: v2 n PS :
19:50
Die in Gl. (19.50) berechnete Prçfgræûe ist mit p q Freiheitsgraden v2 -verteilt, wenn die çblichen Voraussetzungen fçr einen v2 -Test erfçllt sind (vgl. S. 176 f.). Hierbei sind p k 1 (Anzahl der Indikatorvariablen, die das erste nominale Merkmal codieren) und q ` 1 (Anzahl der Indikatorvariablen, die das zweite nominale Merkmal codieren).
Datenrçckgriff. Wir wollen diese Beziehung im Folgenden anhand des auf S. 172 (Tabelle 5.15) erwåhnten Beispiels verdeutlichen. Aus dieser 4 3-Tafel wurde fçr eine Stichprobe von n 500 ein v2 -Wert von 34,65 errechnet. Diesen v2 -Wert erhalten wir auch nach Gl. (19.50). Wir kodieren das vierstufige Merkmal A durch p 3 Indikatorvariablen (Prådiktorvariablen) und das dreistufige Merkmal B durch q 2 Indikatorvariablen (Kriteriumsvariablen). Tabelle 19.5 zeigt das Ergebnis fçr dummykodierte Kategorien. (Man beachte, dass fçr die Berechnung einer kanonischen Korrelation jeder Kodierungsvektor entsprechend den angegebenen Frequenzen eingesetzt werden muss. Die erste Zeile besagt beispielsweise, dass sich 12 Personen in Kategorie a1 und Kategorie b1 befinden.) Damit ist eine kanonische Korrelationsanalyse mit p 3 Prådiktorvariablen, q 2 Kriteriumsvariablen und n 500 durchzufçhren. (Man beachte, dass die Kriteriumsvariablen nicht kardinalskaliert, sondern dichotom sind, d. h., die ForTabelle 19.5. Kodierung einer k `-Tafel (Daten aus Tabelle 5.14) x1
x2
x3
y1
y2
1 0 0 0 1 0 0 0 1 0 0 0
0 1 0 0 0 1 0 0 0 1 0 0
0 0 1 0 0 0 1 0 0 0 1 0
1 1 1 1 0 0 0 0 0 0 0 0
0 0 0 0 1 1 1 1 0 0 0 0
Frequenz der Zelle 12 20 35 40 80 70 50 55 30 50 30 28 500
19
644
Kapitel 19 ´ Kanonische Korrelationsanalyse
derung nach kardinalskalierten Kriteriumsvariablen ± vgl. S. 629 ± wird hinfållig.) Wir errechnen k21 0;0578 ; k22 0;0115 ; PS 0;0578 0;0115 0;0693 und
PS r2 . Fçr v2 ergibt sich entsprechend den Ausfçhrungen in 14.2.10 nach Gl. (19.50) die Beziehung v2 n r2 . Mit r erhålt man in diesem Fall die Korrelation zweier dichotomer Merkmale, fçr die wir auf S. 227 f. den Phi-Koeffizienten eingefçhrt haben, der sichpin Ûbereinstimmung mit Gl. (6.107) zu U r v2 =n ergibt.
v2 500 0;0693 34;65 : Der v2-Wert ist mit dem auf S. 173 berechneten v2 -Wert identisch. Mit diesem Ansatz låsst sich in gleicher Weise auch der Zusammenhang zwischen mehreren nominalskalierten Prådiktorvariablen (die jeweils durch Indikatorvariablen zu kodieren sind) und mehreren nominalskalierten Kriteriumsvariablen (die ebenfalls durch Indikatorvariablen zu kodieren sind) bestimmen. Zusåtzlich kænnen kardinalskalierte Prådiktor- und/oder Kriteriumsvariablen aufgenommen bzw. weitere Variablen oder Variablensåtze (kodiert und/oder Intervall skaliert) als Kontrollvariablen fçr die Prådiktorvariablen und/ oder die Kriteriumsvariablen berçcksichtigt werden (ausfçhrlicher hierzu vgl. Cohen, 1982; man beachte allerdings, dass Cohen eine andere Prçfstatistik verwendet, die ± abweichend von Pillais PS ± nur approximative Schåtzungen der v2 -Werte liefert.)
k ´ 2-v2-Test Eine k 2-Kontingenztafel låsst sich durch p k 1 Indikatorvariablen als Prådiktorvariablen und eine Indikatorvariable als Kriteriumsvariable
q 1 darstellen (vgl. Tabelle 14.16). Es sind damit die Ausfçhrungen çber die multiple Korrelation anwendbar, d. h., wir erhalten k2 R2 (vgl. S. 640) bzw. nach Gl. (19.49) PS R2 . Das v2 einer k 2-Tafel låsst sich ± wie in 14.2.11 bereits erwåhnt ± nach Gl. (19.50) einfach mit der Beziehung v2 n R2 errechnen.
4-Felder-v2-Test
19
Die Kodierung einer 4-Felder-Tafel erfolgt durch eine Prådiktorindikatorvariable und Kriteriumsindikatorvariable (vgl. Tabelle 14.15). Damit sind die Ausfçhrungen çber die Produkt-Moment-Korrelation anwendbar. Wir erhalten k2 r2 bzw.
19.4 Schlussbemerkung Nach Durcharbeiten dieses Kapitels wird sich manchem Leser vermutlich die Frage aufdrången, warum es erforderlich ist, auf mehreren 100 Seiten statistische Verfahren zu entwickeln, die letztlich zum græûten Teil Spezialfålle eines einzigen Verfahrens sind. Wåre es nicht sinnvoller, von vornherein die kanonische Korrelationsanalyse als ein allgemeines Analysemodell zu erarbeiten, aus dem sich die meisten hier behandelten Verfahren deduktiv ableiten lassen? Eine Antwort auf diese Frage hat zwei Aspekte zu berçcksichtigen. Angesichts der Tatsache, dass heute ohnehin ein Groûteil der statistischen Datenverarbeitung mit leistungsstarken EDV-Anlagen absolviert wird, ist es sicherlich sinnvoll, ein allgemeines, auf der kanonischen Korrelationsanalyse aufbauendes Analysenprogramm zu erstellen, das die wichtigsten statistischen Aufgaben læst. Neben diesem rechentechnischen Argument sind jedoch auch didaktische Erwågungen zu berçcksichtigen. Hier zeigt die Erfahrung, dass die meisten Studierenden der Human- und Sozialwissenschaften çberfordert sind, wenn sie bereits zu Beginn ihrer Statistikausbildung die Mathematik erarbeiten mçssen, die fçr ein genaues Verståndnis der kanonischen Korrelation erforderlich ist. Wåhrend z. B. der Aufbau eines t-Tests oder eine einfache Varianzanalyse ohne çbermåûige Anstrengungen nachvollziehbar sind, muss man befçrchten, dass die Anschaulichkeit dieser Verfahren (und auch die Studienmovitation) verloren ginge, wenn man sie als Spezialfålle der kanonischen Korrelation einfçhren wçrde. Dies ist das entscheidende Argument, warum dieses Lehrbuch mit der Vermittlung einfacher Verfahren beginnt, diese schrittweise zu komplizierteren Ansåtzen ausbaut und schlieûlich mit einem allgemeinen Analysemodell endet, das die
meisten der behandelten Verfahren auf ¹eine gemeinsame Formelª bringt. ÛBUNGSAUFGABEN 1. Was wird mit einer kanonischen Korrelationsanalyse untersucht? 2. Worin unterscheiden sich die multiple Korrelation, die PCA, die Diskriminanzanalyse und die kanonische Korrelationsanalyse hinsichtlich der Kriterien, nach denen im jeweiligen Verfahren Linearkombinationen erstellt werden? 3. Wie viele kanonische Korrelationen kænnen im Rahmen einer kanonischen Korrelationsanalyse berechnet werden? 4. Unter welchen Umstånden sind die im Anschluss an eine kanonische Korrelationsanalyse zu berechnenden Redundanzmaûe fçr die Kriteriumsvariablen und Prådiktorvariablen identisch?
19
645
aÛbungsaufgaben
5. Wie mçssen die Prådiktor- und Kriteriumsvariablen fçr eine kanonische Korrelationsanalyse beschaffen sein, damit keine Suppressionseffekte auftreten kænnen? 6. Welche Kennwerte dienen der Interpretation kanonischer Korrelationen? 7. Wie mçssen die Daten in Aufgabe 6, Kap. 17, fçr eine kanonische Korrelationsanalyse aufbereitet werden? (Bitte verwenden Sie die Effektkodierung.) 8. Wie lautet die Dummykodierung fçr folgende 4 4-Tafel?
a1 a2 a3 a4
b1 18 8 6 19
b2 16 14 12 23
b3 23 15 9 24
b4 17 18 11 23
Anhang
649
Læsungen der Ûbungsaufgaben
Die Læsung der Ûbungsaufgaben setzt Bekanntheit des in den jeweiligen Kapiteln behandelten Stoffs voraus. Als Hilfestellung sind bei den meisten Aufgaben die Læsungswege angedeutet. Græûtenteils wird auf die zur Læsung fçhrenden Gleichungen und deren Erlåuterung im Text verwiesen. Bei Aufgaben, deren Beantwortung sich unmittelbar aus dem Text ergibt, sind lediglich die entsprechenden Seitenzahlen angegeben.
Kapitel 1 1. Gemåû Gl. (1.2) werden die Pråferenzhåufigkeiten der Græûe nach sortiert. Rangplatz: 1 2 3 4 5 6 7 8 9 10 Nr. der Zielvorstellung: 2 5 10 7 1 6 8 4 9 3 2. a) Zum Zeichnen eines Histogramms vgl. S. 34 b) Fçr eine kumulierte Håufigkeitstabelle werden jeweils die Werte aller Kategorien bis zur aktuellen zusammengezåhlt: 0±9: 11 10±19: 11+28=39 20±29: 11+28+42=81 usw. vgl. S. 31 c) Fçr eine Prozentwerttabelle berechnet man nach Gl. (1.5) fçr jede Kategorie ihren Prozentanteil an der Gesamtgræûe des Kollektivs: 11 0±9: b 5;5% 200 28 10±19: b 14;0% usw. vgl. S. 29 200 d) Fçr eine kumulierte Prozentwerttabelle addiert man die %-Werte aus c) jeweils bis zur aktuellen Kategorie auf: 0±9: 5,5% 10±19: 5,5%+14,0%=19,5%
usw. vgl. S. 29
bzw. man berechnet den Prozentanteil der kumulierten Werte aus b) an der Gesamtgræûe des Kollektivs (Gl. 1.6): 11 b 5;5% 0±9: 200 39 b 19; 5% usw. 10±19: 200
650
Anhang
Insgesamt resultiert folgende Tabelle: Fehleranzahl (k)
fkum
k %
k
%kum
k
0±9 10±19 20±29 30±39 40±49 50±59 60±69 70±79 80±89 90±99
11 39 81 127 151 168 177 180 188 200
5,5 19,5 40,5 63,5 75,5 84,0 88,5 90,0 94,0 100,0
5,5 14,0 21,0 23,0 12,0 8,5 4,5 1,5 4,0 6,0
3. Zum Zeichnen von Polygonen vgl. S. 30 Berechnung dreigliedrig ausgeglichener Håufigkeiten nach Gl. (1.7), S. 31 0±9,9: kein Wert, da f
k 1 nicht existiert 10±19,9: f
k 1 0; f
k 0; f
k1 3 003 1 3 20±29,9: f
k 1 0; f
k 3; f
k1 18 0 3 18 7 3 Lernzeiten
dreigliedrig ausgeglichene Håufigkeit
10±19,9 20±29,9 30±39,9 40±49,9 50±59,9 60±69,9 70±79,9 80±89,9 90±99,9 100±109,9
1,0 7,0 23,3 41,7 58,7 63,0 52,3 34,3 13,7 5,0
4. Sowohl bei Aufgabe 2 als auch Aufgabe 3 handelt es sich um gruppierte Daten. a) Nach Gl. (1.10) berechnet man das arithmetische Mittel: 4;5 11 14;5 28 24;5 42 34;5 46 7680 38;4 200 200 Die Werte 4,5; 14,5; 24,5 etc. ergeben sich als Kategorienmitten: Mitte zwischen 0 und 9 = 4,5; Mitte zwischen 10 und 19 = 14,5 usw. Median (s. S. 36): Da n 200, liegt der Median beim 100. Wert der Tabelle. Der 100. Wert liegt in der Kategorie 30±39. Die Kategorie 30±39 beginnt mit dem 82. Wert (Kategorien 0±29: 11+28+42 = 81). Der 100. Wert des Gesamtkollektivs ist daher der 19. Wert der Kategorie 30±39.
651
aLæsungen der Ûbungsaufgaben
Entsprechend S. 37 ergibt sich 19 10 30 0;41 10 30 34;1 Md 46 (Man beachte, dass das Merkmal ¹Fehleranzahlª diskret ist, sodass die untere Grenze der kritischen Kategorie den Wert ¹30 Fehlerª und nicht ¹29,5 Fehlerª hat.) Der Modalwert einer Verteilung mit gruppierten Daten ist die Kategorienmitte der am håufigsten besetzten Kategorie, hier also die Mitte der Kategorie 30±39. Mo = 34,5 b) Berechnung wie a) 18870 62;9 x 300 22 10 60 0;32 10 60 63;2 Md 69 Mo 65;0 5. Da arithmetische Mittel unterschiedlich groûer Kollektive vorliegen, erfolgt die Berechnung eines gewichteten arithmetischen Mittels (GAM) gemåû Gl. (1.13): 18;6 36 22;0 45 19;7 42 17;1 60 36 45 42 60 669;6 990;0 827;4 1026;0 3513;0 19;2 183 183 6. Die Varianz gruppierter Daten berechnet man nach Gl. (1.24). Als x-Werte mçssen ± wie zuvor ± die Kategorienmitten herangezogen werden. Die Berechnung erfolgt am sinnvollsten mittels einer Tabelle: a) Spaltenmitte Anzahl
xk Diktate
fk
xk
4,5 14,5 24,5 34,5 44,5 54,5 64,5 74,5 84,5 94,5
±33,9 ±23,9 ±13,9 ±3,9 6,1 16,1 26,1 36,1 46,1 56,1
11 28 42 46 24 17 9 3 8 12
x
xk
x2
1 149,21 571,21 193,21 15,21 37,21 259,21 681,21 1 303,21 2 125,21 3 147,21
fk
xk
x2
12 641,31 15 993,88 8 114,82 699,66 893,04 4 406,57 6 130,89 3 909,63 17 001,68 37 766,52 10 X
fk
xk
x2 107558;0
fk
xk
x2
k1 10 P
107558;0 537;79 s2 k1 200 n p p s s2 537;79 23;19
652
Anhang
b) Berechnung entsprechend a) 75 177 250;59; s 15;83 s2 300 7. a) s 900; 1800 2 s 4 p
jxi 2500j > 2 900 < ) p < 0;1, vgl. Gl. (1.19), 9 22 1 b) p
jxi 2500j > 2 900 < 2 ) p < 0;25, vgl. Gl. (1.20). 2 8. Zum Vergleich der Testergebnisse fçhren wir zunåchst eine z-Transformation nach Gl. (1.27) durch. Die z-transformierten Werte lauten: 60 42 30 40 110 80 1;5 ; z2 2 ; z3 2: z1 12 5 15 Die beste Testleistung wurde somit in Test 3 erreicht.
Kapitel 2 1. Es wird nach der Wahrscheinlichkeit fçr einen Kleingewinn (A) oder einen Hauptgewinn (B) gefragt. Die Einzelwahrscheinlichkeiten lauten p(A) = 0,30 und p(B) = 0,10. Nach dem Additionstheorem fçr disjunkte Ereignissse (Gl. 2.9) errechnet man fçr die gesuchte Wahrscheinlichkeit
p
A [ B p
A p
B 0,30 + 0,10) = 0,40. 5 (Vokale) 2. P
A 26 3 (Vokal und unter den ersten 10 Buchstaben) P
A \ B 26 10 (erste zehn Buchstaben des Alphabets) P
B 26 5 10 3 12 0;462 P
A [ B P
A P
B P
A \ B 26 26 26 26 Mit der Zufallsauswahl der Buchstaben a, e oder i treten Ereignisse A und B gemeinsam auf und mçssen somit einmal subtrahiert werden (s. Additionstheorem, Gl. 2.8, S. 54) 3. Wir berechnen nach dem Multiplikationstheorem (vgl. S. 55): 4=10 3=9 2=8 1=7 0;0048. Da eingenommene Tabletten nicht zurçckgelegt werden kænnen, åndert sich mit jeder Einnahme (Ereignis) die Ergebnismenge und somit das Verhåltnis der gçnstigen Fålle (Anzahl der noch vorhandenen Plazebos) zu den mæglichen Fållen (Plazebos + Nicht-Plazebos) fçr das folgende Ereignis. Eine weitere Mæglichkeit der Berechnung ergibt sich aus der 2. Kombinationsregel (vgl. S. 60): 1 10 0;0048 : 4
4. Davon ausgehend, dass die Lebensdauer von Herrn M. von der Lebensdauer von Frau M. unabhångig ist, ergibt sich: P
A 0;6 (Herr M. lebt in 20 Jahren noch) P
B 0;7 (Frau M. lebt in 20 Jahren noch) P
A \ B P
A P
B 0;6 0;7 0;42 (s. Multiplikationstheorem, S. 55) 5. Jeder Wurf ist vom vorhergehenden unabhångig. In jedem Wurf soll eine bestimmte Zahl fallen. Je 1 Wurf betrågt die Wahrscheinlichkeit fçr die gewçnschte Zahl also . 6 6 1 1 1 1 1 1 1 Insgesamt ergibt sich p 2;14 10 5 (s. Multiplikationstheorem, S. 55 und 6 6 6 6 6 6 6 1. Variationsregel, S. 59).
653
aLæsungen der Ûbungsaufgaben
1 1 6. Die zufållige Ratewahrscheinlichkeit betrågt fçr die Vorspeise , fçr das Hauptgericht und fçr die 4 6 1 Nachspeise . Die Speisen kænnen unabhångig voneinander ausgewåhlt werden; somit ergibt sich 1 1 13 1 0;014 (s. Multiplikationstheorem, S. 55) p 4 6 3 72 7. Das erste Bild muss aus sechs Bildern gewåhlt werden, das zweite nur noch aus fçnf usw. Mit jedem Ereignis (Bildwahl) åndert sich die Ergebnismenge des nåchsten Ereignisses. Somit ergibt sich 1 1 1 1 1 1 1 p 0;0014 (s. Multiplikationstheorem, S. 55 und Permutationsregel, S. 60) 6 5 4 3 2 1 6! 8. Fçr das 1. Familienmitglied stehen 20 Tiere zur Verfçgung, fçr das 2. nur noch 19 usw. Somit erge20! 116 280 Zuweisungskombinationen (s. 1. Kombinationsregel, S. 60) ben sich 20 19 18 17 16! 9. In Aufgabe 8 konnten vier ausgewåhlte Tiere unterschiedlich auf die Familienmitglieder verteilt werden. Im Gegensatz dazu ergeben fçnf ausgewåhlte Mitarbeiter immer dasselbe Team. Die Reihenfolge, in der die Mitarbeiter ausgewåhlt werden, spielt keine Rolle. Man rechnet 8 8! 40 320 56 (s. 2. Kombinationsregel, S. 60) 5 5! 3! 120 6 10. Aus der Klasse mçssen fçnf Gruppen gebildet werden: die der Stçrmer, der Mittelfeldspieler, der Verteidiger, des Torwarts und derer, die nicht mitspielen sollen. Wie zuvor ist es jeweils nicht von Belang, ob z. B. ein Schçler als erster, zweiter oder dritter in die Stçrmergruppe eingeteilt wurde. 15! Man rechnet: 63 063 000 Mannschaftsaufstellungen (s. 3. Kombinationsregel, 3! 4! 3! 1! 4! S. 61). 11. Die Læsung dieser Aufgabe erfordert das Verståndnis des Beispiels auf S. 68. Wir berechnen zunåchst nach Gl. (2.37) die Wahrscheinlichkeit fçr hæchstens 2 Zufallstreffer: 2 X j0
10 10 10 0 10 1 9 0;25 0;75 0;25 0;75 0;252 0;758 p
jj10 0 1 2 0;0563 0;1877 0;2816 0;5256 :
Fçr mindestens 3 Zufallstreffer resultiert somit p 1 0;5256 0;4744. 12. Da sich in der Lostrommel nur eine endliche Anzahl von Losen befindet und einmal gezogene Lose nicht zurçckgelegt werden, dçrfen wir den folgenden Berechnungen keine Binominalverteilung zugrunde legen, sondern mçssen eine hypergeometrische Verteilung verwenden (vgl. S. 70). Nach Gl. (2.40) ermitteln wir die Wahrscheinlichkeit fçr 1 Gewinn, 2 Gewinne, . . . 5 Gewinne: 90 10 4 1 0;3394 ; p
1j100; 10;5 100 5 90 10 2 3 0;0064 ; p
3j100; 10;5 100 5 90 10 0 5 3;35 10 p
5j100; 10;5 100 5
90 10 3 2 p
2j100; 10;5 0;0702 ; 100 5 90 10 1 4 p
4j100; 10;5 0;0003 ; 100 5 6
:
654
Anhang
Die Wahrscheinlichkeit fçr mindestens einen Gewinn ergibt sich als die Summe der Einzelwahrscheinlichkeiten zu p 0;4162. 13. a) Zunåchst mçssen die Testwerte von P z-transformiert werden (s. S. 44). Gemåû Gl. (1.27) ergibt 78 60 2;25 und beim Kreativitåtstest sich beim mechanischen Verståndnistest z1 8 35 40 1. z2 5 Das Integral der Flåche unter der Standardnormalverteilung in den Grenzen 1 und 2;25 entspricht der Wahrscheinlichkeit, dass die Ergebnisse der Lehrlinge im mechanischen Verståndnistest (Zufallsvariable) kleiner und somit schlechter sind als das Ergebnis von Lehrling P (s. Gl. 2.47). Man ermittelt p
z1 < a fçr a 2;25 durch Nachschauen in Tabelle B (s. S. 815; in der Spalte ¹zª den Wert 2,25 suchen); in der Spalte ¹Flåcheª ist die zugehærige Wahrscheinlichkeit 0,9878 abzulesen. Die Gesamtheit der Flåche unter der Standardnormalverteilung hat den Wert 1, d. h., 100% der Messwerte liegen in den Grenzen 1 und 1. Der Prozentsatz der Lehrlinge, die schlechter als P abschneiden, errechnet sich aus p
z1 < 2;25 100% 98;78%. b) Man schlågt zunåchst p
z2 < a fçr a 1 in Tabelle B (S. 812) nach. p
z2 < 1 0;1587. Dieser Wert drçckt aber aus, welcher Prozentsatz der Lehrlinge schlechter als P abschneidet. Um zu erfahren, welcher Prozentsatz besser abschneidet, ermittelt man die Gegenwahrscheinlichkeit zu p
z2 < 1: p
z2 >
1 1
p
z2 <
1 0;8413 :
Der Prozentsatz betrågt demnach 0;8413 100% 84;13%. c) Zunåchst mçssen wir den Wert des Testergebnisses von Lehrling F z-transformieren: z 0;6. Den Prozentsatz der Lehrlinge, die besser als Lehrling P und schlechter als Lehrling F abschneiden, ermitteln wir aus: p
z < 0;6 p
z < 1 100% 0;7257 0;1587 100% 56;70% (vgl. S. 75). 14. v2
9;95% wird in Tabelle C nachgeschlagen (S. 817) In der linken Spalte der Tabelle wåhlt man die Freiheitsgrade (hier: 9) aus. Da die oberen 5% abgeschnitten werden sollen, die Tabelle aber die Werte unterhalb eines Prozentwertes angibt, muss in der ausgewåhlten Zeile der Wert der Spalte 95% (0,950) nachgesehen werden. Wir finden v29;95% 16;919. 15. t
12; 0;5% schneidet den unteren Teil der t-Verteilung ab; man schlågt in Tabelle D (S. 819) nach: In der linken Spalte stehen die Freiheitsgrade. Da die t-Verteilung symmetrisch ist, sind nur Werte fçr > 50% aufgefçhrt. Werte < 50% erhålt man, indem man den gesuchten %-Wert von 100% abzieht und diesen%-Wert nachsieht; in diesem Fall 100%±0,5% = 99,5%. In der Spalte 0,995 findet sich 3,055. Diesen Wert muss man nun negativ setzen; t
12; 0;5% 3;055. t
12; 99;5% schneidet den oberen Teil der t-Verteilung ab. Dieser Wert låsst sich direkt in Tabelle D nachsehen: t
12; 99;5% 3;055. 16. F
4;20; 95% wird in Tabelle E nachgeschlagen (S. 320). Die Zåhler-df sind in den Spalten, die Nennerdf in den Zeilen abgetragen. Fçr jede df-Kombination sind vier %-Werte angegeben. In diesem Beispiel benætigen wir 95% und lesen daher den Wert der Zeile ¹0,95ª ab: F
4;20; 95% 2;87.
Kapitel 3 1. a) Eine Zufallsstichprobe liegt vor, wenn aus einer Grundgesamtheit eine zufållige Auswahl von Untersuchungseinheiten entnommen wird, wobei jede Untersuchungseinheit die gleiche Auswahlwahrscheinlichkeit hat (vgl. S. 86). b) Bei einer Klumpenstichprobe bestehen bereits vorgruppierte Teilmengen, aus denen einige zufållig ausgewåhlt und vollståndig untersucht werden (vgl. S. 87).
aLæsungen der Ûbungsaufgaben
2. 3.
4. 5.
6.
7.
8.
655
c) Eine Stichprobe wird als (proportional) geschichtet bezeichnet, wenn die prozentuale Verteilung der Schichtungsmerkmale mit der Verteilung in der Population çbereinstimmt. Stichprobenkennwerteverteilungen sind Verteilungen statistischer Kennwerte (Maûe der zentralen Tendenz, Dispersionsmaûe, Exzess, Schiefe) von vielen Stichproben, die aus derselben Grundgesamtheit gezogen wurden (bei endlichen Populationen: mit Zurçcklegen) (vgl. S. 89). Das zentrale Grenzwerttheorem besagt, dass die Verteilung von Mittelwerten aus Stichproben gleichen Umfangs (n), die aus derselben Population stammen (bei endlichen Populationen: mit Zurçcklegen), bei wachsendem Stichprobenumfang (n) in eine Normalverteilung çbergeht. Es gilt unter der Voraussetzung endlicher Varianz der Grundgesamtheit und ist unabhångig von der Verteilungsform der Messwerte in der Grundgesamtheit (vgl. Kap. 3.2.3). Jede Normalverteilung kann mittels z-Transformation in eine Standardnormalverteilung çberfçhrt werden (vgl. S. 75). a) falsch; die Stichprobenvarianz ergibt sich durch Division der Quadratsumme durch n, wåhrend die geschåtzte Populationsvarianz sich aus Division derselben Quadratsumme durch n 1 berechnet. Somit gilt: Stichprobenvarianz < geschåtzte Populationsvarianz. Dies drçckt sich auch aus in n ^ 2 s2 der Gl. (3.2): r (vgl. S. 92). n 1 b) richtig; der Standardfehler des Mittelwerts ist so definiert (vgl. Kap. 3.2.2, S. 92). c) falsch; das Quadrat eines Standardfehlers bezeichnet immer die Varianz einer Kennwerteverteilung; die Populationsvarianz hingegen entspricht der Varianz eines Merkmals in der Grundgesamtheit. d) falsch; vielmehr ergibt sich der Standardfehler des Mittelwerts aus der Wurzel der Division der Populationsvarianz (nicht der Stichprobenvarianz) durch n (vgl. S. 90 und Gl. 3.1). e) richtig (vgl. S. 94). r r r f) richtig (vgl. S. 90 und Gl. 3.1). ^2 102 1 r ^x Der Standardfehler betrågt gemåû Gl. (3.3) r . Die Konfidenzintervalle erge 2 n 200 ben sich damit nach Gl. (3.20) und Gl. (3.21) als p a) 100 1;96 p1=2 100 1;39; 98;61; 101;39 b) 100 2;58 1=2 100 1;82; 98;18; 101;82 ^x vergræûert sich das Intervall mit steigendem Konfidenzkoa) Wegen Gl. (3.22): Dcrit x z
a=2 r effizienten (vgl. auch Ergebnisse von Aufg. 6!) (vgl. S. 102). b) Mit steigendem n verringert sich der Standardfehler (vgl. Gl. 3.3) und mit ihm das Intervall (vgl. Gl. 3.22). c) Mit steigender Populationsstreuung vergræûert sich auch die Stichprobenstreuung und somit auch der Standardfehler. Das Intervall wird græûer. Es muss ein Konfidenzintervall fçr Prozentwerte berechnet werden. Der fçr Gl. (3.24) benætigte Pro160 zentwert P errechnet sich durch 80%, weil die Hunde in 160 von 200 Fållen so reagieren, wie 200 gewçnscht wird. Q ergibt sich als 100% P 20%. r r PQ 80% 20% p ^% 8%
Gl: 3:6 r n 200 p Dcrit 80% 1;96 8% 80% 5;54%; 74;46% ; 85;54%
^ 10 9. Die Mindestgræûe des Stichprobenumfangs berechnet man nach Gl. (3.27) fçr z
0;95 1;65; r und KIB 6: ^2 4 z2
a=2 r
4 1;652 102 4 2;72 100 30;25 36 KIB2 62 Der Stichprobenumfang sollte daher mindestens 31 betragen.
n
656
Anhang
10. Vgl. Gl. (3.27): a) Bei kleinerer Streuung in der Population kann der Stichprobenumfang verringert werden ^2
n r b) Eine der Intervallgræûe muss durch eine græûere Stichprobe kompensiert werden Verkleinerung 1 n KIB2 c) Durch eine Vergræûerung des Konfidenzkoeffizienten erhæht sich der z-Wert, der in die Gleichung eingeht; n muss entsprechend vergræûert werden
n z2 .
Kapitel 4 1. a) Kænnen aus einer neuen, noch nicht hinreichend abgesicherten Theorie Aussagen (Hypothesen) abgeleitet werden, die çber den bisherigen Wissensstand hinausgehen und/oder mit bisherigen Theorien in Widerspruch stehen, so werden diese als Alternativhypothesen bezeichnet. Eine Nullhypothese behauptet die Falschheit einer entsprechenden Alternativhypothese; d. h., sie behauptet, dass diejenige Aussage, die zur Alternativhypothese komplementår ist, richtig sei (vgl. Kap. 4.1 und 4.2). b) Gerichtete Alternativhypothesen geben die Richtung des behaupteten Zusammenhangs oder Unterschieds vor, ungerichtete Alternativhypothesen nicht. Eine gerichtete Hypothese wird mit einem einseitigen, eine ungerichtete mit einem zweiseitigen Test çberprçft (vgl. Kap. 4.5). c) Spezifische (Alternativ-)Hypothesen geben den genauen Wert (nicht: Wertebereich!) einer Differenz der von ihnen betroffenen statistischen Kennwerte (bei Unterschiedshypothesen) bzw. einen genauen Wert (nicht: Wertebereich) des Zusammenhangs (bei Zusammenhangshypothesen) an; unspezifische (Alternativ-)Hypothesen geben nur Wertebereiche an. 2. Ein Beispiel: Nullhypothese:
3. 4. 5.
6.
Die Intelligenz von verwahrlosten Jugendlichen (l1 ) ist genauso hoch wie die Intelligenz von nicht verwahrlosten Jugendlichen (l0 ) (H0: l1 l0 ). Alternativhypothese: Die Intelligenz von nicht verwahrlosten Jugendlichen ist hæher als die von verwahrlosten (H1: l1 < l0 ). Vgl. S. 111. Der a-Fehler ist nur mit Entscheidungen zugunsten der H1 verbunden. Bei einem b-Fehler wird die H0 angenommen, obwohl eigentlich die H1 richtig ist. Um die Wahrscheinlichkeit eines b-Fehlers zu bestimmen, muss die Verteilung der Population, auf die sich die H1 bezieht, bekannt sein (es muss also ein l1 bekannt sein). Eine unspezifische Hypothese macht aber nur die generelle Aussage, es bestehe ein Unterschied zwischen l0 und l1 . Die Verteilung der H1-Population ± insbesondere ihr l1 ± wird nicht spezifiziert. So kann der b-Fehler nicht berechnet werden. Die untersuchten Gruppen sind zum einen alle månnlichen Erwerbståtigen (ihr mittlerer Karriereindex erhålt die Bezeichnung l0 ), zum anderen jene månnlichen Erwerbståtigen mit den Anfangsbuchstaben Q Z (ihr mittlerer Karriereindex wird entsprechend mit l1 bezeichnet). Die zu testende Hypothese besagt, dass letztere Gruppe einen geringeren mittleren Index aufweist als erstere. Umgesetzt in eine statistische Alternativhypothese schreibt man: H1: l0 > l1 . Die dazugehærige (gegenteilige) Nullhypothese lautet folglich: H0: l0 l1 . Obwohl die H0 unspezifisch ist, ist es zulåssig, ihre a-Fehler-Wahrscheinlichkeit çber die spezifische Nullhypothese H0: l0 l1 zu bestimmen (vgl. S. 115 f.). Um die Irrtumswahrscheinlichkeit bei Annahme der H1 zu ermitteln, muss der erhobene Mittelwert z-transformiert werden (Gl. 1.27). Da es sich um Mittelwerte handelt, muss zur Transformation der ^x herangezogen werden (nicht r ^!). Standardfehler r
aLæsungen der Ûbungsaufgaben
657
r r ^2 122 r ^x 1;5. Die z-Transformation von x 38 ergibt danach Nach Gl. (3.3) ergibt sich r n 64 38 40 z 1;5 1;33. Dieser Wert wird in Tabelle B (Spalte ¹zª, S. 813) nachgeschlagen und ergibt eine a-Fehler-Wahrscheinlichkeit von 0;0918 bzw. 9;18%. 7. Fçr einen zweiseitigen Signifikanztest wird a auf zwei Bereiche ± weit unter und weit çber l0 ± aufgeteilt. Bei einem Signifikanztest mit a 5% wird ein Stichprobenmittelwert x1 , der græûer ist als l0 , daher praktisch auf 2,5%igem Niveau getestet, d. h., Signifikanz wird nur erlangt, wenn die Wahrscheinlichkeit, einen solch hohen oder hæheren Mittelwert bei Gçltigkeit von H0 zu erheben, maximal 2,5% betrågt. Erfçllt ein Wert dieses Kriterium, erfçllt er automatisch auch das Kriterium eines einseitigen Tests, bei dem a nicht aufgeteilt und somit einseitige Signifikanz auf 5% (statt 2,5%) getestet wird. Die Antwort heiût also: ja (vgl. S. 116 und Abb. 4.3). 8. a) H0: l1 l0 100. b) H1: l1 l0 10 bzw. l1 110. c) Das Vorgehen dem in Aufgabe 6: r rentspricht ^2 182 r ^x 3 (Gl. 3.3) r n 36 106 100 2 (Gl. 1.27). fçr x 106 ergibt sich z 3 Tabelle B (Spalte ¹zª, S. 815) zeigt fçr z 2 eine Wahrscheinlichkeit von 0,9772. Die a-FehlerWahrscheinlichkeit ergibt sich als 1 0;9772 0;0228 bzw. 2;28%. d) Das Vorgehen entspricht wiederum dem in Aufgabe 6; der b-Fehler tritt aber auf, wenn H0 angenommen wird, obwohl H1 richtig ist. Der erhobene Mittelwert x 106 muss daher im Vergleich zu l1 =110, nicht zu l0 100 (wie in c) geprçft werden. 106 110 4 1;33 (Gl. 4.5) Fçr x 106 ergibt sich z 3 3 Tabelle B (Spalte ¹zª, S. 813) weist fçr z 1;33 eine Wahrscheinlichkeit von 0;0918 bzw. 9;18% aus. e) Es wird von einer Leistungssteigerung von 10%
l1 l0 10 110 ausgegangen. Als Effektgræûe ergibt sich laut Gl. (4.4) l l0 110 100 0;56. e 1 r 18 f) Teststårke 1 b 0;99 (vgl. S. 123 f.) fçr b 0;01. Der z-Wert, der 1% von der Standardnormalverteilung abschneidet, betrågt 2;33 (Tabelle B, Spalte ¹Flåcheª, S. 812). Fçr den z-Wert von 1 a ergibt sich entsprechend z 2;33. Die benætigte Stichprobengræûe errechnet sich nach Gl. (4.13) als
z1 a zb 2
2;33
2;332 4;662 n 70;35 e2 0;562 0;562 Es sollten also 70 oder 71 Personen in den Vorversuch einbezogen werden. 9. z-Werte im Bereich 2;33 z 2;58 (bzw. 2;33 z 2;58) sind bei einseitigem Test auf dem 1%-Niveau signifikant und bei zweiseitigem Test auf dem 1%-Niveau nicht signifikant. 10. Die Teststårke wåchst mit zunehmender Differenz l1 l0 . Eine Teststårkefunktion errechnet die Teststårke
1 b fçr unterschiedliche Differenzen l1 l0 (vgl. S. 125). 11. Unter einer Effektgræûe versteht man einen Unterschied bezçglich eines Merkmals, der zwischen zwei Populationen mindestens bestehen muss, um von einem praktisch bedeutsamen Unterschied sprechen zu kænnen. Die Signifikanz eines Unterschieds reicht fçr die Beurteilung der praktischen Relevanz nicht aus, weil bei groûen Stichproben bereits sehr kleine, praktisch unbedeutende Unterschiede signifikant werden (vgl. S. 120 f.). 12. Wie aus Gl. (4.13) ersichtlich, bestimmt man den optimalen Stichprobenumfang einer hypothesençberprçfenden Untersuchung durch die gewçnschten Fehlerwahrscheinlichkeiten fçr a und b (bzw. die Teststårke 1 b) sowie die Græûe des abzusichernden Effekts.
658
Anhang
Kapitel 5 ^1 2;27; r ^2 3;09 1. x1 22;67; x2 24;92; r ^ ergibt sich aus s Zur schrittweisen Berechnung der Varianz vgl. Læsung zu Aufgabe 6 des Kap. 1; r r durch n n ^ 2 s2 ^ s2 r bzw. r (Gl. 3.2). n 1 n 1 Es handelt sich um einen Mittelwertvergleich kardinalskalierter Daten zweier unabhångiger Gruppen. Dieser wird mit dem t-Test fçr unabhångige Stichproben durchgefçhrt (vgl. S. 140). H0: l2 l1 H1: l2 > l1 (einseitiger Test) Die Zahl der Freiheitsgrade ergibt sich zu df n1 sn 2 12 12 2 22 2 r ^21
n2 1 r ^22
n1 1 r 1 1 ^x2 x1 r n1 n2
n1 1
n2 1 r r 2 2 11 2;27 11 3;09 1 1 1;107 (Gl. 5.13) 12 12 22 Fçr t errechnet man somit 22;67 24;92 2;03 (Gl. 5.15) t 1;107 Tabelle D weist fçr t
22; 0;95 einen Wert von 1,717 aus (Zeile ¹22ª, Spalte ¹0,95ª, S. 819). Da der t-Wert negativ ist, verwenden wir t
22; 0;05 1;717. Die H0 wird verworfen, da t 2;03 < 1;717. Arme Kinder schåtzen 1-1-Stçcke signifikant græûer ein als reiche. 2. Vgl. S. 138. 3. Es handelt sich um einen Mittelwertvergleich kardinalskalierter Daten fçr abhångige Stichproben (jeder Junge wurde zweimal gemessen). l1 : Einstellung vorher, l2 : Einstellung nachher. H0: l1 l2 bzw. l1 l2 H1: l1 > l2 ^d xd 2;67 r ^d 2;45; r ^xd p 0;82; t 3;26; df 9 1 8 (Gl. 5.23). xd 2;67; r ^xd 0;82 r 9 Aus Tabelle D (Zeile ¹8ª, Spalte ¹0,99ª) ergibt sich fçr t
8; 0;99 2;896. Da das empirisch ermittelte t græûer ist als der Tabellenwert, wird die H0 verworfen. Die Sçndenbockfunktion wird als beståtigt angesehen. 4. Parallelisierte Stichproben sind Stichproben, die so ausgewåhlt werden, dass die Untersuchungsobjekte in beiden Stichproben nach einem sinnvollen Kriterium paarweise einander zugeordnet sind (vgl. S. 143). 5. Mit dem F-Test çberprçfen wir die Nullhypothese, dass sich die Varianzen zweier Populationen ^21 7;64 und r ^22 44;10. Nach Gl. (5.39) nicht unterscheiden. Zunåchst ermitteln wir nach Gl. (3.2): r 44;10 5;77, wobei diejenige Varianz im Zåhler steht, die gemåû der gerichteten erhalten wir: F 7;64 H1 græûer sein sollte. Tabelle E entnehmen wir fçr dfZ 14 und dfN 14 ein F 2;46 auf dem 5%-Niveau und F 3;66 auf dem 1%-Niveau. Die Varianzen unterscheiden sich also sehr signifikant. 6. a) t-Test mit Welch-Korrektur:
659
aLæsungen der Ûbungsaufgaben ^22 44;10 r21 7;64 ; r r 7;64 44;10 ^
x1 x2 1;86 r 15 15 x1 21;93; x2 23;33 21;93 23;33 0;75 t 1;86 7;64 ^2x1 0;51 r 15 44;10 ^2x2 2;94 r 15 0;51 c 0;15 0;51 2;94 1 dfcorr 2 0; 15
1 0;152 14 14 18;8 19 t
19; 2;5%
2;09 <
0;75
n: s:
(zweiseitiger Test) b) Da die Stichproben voneinander unabhångig sind, kommt der Mann-Whitney-U-Test zur Anwendung. Gute Schçler
Schlechte Schçler
Zeit
Rang
Zeit
Rang
Mehrfach kommen vor
23 18 19 22 25 24 26 19 20 20 19 24 25 25 20
16,5 4,5 7,5 15 23 19 26 7,5 12 12 7,5 19 23 23 12
16 24 25 35 20 20 25 30 32 18 15 15 33 19 23
3 19 23 30 12 12 23 27 28 4,5 1,5 1,5 29 7,5 16,5
15: 18: 19: 20: 23: 24: 25:
T1 227;5
T2 237;5
Nach Gl. (5.45) ergibt sich die Prçfgræûe U: n1
n1 1 15 16 T 15 15 U n1 n2 2 2
227;5 117;5
2x 2x 4x 5x 2x 3x 5x
? ? ? ? ? ? ?
1,5 (1, 2) 4,5 (4, 5) 7,5 (6, 7, 8, 9) 12 (10, 11, 12, 13, 14) 16,5 (16, 17) 19 (18, 19, 20) 23 (21, 22, 23, 24, 25)
660
Anhang
Nach Gl. (5.44) ist U0 n1 n2
U 152 117;5 107; 5 n1 n2 152 112;5 lu ergibt sich aus Gl. (5.46) als lu 2 2 Da verbundene Rånge vorliegen, muss nicht ru , sondern ru corr berechnet werden: v r u k 3 un 3 n X n1 n2 ti ti t ru corr n
n 1 12 12 i1 r r 15 15 303 30 3
23 2
33 3 43 4 2
53 5 30 29 12 12 r 3 6 24 60 2 120 0;509 2247;5 12 0;509 47;106 23;98 117;5 112;5 0;21. U wird nun z-transformiert (vgl. Gl. 5.48): z 23;98 Wird zweiseitig auf dem 5%-Niveau getestet, muss jzj > 1;96 sein, damit bezçglich der zentralen Tendenz beider Gruppen ein signifikanter Unterschied besteht. Dies ist nicht der Fall. 7. Da die Messungen voneinander abhångig sind (Vorher-nachher-Messung), kommt der Wilcoxon-Test (Kap. 5.2.2) zur Anwendung. Klient
di
Rang von jdi j
Mehrfach kommen vor
1 2 3 4 5 6 7 8 9 10
±3 ±1 2 ±1 ±4 ±5 1 ±1 ±2 ±3
7,5 2,5 5,5 (+) 2,5 9 10 2,5 (+) 2,5 5,5 7,5
1: 4x ? 2,5 2: 2x ? 5,5 3: 2x ? 7,5
Die Rangsumme T wird fçr alle Werte berechnet, deren Vorzeichen seltener (hier: +) vorkommt: n
n 1 T 8; T0 47; lT 27;5. 4 Da n < 25, muss die Signifikanz des Unterschieds zwischen T und T0 anhand Tabelle G çberprçft werden. Fçr die einseitige Fragestellung (¹wurden mehr Inhalte verbalisiertª?) muss bei einem Signifikanzniveau von 1% T < 5 sein (Spalte ¹0,01ª, Zeile ¹10ª, S. 829). H0 wird beibehalten, die Patienten verbalisieren nicht mehr Inhalte als vor der Therapie. 8. Der k ` v2-Test prçft die H0 , ob zwei Merkmale voneinander unabhångig sind. Nach dem Multiplikationstheorem (vgl. Gl. 2.14, S. 56) ist die gemeinsame Auftretenswahrscheinlichkeit zweier unabhångiger Ereignisse gleich dem Produkt der Einzelwahrscheinlichkeiten beider Ereignisse. Die Einzelwahrscheinlichkeiten schåtzen wir aus den Randhåufigkeiten: p (Zeile i) = Zeilensumme i/Gesamtsumme p (Spalte j) = Spaltensumme j/Gesamtsumme. Die Wahrscheinlichkeit, dass ein Untersuchungsobjekt bei Gçltigkeit von H0 genau in die i-te Zeile und die j-te Spalte fållt, ergibt sich also zu p (Zeile i) ´ p (Spalte j). Nun benætigen wir aber nicht
661
aLæsungen der Ûbungsaufgaben
die gemåû H0 erwartete Wahrscheinlichkeit, sondern die erwartete Håufigkeit, d. h., wir mçssen die erwartete Wahrscheinlichkeit mit der Gesamtsumme multiplizieren. fe
i;j p
Zeile i p (Spalte j) Gesamtsumme Zeilensumme i Spaltensumme j Gesamtsumme Gesamtsumme Gesamtsumme
Zeilensumme i Spaltensumme j Gesamtsumme
(vgl. S. 168 und S. 172). 9. Ob ein empirisch erhobenes Merkmal gleichverteilt ist, kann mit dem 1-dimensionalen v2 -Test geprçft werden. n 450 90. Die erwartete Håufigkeit fçr jede Therapieform ergibt sich als fe k 5 Die Prçfgræûe v2 errechnet man dann çber Gl. (5.67): k P
v2
j1
fb
i
fe 2
fe
902
276 902
15 902 90 90 90 2 2
48 90
29 90 45 770 508;56 90 90 90
82
Die Zahl der Freiheitsgrade betrågt k 1 4. Aus Tabelle C (Spalte ¹0,990ª, Zeile ¹4ª, S. 818) kann als v2 -Wert 13,28 entnommen werden. Die errechnete Prçfgræûe ist viel græûer; H0 wird abgelehnt: Die Therapieformen sind nicht gleichverteilt. 10. Fçr die Ermittlung des Medians sind die 20 Werte der Græûe nach zu ordnen; es ergibt sich die Reihe 3; 4; 4; 4; 4; 5; 5; 6; 6; 6; 7; 7; 7; 7; 8; 8; 8; 8; 9; 9. Der Median teilt diese Reihe in der Mitte; bei 67 6;5 (vgl. 20 Werten liegt er zwischen dem 10. und 11. Wert und errechnet sich als Md 2 S. 36 f.). Fçr den McNemar-Test muss nun jeder Klient danach eingeordnet werden, ob er vor bzw. nach der Therapie einen Wert çber oder unter dem Median aufwies:
< Md vorher > Md
nachher < Md > Md 2 5 a b c d 1 2
Die Prçfgræûe fçr den Test berechnet man nach Gl. (5.63):
b c2
5 12 42 16 2;67 v2 6 bc 51 6 Sie ist mit 1 Freiheitsgrad versehen.
Sowohl bei zweiseitigem Test
v21; 0;95 3;84 als auch bei einseitigem Test (v21; 0;9 2;71 ist das Ergebnis nicht signifikant. Die H0 kann, wie schon in Aufgabe 7, nicht verworfen werden. Zu beachten ist allerdings, dass die erwarteten Håufigkeiten in den Zellen b und c sehr klein sind: (5+1)/2=3; dies vermindert die Genauigkeit des Tests. 11. Es geht um die Untersuchung eines dichotomen Merkmals mit mehr als zwei Messzeitpunkten, fçr deren Auswertung der Cochran-Test einschlågig ist.
662
Anhang
Hierzu muss fçr jeden Patient sein L-Wert (d. h. die Anzahl der Tage, an denen Schmerzen auftraten) sowie sein L2 -Wert ermittelt werden. Daneben muss die Anzahl der Patienten, die an den einzelnen Untersuchungstagen Schmerzen hatten, ebenfalls berechnet werden
T1 T6 : Patient
L
1 2 3 4 5 6 7 8 9 10 11 12
3 2 3 4 1 3 2 3 3 2 2 1
Summen
29
L2 9 4 9 16 1 9 4 9 9 4 4 1 79
T1 9 T2 6 T3 4 T4 3 T5 4 T6 3 m P j1
Tj 29
m P j1
!2 Tj
292 841
Die Prçfgræûe Q wird nach Gl. (5.66) berechnet: " !2 # m m P P 2
m 1 m Tj Tj j1 j1
6 16
92 62 42 32 42 32 841 Q n n P 2 P 6 29 79 Li m Li 5
1002 841 805 i1 i1 8;47 174 79 95 Die ermittelte Prçfgræûe ist mit einem v2 -Wert mit m 1 5 Freiheitsgraden zu vergleichen: v25; 0;99 15;09; Q ist kleiner als dieser Wert; die H0 wird beibehalten: Die Schmerzhåufigkeiten haben sich nicht signifikant geåndert. 12. Es soll geprçft werden, ob die beiden Variablen ¹Instruktionª (Teststandardisierung, Leistungsmessung) und Art der erinnerten Aufgaben (vollendet, unvollendet) voneinander unabhångig sind oder nicht. Dazu wird der v2-Test fçr Vier-Felder-Tafeln angewendet. Nach Gl. (5.73) berechnet man die Prçfgræûe v2 : v2
n
ad bc2 100
32 37 18 132
a b
c d
a c
b d
32 18
13 37
32 13
18 37
100
1184 2342 90 250 000 14;59 6 187 500 50 50 45 55 Zu vergleichen ist die Prçfgræûe mit einer v2-Verteilung mit 1 Freiheitsgrad: v21;0;99 6;63; die errechnete Prçfgræûe ist viel græûer, d. h., der Test ist sehr signifikant. Die Art der Instruktion beeinflusst die Art der erinnerten Aufgaben. 13. Die Unabhångigkeit der beiden Merkmale Schicht und Art der Stærung wird mit einem k ` v2 -Test çberprçft (vgl. S. 172 f.). Fçr jede Merkmalskombination wird die erwartete Håufigkeit aus den Randhåufigkeiten ermittelt. Anschlieûend werden die empirischen mit den erwarteten Håufigkeiten verglichen:
663
aLæsungen der Ûbungsaufgaben soz. Schicht hohe niedrige 44 53 29 48 45 23 15 23 14 6
Stærung (a) (b) (c) (d) (e)
125
175
Erwartete Håufigkeiten: Stærung soz. Schicht niedrige hohe 40,4 (a) 56,6 32,1 (b) 44,9 (c) 39,7 28,3 15,8 (d) 22,2 8,3 (e) 11,7 &125 &175 (Rundungsdifferenzen) Die Prçfgræûe v2 mit
k v2
44
2
1
`
97 77 68 38 20 300
Die erwartete Håufigkeit ergibt sich bspw. fçr die 1. Zelle zu: 97 125 40;4; vgl. Gl. (5.72) f
1;1 300 fçr die 2. Zelle zu: 97 175 56;6 f
1;2 300
97 77 68 38 20
1 1 4 4 Freiheitsgraden berechnet man nach Gl. (5.75): 2
40;4
53 56;6
29 32;12
48 44;92
23 28;32 40;4 56;6 32;1 44;9 28;3
39;72
15 15;82
23 22;22
14 8;32
6 11;72 39;7 15;8 22;2 8;3 11;7 0;32 0;23 0;30 0;21 0;99 0;71 0;04 0;03 3;91 2;78 9;52
45
Der kritische v2 -Wert v4; 0;95 9;49 liegt knapp unter der Prçfgræûe. Die H0 wird bei zweiseitigem Test verworfen. 14. Tabelle b) wegen zu kleiner erwarteter Håufigkeiten.
Kapitel 6 1. Vgl. S. 183 (Graphik). 2. Nach dem Kriterium der kleinsten Quadrate: Die Gerade wird so bestimmt, dass die Summe der quadrierten Abweichungen aller y-Werte von der Geraden minimal wird. Entscheidend ist hierbei nicht der Abstand der Punkte von der Geraden (¹Lotª), sondern ihre Abweichung in y-Richtung. 3. Mit Hilfe der Differentialrechnung findet man eine allgemeine Berechnungsvorschrift fçr Regressionsgleichungen, die dem Kriterium der kleinsten Quadrate gençgen (vgl. S. 185). 4. Regressionsgeraden z-standardisierter Variablen verlaufen durch den Ursprung (0/0) des Koordinatensystems. Die Steigung der Geraden entspricht der Korrelation der Merkmale
byx r, wenn von x auf y geschlossen werden soll; im umgekehrten Fall entspricht die Steigung dem Kehrwert der Korrelation
664
Anhang
bxy 1=r, d. h., die beiden Regressionsgeraden liegen symmetrisch zur Winkelhalbierenden des Koordinatensystems. 5. Die Kovarianz ist ein Maû fçr den Grad des miteinander Variierens der Messwertreihen zweier Variablen; sie entspricht dem Mittelwert aller Produkte korrespondierender Abweichungen (vgl. S. 203). 6. a) Zur Ermittlung des Koeffizienten b der Regressionsgleichung werden folgende Werte benætigt: Vp
xi
yi
xi yi
x2i
1 2 3 4 5 6 7 8 9 10 11 12
5,2 6,5 4,8 5,9 6,0 4,3 4,0 6,2 6,1 5,7 5,8 4,9
6 3 3 9 8 5 6 6 7 4 5 6
31,2 19,5 14,4 53,1 48,0 21,5 24,0 37,2 42,7 22,8 29,0 29,4
27,04 42,25 23,04 34,81 36,0 18,49 16,0 38,44 37,21 32,49 33,64 24,01
65,4
68
372,8
363,42
Summen:
b errechnet man nach (Gl. 6.12): n n n P P P n xi yi x i yi i1 i1 i1 byx n 2 n P P n x2i xi i1
i1
12 372;8 65;4 68 12 363;42
65;42 26;4 0;315 83;88
Fçr die Berechnung des Regressionskoeffizienten a werden x 5;45 und y 5;67 benætigt. Nach Gl. (6.9) ergibt sich a y bx 5;67 0;315 5;45 3;95. Die Regressionsgerade lautet damit ^ yi 3;95 0;315xi . Sie sagt die tatsåchliche Leistung auf Grund der Schåtzungen der Gruppenmitglieder vorher. b) Die Korrelation wird nach Gl. (6.57) çber die Kovarianz und die Standardabweichungen der beiden Verteilungen berechnet: n n X X x yi i n X i1 i1 xi yi n 372;8 65;412 68 i1 cov
x; y 0;183 n 12 (vgl. Gl. (6.22); die Summen werden der Tabelle aus a) entnommen!). Fçr sx und sy ergeben sich nach Gl. (1.17) sx 1;748 und sy 0;763. Die Korrelation betrågt demnach (vgl. Gl. 6.57): r
cov
x; y 0;183 0;137 : sx sy 1;748 0;763
c) Die Signifikanz einer Korrelation wird mittels eines t-Wertes geprçft. Nach Gl. (6.84) ergibt sich als Prçfgræûe p p r n 2 0;137 12 2 t p p 0;44: 1 r2 1 0;1372 Sie wird an der t-Verteilung mit n 2 10 Freiheitsgraden getestet: t10; 0;95 1;81 (Tabelle D, Spalte ¹0,95ª, Zeile ¹10ª, S. 819). Die Prçfgræûe ist kleiner als dieser Wert; die H0
% 0 kann nicht verworfen werden. d) Rangkorrelation (vgl. S. 232 f.).
665
aLæsungen der Ûbungsaufgaben
e) Zur Berechnung der fçr die Rangkorrelation notwendigen Differenzen der Rangpositionen
di mçssen die Schåtzungen und tatsåchlichen Leistungen des Experiments zunåchst in eine Rangreihe gebracht werden. Vp
Rånge Leistungen
Rånge soz. Leistungen Schåtzungen Rånge soz. Rånge d2i
di 1 2 3 4 5 6 7 8 9 10 11 12
5,5 11,5 11,5 1 2 8,5 5,5 5,5 3 10 8,5 5,5
8 1 10 5 4 11 12 2 3 7 6 9
7 1 10 4 6 12 11 3 2 9 5 8
±1,5 2,25 10,5 110,25 1,5 2,25 ±3 9 ±4 16 ±3,5 12,25 ±5,5 30,25 2,5 6,25 1 1 1 1 3,5 12,25 ±2,5 6,25 P 209
Schåtzungen soz. Rånge di
d2i
1 0 0 1 ±2 ±1 1 ±1 1 ±2 1 1
1 0 0 1 4 1 1 1 1 4 1 1 P
Bei den Leistungen ergeben sich wegen mehrfach belegter Rånge verbundene Rånge: 4: 4x ? 5,5 (4, 5, 6, 7) 8: 2x ? 8,5 (8, 9) 11: 2x ? 11,5 (11, 12)
16
Da weder bei den sozialen Rången noch den Schåtzungen der Gruppenmitglieder verbundene Rånge vorkommen, berechnet man die Rangkorrelation nach Gl. (6.115): 6 rs 1
n X i1
n
n2
d2i 1
1
6 16 1 12
122 1
0;056 0;94 :
Da bei den tatsåchlichen Leistungen verbundene Rånge vorliegen, muss nach Gl. (6.117) vorgegangen werden. Die Korrekturgræûe T ergibt sich als: T
k
x X
t3j j1
tj =12
43
4 2
23 12
2
72 6 12
Da keine verbundenen Rånge bei den soz. Rången vorliegen, fållt die Græûe U weg. rs ergibt sich zu: 3 n X n n T 2 d2i 12 2 143 6 209 71 i1 0;25 p rs s 2
143 6 143 279;94 n3 n n3 n T 2 12 12 f) Die Signifikanz von Rangkorrelationen wird mittels eines t-Werts geprçft. Er ergibt sich lt. Gl. (6.116) fçr die Korrelation zwischen sozialen Rången und Schåtzungen der Gruppenmitglieder als: rs 0;94 t p p 8;71 2
1 rs =
n 2
1 0;942 =10
666
Anhang
Er wird an der t-Verteilung mit n 2 10 Freiheitsgraden getestet: t10; 0;99 2;76; die Korrelation ist somit sehr signifikant. Entsprechend ergibt sich fçr die Korrelation zwischen sozialen Rången und tatsåchlichen Leistungen ein t 0;82; diese Korrelation ist nicht signifikant, H0
% 0 kann nicht verworfen werden. 7. a) Nach Gl. (6.57) berechnet man die Korrelation durch r
cov
x; y 10 0;5: sx sy 54
b) Die Steigung byx der Regressionsgeraden ergibt sich nach Gl. (6.23): byx
cov
x; y 10 2 0;40; s2x 5
a ergibt sich aus Gl. (6.9) als a y byx x 30 0;4 40 14; die Regressionsgerade lautet folglich ^ yi 14 0;4xi . c) Der Wert wird in die unter b) ermittelte Regressionsgleichung eingesetzt: ^y 14 0;4 45 32. d) Das Konfidenzintervall errechnet man çber einen t-Wert mit n 2 500 2 498 Freiheitsgraden (vgl. Gl. 6.43): s r n s2y n b2yx s2x 500 42 500 0;42 52 ^
yjx 3;47 t498; 0;995 2;58; r n 2 498 Das Intervall lautet nach Gl. (6.45): s s 2 1
xi x 1
45 402 ^
yjx Dcrit ^y ^ yi t r 32 2;58 3;47 n 500 n s2x 500 52 p 32 8;95 0;004 32 0;57 :
8. 9. 10. 11. 12. 13.
Mæglichkeiten zur Verkleinerung des Konfidenzintervalls: ± Verkleinerung des Konfidenzkoeffizienten auf 95% ± Vergræûerung des Stichprobenumfangs ± Die sonstigen Einflçsse auf das Intervall (Varianzen von x,y, Standardschåtzfehler) sind vom Versuchsleiter nicht zu beeinflussen (vgl. S. 194 f.). Wegen Gl. (6.65): r
sx =sy byx wird a) byx bei græûer werdendem sx kleiner b) byx bei græûer werdendem sy ebenfalls græûer. Nein, es kænnte eine perfekte, nichtlineare Beziehung vorhanden sein. Vgl. S. 213 a) Die Merkmale mçssen kardinalskaliert sein. b) Die Grundgesamtheit, aus der die Stichprobe stammt, muss bivariat normalverteilt sein. Da die Korrelation bereits bekannt ist, ermitteln wir den gemeinsamen Varianzanteil zu r2 100% 25% (vgl. S. 209 f.). Die beiden Geraden sind identisch fçr perfekte lineare Zusammenhånge
r 1 bzw. r 1. Zur Begrçndung vgl. S. 207. 1) Direkte Anwendung der Methode der kleinsten Quadrate (vgl. S. 196). 2) Anwendung der Methode der kleinsten Quadrate mit vorgeschalteten linearisierenden Transformationen (vgl. S. 200).
667
aLæsungen der Ûbungsaufgaben
14. Die Læsung der Aufgabe erfolgt nach Gl. (6.49) analog dem unter Tabelle 6.4 aufgefçhrten Beispiel. Fçr Gl. (6.49) werden zunåchst die Summen aller Produkte xy; x2 ; x3 ; x4 und x2 y benætigt. Sie werden in Gl. (6.49) eingesetzt, um die Koeffizienten der quadratischen Gleichung zu ermitteln. Tier 1 2 3 4 5 6 7 8 9 10 Summen
xi
yi
xi yi
x2i
x3i
x4i
x2i yi
1 3 5 7 9 11 13 15 17 19
120 110 70 90 50 60 60 80 90 90
120 330 350 630 450 660 780 1 200 1 530 1 710
1 9 25 49 81 121 169 225 289 361
1 27 125 343 729 1 331 2 197 3 375 4 913 6 859
1 81 625 2 401 6 561 14 641 28 561 50 625 83 521 130 321
120 990 1750 4 410 4 050 7 260 10 140 18 000 26 010 32 490
100
820
7 760
1 330
19 900
317 338
105 220
Das Gleichungssystem (6.49) låsst sich jetzt aufstellen: 820 10a 100b1 1330b2 (1) 7 760 100a 1330b1 19900b2 (2) 105 220 1 330a 19 900b1 317 338b2 (3) Zur Auflæsung des Gleichungssystems multipliziert man (1) mit ±10 und addiert das Ergebnis zu (2). Man erhålt 440 330b1 6 600b2 (4) Ebenso multipliziert man (1) mit ±133 und addiert das Ergebnis zu (3): 3 840 6 600b1 140 448b2
5 Nun multipliziert man (4) mit ±20 und addiert das Ergebnis zu (5): 4960 8448b2 Damit ergibt sich b2 als 4960 0;587: b2 8448 Diesen Wert setzt man in (4) ein und erhålt 4315 13;076 : b1 330 Zuletzt ermittelt man a durch Einsetzen von b1 und b2 in (1): 134;671: a 1346;7045 10 Nach Gl. (6.47) erhålt man damit die quadratische Regressionsgleichung: ^yi 0;587x2i 13;076xi 134;671 : 15. Eine Korrelation besagt nur, dass ein statistisch-mathematischer Zusammenhang zwischen zwei Variablen besteht. Welche Variable aber welche beeinflusst, låsst sich nur in einem Experiment klåren, bei dem eine der beiden Variablen systematisch veråndert wird. Oft sind Kausalaussagen nur durch ¹Logikª oder ¹gesunden Menschenverstandª mæglich (vgl. S. 235 f.). 16. Z. B.: Je hungriger eine Ratte in einem Laborexperiment ist, desto kçrzer braucht sie, um zum Futterplatz in einem Labyrinth zu laufen. Mit steigendem Hunger sinkt also die Laufzeit (vgl. S. 203 f.). 17. Die Kovarianz als Zusammenhangsmaû hångt in ihrer Hæhe von der Skalierung bzw. vom Maûstab der beiden betrachteten Merkmale ab. Die Korrelation transformiert die Kovarianz durch Relation an den Standardabweichungen der Merkmale (vgl. Gl. 6.57). Dies impliziert eine z-Transformation
668
18. 19. 20. 21.
22.
Anhang
der Variablen; daher sind bei z-standardisierten Variablen Kovarianz und Korrelation identisch (vgl. S. 205). Nein. Der Determinationskoeffizient entspricht dem Quadrat des Korrelationskoeffizienten
r2 (vgl. Gl. 6.81 u. S. 209 f.). Varianz der vorhergesagten ^ y-Werte und Varianz der y-Werte um die Regressionsgerade (Regressionsresiduen; vgl. S. 208 f.). Homoskedastizitåt liegt vor, wenn bei einer bivariaten Verteilung zweier Variablen x und y die zu jedem beliebigen Wert xi gehærenden y-Werte gleich streuen (vgl. S. 192). Da Korrelationen nicht kardinalskaliert sind, mçssen sie vor der Durchschnittsbildung in FishersZ-Werte çberfçhrt werden. Man schlågt die Z-Werte in Tabelle H (S. 830) nach: r1 0;75 ! Z1 0;973 r2 0;49 ! Z2 0;536 r3 0;62 ! Z3 0;725 0;973 0;536 0;725 0;745 Z 3 Der zugehærige r-Wert liegt zwischen 0,630 und 0,635 (vgl. S. 219). Zum Vergleich der Korrelationen mçssen sie in Fishers-Z-Werte transformiert werden. Auûerdem benætigen wir die Streuung r
z1 z2 : r1 0;30 ! Z1 0;310 r2 0;55 ! Z2 0;618 r r 1 1 1 1 0;197 (Gl. 6.93) r
z1 z2 n1 3 n2 3 50 3 60 3 Als Prçfgræûe errechnet man nach Gl. (6.92):
Z1 Z2 0;310 0;618 1;56: r
z1 z2 0;197 Fçr den zweiseitigen Test lautet z0;025 1;96. Die H0 wird nicht verworfen: Die Korrelationen unterscheiden sich nicht signifikant. 23. Es soll verglichen werden, ob rxy und rxz gleich groû sind. Da beide Korrelationen sich auf dieselbe Stichprobe beziehen, kommt Gl. (6.97) zur Anwendung. Hierzu muss zunåchst CV1 ermittelt werden: z
1
rbc
1 2r2a: 0;5r2a:
1 2r2a: r2bc
1 r2a: 2 rab rac rxy rxz 0;034 0;422 0;194 ra: 2 2 2 1 CV1
0;385
1 2 0;1942 0;5 0;1942
1
1 0;1942 2
CV1
2 0;1942
0;3852
0;40
Weiterhin werden die Z-Werte der beiden Korrelationen benætigt: rxy 0;034 ! Zxy 0;034 rxz 0;422 ! Zxz 0;450 p p n 3
Zxy Zxz 4;247 80 3
0;034 0;450 p p z p 2;8 2 2 0;40
2 2CV1
2;53
Wird zweiseitig getestet, ist der ermittelte z-Wert zu vergleichen mit z0;005 2;58 (1%-Niveau) bzw. z0;025 1;96 (5%-Niveau). Die Korrelationen unterscheiden sich auf dem 5%-Niveau; auf dem 1%-Niveau hingegen wåre die H0 beizubehalten.
669
aLæsungen der Ûbungsaufgaben
24. Durch Selektionsfehler werden Teile der Population nicht beachtet. Dadurch kænnen Zusammenhånge errechnet werden, die in der Population gar nicht bestehen; es ist aber auch mæglich, dass kein Zusammenhang errechnet wird, obwohl in der Population ein solcher vorliegt (vgl. S. 214 ff.). 25. a) Punktbiseriale Korrelation, vgl. S. 224 f. b) Phi-Koeffizient, vgl. S. 227 f. c) Rangkorrelation, vgl. S. 232 f. d) Biseriale Korrelation, vgl. S. 226 f. e) Biseriale Rangkorrelation, vgl. S. 231 f. f) Biseriale Rangkorrelation, vgl. S. 231 f. 26. Da es sich um zwei Rangreihen handelt, muss die Rangkorrelation nach Spearman berechnet werden. di
d2i
±1 9 ±10 1 ±2 ±2 ±10 1 2 3 ±15 0 2 ±1 3 10 ±1 1 5 5
1 81 100 1 4 4 100 1 4 9 225 0 4 1 9 100 1 1 25 25
n X i1
Nach Gl. (6.115) ergibt sich n P 6 d2i 6 696 i1 rs 1 0;48 1 20
400 1 n
n2 1 Zur Signifikanzprçfung wird ein t-Wert nach Gl. (6.116) berechnet: rs 0;48 t p p 2;32 : 2
1 rs =
n 2
1 0;482 =
20 2 Die Prçfgræûe wird an der t-Verteilung mit n 2 18 Freiheitsgraden getestet: t18; 0;95 1;73 (Tabelle D, S. 819). Die Korrelation ist auf dem 5%-Niveau signifikant.
d2i 696
27. Gesucht ist die Korrelation eines kçnstlich dichotomen und eines rangskalierten Merkmals. Hierzu wird eine biseriale Rangkorrelation berechnet. Die Gruppe der Schçler wird hierzu in zwei Gruppen geteilt: Gruppe 1: Schçler, die einen kreativen Aufsatz geschrieben haben Gruppe 2: Schçler, die einen weniger kreativen Aufsatz geschrieben haben. Zur Berechnung der Korrelation wird lediglich der durchschnittliche Rangplatz beider Gruppen
y1 ; y2 benætigt: 6 1 11 3 10 4 7 8 6;25 8 5 15 2 9 12 13 14 10 y2 7 y1
670
Anhang
Somit ergibt sich rbis R aus Gl. (6.114): 2 rbis R
6;25 10 0;5 15 Da die Gruppe 1 (kreative Aufsåtze) den geringeren Rangdurchschnitt hat, weist die Korrelation auf einen negativen Zusammenhang zwischen Kreativitåt des Aufsatzes und Deutschnote hin. 28. Es handelt sich um zwei dichotome Variablen. Der Zusammenhang wird mittels des Phi-Koeffizienten festgestellt. Eine Tabelle erleichtert das Einsetzen in die Gl. (6.106):
Stadt Wohnort Land
Konfession ja nein 60 40 a b c d 80 20 140
60
Es ergibt sich 100
100
ad bc U p
a c
b d
a b
c d 60 20 40 80 p 140 60 100 100 2000 p 0;218 84 000 000
200
Zur Signifikanzprçfung wird nach Gl. (6.108) v2 berechnet: v2 n U2 200
0;2182 9;50 : Die Prçfung erfolgt an der v2-Verteilung mit einem Freiheitsgrad: v21; 0;99 6;63; die berechnete Korrelation ist sehr signifikant. 29. Es soll ein dichotomes mit einem kardinalskalierten Merkmal korreliert werden. Die punktbiseriale Korrelation wird angewendet. Hierzu wird die Streuung aller Werte (Rechts- und Linkshånder gemeinsam) sowie fçr jede Gruppe der Mittelwert benætigt: sy 4;01 y1 5;89 (Linkshånder) y2 4;54 (Rechtshånder) Fçr die Korrelation ergibt sich lt. Gl. (6.99): r r y1 y2 n1 n2 5;89 4;54 9 13 0;166 rpb 2 4;01 222 sy n Die Signifikanz wird an einer t-Verteilung mit n
2 20 Freiheitsgraden getestet (Gl. 6.100):
rpb 0;166 t q p 0;76 2
1 0;1662 =
22 2
1 r =
n 2 pb
t20; 0;975 2;09; der zweiseitige Test ergibt keinen signifikanten Unterschied fçr Links- und Rechtshånder. 30. Das Vorzeichen von Phimax ist fçr dieses Beispiel mit 2 natçrlich dichotomen Merkmalen beliebig. Wir erhalten nach Gl. (6.109 a) und (6.109 b) Phimax 0;65: }max
r 100 60 0;65 : 140 100
Dieser Wert gilt fçr eine Extremtafel mit Feld b als Nullzelle
b c 40 80 > a d 60 20; b 40 < c 80:
671
aLæsungen der Ûbungsaufgaben
Wohnort
Konfession ja nein Stadt 100 0 a b c d Land 40 60 140
100 100
60
Fçr diese Tafel errechnet man auch çber Gl. (6.106) Phimax 0;65:
Kapitel 7 1. H0: l1 l2 lp (vgl. S. 249). 2. Die Fehlervarianz ist der nicht auf das Treatment zurçckfçhrbare Anteil der totalen Varianz. Sie wird durch den Quotienten aus der Summe der quadrierten Abweichungen der Messwerte von ihrem jeweiligen Gruppenmittel
QSFehler und den dazugehærenden Freiheitsgraden
dfFehler bestimmt (vgl. S. 252 f.). 3. Die Treatmentvarianz errechnet sich als QuotientPaus Treatmentquadratsumme
QStreat und den entsprechenden Freiheitsgraden. Die QStreat n
Ai G2 basiert auf den Abweichungen der i
Gruppenmittelwerte Ai von G. Die p Differenzen
Ai X
Ai
G
X
i
Ai
pG
i
X i
Ai
p
G addieren sich zu Null. ! X X X Ai =p Ai Ai 0 i
i
i
Von den p Summanden zur Bestimmung der QStreat sind also nur p 1 frei variierbar, denn ein Summand muss so geartet sein, dass die Gesamtsumme Null ergibt. Wir sagen deshalb, die QStreat ^2treat ) hat p 1 Freiheitsgrade. (und damit auch die r 4. QStot QStreat QSFehler Bei einer einfaktoriellen Varianzanalyse geht eine Verånderung der gesamten Quadratsumme
QStot entweder auf das Treatment zurçck
QStreat oder auf Fehlerkomponenten
QSFehler . 5. Wåhrend A-posteriori-Einzelvergleiche auf einem a-Fehler-Niveau abgetestet werden kænnen, das unabhångig von der Anzahl der Vergleiche ist, åndert sich das a-Fehler-Risiko von t-Tests mit deren Anzahl. Man muss berçcksichtigen, dass bei 100 t-Tests und einem a-Fehler-Niveau von 0,05 mit ca. 5 zufållig signifikanten t-Tests zu rechnen ist (vgl. S. 250). 6. Orthogonale Einzelvergleiche sind voneinander unabhångig: Wenn z. B. 3 Werte A1 ; A2 ; und A3 paarweise verglichen werden sollen, erkennt man, dass sich jeweils ein Vergleich aus den beiden anderen ergibt:
A1
A2
A2
A 3 A1
A3
Das heiût, es existieren in diesem Fall nur zwei unabhångige Vergleiche, der dritte ist immer von den anderen beiden abhångig. Die Orthogonalitåtsbedingung (Gl. 7.46) muss erfçllt sein (vgl. S. 266). 7. Bei einer QStreat mit df 6 gibt es p 7 Treatmentstufen. Es lassen sich stets p 1 6 orthogonale (voneinander unabhångige) Einzelvergleiche durchfçhren.
672
Anhang
Nach den Regeln fçr Helmert-Kontraste ergibt sich z. B. der folgende Satz von 6 orthogonalen Einzelvergleichen: D1 A 1
A2 A3 A4 A5 A6 A7 =6
D2 A 2
A3 A4 A5 A6 A7 =5
D3 A 3
A4 A5 A6 A7 =4
D4 A 4
A5 A6 A7 =3
D5 A 5
A6 A7 =2
D6 A 6
A7
(vgl. S. 267). 8. Der Scheff-Test ist ein robustes, eher konservatives Verfahren, das a posteriori auch komplexe Einzelvergleichshypothesen prçfen kann. Dabei werden alle Einzelvergleiche auf dem a-Fehler-Niveau der Varianzanalyse abgesichert (vgl. S. 274 ff.). 9. Die unabhångige Variable muss kardinalskaliert sein. 10. Aus Tabelle I kann man die linearen und quadratischen Trendkoeffizienten fçr einen 8-stufigen Faktor (1. Spalte) entnehmen: linear: ±7 ±5 ±3 ±1 1 3 5 7 quadratisch: 7 1 ±3 ±5 ±5 ±3 1 7 Nach der Orthogonalitåtsbedingung (Gl. 7.46) gilt:
7 7
5 1
3
3
1
5 1
5 3
3 5 1 7 7 0. 11. Der g-Koeffizient ist ein Korrelationskoeffizient, der alle auf die verschiedenen Trends zurçckgehenden Zusammenhånge enthålt (vgl. S. 280). r QStreat g QStot 12. Vgl. S. 284 ff.: 1) Normalverteilung der Messwerte innerhalb einer Faktorstufe (Normalverteilung der Fehlerkomponenten). 2) Homogenitåt der Fehlervarianzen; homogene Varianzen in allen Stichproben. 3) Die Treatment- und Fehlerkomponenten mçssen additiv sein. Die Fehlerkomponenten dçrfen nicht mit den Treatmentkomponenten zusammenhången. 13. Aus Mittelwerten, Varianzen und Stichprobenumfången kænnen nach den auf S. 261 f. genannten Regeln Kennziffern ermittelt werden, die die Grundlage fçr eine Varianzanalyse gemåû Tabelle 7.2 sind. ^2 r ^2treat 0 14. a) F 2treat ; wenn F 0 folgt: r ^Fehler r Wenn die Treatmentvarianz Null ist, gibt es keine Varianz zwischen den Treatmentstufen. Das bedeutet, dass die Gruppenmittel gleich sind. A1 A2 . . . A4 ! QStreat 0. ^2 r ^2Fehler ! 0 und r ^2treat > 0 b) F 2treat ; wenn F ! 1 folgt: r ^Fehler r Die Varianz innerhalb einer Treatmentgruppe geht gegen Null. Das bedeutet, dass die Messwerte gleich dem Gruppenmittel sind. Gleichzeitig mçssen sich aber mindestens zwei Gruppenmittel voneinander unterscheiden. c) Der kritische F-Wert fçr a 0;05 und die Freiheitsgrade dfZ p 1 3 (Zåhlerfreiheitsgrade) und dfN N p 76 (Nennerfreiheitsgrade) nach Tabelle E lautet: F
3;76; 95% 2;73. 15. a) 1) Berechnung der Fehlervarianzen aller Treatmentstufen nach den Ausfçhrungen auf S. 252 f. 2) Die græûte und kleinste Fehlervarianz (Gruppe 4 und 5) werden in den Fmax -Test eingesetzt. 3) Nach Gl. (7.83) gilt:
673
aLæsungen der Ûbungsaufgaben
Fmax
^2Fehler
5 2;17 r ^Fehler
4 r
0;68
3;24:
^2i einen kriti4) Tabelle K gibt auf einem a-Niveau von 5% fçr 7 Varianzen und df 5 fçr r schen Fmax -Wert von 20,8 an. Da Fmax < Fcrit , ist der F-Wert nicht signifikant, d. h., die Voraussetzung der Varianzhomogenitåt ist erfçllt. b) Berechnung der Kennziffern (1)±(3) fçr die einfaktorielle Varianzanalyse mit gleichen Stichprobenumfången (vgl. S. 256) G2 2402 1371;43 pn 76 PP 2
2 xmi 1708 i m P 2 Ai 9918 1653
3 i 6 n
1
QStot
2
1 1708
1371;43 336;57
QStreat
3 QSFehler
2
1 1653
1371;43 281;57
3 1708
1653
Q.d.V.
QS
Trainingseffekt 281,57 Fehler 55,00 Total 336,57
df p N N
55;00 ^2 r
1 6 46,93 p 35 1,57 1 41 8,21
Femp 29,89 **
Nach Tabelle E ergibt sich fçr den kritischen F-Wert auf einem a-Niveau von 1% ein Wert von Fcrit
6;35; 99% 3;38 . Da Femp > Fcrit ist, hat die Trainingsdauer einen sehr signifikanten Einfluss auf die Fehlerzahlen ausgeçbt. c) A-posteriori-Vergleich nach Scheff: Nach Gl. (7.67) gilt: s 2
p 1^ r2Fehler F
p 1; N p; 1 a Diff crit n r p 2 6 1;57 p F
6;35;99% 1;77 2;42 3;30 Diff crit
99% 6 r p 2 6 1;57 p F
6;35;95% 1;77 3;47 2;75 Diffcrit
95% 6 Gruppen 1 und 2: x1 10; x2 8;67; D 10 8;67 1;33. Da Diffcrit > Diffemp , ist der Unterschied zwischen Gruppe 1 und 2 nicht signifikant. QStreat 281;57 100% 83;7%. 100% d) Nach Gl. (7.21) gilt: 336;57 QStot e) Nach Tabelle I lauten die linearen c-Koeffizienten fçr Trendtests bei 7 Faktorstufen: ±3 ±2 ±1 0 1 2 3 Die Gruppenmittel sind: A1 10; A2 8;67; A3 6;33; A4 5;33; A5 3;84; A6 3;17; A7 2;67
674
Anhang
n ^2lin Nach Gl. (7.49) gilt: QSlin r
P
i P i
Nach Gl. (7.51) gilt: F
c i Ai c2i
2
6
35;492 269;90 28
^2lin 269;90 r 171;92 ^2Fehler 1;57 r
Nach Tabelle E ist Fcrit
1;35; 99% 7;56 Da Femp > Fcrit , ist der lineare Trend in den Treatmentstufen signifikant. r QSlin f) Nach Gl. (7.70) gilt: rlin
QSlin siehe 15 e) r QStot 269;90 ) rlin 0;90 bzw. rlin 0;90: ) rlin 336;57 An der Abnahme der Gruppenmittel erkennt man, dass die Korrelation negativ ist. g) Die Grundgleichung fçr die Regression lautet: ^ yi byx xi ayx Die Trainingsdauer stellt den Prådiktor, die Fehlerzahl das Kriterium dar. Nach Tab. 6.3 gilt: cov
x;y , mit byx s2x n n X X x yi i n X i1 i1
A1 . . . A7
0 1 . . . 6 xi yi 0 A 1 A . . . 6 A 1 2 7 n 7 cov
x;y i1 n 7 5;07, und !2 n X xi n X i1 441 x2i 91 n i1 7 4 s2x n 7 5;07 1;268 ) byx 4 Nach Tab. 6.3 gilt: ayx y byx x; mit x 3 und y 5;72 folgt: ayx 5;72
1;268 3 9;52 ) ^yi 1;268 xi 9;52 h) Durch Einsetzen in die Regressionsgleichung erhålt man ^y
2;5 1;268 2;5 9;52 6;35: Wir erwarten fçr eine Versuchsperson, die 2,5 Stunden trainiert hat, eine Fehlerzahl von 6,35. QSnonlin
QStreat QSlin 100% 100% 3;47%. i) Es gilt: QStot QStot
675
aLæsungen der Ûbungsaufgaben
Kapitel 8 1. Man benætigt bei 3 2 4 2 48 Versuchsgruppen 15 Personen, d. h. insgesmat 48 15 720 Versuchspersonen. ^2 r 2. FB emp 2 B ^Fehler r QS 15 B ^2B 15 (mit dfB q 1 2 1 1 r q 1 dfB QSFehler ^2Fehler r dfFehler QSFehler QStot
QSA QSAB QSB 200
20 30 15 135 dfFehler p q
n 1 3 2 9 54 135 ^2Fehler 2;50 )r 54 15 ) FB emp 6;00 2;50 Der kritische F-Wert betrågt nach Tabelle E: F
1;54; 95% 4;03 Da FB emp > Fkrit folgt: Der Haupteffekt des Faktors B ist signifikant. 3. a) Die Hypothesen zu den Haupteffekten 4 b) Die Hypothesen zu den Interaktionen 1. Ordnung 6 c) Die Hypothesen zu den Interaktionen 2. Ordnung 4 d) Die Hypothese zu der Interaktion 3. Ordnung P 1 Insgesamt: 15 4. a) Berechnung der Kennziffern G2 6672
1 18 537;04 pqn 226 PPP 2
2 xijm 19 567 i
P
3
i
j
A2i
qn P 2 Bj
m
2772 3902 19 069;08 26
3232 3442 18 555;42 pn 26 PP 2 ABij 1442 1792 1332 2112 i j 19 164;50
5 n 6 b) Erstellen der Ergebnistabelle:
4
j
Q.d.V. QS A B AB Fehler Total
3
4
5
2
df
1
1
3
5
^2 r
QS df
532;04 p 1 1 532;04 18;38 q 1 1 18;38
4
1 77;04
p 1
q 1 1 77;04 402;50 p q
n 1 20 20;13 1029;96
F
Fcrit
1; 20; 99%
26;43 0;91 3;83
> 8;10 < 8;10 < 8;10
676
Anhang
c) Ergebnis: Der Haupteffekt des ersten Faktors ist signifikant: Die Versuchspersonen, die die Fragen nach der Bearbeitung des Lehrtextes erhalten hatten, erzielten im Abschlusstest bessere Ergebnisse. 5. Vgl. S. 302 f. a ) Zufållige Effekte: Zur Untersuchung des Einflusses von Lehrpersonen auf den Lernerfolg werden aus einem Lehrerkollegium 3 Lehrkråfte zufållig ausgewåhlt, die in 3 Versuchsklassen ein bestimmtes Thema behandeln sollen. b) Feste Effekte: Zur Untersuchung des Einflusses der Variable Alter auf die Fahrtçchtigkeit einer Person werden drei Altersgruppen festgelegt, z. B. 18±30 J., 31±60 J. und ålter als 60 J. 6. Da die Unterschiede in den Stichprobenumfången zufållig sind und das Verhåltnis von græûter und 7 kleinster Stichprobe < 5 ist, kann als Nåherungslæsung die Varianzanalyse mit dem harmonischen 5 Mittel durchgefçhrt werden. pq 12 5;92 nh P P 1 1 1 1 3 6 3 5 6 7 i j nij Die Berechnung der Kennziffern erfolgt çber die Gruppenmittel, nicht çber die Einzelwerte! ABij
nij P m1
xijm =nij
G2 59;872 298;70 pq 12 P 2 Ai 615;04 307;52
3 i 2 q P 2 Bj 1835;73 j 305;96
4 6 p PP 2
5 ABij 337;90
1
i
j
Nach Gl. (8.58) gilt: QSFehler
XX i
j
QSFehler
ij ; mit Gl. (8.57) QSFehler
ij
nij P m1
) QSFehler 2;80 14;0 7;33 18;0 3;20 1;33 2;83 2;86 4;0 17;33 5;71 2;0 81;39
n ij P x2ijm
m1
2 xijm
nij
677
aLæsungen der Ûbungsaufgaben
Q.d.V.
QS
A B AB Fehler
nh
3 nh
4 nh
5
^2 r
df
1 52;21 p 1
1 42;98 q 1
3
4
1 136;87
p 1
q 81;39 N p q
5 1 1 5 60
QS df
10;44 42;98 27;37 1;36
F
Fcrit
7;68 1;57 20;13
> 3;12 < 7;08 > 3;12
Der Haupteffekt A und der Interaktionseffekt A B sind signifikant.
9
9
8
8
7
7
Trainer 1- 6 5
4
6
6
5
5
4
4
3
3
2
3 5 1 6 2
1 2
6 4 3
2 Oberschicht Unterschicht
1
1
a
b 1
2
3
4
5
6
Trainer
1 Unterschicht
2 Oberschicht
Es handelt sich um eine disordinale Interaktion (vgl. S. 301). 7. Mit ¹Quasi-F-Brçchenª kænnen bei drei- oder mehrfaktoriellen Versuchsplånen Effekte annåherungsweise getestet werden, die nicht an Fehler- oder Interaktionsvarianzen getestet werden kænnen (vgl. S. 314 f.). 8. Im Fall n 1 kann die Fehlervarianz nicht auf herkæmmliche Weise bestimmt werden. Fehlervarianz und Interaktionsvarianz sind konfundiert. Mit Hilfe des Additivitåtstests nach Tukey kann çberprçft werden, ob eine Interaktion der Haupteffekte zu erwarten ist. Ist dies nicht der Fall, kann die Restvarianz
QStot QSA QSB als Prçfvarianz verwendet werden (vgl. S. 325 ff.). 9. Es handelt sich um einen 3-faktoriellen 4 5 2-Plan. Die Faktoren A und B haben zufållige Faktorstufen. a) Zur Berechnung einer 3-faktoriellen Varianzanalyse vgl. S. 312 ff. G2 6392 3402;675 npqr 3 4 5 2 PPPP 2
2 xijkm 3677;000
1
i
P
3
i
j
A2i
nqr
k
m
1592 1582 2032 1192 3520;500 30
678
Anhang
P
4
j
B2j
npr P 2 Ck
1212 1202 1582 1092 1312 3460;292 24
3192 3202 3402;683 npq 60 PP 2 ABij 21 609 i j 3601;500
6 6 nr PP AC2ik 52 823 i k 3521;533
7 nq 15 PP 2 BCjk 41 559 j k 3463;250
8 np 12 PPP ABC2ijk 10 837 i j k 3612;333
9 3 n Zur Bestimmung der Quadratsummen vgl. Tabelle 8.10, zur Bestimmung der Prçfvarianz vgl. Tabelle 8.11, Modell III: 2 Faktoren zufållig, 1 Faktor fest.
5
k
Q.d.V.
QS
df
A B C AB AC BC ABC Fehler
3
1
4
1
5
1
6
3
4
1
7
3
5
1
8
4
5
1 9
6
7
8
3
4
5
2
9
Total
2
1
QS df
Q.d.V
^2 r
A B C AB AC BC ABC Fehler
39;28 14;40 0;01 1;95 0;34 0;74 0;57 0;81
Total
117;83 57;62 0;01 23;38 1;03 2;95
1 6;85 64;67
p 1 q 1 r 1
p 1
q
p 1
r
q 1
r
p 1
q pqr
n 1
274;33 pqrn
Prçfvarianz ^2AB r ^2AB r ^2Fehler r ^2ABC r ^2ABC r ^2Fehler r
F
^2treat r ^2Pruf r
1
Fcrit
20;14 > F
3; 12; 99% 5;95 7;38 > F
4;12; 99% 5;41 2;41 < 1;00 1;30 < 1;00
> F
12; 80; 95% 1;95 < F
4;12; 95% 3;26
1 1 1 1
r
1
3 4 1 12 3 4 12 80
119
679
aLæsungen der Ûbungsaufgaben
Zur Prçfung des Haupteffekts C siehe Tabelle 8.12, Modell III. Die Gleichung lautet fçr den QuasiF-Bruch dementsprechend fçr den festen Faktor C: F
^2ABC 0;01 0;57 ^2c r r 0;54 2 ^2BC 0;34 0;74 ^AC r r
dfZahler 12 dfNenner 7
(Gl. 8.45 und 8.46)
Aus Tabelle E ergibt sich, dass der F-Wert nicht signifikant ist. b) Schule 1- 5
Test 1- 4
8
8
7
7 3 5 2 1 4
6 5
3
6 5
4
4
3
3
2
2
1
1 2
4
1
a
b 1
2
Tests
3
4
1
2
3
4
5
Schulen
Die Interaktion ist disordinal (vgl. S. 301). c) Vgl. S. 316 Nach Formel 8.52 gilt: q rF
d;e;1 a ^2t ; Diffcrit 2
pq 1 r nr ^2t r ^2Fehler , d 12 und e 80 folgt: mit r r p 1;920 3;12 Diffcrit 2
4 5 1 0;81 32
Kapitel 9 1. Wåhrend es sich bei der Varianzanalyse ohne Messwiederholung um die Erweiterung des t-Tests fçr unabhångige Stichproben handelt, stellt die Varianzanalyse mit Messwiederholung eine Erweiterung des t-Tests fçr abhångige Stichproben dar (vgl. S. 331). 2. Eine Varianz-Kovarianz-Matrix ist dann homogen, wenn die zu den Faktorstufen gehærenden Varianzen und die Kovarianzen zwischen den Faktorstufen homogen, d. h. nicht signifikant verschieden sind. Ein Maû fçr die Homogenitåt stellt ^e dar. Wenn ^e 1, ist die Matrix homogen (vgl. S. 254 f.). 3. Unter Sequenzeffekten versteht man den Effekt der Darbietungsreihenfolge der Treatmentstufen, der den Treatmenteffekten mæglicherweise çberlagert ist. Um Sequenzeffekte zu kontrollieren, wird die Abfolge der Treatmentstufen als zusåtzlicher Faktor in die Varianzanalyse einbezogen. Wird der Haupt- oder Interaktionseffekt dieses Faktors signifikant, hat die Reihenfolge der Darbietung einen eigenståndigen Einfluss auf die abhångige Variable oder auf die Auswirkung eines bestimmten Treatments (vgl. S. 338 ff.). 4. Beim t-Test fçr abhångige Stichproben werden n Messwertpaare gebildet, bei der einfaktoriellen Varianzanalyse mit Messwiederholung und p 2 Faktorstufen geschieht dasselbe. Bei mehr als 2, all-
680
Anhang
gemein p Faktorstufen, werden n p-Tupel von Messwerten gebildet, die entweder von derselben Vp stammen oder bei parallelisierten Stichproben von Personen mit der gleichen Ausprågung in dem parallelisierten Merkmal (vgl. S. 331). 5. a) t-Test fçr abhångige Stichproben (vgl. S. 143 f.) 1) Bildung der Differenzwerte: di xi1 xi2
5:18 2) Berechnung des arithmetischen Mittels der di-Werte: n P di 25 i1 0;833, n Anzahl der Messwertpaare! xd n 30 3) Standardfehler des Mittels xd v 2 u n u P un di uP 2 i1 u di t n ^d r ^xd p , mit r ^d i1 r
5:20; 5:21 n 1 n r 6315 20;833 p ^d 217;04 14;73 )r 29 14;73 ^xd p 2;69 )r 30 4) Prçfgræûe t: xd 0;833 0;310
5:23 ) t t ^xd 2;69 r tcrit 1;699; df 29 (Tabelle D) Da temp < tcrit , ist der Test nicht signifikant. b) Einfaktorielle Varianzanalyse mit Messwiederholung 1) Berechnung der Kennziffern: G2 56712 536 004;017
1 p n 2 30 PP 2
2 xmi 544 493 m i P 2 Ai 28232 28482 536 014;433
3 i 30 Pn 2 Pm 1 082 671 541 335;500
4 m 2 p 2) Ergebnistabelle ^2 r
Q.d.V.
QS
df
zw. Vpn inn. Vpn Faktor A Residual
QSzw: Vpn
4
1 5331;48 QSinn: Vpn
2
4 3157;50 QStreat
3
1 10;42 QSRes
2
3
4
1 3147;08
n 1 n
p 1 p 1
n 1
p
Total
QStot
2
1
8488;98 n p
1
QS df
29 30 1 10;42 1 29 108;52 59
F
QStreat QSRes
0;096
681
aLæsungen der Ûbungsaufgaben 3) Signifikanzprçfung Fcrit
1;29; 95% 4;20 > Femp ) Der Treatmentfaktor ist nicht signifikant c) Nach Formel (2.60) gilt: t2n F
1;n ) t229 F1;29 )
0;3102 0;096 6. Zweifaktorielle Varianzanalyse mit Messwiederholung 1) Berechnung der Kennziffern: G2 8262 22 742;53 pqn 235 PPP 2
2 xijm 25 524
1
i
P
3
i
m
j
A2i
nq P 2 Bj
4362 3902 22 813;07 15
3842 2822 1602 25 258 np 10 PP 2 ABij 1962 1492 912 1882 1332 692 i j 25 338;40
5 5 P Pn 2 Pim 832 932 922 902 782 842 742 722 802 802 i m 22 900;67
6 q 3
4
j
2) Ergebnistabelle ^2 r
Q.d.V.
QS
A
3
1 70;54
p
Vpn in S
6
3 87;60
p
n
1 8
zw. Vpn
6
1 158;14
pn
19
B
1 2515;47
q
AB
5 B Vpn
2
3
5
p 1
q 1 2 4;93 p
q 1
n 1 16 6;13
inn. Vpn
2
6 2623;33
p n
q
1 20
Total
1 2781;47
npq
1 29
4
2
df
4
1 9;86
6
3 98;00
11
QS F df
70;54
12
F
^2A r
^Vpn in S r
6;44
10;95
1257;74 F
^2B r 2 ^BVpn r
205;18
F<1
131;17
3) Signifikanzprçfung Faktor A: normaler F-Test; Femp 6;44 > Fcrit
1;8; 95% 5;32 (signifikant) Faktor B: konservativer F-Test (Tab. 9.24!); Femp 205;18 > Fcrit
1;p
n 1
1;8; 99% 11;3 (signifikant) Da der konservative F-Test fçr den Faktor B zu einem signifikanten Ergebnis gefçhrt hat, erçbrigt sich die e-Korrektur der Freiheitsgrade.
682
Anhang
7. Vgl. S. 341 8. Unter einer konservativen Entscheidung versteht man eine Entscheidung mit einem verringerten a-Fehler-Risiko. Das bedeutet, dass eher zugunsten der Nullhypothese
H0 entschieden wird. ^2 r 9. F 2A 9;10 ^Res r Fcrit
1;19; 99% 8;18 (konservativ). Da Femp > Fcrit , kann die H1 auf Grund des konservativen F-Tests (ohne e-Korrektur der Freiheitsgrade) akzeptiert werden (vgl. S. 356).
Kapitel 10 1. Die Kovarianzanalyse dient zur Ûberprçfung der Bedeutsamkeit einer kardinalskalierten Kontrollvariable fçr eine Untersuchung. Der potentielle Einfluss auf die abhångige Variable wird durch die Kovarianzanalyse rechnerisch neutralisiert (vgl. S. 361 f.). 2. Mit der Regressionsrechnung wird die abhångige Variable bezçglich einer Kontrollvariablen bereinigt (insgesamt und pro Treatmentstufe). Die Varianzanalyse wird im Prinzip çber Regressionsresiduen durchgefçhrt (vgl. S. 362). 3. Homogenitåt der Innerhalb-Regressionen: Es wird çberprçft, ob sich die Steigungskoeffizienten der Regressionen innerhalb der einzelnen Faktorstufen signifikant voneinander unterscheiden (vgl. S. 370 f.). 4. Kontroll- und abhångige Variable mçssen unkorreliert sein. Die Fehlervarianz in der Kovarianzanalyse hat gegençber der Fehlervarianz in der Varianzanalyse einen Freiheitsgrad weniger, sodass die Fehlervarianz in der Kovarianzanalyse geringfçgig græûer ausfållt (vgl. S. 369 f.). 5. a) Einfaktorielle Varianzanalyse çber die AV (ungleiche Stichprobenumfånge, vgl. S. 368) 1) Berechnung der Kennziffern G2y
13112 81 843;86 N P 21 P 2
2y yim 82 791
1y
i
3y
m
X A2y
i i
ni
4712 4622 3782 82 036; 13 8 7 6
2) Ergebnistabelle ^2 r
Q.d.V.
QS
df
A Fehler
3
2
1 192;27
3 754;87
p N
1 2 96;14 p 18 41;94
Total
2
1 947;14
N
1 20
Der Treatmenteffekt ist nicht signifikant. b) Homogenitåt des Regressionskoeffizienten der Faktorstufen (vgl. S. 370). 1) Quadratsummen
F
Fcrit
2;18; 95%
2;29 <
3;55
683
aLæsungen der Ûbungsaufgaben
QSx
1
P m
A2x
1
x2m1
2
30 13;43 7 242 16;00 6
QSx
2 142 QSx
3 112 P
n
342 13;50 8
158
Ax
1 Ay
1 2044 n m 30 462 48;00 QSxy
2 2028 7 24 378 60;00 QSxy
3 1572 6 Benætigte Kennziffern:
QSxy
1
PP
2x
i
m
PP
2xy
i
m
34 471 42;25 8
xm1 ym1
x2mi 412
3x
X A2x
i ni
i
xmi ymi 5644
3xy
ni
34 471 30 462 24 378 8 7 6
5493;75
3y 82 036;13 (vgl. a)
2y 82 791 (vgl. a)
3x 412
QSxy
Fehler
2xy
342 302 242 369;07 8 7 6
X Ax
i Ay
i i
QSx
Fehler
2x
369;07 42;93
3xy 5644
5493;75 150;25
QSy
Fehler 754;87 (vgl. a) 2) Komponenten der QSFehler : S1 QSy
Fehler S2
X QS2xy
i QSx
i
i
754;87
X QSxy
i
QS2xy
Fehler
QSx
i
QSx
Fehler
i
528;78
42;252 48;002 60;002 226;09 13;50 13;43 16;00 150;252 2;92 42;93
10:16
3) Signifikanztest: F
S2 =
p 1 2;92 15 0;10; nach Gl. (10.17), mit p
n S1 =p
n 2 226;09 2
2 N
2p
Da F < 1, ist der Test nicht signifikant, d. h., die Innerhalb-Regressionskoeffizienten sind homogen. c) Vgl. Gl. (10.20) F
QS2xy
Fehler QSx
Fehler QSy
Fehler 2
QS2xy
Fehler
N
150;25 15 34;44 42;93 754;87 150;252
2p 1
684
Anhang
Fcrit
1;15; 99% 8;68; Femp > Fcrit ) signifikant. Der Test fållt signifikant aus, d. h., die Steigungskoeffizienten weichen bedeutsam von 0 ab. d) Kovarianzanalyse (vgl. S. 366 ff.) 1) Kennziffern Gx Gy 1311 88 G2x 882 368;76;
1xy 5493;71;
1y 81 843;86 (siehe a) N 21 N 21
2x 412;
2xy 5644;
2y 82 791
1x
3x 369;07;
3xy 5493;75;
3y 82 036;15 (vgl. a u. b) 2) Quadratsummen: QSx
tot
2x
1x 412
QSxy
tot
2xy
368;76 43;24
1xy 150;29
QSy
tot 947;14 (siehe a) QSx
Fehler 42;93 (siehe b) QSxy
Fehler 150;25 (siehe b) QSy
Fehler 754;87 (siehe a) 3) Korrigierte Quadratsummen: QS2xy
tot
QStot QSy
tot
QSx
tot
QSFehler QSy
Fehler QS QStreat tot
947;14
QS2xy
Fehler QSx
Fehler
150;292 424;77 43;24
754;87
QSFehler 424;77
Q.d.V.
QS
df
A Fehler
195;76 229;01
p N
12 p 1 17
Total
424;77
N
2 19
150;252 229;01 42;93
Daraus ergibt sich:
10:10c
^2 r
F
Fcrit
2;17; 99%
97,88 13;47
7,27 >
6,11
e) Korrigierte Mittelwerte Nach Gl. (10.5 a) gilt: P QSxy
i 42;25 48;00 60;00 i 3;50 bin P 13;50 13;43 16;00 QSx
i (Quadratsummen siehe b) Nach Gl. (10.12) gilt: Ay
i Ay
i bin
Ax
i Gx
10:10b
229;01 195;76
Das Ergebnis der Kovarianzanalyse ist signifikant.
i
10:10a
685
aLæsungen der Ûbungsaufgaben Ay
1 58;88 Ay
2 66;00 Ay
3 63;00
3;50
4;25
4;19 58;67
3;50
4;29
4;19 65;65
3;50
4;00
4;19 63;67
f) A-priori-Einzelvergleich nach Gl. (10.13):
Ay
i Ay
j 2
65;65 63;672 " # F 2 3 0;94 < 1 2 2
A A 2 x
i x
j 2 2 ^y
Fehler r
4;29 4 7 6 n QSx
Fehler 13;4746 7 5 2 42;93 Der Mittelwertunterschied ist nicht signifikant. 6. Vgl. S. 373. 7. Da bei einer einmaligen Erhebung der Kontrollvariablen die x-Werte çber den Messwiederholungsfaktor konstant bleiben, werden folgende Quadratsummen null: QSx
B , QSx
AB , QSx
BVpn , QSxy
B , QSxy
AB , QSxy
BVpn . Daraus ergibt sich fçr die korrigierten Quadratsummen: QS 0
10:34 QS BVpn
y
BVpn
QSB QSy
B QSy
BVpn QS QS QS AB
y
AB
y
BVpn
0
QSy
BVpn QSy
B 0
QSy
BVpn QSy
AB
10:35
10:36
Die korrigierten Quadratsummen entsprechen den unkorrigierten Quadratsummen (vgl. S. 381 ff.).
Kapitel 11 1. Geschachtelte Faktoren sind Faktoren, deren Stufen jeweils nicht mit allen, sondern nur mit bestimmten Stufen anderer Faktoren kombiniert werden (vgl. S. 388). 2. Vorteile: Versuchspersonenersparnis. Nachteile: Es kænnen nicht alle Interaktionen geprçft werden (vgl. S. 388). 3. Varianzanalyse: a) Berechnung der Kennziffern (siehe zweifaktorielle Varianzanalyse, vollståndiger Plan, auûer (4)!) q Faktorstufenzahl des Faktors B unter einer Faktorstufe des Faktors A! G2 4232 5964;30 pqn 325 PPP 2
2 xijm 6433
1
i
P
j
A2i
m
1712 1602 922 6330;50 qn 25 PP 2 ABij 912 802 832 772 482 442 i j 6347;80
5 n 5
3
i
686
Anhang
b) Ergebnistabelle: (Prçfvarianzen siehe Tabelle 11.3) ^2 r
Q.d.V.
QS
df
A(fest)
3
1 366;20
p
B(A) (zufållig) Fehler
5
2
3 17;30
5 85;20
p
q 1 3 p q
n 1 24
Total
2
1 468;70
pqn
12
QS df
183;10 5;77 3;55
F
^2Eff r ^2Pruf r
Fcrit
181;1 31;73 > 30;8 5;77 5;77 F 1;63 < 3;01 3;55 F
1 29
Der Haupteffekt A ist signifikant. 4. Die Nullhypothesen bezçglich Faktor A, Faktor B, Faktor C, Interaktion A B, Interaktion A C. Die Interaktion B C kann nicht getestet werden. ^2B
A getestet, 5. Faktor A wird an der r ^2C
B
A getestet, Faktor B wird an der r ^2Fehler getestet (vgl. Tabelle 11.13). Faktor C wird an der r 6. a) Ein lateinisches Quadrat stellt eine besondere Variante eines unvollståndigen varianzanalytischen Versuchsplans dar. Es kænnen die Haupteffekte von 3 Faktoren çberprçft werden, die die gleiche Faktorstufenzahl aufweisen und feste Effekte haben mçssen (Beispiel fçr allg. Datenschema, Tab. 11.15, vgl. S. 396). b) Ein griechisch-lateinisches Quadrat stellt eine Erweiterung des lateinischen Quadrates dar. Es kænnen die Haupteffekte von 4 Faktoren çberprçft werden (Tabelle 11.25, vgl. S. 403). 7. b1 b2 b3 b4 b5 b6
a1
a2
a3
a4
a5
a6
c1 c2 c3 c4 c5 c6
c2 c3 c4 c5 c6 c1
c3 c4 c5 c6 c1 c2
c4 c5 c6 c1 c2 c3
c5 c6 c1 c2 c3 c4
c6 c1 c2 c3 c4 c5
8. Die lateinischen Quadrate sind in Bezug auf die Haupteffekte vollståndig ausbalanciert, weil jede Faktorstufe eines Faktors einmal mit jeder Faktorstufe der anderen Faktoren auftritt. 9. Varianzanalyse a) Berechnung der Kennziffern (siehe S. 400) G2 7192 7180;01 n p2 8 32 P 2
2 x 7635
1
687
aLæsungen der Ûbungsaufgaben P
3
4
i
A2i
np P 2 Bj j
np P 2 Ck
2372 1872 2952 7423;46 83
2362 2412 2422 7180;88 83
2452 2442 2302 7185;88 np 83 P ABC2 822 632 912 782 622 1012 772 622 1032 7435;63
6 n 8 b) Ergebnistabelle
5
k
Q.d.V.
QS
A
3 B
4 C
5 Fehler
2 Residual
6 Total
^2 r
df
1 243;45
1 0;87
1 5;87
6 199;37
3
4
5 2
1 5;43 454;99
^2 r QS F 2 Eff Fcrit ^Fehler df r
p 12 121;73 p 12 0;44 p 12 2;94 p2
n 1 63 3;16
p 1
p 2 2 2;72 p2 n
38;52 <1 <1
>7,08
<1
1 71
Da die Residualvarianz nicht signifikant ist, kann die Interaktion vernachlåssigt werden. Der Haupteffekt A ist signifikant. 10. (Vgl. Tabelle 11.24.) a1 b1 c2 d1 , a2 b2 c1 d1 , a3 b3 c3 d1 . 11. Unter einem sequenziell ausbalancierten lateinischen Quadrat versteht man ein lateinisches Quadrat fçr einen Versuchsplan mit Messwiederholung, bei dem jede Stufe des Messwiederholungsfaktors einmal auf jede andere Stufe des Messwiederholungsfaktors folgt. Um Sequenzeffekte vollståndig auszubalancieren, werden bei einer geraden Anzahl von Faktorstufen ein und bei einer ungeraden Anzahl von Faktorstufen zwei lateinische Quadrate benætigt (vgl. S. 403 ff.).
Kapitel 12 1. xijkm l ai b j
i ck
j
i eijkm (vgl. S. 428, Gl. 12.86)! 2. Die Varianzkomponenten des Zåhlers dçrfen nur um den zu testenden Effekt von denen des Nenners unterschieden sein (vgl. S. 420). 3. Ein Messwert besteht aus folgenden Strukturkomponenten: xijm l ai b j abij pm apim bpjm abpijm em
ij Nach den auf S. 430 ff. genannten Regeln errechnet man die Erwartungswerte der Varianzen wie folgt:
688
Anhang
ai bj abij pm apim bpjm abpijm em
ij
i
j
m
Dp
q
n
p
Dq
n
Dp
Dq
n
p
q
Dn
Dp
q
Dn
p
Dq
Dn
Dp
Dq
Dn
1
1
Dn
Erwartungswert der Varianzen Dn r2e Dq Dn r2abp
Dn qr2ap
Dq nr2ab qnr2a
Dn r2e Dp Dn r2abp Dn pr2bp
Dp nr2ab pnr2b
Dn r2e Dn r2abp
nr2ab
r2e
Dp Dq r2abp Dq pr2bp Dp qr2ap pqr2p
r2e
Dq r2abp
r2e
Dp r2abp
r2e
r2abp
r2e
r2abp
qra p2 pr2bp
Sind A und B Faktoren mit festen Effekten, setzen wir Dp Dq 0. Ferner ist Dn 1. Wir erhalten also: Q.d.V.
Erwartungswert der Varianzen
A
r2e qr2ap qnr2a
B
r2e pr2bp pnr2b
AB
r2e r2abp nr2ab
zw: Vpn
r2e pqr2p
A Vpn
r2e qr2ap
B Vpn
r2e pr2bp
A B Vpn
r2e r2abp
r2ABVpn und r2e sind in diesem Plan konfundiert. Nach der Regel, dass sich die Varianzkomponenten des Zåhlers nur um den zu prçfenden Effekt von den Varianzkomponenten des Nenners unterscheiden dçrfen, prçfen wir b r2A an der b r2AVpn, b r2B an der b r2BVpn und b r2AB an der b r2ABVpn.
Kapitel 13 1. Vgl. S. 443 ff. a) Die bivariate Produktmomentkorrelation stellt den linearen Zusammenhang zwischen zwei Merkmalen dar. b) Die Partialkorrelation entspricht einer bivariaten Produktmomentkorrelation zwischen den Regressionsresiduen zweier Variablen nach der Bereinigung des Einflusses einer Kontrollvariablen. c) Die multiple Korrelation gibt den Zusammenhang zwischen mehreren Prådiktorvariablen und einer Kriteriumsvariablen wieder. 2. Die Regressionsresiduen (vgl. S. 445). 3. Die durch die Prådiktoren mit Hilfe der multiplen Regression bestimmten Vorhersagewerte mit den Kriteriumswerten. (Man beachte aber die unterschiedlichen Wertebereiche der Produktmomentkorrelation und der multiplen Korrelation: 0 R 1 und 1 r 1!).
689
aLæsungen der Ûbungsaufgaben 4. 1) Berechnung der Partialkorrelation Nach Gl. (13.5) gilt: rxy rxz ryz 0;71 0;88 0;73 rxyz q p 0;208
1 0;882
1 0;732
1 r2xz
1 r2yz 2) Signifikanztest: Nach Gl. (13.9) gilt: p p z Z
n 4 0;211 36 1;27 )
1;96 < z < 1;96 ;
die Korrelation ist nicht signifikant! (Z siehe Tabelle H: r ! Z!) 5. Vgl. S. 450 1) Kontinuierliche Variablen, die multivariat normalverteilt sind. 2) Bei Verletzung von 1: Ein im Verhåltnis zur Anzahl der Prådiktorvariablen ausreichend groûer Stichprobenumfang (z. B. n > 40 bei k < 10) 6. a) Nach Gl. (6.60) gilt: n n n P P P n xi yi xi yi i1 i1 i1 v rxy " u n 2 # " n 2 # n n u P P P t n P x2 n yi2 xi yi i i1
i1
i1
i1
10 1037 46 208 ) r13 p 0;58
10 296 462
10 4550 2082 b) Nach Gl. (6.60) gilt: 10 1011 52 208 r23 p
10 326 522
10 4550 2082
0;63
c) Nach Gl. (13.14 a) gilt: s r213 r223 2r12 r13 r23 R3;12 ; 1 r212 10 249 46 52 mit r12 p 0;14 folgt:
10 296 462
10 326 522 s 0;582
0;632 2 0;14 0;58
0;63 R3;12 0;92 1 0;142 d) 1) Berechnung der Beta-Gewichte: Gl. (13.15 a) r13 r23 r12 b1 0;68 1 r212 Gl. (13.15 b) r23 r13 r12 b2 1 r212
0;73
690
Anhang
2) Einsetzen in die Vorhersagegleichung (13.11) ^z3m 0;68 z1m
0;73 z2m
e) Nach Gl. (13.12) gilt: ^x3m b01 x1m b02 x2m a ; s3 wobei b0i bi si 1) Berechnung der Standardabweichungen s1 bis s3 : Nach Gl. (1.17) gilt: v uP un 2 u p ti1
xi x s s2 n Daraus ergibt sich: s1 2;91 ; s2 2;36; s3 4;73 2) Berechnung der nicht standardisierten Beta-Gewichte 4;73 1;105 2;91 4;73 1;463 0;73 2;36
b01 0;68 b02
3) Berechnung des y-Achsenabschnitts a Nach Gl. (13.13) gilt: a x3
b01 x1 b02 x2
Daraus ergibt sich: a 20;8
1;11 4;6
1;46 5;2 23;286
4) Einsetzen in Gl. (13.12): ^x3m 1;11 x1m
1;46 x2m 23;286
f) Da es sich um die Prådiktormittelwerte handelt, wird durch die Vorhersagegleichung ebenfalls das Kriteriumsmittel (20,8) vorhergesagt. g) R 0;92 (siehe c!) Signifikanzprçfung: Nach Gl. (13.19) gilt: F
R2
n k 1 , mit k: Anzahl der Pradiktorvariablen und dfZ k; dfN n
1 R2 k
Daraus ergibt sich: F
0;922
10 2 1 19;29;
1 0;922 2
dfN 2;
dfZ 7:
Aus Tabelle E ergibt sich Fcrit
2;7; 99% 9;55 Da Femp > Fcrit , ist die multiple Korrelation signifikant.
k
1
aLæsungen der Ûbungsaufgaben
691
7. Fçr 2 Prådiktorvariablen: Ûbt die 1. Prådiktorvariable Suppressionseffekte aus, gilt: jb2 j > jr23 j, çbt die 2. Prådiktorvariable Suppressionseffekte aus, gilt: jb1 j > jr13 j. 8. Die Summe der gewichteten Messwerte einer Vp. 9. Die Gewichte der Variablen werden so bestimmt, dass die Summe der quadrierten Differenzen zwischen den tatsåchlichen Kriteriumswerten und den vorhergesagten Kriteriumswerten minimal wird (vgl. Gl. 13.48). 10. Die wechselseitige Abhångigkeit der Prådiktorvariablen (vgl. S. 452 ff.). 11. Die Nçtzlichkeit einer Prådiktorvariablen k + 1 erkennt man daran, um welchen Betrag das Vorhersagepotential (die quadrierte multiple Korrelation) erhæht wird, wenn man einen Satz von k Prådiktorvariablen um die Variable k + 1 erweitert. Sie ist definiert als die quadrierte Semipartialkorrelation R2y
A1A , wobei A einen Satz von k Prådiktorvariablen kennzeichnet (vgl. S. 456).
Kapitel 14 1. Die Design-Matrix lautet: x1
x2
x3
y
1 1 1 1 1 0 0 0 0 0 0 ±1 ±1 ±1 ±1 ±1 ±1 ±1
0 0 0 0 0 1 1 1 1 1 1 ±1 ±1 ±1 ±1 ±1 ±1 ±1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
16 18 15 11 17 18 14 14 17 12 14 12 17 11 9 13 13 12
Mit der Indikatorvariablen x3 (¹Einservariableª) wird çber Gl. (13.62) auch die Regressionskonstante a errechnet (vgl. S. 468 und S. 490). Im Ûbrigen resultiert:
692
Anhang
rx1 y 0;4799; rx2 y 0;4058; rx1 x2 0;5579 [nach Gl. (6.57), wobei sx ; sy nach Gl. (1.21) und covx;y nach Gl. (6.22)] b1 1;1794 [nach Gl. (13.12 oder 13.62)], b2 0;6127 [nach Gl. (13.12 oder 13.62)], a 14;2206 [nach Gl. (13.13 oder 13.62)], R2 0;2580 [nach Gl. (13.14 oder 13.72)], 0;2580
18 3 2;61 [nach Gl. (14.5)]. F
1 0;2580
3 1 Das Ergebnis der Varianzanalyse lautet: Q.d.V.
QS
df
Faktor A Fehler
31,20 2 89,75 15
^2 r
F
15,60 2,61 5,98
Kontrolle (vgl. S. 486): b1 A1 G 15;4 14;2206 1;1794, b2 A2 G 14;8333 14;2206 0;6127, a = G
15;4 14;8333 12;4286=3 14;2206 (ungewichtetes Mittel!) 2. a) 17 (5 fçr die 3 Haupteffekte, 8 fçr die 3 Interaktionen und 4 fçr die Tripelinteraktion), vgl. S. 491 f. b) 3 fçr den Messwiederholungsfaktor und eine weitere Variable fçr die Vpn-Summen, vgl. S. 503 c) 11 (1 fçr Faktor A, 4 fçr Faktor B, 6 fçr Faktor C), vgl. S. 500 d) 8 (2 fçr jeden der 4 Faktoren), vgl. S. 501 R2y;xBC p q r
n 1 3. a) F , abgeleitet von Gl. (14.12)
1 R2y;xA xB xC xAB xAC xBC xABC
q 1
r 1 b) F c) F d) F
R2y;xA
p
1
1
n
R2y;xA xP
R2y;xC
B
A
1
p
1 1
,
abgeleitet von Gl. (14.26)
R2y;xB
A p q r
n R2y;xC
B
A
R2y;xA xB xC xD
r
1 p q
R2y;xA xB xC
N
1
R2y;xA xB xC xD
1
,
p2
p
p
1
abgeleitet von Gl. (14.21) 1
p
3
,
abgeleitet aus den Gl. (14.22±14.24).
Kapitel 15 1. Die Korrelation einer Variablen mit einem Faktor. 2. Die Ausprågung (z-standardisiert) eines Faktors bei einer Vp. 3. Die Kommunalitåt einer Variablen entspricht der Summe der quadrierten Ladungen der Variablen auf den bedeutsamen Faktoren. 4. Die Variable erfasst entweder einen spezifischen, nicht von den relevanten Faktoren erfassten Varianzanteil oder Fehlervarianz. 5. Die Faktoren klåren sukzessiv maximale Varianzanteile auf und sind wechselseitig orthogonal zueinander. 6. Wir berechnen die Kommunalitåten der Variablen nach Gl. (15.4). Die Ladungen der Variablen 4 sind fehlerhaft. Die Kommunalitåt lautet: h24 1;06 und ist damit græûer als 1, was nicht zulåssig ist.
aLæsungen der Ûbungsaufgaben
693
7. Die Summe der Eigenwerte gibt die Summe der durch die Faktoren aufgeklårten Varianzen wieder. Da durch die z-Standardisierung in der Korrelationsberechnung jede Variable eine Varianz von 1 erhålt, ist die Gesamtvarianz von p Variablen vom Betrage p. Diese Gesamtvarianz ergibt sich summativ aus den Eigenwerten. 8. k3 3 1;68 0;83 0;49. (Bei p 3 Variablen muss die Summe der Eigenwerte 3 ergeben.) 9. Weil nur dann gewåhrleistet ist, dass ein Faktor mehr Varianz aufklårt als eine Variable (Datenreduktion! vgl. S. 544). 10. Vgl. S. 544. Auf der Abszisse sind die Rangnummern der Faktoren, auf der Ordinate deren Eigenwerte abgetragen. 11. Indem man die Korrelationen zwischen den Faktorwerten verschiedener Faktoren berechnet. Sie sind jeweils Null. 12. Vereinfacht gesprochen handelt es sich um eine Faktorenstruktur, bei der auf jedem Faktor einige Variablen hoch, die anderen Variablen niedrig laden (vgl. S. 547). 13. Die Varianz der quadrierten Ladungen wird pro Faktor maximiert. 14. Hierbei wird eine Vergleichsstruktur so rotiert, dass sie zu einer vorgegebenen Zielstruktur eine maximale Øhnlichkeit aufweist (vgl. S. 554). 15. Das Kommunalitåtenproblem taucht im Modell mehrerer gemeinsamer Faktoren auf. Hier geht es um die Schåtzung der ¹wahrenª gemeinsamen Varianz der Variablen. Eine Schåtzung desjenigen Varianzanteils, den eine Variable mit den anderen Variablen teilt, ist die Kommunalitåt dieser Variablen. Diese hångt aber von der Anzahl der gemeinsamen Faktoren ab. Kennen wir die Anzahl der gemeinsamen Faktoren, kænnten çber die Kommunalitåten die gemeinsamen Varianzanteile geschåtzt werden. Kennen wir umgekehrt die Kommunalitåten, kænnte damit die Anzahl der gemeinsamen Faktoren geschåtzt werden. Es sind jedoch weder die Anzahl der gemeinsamen Faktoren noch die Kommunalitåten der Variablen bekannt ± das Kommunalitåtenproblem. Zur Læsung dieses Dilemmas vgl. S. 558. 16. Sie testet Hypothesen çber die Faktorenstruktur (Anzahl der orthogonalen oder obliquen Faktoren und Ladungsmuster der Variablen) eines Datensatzes. 17. Vgl. S. 561. 18. Es handelt sich hierbei um ein Verfahren, mit dem man çber eine multiple Regressionsgleichung die Anzahl der bedeutsamen Faktoren bestimmen kann (vgl. S. 529 f.). 19. Man summiert die quadrierten Ladungen des Varimaxfaktors, dividiert die Summe durch p und multipliziert das Ergebnis mit 100%.
Kapitel 16 1. Wenn die Øhnlichkeit der Objekte lediglich aus dem Vorhandensein bestimmter Merkmale bestimmt werden soll, berechnet man einen S-Koeffizienten. Soll zusåtzlich das gemeinsame Nichtauftreten von Merkmalen ins Gewicht fallen, empfiehlt sich die Berechnung des SMC-Koeffizienten (vgl. S. 567). 2. Der Sachverhalt, der durch die korrelierten Merkmale gemeinsam erfasst wird, bestimmt die Øhnlichkeit aller Objekte stårker als nichtkorrelierte Merkmale. 3. Man versteht darunter einen Algorithmus der Clusteranalyse, der bei der schrittweisen Fusionierung der Elemente (Objekte oder Cluster) zu græûeren Clustern mit der feinsten Partitionierung beginnt (vgl. S. 571 f.). 4. Da die Single-linkage-Methode die Verbindung zweier Cluster çber 2 ¹benachbarteª Objekte der beiden Cluster herstellt, kann es zu ¹Chaining-Effektenª kommen, bei denen Cluster resultieren, in denen Objekte zu anderen Objekten innerhalb des Clusters geringere Øhnlichkeit haben als zu Objekten anderer Cluster (vgl. S. 572). 5. Z. B. Varianzkriterium, Determinantenkriterium, Spur-Kriterium, k-means-Methode (vgl. S. 574).
694
Anhang
6. Die Ward-Methode stellt ein hierarchisches Verfahren dar, das sukzessiv diejenigen Elemente zusammenfasst, deren Fusion die geringste Erhæhung der gesamten Fehlerquadratsumme mit sich bringt. In den ersten Fusionsschritten werden bevorzugt kleine Cluster mit hoher Objektdichte zusammengefasst. In weiteren Fusionsschritten werden vom Verfahren dagegen Unterschiede in den Besetzungszahlen (n) ausgeglichen, was unter Umstånden einen Nachteil des Verfahrens darstellt (vgl. S. 575 ff.). 7. Die k-Means-Methode stellt ein nicht-hierarchisches Verfahren dar. Es wird von einer im Grunde beliebigen Startpartition ausgegangen. Ein Cluster wird durch seinen Schwerpunkt repråsentiert. Ein Objekt wird immer dann in ein anderes Cluster verschoben, wenn es zum Schwerpunkt des anderen Clusters eine geringere euklidische Distanz aufweist als zum Ursprungscluster (vgl. S. 578 ff.). 8. Doppelkreuzvalidierung unter Verwendung geeigneter Zuordnungsregeln; anschlieûend Ûberprçfung der Clusterçbereinstimmung mit dem Kappa-Maû oder dem Rand-Index.
Kapitel 17 1. a) Ermittlung des Abweichungsvektors l0 0
55;24
x
60; 34;97
50
4;76;
15;03
b) Berechnung der D-Matrix (vgl. Gl. 15.27) und ihrer Inversen 210;54 126;99 21 054 12 699 d D COV
n 1 100 126;99 119;68 12 699 11 968 Inverse Matrix (vgl. C21) D
1
1 21 054 11 968
12 6992
11 968 12 699
12 699 21 054
c) Berechnung von Hotelling's T21 : vgl. Gl. (17.3) und C 11 T21
101
101
1 10
4
4;76;
15;03
1;01
14;76;
1;32
1;40
1;40 2;32 4;76 28;21 15;03
1;32 1;40
1;40 2;32
4;76
1;01 353;74 357;28 d) Berechnung der Prçfgræûe F (17.4): n p 101 2 T2 357;28 176;85 F
n 1 p 1
101 1 2 dfZ 2; dfN 99 ! Fcrit;99% 4;98 ) Test ist signifikant 2. a) Ermittlung der Differenzvektoren nach Gl. (17.5) d01
1; 1 d05
3; 3 d09
8; 3 d06
9; 0 d010
7; 1 d02
7; 2 d07
1; 0 d03
8; 2 0 d08
7; 2 d4
3; 0 b) Ermittlung des durchschnittlichen Differenzvektors
15;03
10
4
695
aLæsungen der Ûbungsaufgaben 0
d
5;2; 1;2; c) Berechnung der Dd-Matrix (Quadratsummen und Kreuzproduktsummen der Differenzwerte) und ihrer Inversen: 105;60 22;60 Dd 22;60 17;60 17;60 22;60 0;013 0;017 1 1 Dd 105;6 17;6 22;62 22;60 105;60 0;017 0;078 d) Berechnung von Hotelling's T22 nach Gl. (17.7): 0;013 0;017 5;2 2 T2 10
10 1
5;2; 1;2 0;017 0;078 1;2 5;2 90
0;047; 0;005 1;2 90 0;25 22;5 e) Ermittlung der Prçfgræûe F (nach Gl. 17.4): F
n p 10 2 T2 22;5 10;00
n 1p 2
10 1 2
dfZ 2; dfN 8 ! Fcrit;99% 8;65 ) Test ist signifikant 3. Vgl. S. 589 f. a) Ermittlung der Mittelwertvektoren und des Differenzvektors der Stichproben 1 und 2: x01
13;00; 20;00 ; ) x01
x02
2;89;
x02
10;11; 20;78 0;78
b) Berechnung der D-Matrizen D1
48;00 14;00
14;00 10;00
;
D2
10;89 0;78
0;78 13;56
c) Zusammengefasste Matrix W (Gl. 17.8) und ihre Inverse: W D1 D2
58;89
13;22
13;22 23;56 23;56 1 1 W 2 58;89 23;56 13;22 13;22 1;94 1;09 10 2 1;09 4;86
13;22 58;89
d) Berechnung von Hotelling's T23 nach Gl. (17.9):
696
Anhang
n1 n2
n1 n2 2
x1 n1 n2 7 9
7 9 2
2;89; ) T23 79
x2 0 W 1
x1 1;94 0;78 1;09 2;89 6;94 0;78
T23
55;13 10
2
6;46;
55;13 10 13;28
2
24;08
x2 1;09 4;86
10
2
2;89
0;78
e) Prçfgræûe F (Gl. 17.10): F
n1 n2
n1 n2
p 1 2 79 2 1 13;28 6;17 T 2 p 3
7 9 2 2
dfZ 2; dfN 13 ! Fcrit;95% 3;81 ) der Test ist signifikant 4. Vgl. S. 590 ff. a) Bestimmung der Differenzvektoren y1 und y2 und deren Durchschnittsvektor: 0 1 0 1 35 12 B 50 C B 0C B C B C B 40 C B 20 C B C B C B 15 C B 20 C 38;38 B C; C)y x x y1 x1 x2 B y 2 3 2 B 60 C B 30 C 14;25 B C B C B 50 C B 15 C B C B C @ 35 A @ 5A 22 12 b) Berechnung der Varianz/Kovarianz-Matrix und ihrer Inversen: dy COV d COV y
1
225;41
19;18
19;18
87;64 87;64 1 2 225;41 87;64
19;18 19;18 4;52 0;99 10 3 0;99 11;63
19;18
225;41
c) Berechnung von Hotelling's T24 (nach Gl. 17.11): d 1y T24 n y0 COV y ) T24 8
38;38; 8 10
3
14;25
159;37;
4;52
0;99
10 0;99 11;63 38;38 127;73 14;25
63;49 d) Ermittlung der Prçfgræûe F (nach Gl. 17.12)
3
38;38 14;25
aLæsungen der Ûbungsaufgaben
697
n k1 8 31 T2 63;49
n 1
k 1 4
8 1
3 1 27;21 dfZ 2; dfN 6 ! Fcrit;99% 10;9 ) Der Test ist signifikant.
F
5. Wir berechnen eine einfaktorielle, multivariate Varianzanalyse (vgl. S. 592 ff.)! Die zwei abhångigen Variablen tauchen als x1 und x2 unter den drei Stufen des Treatmentfaktors (Art der Aggressivitåt) auf. G1 93 71 107 271, G2 40 30 49 119,
1x1 2712 =20 3672;05,
2x1 122 142 . . . 122 142 3715,
3x1 932 =7 712 =5 1072 =8 3674;90,
1x2 1192 =20 708;05,
2x2 42 62 . . . 62 72 741,
3x2 402 =7 302 =5 492 =8 708;70,
1x1 x2 271 119=20 1612;45,
2x1 x2 12 4 14 6 . . . 12 6 14 7 1626,
3x1 x2 49=8 1612;80, 93 40=7 71 30=5 107 2;85 0;35 40;10 13;20 42;95 13;55 , DFehler , Dtot , Dtreat 0;35 0;65 13;20 32;30 13;55 32;95 jDFehler j 40;10 32;30
13;202 1120;99 [gemåû Gl. C 15], jDtot j 42;95 32;95
13;552 1231;60 [gemåû Gl. C 15], 1120;99 K 1231;60 0;91, ln K 0;09, V 16;5 0;09 1;49 (nicht signifikant), df 4 [gemåû Gl. 17.21]. 6. Nach Kap. 17.6 berechnen wir: G1 26 29 64 30 31 54 234, G2 25 33 48 33 35 34 208: A11 26 30 56; A12 29 31 60; A13 64 54 118; A21 25 33 58; A22 33 35 68; A23 48 34 82; B11 26 29 64 119; B12 30 31 54 115; B21 25 33 48 106; B22 33 35 34 102:
1x1 2342 =24 2281;50,
2x1 52 52 . . . 142 102 2692,
3x1
562 602 1182 =8 2582;50,
4x1
1192 1152 =12 2282;17,
5x1
262 292 642 302 312 542 =4 2597;50.
1x2 2082 =24 1802;67,
2x2 62 42 . . . 82 52 1986,
3x2
582 682 822 =8 1839;00,
4x2
1062 1022 =12 1803;33,
698
Anhang
5x2
252 332 482 332 352 342 =4 1872;00.
1x1 x2 234 208=24 2028;00,
2x1 x2 5 6 5 4 . . . 11 8 10 5 2224,
3x1 x2
56 58 60 68 118 82=8 2125;50,
4x1 x2
119 106 115 102=12 2028;67,
5x1 x2
26 25 29 33 64 48 30 33 31 35 54 34=4 2147;50. 301;00 97;50 0;67 0;67 14;33 21;33 , DB , DAB , DA 97;50 36;33 0;67 0;66 21;33 32;34 94;50 76;50 DFehler , 76;50 114;00 410;50 196;00 Dtot . 196;00 183;33 jDFehler j 4920;75, jDA DFehler j 29179;52, jDB DFehler j 4956;98, jDAB DFehler j 6355;47. Gemåû Tabelle 17.6 erhalten wir die folgende Ergebnistabelle: Q.d.V.
K
df(Q.d.V.) V
A B AB Fehler
0,169 0,993 0,774
2 1 2 18
31,11 0,12 4,48
df
V 4 2 4
Kapitel 18 1. Die linear-kombinierten Werte der Vpn mçssen so geartet sein, dass die Unterschiede zwischen den Vpn-Gruppen maximal und die Vpn-Unterschiede innerhalb der Gruppen minimal werden: k
QS
y
treat max QS
y
Fehler
(vgl. S. 607f.:
2. Der durch såmtliche Diskriminanzfaktoren aufgespannte Raum (bei r Faktoren resultiert ein r-dimensionaler Raum) (vgl. S. 609). 3. Nein (vgl. S. 609 f. u. Gl. 17.21 bzw. Gl. 18.7), weil die Prçfgræûen identisch sind. 4. Die Ladungen der abhångigen Variablen auf den Diskriminanzfaktoren, die standardisierten Diskriminanzkoeffizienten und die Mittelwerte der Vpn-Gruppen auf den Diskriminanzfaktoren (vgl. S. 608). 5. Da r min
p; k 1 ist (d. h. bei gegebenem p und gegebenem k 1 entspricht r dem kleineren der beiden Werte), ergeben sich bei p 7 abhångigen Variablen und kA 6, kB 2 und kAB 12 Gruppen folgende Werte (vgl. S. 609): a) 5, b) 1, c) 7.
aLæsungen der Ûbungsaufgaben
699
6. Zuerst bestimmen wir die Differenzvektoren nach Gl. (18.32): 0 1 0 1 0 1 6 3 3 d11 @ 1 A d21 @ 9 A d31 @ 11 A 9 1 3 0 1 2 d vj1 dj1 COV dj1 (vgl. Gl. 18.34), v211 1;304, v221 1;214, v231 1;258. Da sich fçr Gruppe 2 (Juristen) der kleinste v2 -Wert ergibt, ist die Vp dieser Gruppe zuzuordnen. 7. Vgl. S. 624 f. a) Prçfen, ob çberzufållig viele Personen richtig eingestuft wurden (Vergleich der beobachteten Hitrate mit der zu erwartenden Zufallshitrate) b) Aufteilung der Stichprobe in eine Konstruktions- und Klassifikationsstichprobe (z. B.: ¹Hold-outsampleª- oder ¹Leave-one-outª-Methode).
Kapitel 19 1. Der Zusammenhang zwischen mehreren Prådiktorvariablen und mehreren Kriteriumsvariablen. 2. Multiple Korrelation: Die Summe der quadrierten Abweichungen der vorhergesagten Kriteriumswerte (Linearkombinationen der Prådiktorvariablen) von den tatsåchlichen Kriteriumswerten muss minimal werden (bzw. maximale Korrelation zwischen den vorhergesagten und den tatsåchlichen Kriteriumswerten). PCA: Die Linearkombinationen (Faktoren) der Variablen mçssen sukzessiv maximale Varianz aufklåren und wechselseitig voneinander unabhångig sein. Diskriminanzanalyse: Die Linearkombinationen (Diskriminanzfaktoren) der abhångigen Variablen mçssen sukzessiv zu maximaler Trennung der Gruppen fçhren. Kanonische Korrelation: Die Linearkombinationen (kanonische Faktoren) der Prådiktor- und Kriteriumsvariablen mçssen sukzessiv maximale Kovarianzen zwischen den Prådiktorvariablen und Kriteriumsvariablen aufklåren. 3. r min
p; q. Die Anzahl der kanonischen Korrelationen entspricht der Variablenzahl des kleineren Variablensatzes (vgl. S. 629). 4. Die beiden Redundanzmaûe fçr eine kanonische Korrelation sind nur identisch, wenn der Prådiktorvariablenfaktor den gleichen Varianzanteil der Prådiktorvariablen aufklårt, wie der korrespondierende Kriteriumsfaktor von den Kriteriumsvariablen (vgl. S. 630). 5. Die Prådiktorvariablen und Kriteriumsvariablen mçssen jeweils untereinander unkorreliert sein (vgl. S. 630). 6. Die Ladungen der Prådiktorvariablen bzw. Kriteriumsvariablen auf den Prådiktorfaktoren bzw. Kriteriumsfaktoren sowie die kanonischen Strukturkoeffizienten (vgl. S. 629 ff.). 7. Wir codieren die Haupteffekte A und B sowie die Interaktionen durch Indikatorvariablen (mit Effektcodierung) und erhalten:
700
Anhang
Prådiktorvariablen
Kriteriumsvariablen
x1
x2
x3
x4
x5
y1
y2
1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 ±1 ±1 ±1 ±1 ±1 ±1 ±1 ±1
0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 ±1 ±1 ±1 ±1 ±1 ±1 ±1 ±1
1 1 1 1 ±1 ±1 ±1 ±1 1 1 1 1 ±1 ±1 ±1 ±1 1 1 1 1 ±1 ±1 ±1 ±1
1 1 1 1 ±1 ±1 ±1 ±1 0 0 0 0 0 0 0 0 ±1 ±1 ±1 ±1 1 1 1 1
0 0 0 0 0 0 0 0 1 1 1 1 ±1 ±1 ±1 ±1 ±1 ±1 ±1 ±1 1 1 1 1
5 5 9 7 7 6 9 8 7 7 9 6 10 8 7 6 21 14 17 12 16 14 14 10
6 4 9 6 10 6 7 10 6 7 12 8 13 7 6 9 15 11 12 10 12 9 8 5
Haupteffekt A wird durch x1 und x2 codiert, Haupteffekt B wird durch x3 codiert, Interaktion A B wird durch x4 und x5 codiert.
701
aLæsungen der Ûbungsaufgaben
8. Die kanonische Korrelationsanalyse wird zwischen 3 Prådiktorvariablen und 3 Kriteriumsvariablen berechnet. Prådiktoren (A)
Kriterien (B)
Frequenz
x1
x2
x3
y1
y2
y3
1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0
0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0
0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0
1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0
18 8 6 19 16 14 12 23 23 15 9 24 17 18 11 23
703
A. Das Rechnen mit dem Summenzeichen
Ein in der Statistik sehr håufig P benætigtes Operationszeichen ist das Summenzeichen, das durch ein groûes, griechisches Sigma ( ) gekennzeichnet wird. Unter Verwendung des Summenzeichens schreiben wir z. B.: 5 X
x1 x2 x3 x4 x5 5 P i1
xi :
i1
liest man als ¹Summe aller xi-Werte fçr i 1 bis 5ª. Der Laufindex i kann durch beliebige andere
Buchstaben ersetzt werden. Unterhalb des Summenzeichens wird der Laufindex mit der unteren Grenze aller Werte ( 1. Wert) gleichgesetzt, und oberhalb des Summenzeichens steht die obere Grenze (letzter Wert). Die folgenden Beispiele verdeutlichen einige Operationen mit dem Summenzeichen:
B3 B4 B5 B6
6 X
Bj ;
A1
j3
x2 y2 x3 y3 x4 y4 x5 y5 x6 y6
6 X
xl yl ;
A2
l2
w1
d
w2
d
w3
d
wk
d
k X
wj
d
j1
c z1 c z2 c z3 c zn
n X i1
y1
a2
y2 q X
yi i1
c zi c
n X
x21 x22 x23 x24 x2p
2
x1 x2 x3 xp
i1
p X j1 p X j1
x2j ;
! wj
k d;
A3
j1
zi ;
A4
i1
a2
y3 a2
yq a2 q q X X a2
yi2 2 a yi a2 yi2 i1
k X
2a
q X
y i q a2 ;
A5
i1
A6
!2 xj
:
A7
704
Anhang
Wie man sich leicht çberzeugen kann, ist die Summe der quadrierten Werte in (A6) natçrlich nicht mit dem Quadrat der Summe der Werte in (A7) identisch. Wenn aus dem Kontext die Grenzen der zu summierenden Werte klar hervorgehen, kann die ausfçhrliche Schreibweise fçr eine Summation durch folgende einfachere Schreibweise ersetzt werden: n X X xi xi :
A8 i
i1
Håufig sind Daten nicht nur nach einem, sondern nach mehreren Kriterien gruppiert, sodass eine eindeutige Kennzeichnung nur çber mehrere Indizes mæglich ist. Wenn beispielsweise p Variablen bei n Personen gemessen werden, kennzeichnen wir die 3. Messung der 2. Personen durch x23 oder allgemein die i-te Messung der m-ten Person durch xmi . Will man die Summe aller Messwerte der 2. Person bestimmen, verwenden wir folgende Rechenvorschrift: p X
x2i x21 x22 x23 x2p :
A9
i1
Die Summe aller Messwerte fçr die Variable 5 hingegen lautet: n X xm5 x15 x25 x35 xn5 :
A10
m1
Die Summe der Werte einer nicht spezifizierten Vp m ermitteln wir nach der Beziehung: p X
xmi xm1 xm2 xmp
A11
i1
bzw. die Summe aller Werte auf einer nicht spezifizierten Variablen i: n X xmi x1i x2i xni :
A12
m1
Sollen die Messwerte çber alle Personen und alle Variablen summiert werden, kennzeichnen wir dies durch ein doppeltes Summenzeichen: ! p X p n n n n n X X X X X X xmi xmi xm1 xm2 xmp i1 m1
i1
m1
n X
p X
m1
i1
m1
! xmi
p X i1
m1
x1i
p X i1
x2i
m1
p X
xni :
i1
Entsprechendes gilt fçr Messwerte, die mehr als zweifach indiziert sind.
A13
705
B. Das Rechnen mit Erwartungswerten
In einem Gasthaus stehen 2 Spielautomaten. Aus den Gewinnplånen entnehmen wir, dass Automat A 0,00 1, 0,20 1, 0,40 1, 0,60 1 und 1,00 1 auszahlt. Die Wahrscheinlichkeiten fçr diese Ereignisse lauten 50%; 30%; 10%; 7% und 3%. Beim Automaten B kommen 0,00 1 mit 60%, 0,20 1 mit 25%, 0,40 1 mit 10%, 0,80 1 mit 3% und 2,00 1 mit 2% Wahrscheinlichkeit zur Auszahlung. Bei beiden Automaten betrågt der Einsatz 0,20 1. Mit welchem der beiden Automaten empfiehlt es sich zu spielen, wenn sich die Pråferenz nur nach der Græûe der Gewinnchancen richtet? Zweifellos wird diese Entscheidung davon abhången, bei welchem der beiden Automaten im Durchschnitt der græûere Gewinn zu erwarten ist. Diese Gewinnerwartungen lassen sich veranschaulichen, wenn man davon ausgeht, dass an jedem Automaten z. B. 100-mal gespielt wird. Aufgrund der Wahrscheinlichkeiten kann man im Durchschnitt damit rechnen, dass die Automaten folgende Betråge auswerfen: Automat A:
50 0;00 1 30 0;20 1 10 0;40 1 7 0;60 1 3 1;00 1
0;00 1 6;00 1 4;00 1 4;20 1 3;00 1
Automat B:
60 0;00 1 25 0;20 1 10 0;40 1 3 0;80 1 2 2;00 1
17,20 1
0;00 1 5;00 1 4;00 1 2;40 1 4;00 1 15,40 1
Die oben gestellte Frage ist damit eindeutig zu beantworten: Da in beide Automaten fçr 100 Spiele 20,± 1 eingezahlt wurden, liegt die mittlere Auszahlung in jedem Falle unter dem Einsatz, sodass sich das Spiel an keinem der beiden Automaten empfiehlt. Ist man jedoch bereit, den zu erwartenden Verlust als Preis fçr die Freude am Spiel anzusehen, wåre Automat A mit dem geringeren durchschnittlichen Verlust vorzuziehen.
Erwartungswert einer Zufallsvariablen Bezeichnen wir (z. B.) die k mæglichen Auszahlungen eines Automaten als eine diskrete Zufallsvariable X mit den Ereignissen xi und die Wahrscheinlichkeit des Auftretens eines Ereignisses als p
xi , erhalten wir allgemein fçr den Erwartungswert E
X einer diskreten Zufallsvariablen: E
X
k X
p
xi xi :
B1
i1
Analog hierzu ist der Erwartungswert stetiger Zufallsvariablen definiert durch Z1 X f
Xd
X :
E
X 1
B2
706
Anhang
Hierbei ist f
X die Dichtefunktion der Verteilung der Zufallsvariablen X (vgl. Kap. 2.3). Fçr den Erwartungswert einer Zufallsvariablen verwendet man çblicherweise das Symbol l. Mit l bzw. E
X wird die zentrale Tendenz bzw. der Mittelwert einer Verteilung beschrieben: E
X l :
B1a 2
Der Erwartungswert einer Funktion einer stetigen Zufallsvariablen X [z. B. g
X X ; g
X
a g
X ex ] lautet:
X2 ;
Z1 g
X f
XdX :
Eg
X
B2a
1
Rechenregeln Im Folgenden wollen wir einige Rechenregeln fçr das Operieren mit Erwartungswerten verdeutlichen. Ist die Funktion einer Zufallsvariablen çber alle Ausprågungen xi konstant [z. B. g
X a], erhalten wir als Erwartungswert: Eg
X Ea a :
B3
Der Erwartungswert einer Konstanten ist mit der Konstanten selbst identisch. Dies kann man sich bei einer diskreten Zufallsvariablen folgendermaûen veranschaulichen: Wenn in (B1) xi a gesetzt wird, erhalten wir: X k k k X X E
X a p
xi a p
xi a da p
xi 1 : i1
i1
i1
Ist X eine Zufallsvariable mit dem Erwartungswert E
X und ist a eine Konstante, so gilt: E
a X a E
X :
B4
Auch diese Beziehung låsst sich fçr eine diskrete Variable leicht ableiten. Schreiben wir in Gl. (B1) fçr xi den Ausdruck a xi , erhalten wir: E
a X
k X
p
xi a xi a
k X
i1
p
xi xi a E
X :
i1
Werden eine Zufallsvariable X und eine Konstante a additiv verknçpft, ergibt sich als Erwartungswert fçr die Summe: E
X a E
X a :
B5
Die Herleitung dieser Beziehung bei diskreten Variablen lautet: E
X a
k X
xi a p
xi
i1
k X i1
xi p
xi a
k X
p
xi E
X a :
i1
Werden 2 Zufallsvariablen X und Y additiv verknçpft, erhalten wir als Erwartungswert fçr die Summe der beiden Zufallsvariablen: E
X Y E
X E
Y :
B6
Entsprechendes gilt fçr n additiv verknçpfte Zufallsvariablen: E
X1 X2 Xn E
X1 E
X2 E
Xn : Fçr Linearkombinationen bzw. die gewichtete Summe von n Zufallsvariablen gilt:
B7
aB. Das Rechnen mit Erwartungswerten
707
E
c1 X1 c2 X2 cn Xn c1 E
X1 c2 E
X2 cn E
Xn :
B8
Werden 2 voneinander unabhångige Zufallsvariablen X und Y multiplikativ verknçpft, resultiert als Erwartungswert des Produktes: E
X Y E
X E
Y :
B9
Wird das Produkt aus n wechselseitig voneinander unabhångigen Zufallsvariablen gebildet, ergibt sich: E
X1 X2 . . . Xn E
X1 E
X2 . . . E
Xn :
B10
Diese Rechenregeln fçr Erwartungswerte seien im Folgenden an einigen, fçr die Statistik wichtigen Beispielen demonstriert.
Erwartungswert von X Ziehen wir aus einer Population wiederholt Stichproben, erhalten wir eine Verteilung der Stichprobenmittelwerte, die in Kap. 3.2 behandelt wurde. Ein Stichprobenmittelwert stellt somit eine Realisation der Zufallsvariablen ¹Stichprobenmittelwerteª dar, deren Erwartungswert wir im Folgenden berechnen wollen: Nach Gl. (1.8) erhalten wir fçr das arithmetische Mittel einer Stichprobe: n P xi x i1 : n Der Erwartungswert E
X ergibt sich zu: n P Xi E
X E i1 n X n 1 Xi
vgl: B4 E n i1
n 1 X E
Xi
vgl: B7 n i1 n 1X l n i1 x
vgl: B1a
1 n lx : n
E
X lx :
B11
Der Erwartungswert des Mittelwertes X ist also mit dem Populationsparameter l identisch. Wir sagen: X ist eine erwartungstreue Schåtzung von l.
Das gleiche Ergebnis erhålt man auch nach Gl. (B8), wenn wir ci 1=n und E
Xi l setzen.
708
Anhang
Erwartungswert von S2 Fçr die Varianz einer Stichprobe ermitteln wir nach Gl. (1.16): n P
xi x2 i1 s2 n bzw. nach Gl. (1.21): n 2 P xi n P 2 i1 xi n : s2 i1 n Durch einfaches Umformen erhalten wir: !2 P n n n P P x2i xi x2i i1 s2 i1 i1 x2 : n n n n P 2 X2i und X sind Zufallsvariablen, deren Verteilung wir erhalten, wenn aus einer Population (theoi1
retisch unendlich) viele Stichproben des Umfangs n gezogen werden. Im Folgenden wollen wir çberprçfen, wie der Erwartungswert der Varianz E
S2 mit der Populationsvarianz r2 verknçpft ist. Der Erwartungswert der Zufallsvariablen S2 lautet: n P X2i 2 i1 2 X E
S E n n ! P X2i 2 E
X
vgl: B6 E i1 n n P E
X2i n E
X2i 2 2 2 E
X E
X2i E
X : E
X
B12 i1 n n 2 Zu prçfen sind damit die Ausdrçcke E
X2i und E
X . Als Populationsvarianz definieren wir (s. auch Gl. 2.29): r2 E
Xi
l2 ;
B13
d. h., die Populationsvarianz entspricht dem erwarteten (durchschnittlichen) Abweichungsquadrat der Zufallsvariablen X von l. Aus (B13) folgt: r2 E
Xi
E
X2i
l2 E
X2i
2Xi l l2 2
E
2Xi l E
l
B14
vgl: B7 :
Da l2 konstant ist, kænnen wir gemåû Gl. (B3) und (B4) hierfçr auch schreiben: r2 E
X2i
2lE
Xi l2 :
B15
Nach Gl. (B1 a) ist l E
X, d. h.: r2 E
X2i
2l2 l2 E
X2i
l2 :
B16
709
aB. Das Rechnen mit Erwartungswerten Læsen wir nach E
X2i auf, resultiert: E
X2i r2 l2 :
B17
Der Erwartungswert einer quadrierten Zufallsvariablen ist gleich der Summe aus der Populationsvarianz r2 und dem quadrierten Mittelwert l 2.
Ersetzen wir den Ausdruck E
X2i in Gl. (B12) durch Gl. (B17), kænnen wir schreiben: E
S2 r2 l2
2
E
X :
B18 2
Als Nåchstes ist der Ausdruck E
X zu prçfen. Hierzu definieren wir in Analogie zu Gl. (B13) die Varianz von Stichprobenmittelwerten als: l2 :
r2x E
X
B19
Die Wurzel aus der Varianz der Mittelwerteverteilung wird in Abgrenzung von der Standardabweichung der ursprçnglichen Werte als Standardfehler bezeichnet. Der Standardfehler entspricht somit der Standardabweichung der Mittelwerteverteilung. Wird Gl. (B19) entsprechend den Gl. (B14) bis (B16) umgeformt (wobei statt Xi jeweils X eingesetzt wird), erhalten wir: 2
r2x E
X
l2
B20
und damit analog zu Gl. (B17): 2
E
X r2x l2 :
B21
Setzen wir Gl. (B21) in Gl. (B18) ein, ergibt sich: E
S2 r2 l2
r2x l2 r2
r2x :
B22
Der Erwartungswert einer Stichprobenvarianz entspricht der Populationsvarianz abzçglich der Varianz der Mittelwerte.
Im Unterschied zum arithmetischen Mittel, das sich als erwartungstreue Schåtzung des Populationsparameters l erweist, ist der Erwartungswert der Varianz somit nicht mit dem Populationsparameter r2 identisch. Die Stichprobenvarianz unterschåtzt die Populationsvarianz um den Betrag des quadrierten Standardfehlers des Mittelwertes.
Standardfehler des Mittelwertes. Im Folgenden wollen wir uns dem Erwartungswert der Varianz der Mittelwerteverteilung ( Quadrat des Standardfehlers) zuwenden: 2
r2x E
X
l2 :
Es gilt
n 1 X n X
X1 X2 Xn 2 1 2 2 2 X 2 X1 X2 Xn 2 Xi Xj : n2 n i1 ji1 2
Sind die Zufallsvariablen voneinander unabhångig, erhalten wir nach Gl. (B10) fçr den rechten Teil des letzten Ausdrucks: X n 1 X n Xi Xj n
n 1 E
Xi E
Xj n
n 1 l2 : E 2 i1 ji1
710
Anhang 2
Zusammenfassend ergibt sich also fçr E
X : 1 2 E
X 2 E
X21 E
X22 E
X2n n
n n Da nach Gl. (B17) E
X2i r2 l2 ist, schreiben wir
1 l2 :
1 r2 n l2 n2 l2 2 2 2 n r n l n
n 1 l n n2 n2 Wir setzen dieses Ergebnis in Gl. (B20) ein und erhalten 2
E
X
r2x
r2 l2 n
l2
n l2
r2 l2 : n
r2 : n
B23
Die Varianz der Mittelwerteverteilung ist gleich der Populationsvarianz r2 , dividiert durch den Stichprobenumfang n, auf dem die Mittelwerte beruhen.
Die Wurzel aus Gl. (B23) kennzeichnet den Standardfehler des Mittelwertes: r r2 : rx n
B24
^2 als erwartungstreue Schåtzung von r2 . Setzen wir Gl. (B23) in Gl. (B22) ein, resultiert: r E
S2 r2
r2 n r2 r2 n 1 : r2 n n n
B25
Der Erwartungswert der Stichprobenvarianz s2 unterscheidet sich von der Populationsvarianz r2 durch den Faktor
n 1=n.
Multiplizieren wir den Erwartungswert der Stichprobenvarianz mit dem Faktor n=
n 1, wird der ¹bi^2 der Populationsvarianz r2 : asª korrigiert, und wir erhalten eine erwartungstreue Schåtzung r n n n 1 2 E
S2 r r2 E
^ r2
B26 n 1 n 1 n bzw. n n P P
xi x2
xi x2 n n ^2 S2 i1 i1 :
B27 r n 1 n 1 n n 1
Erwartungswert der Varianz von Linearkombinationen Im Folgenden befassen wir uns mit dem Erwartungswert der Stichprobenvarianz einer Variablen, die sich additiv aus mehreren gewichteten Variablen zusammensetzt (z. B. Z c1 X1 c2 X2 cp Xp ). Werden alle Variablen mit 1 gewichtet, erhålt man als Linearkombination die Summe der Variablen, die wir zunåchst untersuchen. Danach behandeln wir Linearkombinationen mit beliebigen Gewichten.
Varianz der Summe. Nach (B16) ist: r2z E
Z2
l2z E
Z2
E
Z2 :
B28
711
aB. Das Rechnen mit Erwartungswerten Wenn nun Z X1 X2
B29
ist, erhalten wir fçr E
Z2 : E
Z2 E
X1 X2 2 E
X21 2X1 X2 X22
E
X21
2E
X1 X2
B30
E
X22 :
Fçr E
Z2 in Gl. (B28) schreiben wir: E
Z2 E
X1 X2 2 E
X1 E
X2 2 2
B31 2
E
X1 2E
X1 E
X2 E
X2 : Setzen wir Gl. (B31) und (B30) in Gl. (B28) ein, resultiert: E
X1 2
r2z E
X21 2E
X1 X2 E
X22
E
X21 E
X1 2 r2x1 r2x2 2 r2x1 x2
E
X22
2E
X1 E
X2
2
E
X2 2E
X1 X2
E
X2 2
B32
E
X1 E
X2
:
r2x1 x2 ist die Kovarianz zwischen den Variablen X1 und X2 (vgl. Kap. 6.2.1). Sind X1 und X2 voneinander unabhångig, wird die Kovarianz 0, sodass sich Gl. (B32) zu Gl. (B33) reduziert: r2z r2x1 r2x2 :
B33
Die Varianz der Summe zweier voneinander unabhångiger Zufallsvariablen ist gleich der Summe der Varianzen der beiden Zufallsvariablen.
Entsprechendes låsst sich fçr die Summe aus mehreren voneinander unabhångigen Zufallsvariablen zeigen. r2z r2x1 r2x2 r2xp ;
B34
wobei X1 ; X2 ; . . . ; Xp wechselseitig unabhångige Zufallsvariablen sind und Z X1 X2 Xp :
Varianz beliebiger Linearkombinationen. Im Folgenden wird geprçft, welche Varianz eine Variable Z hat, die sich additiv aus zwei beliebig gewichteten Variablen X1 und X2 zusammensetzt. Wir erhalten Z c1 X1 c2 X2 und nach Gl. (B16) mit l2 E
Z2 r2z E
Z2
E
Z2 :
Fçr E
Z2 ergibt sich E
Z2 E
c1 X1 c2 X2 2 E
c21 X21 2c1 c2 X1 X2 c22 X22 c21 E
X21 2c1 c2 E
X1 X2 c22 E
X22 ; und fçr E
Z2 errechnet man
B35
712
Anhang
E
Z2 E
c1 X1 c2 X2 2 c1 E
X1 c2 E
X2 2 c21 E
X1 2 2c1 c2 E
X1 E
X2 c22 E
X2 2 : Setzen wir die Ergebnisse fçr E
Z2 und E
Z2 in Gl. (B35) ein, resultiert: r2z c21 E
X21 2c1 c2 E
X1 X2 c22 E
X22 c21
c21 c21
E
X1
fE
X21 r2X1 c22
2
2c1 c2 E
X1 E
X2 2
E
X1 g c22 fE
X22 r2X2 2c1 c2 r2X1 X2 :
B36 c22
2
E
X2
E
X2 2 g 2c1 c2 E
X1 X2
E
X1 E
X2
Sind X1 und X2 voneinander unabhångig, resultiert wegen r2X1 X2 0 r2z c21 r2X1 c22 r2X2 :
B37
Entsprechend ergibt sich fçr p voneinander unabhångige Zufallsvariablen und Z c1 X1 c2 X2 cp Xp : r2z c21 r2X1 c22 r2x2 c2p r2xp :
B38
Die Varianz einer Linearkombination von p unabhångigen Zufallsvariablen ist gleich der Linearkombination der Varianzen der p Variablen unter Verwendung der quadrierten Gewichte.
713
C. Das Rechnen mit Matrizen
I. Terminologie Eine rechteckige Anordnung von Zahlen in mehreren Zeilen und Spalten bezeichnen wir als eine Matrix. Die Anzahl der Zeilen und Spalten gibt die Græûe bzw. Ordnung der Matrix an. Eine n m-Matrix hat n Zeilen und m Spalten. Das folgende Beispiel veranschaulicht eine 2 3-Matrix: 3 1 2 B : 5 0 4 Die einzelnen Werte einer Matrix werden Elemente der Matrix genannt. Die Gesamtmatrix wird durch einen fett gedruckten Groûbuchstaben gekennzeichnet. In der oben genannten Matrix B lautet das Element b23 4. Der 1. Index gibt an, in welcher Zeile der Matrix und der 2. Index, in welcher Spalte der Matrix das Element steht. Das folgende Beispiel zeigt die allgemeine Schreibweise der Elemente einer 3 4-Matrix. 0 1 a11 a12 a13 a14 A @ a21 a22 a23 a24 A ; a31 a32 a33 a34 oder in Kurzform A aij
i 1; 2; 3; j 1; 2; 3; 4 :
Håufig kommt es vor, dass die zu einer Matrix gehærende, sog. transponierte (oder gestçrzte) Matrix benætigt wird. Eine transponierte Matrix erhalten wir, indem jede Zeile der ursprçnglichen Matrix als Spalte geschrieben wird. Die Transponierte einer Matrix wird durch einen Strich gekennzeichnet. Das folgende Beispiel zeigt die Transponierte der Matrix B: 0 1 3 5 B0 @ 1 0A: 2 4 Aus der Definition einer transponierten Matrix folgt, dass die Transponierte einer transponierten Matrix wieder die ursprçngliche Matrix ergibt:
B0 0 B :
C1
Zwei Matrizen sind dann und nur dann gleich, wenn jedes Element der einen Matrix dem korrespondierenden Element der anderen Matrix entspricht: A B $ aij bij
i 1; 2 . . . n; j 1; 2 . . . m ($ wird gelesen als ¹dann und nur dannª).
C2
Wenn A und B n m Matrizen sind, beinhaltet die Matrixgleichung A B somit n m gewæhnliche algebraische Gleichungen vom Typus aij bij .
714
Anhang
Eine Matrix ist quadratisch, wenn sie genausoviele Zeilen wie Spalten hat. Sie ist zusåtzlich symmetrisch, wenn jedes Element
i; j dem Element
j; i gleicht. Werden beispielsweise p Variablen miteinander korreliert, erhalten wir p p Korrelationen. Von diesen haben die p Korrelationen der Variablen mit sich selbst den Wert 1, und von den restlichen p p p Korrelationen je 2 den gleichen Wert (z. B. r12 r21 bzw. allgemein rij rji ). Insgesamt ergeben sich somit
p p p=2 p
p 1=2 p verschiedene Korrelationen (vgl. S. 61). Die Korrelationen werden in einer symmetrischen Kor 2 relationsmatrix R zusammengefasst: 1 0 1 r12 r13 . . . r1p B r21 1 r23 . . . r2p C C B C B R B r31 r32 1 . . . r3p C : B .. .. .. .. C @ . . . . A rp1 rp2 rp3 . . . 1 Besteht eine Matrix nur aus einer Zeile (oder Spalte), so sprechen wir von einem Zeilen-(Spalten-)Vektor. Spaltenvektoren werden durch fett gedruckte Kleinbuchstaben gekennzeichnet: 0 1 v1 B v2 C B C v B .. C @ . A vn und Zeilenvektoren durch fett gedruckte Kleinbuchstaben mit einem Strich (= transponierte Spaltenvektoren): u0
u1 ; u2 . . . un : Einen einzelnen Wert (z. B. 7 oder k) bezeichnen wir im Rahmen der Matrixalgebra als einen Skalar. Befinden sich in einer quadratischen Matrix auûerhalb der Hauptdiagonale, die von links oben nach rechts unten verlåuft, nur Nullen, so sprechen wir von einer Diagonalmatrix: 1 0 d1 0 0 . . . 0 B 0 d2 0 . . . 0 C C B C B D B 0 0 d3 . . . 0 C : B .. .. .. .. C @ . . . . A 0 0 0 . . . dn Eine Diagonalmatrix heiût Einheitsmatrix oder Identitåtsmatrix, wenn alle Diagonalelemente den Wert 1 haben: 1 0 1 0 0 ... 0 B0 1 0 ... 0C C B 0 0 1 ... 0C: IB C B. . . . @ .. .. .. .. A 0 0 0 ... 1
715
aC. Das Rechnen mit Matrizen
II. Additionen und Multiplikationen Das folgende Beispiel zeigt die Addition zweier Matrizen A und B: 0 A 10 B 10 C 1 3 1 5 4 8 5 @ 5 2 A@ 1 2 A@ 6 4 A: 2 4 1 3 3 7 Eine Addition zweier Matrizen liegt immer dann vor, wenn jedes Element der Summenmatrix gleich der Summe der korrespondierenden Elemente der addierten Matrizen ist: C A B $ cij aij bij
i 1; 2 . . . n; j 1; 2 . . . m :
C3
Hieraus folgt, dass Matrizen nur dann addiert (subtrahiert) werden kænnen, wenn sie die gleiche Anzahl von Spalten und Zeilen aufweisen, d. h. wenn sie die gleiche Ordnung haben. Aus Gl. (C3) resultiert, dass die Matrizenaddition kommutativ ist, d. h. dass die Reihenfolge der Summanden beliebig ist: A B B A:
C4
Eine Matrix wird mit einem Skalar multipliziert, indem jedes Element der Matrix mit dem Skalar multipliziert wird: B k A $ bij k aij
i 1; 2 . . . n; j 1; 2 . . . m :
C5
Die Multiplikation einer Matrix mit einem Skalar ist ebenfalls kommutativ: kAAk
C6
und darçber hinaus distributiv: k
A B k A k B :
C7
Im Gegensatz hierzu ist die Multiplikation zweier Matrizen im Allgemeinen nicht kommutativ, d. h., A B 6 B A. Bei der Multiplikation zweier Matrizen ist die Reihenfolge von entscheidender Bedeutung.
Statt ¹A wird mit B multipliziertª, muss in der Matrixalgebra genauer spezifiziert werden, ob A rechts mit B
A B Nachmultiplikation mit B oder links mit B
B A Vormultiplikation mit B multipliziert wird. Die Multiplikation zweier Matrizen ist nur mæglich, wenn die Anzahl der Spalten der linksstehenden Matrix gleich der Zeilenanzahl der rechtsstehenden Matrix ist. Allgemein erfolgt eine Matrizenmultiplikation nach folgender Regel: s X C A B $ cij aik bkj
i 1; 2 . . . n; j 1; 2 . . . m; k 1; 2 . . . s ;
C8 k1
wobei A eine n s Matrix ist und B eine s m Matrix. Die Multiplikation in Gl. (C8) fçhrt zu einer Matrix C mit der Ordnung n m.
716
Anhang
Beispiel:
A
2 1
c11 c12 c21 c22
3 4 3 X k1 3 X k1 3 X k1 3 X
1 0
0
B
3 @4 5
1
1 2A 3
C 1 13
a1k bk1 2 3
3 4 1 5
7 ; 7 1;
a1k bk2 2 1
3 2 1
3
7;
a2k bk1
1 3 4 4 0 5 13 ; a2k bk2
1 1 4 2 0
3 7 :
k1
Ein besonderer Fall liegt vor, wenn ein Spaltenvektor und ein Zeilenvektor gleicher Långe bzw. gleicher Dimensionalitåt miteinander multipliziert werden. Je nachdem, in welcher Reihenfolge diese Multiplikation erfolgt, unterscheiden wir in Abhångigkeit vom Ergebnis zwischen einem Skalarprodukt und einem Matrixprodukt. Beispiel: Gegeben seien die Vektoren u0
1; und
2; 3
0
1 3 v @ 1A: 2
Dann ergibt sich gemåû Gl. (C8) fçr u0 v ein Skalar 0 1 3 u0 v
1; 2; 3 @ 1 A 1 3
2 1 3
2 2 und fçr v u0 eine Matrix 0 1 0 3 3 v u0 @ 1 A
1; 2; 3 @ 1 2 2 Die Matrizenmultiplikation ist distributiv
A B C A C B C
6 2 4
5
1 9 3A: 6
C9
A
B C A B A C und assoziativ
A B C A
B C A B C :
C10
Ferner gilt, dass die Transponierte eines Matrizenprodukts gleich dem Produkt der transponierten Matrizen in umgekehrter Reihenfolge ist:
A B0 B0 A0 :
C11
717
aC. Das Rechnen mit Matrizen
Anwendungen. Im Rahmen der multivariaten Methoden taucht håufig folgendes Dreifachprodukt auf: u0 A u, wobei A eine n n Matrix, u0 ein n-dimensionaler Zeilenvektor und u ein n-dimensionaler Spaltenvektor sind. Wie das folgende Beispiel zeigt, ist das Ergebnis eines solchen Dreifachprodukts ein Skalar: u0
3; 0
1; 2 ; 5
2
B A@ 3
4
1
2
u0 A u
3;
1
1
C 2A;
0
3 5
2
B 1; 2 @ 3
4
1
2
1
1 0
3
1
0
3
1
C B C B C 2 A @ 1 A
20; 6; 1 @ 1 A 56 : 3 2 2
Ebenfalls håufig tauchen im Rahmen multivariater Methoden Multiplikationen von Matrizen mit Diagonalmatrizen auf. Fçr die Vormultiplikation einer Matrix A mit einer Diagonalmatrix D (mit den Elementen d1 ; d2 . . . dn in der Hauptdiagonale) gilt: B D A $ bij di aij
i 1; 2 . . . n; j 1; 2 . . . m :
C12
Die Nachmultiplikation fçhrt zu einem analogen Ergebnis: B A D $ bij di aij
i 1; 2 . . . n; j 1; 2 . . . m :
C13
Aus Gl. (C12) und (C13) folgt, dass Vor- und Nachmultiplikationen einer Matrix A mit der Einheitsmatrix I die Matrix A nicht veråndern: A I I A A:
C14
Ihrer Funktion nach ist die Identitåtsmatrix somit dem Skalar 1 gleichzusetzen.
III. Determinanten Unter einer Determinante versteht man eine Kennziffer einer quadratischen Matrix, in deren Berechnung såmtliche Elemente der Matrix eingehen. (Zur geometrischen Veranschaulichung einer Determinante vgl. Green u. Carroll, 1976, Kap. 3.6.) Eine Determinante wird durch zwei senkrechte Striche gekennzeichnet: Determinante von A jAj : Fçr eine 2 2 Matrix A a11 a12 A a21 a22 ist die Determinante durch jAj a11 a22
a12 a21
C15
definiert (Produkt der Elemente der Hauptdiagonale minus dem Produkt der Elemente der Nebendiagonale). Fçr eine 3 3-Matrix bestimmen wir die Determinante in folgender Weise: 0 1 a11 a12 a13 A @ a21 a22 a23 A : a31 a32 a33
718
Anhang
Die Determinante ergibt sich als gewichtete Summe der Elemente einer Zeile oder einer Spalte. Die Wahl der Zeile (oder Spalte) ist hierbei beliebig. Bezogen auf die Elemente der 1. Spalte ergibt sich das Gewicht fçr das Element a11 aus der Determinante derjenigen 2 2-Matrix, die çbrigbleibt, wenn die Zeile und die Spalte, in denen sich das Element befindet, auûer Acht gelassen werden. Die verbleibende 2 2-Matrix lautet fçr das Element a11 : a22 a23 a32 a33 mit der Determinante:
a22 a33
a23 a32 . Entsprechend verfahren wir mit den çbrigen Elementen der 1. Spalte von A. Hier ergeben sich die folgenden Restmatrizen und Determinanten: a12 a13 und a12 a33 a13 a32 ; f ur a21: a32 a33 a12 a13 und a12 a23 a13 a22 : f ur a31: a22 a23 Die Determinanten der verbleibenden Restmatrizen werden Kofaktoren (Minoren) der Einzelelemente genannt. Das Vorzeichen der Kofaktoren erhalten wir, indem der Zeilenindex und Spaltenindex des Einzelelements addiert werden. Resultiert eine gerade Zahl, ist der Kofaktor positiv, resultiert eine ungerade Zahl, ist er negativ. Der Kofaktor fçr das Element a11 ist somit positiv (1 1 2 = gerade Zahl), fçr das Element a21 negativ (2 1 3 = ungerade Zahl) und fçr das Element a31 wiederum positiv (3 1 4 = gerade Zahl).
Beispiele. Das folgende Beispiel veranschaulicht die Berechnung der Determinante einer 3 3-Matrix: 2 1 5 8 3 1 5 1 5 jAj 4 8 3 2 4 0 7 2 8 3 0 7 2 0 7 2
8 7 2 56
3 0
4
1 7
5 0 2
1 3
5 8
4 7 2
37
10 : Die einzelnen Rechenschritte sind in Gl. (C16) zu einer Gleichung zusammengefasst. jAj a11 a22 a33 a12 a23 a31 a13 a21 a32
a13 a22 a31
a12 a21 a33
a11 a23 a32 :
C16
Im Beispiel ermitteln wir: jAj 2 8 7 1 3 2 5 4 0 112 6 0
80
28
582
147
230
0
10 : Bei der Berechnung der Determinante einer 4 4-Matrix benætigen wir als Kofaktoren fçr die Elemente einer Zeile oder Spalte die Determinanten der verbleibenden 3 3-Matrizen, die nach dem oben beschriebenen Verfahren bestimmt werden. Die Vorgehensweise verdeutlicht das folgende Beispiel: 2 4 1 0 4 1 0 2 4 2 4 1 0 4 1 0 3 2 4 2 2 6 1 4 3 6 1 4 1 2 4 2 1 2 4 2 : jAj 1 6 1 4 0 2 3 0 2 3 6 1 4 0 2 3 1 0 2 3
719
aC. Das Rechnen mit Matrizen Die Determinanten fçr die verbleibenden 3 3-Matrizen lauten: 2 4 2 1 4 4 2 4 2 6 1 4 2 6 2 3 0 1 4 2 3 0 2 3 2
3
8
6
12
4 0
16
2
4 3
1 6 2
1 0 0 0 1 4 3
8
6
3
0 0
4
2 3
1 2 2
1 0 0 0 3 4 2
58 ;
4 1 0 1 6 1 4 4 2 0 2 3
4
3 38 ;
4 1 0 4 2 4 2 4 2 0 2 3
4
12
4
2
3
0 0
2
0
0
26 ;
4 1 0 4 2 4 2 4 1 6 1 4 4
16 60 :
2 4 2
1 2 1
1 0 0 6 4 4 2
2
4
0 6
2
0
Fçr die Determinante von A erhalten wir somit zusammengefasst: jAj 2
58
3
38 1 26
1 60
36 :
Bei der Bestimmung der Determinante einer 5 5-Matrix verfahren wir entsprechend. Fçr die 5 Elemente einer Zeile (oder Spalte) suchen wir die verbleibenden Restmatrizen heraus und berechnen die Kofaktoren der Einzelelemente als Determinanten der Restmatrizen. In diesem Fall verbleiben 4 4-Matrizen, deren Determinantenbestimmung wir im letzten Beispiel kennengelernt haben. Der Rechenaufwand wird mit græûerwerdender Ordnung der Matrizen sehr schnell erheblich, sodass es sich empfiehlt, eine elektronische Datenverarbeitungsanlage einzusetzen. Entsprechende Rechenprogamme fçr die Bestimmung von Determinanten findet man in einigen Software-Paketen (z. B. S-Plus; vgl. Becker et al., 1988).
Singulåre Matrizen. Hat eine Matrix eine Determinante von 0, bezeichnen wir die Matrix als singulår. Eine Determinante von 0 resultiert, wenn sich eine Zeile (Spalte) als Linearkombination einer oder mehrerer Zeilen (Spalten) darstellen låsst. Die folgende 2 2-Matrix, in der die 2. Zeile gegençber der ersten verdoppelt wurde, ist somit singulår: 2 5 ; jAj 4 10 jAj 2 10
5 4 0:
In der folgenden 3 3-Matrix ergibt sich die 3. Spalte aus der verdoppelten Spalte 1 und der halbierten Spalte 2:
720
Anhang
0
1 4
4
1 2
3
B A @2 6
1
C 7A;
jAj 1 6 3 4 7 1 4 2 2 18 28 16
24
24
461
423
172
14
0: Matrizen sind natçrlich auch dann singulår, wenn 2 oder mehrere Zeilen (Spalten) miteinander identisch sind.
Eigenschaften von Determinanten. Determinanten haben folgende Eigenschaften: a) Die Determinante einer Matrix A ist gleich der Determinante der transponierten Matrix A0 : jAj jA0 j :
C17
b) Werden 2 Zeilen (oder 2 Spalten) einer Matrix ausgetauscht, åndert sich lediglich das Vorzeichen des Wertes der Determinante. c) Werden die Elemente einer Zeile (Spalte) mit einer Konstanten multipliziert, veråndert sich der Wert der Determinante um den gleichen Faktor. d) Die Determinante des Produkts zweier quadratischer Matrizen A und B ist gleich dem Produkt der Determinanten der entsprechenden Matrizen: jA Bj jAj jBj :
C18
IV. Matrixinversion Die Division eines Skalars (einer das Produkt eines Skalars mit seinem Re Zahl) durch sich selbst bzw. 1 ziprok- oder Kehrwert ergibt 1 a 1a 1 bzw. a a 1 . Analog hierzu suchen wir eine ¹Reziprokmatrixª zu einer Matrix, die so geartet ist, dass das Produkt der beiden Matrizen die Identitåtsmatrix ergibt. Die Reziprokmatrix wird als Inverse einer Matrix bezeichnet und erhålt wie skalare Reziprokwerte den Exponenten 1. Das Rechnen mit der Inversen einer Matrix entspricht somit der Division in der numerischen Algebra. Die Frage lautet: Kann zu einer Matrix A die Inverse A 1 gefunden werden, sodass folgende Beziehung gilt: AA
1
A
1
A I?
C19
Die Inverse einer Matrix A wird nach folgender Gleichung ermittelt: A
1
adj
A : jAj
C20
Wir benætigen neben der Determinante jAj die sog. adjunkte Matrix von A (adj A), die wie folgt errechnet wird: Man bestimmt zu jedem Matrixelement den Kofaktor (vgl. S. 718) und ersetzt die einzelnen Matrixelemente durch ihre Kofaktoren, wobei Kofaktoren fçr Elemente mit geradzahliger Indexsumme mit 1 und mit ungeradzahliger Indexsumme mit 1 multipliziert werden. Die Transponierte der so ermittelten Matrix stellt die adjunkte Matrix dar. Dividieren wir alle Elemente von adj
A durch jAj, resultiert die Inverse A 1 .
721
aC. Das Rechnen mit Matrizen
Beispiel. Gesucht wird die Inverse von folgender Matrix: 0 1 2 1 2 A @2 0 0A: 4 2 2 Wir berechnen zunåchst die vorzeichengerechten Kofaktoren: a11: 0 2 0 2 0 ; a21: 1
1 2 2 2 2 ;
a12:
a31: 1 0
a32 :
2 0 0;
Nach Transponieren 0 0 A
adj @ 4 4
1
2 2
a22: 2 2
0 4
24
1
2 0
4;
a13: 2 2
4;
a23:
2 2 4 ;
0 4 4;
1
2 2
a33: 2 0
1 4 0 ;
21
2:
ergibt sich also 1 2 0 4 4A: 0 2
Fçr die Determinante errechnet man jAj 2
0 2
0 2
2
1 2
2 2 4
1 0
2 0 4 :
Wir dividieren die Elemente aus A
adj durch 4 und erhalten 0 1 0 0;5 0 1 1 A: A 1@ 1 1 0 0;5 Die Kontrolle ergibt: A 1 0 2 1 2 0 @2 0 0A @ 1 4 2 2 1 0
A 0;5 1 0
1
I 1 1 0 0 1 0 0 1 A @ 0 1 0 A: 0;5 0 0 1
Der rechnerische Aufwand, der erforderlich ist, um die Inverse einer Matrix hæherer Ordnung zu bestimmen, ist betråchtlich und ohne den Einsatz einer elektronischen Datenverarbeitungsanlage kaum zu bewåltigen. Formalisierte Rechenregeln (bzw. zum Teil auch Rechenprogramme) fçr die Bestimmung einer Inversen werden z. B. bei Horst (1963, Kap. 19), Pawlik (1976), Cooley u. Lohnes (1971), Ralston u. Wilf (1967), Tatsuoka (1971) und Zurmçhl (1964) dargestellt. Fçr die Læsung komplexer matrixalgebraischer Aufgaben seien SAS-IML oder das Programm ¹S-Plusª (1990) empfohlen (vgl. auch Becker et al., 1988). Die Inverse einer 2 2-Matrix kann vereinfacht nach folgender Gleichung bestimmt werden: 1 1 a22 a22 a12 a12 A 1 ;
C21 a21 a11 a21 a11 jAj a11 a22 a12 a21 wobei der rechte Klammerausdruck die adjunkte Matrix einer 2 2-Matrix darstellt: a12 a22 : adj
A a21 a11 Beispiel: A
2 4 1 3
jAj 2 3
; 4 1 2:
C22
722
Anhang
Die Inverse heiût somit: 1 3 4 1;5 1 A 1 2 0;5 2
2 1
:
Læsung linearer Gleichungssysteme. Matrixinversionen werden vor allem ± wie das folgende Beispiel zeigt ± zur Læsung linearer Gleichungssysteme eingesetzt. Gegeben seien 3 Gleichungen mit den Unbekannten x1 , x2 und x3 : x3 1 ; x1 2 x2 x2 x3 5 ; 3 x1 4 x1 3 x2 Setzen wir 0 1 A @3 4
2 x3 2 : 1 1 1A; 2
2 1 3
0
1 x1 x @ x2 A ; x3
und
0 1 1 c @5A; 2
kænnen wir das Gleichungssystem matrixalgebraisch folgendermaûen darstellen: A x c: Durch Vormultiplizieren mit der Inversen von A (¹Divisionª durch A) erhalten wir den Læsungsvektor x: A
1
AxA
1
c:
Da nach Gl. (C19) das Produkt einer Matrix mit ihrer Inversen die Identitåtsmatrix ergibt, die ihrerseits als Faktor einer Matrix diese nicht veråndert, resultiert fçr x: xA
1
c:
1
ermitteln wir zunåchst: 0 1 1 1 1 A
adj @ 10 2 4A: 13 5 7
Fçr A
Es ergibt sich ferner 0 1=6 A 1 @ 10=6 13=6
jAj 6 und damit nach Gl. (C20): 1 1=6 1=6 2=6 4=6 A : 5=6 7=6
Die Bestimmungsgleichung fçr x lautet somit: 0 B @
A 1 6 10 6 13 6
1 6 2 6 5 6
1 11 6 4C 6A 7 6
c x 0 1 0 1 1 x1 @ 5 A @ x2 A x3 2
bzw. unter Verwendung der Multiplikationsregel Gl. (C8): x1 1
1=6 5 1=6 2 1=6 1 ; x2 1 10=6 5 2=6 2
4=6 2 ; x3 1 13=6 5 5=6 2
7=6 4 :
723
aC. Das Rechnen mit Matrizen Zur Kontrolle setzen wir die Werte in das Gleichungssystem ein: 122 31
4 1;
2
4132
4 5; 2 4 2:
Eigenschaften der Inversen. Fçr Rechnungen mit invertierten Matrizen gelten folgende Regeln: a) Die Inverse einer Matrix A existiert nur, wenn sie quadratisch und ihre Determinante von 0 verschieden ist, d. h. wenn die Matrix A nicht singulår ist (vgl. auch Gl. C20). b) Ist A symmetrisch und nicht singulår, sodass A 1 existiert, ist A 1 ebenfalls symmetrisch. c) Die Inverse einer transponierten Matrix A0 ist gleich der Transponierten der Inversen A 1 :
A0
1
A 1 0 :
C22a
d) Die Inverse einer Diagonalmatrix ist die aus den Reziprokwerten der Diagonalelemente gebildete Diagonalmatrix: 0 0 1 1 1 0 0 1 0 0 B B C C A @0 2 0A; A 1 @ 0 12 0 A : 0 0 13 0 0 3 e) Die Determinante der Inversen A 1 : jA 1 j jAj 1 jAj
1
entspricht dem Reziprokwert der Determinante von A:
C23
f) Die Inverse des Produkts zweier nicht singulårer Matrizen mit gleicher Ordnung ist gleich dem Produkt dieser Inversen in umgekehrter Reihenfolge:
A B
1
B
1
A
1
:
C24
725
D. Maximierung mit Nebenbedingungen
Im Rahmen der Hauptkomponentenanalyse werden die Merkmalsachsen so rotiert, dass sie nach der Rotation sukzessiv maximale Varianz aufklåren. Fçr eine orthogonale Rotation benætigen wir eine Gewichtungsmatrix V, die den Bedingungen V0 V I und jVj 1 gençgen muss. Wir suchen somit Koeffizienten vij , die einerseits die Varianzen auf den neuen Achsen sukzessiv maximieren und andererseits eine orthogonale Rotationstransformation bewirken, wobei Letzteres durch die Bedingung V0 V I und jVj 1 gewåhrleistet ist. Bezogen auf eine Variable besagen diese Forderungen, dass die Varianz der Variablen durch Rotation maximiert werden soll, wobei die Nebenbedingung v0 v 1 gelten muss. Das folgende Beispiel zeigt, wie Maximierungsprobleme mit Nebenbedingungen im Prinzip gelæst werden kænnen. Gegeben sei eine Variable y, die von 2 Variablen x und z in folgender Weise abhångt: y F
x; z
x2
2z2 3x
8z
5:
Wir prçfen zunåchst, fçr welchen x- und z-Wert die Funktion ein Maximum hat, indem wir sie partiell nach x und z ableiten. Die beiden Ableitungen lauten: dF
x; z dF
x; z 2x 3 ; 4z 8 : dx dz Setzen wir die beiden Ableitungen 0, resultieren fçr x und z: x 3=2;
z
2:
(Da die zweiten Ableitungen negativ sind, befindet sich an dieser Stelle tatsåchlich jeweils ein Maximum und kein Minimum.) Bisher haben wir die Variablen x und z als voneinander unabhångig betrachtet. In einem weiteren Schritt wollen wir festlegen, dass zusåtzlich die Nebenbedingung x z 2 erfçllt sein soll. Wir suchen nun dasjenige Wertepaar fçr x und z, das einerseits y maximal werden låsst und andererseits die Nebenbedingung x z 2 erfçllt. Dieses Problem låsst sich am einfachsten unter Einsatz eines sog. Lagrange-Multiplikators læsen. (Auf die Herleitung dieses Ansatzes, der in Mathematikbçchern çber Differentialrechnung dargestellt ist, wollen wir nicht nåher eingehen. Eine auf sozialwissenschaftliche Probleme zugeschnittene Erlåuterung findet der interessierte Leser bei Bishir u. Drewes, 1970, Kap. 17.4.) Wir definieren folgende erweiterte Funktion, die die Nebenbedingung x z 2 bzw. x z 2 0 enthålt: F
x; z
x2
2z2 3x
8z
5
k
x z
2 :
k ist hierin der unbekannte Lagrange-Multiplikator. Diese Funktion differenzieren wir wieder nach x und z: dF
x; z dF
x; z 2x 3 k ; 4z 8 k : dx dz Beide Ableitungen werden 0 gesetzt. Zusammen mit der Nebenbedingung x z als Læsungen: x 19=6;
z
7=6;
k
10=6 :
2 0 erhalten wir
726
Anhang
x und z erfçllen die Nebenbedingung x z 2. Sie fçhren zu einem y-Wert von 1;08. Wie man sich leicht çberzeugen kann, existiert kein weiteres Wertepaar fçr x und z, das unter der Bedingung x z 2 zu einem græûeren Wert fçr y fçhrt. Nach dem gleichen Prinzip werden die vij -Werte berechnet, die in der Hauptachsenanalyse die Bedingung V0 V I erfçllen mçssen und damit eine orthogonale Rotation des Achsensystems bewirken. Zusåtzlich maximieren die Gewichtungskoeffizienten vij sukzessiv die Varianzen der neuen Achsen.
727
E. Statistik mit SPSS Ren Weber
Die in diesem Buch vorgestellten statistischen Verfahren werden jeweils an Zahlenbeispielen verdeutlicht, die dazu beitragen sollen, dass Rechengang und mathematischer Hintergrund der Prçfstatistiken verstanden werden. In der Forschungspraxis werden statistische Analysen heute jedoch kaum noch per Hand oder Taschenrechner durchgefçhrt, sondern meistens mit dem Computer. Hierfçr sind zahlreiche kommerzielle Softwarepakete auf dem Markt, die eine umfangreiche Sammlung an Statistikprozeduren zur Verfçgung stellen (z. B. SPSS, SAS, STATISTICA, S-PLUS, BMDP). Inzwischen gibt es auch leistungsfåhige Statistik-Software, die im Internet kostenlos zum Herunterladen bereit gestellt wird. Zu nennen ist hier insbesondere das Statistikprogramm ¹Rª (verfçgbar unter http://www.r-project.org). Voraussetzung fçr eine erfolgreiche Durchfçhrung computergestçtzter Datenauswertungen sind Kenntnisse in der Bedienung und Steuerung des jeweiligen Programms sowie im Lesen und Interpretieren der Ergebnisse. Um den Transfer zwischen dem im Buch vermittelten Methodenwissen und der praktischen Anwendung von Statistik-Software zu erleichtern, werden die wichtigsten Zahlenbeispiele im Folgenden auch computergestçtzt berechnet. Hierbei wird das speziell fçr sozialwissenschaftliche Auswertungsprobleme entwickelte Statistikprogramm ¹SPSS fçr Windows (Version 12)ª herangezogen. Eine çber 30 Tage vollståndig funktionstçchtige Demoversion des Programms kann unter http://www.spss.de bezogen werden. Darçber hinaus bietet die Firma SPSS (wie auch die meisten anderen Anbieter) eine im Preis wesentlich reduzierte Version fçr Studierende an (erhåltlich im Buchhandel). Bei der Darstellung der mit SPSS berechneten Zahlenbeispiele wurde Folgendes beachtet: Jedes SPSSBeispiel setzt sich zusammen aus einer Kurzinformation çber das Zahlenbeispiel, der Dateneingabe, den Programmbefehlen (Syntax), den Programmausgaben und den Erlåuterungen zur Interpretation der Ergebnisse. Aus Grçnden der Ûbersichtlichkeit wurde die Programmausgabe von redundanten und irrelevanten Systemmeldungen und -ausgaben bereinigt. Die Analyseergebnisse werden jedoch stets vollståndig wiedergegeben. Diese Darstellungsform wurde gewåhlt, da die Beispiele fçr diejenigen gedacht sind, die bereits etwas Erfahrung mit SPSS und dem Windows-System gesammelt haben. Daher wird auch auf detaillierte Beschreibungen von Mençfenstern und deren Auswahloptionen verzichtet, die SPSS aus Grçnden der Benutzerfreundlichkeit in der Windows Systemumgebung anbietet. Es wird hier lediglich gezeigt, wie man durch die Eingabe von einfachen Befehlen in SPSS eine gewçnschte statistische Analyse anfordern kann. Dieses hat mehrere Vorteile: ± Nach Einweisung in die Dateneingabe und in den Umgang mit der SPSS-Programmierumgebung (SPSS-Syntax-Editor, s. unten) kann sich die Darstellung auf die wesentlichen inhaltlichen Aspekte eines Zahlenbeispiels beschrånken. ± Die abgespeicherten SPSS-Programme kænnen mehrfach nach einfachem Editieren der Variablennamen auch fçr andere (z. B. die eigenen) Auswertungen verwendet werden. ± Die angegebenen Programmbefehle sind mit frçheren und aller Wahrscheinlichkeit nach auch mit nachfolgenden Windows-Versionen von SPSS weitestgehend kompatibel. Fçr detaillierte Einfçhrungen in SPSS und dessen benutzerfreundliche Bedienung durch Mençfenster stehen zahlreiche umfangreiche Bçcher zur Verfçgung. Zu nennen ist z. B. Janssen u. Laatz (2003), Diehl u. Staufenbiel (2002), Bçhl u. Zæfel (2002), Brosius (2002), Martens (2003) und Eckstein (2002). Auf zum Teil mehreren 100 Seiten kann dort ausfçhrlich nachvollzogen werden, welche Optionen man
728
Anhang
in welchen aufeinander folgenden Mençfenstern ¹anklickenª muss, um die gewçnschten Ausgaben zu erhalten. Die derzeit aktuelle Version von SPSS ist Version 12 (Stand Februar 2004). Diese Version wurde fçr die Berechnung der Zahlenbeispiele verwendet, wobei darauf geachtet wurde, dass die verwendeten Programmbefehle maximale Kompatibilitåt mit frçheren Versionen aufweisen. Wesentliche Neuerungen in der Version 12 betreffen hauptsåchlich Grafik-Prozeduren, die hier nicht besprochen werden, sowie das Daten- und Ausgabemanagement. Es ist auch ab Version 12 erstmalig nicht mehr nætig, Variablennamen auf 8 Zeichen zu beschrånken. Im Folgenden wird beschrieben, wie man in SPSS Variablen definiert, Daten eingibt und einfache SPSS-Programme, sog. Syntax-Files, erstellt. Wenn es dabei mehrere Vorgehensweisen gibt, so wurde jeweils nur eine ausgewåhlt. Mit den Anleitungen ist man jedoch in der Lage, såmtliche Rechenbeispiele selbstståndig am Computer nachzuvollziehen. Das Syntax-File, das die Variablen und die Daten aller hier abgedruckten SPSS-Beispiele definiert, kann beim Springer-Verlag angefordert werden bzw. von dessen Homepage (http://www.springeronline.com) heruntergeladen werden.
Definition von Variablen und Eingabe von Daten in SPSS Zur Berechnung der Zahlenbeispiele mit SPSS muss man zunåchst die an einer Analyse beteiligten Variablen definieren und anschlieûend die jeweiligen Daten eingeben. Wie weiter unten gezeigt wird, kænnen beide Arbeitsschritte auch mittels SPSS-Programmbefehlen in ein SPSS-Programm integriert werden. Mit dem sog. Daten-Editor bietet SPSS jedoch eine komfortablere und einfachere Mæglichkeit an, die Daten der Zahlenbeispiele in SPSS zu çbertragen. Nach dem Aufruf von SPSS wird bei çblichen Voreinstellungen zunåchst ein Dialogfenster angezeigt, das den Benutzer auffordert anzugeben, was er tun mæchte. Durch Auswåhlen der Option Type in Data oder durch Unterbrechung des Dialogs durch Cancel gelangt man automatisch zum Daten-Editor. (Zur Zeit der Bearbeitung des Buches erschien die englische Version 12 von SPSS gerade neu auf dem Markt. Eine deutsche Version gab es noch nicht. Die Angaben zur Auswahl von Mençoptionen sind daher in Englisch. Die korrespondierenden Angaben in der deutschen Version findet man jedoch zumeist einfach.) Wird das Dialogfenster nicht angezeigt, dann befindet man sich nach Aufruf von SPSS direkt im Daten-Editor (wird in der Kopfzeile des Programmfensters angezeigt). Der Daten-Editor hat zwei Ansichten, die hier wichtig sind. Die erste ist die Daten-Ansicht, in der man sich automatisch nach Programmstart befindet und die zur Eingabe von Daten gedacht ist. Die zweite ist die Variablen-Ansicht, die man zur Definition der Variablen verwendet. Man gelangt zur Variablen-Ansicht, in dem man unten links im SPSS Programmfenster auf Variable View klickt (Abb. E1). Zurçck zur Daten-Ansicht gelangt man durch Klicken auf Data View links daneben. Da man jedoch zunåchst Variablen definiert, bevor Daten eingegeben werden, verbleiben wir zunåchst in der Variablen-Ansicht. Die Variablen-Ansicht besteht aus einer einfachen Tabelle, in der die gewçnschten Variablen mit ihren Spezifikationen eingetragen werden kænnen. Die Definition von Variablen sei im Folgenden anhand des ersten Zahlenbeispiels (s. E1, S. 733 bzw. Tabelle 5.1, S. 142) demonstriert. Es reicht aus, in die erste Spalte und Zeile der Tabelle unter Name einfach den Variablennamen der ersten Variablen einzutragen, also z. B. ¹Geschlechtª. Mit Version 12 ist es erlaubt, hier auch sog. lange Variablennamen zu verwenden, also Namen, die mehr als 8 Buchstaben haben. Obwohl dies mæglich ist, sei empfohlen, dennoch nicht allzu lange Variablennamen zu verwenden. Nach Eingabe von ¹Geschlechtª ergånzt SPSS automatisch alle anderen Spalten. Diese sind im Einzelnen: Unter Type ist es mæglich einen anderen Variablentyp auszuwåhlen, d. h. die Variable zum Beispiel so zu definieren, dass man spåter Text als Datenwerte (z. B. Mann) anstatt Zahlen bzw. Codes (z. B. 1 fçr Mann) eingeben kann (als Typ wçrde man dann String anstatt Numeric auswåhlen). Da man çblicherweise nur Zahlen
aE. Statistik mit SPSS
729
Abb. E1. Der Daten-Editor von SPSS in der Variablen-Ansicht
bzw. Codes eingibt, bleibt diese Spalte unveråndert. Die nåchsten zwei Spalten (Width und Decimals) beziehen sich auf die Formatierung der spåter einzugebenden Zahlen/Codes. Da bei den beiden analysierten Variablen ¹Geschlechtª und ¹Belastungª nur ganze Zahlen ohne Nachkommastellen zu erwarten sind, kann man hier fçr Decimals einfach eine 0 eingeben. Man muss es jedoch nicht; Daten kænnen auch mit der Voreinstellung 2 eingegeben werden. In den darauf folgenden zwei Spalten (Labels und Values) wird die Mæglichkeit angeboten, den Variablen sowie den Ausprågungen der Variablen selbsterklårende Etiketten zuzuordnen, die statt der eher knappen Variablennamen in der Programmausgabe erscheinen. Also beispielsweise fçr die Variable ¹Geschlechtª das Etikett ¹Geschlecht der Versuchspersonenª und fçr die Ausprågungen bzw. Codes ¹1ª und ¹2ª die Etiketten ¹Mannª und ¹Frauª. Unter Missing kann man eintragen, ob fehlende Datenwerte einen bestimmten Code tragen (z. B. ¹-9ª). Da fehlende Werte jedoch zumeist einfach nicht eingegeben werden, sei empfohlen, diese Spalte unveråndert zu lassen. Columns sowie Align bezieht sich ebenfalls ausschlieûlich auf die Formatierung der Variablen im Daten-Editor und ist daher hier weniger wichtig. In der letzten Spalte kann schlieûlich eingetragen werden, auf welchem Skalenniveau (Scale/Interval, Ordinal oder Nominal) die Variable gemessen wurde. Fçr die Analyse bei SPSS hat dies jedoch ebenfalls keine Bedeutung. In die zweite Zeile der Tabelle kann man nun die zweite Variable des Zahlenbeispiels (Belastung) eintragen und, falls man mæchte, Etiketten etc. definieren. Damit ist die Definition der Variablen abgeschlossen. Durch Klicken auf Data View gelangt man zurçck zur Daten-Tabelle, die man jetzt fçr die Dateneingabe verwenden kann. Im Kopf der Daten-Tabelle sieht man nun die beiden definierten Variablen, und man kann damit beginnen, die Daten bzw. die Ausprågungen/Codes der Variablen einzugeben, also unter ¹Geschlechtª den Wert ¹1ª fçr alle Månner und den Wert ¹2ª fçr alle Frauen sowie unter ¹Belastungª den jeweiligen Belastungswert (Abb. E2). Nachdem man die Daten aller 35 Månner und 33 Frauen eingegeben hat, sollte das Speichern der Daten unter File und dann Save nicht vergessen werden. Bei långeren Dateneingaben empfiehlt sich ein Speichern zwischendurch. Damit sind die Variablen definiert, die Daten eingegeben,
730
Anhang
Abb. E2. Der Daten-Editor von SPSS in der Daten-Ansicht
und man kann zur Anforderung der Datenanalyse schreiten. Es kænnen hierfçr die diversen Dialogfenster unter Analyze verwendet werden. Aus den genannten Grçnden soll hier jedoch ein anderer Weg beschritten werden ± die Analyse mittels eines SPSS-Programms bzw. mittels SPSS-Syntax-Dateien.
Umgang mit dem SPSS-Syntax-Editor SPSS-Programme bestehen aus einfachen Text-Dateien, in die man festgelegte Programmbefehle gemåû der SPSS-Syntax eintrågt (SPSS-Befehle). Im Prinzip kann man solche SPSS-Programme mit jedem Text-Editor erstellen. Der von SPSS angebotene und in das SPSS-System integrierte Syntax-Editor hat jedoch einige Vorteile, die das Schreiben von SPSS-Programmen erleichtern, wie beispielsweise eine Hilfe-Funktion, ein Verzeichnis aller vorhandenen Programmbefehle und Prozeduren zum Ausfçhren des Programms. Es sei daher empfohlen, den SPSS-Syntax-Editor zum Erstellen von SPSS-Programmen zu verwenden. Zum Syntax-Editor gelangt man, indem man im Daten-Editor aus dem Menç in der Kopfzeile File, dann New und anschlieûend Syntax auswåhlt. Es æffnet sich ein neues Fenster, das den SPSS-SyntaxEditor repråsentiert. Diesen Syntax-Editor kann man wie ein gewæhnliches Schreibprogramm verwenden, d. h., man gibt einfach çber die Tastatur die SPSS-Befehle ein. Fçr das erste Beispiel E1 (s. S. 733) tippt man den folgenden Text ein (Abb. E3): T-TEST GROUPS=Geschlecht(1,2) /VARIABLES=Belastung.
Zu beachten ist, dass in SPSS jeder Befehl mit einem Punkt abgeschlossen wird. Das ist wichtig, da SPSS sonst nicht ¹weiûª, wann der Befehl abgeschlossen ist. Bei Fortsetzungszeilen (wie oben) ist da-
aE. Statistik mit SPSS
731
Abb. E3. Der Syntax-Editor in SPSS
rauf zu achten, dass die zweite Zeile und die Folgezeilen nicht in der ersten Spalte beginnen. SPSS fçhrt den Programmbefehl aus, wenn man aus dem Menç in der Kopfzeile des Syntax-Editors Run und in dem nachfolgenden Menç Current auswåhlt. Vorausgesetzt der Programmbefehl enthålt keine Syntax-Fehler, æffnet sich ein weiteres Fenster (der SPSS-Viewer), in das SPSS die Programmausgabe, also die Ergebnisse schreibt. Enthålt der Syntax-Editor mehrere SPSS-Befehle, die jeweils durch einen Punkt abgeschlossen und voneinander getrennt werden, so kann man durch die Auswahl von Run und dann All SPSS veranlassen, alle Befehle nacheinander auszufçhren. Wie die Daten im Daten-Editor kann und sollte man auch die SPSS-Befehle im Syntax-Editor abspeichern. Das geschieht in der Kopfzeile unter File und dann Save. Man kann die SPSS-Programmbefehle dann spåter wieder durch File, Open und dann Syntax in den Syntax-Editor laden sowie ggf. modifizieren und erneut ausfçhren. Auf die beschriebene Weise kænnen nun såmtliche Programmbefehle in den nachfolgenden Rechenbeispielen eingegeben werden. Sind die Daten ebenfalls in der beschriebenen Weise eingegeben, wird nach Ausfçhren der SPSS-Befehle die hier jeweils wiedergegebene Ausgabe von SPSS erzeugt. Fçr den Fall, dass man eigene SPSS-Programme schreibt und man sich bei einem SPSS-Befehl hinsichtlich der Syntax bzw. der Schreibweise nicht ganz sicher ist, sei auf die folgende praktische Hilfefunktion hingewiesen. Unter dem Menç in der Kopfzeile sind nach der SPSS-Installation 13 sog. Menç-Buttons vorhanden. Darunter ist der zweite Button von rechts (Syntax Help) sehr hilfreich. Klickt man auf diesen Button, so æffnet sich ein Fenster, das fçr jenen SPSS-Befehl, in dessen Zeile der Mauszeiger (Cursor) gerade steht, eine Syntaxbeschreibung enthålt. Diese kann man u. a. als Mustervorlage verwenden. Selbstverståndlich gibt es fçr den Umgang mit SPSS-Programmbefehlen auch Handbçcher, die direkt bei SPSS angefordert werden kænnen (http://www.spss.de). In Zæfel (2002) findet man ebenfalls wertvolle Hinweise zum Umgang mit dem SPSS-Syntax-Editor und der Arbeit mit SPSS-Programmbefehlen.
732
Anhang
Eingabe von Daten mit dem SPSS-Syntax-Editor Neben der Verwendung des Daten-Editors von SPSS zur Dateneingabe (s. oben) gibt es in SPSS auch die Mæglichkeit, Daten gemeinsam mit SPSS-Programmbefehlen innerhalb des Syntax-Editors in das System einzugeben. Die Variablendefinition, Dateneingabe sowie die Anforderung der Analyse geschieht damit innerhalb einer einzigen Datei (eines einzigen Fensters). Besonders fçr kleine Datensåtze ± wie bei den meisten Zahlenbeispielen in diesem Buch ± ist diese Vorgehensweise einfach und praktikabel. Diese Form der Dateneingabe wird mit dem SPSS-Befehl ¹DATA LIST FIXEDª eingeleitet (s. unten). Dann werden die einzelnen Variablen genannt (im Beispiel E3, S. 738 sind das die Variablen ¹xª und ¹yª), jeweils gefolgt von den Spaltennummern, in denen die Variablen stehen. Wçrde man in den Syntax-Editor ¹Alter 4-5ª schreiben, bedeutete dies, dass die zweistellige Variable ¹Alterª in den Spalten 4 und 5 steht. Nach dem DATA-LIST-Befehl, in dem die Variablen definiert werden und der mit einem Punkt endet, folgen auf den Befehl ¹BEGIN DATAª die Daten in den angegebenen Spalten. Die Angabe der Daten endet mit dem Befehl ¹END DATAª und einem Punkt. Nach der Dateneingabe kænnen Analysen mittels SPSS-Befehlen angefordert werden. Mæchte man SPSS veranlassen såmtliche Befehle zur Variablendefinition, Dateneingabe und Anforderung der Analyse auszufçhren, wåhlt man aus dem Menç in der Kopfzeile des Syntax-Editors die Optionen Run und dann All aus.
Dateneingabe fçr Beispiel E3 (s. S. 738): DATA LIST FIXED /x 1 y 3. BEGIN DATA 21 12 96 54 32 END DATA.
Hinweis Bei den nachfolgenden Beispielen wird die Dateneingabe jeweils in dieser Form wiedergegeben. Zum Teil sind geringfçgige Modifikationen bei der Dateneingabe nætig, die jedoch innerhalb der Beispiele erlåutert werden.
733
aE. Statistik mit SPSS
E 1. t-Test fçr unabhångige Stichproben (Beispiel S. 142 f.) Kurzinformation UV: Geschlecht
AV: Punktwert im Belastungstest
Dateneingabe DATA LIST FIXED /Geschlecht 1 Belastung 3-5. BEGIN DATA 1 86 1 91 1 96 . .. . .. 2 90 2 130 END DATA.
Syntax T-TEST GROUPS=Geschlecht (1 2) /VARIABLES=Belastung.
Ausgabe Group Statistics
Belastung
Geschlecht
N
Mean
Std. Deviation
Std. Error Mean
1 2
35 33
103,20 104,24
12,565 12,639
2,124 2,200
Independent Samples Test
Belastung
Equal variances assumed Equal variances not assumed
Levene's Test for Equality of Variances
t-Test for Equality of Means
F
Sig.
t
df
Sig. (2-tailed)
0,001
0,975
±0,34
66
0,734
±0,34
65,72
0,734
734
Anhang
Erlåuterung Die Prozedur T-TEST von SPSS liefert im Output zunåchst eine Beschreibung der beiden Stichproben (Belastung 1,2) durch Fallzahl (N), Mittelwert (Mean), Streuung (Std. Deviation) und Standardfehler des Mittelwerts (Std. Error Mean). Fçr die Berechnung des t-Wertes (t) stehen zwei Varianten des t-Tests zur Verfçgung: 1) der t-Test unter der Annahme gleicher Populationsvarianzen (Equal variances assumed) und 2) der t-Test unter der Annahme ungleicher Populationsvarianzen (Equal variances not assumed, s. Gl. 5.16). Wie man am vorliegenden Rechenergebnis erkennt, fçhren beide Verfahren nicht immer zu unterschiedlichen Ergebnissen. Die Homogenitåt der Varianzen prçft SPSS mit dem Levene-Test statt mit dem F-Test (s. S. 148). Dieser Test entscheidet robuster, wenn die Ausgangsdaten nicht ideal normalverteilt sind (was bei realen Datensåtzen håufiger der Fall ist). Die Prçfgræûe des Levene-Tests ist F-verteilt. SPSS gibt den entsprechenden F-Wert (F) neben der zutreffenden Varianzannahme und vor den t-Werten aus. Generell kænnen Signifikanzaussagen getroffen werden: a) durch den Vergleich des empirischen Wertes der statistischen Prçfverteilung (hier: t-Wert) mit dem kritischen Wert fçr das gewçnschte Signifikanzniveau a temp tcrit
a !signifikantes Ergebnis oder b) durch den Vergleich der Irrtumswahrscheinlichkeit (Wahrscheinlichkeit des empirischen Wertes unter Gçltigkeit der H0 ) mit dem Signifikanzniveau p
temp jH0 a !signifikantes Ergebnis (vgl. S. 114). SPSS gibt fçr statistische Prçfgræûen nie die kritischen Werte, sondern stets die Irrtumswahrscheinlichkeiten an. Die Prozedur t-Test berechnet die zweiseitige Irrtumswahrscheinlichkeit (Sig. 2-tailed). Fçr die einseitige Signifikanzprçfung muss die zweiseitige Irrtumswahrscheinlichkeit halbiert werden. Zusammenfassend ist der SPSS-Output fçr das vorliegende Beispiel folgendermaûen zu interpretieren: Die Varianzen der beiden Geschlechter-Stichproben unterscheiden sich nicht signifikant p
FjH0 0;970 > a, sodass der t-Test mit gepoolten Varianzen bzw. unter der Annahme gleicher Populationsvarianzen indiziert ist. Die einseitige Irrtumswahrscheinlichkeit fçr t 0;34 (die Differenz von 0;01 zu dem ¹per Handª berechneten Wert resultiert aus Rundungsungenauigkeiten) mit 66 Freiheitsgraden (df) betrågt p 0;734=2 0;367 und liegt damit deutlich hæher als a 0;05. Das Ergebnis ist somit nicht signifikant und die Nullhypothese, nach der sich die Belastbarkeit der Geschlechter nicht unterscheidet, wird beibehalten.
735
aE. Statistik mit SPSS
E 2. k l-Chi2-Test (Beispiel S. 172) Kurzinformation Merkmal 1: Alter
Merkmal 2: Deutungsarten im Rorschach-Test
Dateneingabe Mæchte man sich bei der Dateneingabe die mçhselige Eingabe von 500 Einzelfållen ersparen, dann kann man Folgendes tun: In den Variablen ¹Alterª und ¹Deutungsartª erfasst man die Zellenzugehærigkeit der Fålle und in einer zusåtzlichen Variablen ¹Anzahlª die Håufigkeit in den Zellen. Vor der Anforderung der Analyse veranlasst man SPSS die Fålle mit der Variablen ¹Anzahlª zu gewichten. Die Eingabe von Tabelle 5.14 des Zahlenbeispiels erfolgt dadurch sehr ækonomisch. Die hierfçr notwendigen SPSS-Befehle sind die Folgenden: DATA LIST FIXED /Alter 1 Deutungsart 3 Anzahl 5-6. Value Labels Alter 1 `10-12 J.` 2 `13-15 J.` 3 `16-18 J.` 4 `19-21 J.` /Deutungsart 1 `Mensch` 2 `Tier` 3 `Pflanze`. BEGIN DATA 1 1 12 2 1 20 3 1 35 4 1 40 1 2 80 2 2 70 3 2 50 4 2 55 1 3 30 2 3 50 3 3 30 4 3 28 END DATA. WEIGHT BY Anzahl.
Syntax CROSSTABS /TABLES=Alter BY Deutungsart /STATISTIC=CHISQ /CELLS=COUNT EXPECTED TOTAL .
736
Anhang
Ausgabe Alter * Deutungsart Crosstabulation Deutungsart
Alter
10±12 J. 13±15 J. 16±18 J. 19±21 J.
Total
Mensch
Tier
Pflanze
Total
Count Expected Count % of Total Count Expected Count % of Total Count Expected Count % of Total
12 26,1 2,4 20 30,0 4,0 35 24,6 7,0
80 62,2 16,0 70 71,4 14,0 50 58,7 10,0
30 33,7 6,0 50 38,6 10,0 30 31,7 6,0
122 122,0 24,4 140 140,0 28,0 115 115,0 23,0
Count Expected Count % of Total
40 26,3 8,0
55 62,7 11,0
28 33,9 5,6
123 123,0 24,6
Count Expected Count % of Total
107 107,0 21,4
255 255,0 51,0
138 138,0 27,6
500 500,0 100,0
Chi-Square Test
Pearson Chi-Square a
Value
df
Asymp. Sig. (2-sided)
34,643 a
6
0,000
0 cells (0,0%) have expected count less than 5. The minimum expected count is 24,61.
Erlåuterung Fçr die Analyse von zweidimensionalen Kontingenztafeln bietet SPSS die Prozedur CROSSTABS (Kreuztabellen) an. Drei- und mehrdimensionale Kreuztabellen kænnen mit der Prozedur HILOGLINEAR (hierarchische logarithmisch-lineare Modelle) ausgewertet werden (CROSSTABS liefert fçr diese Fålle unçbersichtliche, schwer interpretierbare Tabellen und ermæglicht Signifikanztests nur çber zweidimensionale Teiltabellen). CROSSTABS gibt als Feldinhalt der Tabelle neben den beobachteten Håufigkeiten (Count) auch die erwarteten Håufigkeiten (Expected Count) aus. Fçr den v2 -Wert (Pearson Chi-Square) wird entsprechend seinen Freiheitsgraden (df) die zweiseitige Irrtumswahrscheinlichkeit (Asymp. Sig. 2-sided) angegeben. (Die Irrtumswahrscheinlichkeit hat im vorliegenden Beispiel nicht exakt den Wert 0; sie ist jedoch so gering, dass sie mit der Genauigkeit von drei Nachkommastellen nicht ausgewiesen werden kann.) Auûerdem werden in der Fuûzeile die Zelle mit der kleinsten erwarteten Håufigkeit sowie Anzahl und Prozentanteil der Zellen mit Erwartungshåufigkeiten kleiner als 5 genannt. Dieser Prozentanteil sollte gemåû den Voraussetzungen der v2-Techniken 20% nicht çberschreiten (S. 176 f.).
aE. Statistik mit SPSS
737
Eindimensionale v2 -Tests kænnen çber die Prozedur NPAR TESTS (Nonparametrische Tests) angefordert werden. Die Ûberprçfung einer empirischen Verteilung auf Gleichverteilung oder ihre Anpassung an eine andere theoretische Verteilung (Goodness of fit) kann mit dem Befehl NPAR TESTS CHISQUARE vorgenommen werden. Eindimensionale v2 -Tests mit zwei- oder mehrmaligen Messwiederholungen werden mit NPAR TESTS MCNEMAR (McNemar v2, S. 159 f.) bzw. NPAR TESTS COCHRAN (Cochran v2 , S. 161 f.) berechnet.
738
Anhang
E 3. Produkt-Moment-Korrelation (Bravais-Pearson-Korrelation) (Beispiel S. 206) Kurzinformation Merkmal 1: x
Merkmal 2: y
Dateneingabe DATA LIST FIXED /x 1 y 3. BEGIN DATA 21 12 96 54 32 END DATA.
Syntax CORRELATIONS /VARIABLES=x WITH y /PRINT=TWOTAIL NOSIG.
Ausgabe Correlations y x
Pearson Correlation Sig. (2-tailed) N
0,949 * 0,014 5
* Correlation is significant at the 0,05 level (2-tailed).
Erlåuterung Mit der Prozedur CORRELATION von SPSS kænnen die Koeffizienten der Produkt-Moment-Korrelation (Pearson Correlation) berechnet und anhand ihrer zweiseitigen Irrtumswahrscheinlichkeiten (Sig. 2tailed) auf Signifikanz geprçft werden. Fçr einseitige Signifikanzprçfungen muss die zweiseitige Irrtumswahrscheinlichkeit halbiert werden oder man schreibt statt ¹TWOTAILª im Unterbefehl ¹ONETAILª. N kennzeichnet die der Berechnung zugrunde liegende Fallzahl.
739
aE. Statistik mit SPSS
E 4. Einfaktorielle univariate Varianzanalyse mit A-priori-Einzelvergleichen (Beispiel S. 276 f.) Kurzinformation UV: Behandlungsart
AV: Depressivitåt
Dateneingabe DATA LIST FIXED /Behandlungsart 1 Depressivitaet 3-4. BEGIN DATA 1 18 1 22 1 25 . .. . .. 3 13 3 14 END DATA.
Syntax ONEWAY Depressivitaet BY Behandlungsart /CONTRAST= 2 -1 -1 /CONTRAST= 0 1 -1 /STATISTICS HOMOGENEITY.
Ausgabe Test of Homogeneity of Variances Depressivitåt Levene Statistic
df1
df2
Sig.
1,461
2
19
0,257
ANOVA Depressivitåt
Between Groups Within Groups Total
Sum of Squares
df
Mean Square
F
Sig.
204,00 62,360 266,360
2 19 21
102,000 3,280
31,100
0,000
740
Anhang
Contrast Coefficients Behandlungsart Contrast
1
2
3
1 2
2 0
±1 1
±1 ±1
Contrast Tests
Depressivitåt
Contrast
Value of Contrast
Std. Error t
df
Sig. (2-tailed)
Assume equal variances
1 2
11,55 2,83
1,669 0,955
6,917 2,967
19 19
0,000 0,008
Does not assumed equal variances
1 2
11,55 2,83
1,971 0,753
5,858 3,764
8,100 0,000 11,523 0,003
Erlåuterung Die Prozedur ONEWAY von SPSS erstellt einfaktorielle Varianzanalysen und gibt die Ergebnisse in Tabellenform aus. Als Quelle der Variation werden Treatment (Between Groups), Fehler (Within Groups) und Total (Total) mit ihren Freiheitsgraden (df) sowie Quadratsummen (Sum of Squares), Varianzen (Mean Square) und F-Wert (F) ausgegeben. Fçr den F-Wert wird die einseitige Irrtumswahrscheinlichkeit berechnet (Sig.). Ûblicherweise werden mit einseitigen Signifikanztests gerichtete Alternativhypothesen çberprçft. In der Varianzanalyse entspricht der einseitige Test jedoch der Ûberprçfung einer ungerichteten Alternativhypothese bezçglich der Gruppenmittelwerte (S. 256). Die c-Koeffizienten fçr die beiden durch den Programmbefehl angeforderten A-priori-Einzelvergleiche werden in einer Tabelle zusammengefasst (Contrast Coefficients). ONEWAY berechnet fçr jeden Kontrast den D-Wert (Value of Contrast) und den Standardfehler des D-Wertes (Std. Error) sowie den zugehærigen t-Wert (t), dessen Freiheitsgrade (df) und die zweiseitige Irrtumswahrscheinlichkeit des t-Wertes (Sig. 2-tailed). Kontraste werden in SPSS nicht çber die F-Verteilung, sondern çber die t-Verteilung auf Signifikanz geprçft. Beide Prçfstatistiken lassen sich zur Kontrolle leicht ineinander çberfçhren (s. Gl. 2.60). Ebenso wie bei der Prozedur T-TEST werden auch fçr die Kontraste in ONEWAY t-Werte unter der Annahme homogener und inhomogener Varianzen berechnet. Zur Ûberprçfung der Varianzhomogenitåt wird der Levene-Test verwendet. Bei Signifikanz geht man von inhomogenen Varianzen aus.
741
aE. Statistik mit SPSS
E 5. Zweifaktorielle univariate Varianzanalyse (Beispiel S. 292) Kurzinformation Faktor A: Behandlungsart
Faktor B: Geschlecht
AV: Depressivitåt
Dateneingabe DATA LIST FIXED /Behandlungsart 1 Geschlecht 3 Depressivitaet 5-6. BEGIN DATA 1 1 22 1 1 25 1 1 22 . . .. . . .. 3 2 13 3 2 14 END DATA.
Syntax ANOVA VARIABLES=Depressivitaet BY Behandlungsart (1 3) Geschlecht (1 2) /METHOD UNIQUE .
Ausgabe ANOVA a, b Unique Method
Depressivitåt
a b
Main Effects
(Combined) Behandlungsart Geschlecht 2-Way Interactions Behandlungsart * Geschlecht Model Residual Total
Depressivitåt by Behandlungsart, Geschlecht All effects entered simultaneously
Sum of df Squares
Mean Square
F
Sig.
253,700 253,400 0,300 54,200
3 2 1 2
84,567 126,700 0,300 27,100
49,745 74,529 0,176 15,941
0,000 0,000 0,678 0,000
307,900 40,800 348,700
5 24 29
61,580 1,700 12,024
36,224
0,000
742
Anhang
Erlåuterung Die Prozedur ANOVA von SPSS berechnet Varianzanalysen fçr ein- und mehrfaktorielle Plåne und gibt die Ergebnisse in Tabellenform aus. Die Quellen der Variation werden in Haupteffekte (Main Effects) und Interaktionen erster Ordnung (2-way Interactions) gegliedert, die zusammen die erklårte Quadratsumme bzw. die QSZellen (Model) ausmachen. Die erklårte Quadratsumme zusammen mit den FehlerEffekten (Residual) ergibt die totale Quadratsumme (Total). Die Ergebnistabelle enthålt Quadratsummen (Sum of Squares), Freiheitsgrade (df), Varianzen (Mean Square) und F-Werte (F) sowie die Irrtumswahrscheinlichkeiten der F-Werte (Sig.). Anhand der F-Werte werden nicht nur die Nullhypothesen bezçglich der Haupteffekte ¹Behandlungsartª und ¹Geschlechtª sowie deren Interaktionseffekt (Behandlungsart * Geschlecht) getestet, sondern auch die (oft nicht formulierten) Nullhypothesen fçr die gruppierten Effekte (Haupteffekte gesamt, Interaktionen gesamt und Zellen). Zu beachten ist bei der Verwendung der ANOVA-Prozedur, dass die Default-Einstellung bei der Berechnung des F-Wertes von festen Faktoren ausgeht (Prçfvarianzen fçr zufållige Faktoren mçssen vom Benutzer çber den Unterbefehl ¹Errorª definiert werden). Auûerdem geht die Funktion bei der Quadratsummenzerlegung von orthogonalen Plånen mit gleich groûen Stichproben aus (bei nicht-orthogonalen, unbalancierten Plånen entspricht die Berechnung dem auf S. 497 beschriebenen Modell I).
743
aE. Statistik mit SPSS
E 6. Zweifaktorielle univariate Varianzanalyse mit Messwiederholungen auf einem Faktor (Beispiel S. 338 f.) Kurzinformation Faktor A: Kreativitåtstraining
Faktor B: Messzeitpunkt
AV: Kreativitåt
Dateneingabe Die hier benætigte Prozedur GLM (General Linear Model) behandelt Messwiederholungsanalysen und multivariate Varianzanalysen (s. Kap. 17) formal åquivalent, d. h., die wiederholten Messungen bei den Versuchspersonen stellen hier Messungen auf mehreren abhångigen Variablen dar (und nicht Messungen einer abhångigen Variablen unter verschiedenen Faktorstufen). Das bedeutet, dass auch die Dateneingabe so zu erfolgen hat, als wollte man eine multivariate Varianzanalyse mit mehreren abhångigen Variablen, welche die Messzeitpunkte repråsentieren, berechnen. Die Eingabe der Daten innerhalb eines SPSS-Programms kann fçr das Zahlenbeispiel auf S. 338 f. folgendermaûen erfolgen: DATA LIST FIXED /Kreativitaetstraining 1 Kreativitaet_T1 3-4 Kreativitaet_T2 6-7 Kreativitaet_T3 9-10. BEGIN DATA 1 56 52 48 1 57 54 46 1 55 51 51 1 58 51 50 1 54 53 46 2 54 50 49 2 53 49 48 2 56 48 52 2 52 52 50 2 55 51 46 3 57 49 50 3 55 51 47 3 56 48 51 3 58 50 48 3 58 46 52 END DATA.
Syntax GLM Kreativitaet_T1 Kreativitaet_T2 Kreativitaet_T3 BY Kreativitaetstraining /WSFACTOR = Messzeitpunkt 3.
744
Anhang
Ausgabe Mauchly's Test of Sphericity Measure: MEASURE_1 Within Subjects Effect
Mauchly's W
Messzeitpunkt
0,708
Approx. Chi-Square
df
3,803
2
Epsilon a
Sig.
0,149
GreenhouseGeisser
HuynhFeldt
Lowerbound
0,774
1,000
0,500
Tests the null hypothesis that the error covariance matrix of the orthonormalized transformed dependent variables is proportional to an identity matrix. a May be used to adjust the degrees of freedom for the averaged tests of significance. Corrected tests are displayed in the Tests of Within-Subjects Effects table.
Test of Within Subjects Effects Measure: MEASURE_1 Source
Type III Sum of Squares
df
Mean Square
F
Sig.
Messzeitpunkt
Sphericity Assumed Greenhouse-Geisser Huynh-Feldt Lower-bound
370,711 370,711 370,711 370,711
2 1,548 2,000 1,000
185,356 239,539 185,356 370,711
44,016 44,016 44,016 44,016
0,000 0,000 0,000 0,000
Messzeitpunkt Kreativitåtstraining
Sphericity Assumed Greenhouse-Geisser Huynh-Feldt Lower-bound
45,556 45,556 45,556 45,556
4 3,095 4,000 2,000
11,389 14,718 11,389 22,778
2,704 2,704 2,704 2,704
0,054 0,074 0,054 0,107
Error (Messzeitpunkt)
Sphericity Assumed Greenhouse-Geisser Huynh-Feldt Lower-bound
101,067 101,067 101,067 101,067
24 18,571 24,000 12,000
4,211 5,442 4,211 8,422
df
Test of Within Subjects Contrasts Measure: MEASURE_1 Source
Messzeitpunkt
Type III Sum of Squares
Mean Square
F
Sig.
Messzeitpunkt
Linear Quadratic
333,333 37,378
1 1
333,333 37,378
121,951 6,570
0,000 0,025
Messzeitpunkt Kreativitåtstraining
Linear Quadratic
10,867 34,689
2 2
5,433 17,344
1,988 3,049
0,180 0,085
Error (Messzeitpunkt)
Linear Quadratic
32,800 68,267
12 12
2,733 5,689
745
aE. Statistik mit SPSS Test of Within Subjects Effects Measure: MEASURE_1 Transformed Variable: Average Source
Type III Sum of Squares
df
Mean Square
F
Sig.
Intercept Kreativitåtstraining Error
119918,422 9,911 15,333
1 2 12
119918,422 4,956 1,278
93849,20 3,878
0,0000 0,0502
Erlåuterung Die Ausgabe der Ergebnisse in SPSS beginnt mit 3 Tabellen (Within-Subjects Factors, Between-Subjects Factors, Multivariate Tests), auf deren Wiedergabe hier verzichtet wurde. Die ersten beiden Tabellen enthalten allgemeine Infos çber die einbezogenen Variablen und die Letztere multivariate Tests, die fçr Messwiederholungsanalysen weniger interessant sind (vgl. Hinweise S. 357). In den nåchsten 4 Tabellen (s. oben) erfolgen die eigentlich interessanten Ausgaben. Der Mauchly's Test of Sphericity prçft die Voraussetzungen (s. Kap. 9.3). Verletzungen dieser Voraussetzung kænnen durch Epsilon-korrigierte Freiheitsgrade kompensiert werden (s. S. 355). Der Korrekturfaktor Epsilon nach Greenhouse-Geisser und der seinerseits korrigierte Epsilon-Wert nach Huynh-Feldt (dieser ist weniger konservativ als Greenhouse-Geisser) sowie der kleinste mægliche Epsilon-Wert, der zu einer maximal konservativen Entscheidung fçhrt, werden angegeben. Da Epsilon > 0,75 wçrde man im vorliegenden Fall auf eine Korrektur verzichten, d. h. in der nachfolgenden Ergebnistabelle Test of Within-Subjects Effects das Ergebnis der Analyse unter Sphericity Assumed ablesen. Es werden allerdings sowohl fçr den Messwiederholungsfaktor ¹Messzeitpunktª (Faktor B) als auch fçr die Interaktion mit dem Gruppierungsfaktor ¹Kreativitåtstrainingª (Faktor A) såmtliche korrigierten Tests ausgegeben, so dass man çberprçfen kann, ob unterschiedliche Epsilon-Korrekturen zu unterschiedlichen Entscheidungen fçhren wçrden (die geringfçgigen Abweichungen der Ausgaben von den Ergebnissen in Tabelle 9.9 sind auf Rundungsfehler zurçckzufçhren). In der Tabelle Tests of Within-Subjects Contrasts, die auch ohne explizite Anforderung ausgegeben wird, werden ein linearer und ein quadratischer Trendtest (vgl. S. 276) gleich mitgeliefert. Schlieûlich enthålt die Tabelle Tests of Between-Subjects Effects den Test des Gruppierungsfaktors ¹Kreativitåtstrainingª (Faktor A). Im Beispiel (vgl. S. 338) heiût es, dass sich die Kreativitåt durch das Training åndert, wobei sich die 3 verschiedenen Trainingsarten statistisch nicht bedeutsam unterscheiden. Die exakte Irrtumswahrscheinlichkeit gemåû der SPSS-Analyse betrågt p = 0,0502. Man sieht also, dass die Signifikanz bei a = 0,05 nur knapp verfehlt wurde. Unter Intercept (Konstante) als Gesamtmittelwertsparameter wird die Nullhypothese geprçft, dass dieser den Betrag Null hat. Diese Information ist jedoch eher von geringem Interesse, da Untersuchungen in der Regel nicht so angelegt sind, dass ein Gesamtmittelwert von Null zu erwarten wåre.
746
Anhang
E 7. Zweifaktorielle univariate Kovarianzanalyse (Beispiel S. 783) Kurzinformation Faktor A: Lernprogramm
Faktor B: Motivstårke
Kontrollvariable: Intelligenz
AV: Lernerfolg
Dateneingabe DATA LIST FIXED /Lernprogramm 1 Motivstaerke 3 Intelligenz 5 Lernerfolg 7-8. BEGIN DATA 1 1 5 13 1 1 6 17 1 1 6 18 . . . .. . . . .. 3 2 4 15 3 2 5 18 END DATA.
Syntax GLM Lernerfolg BY Lernprogramm Motivstaerke WITH Intelligenz.
Ausgabe Tests of Between-Subjects Effects Dependent Variable: Lernerfolg Source Corrected Model Intercept Intelligenz Lernprogramm Motivstårke Lernprogramm a Motivstårke Error Total Corrected Total a
Type III Sum of Squares 422,402 a 2,117 297,819 101,907 111,190 22,949 92,348 9635,000 514,750
df
Mean Square
F
Sig.
6 1 1 2 1
70,400 2,117 297,819 50,953 111,190
22,108 0,665 93,524 16,001 34,917
0,000 0,421 0,000 0,000 0,000
2 29 36 35
11,474 3,184
3,603
0,040
R Squared = 0,821 (Adjusted R Squared = 0,783)
aE. Statistik mit SPSS
747
Erlåuterung Univariate und multivariate Kovarianzanalysen fçr ein- und mehrfaktorielle Plåne kænnen in SPSS ebenfalls mit der Prozedur GLM durchgefçhrt werden. Die Kontrollvariable bzw. Kovariate wird im Programmbefehl nach ¹WITHª angegeben. Neben den Effekten enthålt die Ausgabetabelle eine Angabe zur Varianzerklårung (vgl. Beispiel E9, S. 750) des Modells. Fçgt man dem Programmbefehl die Option ¹/PRINT= Parameterª hinzu, erhålt man zusåtzlich den Steigungskoeffizienten der Kontrollvariablen in der Regression (B = 2,549).
748
Anhang
E 8. Zweifaktorielle hierarchische univariate Varianzanalyse (Beispiel S. 390) Kurzinformation Faktor 1: Computerspiele, feste Stufen Faktor 2 (geschachtelt unter Faktor 1): Kaufhåuser, zufållige Stufen AV: Bewertung
Dateneingabe DATA LIST FIXED /Spiel 1 Kaufhaus 3-4 Bewertung 6-7. BEGIN DATA 117 119 1 1 12 117 126 125 . . .. . . .. 4 12 10 4 12 13 END DATA.
Syntax GLM Bewertung BY Spiel Kaufhaus /RANDOM = Kaufhaus /DESIGN=Spiel Kaufhaus(Spiel).
Ausgabe Tests of Between-Subjects Effects Dependent Variable: Bewertung Source
Type III Sum of Squares
df
Mean Square
F
Sig.
Intercept
Hypothesis Error
5896,333 174,667
1 8
5896,333 21,833 a
270,061 0,000
Spiel
Hypothesis Error
391,500 174,667
3 8
130,500 21,833 a
5,977 0,019
Kaufhaus (Spiel)
Hypothesis Error
174,667 149,500
8 36
21,833 4,153 b
5,258 0,000
a b
MS (Kaufhaus (Spiel)) MS (Error)
aE. Statistik mit SPSS
749
Erlåuterung Die umfassende Prozedur GLM stellt flexible Unterbefehle zur Verfçgung, mit denen hierarchische uniund multivariate Varianzanalysen berechnet werden kænnen. Mit dem Unterbefehl /RANDOM wird angegeben, dass es sich bei den Stufen des Faktors ¹Kaufhausª um zufållige Stufen handeln soll. Durch den Unterbefehl /DESIGN wird angegeben, wie die Effekte ineinander geschachtelt sind. Die jeweils korrekten Prçfvarianzen werden (im Standardfall) durch SPSS automatisch berçcksichtigt. Die erzeugte Ergebnistabelle fçr die zweifaktorielle hierarchische Varianzanalyse hat das typische Format, d. h., es werden Quadratsummen (Sum of Squares), Freiheitsgrade (df), Varianzen (Mean Square/MS), empirische F-Werte (F) sowie deren Irrtumswahrscheinlichkeiten (Sig.) angegeben.
750
Anhang
E 9. Multiple Korrelation und Regression (Beispiel S. 451 f.) Kurzinformation Prådiktor 1: Gedåchtnis
Prådiktor 2: Deutschnote
Kriterium: Intelligenz
Dateneingabe DATA LIST FIXED /Gedaechtnis 1-2 Deutschnote 4 Intelligenz 6-8. BEGIN DATA 12 2 107 12 3 105 13 3 101 10 4 102 11 2 114 13 4 97 12 4 92 10 1 118 14 2 111 15 3 95 END DATA.
Syntax REGRESSION /VARIABLES=Gedaechtnis Deutschnote Intelligenz /DEPENDENT=Intelligenz /METHODE=ENTER.
Ausgabe Model Summary Model
R
R Square
Adjusted R Square
Std. Error of the Estimate
1
0,935 a
0,874
0,838
3,401
a
Predictors (Constant), Deutschnote, Gedåchtnis
751
aE. Statistik mit SPSS ANOVA b Model 1
a b
Regression Residual Total
Sum of Squares
df
Mean Square
F
Sig.
560,642 80,958 641,600
2 7 9
280,321 11,565
24,238
0,001 a
Predictors: (Constant), Deutschnote, Gedåchtnis Dependent Variable: Intelligenz
Coefficients a Model
1
a
(Constant) Gedåchtnis Deutschnote
Unstandardized Coefficients
Standardized Coefficients
B
Std. Error
Beta
144,333 ±1,750 ±6,708
8,781 0,709 1,112
±0,336 ±0,821
t
Sig.
16,437 ±2,468 ±6,034
0,000 0,043 0,001
Dependent Variable: Intelligenz
Erlåuterung Bivariate und multiple Korrelationen und Regressionen kænnen in SPSS mit der Prozedur REGRESSION berechnet werden. Das System gibt den multiplen Korrelationskoeffizienten R, den Determinationskoeffizienten R2 (R square), einen korrigierten R2 -Wert (Adjusted R square) sowie den Standardschåtzfehler (Std. Error of the Estimate) aus. Der korrigierte Determinationskoeffizient entspricht nicht der Schrumpfungskorrektur nach Gl. (13.22), sondern berechnet sich folgendermaûen: k
1 R2 : n k 1 Als Standardschåtzfehler verwendet das Programm die fçr mehrere Prådiktorvariablen verallgemeinerte Gl. (6.42): n ^2
cjx1 ;x2 ;:::;xk s2
1 R2 r n k 1 c R2Adjusted R2
Die Signifikanzprçfung des multiplen Korrelationskoeffizienten erfolgt nicht çber Gl. (13.19), sondern anhand einer P Varianzanalyse. Dabei wird der durch die Regressionsgleichung erklårte Varianzanteil P QSRegression i
^yi y2 (Regression) an der Fehler- oder Residualvarianz QSResidual i
yi ^yi 2 (Residual) relativiert (vgl. auch S. 490). Inhaltlich entspricht diese Berechnungsmethode dem Verfahren nach Gl. (13.19); die Differenz im Ergebnis beruht auf Rundungsungenauigkeiten, die bei der Regression betråchtliche Auswirkungen haben kænnen. Unter der Ûberschrift Coefficients sind fçr beide Prådiktoren und die Konstante (Constant), die dem Gesamtmittelwert der abhångigen Variable entspricht, der Regressionskoeffizient b (B), der Standardfehler des Regressionskoeffizienten (Std. Error), der standardisierte Regressionskoeffizient bzw. das Beta-Gewicht (Beta) sowie der zur Ûberprçfung der Signifikanz der Beta-Gewichte benætigte t-Wert (t) und dessen zweiseitige Irrtumswahrscheinlichkeit (Sig.) zu finden.
752
Anhang
E 10. ALM: Einfaktorielle univariate Varianzanalyse (Beispiel S. 490) Kurzinformation UV: Unterricht in Form von drei Indikatorvariablen X1, X2 und X3 (Effektkodierung) AV: Lernerfolg
Dateneingabe In SPSS ist es selbstverståndlich mæglich, nach dem Allgemeinen Linearen Modell (ALM; vgl. Kap. 14) vorzugehen und die Prozedur REGRESSION fçr multiple Korrelations- und Regressionsrechnungen einzusetzen. Dazu muss man jedoch zunåchst die fçr einen Auswertungsplan erforderliche Design-Matrix bzw. die erforderlichen Indikatorvariablen selbst erzeugen. Hierfçr gibt es zwei Methoden: 1. Mit dem DATA LIST-Befehl werden einfach die notwendigen Indikatorvariablen definiert und ihre Werte als Rohdaten eingegeben (s. Abschnitt ¹Eingabe von Daten mit dem SPSS-Syntax-Editorª, S. 732). 2. Liegt bereits ein DATA LIST nach dem ¹klassischenª Auswertungsplan vor, so kænnen die Indikatorvariablen auch durch Umformung des vorhandenen DATA LIST generiert werden. Mit dem IF-Befehl kann die Wertzuweisung (z. B. ¹1ª) an eine Zielvariable (z. B. Indikatorvariable x1) an Bedingungen geknçpft werden (z. B. 1. Faktorstufe). Pro IF-Anweisung ist jedoch nur eine Wertzuweisung mæglich. Weist man entsprechend der Effektcodierung (vgl. S. 484) den durch den IF-Befehl erzeugten Indikatorvariablen nur die Werte ¹1ª bzw. ¹ 1ª zu, so lassen sich die fehlenden Nullen zur Vervollståndigung des Codierungsmusters fçr die einzelnen Indikatorvariablen çber die SYSMIS-Funktion ergånzen. Die SPSS-Programmbefehle zur Realisierung der zweiten Methode sowie zur Auflistung der Indikatorvariablen lauten folgendermaûen: DATA LIST FIXED /Unterricht 1 Lernerfolg 3. BEGIN DATA. 12 11 13 13 11 23 24 23 25 20 36 38 37 36 38 45
753
aE. Statistik mit SPSS 45 45 43 42 END DATA.
IF (Unterricht=1) x1=1. IF (Unterricht=2) x2=1. IF (Unterricht=3) x3=1. IF (Unterricht=4) x1=±1. IF (Unterricht=4) x2=±1. IF (Unterricht=4) x3=±1. IF (sysmis(x1)) x1=0. IF (sysmis(x2)) x2=0. IF (sysmis(x3)) x3=0. LIST Unterricht x1 x2 x3 Lernerfolg. Hieraus ergibt sich die nachfolgende SPSS-Ausgabe (vgl. Tabelle 14.5): Unterricht
x1
1 1 1 1 1 1 1 1 1 1 2 0 2 0 2 0 2 0 2 0 3 0 3 0 3 0 3 0 3 0 4 -1 4 -1 4 -1 4 -1 4 -1 Number of cases read: 20
x2
x3
Lernerfolg
0 0 2 0 0 1 0 0 3 0 0 3 0 0 1 1 0 3 1 0 4 1 0 3 1 0 5 1 0 0 0 1 6 0 1 8 0 1 7 0 1 6 0 1 8 -1 -1 5 -1 -1 5 -1 -1 5 -1 -1 3 -1 -1 2 Number of cases listed: 20
Syntax REGRESSION /VARIABLES= X1 X2 X3 Lernerfolg /DEPENDENT=Lernerfolg /METHODE=ENTER.
754
Anhang
Ausgabe Model Summary Model
R
R Square
Adjusted R Square
Std. Error of the Estimate
1
0,837 a
0,700
0,644
1,369
a
Predictors: (Constant), x3, x2, x1
ANOVA b Model 1
a b
Regression Residual Total
Sum of Squares
df
Mean Square
F
Sig.
70,000 30,000 100,000
3 16 19
23,333 1,875
12,444
0,000 a
Predictors: (Constant), x3, x2, x1 Dependent Variable: Lernerfolg
Coefficients a Model
1
a
(Constant) x1 x2 x3
Unstandardized Coefficients
Standardized Coefficients
B
Std. Error
Beta
4,000 ±2,000 ±1,000 3,000
0,306 0,530 0,530 0,530
±0,632 ±0,316 0,949
t
Sig.
13,064 ±3,771 ±1.886 5,657
0,000 0,002 0,078 0,000
Dependent Variable: Lernerfolg
Erlåuterung Dem Output von REGRESSION sind einfacher und quadrierter multipler Korrelationskoeffizient sowie die Regressionsgewichte zu entnehmen, deren Bedeutung auf S. 485 erlåutert wird. Per Voreinstellung wird auûerdem eine Varianzanalyse berechnet (vgl. Beispiel E9). Mit dem Unterbefehl STATISTICS kænnen weitere bzw. andere Statistiken angefordert werden. Beispielsweise liefert ¹STATISTICS CHAª den Wert ¹R2 changeª, dem zu entnehmen ist, in welcher Weise sich die gemeinsamen Varianzen durch die sukzessive Aufnahme weiterer Prådiktorvariablen in die Modellgleichung veråndern (Nçtzlichkeit, vgl. S. 456 und E11). Mit dem Unterbefehl ¹STATISTICS ZPPª erhålt man einfache, semipartielle und partielle Korrelationen (vgl. S. 454 ff.). Der vollståndige SPSS-Programmbefehl heiût dann:
aE. Statistik mit SPSS
755
REGRESSION /VARIABLES= X1 X2 X3 Lernerfolg /STATISTICS DEFAULT CHA ZPP /DEPENDENT=Lernerfolg /METHOD=ENTER X1 /METHOD=ENTER X1 X2 /METHOD=ENTER X1 X2 X3.
Anmerkung Die oben beschriebene Berechnungsweise ist formal korrekt und kann mit jedem Statistikprogramm, das die Berechnung multipler Korrelationen erlaubt, durchgefçhrt werden (solche Programme gibt es zahlreich kostenlos im Internet). Die Konstruktion einer Designmatrix, d. h. die Umformung der Ausgangsdaten in Indikatorvariablen sowie die Interpretation der multiplen Korrelationen ist jedoch gelegentlich etwas umståndlich. Innerhalb von SPSS sei daher empfohlen, die GLM-Prozedur (General Linear Model/Allgemeines Lineares Modell) zur Berechnung allgemeiner linearer Modelle zu verwenden (vgl. Beispiele E6, E7, E8). Diese Prozedur ist eigens hierfçr vorgesehen. Die eigenståndige Konstruktion einer Designmatrix ist bei dieser Prozedur nicht notwendig ± dies geschieht automatisch wåhrend der Verarbeitung der Daten. Der analoge SPSS-Programmbefehl lautet: GLM Lernerfolg BY Unterricht /PRINT = PARAMETER. Die Teststatistiken der Parameter (t-Werte und Irrtumswahrscheinlichkeiten) sind bei der Prozedur ¹REGRESSIONª und ¹GLMª jedoch nur dann identisch, wenn fçr die Indikatorvariablen die Dummycodierung (vgl. S. 484) und nicht die Effektcodierung verwendet wurde.
756
Anhang
E 11. ALM: Zweifaktorielle hierarchische univariate Varianzanalyse (Beispiel S. 500) Kurzinformation Faktor A: Computerspiele (Indikatorvariable x1 bis x3 ), feste Stufen Faktor B: Kaufhåuser (Indikatorvariable x4 bis x11 ), zufållige Stufen AV: Bewertung
Dateneingabe Mæchte man die zweifaktorielle hierarchische univariate Varianzanalyse mittels Indikatorvariablen nach dem ALM berechnen und dafçr nicht die eigens hierfçr vorgesehene Prozedur GLM verwenden (vgl. Beispiel E6, S. 338 f.), so sind zunåchst eben jene effektcodierte Indikatorvariablen durch Datentransformationen zu produzieren. Werden die Variablen ¹Computerspielª, ¹Kaufhausª und ¹Bewertungª standardmåûig per DATA-LIST-Befehl eingegeben geschieht dies durch folgende Anweisungen (vgl. Beispiel E10): DATA LIST FIXED /Spiel 1 Kaufhaus 3-4 Bewertung 6-7. BEGIN DATA 117 119 1 1 12 117 126 125 . . .. . . .. 4 12 10 4 12 13 END DATA.
IF IF IF IF IF IF IF IF IF IF IF IF IF IF
(Spiel=1) (Spiel=2) (Spiel=3) (Spiel=4) (Spiel=4) (Spiel=4) (Spiel=1) (Spiel=1) (Spiel=1) (Spiel=1) (Spiel=2) (Spiel=2) (Spiel=2) (Spiel=2)
x1=1. x2=1. x3=1. x1=±1. x2=±1. x3=±1. AND (Kaufhaus=1) AND (Kaufhaus=2) AND (Kaufhaus=3) AND (Kaufhaus=3) AND (Kaufhaus=4) AND (Kaufhaus=5) AND (Kaufhaus=6) AND (Kaufhaus=6)
x4=1. x5=1. x4=±1. x5=±1. x6=1. x7=1. x6=±1. x7=±1.
757
aE. Statistik mit SPSS IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF
(Spiel=3) AND (Kaufhaus=7) x8=1. (Spiel=3) AND (Kaufhaus=8) x9=1. (Spiel=3) AND (Kaufhaus=9) x8=±1. (Spiel=3) AND (Kaufhaus=9) x9=±1. (Spiel=4) AND (Kaufhaus=10) x10=1. (Spiel=4) AND (Kaufhaus=11) x11=1. (Spiel=4) AND (Kaufhaus=12) x10=±1. (Spiel=4) AND (Kaufhaus=12) x11=±1. (sysmis(x1)) x1=0. (sysmis(x2)) x2=0. (sysmis(x3)) x3=0. (sysmis(x4)) x4=0. (sysmis(x5)) x5=0. (sysmis(x6)) x6=0. (sysmis(x7)) x7=0. (sysmis(x8)) x8=0. (sysmis(x9)) x9=0. (sysmis(x10)) x10=0. (sysmis(x11)) x11=0.
Syntax REGRESSION VAR= x1 to x11 Bewertung /STATISTICS=DEFAULTS R CHANGE COEFF /DEPENDENT=Bewertung /METHOD ENTER x1 x2 x3 /METHOD ENTER x4 x5 x6 x7 x8 x9 x10 x11.
Ausgabe Model Summary Model
1 2 a b
R
R Square
0,740 a 0,547 0,889 b 0,791
Adjusted R Square
Std. Error of the Estimate
Change Statistics R Square Change
F Change
df1
df2
Sig. F Change
0,516 0,727
2,714 2,038
0,547 0,244
17,713 5,258
3 8
44 36
0,000 0,000
Predictors: (Constant), x3, x2, x1 Predictors: (Constant), x3, x2, x1, x11, x9, x7, x5, x10, x8, x6, x4
758
Anhang
ANOVA a Model
Sum of Squares
df
Mean Square
F
Sig.
1
Regression Residual Total
391,500 324,167 715,667
3 44 47
130,500 7,367
17,713
0,000 b
2
Regression Residual Total
566,167 149,500 715,667
11 36 47
51,470 4,153
12,394
0,000 c
a b c
Dependent Variable: Bewertung Predictors: (Constant), x3, x2, x1 Predictors: (Constant), x3, x2, x1, x11, x9, x7, x5, x10, x8, x6, x5
Coefficients a Model
Unstandardized Coefficients
Standardized Coefficients
B
Std. Error
Beta
t
Sig.
1
(Constant) x1 x2 x3
11,083 ±3,750 ±1.250 1,000
0,392 0,679 0,679 0,679
±0,687 ±0,229 0,183
28,290 ±5,526 ±1,842 1,474
0,000 0,000 0,072 0,148
2
(Constant) x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11
11,083 ±3,750 ±1,250 1,000 1,417 ±1,083 ±2,583 0,667 ±1,083 3,417 ±0,083 2,417
0,294 0,509 0,509 0,509 0,832 0,832 0,832 0,832 0,832 0,832 0,832 0,832
±0,687 ±0,229 0,183 0,150 ±0,115 ±0,273 0,070 ±0,115 0,361 ±0,009 0,256
37,681 ±7,361 ±2,454 1,963 1,703 ±1,302 ±3,105 0,801 ±1,302 4,107 ±0,100 2,905
0,000 0,000 0,019 0,057 0,097 0,201 0,004 0,428 0,201 0,000 0,921 0,006
a
Dependent Variable: Bewertung
aE. Statistik mit SPSS
759
Erlåuterung Mehrere multiple Korrelationen kænnen durch einen einzigen Programmbefehl angewiesen werden, wenn im Unterbefehl METHOD = ENTER die Teilmenge der Variablen, die sukzessiv in die Regression eingehen sollen, spezifiziert wird. Im Beispiel wird zunåchst die multiple Korrelation der Indikatorvariablen x1, x2, x3, die den Faktor ¹Computerspielª repråsentieren, mit der AV-¹Bewertungª berechnet (R square ist dann R2Y;XA ). Anschlieûend wird die multiple Korrelation aller 11 Indikatorvariablen [x1 bis x3 fçr Faktor ¹Computerspielª, x4 bis x11 fçr Faktor ¹Kaufhaus (Computerspielª)] mit der AV-¹Bewertungª berechnet (R square ist dann R2Y;XA XB
A ). Mit diesen R2 -Werten errechnet man einfachheitshalber die benætigten F-Werte (z. B. nach Gl. 14.20 und 14.21) ¹per Handª. Der FB
A-Wert entspricht im SPSS-Output dem F-Change-Wert (5.258). Unter R Square change coefficient ist zu entnehmen, in welcher Weise sich die gemeinsamen Varianzen durch die sukzessive Aufnahme weiterer Prådiktorvariablen in die Modellgleichung veråndern. Ûber diesen Befehl låsst sich also die ¹Nçtzlichkeitª der Prådiktoren gem. Gl. (13.33) einfach ermitteln.
760
Anhang
E 12. Faktorenanalyse (PCA ohne Rotation) (Beispiel S. 520 f.) Kurzinformation Var: 6 Maûe fçr zylindrische Kærper
Dateneingabe Die Daten fçr den Durchmesser und die Långe der Zylinder in Tabelle 15.1 (S. 520) kænnen durch einen DATA-LIST-Befehl eingegeben werden. Die Daten fçr die anderen 4 beschreibenden Merkmale (Grundflåche, Mantelflåche, Volumen, Diagonale) werden dann nachfolgend aus dem Durchmesser und Långe durch sog. COMPUTE-Befehle in SPSS berechnet: DATA LIST FIXED /Durchmesser 1 Laenge 3. BEGIN DATA 12 22 32 .. .. 24 34 END DATA.
COMPUTE COMPUTE COMPUTE COMPUTE
Grundflaeche = 3.141592654 * Durchmesser**2 /4. Mantelflaeche = 3.141592654 * Durchmesser * Laenge. Volumen = 3.141592654 * Durchmesser**2 * Laenge /4. Diagonale = SQRT (Durchmesser**2 + Laenge**2).
Es ergibt sich dadurch die Korrelationsmatrix der 6 Zylindermerkmale in Tabelle 15.2 (S. 521).
Syntax FACTOR VAR=Durchmesser Laenge Grundflaeche Mantelflaeche Volumen Diagonale /PRINT=CORRELATION DEFAULT /PLOT=EIGEN /ROTATION=NOROTATE /SAVE=REG(all fakw). LIST fakw1 fakw2.
761
aE. Statistik mit SPSS
Ausgabe Correlation Matrix
Correlation
Durchmesser Långe Grundflåche Mantelflåche Volumen Diagonale
Durchmesser
Långe
Grundflåche
Mantelflåche
Volumen
Diagonale
1,000 0,000 0,990 0,812 0,895 0,556
0,000 1,000 0,000 0,541 0,348 0,823
0,990 0,000 1,000 0,803 0,905 0,558
0,812 0,541 0,803 1,000 0,969 0,874
0,895 0,348 0,905 0,969 1,000 0,767
0,556 0,823 0,558 0,874 0,767 1,000
Communalities
Durchmesser Långe Grundflåche Mantelflåche Volumen Diagonale
Initial
Extraction
1,000 1,000 1,000 1,000 1,000 1,000
0,986 1,000 0,987 0,976 0,970 0,975
Extraction Method: Principal Component Analysis.
Total Variance Explained Component Initial Eigenvalues
1 2 3 4 5 6
Extraction Sums of Squared Loadings
Total
% of Variance
Cumulative Total %
% of Variance
Cumulative %
4,435 1,459 0,087 0,018 0,000 0,000
73,922 24,315 1,450 0,303 0,006 0,003
73,922 98,237 99,687 99,990 99,997 100,000
73,922 24,315
73,922 98,237
Extraction Method: Principal Component Analysis.
4,435 1,459
762
Anhang
Component Matrix a Component
Durchmesser Långe Grundflåche Mantelflåche Volumen Diagonale
1
2
0,881 0,461 0,881 0,983 0,978 0,864
±0,458 0,887 ±0,459 0,100 ±0,115 0,478
Extraction Method: Principal Component Analysis 2 components extracted.
a
1 2 3 4 5 6 7 8 9
26 27
fakw1 -1,44889 -0,63106 0,42747 -1,01467 -0,10050 1,09605 -0,57233 0,45106 1,79288 . . 0,45106 1,79288
fakw2 -0,59173 -1,01363 -1,57793 0,51988 0,04028 -0,59228 1,64514 1,12948 0,44080 . . 1,12948 0,44080
Number of cases read: 27
Number of cases listed: 27
aE. Statistik mit SPSS
763
Erlåuterung Die Prozedur FACTOR von SPSS berechnet Faktorenanalysen nach verschiedenen Extraktions- und Rotationsverfahren. Fçr die in das Faktorenmodell eingehenden Variablen [VAR = Durchmesser, Långe, . . . ] kann die Matrix der paarweisen Interkorrelationen zusåtzlich zum Standardoutput angefordert werden durch \PRINT=CORRELATION DEFAULT. Die Ergebnisse des ersten faktorenanalytischen Berechnungsschrittes, der die Extraktion von ebensovielen Faktoren wie Variablen beinhaltet, erscheinen im Output unter der Ûberschrift Communalities. Ausgegeben werden die Kommunalitåten h2 fçr die einzelnen z-standardisierten Variablen, die fçr das vollståndige ± hier nach der Hauptkomponentenanalyse (Principal-Components Analysis ist die Default-Einstellung) extrahierte ± Faktorenmodell den Wert 1 haben (Initial). Unter Extraction ergeben sich die Kommunalitåten in der Ausgangslæsung durch das Quadrieren einer multiplen Korrelation, die sich ergibt, wenn man den jeweiligen Faktor als Kriteriumsvariable und die jeweils anderen Faktoren als Prådiktoren in einer Regression verwendet. Man erkennt hier, wie gut ein Faktor (bzw. eine Variable in der Ausgangslæsung) durch alle anderen Faktoren (Variablen) erklårt wird. In der Tabelle Total Variance Explained werden fçr die Ausgangslæsung (Initial Eigenvalues) und die rotierte Faktorlæsung (Extraction Sums of Squared Loadings) fçr jeden der Faktoren Eigenwert (Total), Prozentanteil der aufgeklårten Varianz (% of Variance) sowie die kumulierten Prozentanteile (Cumulative %) berechnet. Fçr die Bestimmung der Anzahl der substantiellen Faktoren (s. Kap. 15.4) zieht die Prozedur FACTOR per Voreinstellung das Kaiser-Guttman-Kriterium heran und çbernimmt alle Faktoren mit Eigenwerten > 1. Als Entscheidungshilfe wird mit dem Unterbefehl /PLOT=EIGEN vom Programm ein Eigenwertediagramm (Scree-Plot) angefordert, oder es kann eine vom Benutzer vordefinierte Faktorenzahl çbernommen werden. Dies ist zu empfehlen, denn in der Regel çberschåtzt das KG-Kriterium die Anzahl der bedeutsamen Faktoren (vgl. S. 544). Die Ergebnisse fçr das Læsungsmodell mit zwei PCA-Faktoren sind in der Tabelle Component Matrix zusammengefasst, der die Faktorladungen entnommen werden kænnen. Der Faktorenextraktion kann eine Rotation angeschlossen werden, die im orthogonalen Fall eine rotierte Faktorladungsmatrix (Rotated Component Matrix) sowie eine Component Transformation Matrix im Output produziert. Eine Varimax-Rotation (vgl. E 13) erhålt man durch den Unterbefehl /ROTATION =VARIMAX. Die Faktorwerte einzelner Personen oder Objekte kænnen unter einem selbst gewåhlten Namen als Variable gesichert [SAVE=REG (all fakw)] und mit dem LIST-Befehl [LIST fakw1 fakw2] angezeigt werden.
764
Anhang
E 13. Faktorenanalyse (Varimax-Rotation) mit Matrix-Eingabe (Beispiel S. 552 f.) Kurzinformation Variablen: 18 bipolare Adjektive zur Beurteilung von Sprechstimmen
Dateneingabe Die Prozedur FACTOR berechnet Faktorenanalysen nicht nur auf Basis von Rohdaten (vgl. E 12), sondern auch auf Basis von Korrelationsmatrizen oder Faktorladungsmatrizen. Im Beispiel (S. 553) sind die Rohdaten der 18 Adjektivpaare nicht angegeben, sondern lediglich die Faktorladungen der 3 Faktoren. Diese kænnen mit dem SPSS-Befehl ¹/MATRIX=IN(FAC=*)ª (s. unten) innerhalb der Prozedur FACTOR eingelesen werden. Dabei muss jedoch die Datendatei, welche die Matrix der Faktorladungen enthålt, bestimmte Formatvorgaben befolgen: Sie muss eine Textvariable (String) namens ¹ROWTYPE_ª enthalten (der Variablenname ist nicht beliebig!), die exakt 8 Zeichen umfasst und als Variablenwert fçr jeden Faktor den Text ¹FACTORª enthålt. Des Weiteren ist eine Variable namens ¹FACTOR_ª erforderlich, die als Wert jeweils die Faktornummer enthålt, gefolgt von den Variablen der Faktorenanalyse (hier 18 Adjektivpaare). Der nachfolgende DATA-LIST-Befehl definiert die nætigen Variablen und Daten zur Berechnung des Zahlenbeispiels. Der Einfachheit halber wurde hier statt DATA LIST FIXED der Befehl DATA LIST FREE verwendet. Der Unterschied ist, dass keine fixierten Spaltenpositionen fçr die Variablen angegeben werden mçssen, sondern die Variablen einfach in der im DATA-LISTBefehl angegebenen Reihenfolge eingelesen werden. Die Variablenwerte nach BEGIN DATA mçssen lediglich durch jeweils ein Leerzeichen voneinander getrennt sein. Der Zusatz ¹(A8)ª hinter ¹ROWTYPE_ª definiert eine Zeichenvariable (String), die aus 8 Zeichen besteht. DATA LIST FREE /ROWTYPE_ (A8) FACTOR_ V1 TO V18. BEGIN DATA FACTOR 1 0,73 0,19 0,69 0,70 -0,63 0,67 0,16 0,90 0,88 0,61 0,89 -0,39 -0,67 -0,79 0,43 0,84 0,36 -0,29 FACTOR 2 -0,44 0,85 -0,02 0,20 0,65 0,23 0,93 -0,37 0,27 0,46 0,14 -0,81 0,64 0,50 0,35 -0,38 0,76 -0,85 FACTOR 3 0,04 0,01 -0,65 0,00 -0,06 -0,64 0,02 0,06 0,24 0,48 0,08 -0,03 -0,12 -0,15 -0,72 0,16 0,43 0,01 END DATA.
Syntax FACTOR /MATRIX=IN(FAC=*) /ROTATION=VARIMAX.
765
aE. Statistik mit SPSS
Ausgabe Component Matrix Component
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18
1
2
3
0,730 0,190 0,690 0,700 ±0,630 0,670 0,160 0,900 0,880 0,610 0,890 ±0,390 ±0,670 ±0,790 0,430 0,840 0,360 ±0,290
±0,440 0,850 ±0,020 0,200 0,650 0,230 0,930 ±0,370 0,270 0,460 0,140 ±0,810 0,640 0,500 0,350 ±0,380 0,760 ±0,850
0,040 0,010 ±0,650 0,000 ±0,060 ±0,640 0,020 0,060 0,240 0,480 0,080 ±0,030 ±0,120 ±0,150 ±0,720 0,160 0,430 0,010
Communalities Reproduced V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18
0,728 0,759 0,899 0,530 0,823 0,911 0,891 0,951 0,905 0,814 0,818 0,809 0,873 0,897 0,826 0,876 0,892 0,807
766
Anhang
Total Variance Explained Component Reproduced Sums of Squared Loadings Rotation Sums of Squared Loadings
1 2 3
Total
% of Variance
Cumulative %
Total
% of Variance
Cumulative %
7,484 5,621 1,903
41,580 31,225 10,570
41,580 72,805 83,375
6,673 5,475 2,859
37,073 30,419 15,883
37,073 67,492 83,375
Rotated Component Matrix a Component
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18
1
2
3
0,834 ±0,252 0,419 0,488 ±0,858 0,284 ±0,313 0,947 0,666 0,409 0,696 0,060 ±0,902 ±0,941 0,004 0,928 0,042 0,173
±0,076 0,804 0,030 0,445 0,288 0,240 0,864 0,057 0,657 0,796 0,495 ±0,855 0,243 0,067 0,221 0,059 0,937 ±0,836
0,164 0,222 0,850 0,307 ±0,068 0,880 0,216 0,224 0,173 ±0,113 0,297 ±0,274 ±0,031 ±0,076 0,882 0,109 ±0,109 ±0,279
Rotation Method: Varimax with Kaiser Normalization. Rotation converged in 5 iterations.
a
Component Transformation Matrix Component
1
2
3
1 2 3
0,835 ±0,486 0,257
0,391 0,854 0,342
0,386 0,186 ±0,904
Rotation Method: Varimax with Kaiser Normalization.
aE. Statistik mit SPSS
767
Erlåuterung Die Faktorladungsmatrix wird nach dem Einlesen unter Component Matrix erneut ausgedruckt. Auûerdem werden die Kommunalitåten in der Tabelle Communalities reproduziert. In der Tabelle Total Variance Explained findet sich eine Darstellung der Eigenwerte (Total), des Prozentanteils der aufgeklårten Varianz (% of Variance) sowie der kumulierten Prozentanteile (Cumulative %) aller Faktoren, einmal fçr die unrotierte (bzw. PCA-rotierte) und einmal fçr die Varimax-rotierte Læsung (unter Rotation Sums of Squared Loadings). Die Varimax-rotierte Faktorlæsung findet sich schlieûlich unter Rotated Component Matrix. Da sich die Kommunalitåten durch die Rotation der Achsen nicht veråndern, werden sie nicht erneut ausgegeben. Zusåtzlich liefert die Prozedur FACTOR eine Transformationsmatrix (Component Transformation Matrix), durch deren Multiplikation mit der PCA-Faktorladungsmatrix die Varimax-rotierte Ladungsmatrix generiert wird (s. Gl. 15.65). Angemerkt sei, dass bei Faktorenanalysen auf der Basis von Korrelations- oder Faktorladungsmatrizen natçrlich keine Faktorwerte berechnet bzw. geschåtzt werden kænnen, da hierzu die einzelnen Messwerte, d. h. die Rohdaten bekannt sein mçssen.
768
Anhang
E 14. Cluster-Analyse nach der Ward-Methode (Beispiel S. 575 f.) Kurzinformation p = 2 Merkmale, n = 6 Objekte
Dateneingabe DATA LIST FIXED /X1 1 X2 3. BEGIN DATA 24 01 11 32 40 22 END DATA.
Syntax CLUSTER X1 X2 /METHOD=WARD /PRINT=DISTANCE SCHEDULE /PLOT=DENDROGRAM.
Ausgabe Proximity Matrix Case
1 2 3 4 5 6
Squared Euclidean Distance 1
2
3
4
5
6
0,000 13,000 10,000 5,000 20,000 4,000
13,000 0,000 1,000 10,000 17,000 5,000
10,000 1,000 0,000 5,000 10,000 2,000
5,000 10,000 5,000 0,000 5,000 1,000
20,000 17,000 10,000 5,000 0,000 8,000
4,000 5,000 2,000 1,000 8,000 0,000
This is a dissimilarity matrix
769
aE. Statistik mit SPSS Agglomeration Schedule Stage
1 2 3 4 5
Cluster Combined Cluster 1
Cluster 2
4 2 1 1 1
6 3 4 2 5
Coefficients
0,500 1,000 3,833 11,200 19,333
Stage Cluster First Appears Next Stage Cluster 1
Cluster 2
0 0 0 3 4
0 0 1 2 0
3 4 4 5 0
Dendrogram using Ward Method
Erlåuterung Hierarchische agglomerative Clusteranalysen kænnen in SPSS mit der Prozedur CLUSTER berechnet werden, die verschiedene Agglomerationsmethoden (z. B. Single linkage, Complete linkage, Average linkage, Medianverfahren) anbietet. Bei der WARD-Methode werden zunåchst die quadrierten euklidischen Distanzen zwischen den einzelnen Elementenpaaren ausgedruckt. Nach Gleichung (16.9) kænnen diese Distanzen in Fehlerquadratsummen umgerechnet werden. Wegen ni ni0 1 auf der 1. Fusionsstufe entsprechen die Werte in Tabelle 16.3 a gem. Gl. (16.9) den halbierten Werten der quadrierten Distanzmatrix. Die sukzessive Fusionierung der einzelnen Elemente bzw. Cluster bei gleichzeitig minimaler Erhæhung der gesamten Fehlerquadratsumme ist tabellarisch in der Tabelle ¹Agglomeration Scheduleª dargestellt. Die erste Spalte enthålt die Ordnungszahlen der Fusionsstufen (Stage). Spalte 2 und 3 (Clusters combined) geben die Nummern derjenigen Elemente bzw. Cluster an, die auf der jeweiligen Fusionsstufe zusammengefasst werden. Die Fusionierung erfolgt bei der WARD-Methode nach dem Kriterium des minimalen Fehlerquadratsummenzuwachses, die kumulierten DQSFehler -Werte sind in Spalte 4 (Coefficient) genannt. Man erhålt diese Werte, indem man die fett gedruckten DQSFehler -Werte in den Tabellen 16.3 bis 16.7 sukzessiv addiert. Spalte 5 und 6 (Stage Cluster First Appears) geben fçr beide an der Fusion beteiligten Elemente bzw. Cluster an, auf welcher Fusionsstufe sie erstmals fusioniert wurden. Auf welcher Fusionsstufe das gebildete Cluster in eine weitere Fusion einbezogen wird, steht in Spalte 7 (Next stage). (Die durch die Fusionierungen modifizierten Datenmatrizen kænnen von SPSS nicht erzeugt werden.) Eine graphische Veranschaulichung der Clusterbildungen in Form eines liegenden Dendrogramms (Dendrogram using Ward method) ist mæglich. Die Ordinate gibt die Nummern der fusionierten Elemente an. Auf der Abszisse sind nicht die absoluten, sondern lediglich relative Fehlerquadratsummenzuwåchse abgetragen, da die DQSFehler - Werte auf einen Wertebereich von 0±25 gebracht werden (Rescaled Distance Cluster Combine). Bei groûen Fallzahlen benætigt die Prozedur CLUSTER erheblichen Speicherplatz und viel Rechenzeit. Deshalb bietet das System ergånzend die Funktion QUICK CLUSTER an, die auch groûe Fallzahlen effizient bearbeitet und dabei die Methode des nearest centroid sorting (Anderberg, 1973) einsetzt.
770
Anhang
E 15. Einfaktorielle multivariate Varianzanalyse (Beispiel S. 595) Kurzinformation UV: Schicht
AV1: Satzlånge
AV2: Wortwahl
AV3: Satzkonstruktion
Dateneingabe DATA LIST FIXED /Schicht 1 Satzlaenge 3 Wortwahl 5 Satzkonstruktion 7. BEGIN DATA 1334 1443 1446 1255 1245 1346 2344 2255 2436 2556 3457 3464 3366 3476 3656 END DATA.
Syntax GLM Satzlaenge Wortwahl Satzkonstruktion BY Schicht.
771
aE. Statistik mit SPSS
Ausgabe Multivariate Tests a Effect
Value
F
Hypothesis df
Error df
Sig.
Intercept Pillai's Trace Wilks' Lambda Hotelling's Trace Roy's Largest Root
0,990 0,010 104,246 104,246
347,487 b 347,487 b 347,487 b 347,487 b
3,000 3,000 3,000 3,000
10,000 10,000 10,000 10,000
0,000 0,000 0,000 0,000
0,717 0,297 2,321 2,300
2,049 2,784 b 3,481 8,435 c
6,000 6,000 6,000 3,000
22,000 20,000 18,000 11,000
0,102 0,039 0,018 0,003
Schicht
a b c
Pillai's Trace Wilks' Lambda Hotelling's Trace Roy's Largest Root
Design: Intercept + Schicht Exact statistic The statistic is an upper bound on F that yields a lower bound on the significance level
Test of Between-Subjects Effects Source
Dependent Variable
Corrected Model
Satzlånge Wortwahl Satzkonstruktion
Intercept
Satzlånge Wortwahl Satzkonstruktion
Schicht
3,933 a 9,783 b 2,550 c
df
Mean Square
F
Sig.
2 2 2
1,967 4,892 1,275
1,710 7,775 1,064
0,222 0,007 0,376
185,659 320,112 409,103
1 1 1
185,659 320,112 409,103
161,443 508,788 341,314
0,000 0,000 0,000
Satzlånge Wortwahl Satzkonstruktion
3,933 9,783 2,550
2 2 2
1,967 4,892 1,275
1,710 7,775 1,064
0,222 0,007 0,376
Error
Satzlånge Wortwahl Satzkonstruktion
13,800 7,550 14,383
12 12 12
1,150 0,629 1,199
Total
Satzlånge Wortwahl Satzkonstruktion
205,000 344,000 433,000
15 15 15
Corrected Total
Satzlånge Wortwahl Satzkonstruktion
17,733 17,333 16,933
14 14 14
a b c
Type III Sum of Squares
R Squared = 0,222 (Adjusted R Squared = 0,092) R Squared = 0,564 (Adjusted R Squared = 0,492) R Squared = 0,151 (Adjusted R Squared = 0,009)
772
Anhang
Erlåuterung Multivariate Varianzanalysen werden in SPSS durch die Prozedur GLM angefordert (vgl. E 6, E 7, E 8). GLM berechnet die vier multivariaten Teststatistiken Pillai's PS, Wilks K, Hotelling's T und Roy's græûten Eigenwert k (s. Tabelle 17.5). In der Tabelle Multivariate Tests werden die Teststatistiken (Value) in annåhernd F-verteilte Werte transformiert, deren Zåhlerfreiheitsgrade (Hypothesis DF) und Nennerfreiheitsgrade (Error DF) ausgewiesen sind und die anhand ihrer Irrtumswahrscheinlichkeiten (Sig.) auf Signifikanz geprçft werden kænnen. Im hier verwendeten Beispiel kommen die vier Prçfverfahren zu unterschiedlichen Ergebnissen. Bei der Wahl zwischen den genannten Prçfgræûen kann man sich daran orientieren, dass die Teststårke der Verfahren in der Reihenfolge ihrer Ausgabe abnimmt, d. h., Pillai's PS ist der stårkste Test; bei kleinen Stichproben reagiert er ± wie im Beispiel ± allerdings konservativ. In der Tabelle Multivariate Tests wird neben Intercept (Konstante) auch die Nullhypothese geprçft, der Gesamtmittelwerte-Vektor unterscheidet sich vom Nullvektor. Wie bei der univariaten Varianzanalyse (vgl. E 6) ist diese Information jedoch von geringer Bedeutung, da Untersuchungen in der Regel nicht so angelegt sind, dass Gesamtmittelwerte von Null erwartet werden. Neben den multivariaten Signifikanztests bietet GLM per Voreinstellung auch univariate Signifikanztests fçr jede abhångige Variable einzeln an. In der Tabelle Tests of Between-Subjects Effects werden neben Schicht die Quadratsummen (Type III Sum of Squares), Freiheitsgrade (df), Varianzen (Mean square), F-Werte (F) und Irrtumswahrscheinlichkeiten (Sig.) ausgegeben. Ist der multivariate Test signifikant, so kænnen die univariaten Tests Hinweise darauf geben, welche abhångigen Variablen zur Overall-Signifikanz beitragen. Es sei allerdings darauf hingewiesen, dass dieser Rçckschluss bei korrelierten abhångigen Variablen aufgrund von Suppressionseffekten (vgl. S. 457) problematisch sein kann. Neben Intercept wird erneut univariat die Nullhypothese çberprçft, ob sich der Gesamtmittelwert einer abhångigen Variablen von Null unterscheidet. Wie erwåhnt fçhrt dies nur zu einer sinnvoll interpretierbaren Information, wenn die Untersuchung so geplant war, dass ein Gesamtmittelwert von Null zu erwarten wåre, wenn es keinen Effekt gibt. Zusåtzlich werden in der Fuûzeile der Tabelle Tests of Between-Subjects Effects die univariaten Varianzerklårungen wiedergegeben.
773
aE. Statistik mit SPSS
E 16. Diskriminanzanalyse (Beispiel S. 614 ff.) Kurzinformation UV: Schicht
AV1: Satzlånge
AV2: Wortwahl
AV3: Satzkonstruktion
Dateneingabe DATA LIST FIXED /Schicht 1 Satzlaenge 3 Wortwahl 5 Satzkonstruktion 7. BEGIN DATA 1334 1443 1446 1255 1245 1346 2344 2255 2436 2556 3457 3464 3366 3476 3656 END DATA.
Syntax DISCRIMINANT /GROUPS=Schicht(1 3) /VARIABLES=Satzlaenge Wortwahl Satzkonstruktion /ANALYSIS ALL /STATISTICS RAW.
Ausgabe Eigenvalues Function
Eigenvalue
% of Variance
Cumulative %
Canonical Correlation
1 2
2,300 a 0,020 a
99,1 0,9
99,1 100,0
0,835 0,141
a
First 2 canonical discriminant functions were used in the analysis
774
Anhang
Wilk's Lambda Test of Functions(s)
Wilk's Lambda
Chi-Square
df
Sig.
1 through 2 2
0,297 0,980
13,357 0,222
6 2
0,038 0,895
Standardized Canonical Discriminant Function Coefficients Function
Satzlånge Wortwahl Satzkonstruktion
1
2
0,627 0,961 0,237
0,527 ±0,439 0,539
Structure Matrix Function
Wortwahl Satzlånge Satzkonstruktion
1
2
0,748 * 0,345 0,271
±0,633 0,734 * 0,622 *
Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions. Variables ordered by absolute size of correlation within function. * Largest absolute correlation between each variable and any discriminant function
Canonical Discriminant Function Coefficients Function
Satzlånge Wortwahl Satzkonstruktion (Constant)
1
2
0,585 1,212 0,217 ±8,863
0,492 ±0,553 0,493 ±1,750
Unstandardized coefficients
775
aE. Statistik mit SPSS Functions at Group Centroids Schicht
1 2 3
Function 1
2
±1,214 ±0,528 1,879
±0,107 0,206 ±0,037
Unstandardized canonical discriminant functions evaluated at group means
Erlåuterung Einfaktorielle Diskriminanzanalysen kænnen in SPSS mit der Prozedur DISCRIMINANT durchgefçhrt werden: Hinter dem Prozeduraufruf DISCRIMINANT erwartet das System nach dem Unterbefehl ¹/GROUPS=ª eine nominalskalierte Gruppierungsvariable (die unabhångige Variable), deren Wertebereich in Klammern anzugeben ist. Auf den ebenfalls obligatorischen Unterbefehl ¹/VARIABLES=ª hat die Liste der intervallskalierten oder dichotomen abhångigen Variablen zu folgen. Die Kennzeichnung der Gruppierungsvariable als UV und der çbrigen Variablen als AV entspricht dem Denkmodell der multivariaten Varianzanalyse. Gelegentlich werden die hier als abhångig bezeichneten Variablen jedoch im Sinn des Denkmodells der multiplen Regression als Prådiktoren aufgefasst, die eben das Kriterium Gruppenzugehærigkeit vorhersagen (Brosius, 1989; NorusÏis, 1986). Inhaltlich ist jedoch das Gleiche gemeint. Durch zusåtzliche Steuerbefehle kænnen in DISCRIMINANT unterschiedliche Methoden zur Bestimmung von Diskriminanzfunktionen ausgewåhlt, Kriterien fçr die Aufnahme oder das Entfernen von Variablen aus der Gleichung spezifiziert sowie ergånzende Statistiken angefordert werden, die hier nicht im Einzelnen dargestellt werden kænnen. Per Voreinstellung verfåhrt das System so, dass alle AV gleichzeitig in das Modell aufgenommen werden. Der voreingestellte Standardoutput liefert unter der Ûberschrift Eigenvalues die Eigenwerte, den durch den Diskriminanzfaktor aufgeklårten Varianzanteil (% of variance), die kumulierte Varianzerklårung sowie den kanonischen Korrelationskoeffizienten (Canonical correlation), der sich gem. Gl. (19.45) zu q k2i
k ergibt. Zur Signifikanzprçfung wird in der nåchsten Tabelle Wilk's Lambda berechnet, und zwar zunåchst fçr alle Diskriminanzfunktionen des Modells (1 through 2). Im Output ist direkt unter diesem Ergebnis, das sich auf das gesamte Diskriminanzpotential bezieht, dann der Lambda-Wert zu finden, der sich nach der Extraktion des ersten Diskriminanzfaktors ergibt (neben Test of Function(s): 2). Den zugehærigen v2 -Werten (Chi-square) und ihren Irrtumswahrscheinlichkeiten (Sig.) ist zu entnehmen, welche und wieviele Diskriminanzfunktionen bedeutsam sind. Die Eigenvektoren (V ) sind im SPSS-Output nicht enthalten. Die Diskriminanzkoeffizienten werden per Voreinstellung standardisiert ausgegeben (Standardized canonical discriminant function coefficients), kænnen aber mit dem Unterbefehl ¹/STATISTICS RAWª auch unstandardisiert angefordert werden (Canonical discriminant function coefficients). Mit Hilfe dieser Diskriminanzkoeffizienten lassen sich die Faktorwerte der Messwerttråger auf den Diskriminanzfaktoren berechnen (s. Gl. 18.27 a). Die standardisierten Diskriminanzkoeffizienten findet man im Beispiel (S. 616) als Matrix E und die nichtstandardisierten als Matrix B. Als Indikatoren der Bedeutsamkeit der einzelnen Variablen fçr die Diskriminanzfaktoren sind die Diskriminanzkoeffizienten weniger geeignet (vgl. S. 611). Tauglichere Informationen hierfçr sind der ¹Structure matrixª zu entnehmen. Sie gibt die Korrelationen zwischen den diskriminierenden Variablen
776
Anhang
(AV) einerseits und den Diskriminanzfaktoren andererseits, also die Faktorladungen, wieder (Pooledwithin-groups correlations between discriminating variables and canonical discriminant functions). Diese Faktorladungen sind auf S. 616 als Matrix A aufgefçhrt. Der Standardoutput kennzeichnet die Diskriminanzfunktionen (die wir ± um einer Verwechslung mit den auf S. 623 behandelten Klassifikationsfunktionen vorzubeugen ± als Diskriminanzfaktoren bezeichnen) zunåchst durch ihre Bedeutsamkeit (Varianzanteile, Signifikanzen) und Interpretierbarkeit (Faktorladungen) und gibt schlieûlich unter dem Titel Functions at Group Centroids die Mittelwerte der Diskriminanzfaktorwerte der Gruppen (Gruppenzentroide) an, denen zu entnehmen ist, wie gut die Gruppen durch die Faktoren getrennt werden (vgl. Matrix F auf S. 616).
777
aE. Statistik mit SPSS
E 17. Kanonische Korrelation (Beispiel S. 637 ff.) Kurzinformation Kriterium 1: Intelligenz Prådiktor 1: Stirnhæhe
Kriterium 2: Aufrichtigkeit Prådiktor 2: Augenabstand
Prådiktor 3: Mundbreite
Dateneingabe Bei der Berechnung kanonischer Korrelationen mit SPSS Version 12 ist zu beachten, dass hier keine langen Variablennamen verwendet werden kænnen, sondern diese maximal 8 Zeichen lang sein dçrfen. DATA LIST FIXED /Stirn 1-2 Augen 4 Mund 6 Intell 8-10 Aufri 12-13. BEGIN DATA 14 2 5 108 18 15 2 3 098 17 12 2 3 101 22 10 3 4 111 23 12 2 6 113 19 11 3 3 095 19 16 3 4 096 15 13 4 4 105 21 13 2 5 092 17 15 3 4 118 19 END DATA.
Syntax Fçr kanonische Korrelationsanalysen steht in SPSS leider keine eigene Prozedur zur Verfçgung (in den meisten anderen Statistikprogrammen wie z. B. ¹SASª oder ¹Rª ist das der Fall). Allerdings bietet SPSS ein eigens fçr diesen Zweck erstelltes SPSS-Makro an, das die Berechnungen durchfçhrt und die fçr kanonische Korrelationsanalysen wesentlichen Ausgaben produziert. Dieses Makro muss vor der eigentlichen Analyse mit einem INCLUDE-Befehl aufgerufen werden (unter [Pfad zum SPSS Installationsverzeichnis] muss man den Pfad zu dem Verzeichnis, in dem SPSS installiert wurde, angeben. Zum Beispiel: ¹C:\Programme\SPSS12ª). INCLUDE FILE [Pfad zum SPSS Installationsverzeichnis]\Canonical correlation.sps`. CANCORR SET1=Stirn Augen Mund / SET2=Intell Aufri /.
778
Anhang
Ausgabe 1) Correlations for Set-1 Stirn Stirn 1,0000 Augen -0,0499 Mund -0,0058
Augen -0,0499 1,0000 -0,2557
2) Correlations for Set-2 Intell Intell 1,0000 Aufri 0,4449
Aufri 0,4449 1,0000
Mund -0,0058 -0,2557 1,0000
3) Correlations Between Set-1 and Set-2 Intell Aufri Stirn -0,0852 -0,7592 Augen 0,1430 0,2595 Mund 0,3648 -0,1825 4) Canonical Correlations 1 0,901 2 0,439 5) Test that remaining correlations are zero: Wilk's Chi-SQ DF 1 0,152 11,311 6,000 2 0,807 1,287 2,000 6) Standardized Canonical Coefficients for Set-1 1 2 Stirn 0,881 0,319 Augen -0,069 -0,581 Mund 0,448 -0,898 7) Raw Canonical Coefficients for Set-1 1 2 Stirn 0,461 0,167 Augen -0,099 -0,831 Mund 0,451 -0,903 8) Standardized Canonical Coefficients for Set-2 1 2 Intell 0,582 -0,953 Aufri -1,112 -0,097 9) Raw Canonical Coefficients for Set-2 1 2 Intell 0,067 -0,110 Aufri -0,454 -0,040 10) Canonical Loadings for Set-1 1 2 Stirn 0,882 0,353 Augen -0,228 -0,368 Mund 0,461 -0,751 11) Cross Loadings for Set-1 1 Stirn 0,795 Augen -0,205 Mund 0,415
2 0,155 -0,162 -0,330
12) Canonical Loadings for Set-2 1 2 Intell 0,087 -0,996 Aufri -0,853 -0,521 13) Cross Loadings for Set-2 1 Intell 0,079 Aufri -0,769
2 -0,438 -0,22
Sig. 0,079 0,525
aE. Statistik mit SPSS
779
Redundancy Analysis: 14) Proportion of Variance of Set-1 Explained by Its Own Can. Var. Prop Var CV1-1 0,348 CV1-2 0,274 15) Proportion of Variance of Set-1 Explained by Opposite Can. Var. Prop Var CV2-1 0,282 CV2-2 0,053 16) Proportion of Variance of Set-2 Explained by Its Own Can. Var. Prop Var CV2-1 0,368 CV2-2 0,632 17) Proportion of Variance of Set-2 Explained by Opposite Can. Var. Prop Var CV1-1 0,299 CV1-2 0,122
Erlåuterung Zur Vereinfachung der Erlåuterungen wurden die Ausgabetabellen nummeriert. In den Tabellen 1-4 erhålt man bivariate Korrelationen innerhalb und zwischen den Prådiktoren und Kriterien sowie die 2 mæglichen kanonischen Korrelationen. Tabelle 5 enthålt den Signifikanztest gemåû Gl. 19.44. Die V*und W*-Matrix findet sich in den Tabellen 6 und 8 bzw. in ihrer unstandardisierten Form in den Tabellen 7 und 9 wieder. Analog hierzu werden in den Tabellen 10±13 die Ladungsmatrizen ausgegeben. Die Redundanzanalyse enthalten schlieûlich die Tabellen 14±17. Tabelle 14 und 16 informieren çber den Anteil erklårter Varianz innerhalb der Prådiktoren bzw. innerhalb der Kriterien. In Tabelle 15 und 17 wird jeweils der Anteil an erklårter Varianz der Prådiktoren auf Basis der Kriterien bzw. der Kriterien auf Basis der Prådiktoren geliefert. Der erste Kriteriumsfaktor fçhrt daher zu einer Redundanz von 0,282 oder 28,2% und der erste Prådiktorfaktor zu einer Redundanz von 0,299 oder 29,9%.
781
F. Verzeichnis der wichtigsten Abkçrzungen und Symbole
A A0 A 1 Ai Ai a
ayx ; axy ai aij ABij ABij 0 ABij
allgemeine Bezeichnung fçr einen Faktor in der Varianzanalyse (S. 249) Transponierte der Matrix A (S. 713) Inverse der Matrix A (S. 720) Summe der Messungen unter einer Faktorstufe ai (S. 249) Mittelwert der Messungen unter einer Faktorstufe ai (S. 249) Regressionskoeffizient (Hæhenlage) (S. 188 f.) Stufe i eines Faktors A (S. 249) Ladung der Variablen i auf dem Faktor j (S. 519) Summe der Messwerte unter der Faktorstufenkombination abij (S. 291) Mittelwert der Messungen unter der Faktorstufenkombination abij (S. 292) Mittelwert der Faktorstufenkombination abij bei additiver Wirkung der Faktoren A und B (S. 294) a; b; c; d Håufigkeiten einer Vierfeldertafel (S. 168) AD Streuungsmaû (¹average deviationª) (S. 41) adj
A Adjunkte der Matrix A (S. 721) AM arithmetisches Mittel (auch x) (S. 37) a Signifikanzniveau (S. 114) a Reliabilitåtskoeffizient von Cronbach (S. 559) a Potenzmoment (S. 46) a0 adjustiertes a-Niveau (S. 272) der mit einer Stufe ai verbundene Effekt (S. 416) ai a-Fehler falsche Entscheidung zugunsten von H1 (S. 110 f.)
B B Bj Bj b
byx ; bxy bi b0i bj B
A b 1 b
Prçfgræûe des Box-Tests (S. 619) allgemeine Bezeichnung fçr einen Faktor in der Varianzanalyse (S. 291) Summe der Messwerte unter einer Faktorstufe bj (S. 292) Mittelwert der Messungen unter einer Faktorstufe bj (S. 202) Regressionskoeffizient (Steigung der Regressionsgeraden) (S. 188 f.) standardisierte Beta-Gewichte in einer multiplen Regressionsgleichung (S. 449) Rohwertgewichte in der multiplen Regressionsgleichung (S. 449) Stufe j eines Faktors b (S. 291) unter Faktor A geschachtelter Faktor B (S. 389) Wahrscheinlichkeit, eine richtige H1 zu verwerfen (S. 121) Teststårke (S. 123)
782
Anhang
C Cjk Cjm c ci ci CI cov
x; y CR v2k
Kontingenzkoeffizient (S. 235) Øhnlichkeitskoeffizient fçr 2 Faktoren j und k (S. 554) Klassifikationskoeffizient der Person m fçr die Gruppe j (S. 623) beliebige Konstante Gewichtungskoeffizient der Faktorstufe ai fçr einen Einzelvergleich (Kontrast) (S. 264) Strukturkoeffizient der Variablen i (S. 453) Cramrs Index (S. 235) Kovarianz zweier Variablen x und y (S. 189) kanonische Korrelation (S. 628) (griech.: chi) v2 -Variable mit k Freiheitsgraden (S. 79)
D Dp dAB di dij dMC dNC dNN df Diffcrit Dcrit DQSFehler
Einzelvergleich oder Kontrast (S. 264) Symbol zur Kennzeichnung eines Faktors A mit fester Stufenauswahl
Dp 0 bzw. zufålliger Stufenauswahl
Dp 1 (S. 421) Distanz zweier Objekte A und B (S. 569) Differenz
xi1 xi2 (S. 144) Element der D-Matrix (Matrix der Quadratsummen und der Kreuzproduktsummen) (S. 531) Objektdistanz nach der ¹Minimum v2 -Regelª (S. 581) Objektdistanz nach der ¹Nearest-centroidª-Regel (S. 581) Objektdistanz nach der ¹Nearest-neighborª-Regel (S. 581) Freiheitsgrade (degrees of freedom) kritische Differenz nach dem Scheff-Test (S. 275) (griech.: delta) Konfidenzintervall (S. 102) Erhæhung der Fehlerquadratsumme bei der Ward-Methode (S. 575)
e Ex E
X e e eim g g2
mathematische Konstante
e 2;7182818 Exzess einer Verteilung (S. 46) Erwartungswert der Zufallsvariablen X (S. 705) (griech.: epsilon) Parameter fçr eine Effektgræûe (S. 120 f.) Korrekturfaktor fçr Freiheitsgrade (¹Epsilon-Korrekturª) (S. 355) die mit einer Messung xim verbundene Fehlerkomponente (S. 412) (griech.: eta) endogene Variable im LISREL-Ansatz (S. 476) deskriptives Maû fçr den erklårten Varianzanteil in der Varianzanalyse (S. 255)
Fn1 ;n2 F0 Fmax f f fb fe fkum fmj
Wert der F-Verteilung mit n1 Zåhler- und n2 Nennerfreiheitsgraden (S. 81 f.) Wert eines Quasi-F-Bruchs (S. 314 f.) Prçfgræûe des Fmax -Tests (S. 286) Bezeichnung fçr Håufigkeit (Frequenz) (S. 29) durchschnittliche Håufigkeit (S. 31) beobachtete Håufigkeit (S. 156) gemåû H0 erwartete Håufigkeit (S. 156) kumulierte Håufigkeit (S. 29) Faktorwert der Person m fçr den Faktor j (S. 519)
aF. Verzeichnis der wichtigsten Abkçrzungen und Symbole
783
FC FS
Øhnlichkeitskoeffizient fçr Faktorstrukturen (S. 554) Stabilitåtsmaû fçr Faktorstrukturen (S. 523)
G G GAM GM
Gesamtsumme in der Varianzanalyse (S. 249) Gesamtmittelwert in der Varianzanalyse (S. 249) gewichtetes arithmetisches Mittel (S. 39) geometrisches Mittel (S. 38)
H1 H0 h2i HM KFA KIB j
Alternativhypothese (S. 108 f.) Nullhypothese (S. 109 f.) Kommunalitåt einer Variablen i (S. 520) h ) (S. 39) harmonisches Mittel (auch n Konfigurationsfrequenzanalyse (S. 175) Konfidenzintervallbreite (S. 102) (griech.: kappa) Ûbereinstimmungsmaû nach Cohen (S. 581)
L L LCF ln K k kj
Nonzentralitåtsparameter der nicht-zentralen F-Verteilung (S. 464) Likelihood (S. 99) ¹linear classification functionª (S. 619) Logarithmus naturalis (Logarithmus zur Basis e) Wilks Likelihood-Quotient (S. 593) Pfadkoeffizient im LISREL-Ansatz (S. 476) Eigenwert eines Faktors j (S. 520)
Mi Md Mo l
¹optimaleª Kontrastkoeffizienten des monotonen Trend-Tests (S. 283) Medianwert (S. 36 f.) Modalwert (S. 36) (griech.: my) Mittelwert (Erwartungswert) einer theoretischen Verteilung oder einer Population (S. 65)
N N n h n n
Stichprobenumfang als Zufallsvariable (S. 65) Summe unterschiedlicher Stichprobenumfånge ni (S. 260) Stichprobenumfang (S. 29) harmonisches Mittel (auch HM) (S. 39) Schreibweise fçr n!=
k!
n k! (S. 60 f.) (griech.: omega) Schåtzwert fçr den ¹wahrenª erklårten Varianzanteil in der Varianzanalyse (S. 281)
k
b2 x P P Pm m P p p
Symbol fçr Prozentwerte (S. 92) Irrtumswahrscheinlichkeit (S. 112) Summe der Messwerte einer Person m (S. 332) Mittelwert der Messwerte einer Person m (S. 333) Anzahl der Faktorstufen eines Faktors A (S. 290) Wahrscheinlichkeit, geschåtzt çber die relative Håufigkeit (S. 52)
784
Anhang
p
A p
A j B PCA U PR PS p p
Wahrscheinlichkeit des Ereignisses A (S. 52) Wahrscheinlichkeit von A unter der Bedingung, dass B eingetreten ist (bedingte Wahrscheinlichkeit) (S. 54 f.) ¹principle component analysisª (S. 516) Phi-Koeffizient (Zusammenhangsmaû) (S. 228) Prozentrang (S. 29) Pillais Spurkriterium (S. 598) theoretischer Wahrscheinlichkeitswert (S. 52) mathematische Konstante (p 3;14159265)
Q q q QCF QS
Prçfgræûe des Cochran-Tests (S. 161) Anzahl der Faktorstufen des Faktors B (S. 290) 1 p (Komplementårwahrscheinlichkeit) (S. 65) ¹quadratic classification functionª (S. 618) Quadratsumme (S. 42)
Rc;12...k Ri Rm R2xy r r2 rij rbis rbisR rj rpb rs rtet rxy:z Red
xy rF RI %
multiple Korrelation zwischen einer Kriteriumsvariablen
c und k Prådiktorvariablen (S. 449) Symbol fçr eine Relation i (S. 16) Rangplatz einer Person m (S. 150) gemeinsame Varianz zweier Variablensåtze x und y (set correlation) (S. 631) Produkt-Moment-Korrelation (S. 205) Determinationskoeffizient (S. 209) Element ij der invertierten Korrelationsmatrix (S. 450) biseriale Korrelation (S. 226) biseriale Rangkorrelation (S. 231 f.) Reliabilitåt eines Faktors j (S. 560) punkt-biseriale Korrelation (S. 225) Spearmans Rangkorrelation (rho) (S. 232 f.) tetrachorische Korrelation (S. 230) Partialkorrelation mit einer Kontrollvariablen z (S. 446) Redundanzkoeffizient (S. 636) relative Fehlerreduktion (S. 211) Rand-Index (S. 582) (griech.: rho) (Produkt-Moment-)Korrelation in der Population (S. 109)
S SAB Si s s2 SMCAB r
kritischer Wert fçr Einzelvergleiche (S. 274) Øhnlichkeitskoeffizient fçr die Objekte A und B (S. 567) unter der Faktorstufe ai untersuchte Stichprobe (S. 336) Standardabweichung (Streuung) fçr eine Stichprobe (S. 41) Varianz fçr eine Stichprobe (S. 41) Øhnlichkeitskoeffizient fçr die Objekte A und B (¹simple matching coefficientª) (S. 567) (griech.: sigma) Streuung einer theoretischen Verteilung oder einer Population (S. 65 u. 90)
aF. Verzeichnis der wichtigsten Abkçrzungen und Symbole r2 rd rx r
x1 x2 r
yjx b r b r2 b rd b rMD b rs b rx b rxd b rxf b rxg
785
b r
x1 x2 b r
yjx b r% b r2x
m R Sch
Varianz einer theoretischen Verteilung oder einer Population (S. 65) Streuung einer theoretischen Differenzenverteilung (S. 144) Standardfehler des arithmetischen Mittels (S. 90) Standardfehler der Mittelwertdifferenz (S. 140) Standardschåtzfehler (S. 192) geschåtzte Populationsstreuung (S. 92) geschåtzte Populationsvarianz (S. 92) geschåtzte Streuung einer theoretischen Differenzenverteilung (S. 144) geschåtzter Standardfehler des Medians (S. 92) geschåtzter Standardfehler der Standardabweichung (S. 92) geschåtzter Standardfehler des arithmetischen Mittels (S. 92) Standardfehler der mittleren Differenz (S. 144) geschåtzter Standardfehler des Mittelwerts fçr finite Grundgesamtheiten (S. 93) geschåtzter Standardfehler des arithmetischen Mittels fçr eine geschichtete Stichprobe (S. 92) geschåtzter Standardfehler der Mittelwertdifferenz (S. 140) geschåtzter Standardschåtzfehler (S. 193) geschåtzter Standardfehler des Prozentwertes (S. 92) geschåtzte Varianz fçr geschichtete Stichproben (S. 93) (griech.: sigma) Summenzeichen (S. 703) Schiefe einer Verteilung (S. 45)
T T T2 T? ti tn si #
Hotellings Spurkriterium (S. 598) Rangsumme (S. 150) Hotellings T2 -Quadrat-Test (S. 588) Prçfgræûe des monotonen Trendtests (S. 283) Långe einer Rangbindung i (S. 152) Wert der t-Verteilung mit n Freiheitsgraden (S. 81) (griech.: tau) theoretischer Effekt einer Treatmentstufe ai (S. 274) (griech.: theta) Ordinate (Dichte) eines z-Wertes in der Standardnormalverteilung (S. 226)
U Uk1
Prçfgræûe des U-Tests von Mann-Whitney (S. 150 f.) Nçtzlichkeit einer Prådiktorvariablen k 1 (S. 456)
V V
multivariate Prçfstatistik von Bartlett (S. 594) Variationskoeffizient (S. 44)
X xi x n nim
Zufallsvariable X (S. 62) Realisierung (Wert) einer Zufallsvariablen X (S. 62) arithmetisches Mittel (S. 37) (griech.: xi) exogene, latente Variable im LISREL-Ansatz (S. 476) Normalrangwerte (S. 283)
786
Anhang
b ym ym
regressionsanalytisch vorhergesagter Wert fçr eine Person m (S. 184 f.) Regressionsresiduum fçr eine Person m (S. 362)
Z z f
Fischers Z-Wert (transformierte Korrelation) (S. 218) Wert einer Verteilung mit x 0 und s 1 (S. 45) (griech.: zeta) Residualvariable im LISREL-Ansatz (S. 476)
! 1 jAj jxj
Fakultåt einer Zahl (z. B. 3! 3 2 1) Symbol fçr einen ¹unendlichª groûen Wert Determinante der Matrix A (S. 717) Absolutbetrag des Wertes x
787
G. Glossar Die Seitenzahlen verweisen auf die Stelle im Buch, an der der Begriff eingefçhrt wird. Begriffe, die an anderer Stelle im Glossar erlåutert werden, sind kursiv gesetzt
A-posteriori-Einzelvergleiche: Der Unterschied zwischen zwei Gruppen wird im Nachhinein auf Signifikanz geprçft (Varianzanalyse). S. 272 A-priori-Einzelvergleiche: Ûber den Unterschied zwischen zwei Gruppen besteht bereits vor der Untersuchung eine (meist gerichtete) Hypothese. S. 272 abhångige Stichproben: Man erhålt abhångige (Daten-)Stichproben durch wiederholte Untersuchung einer Vpn-Stichprobe oder durch die Untersuchung von ¹matched samplesª. S. 143 abhångige Variable: Merkmal, das in einem (Quasi-) Experiment erfasst wird, um zu çberprçfen, wie sich systematisch variierte unabhångige Variablen) auf die a.V. auswirken. S. 7 Øhnlichkeitsmaûe: Werden im Rahmen der Clusteranalyse benætigt, um die Øhnlichkeit der zu gruppierenden Objekte zu ermitteln. S. 566 ALM (Allgemeines Lineares Modell): Verfahren, das die wichtigsten Verfahren der Elementarstatistik, varianzanalytische Verfahren sowie die multiple Korrelations- und Regressionsrechnung integriert. S. 483 Alpha-Fehler (a-Fehler): Fehler erster Art bzw. S. 110 Alpha-Fehler-Niveau (a-Fehler-Niveau): Signifikanzniveau bzw. S. 114 Alternativhypothese (H1): Bei inferenzstatistischen Tests die mathematisch formulierte These, die çberprçft werden soll. Gegenhypothese zur A. ist die Nullhypothese. Man unterscheidet gerichtete und ungerichtete sowie spezifische und unspezifische A. S. 108 arithmetisches Mittel: Mittelwert bzw. S. 37 AV: (siehe abhångige Variable) Axiom: Definition bzw. Satz, der nicht bewiesen, sondern dessen Gçltigkeit vorausgesetzt wird. S. 17 Bartlett-Test: Verfahren zur Ûberprçfung der Varianzhomogenitåts-Voraussetzung im Rahmen
einer Varianzanalyse. Låsst ungleich groûe Stichproben zu. S. 285 Bayes-Statistik: Eine Variante der statistischen Entscheidungstheorie, bei der Wahrscheinlichkeiten fçr verschiedene Hypothesen unter der Voraussetzung eines empirisch ermittelten Untersuchungsergebnisses ermittelt werden. S. 57 bedingte Haupteffekte: Unterschiedlichkeit der Stufen des Faktors A unter den einzelnen Stufen des Faktors B (und umgekehrt). S. 306 Beta-Fehler (b-Fehler): Fehler zweiter Art bzw. S. 110 bimodale Verteilung: Verteilung mit zwei Gipfeln (und somit zwei Modalwerten). S. 33 Binomialverteilung: Wahrscheinlichkeitsfunktion, die aussagt, wie wahrscheinlich die Håufigkeiten fçr das Auftreten eines Ereignisses A bei n Wiederholungen eines Zufallsexperiments sind. A tritt dabei in jedem Versuch mit der Wahrscheinlichkeit p ein. Neben A gibt es nur das Gegenereignis (¹nicht Aª) mit der Auftretenswahrscheinlichkeit q = 1±p. Bsp.: Mçnzwurf, Stadtkind vs. Landkind. S. 65 biseriale Korrelation: Korrelationskoeffizient rbis fçr ein kardinalskaliertes und ein kçnstlich dichotomes Merkmal. S. 226 biseriale Rangkorrelation: Korrelationskoeffizient fçr ein (echt oder kçnstlich) dichotomes und ein rangskaliertes Merkmal. S. 231 bivariate Normalverteilung: Werden zwei Merkmale x und y gemeinsam erhoben, verteilen sie sich bivariat normal, wenn nicht nur die Verteilung von x und y je fçr sich allein, sondern auch deren gemeinsame Verteilung normal ist; in diesem Fall ergibt die graphische Darstellung der gemeinsamen Verteilung eine (dreidimensionale) Glockenform. S. 191 bivariate Verteilung: Verteilung zweier gemeinsam erhobener Variablen; graphische Darstellung als Punktwolke oder dreidimensional. S. 184
788
Anhang
Bonferroni-Korrektur: a-Fehler-Korrektur bei mehreren Einzelhypothesen zur Ûberprçfung einer Gesamthypothese. S. 129 u. S. 272 Bootstrap-Methode: Der Monte-Carlo-Methode åhnliche Computersimulationstechnik, mit der die Verteilung eines Stichprobenkennwertes erzeugt wird. S. 130 Box-Test: Verfahren zur Ûberprçfung der Homogenitåt einer Varianz-Kovarianz-Matrix. Wird bei multivariaten Mittelwertvergleichen benætigt. S. 619
ner Person låsst sich nur in ganzen Zahlen messen. S. 62 Diskriminanzanalyse: Verfahren, das aufgrund der linearen Gewichtung eines Satzes abhångiger Variablen zu einer maximalen Trennung der untersuchten Gruppen fçhrt. S. 605 Diskriminanzraum: Der Diskriminanzraum besteht aus einer bestimmten Anzahl von Diskriminanzfaktoren, deren Reihenfolge so festgelegt wird, dass die verglichenen Stichproben sukzessiv maximal getrennt werden. S. 609
Chi-Quadrat-Methoden (v2-Methoden): Signifikanztests zur Analyse von Håufigkeitsunterschieden. S. 154 Clusteranalyse: Heuristisches Verfahren zur systematischen Klassifizierung der Objekte einer gegebenen Objektmenge. S. 565 cluster sample: Klumpenstichprobe bzw. S. 87 Cochran-Test: Verfahren zur Ûberprçfung von Verånderungen eines dichotomen Merkmals bei abhångigen Stichproben. S. 161 Codierung, Arten der: z. B. Dummy-, Effekt- und Kontrastcodierung (siehe auch Indikatorvariable). S. 493
Effektgræûe: Græûe eines Effekts bzw. einer Parameterdifferenz. Um eine spezifische Alternativhypothese formulieren zu kænnen, muss man die erwartete Effektgræûe im Voraus angeben. Die Festlegung einer Effektgræûe ist auch notwendig, um den fçr die geplante Untersuchung optimalen Stichprobenumfang zu bestimmen bzw. die Teststårke eines Signifikanztests angeben zu kænnen. Da sich bei groûen Stichproben auch sehr kleine (fçr die Praxis unbedeutende) Effekte als statistisch signifikant erweisen kænnen, sollte ergånzend zur statistischen Signifikanz immer auch die Effektgræûe betrachtet werden. S. 120 Effizienz: Kriterium der Parameterschåtzung: Je græûer die Varianz der Stichprobenkennwerteverteilung, desto geringer ist die E. des Schåtzwerts. S. 97 Eigenwert: Gesamtvarianz aller Variablen, die durch einen Faktor aufgeklårt wird (Faktorenanalyse). S. 520 Eigenwertediagramm: Graphische Darstellung der Eigenwerte einer PCA in einem Diagramm (Faktorenanalyse). S. 544 eindimensionaler Chi-Quadrat-Test: v2-Methode zur Signifikanzprçfung der Håufigkeiten eines k-fach gestuften Merkmals; hierbei kann getestet werden, ob die untersuchten Daten gleich verteilt sind oder ob sie einer bestimmten Verteilungsform (z. B. Normalverteilung) folgen (goodness of fit test bzw. v2-Anpassungstest). S. 156 einseitiger Test: Statistischer Test, der eine gerichtete Hypothese (im Gegensatz zu einer ungerichteten Hypothese) çberprçft. S. 116 Einzelvergleiche: Die Einzelvergleichsverfahren dienen der Ûberprçfung von Unterschieden zwischen einzelnen Stufen eines Faktors im Rahmen der Varianzanalyse. Man unterscheidet
Dendrogramm: Eine graphische Darstellung des Ergebnisses einer hierarchischen Clusteranalyse, die çber die Anzahl der bedeutsamen Cluster informiert. S. 576 deskriptive Statistik: Statistik, die die Daten eines Kollektivs z. B. durch Graphiken oder Kennwerte (Mittelwert, Varianz etc.) beschreibt. S. 15 Determinationskoeffizient: Gemeinsame Varianz zweier Variablen (r2) siehe auch Redundanz. S. 209 Dichotomisierung: Merkmale sind dichotom, wenn sie nur zwei Ausprågungen haben; es gibt natçrlich d. Daten (z. B. Geschlecht); man kann aber auch z. B. kardinalskalierte Daten durch Teilung am Median dichotomisieren. S. 226 Dichtefunktion: Wahrscheinlichkeitsfunktion einer stetigen Zufallsvariablen. S. 63 disjunkt: Zwei einander ausschlieûende (d. h. keine gemeinsamen Elementarereignisse beinhaltende) Ereignisse sind d. Ihr Durchschnitt (A \ B) ist die leere Menge. S. 52 diskret: Ein Merkmal ist d., wenn es nicht kontinuierliche, sondern nur bestimmte Werte annehmen kann. Bsp.: Die Anzahl der Freunde ei-
aG. Glossar A-priori- und A-posteriori-Einzelvergleiche. Eine andere Bezeichnung fçr Einzelvergleiche sind Kontraste. S. 263 Elementarereignis: Ein einzelnes Ergebnis eines Zufallsexperiments (z. B. beim Wçrfeln eine 4 wçrfeln). S. 50 empirisches Relativ: Aus empirischen Objekten bestehendes Relationensystem (im Gegensatz zu einem numerischen Relativ). S. 16 Epsilon-(e-)Korrektur: Korrektur der Freiheitsgrade im Rahmen einer Varianzanalyse mit Messwiederholungen, die erforderlich wird, wenn die Voraussetzungen dieses Verfahrens verletzt sind. S. 355 Ereignis: Mehrere Elementarereignisse werden zu einem E. zusammengefasst (z. B. beim Wçrfeln das Ereignis ¹alle geraden Zahlenª). S. 50 Ergebnismenge: Menge aller mæglichen Elementarereignisse eines Zufallsexperiments (z. B. beim Wçrfeln die Elementarereignisse 1 bis 6). S. 50 Erwartungstreue: Kriterium der Parameterschåtzung: Ein statistischer Kennwert schåtzt einen Populationsparameter erwartungstreu, wenn das arithmetische Mittel der Kennwerteverteilung bzw. deren Erwartungswert dem Populationsparameter entspricht. S. 96 Erwartungswert: ¹Mittelwertª einer theoretischen (nicht empirischen) Verteilung einer Zufallsvariablen; bezeichnet durch den Buchstaben l (¹mçª) bzw. durch E(X). S. 64 und Anhang B Eta (g): Korrelationskoeffizient, der die linearen und nonlinearen Zusammenhånge zwischen UV und AV erfasst (Varianzanalyse). S. 255 Exhaustion: Modifikation oder Erweiterung einer Theorie aufgrund von Untersuchungsergebnissen, die die ursprçngliche Form der Theorie falsifizieren. S. 12 Experiment: Untersuchung mit randomisierten Stichproben, um die Auswirkung der unabhångigen Variable(n) auf die abhångige(n) Variable(n) zu çberprçfen. S. 8 externe Validitåt: Liegt vor, wenn das Ergebnis einer Untersuchung çber die untersuchte Stichprobe und die Untersuchungsbedingungen hinaus generalisierbar ist. E. V. sinkt, je unnatçrlicher die Untersuchungsbedingungen sind und je weniger repråsentativ die untersuchte Stichprobe fçr die Grundgesamtheit ist. S. 8 Exzess: Maû fçr die Breit- oder Schmalgipfligkeit einer Verteilung. S. 46
789
Faktor: Im Rahmen der Varianzanalyse ist ein Faktor eine unabhångige Variable, deren Bedeutung fçr eine abhångige Variable çberprçft wird. S. 247 Faktoren, geschachtelte: Ein Faktor ist geschachtelt, wenn seine Stufen nur unter bestimmten Stufen eines anderen Faktors auftreten (Varianzanalyse). S. 388 Faktoren, orthogonale: unkorrelierte Faktoren (Faktorenanalyse). S. 513 Faktorenanalyse: Datenreduzierendes Verfahren zur Bestimmung der dimensionalen Struktur korrelierter Merkmale. S. 511 Faktorenanalyse, konfirmative: Verfahren, mit dem unter anderem Hypothesen çber die Faktorenstruktur eines Datensatzes getestet werden kænnen. S. 560 Faktorladung: Korrelation zwischen einer Variablen und einem Faktor (Faktorenanalyse). S. 519 Faktorwert: Der Faktorwert kennzeichnet die Position einer Person auf einem Faktor (Faktorenanalyse). S. 519 Fehler erster Art (a-Fehler): In der statistischen Entscheidungstheorie die fålschliche Entscheidung zugunsten der H1, d. h., man nimmt an, die Alternativhypothese sei richtig, obwohl in Wirklichkeit die Nullhypothese richtig ist. S. 110 Fehlerquadratsumme: Die Fehlerquadratsumme kennzeichnet im Rahmen der Varianzanalyse die Unterschiedlichkeit der Messwerte innerhalb der Stichproben. Sie wird mit der Wirksamkeit von Stærvariablen erklårt. S. 252 Fehler zweiter Art (b-Fehler): In der statistischen Entscheidungstheorie die fålschliche Entscheidung zugunsten der H0, d. h., man nimmt an, die Nullhypothese sei richtig, obwohl in Wirklichkeit die Alternativhypothese richtig ist. S. 110 Felduntersuchung: Untersuchung, die in einem natçrlichen Umfeld stattfindet. S. 7 Feste Effekte: Systematische Auswahl der Faktorstufen, çber die letztlich Aussagen gemacht werden sollen (Varianzanalyse). S. 302 Fishers Z-Transformation: Transformation von Korrelationen in sog. Z-Werte (nicht verwechseln mit z-Werten der Standardnormalverteilung!); diese ist z. B. erforderlich, wenn Korrelationen gemittelt werden sollen. S. 218 Freiheitsgrade: Die Anzahl der bei der Berechnung eines Kennwerts frei variierbaren Werte. Bsp.:
790
Anhang
Die Summe der Differenzen aller Werte von ihrem Mittelwert ergibt 0. Sind von n = 10 Werten 9 (= n±1) bereits zufållig gewåhlt, steht fest, wie groû die 10. Differenz sein muss. Die Varianz ± deren Formel diese Differenzen vom Mittelwert beinhaltet ± hat daher n 1 Freiheitsgrade. Anwendung bei der Bestimmung der fçr verschiedene statistische Tests adåquaten Prçfverteilung. S. 138 F-Test: Statistischer Signifikanztest, der zwei Stichprobenvarianzen miteinander vergleicht. S. 148 Fmax-Test: Verfahren zur Ûberprçfung der Varianzhomogenitåts-Voraussetzung im Rahmen der Varianzanalyse. Låsst nur gleich groûe Stichprobenumfånge zu. S. 286 Fusionskriterien: Kriterien, nach denen entschieden wird, welche Objekte oder Cluster zu einem neuen Cluster zusammengefasst werden (z. B. single linkage, complete linkage oder average linkage) (Clusteranalyse). S. 572 gerichtete Alternativhypothese: Annahme, die nicht einen irgendwie gearteten Unterschied oder Zusammenhang behauptet, sondern die eine bestimmte Richtung vorgibt. Bsp.: Månner sind im Durchschnitt græûer als Frauen (im Gegensatz zur ungerichteten H.: Månner und Frauen sind im Durchschnitt unterschiedlich groû). S. 108 geschichtete Stichprobe (stratifizierte S.): Stichprobe, in der sich ausgewåhlte Merkmale (Alter, Geschlecht, Einkommen etc.) nach bestimmten Vorgaben verteilen; bei einer proportional geschichteten Stichprobe entspricht die prozentuale Verteilung der Schichtungsmerkmale in der Stichprobe der prozentualen Verteilung in der Grundgesamtheit. S. 88 Gewichtetes arithmetisches Mittel (GAM): Mittelwert der Mittelwerte mehrerer unterschiedlich groûer Kollektive oder Stichproben; die einzelnen Mittelwerte werden mit ihrer Kollektiv- bzw. Stichprobengræûe gewichtet. S. 39 goodness of fit test: Eindimensionaler v2-Test bzw. S. 164 Grenzwerttheorem: Zentrales Grenzwerttheorem bzw. S. 93 Griechisch-lateinische Quadrate: Erweiterung eines Lateinischen Quadrats um einen Faktor (Varianzanalyse). S. 400 Grundgesamtheit (Population): Alle potentiell untersuchbaren Objekte, die ein gemeinsames Merk-
mal aufweisen. Bsp.: Bewohner einer Stadt, Frauen, dreisilbige Substantive. S. 86 Haupteffekt: In Abgrenzung zu einem Interaktionseffekt in der mehrfaktoriellen Varianzanalyse kennzeichnet ein H. die Wirkungsweise eines bestimmten Faktors bzw. einer bestimmten unabhångigen Variablen. S. 293 Hauptkomponentenanalyse: Wichtigstes Verfahren zur Extraktion von Faktoren. Faktoren einer Hauptkomponentenanalyse sind voneinander unabhångig und erklåren sukzessiv maximale Varianzanteile (Faktorenanalyse). S. 516 Helmert-Kontraste: Regeln zur Erzeugung eines vollståndigen Satzes orthogonaler Einzelvergleiche (Varianzanalyse). S. 267 Hierarchische Plåne: Versuchsplåne, bei denen durch Schachtelung je eines Faktors unter den vorherigen eine Hierarchie der Faktoren entsteht (Varianzanalyse). S. 388 Histogramm: Trågt man in einer Graphik die empirische Håufigkeitsverteilung einer diskreten Variablen in Form von Balken ab, erhålt man ein H. Die Gesamtflåche des H. repråsentiert die Kollektivgræûe (n) (Polygon). S. 30 Holm-Korrektur: Eine Technik zur Korrektur des a-Fehlers-Niveaus beim multiplen Testen. H. ist weniger konservativ als die Bonferroni-Korrektur. S. 129 homomorph: Låsst sich ein empirisches durch ein numerisches Relativ so abbilden, dass eine bestimmte Relation im empirischen Relativ der Relation im numerischen Relativ entspricht, bezeichnet man diese Abbildung als h. Bsp.: empirisches Relativ: Mathekenntnisse der Schçler einer Klasse; numerisches Relativ: Mathenoten. Bilden die Mathenoten die Kenntnisse der Schçler ¹wirklichkeitsgetreuª ab, ist diese Abbildung h. S. 17 Homoskedastizitåt: Liegt vor, wenn bei einer bivariaten Verteilung zweier Variablen x und y die zu jedem beliebigen Wert xi gehærenden y-Werte gleich streuen. Bsp.: Erhebt man Kærpergræûe (x) und Schuhgræûe (y), sollten die Schuhgræûen von Menschen, die 180 cm groû sind, die gleiche Varianz aufweisen wie die Schuhgræûen von Menschen, die 170 cm groû sind. S. 192 Hotellings T2-Test: Verfahrensgruppe zur Ûberprçfung multivariater Unterschiedshypothesen,
aG. Glossar d. h. Unterschiedshypothesen auf der Basis mehrerer abhångiger Variablen. S. 586 Indifferenzbereich: Sind a- und b-Fehler-Niveau vorgegeben, kænnen sich bei zu kleinen Stichproben statistische Testwerte ergeben, bei denen weder die H0 noch die H1 abgelehnt werden kænnen. Bei zu groûen Stichproben hingegen kænnen sich Testwerte ergeben, bei denen sowohl die H0 als auch die H1 abgelehnt werden mçssen. In beiden Fållen kann keine Entscheidung bezçglich der geprçften Hypothese getroffen werden. Die Testwertbereiche, in denen diese beiden Effekte auftreten, bezeichnet man als I. Man vermeidet I durch den Einsatz optimaler Stichprobenumfånge. S. 122 Indikatorvariable: Variable, die alle Informationen eines nominalskalierten Merkmals in codierter Form enthålt (ALM). S. 483 Inferenzstatistik (schlieûende Statistik): Statistik, die auf der Basis von Stichprobenergebnissen induktiv allgemeingçltige Aussagen formuliert. Zur I. zåhlen die Schåtzung von Populationsparametern (Schlieûen) und die Ûberprçfung von Hypothesen (Testen). S. 15 Interaktion: Effekt der Kombination mehrerer Faktoren. Man unterscheidet zwischen ordinaler, hybrider und disordinaler Interaktion (Varianzanalyse). S. 294 interne Validitåt: Liegt vor, wenn das Ergebnis einer Untersuchung eindeutig interpretierbar ist. Die i.V. sinkt mit der Anzahl plausibler Alternativerklårungen fçr das Ergebnis. S. 8 Intervallschåtzung: Konfidenzintervall Intervallskala: Ordnet den Objekten eines empirischen Relativs Zahlen zu, die so geartet sind, dass die Rangordnung der Zahlendifferenzen zwischen je zwei Objekten der Rangordnung der Merkmalsunterschiede zwischen je zwei Objekten entspricht. Eine I. erlaubt Aussagen çber Gleichheit (Øquivalenzrelation), Rangfolge (Ordnungsrelation) und Græûe des Unterschieds der Merkmalsausprågung von Objekten. Eine I. hat keinen empirisch begrçndbaren Nullpunkt. Bsp.: Temperaturskalen; mit Fahrenheit- und Celsiusskala lassen sich die gleichen Aussagen machen; ihr Nullpunkt ist verschieden. I. und Verhåltnisskalen bezeichnet man zusammenfassend als Kardinalskalen. S. 19
791
Ipsative Daten: Mehrere Messungen eines Individuums, von denen der individuelle Mittelwert abgezogen wurde. Dadurch sind die ipsativen Daten mehrerer Individuen bezçglich ihres Niveaus vergleichbar. S. 335 Irrtumswahrscheinlichkeit: Wahrscheinlichkeit, bei einer statistischen Entscheidung einen Fehler erster Art (a-Fehler) zu begehen. Die I. bezeichnet die Wahrscheinlichkeit, dass das gefundene Ergebnis oder extremere Ergebnisse bei Gçltigkeit von H0 eintreten (Signifikanzniveau). S. 112 k*l-Chi-Quadrat-Test (k*l-v2-Test): Verfahren, mit dem die Nullhypothese çberprçft werden kann, nach der ein k-fach und ein l-fach gestuftes Merkmal voneinander unabhångig sind. S. 172 Kaiser-Guttmann-Kriterium: Nur Faktoren mit einem Eigenwert græûer 1 sind als bedeutsam einzustufen. Ûberschåtzt in der Regel die Anzahl bedeutsamer Faktoren (Faktorenanalyse). S. 544 Kappa-Maû: Verfahren, mit dem man die Ûbereinstimmung von 2 Klassifikationen derselben Objekte erfassen und çberprçfen kann. S. 581 Kardinalskala: Zusammenfassender Begriff fçr Intervall- und Verhåltnisskalen. S. 22 Kennwert: Stichprobenkennwert Klassifikation: Mit Klassifikationsverfahren kann man çberprçfen, zu welcher von k Gruppen ein Individuum aufgrund eines individuellen Merkmalsprofils am besten passt (Diskriminanzanalyse). S. 617 Klumpenstichprobe (cluster sample): Als Klumpen (Cluster) bezeichnet man eine wohl definierte Teilgruppe einer Population (z. B. die Schçler einer Schulklasse, die Patienten eines Krankenhauses etc.). Eine Klumpenstichprobe besteht aus allen Individuen, die sich in einer Zufallsauswahl von Klumpen befinden. Bsp.: Alle Alkoholiker aus zufållig ausgewåhlten Kliniken. S. 87 k-means-Methode: Ein wichtiges Verfahren der nicht-hierarchischen Clusteranalyse. S. 578 Kollektiv: Gesamtmenge einer empirisch untersuchten, durch deskriptive Statistik zu beschreibende (Personen-)Gruppe (Stichproben). S. 15 Kommunalitåt: Ausmaû, in dem die Varianz einer Variablen durch die Faktoren aufgeklårt wird (Faktorenanalyse). S. 520
792
Anhang
Konfidenzintervall: Derjenige Bereich eines Merkmals, in dem sich 95% bzw. 99% aller mæglichen Populationsparameter befinden, die den empirisch ermittelten Stichprobenkennwert erzeugt haben kænnen. M.a.W., der in der Stichprobe ermittelte Mittelwert gehært mit 95%bzw. 99%iger Wahrscheinlichkeit zu einer Population, deren Parameter l sich im berechneten Intervall befindet. S. 101 Konfigurationsfrequenzanalyse (KFA): Verallgemeinerung der Kontingenztafelanalyse auf eine mehrdimensionale ¹Tafelª, mit der die Håufigkeiten mehrerer nominalskalierter Merkmale mit mehreren Stufen verglichen werden kænnen. Geprçft wird die stochastische Unabhångigkeit der Merkmale voneinander. S. 175 Konservative Entscheidung: Man spricht von einer konservativen Entscheidung, wenn ein statistischer Test aufgrund von Voraussetzungsverletzungen eher zugunsten von H0 entscheidet. S. 129 Konsistenz: Kriterium der Parameterschåtzung: Ein Schåtzwert ist konsistent, wenn er sich mit wachsendem Stichprobenumfang (n) dem zu schåtzenden Parameter nåhert. S. 97 Kontingenzkoeffizient: Maû zur Charakterisierung des Zusammenhangs zweier nominalskalierter Merkmale. S. 234 Kontingenztafel: Tabellarische Darstellung der gemeinsamen Håufigkeitsverteilung eines k-fach und eines l-fach gestuften Merkmals. S. 168 Kontrollvariable (Moderatorvariable): Merkmal, das bei einem (Quasi-)Experiment weder abhångige noch unabhångige Variable ist, sondern nur miterhoben wird, um im Nachhinein prçfen zu kænnen, ob es einen Einfluss auf das Untersuchungsergebnis hatte. S. 7 Korrelation, kanonische: Die kanonische Korrelation erfasst den Zusammenhang zwischen mehreren Prådiktorvariablen und mehreren Kriteriumsvariablen. S. 627 Korrelation, multiple: Bestimmt den Zusammenhang zwischen mehreren Prådiktorvariablen und einer Kriteriumsvariablen. S. 448 Korrelationskoeffizient: Zusammenhangsmaû, das unabhångig vom Maûstab der in Zusammenhang zu bringenden Variablen x und y i.d.R. einen Wert zwischen ±1 und 1 annimmt. Ein positiver K. besagt, dass hohe x-Werte håufig mit hohen y-Werten auftreten. Ein negativer K.
besagt, dass hohe x-Werte håufig mit niedrigen y-Werten auftreten. S. 205 Kovarianz: Mittelwert aller Produkte von korrespondierenden Abweichungen zweier gemeinsam erhobener Variablen; m.a.W., die K. ist ein Maû fçr den Grad des Miteinander-Variierens zweier Messwertreihen x und y. Eine positive K. besteht, wenn viele Versuchspersonen bei einem hohen x-Wert auch einen hohen y-Wert haben; eine negative K. besteht, wenn viele Versuchspersonen bei einem hohen x-Wert einen niedrigen y-Wert haben. Die K. z-transformierter Variablen entspricht der Produkt-MomentKorrelation. S. 188 Kovarianzanalyse: Verfahren zur Ûberprçfung der Bedeutsamkeit einer Kontrollvariablen fçr eine Untersuchung. Der Einfluss dieser Variablen wird ¹neutralisiertª (Varianzanalyse). S. 361 Kreuzvalidierung: Verfahren, bei dem zwei Regressionsgleichungen aufgrund von zwei Teilstichproben bestimmt werden, deren Vorhersagekraft in Bezug auf die Kriteriumswerte der anderen Stichprobe geprçft wird. S. 454 Kriteriumsrotation: Eine Rotationstechnik, mit der eine empirische Faktorenstruktur einer vorgegebenen Kriteriumsstruktur maximal angenåhert wird (Faktorenanalyse). S. 553 Kriteriumsvariable: Variable, die mittels einer oder mehrerer Prådiktorvariablen und einer Regressionsgleichung vorhergesagt werden kann. S. 182 kumulierte Håufigkeitsverteilung: Sukzessiv summierte Håufigkeiten von geordneten Kategorien einer empirischen Verteilung. Die Håufigkeit einer Kategorie bezieht sich also auf die Kategorie selbst und alle vor ihr liegenden Kategorien. Der Wert der letzten Kategorie ist n, da hier alle Håufigkeiten aufaddiert sein mçssen. S. 29 Lateinisches Quadrat: Besondere Variante unvollståndiger Versuchsplåne mit drei Faktoren, die alle dieselbe Stufenzahl aufweisen (Varianzanalyse). S. 396 Latente Variable: Nicht direkt beobachtbare Variable. S. 476 Lineare Regression: Regressionsgleichung bzw. S. 181 Lineare Strukturgleichungsmodelle: Mit linearen Strukturgleichungsmodellen werden anhand empirischer Daten a priori formulierte ¹Kausal-
aG. Glossar hypothesenª zur Erklårung von Merkmalszusammenhången geprçft. S. 471 LISREL (linear structural relationships): Computerprogramm von Jæreskog und Særbom (1989) zur Ûberprçfung linearer Strukturgleichungsmodelle. S. 471 Logistische Regression: Variante der Regressionsrechnung mit einer nominalen (2- oder k-fach gestuften) Kriteriumsvariablen. S. 463 Mann-Whitney-U-Test: Verteilungsfreier Signifikanztest fçr den Vergleich zweier unabhångiger Stichproben auf der Basis rangskalierter Daten. S. 150 ¹matched samplesª: Strategie zur Erhæhung der internen Validitåt bei quasiexperimentellen Untersuchungen mit kleinen Gruppen. Zur Erstellung von matched samples wird die Gesamtmenge der Untersuchungsobjekte in (hinsichtlich der relevanten Hintergrund- bzw. Stærvariablen) mæglichst åhnliche Paare gruppiert. Die beiden Untersuchungsgruppen werden anschlieûend so zusammengestellt, dass jeweils ein Paarling zufållig der einen Gruppe, der andere Paarling der anderen Gruppe zugeordnet wird. Man beachte, dass matched samples abhångige Stichproben sind, die entsprechend auch mit Signifikanztests fçr abhångige Stichproben (z. B. t-Test fçr abhångige Stichproben) auszuwerten sind (vgl. Parallelisierung). S. 143 Maximum-likelihood-Methode: Methode, nach der Populationsparameter so geschåtzt werden, dass die ¹Wahrscheinlichkeitª (Likelihood) des Auftretens der beobachteten Daten maximiert wird. S. 99 McNemar-v2-Test (test for significance of change): v2-Methode zur Signifikanzprçfung der Håufigkeiten eines dichotomen Merkmals, das bei derselben Stichprobe zu zwei Zeitpunkten erhoben wurde (Messwiederholung, vorher ± nachher). Es handelt sich somit um einen Test fçr abhångige Stichproben. S. 159 Median: Derjenige Wert einer Verteilung, der die Gesamtzahl der Fålle halbiert, sodass 50% aller Werte unter dem M., 50% aller Fålle çber ihm liegen. S. 35 Messwiederholung: An einer Stichprobe wird dasselbe Merkmal bei jeder Versuchsperson mehrmals gemessen (z. B. zu zwei Zeitpunkten, vorher ± nachher); solche (Daten-)Stichproben bezeichnet man als abhångig. S. 143
793
Methode der kleinsten Quadrate: Methode zur Schåtzung unbekannter Parameter. Hierbei wird die Summe der quadrierten Abweichungen der beobachteten Messungen vom gesuchten Schåtzwert minimiert. Methode, die z. B. in der Regressionsrechnung angewendet wird. S. 98 Mittelwert (arithmetisches Mittel): Derjenige Wert, der sich ergibt, wenn die Summe aller Werte einer Verteilung durch die Gesamtzahl der Werte (n) geteilt wird. S. 36 Modalwert: Derjenige Wert einer Verteilung, der am håufigsten vorkommt. In einer graphischen Darstellung der Verteilung deren Maximum. Eine Verteilung kann mehrere Modalwerte (und somit Maxima) besitzen (bimodale Verteilung). S. 35 Moderatorvariable: Kontrollvariable bzw. S. 222 Monte-Carlo-Methode: Mittels Computer werden aus einer festgelegten Population viele Stichproben gezogen (Computersimulation), um anhand dieser Simulation zu erfahren, wie sich statistische Kennwerte (z. B. Mittelwerte) verteilen oder wie sich Verletzungen von Testvoraussetzungen auf die Ergebnisse des Tests auswirken. S. 130 Multikollinearitåt: Unter Multikollinearitåt versteht man die wechselseitige Abhångigkeit von Variablen im Kontext multivariater Verfahren. S. 452 Multiples Testen: Simultane Durchfçhrung mehrerer Signifikanztests zur Ûberprçfung einer globalen Hypothese. M. T. macht eine a-Fehler-Adjustierung erforderlich (Bonferroni- oder HolmKorrektur). S. 129 Multivariate Methoden: Mit multivariaten Methoden werden Hypothesen geprçft, die sich auf das Zusammenwirken vieler abhångiger und unabhångiger Variablen beziehen. S. 439 Nichtorthogonale Varianzanalysen: Varianzanalysen mit ungleichen Stichprobenumfången. S. 496 Nominalskala: Ordnet den Objekten eines empirischen Relativs Zahlen zu, die so geartet sind, dass Objekte mit gleicher Merkmalsausprågung gleiche Zahlen, Objekte mit verschiedener Merkmalsausprågung verschiedene Zahlen erhalten. Eine N. erlaubt nur Aussagen çber Gleichheit von Objekten (Øquivalenzrelation), nicht aber çber deren Rangfolge. Bsp.: Zuwei-
794
Anhang
sung des Wertes 0 fçr månnliche, 1 fçr weibliche Versuchspersonen. S. 18 Normalverteilung: Wichtigste Verteilung der Statistik; festgelegt durch die Parameter l (Erwartungswert) und r (Streuung); glockenfærmig, symmetrisch, zwischen den beiden Wendepunkten (lÔ1r) liegen ca. 68% der gesamten Verteilungsflåche (Standardnormalverteilung). S. 73 Nullhypothese (H0): Bei inferenzstatistischen Tests eine mathematisch formulierte These, die besagt, dass der von der Alternativhypothese behauptete Unterschied bzw. Zusammenhang nicht besteht. Die N. ist eine Negativhypothese, d. h., sie besagt immer genau das Gegenteil der Alternativhypothese. S. 109 numerisches Relativ: Aus Zahlen bestehendes Relationensystem (z. B. Menge der reellen Zahlen); mit einem n. R. låsst sich ein empirisches R. homomorph abbilden. S. 16 oblique Rotation: Faktorenrotation, die zu schiefwinkligen bzw. korrelierten Faktoren fçhrt (Faktorenanalyse). S. 547 Omega2 (x2): Koeffizient, der die gemeinsame Varianz zwischen UV und AV in der Population schåtzt (Varianzanalyse). S. 281 Operationalisierung: Umsetzung einer eher abstrakten Variable bzw. eines theoretischen Konstruktes in ein konkret messbares Merkmal; Bsp.: O. der Variable ¹mathematische Begabungª durch die Variable ¹Mathematiknoteª. Wichtig ist, dass die operationalisierte Variable die abstrakte Variable tatsåchlich widerspiegelt. S. 9 Optimaler Stichprobenumfang: Stichprobenumfånge sind optimal, wenn sie bei gegebenem Signifikanzniveau, einer gegebenen Teststårke und einer festgelegten Effektgræûe eine eindeutige Entscheidung çber die Gçltigkeit von H0 oder H1 sicherstellen (s. auch Indifferenzbereich). S. 125 Ordinalskala: Ordnet den Objekten eines empirischen Relativs Zahlen zu, die so geartet sind, dass von jeweils zwei Objekten das Objekt mit der græûeren Merkmalsausprågung die græûere Zahl erhålt. Eine O. erlaubt Aussagen çber die Gleichheit (Øquivalenzrelation) und die Rangfolge (Ordnungsrelation) von Objekten. Sie sagt aus, ob ein Objekt eine græûere Merkmalsausprågung besitzt als ein anderes, nicht aber, um wie viel græûer diese Ausprågung ist. Bsp.:
Rangfolge fçr die Schænheit dreier Bilder: 1 = am schænsten; 3 = am wenigsten schæn. Bild 2 muss nicht ¹mittelschænª sein, sondern kann fast so schæn sein wie Bild 1. S. 19 Parallelanalyse: Verfahren zur Bestimmung der Anzahl bedeutsamer Faktoren im Rahmen einer Faktorenanalyse, die auf dem Vergleich empirisch ermittelter Eigenwerte mit Eigenwerten fçr Zufallskorrelationen basiert (Faktorenanalyse). S. 545 Parallelisierung: Zusammenstellen von mæglichst vergleichbaren Untersuchungsgruppen (z. B. Behandlungsgruppe und Kontrollgruppe), indem man hinsichtlich wichtiger Hintergrund- bzw. Stærvariablen (z. B. Alter oder Bildungsstand) in den Stichproben fçr annåhernd gleiche Verteilungen bzw. Kennwerte sorgt (z. B. gleicher Altersdurchschnitt oder gleicher Anteil von Abiturienten). Parallelisierung ist eine Maûnahme zur Erhæhung der internen Validitåt von quasiexperimentellen Untersuchungen und stellt einen (schlechteren) Ersatz der in experimentellen Untersuchungen durchgefçhrten Randomisierung dar. Bei kleinen Gruppen arbeitet man statt mit Parallelisierung mit matched samples. S. 9 Parameter: Kennwerte einer theoretischen Verteilung oder Grundgesamtheit (im Gegensatz zu Stichprobenkennwerten) wie z. B. Erwartungswert, Streuung etc. Bezeichnung durch griechische Buchstaben oder Groûbuchstaben. S. 85 Partialkorrelation: Gibt den Zusammenhang zweier Variablen an, aus dem der lineare Einfluss einer dritten Variable eliminiert wurde. Sie stellt eine bivariate Korrelation zwischen den Regressionsresiduen der beiden Variablen dar. S. 443 PCA: Principal Components Analysis (s. Hauptkomponentenanalyse). S. 516 Permutation: Werden in einem Zufallsexperiment (z. B. Urne, Kartenspiel) alle Objekte gezogen und nicht zurçckgelegt, bezeichnet man die bei einer Durchfçhrung dieses Experiments aufgetretene Reihenfolge der Objekte als eine P. Bei n Objekten gibt es n! P. S. 60 Perzentil: Das x-te P. ist diejenige Merkmalsausprågung, die die unteren x% einer Verteilung abschneidet. In einer Graphik werden die unteren x% (in der Graphik links) der Verteilungsflåche abgeschnitten. S. 40
aG. Glossar Pfaddiagramm: Graphische Veranschaulichung eines Kausalmodells. S. 474 Phi-Koeffizient (U-Koeffizient): Korrelationskoeffizient fçr zwei natçrlich dichotome Merkmale; diese werden im Allgemeinen in einer Vier-FelderTafel dargestellt. S. 227 Polygon: Graphik zur Veranschaulichung einer empirischen Håufigkeitsverteilung einer stetigen Variablen. Auf den Kategorienmitten werden Lote errechnet, deren Långe jeweils der Kategorienhåufigkeit (absolut oder prozentual) entspricht. Verbindet man die Endpunkte der Lote, erhålt man das Polygon. Die Flåche unter dem Polygonzug repråsentiert die Kollektivgræûe n bzw. 100% (Histogramm). S. 30 Population: Grundgesamtheit bzw. S. 86 power: Teststårke bzw. S. 123 Prådiktorvariable: Variable, mittels derer unter Verwendung der Regressionsgleichung eine Vorhersage çber eine andere Variable (Kriteriumsvariable) gemacht werden kann. S. 182 Probabilistische Stichproben: Stichprobentechniken, bei denen die Auswahl der Untersuchungsobjekte vom Zufall bestimmt ist. Zu den P. S. gehæren die einfache Zufallsstichprobe, die geschichtete Stichprobe, die mehrstufige Stichprobe und die Klumpenstichprobe. S. 88 Progressive Entscheidung: Man spricht von einer progressiven Entscheidung, wenn ein statistischer Signifikanztest aufgrund von Voraussetzungsverletzungen eher zugunsten von H1 entscheidet. S. 131 Prozentrånge: In Prozentwerte umgerechnete kumulierte Håufigkeiten. S. 29 Punktbiseriale Korrelation: Verfahren zur Berechnung eines Korrelationskoeffizienten rpbis fçr ein kardinalskaliertes und ein natçrlich dichotomes Merkmal. S. 224 Punktschåtzung: Schåtzung eines Parameters çber einen einzelnen Wert (im Unterschied zur Intervallschåtzung). S. 110 Quadratsumme: Summe der quadrierten Abweichungen aller Messwerte einer Verteilung vom Mittelwert. Bestandteil der Varianzformel; auûerdem wichtig in der Varianzanalyse. S. 42 Quasiexperiment: Untersuchung, bei der auf Randomisierung verzichtet werden muss, weil natçrliche bzw. bereits bestehende Gruppen untersucht werden; Bsp.: Raucher vs. Nichtrau-
795
cher, månnliche vs. weibliche Vpn (man kann nicht per Zufall entscheiden, welcher Gruppe eine Vp angehæren soll). S. 8 Quasi-F-Brçche: Nach dem theoretischen Erwartungsmodell gebildete F-Brçche, um nicht direkt zu testende Effekte approximativ zu testen (Varianzanalyse). S. 314 Rand-Index: Ein Index zur Evaluation clusteranalytischer Læsungen mit ungleicher Clusteranzahl. S. 582 Randomisierung: Zufållige Zuordnung der Versuchsteilnehmer bzw. -objekte zu den Versuchsbedingungen. S. 8 range: Variationsbreite bzw. S. 40 Rangkorrelation nach Spearman: Verfahren zur Berechnung eines Korrelationskoeffizienten fçr zwei rangskalierte Merkmale. S. 232 Redundanz: In der Korrelationsrechnung der prozentuale Anteil der Varianz der y-Werte, der aufgrund der x-Werte erklårbar bzw. redundant ist. Berechnung çber r2´100 (Determinationskoeffizient). S. 209 Regression, multiple: Vorhersage einer Kriteriumsvariablen mittels eines linearen Gleichungsmodells aufgrund mehrerer Prådiktorvariablen. S. 448 Regressionsgleichung: (Meist lineare) Gleichung, die die Beziehung zwischen zwei Merkmalen x und y charakterisiert. Mit Hilfe der R. kann ein Vorhersagewert fçr y (Kriteriumsvariable) geschåtzt werden, wenn x (Prådiktorvariable) bekannt ist. Die R. wird so ermittelt, dass sie die Summe der quadrierten Vorhersagefehler minimiert. S. 185 Regressionsresiduum: Kennzeichnet die Abweichung eines empirischen Werts von seinem durch die Regressionsgleichung vorhergesagten Wert. Das R. enthålt Anteile der Kriteriumsvariablen y, die durch die Prådiktorvariable x nicht erfasst werden. S. 207 Rekursive Systeme: Systeme, in denen nur einseitig gerichtete kausale Wirkungen angenommen und in denen die Variablen bezçglich ihrer kausalen Prioritåt hierarchisch angeordnet werden (lineare Strukturgleichungsmodelle). S. 475 Relationensystem (Relativ): Menge von Objekten und einer oder mehrerer Relationen (z. B. Gleichheitsrelation, die besagt, dass zwei Objekte gleich sind; Ordnungsrelation, die besagt, dass
796
Anhang
sich Objekte in eine Rangreihe bringen lassen) (empirisches bzw. numerisches Relativ). S. 16 Relativ: Relationensystem bzw. S. 16 relative Håufigkeit: Wird ein Zufallsexperiment n-mal wiederholt, besagt die r. H., wie oft ein Ereignis in Relation zu n aufgetreten ist. Die r. H. liegt daher immer zwischen 0 und 1. r. H. sind Schåtzwerte fçr Wahrscheinlichkeiten. S. 52 Residuum: (s. Regressionsresiduum) Robuster Test: Ein statistischer Signifikanztest ist robust, wenn er trotz verletzter Voraussetzungen im Prinzip richtig çber H1 oder H0 befindet. S. 131 Scheff-Test: Mit diesem Test wird der gesamte, mit allen mæglichen Einzelvergleichen verbundene Hypothesenkomplex auf dem a-Fehler-Niveau der Varianzanalyse abgesichert. S. 274 Scheinkorrelation: Man spricht von einer Scheinkorrelation zwischen zwei Merkmalen, wenn die Korrelation durch die Wirksamkeit eines oder mehrerer Drittmerkmale verursacht wurde. S. 443 Schiefe: Steigt eine Verteilung auf einer Seite steiler an als auf der anderen, wird sie als schief bezeichnet; sie ist also asymmetrisch. S. 45 Schrumpfungskorrektur: Korrektur, die erforderlich wird, wenn ein bestimmter Kennwert den wahren Wert in der Population çberschåtzt (z. B. bei der multiplen Korrelation). S. 450 Scree-Test: Identifikation der bedeutsamen Faktoren in der Faktorenanalyse anhand des Eigenwertediagramms. S. 544 Sequenzeffekte: Effekte, die bei wiederholter Untersuchung von Versuchspersonen auftreten und die Treatmenteffekte çberlagern kænnen (z. B. Lerneffekte; Varianzanalyse). S. 338 signifikant: Signifikanzniveau bzw. S. 114 Signifikanzniveau (a-Fehler-Niveau): Die Irrtumswahrscheinlichkeit, die ein Untersuchungsergebnis maximal aufweisen darf, damit die Alternativhypothese als beståtigt gelten kann. Im Allgemeinen spricht man von einem signifikanten Ergebnis, wenn die Irrtumswahrscheinlichkeit hæchstens 5%, von einem sehr signifikanten Ergebnis, wenn sie hæchstens 1% betrågt. S. 114 spezifische Alternativhypothese: Annahme, die nicht nur einen Unterschied oder Zusammenhang generell, sondern auch dessen Mindestgræûe vo-
raussagt. Bsp.: Månner sind im Durchschnitt mindestens 5 cm græûer als Frauen (im Gegensatz zur unspezifischen H.: Månner sind im Durchschnitt græûer als Frauen). Spezifische Hypothesen werden meistens in Verbindung mit Effektgræûen formuliert. S. 108 Standardabweichung (Streuung): Wurzel aus der Varianz; bezeichnet durch s fçr Stichproben, durch r fçr theoretische Verteilungen (z. B. Population). S. 41 Standardfehler: Streuung einer Stichprobenkennwerteverteilung. Sie informiert darçber, wie unterschiedlich Stichprobenkennwerte (z. B. Mittelwerte) von Stichproben aus einer Population bei einem gegebenen Stichprobenumfang sein kænnen. Wichtig fçr die Inferenzstatistik. S. 90 Standardnormalverteilung: Normalverteilung mit Erwartungswert (l) 0 und Standardabweichung (r) 1. Jede Normalverteilung kann durch z-Transformation in die S. çberfçhrt werden, was den Vergleich verschiedener Normalverteilungen ermæglicht. S. 75 Standardschåtzfehler: Kennzeichnet die Streuung der y-Werte um die Regressionsgerade und ist damit ein Gçtemaûstab fçr die Genauigkeit der Regressionsvorhersagen. Je kleiner der S., desto genauer ist die Vorhersage. S. ist identisch mit der Streuung der Regressionsresiduen. S. 192 Stem-and-Leaf-Plot: (Stamm und Blatt) Spezielle Form eines Histogramms, dem nicht nur die Håufigkeit von Messwerten, sondern auch deren Græûe entnommen werden kann. S. 33 stetig: Ein Merkmal ist s., wenn es kontinuierliche Werte annehmen kann bzw. zumindest theoretisch beliebig genau gemessen werden kann. Bsp.: Græûe, Gewicht etc. S. 62 Stichprobe: In der Regel zufållig ausgewåhlte Personengruppe, die als Grundlage fçr inferenzstatistische Schlçsse dienen soll (im Unterschied zu Kollektiv). S. 86 Stichprobenkennwert: Wert, der die beobachteten Werte einer Stichprobe zusammenfasst, um eine Aussage zur Verteilung der Werte zu machen. Bsp.: Mittelwert, Modalwert, Varianz. Bezeichnung i. Allg. durch Kleinbuchstaben (Parameter). S. 85 Stichprobenkennwerteverteilung: Verteilung der Kennwerte eines Merkmals aus mehreren Stichproben, die derselben Grundgesamtheit entnommen wurden. Bsp.: Verteilung der Mittel-
aG. Glossar werte aus Untersuchungen zur Kærpergræûe von Zehnjåhrigen. S. 89 Stærvariable: Merkmal, das bei einem (Quasi-)Experiment nicht kontrolliert oder miterhoben wird, die Werte der abhångigen Variable aber (potentiell) beeinflusst und somit die Interpretation der Ergebnisse erschwert. S. 252 stratifizierte Stichprobe: Geschichtete Stichprobe bzw. S. 88 Streuung: Standardabweichung bzw. S. 41 Suffizienz: Kriterium der Parameterschåtzung. Ein Schåtzwert ist suffizient oder erschæpfend, wenn er alle in den Daten einer Stichprobe enthaltenen Informationen berçcksichtigt, sodass durch Berechnung eines weiteren statistischen Kennwertes keine zusåtzliche Information çber den zu schåtzenden Parameter gewonnen werden kann. S. 98 Suppressorvariable: Variable, die den Vorhersagebeitrag einer (oder mehrerer) anderer Variablen erhæht, indem sie irrelevante Varianzen in den (der) anderen Variable(n) unterdrçckt (multiple Korrelation). S. 457 Teststårke (power): Gegenwahrscheinlichkeit des Fehlers zweiter Art (b-Fehler): 1 b. Sie gibt an, mit welcher Wahrscheinlichkeit ein Signifikanztest zugunsten einer spezifischen Alternativhypothese entscheidet, sofern diese wahr ist, d. h. mit welcher Wahrscheinlichkeit ein Unterschied oder Zusammenhang entdeckt wird, wenn er existiert. S. 123 Tetrachorische Korrelation: Verfahren zur Berechnung eines Korrelationskoeffizienten rtet fçr zwei kçnstlich dichotomisierte Merkmale; diese werden i. Allg. in einer Vier-Felder-Tafel dargestellt. S. 230 Treatmentquadratsumme: Die T. kennzeichnet im Rahmen der einfaktoriellen Varianzanalyse die Unterschiedlichkeit der Messwerte zwischen den Stichproben. Ihre Græûe hångt von der Wirksamkeit der geprçften unabhångigen Variablen (Treatment) ab. S. 251 Trendhypothese, monotone: Durch eine monotone Trendhypothese wird eine Rangfolge der Treatment-Mittelwerte vorgegeben (Varianzanalyse). S. 282 Trendtests: Durch Trendtests wird die TreatmentQuadratsumme in orthogonale Trendkomponenten zerlegt, die auf verschiedene Trends (li-
797
near, quadratisch, kubisch usw.) in den Mittelwerten der abhångigen Variablen zurçckzufçhren sind (Varianzanalyse). S. 276 Tripleinteraktion: Interaktion 2. Ordnung A´B´C (Varianzanalyse). S. 320 t-Test fçr abhångige Stichproben: Statistischer Signifikanztest, der zwei Gruppen, die nicht unabhångig voneinander ausgewåhlt wurden (parallelisierte Stichproben oder Messwiederholung) auf einen Unterschied bezçglich ihrer Mittelwerte eines intervallskalierten Merkmals untersucht. S. 143 t-Test fçr unabhångige Stichproben: Statistischer Signifikanztest, der zwei Gruppen, die unabhångig voneinander ausgewåhlt wurden, auf einen Unterschied bezçglich ihrer Mittelwerte eines intervallskalierten Merkmals untersucht. S. 140 U-Test: Mann-Whitney-U-Test bzw. S. 150 unabhångige Variable: Merkmal, das in einem (Quasi-)Experiment systematisch variiert wird, um seine Auswirkung auf die abhångige Variable zu untersuchen. S. 6 f. Unabhångigkeit: Zwei Ereignisse sind voneinander unabhångig, wenn das Auftreten des einen Ereignisses nicht davon beeinflusst wird, ob das andere eintritt oder nicht. Mathematisch drçckt sich dies darin aus, dass die Wahrscheinlichkeit fçr das gemeinsame Auftreten beider Ereignisse dem Produkt der Einzelwahrscheinlichkeiten der beiden Ereignisse entspricht. S. 56 ungerichtete Alternativhypothese: Annahme, die einen Unterschied oder Zusammenhang voraussagt, ohne deren Richtung zu spezifizieren. Bsp.: Månner und Frauen sind im Durchschnitt unterschiedlich groû (im Gegensatz zur gerichteten H1: Månner sind im Durchschnitt græûer als Frauen). S. 108 unimodale Verteilung: Verteilung mit nur einem Gipfel (und somit nur einem Modalwert). S. 33 unspezifische Alternativhypothese: Annahme, die einen Unterschied oder Zusammenhang voraussagt, ohne deren Græûe zu spezifizieren. S. 108 Unterschiedshypothese: Annahme, die besagt, dass sich zwei oder mehr zu untersuchende Gruppen bezçglich eines Merkmals unterscheiden. Ûberprçfung durch t-Test oder Varianzanalyse. S. 135 UV: s. unabhångige Variable
798
Anhang
Varianz: Summe der quadrierten Abweichungen aller Messwerte einer Verteilung vom Mittelwert, dividiert durch die Anzahl aller Messwerte (n). Maû fçr die Unterschiedlichkeit der einzelnen Werte einer Verteilung. S. 41 Varianzanalyse: Allgemeine Bezeichnung fçr eine Verfahrensklasse zur Ûberprçfung von Unterschiedshypothesen. Man unterscheidet ein- und mehrfaktorielle Varianzanalysen, uni- und multivariate Varianzanalysen, hierarchische und nichthierarchische Varianzanalysen sowie Kovarianzanalysen. S. 247 Variationsbreite (¹rangeª): Gibt an, in welchem Bereich sich die Messwerte eines Kollektivs bzw. einer Stichprobe befinden; ergibt sich als Differenz des græûten und kleinsten Werts der Verteilung. S. 40 Varimax-Kriterium: Rotationskriterium, das die Varianz der quadrierten Ladungen pro Faktor maximiert (Faktorenanalyse). S. 548 Verhåltnisskala: Ordnet den Objekten eines empirischen Relativs Zahlen zu, die so geartet sind, dass das Verhåltnis zwischen je zwei Zahlen dem Verhåltnis der Merkmalsausprågungen der jeweiligen Objekte entspricht. Eine V. erlaubt Aussagen çber Gleichheit (Øquivalenzrelation), Rangfolge (Ordnungsrelation) und Græûe des Unterschieds der Merkmalsausprågung von Objekten. Eine V. hat auûerdem einen empirisch begrçndbaren Nullpunkt. Bsp.: Långenskalen (Nominal-, Ordinal-, Intervall-, Kardinalskala). S. 21 Versuchsleitereffekt: (Unbewusste) Beeinflussung des Untersuchungsergebnisses durch das Verhalten oder die Erwartungen des Versuchsleiters. S. 10 Versuchsplåne, hierarchische: s. hierarchische Plåne. verteilungsfreie Verfahren: Statistische Tests, die keine besondere Verteilungsform der Grundgesamtheit (insbesondere Normalverteilung) voraussetzen. Sie sind vor allem fçr die inferenzstatistische Auswertung kleiner Stichproben geeignet; auch nonparametrische Tests genannt. S. 131 Verteilungsfunktion: Kumulation der Wahrscheinlichkeitsfunktion einer Zufallsvariablen. Die Werte dieser Funktion benennen keine Einzelwahrscheinlichkeiten, sondern die Wahrscheinlichkeit des Wertes selbst sowie aller kleineren Werte. Die V. berechnet sich bei stetigen Zu-
fallsvariablen durch das Integral der Dichtefunktion. S. 64 Vier-Felder-Tafel: Tabellarische Darstellung der gemeinsamen Håufigkeitsverteilung von 2 dichotomen Merkmalen. S. 168 Wahrscheinlichkeitsdichte: Dichtefunktion Wahrscheinlichkeitsfunktion: Funktion, die bei diskreten Zufallsvariablen angibt, mit welcher Wahrscheinlichkeit jedes Ereignis bei einem Zufallsexperiment auftritt. Bei stetigen Variablen bezeichnet man die W. als Dichtefunktion. S. 62 Ward-Methode: Hierarchisches Verfahren, das zur Clusteranalyse gehært. S. 575 Wilcoxon-Test: Verteilungsfreier Signifikanztest, der zwei Gruppen, die nicht unabhångig voneinander ausgewåhlt wurden (parallelisierte Stichproben oder Messwiederholung), auf einen Unterschied bezçglich ihrer zentralen Tendenz eines ordinalskalierten Merkmals untersucht. S. 153 z-Transformation: Ein Wert einer beliebigen Verteilung wird durch Subtraktion des Mittelwerts und anschlieûende Division durch die Standardabweichung der Verteilung in einen z-Wert transformiert. Eine z-transformierte Verteilung hat einen Mittelwert von 0 und eine Standardabweichung von 1. Beliebige Normalverteilungen werden durch die z-Transformation in die Standardnormalverteilung çberfçhrt. S. 45 zentrale Tendenz: Charakterisiert die ¹Mitteª bzw. das ¹Zentrumª einer Verteilung. Bei intervallskalierten Daten wird die z. T. durch das arithmetische Mittel, bei ordinalen Daten durch den Median und bei nominalen Daten durch den Modalwert beschrieben. S. 35 Zentrales Grenzwerttheorem: Besagt, dass die Verteilung von Mittelwerten gleich groûer Stichproben aus derselben Grundgesamtheit bei wachsendem Stichprobenumfang (n) in eine Normalverteilung çbergeht. Dies gilt, unabhångig von der Verteilungsform der Messwerte in der Grundgesamtheit, fçr Stichproben mit n>30. S. 93 zufållige Effekte: Ein Faktor çberprçft zufållige Effekte, wenn die Auswahl der Effekte zufållig aus einer Population erfolgte. Bsp.: Lehrer, Therapeuten oder Versuchsleiter als Stufen eines
aG. Glossar Faktors. Bei mehrfaktoriellen Plånen wichtig fçr die Bestimmung adåquater Prçfvarianzen (Varianzanalyse). S. 302 Zufallsexperiment: Ein beliebig oft wiederholbarer Vorgang, der nach einer ganz bestimmten Vorschrift ausgefçhrt wird und dessen Ergebnis vom Zufall abhångt, d. h. nicht im Voraus eindeutig bestimmt werden kann (z. B. Wçrfeln, Messung der Reaktionszeit). S. 50 Zufallsstichprobe: Zufållige Auswahl von Untersuchungseinheiten; jedes Element der Grundgesamtheit wird, unabhångig von den bereits ausgewåhlten Elementen, mit gleicher Wahrscheinlichkeit ausgewåhlt. S. 86
799
Zufallsvariable: Funktion, die den Ergebnissen eines Zufallsexperiments (d. h. Elementarereignissen oder Ereignissen) reelle Zahlen zuordnet, z. B. beim Wçrfeln Zuordnung einer Zahl von 1 bis 6 zu jedem Wurf. S. 62 Zusammenhangshypothese: Annahme, die besagt, dass zwei oder mehr zu untersuchende Merkmale miteinander zusammenhången. Ûberprçfung durch Korrelationsstatistik. S. 182 zweiseitiger Test: Statistischer Test, der eine ungerichtete Hypothese (im Gegensatz zu einer gerichteten Hypothese) çberprçft. S. 117
801
H. Formelverzeichnis Im Folgenden werden zusammenfassend einige Formeln genannt, die bei statistischen Analysen håufig benætigt werden. Ûber die Gleichungsnummer kann man die Textstelle finden, mit der die jeweilige Formel eingefçhrt wird.
Additionstheorem p
A [ D p
A p
D
p
A \ D
2:8
oder p
A [ B p
A p
B
2:9
(fçr disjunkte Ereignisse)
n P
xi AM x i1 n
1:8
Bartlett-Test
X 2;303 v ni p lg
^ r2Fehler C i X ^2Fehler
i
ni 1 lg r 2
7:82
i
Biseriale Korrelation y y 0 n0 n1 rbis 1 sy # n2 Biseriale Rangkorrelation 2 rbisR
y1 y2 n
13:15a
13:15b
k
2:34
6:101
6:114
Bonferroni-Korrektur
wobei
X 1 1 C1 1 3
p 1 n i i
1 P ni i
p
^2Fehler
i Varianz innerhalb der Stichprobe i, r lg Logarithmus zur Basis 10
Bayes-Theorem p
Ai p
BjAi k P i1
2:18
p
Ai p
BjAi
nAD =n p
A \ D nD =n p
D
a0 a=m
7:63
Cramers Index s v2 CI n
R 1
6:120
Effektgræûe fçr den Vergleich zweier Stichprobenmittelwerte (abhångige Stichproben) 1 2 p
1 > 2 "0
5:24 b r 1 r Effektgræûe fçr den Vergleich zweier Stichprobenmittelwerte (unabhångige Stichproben)
Bedingte Wahrscheinlichkeiten p
AjD
(2 Prådiktoren) r2c r12 r212 r1c r12 r212
Binomialverteilung n p k qn f
X kjn k
Arithmetisches Mittel
p
Ai jB
Beta-Gewicht r1c b1 1 r2c b2 1
2:11
"
1
2 b r
1 > 2
5:17
802
Anhang
Effektgræûe fçr Håufigkeitsvergleiche v u k uX
pb
j pe
j 2 "t pe
j j1
Einfaktorielle VA mit Messwiederholungen
5:68
F
^2treat r ; dftreat p ^2res r
dfres
p
(eindimensional) v u k ` uX X
pb
i;j pe
i;j 2 "t pe
i;j i1 j1
5:76
^2treat r ^2res r
e r %^
F
a2ij
15:5
p = Anzahl der Variablen
v2
m
i
fe
j 2
5:67
^2treat QStreat =
p 1 r P n
Ai G2 i p 1
7:6
und
dftreat p
p
n 1;
Ai 2
1
7:44
X
7:41
ci 0
Kontrastbedingung
7:42
QSFehler dfFehler PP
xmi i
Ai 2
m
p
n
1
7:10
g-(eta-) Koeffizient s QSlin QSquad QStrend
p 1 g QStot r QStreat
7:74 QStot Euklidische Distanz
7:10
1
dfFehler p
n
1
n
i
mit
Pm G2
Ai
i
7:22
m
xmi
D2 n D2 P 2 d Var
D ^2Fehler ci r
^2Fehler r
^2treat =^ Fr r2Fehler
i
;
1
i
1
f ur Gleichverteilung
QSFehler dfFehler PP
xmi
p
p
Einfaktorielle Varianzanalyse
^2Fehler r
i
G2
Ai
D c1 A1 c2 A2 cp Ap X ci Ai
fe
j
j1
df k
P
mit
Eindimensionales v2 k X
fb
j
9:8
Einzelvergleichstest (Kontraste in der einfaktoriellen Varianzanalyse)
Eigenwert (Faktorenanalyse)
i1
n
PP
Effektgræûe fçr Korrelationen
kj
1
mit
kx`-Tafel
p X
1
n
1;
1
" dii0
p X
xij j1
#1=2 xi0 j
2
16:3
803
aH. Formelverzeichnis
4-Felder-v2 v2
Kommunalitåt
n
ad bc2
a b
c d
a c
b d
5:73
df 1
5:39
dfN n1
1 ; dfZ n2
1
^2Fehler
max r
r
k X ` X
fb
i;j
df
k
1
`
fe
i;j 2
fe
i;j
5:75
1
Pe Pe
16:15
i1
fii
n k P fi: f:i
Pe i1
n2
Kombinationen (ohne Reihenfolge) n n! r r!
n r!
i1
xi
x
yi
y
n sx sy n X 1 x i x yi y n i1 sx sy n 1 X zxi zyi n i1 n n n P P P n xi yi xi yi i1 i1 i1s n 2 n P P 2 xi n xi i1
mit k P
6:118
Kappa-Maû P0 1
3:22
cov
x; y sx sy n P
2:40
2
i1 j1
Dcrit x z
a=2 b rx
Korrelationskoeffizient r
n
P0
15:4
7:83
^2Fehler
min r
Hypergeometrische Verteilung N K K k n k f
X kjN; K; n N
j
a2ij 1
Kontingenzkoeffizient s v2 C v2 n
Fmax-Test
v2
j1
Konfidenzintervall fçr Mittelwerte
b r2 F 12 b r2
k ´ l±v
q X
q = Anzahl der Faktoren
F-Test
Fmax
0
h2i
16:16
16:17
1 s n 2 n P P 2 yi n yi i1
sx byx sy
i1
6:57; 6:58; 6:59; 6:60; 6:65
McNemar-v2 v2
2:20
i1
P1 P2 2
b c2 b r2
P1 P2 bc
df 1
5:65
804
Anhang
Multiple Korrelation (2 Prådiktoren) Rc;12
s r21c r22c 2 r12 r1c r2c 1 r212
13:14a
Signifikanztest F
Punktbiseriale Korrelation r y y0 n0 n1 rpb 1 sy n2 Rangkorrelation
2
R
n k 1
1 R2 k
13:19
6 rs 1
n
Multiplikationstheorem p
A \ B p
A p
BjA
2:13
oder p
A \ B p
A p
B
2:14
(fçr unabhångige Ereignisse)
n P
i1
n2
d2i
Redundanzmaû (Determinationskoeffizient) Red
yx r2 100
6:80
^yi b xi a
6:3
mit
c1j c1k c2j c2k cpj cpk X cij cik 0
7:46
i
n b
n P i1
n
Partialkorrelation rxy rxz ryz rxyz p q 1 r2xz 1 r2yz
13:5
ay
xi yi
n P i1
x2i
n P
n P x i yi i1 i1 n 2 P xi
r ad bc v2 U p n
ac
bd
ab
cd
i1
bx
^yi
6:9
cov
x; y xi ayx s2x n P
cov
x; y
i1
xi
x
yi
b r2 i1
n
n n
1
i1
xi n
n P
x2 1
Prozentwert fçr die Håufigkeit einer Kategorie k %k
fk 100% n
i1
3:2
1:5
y
n
Populationsvarianz (geschåtzt) n P
6:25
mit
6:106; 6:107
x2
6:12
oder
Phi-Koeffizient
xi
6:115
1
Regressionsgleichung (linear)
Orthogonalitåtsbedingung fçr Einzelvergleiche
n P
6:99
n n P P
xi
xi yi
i1
n
n
yi
i1
6:22a ; 6:22
S-Koeffizient Sij
a abc
16:1a
805
aH. Formelverzeichnis
ScheffeÂ-Test (einfaktorielle Varianzanalyse)
Standardschåtzfehler (geschåtzt)
s ^2Fehler F
p 1;N p;1 a 2
p 1 r n
Diff crit
^
yjx r
s n s2y n b2yx s2x n
7:67 mit ^2Fehler r
Tetrachorische Korrelation
QSFehler dfFehler PP
xmi Ai 2 m i p
n 1
rtet cos
13:6
CR21
1
CR22
. . .
1
CR2r
19:8
Signifikanztest fçr Korrelationen p r n 2 t p 1 r2
xd b rxd
5:23
ad abcd
Standardabweichung (Streuung) v uP un 2 u p ti1
xi x s s2 n
di xd i1 n
5:19
b rd b rxd p n
5:20
b rd
16:2
v uP un u
di xd 2 ti1
df n
n
1
v P 2 u n u di n uP i1 u d2 i t n i1
n
1
5:21
1
t-Test (unabhångige Stichproben) t
1:17
3:3
x1 x2 b r
x1 x2
mit b r
x1
Standardfehler des Mittelwertes (geschåtzt) v uP n 2 r u u
xi x 2 ti1 b r b rx n n
n 1
n P
6:84
Simple Matching Coefficient (SMC) SMCij
t mit
¹Setª-Korrelation
1
6:110
t-Test (abhångige Stichproben)
rxy rxz ryz p 1 r2xz
R2xy 1
180 p 1 b c=
a d
7:10
Semipartialkorrelation ry
xz
6:42
2
x2
5:15
s
n1 1 b r21
n2 1 b r22
n1 1
n2 1 r 1 1 n1 n2
df n1 n2
2
5:13
806
Anhang
Varianz
Zweifaktorielle Varianzanalyse n P
s2 i1 n P
i1
xi
x
n x2i
FA
2
n P i1
n
xi
^2A r ; 2 ^Fehler r
mit 2
n P
=n
i1
x2i
n
x
^2A r
2
1:16; 1:21
qn
7:21
pn
x s
P j
^2B r
^2AB r
1:27
dfA p
q
^2AB r ^2Fehler r
G2
Bj 1
PP i
j
ABij
p i
FAB
1
q n
^2B r ; 2 ^Fehler r
G2
Ai
p
^2Fehler r xi
i
PPP
z-Wert zi
P
Varianzaufklårung (einfaktorielle Varianzanalyse) QStreat Varianzaufklarung 100% QStot
FB
j
m
Ai
1
q
Xijm
p q
n 1; dfB q
Bj G2 1
ABij 2 1 1; dfAB
p
1; dfFehler p q
n
1 1
807
Tabellen
Tabelle A. Binomialverteilungen (zit. nach: Hays, W. L., Winkler, R. L.: Statistics, vol. I, pp. 609±613. New York: Holt, Rinehart and Winston 1970) p nk
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
10 1
0,9500 0,0500
0,9000 0,1000
0,8500 0,1500
0,8000 0,2000
0,7500 0,2500
0,7000 0,3000
0,6500 0,3500
0,6000 0,4000
0,5500 0,4500
0,5000 0,5000
20 1 2
0,9025 0,0950 0,0025
0,8100 0,1800 0,0100
0,7225 0,2550 0,0225
0,6400 0,3200 0,0400
0,5625 0,3750 0,0625
0,4900 0,4200 0,0900
0,4225 0,4550 0,1225
0,3600 0,4800 0,1600
0,3025 0,4950 0,2025
0,2500 0,5000 0,2500
30 1 2 3
0,8574 0,1354 0,0071 0,0001
0,7290 0,2430 0,0270 0,0010
0,6141 0,3251 0,0574 0,0034
0,5120 0,3840 0,0960 0,0080
0,4219 0,4219 0,1406 0,0156
0,3430 0,4410 0,1890 0,0270
0,2746 0,4436 0,2389 0,0429
0,2160 0,4320 0,2880 0,0640
0,1664 0,4084 0,3341 0,0911
0,1250 0,3750 0,3750 0,1250
40 1 2 3 4
0,8145 0,1715 0,0135 0,0005 0,0000
0,6561 0,2916 0,0486 0,0036 0,0001
0,5220 0,3685 0,0975 0,0115 0,0005
0,4096 0,4096 0,1536 0,0256 0,0016
0,3164 0,4219 0,2109 0,0469 0,0039
0,2401 0,4116 0,2646 0,0756 0,0081
0,1785 0,3845 0,3105 0,1115 0,0150
0,1296 0,3456 0,3456 0,1536 0,0256
0,0915 0,2995 0,3675 0,2005 0,0410
0,0625 0,2500 0,3750 0,2500 0,0625
50 1 2 3 4
0,7738 0,2036 0,0214 0,0011 0,0000
0,5905 0,3280 0,0729 0,0081 0,0004
0,4437 0,3915 0,1382 0,0244 0,0022
0,3277 0,4096 0,2048 0,0512 0,0064
0,2373 0,3955 0,2637 0,0879 0,0146
0,1681 0,3602 0,3087 0,1323 0,0284
0,1160 0,3124 0,3364 0,1811 0,0488
0,0778 0,2592 0,3456 0,2304 0,0768
0,0503 0,2059 0,3369 0,2757 0,1128
0,0312 0,1562 0,3125 0,3125 0,1562
5
0,0000
0,0000
0,0001
0,0003
0,0010
0,0024
0,0053
0,0102
0,0185
0,0312
60 1 2 3 4
0,7351 0,2321 0,0305 0,0021 0,0001
0,5314 0,3543 0,0984 0,0146 0,0012
0,3771 0,3993 0,1762 0,0415 0,0055
0,2621 0,3932 0,2458 0,0819 0,0154
0,1780 0,3560 0,2966 0,1318 0,0330
0,1176 0,3025 0,3241 0,1852 0,0595
0,0754 0,2437 0,3280 0,2355 0,0951
0,0467 0,1866 0,3110 0,2765 0,1382
0,0277 0,1359 0,2780 0,3032 0,1861
0,0156 0,0938 0,2344 0,3125 0,2344
5 6
0,0000 0,0000
0,0001 0,0000
0,0004 0,0000
0,0015 0,0001
0,0044 0,0002
0,0102 0,0007
0,0205 0,0018
0,0369 0,0041
0,0609 0,0083
0,0938 0,0156
70 1 2 3 4
0,6983 0,2573 0,0406 0,0036 0,0002
0,4783 0,3720 0,1240 0,0230 0,0026
0,3206 0,3960 0,2097 0,0617 0,0109
0,2097 0,3670 0,2753 0,1147 0,0287
0,1335 0,3115 0,3115 0,1730 0,0577
0,0824 0,2471 0,3177 0,2269 0,0972
0,0490 0,1848 0,2985 0,2679 0,1442
0,0280 0,1306 0,2613 0,2903 0,1935
0,0152 0,0872 0,2140 0,2918 0,2388
0,0078 0,0547 0,1641 0,2734 0,2734
5 6 7
0,0000 0,0000 0,0000
0,0002 0,0000 0,0000
0,0012 0,0001 0,0000
0,0043 0,0004 0,0000
0,0115 0,0013 0,0001
0,0250 0,0036 0,0002
0,0466 0,0084 0,0006
0,0774 0,0172 0,0016
0,1172 0,0320 0,0037
0,1641 0,0547 0,0078
808
Tabellen
Tabelle A (Fortsetzung) p nk
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
80 1 2 3 4
0,6634 0,2793 0,0515 0,0054 0,0004
0,4305 0,3826 0,1488 0,0331 0,0046
0,2725 0,3847 0,2376 0,0839 0,0185
0,1678 0,3355 0,2936 0,1468 0,0459
0,1001 0,2760 0,3115 0,2076 0,0865
0,0576 0,1977 0,2965 0,2541 0,1361
0,0319 0,1373 0,2587 0,2786 0,1875
0,0168 0,0896 0,2090 0,2787 0,2322
0,0084 0,0548 0,1569 0,2568 0,2627
0,0039 0,0312 0,1094 0,2188 0,2734
5 6 7 8
0,0000 0,0000 0,0000 0,0000
0,0004 0,0000 0,0000 0,0000
0,0026 0,0002 0,0000 0,0000
0,0092 0,0011 0,0001 0,0000
0,0231 0,0038 0,0004 0,0000
0,0467 0,0100 0,0012 0,0001
0,0808 0,0217 0,0033 0,0002
0,1239 0,0413 0,0079 0,0007
0,1719 0,0703 0,0164 0,0017
0,2188 0,1094 0,0312 0,0039
90 1 2 3 4
0,6302 0,2985 0,0629 0,0077 0,0006
0,3874 0,3874 0,1722 0,0446 0,0074
0,2316 0,3679 0,2597 0,1069 0,0283
0,1342 0,3020 0,3020 0,1762 0,0661
0,0751 0,2253 0,3003 0,2336 0,1168
0,0404 0,1556 0,2668 0,2668 0,1715
0,0277 0,1004 0,2162 0,2716 0,2194
0,0101 0,0605 0,1612 0,2508 0,2508
0,0046 0,0339 0,1110 0,2119 0,2600
0,0020 0,0176 0,0703 0,1641 0,2461
5 6 7 8 9
0,0000 0,0000 0,0000 0,0000 0,0000
0,0008 0,0001 0,0000 0,0000 0,0000
0,0050 0,0006 0,0000 0,0000 0,0000
0,0165 0,0028 0,0003 0,0000 0,0000
0,0389 0,0087 0,0012 0,0001 0,0000
0,0735 0,0210 0,0039 0,0004 0,0000
0,1181 0,0424 0,0098 0,0013 0,0001
0,1672 0,0743 0,0212 0,0035 0,0003
0,2128 0,1160 0,0407 0,0083 0,0008
0,2461 0,1641 0,0703 0,0176 0,0020
10 0 1 2 3 4
0,5987 0,3151 0,0746 0,0105 0,0010
0,3487 0,3874 0,1937 0,0574 0,0112
0,1969 0,3474 0,2759 0,1298 0,0401
0,1074 0,2684 0,3020 0,2013 0,0881
0,0563 0,1877 0,2816 0,2503 0,1460
0,0282 0,1211 0,2335 0,2668 0,2001
0,0135 0,0725 0,1757 0,2522 0,2377
0,0060 0,0403 0,1209 0,2150 0,2508
0,0025 0,0207 0,0763 0,1665 0,2384
0,0010 0,0098 0,0439 0,1172 0,2051
5 6 7 8 9 10
0,0001 0,0000 0,0000 0,0000 0,0000 0,0000
0,0015 0,0001 0,0000 0,0000 0,0000 0,0000
0,0085 0,0012 0,0001 0,0000 0,0000 0,0000
0,0264 0,0055 0,0008 0,0001 0,0000 0,0000
0,0584 0,0162 0,0031 0,0004 0,0000 0,0000
0,1029 0,0368 0,0090 0,0014 0,0001 0,0000
0,1536 0,0689 0,0212 0,0043 0,0005 0,0000
0,2007 0,1115 0,0425 0,0106 0,0016 0,0001
0,2340 0,1596 0,0746 0,0229 0,0042 0,0003
0,2461 0,2051 0,1172 0,0439 0,0098 0,0010
11 0 1 2 3 4
0,5688 0,3293 0,0867 0,0137 0,0014
0,3138 0,3835 0,2131 0,0710 0,0158
0,1673 0,3248 0,2866 0,1517 0,0536
0,0859 0,2362 0,2953 0,2215 0,1107
0,0422 0,1549 0,2581 0,2581 0,1721
0,0198 0,0932 0,1998 0,2568 0,2201
0,0088 0,0518 0,1395 0,2254 0,2428
0,0036 0,0266 0,0887 0,1774 0,2365
0,0014 0,0125 0,0513 0,1259 0,2060
0,0005 0,0054 0,0269 0,0806 0,1611
5 6 7 8 9
0,0001 0,0000 0,0000 0,0000 0,0000
0,0025 0,0003 0,0000 0,0000 0,0000
0,0132 0,0023 0,0003 0,0000 0,0000
0,0388 0,0097 0,0017 0,0002 0,0000
0,0803 0,0268 0,0064 0,0011 0,0001
0,1231 0,0566 0,0173 0,0037 0,0005
0,1830 0,0985 0,0379 0,0102 0,0018
0,2207 0,1471 0,0701 0,0234 0,0052
0,2360 0,1931 0,1128 0,0462 0,0126
0,2256 0,2256 0,1611 0,0806 0,0269
10 11
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0002 0,0000
0,0007 0,0000
0,0021 0,0002
0,0054 0,0005
12 0 1 2 3 4
0,5404 0,3413 0,0988 0,0173 0,0021
0,2824 0,3766 0,2301 0,0852 0,0213
0,1422 0,3012 0,2924 0,1720 0,0683
0,0687 0,2062 0,2835 0,2362 0,1329
0,0317 0,1267 0,2323 0,2581 0,1936
0,0138 0,0712 0,1678 0,2397 0,2311
0,0057 0,0368 0,1088 0,1954 0,2367
0,0022 0,0174 0,0639 0,1419 0,2128
0,0008 0,0075 0,0339 0,0923 0,1700
0,0002 0,0029 0,0161 0,0537 0,1208
5 6
0,0002 0,0000
0,0038 0,0005
0,0193 0,0040
0,0532 0,0155
0,1032 0,0401
0,1585 0,0792
0,2039 0,1281
0,2270 0,1766
0,2225 0,2124
0,1934 0,2256
809
aTabelle A Tabelle A (Fortsetzung) p nk
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
7 8 9
0,0000 0,0000 0,0000
0,0000 0,0000 0,0000
0,0006 0,0001 0,0000
0,0033 0,0005 0,0001
0,0115 0,0024 0,0004
0,0291 0,0078 0,0015
0,0591 0,0199 0,0048
0,1009 0,0420 0,0125
0,1489 0,0762 0,0277
0,1934 0,1208 0,0537
10 11 12
0,0000 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000 0,0000
0,0002 0,0000 0,0000
0,0008 0,0001 0,0000
0,0025 0,0003 0,0000
0,0068 0,0010 0,0001
0,0161 0,0029 0,0002
13 0 1 2 3 4
0,5133 0,3512 0,1109 0,0214 0,0028
0,2542 0,3672 0,2448 0,0997 0,0277
0,1209 0,2774 0,2937 0,1900 0,0838
0,0550 0,1787 0,2680 0,2457 0,1535
0,0238 0,1029 0,2059 0,2517 0,2097
0,0097 0,0540 0,1388 0,2181 0,2337
0,0037 0,0259 0,0836 0,1651 0,2222
0,0013 0,0113 0,0453 0,1107 0,1845
0,0004 0,0045 0,0220 0,0660 0,1350
0,0001 0,0016 0,0095 0,0349 0,0873
5 6 7 8 9
0,0003 0,0000 0,0000 0,0000 0,0000
0,0055 0,0008 0,0001 0,0000 0,0000
0,0266 0,0063 0,0011 0,0001 0,0000
0,0691 0,0230 0,0058 0,0011 0,0001
0,1258 0,0559 0,0186 0,0047 0,0009
0,1803 0,1030 0,0442 0,0142 0,0034
0,2154 0,1546 0,0833 0,0336 0,0101
0,2214 0,1968 0,1312 0,0656 0,0243
0,1989 0,2169 0,1775 0,1089 0,0495
0,1571 0,2095 0,2095 0,1571 0,0873
10 11 12 13
0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000
0,0001 0,0000 0,0000 0,0000
0,0006 0,0001 0,0000 0,0000
0,0022 0,0003 0,0000 0,0000
0,0065 0,0012 0,0001 0,0000
0,0162 0,0036 0,0005 0,0000
0,0349 0,0095 0,0016 0,0001
14 0 1 2 3 4
0,4877 0,3593 0,1229 0,0259 0,0037
0,2288 0,3559 0,2570 0,1142 0,0349
0,1028 0,2539 0,2912 0,2056 0,0998
0,0440 0,1539 0,2501 0,2501 0,1720
0,0178 0,0832 0,1802 0,2402 0,2202
0,0068 0,0407 0,1134 0,1943 0,2290
0,0024 0,0181 0,0634 0,1366 0,2022
0,0008 0,0073 0,0317 0,0845 0,1549
0,0002 0,0027 0,0141 0,0462 0,1040
0,0001 0,0009 0,0056 0,0222 0,0611
5 6 7 8 9
0,0004 0,0000 0,0000 0,0000 0,0000
0,0078 0,0013 0,0002 0,0000 0,0000
0,0352 0,0093 0,0019 0,0003 0,0000
0,0860 0,0322 0,0092 0,0020 0,0003
0,1468 0,0734 0,0280 0,0082 0,0018
0,1963 0,1262 0,0618 0,0232 0,0066
0,2178 0,1759 0,1082 0,0510 0,0183
0,2066 0,2066 0,1574 0,0918 0,0408
0,1701 0,2088 0,1952 0,1398 0,0762
0,1222 0,1833 0,2095 0,1833 0,1222
10 11 12 13 14
0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000
0,0003 0,0000 0,0000 0,0000 0,0000
0,0014 0,0002 0,0000 0,0000 0,0000
0,0049 0,0010 0,0001 0,0000 0,0000
0,0136 0,0033 0,0005 0,0001 0,0000
0,0312 0,0093 0,0019 0,0002 0,0000
0,0611 0,0222 0,0056 0,0009 0,0001
15 0 1 2 3 4
0,4633 0,3658 0,1348 0,0307 0,0049
0,2059 0,3432 0,2669 0,1285 0,0428
0,0874 0,2312 0,2856 0,2184 0,1156
0,0352 0,1319 0,2309 0,2501 0,1876
0,0134 0,0668 0,1559 0,2252 0,2252
0,0047 0,0305 0,0916 0,1700 0,2186
0,0016 0,0126 0,0476 0,1110 0,1792
0,0005 0,0047 0,0219 0,0634 0,1268
0,0001 0,0016 0,0090 0,0318 0,0780
0,0000 0,0005 0,0032 0,0139 0,0417
5 6 7 8 9
0,0006 0,0000 0,0000 0,0000 0,0000
0,0105 0,0019 0,0003 0,0000 0,0000
0,0449 0,0132 0,0030 0,0005 0,0001
0,1032 0,0430 0,0138 0,0035 0,0007
0,1651 0,0917 0,0393 0,0131 0,0034
0,2061 0,1472 0,0811 0,0348 0,0116
0,2123 0,1906 0,1319 0,0710 0,0298
0,1859 0,2066 0,1771 0,1181 0,0612
0,1404 0,1914 0,2013 0,1647 0,1048
0,0916 0,1527 0,1964 0,1964 0,1527
10 11 12 13
0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000
0,0001 0,0000 0,0000 0,0000
0,0007 0,0001 0,0000 0,0000
0,0030 0,0006 0,0001 0,0000
0,0096 0,0024 0,0004 0,0001
0,0245 0,0074 0,0016 0,0003
0,0515 0,0191 0,0052 0,0010
0,0916 0,0417 0,0139 0,0032
810
Tabellen
Tabelle A (Fortsetzung) p nk
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
14 15
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0000
0,0005 0,0000
16 0 1 2 3 4
0,4401 0,3706 0,1463 0,0359 0,0061
0,1853 0,3294 0,2745 0,1423 0,0514
0,0743 0,2097 0,2775 0,2285 0,1311
0,0281 0,1126 0,2111 0,2463 0,2001
0,0100 0,0535 0,1336 0,2079 0,2252
0,0033 0,0228 0,0732 0,1465 0,2040
0,0010 0,0087 0,0353 0,0888 0,1553
0,0003 0,0030 0,0150 0,0468 0,1014
0,0001 0,0009 0,0056 0,0215 0,0572
0,0000 0,0002 0,0018 0,0085 0,0278
5 6 7 8 9
0,0008 0,0001 0,0000 0,0000 0,0000
0,0137 0,0028 0,0004 0,0001 0,0000
0,0555 0,0180 0,0045 0,0009 0,0001
0,1201 0,0550 0,0197 0,0055 0,0012
0,1802 0,1101 0,0524 0,0197 0,0058
0,2099 0,1649 0,1010 0,0487 0,0185
0,2008 0,1982 0,1524 0,0923 0,0442
0,1623 0,1983 0,1889 0,1417 0,0840
0,1123 0,1684 0,1969 0,1812 0,1318
0,0667 0,1222 0,1746 0,1964 0,1746
10 11 12 13 14
0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000
0,0002 0,0000 0,0000 0,0000 0,0000
0,0014 0,0002 0,0000 0,0000 0,0000
0,0056 0,0013 0,0002 0,0000 0,0000
0,0167 0,0049 0,0011 0,0002 0,0000
0,0392 0,0142 0,0040 0,0008 0,0001
0,0755 0,0337 0,0115 0,0029 0,0005
0,1222 0,0667 0,0278 0,0085 0,0018
15 16
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0000 0,0000
0,0001 0,0000
0,0002 0,0000
17 0 1 2 3 4
0,4181 0,3741 0,1575 0,0415 0,0076
0,1668 0,3150 0,2800 0,1556 0,0605
0,0631 0,1893 0,2673 0,2359 0,1457
0,0225 0,0957 0,1914 0,2393 0,2093
0,0075 0,0426 0,1136 0,1893 0,2209
0,0023 0,0169 0,0581 0,1245 0,1868
0,0007 0,0060 0,0260 0,0701 0,1320
0,0002 0,0019 0,0102 0,0341 0,0796
0,0000 0,0005 0,0035 0,0144 0,0411
0,0000 0,0001 0,0010 0,0052 0,0182
5 6 7 8 9
0,0010 0,0001 0,0000 0,0000 0,0000
0,0175 0,0039 0,0007 0,0001 0,0000
0,0668 0,0236 0,0065 0,0014 0,0003
0,1361 0,0680 0,0267 0,0084 0,0021
0,1914 0,1276 0,0668 0,0279 0,0093
0,2081 0,1784 0,1201 0,0644 0,0276
0,1849 0,1991 0,1685 0,1143 0,0611
0,1379 0,1839 0,1927 0,1606 0,1070
0,0875 0,1432 0,1841 0,1883 0,1540
0,0472 0,0944 0,1484 0,1855 0,1855
10 11 12 13 14
0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000
0,0004 0,0001 0,0000 0,0000 0,0000
0,0025 0,0005 0,0001 0,0000 0,0000
0,0095 0,0026 0,0006 0,0001 0,0000
0,0263 0,0090 0,0024 0,0005 0,0001
0,0571 0,0242 0,0081 0,0021 0,0004
0,1008 0,0525 0,0215 0,0068 0,0016
0,1484 0,0944 0,0472 0,0182 0,0052
15 16 17
0,0000 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000 0,0000
0,0001 0,0000 0,0000
0,0003 0,0000 0,0000
0,0010 0,0001 0,0000
18 0 1 2 3 4
0,3972 0,3763 0,1683 0,0473 0,0093
0,1501 0,3002 0,2835 0,1680 0,0700
0,0536 0,1704 0,2556 0,2406 0,1592
0,0180 0,0811 0,1723 0,2297 0,2153
0,0056 0,0338 0,0958 0,1704 0,2130
0,0016 0,0126 0,0458 0,1046 0,1681
0,0004 0,0042 0,0190 0,0547 0,1104
0,0001 0,0012 0,0069 0,0246 0,0614
0,0000 0,0003 0,0022 0,0095 0,0291
0,0000 0,0001 0,0006 0,0031 0,0117
5 6 7 8 9
0,0014 0,0002 0,0000 0,0000 0,0000
0,0218 0,0052 0,0010 0,0002 0,0000
0,0787 0,0310 0,0091 0,0022 0,0004
0,1507 0,0816 0,0350 0,0120 0,0033
0,1988 0,1436 0,0820 0,0376 0,0139
0,2017 0,1873 0,1376 0,0811 0,0386
0,1664 0,1941 0,1792 0,1327 0,0794
0,1146 0,1655 0,1892 0,1734 0,1284
0,0666 0,1181 0,1657 0,1864 0,1694
0,0327 0,0708 0,1214 0,1669 0,1855
10 11
0,0000 0,0000
0,0000 0,0000
0,0001 0,0000
0,0008 0,0001
0,0042 0,0010
0,0149 0,0046
0,0385 0,0151
0,0771 0,0374
0,1248 0,0742
0,1669 0,1214
811
aTabelle A Tabelle A (Fortsetzung) p nk
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
12 13 14
0,0000 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000 0,0000
0,0000 0,0000 0,0000
0,0002 0,0000 0,0000
0,0012 0,0002 0,0000
0,0047 0,0012 0,0002
0,0145 0,0045 0,0011
0,0354 0,0134 0,0039
0,0708 0,0327 0,0117
15 16 17 18
0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000
0,0002 0,0000 0,0000 0,0000
0,0009 0,0001 0,0000 0,0000
0,0031 0,0006 0,0001 0,0000
19 0 1 2 3 4
0,3774 0,3774 0,1787 0,0533 0,0112
0,1351 0,2852 0,2852 0,1796 0,0798
0,0456 0,1529 0,2428 0,2428 0,1714
0,0144 0,0685 0,1540 0,2182 0,2182
0,0042 0,0268 0,0803 0,1517 0,2023
0,0011 0,0093 0,0358 0,0869 0,1491
0,0003 0,0029 0,0138 0,0422 0,0909
0,0001 0,0008 0,0046 0,0175 0,0467
0,0000 0,0002 0,0013 0,0062 0,0203
0,0000 0,0000 0,0003 0,0018 0,0074
5 6 7 8 9
0,0018 0,0002 0,0000 0,0000 0,0000
0,0266 0,0069 0,0014 0,0002 0,0000
0,0907 0,0374 0,0122 0,0032 0,0007
0,1636 0,0955 0,0443 0,0166 0,0051
0,2023 0,1574 0,0974 0,0487 0,0198
0,1916 0,1916 0,1525 0,0981 0,0514
0,1468 0,1844 0,1844 0,1489 0,0980
0,0933 0,1451 0,1797 0,1797 0,1464
0,0497 0,0949 0,1443 0,1771 0,1771
0,0222 0,0518 0,0961 0,1442 0,1762
10 11 12 13 14
0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000
0,0001 0,0000 0,0000 0,0000 0,0000
0,0013 0,0003 0,0000 0,0000 0,0000
0,0066 0,0018 0,0004 0,0001 0,0000
0,0220 0,0077 0,0022 0,0005 0,0001
0,0528 0,0233 0,0083 0,0024 0,0006
0,0976 0,0532 0,0237 0,0085 0,0024
0,1449 0,0970 0,0529 0,0233 0,0082
0,1762 0,1442 0,0961 0,0518 0,0222
15 16 17 18 19
0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000
0,0001 0,0000 0,0000 0,0000 0,0000
0,0005 0,0001 0,0000 0,0000 0,0000
0,0022 0,0005 0,0001 0,0000 0,0000
0,0074 0,0018 0,0003 0,0000 0,0000
20 0 1 2 3 4
0,3585 0,3774 0,1887 0,0596 0,0133
0,1216 0,2702 0,2852 0,1901 0,0898
0,0388 0,1368 0,2293 0,2428 0,1821
0,0115 0,0576 0,1369 0,2054 0,2182
0,0032 0,0211 0,0669 0,1339 0,1897
0,0008 0,0068 0,0278 0,0716 0,1304
0,0002 0,0020 0,0100 0,0323 0,0738
0,0000 0,0005 0,0031 0,0123 0,0350
0,0000 0,0001 0,0008 0,0040 0,0139
0,0000 0,0000 0,0002 0,0011 0,0046
5 6 7 8 9
0,0022 0,0003 0,0000 0,0000 0,0000
0,0319 0,0089 0,0020 0,0004 0,0001
0,1028 0,0454 0,0160 0,0046 0,0011
0,1746 0,1091 0,0545 0,0222 0,0074
0,2023 0,1686 0,1124 0,0609 0,0271
0,1789 0,1916 0,1643 0,1144 0,0654
0,1272 0,1712 0,1844 0,1614 0,1158
0,0746 0,1244 0,1659 0,1797 0,1597
0,0365 0,0746 0,1221 0,1623 0,1771
0,0148 0,0370 0,0739 0,1201 0,1602
10 11 12 13 14
0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000
0,0002 0,0000 0,0000 0,0000 0,0000
0,0020 0,0005 0,0001 0,0000 0,0000
0,0099 0,0030 0,0008 0,0002 0,0000
0,0308 0,0120 0,0039 0,0010 0,0002
0,0686 0,0336 0,0136 0,0045 0,0012
0,1171 0,0710 0,0355 0,0146 0,0049
0,1593 0,1185 0,0727 0,0366 0,0150
0,1762 0,1602 0,1201 0,0739 0,0370
15 16 17 18 19 20
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
0,0003 0,0000 0,0000 0,0000 0,0000 0,0000
0,0013 0,0003 0,0000 0,0000 0,0000 0,0000
0,0049 0,0013 0,0002 0,0000 0,0000 0,0000
0,0148 0,0046 0,0011 0,0002 0,0000 0,0000
812
Tabellen
Tabelle B. Verteilungsfunktion der Standardnormalverteilung (Quelle: Glass, G. V., Stanley, J. C.: Statistical methods in education and psychology, pp. 513±519. New Jersey: Prentice-Hall. Englewood Cliffs 1970) ϑ
z
0
z
Flåche
Ordinate
z
Flåche
Ordinate
z
Flåche
Ordinate
±3,00 ±2,99 ±2,98 ±2,97 ±2,96
0,0013 0,0014 0,0014 0,0015 0,0015
0,0044 0,0046 0,0047 0,0048 0,0050
±2,60 ±2,59 ±2,58 ±2,57 ±2,56
0,0047 0,0048 0,0049 0,0051 0,0052
0,0136 0,0139 0,0143 0,0147 0,0151
±2,20 ±2,19 ±2,18 ±2,17 ±2,16
0,0139 0,0143 0,0146 0,0150 0,0154
0,0355 0,0363 0,0371 0,0379 0,0387
±2,95 ±2,94 ±2,93 ±2,92 ±2,91
0,0016 0,0016 0,0017 0,0018 0,0018
0,0051 0,0053 0,0055 0,0056 0,0058
±2,55 ±2,54 ±2,53 ±2,52 ±2,51
0,0054 0,0055 0,0057 0,0059 0,0060
0,0154 0,0158 0,0163 0,0167 0,0171
±2,15 ±2,14 ±2,13 ±2,12 ±2,11
0,0158 0,0162 0,0166 0,0170 0,0174
0,0396 0,0404 0,0413 0,0422 0,0431
±2,90 ±2,89 ±2,88 ±2,87 ±2,86
0,0019 0,0019 0,0020 0,0021 0,0021
0,0060 0,0061 0,0063 0,0065 0,0067
±2,50 ±2,49 ±2,48 ±2,47 ±2,46
0,0062 0,0064 0,0066 0,0068 0,0069
0,0175 0,0180 0,0184 0,0189 0,0194
±2,10 ±2,09 ±2,08 ±2,07 ±2,06
0,0179 0,0183 0,0188 0,0192 0,0197
0,0440 0,0449 0,0459 0,0468 0,0478
±2,85 ±2,84 ±2,83 ±2,82 ±2,81
0,0022 0,0023 0,0023 0,0024 0,0025
0,0069 0,0071 0,0073 0,0075 0,0077
±2,45 ±2,44 ±2,43 ±2,42 ±2,41
0,0071 0,0073 0,0075 0,0078 0,0080
0,0198 0,0203 0,0208 0,0213 0,0219
±2,05 ±2,04 ±2,03 ±2,02 ±2,01
0,0202 0,0207 0,0212 0,0217 0,0222
0,0488 0,0498 0,0508 0,0519 0,0529
±2,80 ±2,79 ±2,78 ±2,77 ±2,76
0,0026 0,0026 0,0027 0,0028 0,0029
0,0079 0,0081 0,0084 0,0086 0,0088
±2,40 ±2,39 ±2,38 ±2,37 ±2,36
0,0082 0,0084 0,0087 0,0089 0,0091
0,0224 0,0229 0,0235 0,0241 0,0246
±2,00 ±1,99 ±1,98 ±1,97 ±1,96
0,0228 0,0233 0,0239 0,0244 0,0250
0,0540 0,0551 0,0562 0,0573 0,0584
±2,75 ±2,74 ±2,73 ±2,72 ±2,71
0,0030 0,0031 0,0032 0,0033 0,0034
0,0091 0,0093 0,0096 0,0099 0,0101
±2,35 ±2,34 ±2,33 ±2,32 ±2,31
0,0094 0,0096 0,0099 0,0102 0,0104
0,0252 0,0258 0,0264 0,0270 0,0277
±1,95 ±1,94 ±1,93 ±1,92 ±1,91
0,0256 0,0262 0,0268 0,0274 0,0281
0,0596 0,0608 0,0620 0,0632 0,0644
±2,70 ±2,69 ±2,68 ±2,67 ±2,66
0,0035 0,0036 0,0037 0,0038 0,0039
0,0104 0,0107 0,0110 0,0113 0,0116
±2,30 ±2,29 ±2,28 ±2,27 ±2,26
0,0107 0,0110 0,0113 0,0116 0,0119
0,0283 0,0290 0,0297 0,0303 0,0310
±1,90 ±1,89 ±1,88 ±1,87 ±1,86
0,0287 0,0294 0,0301 0,0307 0,0314
0,0656 0,0669 0,0681 0,0694 0,0707
±2,65 ±2,64 ±2,63 ±2,62 ±2,61
0,0040 0,0041 0,0043 0,0044 0,0045
0,0119 0,0122 0,0126 0,0129 0,0132
±2,25 ±2,24 ±2,23 ±2,22 ±2,21
0,0122 0,0125 0,0129 0,0132 0,0136
0,0317 0,0325 0,0332 0,0339 0,0347
±1,85 ±1,84 ±1,83 ±1,82 ±1,81
0,0322 0,0329 0,0336 0,0344 0,0351
0,0721 0,0734 0,0748 0,0761 0,0775
813
aTabelle B Tabelle B (Fortsetzung) z
Flåche
Ordinate
z
Flåche
Ordinate
z
Flåche
Ordinate
±1,80 ±1,79 ±1,78 ±1,77 ±1,76
0,0359 0,0367 0,0375 0,0384 0,0392
0,0790 0,0804 0,0818 0,0833 0,0848
±1,30 ±1,29 ±1,28 ±1,27 ±1,26
0,0968 0,0985 0,1003 0,1020 0,1038
0,1714 0,1736 0,1758 0,1781 0,1804
±0,80 ±0,79 ±0,77 ±0,78 ±0,76
0,2119 0,2148 0,2206 0,2177 0,2236
0,2897 0,2920 0,2966 0,2943 0,2989
±1,75 ±1,74 ±1,73 ±1,72 ±1,71
0,0401 0,0409 0,0418 0,0427 0,0436
0,0863 0,0878 0,0893 0,0909 0,0925
±1,25 ±1,24 ±1,23 ±1,22 ±1,21
0,1056 0,1075 0,1093 0,1112 0,1131
0,1826 0,1849 0,1872 0,1895 0,1919
±0,75 ±0,74 ±0,73 ±0,72 ±0,71
0,2266 0,2296 0,2327 0,2358 0,2389
0,3011 0,3034 0,3056 0,3079 0,3101
±1,70 ±1,69 ±1,68 ±1,67 ±1,66
0,0446 0,0455 0,0465 0,0475 0,0485
0,0940 0,0957 0,0973 0,0989 0,1006
±1,20 ±1,19 ±1,18 ±1,17 ±1,16
0,1151 0,1170 0,1190 0,1210 0,1230
0,1942 0,1965 0,1989 0,2012 0,2036
±0,70 ±0,69 ±0,68 ±0,67 ±0,66
0,2420 0,2451 0,2483 0,2514 0,2546
0,3123 0,3144 0,3166 0,3187 0,3209
±1,65 ±1,64 ±1,63 ±1,62 ±1,61
0,0495 0,0505 0,0516 0,0526 0,0537
0,1023 0,1040 0,1057 0,1074 0,1092
±1,15 ±1,14 ±1,13 ±1,12 ±1,11
0,1251 0,1271 0,1292 0,1314 0,1335
0,2059 0,2083 0,2107 0,2131 0,2155
±0,65 ±0,64 ±0,63 ±0,62 ±0,61
0,2578 0,2611 0,2643 0,2676 0,2709
0,3230 0,3251 0,3271 0,3292 0,3312
±1,60 ±1,59 ±1,58 ±1,57 ±1,56
0,0548 0,0559 0,0571 0,0582 0,0594
0,1109 0,1127 0,1145 0,1163 0,1182
±1,10 ±1,09 ±1,08 ±1,07 ±1,06
0,1357 0,1379 0,1401 0,1423 0,1446
0,2179 0,2203 0,2227 0,2251 0,2275
±0,60 ±0,59 ±0,58 ±0,57 ±0,56
0,2749 0,2776 0,2810 0,2843 0,2877
0,3332 0,3352 0,3372 0,3391 0,3410
±1,55 ±1,54 ±1,53 ±1,52 ±1,51
0,0606 0,0618 0,0630 0,0643 0,0655
0,1200 0,1219 0,1238 0,1257 0,1276
±1,05 ±1,04 ±1,03 ±1,02 ±1,01
0,1469 0,1492 0,1515 0,1539 0,1562
0,2299 0,2323 0,2347 0,2371 0,2396
±0,55 ±0,54 ±0,53 ±0,52 ±0,51
0,2912 0,2946 0,2981 0,3015 0,3050
0,3429 0,3448 0,3467 0,3485 0,3503
±1,50 ±1,49 ±1,48 ±1,47 ±1,46
0,0668 0,0681 0,0694 0,0708 0,0721
0,1295 0,1315 0,1334 0,1354 0,1374
±1,00 ±0,99 ±0,98 ±0,97 ±0,96
0,1587 0,1611 0,1635 0,1660 0,1685
0,2420 0,2444 0,2468 0,2492 0,2516
±0,50 ±0,49 ±0,48 ±0,47 ±0,46
0,3085 0,3121 0,3156 0,3192 0,3228
0,3521 0,3538 0,3555 0,3572 0,3589
±1,45 ±1,44 ±1,43 ±1,42 ±1,41
0,0735 0,0749 0,0764 0,0778 0,0793
0,1394 0,1415 0,1435 0,1456 0,1476
±0,95 ±0,94 ±0,93 ±0,92 ±0,91
0,1711 0,1736 0,1762 0,1788 0,1814
0,2541 0,2565 0,2589 0,2613 0,2637
±0,45 ±0,44 ±0,43 ±0,42 ±0,41
0,3264 0,3300 0,3336 0,3372 0,3409
0,3605 0,3621 0,3637 0,3653 0,3668
±1,40 ±1,39 ±1,38 ±1,37 ±1,36
0,0808 0,0823 0,0838 0,0853 0,0869
0,1497 0,1518 0,1539 0,1561 0,1582
±0,90 ±0,89 ±0,88 ±0,87 ±0,86
0,1841 0,1867 0,1894 0,1922 0,1949
0,2661 0,2685 0,2709 0,2732 0,2756
±0,40 ±0,39 ±0,38 ±0,37 ±0,36
0,3446 0,3483 0,3520 0,3557 0,3594
0,3683 0,3697 0,3712 0,3725 0,3739
±1,35 ±1,34 ±1,33 ±1,32 ±1,31
0,0885 0,0901 0,0918 0,0934 0,0951
0,1604 0,1626 0,1647 0,1669 0,1691
±0,85 ±0,84 ±0,83 ±0,82 ±0,81
0,1977 0,2005 0,2033 0,2061 0,2090
0,2780 0,2803 0,2827 0,2850 0,2874
±0,35 ±0,34 ±0,33 ±0,32 ±0,31
0,3632 0,3669 0,3707 0,3745 0,3783
0,3752 0,3765 0,3778 0,3790 0,3802
814
Tabellen
Tabelle B (Fortsetzung) z
Flåche
Ordinate
z
Flåche
Ordinate
z
Flåche
Ordinate
±0,30 ±0,29 ±0,28 ±0,27 ±0,26
0,3821 0,3859 0,3897 0,3936 0,3974
0,3814 0,3825 0,3836 0,3847 0,3857
0,20 0,21 0,22 0,23 0,24
0,5793 0,5832 0,5871 0,5910 0,5948
0,3910 0,3902 0,3894 0,3885 0,3876
0,70 0,71 0,72 0,73 0,74
0,7580 0,7611 0,7642 0,7673 0,7704
0,3123 0,3101 0,3079 0,3056 0,3034
±0,25 ±0,24 ±0,23 ±0,22 ±0,21
0,4013 0,4052 0,4090 0,4129 0,4168
0,3867 0,3876 0,3885 0,3894 0,3902
0,25 0,26 0,27 0,28 0,29
0,5987 0,6026 0,6064 0,6103 0,6141
0,3867 0,3857 0,3847 0,3836 0,3825
0,75 0,76 0,77 0,79 0.78
0,7734 0,7764 0,7794 0,7852 0.7823
0,3011 0,2989 0,2966 0,2920 0,2943
±0,20 ±0,19 ±0,18 ±0,17 ±0,16
0,4207 0,4247 0,4286 0,4325 0,4364
0,3910 0,3918 0,3925 0,3932 0,3939
0,30 0,31 0,32 0,33 0,34
0,6179 0,6217 0,6255 0,6293 0,6331
0,3814 0,3802 0,3790 0,3778 0,3765
0,80 0,81 0,82 0,83 0,84
0,7881 0,7910 0,7939 0,7967 0,7995
0,2897 0,2874 0,2850 0,2827 0,2803
±0,15 ±0,14 ±0,13 ±0,12 ±0,11
0,4404 0,4443 0,4483 0,4522 0,4562
0,3945 0,3951 0,3956 0,3961 0,3965
0,35 0,36 0,37 0,38 0,39
0,6368 0,6406 0,6443 0,6480 0,6517
0,3752 0,3739 0,3725 0,3712 0,3697
0,85 0,86 0,87 0,88 0,89
0,8023 0,8051 0,8078 0,8106 0,8133
0,2780 0,2756 0,2732 0,2709 0,2685
±0,10 ±0,09 ±0,08 ±0,07 ±0,06
0,4602 0,4641 0,4681 0,4721 0,4761
0,3970 0,3973 0,3977 0,3980 0,3982
0,40 0,41 0,42 0,43 0,44
0,6554 0,6591 0,6628 0,6664 0,6700
0,3683 0,3668 0,3653 0,3637 0,3621
0,90 0,91 0,92 0,93 0,94
0,8159 0,8186 0,8212 0,8238 0,8264
0,2661 0,2637 0,2613 0,2589 0,2565
±0,05 ±0,04 ±0,03 ±0,02 ±0,01
0,4801 0,4840 0,4880 0,4920 0,4960
0,3984 0,3986 0,3988 0,3989 0,3989
0,45 0,46 0,47 0,48 0,49
0,6736 0,6772 0,6808 0,6844 0,6879
0,3605 0,3589 0,3572 0,3555 0,3538
0,95 0,96 0,97 0,98 0,99
0,8289 0,8315 0,8340 0,8365 0,8389
0,2541 0,2516 0,2492 0,2468 0,2444
0,00 0,01 0,02 0,03 0,04
0,5000 0,5040 0,5080 0,5120 0,5160
0,3989 0,3989 0,3989 0,3988 0,3986
0,50 0,51 0,52 0,53 0,54
0,6915 0,6950 0,6985 0,7019 0,7054
0,3521 0,3503 0,3485 0,3467 0,3448
1,00 1,01 1,02 1,03 1,04
0,8413 0,8438 0,8461 0,8485 0,8508
0,2420 0,2396 0,2371 0,2347 0,2323
0,05 0,06 0,07 0,08 0,09
0,5199 0,5239 0,5279 0,5319 0,5359
0,3984 0,3982 0,3980 0,3977 0,3973
0,55 0,56 0,57 0,58 0,59
0,7088 0,7123 0,7157 0,7190 0,7224
0,3429 0,3410 0,3391 0,3372 0,3352
1,05 1,06 1,07 1,08 1,09
0,8531 0,8554 0,8577 0,8599 0,8621
0,2299 0,2275 0,2251 0,2227 0,2203
0,10 0,11 0,12 0,13 0,14
0,5398 0,5438 0,5478 0,5517 0,5557
0,3970 0,3965 0,3961 0,3956 0,3951
0,60 0,61 0,62 0,63 0,64
0,7257 0,7291 0,7324 0,7357 0,7389
0,3332 0,3312 0,3292 0,3271 0,3251
1,10 1,11 1,12 1,13 1,14
0,8643 0,8665 0,8686 0,8708 0,8729
0,2179 0,2155 0,2131 0,2107 0,2083
0,15 0,16 0,17 0,18 0,19
0,5596 0,5636 0,5675 0,5714 0,5753
0,3945 0,3939 0,3932 0,3925 0,3918
0,65 0,66 0,67 0,68 0,69
0,7422 0,7454 0,7486 0,7517 0,7549
0,3230 0,3209 0,3187 0,3166 0,3144
1,15 1,16 1,17 1,18 1,19
0,8749 0,8770 0,8790 0,8810 0,8830
0,2059 0,2036 0,2012 0,1989 0,1965
815
aTabelle B Tabelle B (Fortsetzung) z
Flåche
Ordinate
z
Flåche
Ordinate
z
Flåche
Ordinate
1,20 1,21 1,22 1,23 1,24
0,8849 0,8869 0,8888 0,8907 0,8925
0,1942 0,1919 0,1895 0,1872 0,1849
1,70 1,71 1,72 1,73 1,74
0,9554 0,9564 0,9573 0,9582 0,9591
0,0940 0,0925 0,0909 0,0893 0,0878
2,20 2,21 2,22 2,23 2,24
0,9861 0,9864 0,9868 0,9871 0,9875
0,0355 0,0347 0,0339 0,0332 0,0325
1,25 1,26 1,27 1,28 1,29
0,8944 0,8962 0,8980 0,8997 0,9015
0,1826 0,1804 0,1781 0,1758 0,1736
1,75 1,76 1,77 1,78 1,79
0,9599 0,9608 0,9616 0,9625 0,9633
0,0863 0,0848 0,0833 0,0818 0,0804
2,25 2,26 2,27 2,28 2,29
0,9878 0,9881 0,9884 0,9887 0,9890
0,0317 0,0310 0,0303 0,0297 0,0290
1,30 1,31 1,32 1,33 1,34
0,9032 0,9049 0,9066 0,9082 0,9099
0,1714 0,1691 0,1669 0,1647 0,1626
1,80 1,81 1,82 1,83 1,84
0,9641 0,9649 0,9656 0,9664 0,9671
0,0790 0,0775 0,0761 0,0748 0,0734
2,30 2,31 2,32 2,33 2,34
0,9893 0,9896 0,9898 0,9901 0,9904
0,0283 0,0277 0,0270 0,0264 0,0258
1,35 1,36 1,37 1,38 1,39
0,9115 0,9131 0,9147 0,9162 0,9177
0,1604 0,1582 0,1561 0,1539 0,1518
1,85 1,86 1,87 1,88 1,89
0,9678 0,9686 0,9693 0,9699 0,9706
0,0721 0,0707 0,0694 0,0681 0,0669
2,35 2,36 2,37 2,38 2,39
0,9906 0,9909 0,9911 0,9913 0,9916
0,0246 0,0246 0,0241 0,0235 0,0229
1,40 1,41 1,42 1,43 1,44
0,9192 0,9207 0,9222 0,9236 0,9251
0,1497 0,1476 0,1456 0,1435 0,1415
1,90 1,91 1,92 1,93 1,94
0,9713 0,9719 0,9726 0,9732 0,9738
0,0656 0,0644 0,0632 0,0620 0,0608
2,40 2,41 2,42 2,43 2,44
0,9918 0,9920 0,9922 0,9925 0,9927
0,0224 0,0219 0,0213 0,0208 0,0203
1,45 1,46 1,47 1,48 1,49
0,9265 0,9279 0,9292 0,9306 0,9319
0,1394 0,1374 0,1354 0,1334 0,1315
1,95 1,96 1,97 1,98 1,99
0,9744 0,9750 0,9756 0,9761 0,9767
0,0596 0,0584 0,0573 0,0562 0,0551
2,45 2,46 2,47 2,48 2,49
0,9929 0,9931 0,9932 0,9934 0,9936
0,0198 0,0194 0,0189 0,0184 0,0180
1,50 1,51 1,52 1,53 1,54
0,9332 0,9345 0,9357 0,9370 0,9382
0,1295 0,1276 0,1257 0,1238 0,1219
2,00 2,01 2,02 2,03 2,04
0,9772 0,9778 0,9783 0,9788 0,9793
0,0540 0,0529 0,0519 0,0508 0,0498
2,50 2,51 2,52 2,53 2,54
0,9938 0,9940 0,9941 0,9943 0,9945
0,0175 0,0171 0,0167 0,0163 0,0158
1,55 1,56 1,57 1,58 1,59
0,9394 0,9406 0,9418 0,9429 0,9441
0,1200 0,1182 0,1163 0,1145 0,1127
2,05 2,06 2,07 2,08 2,09
0,9798 0,9803 0,9808 0,9812 0,9817
0,0488 0,0478 0,0468 0,0459 0,0449
2,55 2,56 2,57 2,58 2,59
0,9946 0,9948 0,9949 0,9951 0,9952
0,0154 0,0151 0,0147 0,0143 0,0139
1,60 1,61 1,62 1,63 1,64
0,9452 0,9463 0,9474 0,9484 0,9495
0,1109 0,1092 0,1074 0,1057 0,1040
2,10 2,11 2,12 2,13 2,14
0,9821 0,9826 0,9830 0,9834 0,9838
0,0440 0,0431 0,0422 0,0413 0,0404
2,60 2,61 2,62 2,63 2,64
0,9953 0,9955 0,9956 0,9957 0,9959
0,0136 0,0132 0,0129 0,0126 0,0122
1,65 1,66 1,67 1,68 1,69
0,9505 0,9515 0,9525 0,9535 0,9545
0,1023 0,1006 0,0989 0,0973 0,0957
2,15 2,16 2,17 2,18 2,19
0,9842 0,9846 0,9850 0,9854 0,9857
0,0396 0,0387 0,0379 0,0371 0,0363
2,65 2,66 2,67 2,68 2,69
0,9960 0,9961 0,9962 0,9963 0,9964
0,0119 0,0116 0,0113 0,0110 0,0107
816
Tabellen
Tabelle B (Fortsetzung) z
Flåche
Ordinate
z
Flåche
Ordinate
z
Flåche
Ordinate
2,70 2,71 2,72 2,73 2,74
0,9965 0,9966 0,9967 0,9968 0,9969
0,0104 0,0101 0,0099 0,0096 0,0093
2,80 2,81 2,82 2,83 2,84
0,9974 0,9975 0,9976 0,9977 0,9977
0,0079 0,0077 0,0075 0,0073 0,0071
2,90 2,91 2,92 2,93 2,94
0,9981 0,9982 0,9982 0,9983 0,9984
0,0060 0,0058 0,0056 0,0055 0,0053
2,75 2,76 2,77 2,78 2,79
0,9970 0,9971 0,9972 0,9973 0,9974
0,0091 0,0088 0,0086 0,0084 0,0081
2,85 2,86 2,87 2,88 2,89
0,9978 0,9979 0,9979 0,9980 0,9981
0,0069 0,0067 0,0065 0,0063 0,0061
2,95 2,96 2,97 2,98 2,99
0,9984 0,9985 0,9985 0,9986 0,9986
0,0051 0,0050 0,0048 0,0047 0,0046
3,00
0,9987
0,0044
817
aTabelle C
Tabelle C. Verteilungsfunktion der v2-Verteilungen (zit. nach: Hays, W. L., Winkler, R. L.: Statistics, vol. I, pp. 604±605. New York: Holt, Rinehart and Winston 1970)
χ2 0
Flåche df
0,005
0,010
0,025
0,050
1 2 3 4
392704´10±10 0,0100251 0,0717212 0,206990
157088´10±9 0,0201007 0,114832 0,297110
982069´10±9 0,0506356 0,215795 0,484419
393214´10±8 0,102587 0,351846 0,710721
5 6 7 8 9
0,411740 0,675727 0,989265 1,344419 1,734926
0,554300 0,872085 1,239043 1,646482 2,087912
0,831211 1,237347 1,68987 2,17973 2,70039
10 11 12 13 14
2,15585 2,60321 3,07382 3,56503 4,07468
2,55821 3,05347 3,57056 4,10691 4,66043
15 16 17 18 19
4,60094 5,14224 5,69724 6,26481 6,84398
20 21 22 23 24
7,43386 8,03366 8,64272 9,26042 9,88623
0,100
0,250
0,500
0,0157908 0,210720 0,584375 1,063623
0,1015308 0,575364 1,212534 1,92255
0,454937 1,38629 2,36597 3,35670
1,145476 1,63539 2,16735 2,73264 3,32511
1,61031 2,20413 2,83311 3,48954 4,16816
2,67460 3,45460 4,25485 5,07064 5,89883
4,35146 5,34812 6,34581 7,34412 8,34283
3,24697 3,81575 4,40379 5,00874 5,62872
3,94030 4,57481 5,22603 5,89186 6,57063
4,86518 5,57779 6,30380 7,04150 7,78953
6,73720 7,58412 8,43842 9,29906 10,1653
9,34182 10,3410 11,3403 12,3398 13,3393
5,22935 5,81221 6,40776 7,01491 7,63273
6,26214 6,90766 7,56418 8,23075 8,90655
7,26094 7,96164 8,67176 9,39046 10,1170
8,54675 9,31223 10,0852 10,8649 11,6509
11,0365 11,9122 12,7919 13,6753 14,5620
14,3389 15,3385 16,3381 17,3379 18,3376
8,26040 8,89720 9,54249 10,19567 10,8564
9,59083 10,28293 10,9823 11,6885 12,4011
10,8508 11,5913 12,3380 13,0905 13,8484
12,4426 13,2396 14,0415 14,8479 15,6587
15,4518 16,3444 17,2396 18,1373 19,0372
19,3374 20,3372 21,3370 22,3369 23,3367
25 26 27 28 29
10,5197 11,1603 11,8076 12,4613 13,1211
11,5240 12,1981 12,8786 13,5648 14,2565
13,1197 13,8439 14,5733 15,3079 16,0471
14,6114 15,3791 16,1513 16,9279 17,7083
16,4734 17,2919 18,1138 18,9392 19,7677
19,9393 20,8434 21,7494 22,6572 23,5666
24,3366 25,3364 26,3363 27,3363 28,3362
30 40 50 60
13,7867 20,7065 27,9907 35,5346
14,9535 22,1643 29,7067 37,4848
16,7908 24,4331 32,3574 40,4817
18,4926 26,5093 34,7642 43,1879
20,5992 29,0505 37,6886 46,4589
24,4776 33,6603 42,9421 52,2938
29,3360 39,3354 49,3349 59,3347
70 80 90 100
43,2752 51,1720 59,1963 67,3276
45,4418 53,5400 61,7541 70,0648
48,7576 57,1532 65,6466 74,2219
51,7393 60,3915 69,1260 77,9295
55,3290 64,2778 73,2912 82,3581
61,6983 71,1445 80,6247 90,1332
69,3344 79,3343 89,3342 99,3341
z
±2,5758
±2,3263
±1,9600
±1,6449
±1,2816
±0,6745
0,0000
818
Tabellen
Tabelle C (Fortsetzung) Flåche df
0,750
0,900
1,32330 2,77259 4,10835 5,38527
2,70554 4,60517 6,25139 7,77944
5 6 7 8 9
6,62568 7,84080 9,03715 10,2188 11,3887
9,23635 10,6446 12,0170 13,3616 14,6837
10 11 12 13 14
12,5489 13,7007 14,8454 15,9839 17,1170
15 16 17 18 19
3,84146 5,99147 7,81473 9,48773
0,975
0,990
0,995
0,999
5,02389 7,37776 9,34840 11,1439
6,63490 9,21034 11,3449 13,2767
7,87944 10,5966 12,8381 14,8602
10,828 13,816 16,266 18,467
11,0705 12,5916 14,0671 15,5073 16,9190
12,8325 14,4494 16,0128 17,5346 19,0228
15,0863 16,8119 18,4753 20,0902 21,6660
16,7496 18,5476 20,2777 21,9550 23,5893
20,515 22,458 24,322 26,125 27,877
15,9871 17,2750 18,5494 19,8119 21,0642
18,3070 19,6751 21,0261 22,3621 23,6848
20,4831 21,9200 23,3367 24,7356 26,1190
23,2093 24,7250 26,2170 27,6883 29,1413
25,1882 26,7569 28,2995 29,8194 31,3193
29,588 31,264 32,909 34,528 36,123
18,2451 19,3688 20,4887 21,6049 22,7178
22,3072 23,5418 24,7690 25,9894 27,2036
24,9958 26,2962 27,5871 28,8693 30,1435
27,4884 28,8454 30,1910 31,5264 32,8523
30,5779 31,9999 33,4087 34,8053 36,1908
32,8013 34,2672 35,7185 37,1564 38,5822
37,697 39,252 40,790 42,312 43,820
20 21 22 23 24
23,8277 24,9348 26,0393 27,1413 28,2412
28,4120 29,6151 30,8133 32,0069 33,1963
31,4104 32,6705 33,9244 35,1725 36,4151
34,1696 35,4789 36,7807 38,0757 39,3641
37,5662 38,9321 40,2894 41,6384 42,9798
39,9968 41,4010 42,7956 44,1813 45,5585
45,315 46,797 48,268 49,728 51,179
25 26 27 28 29
29,3389 30,4345 31,5284 32,6205 33,7109
34,3816 35,5631 36,7412 37,9159 39,0875
37,6525 38,8852 40,1133 41,3372 42,5569
40,6465 41,9232 43,1944 44,4607 45,7222
44,3141 45,6417 46,9630 48,2782 49,5879
46,9278 48,2899 49,6449 50,9933 52,3356
52,620 54,052 55,476 56,892 58,302
30 40 50 60
34,7998 45,6160 56,3336 66,9814
40,2560 51,8050 63,1671 74,3970
43,7729 55,7585 67,5048 79,0819
46,9792 59,3417 71,4202 83,2976
50,8922 63,6907 76,1539 88,3794
53,6720 66,7659 79,4900 91,9517
59,703 73,402 86,661 99,607
70 80 90 100
77,5766 88,1303 98,6499 109,141
85,5271 96,5782 107,565 118,498
90,5312 101,879 113,145 124,342
95,0231 106,629 118,136 129,561
+0,6745
+1,2816
+1,6449
+1,9600
z
1 2 3 4
0,950
100,425 112,329 124,116 135,807 +2,3263
104,215 116,321 128,299 140,169 +2,5758
112,317 124,839 137,208 149,449 +3,0902
819
aTabelle D
Tabelle D. Verteilungsfunktion der t-Verteilungen und zweiseitige Signifikanzgrenzen fçr Produkt-Moment-Korrelationen (zit. nach Glass, G. V., Stanley, J. C.: Statistical methods in education and psychology, p. 521. New Jersey: Prentice-Hall, Englewood Cliffs 1970)
t 0
Flåche * df
0,55
0,60
0,65
0,70
0,75
0,80
0,85
0,90
0,95
0,975
0,990
1 2 3 4 5
0,158 0,142 0,137 0,134 0,132
0,325 0,289 0,277 0,271 0,267
0,510 0,445 0,424 0,414 0,408
0,727 0,617 0,584 0,569 0,559
1,000 0,816 0,765 0,741 0,727
1,376 1,061 0,978 0,941 0,920
1,963 1,386 1,250 1,190 1,156
3,078 1,886 1,638 1,533 1,476
6,314 12,706 31,821 63,657 636,619 0,997 1,000 2,920 4,303 6,965 9,925 31,598 0,950 0,990 2,353 3,182 4,541 5,841 12,941 0,878 0,959 2,132 2,776 3,747 4,604 8,610 0,811 0,917 2,015 2,571 3,365 4,032 6,859 0,754 0,874
6 7 8 9 10
0,131 0,130 0,130 0,129 0,129
0,265 0,263 0,262 0,261 0,260
0,404 0,402 0,399 0,398 0,397
0,553 0,549 0,546 0,543 0,542
0,718 0,711 0,706 0,703 0,700
0,906 0,896 0,889 0,883 0,879
1,134 1,119 1,108 1,100 1,093
1,440 1,415 1,397 1,383 1,372
1,943 1,895 1,860 1,833 1,812
2,447 2,365 2,306 2,262 2,228
3,143 2,998 2,896 2,821 2,764
3,707 3,499 3,355 3,250 3,169
5,959 5,405 5,041 4,781 4,587
0,707 0,666 0,632 0,602 0,576
0,834 0,798 0,765 0,735 0,708
11 12 13 14 15
0,129 0,128 0,128 0,128 0,128
0,260 0,259 0,259 0,258 0,258
0,396 0,395 0,394 0,393 0,393
0,540 0,539 0,538 0,537 0,536
0,697 0,695 0,694 0,692 0,691
0,876 0,873 0,870 0,868 0,866
1,088 1,083 1,079 1,076 1,074
1,363 1,356 1,350 1,345 1,341
1,796 1,782 1,771 1,761 1,753
2,201 2,179 2,160 2,145 2,131
2,718 2,681 2,650 2,624 2,602
3,106 3,055 3,012 2,977 2,947
4,437 4,318 4,221 4,140 4,073
0,553 0,532 0,514 0,497 0,482
0,684 0,661 0,641 0,623 0,606
16 17 18 19 20
0,128 0,128 0,127 0,127 0,127
0,258 0,257 0,257 0,257 0,257
0,392 0,392 0,392 0,391 0,391
0,535 0,534 0,534 0,533 0,533
0,690 0,689 0,688 0,688 0,687
0,865 0,863 0,862 0,861 0,860
1,071 1,069 1,067 1,066 1,064
1,337 1,333 1,330 1,328 1,325
1,746 1,740 1,734 1,729 1,725
2,120 2,110 2,101 2,093 2,086
2,583 2,567 2,552 2,539 2,528
2,921 2,898 2,878 2,861 2,845
4,015 3,965 3,922 3,883 3,850
0,468 0,456 0,444 0,433 0,423
0,590 0,575 0,561 0,549 0,537
21 22 23 24 25
0,127 0,127 0,127 0,127 0,127
0,257 0,256 0,256 0,256 0,256
0,391 0,390 0,390 0,390 0,390
0,532 0,532 0,532 0,531 0,531
0,686 0,686 0,685 0,685 0,684
0,859 0,858 0,858 0,857 0,856
1,063 1,061 1,060 1,059 1,058
1,323 1,321 1,319 1,318 1,316
1,721 1,717 1,714 1,711 1,708
2,080 2,074 2,069 2,064 2,060
2,518 2,508 2,500 2,492 2,485
2,831 2,819 2,807 2,797 2,787
3,819 3,792 3,767 3,745 3,725
0,413 0,404 0,396 0,388 0,381
0,526 0,515 0,505 0,496 0,487
26 27 28 29 30
0,127 0,127 0,127 0,127 0,127
0,256 0,256 0,256 0,256 0,256
0,390 0,389 0,389 0,389 0,389
0,531 0,531 0,530 0,530 0,530
0,684 0,684 0,683 0,683 0,683
0,856 0,855 0,855 0,854 0,854
1,058 1,057 1,056 1,055 1,055
1,315 1,314 1,313 1,311 1,310
1,706 1,703 1,701 1,699 1,697
2,056 2,052 2,048 2,045 2,042
2,479 2,473 2,467 2,462 2,457
2,779 2,771 2,763 2,756 2,750
3,707 3,690 3,674 3,659 3,646
0,374 0,367 0,361 0,355 0,349
0,478 0,470 0,463 0,456 0,449
40 60 120 z
0,126 0,126 0,126 0,126
0,255 0,254 0,254 0,253
0,388 0,387 0,386 0,385
0,529 0,527 0,526 0,524
0,681 0,679 0,677 0,674
0,851 0,848 0,845 0,842
1,050 1,046 1,041 1,036
1,303 1,296 1,289 1,282
1,684 1,671 1,658 1,645
2,021 2,000 1,980 1,960
2,423 2,390 2,358 2,326
2,704 2,660 2,617 2,576
3,551 3,460 3,373 3,291
0,304 0,393 0,250 0,325 0,178 0,232
* Die Flåchenanteile fçr negative t-Werte ergeben sich nach der Beziehung p
tdf 1
0,995
p
tdf
0,9995
r0;05
r0;01
820
Tabellen
Tabelle E. Verteilungsfunktion der F-Verteilungen (zit. nach: Winer, J. B.: Statistical principles in experimental design, pp. 642±647. New York: McGraw-Hill 1962)
F 0
Nennerdf Flåche
Zåhler-df 1 2
3
4
5
6
7
8
9
10
11
12
1
0,75 0,90 0,95
5,83 39,9 161
7,50 49,5 200
8,20 53,6 216
8,58 55,8 225
8,82 57,2 230
8,98 58,2 234
9,10 58,9 237
9,19 59,4 239
9,26 59,9 241
9,32 60,2 242
9,36 60,5 243
9,41 60,7 244
2
0,75 0,90 0,95 0,99
2,57 8,53 18,5 98,5
3,00 9,00 19,0 99,0
3,15 9,16 19,2 99,2
3,23 9,24 19,2 99,2
3,28 9,29 19,3 99,3
3,31 9,33 19,3 99,3
3,34 9,35 19,4 99,4
3,35 9,37 19,4 99,4
3,37 9,38 19,4 99,4
3,38 9,39 19,4 99,4
3,39 9,40 19,4 99,4
3,39 9,41 19,4 99,4
3
0,75 0,90 0,95 0,99
2,02 5,54 10,1 34,1
2,28 5,46 9,55 30,8
2,36 5,39 9,28 29,5
2,39 5,34 9,12 28,7
2,41 5,31 9,10 28,2
2,42 5,28 8,94 27,9
2,43 5,27 8,89 27,7
2,44 5,25 8,85 27,5
2,44 5,24 8,81 27,3
2,44 5,23 8,79 27,2
2,45 5,22 8,76 27,1
2,45 5,22 8,74 27,1
4
0,75 0,90 0,95 0,99
1,81 4,54 7,71 21,2
2,00 4,32 6,94 18,0
2,05 4,19 6,59 16,7
2,06 4,11 6,39 16,0
2,07 4,05 6,26 15,5
2,08 4,01 6,16 15,2
2,08 3,98 6,09 15,0
2,08 3,95 6,04 14,8
2,08 3,94 6,00 14,7
2,08 3,92 5,96 14,5
2,08 3,91 5,94 14,4
2,08 3,90 5,91 14,4
5
0,75 0,90 0,95 0,99
1,69 4,06 6,61 16,3
1,85 3,78 5,79 13,3
1,88 3,62 5,41 12,1
1,89 3,52 5,19 11,4
1,89 3,45 5,05 11,0
1,89 3,40 4,95 10,7
1,89 3,37 4,88 10,5
1,89 3,34 4,82 10,3
1,89 3,32 4,77 10,2
1,89 3,30 4,74 10,1
1,89 3,28 4,71 9,96
1,89 3,27 4,68 9,89
6
0,75 0,90 0,95 0,99
1,62 3,78 5,99 13,7
1,76 3,46 5,14 10,9
1,78 3,29 4,76 9,78
1,79 3,18 4,53 9,15
1,79 3,11 4,39 8,75
1,78 3,05 4,28 8,47
1,78 3,01 4,21 8,26
1,77 2,98 4,15 8,10
1,77 2,96 4,10 7,98
1,77 2,94 4,06 7,87
1,77 2,92 4,03 7,79
1,77 2,90 4,00 7,72
7
0,75 0,90 0,95 0,99
1,57 3,59 5,59 12,2
1,70 3,26 4,74 9,55
1,72 3,07 4,35 8,45
1,72 2,96 4,12 7,85
1,71 2,88 3,97 7,46
1,71 2,83 3,87 7,19
1,70 2,78 3,79 6,99
1,70 2,75 3,73 6,84
1,69 2,72 3,68 6,72
1,69 2,70 3,64 6,62
1,69 2,68 3,60 6,54
1,68 2,67 3,57 6,47
8
0,75 0,90 0,95 0,99
1,54 3,46 5,32 11,3
1,66 3,11 4,46 8,65
1,67 2,92 4,07 7,59
1,66 2,81 3,84 7,01
1,66 2,73 3,69 6,63
1,65 2,67 3,58 6,37
1,64 2,62 3,50 6,18
1,64 2,59 3,44 6,03
1,64 2,56 3,39 5,91
1,63 2,54 3,35 5,81
1,63 2,52 3,31 5,73
1,62 2,50 3,28 5,67
9
0,75 0,90 0,95 0,99
1,51 3,36 5,12 10,6
1,62 3,01 4,26 8,02
1,63 2,81 3,86 6,99
1,63 2,69 3,63 6,42
1,62 2,61 3,48 6,06
1,61 2,55 3,37 5,80
1,60 2,51 3,29 5,61
1,60 2,47 3,23 5,47
1,59 2,44 3,18 5,35
1,59 2,42 3,14 5,26
1,58 2,40 3,10 5,18
1,58 2,38 3,07 5,11
10
0,75 0,90 0,95 0,99
1,49 3,28 4,96 10,0
1,60 2,92 4,10 7,56
1,60 2,73 3,71 6,55
1,59 2,61 3,48 5,99
1,59 2,52 3,33 5,64
1,58 2,46 3,22 5,39
1,57 2,41 3,14 5,20
1,56 2,38 3,07 5,06
1,56 2,35 3,02 4,94
1,55 2,32 2,98 4,85
1,55 2,30 2,94 4,77
1,54 2,28 2,91 4,71
11
0,75 0,90
1,47 3,23
1,58 2,86
1,58 2,66
1,57 2,54
1,56 2,45
1,55 2,39
1,54 2,34
1,53 2,30
1,53 2,27
1,52 2,25
1,52 2,23
1,51 2,21
821
aTabelle E Tabelle E (Fortsetzung) Zåhler-df 15 20
25
30
40
50
60
100
120
200
500
?
NenFlåche nerdf
9,49 61,2 246
9,58 61,7 248
9,63 62,0 249
9,67 62,3 250
9,71 62,5 251
9,74 62,7 252
9,76 62,8 252
9,78 63,0 253
9,80 63,1 253
9,82 63,2 254
9,84 63,3 254
9,85 63,3 254
0,75 0,90 0,95
1
3,41 9,42 19,4 99,4
3,43 9,44 19,4 99,4
3,43 9,45 19,5 99,5
3,44 9,46 19,5 99,5
3,45 9,47 19,5 99,5
3,45 9,47 19,5 99,5
3,46 9,47 19,5 99,5
3,47 9,48 19,5 99,5
3,47 9,48 19,5 99,5
3,48 9,49 19,5 99,5
3,48 9,49 19,5 99,5
3,48 9,49 19,5 99,5
0,75 0,90 0,95 0,99
2
2,46 5,20 8,70 26,9
2,46 5,18 8,66 26,7
2,46 5,18 8,64 26,6
2,47 5,17 8,62 26,5
2,47 5,16 8,59 26,4
2,47 5,15 8,58 26,4
2,47 5,15 8,57 26,3
2,47 5,14 8,55 26,2
2,47 5,14 8,55 26,2
2,47 5,14 8,54 26,1
2,47 5,14 8,53 26,1
2,47 5,13 8,53 26,1
0,75 0,90 0,95 0,99
3
2,08 3,87 5,86 14,2
2,08 3,84 5,80 14,0
2,08 3,83 5,77 13,9
2,08 3,82 5,75 13,8
2,08 3,80 5,72 13,7
2,08 3,80 5,70 13,7
2,08 3,79 5,69 13,7
2,08 3,78 5,66 13,6
2,08 3,78 5,66 13,6
2,08 3,77 5,65 3,5
2,08 3,76 5,64 13,5
2,08 3,76 5,63 13,5
0,75 0,90 0,95 0,99
4
1,89 3,24 4,62 9,72
1,88 3,21 4,56 9,55
1,88 3,19 4,53 9,47
1,88 3,17 4,50 9,38
1,88 3,16 4,46 9,29
1,88 3,15 4,44 9,24
1,87 3,14 4,43 9,20
1,87 3,13 4,41 9,13
1,87 3,12 4,40 9,11
1,87 3,12 4,39 9,08
1,87 3,11 4,37 9,04
1,87 3,10 4,36 9,02
0,75 0,90 0,95 0,99
5
1,76 2,87 3,94 7,56
1,76 2,84 3,87 7,40
1,75 2,82 3,84 7,31
1,75 2,80 3,81 7,23
1,75 2,78 3,77 7,14
1,75 2,77 3,75 7,09
1,74 2,76 3,74 7,06
1,74 2,75 3,71 6,99
1,74 2,74 3,70 6,97
1,74 2,73 3,69 6,93
1,74 2,73 3,68 6,90
1,74 2,72 3,67 6,88
0,75 0,90 0,95 0,99
6
1,68 2,63 3,51 6,31
1,67 2,59 3,44 6,16
1,67 2,58 3,41 6,07
1,66 2,56 3,38 5,99
1,66 2,54 3,34 5,91
1,66 2,52 3,32 5,86
1,65 2,51 3,30 5,82
1,65 2,50 3,27 5,75
1,65 2,49 3,27 5,74
1,65 2,48 3,25 5,70
1,65 2,48 3,24 5,67
1,65 2,47 3,23 5,65
0,75 0,90 0,95 0,99
7
1,62 2,46 3,22 5,52
1,61 2,42 3,15 5,36
1,60 2,40 3,12 5,28
1,60 2,38 3,08 5,20
1,59 2,36 3,04 5,12
1,59 2,35 3,02 5,07
1,59 2,34 3,01 5,03
1,58 2,32 2,96 4,96
1,58 2,32 2,97 4,95
1,58 2,31 2,95 4,91
1,58 2,30 2,94 4,88
1,58 2,29 2,93 4,86
0,75 0,90 0,95 0,99
8
1,57 2,34 3,01 4,96
1,56 2,30 2,94 4,81
1,56 2,28 2,90 4,73
1,55 2,25 2,86 4,65
1,55 2,23 2,83 4,57
1,54 2,22 2,80 4,52
1,54 2,21 2,79 4,48
1,53 2,19 2,76 4,42
1,53 2,18 2,75 4,40
1,53 2,17 2,73 4,36
1,53 2,17 2,72 4,33
1,53 2,16 2,71 4,31
0,75 0,90 0,95 0,99
9
1,53 2,24 2,85 4,56
1,52 2,20 2,77 4,41
1,52 2,18 2,74 4,33
1,51 2,16 2,70 4,25
1,51 2,13 2,66 4,17
1,50 2,12 2,64 4,12
1,50 2,11 2,62 4,08
1,49 2,09 2,59 4,01
1,49 2,08 2,58 4,00
1,49 2,07 2,56 3,96
1,48 2,06 2,55 3,93
1,48 2,54 2,54 3,91
0,75 0,95 0,95 0,99
10
1,50 2,17
1,49 2,12
1,49 2,10
1,48 2,08
1,47 2,05
1,47 2,04
1,47 2,03
1,46 2,00
1,46 2,00
1,46 1,99
1,45 1,98
1,45 1,97
1,75 0,90
11
822
Tabellen
Tabelle E (Fortsetzung) Nennerdf Flåche
Zåhler-df 1 2
3
4
5
6
7
8
9
10
11
12
11
0,95 0,99
4,84 9,65
3,98 7,21
3,59 6,22
3,36 5,67
3,20 5,32
3,09 5,07
3,01 4,89
2,95 4,74
2,90 4,63
2,85 4,54
2,82 4,46
2,79 4,40
12
0,75 0,90 0,95 0,99
1,46 3,18 4,75 9,33
1,56 2,81 3,89 6,93
1,56 2,61 3,49 5,95
1,55 2,48 3,26 5,41
1,54 2,39 3,11 5,06
1,53 2,33 3,00 4,82
1,52 2,28 2,91 4,64
1,51 2,24 2,85 4,50
1,51 2,21 2,80 4,39
1,50 2,19 2,75 4,30
1,50 2,17 2,72 4,22
1,49 2,15 2,69 4,16
13
0,75 0,90 0,95 0,99
1,45 3,14 4,67 9,07
1,54 2,76 3,81 6,70
1,54 2,56 3,41 5,74
1,53 2,43 3,18 5,21
1,52 2,35 3,03 4,86
1,51 2,28 2,92 4,62
1,50 2,23 2,83 4,44
1,49 2,20 2,77 4,30
1,49 2,16 2,71 4,19
1,48 2,14 2,67 4,10
1,47 2,12 2,63 4,02
1,47 2,10 2,60 3,96
14
0,75 0,90 0,95 0,99
1,44 3,10 4,60 8,86
1,53 2,73 3,74 6,51
1,53 2,52 3,34 5,56
1,52 2,39 3,11 5,04
1,51 2,31 2,96 4,69
1,50 2,24 2,85 4,46
1,48 2,19 2,76 4,28
1,48 2,15 2,70 4,14
1,47 2,12 2,65 4,03
1,46 2,10 2,60 3,94
1,46 2,08 2,57 3,86
1,45 2,05 2,53 3,80
15
0,75 0,90 0,95 0,99
1,43 3,07 4,54 8,68
1,52 2,70 3,68 6,36
1,52 2,49 3,29 5,42
1,51 2,36 3,06 4,89
1,49 2,27 2,90 4,56
1,48 2,21 2,79 4,32
1,47 2,16 2,71 4,14
1,46 2,12 2,64 4,00
1,46 2,09 2,59 3,89
1,45 2,06 2,54 3,80
1,44 2,04 2,51 3,73
1,44 2,02 2,48 3,67
16
0,75 0,90 0,95 0,99
1,42 3,05 4,49 8,53
1,51 2,67 3,63 6,23
1,51 2,46 3,24 5,29
1,50 2,33 3,01 4,77
1,48 2,24 2,85 4,44
1,48 2,18 2,74 4,20
1,47 2,13 2,66 4,03
1,46 2,09 2,59 3,89
1,45 2,06 2,54 3,78
1,45 2,03 2,49 3,69
1,44 2,01 2,46 3,62
1,44 1,99 2,42 3,55
17
0,75 0,90 0,95 0,99
1,42 3,03 4,45 8,40
1,51 2,64 3,59 6,11
1,50 2,44 3,20 5,18
1,49 2,31 2,96 4,67
1,47 2,22 2,81 4,34
1,46 2,15 2,70 4,10
1,45 2,10 2,61 3,93
1,44 2,06 2,55 3,79
1,43 2,03 2,49 3,68
1,43 2,00 2,45 3,59
1,42 1,98 2,41 3,52
1,41 1,96 2,38 3,46
18
0,75 0,90 0,95 0,99
1,41 3,01 4,41 8,29
1,50 2,62 3,55 6,01
1,49 2,42 3,16 5,09
1,48 2,29 2,93 4,58
1,46 2,20 2,77 4,25
1,45 2,13 2,66 4,01
1,44 2,08 2,58 3,84
1,43 2,04 2,51 3,71
1,42 2,00 2,46 3,60
1,42 1,98 2,41 3,51
1,41 1,96 2,37 3,43
1,40 1,93 2,34 3,37
19
0,75 0,90 0,95 0,99
1,41 2,99 4,38 8,18
1,49 2,61 3,52 5,93
1,49 2,40 3,13 5,01
1,47 2,27 2,90 4,50
1,46 2,18 2,74 4,17
1,44 2,11 2,63 3,94
1,43 2,06 2,54 3,77
1,42 2,02 2,48 3,63
1,41 1,98 2,42 3,52
1,41 1,96 2,38 3,43
1,40 1,94 2,34 3,36
1,40 1,91 2,31 3,30
20
0,75 0,90 0,95 0,99
1,40 2,97 4,35 8,10
1,49 2,59 3,49 5,85
1,48 2,38 3,10 4,94
1,46 2,25 2,87 4,43
1,45 2,16 2,71 4,10
1,44 2,09 2,60 3,87
1,42 2,04 2,51 3,70
1,42 2,00 2,45 3,56
1,41 1,96 2,39 3,46
1,40 1,94 2,35 3,37
1,39 1,92 2,31 3,29
1,39 1,89 2,28 3,23
22
0,75 0,90 0,95 0,99
1,40 2,95 4,30 7,95
1,48 2,56 3,44 5,72
1,47 2,35 3,05 4,82
1,45 2,22 2,82 4,31
1,44 2,13 2,66 3,99
1,42 2,06 2,55 3,76
1,41 2,01 2,46 3,59
1,40 1,97 2,40 3,45
1,39 1,93 2,34 3,35
1,39 1,90 2,30 3,26
1,38 1,88 2,26 3,18
1,37 1,86 2,23 3,12
24
0,75 0,90 0,95 0,99
1,39 2,93 4,26 7,82
1,47 2,54 3,40 5,61
1,46 2,33 3,01 4,72
1,44 2,19 2,78 4,22
1,43 2,10 2,62 3,90
1,41 2,04 2,51 3,67
1,40 1,98 2,42 3,50
1,39 1,94 2,36 3,36
1,38 1,91 2,30 3,26
1,38 1,88 2,25 3,17
1,37 1,85 2,21 3,09
1,36 1,83 2,18 3,03
26
0,75 0,90
1,38 2,91
1,46 2,52
1,45 2,31
1,44 2,17
1,42 2,08
1,41 2,01
1,40 1,96
1,39 1,92
1,37 1,88
1,37 1,86
1,36 1,84
1,35 1,81
823
aTabelle E Tabelle E (Fortsetzung) Zåhler-df 15 20
25
30
40
50
60
100
120
200
500
?
Flåche
Nennerdf
2,72 4,25
2,65 4,10
2,61 4,02
2,57 3,94
2,53 3,86
2,51 3,81
2,49 3,78
2,46 3,71
2,45 3,69
2,43 3,66
2,42 3,62
2,40 3,60
0,95 0,99
11
1,48 2,10 2,62 4,01
1,47 2,06 2,54 3,86
1,46 2,04 2,51 3,78
1,45 2,01 2,47 3,70
1,45 1,99 2,43 3,62
1,44 1,97 2,40 3,57
1,44 1,96 2,38 3,54
1,43 1,94 2,35 3,47
1,43 1,93 2,34 3,45
1,43 1,92 2,32 3,41
1,42 1,91 2,31 3,38
1,42 1,90 2,30 3,36
0,75 0,90 0,95 0,99
12
1,46 2,05 2,53 3,82
1,45 2,01 2,46 3,66
1,44 1,98 2,42 3,59
1,43 1,96 2,38 3,51
1,42 1,93 2,34 3,43
1,42 1,92 2,31 3,38
1,42 1,90 2,30 3,34
1,41 1,88 2,26 3,27
1,41 1,88 2,25 3,25
1,40 1,86 2,23 3,22
1,40 1,85 2,22 3,19
1,40 1,85 2,21 3,17
0,75 0,90 0,95 0,99
13
1,44 2,01 2,46 3,66
1,43 1,96 2,39 3,51
1,42 1,94 2,35 3,43
1,41 1,91 2,31 3,35
1,41 1,89 2,27 3,27
1,40 1,87 2,24 3,22
1,40 1,86 2,22 3,18
1,39 1,83 2,19 3,11
1,39 1,83 2,18 3,09
1,39 1,82 2,16 3,06
1,38 1,80 2,14 3,03
1,38 1,80 2,13 3,00
0,75 0,90 0,95 0,99
14
1,43 1,97 2,40 3,52
1,41 1,92 2,33 3,37
1,41 1,90 2,29 3,29
1,40 1,87 2,25 3,21
1,39 1,85 2,20 3,13
1,39 1,83 2,18 3,08
1,38 1,82 2,16 3,05
1,38 1,79 2,12 2,98
1,37 1,79 2,11 2,96
1,37 1,77 2,10 2,92
1,36 1,76 2,08 2,89
1,36 1,76 2,07 2,87
0,75 0,90 0,95 0,99
15
1,41 1,94 2,35 3,41
1,40 1,89 2,28 3,26
1,39 1,87 2,24 3,18
1,38 1,84 2,19 3,10
1,37 1,81 2,15 3,02
1,37 1,79 2,12 2,97
1,36 1,78 2,11 2,93
1,36 1,76 2,07 2,86
1,35 1,75 2,06 2,84
1,35 1,74 2,04 2,81
1,34 1,73 2,02 2,78
1,34 1,72 2,01 2,75
0,75 0,90 0,95 0,99
16
1,40 1,91 2,31 3,31
1,39 1,86 2,23 3,16
1,38 1,84 2,19 3,08
1,37 1,81 2,15 3,00
1,36 1,78 2,10 2,92
1,35 1,76 2,08 2,87
1,35 1,75 2,06 2,83
1,34 1,73 2,02 2,76
1,34 1,72 2,01 2,75
1,34 1,71 1,99 2,71
1,33 1,69 1,97 2,68
1,33 1,69 1,96 2,65
0,75 0,90 0,95 0,99
17
1,39 1,89 2,27 3,23
1,38 1,84 2,19 3,08
1,37 1,81 2,15 3,00
1,36 1,78 2,11 2,92
1,35 1,75 2,06 2,84
1,34 1,74 2,04 2,78
1,34 1,72 2,02 2,75
1,33 1,70 1,98 2,68
1,33 1,69 1,97 2,66
1,32 1,68 1,95 2,62
1,32 1,67 1,93 2,59
1,32 1,66 1,92 2,57
0,75 0,90 0,95 0,99
18
1,38 1,86 2,23 3,15
1,37 1,81 2,16 3,00
1,36 1,79 2,11 2,92
1,35 1,76 2,07 2,84
1,34 1,73 2,03 2,76
1,33 1,71 2,00 2,71
1,33 1,70 1,98 2,67
1,32 1,67 1,94 2,60
1,32 1,67 1,93 2,58
1,31 1,65 1,91 2,55
1,31 1,64 1,89 2,51
1,30 1,63 1,88 2,49
0,75 0,90 0,95 0,99
19
1,37 1,84 2,20 3,09
1,36 1,79 2,12 2,94
1,35 1,77 2,08 2,86
1,34 1,74 2,04 2,78
1,33 1,71 1,99 2,69
1,33 1,69 1,97 2,64
1,32 1,68 1,95 2,61
1,31 1,65 1,91 2,54
1,31 1,64 1,90 2,52
1,30 1,63 1,88 2,48
1,30 1,62 1,86 2,44
1,29 1,61 1,84 2,42
0,75 0,90 0,95 0,99
20
1,36 1,81 2,15 2,98
1,34 1,76 2,07 2,83
1,33 1,73 2,03 2,75
1,32 1,70 1,98 2,67
1,31 1,67 1,94 2,58
1,31 1,65 1,91 2,53
1,30 1,64 1,89 2,50
1,30 1,61 1,85 2,42
1,30 1,60 1,84 2,40
1,29 1,59 1,82 2,36
1,29 1,58 1,80 2,33
1,28 1,57 1,78 2,31
0,75 0,90 0,95 0,99
22
1,35 1,78 2,11 2,89
1,33 1,73 2,03 2,74
1,32 1,70 1,98 2,66
1,31 1,67 1,94 2,58
1,30 1,64 1,89 2,49
1,29 1,62 1,86 2,44
1,29 1,61 1,84 2,40
1,28 1,58 1,80 2,33
1,28 1,57 1,79 2,31
1,27 1,56 1,77 2,27
1,27 1,54 1,75 2,24
1,26 1,53 1,73 2,21
0,75 0,90 0,95 0,99
24
1,34 1,76
1,32 1,71
1,31 1,68
1,30 1,65
1,29 1,61
1,28 1,59
1,28 1,58
1,26 1,55
1,26 1,54
1,26 1,53
1,25 1,51
1,25 1,50
0,75 0,90
26
824
Tabellen
Tabelle E (Fortsetzung) Nennerdf Flåche
Zåhler-df 1 2
3
4
5
6
7
8
9
10
11
12
26
0,95 0,99
4,23 7,72
3,37 5,53
2,98 4,64
2,74 4,14
2,59 3,82
2,47 3,59
2,39 3,42
2,32 3,29
2,27 3,18
2,22 3,09
2,18 3,02
2,15 2,96
28
0,75 0,90 0,95 0,99
1,38 2,89 4,20 7,64
1,46 2,50 3,34 5,45
1,45 2,29 2,95 4,57
1,43 2,16 2,71 4,07
1,41 2,06 2,56 3,75
1,40 2,00 2,45 3,53
1,39 1,94 2,36 3,36
1,38 1,90 2,29 3,23
1,37 1,87 2,24 3,12
1,36 1,84 2,19 3,03
1,35 1,81 2,15 2,96
1,34 1,79 2,12 2,90
30
0,75 0,90 0,95 0,99
1,38 2,88 4,17 7,56
1,45 2,49 3,32 5,39
1,44 2,28 2,92 4,51
1,42 2,14 2,69 4,02
1,41 2,05 2,53 3,70
1,39 1,98 2,42 3,47
1,38 1,93 2,33 3,30
1,37 1,88 2,27 3,17
1,36 1,85 2,21 3,07
1,35 1,82 2,16 2,98
1,35 1,79 2,13 2,91
1,34 1,77 2,09 2,84
40
0,75 0,90 0,95 0,99
1,36 2,84 4,08 7,31
1,44 2,44 3,23 5,18
1,42 2,23 2,84 4,31
1,40 2,09 2,61 3,83
1,39 2,00 2,45 3,51
1,37 1,93 2,34 3,29
1,36 1,87 2,25 3,12
1,35 1,83 2,18 2,99
1,34 1,79 2,12 2,89
1,33 1,76 2,08 2,80
1,32 1,73 2,04 2,73
1,31 1,71 2,00 2,66
60
0,75 0,90 0,95 0,99
1,35 2,79 4,00 7,08
1,42 2,39 3,15 4,98
1,41 2,18 2,76 4,13
1,38 2,04 2,53 3,65
1,37 1,95 2,37 3,34
1,35 1,87 2,25 3,12
1,33 1,82 2,17 2,95
1,32 1,77 2,10 2,82
1,31 1,74 2,04 2,72
1,30 1,71 1,99 2,63
1,29 1,68 1,95 2,56
1,29 1,66 1,92 2,50
120
0,75 0,90 0,95 0,99
1,34 2,75 3,92 6,85
1,40 2,35 3,07 4,79
1,39 2,13 2,68 3,95
1,37 1,99 2,45 3,48
1,35 1,90 2,29 3,17
1,33 1,82 2,17 2,96
1,31 1,77 2,09 2,79
1,30 1,72 2,02 2,66
1,29 1,68 1,96 2,56
1,28 1,65 1,91 2,47
1,27 1,62 1,87 2,40
1,26 1,60 1,83 2,34
200
0,75 0,90 0,95 0,99
1,33 2,73 3,89 6,76
1,39 2,33 3,04 4,71
1,38 2,11 2,65 3,88
1,36 1,97 2,42 3,41
1,34 1,88 2,26 3,11
1,32 1,80 2,14 2,89
1,31 1,75 2,06 2,73
1,29 1,70 1,98 2,60
1,28 1,66 1,93 2,50
1,27 1,63 1,88 2,41
1,26 1,60 1,84 2,34
1,25 1,57 1,80 2,27
1
0,75 0,90 0,95 0,99
1,32 2,71 3,84 6,63
1,39 2,30 3,00 4,61
1,37 2,08 2,60 3,78
1,35 1,94 2,37 3,32
1,33 1,85 2,21 3,02
1,31 1,77 2,10 2,80
1,29 1,72 2,01 2,64
1,28 1,67 1,94 2,51
1,27 1,63 1,88 2,41
1,25 1,60 1,83 2,32
1,24 1,57 1,79 2,25
1,24 1,55 1,75 2,18
825
aTabelle E Tabelle E (Fortsetzung) Zåhler-df 15 20
25
30
40
50
60
100
120
200
500
?
Flåche
Nennerdf
2,07 2,81
1,99 2,66
1,95 2,58
1,90 2,50
1,85 2,42
1,82 2,36
1,80 2,33
1,76 2,25
1,75 2,23
1,73 2,19
1,71 2,16
1,69 2,13
0,95 0,99
26
1,33 1,74 2,04 2,75
1,31 1,69 1,96 2,60
1,30 1,66 1,91 2,52
1,29 1,63 1,87 2,44
1,28 1,59 1,82 2,35
1,27 1,57 1,79 2,30
1,27 1,56 1,77 2,26
1,26 1,53 1,73 2,19
1,25 1,52 1,71 2,17
1,25 1,50 1,69 2,13
1,24 1,49 1,67 2,09
1,24 1,48 1,65 2,06
0,75 0,90 0,95 0,99
28
1,32 1,72 2,01 2,70
1,30 1,67 1,93 2,55
1,29 1,64 1,89 2,47
1,28 1,61 1,84 2,39
1,27 1,57 1,79 2,30
1,26 1,55 1,76 2,25
1,26 1,54 1,74 2,21
1,25 1,51 1,70 2,13
1,24 1,50 1,68 2,11
1,24 1,48 1,66 2,07
1,23 1,47 1,64 2,03
1,23 1,46 1,62 2,01
0,75 0,90 0,95 0,99
30
1,30 1,66 1,92 2,52
1,28 1,61 1,84 2,37
1,26 1,57 1,79 2,29
1,25 1,54 1,74 2,20
1,24 1,51 1,69 2,11
1,23 1,48 1,66 2,06
1,22 1,47 1,64 2,02
1,21 1,43 1,59 1,94
1,21 1,42 1,58 1,92
1,20 1,41 1,55 1,87
1,19 1,39 1,53 1,83
1,19 1,38 1,51 1,80
0,75 0,90 0,95 0,99
40
1,27 1,60 1,84 2,35
1,25 1,54 1,75 2,20
1,24 1,51 1,70 2,12
1,22 1,48 1,65 2,03
1,21 1,44 1,59 1,94
1,20 1,41 1,56 1,88
1,19 1,40 1,53 1,84
1,17 1,36 1,48 1,75
1,17 1,35 1,47 1,73
1,16 1,33 1,44 1,68
1,15 1,31 1,41 1,63
1,15 1,29 1,39 1,60
0,75 0,90 0,95 0,99
60
1,24 1,55 1,75 2,19
1,22 1,48 1,66 2,03
1,21 1,45 1,61 1,95
1,19 1,41 1,55 1,86
1,18 1,37 1,50 1,76
1,17 1,34 1,46 1,70
1,16 1,32 1,43 1,66
1,14 1,27 1,37 1,56
1,13 1,26 1,35 1,53
1,12 1,24 1,32 1,48
1,11 1,21 1,28 1,42
1,10 1,19 1,25 1,38
0,75 0,90 0,95 0,99
120
1,23 1,52 1,72 2,13
1,21 1,46 1,62 1,97
1,20 1,42 1,57 1,89
1,18 1,38 1,52 1,79
1,16 1,34 1,46 1,69
1,14 1,31 1,41 1,63
1,12 1,28 1,39 1,58
1,11 1,24 1,32 1,48
1,10 1,22 1,29 1,44
1,09 1,20 1,26 1,39
1,08 1,17 1,22 1,33
1,06 1,14 1,19 1,28
0,75 0,90 0,95 0,99
200
1,22 1,49 1,67 2,04
1,19 1,42 1,57 1,88
1,18 1,38 1,52 1,79
1,16 1,34 1,46 1,70
1,14 1,30 1,39 1,59
1,13 1,26 1,35 1,52
1,12 1,24 1,32 1,47
1,09 1,18 1,24 1,36
1,08 1,17 1,22 1,32
1,07 1,13 1,17 1,25
1,04 1,08 1,11 1,15
1,00 1,00 1,00 1,00
0,75 0,90 0,95 0,99
1
826
Tabellen
Tabelle F. U-Test-Tabelle (zit. nach: Clauss, G., Ebner, H.: Grundlagen der Statistik, S. 345±349. Frankfurt a. M.: Harri Deutsch 1971) Wahrscheinlichkeitsfunktionen fçr den U-Test von Mann u. Whitney n2 = 3
n2 = 4 n1
U 0 1 2 3 4 5 6 7 8
n1
1
2
3
1
2
3
4
0,250 0,500 0,750
0,100 0,200 0,400 0,600
0,050 0,100 0,200 0,350 0,500 0,650
0,200 0,400 0,600
0,067 0,133 0,267 0,400 0,600
0,028 0,057 0,114 0,200 0,314 0,429 0,571
0,014 0,029 0,057 0,100 0,171 0,243 0,343 0,443 0,557
n2 = 5
n2 = 6 n1
n1
U
1
2
3
4
5
1
2
3
4
5
6
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
0,167 0,333 0,500 0,667
0,047 0,095 0,190 0,286 0,429 0,571
0,018 0,036 0,071 0,125 0,196 0,286 0,393 0,500 0,607
0,008 0,016 0,032 0,056 0,095 0,143 0,206 0,278 0,365 0,452 0,548
0,004 0,008 0,016 0,028 0,048 0,075 0,111 0,155 0,210 0,274 0,345 0,421 0,500 0,579
0,143 0,286 0,428 0,571
0,036 0,071 0,143 0,214 0,321 0,429 0,571
0,012 0,024 0,048 0,083 0,131 0,190 0,274 0,357 0,452 0,548
0,005 0,010 0,019 0,033 0,057 0,086 0,129 0,176 0,238 0,305 0,381 0,457 0,545
0,002 0,004 0,009 0,015 0,026 0,041 0,063 0,089 0,123 0,165 0,214 0,268 0,331 0,396 0,465 0,535
0,001 0,002 0,004 0,008 0,013 0,021 0,032 0,047 0,066 0,090 0,120 0,155 0,197 0,242 0,294 0,350 0,409 0,469 0,531
1
0,125 0,250 0,375 0,500 0,625
U
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
n2 = 7
0,028 0,056 0,111 0,167 0,250 0,333 0,444 0,556
2
Tabelle F (Fortsetzung)
0,008 0,017 0,033 0,058 0,092 0,133 0,192 0,258 0,333 0,417 0,500 0,583 0,394 0,464 0,538
3 0,003 0,006 0,012 0,021 0,036 0,055 0,082 0,115 0,158 0,206 0,264 0,324 0,216 0,265 0,319 0,378 0,438 0,500 0,562
4
n1
0,001 0,003 0,005 0,009 0,015 0,024 0,037 0,053 0,074 0,101 0,134 0,172 0,117 0,147 0,183 0,223 0,267 0,314 0,365 0,418 0,473 0,527
5 0,001 0,001 0,002 0,004 0,007 0,011 0,017 0,026 0,037 0,051 0,069 0,090 0,064 0,082 0,104 0,130 0,159 0,191 0,228 0,267 0,310 0,355 0,402 0,451 0,500 0,549
6 0,000 0,001 0,001 0,002 0,003 0,006 0,009 0,013 0,019 0,027 0,036 0,049
7 0,111 0,222 0,333 0,444 0,556
1
n2 = 8
0,022 0,044 0,089 0,133 0,200 0,267 0,356 0,444 0,556
2 0,006 0,012 0,024 0,042 0,067 0,097 0,139 0,188 0,248 0,315 0,387 0,461 0,539
3 0,002 0,004 0,008 0,014 0,024 0,036 0,055 0,077 0,107 0,141 0,184 0,230 0,285 0,341 0,404 0,467 0,533
4 0,001 0,002 0,003 0,005 0,009 0,015 0,023 0,033 0,047 0,064 0,085 0,111 0,142 0,177 0,217 0,262 0,311 0,362 0,416 0,472 0,528
5 0,000 0,001 0,001 0,002 0,004 0,006 0,010 0,015 0,021 0,030 0,041 0,054 0,071 0,091 0,114 0,141 0,172 0,207 0,245 0,286 0,331 0,377 0,426 0,475 0,525
6
n1
0,000 0,000 0,001 0,001 0,002 0,003 0,005 0,007 0,010 0,014 0,020 0,027 0,036 0,047 0,060 0,076 0,095 0,116 0,140 0,168 0,198 0,232 0,268 0,306 0,347 0,389 0,433 0,478 0,522
7 0,000 0,000 0,000 0,001 0,001 0,001 0,002 0,003 0,005 0,007 0,010 0,014 0,019 0,025 0,032 0,041 0,052 0,065 0,080 0,097 0,117 0,139 0,164 0,191 0,221 0,253 0,287 0,323 0,360 0,399 0,439 0,480 0,520
8 3,308 3,203 3,098 2,993 2,888 2,783 2,678 2,573 2,468 2,363 2,258 2,153 2,048 1,943 1,838 1,733 1,628 1,523 1,418 1,313 1,208 1,102 0,998 0,893 0,788 0,683 0,578 0,473 0,368 0,263 0,158 0,052
t
0,001 0,001 0,001 0,001 0,002 0,003 0,004 0,005 0,007 0,009 0,012 0,016 0,020 0,026 0,033 0,041 0,052 0,064 0,078 0,094 0,113 0,135 0,159 0,185 0,215 0,247 0,282 0,318 0,356 0,396 0,437 0,481
Normal
aTabelle F 827
828
Tabellen
Tabelle F (Fortsetzung) Kritische Werte von U fçr den Test von Mann u. Whitney fçr den einseitigen Test bei a 0; 01, fçr den zweiseitigen Test bei a 0;02 n2 n1
9
10
11
12
13
14
15
16
17
18
19
20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1 3 5 7 9 11 14 16 18 21 23 26 28 31 33 36 38 40
1 3 6 8 11 13 16 19 22 24 27 30 33 36 38 41 44 47
1 4 7 9 12 15 18 22 25 28 31 34 37 41 44 47 50 53
2 5 8 11 14 17 21 24 28 31 35 38 42 46 49 53 56 60
0 2 5 9 12 16 20 23 27 31 35 39 43 47 51 55 59 63 67
0 2 6 10 13 17 22 26 30 34 38 43 47 51 56 60 65 69 73
0 3 7 11 15 19 24 28 33 37 42 47 51 56 61 66 70 75 80
0 3 7 12 16 21 26 31 36 41 46 51 56 61 66 71 76 82 87
0 4 8 13 18 23 28 33 38 44 49 55 60 66 71 77 82 88 93
0 4 9 14 19 24 30 36 41 47 53 59 65 70 76 82 88 94 100
1 4 9 15 20 26 32 38 44 50 56 63 69 75 82 88 94 101 107
1 5 10 16 22 28 34 40 47 53 60 67 73 80 87 93 100 107 114
fçr den einseitigen Test bei a 0;025, fçr den zweiseitigen Test bei a 0;050 n2 n1
9
10
11
12
13
14
15
16
17
18
19
20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
0 2 4 7 10 12 15 17 20 23 26 28 31 34 37 39 42 45 48
0 3 5 8 11 14 17 20 23 26 29 33 36 39 42 45 48 52 55
0 3 6 9 13 16 19 23 26 30 33 37 40 44 47 51 55 58 62
1 4 7 11 14 18 22 26 29 33 37 41 45 49 53 57 61 65 69
1 4 8 12 16 20 24 28 33 37 41 45 50 54 59 63 67 72 76
1 5 9 13 17 22 26 31 36 40 45 50 55 59 64 67 74 78 83
1 5 10 14 19 24 29 34 39 44 49 54 59 64 70 75 80 85 90
1 6 11 15 21 26 31 37 42 47 53 59 64 70 75 81 86 92 98
2 6 11 17 22 28 34 39 45 51 57 63 67 75 81 87 93 99 105
2 7 12 18 24 30 36 42 48 55 61 67 74 80 86 93 99 106 112
2 7 13 19 25 32 38 45 52 58 65 72 78 85 92 99 106 113 119
2 8 13 20 27 34 41 48 55 62 69 76 83 90 98 105 112 119 127
829
aTabelle G Tabelle F (Fortsetzung) fçr den einseitigen Test bei a 0;05, fçr den zweiseitigen Test bei a 0;10 n2 n1
9
10
11
12
13
14
15
16
17
18
19
20
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
1 3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54
1 4 7 11 14 17 20 24 27 31 34 37 41 44 48 51 55 58 62
1 5 8 12 16 19 23 27 31 34 38 42 46 50 54 57 61 65 69
2 5 9 13 17 21 26 30 34 38 42 47 51 55 60 64 68 72 77
2 6 10 15 19 24 28 33 37 42 47 51 56 61 65 70 75 80 84
2 7 11 16 21 26 31 36 41 46 51 56 61 66 71 77 82 87 92
3 7 12 18 23 28 33 39 44 50 55 61 66 72 77 83 88 94 100
3 8 14 19 25 30 36 42 48 54 60 65 71 77 83 89 95 101 107
3 9 15 20 26 33 39 45 51 57 64 70 77 83 89 96 102 109 115
4 9 16 22 28 35 41 48 55 61 68 75 82 88 95 102 109 116 123
0 4 10 17 23 30 37 44 51 58 65 72 80 87 94 101 109 116 123 130
0 4 11 18 25 32 39 47 54 62 69 77 84 92 100 107 115 123 130 138
Tabelle G. Tabelle der kritischen Werte fçr den Wilcoxon-Test (zit. nach: Clauss, G., Ebner, H.: Grundlagen der Statistik, S. 349. Frankfurt a. M.: Harri Deutsch 1971)
n
Irrtumswahrscheinlichkeit a fçr einseitige Fragestellung 0,025 0,01 0,005 Irrtumswahrscheinlichkeit a fçr zweiseitige Fragestellung 0,05 0,02 0,01
6 7 8 9 10 11 12 13 14 15
0 2 4 6 8 11 14 17 21 25
0 2 3 5 7 10 13 16 20
0 2 3 5 7 10 13 16
0,025
0,01
0,005
n
0,05
0,02
0,01
16 17 18 19 20 21 22 23 24 25
30 35 40 46 52 59 66 73 81 89
24 28 33 38 43 49 56 62 69 77
20 23 28 32 38 43 49 55 61 68
830
Tabellen
Tabelle H. Fishers Z-Werte (zit. nach: Glass, G. V., Stanley, J. C.: Statistical methods in education and psychology, p. 534. New Jersey: Prentice-Hall, Englewood Cliffs 1970) r
Z
r
Z
r
Z
r
Z
r
Z
0,000 0,005 0,010 0,015 0,020 0,025 0,030 0,035 0,040 0,045 0,050 0,055 0,060 0,065 0,070 0,075 0,080 0,085 0,090 0,095 0,100 0,105 0,110 0,115 0,120 0,125 0,130 0,135 0,140 0,145 0,150 0,155 0,160 0,165 0,170 0,175 0,180 0,185 0,190 0,195
0,000 0,005 0,010 0,015 0,020 0,025 0,030 0,035 0,040 0,045 0,050 0,055 0,060 0,065 0,070 0,075 0,080 0,085 0,090 0,095 0,100 0,105 0,110 0,116 0,121 0,126 0,131 0,136 0,141 0,146 0,151 0,156 0,161 0,167 0,172 0,177 0,182 0,187 0,192 0,198
0,200 0,205 0,210 0,215 0,220 0,225 0,230 0,235 0,240 0,245 0,250 0,255 0,260 0,265 0,270 0,275 0,280 0,285 0,290 0,295 0,300 0,305 0,310 0,315 0,320 0,325 0,330 0,335 0,340 0,345 0,350 0,355 0,360 0,365 0,370 0,375 0,380 0,385 0,390 0,395
0,203 0,208 0,213 0,218 0,224 0,229 0,234 0,239 0,245 0,250 0,255 0,261 0,266 0,271 0,277 0,282 0,288 0,293 0,299 0,304 0,310 0,315 0,321 0,326 0,332 0,337 0,343 0,348 0,354 0,360 0,365 0,371 0,377 0,383 0,388 0,394 0,400 0,406 0,412 0,418
0,400 0,405 0,410 0,415 0,420 0,425 0,430 0,435 0,440 0,445 0,450 0,455 0,460 0,465 0,470 0,475 0,480 0,485 0,490 0,495 0,500 0,505 0,510 0,515 0,520 0,525 0,530 0,535 0,540 0,545 0,550 0,555 0,560 0,565 0,570 0,575 0,580 0,585 0,590 0,595
0,424 0,430 0,436 0,442 0,448 0,454 0,460 0,466 0,472 0,478 0,485 0,491 0,497 0,504 0,510 0,517 0,523 0,530 0,536 0,543 0,549 0,556 0,563 0,570 0,576 0,583 0,590 0,597 0,604 0,611 0,618 0,626 0,633 0,640 0,648 0,655 0,662 0,670 0,678 0,685
0,600 0,605 0,610 0,615 0,620 0,625 0,630 0,635 0,640 0,645 0,650 0,655 0,660 0,665 0,670 0,675 0,680 0,685 0,690 0,695 0,700 0,705 0,710 0,715 0,720 0,725 0,730 0,735 0,740 0,745 0,750 0,755 0,760 0,765 0,770 0,775 0,780 0,785 0,790 0,795
0,693 0,701 0,709 0,717 0,725 0,733 0,741 0,750 0,758 0,767 0,775 0,784 0,793 0,802 0,811 0,820 0,829 0,838 0,848 0,858 0,867 0,877 0,887 0,897 0,908 0,918 0,929 0,940 0,950 0,962 0,973 0,984 0,996 1,008 1,020 1,033 1,045 1,058 1,071 1,085
0,800 0,805 0,810 0,815 0,820 0,825 0,830 0,835 0,840 0,845 0,850 0,855 0,860 0,865 0,870 0,875 0,880 0,885 0,890 0,895 0,900 0,905 0,910 0,915 0,920 0,925 0,930 0,935 0,940 0,945 0,950 0,955 0,960 0,965 0,970 0,975 0,980 0,985 0,990 0,995
1,099 1,113 1,127 1,142 1,157 1,172 1,188 1,204 1,221 1,238 1,256 1,274 1,293 1,313 1,333 1,354 1,376 1,398 1,422 1,447 1,472 1,499 1,528 1,557 1,589 1,623 1,658 1,697 1,738 1,783 1,832 1,886 1,946 2,014 2,092 2,185 2,298 2,443 2,647 2,994
831
aTabelle I
Tabelle I. c-Koeffizienten fçr Trendtests (orthogonale Polynome) (zit. nach: Winer, J. B.: Statistical principles in experimental design, p. 656. New York: McGraw-Hill 1962) Anz. der Faktorstufen
Trend
Faktorstufennummer 1 2 3
4
5
6
7
8
9
10
3
linear quadratisch
±1 1
0 ±2
1 1
4
linear quadratisch kubisch
±3 1 ±1
±1 ±1 3
1 ±1 ±3
3 1 1
5
linear quadratisch kubisch quartisch
±2 2 ±1 1
±1 ±1 2 ±4
0 ±2 0 6
1 ±1 ±2 ±4
2 2 1 1
6
linear quadratisch kubisch quartisch
±5 5 ±5 1
±3 ±1 7 ±3
±1 ±4 4 2
1 ±4 ±4 2
3 ±1 ±7 ±3
5 5 5 1
7
linear quadratisch kubisch quartisch
±3 5 ±1 3
±2 0 1 ±7
±1 ±3 1 1
0 ±4 0 6
1 ±3 ±1 1
2 0 ±1 ±7
3 5 1 3
8
linear quadratisch kubisch quartisch quintisch
±7 7 ±7 7 ±7
±5 1 5 ±13 23
±3 ±3 7 ±3 ±17
±1 ±5 3 9 ±15
1 ±5 ±3 9 15
3 ±3 ±7 ±3 17
5 1 ±5 ±13 ±23
7 7 7 7 7
9
linear quadratisch kubisch quartisch quintisch
±4 28 ±14 14 ±4
±3 7 7 ±21 11
±2 ±8 13 ±11 ±4
±1 ±17 9 9 ±9
0 ±20 0 18 0
1 ±17 ±9 9 9
2 ±8 ±13 ±11 4
3 7 ±7 ±21 ±11
4 28 14 14 4
10
linear quadratisch kubisch quartisch quintisch
±9 6 ±42 18 ±6
±7 2 14 ±22 14
±5 ±1 35 ±17 ±1
±3 ±3 31 3 ±11
±1 ±4 12 18 ±6
1 ±4 ±12 18 6
3 ±3 ±31 3 11
5 ±1 ±35 ±17 1
7 2 ±14 ±22 ±14
9 6 42 18 6
R c2i
k
2 6
1 3
20 4 20
2 1 10/3
10 14 10 70
1 1 5/6 35/12
70 84 180 28
2 3/2 5/3 7/12
28 84 6 154
1 1 1/6 7/12
168 168 264 616 2184
2 1 2/3 7/12 7/10
60 2772 990 2002 468
1 3 5/6 7/12 3/20
330 132 8580 2860 780
2 1/2 5/3 5/12 1/10
832
Tabellen
Tabelle K. Kritische Werte der Fmax-Verteilungen (zit. nach: Winer, J. B.: Statistical principles in experimental design, p. 653. New York: McGraw-Hill 1962)
Fmax
df fçr ^2 r
Flåche
Anzahl der Varianzen 2
3
4
5
6
7
8
9
10
4
0,95 0,99
9,60 23,2
15,5 37
20,6 49
25,2 59
29,5 69
33,6 79
37,5 89
41,4 97
44,6 106
5
0,95 0,99
7,15 14,9
10,8 22
13,7 28
16,3 33
18,7 38
20,8 42
22,9 46
24,7 50
26,5 54
6
0,95 0,99
5,82 11,1
8,38 15,5
10,4 19,1
12,1 22
13,7 25
15,0 27
16,3 30
17,5 32
18,6 34
7
0,95 0,99
4,99 8,89
6,94 12,1
8,44 14,5
9,70 16,5
10,8 18,4
11,8 20
12,7 22
13,5 23
14,3 24
8
0,95 0,99
4,43 7,50
6,00 9,9
7,18 11,7
8,12 13,2
9,03 14,5
9,78 15,8
10,5 16,9
11,1 17,9
11,7 18,9
9
0,95 0,99
4,03 6,54
5,34 8,5
6,31 9,9
7,11 11,1
7,80 12,1
8,41 13,1
8,95 13,9
9,45 14,7
9,91 15,3
10
0,95 0,99
3,72 5,85
4,85 7,4
5,67 8,6
6,34 9,6
6,92 10,4
7,42 11,1
7,87 11,8
8,28 12,4
8,66 12,9
12
0,95 0,99
3,28 4,91
4,16 6,1
4,79 6,9
5,30 7,6
5,72 8,2
6,09 8,7
6,42 9,1
6,72 9,5
7,00 9,9
15
0,95 0,99
2,86 4,07
3,54 4,9
4,01 5,5
4,37 6,0
4,68 6,4
4,95 6,7
5,19 7,1
5,40 7,3
5,59 7,5
20
0,95 0,99
2,46 3,32
2,95 3,8
3,29 4,3
3,54 4,6
3,76 4,9
3,94 5,1
4,10 5,3
4,24 5,5
4,37 5,6
30
0,95 0,99
2,07 2,63
2,40 3,0
2,61 3,3
2,78 3,4
2,91 3,6
3,02 3,7
3,12 3,8
3,21 3,9
3,29 4,0
60
0,95 0,99
1,67 1,96
1,85 2,2
1,96 2,3
2,04 2,4
2,11 2,4
2,17 2,5
2,22 2,5
2,26 2,6
2,30 2,6
1
0,95 0,99
1,00 1,00
1,00 1,00
1,00 1,00
1,00 1,00
1,00 1,00
1,00 1,00
1,00 1,00
1,00 1,00
1,00 1,00
833
aTabelle L
Tabelle L. Normal-Rang-Transformationen (zit. nach Marascuilo, L. A. u. McSweeney, M.: Nonparametric and distribution-free methods for the social sciences, pp. 510±511. Monterey, Cal.: Brooks/Cole 1977) Erlåuterungen:
Beispiel:
n = Stichprobenumfang i = Rangplatznummer in einer aufsteigenden Rangreihe n±i+1 = Rangplatznummer in einer absteigenden Rangreihe
Fçr n = 20 hat der 7. Rangplatz in einer aufsteigenden Rangreihe (also der 7.-kleinste Wert bzw. der 20±7+1 = 14.-græûte Wert) die Normalrangstatistik ±0,45, und der 3. Rangplatz in einer absteigenden Rangreihe (also der 3.-græûte bzw. der 20±3+1=18.-kleinste Wert) hat die Normalrangstatistik 1,13 (weitere Erlåuterungen s. S. 283 f.). n
n±1+i 1 2 3 4 5 6
1
2
3
4
5
6
7
8
9
10
0
0,56 ±0,56
0,85 0,00 ±0,85
1,03 0,30 ±0,30 ±1,03
1,16 0,50 0,00 ±0,50 ±1,16
1,27 0,64 0,20 ±0,20 ±0,64 ±1,27
1,35 0,76 0,35 0,00 ±0,35 ±0,76
1,42 0,85 0,47 0,15 ±0,15 ±0,47
1,49 0,93 0,57 0,27 0,00 ±0,27
1,54 1,00 0,66 0,38 0,12 ±0,12
n n±1+i
11
12
13
14
15
16
17
18
19
20
1 2 3 4 5 6 7 8 9 10 11
1,59 1,06 0,73 0,46 0,22 0,00 ±0,22 ±0,46 ±0,73 ±1,06 ±1,59
1,63 1,12 0,79 0,54 0,31 0,10 ±0,10 ±0,31 ±0,54 ±0,79 ±1,12
1,67 1,16 0,85 0,60 0,39 0,19 0,00 ±0,19 ±0,39 ±0,60 ±0,85
1,70 1,21 0,90 0,66 0,46 0,27 0,09 ±0,09 ±0,27 ±0,46 ±0,66
1,74 1,25 0,95 0,71 0,52 0,34 0,17 0,00 ±0,17 ±0,34 ±0,52
1,77 1,28 0,99 0,76 0,57 0,40 0,23 0,08 ±0,08 ±0,23 ±0,40
1,79 1,32 1,03 0,81 0,62 0,45 0,30 0,15 0,00 ±0,15 ±0,30
1,82 1,35 1,07 0,85 0,66 0,50 0,35 0,21 0,07 ±0,07 ±0,21
1,84 1,38 1,10 0,89 0,71 0,55 0,40 0,26 0,13 0,00 ±0,13
1,87 1,41 1,13 0,92 0,75 0,59 0,45 0,31 0,19 0,06 ±0,06
834
Tabellen
Tabelle L (Fortsetzung) n n±1+i
21
22
23
24
25
26
27
28
29
30
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1,89 1,43 1,16 0,95 0,78 0,63 0,49 0,36 0,24 0,12 0,00 ±0,12 ±0,24 ±0,36 ±0,49 ±0,63
1,91 1,46 1,19 0,98 0,82 0,67 0,53 0,41 0,29 0,17 0,06 ±0,06 ±0,17 ±0,29 ±0,41 ±0,53
1,93 1,48 1,21 1,01 0,85 0,70 0,57 0,45 0,33 0,22 0,11 0,00 ±0,11 ±0,22 ±0,33 ±0,45
1,95 1,50 1,24 1,04 0,88 0,73 0,60 0,48 0,37 0,26 0,16 0,05 ±0,05 ±0,16 ±0,26 ±0,37
1,97 1,52 1,26 1,07 0,91 0,76 0,64 0,52 0,41 0,30 0,20 0,10 0,00 ±0,10 ±0,20 ±0,30
1,98 1,54 1,29 1,09 0,93 0,79 0,67 0,55 0,44 0,34 0,24 0,14 0,05 ±0,05 ±0,14 ±0,24
2,00 1,56 1,31 1,11 0,96 0,82 0,70 0,58 0,48 0,38 0,28 0,19 0,09 0,00 ±0,09 ±0,19
2,01 1,58 1,33 1,14 0,98 0,85 0,73 0,61 0,51 0,41 0,32 0,22 0,13 0,04 ±0,04 ±0,13
2,03 1,60 1,35 1,16 1,00 0,87 0,75 0,64 0,54 0,44 0,35 0,26 0,17 0,09 0,00 ±0,09
2,04 1,62 1,36 1,18 1,03 0,89 0,78 0,67 0,57 0,47 0,38 0,29 0,21 0,12 0,04 ±0,04
n n±1+i
31
32
33
34
35
36
37
38
39
40
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
2,06 1,63 1,38 1,20 1,05 0,92 0,80 0,69 0,60 0,50 0,41 0,33 0,24 0,16 0,08 0,00 ±0,08 ±0,16 ±0,24 ±0,33 ±0,41
2,07 1,65 1,40 1,22 1,07 0,94 0,82 0,72 0,62 0,53 0,44 0,36 0,28 0,20 0,12 0,04 ±0,04 ±0,12 ±0,20 ±0,28 ±0,36
2,08 1,66 1,42 1,23 1,09 0,96 0,85 0,74 0,65 0,56 0,47 0,39 0,31 0,23 0,15 0,08 0,00 ±0,08 ±0,15 ±0,23 ±0,31
2,09 1,68 1,43 1,25 1,11 0,98 0,87 0,76 0,67 0,58 0,50 0,41 0,34 0,26 0,18 0,11 0,04 ±0,04 ±0,11 ±0,18 ±0,26
2,11 1,69 1,45 1,27 1,12 1,00 0,89 0,79 0,69 0,60 0,52 0,44 0,36 0,29 0,22 0,14 0,07 0,00 ±0,07 ±0,14 ±0,22
2,12 1,70 1,46 1,28 1,14 1,02 0,91 0,81 0,71 0,63 0,54 0,47 0,39 0,32 0,24 0,17 0,10 0,03 ±0,03 ±0,10 ±0,17
2,13 1,72 1,48 1,30 1,16 1,03 0,92 0,83 0,73 0,65 0,57 0,49 0,42 0,34 0,27 0,20 0,14 0,07 0,00 ±0,07 ±0,14
2,14 1,73 1,49 1,32 1,17 1,05 0,94 0,85 0,75 0,67 0,59 0,51 0,44 0,37 0,30 0,23 0,16 0,10 0,03 ±0,03 ±0,10
2,15 1,74 1,50 1,33 1,19 1,07 0,96 0,86 0,77 0,69 0,61 0,54 0,46 0,39 0,33 0,26 0,19 0,13 0,06 0,00 ±0,06
2,16 1,75 1,52 1,34 1,20 1,08 0,98 0,88 0,79 0,71 0,63 0,56 0,49 0,42 0,35 0,28 0,22 0,16 0,09 0,03 ±0,03
835
Literaturverzeichnis
Abelson, R. P., Prentice, D. A.: Contrast tests of interaction hypothesis. Psychological Methods 2 (1997). Abelson, R. P., Tukey, J. W.: Efficient utilization of non-numerical information in quantitative analysis: General theory and the case of simple order. Annals of math. stat. 34, 1347±1369 (1963). Adams, J. L., Woodward, J. A.: An APL procedure for computing the eigenvectors and eigenvalues of a real symmetric matrix. Educ. psychol. measmt. 44, 131±135 (1984). Adler, F.: Yates' Correction and the statisticians. J. of the American Stat. Assoc. 46, 490±501 (1951). Agresti, A.: Categorial data analysis. New York: Wiley 1990. Agresti, A., Wackerly, D.: Some exact conditional tests of independence for R´C cross-classification tables. Psychometrika 42, 111±125 (1977). Aiken, L. R.: Some simple computational formulas for multiple regression. Educ. psychol. measmt. 34, 767±769 (1974). Aiken, L. R.: Small sample difference tests of goodness of fit and independence. Educ. psychol. measmt. 48, 905±912 (1988). Aiken, L. R., West, S. G.: Multiple Regression: Testing and Interpreting Interactions. Newbury Park, CA: Sage (1991). Aitchison, J.: Choice against chance. An introduction to statistical decision theorie. Reading, Mass.: Addison-Wesley 1970. Aleamoni, L. M.: The relation of sample size to the number of variables in using factor analysis techniques. Educ. psychol. measmt. 36, 879±883 (1976). Alexander, R. A., Alliger, G. M., Carson, K. P., Barrett, G. V.: The empirical performance of measures of association in the 2´2-table. Educ. psychol. measmt. 45, 79±87 (1985a). Alexander R. A., De Shon, R. P.: Effect of error variance heterogeneity on the power of tests for regression slope differences. Psychological Bulletin 115, 308±314 (1994). Alexander, R. A., Hanges, P. J., Alliger, G. M.: An empirical examination of the two transformations of sample correlations. Educ. psychol. measmt. 45, 797±801 (1985b). Alexander, R. A., Scozzaro, M. J., Borodkin, L. J.: Statistical and empirical examination of the chi-square test for homogeneity of correlations in meta-analysis. Psychol. Bull. 106, 329±331 (1989). Alf, E., Abrahams, N.: Reply to Edgington. Psychol. Bull. 80, 86±87 (1973).
Algina, J.: Some alternative approximate tests for a split plot design. Multivariate Behavioral Research 29, 365±384 (1994). Algina, J., Keselman, H. J.: Detecting repeated measures effects with univariate dual multivariate statistics. Psychological Methods 2 (1997). Algina, J., Keselman, H. J.: Comparing Squared Multiple Correlation Coefficients: Examination of a Confidence Intervall and a Test of Significance. Psychol. Methods 4, 76±83 (1999). Algina, J., Olejnik, S. F.: Implementing the Walch-James procedure with factorial designs. Educ. psychol. measmt. 44, 39±48 (1984). Algina, J., Oshima, T. C.: Robustness of the independent samples Hotelling's T2 to variance-covariance heteroscedasticity when sample sizes are unequal and in small ratios. Psychol. Bull. 108, 308±313 (1990). Algina, J., Seaman, S.: Calculation of semipartial correlations. Educ. psychol. measmt. 44, 547±549 (1984). Allen, S. J., Hubbard, R.: Regression equations for the latent roots of random data correlation matrices with unities on the diagonal. Mult. beh. res. 21, 393±398 (1986). Amthauer, R.: Intelligenz-Struktur-Test. Gættingen: Hogrefe 1970. Anastasi, A.: Psychological testing. New York: MacMillan 1982. Anastasi, A.: Differential psychology. New York: MacMillan 1963. Anderberg, M. R.: Cluster analysis for applications. New York: Academic Press 1973. Anderson, E. B.: The statistical analysis of catecorial data. New York: Springer 1990. Anderson, O.: Verteilungsfreie Testverfahren in den Sozialwissenschaften. Allgemeines Statistisches Archiv 40, 117±127 (1956). Anderson, R. L., Houseman, E. E.: Tables of orthogonal polynomial values extended to N = 104. Res. Bull. 297, April 1942, Ames, Iowa. Anderson, T. W.: An introduction to multivariate statistical analysis. New York: Wiley 1958. Andres, J.: Grundlagen linearer Strukturgleichungsmodelle. Frankfurt: Lang 1990. Andres, J.: Das Allgemeine Lineare Modell. In: Erdfelder, E. et al. (Hrsg.) Handbuch quantitative Methoden (S. 185±200). Weinheim: Beltz 1996. Andreû, H. J., Hagenaars, J. A., Kçhnel, S.: Analyse von Tabellen und kategorialen Daten. Heidelberg: Springer 1997.
836
Literaturverzeichnis
Arabie, P., Carroll, J. D.: MAPCLUS: A mathematical programming approach to fitting the ADCLUS model. Psychometrika 45, 211±235 (1980). Arabie, P., Hubert, L. J., De Soete, G.: Clustering and classification. Singapore: World Scientific 1996. Archer, C. O., Jennrich, R. I.: Standard errors for rotated factor loadings. Psychometrika 38, 581±592 (1973). Arminger, G.: Faktorenanalyse. Stuttgart: Teubner 1979. Arminger, G.: Multivariate Analyse von qualitativen abhångigen Variablen mit verallgemeinerten linearen Modellen. Zsch. f. Soziol. 12, 49±64 (1983). Assenmacher, W.: Induktive Statistik. Heidelberg: Springer 2000. Attneave, F.: Dimensions of similarity. Amer. J. Psychol. 63, 516±556 (1950). Attneave, F.: Informationstheorie in der Psychologie. Bern: Huber 1969. Ayabe, C. R.: Multicrossvalidation and the jackknife in the estimation of shrinkage of the multiple coefficient of correlation. Educ. psychol. measmt. 45, 445±451 (1985). Azen, R., Budescu, D. V.: The Dominance Analysis Approach for Comparing Predictors in Multiple Regression. Psychol. Methods 8, 129±148 (2003). Backhaus, K., Erichson, B., Plinke, W., Wçber, R.: Multivariate Analysemethoden. Berlin: Springer 1987, 2000 (9. Aufl.). Bacon, D. R.: A maximum likelihood approach to correlational outlier identification. Multivariate Behavioral Research 30, 125±148 (1995). Bailey, K. D.: Cluster analysis. In: Heise, D. (ed.): Sociological Methodology. San Francisco: Jossey-Bass 1974. Bajgier, S. M., Aggarwal, L. K.: Powers of goodness-of-fit tests in detecting balanced mixed normal distributions. Educ. psychol. measmt. 51, 253±269 (1991). Bakan, D.: The test of significance in psychological research. Psychol. Bull. 66, 423±437 (1966). Baker, F. B.: An investigation of the sampling distributions of item discrimination indices. Psychometrika 30, 165±178 (1965). Baker, F. B., Hubert, L. J.: Measuring the power of hierarchical cluster analysis. J. Am. Statistical Assoc. 70, 31±38 (1975). Ball, G. H.: Classification analysis. Menlo Park Calif.: Stanford Research Institute 1970. Bardeleben, H.: FACREL ± ein Programm zur Bestimmung der maximalen faktoriellen Reliabilitåt sozialwissenschaftlicher Skalen nach der OLS- und ML-Methode. Soziologisches Forum. Gieûen: Institut fçr Soziologie 1987. Barker, D. G.: Averaging correlation coefficients. A basic program. Educ. psychol. measmt. 50, 843±844 (1990). Bartlett, M. S.: Multivariate analysis. J. of the Royal Statistical Society, Series B, 9, 176±197 (1947). Bartlett, M. S.: Tests of significance in factor analysis. Brit. J. of Psychol. (Statist. section) 3, 77±85 (1950). Bartlett, M. S.: A note on the multiplying of factors for various chi-squared approximations. J. Royal Statist. Soc., Series B, 16, 296±298 (1954). Bartussek, D.: Eine Methode zur Bestimmung von Moderatoreffekten. Diagnostica 16, 57±76 (1970).
Bartussek, D.: Zur Interpretation der Kernmatrix in der dreimodalen Faktorenanalyse von L. R. Tucker. Psychol. Beitråge 15, 169±184 (1973). Becker, R. A., Chambers, J. M., Wilks, A. R.: The new S language. Belmont, CA 1988. Bedrick, E. J.: On the large sample distributions of modified sample biserial correlation coefficients. Psychometrika 55, 217±228 (1990). Bedrick, E. J.: A comparison of generalized and modified sample biserial correlation estimators. Psychometrika 57, 183±201 (1992). Bedrick, E. J., Breslin, F. C.: Estimating the polyserial correlation coefficient. Psychometrika 61, 427±443 (1996). Beelmann, A., Bliesener, T.: Aktuelle Probleme und Strategien der Metaanalyse. Psychologische Rundschau 45, 211±233 (1994). Behrens, J. T.: Principles and Procedures of Exploratory Data Analysis. Psychol. Methods 2, 131±160 (1997). Belsley, D. A., Kuh, E., Welsch, R. E.: Regression diagnostics: Identifying influential data and sources of collinearity. New York: Wiley 1980. Bentler, P. M.: EQS. Structural equation program manual. Los Angeles: BMDP Statistical Software Inc. 1989. Bentler, P. M., Yuan, K. H.: Test of Linear Trend in Eigenvalues of a Covariance Matrix with a Application to Data Analysis. British Journal of Mathematical and Statistical Psychology 49, 299±312 (1996). Berenson, M. L.: A useful k sample test for monotonic relationships in completely randomized designs. SCIMAJournal of Management Science and Applied Cybernetics 5, 2±16 (1976). Berenson, M. L.: A comparison of several k sample tests for ordered alternatives in completely randomized designs. Psychometrika 47, 265±280 (1982). Berger, J. O.: Statistical decision theory. New York: Springer 1980. Berry, K. J.: Orthogonal polynomials for the analysis of trend. Educ. psychol. measmt. 53, 139±141 (1993). Berry, K. J., Martin, T. W., Olson, K. F.: A note on fourfold point correlation. Educ. psychol. measmt. 34, 53±56 (1974). Berry, K. J., Mielke, P. W., Jr.: R by C chi-square analysis with small expected cell frequencies. Educ. psychol. measmt. 46, 169±173 (1986). Berry, K. J., Mielke, P. W., Jr.: Exact cumulative probabilities for the multinomial distribution. Educ. psychol. measmt. 55, 769±772 (1995). Bickel, P. J., Doksum, K.: Mathematical statistics. Holden Day 1977. Bijman, J.: Cluster analysis. Tilberg: Tilberg Univ. Press 1973. Birch, H. G.: The role of motivational factors in insightful problem-solving. J. Comp. Psychol. 43, 259±278 (1945). Bishir, J. W., Drewes, D. W.: Mathematics in the behavioral and social sciences. New York: Harcourt, Brace and World 1970. Bishop, Y. M. M., Fienberg, S. E., Holland, P. W.: Discrete multivariate analysis. MIT-Press Cambridge 1978. Blair, R. C., Higgings, J. J.: Tests of hypotheses for unbalanced factorial designs under various regression/coding
aLiteraturverzeichnis method combinations. Educ. psychol. measmt. 38, 621±631 (1978). Blalock, H. M.: Theory building and causal inferences. In: Blalock, H. M., Blalock, A. B. (eds.): Methodology in social research, pp. 155±198. New York: McGraw-Hill 1968. Blalock, H. M. (ed.): Causal models in the social sciences. London: MacMillan 1971. Blashfield, R. K.: Mixture model tests of cluster analysis: Accuracy of four agglomerative hierarchical methods. Psychol. Bull. 83, 377±388 (1976). Blashfield, R. K.: A consumer report on cluster analysis software: (3) Iterative partitioning methods. State College PA: The Pennsylvania State Univ., Department of Psychology, March 1977. Blashfield, R. K.: The growth of cluster analysis: Tryon, Ward and Johnson. Multivariate behavioral research 15, 439±458 (1980). Blashfield, R. K.: The classification of psychopathology: Neo-Kraepelinean and quantitative approaches. New York: Plenum Press 1984. Blashfield, R. K., Aldenderfer, M. S.: The literature on cluster analysis. Multivariate behavioral research 13, 271±295 (1978). Bliesener, T.: Korrelation und Determination von Konstrukten. Zur Interpretation der Korrelation in multivariaten Datensåtzen. Zeitschrift fçr Differentielle und Diagnostische Psychologie 13, 21±33 (1992). Bock, H. H.: Automatische Klassifikation. Gættingen: Vandenhoeck u. Ruprecht 1974. Bock, R. D.: A computer program for univariate and multivariate analysis of variance. In: Proceedings of the IBM scientific computing symposium on statistics. White Plains, New York: IBM Data Processing Division 1965. Bock, R. D.: Multivariate statistical methods in behavioral research. New York: McGraw-Hill 1975. Bock, R. D., Haggard, E. A.: The use of multivariate analysis of variance in behavioral research. In: Witla, D. K. (ed.): Handbook of measurement and assessment in behavioral sciences. Reading, Mass.: Addison Wesley 1968. Boehnke, K.: Der Einfluû verschiedener Stichprobencharakteristiken auf die Effizienz der parametrischen und nichtparametrischen Varianzanalyse. Heidelberg: Springer 1983. Boik, R. J.: The rationale of Scheffs method and the simultaneous test procedure. Educ. psychol. measmt. 39, 49±56 (1979a). Boik, R. J.: Interactions, partial interactions, and interaction contrasts in the analysis of variance. Psychol. Bull. 86, 1084±1089 (1979b). Boik, R. J.: A Priori Tests in Repeated Measures Design: Effects on Nonsphericity. Psychometrika 46, 241±255 (1981). Bolch, B. W.: More on unbiased estimation of the standard deviation. American Statistician 20, 27 ff. (1968). Bollen, K. A., Long, J. S.: Testing structural equation models. Newberry Park, CA: Sage 1993. Boneau, C. A.: The effects of violations of assumptions underlying the t-test. In: Steger, J. A.: Readings in statistics, pp. 311±329. New York: Holt, Rinehart and Winston, Inc. 1971.
837
Bonett, D. G.: A weighted harmonic means analysis for the proportional embalanced design. Educ. psychol. measmt. 42, 401±407 (1982a). Bonett, D. G.: On post-hoc blocking. Educ. psychol. measmt. 42, 35±39 (1982b). Borg, J., Staufenbiel, T.: Theorien und Methoden der Skalierung. Eine Einfçhrung (3. Auflage). Bern: Huber 1997. Boring, E. G.: A history of experimental psychology (Rev. ed.). New York: Appleton-century-crofts 1950. Bortz, J.: Mæglichkeiten einer exakten Kennzeichnung der Sprechstimme. Diagnostica 17, 3±14 (1971). Bortz, J.: Ein Verfahren zur Tauglichkeitsçberprçfung von Rating-Skalen. Psychologie und Praxis 16, 49±64 (1972a). Bortz, J.: Beitråge zur Anwendung der Psychologie auf den Stådtebau. II. Erkundungsexperiment zur Beziehung zwischen Fassadengestaltung und ihrer Wirkung auf den Betrachter. Zsch. exp. angew. Psychol. 19, 226±281 (1972b). Bortz, J.: Lehrbuch der empirischen Forschung. Berlin: Springer 1984. Bortz, J., Dæring, N.: Forschungsmethoden und Evaluation. Heidelberg: Springer 2002 (3. Aufl.). Bortz, J., Muchowski, E.: Analyse mehrdimensionaler Kontingenztafeln nach dem ALM. Zeitschrift fçr Psychologie 196, 83±100 (1988). Bortz, J., Lienert, G. A.: Kurzgefaûte Statistik fçr die Klinische Forschung. Ein praktischer Leitfaden fçr die Analyse kleiner Stichproben. Heidelberg: Springer 2003 (2. Aufl.). Bortz, J., Lienert, G. A., Boehnke, K.: Verteilungsfreie Methoden in der Biostatistik. Heidelberg: Springer 2000 (2. Aufl.). Boudon, R.: A method of linear causal analysis: Dependence analysis. Amer. soc. Rev. 30, 365±374 (1965). Bowers, J.: A note on comparing r-biserial and r-point biserial. Educ. psychol. measmt. 32, 771±775 (1972). Box, G. E. P.: A general distribution theory for a class of likelihood criteria. Biometrika 36, 317±346 (1949). Box, G. E. P.: Non-normality and tests on variance. Biometrika 40, 318±335 (1953). Box, G. E. P.: Some theorems on quadratic forms applied in the study of analysis of variance problems. I. Effect of inequality of variances in the one-way classification. Annals of Mathematical Statistics 25, 290±302 (1954a). Box, G. E. P.: Some theorems on quadratic forms applied in the study of analysis of variance problems. II. Effects of inequality of variance and of correlation between errors in the two-way classification. Annals of Math. Statistics 25, 484±498 (1954b). Boyle, R. P.: Path analysis and ordinal data. Amer. J. of Soc. 75, 461±480 (1970). Bracht, G. H., Glass, G. V.: Die externe Validitåt von Experimenten. In: Schwarzer, R., Steinhagen, K. (Hrsg.): Adaptiver Unterricht. Mçnchen: Kæsel 1975. Bradley, D. R., Bradley, T. D., McGrath, S. G., Cutcomb, S. D.: Type I error of the v2 -Test of independence in R´C tables that have small expected frequencies. Psychol. Bull. 86, 1290±1297 (1979). Bradley, J. V.: Distribution-free statistical tests. PrenticeHall: Englewood Cliffs 1968.
838
Literaturverzeichnis
Bradley, J. V.: Robustness? British Journal of Mathematical and Statistical Psychology 31, 144±152 (1978). Brandståtter, J., Bernitzke, F.: Zur Technik der Pfadanalyse. Ein Beitrag zum Problem der nichtexperimentellen Konstruktion von Kausalmodellen. Psychol. Beitråge 18, 12±34 (1976). Bravais, A.: Analyse mathematique sur les probabilits des erreurs de situation de point. Memoires presentes par divers savants a l'Academie des Sciences de l'Institut de France 9, 255±332 (1846). Braver, S. L., Sheets, V. L.: Monotonic hypothesis in multiple group designs: A Monte Carlo study. Psychological Bulletin 113, 379±395 (1993). Breckenridge, J. N.: Replicating cluster analysis: Method, consistency, and validity. Mult. beh. res. 24, 147±161 (1989). Breckler, S. J.: Applications of covariance structure modeling in psychology: Cause for concern? Psych. Bull. 107, 260±273 (1990). Bredenkamp, J.: Ûber die Anwendung von Signifikanztests bei theorie-testenden Experimenten. Psychol. Beitråge 11, 275±285 (1969a). Bredenkamp, J.: Ûber Maûe der praktischen Signifikanz. Zsch. f. Psychol. 177, 310±318 (1969b). Bredenkamp, J.: Der Signifikanztest in der psychologischen Forschung. Frankfurt/Main: Akademische Verlagsanstalt 1972. Bredenkamp, J.: Dçrfen wir psychologische Hypothesen statistisch testen? Berichte aus dem Psychologischen Institut der Universitåt Bonn 12 (2), 1±36 (1986). Bresnahan, J. L., Shapiro, M. M.: A general equation and technique for the exact partitioning of chi-square contingency tables. Psych. Bull. 66, 252±262 (1966). Bridgeman, P. W.: The logic of modern physics. New York: MacMillan 1927. Brien, C. J., Venables, W. N., James, A. T., Mayo, O.: An analysis of correlation matrices: Equal correlations. Biometrika 71, 545±554 (1984). Bring, J.: Variable importance by partitioning R? Quality and Quantity 29, 173±189 (1995). Broadbocks, W. J., Elmore, P. B.: A Monte Carlo study of the sampling distribution of the congruence coefficient. Educ. psychol. measmt. 47, 1±11 (1987). Brosius, G.: SPSS/PC+ Basics und Graphics. Einfçhrung und praktische Beispiele. Hamburg: McGraw-Hill 1988. Brosius, G.: SPSS/PC+ Advanced Statistics und Tables. Einfçhrung und praktische Beispiele. Hamburg: McGrawHill 1989. Brosius, F.: SPSS 11. Bonn: MITP (2002). Brown, M. B., Benedetti, J. K.: On the mean and variance of the tetrachoric correlation coefficient. Psychometrika 42, 347±355 (1977). Browne, M. W.: A comparison of single sample and crossvalidation methods for estimating the mean-square error of prediction in multiple linear regression. Brit. J. of Math. Stat. Psychol. 28, 112±120 (1975a). Browne, M. W.: Predictive validity of a linear regression equation. Brit. J. of Math. Stat. Psychol. 28, 79±87 (1975b). Browne, M. W., Arminger, G.: Specification and Estimation of Mean- and Covariance-Structure Models. In: Armin-
ger, G., Clogg, C. C., Sobel M. E. (eds.): Handbook of Statistical Modelling for the Social and Behavioral Sciences, pp. 185±249. New York: Plenum Press (1995). Browne, M. W., Cudeck, R.: Single sample cross-validation indices for covariance structures. Mult. beh. res. 24, 445±455 (1989). Bryant, F. B., Yarnold, P. R.: Principal-Components Analysis and Exploratory and Confirmatory Factor Analysis. In: Grimm, L. G., Yarnold, P. R. (eds.): Reading and Understanding Multivariate Statistics, pp. 99±136. Washington, DC: American Psychological Association (2000). Bryant, J. L., Paulson, A. S.: An Extension of Tukey's Method of Multiple Comparisons to Experimental Design with Random Concomitant Variables. Biometrika, 631±638 (1976). Bryk, A. S., Raudenbush, S. W.: Heterogeneity of variance in experimental studies: A challenge to conventional interpretations. Psychol. Bull. 104, 396±404 (1988). Bryk, A. S., Raudenbusch, S. W.: Hierarchical Linear Models: Applications and Data Analysis Methods. Newburry Park, London: Sage (1992). Buchner, A., Erdfelder, E., Faul, F.: Teststårkeanalysen. In: Erdfelder, E. et al. (Hrsg.): Handbuch quantitative Methoden (S. 123±136). Weinheim: Beltz 1996. Buck, W.: Der U-Test nach Ullmann. EDV in Medizin und Biologie 7, 65±75 (1976). Budescu, D. V.: Dominance analysis: A new approach to the problem of relative importance of predictors in multiple regression. Psychological Bulletin 114, 542±551 (1993). Bçhl, A., Zæfel, P.: SPSS 11. Eine Einfçhrung in die moderne Datenanalyse unter Windows, 8. Aufl. Mçnchen: Pearson Studium 2002. Bçhlmann, H., Læffel, H., Nievergelt, E.: Einfçhrung in die Theorie und Praxis der Entscheidung bei Unsicherheit. Heidelberg: Springer 1967. Buja, A., Eyuboglu, N.: Remarks on parallel analysis. Multivariate Behavioral Research 27, 509±540 (1992). Bunge, M.: Kausalitåt ± Geschichte und Probleme. Tçbingen: Mohr 1987. Bçssing, A., Jansen, B.: Exact tests of two-dimensional contingency tables: Procedures and problems. Methodika 1, 27±39 (1988). Burnett, T. D., Barr, D. R.: A nonparametric analogy of analysis of covariance. Educ. psychol. measmt. 37, 341±348 (1977). Burt, C.: Experimental tests of general intelligence. Brit. J. Psychol. 3, 94±177 (1909). Burt, C.: Annual Report of the L. C. C. Psychologist. London: P. S. King and Son 1914. Burt, C.: The early history of multivariate techniques in psychological research. Multivar. behav. Res. 1, 24±42 (1966). Bush, A. J., Rakow, E. A., Gallimore, D. N.: A comment on correctly calculating semipartial correlation. J. Educ. Stat. 5, 105±108 (1980). Byrne, B. M.: Structural equation modelling with EQS and EQS/Windows: Basic concepts, applications and programming. London: Sage 1994. Calinski, R. B., Harabasz, J.: A dendrite method for cluster analysis. Communications in Statistics 3, 1±27 (1974).
aLiteraturverzeichnis Camilli, G.: The test of homogeneity for 2´2-contingency tables: A review of some personal opinions on the controversy. Psychol. Bull. 108, 135±145 (1990). Camilli, G., Hopkins, K. D.: Testing for association in 2´2 contingency tables with very small sample sizes. Psychol. Bull. 86, 1011±1014 (1979). Campbell, D. T., Stanley, J. C.: Experimental and quasi-experimental designs for research on teaching. In: Gage, N. L. (ed.): Handbook of research on teaching. Chicago: Rand McNally 1963. Carnap, R.: Einfçhrung in die symbolische Logik. Wien: Springer 1960. Carroll, J. B.: An analytic solution for approximating simple structure in factor analysis. Psychometrika 18, 23±38 (1953). Carroll, J. B.: Biquartimin criterion for rotation to oblique simple structure in factor analysis. Science 126, 1114± 1115 (1957). Carroll, J. B.: IBM 704 program for generalized analytic rotation solution in factor analysis. Unpublished manuscript. Harvard Univ. 1960. Carroll, J. B.: The nature of the data, or how to choose a correlation-coefficient. Psychometrika 26, 347±372 (1961). Carroll, R. J., Ruppert, D.: Transformation and Weighting in Regression. London: Chapman and Hall 1988. Carter, D. S.: Comparison of different shrinkage formulas in estimating population multiple correlation coefficients. Educ. psychol. measmt. 39, 261±266 (1979). Carver, R. P.: The case against statistical significance testing. Harvard Educational Review 48, 378±399 (1978). Castellan, N. J. Jr.: On the estimation of the tetrachoric correlation coefficient. Psychometrika 31, 67±73 (1966). Cattell, R. B.: rp and other coefficients of pattern similarity. Psychometrika 14, 279±298 (1949). Cattell, R. B.: Factor analysis. New York: Harper 1952. Cattell, R. B.: The scree test for the number of factors. Multivariate behav. Res. 1, 245±276 (1966a). Cattell, R. B.: The data box: its ordering of total resources in terms of possible relational systems. In: Cattell, R. B. (ed.): Handbook of multivariate experimental psychology. Chicago: Rand McNally 1966b. Cattell, R. B., Muerle, J. L.: The ªmaxplaneº program for factor rotation to oblique simple structure. Educ. psychol. measmt. 20, 569±590 (1960). Cattell, R. B., Vogelmann, S.: A comprehensive trial of the scree and KG-criteria for determining the number of factors. Multivariate Behavioral Research 12, 289±325 (1977). Chalmers, A. F.: Wege der Wissenschaft. Berlin: Springer 1986. Chan, W., Ho, R. M., Leung, K., Chan, D. K. S., Yung, Y. F.: An Alternative Method for Evaluating Congruence Coefficients with Procrustes Rotation: A Bootstrap Procedure. Psychol. Methods 4, 378±402 (1999). Charter, R. A., Larsen, B. S.: Fisher's Z to r. Educ. psychol. measmt. 43, 41±42 (1983). Cheng, R., Milligan, G. W.: Hierarchical clustering algorithms with influence detection. Educ. psychol. measmt. 55, 237±244 (1995).
839
Cheng, R., Milligan, G. W.: K-means clustering methods with influence detection. Educ. psychol. measmt. 56, 833±838 (1996). Chernoff, H., Moses, L. E.: Elementary decision theory. New York: Wiley 1959. Chow, S. L.: Significance test or effect size? Psychol. Bull. 103, 105±110 (1988). Clauss, G., Ebner, H.: Grundlagen der Statistik. Frankfurt/ Main: Deutsch 1971. Cliff, N.: Orthogonal rotation to congruence. Psychometrika 31, 33±42 (1966). Cliff, N.: The eigenvalues-greater-than-one rule and the reliability of components. Psych. Bull. 103, 276±279 (1988). Cliff, N., Hamburger, C. D.: A study of sampling errors in factor analysis by means of artificial experiments. Psychol. Bull. 68, 430±445 (1967). Cliff, N., Krus, D. J.: Interpretation of canonical analysis: Rotated vs. unrotated solutions. Psychometrika 41, 35±42 (1976). Cliff, N., McCormick, D. J., Zatkin, J. L., Cudeck, R. A., Collins, L. M.: Binclus: Nonhierarchical clustering of binary data. Mult. beh. res. 21, 201±227 (1986). Clifford, H. T., Stephenson, W.: An introduction to numerical classification. New York: Academic Press 1975. Clyde, D. J., Cramer, E. M., Sherin, R. J.: Multivariate statistical programs. Coral Gables, Florida: Biometric laboratory of the University of Miami 1966. Cochran, W. G.: Stichprobenverfahren. Berlin: de Gruyter 1972. Cochran, W. G., Cox, G. M.: Experimental designs. New York: Wiley 1966. Cohen, J.: A coefficient of agreement for nominal scales. Educ. psychol. measmt. 20, 37±46 (1960). Cohen, J.: Multiple regression as a general data-analytic system. Psychol. Bull. 70, 426±443 (1968a). Cohen, J.: Weighted kappa: Nominal scale agreement with provision for scale disagreement or partial credit. Psych. Bull. 70, 213±220 (1968b). Cohen, J.: Eta-squared and partial eta-squared in fixed factor ANOVA designs. Educ. psychol. measmt. 33, 107±112 (1973). Cohen, J.: Trend analysis the easy way. Educ. psychol. measmt. 40, 565±568 (1980). Cohen, J.: Set correlation as a general multivariate dataanalytic method. Multivariate behavioral research 17, 301±341 (1982). Cohen, J.: Statistical power analysis for the behavioral sciences. Hillsdale, New York: Erlbaum 1988. Cohen, J.: A power primer. Psychological Bulletin 112, 155±159 (1992). Cohen, J.: The earth is round (p<0.05). American Psychologist 49, 997±1003 (1994). Cohen, J., Cohen, P.: Applied multiple regression/correlation analysis for the behavioral sciences. New York: Wiley 1975. Cohen, J., Nee, J. C. M.: Estimators for two measures of association for set correlation. Educ. psychol. measmt. 44, 907±917 (1984). Cohen, M., Nagel, E.: An introduction to logic and scientific method. London: Harcourt Brace Jovanovich, Inc. 1963.
840
Literaturverzeichnis
Cole, A. J.: Numerical taxonomy. London: Academic Press 1969. Cole, D. A., Maxwell, S. E., Arvey, R., Solas, E.: How the power of MANOVA can both increase and decrease as a function of the intercorrelations among dependent variables. Psychological Bulletin 115, 465±474 (1994). Collier, R. O., Jr., Baker, F. B., Mandeville, G. K., Hayes, T. F.: Estimates of test size for several test procedures based on conventional variance ratios in the repeated measurement design. Psychometrika 32, 339±353 (1967). Collins, L. A., Dent, C. W.: Omega: A general formulation of the Rand-Index of cluster recovery suitable for nondisjoint solutions. Mult. beh. res. 23, 231±242 (1988). Collins, L. A., Cliff, N., McCormick, D. J., Zatkin, J. L.: Factory recovery in binary data sets: A simulation. Mult. beh. res. 21, 377±391 (1986). Comrey, A. L.: A first course in factor analysis. New York: Academic Press 1973. Conger, A. J.: A revised definition for suppressor variables: A guide to their identification and interpretation. Educ. psych. measmt. 34, 35±46 (1974). Conger, A. J., Jackson, D. N.: Suppressor variables, prediction, and the interpretation of psychological relationships. Educ. psychol. measmt. 32, 579±599 (1972). Cook, T. D., Grader, C. L., Hennigan, K. M., Flay, B. R.: The history of the sleeper effect: Some logical pitfalls in accepting the Null-hypothesis. Psychol. Bull. 86, 662±679 (1979). Cooley, W. W., Lohnes, P. R.: Multivariate data analysis. New York: Wiley 1971. Coombs, C. H., Dawes, R. M., Tversky, A.: Mathematische Psychologie. Weinheim: Beltz 1975. Coombs, W. T., Algina, J.: New test statistics for MANOVA/ descriptive discriminant analysis. Educ. psychol. measmt. 56, 382±402 (1996). Cooper, H., Hedges, L. V.: The Handbook of Research Synthesis. New York: Russel Sage Foundation 1994. Coovert, M. D., McNelis, K.: Determining the number of common factors in factor analysis: A review and program. Educ. psychol. measmt. 48, 687±692 (1988). Corballis, M. C., Traub, R. E.: Longitudinal factor analysis. Psychometrika 35, 79±98 (1970). Cornfield, J., Tukey, J. W.: Average values of mean squares in factorials. Ann. math. statist. 27, 907±949 (1956). Cornwell, J. M.: Monte Carlo comparisons of three tests for homogeneity of independent correlations. Educ. psychol. measmt. 53, 605±618 (1993). Cortina, J. M., Dunlap, W. P.: On the logic and purpose of significance testing. Psychological Methods 2, 161±172 (1997). Cota, A. A. et al.: Interpolating 95th percentile eigenvalues from random data: An empirical example. Educ. psychol. measmt. 53, 585±596 (1993). Cotton, J. W.: Interpreting data from two-period crossover design. (Also termed the replicated 2´2 latin square design.) Psych. Bull. 106, 503±515 (1989). Cowles, M.: Statistics in psychology: A historical perspective. Hillsdale: Erlbaum 1989. Cowles, M., Davis, C.: On the origins of the 0.05 level of significance. American Psychologist 37, 553±558 (1982).
Crane, J. A.: Relative likelihood analysis vs. significance tests. Evaluation Review 4, 824±842 (1980). Crawford, C.: A general method of rotation for factor analysis. Paper read at spring meeting of the Psychometric society. Madison, Wisc., April 1, 1967. Crawford, C., Ferguson, G. A.: A general rotation criterion and its use in orthogonal rotation. Psychometrika 35, 321±332 (1970). Cronbach, L. J.: Coefficient alpha and the internal structure of tests. Psychometrika 16, 297±334 (1951). Cronbach, L. J.: A research worker's treasure chest. Mult. beh. res. 19, 223±240 (1984). Cronbach, L. J., Gleser, G. C.: Assessing similarity between profiles. Psychol. Bull. 50, 456±473 (1953). Cronbach, L. J., Rajaratnam, N., Gleser, G. C.: Theory of generalizability: a liberalization of reliability theory. Brit. J. of stat. psychol. 16, 137±163 (1963). Cross, E. M., Chaffin, W. W.: Use of the binomial theorem in interpreting results of multiple tests of significance. Educ. psychol. measmt. 42, 25±34 (1982). Cudeck, R., O'Dell, L.: Applications of standard error estimates in unrestricted factor analysis: Significance tests for factor loadings and correlations. Psychological Bulletin 115, 475±487 (1994). Cureton, E. E.: Rank-biserial correlation. Psychometrika 21, 287±290 (1956). Cureton, E. E.: Note on Phi/Phimax . Psychometrika 14, 89±91 (1959). Cureton, E. E.: Unbiased estimation of the standard deviation. American Statistician 22, 22 ff. (1968a). Cureton, E. E.: Priority correction to ªUnbiased estimation of the standard deviationº. American Statistician 22, 27 ff. (1968b). Cureton, E. E.: Rank-biserial correlation when ties are present. Educ. psychol. measmt. 28, 77±79 (1968c). Cureton, E. E.: Communality estimation in factor analysis of small matrices. Educ. psychol. measmt. 31, 371±380 (1971). Czienskowski, U.: Wissenschaftliche Experimente: Planung, Auswertung, Interpretation. Weinheim: Beltz 1996. D'Agostino, R. B.: Relation between chi-squared and ANOVA-tests for testing the equality of k independent dichotomous populations. American Statistician, 30±32 (1972). D'Agostino, R. B.: Tests for departures of normality. In: Kotz, S., Johnson, N. L. (eds.): Encyclopedia of statistical sciences. New York: Wiley 1982. Dar, R.: Another look at Meehl, Lakatos, and the scientific practices of psychologists. American Psychologist 42, 145±151 (1987). Darlington, R. B.: Multiple regression in psychological research and practice. Psychol. Bull. 69, 161±182 (1968). Darlington, R. B.: Regression and linear models. New York: McGraw-Hill 1990. Das Gupta, S.: Theories and methods in classification: A review. In: Cacoullos, T. (ed.): Discriminant analysis and applications. New York: Academic Press 1973. Davenport, E. C. Jr.: Significance testing of congruence coefficients: A good idea? Educ. psychol. measmt. 50, 289±296 (1990).
aLiteraturverzeichnis Davis, C. S.: Statistical Methods for the Analysis of Repeated Measurements. New York: Springer 2002. Davison, M. L., Sharma, A. R.: Parametric statistics and levels of measurement. Psychol. Bull. 104, 137±144 (1988). Dawson-Saunders, B. K.: Correcting for bias in the canonical redundancy statistic. Educ. psychol. measmt. 42, 131±143 (1982). Dayton, C. M.: The design of educational experiments. New York: McGraw-Hill 1970. De Carlo, L. T.: On the meaning and use of Kurtosis. Psychological Methods 2, 292±307 (1997). De Groot, M. H.: Optimal statistical decisions. New York: McGraw-Hill 1970. de Leeuw, J., van Rijckevorstel, J. L. A.: HOMALS and PRINCALS, some generalizations of principle components analysis. In: Diday, E. et al. (eds.): Data analysis and informatics II (pp. 231±242). Amsterdam: Elsevier Science Publishers 1980. Delucchi, K, Bostrom, A.: Small Sample Longitudinal Clinical Trials with Missing Data: A Comparison of Analytical Methods. Psychol. Methods 4, 158±172 (1999). Diaconis, P., Efron, B.: Computer-intensive methods in statistics. Scientific American 248, 116±130 (1983). Dickman, K. W.: Factorial validity of a rating instrument. Unpublished Ph. D. Thesis, Univ. of Illinois 1960. Diehl, J. M., Staufenbiel, T.: Statistik mit SPSS. Version 10 + 11. Eschborn: Klotz 2002. Diepgen, R.: Inkonsequentes zur Signifikanztestproblematik. Ein Kommentar zu Hager (1992). Psychologische Rundschau 44, 113±115 (1993). DIN (Deutsche Industrie Norm) Nr. 55301. Berlin: Beuth Vertrieb GmbH 1957. DIN (Deutsche Industrie Norm) Nr. 55302. Berlin: Beuth Vertrieb GmbH 1970 (Blatt 1), 1967 (Blatt 2). Dingler, H.: Grundlagen der Physik. Synthetische Prinzipien der mathematischen Naturphilosophie. Berlin: de Gruyter 1923. Ditton, H.: Mehrebenenanalyse. Grundlagen und Anwendungen des hierarchisch linearen Modells. Weinheim: Juventa 1998. Divgi, D. R.: Calculation of the tetrachoric correlation coefficient. Psychometrika 44, 169±172 (1979). Donoghue, J. R.: Univariate screening measures for cluster analysis. Multivariate Behavioral Research 30, 385±427 (1995 a). Donoghue, J. R.: The effects of within-group covariance structure on recovery in cluster analysis. I. The bivariate case. Multivariate Behaviour Research 30, 227±254 (1995 b). Doppelt, J. E., Wallace, W. L.: Standardization of the Wechsler Adult Intelligence Scale for older persons. J. of abnorm. soc. psychol. 51, 312±330 (1955). Downie, N. M., Heath, R. W.: Basic statistical methods. New York: Harper 1970. Draper, N. R., Smith, H.: Applied regression analysis, 3rd ed. New York: Wiley (1998).. Dreger, R. M., Fuller, J., Lemoine, R. L.: Clustering seven data sets by means of some or all of seven clustering methods. Mult. beh. res. 23, 203±230 (1988).
841
Dretzke, B. J., Levin, J. R., Serlin, R. C.: Testing for regression homogeneity under variance heterogeneity. Psychol. Bull. 91, 376±383 (1982). Driver, H. E., Kroeber, A. L.: Quantitative expression of cultural relationships. Univ. of California Publications in Archeology and Ethnology 31, 211±256 (1932). Du Mas, F. M.: A quick method of analyzing the similarity of profiles. J. clin. psychol. 2, 80±83 (1946). Duan, B., Dunlap, W. P.: The accuracy of different methods for estimating the standard error of correlations corrected for range restriction. Educ. psychol. measmt. 57, 245±265 (1997). Duda, R. O., Hart, P. E.: Pattern classification and scene analysis. New York: Wiley 1973. Duncan, O. D.: Introduction to structural equations models. New York: Academic Press 1975. Dunn, O. J., Clark, V. A.: Correlation coefficients measured on the same individuals. J. of the American Statistical Association 64, 366±377 (1969). Duran, B. S., Odell, P. L.: Cluster analysis: A survey. Berlin: Springer 1974. Dutoit, E. F., Penfield, D. A.: Tables for determining the minimum incremental significance of the multiple correlation coefficient. Educ. psychol. measmt. 39, 767±778 (1979). Dwyer, P. S.: A matrix presentation of least-squares and correlation theory with matrix justification of improved methods of solution. The Annals of mathem. statist. 15, 82±89 (1944). Dyckman, T. R., Schmidt, S., McAdams, A. K.: Management decision making under uncertainty. An introduction to probability and statistical decision theory. London: Collier-MacMillan 1969. Eber, H. W.: Toward oblique simple structure: A new version of Cattell's Maxplane rotation program for the 7094. Mult. behav. res. 1, 112±125 (1966). Eber, H. W.: SETCORAN: Multivariate set correlation. Mult. beh. res. 23, 277±278 (1988). Eberhard, K.: Die Manifestationsdifferenz ± ein Maû fçr den Vorhersagewert einer alternativen Variablen in einer Vierfelder-Tafel. Zschr. f. exp. angew. Psychol. 15, 1968. Eberhard, K.: Die Kausalitåtsproblematik in der Wissenschaftstheorie und in der sozialen Praxis. Archiv fçr Wiss. u. Praxis der Soz.-Arbeit, Heft 2, 1973. Eberhard, K.: Die Intelligenz verwahrloster, månnlicher Jugendlicher und ihre kriminalprognostische Bedeutung. Diss. TU-Berlin, 1974. Eckes, T.: Bimodale Clusteranalyse, Methoden zur Klassifikation von Elementen zweier Mengen. Zeitschr. f. angew. Psych. 38, 201±225 (1991). Eckes, T., Roûbach, H.: Clusteranalysen. Stuttgart: Kohlhammer 1980. Eckstein, P. P.: Angewandte Statistik mit SPSS, 3. Aufl. Praktische Einfçhrung fçr Wirtschaftswissenschaftler. Wiesbaden: Gabler 2002. Edwards, W., Lindman, H., Savage, L.J.: Bayesian statistical inference for psychological research. Psychol. Review 70, 193±242 (1963). Efron, B.: Bootstrap methods: Another look at the jackknife. The Annals of Statistics 7, 1±26 (1979).
842
Literaturverzeichnis
Efron, B.: The jackknife, the bootstrap, and other resampling plans. Society of Industrial and Applied Mathematics LBMS-NFS monographs 38 (1982). Efron, B.: Better bootstrap confidence intervals. J. of the American Statistical Association 82, 171±200 (1987). Efron, B., Tibshirani, R. J.: Bootstrap methods for standard errors, confidence intervals and other measures of statistical accuracy. Statistical science 1, 54±77 (1986). Efron, B., Tibshirani, R. J.: An introduction to the Bootstrap. New York: Chapman and Hill 1993. Efroymson, M. A.: Mehrfache Regressionsanalyse. In: Rahlston, A., Wilf, H. S. (eds.): Mathematische Methoden fçr Digitalrechner, Kap. 17. Mçnchen: Oldenbourg 1967. Ekbohm, G.: On testing the equality of proportions in the paired case with incomplete data. Psychometrika 49, 147±152 (1982). Elliot, S. D.: The method of unweighted means in univariate and multivariate analysis of variance. Educ. psychol. measmt. 49, 399±405 (1989). Elshout, J. J., Roe, R. A.: Restriction of the range in the population. Educ. psychol. measmt. 33, 53±62 (1973). Erdfelder, E., Bredenkamp, J.: Hypothesenprçfung. In: Herrmann, T., Tack, W. H. (Hrsg.): Methodologische Grundlagen der Psychologie ( = Enzyklopådie der Psychologie, Themenbereich B, Serie 1, Band 1, S. 604±648). Gættingen: Hogrefe 1994. Erdfelder, E., Faul, F., Buchner, A.: GPOWER: A general power analysis program. Behavior Research Methods, Instruments and Computers 28, 1±11 (1996). Evans, S. H., Anastasio, E. J.: Misuse of analysis of covariance when treatment effect and covariate are confounded. Psychol. Bull. 69, 225±234 (1968). Everitt, B. S.: Cluster analysis. London: Halstead Press 1974. Eye, A. v.: The general linear model as a framework for models in configural frequency analysis. Biometrical Journal 30, 59±67 (1988). Eye, A. v.: Introduction to configural frequency analysis. Cambridge: Cambridge University Press 1990. Eye, A. v. (Hrsg.): Prådiktionsanalyse. Vorhersagen mit kategorialen Variablen. Weinheim: Beltz 1991. Eyferth, K., Baltes, P. B.: Ûber Normierungseffekte in einer Faktorenanalyse von Fragebogendaten. Zschr. f. exp. u. angew. Psychol. 16, 38±51 (1969). Eyferth, K., Sixtl, F.: Bemerkungen zu einem Verfahren zur maximalen Annåherung zweier Faktorenstrukturen aneinander. Archiv f. d. ges. Psychol. 117, 131±138 (1965). Fabrigar, L. R., Wegener, D. T., MacCallum, R. C., Strahan, E. J.: Evaluating the Use of Exploratory Factor Analysis in Psychological Research. Psychol. Methods 4, 272±299 (1999). Fahrmeir, L., Kçnstler, R., Pigeot, J., Tutz, G.: Statistik. Der Weg zur Datenanalyse, 3. Aufl. Heidelberg: Springer 2001. Fan, X.: An SAS program for assessing multivariate normality. Educ. psychol. measmt. 56, 668±674 (1996). Fava, J. L., Velicer, F.: An empirical comparison of factor, image, component and scale scores. Multivariate behaviour research 27, 301±322 (1992). Fechner, G. T.: Ûber den Ausgangswert der kleinsten Abweichungssumme. Abhandlung d. Såchs. Ges. d. Wiss. 18 (1874).
Feingold, M.: The equivalence of Cohen's kappa and the Pearson's chi-square statistics in the 2´2 table. Educ. psychol. measmt. 52, 57±61 (1992). Feir-Walsh, B. J., Toothaker, L. E.: An empirical comparison of the anova F-test, nominal scores test and KruskalWallis test under violation of assumptions. Educ. psychol. measmt. 34, 789±799 (1974). Finn, J. D.: A general model for multivariate analysis. New York: Holt, Rinehart and Winston 1974. Finnstuen, K., Nichols, S., Hoffmann, P.: Correction to a correction factor and identification of hypothesis for one-way ANOVA from summary statistics. Educational and Psychological Measurement 54, 606±607 (1994). Fischer, G.: Zum Problem der Interpretation faktorenanalytischer Ergebnisse. Psychol. Beitråge 10, 122±135 (1967). Fischer, G., Roppert, J.: Bemerkungen zu einem Verfahren der Transformationsanalyse. Archiv f. d. Ges. Psychol. 116, 98±100 (1964). Fisher, R. A.: The correlation between relatives on the supposition of Mendelian inheritance. Trans. Roy. Soc. Edinburgh 52, 399±433 (1918). Fisher, R. A.: Theory of statistical estimation. Proc. Cambr. Phil. Soc. 21, 700±725 (1925 a). Fisher, R. A.: The use of multiple measurements in taxonomic problems. Annals of Eugenics 7, 179±188 (1936). Fisher, R. A.: Statistical methods of research workers, 1. Aufl. (1925 b); 17. Aufl. (1972). London: Oliver and Boyd 1925±1972. Fisher, R. A., Yates, F.: Statistical tables for biological, agricultural and medical research. Edinburgh: Oliver and Boyd 1957, 1963. Fisz, M.: Wahrscheinlichkeitsrechnung und mathematische Statistik, 11. Aufl. Berlin: Deutscher Verlag der Wissenschaften 1989. Fleiss, J. L.: Statistical methods for rates and proportions. New York: Wiley 1973. Fleiss, J. L., Cohen, J., Everitt, B. S.: Large sample standard errors of kappa and weighted kappa. Psychol. Bull. 72, 323±327 (1969). Fleming, J. S.: The use and misuse of factor scores in multiple regression analysis. Educ. psychol. measmt. 41, 1017±1025 (1981). Foerster, F., Stemmler, G.: When can we trust the F-approximation of the Box-Test. Psychometrika 55, 727±728 (1990). Folger, R.: Significance tests and the duplicity of binary decisions. Psychol. Bull. 106, 155±160 (1989). Fornell, C.: External single-set components analysis of multiple criterion/multiple predictor variables. Multivariate behavioral research 14, 323±338 (1979). Fornell, C., Barclay, D. W., Rhee, B. D.: A model and simple iterative algorithm for redundancy analysis. Mult. beh. res. 23, 349±360 (1988). Forsyth, R. A.: An empirical note on correlation coefficients corrected for restriction in range. Educ. psychol. measmt. 31, 115±123 (1971). Fouladi, R. T., Steiger, J. H.: Test of multivariate independance: A critical analysis of ,ªA Monte Carlo Study of testing the significance of correlation matricesº by Silver and Dunlap. Educ. psychol. measmt. 53, 927±932 (1993).
aLiteraturverzeichnis Frane, J. W.: Some simple procedures for handling missing data in multivariate analysis. Psychometrika 41, 409±415 (1976). Franke, J., Bortz, J., Braune, P., Klockhaus, R.: Enkulturationswirkung des regelmåûigen Lesens von Tageszeitungen. In: Ronneberger, F. (Hrsg.): Sozialisation durch Massenkommunikation, pp. 242±275. Stuttgart: Enke 1971. Franklin, S. B., Gibson, D. J., Robertson, P. A., Pohlmann, J. T., Fralish, J. S.: Parallel Analysis: A Method for Determining Significant Principal Components. J. Vegetat. Science 6, 99±106 (1995). Fricke, R., Treinies, G.: Einfçhrung in die Metaanalyse. Bern: Huber 1985. Friedman, H.: Simplified determinations of statistical power: Magnitude of affect and research sample sizes. Educ. psychol. measmt. 42, 521±526 (1982). Friedman, S., Weisberg, H. F.: Interpreting the first Eigenvalue of a correlation matrix. Educ. psychol. measmt. 41, 11±21 (1981). Frigon, J. Y., Laurencelle, L.: Analysis of covariance: A proposed algorithm. Educ. psychol. measmt. 53, 1±18 (1993). Fruchter, B.: Introduction to factor analysis. New York: Van Nostrand-Reinhold 1954. Fçrntratt, E.: Zur Bestimmung der Anzahl interpretierbarer gemeinsamer Faktoren in Faktorenanalysen psychologischer Daten. Diagnostika 15, 62±75 (1969). Fung, W. K., Kwan, C. W.: Sensitivity analysis in factor analysis: Difference between using covariance and correlation matrices. Psychometrika 60, 607±614 (1995). Furr, R. M., Rosenthal, R.: Repeated-Measures Contrasts for ªMultiple-Patternº Hypotheses. Psychol. Methods 8, 275±293 (2003). Gabriel, K. R.: A procedure for testing the homogeneity of all sets of means in analysis of variance. Biometrics 20, 459±477 (1964). Gabriel, K. R.: Simultaneous test procedures ± some theory of multiple comparisons. Annals of mathem. statistics 40, 224±250 (1960). Gaensslen, H., Schubæ, W.: Einfache und komplexe statistische Analyse. UTB, Mçnchen: Reinhardt 1973. Gaito, J.: Repeated measurements designs and tests of NullHypothesis. Educ. psychol. measmt. 33, 69±75 (1973). Gaito, J.: Equal and unequal n and equal and unequal intervals in trend analysis. Educ. psychol. measmt. 37, 283±289 (1977). Galton, F.: Family Likeness in Stature. Proc. Roy. Soc. 15, 49±53 (1886). Games, P. A., Keselman, H. J., Clinch, J. J.: Tests for homogeneity of variance in factorial designs. Psychol. Bull. 86, 978±984 (1979). Games, P. A., Keselman, H. J., Rogan, J. C.: Simultaneous pairwise multiple comparison procedures for means when sample sizes are unequal. Psychol. Bull. 90, 594±598 (1981). Gatsonis, C., Sampson, A. R.: Multiple correlation: Exact power and sample size calculations. Psychol. Bull. 106, 516±524 (1989). Gebhardt, F.: Ûber die Øhnlichkeit von Faktorenmatrizen. Psychol. Beitråge 10, 591±599 (1967).
843
Gebhardt, F.: Some numerical comparisons of several approximations to the binomial distribution. J. Amer. Statist. Assoc. 64, 1638±1646 (1969). Geider, F. J., Rogge, K. E., Schaaf, H. P.: Einstieg in die Faktorenanalyse. Heidelberg: Quelle u. Meyer 1982. Geisser, S.: The predictive sample reuse method with applications. J. of the American Statistical Association 70, 320±328 (1975). Geisser, S., Greenhouse, S. W.: An extension of Box's results on the use of the F-distribution in multivariate analysis. Annals of math. statistics 29, 885±891 (1958). Gekeler, G.: Aggression und Aggressionsbewertung. Diss. TU Berlin 1974. Gelman, A., Carlin, J. B., Stern, H. S., Rubin, D. B.: Bayesian data analysis. London: Chapman and Hall 1995. Gibbons, J. A.: Shrinkage formulas for two nominal level measures of association. Educ. psychol. measmt. 45, 551±566 (1985). Gibbons, J. A., Sherwood, R. D.: Repeated measures/randomized blocks ANOVA through the use of criterion-scaled regression. Educ. psychol. measmt. 45, 711±724 (1985). Gigerenzer, G.: Messung und Modellbildung in der Psychologie. Mçnchen: Reinhardt 1981. Gigerenzer, G.: The superego, the ego and the id in statistical reasoning. In: Keren G, Lewis C (eds.): A handbook for data analysis in the behavioural sciences: Methodological issues (pp. 311±319). Hillsdale, NY: Erlbaum 1993. Gigerenzer, G., Murray, D. J.: Cognition as intuitive statistics. Hillsdale: Erlbaum 1987. Gilbert, N.: Analyzing tabular data. Loglinear and logistic models for social researchers. London: University College London Press 1993. Girshick, M. A.: On the sampling theory of roots of determinantal equations. Annals of math. statistics 10, 203±224 (1939). Glaser, B. G., Strauss, A. L.: The discovery of grounded theory. Strategies for qualitative research. Chicago 1967. Glasnapp, D. R.: Change scores and regression suppressor conditions. Educ. psychol. measmt. 44, 851±867 (1984). Glass, G. V.: Note on rank-biserial correlation. Educ. psychol. measmt. 26, 623±631 (1966). Glass, G. V., Collins, J. R.: Geometric proof of the restriction on the possible values of rxy when rxz and ryz are fixed. Educ. psychol. measmt. 30, 37±39 (1970). Glass, G. V., Stanley, J. C.: Statistical methods in education and psychology. Englewood Cliffs, New Jersey: PrenticeHall 1970. Glass, G. V., Peckham, P. D., Sanders, J. R.: Consequences of failure to meet assumptions underlying the fixed effects analysis of variance and covariance. Review of educational research 42, 237±288 (1972). Gleiss, I., Seidel, R., Abholz, H.: Soziale Psychiatrie. Frankfurt/Main: Fischer 1973. Glorfeld, L. W.: An improvement on Horn's parallel methodology for selecting the correct number of factors to retain. Educ. psychol. measmt. 95, 377±393 (1995). Gnanadesikan, R.: Methods for statistical data analysis of multivariate observations. New York: Wiley 1977. Gocka, E. F.: Stepwise regression for mixed mode predictor variables. Educ. psychol. measmt. 33, 319±325 (1973).
844
Literaturverzeichnis
Gondek, P. C.: What you see may not be what you think you get: Discriminant analysis in statistical packages. Educ. psychol. measmt. 41, 267±281 (1981). Goodall, D. W.: A new similarity index based on probability. Biometrics 22, 882±907 (1966). Gordon, A. D.: Classification. London: Chapman and Hall 1981. Gordon, A. D.: A review of hierarchical classification. J. of the Royal Statistical Society, series A, 150, 119±137 (1987). Gordon, L. V.: One-way analysis of variance using means and standard deviations. Educ. psychol. measmt. 33, 815±816 (1973). Gorman, B. S., Primavera, L. H.: MCA: A simple program for Multiple Correspondence Analysis. Educ. psychol. measmt. 53, 685±688 (1993). Gorman, B. S., Primavera, L. H., Allison, D. B.: POWPAL: A program for estimating effect sizes, statistical power, and sample sizes. Educ. psychol. measmt. 55, 773±776 (1995). Gorsuch, R. L.: A comparison of biquartim, maxplane, promax and varimax. Educ. psychol. measmt. 30, 861±872 (1970). Gorsuch, R. L.: Using Bartlett's significance test to determine the number of factors to extract. Educ. psychol. measmt. 33, 361±364 (1973). Gottmann, J. M.: The Analysis of Change. Mahwah, New Jersey: Lawrence Erlbaum 1995. Goulden, C. H.: Methods of statistical analysis, 1. Aufl. 1939, 2. Aufl. 1952. New York: Wiley 1952. Grandage, A.: Orthogonal coefficients for unequal intervals. Biometrics 14, 287±289 (1958). Graybill, F. A.: An introduction to linear statistical models, Vol. I. New York: McGraw-Hill 1961. Green, B. F.: The orthogonal approximation of an oblique structure in factor analysis. Psychometrika 17, 429±440 (1952). Green, B. F.: The two kinds of linear discriminant functions and their relationship. J. of Educ. Statist. 4, 247±263 (1979). Green, P. E., Carroll, J. D.: Mathematical tools for applied multivariate analysis. New York: Academic Press 1976. Greer, T., Dunlap, W. P.: Analysis of variance with ipsative measures. Psychological Methods 2, 200±207 (1997). Greenwald, A. G.: Consequences of prejudice against the Nullhypothesis. Psychol. Bull. 82, 1±20 (1975). Grissom, R. J., Kim, J. J.: Review of Assumptions and Problems in the Appropriate Conceptualization of Effect Size. Psychol. Methods 6, 135±146 (2001). Groeben, N., Westmeyer, H.: Kriterien psychologischer Forschung. Mçnchen: Juventa 1975. Gross, A. L., Kagen, E.: Not correcting for restriction of range can be advantageous. Educ. psychol. measmt. 43, 389±396 (1983). Guadagnoli, E., Velicer, W. F.: Relation of sample size to the stability of component patterns. Psych. Bull. 103, 265±275 (1988). Guertin, W. H., Bailey, J. P., Jr.: Introduction to modern factor analysis. Ann Arbor, Michigan: Edwards Brothers Inc. 1970.
Guilford, J. P.: Fundamental statistics in psychology and education. New York: McGraw-Hill 1956. Guilford, J. P.: When not to factor analyse. In: Jackson, D. N., Messick, S. (eds.): Problems in human assessment. New York: McGraw-Hill 1967. Guilford, J. P., Fruchter, B.: Fundamental statistics in psychology and education. New York: McGraw-Hill 1978. Gullickson, A., Hopkins, K.: Interval estimation of correlation coefficients corrected for restriction of range. Educ. psychol. measmt. 36, 9±26 (1976). Guthri, D.: Analysis of dichotomous variables in repeated measures. Psychol. Bull. 90, 189±195 (1981). Guttman, L.: Image theory for the structure of quantitative variates. Psychometrika 18, 277±296 (1953). Guttman, L.: Some necessary conditions for common factor analysis. Psychometrika 19, 149±161 (1954). Haase, R. F.: Classical and partial eta square in multifactor anova designs. Educ. psychol. measmt. 43, 35±39 (1983). Haber, M.: Comments on ªThe test of homogeneity for 2´2 contingency tables: A review of some personal opinions on the controversyº by G. Camilli. Psych. Bull. 108, 146±149 (1990). Hagenaars, J. A.: Categorical longitudinal data. Log-linear panel, trend, an cohort analysis. Newburg Park: Sage 1990. Hager, W.: Grundlagen einer Versuchsplanung zur Prçfung empirischer Hypothesen in der Psychologie. In: Lçer, G. (Hrsg.): Allgemeine experimentelle Psychologie, S. 43±253. Gættingen: UTB, 1987. Hager, W.: Eine Strategie zur Entscheidung çber psychologische Hypothesen. Psychol. Rundschau 43, 18±92 (1992 a). Hager, W.: Jenseits von Experiment und Quasiexperiment. Zur Struktur psychologischer Versuche und zur Ableitung von Vorhersagen. Gættingen: Hogrefe 1992 b. Hager, W., Westermann, R.: Entscheidung çber statistische und wissenschaftliche Hypothesen: Probleme bei mehrfachen Signifikanztests zur Prçfung einer wissenschaftlichen Hypothese. Zsch. f. Sozialpsychologie 14, 106±117 (1983 a). Hager, W., Westermann, R.: Zur Wahl und Prçfung statistischer Hypothesen in psychologischen Untersuchungen. Zsch. f. exp. u. angew. Psychologie 30, 67±94 (1983 b). Hjek, J.: Nonparametric statistics. San Francisco: HoldenDay 1969. Hakstian, A. R.: Formulas for image factor scores. Educ. psychol. measmt. 33, 803±810 (1973). Hakstian, A. R., Boyd, W. M.: An empirical investigation of some special cases of the general ªorthomaxº criterion for orthogonal factor transformation. Educ. psychol. measmt. 32, 3±22 (1972). Hakstian, A. R., Roed, J. C., Lind, J. C.: Two-sample T2 procedure and the assumption of homogeneous covariance matrices. Psychol. Bull. 86, 1255±1263 (1979). Hakstian, A. R., Rogers, W. T., Cattell, R. B.: The behavior of number-of-factors rules with simulated data. Multivariate behavioral research 17, 193±219 (1982). Hall, P. G.: The bootstrap and Edgeworth expansion. Heidelberg: Springer 1992. Hamilton, B. L.: An empirical investigation of the effects of heterogeneous regression slopes in analysis of covariance. Educ. psychol. measmt. 37, 701±712 (1977).
aLiteraturverzeichnis Hammersley, J. M., Handscomb, D. C.: Monte Carlo methods. London: Methuen 1965. Hammond, S. M., Lienert, G. A.: Modified Phi correlation coefficients for the multivariate analysis of ordinally scaled variables. Educ. psychol. measmt. 55, 225±236 (1995). Handl, A.: Multivariate Analysemethoden. Heidelberg: Springer (2002). Hands, S., Everitt, B.: A Monte Carlo study of the recovery of cluster structure in binary data by hierarchical clustering techniques. Mult. beh. res. 22, 235±243 (1987). Hanges, P. J., Rentsch, J. R., Yusko, K. P., Alexander, R. A.: Determining the appropriate correlation when the type of range restriction is unknown: Developing a sample base procedure. Educ. psychol. measmt. 51, 329±340 (1991). Harman, H. H.: Modern factor analysis. Chicago: The University of Chicago Press 1968. Harnatt, J.: Der statistische Signifikanztest in kritischer Betrachtung. Psychologische Beitråge 17, 595±612 (1975). Harris, C. W.: Canonical factor models for the description of change. In: Harris, C. W. (ed.): Problems in measuring change. Madison, Milwaukee: The University of Wisconsin Press 1967. Harris, C. W.: Note on the squared multiple correlation as a lower bound to communality. Psychometrika 43, 283± 284 (1978). Harris, M. L., Harris, C. W.: A factor analytic interpretation strategy. Educ. psychol. measmt. 31, 589±606 (1971). Harris, R. J.: A primer of multivariate statistics. New York: Academic Press 1985. Harris, R. J.: A canonical cautionary. Mult. beh. res. 24, 17±39 (1989). Hartigan, J.: Clustering algorithms. New York: Wiley 1975. Hartley, H. O.: The modified Gauss-Newton method for fitting of non-linear regression functions by least squares. Technometrics 3, 269±280 (1961). Hattie, J.: An empirical study of various indices for determining unidimensionality. Mult. beh. res. 19, 49±78 (1984). Havlicek, L. L., Peterson, N. L.: Robustness of the t-Test: A guide for researchers on effect of violations of assumptions. Psychol. Reports 34, 1095±1114 (1974). Havlicek, L. L., Peterson, N. L.: Effect of the violation of assumptions upon significance levels of the Pearson r. Psychol. Bull. 84, 373±377 (1977). Hayduck, L. A.: Structural equation modelling with LISREL: Essentials and advances. Baltimore: The John Hopkins University Press 1989. Hays, W. L.: Statistics for the social sciences, 2nd ed. New York: Holt, Rinehart and Winston, 1973, 5. Aufl. 1994. Hays, W. L., Winkler, R. L.: Statistics, vol. I and II. New York: Holt, Rinehart and Winston 1970. Heck, D. L.: Charts of some upper percentage points of the distribution of the largest characteristic root. Ann. math. statistics 31, 625±642 (1960). Hedges, L. V., Olkin, I.: Statistical methods for meta-analysis. New York: Academic Press 1985. Heerden, J. V. van, Hoogstraten, J.: Significance as a determinant of interest in scientific research. European Journal of Social Psychology 8, 141±143 (1978).
845
Hegemann, V., Johnson, D. E.: The power of two tests of nonadditivity. J. of Am. Statistical Association 71, 945± 948 (1976). Heise, D. R.: Problems in path analysis and causal inference. In: Borgatta, E. F., Bohrnstedt, G. W. (eds.): Sociological methodology, pp. 38±73. San Francisco: JosseyBass Inc. 1969. Hemmerle, W. J.: Statistical computations on a digital computer. Waltham, Mass.: Blaisdell 1967. Hendrichson, A. E., White, P. O.: Promax: A quick method for rotation to oblique simple structure. Brit. J. of Stat. Psychol. 17, 65±70 (1964). Herr, D. G., Gaebelein, J.: Nonorthogonal analysis of variance. Psychol. Bull. 85, 207±216 (1978). Herrmann, T., Tack, W. H. (Hrsg.): Methodologische Grundlagen der Psychologie. Enzyklopådie der Psychologie ± Serie B/I ± Forschungsmethoden in der Psychologie ± Band I. Gættingen: Hogrefe 1994. Heyn, W.: Stichprobenverfahren in der Marktforschung. Wçrzburg: Physica 1960. Hicks, M. M.: Applications of nonlinear principal components analysis to behavioral data. Multivariate behavioral research 16, 309±322 (1981). Hinderer, K.: Grundbegriffe der Wahrscheinlichkeitstheorie. Heidelberg: Springer 1980. Hinkle, D. E., Oliver, J. D.: How large should the sample be? A question with no simple answer? Or . . . . Educ. psychol. measmt. 43, 1051±1060 (1983). Hinkle, D. E., Oliver, J. D., Hinkle, C. A.: How large should the sample be? Part II ± The one-sample case for survey research. Educ. psychol. measmt. 45, 271±280 (1985). Hoel, P. G.: Introduction to mathematical statistics. New York: Wiley 1971. Hofer, M., Franzen, U.: Theorie der angewandten Statistik. Weinheim: Beltz 1975. Hofståtter, P. R.: Zum Begriff der Intelligenz. Psychologische Rundschau 17, 229 ff. (1966). Hofståtter, P. R., Wendt, D.: Quantitative Methoden der Psychologie (1. Aufl. 1966). Frankfurt/Main: Barth 1974. Holland, B. S., Copenhaver, M. D.: Improved Bonferronitype multiple testing procedures. Psychol. Bull. 104, 145±149 (1988). Holland, T. R., Levi, M., Watson, C. G.: Canonical correlation in the analysis of a contingency table. Psychol. Bull. 87, 334±336 (1980). Hollander, M., Sethuraman, J.: Testing for agreement between two groups of judges. Biometrika 65, 403±411 (1978). Holley, J. W., Guilford, J. P.: A note on the G-index of agreement. Educ. psychol. measmt. 24, 749±753 (1964). Holling, H.: Suppressor structures in the general linear model. Educ. psychol. measmt. 43, 1±9 (1983). Hollingsworth, H. H.: An analytical investigation of the effects of heterogeneous regression slopes in analysis of covariance. Educ. psychol. measmt. 40, 611±618 (1980). Hollingsworth, H. H.: Discriminant analysis of multivariate tables from a single population. Educ. psychol. measmt. 41, 929±936 (1981). Holm, K.: Die Befragung 3. Die Faktorenanalyse. Mçnchen: Francke 1976.
846
Literaturverzeichnis
Holm, S.: A simple sequentially rejective multiple test procedure. Scandinavian Journal of Statistics 6, 65±70 (1979). Holmes, D. J.: The robustness of the usual correction for restriction in range due to explicit selection. Psychometrika 55, 19±32 (1990). Holz-Ebeling, F.: Faktorenanalyse und was dann? Zur Frage der Validitåt von Dimensionsinterpretationen. Psychologische Rundschau 46, 18±35 (1995). Holzkamp, K.: Theorie und Experiment in der Psychologie. Berlin: de Gruyter 1964. Holzkamp, K.: Wissenschaft als Handlung. Berlin: de Gruyter 1968. Holzkamp, K.: Konventionalismus und Konstruktivismus. Zeitschr. Sozialpsychol. 2, 24±39 (1971). Hope, K.: Methods of multivariate analysis. London: Univ. of London Press Ltd. 1968. Hopkins, K. D.: An empirical analysis of the efficacy of the WISC in the diagnosis of organicity in children of normal intelligence. J. of Genetic Psychol. 105, 163±172 (1964). Hopkins, K. D.: A strategy for analyzing anova designs having one or more random factors. Educ. psychol. measmt. 43, 107±113 (1983). Hopkins, K. D., Chadbourn, R. A.: A schema for proper utilization of multiple comparisons in research and a case study. Amer. Educ. Res. J. 4, 407±412 (1967). Hopkins, K. D., Weeks, D. L.: Tests for normality and measures of skewness and kurtosis: Their place in research reporting. Educ. psychol. measmt. 50, 717±729 (1990). Horn, D.: A correction for the effect of tied ranks on the value of rank difference correlation coefficient. Educ. psychol. measmt. 33, 686±690 (1942). Horn, J. L.: A rationale and test for the number of factors in factor analysis. Psychometrika 30, 179±185 (1965). Horn, J. L., Engstom, R.: Cattell's scree test in relation to Bartlett's v2 -Test and other observations on the number of factors problem. Multivariate behavioral research 14, 283±300 (1979). Horst, P.: The prediction of personal adjustment. Soc. science research council bulletin No. 48. New York 1941. Horst, P.: Relations among m sets of measures. Psychometrika 26, 129±149 (1961 a). Horst, P.: Generalized canonical correlations and their applications to experimental data. J. of clin. psychol. (Monograph supplement) 14, 331±347 (1961 b). Horst, P.: Matrix algebra for social scientists. New York: Holt, Rinehart and Winston 1963. Horst, P.: Factor analysis of data matrices. New York: Holt, Rinehart and Winston 1965. Horst, P., Edwards, A. L.: Analysis of nonorthogonal designs: The 2k factorial experiment. Psychol. Bull. 91, 190±192 (1982). Horton, R. L.: The general linear model. New York: McGraw-Hill 1978. Hotelling, H.: The generalization of Student's ratio. Annals of mathem. statistics 2, 360±378 (1931). Hotelling, H.: Analysis of a complex of statistical variables into principal components. J. Educ. Psychol. 24, 417±441, 498±520 (1933). Hotelling, H.: The most predictable criterion. J. Educ. Psychol. 26, 139±142 (1935).
Hotelling, H.: Relations between two sets of variates. Biometrika 28, 321±377 (1936). Howe, W. G.: Some contributions to factor analysis. Report No. ORNL-1919. Oak Ridge, Tenn.: Oak Ridge National Laboratory 1955. Howell, D. C., McConaughy, S. H.: Nonorthogonal analysis of variance: Putting the question before the answer. Educ. psychol. measmt. 42, 9±24 (1982). Hsiung, T., Olejnik, S., Huberty, C.: A comment on Wilcox's improved test for comparing means when variances are unequal. J. Educ. Stat. 19, 111±118 (1994 a). Hsiung, T., Olejnik, S., Oshima, T. C.: A SAS/IML programme for applying the James Second-order test in twofactor fixed-effect ANOVA models. Educ. psychol. measmt. 54, 696±698 (1994 b). Hsu, J.: Multiple Comparisons. Theory and Methods. London: Chapman and Hall 1996. Hubert, L. J., Arabie, P.: Comparing partitions. J. of Classification 2, 193±218 (1985). Hubert, L. J., Levin, J. R.: A general statistical framework for assessing categorical clustering in free recall. Psychological Bulletin 83, 1072±1080 (1976). Huberty, C. J.: Discriminant analysis. Review of Educ. Res. 45, 543±598 (1975). Huberty, C. J.: Issues in the use and interpretation of discriminant analysis. Psychol. Bull. 95, 156±171 (1984). Huberty, C. J.: Why multivariable analysis? Educ. psychol. measmt. 54, 620±627 (1994 a). Huberty, C. J.: Applied discriminant analysis. New York: Wiley 1994 b. Huberty, C. J., Curry, A. R.: Linear vs. quadratic multivariate classification. Mult. beh. res. 13, 237±245 (1978). Huberty, C. J., Morris, J. D.: A single contrast procedure. Educ. psychol. measmt. 48, 567±578 (1988). Huberty, C. J., Morris, J. D.: Multivariate analysis versus multiple univariate analysis. Psychol. Bull. 105, 302±308 (1989). Huberty, C. J., Mourad, S. A.: Estimation in multiple correlation/prediction. Educ. psychol. measmt. 40, 101±112 (1980). Huberty, C. J., Wisenbaker, J. M., Smith, J. D., Smith, J. C.: Using categorical variables in discriminant analysis. Mult. beh. res. 21, 479±496 (1986). Huberty, C. J., Wisenbaker, J. M., Smith, J. C.: Assessing predictive accuracy in discriminant analysis. Mult. beh. res. 22, 307±329 (1987). Huck, S. W., Layne, B. H.: Checking for proportional n's in factorial anovas. Educ. psychol. measmt. 34, 281±287 (1974). Huck, W. S., Malgady, R. G.: Two-way analysis of variance using means and standard deviations. Educ. psychol. measmt. 38, 235±237 (1978). Huff, D.: How to lie with statistics. New York: Norton 1954. Huitema, B. E.: The analysis of covariance and its alternatives. New York: Wiley 1980. Humphreys, L. G., Ilgen, D. R.: Note on a criterion for the number of common factors. Educ. psychol. measmt. 29, 571±578 (1969). Humphreys, L. G., Taber, T.: A comparison of squared multiples and iterated diagonals as communality estimates. Educ. psychol. measmt. 33, 225±229 (1973).
aLiteraturverzeichnis Hussy, W., Jain, A.: Experimentelle Hypothesenprçfung in der Psychology. Gættingen: Hofgrefe (2002). Hussy, W., Mæller, H.: Hypothesen. In: Herrmann, T., Tack, W. H. (Hrsg.): Methodologische Grundlagen der Psychologie ( = Enzyklopådie der Psychologie, Themenbereich B, Serie 1, Band 1, S. 475±507). Gættingen: Hogrefe 1994. Huynh, H.: Some approximate tests for repeated measurement designs. Psychometrika 43, 161±175 (1978). Huynh, H.: Testing the identity of trends under the restriction of monotonicity in repeated measures designs. Psychometrika 46, 295±305 (1981). Huynh, H., Feldt, L. S.: Conditions under which mean square ratios in repeated measurements designs have exact F-distributions. Journal of the American Statistical Association 65, 1582±1589 (1970). Huynh, H., Feldt, L. S.: Estimation of the box correction for degrees of freedom from sample data in randomized block and splitplot designs. J. Educ. Stat. 1, 69±82 (1976). Huynh, H., Mandeville, G. K.: Validity conditions in repeated measures designs. Psychol. Bull. 86, 964±973 (1979). Imhof, J. P.: Testing the hypothesis of fixed main effects in Scheffs mixed model. Ann. Math. Stat. 33, 1086±1095 (1962). Isaac, P. D., Milligan, G. W.: A comment on the use of canonical correlation in the analysis of contingency tables. Psychol. Bull. 93, 378±381 (1983). Ito, K.: A comparison of the powers of two multivariate analysis of variance tests. Biometrika 49, 455±462 (1962). Ito, K.: On the effect of heteroscedasticity and non-normality upon some multivariate tests procedures. In: Krishnaiah, P. R. (ed.): Multivariate Analysis ± II, pp. 87±120. New York: Academic Press 1969. Ito, K., Schull, W. J.: On the robustness of the T20 -test in multivariate analysis of variance when variance-covariance matrices are not equal. Biometrika 51, 71±82 (1964). Jaccard, P.: Nouvelles recherches sur la distribution florale. Bull. Soc. Vaud. Sci. Nat. 44, 223±270 (1908). Jacobi, C. G. J.: Ûber ein leichtes Verfahren, die in der Theorie der Såkularstærungen vorkommenden Gleichungen numerisch aufzulæsen. J. reine angew. Math. 30, 51±95 (1846). Jacobs, K. W.: A table for the determination of experimentwise error rate (alpha) from independent comparisons. Educ. psychol. measmt. 36, 899±903 (1976). Jåger, R.: Methoden zur Mittellung von Korrelationen. Psychol. Beitr. 16, 417±427 (1974). Jåger, R.: Øhnlichkeit und Konsequenzen von Suppressorwirkungen und Multicollinearitåt. Psychol. Beitråge 18, 77±83 (1976). Jajuga, K., Sokolowski, A., Bock, H. H.: Classification, Clustering, and Data Analysis. New York: Springer 2003. James, L. R., Mulaik, S. A., Brett, J. M.: Causal analysis: Assumptions, models, and data. Beverly Hills: Sage 1982. Janson, S., Vegelius, J.: Correlation coefficients for more than one scale type. Multivariate behavioral research 17, 271±284 (1982).
847
Janssen, J., Laatz, W.: Statistische Datenanalyse mit SPSS fçr Windows, 4. Aufl. Berlin: Springer 2003. Jardine, N., Sibson, R.: Mathematical taxonomy. London: Wiley 1971. Jaspen, N.: Serial correlation. Psychometrika 11, 23±30 (1946). Jaspen, N.: The calculation of probabilities corresponding to values of z, t, F, and v2 . Educ. psychol. measmt. 15, 877±880 (1965). Jenkins, W. L.: An improved method for tetrachoric r. Psychometrika 20, 253±258 (1955). Jennings, E.: Fixed effects analysis of variance by regression analysis. Multivar. behav. res. 2, 95±108 (1967). Jennrich, R. I.: Orthogonal rotation algorithms. Psychometrika 35, 229±235 (1970). Jennrich, R. I., Sampson, P. F.: Rotation for simple loadings. Psychometrika 31, 313±323 (1966). Jolliffe, I. T.: Principal Component Analysis. New York: Springer 2002. Jæreskog, K. G.: Some contributions to maximum likelihood factor analysis. Psychometrika 32, 443±482 (1967). Jæreskog, K. G.: A general method for estimating a linear structural equation system. In: Goldberger, A. S., Duncan, O. D. (eds.): Structural equation models in the social sciences. New York: Seminar Press 1973. Jæreskog, K. G.: The LISREL-approach to causal model building in the social sciences. In: Jæreskog, K. G., Wold, H. (eds.): Systems under indirect observation. Part I, pp. 81±99. Amsterdam: North-Holland Publishing 1982. Jæreskog, K. G., Lawley, D. N.: New methods in maximum likelihood factor analysis. Brit. J. of Math. Statist. Psychol. 21, 85±96 (1968). Jæreskog, K. G., Særbom, D.: LISREL 8: User's reference guide. Chicago: Scientific software 1993. Johnson, D. E., Graybill, F. A.: An analysis of a two-way model with interaction and no replication. J. Am. Statistical Assoc. 67, 862±868 (1972). Johnson, E. M.: The Fisher-Yates exact test and unequal sample sizes. Psychometrika 37, 103±106 (1972). Johnson, R. A., Mehrotra, K. G.: Some c-sample nonparametric tests for ordered alternatives. J. Indian Statistical Assoc. 9, 8±23 (1971). Johnson, S. C.: Hierarchical clustering schemes. Psychometrika 32, 241±254 (1967). Johnson, W. L., Johnson, A. M.: Using SAS/PC for higher order factoring. Educ. psychol. measmt. 55, 429±434 (1995). Jones, L. V.: Analysis of variance in its multivariate developments. In: Cattell, R. B. (ed.): Handbook of multivariate experimental psychology. Chicago: Rand McNally 1966. Jones, W. S.: Some correlates of the authoritarian personality in a quasi-therapeutic situation. Unpublished doctoral dissertation. Carolina: Univ. of North Carolina 1961. Kaiser, H. F.: The varimax criterion for analytic rotation in factor analysis. Psychometrika 23, 187±200 (1958). Kaiser, H. F.: Computer program for varimax rotation in factor analysis. Educ. psychol. measmt. 19, 413±420 (1959).
848
Literaturverzeichnis
Kaiser, H. F.: The application of electronic computers to factor analysis. Educ. psychol. measmt. 20, 141±151 (1960). Kaiser, H. F., Caffrey, J.: Alpha factor analysis. Psychometrika 30, 1±14 (1965). Kaiser, H. F., Dickman, K.: Analytic determination of common factors. Amer. Psychol. 14, 425 ff. (1959). Kaiser, H. F., Norman, W. T.: Coefficient alpha for components. Psychol. reports 69, 111±114 (1991). Kallina, H.: Das Unbehagen in der Faktorenanalyse. Psychol. Beitr. 10, 81±86 (1967). Kallina, H., Hartmann, A.: Ein Vergleich von Hauptkomponentenanalyse und klassischer Faktorenanalyse. Psychol. Beitråge 18, 84±98 (1976). Kalos, M. H., Whitlock, P. A.: Monte Carlo methods, Vol. 1: Basics. New York: Wiley 1986. Kalveram, K. T.: Ûber Faktorenanalyse. Kritik eines theoretischen Konzeptes und seine mathematische Neuformulierung. Archiv. f. Psychologie 122, 92±118 (1970 a). Kalveram, K. T.: Probleme der Selektion in der Faktorenanalyse. Archiv f. Psychologie 122, 199±230 (1970 b). Kaplan, D.: Structural Equation Modeling Foundations and Extensions. Thousand Oaks, CA: Sage 2000. Kelley, T. L.: Essential traits of mental life. Harvard Stud. in Educ. 26. Cambridge, Mass.: Harvard Univ. Press 1935. Kelloway, E. K.: Using LISREL for structural equation modeling. London: Sage 1998. Kempf, W. F.: Zur Bewertung der Faktorenanalyse als psychologische Methode. Psychol. Beitråge 14, 610±625 (1972). Kendall, M. G.: Rank correlation methods. London: Griffin 1962. Kendall, M. G., Stuart, A.: The advanced theory of statistics, Vol. I. London: Griffin 1969. Kendall, M. G., Stuart, A.: The advanced theory of statistics, Vol. II. Inference and relationship. London: Griffin 1973. Kennedy, J. J.: The eta coefficient in complex anova designs. Educ. psychol. measmt. 30, 885±889 (1970). Kenny, D. A.: A quasi-experimental approach to assessing treatment effects in the nonequivalent control group design. Psychol. Bull. 82, 345±362 (1973). Keren, G., Lewis, C.: A comment on coding in nonorthogonal designs. Psychol. Bull. 84, 346±348 (1977). Keren, G., Lewis, C.: Partial omega square for anova designs. Educ. psychol. measmt. 39, 119±128 (1979). Kerlinger, F. N.: Foundations of behavioral research. New York: Holt, Rinehart and Winston 1964. Kerlinger, F. N.: The factor-structure and content of perceptions of desirable characteristics of teachers. Educ. psychol. measmt. 27, 643±656 (1967). Kerlinger, F. N., Pedhazur, E. J.: Multiple regression in behavioral research. New York: Holt, Rinehart and Winston 1973. Keselman, H. J.: Multiple comparison for repeated measures means. Multivariate behavioral research 17, 87±92 (1982). Keselman, H. J., Toothaker, L. E.: Comparison of Tukey's T-method and Scheff's-method for various numbers of all possible differences of averages contrasts under violation of assumptions. Educ. psychol. measmt. 34, 511±519 (1974).
Keselman, H. J., Rogan, J. C.: The Tukey multiple comparison test: 1953±1976. Psychol. Bull. 84, 1050±1056 (1977). Keselman, H. J., Games, P. A., Rogan, J. C.: Protecting the overall rate of Type I errors for pairwise comparisons with an omnibus test statistic. Psychol. Bull. 86, 884±888 (1979). Keselman, H. J., Games, P. A., Rogan, J. C.: Type I and Type II errors in simultaneous and two-stage multiple comparison procedures. Psychol. Bull. 88, 356±358 (1980a). Keselman, H. J., Rogan, J. C., Mendoza, J. L., Breen, L. J.: Testing the validity conditions of repeated measures F-Tests. Psychol. Bull. 87, 479±481 (1980 b). Keselman, H. J., Rogan, J. C., Games, P. A.: Robust tests of repeated measures means in educational and psychological research. Educ. psychol. measmt. 41, 163±173 (1981). Keselman, H. J., Keselman, J. C., Games, P. A.: Maximum family wise type I error rate: The least significant difference, Newman-Kuuls, and other multiple comparison procedures. Psychol. Bull. 110, 155±161 (1991). Keselman, H. J., Carriere, K. C., Lix, L. M.: Testing repeated measures hypothesis when covariance matrices are heterogeneous. J. Educ. Stat. 18, 305±319 (1993). Keselman, H. J., Carriere, K. C., Lix, L. M.: Robust and powerful nonorthogonal analysis. Psychometrika 60, 395±418 (1995). Keselman, H. J., Kowalchuk, R. K., Lix, L. M.: Robust nonorthogonal analysis revisited: An update based on trimmed means. Psychometrika 63, 145±163 (1998). Kiers, H. A. L.: Simple structure in component analysis techniques for mixtures of qualitative and quantitative variables. Psychometrika 56, 197±212 (1991 a). Kiers, H. A. L.: Hierarchical relations among three-way methods. Psychometrika 56, 449±470 (1991 b). Kiers, H. A. L.: Techniques for rotating two or more loading matrices to optimal agreement and simple structure: A comparison and some technical details. Psychometrika 62, 545±568 (1997). Kiers, H. A. L., ten Berge, J. M. F.: Alternating least squares algorithms for simultaneous components analysis with equal component weight matrices in two or more populations. Psychometrika 54, 467±473 (1989). Kiers, H. A. L., Groenen, P.: A monotonically convergent algorithm for orthogonal congruence rotation. Psychometrika 61, 375±389 (1996). Kiers, H. A. L., van Meckelen, I.: Three-Way Component Analysis: Principles and Illustrative Application. Psychol. Methods 6, 84±110 (2001). Kieser, M., Victor, N.: A test procedure for an alternative approach to configural frequency analysis. Methodika 5, 87±97 (1991). King, A. C., Read, C. B.: Pathways to probability. New York: Holt 1963. Kirk, D. B.: On the numerical approximation of the bivariate normal (tetrachoric) correlation coefficient. Psychometrika 38, 259±268 (1973). Kirk, R. E.: Experimental design, 2nd ed. Monterey, CA: Brooks/Cole 1982. Kirk, R. E.: Practical significance: A concept whose time has come. Educ. psychol. measmt. 56, 746±759 (1996). Kish, L.: Survey sampling. New York: Wiley 1965.
aLiteraturverzeichnis Klauer, K. C.: Parameterschåtzung. In: Erdfelder, E. et al. (Hrsg.): Handbuch quantitative Methoden, S. 99±197. Weinheim: Beltz 1996 a. Klauer, K. C.: Urteilerçbereinstimmung bei dichotomen Kategoriensystemen. Diagnostika 42, 101±118 (1996 b). Klemm, E.: Das Problem der Distanzbindungen in der hierarchischen Clusteranalyse. Frankfurt/Main: Peter Lang GmbH, Europåische Hochschulschriften 1995. Klemmert, H.: Øquivalenz- und Effekttests in der psychologischen Forschung. Peter Lang GmbH, Europåischer Verlag der Wissenschaften, Frankfurt a. M. 2004. Knapp, T. R.: Canonical correlation analysis: A general parametric significance-testing system. Psychol. Bull. 85, 410±416 (1978). Koch, K. R.: Einfçhrung in die Bayes-Statistik. Heidelberg: Springer 2000. Koeck, R.: Grenzen von Falsifikation und Exhaustion ± der Fall der Frustrations-Aggressionstheorie. Psychol. Beitråge 19, 391±419 (1977). Kogan, L. S.: Analysis of variance ± repeated measures. Psychol. Bull. 45, 131±143 (1948). Kolmogoroff, A.: Grundbegriffe der Wahrscheinlichkeitsrechnung. Berlin: Springer 1933 (Reprint Berlin: Springer 1973). Korth, B. A.: A significance test for congruence coefficients for Cattall's factors matched by scanning. Mult. beh. res. 13, 419±430 (1978). Korth, B. A., Tucker, L. R.: The distribution of chance congruence coefficients from simulated data. Psychometrika 40, 361±372 (1975). Korth, B. A., Tucker, L. R.: Erratum for the distribution of chance congruence coefficients from simulated data. Psychometrika 44, 365 (1979). Kowalchuk, R. K., Keselman, H. J.: Mixed-Model Pairwise Multiple Comparison of Repeated Measures Means. Psychol. Methods 6, 282±296 (2001). Kraak, B.: Zum Problem der Kausalitåt in der Psychologie. Psychol. Beitråge 9, 413±432 (1966). Kraemer, H. C.: Tests of homogeneity of independent correlation coefficients. Psychometrika 44, 329±355 (1979). Kraemer, H. C.: Modified biserial correlation coefficients. Psychometrika 46, 275±282 (1981). Kraemer, H. C., Thiemann, S.: How many subjects? Statistical power analysis in research. Beverly Hills: Sage 1987. Kråmer, W.: So lçgt man mit Statistik. Frankfurt/Main: Campus 1995. Krause, B., Metzler, P.: Zur Anwendung der Inferenzstatistik in der psychologischen Forschung. Zsch. f. Psychol. 186, 244±267 (1978). Krauth, J.: Ein Vergleich der KFA mit der Methode der loglinearen Modelle. Zsch. f. Sozialpsychologie 11, 233±247 (1980). Krauth, J.: Einfçhrung in die Konfigurationsfrequenzanalyse (KFA). Weinheim: Beltz 1993. Krauth, J.: Median Dichotomization in CFA: Is it allowed? Psychol. Science 45, 324±329 (2003). Krauth, J., Lienert, G. A.: KFA ± Die Konfigurationsfrequenzanalyse. Freiburg: Alber-Broschur Psychologie 1973. Kreienbrock, L.: Einfçhrung in die Stichprobenverfahren. Mçnchen: Oldenbourg 1989.
849
Kreyszig, E.: Statistische Methoden und ihre Anwendungen. Gættingen: Vandenhoeck und Ruprecht 1973. Kristof, W.: Ein Verfahren zur Ûberprçfung der Homogenitåt mehrerer unabhångiger Stichprobenkorrelationskoeffizienten. Psychologie und Praxis 24, 185±189 (1980). Kristof, W.: Anwendungen einer Beziehung zwischen t- und F-Verteilungen auf das Prçfen gewisser statistischer Hypothesen çber Varianzen und Korrelationen. In: Jahnke, W. (Hrsg.): Beitråge zur Methodik in der differentiellen, diagnostischen und klinischen Psychologie. Festschrift zum 60. Geburtstag von G. A. Lienert, S. 46±57. Kænigstein/Taunus: Hain 1981. Krolak-Schwerdt, S., Eckes, T.: A graph theoretic criterion for determining the number of clusters in a data set. Multivariate Behavioral Research 27, 541±565 (1992). Kromrey, J. D., v. Hines, C.: Nonrandomly missing data in multiple regression: An empirical comparison of common missing-data treatment. Educ. psychol. measmt. 54, 573±593 (1994). Kruskal, J. B., Shephard, R. N.: A nonmetric variety of linear factor analysis. Psychometrika 39, 123±157 (1974). Krzanowski, W. J., Kline, P.: Cross-validation for chosing the number of important components in principal component analysis. Multivariate Behavioral Research 30, 149±165 (1995). Kshirsagar, A. M.: Multivariate analysis. New York: Marcel Dekker 1972. Kshirsagar, A. M., Aserven, E.: A note on the equivalence of two discrimination procedures. The American Statistician 29, 38±39 (1975). Kubinger, K. D.: Ûbersicht und Interpretation verschiedener Assoziationsmaûe. Psychologische Beitråge 32, 290±346 (1990). Kçchler, M.: The analysis of nonmetric data. Sociological methods and research 8, 369±388 (1980). Kuiper, F. K., Fisher, L. A.: A Monte Carlo comparison of six clustering procedures. Biometrics 31, 777±783 (1975). Kukuk, C. R., Baty, C. F.: The misuse of multiple regression with composite scales obtained from factor scores. Educ. psychol. measmt. 39, 277±290 (1979). Kullback, S.: On testing correlation matrices. Applied statistics 16, 80±85 (1967). Kyburg, H. E.: Philosophy of science. A formal approach. New York: MacMillan 1968. Lachenbruch, P. A.: An almost unbiased method of obtaining confidence intervals for the probability of misclassification in discriminant analysis. Biometrics 23, 639±645 (1967). LaDu, T. J., Tanaka, J. S.: Incremental fit index changes for nested structural equation models. Multivariate behavioral Research 30, 289±316 (1995). Lambert, Z. V., Wildt, A. R., Durand, R. M.: Approximate confidence intervals for estimates of redundancy between sets of variables. Mult. beh. res. 24, 307±333 (1989). Lambert, Z. V., Wildt, A. R., Durand, R. M.: Assessing sampling variations relative to number of factors criteria. Educ. psychol. measmt. 50, 33±48 (1990). Lambert, Z. V., Wildt, A. R., Durand, R. M.: Bias approximations for complex estimators: An application to redundancy analysis. Educ. psychol. measmt. 51, 1±14 (1991).
850
Literaturverzeichnis
Lancaster, H. O., Hamden, M. A.: Estimate of the correlation coefficient in contingency tables with possibly nonmetrical characters. Psychometrika 19, 383±391 (1964). Lance, G. N., Williams, W. T.: A generalized sorting strategy for computing classification. Nature 212, 218 (1966). Lance, G. N., Williams, W. T.: A general theory of classificatory sorting strategies: Hierarchical systems. Computer Journal 9, 373±380 (1967). Land, K. C.: Principles of path analysis. In: Borgatta, E. F., Bohrnstedt, G. W. (eds.): Sociological methodology, pp. 3±37. San Francisco: Jossey-Bass 1969. Landahl, H. D.: Centroid orthogonal transformations. Psychometrika 3, 219±223 (1938). Lane, D. M., Dunlap, W. P.: Estimating effect size: Bias resulting from the significance criterion in editorial decisions. Brit. J. of Math. Stat. Psychol. 31, 107±112 (1978). Langeheine, R.: Multivariate Hypothesentestung bei qualitativen Daten. Zsch. f. Sozialpsych. 11, 140±151 (1980 a). Langeheine, R.: Log-lineare Modelle zur multivariaten Analyse qualitativer Daten. Mçnchen: Oldenbourg 1980 b. Lantermann, E. D.: Zum Problem der Angemessenheit eines inferenzstatistischen Verfahrens. Psychol. Beitråge 18, 99±104 (1976). Larzelere, R. E., Mulaik, S. A.: Single-sample tests for many correlations. Psychol. Bull. 84, 557±569 (1977). Lathorp, R. G., Williams, J. E.: The reliability of inverse scree tests for cluster analysis. Educ. psychol. measmt. 47, 953±959 (1987). Lathorp, R. G., Williams, J. E.: The shape of the inverse scree test for cluster analysis. Educ. psychol. measmt. 49, 827±834 (1989). Lathorp, R. G., Williams, J. E.: The validity of the inverse scree test for cluster analysis. Educ. psychol. measmt. 50, 325±330 (1990). Lautenschlager, G. J.: A comparison of alternatives to conducting Monte Carlo analysis for determining parallel analysis criteria. Mult. beh. res. 24, 365±395 (1989). Lautenschlager, G. J., Lance, C. E., Flaherty, V. L.: Parallel analysis criteria: Revised equations for estimating the latent roots of random data correlation matrices. Educ. psychol. measmt. 49, 339±345 (1989). Lauter, J.: Sample Size Requirements for the T2 Test of MANOVA (Tables for One-Way Classification). Biometrical Journal 20, 389±406 (1978). Lautsch, E., Lienert, G. A.: Binårdatenanalyse. Weinheim: Psychologie Verlags Union 1993. Lautsch, E., Weber, S. v.: Methoden und Anwendungen der Konfigurationsfrequenzanalyse (KFA). Weinheim: Beltz 1995. LaValle, J. H.: An introduction to probability, decision and inference. New York: Holt, Rinehart and Winston 1970. Lawley, D. N.: The estimation of factor loadings by the method of maximum likelihood. Proceedings of the Royal Society of Edinburgh 60, 64±82 (1940). Lawley, D. N.: Further investigations in factor estimation. Proceedings of the Royal Society of Edinburgh, Series A, 61, 176±185 (1942). Lawley, D. N.: Problems in factor analysis. Proceedings of the Royal Society of Edinburgh, Series A, 62, 394±399 (1949).
Lawley, D. N., Maxwell, A. E.: Factor analysis as a statistical method. New York: American Elsevier 1971. Lee, H. B., Comrey, A. L.: Distortions in a commonly used factor analytic procedure. Mult. behav. res. 14, 301±321 (1979). Leigh, J. H., Kinnear, T. C.: On interaction classification. Educ. psychol. measmt. 40, 841±843 (1980). Leiser, E.: Wie funktioniert sozialwissenschaftliche Statistik? Zsch. f. Sozialpsychologie 13, 125±139 (1982). LeRoy, H. L.: Kennen Sie die Methode des Pfadkoeffizienten? Einige Regeln und Anwendungsmæglichkeiten. Biometrische Zeitschr. 9, 84±96 (1967). Levin, J.: The occurrence of an increasing correlation by restriction of range. Psychometrika 37, 93±97 (1972). Levy, K. J.: A multiple range procedure for independent correlations. Educ. psychol. measmt. 36, 27±31 (1976). Levy, K. J.: Pairwise comparison involving unequal sample sizes associated with correlations, proportions, or variances. Br. J. Math. Statistical Psychol. 30, 137±139 (1977). Levy, K. J.: A Monte Carlo study of analysis of covariance under violations of the assumptions of normality and equal regression slopes. Educ. psychol. measmt. 40, 835±840 (1980). Levy, P. S., Lemeshow, S.: Sampling of Populations: Methods and Applications: New York: Wiley 1999. Lewis, A. E.: Biostatistics. New York: Reinhold 1966. Lienert, G. A.: Verteilungsfreie Methoden in der Biostatistik, Bd. 1. Meisenheim/Glan: Hain 1973. Lienert, G. A.: Subject variables in perception and their control. In: Spillmann, L., Wooten, B. R. (eds.): Sensory, experience, adaptation, and perception. Festschrift for Ivo Kohler. Hillsdale, New York: Lawrence Erlbaum Ass. 1984, 177±186. Lienert, G. A. (Hrsg.): Angewandte Konfigurationsfrequenzanalyse. Frankfurt/M.: Athenåum 1988. Lienert, G. A., Raatz, U.: Testaufbau und Testanalyse. Weinheim: Beltz 1998. Linder, A.: Statistische Methoden, 1. Aufl. 1945, 4. Aufl. 1964. Basel: Birkhåuser 1964. Lingoes, J. C.: The multivariate analysis of qualitative data. Mult. behav. res. 3, 61±94 (1968). Little, J. A., Rubin, D. B.: Statistical Analysis with Missing Values. New York: Wiley 1987. Lix, L. M., Keselman, H. J.: Approximate degrees of freedom tests: A unified perspective on testing for mean equality. Psychological Bulletin 117, 547±560 (1995). Læsel, F., Wçstendærfer, W.: Zum Problem unvollståndiger Datenmatrizen in der empirischen Sozialforschung. Kælner Zeitschr. f. Soziol. und Soz. Psychol. 26, 342±357 (1974). Loehlin, J. C.: Latent variable models. An introduction to factor, path, and structural analysis. Hillsdale: Erlbaum 1992. Lohmæller, J. B.: Die trimodale Faktorenanalyse von Tucker: Skalierungen, Rotationen, andere Modelle. Archiv f. Psychol. 131, 137±166 (1979). Lohmæller, J. B.: LVPLS 1.6 program manual: Latent variables path analysis with partial least-squares estimation. Forschungsbericht 81.04, Hochschule der Bundeswehr, Fachbereich Pådagogik. Mçnchen 1981.
aLiteraturverzeichnis Long, J. S.: Confirmatory factor analysis: A preface to LISREL. Beverly Hills: Sage 1983 a. Long, J. S.: Covariance structure models: An introduction to LISREL. Beverly Hills: Sage 1983 b. Longman, R. S., Cota, A. A., Holden, R. R., Fekken, G. C.: A regression equation for the parallel analysis criterion in principle component analysis: Means and 95th percentile eigenvalues. Mult. beh. res. 24, 59±69 (1989). Looney, S. W.: How to use tests for univariate normality to assess multivariate normality. The American Statistician 49, 64±70 (1995). Lord, F. M.: Some relations between Guttman's principal components of scale analysis and other psychometric theory. Psychometrika 23, 291±296 (1958). Lowerre, G. F.: A formula for correction for range. Educ. psychol. measmt. 33, 151±152 (1973). Lçer, G. (Hrsg.): Allgemeine experimentelle Psychologie. Stuttgart: Fischer 1987. Lunneborg, C. E., Tousignant, J. P.: Efrons's bootstrap with application to the repeated measurement design. Mult. beh. res. 20, 161±178 (1985). Lunney, G. H.: Using analysis of variance with a dichotomous dependent variable: An empirical study. J. educ. measmt. 7, 263±269 (1970). Lutz, J. G.: On the rejection of Hotellings's single sample T2. Educ. psychol. measmt. 34, 19±23 (1974). Lutz, J. G.: A method for constructing data which illustrate three types of suppressor variables. Educ. psychol. measmt. 43, 373±377 (1983). Lutz, J. G., Eckert, T. L.: The relationship between canonical correlation analysis and multivariate multiple regression. Educ. psychol. measmt. 54, 666±675 (1994). Lykken, D. T.: Statistical significance in psychological research. Psychol. Bull. 70, 151±157 (1968). MacCallum, R. C.: Model Specification: Procedures, Strategies, and Related Issues. In: Hoyle, R. H. (ed.): Structural Equation Modeling: Concepts, Issues, and Applications, pp. 16±36. Thousand Oaks, CA: Sage 1995. MacCallum, R. C., Mar, C. M.: Distinguishing between moderator and quadratic effects in multiple regression. Psychological Bulletin 118, 405±421 (1995). MacCallum, R. C., Roznowski, M., Necovitz, L. B.: Model modifications in covariance structure analysis: The problem of capitalization on chance. Psychological Bulletin 111, 490±504 (1992). MacCallum, R. C., Wegener, D. T., Uchino, B. N., Fabrigor, L. R.: The problem of equivalent models in applications of covariance structure analysis. Psychological Bulletin 114, 185±199 (1993). MacCallum, R. C., Widaman, K. F., Zhang, S., Hong, S.: Sample Size in Factor Analysis. Psychol. Methods 4, 84±99 (1999). MacCallum, R. C., Zhang, S., Preacher, K. J., Rucker, D. D.: On the Practice of Dichotomization of Quantitative Variables. Psychol. Methods 7, 19±40 (2002). MacQueen, J.: Some methods for classification and analysis of multivariate observations. In: Lecam, L. M., Neyman, J. (eds.): Proc. 5th Berkely Symp. Math. Stat. Prob. 1965/66, Berkely 1967, 1, 281±297.
851
Mahalanobis, P. C.: On the generalized distance in statistics. Proceedings of the National Institute of Science India, 12, 49±55 (1936). Malgady, R. G.: Contrasting part correlations in regression models. Educ. psychol. measmt. 47, 961±965 (1987). Mangoldt, v. H., Knoop, K.: Einfçhrung in die hæhere Mathematik, Bd. I. Stuttgart: Hirzel 1964. Mann, H. B., Whitney, D. R.: On a Test whether one of two Random Variables is Stochastically Larger than the other. The Annals of Mathematical Statistics 18, 50±60 (1947). Manoukian, E. B.: Modern concepts and theorems of mathematical statistics. Springer 1986. Marascuilo, L. A.: Large sample multiple comparisons. Psychol. Bull. 65, 280±290 (1966). Marascuilo, L. A., McSweeny, M.: Nonparametric and distribution-free methods for the social sciences. Monterey, CA: Brooks/Cole Publ. Comp. 1977. Marascuilo, L. A., Omelick, C. L., Gokhole, D. V.: Planned and posthoc methods for multiple-sample McNemar (1947) tests with missing data. Psychol. Bull. 103, 238±245 (1988). Marcoulides, G. A., Schumacker, R. E.: Advanced structural equation modeling: issues and techniques. Mahwah, New Jersey: Erlbaum 1996. Mardia, K. V.: Measures of multivariate skewness and kurtosis with applications. Biometrika 57, 519±530 (1970). Mardia, K. V.: Applications of some measures of multivariate skewness and kurtosis in testing normality and robustness studies. Sankhya, B, 36, 115±128 (1974). Mardia, K. V.: Mardia's test of multinormality. In: Kotz, S., Jonson, N. L. (eds.): Encyclopedia of statistical sciences, vol. 5, pp. 217±221. New York: Wiley, 1985. Markus, K. A.: The Converse Inequality Argument Against Tests of Statistical Significance. Psychol. Methods 6, 147±160 (2001). Marsh, H. W., Balla, J. R., McDonald, R. P.: Goodness-of-fit indexes in confirmatory factor analysis: The effect of sample size. Psychol. Bull. 103, 391±410 (1988). Martens, J.: Statistische Datenanalyse mit SPSS fçr Windows, 2. Aufl. Mçnchen: Oldenbourg 2003. Martin, W. S., Fruchter, B., Mathis, W. J.: An investigation of the effect of the number of scale intervals on principal components factor analysis. Educ. psychol. measmt. 34, 537±545 (1974). Marx, W.: Spearman's Rho: Eine ¹unechteª Rangkorrelation? Archiv f. Psychol. 134, 161±164 (1981/82). Maxwell, S. E.: Sample Size and Multiple Regression Analysis: Psychol. Methods 5, 434±458 (2000). McCabe, G. P.: Computations for variable selection in discriminant analysis. Technometrics 17, 103±109 (1975). McCall, R. B.: Fundamental statistics for psychology. New York: Harcourt, Brace and World 1970. McCornack, R. L.: A comparison of three predictor selection techniques in multiple regression. Psychometrika 35, 257±271 (1970). McHenry, C. E.: Computation of the best subset in multivariate analysis. Applied statistics 27, 291±296 (1978). McKay, R. J., Campbell, N. A.: Variable selection techniques in discriminant analysis II. Allocation. Br. J. Math. Stat. Psychol. 35, 30±41 (1982).
852
Literaturverzeichnis
McLachlan, G. J.: Discriminant Analysis and Statistical Pattern Recognition. New York: Wiley-Interscience 1992. McNamara, W. J., Dunlap, W.: A graphical method for computing the standard error of biserial r. J. of experimental educ. 2, 274±277 (1934). McNemar, Q.: Psychological statistics. New York: Wiley 1969. McNemar, Q.: Note on the sampling error of the difference between correlated proportions or percentages. Psychometrika 12, 153±157 (1947). Meehl, P. E.: Configural scoring. J. consult. psych. 14, 165±171 (1950). Meehl, P. E.: Theoretical risks and tabular asterisks: Sir Karl, Sir Ronald, and the slow progress of soft psychology. Journal of Consulting and Clinical Psychology 46, 806±834 (1978). Meiser, T., Humburg, S.: Klassifikationsverfahren. In: Erdfelder, E. et al. (Hrsg.): Handbuch quantitative Methoden (S. 279±290). Weinheim: Beltz 1996. Melton, R. S.: Some remarks on failure to meet assumptions in discriminant analysis. Psychometrika 28, 49±53 (1963). Mendoza, J. L.: Fisher transformations for correlations corrected for selection and missing data. Psychometrika 58, 601±615 (1993). Mendoza, J. L., Markos, V. H., Gonter, R.: A new perspective on sequential testing procedures in canonical analysis: A Monte Carlo evaluation. Mult. beh. res. 13, 371±382 (1978). Meng, X. L., Rosenthal, R., Rubin, D. B.: Comparing correlated correlation coefficients. Psychological Bulletin 111, 172±175 (1992). Menges, G.: Stichproben aus endlichen Grundgesamtheiten, Theorie und Technik. Frankfurter wissenschaftliche Beitråge; Rechts- und Wirtschaftswissenschaftliche Reihe Bd. 17, Frankfurt 1959. Meredith, W.: Canonical correlations with fallible data. Psychometrika 29, 55±65 (1964). Metropolis, N., Ulam, S.: The Monte Carlo method. J. Am. Statist. Assoc. 44, 335 (1949). Micceri, T.: The unicorn, the normal curve, and other improbable creatures. Psychol. Bull. 105, 156±166 (1989). Michaelis, J.: Simulation experiments with multiple group linear and quadratic discriminant analysis. In: Cacoullos, T. (ed.): Discriminant analysis and applications. New York: Academic Press 1973. Michell, J.: An introduction to the logic of psychological measurement. Hillsdale, N. Y.: Lawrence Erlbaum 1990. Mielke, P. W., Jr., Berry, K. J.: Exact goodness of fit tests for analysing categorial data. Educ. psychol. measmt. 53, 707±710 (1993). Miller, N. E., Bugelski, R.: Minor studies of aggression: II. The influence of frustrations imposed by the in-group on attitudes expressed toward out-groups. J. Psychol. 25, 437±452 (1948). Milligan, G. W.: A review of Monte Carlo tests of cluster analysis. Mult. beh. res. 16, 379±407 (1981). Milligan, G. W.: A study of the beta-flexible clustering method. Mult. beh. res. 24, 163±176 (1989). Milligan, G. W., Cooper, M. C.: An examination of procedures for determining the number of clusters in a data set. Psychometrika 50, 159±179 (1985).
Milligan, G. W., Cooper, M. C.: A study of the comparability of external criteria for hierarchical cluster analysis. Mult. beh. res. 21, 441±458 (1986). Milligan, G. W., Schilling, D. A.: Asymptotic and finite sample characteristics of four external criterion measures. Mult. beh. res. 20, 97±109 (1985). Milligan, G. W., Sokal, L.: A two-stage clustering algorithm with robustness recovery characteristics. Educ. psychol. measmt. 40, 755±759 (1980). Milligan, G. W., Wong, D. S., Thompson, P. A.: Robustness properties of nonorthogonal analysis of variance. Psychol. Bull. 101, 464±470 (1987). Millsap, R. E., Meredith, W.: Component analysis in crosssectional and longitudinal data. Psychometrika 53, 123± 134 (1988). Millsap, R. E., Zalkind, S. S., Xenos, T.: Quick reference tables to determine the significance of the difference between two correlation coefficients from two independent samples. Educ. psychol. measmt. 50, 297±307 (1990). Mintz, J.: A correlational method for the investigation of systematic trends in serial data. Educ. psychol. measmt. 30, 575±578 (1970). Mirkin, B.: Mathematical classification and clustering. Dordrecht: Kluwer Academic Publishers 1996. Mittenecker, E.: Planung und statistische Auswertung von Experimenten. Wien: Deuticke 1948. Mittenecker, E., Raab, E.: Informationstheorie fçr Psychologen. Gættingen: Hogrefe 1973. Mæbus, C., Schneider, W.: Strukturmodelle zur Analyse von Långsschnittdaten. Bern: Huber 1986. Molenaar, J. W., Lewis, C.: Bayes-Statistik. In: Erdfelder, E. et al. (Hrsg.): Handbuch quantitative Methoden (S. 143± 156). Weinheim: Beltz 1996. Montanelli, R. G., Humphreys, L. G.: Latent roots of random data correlations matrices with squared multiple correlations in the diagonal: A Monte Carlo study. Psychometrika 41, 341±348 (1976). Moosbrugger, H.: Multivariate statistische Analyseverfahren. Stuttgart: Kohlhammer 1978. Moosbrugger, H., Frank, D.: Clusteranalytische Methoden in der Persænlichkeitsforschung. Bern: Huber 1992. Moosbrugger, H., Zistler, R.: Lineare Modelle. Regressionsund Varianzanalysen. Bern: Huber 1994. Morey, L., Agresti, A.: The measurement of classification agreement: An adjustment to the Rand-statistic for chance agreement. Educ. psychol. measmt. 44, 33±37 (1984). Morey, L. C., Blashfield, R. K., Skinner, H. A.: A comparison of cluster analysis techniques within a sequential validation framework. Mult. beh. res. 18, 309±329 (1983). Morris, J. D., Meshbane, A.: Selecting predictor variables in two-group classification problems. Educ. psychol. measmt. 55, 438±441 (1995). Morris, S. B., De Shon, R. P.: Correcting Effect Sizes Computed from Factorial Analysis of Variance for Use in Meta-Analysis. Psychol. Methods 2, 192±199 (1997). Morrison, D. F.: Multivariate statistical methods, 2nd ed. New York: McGraw-Hill 1976 (1990 3rd ed.). Mosier, C. I.: Determining a simple structure when loadings for certain tests are known. Psychometrika 4, 149±162 (1939).
aLiteraturverzeichnis Mossholder, K. W., Kemrey, E. R., Bedlian, A. G.: On using regression coefficients to interpret moderator effects. Educ. psychol. measmt. 50, 255±263 (1990). Mosteller, F., Wallace, D. L.: Inference and disputed authorship: the federalist. Reading, Mass.: Addison-Wesley 1964. Mulaik, S. A.: The foundations of factor analysis. New York: McGraw-Hill 1972. Mulaik, S. A.: A brief history of the philosophical foundations of exploratory factor analysis. Mult. beh. res. 22, 267±305 (1987). Mummendey, H. D.: Die Fragebogenmethode. Gættingen: Verlag fçr Psychologie 1995. Muthen, B.: LISCOMP: International educational statistics. Evanston: Indiana 1986. Nesselroade, J. R.: Note on the ªlongitudinal factor analysisº model. Psychometrika 37, 187±191 (1972). Nesselroade, J. R., Baltes, P. B.: On a dilemma of comparative factor analysis. A study of factor matching based on random data. Educ. psychol. measmt. 30, 935±948 (1970). Neter, J., Wassermann, W., Kutner, M. H.: Applied linear statistical models. Homewood, Ill.: Irwin 1985. Neuhaus, J. O., Wrigley, C.: The quartimax method: an analytic approach to orthogonal simple structure. Brit. J. of Statist. Psychol. 7, 81±91 (1954). Neyman, J.: Outline of a theory of statistical estimation based on the classical theory of probability. Philosophical transactions of the Royal Society, Series A, p. 236 (1937). Neyman, J., Pearson, E. S.: On the use and interpretation of certain test criteria for purposes of statistical inference. Biometrika 29A, Part I: 175±240; Part II: 263±294 (1928). Nickerson, R. S.: Null Hypothesis Significance Testing: A Review of an Old and Continuing Controversy. Psychol. Methods 5, 241±301 (2000). Niedere, R., Mausfeld, R.: Skalenniveau, Invarianz und ¹Bedeutsamkeitª. In: Erdfelder, E. et al. (Hrsg.). Handbuch quantitative Methoden (S. 385±398). Weinheim: Beltz 1996 a. Niedere, R., Mausfeld, R.: Das Bedeutsamkeitsproblem in der Statistik. In: Erdfelder, E. et al. (Hrsg.): Handbuch quantitative Methoden (S. 399±410). Weinheim: Beltz 1996 b. Niedere, R., Narens, L.: Axiomatische Meûtheorie. In: Erdfelder, E. et al. (Hrsg.): Handbuch quantitative Methoden (S. 369±384). Weinheim: Beltz 1996. Nijsse, M.: Testing the significance of Kendall's s and Spearman's rs . Psychol. Bull. 103, 235±237 (1988). Norris, R. C., Hjelm, H. F.: Non-normality and product moment correlation. J. exp. educ. 29, 261±270 (1961). NoruÉis, M. J.: SPSS/PC+ for the IBM PC/XT/AT. Chicago, Ill.: SPSS inc. 1986. NoruÉis, M. J.: Advanced Statistics SPSS/PC+ for the IBM PC/XT/AT. Chicago, Ill.: SPSS inc. 1986. Nye, L. G., Witt, L. A.: Interpreting moderator effects: Substitute for the signed coefficient rule. Educ. psychol. measmt. 55, 27±31 (1995). O'Brien, R. G.: Robust techniques for testing heterogeneity of variance effects in factorial designs. Psychometrika 43, 327±342 (1978).
853
O'Brien, R. G.: A simple test for variance effects in experimental design. Psychol. Bull. 89, 570±574 (1981). O'Brien, R., Kaiser, M.: MANOVA Method for Analysing Repeated Measures Designs: An Extensive Primer. Psychol. Bull., 316±333 (1985). O'Grady, K. E., Medoff, D. R.: Categorial variables in multiple regression: Some cautions. Mult. beh. res. 23, 243± 260 (1988). Olejnik, S. F., Algina, J.: Tests of variance equality when distributions differ in form and location. Educ. psychol. measmt. 48, 317±329 (1988). Olkin, J.: Correlations revisited. In: Stanley, J. C. (ed.): Improving experimental design and statistical analysis. Chicago: Rand McNalley 1967. Olkin, J.: Range restrictions for product-moment correlation matrices. Psychometrika 46, 469±472 (1981). Olkin, J., Finn, J. D.: Testing correlated correlations. Psychol. Bull. 108, 330±333 (1990). Olkin, J., Finn, J. D.: Correlations redux. Psychological Bulletin 118, 155±164 (1995). Olkin, J., Pratt, J. W.: Unbiased estimation of certain correlation coefficients. Annals of the mathematical statistics 29, 201±211 (1958). Olkin, J., Siotani, M.: Asymptotic distribution functions of a correlation matrix. Stanford, CA: Stanford University Laboratory for Quantitative Research in Education. Report No. 6, 1964. Olson, C. L.: Comparative robustness of six tests in multivariate analysis of variance. J. Am. Statist. Assoc. 69, 894±908 (1974). Olson, C. L.: On choosing a test statistic in multivariate analysis of variance. Psychol. Bull. 83, 579±586 (1976). Olson, C. L.: Practical considerations in choosing a MANOVA test statistic: A rejoinder to Stevens. Psychol. Bull. 86, 1350±1352 (1979). Olsson, U.: Maximum likelihood estimation of the polychoric correlation coefficient. Psychometrika 44, 443±460 (1979). Olsson, U., Bergmann, L. R.: A longitudinal factor model for studying change in ability structure. Mult. beh. res. 12, 221±241 (1977). Olsson, U., Drasgow, F., Dorans, N. J.: The polyserial correlation coefficient. Psychometrika 47, 337±347 (1982). Opp, K. D.: Methodologie der Sozialwissenschaften, 4. Aufl. Opladen: Westdeutscher Verlag 1999. Orlik, P.: Das Dilemma der Faktorenanalyse ± Zeichen einer Aufbaukrise in der modernen Psychologie. Psychol. Beitråge 10, 87±89 (1967 a). Orlik, P.: Eine Technik zur erwartungstreuen Skalierung psychologischer Merkmalsråume auf Grund von Polaritåtsprofilen. Zschr. exp. angew. Psychol. 14, 616±650 (1967 b). Orlik, P.: Das Summax-Modell der dreimodalen Faktorenanalyse mit interpretierbarer Kernmatrix. Archiv f. Psychologie 133, 189±218 (1980). Orloci, L.: Information theory models for hierarchic and non-hierarchic classification. In: Cole, A. J. (ed.): Numerical taxonomy. London: Academic Press 1969. Orth, B.: Einfçhrung in die Theorie des Messens. Stuttgart: Kohlhammer 1974. Orth, B.: Grundlagen des Messens. In: Feger, H., Bredenkamp, J. (Hrsg.): Messen und Testen, Enzyklopådie der
854
Literaturverzeichnis
Psychologie, Themenbereich B, Serie I, Bd. 3, Kap. 2. Gættingen: Hogrefe 1983. Osgood, L. E., Suci, G. J.: A measure of relation determined by both mean difference and profile information. Psychol. Bull. 49, 251±262 (1952). Ostmann, A., Wuttke, J.: Statistische Entscheidung. In: Herrmann, T., Tack, W. H. (Hrsg.): Methodologische Grundlagen der Psychologie (Enzyklopådie der Psychologie. Themenbereich B, Serie I, Band 1) (S. 694±738). Gættingen: Hogrefe 1994. Overall, J. E.: Power of v2 -Tests for 2 2 contingency tables with small expected frequencies. Psychol. Bull. 87, 132± 135 (1980). Overall, J. E., Klett, C. J.: Applied multivariate analysis. New York: McGraw-Hill 1972. Overall, J. E., Spiegel, D. K.: Concerning least squares analysis of experimental data. Psychol. Bull. 71, 311±322 (1969). Overall, J. E., Woodward, J. A.: Nonrandom assignment and the analysis of covariance. Psychol. Bull. 84, 588±594 (1977 a). Overall, J. E., Woodward, J. A.: Common misconceptions concerning the analysis of covariance. Mult. beh. res. 12, 171±185 (1977 b). Overall, J. E., Rhoades, H. M., Starbuck, R. R.: Small-sample tests for homogeneity of response probabilities in 2´2-contingency tables. Psychol. Bull. 102, 307±314 (1987). Overton, R. C.: Moderated Multiple Regression for Interactions Involving Categorical Variables: A Statistical Control for Heterogeneous Variance Across two Groups. Psychol. Methods 6, 218±233 (2001). Parzen, E.: Stochastic processes. San Francisco: Holden-Day, Inc. 1962. Paull, A. E.: On preliminary tests for pooling mean squares in the analysis of variance. Ann. math. statist. 21, 539±556 (1950). Paunonen, S. V.: On chance and factor congruence following orthogonal Procrustes rotation. Educ. psychol. measmt. 57, 33±59 (1997). Pawlik, K.: Der maximale Kontingenzkoeffizient im Falle nicht quadratischer Kontingenztafeln. Metrika 2, 150±166 (1959). Pawlik, K.: Right answers to wrong questions? A re-examination of factor analytic personality research and its contribution to personality theory. In: Royce, J. R. (ed.): Multivariate analysis and psychological theory. New York: Academic Press 1973. Pawlik, K.: Dimensionen des Verhaltens. Stuttgart: Huber 1976. Pearl, I.: Causality-Models, Reasoning, and Inference. Cambridge, UK: Cambridge University Press 2000. Pearson, E. S., Hartley, H. O.: Biometrika tables for statisticians, Vol. I. New York: Cambridge 1966. Pearson, E. S., Hartley, H. O.: Biometrika tables for statisticians, vol. II. Cambridge: The University Press, 1972. Pearson, K.: Contributions to the mathematical theory of evolution II: Skew variation in homogeneous material. Philosophical transactions of the Royal Society of London 186, 343±414 (1895).
Pearson, K.: On further methods of determining correlation. Draper's Company Memoirs. Biometric Series IV 1907. Pearson, K., Filon, L. N. G.: Mathematical contributions to the theory of evolution IV. On the probable errors of frequency constants and on the influence of random selection on variation and correlation. Philosophical transactions of the Royal Society, Series A, 191, 229±311 (1898). Pedhazur, E. J.: Coding subjects in repeated measures designs. Psychol. Bull. 84, 298±305 (1977). Pedhazur, E. J.: Multiple regression in behavioral research. Explanation and prediction, 2nd ed. New York: Holt, Rinehart and Winston 1982. Penfield, D. A., Koffler, S. L.: A nonparametric K-sample test for equality of slopes. Educ. psychol. measmt. 46, 537±542 (1986). Peng, K. C.: The design and analysis of scientific experiments. Reading, Mass.: Addison-Wesley 1967. Pennell, R.: Routinely computable confidence intervals for factor loadings using the ªjackknifeº. Brit. J. Math. Statist. Psychol. 25, 107±114 (1972). Pfanzagl, J.: Theory of measurement. Wçrzburg: Physika 1971. Pfanzagl, J.: Allgemeine Methodenlehre der Statistik, I und II. Berlin: de Gruyter 1972 (Bd. I), 1974 (Bd. II). Pfeifer, A., Schmidt, P.: LISREL: Die Analyse komplexer Strukturgleichungsmodelle. Stuttgart: Fischer 1987. Phillips, J. P. N.: A simplified accurate algorithm for the Fisher-Yates exact test. Psychometrika 47, 349±351 (1982). Phillips, L. D.: Bayesian statistics for social sciences. London: Nelson 1973. Pillai, K. C. S.: Some new test criteria in multivariate analysis. Annals of the mathematical statistics 26, 117 (1955). Pinzka, C., Saunders, D. R.: Analytical rotation to simple structure. II: Extension to an oblique solution. Research bulletin, RB-34-31. Princeton, New York: Educational Testing Service 1954. Podani, J.: New combinational SAHN clustering methods. Unpublished manuscript. Research Institute of Ecology and Botany. Hungarian Academy of Sciences, 2163 Vacratat, Hungary 1988. Pollard, P., Richardson, J. T. E.: On the probability of making type I errors. Psychol. Bull. 102, 159±163 (1987). Popper, K. R.: Logik der Forschung. Tçbingen: Mohr 1966. Pratt, J. W., Raiffa, H., Schlaifer, R.: Introduction to statistical decision theory. New York: McGraw-Hill 1965. Press, S. J.: Applied multivariate analysis. New York: Holt, Rinehart and Winston 1972. Preuss, L., Vorkauf, H.: The knowledge content of statistical data. Psychometrika 62, 133±161 (1997). Raghunathan, T. E., Rosenthal, R., Rubin, D. B.: Comparing Correlated but Nonoverlapping Correlations. Psychol. Methods 1, 178±183 (1996). Raju, N. S.: Obtaining the squared multiple correlations from a singular correlation matrix. Educ. psychol. measmt. 43, 127±130 (1983). Ralston, A., Wilf, H. S.: Mathematische Methoden fçr Digitalrechner. Mçnchen: Oldenbourg 1967. Ramsey, P. H.: Exact type I error rates for robustness of Student's t-test with unequal variances. J. Educ. Stat. 5, 337±349 (1980).
aLiteraturverzeichnis Ramsey, P. H.: Power of univariate pairwise multiple comparison procedures. Psychol. Bull. 90, 352±366 (1981). Ramsey, P. H.: Comparison of Closed Testing Procedures for Pairwise Testing of Means. Psychol. Methods 7, 504±523 (2002). Rand, W. M.: Objective criteria for the evaluation of clustering methods. J. Am. Statist. Assoc. 66, 846±850 (1971). Rao, C. R.: Advanced statistical methods in biometric research. New York: Wiley 1952. Rao, C. R.: Estimation and tests of significance in factor analysis. Psychometrika 20, 93±111 (1955). Rao, C. R.: Linear Statistical Inference and its Applications. New York: Wiley 1965. Rao, C. R.: Advanced statistical methods in biometric research. New York: Hafner 1970. Rasmussen, J. L.: Algorithm for Shaffer's multiple comparison tests. Educ. psychol. measmt. 53, 329±335 (1993). Rasmussen, J. L., Heumann, K. A., Heumann, M. T., Botzum, M.: Univariate and multivariate groups by trials analysis under violation of variance-covariance and normality assumptions. Mult. beh. res. 24, 93±105 (1989). Rengers, M.: Varianzanalyse ± Ursachen und Folgen ungleicher Zellbesetzungen und ihre Behandlung çber verschiedene Læsungsansåtze. Aachen: Shaker Verlag 2004. Rese, M.: Logistische Regression. In: Backhaus, K. et al. (Hrsg.): Multivariate Analysemethoden, S. 105±144. Heidelberg: Springer 2000. Revenstorf, D.: Lehrbuch der Faktorenanalyse. Stuttgart: Kohlhammer 1976. Revenstorf, D.: Vom unsinnigen Aufwand. Archiv f. Psychol. 130, 1±36 (1978). Revenstorf, D.: Faktorenanalyse. Stuttgart: Kohlhammer 1980. Reynolds, T. J., Jackosfsky, E. F.: Interpreting canonical analysis. The use of orthogonal transformations. Educ. psychol. measmt. 41, 661±671 (1981). Rietz, C.: Faktorielle Invarianz: Die inferenzstatistische Absicherung von Faktorstrukturvergleichen. Bonn: PACE 1996. Rietz, C., Rudinger, G., Andres, J.: Lineare Strukturgleichungsmodelle. In: Erdfelder, E., Mausfeld, R., Meiser, T., Rudinger, G. (Hrsg.): Handbuch quantitative Methoden (S. 253±268). Weinheim: Beltz 1996. Rippe, P. R.: Application of a large sampling criterion to some sampling problems in factor analysis. Psychometrika 18, 191±205 (1953). Ritschard, G., Kellerhals, J., Olszak, M., Sardi, M.: Path analysis with partial association measures. Quality and Quantity 30, 37±60 (1996). Robert, C. P., Casella, G.: Monte Carlo Statistical Methods, 2nd printing. New York: Springer 2000. Roberts, F. S.: Measurement theory. London: Addison-Wesley 1979. Robson, D. S.: A simple method for construction of orthogonal polynomials when the independent variable is unequally spaced. Biometrics 15, 187±191 (1959). Rochel, H.: Planung und Auswertung von Untersuchungen im Rahmen des allgemeinen linearen Modells. Heidelberg: Springer 1983.
855
Rock, D. A., Linn, R. L., Evans, F. R., Patrick, C.: A comparison of predictor selection techniques using Monte Carlo methods. Educ. psychol. measmt. 30, 873±884 (1970). Rock, D. A., Werts, C. E., Linn, R. A.: Structural equations as an aid in the interpretation of the non-orthogonal analysis of variance. Multivariate behavioral research 11, 443±448 (1976). Rogan, J. C., Keselman, H. J., Mendoza, J. L.: Analysis of repeated measurements. Br. J. Math. Statist. Psychol. 32, 269±286 (1979). Rogers, D. J., Tanimoto, T. T.: A computer program for classifying plants. Science 132, 1115±1118 (1960). Rogge, K. E. (Hrsg.): Methodenatlas fçr Sozialwissenschaftler. Heidelberg: Springer 1995. Rogosa, D.: Comparing nonparallel regression lines. Psychol. Bull. 88, 307±321 (1980). Romaniuk, J. G., Levin, J. R., Lawrence, J. H.: Hypothesistesting procedures in repeated-measures designs: On the road map not taken. Child development 48, 1757±1760 (1977). Ronis, D. L.: Comparing the magnitude of effects in ANOVA designs. Educ. psychol. measmt. 41, 993±1000 (1981). Rosenstiel, von L., Schuler, H.: A wie Arnold, B wie Bender . . . zur Sozialdynamik der akademischen Karriere. Psychol. Rundschau 26, 183±190 (1975). Rosenthal, R.: Experimenter effects in behavioral research. New York: Appleton 1966. Rosenthal, R., Rosnow, R. L. (eds.): Artifact in behavioral research. New York: Academic Press 1969. Rosenthal, R., Rubin, D. B.: A note on percent variance explained as a measure of the importance of effects. J. appl. soc. psychol. 9, 395±396 (1979). Rosenthal, R., Rubin, D. B.: A simple general purpose display of magnitude of experimental effect. J. Educ. Psychol. 74, 166±169 (1982). Rosnow, R. L., Rosenthal, R.: Definition and interpretation of interactive effects. Psychol. Bull. 105, 143±146 (1989). Rossi, J. S.: One-way ANOVA from summary statistics. Educ. psychol. measmt. 47, 37±38 (1987). Rothstein, H. R., Borenstein, M., Cohen, J., Pollack, G.: Statistical power analysis for multiple regression/correlation: A computer program. Educ. psychol. measmt. 50, 819±830 (1990). Roy, S. N.: On a heuristic method of test construction and its use in multivariate analysis. Ann. math. statist. 24, 220±238 (1953). Royce, J. R.: The development of factor analysis. J. Gen. Psychol. 58, 139±164 (1958). Royce, J. R. (ed.): Multivariate analysis and psychological theory. New York: Academic Press 1973. Royston, J. P.: A Remark on Algorithm AS181: The W-Test of Normality. Applied Statistics 44, 547±551 (1995). Rubin, J.: Optimal classifications into groups: An approach for solving the taxonomy problem. Journal of the theoretical biology 15, 103±144 (1967). Rubinstein, R. Y.: Simulation and the Monte Carlo method. New York: Wiley 1981. Rucci, A. J., Tweney, R. D.: Analysis of variance and the ªsecond disciplineº of scientific psychology: A historical account. Psychol. Bull. 87, 166±184 (1980).
856
Literaturverzeichnis
Rudinger, G., Andres, J., Rietz, C.: Structural equation models for studying intellectual development. In: D. Magnussen, L. R. Bergman, G. Rudinger, B. Tærestad (eds.): Problems and methods in longitudinal research, pp. 308±322. Cambridge: Cambridge University Press 1990. Ruf, H.: Der Zusammenhang anfånglicher Ressourcen und spåterem Therapieerfolg in der stationåren Rehabilitationsbehandlung Alkoholabhångiger. Unveræffentlichte Diplomarbeit. Institut fçr Psychologie und Arbeitswissenschaft, TU Berlin (2003). Rçtzel, E.: Zur Ausgleichsrechnung: Die Unbrauchbarkeit von Linearisierungsmethoden beim Anpassen von Potenz- und Exponentialfunktionen. Archiv f. Psychol. 128, 316±322 (1976). Rupinski, M. T., Dunlap, W. P.: Approximating Pearson product-moment-correlations from Kendall's tau and Spearman's rho. Educ. psychol. measmt. 56, 419±429 (1996). Ryan, T. A.: Comment on ªProtecting the overall rate of type I errors for pairwise comparisons with an omnibus test statisticº. Psychol. Bull. 88, 354±355 (1980). Sachs, L.: Statistische Auswertungsmethoden, 10. Aufl. Berlin: Springer 2002. Santa, J. L., Miller, J. J., Shaw, M. L.: Using Quasi-F to prevent alpha inflation due to stimulus variation. Psychol. Bull. 86, 37±46 (1979). Santner, T. J., Duffy, D. E.: The statistical analysis of discrete data. New York: Springer 1989. Sarris, V.: Zum Problem der Kausalitåt in der Psychologie. Ein Diskussionsbeitrag. Psychol. Beitråge 10, 173±186 (1967). Sarris, V.: Methodologische Grundlagen der Experimentalpsychologie 1: Erkenntnisgewinnung und Methodik. Mçnchen: Reinhardt 1990. Sarris, V.: Methodische Grundlagen der Experimentalpsychologie 2: Versuchsplanung und Stadien. Mçnchen: Reinhardt 1992. Satterthwaite, F. E.: An approximate distribution of estimates of variance components. Biometrics Bull. 2, 110±114 (1946). Saunders, D. R.: Moderator variables in prediction. Educ. psychol. measmt. 16, 209±222 (1956). Saunders, D. R.: Transvarimax: some properties of the ratiomax and equamax criteria for blind orthogonal rotation. Paper delivered at the meeting of the American Psychological Association, St. Louis 1962. Savage, I. R.: Probability inequalities of the Tschebycheff type. J. Res. Nat. Bur. Stds. 65 B, 211±222 (1961). Saville, D. J.: Multiple comparison procedures: The practical solution. The Americ. Statist. 44, 174±180 (1990). Sawilowsky, S. S., Blair, R. C.: A more realistic look at the robustness and type II error properties of the t test to departures from population normality. Psychological Bulletin 111, 352±360 (1992). Schafer, J. L., Graham, J. W.: Missing Data: Our View of the State of the Art. Psychol. Methods 7, 147±177 (2002). Scheff, H.: A method of judging all contrasts in the analysis of variance. Biometrika 40, 87±104 (1953). Scheff, H.: The analysis of variance. New York: Wiley 1963. Scheibler, D., Schneider, W.: Monte Carlo tests of the accuracy of cluster analysis algorithms: A comparison of
hierarchical and nonhierarchical methods. Mult. beh. res. 20, 283±304 (1985). Schiller, W.: Vom sinnvollen Aufwand in der Faktorenanalyse. Archiv fçr Psychologie 140, 73±95 (1988). Schlosser, O.: Einfçhrung in die sozialwissenschaftliche Zusammenhangsanalyse. Hamburg: Rowohlt 1976. Schmetterer, L.: Einfçhrung in die mathematische Statistik. Wien: Springer 1966. Schmidt, F.: Statistical significance testing and cumulative knowledge in psychology: Implications for the training of researchers. Psychological Methods 1, 115±129 (1996). Schmitt, S. A.: Measuring uncertainty: an elementary introduction to Bayesian statistics. Reading, Mass.: AddisonWesley 1969. Schneeweiss, H., Mathes, H.: Factor Analysis and Principal Components. J. Mult. Anal. 55, 105±124 (1995). Schneewind, K. A., Cattell, R. B.: Zum Problem der Faktoridentifikation: Verteilungen und Vertrauensintervalle von Kongruenzkoeffizienten fçr Persænlichkeitsfaktoren im Bereich objektiv-analytischer Tests. Psychol. Beitr. 12, 214±226 (1970). Schnell, R., Hill, P., Esser, E.: Methoden der empirischen Sozialforschung. Mçnchen: Oldenbourg 1999. Schænemann, P. H.: Varisim: a new machine method for orthogonal rotation. Psychometrika 31, 235±248 (1966 a). Schænemann, P. H.: A generalized solution to the orthogonal Procrustes problem. Psychometrika 31, 1±10 (1966 b). Schwarz, H.: Stichprobenverfahren. Mçnchen: Oldenbourg 1975. Seaman, M. A., Levin, J. R., Serlin, R. C.: New developments in pairwise multiple comparison: Some powerful and practicable procedures. Psychol. Bull. 110, 577±586 (1991). Seber, G. A. F., Wild, D. J.: Nonlinear Regression. New York: Wiley 1989. Sedlmeier, P., Gigerenzer, G.: Do studies of statistical power have an effect on the power of study? Psychol. Bull. 105, 309±316 (1989). Seifert, T. L.: Determining effect sizes in various experimental designs. Educ. psychol. measmt. 51, 341±347 (1991). Selg, H., Klapprott, J., Kamenz, R.: Forschungsmethoden der Psychologie. Stuttgart: Kohlhammer 1992. Shaffer, J. P.: Probability of directional errors with disordinal (qualitative) interaction. Psychometrika 56, 29±38 (1991). Shaffer, J. P.: Modified sequentially rejective multiple test procedures. J. Am. Statist. Assoc. 81, 826±831 (1993). Shaffer, J. P., Gillo, M. W.: A multivariate extension of the correlation ratio. Educ. psychol. measmt. 34, 521±524 (1974). Shapiro, S. S., Wilk, M. B., Chen, H. J.: A comparative study of various tests of normality. J. Am. Statist. Assoc. 63, 591±611 (1968). Sherif, M., Harvey, O. J., White, B. J., Hood, W. R., Sherif, C.: Intergroups conflict and cooperation: The robbers cave experiment. Norman, Oklahoma: University Book Exchange 1961.
aLiteraturverzeichnis Shiffler, R. E., Harwood, G. B.: An empirical assessment of realized a-risk when testing hypothesis. Educ. psychol. measmt. 45, 811±823 (1985). Shine II, L. C.: The fallacy of replacing on a priori significance level with an a posteriori significance level. Educ. psychol. measmt. 40, 331±335 (1980). Siegel, S.: Non-parametric statistics for the behavioral sciences. New York: McGraw-Hill 1956. Sievers, W.: Bootstrap-Konfidenzintervalle und BootstrapAkzeptanz-Bereiche hypothesenprçfender Verfahren. Zeitschr. f. exp. angew. Psychol. 37, 85±123 (1990). Silbereisen, R. K.: Prådiktoren der Rollençbernahme bei Kindern. Psychologie in Erziehung und Unterricht 24, 86±92 (1977). Silver, N. C., Dunlap, W. P.: Averaging correlation coefficients: Should Fisher's z-transformation be used? J. Appl. Psychol. 72, 146±148 (1987). Silver, N. C., Dunlap, W. P.: A Monte Carlo study for testing the significance of correlation matrices. Educ. psychol. measmt. 49, 563±569 (1989). Silver, N. C., Finger, M. S.: A Fortran 77 program for determining the minimum significant increase of the multiple correlation coefficient. Educ. psychol. measmt. 53, 703±706 (1993). Silver, N. C., Wadiak, D. L., Massey, C. J.: A Microsoft Fortran 77 program for testing the difference among independent first-order partial correlations. Educ. psychol. measmt. 55, 245±248 (1995). Silverstein, A. B.: Multiple regression analysis of split-plot factorial designs. Educ. psychol. measmt. 45, 845±849 (1985). Sinha, A. R., Buchanan, B. S.: Assessing the stability of principal components using regression. Psychometrika 60, 355±369 (1995). Sixtl, F.: Faktoreninvarianz und Faktoreninterpretation. Psychol. Beitr. 10, 99±111 (1967). Sixtl, F.: Der Mythos des Mittelwertes. Neue Methodenlehre der Statistik. Mçnchen: Oldenbourg 1993. Skakun, E. N., Maguire, T. O., Hakstian, A. R.: An application of inferential statistics to the factorial invariance problem. Mult. beh. res. 11, 325±338 (1976). Skakun, E. N., Maguire, T. O., Hakstian, A. R.: Erratum. Multir. beh. res. 12, 68 (1977). Sletten, O.: Algorithms for hand calculators to approximate Gaussian and chi-square probabilities. Educ. psychol. measmt. 40, 899±910 (1980). Smith, R. L., Ager Jr., J. W., Williams, D. L.: Suppressor variables in multiple regression/correlation. Educ. psychol. measmt. 52, 17±28 (1992). Snedecor, G. W.: Statistical methods, 1. Aufl. 1937, 6. Aufl. (gemeinsam mit Cochran, W. G.) 1967. Ames, Iowa: Univ. Press 1967. Snook, S. C., Gorsuch, R. L.: Component analysis versus common factor analysis: A Monte Carlo study. Psychol. Bull. 106, 148±154 (1989). Snyder, C. W., Law, H. G.: Three-mode common factor analysis: Procedure and computer programs. Mult. beh. res. 14, 435±441 (1979). Sobel, M. E.: Effect analysis and causation in linear structural equation models. Psychometrika 55, 495±515 (1990).
857
Særbom, D.: An alternative to the methodology for analysis of covariance. Psychometrika 43, 381±396 (1978). Sokal, R. R., Michener, C. D.: A statistical method for evaluating systematic relationships. Univ. of Kansas Science Bulletin 38, 1409±1438 (1958). Sokal, R. R., Sneath, P. H. A.: Principles of numerical taxonomy. San Francisco: Freeman 1963. Spearman, C.: ªGeneral intelligenceº, objectively determined and measured. Amer. J. Psychol. 15, 201±293 (1904). Spåth, H.: Cluster-Analyse-Algorithmen zur Objektklassifizierung und Datenreduktion. Mçnchen: Oldenbourg 1977. S-Plus: Statistical science, Inc. (STATSCI), P.O. Box 65825, Seattle, WA 98145; (206) 322-8707 (1990). SPSS, X: User's guide. New York: McGraw-Hill 1983. SPSS inc. (ed.): SPSS Statistical Algorithms. Chicago, Ill: SPSS inc. 1991. Srivastava, A. B. L.: Effect of non normality on the power of the analysis of variance test. Biometrika 46, 114±122 (1959). Stanley, J. C.: An important similarity between biserial r and the Brogden-Cureton-Glass biserial r for ranks. Educ. psychol. measmt. 28, 249±253 (1968). Stanley, J. C., Wang, M. D.: Restrictions on the possible values of r12 , given r13 , and r23 . Educ. psychol. measmt. 29, 579±581 (1969). Staving, G. R., Acock, A. C.: Evaluating the degree of dependence for a set of correlations. Psychol. Bull. 83, 236±241 (1976). Steger, J. A. (ed.): Readings in statistics. New York: Holt, Rinehart and Winston 1971. Stegmçller, W.: Wissenschaftliche Erklårung und Begrçndung. Berlin: Springer 1969. Steiger, J. H.: Tests for comparing elements of a correlation matrix. Psychol. Bull. 87, 245±251 (1980). Steiger, J. H.: Driving Fast in Reverse. Journal of the American Statistical Association 96, 331±338 (2001). Steingrçber, H. J.: Indikation und psychologische Anwendung von verteilungsfreien Øquivalenten der Regressionskoeffizienten. Psychologie u. Praxis 14, 179±185 (1970). Steinhausen, D., Langer, K.: Clusteranalyse. Berlin: de Gruyter 1977. Steinley, D.: Local Optima in K-Means Clustering: What you don't know may hurt you. Psychol. Methods 8, 294±304 (2003). Stelzl, I.: Ein Verfahren zur Ûberprçfung der Hypothese multivariater Normalverteilung. Psychol. Beitråge 22, 610±621 (1980). Stelzl, I.: Fehler und Fallen in der Statistik. Bern: Huber 1982. Stelzl, I.: Changing a causal hypothesis without changing the fit: Some rules for generating equivalent path models. Multiv. beh. res. 21, 309±331 (1986). Stenger, H.: Stichprobentheorie. Wçrzburg: Physica 1971. Stevens, J.: Comment on Olson: Choosing a test statistic in multivariate analysis of variance. Psychol. Bull. 86, 355±360 (1979). Stevens, J.: Power for the multivariate analysis of variance tests. Psychol. Bull. 88, 728±737 (1980).
858
Literaturverzeichnis
Stevens, J.: Applied multivariate statistics for the social sciences. Hillsdale, New York: Erlbaum 1986. Stevens, J.: Applied multivariate statistics for the social sciences. Mahwah, New Jersey: Erlbaum 2002. Steward, D., Love, W.: A general canonical correlation index. Psychol. Bull. 70, 160±163 (1968). Steyer, R.: Theorie kausaler Regressionsmodelle. Stuttgart: Fischer 1992. Steyer, R., Eid, M.: Messen und Testen. Heidelberg: Springer 1993. Stoloff, P. H.: Correcting for heterogeneity of covariance for repeated measures designs of the analysis of variance. Educ. psychol. measmt. 30, 909±924 (1970). Stone, M.: Cross-validation choice and assessment of statistical predictions. J. Royal Statist. Soc., Series B, 39, 44±47 (1974). Stone-Romero, E. F., Anderson, L. E.: Relative power of moderated multiple regression and the comparison of subgroup correlation coefficients for detecting moderating effects. J. Appl. Psychol. 79, 354±359 (1994). Strauss, D.: Testing partial correlations when the third variable is measured with error. Educ. psychol. measmt. 41, 349±358 (1981). ªStudentº: The probable error of a mean. Biometrika 6, 1±25 (1908). Sturges, H. A.: The choice of a class intervall. J. Amer. Statist. Assoc. 21, 65±66 (1926). Suppes, P., Zinnes, J. L.: Basic measurement theory. In: Luce, R. D., Bush, R. R., Galanter, E. (eds.): Handbook of Mathematical Psychology, vol. I, pp. 1±76. New York: Wiley 1963. Swaminathan, H., De Friesse, F.: Detecting significant contrasts in analysis of variance. Educ. psychol. measmt. 39, 39±44 (1979). Tabachnik, B. G., Fidell, L. S.: Using multivariate statistics. New York: Harper & Row 1983. Tang, K. L., Algina, J.: Performance of four multivariate tests under variance-covariance heteroscedasticity. Multivariate Behavioral Research 28, 391±405 (1993). Tarski, A.: Introduction to logic. New York: Oxford Univ. Press 1965. Tatsuoka, M. M.: The relationship between canonical correlation and discriminant analysis. Cambridge, Mass.: Educational Research Corporation 1953. Tatsuoka, M. M.: Discriminant analysis. Institute for Personality and Ability Testing. 1602-04 Colorado Drive, Champaign, Illinois 61820, 1970. Tatsuoka, M. M.: Multivariate Analysis. New York: Wiley 1971. Tatsuoka, M. M.: Multivariate Analysis: Techniques for Educational and Psychological Research, 2nd ed. New York: Macmillan 1988. ten Berge, J. M. F.: Some relationships between descriptive comparison of components from different studies. Mult. beh. res. 21, 29±40 (1986 a). ten Berge, J. M. F.: Rotation to perfect congruence and crossvalidation of component weights across populations. Mult. beh. res. 21, 41±64 (1986 b). Tenenhaus, M., Young, F. W.: An analysis and synthesis of multiple correspondence analysis, optimal scaling, dual scaling, homogeneity analysis and other methods of
quantifying categorial multivariate data. Psychometrika 50, 91±119 (1985). Terell, C. D.: Table for converting the point biserial to the biserial. Educ. psychol. measmt. 42, 983±986 (1982 a). Terrell, C. D.: Significance tables for the biserial and the point biserial. Educ. psychol. measmt. 42, 975±981 (1982 b). Thalberg, S. P.: Reading rate and immediate versus delayed retention. J. Educ. Psychol. 58, 373±378 (1967). Tholey, P.: Signifikanztest und Bayessche Hypothesenprçfung. Archiv f. Psychol. 134, 319±342 (1982). Thomas, C. L. P., Schofield, H.: Sampling Source Book: An Indexed Bibliography of the Literature of Sampling. Woborn, MA: Butterworth-Heinemann 1996. Thomas, D. R.: Interpreting discriminant functions: A data analytic approach. Multivariate Behavioral Research 27, 335±362 (1992). Thompson, B.: Program FACSTRAP: A program that computes bootstrap estimates of factor structure. Educ. psychol. measmt. 48, 681±686 (1988). Thompson, B.: Finding a correction for the sampling error in multivariate measures of relationship: A Monte Carlo study. Educ. psychol. measmt. 50, 15±31 (1990 a). Thompson, B.: Multinor: A Fortran program that assists in evaluating multivariate normality. Educ. psychol. measmt. 50, 845±848 (1990 b). Thompson, B.: Stepwise regression and stepwise discriminant analysis need not apply here: A guidelines editorial. Educ. psychol. measmt. 55, 525±534 (1995 a). Thompson, B.: Exploring the replicability of a study's result: Bootstrap statistics for the multivariate case. Educ. psychol. measmt. 55, 84±94 (1995 b). Thompson, B.: AERA editorial policies regarding statistical significance testing: Three suggested reforms. Educational Researcher 25, 26±30 (1996). Thompson, B., Borello, G. M.: The importance of structure coefficients in regression research. Educ. psychol. measmt. 45, 203±209 (1985). Thompson, P. A.: Contrasts for the residual interaction in latin square designs. Educ. psychol. measmt. 48, 83±88 (1988). Thorndike, R. M.: Correlation procedures for research. New York: Gardner 1978. Thorndike, R. M., Weiss, D. J.: A study of the stability of canonical correlations and canonical components. Educ. psychol. measmt. 33, 123±134 (1973). Thurstone, L. L.: Multiple factor analysis. Psychol. Rev. 38, 406±427 (1931). Thurstone, L. L.: Multiple factor analysis. Chicago: Univ. of Chicago Press 1947. Tideman, T. N.: A generalized v2 for the significance of differences in repeated, related measures applied to different samples. Educ. psychol. measmt. 39, 333±336 (1979). Tiku, M. L., Balakrishnan, N.: Testing the equality of variance-covariance matrices the robust way. Communications in statistics-theory and methods 13, 3033±3051 (1985). Timm, N. H.: Multivariate analysis. Monterey, CA: Brooks/ Cole publ. 1975. Timm, N. H.: Applied multivariate analysis. New York: Springer 2002.
aLiteraturverzeichnis Tippett, L. H. C.: The methods of statistics, 1. Aufl. 1931, 4. Aufl. 1952. New York: Wiley 1952. Tisak, J.: Determination of the regression coefficients and their associated standard errors in hierarchical regression analysis. Mult. Beh. Res. 29, 185±201 (1994). Torgerson, W. S.: Theory and methods of scaling. New York: Wiley 1958. Toutenberg, H.: Statistical Analysis of Designed Experiments. New York: Springer 2002. Traxel, W.: Grundlagen und Methoden der Psychologie: Eine Einfçhrung in die psychologische Forschung. Bern: Huber 1974. Tryfos, P.: Sampling Methods for Applied Research: Text and Cases. New York: Wiley 1996. Tryon, R. C.: Cluster analysis. Ann Arbor: Edwards Brothers 1939. Tryon, R. C., Bailey, D. E.: Cluster analysis. New York: McGraw-Hill 1970. Tucker, L. R.: A method for synthesis of factor analytic studies. Personnel research section report no. 984. Washington, D.C.: Department of the Army 1951. Tucker, L. R.: Some mathematical notes on three mode factor analysis. Psychometrika 31, 279±311 (1966). Tucker, L. R.: Implications of factor analysis of three-way matrices for measurement of change. In: Harris, C. W. (ed.): Problems in measuring change. Madison, Milwaukee: The Univ. of Wisconsin Press 1967. Tucker, L. R., Cooper, L. G., Meredith, W.: Obtaining squared multiple correlations from a correlation matrix which may be singular. Psychometrika 37, 143±148 (1972). Tukey, J. W.: Exploratory data analysis. Reading, Mass.: Addison-Wesley 1977. Tukey, J. W.: One degree of freedom for non-additivity. Biometrics 5, 232±242 (1949). Tzelgov, J., Henik, A.: A definition of suppression situations for the general linear model: A regression weights approach. Educ. psychol. measmt. 45, 281±284 (1985). Tzelgov, J., Henik, A.: On the differences between Conger's and Velicer's definitions of suppressor. Educ. psychol. measmt. 41, 1027±1031 (1981). Tzelgov, J., Henik, A.: Suppression situations in psychological research: Definitions, implications, and applications. Psychological Bulletin 109, 524±536 (1991). Tzelgov, J., Stern, I.: Relationships between variables in three variables linear regression and the concept of suppressor. Educ. psychol. measmt. 38, 325±335 (1978). Ûberla, K.: Faktorenanalyse. Heidelberg: Springer 1971. Vahle, H., Tews, G.: Wahrscheinlichkeit einer v2 -Verteilung. Biometrische Zeitschrift 11, 175±202 (1969). Van de Geer, J. P.: Introduction to multivariate analysis for the social sciences. San Francisco: Freeman 1971. Vegelius, J.: On the utility of the E-correlation coefficient concept in psychological research. Educ. psychol. measmt. 38, 605±611 (1978). Velicer, W. F.: A comparison of the stability of factor analysis, principal component analysis and rescaled image analysis. Educ. psychol. measmt. 34, 563±572 (1974). Velicer, W. F.: An empirical comparison of the similarity of principal component, image, and factor patterns. Multivariate behavioral research 11, 3±22 (1977).
859
Velicer, W. F.: Suppressor variables and the semipartial correlation coefficient. Educ. psychol. measmt. 38, 953±958 (1978). Velicer, W. F., Peacock, A. C., Jackson, D. M.: A comparison of component and factor patterns: A Monte Carlo approach. Mult. beh. res. 17, 371±388 (1982). Viernstein, N.: A coefficient for measuring the agreement on bipolar rating scales. Educ. psychol. measmt. 50, 273±278 (1990). Vincent, P. F.: The origin and development of factor analysis. Appl. Statistic 2, 107±117 (1953). Vukovich, A.: Faktorielle Typenbestimmung. Psychol. Beitråge 10, 112±121 (1967). Wainer, H.: On the sensitivity of regression and regressors. Psychol. Bull. 85, 267±273 (1978). Wainer, H.: One Cheer for Null Hypothesis Significance Testing. Psychol. Methods 4, 212±213 (1999). Wainer, H., Thissen, D.: Three steps towards robust regression. Psychometrika 41, 9±34 (1976). Wainer, H., Thissen, D.: Graphical data analysis. Annual review of psychol. 32, 191±241 (1981). Walker, H. M.: Studies in the history of statistical method. Baltimore: Williams and Wilkins 1929. Walker, H. M., Lev, J.: Statistical inference. New York: Holt, Rinehart and Winston 1953. Wallenstein, S., Fleiss, J. L.: Repeated measurements analysis of variance when the correlations have a certain pattern. Psychometrika 44, 229±233 (1979). Wang, M. D.: Estimation of x2 for a one-way, fixed-effects model when sample sizes are disproportionate. Educ. psychol. measmt. 42, 167±179 (1982). Ward, J. H.: Hierarchical grouping to optimize an objective function. J. Am. Statistical Assoc. 58, 236±244 (1963). Weber, E.: Grundriû der biologischen Statistik fçr Naturwissenschaftler und Mediziner, 1. Aufl. 1948, 7. Aufl. 1972. Jena: Fischer 1972. Weede, E.: Zur Methodik der kausalen Abhångigkeitsanalyse (Pfadanalyse) in der nicht-experimentellen Forschung. Kælner Ztschr. f. Soziol. u. Sozialpsychol. 22, 532±550 (1970). Weiling, F.: Die Varianzanalyse. Eine Ûbersicht mit historischem Aspekt. Vortrag 19. Kolloquium der Deutschen Region der Internationalen Biometrischen Gesellschaft, Berlin 1973. Weiss, D. J.: Snapshot analysis of variance: Comparing groups with unequal numbers of scores per subject. Perceptual and motor skills 61, 420±422 (1985). Welch, B. L.: The generalization of Student's problem when several different population variances are involved. Biometrika 34, 28±35 (1947). Wendt, D.: Versuche zur Erfassung eines persænlichen Verlåûlichkeitsniveaus. Z. Psychol. 172, 40±81 (1966). Wendt, H. W.: Spurious correlation, revisited: a new look at the quantitative outcomes of sampling heterogeneous groups and/or at the wrong time. Archiv f. Psychol. 128, 292±315 (1976). Werner, J.: Lineare Statistik. Allgemeines Lineares Modell. Weinheim: Psychologie Verlags Union 1997. Wert, J. E., Neidt, O. N., Ahmann, J. S.: Statistical methods in educational and psychological research. New York: Appleton-Century-Crofts 1954.
860
Literaturverzeichnis
Werts, C. E., Linn, R. L.: Problems with inferring treatment effects from repeated measures. Educ. psychol. measmt. 31, 857±866 (1971). West, S. G.: New approaches to missing data in psychological research: introduction to the special section. Psychol. Methods 6, 315±316 (2001). Westerman, R.: Wissenschaftstheorie und Experimentalmethodik. Gættingen: Hofgrefe 2000. Wickens, T. D.: Multiway contingency table analysis for the social sciences. Hillsdale, New York: Erlbaum 1989. Wiedemann, C. F., Fenster, C. A.: The use of chance corrected percentage of agreement to interpret the results of a discriminant analysis. Educ. psychol. measmt. 38, 29±35 (1978). Wilcox, R. R.: Comparing the variances of dependent groups. Psychometrika 54, 305±315 (1989). Wilcox, R. R.: The percentage bend correlation coefficient. Psychometrika 59, 601±616 (1994). Wilcox, R. R.: Testing the hypothesis of independance between two sets of variates. Mult. Beh. Res. 30, 213±225 (1995). Wilcoxon, F.: Individual comparisons by ranking methods. Biometrica 1, 80±83 (1945). Wilcoxon, F., Probability tables for individual comparisons by ranking methods. Biometrics 3, 119±122 (1947). Wilkinson, L.: Tests of significance in stepwise regression. Psychol. Bull. 86, 168±174 (1979). Wilks, S. S.: Certain generalizations in the analysis of variance. Biometrika 24, 471±494 (1932). Williams, E. J.: Experimental designs balanced for the estimation of residual effects of treatments. Austr. J. Sci. Res. 2, 149±168 (1949). Williams, R. H., LeBlanc, W. G.: Pairwise comparisons among proportions. Educ. psychol. measmt. 55, 445±447 (1995). Willson, V. L.: Research techniques in AERJ articles: 1969 to 1975. Educ. Researcher 9, 5±10 (1980). Wilson, G. A., Martin, S. A.: An empirical comparison of two methods for testing the significance of a correlation matrix. Educ. psychol. measmt. 43, 11±14 (1983). Wilson, V. L.: Critical values of the rank-biserial correlation coefficient. Educ. psychol. measmt. 36, 297±300 (1976). Winer, B. J.: Statistical principles in experimental design, 2nd ed. New York: McGraw-Hill 1971. Winer, B. J., Brown, D. R., Michels, K. M.: Statistical principles in experimental design, 3rd ed. New York: McGrawHill 1992. Winkler, R. L.: An introduction to Bayesian inference and decision. New York: Holt, Rinehart and Winston 1972. Winkler, W.: Vorlesungen zur mathematischen Statistik. Teubner 1983. Wishart, D.: CLUSTAN: User Manual. Program library unit, Edinburgh Univ., Edinburgh 1978. Wishart, D.: CLUSTAN: User Manual supplement. Program library unit, Edinburgh Univ., Edinburgh 1982. Wishart, D.: CLUSTAN: User manual, 4th ed. Computer laboratory, University of St. Andrews 1987. Wishart, J.: Bibliography of agricultural statistics 1931±33. J. Roy. Statistic. Soc., suppl. 1, 94±106 (1934). Wishart, J., Metakides, T.: Orthogonal polynomial fitting. Biometrika 40, 361±369 (1953).
Witte, E. H.: Zur Logik und Anwendung der Inferenzstatistik. Psychol. Beitråge 19, 290±303 (1977). Witte, E. H.: Zum Verhåltnis von Merkmalen zu Merkmalstrågern in der Faktorenanalyse. Psychol. und Praxis 22, 83±89 (1978). Witte, E. H.: Signifikanztest und statistische Inferenz. Stuttgart: Enke 1980. Witte, E. H., Horstmann, H.: Kanonische Korrelationsanalyse: Ihre Øhnlichkeit zu anderen Verfahren und zwei Anwendungsbeispiele aus dem Bereich GraphometriePersænlichkeit. Psychol. Beitråge 18, 553±570 (1976). Witting, H.: Mathematische Statistik, 3. Aufl. Teubner 1978. Wittmann, W. W.: Drei Klassen verschiedener faktorenanalytischer Modelle und deren Zusammenhang mit dem Konzept der Alpha-Generalisierbarkeit der klassischen Testtheorie. Psychol. Beitråge 20, 456±470 (1978). Wolf, B.: Invariante Test- und Effektmaûe sowie approximative Prçfgræûen bei multivariaten parametrischen Analysen. Empirische Pådagogik 2, 165±197 (1988). Wolins, L.: Interval measurement: Physics, Psychophysics, and metaphysics. Educ. psychol. measmt. 38, 1±9 (1978). Wood, D. A., Erskine, J. A.: Strategies in canonical correlation with application to behavioral data. Educ. psychol. measmt. 36, 861±878 (1976). Woodward, J. A., Overall, J. E.: Nonorthogonal analysis of variance in repeated measures experimental designs. Educ. psychol. measmt. 36, 855±859 (1976 a). Woodward, J. A., Overall, J. E.: Factor analysis of rank-ordered data: An old approach revisited. Psychol. Bull. 83, 864±867 (1976 b). Wottawa, H.: Zum Problem der Abtestung der Verteilungsvoraussetzungen in Varianz- und Regressionsanalyse. Archiv f. Psychol. 134, 257±263 (1981/82). Wright, S. P.: Correlation and causation. J. Agric. Res. 20, 557±585 (1921). Wright, S. P.: Adjusted P-values for simultaneous inference. Biometrics 48, 1005±1013 (1993). Wu, Y. B.: The effects of heterogeneous regression slopes on the robustness of two test statistics in the analysis of covariance. Educ. psychol. measmt. 44, 647±663 (1984). Yao, Y.: An approximate degrees of freedom solution to the multivariate Behrens-Fisher problem. Biometrika 52, 139±147 (1965). Yu, M. C., Dunn, O. J.: Robust tests for the equality of two correlation coefficients: A Monte Carlo study. Educ. psychol. measmt. 42, 987±1004 (1982). Zahn, D. A., Fein, S. B.: Large contingency tables with large cell frequencies: A model search algorithm and alternative measures of fit. Psychol. Bull. 86, 1189±1200 (1979). Zalinski, J., Abrahams, N. M., Alf, E. Jr.: Computing tables for the tetrachoric correlation coefficient. Educ. psychol. measmt. 39, 267±275 (1979). Zar, J. H.: Significance testing of the Spearman rank correlation coefficient. J. Am. Stat. Assoc. 67, 578±580 (1972). Zimmermann, D. W., Zumbo, B. D.: The Relative Power of Parametric and Nonparametric Statistical methods. In: Keren, G., Lewis, C. (Eds.): A handbook for data analysis in the behavioral sciences. Methodologic issues, pp. 481±518. Hillsdale, New Jersey: Lawrence Erlbaum 1993.
aLiteraturverzeichnis Zinkgraf, S. A.: Performing factorial multivariate analysis of variance using canonical correlation analysis. Educ. psychol. measmt. 43, 63±68 (1983). Zæfel, P.: SPSS-Syntax. Die ideale Ergånzung fçr die effiziente Datenanalyse. Mçnchen: Pearson Studium 2002. Zoski, K. W., Jurs, S.: An objective counterpart to the visual scree test for factor analysis: The standard error scree. Educ. psychol. measmt. 56, 443±451 (1996). Zucker, D. M.: An analysis of variance pitfall. The fixed effects analysis in a nested design. Educ. psychol. measmt. 50, 731±738 (1990). Zurmçhl, R.: Matrizen und ihre technische Anwendung. Berlin: Springer 1964.
861
Zwick, R.: Nonparametric one way multivariate analysis of variance: A computational approach based on the PillaiBartlett trace. Psychol. Bull. 97, 148±152 (1985 a). Zwick, R.: Rank and normal scores alternatives to Hotelling's T2. Mult. beh. res. 21, 169±186 (1985 b). Zwick, W. R., Velicer, W. F.: Factors influencing four rules for determining the number of components to retain. Mult. beh. res. 17, 253±269 (1982). Zwick, W. R., Velicer, W. F.: Comparison of five rules of determining the number of components to retain. Psychol. Bull. 99, 432±442 (1986). Zysno, P. V.: Die Modifikation des Phi-Koeffizienten zur Aufhebung seiner Randverteilungsabhångigkeit. Methods of Psychological Research Online 2, 41±53 (1997).
863
Namenverzeichnis
A Abelson RP, Prentice DA 308 Abelson RP, Tukey JW 283 Abholz H (siehe Gleiss I et al) Abrahams NM (siehe Alf E) Abrahams NM (siehe Zalinski J et al) Acock AC (siehe Staving GR) Adams JL, Woodward JA 536 Adler F 169 Ager JW jr (siehe Smith RL et al) Aggarwal LK (siehe Bajgier SM) Agresti A 176 Agresti A, Wackerly D 173 Agresti A (siehe Morey LC) Ahmann JS (siehe Wert JE) Ahmann JS (siehe Wert JE et al) Aiken LR 174, 467 Aiken LR, West SG 463 Aitchison J 58 Aldendorfer MS (siehe Blasfield RK) Aleamoni LM 523 Alexander RA, Alliger GM, Carson KP, Barrett GV 231 Alexander RA, De Shon RP 370 Alexander RA, Hanges PJ, Alliger GM 219 Alexander RA, Scozzaro MJ, Borodkin LJ 222 Alexander RA (siehe Hanges PJ et al) Alf E, Abrahams N 87 Alf E jr (siehe Zalinski J et al) Algina J 355 Algina J, Keselman HJ 357, 450 Algina J, Olejnik SF 286, 328 Algina J, Oshima TC 590 Algina J, Seaman S 447 Algina J (siehe Coombs WT) Algina J (siehe Olejnik SF) Algina J (siehe Tang KL) Allen SJ, Hubbard R 545 Alliger GM (siehe Alexander RA et al) Allison DB (siehe Gorman BS et al) Amthauer R 626 Anastasi A 76 Anastasio EJ (siehe Evans SH) Anderberg MR 566, 570, 769 Anderson EB 176 Anderson LE (siehe Stone-Romero EF)
Anderson O 114 Anderson RL, Houseman EE 277 Anderson TW 587 Andres J 481, 489 Andres J (siehe Rietz C et al) Andres J (siehe Rudinger G et al) Andreû HJ, Hagenaars JA, Kçhnel S 176 Arabie P, Hubert LJ, De Soete G 566 Arabie P (siehe Hubert LJ) Archer CO, Jennrich RI 552 Arminger G 176, 515 Arminger G (siehe Browne MW) Arvey R (siehe Cole DA et al) Aserven E (siehe Kshirsagar AM) Assenmacher W 94, 97, 98 Attneave F 570, 618 Ayabe CR 454 Azen R, Budescu DV 453 B Backhaus K, Erichson B, Plinke W, Wçber R 477, 516 Bacon DR 216 Bailey JP jr (siehe Guertin WH) Bailey DE (siehe Tryon RC) Bailey KD 566 Bajgier SM, Aggarwal LK 165 Bakan D 120 Baker FB 226 Baker FB, Hubert LJ 577 Baker FB (siehe Collier RO jr et al) Balakrishnan N (siehe Tiku ML) Ball GH 566 Balla JR (siehe Marsh HW et al) Baltes PB (siehe Eyferth K) Baltes PB (siehe Nesselroade JR) Barclay DW (siehe Fornell C et al) Bardeleben H 560 Barker DG 220 Barr DR (siehe Burnett TD) Barrett GV (siehe Alexander RA et al) Bartlett MS 546, 594 Bartussek D 500, 562 Baty CF (siehe Kukuk CR) Becker RA, Chambers JM, Wilks AR 721
Bedlian AG (siehe Mossholder KW et al) Bedrick EJ 226, 227 Bedrick EJ, Breslin FC 228 Beelmann A, Bliesener T 222 Behrens JT 34 Benedetti JK (siehe Brown MB) Bentler PM 471 Bentler PM, Yuan KH 544 Berenson ML 283 Berger JO 58 Bergmann LR (siehe Olsson U) Bernitzke F (siehe Brandståtter J) Berry KJ 278, 281 Berry KJ, Martin TW, Olson KF 230 Berry KJ, Mielke PW 164, 167 Berry KJ (siehe Mielke PW) Besley DA, Kuh E, Welsch RE 453 Bickel PJ, Doksum K 128, 138 Bijman J 566 Birch HG 237 Bishir JW, Drewes DW 725 Bishop YMM, Fienberg SE, Holland PW 176 Blair RC, Higgings JJ 496 Blair RC (siehe Sawilowsky SS) Blalock HM 236 Blashfield RK 566, 573, 575, 581 Blashfield RK, Aldendorfer MS 565 Blashfield RK (siehe Morey LC et al) Bliesener T 212 Bliesener T (siehe Beelmann A) Bock HH 566 Bock RD 489, 593, 594, 597, 602 Bock RD, Haggard EA 594 Boehnke K 286 Boehnke K (siehe Bortz J et al) Boik RJ 274, 306, 308, 334 Bolch BW 97 Bollen KA, Long JS 481 Boneau CA 141, 286 Bonett DG 322, 362 Borenstein M (siehe Rothstein HR et al) Borg J (siehe Schænemann PH) Boring EG 76 Borodkin LJ (siehe Alexander RA et al) Borello GM (siehe Thompson B) Bortz J 557, 632
864
Namenverzeichnis
Bortz J, Dæring N 2, 4, 7, 9, 11, 26, 28, 58, 86, 88, 106, 128, 142, 150, 167, 184, 218, 221, 222, 248, 258, 292, 331 Bortz J, Lienert GA 124, 131, 150, 160, 161, 164, 170, 216, 230, 233, 234, 235, 284, 287, 359, 509, 568, 582, 626 Bortz J, Lienert GA, Boehnke K 130, 131, 150, 153, 161, 162, 165, 173, 176, 228, 232, 235, 272, 278, 507, 508, 568, 582, 626 Bortz J, Muchowski E 176, 507, 508 Bortz J (siehe Franke J et al) Bostrom A (siehe Delucchi K) Bættcher HR (siehe Guthke J et al) Botzum M (siehe Rasmussen JL et al) Boudon R 236 Bowers J 227 Boyd WM (siehe Hakstian AR) Boyle RP 236 Box GEP 141, 286, 328, 352, 354, 619 Bracht GH, Glass GV 301 Bradley DR, Bradley TD, McGrath SG, Cutcomb SD 176 Bradley JV 131, 176 Bradley TD (siehe Bradley DR et al) Brandståtter J, Bernitzke F 236 Braune P (siehe Franke J et al) Bravais A 205 Braver SL, Sheets VL 284 Breckenridge JN 573, 581, 583 Breckler SJ 481 Bredenkamp J 109, 120 Bredenkamp J (siehe Erdfelder E) Breen LJ (siehe Keselman HJ et al) Breslin FC (siehe Bedrick EJ) Bresnahan JL, Shapiro MM 173 Brett JM (siehe James LR et al) Brien CJ, Venables WN, James AT, Mayo O 540 Bring J 453 Broadbooks WJ, Elmore PB 554 Brosius G 727, 775 Brown DR (siehe Winer BJ et al) Brown MB, Benedetti JK 231 Browne MW 454 Browne MW, Arminger G 480 Browne MW, Cudeck R 454 Bryant FB, Jarnold PR 561 Bryk AS, Raudenbush SW 286, 508 Buchanan BS (siehe Sinha AR) Buchner A, Erdfelder E, Faul F 128 Buchner A (siehe Erdfelder E) Buck W 153 Budescu DV 453 Budescu DV (siehe Azen R) Bugelski R (siehe Miller NE) Bçhl A, Zæfel P 727 Bçhlmann H, Læffel H, Nievergelt E 58 Buja A, Eyuboglu N 546
Bunge M 236 Burnett TD, Barr DR 370 Burt C 514 Bçssing A, Jansen B 175 Byrne BM 471, 481 C Caffrey J (siehe Kaiser HF) Calinski RB, Harabasz J 577 Camilli G 170 Camilli G, Hopkins KD 169 Campell DT, Stanley JC 2 Campbell NA (siehe McKay RJ) Carlin JB (siehe Gelman A et al) Carnap R 5 Carriere KC (siehe Keselman HJ et al) Carroll JB 206, 214, 230, 548 Carroll JD (siehe Green PE) Carroll RJ, Ruppert D 214 Carson KP (siehe Alexander RA et al) Carter DS 451 Carver RP 120 Casella G (siehe Robert CP) Castellan NJ jr 231 Cattell RB 515, 544, 561, 618 Cattell RB, Muerle JL 548 Cattell RB, Vogelmann S 544 Cattell RB (siehe Hakstian AR et al) Cattell RB (siehe Schneewind KA) Chadbourn RA (siehe Hopkins KD) Chaffin WW (siehe Cross EM) Chambers JM (siehe Becker RA) Charter RA, Larsen BS 219 Chen HJ (siehe Shapiro SS et al) Cheng R, Milligan GW 583 Chernoff H, Moses, LE 58 Chow SL 120 Clark VA (siehe Dunn OJ) Clauss G, Ebner H 826, 829 Cliff N 554, 560 Cliff N, Hamburger CD 552 Cliff N, Krus DJ 634 Cliff N, McCormick DJ, Zatkin JL, Cudeck RA, Collins LM 575 Cliff N (siehe Collins LA et al) Clifford HAT, Stephenson W 566 Clinch JJ (siehe Games PA et al) Clyde DJ, Cramer EM, Sherin RJ 602 Cochran WG 86 Cochran WG, Cox GM 141, 402 Cohen J 120, 143, 146, 167, 211, 212, 218, 258, 259, 281, 299, 402, 454, 460, 461, 483, 489, 581, 626, 631, 639, 642 Cohen J, Cohen P 460, 461, 489 Cohen J, Nee JCM 631 Cohen J (siehe Fleiss JL et al) Cohen J (siehe Rothstein HR et al) Cohen M, Nagel E 5 Cohen P (siehe Cohen J) Cole AJ 566
Cole DA, Maxwell SE, Arvey R, Solas E 597 Collier RO jr, Baker FB, Mandeville GK, Hayes TF 352 Collins JR (siehe Glass GV) Collins LA, Cliff N, McCormick DJ, Zatkin JL 524 Collins LA, Dent CW 582 Collins LA (siehe Cliff N et al) Comrey AL 515, 523, 548, 550 Comrey AL (siehe Lee HB) Conger AJ 460, 461 Conger AJ, Jackson DN 461 Cook TD, Grader CL, Hennigan KM, Flay BR 120 Cooley WW, Lohnes PR 516, 536, 617, 619, 621 Coombs CH, Dawes RM, Tversky A 27 Coombs WT, Algina J 597 Cooper H, Hedges LV 222 Cooper LG (siehe Tucker LR et al) Cooper MC (siehe Milligan GW) Coovert MD, McNiels K 558 Copenhaver MD (siehe Holland BS) Corballis MC, Traub RE 562 Cornfield J, Tukey JW 431 Cornwell JM 222 Cortina JM, Dunlap WP 120 Cota AA (siehe Longman RS et al) Cota AA et al 545 Cotton JW 405 Cowles M 107 Cowles M, Davis C 114 Cox GM (siehe Cochran WG) Cramer EM (siehe Clyde DJ et al) Crane JA 120 Crawford CB 548 Crawford CB, Ferguson GA 553 Cronbach LJ 559, 561 Cronbach LJ, Gleser GC 618 Cronbach LJ, Rajaratnam N, Gleser GC 559 Cross EM, Chaffin WW 272 Crutchfield RS (siehe Krech D) Cudeck RA, O'Dell L 552 Cudeck RA (siehe Browne MW) Cudeck RA (siehe Cliff N et al) Cureton EE 97, 230, 232, 558 Curry AR (siehe Huberty CJ) Cutcomb SD (siehe Bradley DR et al) Czienskowski U 2 D D'Agostino RB 165, 508 Dar R 120 Darlington RB 454, 456 Das Gupta S 606 Davenport EC jr 554 Davis C (siehe Cowles M) Davis CS 162, 351, 358, 359, 509, 597 Davison ML, Sharma AR 26
865
aNamenverzeichnis Dawes RM (siehe Coombs CH et al) Dawson-Saunders BK 637 Dayton CM 286, 400, 403 De Carlo LT 47 De Friese F (siehe Swaminathan H) De Groot MH 58 de Leeuw J, van Rijckevorstel IJA 523 De Shon RP (siehe Alexander RA) De Soete G (siehe Arabie P et al) Delucchi K, Bostrom A 359 Dent CW (siehe Collins LA) Dickman KW 548 Dickman KW (siehe Kaiser HF) Diehl JM, Staufenbiel T 602, 727 Diepgen R 120 Dingler H 12 Ditton H 508 Divgi DR 231 Doksum K (siehe Bickel PJ) Donoghue JR 566, 569 Doppelt JE, Wallace WL 602 Dorans NJ (siehe Olsson U et al) Dæring N (siehe Bortz J) Downie NM, Heath RW 225 Draper N, Smith H 201, 216, 463, 467 Drasgow F (siehe Olsson U et al) Dreger RM, Fuller J, Lemoine RL 573, 575 Dretzke BJ, Lewin JR, Serlin RC 369 Drewes DW (siehe Bishir JW) Driver HE, Kroeber AL 565 Du Mas FM 618 Duan B, Dunlap WP 214 Duda RO, Hart PE 577 Duffy DE (siehe Santner TJ) Duncan OD 481 Dunlap WP (siehe Cortina JM) Dunlap WP (siehe Duan B) Dunlap WP (siehe Greer T) Dunlap WP (siehe Lane DM) Dunlap WP (siehe McNamara WJ) Dunlap WP (siehe Rupinski MT) Dunlap WP (siehe Silver NC) Dunn OJ, Clark VA 224 Dunn OJ (siehe Yu MC) Duran BS, Odell PL 565 Durand RM (siehe Lambert ZV et al) Dutoit EF, Penfield A 461 Dwyer PS 556 Dyckman TR, Schmidt S, McAdams AK 58 E Eber HW 548, 639 Eberhard K 107, 230, 236 Ebner H (siehe Clauss G) Eckert TL (siehe Lutz JG) Eckes R, Rossbach H 566, 572 Eckes T 565 Eckes T (siehe Krolak-Schwerdt S)
Eckstein PP 727 Edwards W, Lindman H, Savage LJ 58 Efron B 132, 133 Efron B, Tibshirani R 133 Efroymson MA 463 Eid M (siehe Steyer R) Ekbohm G 161 Elliot SD 322 Elmore PB (siehe Broadbooks WJ) Elshout JJ, Roe RA 214 Engstom R (siehe Horn JL) Erdfelder E, Bedenkamp J 107 Erdfelder E, Faul F, Buchner A 128 Erdfelder E (siehe Buchner A et al) Erichson B (siehe Backhaus K et al) Erskine JA (siehe Wood DA) Evans FR (siehe Rock DA) Evans SH, Anastasio EJ 369 Everitt BS 566 Everitt BS (siehe Fleiss JL et al) Everitt BS (siehe Hands S) Eye A v 176 Eyferth K, Baltes PB 539 Eyferth K, Sixtl F 554 Eyuboglu N (siehe Buja A) F Fabrigor LR (siehe MacCallum RC et al) Fahrmeir L, Kçnstler R, Pigeot J, Tutz G 23, 107 Fan X 450 Faul F (siehe Buchner A et al) Faul F (siehe Erdfelder E) Fava JL, Velicer WF 557 Fechner GT 36 Fein SB (siehe Zahn DA) Feingold M 211 Feir-Walsh BJ, Toothaker LE 286 Fekken GC (siehe Longman RS et al) Feldt LS (siehe Huynh H) Fenster CA (siehe Wiedemann CF) Ferguson GA (siehe Crawford CB) Fienberg SE (siehe Bishop YMM et al) Filon LNG (siehe Pearson K) Finger MS (siehe Silver NC) Finn JD 447, 489 Finn JD (siehe Olkin I) Finnstuen K, Nichols S, Hoffmann P 261 Fischer G 10, 515 Fischer G, Roppert J 554 Fisher LA (siehe Kuiper FK) Fisher RA 96, 107, 218, 244, 606 Fisher RA, Yates F 277, 283 Fisz M 94 Flaherty VL (siehe Lautenschlager GJ et al) Flay BR (siehe Cook TD et al) Fleiss JL 157, 170, 174, 177 Fleiss JL, Cohen J, Everitt BS 626
Fleiss JL (siehe Wallenstein S) Fleming JS 631 Foerster F, Stemmler G 619 Folger R 120 Fornell C 634 Fornell C, Barclay DW, Rhee BD 634, 637 Forsyth RA 214 Fouladi RT, Steiger JH 546 Frane JW 321 Frank D (siehe Moosbrugger H) Franke J, Bortz J, Braune P, Klockhaus R 47 Franzen U (siehe Hofer M) Frenz HG (siehe Cranach MV) Fricke R, Treinies G 218, 222 Friedman H 218 Friedman S, Weisberg HF 520 Frigon JY, Laurencelle L 370, 371 Fruchter B 515 Fruchter B (siehe Guilford JP) Fuller J (siehe Dreger RM et al) Fçrntratt E 552 Fung WK, Kwan CW 539 Furr RM, Rosenthal R 358 G Gaebelein J (siehe Herr DG) Gaensslen H, Schubæ W 489, 516 Gaito J 282, 352 Galton F 184 Games PA, Keselman HJ, Clinch JJ 329 Games PA, Keselman HJ, Rogan JC 328, 787 Games PA (siehe Keselman HJ et al) Gatsonis C, Sampson AR 464 Gebhardt F 554, 555 Geider FJ, Rogge KE, Schaaf HP 516 Geisser S 454 Geisser S, Greenhouse SW 352, 355 Gelman A, Carlin JB, Stern HS, Rubin DB 58 Gibbons JA, Sherwood RD 503 Gigerenzer G 27, 120 Gigerenzer G, Murray DJ 107 Gigerenzer G (siehe Sedlmeier P) Gilbert N 176 Gillo MW (siehe Shaffer JP) Girshick MA 552 Glasnapp DR 461 Glass GV 230, 232, 812, 819 Glass GV, Collins JR 223, 449 Glass GV, Peckham PD, Sanders JR 144, 286, 369 Glass GV, Stanley JC 230, 238, 329, 359, 812, 819, 830 Glass GV (siehe Bracht GH) Gleiss I, Seidel R, Abholz H 179 Gleser GC (siehe Cronbach LJ) Gleser GC (siehe Cronbach LJ et al)
866
Namenverzeichnis
Glorfeld LW 545 Gnanadesikan R 523 Gocka EF 494 Gondek PC 612, 618 Gonter R (siehe Mendoza JL et al) Goodall DW 618 Gokhol DV (siehe Marascuilo LA et al) Gordon AD 261, 566, 573 Gorman BS, Primavera LH, Allison DB 208, 524 Gorsuch RL 546, 548 Gorsuch RL (siehe Snook SC) Gottmann JM 331 Goulden CH 244 Grader CL (siehe Cook TD et al) Grandage A 282 Graybill FA 79 Graybill FA (siehe Johnson DE) Green BF 554, 623 Green PE, Carroll JD 554, 717 Greenhouse SW (siehe Geisser S) Greenwald AG 120 Greer T, Dunlap WP 335 Grissom RJ, Kim JJ 143 Groeben N, Westmeyer H 6 Groenen PA (siehe Kiers HAL) Groenen PJ (siehe Borg J) Gross AL, Kagan E 214 Guadagnoli E, Velicer WF 523, 551 Guertin WH, Bailey JP jr 515 Guilford JP 2, 92, 523 Guilford JP, Fruchter B 219 Guilford JP (siehe Holley JW) Gullikson A, Hopkins KD 214 Guthri D 162, 352 Guttman L 544, 559 H Haase RF 299 Haber M 170 Hagenaars JA 176 Hagenaars JA (siehe Andreû HJ et al) Hager W 2, 109 Hager W, Westermann R 109, 272 Haggard EA (siehe Bock RD) Hjek J 233 Hakstian AR 559 Hakstian AR, Boyd WM 553 Hakstian AR, Roed JC, Lind JC 590 Hakstian AR, Rogers WT, Cattell RB 546 Hakstian AR (siehe Skakun EN et al) Hall PG 133 Hamburger CD (siehe Cliff N) Hamden MA (siehe Lancaster HO) Hamilton BL 369 Hammersley JM, Handscomb DC 132 Handl A 571, 573, 575 Hands S, Everitt BS 578 Handscomb DC (siehe Hammersley JM) Hanges PJ (siehe Alexander RA et al)
Hanges PJ, Rentsch JR, Yusko KP, Alexander RA 214 Harabasz J (siehe Calinski RB) Harman HH 515, 549, 558 Harnatt J 120 Harris CW 558, 560, 619, 630 Harris CW (siehe Harris ML) Harris ML, Harris CW 557 Hart PE (siehe Duda RO) Hartigan J 566 Hartley HO 201 Hartley HO (siehe Pearson ES) Hartmann A (siehe Kallina H) Harvey OJ (siehe Sherif M et al) Harwood GB (siehe Shiffler RE) Hattie J 546 Havlicek LL, Peterson NL 141, 214 Hayduck LA 481 Hayes TF (siehe Collier RO jr et al) Hays WL 186, 235, 266, 272, 302, 807, 817 Hays WL, Winkler RL 32, 104, 115, 214, 281, 807, 817 Heck DL 597 Hedges LV (siehe Cooper H) Hedges LV, Olkin I 222 Heerden JV van, Hoogstraten J 120 Hegemann V, Johnson DE 328 Heise DR 236 Hemmerle WJ 463 Hendrichson AE, White PO 548 Henik A (siehe Tzelgov J) Hennigan KM (siehe Cook TD et al) Herr DG, Gaebelein J 496 Herrmann T, Tack WH 2 Heumann KA (siehe Rasmussen JL et al) Heumann MT (siehe Rasmussen JL et al) Heyn W 86 Heath RW (siehe Downie NM) Hicks MM 523 Higgings JJ (siehe Blair RC) Hinderer K 50 Hines v C (siehe Kromrey JD) Hinkle DE, Oliver JD 125 Hjelm HF (siehe Norris RC) Hoel PG 205 Hofer M, Franzen U 99 Hoffmann P (siehe Finnstuen K et al) Hofståtter PR 49 Hofståtter PR, Wendt D 58, 79, 244 Holden RR (siehe Longman RS et al) Holland BS, Copenhaver MD 272 Holland PW (siehe Bishop YMM et al) Holland TR, Levi M, Watson CG 643 Hollander M, Sethuraman J 357 Holley JW, Guilford JP 617 Holling H 461, 496 Hollingsworth HH 369, 588 Holm K 515 Holm K (siehe Mayntz R et al) Holm S 129, 272
Holmes DJ 214 Holz-Ebeling F 547 Holzkamp K 2, 4, 12 Hood WR (siehe Sherif M et al) Hope K 516 Hopkins KD 303, 315, 359 Hopkins KD, Chadbourn RA 274 Hopkins KD, Weeks DL 47 Hopkins KD (siehe Camilli G) Hopkins KD (siehe Gullikson A) Hoogstraten J (siehe Heerden JV van) Horn JL 233, 545 Horn JL, Engstom R 546 Horst P 182, 460, 515, 531, 559, 634, 721 Horstmann H (siehe Witte EH) Horton RL 489 Hossiep R (siehe Wottawa H) Hotelling H 556, 560, 627 Houseman EE (siehe Anderson RL) Howe WG 560 Howell DC, McConaughy SH 496 Hsiung T, Olejnik S, Huberty CJ 328 Hsiung T, Olejnik S, Oshima TC 328 Hsu J 130, 272, 274 Hubbard R (siehe Allen SJ) Hubert LJ, Levin RA 577 Hubert LJ, Arabie P 582 Hubert LJ (siehe Arabie P et al) Hubert LJ (siehe Baker FB) Huberty CJ 586, 606, 610, 612, 614, 625 Huberty CJ, Curry AR 622, 625 Huberty CJ, Mourad SA 451 Huberty CJ, Morris JD 585, 586 Huberty CJ, Wisenbaker JM, Smith JC 625 Huberty CJ, Wisenbaker JM, Smith JD, Smith JC 612 Huberty CJ (siehe Hsiung T et al) Hçbner P (siehe Mayntz R et al) Huck SW, Layne BH 322 Huck WS, Malgady RG 299 Huff D 34 Huitema BE 371, 499 Humburg S (siehe Meiser T) Humphreys LG (siehe Montanelli RG) Humphreys LG, Ilgen DR 558 Humphreys LG, Taber T 558 Hurwitz WN (siehe Hansen MH) Hussy W, Mæller H 6 Huynh H 338, 352, 357 Huynh H, Feldt LS 352, 355, 356, 357 Huynh H, Mandeville GK 352 I Ilgen DR (siehe Humphreys LG) Imhoff JP 356 Isaac PD, Milligan GW 643 Ito K 597 Ito K, Schull WJ 597
867
aNamenverzeichnis J Jaccard P 567 Jackosfsky EF (siehe Reynolds TJ) Jackson DN (siehe Conger AJ) Jackson DN (siehe Velicer WF et al) Jacobi CGJ 536 Jacobs KW 272 Jåger R 220, 461 James AT (siehe Brien CJ et al) James LR, Mulaik SA, Brett JM 481 Jansen B (siehe Bçssing A) Janson S, Vegelius J 227 Janssen J, Latz W 727 Jardine N, Sibson R 556 Jarnold PR (siehe Bryant FB) Jaspen N 83, 227 Jenkins WL 230 Jennings E 489 Jennrich RI 553 Jennrich RI, Sampson PF 548 Jennrich RI (siehe Archer CO) Johnson AM 450 Johnson AM (siehe Johnson WL) Johnson DE, Graybill FA 328 Johnson DE (siehe Hegemann V) Johnson EM 170 Johnson RA, Mehrotra KG 283 Johnson SC 565 Johnson WL, Johnson AM 547 Jolliffe IT 347, 515, 523, 544, 631 Jones LV 597, 610, 611 Jæreskog KG 481, 560 Jæreskog KG, Lawley DN 560 Jæreskog KG, Særbom D 471, 793 Jurs S (siehe Zoski KW) K Kagan E (siehe Gross AL) Kaiser HF 548, 560 Kaiser HF, Caffrey J 559, 560 Kaiser HF, Dickman KW 544 Kaiser HF, Norman WT 559 Kaiser M (siehe O'Brien R) Kallina H 515 Kallina H, Hartmann A 557 Kalos MH, Whitlock PA 132 Kalverham KT 515 Kamenz R (siehe Selg H et al) Kaplan D 481 Kellerhals J (siehe Ritschard G et al) Kelley TL 514 Kelloway EK 481 Kempf WF 514 Kemrey ER (siehe Mossholder KW et al) Kendall MG 81, 233, 234 Kendall MG, Stuart A 77, 82, 94, 100, 195 Kennedy JJ 299 Kenny DA 224 Keren G, Lewis C 299, 496 Kerlinger FN 255, 555
Kerlinger FN, Pedhazur EJ 461, 484, 489 Keselman HJ 358 Keselman HJ, Carriere KC, Lix LM 357, 498 Keselman HJ, Games PA, Rogan JC 272, 274 Keselman HJ, Kowalchuk RK, Lix LM 498 Keselman HJ, Rogan JC 274 Keselman HJ, Rogan JC, Games PA 355, 358 Keselman HJ, Rogan JC, Mendoza JL, Breen LJ 352, 357 Keselman HJ, Toothaker LE 287 Keselman HJ (siehe Algina J) Keselman HJ (siehe Games PA et al) Keselman HJ (siehe Kowalchuk RK) Keselman HJ (siehe Lix LM) Keselman HJ (siehe Rogan JC et al) Keuth H (siehe Albert H) Kiers HAL 524, 556, 562 Kiers HAL, ten Berge JMF 556 Kiers HAL, Groenen PA 556 Kiers HAL, van Meckelen L 562 Kieser M, Victor N 176 Kim JJ (siehe Grissom RJ) King AC, Read CB 50 Kinnear TC (siehe Leight JH) Kirk DB 120, 231, 358 Kish L 86 Klapproth J (siehe Selg H et al) Klauer KC 100, 581 Klemm E 573, 576 Klemmert 165 Klett CJ (siehe Overall JE) Kline P (siehe Krzanowski WJ) Klockhaus R (siehe Franke J et al) Knapp TR 639, 640, 643 Knoop K (siehe Mangold v H) Koeck R 4, 12 Koffler SL (siehe Penfield DA) Kogan LS 352 Kolmogoroff A 53 Korth BA 555 Korth BA, Tucker LR 555 Kowalchuk RK (siehe Keselman HJ et al) Kowalchuk RK, Keselman HJ 338 Kraak B 236 Kraemer HC 222, 226 Kraemer HC, Thiemann S 218 Kråmer W 34, 444 Krause B, Metzler P 120 Krauth J 176, 272, 568 Krauth J, Lienert GA 175, 176 Kreyszig E 50, 194, 217 Kristof W 149, 222 Kroeber AL (siehe Driver HE) Krolak-Schwerdt S, Eckes T 577 Kromrey JD, Hines v C 450 Krus DJ (siehe Cliff N)
Kruskal JB, Shephard RN 523 Krzanowski WJ, Kline P 546 Kshirsagar AM 597, 643 Kshirsagar AM, Aserven E 624 Kubinger KD 214, 219, 231 Kçchler M 507 Kuh E (siehe Besley DA et al) Kçhnel S (siehe Andreû HJ et al) Kuiper FK, Fisher LA 578 Kukuk CR, Baty CF 631 Kullback S 546 Kçnstler R (siehe Fahrmeir L et al) Kuter MH (siehe Neter J et al) Kwan CW (siehe Fung WK) Kyburg HE 5 L La Valle JH 58 Lachenbruch PA 625 Lambert ZV, Wildt AR, Durand RM 544, 631, 637 Lancaster HO, Hamden MA 231 Lance CE (siehe Lautenschlager GJ et al) Lance GN, Williams WT 573 Land KC 236 Landahl HD 548 Lane DM, Dunlap WP 120 Langeheine R 176 Langer K (siehe Steinhausen D) Lantermann ED 26 Larsen BS (siehe Charter RA) Larzelere RE, Mulaik SA 224 Lathorp RG, Williams JE 557 Latz W (siehe Janssen J) Laurencelle L (siehe Frigon JY) Lautenschlager GJ 545 Lautenschlager GJ, Lance CE, Flaherty VL 545 Lautsch E, Lienert GA 170, 173 Lautsch E, Weber S v 175 Law HG (siehe Snyder CW) Lawley DN 560 Lawley DN, Maxwell AL 515, 560 Lawley DN (siehe Jæreskog KG) Lawrence JH (siehe Romanuik JG et al) Layne BH (siehe Huck SW) LeBlanc WG (siehe Williams RH) Lee HB, Comrey AL 544 Leight JH, Kinnear TC 300 Leiser E 101 Lemoine RL (siehe Dreger RM et al) LeRoy HL 236 Lev J (siehe Walker HM) Levi M (siehe Holland TR et al) Levin J 214 Levy KJ 174, 222, 369, 370 Lewin JR (siehe Dretzke BJ et al) Lewin JR (siehe Romanuik JG et al) Levin RA (siehe Hubert LJ) Lewis AE 29 Lewis C (siehe Keren G)
868
Namenverzeichnis
Lewis C (siehe Molenaar JW) Lienert GA 176, 233, 303 Lienert GA, Raatz U 10, 230 Lienert GA (siehe Bortz J) Lienert GA (siehe Bortz J et al) Lienert GA (siehe Krauth J) Lienert GA (siehe Lautsch E) Lind JC (siehe Hakstian AR et al) Linder A 244 Lindman H (siehe Edwards W et al) Lingoes JC 618 Linn RL (siehe Rock DA) Linn RL (siehe Rock DA et al) Linn RL (siehe Werts CE) Little JA, Rubin DB 321 Lix LM, Keselman HJ 328 Lix LM (siehe Keselman HJ et al) Læffel H (siehe Bçhlmann H et al) Loehlin JC 480 Lohmæller JB 471, 562 Lohnes PR (siehe Cooley WW) Long JS 481 Long JS (siehe Bollen KA) Longman RS, Cota AA, Holden RR, Fekken GC 545 Looney SW 450 Lord FM 559, 560 Læsel F, Wçstendærfer W 321 Love W (siehe Steward D) Lowerre GF 214 Lçdtke H (siehe Friedrichs J) Lçer G 2 Lunneborg CE, Tousignant JP 358 Lunney GH 508 Lutz JG 461, 588 Lutz JG, Eckert TL 641 Lykken DT 120 M MacCallum RC, Mar CM 463 MacCallum RC, Roznowski M, Necovitz LB 471 MacCallum RC, Wegener DT, Uchino BN, Fabrigor LR 524, 568 MacQueen J 578 Maguire TO (siehe Skakun EN et al) Mahalanobis PC 569 Malgady RG 448 Malgady RG (siehe Huck WS) Mandeville GK (siehe Collier RO jr et al) Mandeville GK (siehe Huynh H) Mangold v H, Knoop K 59 Mann HB, Whitney DR 153 Manoukian EB 128 Mar CM (siehe MacCallum RC) Marascuilo LA 222 Marascuilo LA, McSweeney M 833 Marascuilo LA, Omelick CL, Gokhol DV 161 Marcoulides GA, Schumacker RE 481 Mardia KV 192, 450
Markos VH (siehe Mendoza JL et al) Markus KA 114 Marsh HW, Balla JR, McDonald RP 561 Martens J 727 Martin SA (siehe Wilson GA) Martin TW (siehe Berry KJ et al) Marx W 232 Massey CJ (siehe Silver NC et al) Mausfeld R (siehe Niedere R) Mayo O (siehe Brien CJ et al) Maxwell AL (siehe Lawley DN) Maxwell SE 564 Maxwell SE (siehe Cole DA et al) McAdams AK (siehe Dyckman TR et al) McCabe GP 612 McCall RB 214 McConaughy SH (siehe Howell DC) McCormick DJ (siehe Cliff N et al) McCormick DJ (siehe Collins LA et al) McCornack RL 463 McDonald RP (siehe Marsh HW et al) McGrath SG (siehe Bradley DR et al) McHenri CE 612 McKay RJ, Campbell NA 624 McNamara WJ, Dunlap WP 226 McNemar Q 161, 214 McNiels K (siehe Coovert MD) McSweeney M (siehe Marascuilo LA) Medoff DR (siehe O'Grady KE) Meehl P 120 Meiser T, Humburg S 566 Melton RS 610 Mendoza JL 219 Mendoza JL, Markos VH, Gonter R 629 Mendoza JL (siehe Keselman HJ et al) Mendoza JL (siehe Rogan JC et al) Meng XL, Rosenthal R, Rubin DB 223 Menges G 86 Mehrotra KG (siehe Johnson RA) Meredith W 631 Meredith W (siehe Tucker LR et al) Meshbane A (siehe Morris JD) Metzler P (siehe Krause B) Micceri T 76 Michaelis J 625 Michell J 27 Michels KM (siehe Winer BJ et al) Michener CD (siehe Sokal RR) Mielke PW, Berry KJ 164 Mielke PW (siehe Berry KJ) Miller JJ (siehe Santa JL) Miller NE, Bugelski R 170 Milligan GW 565, 573, 575 Milligan GW, Cooper MC 577, 581, 582, 583 Milligan GW, Schilling DA 581 Milligan GW, Sokal L 575 Milligan GW, Wong DS, Thompson PA 498
Milligan GW (siehe Cheng R) Milligan GW (siehe Isaac PD) Millisap RE, Zalkind SS, Xenos T 221 Mintz J 278 Mirkin B 566 Mittenecker E 244 Mittenecker E, Raab E 200 Mæbus C, Schneider W 481 Molenaar JW, Lewis C 58 Mæller H (siehe Hussy W) Moosbrugger H 489 Moosbrugger H, Frank D 566 Moosbrugger H, Zistler R 489 Morey LC, Blashfield RK, Skinner HA 580 Morey LC, Agresti A 582 Morris JD (siehe Huberty CJ) Morris JD, Meshbane A 612 Morris SB, De Shon RP 304 Morrison DF 450, 516, 561, 587, 592, 594, 597, 602 Moses LE (siehe Chernoff H) Mosier CI 554 Mossholder KW, Kemrey ER, Bedlian AG 463 Mosteller F, Wallace DL 73 Mourad SA (siehe Huberty CJ) Muchowski E (siehe Bortz J) Muerle JL (siehe Cattell RB) Mulaik SA 514, 515, 559, 560 Mulaik SA (siehe James LR et al) Mulaik SA (siehe Larzelere RE) Murray DJ (siehe Gigerenzer G) Muthen B 471 N Nagel E (siehe Cohen M) Narens L (siehe Niedere R) Nee JCM (siehe Cohen J) Neidt ON (siehe Wert JE et al) Nesselroade JR 562 Nesselroade JR, Baltes PB 555 Neter J, Wassermann W, Kuter MH 328, 489 Neuhaus JO, Wrigley C 548 Neyman J 101 Neyman J, Pearson K 107 Nichols S (siehe Finnstuen K et al) Nickerson RS 120 Niedere R, Mausfeld R 27 Niedere R, Narens L 27 Nievergelt E (siehe Bçhlmann H et al) Nijsse M 233 Norman WT (siehe Kaiser HF) Norris RC, Hjelm HF 214 Norussis MJ 775 Nye LG, Witt LA 463
869
aNamenverzeichnis O O'Brien RG 328 O'Brien R, Kaiser M 334 O'Dell L (siehe Cudeck R) O'Grady KE, Medoff DR 491 Oliver JD (siehe Hinkle DE) Olejnik SF, Algina J 328 Olejnik SF (siehe Algina J) Olejnik SF (siehe Hsiung T et al) Olkin I 222, 450 Olkin I, Finn JD 224, 447, 450, 452 Olkin I, Pratt JW 451 Olkin I (siehe Hedges LV) Olkin I, Siotani M 222 Olson CL 594, 597, 602, 619 Olson KF (siehe Berry KJ et al) Olsson U 231 Olsson U, Bergmann LR 563 Olsson U, Drasgow F, Dorans NJ 227 Olszak M (siehe Ritschard G et al) Omelick CL (siehe Marascuilo et al) Opp KD 4 Orlik P 515, 561, 562 Orloci L 618 Orth B 16, 17 Oshima TC (siehe Algina J) Oshima TC (siehe Hsiung T et al) Ostmann A, Wuttke J 107 Overall JE 169 Overall JE, Klett CJ 450, 489, 516 Overall JE, Spiegel DK 483 Overall JE, Woodward JA 370 Overall JE, Rhoades HM, Starbuck RR 164 Overall JE (siehe Woodward JA) Overton RC 463 P Paunonen SV 556 Parzen E 73 Patrick CA (siehe Rock DA) Paull AE 315 Pawlik K 235, 514, 515, 516, 558, 721 Peacock AC (siehe Velicer WF et al) Pearl I 481 Pearson ES, Hartley HO 283, 286 Pearson KK 45, 230 Pearson K, Filon LNG 223 Pearson K (siehe Neyman J) Peckham PD (siehe Glass GV et al) Pedhazur EJ 453, 502, 503, 504 Pedhazur EJ (siehe Kerlinger FN) Penfield A (siehe Dutoit EF) Penfield DA, Koffler SL 370 Peng KC 282, 402 Pennell R 552 Peterson NL (siehe Havlicek LL) Pfanzagl J 27, 71, 86, 141 Pfeifer A, Schmidt P 481 Philips LD 58 Phillips JPN 170
Pigeot J (siehe Fahrmeir et al) Pillai KCS 594, 643 Pinzka C, Saunders DR 548 Plinke W (siehe Backhaus K et al) Podani J 573 Pollack G (siehe Rothstein HR et al) Pollard P, Richardson JTE 114 Popper KR 12 Pratt JW, Raiffa H, Schlaifer R 58 Pratt JW (siehe Olkin I) Prentice DA (siehe Abelson RP) Press SJ 516, 587, 597 Preuss L, Vorkauf H 176 Primavera LH (siehe Gorman BS et al) R Raab E (siehe Mittenecker E) Raatz U (siehe Lienert GA) Raghunathan TE, Rosenthal R, Rubin DB 224 Raiffa H (siehe Pratt JW et al) Rajaratnam N (siehe Cronbach LJ et al) Raju NS 467 Ralston A, Wilf HS 536, 721 Ramsey PH 141, 274 Rand WM 582 Rao CR 594, 639 Rasmussen JL 272 Rasmussen JL, Heumann KA, Heumann MT, Botzum M 357 Raudenbush SW (siehe Bryk AS) Read CB (siehe King AC) Rengers M 496 Rentsch JR (siehe Hanges PJ et al) Revenstorf D 515, 516, 554, 561 Reynolds TJ, Jackosfsky EF 634 Rhee BD (siehe Fornell C et al) Rhoades HM (siehe Overall JE et al) Richardson JTE (siehe Pollard P) Rietz C 556 Rietz C, Rudinger G, Andres J 481 Rietz C (siehe Rudinger G et al) Rippe PR 552 Ritschard G, Kellerhals J, Olszak M, Sardi M 472 Roed JC (siehe Hakstian AR et al) Robert CP, Casella G 132 Roberts FS 27 Robson DS 282 Rochel H 489 Rock DA, Linn RL, Evans FR, Patrick CA 463 Rock DA, Werts CE, Linn RA 496 Roe RA (siehe Elshout JJ) 214 Rogan JC, Keselman HJ, Mendoza JL 352, 357 Rogan JC (siehe Games PA et al) Rogan JC (siehe Keselman HJ) Rogan JC (siehe Keselman HJ et al) Rogers DJ, Tanimoto TT 567 Rogers WT (siehe Hakstian AR et al)
Rogge KE 2 Rogge KE (siehe Geider FJ et al) Rogosa D 369 Rohracher H (siehe Meili R) Romanuik JG, Lewin JR, Lawrence JH 357 Ronis DL 299 Roppert J (siehe Fischer G) Rose M 463 Rosenthal R 10 Rosenthal R, Rosnow RL 10 Rosenthal R, Rubin DB 212 Rosenthal R (siehe Furr RM) Rosenthal R (siehe Meng XL et al) Rosenthal R (siehe Raghunathan TE et al) Rosnow RL, Rosenthal R 300 Rosnow RL (siehe Rosenthal R) Rossbach H (siehe Eckes R) Rossi JS 261 Rothstein HR, Borenstein M, Cohen J, Pollack G 489 Royce JR 514, 515, 516 Royston JP 216 Rozeboom WW 553 Rubin DB (siehe Gelman A et al) Rubin DB (siehe Little JA) Rubin DB (siehe Meng XL et al) Rubin DB (siehe Raghunathan TE et al) Rubin DB (siehe Rosenthal R) Rubin J 574 Rubinstein RY 132 Rucci AJ, Tweney RD 244 Rudinger G, Andres J, Rietz C 481 Rudinger G (siehe Rietz C et al) Ruf H 463 Rupinski MT, Dunlap WP 233 Ruppert D (siehe Carroll RJ) Rçtzel E 201 Ryan TA 274 S Sachs L 78, 93 Sampson AR (siehe Gatsonis C) Sampson PF (siehe Jennrich RI) Sanders JR (siehe Glass GV et al) Santa JL, Miller JJ, Shaw ML 315 Santner TJ, Duffy DE 176 Sardi M (siehe Ritschard G et al) Sarris V 2, 236 Satterthwaite FE 141 Saunders DR 222, 548 Saunders DR (siehe Pinzka C) Savage IR 44 Savage LJ (siehe Edwards W et al) Saville DJ 273 Sawilowsky SS, Blair RC 141 Schaaf HP (siehe Geider FJ et al) Schafer JL, Graham JW 321 Scheff H 244, 274, 328
870
Namenverzeichnis
Scheibler D, Schneider W 572, 573 Schiller W 546 Schilling DA (siehe Milligan GW) Schlaifer R (siehe Pratt JW et al) Schlosser O 565, 566, 570, 617 Schmetterer L 94 Schmidt F 120 Schmidt P (siehe Pfeifer A) Schmidt S (siehe Dyckman TR et al) Schmitt SA 58 Schneewind KA, Cattell RB 555 Schneider W (siehe Mæbus C) Schneider W (siehe Scheibler D) Schænemann PH 546, 554 Schænemann PH (siehe Borg J) Schubæ W (siehe Gaensslen H) Schull WJ (siehe Ito K) Schumacker RE (siehe Marcoulides GA) Schwarz H 86, 258 Scozzaro MJ (siehe Alexander RA et al) Seaman S (siehe Algina J) Seber GAF, Wild DJ 201 Sedlmeier P, Gigerenzer G 128 Seidel R (siehe Gleiss I et al) Selg H, Klapproth J, Kamenz R 2 Serlin RC (siehe Dretzke BJ et al) Sethuraman J (siehe Hollander M) Shaffer JP 272, 301 Shaffer JP, Gillo MW 597 Shapiro MM (siehe Bresnahan JL) Shapiro SS, Wilk MB, Chen HJ 165 Sharma AR (siehe Davison ML) Shaw ML (siehe Santa JL) Sheets VL (siehe Braver SL) Shephard RN (siehe Kruskal JB) Sherif C (siehe Sherif M et al) Sherif M, Harvey OJ, White BJ, Hood WR, Sherif C 236 Sherin RJ (siehe Clyde DJ et al) Sherwood RD (siehe Gibbons JA) Shiffler RE, Harwood GB 126 Shine LC 114 Shon RP (siehe Morris SB) Sibson R (siehe Jardine N) Silbereisen RK 462 Siegel S 233 Sievers W 131 Silver NC, Dunlap WP 219, 546 Silver NC, Finger MS 461 Silver NC, Wadiak DL, Massey CJ 448 Silverstein AB 504 Sinha AR, Buchanan BS 524 Siotani M (siehe Olkin I) Sixtl F 39, 166, 515 Sixtl F (siehe Eyferth K) Skakun EN, Maguire TO, Hakstian AR 555, 556 Skinner HA (siehe Morey LC et al) Sletten O 75, 80 Smith JC JM (siehe Huberty CJ et al)
Smith H (siehe Draper N) Smith RL, Ager JW jr, Williams DL 460, 461 Sneath PHA (siehe Sokal RR) Snedecor GW 244 Snook SC, Gorsuch RL 557 Snyder CW, Law HG 562 Sobel ME 481 Sokal L (siehe Milligan GW) Sokal RR, Michener CD 567 Sokal RR, Sneath PHA 566 Solas E (siehe Cole DA et al) Særbom D 371, 471 Særbom D (siehe Jæreskog KG) Spåth H 566 Spearman C 514 Spiegel DK (siehe Overall JE) Sprung L (siehe Guthke J et al) Srivastava ABL 141 Stanley JC 227 Stanley JC, Wang MD 449 Stanley JC (siehe Campell DT) Stanley JC (siehe Glass GV) Stapf KH (siehe Herrmann T) 4, 7 Starbuck RR (siehe Overall JE et al) Staufenbiel T (siehe Borg J) Staufenbiel T (siehe Diehl JM) Staving GR, Acock AC 224 Steger JA 118, 177 Stegmçller W 5 Steiger JH 222, 224, 481, 546 Steiger JH (siehe Fouladi RT) Steingrçber HJ 230 Steinley D 580 Steinhausen D, Langer K 466, 468, 571 Stelzl I 192, 450, 491 Stemmler G (siehe Foerster F) Stenger H 86 Stephenson W (siehe Clifford HAT) Stern HS (siehe Gelman A et al) Stern I (siehe Tzelgov J) Stevens J 166, 176, 368, 369, 370, 471, 499, 590, 592, 596, 597, 602, 608, 609, 610, 612 Steward D, Love W 630, 631 Steyer R 236 Steyer R, Eid M 16 Stoloff PH 352 Stone M 454 Stone-Romero EF, Anderson LE 463 Strauss D 4, 448 Stuart A (siehe Kendall MG) Suppes P, Zinnes JL 27 Swaminathan H, De Friese F 276
Tatsuoka MM 183, 489, 524, 587, 609, 610, 629 ten Berge JMF 556 ten Berge JMF (siehe Kiers HAL) Tenenhaus M, Young FW 524 Terrell CD 225, 227 Thalberg SP 238 Thews G (siehe Vahle H) Thiemann S (siehe Kraemer HC) Thissen D (siehe Wainer H) Tholey P 52 Thomas DR 609 Thompson B 120, 192, 272, 450, 462, 546, 612, 631, 634 Thompson B, Borello GM 453 Thompson PA (siehe Milligan GW et al) Thorndike RM 453 Thorndike RM, Weiss DJ 634 Thurstone LL 514, 516, 520, 547, 556, 557 Tibshirani R (siehe Efron B) Tidemann TN 162 Tiku ML, Balakrishnan N 617 Timm NH 450, 480, 489, 498, 516, 558, 566, 573, 597, 601, 602, 627 Tippet LHC 244 Tisak J 461 Toothaker LE (siehe Feir-Walsh BJ) Toothaker LE (siehe Keselman HJ) Torgerson WS 15 Tousignant JP (siehe Lunneborg CE) Toutenburg H 216 Traub RE (siehe Corballis MC) Traxel W 2 Treinies G (siehe Fricke R) Troitzsch KG (siehe Esser H) Tryon RC 565 Tryon RC, Bailey DE 566 Tucker LR 554, 561 Tucker LR, Cooper LG, Meredith W 467 Tucker LR (siehe Korth BA) Tukey JW 34, 325 Tukey JW (siehe Abelson RP) Tukey JW (siehe Cornfield J) Tutz G (siehe Fahrmeir L et al) Tversky A (siehe Coombs CH et al) Tweney RD (siehe Rucci AJ) Tzelgov J, Henik A 461 Tzelgov J, Stern I 460, 461
T Taber T (siehe Humphreys LG) Tack WH (siehe Herrmann T) Tang KL, Algina J 598 Tanimoto TT (siehe Rogers DJ) Tarski A 5
V Vahle H, Thews G 80 Van de Geer JP 516, 560 van Meckelen L (siehe Kiers AAL) van Rijckevorstel IJA (siehe de Leeuw J) Vegelius J 227
U Uchino BN (siehe MacCallum RC et al) Ueberla K 516
871
aNamenverzeichnis Vegelius J (siehe Janson S) Velicer WF 551 Velicer WF, Peacock AC, Jackson DN 551 Velicer WF (siehe Fava JL) Velicer WF (siehe Guadagnoli E) Velicer WF (siehe Zwick WR) Venables WN (siehe Brien CJ et al) Victor N (siehe Kieser M) Viernstein N 617 Vincent PF 514 Vogelmann S (siehe Cattell RB) Vorkauf H (siehe Preuss L) Vukovich A 515 W Wackerly D (siehe Agresti A) Wadiak DL (siehe Silver NC et al) Wainer H 454 Wainer H, Thissen D 34, 214 Walker HM 76 Walker HM, Lev J 226 Wallace DL (siehe Mosteller F) Wallace WL (siehe Doppelt JE) Wallenstein S, Fleiss JL 354 Wang MD 281 Wang MD (siehe Stanley JC) Ward JH 565 Wassermann W (siehe Neter J et al) Watson CG (siehe Holland TR et al) Weber E 244 Weber S v (siehe Lautsch E) Weede E 236 Weeks DL (siehe Hopkins KD) Wegener DT (siehe MacCallum RC et al) Weiling F 244 Weisberg HF (siehe Friedman S) Weiss DJ 340 Weiss DJ (siehe Thorndike RM) Welch BL 141 Welsch RE (siehe Besley DA et al) Wendt D 115, 215 Wendt D (siehe Hofståtter PR) Werner J 489
Wert JE, Neidt ON, Ahmann JS 227 Werts CE, Linn RL 361 Werts CE (siehe Rock DA et al) West SG 321 West SG (siehe Aiken LR) Westermann R (siehe Hager W) Westmeyer H (siehe Groeben N) White BJ (siehe Sherif M et al) White PO (siehe Hendrichson AE) Whitlock PA (siehe Kalos MH) Whitney DR (siehe Mann HB) Wickens TD 176 Wiedemann CF, Fenster CA 626 Wilcox RR 150, 215, 629 Wild DJ (siehe Seber GAF) Wildt AR (siehe Lambert ZV et al) Wilf HS (siehe Ralston A) Wilk MB (siehe Shapiro SS et al) Wilks AR (siehe Becker RA) Wilks SS 593 Wilkinson L 461 Williams DL (siehe Smith RL et al) Williams EJ 405 Williams JE (siehe Lathorp RG) Williams RH, LeBlanc WG 174 Williams WT (siehe Lance GN) Willson VL 232, 448 Wilson GA, Martin SA 546 Winer BJ 256, 352, 357, 820, 831, 832 Winer BJ, Brown DR, Michels KM 286, 328, 385, 397, 407, 431 Winkler RL 58, 128 Winkler RL (siehe Hays WL) Wisenbaker JM (siehe Huberty CJ et al) Wishart J 244, 571, 575 Wishart J, Metakides T 282 Witt LA (siehe Nye LG) Witte EH 120, 523 Witte EH, Horstmann H 628 Witting H 128 Wittmann WW 560 Wolf B 597 Wolins L 26 Wong DS (siehe Milligan GW et al)
Wood DA, Erskine JA 634 Woodward JA (siehe Adams JL) Woodward JA, Overall JE 343, 523 Woodward JA (siehe Overall JE) Wottawa H 285 Wright SP 272, 471 Wrigley C (siehe Neuhaus JO) Wçstendærfer W (siehe Læsel F) Wu YB 369 Wçber R (siehe Backhaus K et al) Wuttke J (siehe Ostmann A) X Xenos T (siehe Millisap RE et al) Y Yao Y 590 Yates F (siehe Fisher RA) Young FW (siehe Tenenhaus M) Yu MC, Dunn OJ 224 Yuan KH (siehe Bentler PM) Yusko KP (siehe Hanges PJ et al) Z Zahn DA, Fein SB 174 Zalkind SS (siehe Millisap RE et al) Zalinski J, Abrahams NM, Alf E jr 231 Zar JH 233 Zatkin JL (siehe Cliff N et al) Zatkin JL (siehe Collins LA et al) Zielinski W (siehe Amelang M) Zimmermann DW, Zumbo BD 141 Zinkgraf SA 641 Zinnes JL (siehe Suppes P) Zistler R (siehe Moosbrugger H) Zæfel P 731 Zæfel P (siehe Zimmermann DW) Zoski KW, Jurs S 544 Zumbo DB (siehe Zimmermann DW) Zurmçhl R 721 Zwick R 590, 597 Zwick WR, Velicer WF 544, 546 Zysno PV 229
873
Sachverzeichnis
A abhångige Stichproben 143, 331, 787 ± Variable 7, 247, 787 Ablehnungsbereich 116, 117 adåquate Prçfvarianz 420 ± Bestimmung der (s. a. F-Test) 411±436 Additionstheorem der Wahrscheinlichkeiten 54, 67 additives Modell der Varianzanalyse 254, 286, 296, 411-436 Additivitåtstest 325±328 AD-Streuung 41, 42 Øhnlichkeitsmaûe (s. a. Korrelation) 566±571, 617, 618, 787 Øhnlichkeit von Faktorstrukturen 554±556 Øquidistanz 20 Øquivalenztest 165 allgemeines lineares Modell (ALM) 244, 321, 483±509, 639±645, 787 ±, SPSS-Beispiele 752±759 Alpha-Faktorenanalyse 559 Alpha-Fehler 110±111, 787 Alpha-Fehler-Korrektur 271, 272 Alpha-Koeffizient 559 Alternativhypothese 108, 109, 787 Analytische Statistik 1 Anpassung, Gçte der 162±167, 170±172, 174 arithmetisches Mittel 36±38, 96±98, 787 Arrayverteilungen 192 assoziativ 716 asymmetrische Verteilung 33 Ausreiûer (Extremwerte) 28, 40, 215 average linkage 572, 573 B Bartlett-Test 285, 286, 787 Bayes-Theorem 57, 58, 787 Behrens-Fisher-Problem 141 Belastbarkeitskriterium 6, 12 Bernoulli-Prozess 65, 66 Bernoulli-Theorem 52 Beta-Fehler 65, 110, 111, 121±123, 787 Beta-Gewicht 448 ±, Signifikanz 450, 453, 467 Bewåhrungskriterium 6, 12 bias 87, 96 bimodale Verteilung 32, 33, 36, 787 Binomialkoeffizienten 69 Binomialverteilung 65±70, 77, 78, 158, 159, 787 ±, negative 73
biseriale Korrelation 226, 227, 787 ± Rangkorrelation 231, 232, 787 bivariate Håufigkeitsverteilung 168 ± Normalverteilung 191, 213, 214, 787 Bonferroni-Korrektur 129, 272, 788 Bootstrap-Methode 132, 133, 788 Bowker-Test 161 Box-Plot 40 Box-Text 357, 619, 620, 788 breitgipflige Verteilung 33, 46 C carry-over-Effekt 338, 403±405 charakteristische Gleichung einer Matrix 534±536, 613, 634, 635 Chi-Quadrat Komponenten 175, 176 ± Methoden 154±177, 643, 644, 788 ± ±, Effektgræûen 167, 174 ± ±, 2-Felder-v2-Test und Binomialverteilung 156±159 ± ±, McNemar-Test 159±161 ± ±, Cochran-Test 161, 162 ± ±, 1-dimensionaler v2-Test 156±167, 788 ± ±, Gçte der Anpassung 162±167 ± ±, 4-Felder-v2-Test 168±172, 505, 506, 644 ± ±, k ´ l-v2-Test 172±175, 507, 643, 644 ± Verteilung 79±81, 82 city-block-Metrik 570 Clusteranalyse 441, 565±584, 788 ±, SPSS-Beispiel 768, 769 Cluster, Generalisierbarkeit 580, 581 ±, Ûbereinstimmung 581±583 Cochran-v2-Test 161, 162, 788 complete linkage 572 Cornfield-Tukey-Verfahren 430±436 Cramers Index 235 Cross-lagged panel design 223 Crossover design 405 D Deduktion 2 Dendrogramm 572, 576, 577, 788 Design-Matrix 488 ±, einfaktorielle Varianzanalyse 490, 495 ±, 4-Felder-Tafel 506 ±, hierarchische Varianzanalyse 500 ±, Kovarianzanalyse 500 ±, lateinisches Quadrat 501 ±, mehrfaktorielle Varianzanalyse 492
874
Sachverzeichnis
±, Messwiederholungsanalyse 503, 505 ±, multivariate Varianzanalyse 641 ±, k ´ l-Tafel 507 ±, t-Test (unabhångige Stichproben) 489 ±, t-Test (abhångige Stichproben) 503 deskriptive Statistik 1, 15±47, 788 Determinante 717±719 Determinantenkriterium 574 Determinationskoeffizient 209, 210, 788 Diagonalmatrix 714 Diagonalmethode 556 dichotome Variable 224, 226, 788 Dichtefunktion 32, 63, 64, 788 Differenz von Mittelwerten (s. t-Test und Varianzanalyse) Dimensionalitåt 514 diskrete Variable 23, 29, 62, 63, 65±73, 705, 788 Diskriminanzanalyse 440, 605±626, 641, 788 ±, Faktorladungen 608, 614±616 ±, Faktorwerte 608, 614±616 ±, Grundprinzip 606±612 ±, Interpretation 610, 611, 616 ±, mathematischer Hintergrund 612±616 ±, mehrfaktorielle 617, 641, 642 ±, rechnerische Durchfçhrung 614±616 ±, Multikollinearitåt 606, 611, 612 ±, Signifikanztest 609, 610, 615 ±, stepwise 611, 612 ±, SPSS-Beispiel 773±776 ± und kanonische Korrelation 641, 642 ±, Voraussetzungen 610 Diskriminanzfaktor 608±610 Diskriminanzfunktion (s. Diskriminanzfaktor) Diskriminanzkriterium 607, 608, 612 Diskriminanzpotenzial 609, 610 Diskriminanzraum 609, 746 Dispersionsmaûe 15, 35, 39±44 Distanzmaûe 566±571 distributiv 715 D-Matrix 531, 588, 589, 593 Dominanz-Metrik 570 Drei- und mehrfaktorielle Varianzanalyse 312±321, 494 ±, Effektgræûen 315 ±, Einzelvergleiche 316 ±, Freiheitsgrade 314 ±, F-Test 314 ±, Hypothesen 313, 314 ±, n = 1 327, 328 ±, Prçfvarianzen 314 ±, Quadratsummenzerlegung 313 ±, rechnerische Durchfçhrung 306±309, 314, 316±320 ±, ScheffeÂ-Tests 316 ±, Theorie der 421, 422 ±, Trendtests 316 ±, Voraussetzungen 328 Dummycodierung 472, 484, 486 Durchschnitt 51, 52 durchschnittliche Kovarianz 357, 619 ± Varianz 140, 253, 357
E Effektcodierung 484±486 Effektgræûe 120, 121, 126±128, 139, 143, 145, 167, 218, 258, 303±305, 315, 350, 464, 596, 788 Effizienz 97 ±, relative 97, 98 Eigenvektoren, Diskriminanzanalyse 613 ±, Hauptkomponentenanalyse 537 ±, kanonische Korrelationsanalyse 635, 636 Eigenwerte, Diskriminanzanalyse 613 ±, Hauptkomponentenanalyse 520, 536, 537 ±, kanonische Korrelationsanalyse 635 Eigenwertediagramm 544, 788 Eindeutigkeit einer Skala 17 Einfachstruktur 547 einfaktorielle Varianzanalyse 247±287, 411±416, 490±491, 642, 643 ± ±, Effektgræûen 259, 260 ± ±, Einzelvergleiche 263±270 ± ±, Freiheitsgrade 257 ± ±, F-Test 256 ± ±, Quadratsummenzerlegung 250±254 ± ±, rechnerische Durchfçhrung 256, 257 ± ±, ScheffeÂ-Test 274±276 ± ±, SPSS-Beispiel 739, 740, 752±755 ± ±, Theorie der 411-416 ± ±, Trendtest 276±284 ± ±, und t-Test 250, 262, 263 ± ±, ungleiche Stichprobengræûen 260, 261 ± ±, Voraussetzungen 284±287 Einheitsmatrix 714 einseitiger Test 116, 117, 788 Einzelvergleiche, einfaktorielle Varianzanalyse 263±270, 272±274, 787, 788 ±, hierarchische Varianzanalyse 394, 395 ±, Kovarianzanalyse 368, 375 ±, mehrfaktorielle Varianzanalyse 316 ±, Messwiederholungsanalyse 334 ±, multivariate Varianzanalyse 597 ±, orthogonale 265±267 ±, quadratische Anordnungen 400 ±, ungleiche Stichprobengræûen 268±270, 275, 276 ±, zweifaktorielle Varianzanalyse 305±312 empirische Ûberprçfbarkeit einer Theorie 5, 6 ± Untersuchung, Aufbau einer 2±12 Endlichkeitskorrektur 93 Ereignis, komplementåres 51 ±, seltenes 71 ±, sicheres 51 Ergebnismenge 50, 789 Erkundungsexperiment 1 erwartungstreue Schåtzung 92, 96, 97, 193, 789 Erwartungswerte 64, 65, 705±712, 789 ±, in der Varianzanalyse (s. a. Theorie der Varianzanalyse) 411±436 ±, quadrierte Zufallsvariable 709 ±, Rechenregeln fçr 706, 707 ±, Stichprobenmittelwert 96, 707 ±, Stichprobenvarianz 92, 708, 709 ±, Varianz der Summe zweier Zufallsvariablen 711, 712 ±, Zufallsvariable 705, 706
aSachverzeichnis euklidische Metrik 568, 569 Eta-Koeffizient 255, 259, 280, 299, 303, 304, 318, 789 Exhaustion 12, 789 experimentelle Untersuchung 8, 9, 248, 303, 789 explorative Datenanalyse 34 exponentieller Zusammenhang 196 Extremwerte 28, 40, 215 Exzess 46, 789 F Faktor (in der Faktorenanalyse) 512±513, 517±519, 539±542 ±, oblique 547 ±, orthogonal 538, 539, 547, 789 ±, primår (1. Ordnung) 547 ±, Reliabilitåt 559, 560 ±, sekundår (2. Ordnung) 547 ±, Signifikanz 546 Faktor (in der Varianzanalyse) 247, 789 ±, feste Stufenauswahl 302, 303, 412±415 ±, zufållige Stufenauswahl 302, 303, 412, 415, 493 Faktorenanalyse 441, 511±563, 789 ±, Alpha-Analyse 559 ±, dreimodale 561 ±, Hauptkomponentenanalyse 516±543 ±, Imageanalyse 559 ±, kanonische 560 ±, konfirmative 471, 560, 561, 789 ±, Literatur 515, 516 ±, longitudinale 562 ±, Maximum likelihood 560 ±, Modell mehrerer gemeinsamer Faktoren 514, 557±559 ±, SPSS-Beispiel 723±728, 760±767 faktorenanalytische Modelle 556±563 Faktorenanzahl, Bestimmung der 543±546 Faktorenextraktionsverfahren 516, 519, 542, 556 Faktorenrotationsverfahren 547±556 ±, graphische 547, 548 ±, Kriteriums- 553±556 ±, orthogonale 547 ±, schiefwinklige (oblique) 547 ±, Varimax 548±551 Faktorladung 513, 519, 540±542, 551, 552, 789 ±, Signifikanz 552 Faktorstrukturvergleich 554±556 Faktorwert 519, 539, 540, 789 Falsifikator 4 Falsifizierbarkeit einer Theorie 5, 6 falsifizieren 11, 12 fehlende Daten (s. missing data) Fehler erster Art 110, 747 Fehlerkomponenten 78, 79, 284, 285, 313 Fehlervarianz 254 Fehlervarianzreduktionen 289, 290 Fehlervarianzschåtzung 254 ±, s. a. Theorie der Varianzanalyse Fehler zweiter Art 110, 789 Felduntersuchung 7, 8, 789 finite Grundgesamtheit 86, 93 Fisher's-Z-Transformation 218, 219, 789 Fmax-Test 286, 748, 790
875
Freiheitsgrade, v2-Methoden 80, 157, 164, 165, 173 ±, dreifaktorielle Varianzanalyse 313 ±, einfaktorielle Varianzanalyse 257, 260 ±, F-Test 82, 149, 790 ±, hierarchische Versuchsplåne 390, 391 ±, Kovarianzanalyse 366 ±, Messwiederholungsanalyse 333, 338 ±, quadratische Anordnungen 398, 406 ±, t-Test 81, 138, 141, 144 ±, Varianz 138, 789, 790 ±, zweifaktorielle Varianzanalyse 296, 297 Freiheitsgradkorrektur fçr Quasi-F-Brçche 315 ± in der Messwiederholungsanalyse 354, 355 F-Test, dreifaktorielle Varianzanalyse 314, 421, 422 ±, einfaktorielle Varianzanalyse 256, 411±416 ±, hierarchische Varianzanalyse 390, 428±430 ±, Kovarianzanalyse 367, 427, 428 ±, lateinisches Quadrat 400, 430 ±, Messwiederholungsanalyse 334, 423±427 ±, Vergleich zweier Stichprobenvarianzen 148±150, 790 ±, zweifaktorielle Varianzanalyse 298, 416±421 Fçrntratt-Kriterium 552, 553 funktionaler Zusammenhang 181 F-Verteilung 81, 82 G Gegenhypothese 108 gemeinsame Faktoren, Modell mehrerer 514, 557±559 gemeinsame Varianz 209, 210, 558 Generalfaktormodell 514 Generalisierbarkeit 8, 559, 560 geometrisches Mittel 38, 39 geometrische Verteilung 73 geschachtelte Faktoren 388, 789 geschichtete Stichprobe 88, 93, 106, 790 gestçrzte Matrix, s. transponierte Matrix gewichtetes arithmetisches Mittel 39, 790 gleitende Durchschnitte, Verfahren der 30, 31 goodness of fit 162±167, 790 graphische Rotation 547, 548 griechisch-lateinisches Quadrat 388, 400±403, 790 Grundgesamtheit 86, 790 Gruppenfaktormodell 514 gruppierte Daten 27±32, 37, 38, 41, 44 Gçte der Anpassung 162±167 H H0 (s. Nullhypothese) H1 (s. Alternativhypothese) Håufigkeiten 18, 19, 27±34 ±, beobachtete 156 ±, erwartete 156 ±, relative 52 Håufigkeitsunterschiede, Ûberprçfung von, s. v2-Methoden harmonisches Mittel 39 ± ±, Varianzanalyse mit dem 322±325 Haupteffekt (s. a. Faktor in der Varianzanalyse) 293, 294, 312 ±, abhångig 494±498 ±, bedingter 305, 787 ±, unabhångig 491±494
876
Sachverzeichnis
Hauptkomponentenanalyse 516±543, 790 ±, Grundprinzip 516±523 ±, mathematischer Hintergrund 524±541 ±, rechnerische Durchfçhrung 541, 542 Helmert-Kontraste 267, 790 herauspartialisieren 362, 445 hierarchische Versuchsplåne 388±395, 428±430, 500, 501, 790 ± ±, dreifaktoriell 391±395 ± ±, Einzelvergleiche 394, 395 ± ±, Quadratsummenzerlegung 389 ± ±, rechnerische Durchfçhrung 389, 390 ± ±, SPSS-Beispiel 720±722, 748, 749, 756±759 ± ±, Theorie 428±430 ± ±, ungleiche Stichprobenumfånge 395 ± ±, zweifaktoriell 388±391 hill climbing 574 Histogramm 31, 33, 790 Holm-Korrektur 129 Homogenitåt der Varianzen 285, 286, 413 Homogenitåt der Varianz-Kovarianzmatrix 353±355, 424, 425, 619, 620 homomorphe Abbildung 17, 790 Homoskedastizitåt 192, 213, 216, 790 Horn-Verfahren zur Bestimmung der Faktorenanzahl 545 Hotelling's T2-Test 586±592, 748 ± ±, Messwiederholungsanalyse (T24) 590±592 ± ±, Vgl. Stichprobe mit Population (T21) 586±588 ± ±, Vgl. zweier abhångiger Stichproben (T22) 588, 589 ± ±, Vgl. zweier unabhångiger Stichproben (T23) 589, 590 H0-Verteilung 130 hypergeometrische Verteilung 69±71 hyperquadratische Anordnung 403 Hypothese 6, 10±12, 107±110 ±, Alternativhypothese 108, 109 ±, gerichtete 108, 157, 790 ±, Nullhypothese 109, 110 ±, spezifische 108, 109, 121, 122, 796 ±, statistische 109 ±, ungerichtete 108, 797 ±, unspezifische 108, 109, 797 I Identitåtsmatrix 546, 714 Image-Faktorenanalyse 559 Indifferenzbereich 122, 791 Indikatorvariable 483, 484, 791 Induktion 2, 11, 12 Inferenzstatistik 1, 15, 85, 791 Informationsgehalt einer Theorie 4 Interaktion 294, 295, 420, 791 ±, Einzelvergleiche 308, 311, 312 ±, graphische Veranschaulichung 300, 319 ±, Klassifikation 300, 301 ± 2. Ordnung 313, 320 Interdezilbereich 40 Interquartilbereich 40 Intervallbreite 29 Intervallschåtzung 100±106, 791 Intervallskala 19±21, 24, 25, 791 Inverse 720±722
ipsative Messwerte 335, 336, 791 Irrtumswahrscheinlichkeit 11, 112, 113, 791 K Kaiser-Guttman-Kriterium 544, 791 Kann-Såtze 5 kanonische Faktorenanalyse 560 kanonische Korrelationsanalyse 440, 627±645 ± ±, als allgemeiner Læsungsansatz 639±645 ± ±, Faktorladung 630, 631, 636, 638 ± ±, Grundprinzip 628±634 ± ±, Interpretation 629±633 ± ±, mathematischer Hintergrund 634±639 ± ±, rechnerische Durchfçhrung 637±639 ± ±, Redundanzmaûe 618, 630, 636, 637, 639 ± ±, Signifikanztests 629 ± ±, SPSS-Beispiel 777±779 ± ±, Strukturkoeffizienten 631, 636, 639 ± ±, und Diskriminanzanalyse 641, 642 ± ±, Voraussetzungen 629 Kappa-Maû 212, 581, 582, 626, 791 Kardinalskala 22, 791 Kategorienbreite 28 Kategorienmitte 30 Kausalitåt 182, 235, 236, 471, 472 Kendall's Tau 234 KFA 175, 176, 792 Klassifikationsfunktionen 623, 624 Klassifikationsverfahren 617±626, 791 k ´ l-v2-Test 172±175, 643, 644, 791 ±, SPSS-Beispiel 735±737 kleinster v2-Wert, Methode des 618±621 Klumpenstichprobe 87, 88, 791 k-means-Methode 578±580, 791 Kofaktor 718 Kollektiv 15, 27, 791 Kombinationsregeln 60±62 Kommunalitåt 520, 542, 558, 791 Kommunalitåtenproblem 558 kommutativ 715 Konditionalsatz 4 Konfidenzintervall 101±104, 792 ±, arithmetisches Mittel 101, 102 ±, Faktorladung 552 ±, Korrelationskoeffizient 220 ±, Prozentwert 103, 104 ±, Regressionskoeffizient 194 ±, vorhergesagte yÃ-Werte 194±196 Konfidenzkoeffizient 102 Konfigurationsfrequenzanalyse 175, 176, 792 konfirmative Faktorenanalyse 560, 561 konfundierte Varianzen 323, 325, 333 Kongruenzkoeffizient 554 Konkatenation 21 konservativer Test 129, 131, 356, 357, 792 konsistenter Schåtzwert 97, 792 Konstante 6 Kontingenzkoeffizient 234, 235, 792 Kontingenztafel, k ´ l-Felder 172, 234, 643, 792 ±, mehrdimensionale 175 ±, 4-Felder 168, 228, 506, 643
aSachverzeichnis kontinuierlich, s. stetig Kontinuitåtskorrektur 159, 160, 169 kontradiktorischer Satz 5 Kontrastcodierung 473, 485, 487, 488 Kontraste, s. Einzelvergleiche Kontrollvariable 7, 279, 361, 792 Korrelation 181, 190, 203±220, 792 ±, Beeinflussung durch Selektionsfehler 214, 215 ±, biseriale Korrelation 226, 227 ±, biseriale Rangkorrelation 231, 232 ±, Cramers Index 235 ±, Fisher's-Z-Transformation 218 ±, Interpretation 210±212, 235, 236 ±, kanonische Korrelation 627±645, 792 ±, Konfidenzintervall 220 ±, Kontingenzkoeffizient 234, 235 ±, multiple Korrelation 440, 448±471, 792 ±, Partial 443±448 ±, Phi-Koeffizient 211, 227±230 ±, Produktmomentkorrelation 204, 205 ±, punktbiseriale Korrelation 224±226 ±, Rangkorrelation 232±234 ±, Signifikanztest 217 ±, tetrachorische Korrelation 230, 231 ±, und Regression 207 ±, Wertebereich der 206, 207 Korrelationsmatrix 521, 531, 546, 714 Korrelationsmittelung 219, 220 Korrelationsunterschiede 220±224 ±, Effektgræûen 221 Korrespondenzanalyse, multiple 524 Kovarianz 188±190, 203, 204, 792 Kovarianzanalyse 361±386, 427, 428, 498, 499, 792 ±, Effektgræûen 368, 369 ±, einfaktorielle 362±368 ±, Einzelvergleiche 368, 375 ±, mehrfaktorielle 373±376 ±, mit mehreren Kontrollvariablen 499 ±, mit Messwiederholungen 376±385 ±, Mittelwertkorrektur 368 ±, multivariate 642 ±, rechnerische Durchfçhrung 366±368 ±, SPSS-Beispiel 746, 747 ±, Theorie der 427, 428 ±, ungleiche Stichprobengræûen 368, 375, 376 ±, Voraussetzungen 369±373, 499 Kreisdiagramm 34 Kreuzproduktsumme 531 Kreuzvalidierung 454, 792 Kriteriumsrotation 553±556, 792 Kriteriumsvariable 182, 792 kritische Differenz, s. ScheffeÂ-Test Kruskal-Wallis H-Test 287 kubischer Zusammenhang 196 kumulierte Håufigkeitsverteilung 29, 792 L Laboruntersuchung 7, 8 Lagrange-Multiplikatoren 534, 725 Lambda-Wert, s. Eigenwert Lateinische Quadrate 388, 396±400, 501, 502, 792
877
± ±, ausbalanciert 397, 398 ± ±, balancierter Satz 398 ± ±, Einzelvergleiche 400 ± ±, mit Messwiederholungen 403±408 ± ±, orthogonale 402 ± ±, sequentiell ausbalanciert 405, 406 ± ±, Standardform 397 ± ±, Theorie 430 ± ±, Voraussetzungen 399 LCF-Regel 619 least squares solution, s. Methode der kleinsten Quadrate Levene-Test 286 Likelihoodfunktion 99 lineare Funktion 183 lineares Gleichungssystem, Læsung eines 199, 466, 722, 723 Lineare Strukturgleichungsmodelle 236, 471±481, 792 lineare Transformation 21, 37, 43, 205 linearisierende Transformation 200 Linearitåt 183 Linearkombination 264, 465, 710±712 ±, Diskriminanzanalyse 612 ±, Hauptkomponentenanalyse 524±530 ±, homologe 530 ±, kanonische Korrelationsanalyse 634 ±, multiple Regression 465±467 linkssteile Verteilung 32, 38, 46 LISREL (s. lineare Strukturgleichungsmodelle) logarithmischer Zusammenhang 198 logisches Produkt 51 logische Ûberprçfung einer Theorie 4, 5 logistische Regression 176, 463 Log-lineare Modelle 176 M Malhalanobis-Distanz 569, 570 MANOVA (s. a. multivariate Varianzanalyse) 592±603 Maûe der zentralen Tendenz 15, 35±39 matched samples 9, 143, 331, 793 Matrix 713 Matrixalgebra 441, 713±721 Matrixprodukt 716 Matrizenaddition 715 Matrizeninversion 720±722 Matrizenmultiplikation 715, 716 Maximierung mit Nebenbedingungen 534, 725, 726 Maximum-likelihood-Schåtzung 99, 100, 793 McNemar-v2-Test 159±161, 793 Mediandichotomisierung 568 Medianverfahren 573 Medianwert 35±37, 40, 92, 96, 97, 751, 793 Mehrebenenanalyse 508, 509 Messen 15±27 Messfehler 78, 79 Messstruktur 17 Messtheoretische Voraussetzungen der Statistik 15±27 Messwert 17 Messwiederholungen, Kovarianzanalyse 376±385 ±, lateinisches Quadrat 403±408 ±, Nominaldaten 159±161 ±, t-Test fçr abhångige Stichproben 143±146 ±, Varianzanalyse, s. Messwiederholungsanalyse
878
Sachverzeichnis
Messwiederholungsanalyse 331±360, 423±427, 503±505, 590±592 ±, dreifaktorielle 341±347 ±, Effektgræûen 350 ±, einfaktorielle 331±335 ±, Freiheitsgrade 327, 333, 338, 340 ±, F-Test 334 ±, im lateinischen Quadrat 403±408 ±, komplette Messwiederholungen 347±350 ±, Quadratsummenzerlegung 332, 333 ±, rechnerische Durchfçhrung 333, 334 ±, ScheffeÂ-Test 334 ±, SPSS-Beispiel 743±745 ±, Theorie der 423±427 ±, Trendanalyse 334 ±, und ipsative Daten 335, 336 ±, ungleiche Stichprobengræûen 340, 341, 347 ±, Voraussetzungen 352±359 ±, zweifaktorielle 336±340 Meta-Analyse 222, 261, 304 Methode der kleinsten Quadrate 98, 99, 185, 186, 793 Metrik, euklidische 568, 569 ±, Minkowski 570 mid-range 36 Minkowski-Metriken 570 Minoren 718 Mischverteilung 165 missing data 321, 336, 340, 341, 359, 450 Mittel, arithmetisches 36±38, 96±98, 793 ±, geometrisches 38, 39 ±, gewichtetes 39 ±, harmonisches 39 ±, von Korrelationen 219, 220 ±, von Kovarianzen 357, 619 ± von Varianzen 140, 253, 357 Mittelwert 36±38 Modalwert 35, 36, 96, 793 Moderatorvariable 215, 222, 463, 793 Momente von Verteilungen s. Potenzmomente monotone Transformation 17, 19 ± Trendhypothesen 196±201, 282±284, 338, 797 Monte Carlo-Studie 90, 130±132, 793 Multikollinearitåt 452±463, 606, 793 multinomiale Verteilung 72, 73, 177 multiple Korrelation 440, 448±471, 640 ± ±, Ableitung der 468 ± ±, Effektgræûen 464 ± ±, Grundprinzip der 449, 450 ± ±, Interpretation 451, 452 ± ±, Signifikanztest 450 ± ±, SPSS-Beispiel 750, 751 ± ± und Partialkorrelation 454±456 ± ± und Varianzanalyse s. allgemeines lineares Modell ± Regression 440, 448 ± ±, Berechnung 448, 449, 465±471 ± ±, Grundprinzip der 448, 449 ± ±, Interpretation 451, 452 ± ±, schrittweise 461±463 Multiple Regression, moderierte 463 multiples Testen 129, 130, 271 Multiplikationstheorem der Wahrscheinlichkeit 55±57
multivariater Ansatz 439±442, 585, 586 multivariate Methoden 437±645, 793 ± Normalverteilung 450 ± Prçfkriterien 597, 598 ± Signifikanztests 593, 594 ± Varianzanalyse 440, 592±603 ± ±, Effektgræûe 596 ± ±, einfaktorielle 592±597 ± ±, Einzelvergleiche 597 ± ±, mehrfaktorielle 598±601 ± ±, optimaler Stichprobenumfang 596 ± ±, rechnerische Durchfçhrung 595, 596, 600, 601 ± ±, SPSS-Beispiel 770±772 ± ±, Voraussetzungen 597 N negative Binomialverteilung 73 nested factors 388 nicht-orthogonale Varianzanalyse 321±325, 494±498, 601, 793 Nominalskala 18, 23, 24, 793, 794 nonlineare Regression 196±201, 282, 500 Normalrangtransformation 283, 284 Normalverteilung 42, 43, 46, 73±79, 794 ± als empirische Verteilung 76 ± als mathematische Basisverteilung 77, 78 ±, multivariate 450, 597 ±, Streuungsbereiche 43, 75 ±, Ûberprçfung auf 75, 76, 164, 166, 450 ± und statistische Fehlertheorie 78, 79 ±, Verteilungseigenschaften 43, 73±75 Normalverteilungsçberprçfung 75, 76, 164, 166 normierter Vektor 537 Nçtzlichkeit von Prådiktorvariablen 456 Nullhypothese 109, 110, 115, 116, 794 Nullpunkt 22 O Objektivitåt 10 oblique Struktur 547, 794 Omega-Quadrat 259, 281, 610, 794 Operationalisierung 9, 794 Ordinalskala 19, 24, 794 orthogonale Matrix 530 ± Einzelvergleiche 265±267 ± Polynome 277 ± Rotationstransformation 519, 527±530, 533 Orthogonalitåt 538, 539 P Paarbildungsgesetz 61 parabolischer Zusammenhang 196 Parallelanalyse 545, 546, 558, 794 parallele Stichproben 9, 143, 331 parallelisieren 9, 794 Parameter 65, 85, 794 Parameterschåtzung 95±106 Partialkorrelation 443±448, 454, 455, 464, 472, 794 ±, Effektgræûen 464 ± hæherer Ordnung 447, 454, 455 ±, multiple 455
aSachverzeichnis ±, Signifikanz der 447 Pascal'sches Dreieck 69 PCA, s. Hauptkomponentenanalyse Per fiat-Messung 26 Permutation 60, 794 Perzentil 40, 794 Pfadanalyse 236, 474±478 Pfaddiagramm 474±478, 795 Phi-Koeffizient 174, 211, 227±230, 567, 644, 795 Phimax 228±230 Pillai's Spur-Kriterium 594, 602 Poisson-Verteilung 71, 72, 166, 167 Polygon 30, 795 Polynom 200, 277 Polyseriale Korrelation 227 Pooling-Prozedur 315, 423 Population 86, 795 positiv definite Matrix 536 ± semidefinite Matrix 536 Potenzmomente 46 Power (s. Teststårke) Prådiktorvariable 182, 795 ± mit Suppressionseffekten (s. a. Suppressorvariable) 457±461 ±, Nçtzlichkeit der 456 ±, redundante 457, 458 ±, unabhångige 457 Pråzision einer Theorie 4 praktische Bedeutsamkeit 119±121 Primårfaktoren 547 probabilistische Stichprobe 88 Produktmomentkorrelation 204, 205, 278, 570, 640 ±, Berechnung der 205 ±, Effektgræûen 217, 218 ±, Signifikanz der 217 ±, SPSS-Beispiel 738 Profilåhnlichkeit 568±570, 617, 618 Progressiver Test 131, 795 proportionale Stichprobengræûen 88, 321, 322 Prozentrang 29, 45, 795 Prozentwert 29, 92, 102, 103 Prozentwertdifferenzen ±, 2 abhångige Stichproben 161 ±, 2 unabhångige Stichproben 170 ±, k Stichproben 174 Prozentwertverteilung 29 P-Technik 562 punktbiseriale Korrelation 224±226, 795 Punktschåtzung 100, 795 Q QCF-Regel 618, 619 Q-Technik 562 quadratische Plåne 396±409, 430, 501, 502 ± Matrix 714 Quadratsumme 42, 92, 250, 795 Quadratsummenzerlegung, s. Varianzanalyse Quartilabstand 40 quasiexperimentelle Untersuchung 8, 9, 248, 303, 795 Quasi-F-Brçche 314, 319, 392, 422, 423, 795
879
R Rand-Index 582, 583, 795 randomisierte Stichproben 8, 795 randomized block design 289 Rangaufteilungen 152, 233, 234 range 40, 795 Rang einer Matrix 536 Rangkorrelation 232±234, 795 Rangskala 19, 24 rechtssteile Verteilung 38, 46 Reduktionslagen 29 Redundanzmaûe 203, 209, 630, 636, 637, 639, 795 Regression, Koeffizienten 184 ±, lineare 182±196, 795 ±, multiple 440, 448±471, 795 ±, nonlineare 196±201, 282, 500 ±, schrittweise 461±463, 494 Regressionsresiduen 207±209, 216, 445, 795 rekursives System 475, 795 Relativ, numerisches 16, 795, 796 ±, empirisches 16, 789 Reliabilitåt 10, 11 Repråsentationstheorem 17 Repråsentativitåt 86 Residuum 207, 216 robuster Test 131, 796 Rotationstransformationen 525±534 R-Technik 562 S sampling distribution, s. Stichprobenkennwerteverteilung Satz von der totalen Wahrscheinlichkeit 57 Schåtzung, effiziente 97 ±, erwartungstreue 96, 97, 193 ±, konsistente 97 ±, suffiziente 98 ScheffeÂ-Test, einfaktorielle Varianzanalyse 274±276, 796 ±, mehrfaktorielle Varianzanalyse 316 ±, Messwiederholungsanalyse 334 ± zweifaktorielle Varianzanalyse 305, 306, 309 Schiefe 45, 46, 796 schiefwinklige Faktorenstruktur 547 schlieûende Statistik 1, 15, 85 schmalgipflige Verteilung 33, 46 Schrumpfungskorrektur der multiplen Korrelation 450, 451, 796 Scree-Test 544, 796 Sekundårfaktoren (Faktoren 2. Ordnung) 547 Semipartialkorrelation 281, 446, 455, 464 Sequenzeffekte 338, 403±405, 796 Set-correlation 631 sicheres Ereignis 51 Signifikanz 11, 12, 111±116 Signifikanzniveau 11, 113, 114, 796 Signifikanztest 11, 111±130 simple matching coefficient 567 ± structure 547 single linkage 572 singulåre Matrix 467, 537, 719, 720 Skala 17 Skalar 714
880
Sachverzeichnis
Skalarprodukt 716 Skalenarten 18±25 Skalenniveau 10, 25 Spearman's Rangkorrelation 232±234 spezifische Varianz 557 SPSS-Beispiele 727±779 ±, ALM: einfaktorielle Varianzanalyse 752±755 ±, ALM: zweifaktorielle hierarchische Varianzanalyse 756±759 ±, Clusteranalyse nach Ward 768, 769 ±, Diskriminanzanalyse 773±776 ±, Einlesen von Daten 732 ±, einfaktorielle Varianzanalyse 739, 740 ±, Faktorenanalyse (PCA) 760±763 ±, Kanonische Korrelation 777±779 ±, k ´ l-v2-Test 735±737 ±, multiple Korrelation und Regression 750, 751 ±, multivariate Varianzanalyse 770±772 ±, Produkt-Moment-Korrelation 738 ±, t-Test fçr unabhångige Stichproben 733, 734 ±, Varimax-Rotation 764±767 ±, zweifaktorielle hierarchische Varianzanalyse 748, 749 ±, zweifaktorielle Kovarianzanalyse 746, 747 ±, zweifaktorielle Varianzanalyse 741, 742 ±, zweifaktorielle Varianzanalyse mit Messwiederholungen 743±745 Spur-Kriterium 574 Spur einer Matrix 536 Standardabweichung 41±44, 96, 796 Standardfehler des arithmetischen Mittels 90±92, 709, 710, 796 ± des arithmetischen Mittels bei geschichteten Stichproben 93 ± der Faktorladung 552 ± der Korrelation 220 ± des Medianwertes 92 ± des Prozentwertes 92, 103, 104 ± der Regressionsschåtzung 192±194 ± der Standardabweichung 92 standardisieren (z-Transformation) 44, 45 Standardnormalverteilung 75, 76, 796 Standardpartialregressionskoeffizient (s. Beta-Gewicht) Standardschåtzfehler 192±194, 751, 796 statistische Kennwerte 34±46, 85 Stem-and-Leaf-Plot 33, 35 stepwise regression 461±463, 494 stetig 63, 64, 796 stetige Variable 23, 29, 63, 64, 705 Stichprobe 27, 85±89, 796 ±, abhångige 143, 331 ±, parallele 9, 143 ±, probabilistische 88 ±, repråsentative 86 ±, stratifizierte 88, 797 ±, unabhångige 140 ±, zufållige 86, 87 Stichprobenkennwerteverteilung 89±95, 796, 797 Stichprobenumfang 9 ± fçr die Bestimmung von Konfidenzintervallen 104±106 Stichprobenumfang, ¹optimalerª 125±129, 794 ±, v2-Test auf Gleichverteilung 167
±, drei- und mehrfaktorielle Varianzanalyse 315 ±, einfaktorielle Varianzanalyse 258, 259 ±, k ´ l-v2-Test 174, 175 ±, Kovarianzanalyse 368, 369 ±, Messwiederholungsanalyse 350±352 ±, multiple Korrelation 463 ±, multivariate Varianzanalyse 596 ±, Partial- und Semipartialkorrelation 464 ±, Produkt-Moment-Korrelation 218, 219 ±, t-Test fçr abhångige Stichproben 145 ±, t-Test fçr unabhångige Stichproben 143 ±, Vergleich xÅ und l (t-Test) 136 ±, zweifaktorielle Varianzanalyse 303, 304 stochastisch unabhångig 168, 203 stochastische Variable (s. Zufallsvariable) stochastischer Zusammenhang 183±188 Stærvariablen 7, 252, 797 Streuung 41, 797 Strichliste 28 Struktogramm 577 Strukturkoeffizienten ±, kanonische Korrelation 631, 636, 639 ±, multiple Korrelation 453, 470 Strukturkomponenten 412, 416, 423, 427, 428, 430 Suffizienz 98, 797 Summenzeichen, Rechnen mit dem 703, 704 Supermatrix 627 Suppressorvariable 457±461, 606, 630, 797 ±, negative 460 ±, reziproke 460 ±, traditionelle 460 symmetrische Matrix 714 T tautologischer Satz 4, 5 teilhierarchischer Versuchsplan 391±395 ± ±, Einzelvergleiche 394, 395 ± ±, rechnerische Durchfçhrung 393 ± ±, ungleiche Stichprobengræûen 395 ± ±, Version 1 391, 392 ± ±, Version 2 392 Test (s. Signifikanztest) ±, einseitiger 116, 117, 788 ±, konservativer 131, 356, 357 ±, progressiver 131 ±, robuster 11, 131 ±, zweiseitiger 117, 799 Teststårke 123±125, 127, 128, 797 Teststårkefunktion 125 tetrachorische Korrelation 230, 231, 797 Tetradenmethode 514 Theorie 2±6, 11, 12 ±, empirische Ûberprçfbarkeit 5, 6 ±, Falsifizierbarkeit 6, 11, 12 ±, Informationsgehalt 4 ±, logische Konsistenz 4, 5 ±, logische Vereinbarkeit 5 ±, Pråzision 4 Transformationen 18, 19, 21, 25, 166, 200 transitiv 19 transponierte Matrix 713
aSachverzeichnis treatment 248 Trendkomponente 277±280 Trendtest, einfaktorielle Varianzanalyse 276±284, 491, 797 ±, mehrfaktorielle Varianzanalyse 316 ±, Messwiederholungsanalyse 334 ±, monotoner Trend 282±284 ±, zweifaktorielle Varianzanalyse 305 Tripelinteraktion, graphische Darstellung 320, 797 ±, Interpretation 313, 320 Tschebycheff'sche Ungleichung 43 t-Test 136±146 ±, Effektgræûen 139, 143, 145 ± fçr abhångige Stichproben 143±146, 502, 503 ± fçr unabhångige Stichproben 140±143, 489, 643 ±, SPSS-Beispiel 733, 734 T2-Test 586±592 Tukey-Test auf Additivitåt 325±328 t-Verteilung 81, 82 U unabhångige Ereignisse 56, 797 ungleiche Stichprobengræûen, einfaktorielle Varianzanalyse 260, 261, 416 ± ±, hierarchische Versuchsplåne 395 ± ±, Kovarianzanalyse 368, 375 ± ±, mehrfaktorielle Varianzanalyse 321±325, 494±498 ± ±, Messwiederholungsanalyse 340, 341, 347 Unterschiedshypothesen 108, 797 ±, Ûberprçfung von (s. a. Varianzanalyse) 135±175 unvollståndige Versuchsplåne 387 Urliste 27 U-Test 150±153, 739, 797 V Validitåt 182 ±, externe 8, 789 ±, interne 8, 248, 791 Variable 6 ±, abhångige 7, 182, 247 ±, diskrete 23, 29, 62, 63, 65±73, 705 ±, kontrollierte 7, 289 ±, konstant gehaltene 7, 289 ±, stetige 23, 29, 63, 705 ±, systematisch variierte 289, 290 ±, unabhångige 7, 247, 707, 797 Varianz 41±44, 65, 92, 95, 798 ±, Vergleich zweier Stichprobenvarianzen 148±150 ±, erwartungstreue Schåtzung 96, 708, 709 Varianzanalyse 243±436, 490±505, 590±603, 642, 643, 798 ± bei bekannten Mittelwerten, Varianzen und Stichprobenumfången 261, 262, 299 ±, Bestimmung der Erwartungswerte 411±436 ±, einfaktorielle 247±287, 411±416, 490, 491, 642, 643 ±, hierarchische Versuchsplåne 388±395, 428±430, 500, 501 ±, Kovarianzanalyse 361±386, 427, 428, 498±500, 642 ±, mehrfaktorielle 289±330, 416±421, 491±498 ±, mit Messwiederholungen 331±360, 423±427, 503±505 ±, multivariate 592±603, 642, 643 ±, nichtorthogonale 321±325, 494±498 ±, quadratische Versuchsplåne 396±409, 430, 501, 502 ±, Theorie der 411±436
881
± und t-Test 250, 262, 263 Varianzanteil eines Faktors ± ± ± in der Hauptkomponentenanalyse 520 ± ± ± in der univariaten Varianzanalyse 255, 280, 281, 299 ± ± ± in der multivariaten Varianzanalyse 610 Varianzhomogenitåt beim t-Test 141 ± in der Varianzanalyse 285, 286, 328, 413 Varianzhomogenitåtstest, Fmax 286 ± nach Bartlett 285, 286 ± nach O'Brien 328 Varianz-Kovarianzmatrix, Berechnung der 355, 356, 531 ±, Ûberprçfung der Homogenitåt der 619, 620 Varianzkriterium 574 Variationen 59, 60 Variationsbreite 28, 40, 798 Variationskoeffizient 44 Varimax-Rotation 548±551, 798 ±, SPSS-Beispiel 764±767 Vektor 714 verbundene Rånge 152, 233, 234 Vereinigung 51 Verhåltnisskala 21±23, 25, 798 verifizieren 12 Versuchsleitereffekte 10, 798 Verteilung von Stichprobenkennwerten 89±95 Verteilung, Binomial- 65±69, 77, 78, 158, 159 ±, v2- 79±81, 82 ±, diskrete 65±73 ±, F- 81, 82 ±, hypergeometrische 69±71 ±, multinomiale 72, 73, 177 ±, negative Binomial- 73 ±, Normal- 42, 43, 73±79 ±, Poisson 71, 72 ±, stetige 23, 29, 63, 73±83 ±, t- 81, 82 Verteilungsformen 32, 34 verteilungsfreie Tests 131, 141, 150±155, 798 Verteilungsfunktion 64, 798 Verteilungsintegrale 64 Vertrauensintervall s. Konfidenzintervall 4-Felder-v2-Test 168±172, 505, 506, 644 Voraussetzungen, v2-Methoden 159, 160, 164, 169, 172, 173, 176, 177 ±, Diskriminanzanalyse 610 ±, einfaktorielle Varianzanalyse 284±287 ±, F-Test 149 ±, Hauptkomponentenanalyse 523, 524 ±, hierarchische Versuchsplåne 388, 390 ±, Hotelling's T2-Test 587, 590 ±, kanonische Korrelationsanalyse 629 ±, Korrelationsrechnung 213, 214 ±, Kovarianzanalyse 369±373 ±, mehrfaktorielle Varianzanalyse 328 ±, Messwiederholungsanalyse 352±359 ±, multiple Korrelation und Regression 450 ±, multivariate Varianzanalyse 597 ±, quadratische Versuchsplåne 400, 430 ±, Regressionsrechnung 191, 192 ±, t-Test fçr abhångige Stichproben 144, 145 ±, ± ± unabhångige Stichproben 141
882
Sachverzeichnis
Voraussetzungen, Verletzung von 131, 132 Vorhersage 186, 453 W Wahrheitsgehalt einer Theorie 2±6, 11±12, 114, 115 Wahrscheinlichkeit 49±83 ±, Additionstheorem 54 ±, Axiome der 53 ±, bedingte 54, 55 ±, Multiplikationstheorem 55±57 ±, objektive 50 ±, subjektive 50 Wahrscheinlichkeitsdichte 64, 798 Wahrscheinlichkeitsfunktion 62±64, 798 Wahrscheinlichkeitsverteilungen 62±83 Ward-Methode 573, 575±578, 768, 769, 798 Wartezeiten 73 Wechselwirkung (s. Interaktion) Welch-James-Prozedur 141, 275, 286, 317, 498 Wilcoxon-Test 153, 154, 798 Wilk's Lambda 593, 601, 602 Z Zentrales Grenzwerttheorem 93, 94, 798 zentrale Tendenz, Maûe der 35±39, 798 Zentroidmethode 573 Zirkularitåtsannahme 354 Z-Transformation 218, 219
z-Transformation 44, 45, 798 Zufallsexperiment 50, 799 Zufallsstichprobe 86, 87, 799 Zufallsvariable 62, 799 ±, Erwartungswert 65 ±, Varianz 65 Zuordnungsverfahren 617±626 Zusammenfassen von Fehlervarianzschåtzungen 253 Zusammenhangshypothese 108, 181, 182, 799 zweifaktorielle Varianzanalyse 290±312, 416±421, 494±498, 642 ± ±, Effektgræûen 303±305 ± ±, Einzelvergleiche 305±312 ± ±, Freiheitsgrade 296, 297 ± ±, F-Tests 298 ± ±, Hypothesen 297 ± ±, n = 1 325±327 ± ±, Quadratsummenzerlegung 292±296 ± ±, rechnerische Durchfçhrung 298, 299 ± ±, ScheffeÂ-Test 306, 309 ± ±, SPSS-Beispiel 741, 742 ± ±, Theorie der 410±421 ± ±, Trendtest 305 ± ±, ungleiche Stichprobengræûen 321±325, 480±484, 494±498 ± ±, Voraussetzungen 328 zyklische Permutation 397
Druck- und Bindearbeiten: Legoprint, Italien