Christof Wolf · Henning Best (Hrsg.) Handbuch der sozialwissenschaftlichen Datenanalyse
Christof Wolf Henning Best (H...
81 downloads
3131 Views
7MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Christof Wolf · Henning Best (Hrsg.) Handbuch der sozialwissenschaftlichen Datenanalyse
Christof Wolf Henning Best (Hrsg.)
Handbuch der sozialwissenschaftlichen Datenanalyse
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
1. Auflage 2010 Alle Rechte vorbehalten © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010 Lektorat: Frank Engelhardt VS Verlag fur Sozialwissenschaften ist eine Marke von Springer Fachmedien. Springer Fachmedien ist Teil der Fachverlagsgruppe Springer Science+Business Media. www.vs-verlag.de Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Umschlaggestaltung: KünkelLopka Medienentwicklung, Heidelberg Druck und buchbinderische Verarbeitung: Stürtz GmbH, Würzburg Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier Printed in Germany ISBN 978-3-531-16339-0
Vorwort
Als wir vor über zweieinhalb Jahren damit begannen, über ein Handbuch der sozialwissenschaftlichen Datenanalyse nachzudenken, waren wir uns zwar bewusst, dass es ein etwas umfangreicheres Werk werden würde, über den Umfang des jetzt vorliegenden Bandes sind wir jedoch selbst überrascht. Das Handbuch umfasst 40 Kapitel mit 175 Tabellen und 275 Abbildungen auf 1100 Seiten. Viele haben dazu beigetragen, dass wir dies erreichen konnten. An erster Stelle sind die Autorinnen und Autoren zu nennen, die nicht nur Beiträge zum Handbuch geschrieben haben, sondern auch bereit waren, diese teilweise mehrfach zu überarbeiten und unseren Bitten nach neuen Abbildungen oder anders gestalteten Tabellen nachzukommen. Darüber hinaus haben sie bereitwillig zugestimmt, Beiträge anderer Autorinnen und Autoren zu begutachten. In einigen Fällen haben wir weitere Kolleginnen und Kollegen, die keinen Beitrag zum Handbuch beigesteuert haben, um ein Gutachten gebeten. Dies waren: Michael Braun (Mannheim), Eldad Davidov (Zürich), Bernhard Kittel (Oldenburg), Ulrich Kohler (Berlin), Michaela Kreyenfeld (Rostock), Manuela Kulick (Mannheim), Jochen Mayerl (Stuttgart), Ralf Münnich (Trier), Georgios Papastefanou (Mannheim), Daniela Pollich (Bielefeld), Angelika Scheuer (Mannheim), Christian Stegbauer (Frankfurt), Herbert Stocker (Innsbruck), Vera Tröger (Essex) und Arne Uhlendorff (Mannheim). Bei der Fertigstellung des Buches haben uns ebenfalls mehrere Personen unterstützt. Robert Birkelbach, Julia Khorshed und Annabell Zentarra haben jeweils Teile des Manuskripts in LATEX gesetzt. Heike Antoni hat die zitierte Literatur erfasst und Mathias Köhler hat uns bei der Optimierung der Abbildungen geholfen. Beim Korrekturlesen waren uns Heike Antoni, Jessica Herzing, Johanna Röller und Franziska Schmidt eine große Hilfe. Unterstützt hat uns auch die IT der GESIS – Leibniz-Institut für Sozialwissenschaften, die uns für die Fertigstellung der Druckvorlage unbürokratisch Hardware, insbesondere mehrere große Bildschirme, zur Verfügung gestellt hat. Ohne den VS-Verlag wäre eine Herausgabe des Handbuchs in dieser Form nicht möglich. Frank Engelhardt war von der Idee zu diesem Handbuch sofort begeistert und betreute das Buch gemeinsam mit Cori Mackrodt. Allen Genannten sei für ihr Engagement und ihre Unterstützung herzlich gedankt. Mannheim, 15. Juni 2010 Henning Best und Christof Wolf
Inhaltsverzeichnis
Teil I Einführung 1 Einführung: Sozialwissenschaftliche Datenanalyse Henning Best, Christof Wolf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2 Kausalität als Gegenstand der Sozialwissenschaften und der multivariaten Statistik Karl-Dieter Opp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
Teil II Grundlagen der Datenanalyse 3 Datengewinnung und Datenaufbereitung Manuela Pötschke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
4 Uni- und bivariate deskriptive Statistik Cornelia Weins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
5 Graphische Datenexploration Horst Degen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
6 Der Umgang mit fehlenden Werten Martin Spieß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 7 Gewichtung Siegfried Gabler, Matthias Ganninger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 8 Grundlagen des statistischen Schließens Steffen M. Kühnel, Dagmar Krebs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 9 Einführung in die Inferenz durch den nichtparametrischen Bootstrap Susumu Shikano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 10 Maximum-Likelihood Schätztheorie Thomas Gautschi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
VIII
Inhaltsverzeichnis
Teil III Messen und Skalieren 11 Reliabilität, Validität, Objektivität Beatrice Rammstedt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 12 Thurstone- und Likertskalierung Joachim Gerich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 13 Guttman- und Mokkenskalierung Joachim Gerich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283 14 Item-Response-Theorie Christian Geiser, Michael Eid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311 15 Hauptkomponentenanalyse und explorative Faktorenanalyse Hans-Georg Wolff, Johann Bacher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333 16 Korrespondenzanalyse Jörg Blasius . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367 17 Multidimensionale Skalierung Ingwer Borg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
Teil IV Analyse von Häufigkeiten, Gruppen und Beziehungen 18 Analyse kategorialer Daten Hans-Jürgen Andreß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421 19 Varianz- und Kovarianzanalyse Manuel C. Völkle, Edgar Erdfelder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455 20 Diskriminanzanalyse Reinhold Decker, Silvia Rašković, Kathrin Brunsiek . . . . . . . . . . . . . . . . . . . . . . 495 21 Clusteranalyse Michael Wiedenbeck, Cornelia Züll . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525 22 Analyse latenter Klassen Johann Bacher, Jeroen K. Vermunt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553 23 Netzwerkanalyse Hans J. Hummell, Wolfgang Sodeur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575
Inhaltsverzeichnis
IX
Teil V Regressionsverfahren für Querschnittsdaten 24 Lineare Regressionsanalyse Christof Wolf, Henning Best . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 607 25 Lineare Regression: Modellannahmen und Regressionsdiagnostik Dieter Ohr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 639 26 Nicht-Linearität und Nicht-Additivität in der multiplen Regression: Interaktionseffekte, Polynome und Splines Henning Lohmann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 677 27 Robuste Regression Ben Jann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 707 28 Mehrebenenanalyse mit Querschnittsdaten Wolfgang Langer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 741 29 Strukturgleichungsmodelle Jost Reinecke, Andreas Pöge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 775 30 Regression mit unbekannten Subpopulationen Petra Stein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 805 31 Logistische Regression Henning Best, Christof Wolf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 827 32 Multinomiale und ordinale Regression Steffen M. Kühnel, Dagmar Krebs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 855 33 Regression für Zählvariablen Gerhard Tutz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 887 34 Graphische Darstellung regressionsanalytischer Ergebnisse Gerrit Bauer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 905
Teil VI Analyse von zeitbezogenen Daten 35 Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren Markus Gangl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 931 36 Kausalanalyse mit Paneldaten Josef Brüderl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 963 37 Survival- und Ereignisanalyse Hans-Peter Blossfeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 995
X
Inhaltsverzeichnis
38 Latente Wachstumskurvenmodelle Florian Schmiedek, Julia K. Wolff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1017 39 Sequenzdatenanalyse Stefani Scherer, Josef Brüderl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1031 40 Zeitreihenanalyse Rainer Metz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1053
***** Autorenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1093
Teil I
Einführung
1 Einführung: Sozialwissenschaftliche Datenanalyse Henning Best und Christof Wolf a b
Universität Mannheim GESIS – Leibniz-Institut für Sozialwissenschaften und Universität Mannheim
1 Moderne Sozialwissenschaft und die Bedeutung der Statistik Sozialwissenschaft, wie wir sie heute kennen, ist vor allem durch ihre starke empirische Ausrichtung gekennzeichnet. Bereits 1967 bemerkte René König, dass Wissenschaft, und damit auch die Soziologie, „letztlich nur als empirische Forschung möglich“ ist (König 1967, S. 3). Mittlerweile hat sich diese Einsicht durchgesetzt und die quantitativempirische Forschung ist zum Standard in den Sozialwissenschaften geworden. Fleck (2010) untersucht die Verbreitung der empirischen Forschung seit Ende des zweiten Weltkrieges am Beispiel von Veröffentlichungen in der American Sociological Review (ASR) und der Kölner Zeitschrift für Soziologie und Sozialpsychologie (KZfSS) und berichtet, dass seit den 1990er Jahren ca. 90 % der Beiträge auf – vornehmlich quantitativer – empirischer Forschung beruhen. Für das Jahr 2008 findet er sogar 100 % empirische Beiträge in der Kölner Zeitschrift und immerhin 98 % in der ASR. Um moderne sozialwissenschaftliche Forschung zu verstehen und betreiben zu können, sind folglich hinreichende Kenntnisse in quantitativen Methoden und modernen statistischen Verfahren notwendig. Vor diesem Hintergrund ist es erfreulich, dass in der universitären Lehre Methoden und Statistik einen hohen Stellenwert haben. Die Deutsche Gesellschaft für Soziologie empfiehlt in ihrem Standardcurriculum für Bachelor-Studiengänge Kurse zu Statistik. In nahezu allen sozialwissenschaftlichen Studiengängen ist zumindest ein Einführungskurs in Statistik verpflichtend, und viele Fakultäten bieten fortgeschrittene Veranstaltungen in multivariater Statistik an. Die beschriebene Entwicklung hat auch dazu geführt, dass – international und auf dem deutschsprachigen Markt – eine große Zahl an Statistikbüchern erhältlich ist. Bei den meisten deutschsprachigen Veröffentlichungen zur sozialwissenschaftlichen Statistik handelt es sich jedoch um Lehrbücher für den Einstieg. So steht mittlerweile eine große Auswahl an grundständigen Einführungen in die Statistik zur Verfügung (vgl. z. B. Gehring & Weins 2009; Benninghaus 2007; Kühnel & Krebs 2007; Bortz 2005; Fahrmeir et al. 2009), und jede Dozentin oder jeder Student wird ein entsprechendes Einführungswerk finden, das seinem oder ihrem Geschmack entspricht. In Bezug auf fortgeschrittene multivariate Verfahren ist die Situation hingegen gänzlich anders, zumindest im deutschsprachigen Raum. Zwar gibt es ausreichend Monografien zu einzelnen Verfahren, etwa zur Regressionsanalyse, zur Analyse kategorialer Daten, zur Mehrebenenanalyse, zu Strukturgleichungsmodellen und vielem mehr (vgl. z. B. Urban S. 3–7 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_1, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
4
Henning Best und Christof Wolf
& Mayerl 2006; Andreß et al. 1997; Langer 2004; Reinecke 2005). Auch wenn sich diese Bücher mitunter hervorragend eignen, um sich intensiv mit einem bestimmten Verfahren zu beschäftigen, sind sie oftmals weniger dienlich, wenn man einen Überblick erhalten möchte, einen ersten, kurzen Einstieg in eine Methode sucht oder sich über mehrere Verfahren im Vergleich informieren möchte. Hierfür wären insbesondere Überblickswerke zu multivariaten Analyseverfahren geeignet – je nach Zweck Nachschlagewerke, Handbücher, praxisorientierte Darstellungen oder fortgeschrittene Lehrbücher. Diese liegen jedoch deutschsprachig kaum vor. Wichtige Ausnahmen sind insbesondere das von Andreas Diekmann herausgegebene Sonderheft der KZfSS „Methoden der Sozialforschung“ (Diekmann 2006), das sich allerdings vornehmlich mit neueren Entwicklungen beschäftigt und daher grundlegende, häufig verwendete Verfahren ausklammert, ein kleiner aber dennoch sehr nützlicher Sammelband zu „Methoden der Politikwissenschaft“ von Behnke et al. (2006) und schließlich das aus der Marketingforschung stammende Lehrbuch von Backhaus et al. (2008), dessen starker Anwendungsbezug („Kochbuch“) es bei Studierenden zwar beliebt macht, das jedoch keine ausreichende Darstellung der jeweiligen mathematisch-statistischen Grundlagen bietet. All diese Bücher sind zudem, was die Zahl der dargestellten Verfahren angeht, weniger umfangreich als das vorliegende Handbuch. Angesichts der in den letzten Jahren und Jahrzehnten immer weiter gestiegenen Bedeutung der empirischen Sozialforschung, und damit auch der multivariaten Datenanalyse, ist der konstatierte Mangel an übergreifenden Darstellungen verschiedener, häufig verwendeter multivariater Analysemethoden eklatant. Wir hoffen, dass dieser Mangel mit dem hier vorgelegten Handbuch zumindest teilweise beseitigt wird.
2 Ziele und Zielgruppe des Handbuchs Das Handbuch der sozialwissenschaftlichen Datenanalyse verfolgt mehrere Ziele und spricht folglich unterschiedliche Zielgruppen an: Einerseits dient es als Überblicks- und Nachschlagewerk für eine große Anzahl von multivariaten Analyseverfahren und ist insofern für alle Anwender empirischer Methoden von großem Interesse. Sie finden jedes Verfahren ausführlich diskutiert und mit seinen mathematisch-statistischen Grundlagen dargestellt. Andererseits bietet das Handbuch durch den Aufbau der Beiträge auch die Möglichkeit, Analyseverfahren neu kennen zu lernen und einen Einstieg in die multivariate Datenanalyse zu finden. Als Zielgruppe kommen insofern auch fortgeschrittene Studierende der Sozialwissenschaften, Doktoranden und Mitarbeiter in empirischen Forschungsprojekten in Betracht. Um diesen Zielen – Einführungs-, Überblicks- und Nachschlagewerk – gleichzeitig gerecht werden zu können, folgen die Beiträge des Handbuchs, mit gegebenenfalls notwendigen Anpassungen, einer vorgegebenen Gliederung: Jedes Verfahren wird zunächst allgemeinverständlich beschrieben, bevor in einem zweiten Schritt eine strenger formalisierte mathematische Darstellung erfolgt und fortgeschrittene Aspekte des Analyseverfahrens dargestellt werden. Ein besonderer Schwerpunkt liegt, drittens, auf einer anwendungsorientierten Darstellung des Verfahrens anhand von Beispielanalysen.
1 Einführung: Sozialwissenschaftliche Datenanalyse
5
Soweit möglich basieren die Beispielanalysen auf dem kumulierten ALLBUS 1980–20061 oder dem SOEP2 . Um eine Replikation der Beispiele zu ermöglichen und die praktische Anwendung der Verfahren zu erleichtern, dokumentieren wir die Analysesyntax (meist als Stata- oder SPSS-Code) auf der begleitenden Homepage des Handbuchs unter http://www.handbuch-datenanalyse.de. Die Beiträge enden mit einem kurzen Abschnitt zu „häufigen Fehlern“ und kommentierten Literaturempfehlungen. Durch diesen Aufbau hoffen wir, den vielfältigen und hohen Ansprüchen an dieses Handbuch gerecht werden zu können: Während die erfahrene Wissenschaftlerin, die etwas nachschlagen möchte, insbesondere die weiterführenden Abschnitte der Beiträge interessieren werden, wird der Doktorand, der den ersten Kontakt zu einem Verfahren sucht, sicherlich mit dem allgemeinverständlichen, einführenden Teil beginnen, den formalisierten Abschnitt u. U. zunächst überblättern und mit dem Beispiel und „häufigen Fehlern“ fortfahren. Selbstverständlich kann die letztere Vorgehensweise nicht die intensive Beschäftigung mit einer Analysemethode ersetzen; sie kann aber den Einstieg erleichtern und in der Folge eine Vertiefung stimulieren. Eine angemessene Struktur garantiert jedoch noch nicht die Qualität der Beiträge. Diese hängt vielmehr vom Kenntnisstand und der Erfahrung der Autorinnen und Autoren ab. Daher ist es für uns besonders erfreulich, dass es gelungen ist, Kolleginnen und Kollegen aus ganz verschiedenen sozialwissenschaftlichen Disziplinen zur Mitarbeit zu gewinnen, die in ihren Fächern, teilweise weit über die Fachgrenzen hinaus, zu anerkannten Vertretern der Datenanalyse gehören. Zur Qualität der Beiträge hat schließlich auch ein umfassender Begutachtungsprozess beigetragen. Die Expertise der Autorinnen und Autoren und die didaktisch motivierte Struktur der einzelnen Kapitel sollte das Handbuch für eine breite Zielgruppe zu einem interessanten und nützlichen Begleiter bei der Datenanalyse werden lassen.
3 Themenauswahl Aus den Zielen des Handbuches folgt unmittelbar die Frage nach der Auswahl der Analyseverfahren, die behandelt werden sollen. So soll ein Handbuch, wie beschrieben, einen Überblick über das behandelte Feld geben. Eine vollständige Darstellung ist jedoch aufgrund der Vielzahl verschiedener Verfahren leider nicht möglich, zumindest, wenn man sich auf ein Buch beschränken möchte (das Handbook of Econometrics beispielsweise hat sechs Bände in sieben Büchern). In unserer Auswahl haben wir versucht, einerseits die ganze Breite quantitativer Methoden abzudecken, uns andererseits aber auf häufig genutzte und damit (in einem praktischen Sinne) wichtige Verfahren zu konzentrieren. Da wir außerdem der Auffassung sind, dass empirische Sozialforschung theorieprüfend und, zumindest perspektivisch, kausalanalytisch sein sollte, freuen wir uns besonders, dass Karl-Dieter Opp diesen Band mit einem wissenschaftstheoretischen Beitrag zu Kausalität und multivariater Statistik eröffnet. Hierdurch machen wir deutlich, dass Sozialforschung keine reine Deskription sozialer Tatbestände oder, in Adornos 1
2
Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ZA-Nr. 4241), siehe http: //www.gesis.org/allbus Sozio-oekonomisches Panel, siehe http://www.diw.de/soep
6
Henning Best und Christof Wolf
Worten, eine „verdinglichte Apperzeption des Dinghaften“ (Adorno 1969, S. 89) sein kann, sondern vielmehr einer theoretischen und epistemologischen Grundlage bedarf. Obwohl wir mit 40 Kapiteln auf ca. 1100 Seiten ein sehr umfassendes Werk vorlegen, wird sicher der eine oder die andere ein besonders wichtiges Lieblingsverfahren vermissen. Auch wir hätten gerne noch weitere Themen in das Handbuch aufgenommen. Nichts desto trotz gehen wir davon aus, dass wir den Bedarf richtig eingeschätzt und die wichtigsten Methoden abgedeckt haben.
4 Gliederung und Inhalt Das Handbuch beginnt mit einem Beitrag zu wissenschaftstheoretischen Grundlagen der Datenanalyse und der Verbindung von Kausalanalyse und multivariater Statistik. Der zweite Teil versammelt Aufsätze zu grundlegenden datenanalytischen Verfahren wie bivariater Statistik und explorativen grafischen Verfahren, statistischer Inferenz und Schätzverfahren. Behandelt werden auch Methoden zum Umgang mit fehlenden Werten und Verfahren zur Gewichtung. Hierauf folgen Beiträge zu Skalierungsverfahren, beginnend mit einer Diskussion grundlegender Gütekriterien und klassischer Methoden wie Likert-, Guttman- und Mokkenskalierung oder der Hauptkomponentenanalyse. Darauf aufbauend werden modernere Ansätze präsentiert (Item Response Theorie, Multidimensionale Skalierung und Korrespondenzanalyse). Im dritten Teil wird die statistische Analyse von Häufigkeiten und Gruppen behandelt. Dazu werden Verfahren wie Diskriminanz- und Varianzanalyse, log-lineare Modelle, die Analyse latenter Klassen oder die Netzwerkanalyse dargestellt. Mit über 500 Seiten liegt der Schwerpunkt des Handbuchs jedoch auf den beiden folgenden Blöcken zur multivariaten (Regressions-)Analyse von Quer- und Längsschnittdaten. Zunächst werden hier in mehreren Beiträgen ausführlich verschiedene Aspekte der linearen Regression behandelt. Hierauf aufbauend werden dann fortgeschrittenere Verfahren wie logistische Regression, Strukturgleichungsmodelle, Mehrebenenanalyse oder Propensity Score Matching diskutiert. Da zeitbezogenen Daten eine wachsende Bedeutung zukommt, schließen wir den Band mit Beiträgen zur Ereignisdatenanalyse, Panelregression, Zeitreihenund Sequenzanalyse sowie weiteren Verfahren.
5 Ausblick Wir hoffen, mit diesem Handbuch einen guten Überblick über statistische Analyseverfahren zu geben und einen Beitrag dazu zu leisten, erstens die Methodenausbildung im deutschsprachigen Raum zu erleichtern und zweitens die informierte, kenntnisreiche und korrekte Anwendung komplexer statistischer Methoden zu fördern. Hierfür möchten wir jedoch um Ihre Unterstützung bitten: Trotz aller Mühe, die wir uns mit dem Satz und der Redaktion dieses Handbuches gegeben haben, ist leider damit zu rechnen, das sowohl der Text als auch die Gleichungen einzelne Fehler enthalten. Diese Errata möchten wir auf der Internetseite des Handbuchs (http://www.handbuch-datenanalyse.de) dokumentieren bzw. korrigieren. Sollte
1 Einführung: Sozialwissenschaftliche Datenanalyse
7
Ihnen ein Fehler auffallen, der noch nicht dokumentiert ist, teilen Sie uns dies bitte über das Kontaktformular auf der Homepage mit.
Literaturverzeichnis Adorno, T. W. (1969). Soziologie und empirische Forschung. In T. W. Adorno, R. Dahrendorf, H. Pilot, H. Albert, J. Habermas, & K. R. Popper (Hg.), Der Positivismusstreit in der deutschen Soziologie (S. 81–101). Darmstadt: Luchterhand. Andreß, H.-J., Hagenaars, J. A., & Kühnel, S. (1997). Analyse von Tabellen und kategorialen Daten. Log-lineare Modelle, latente Klassenanalyse, logistische Regression und GSK-Ansatz. Berlin: Springer. Backhaus, K., Erichson, B., Plinke, W., & Weiber, R. (2008). Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Berlin: Springer, 12. Auflage. Behnke, J., Gschwend, T., Schindler, D., & Schnapp, K.-U. (2006). Methoden der Politikwissenschaft. Neuere qualitative und quantitative Analyseverfahren. Baden-Baden: Nomos. Benninghaus, H. (2007). Deskriptive Statistik. Eine Einführung für Sozialwissenschaftler. Wiesbaden: VS Verlag für Sozialwissenschaften, 11. Auflage. Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler. Heidelberg: Springer Medizin Verlag, 6. Auflage. Diekmann, A., Hg. (2006). Methoden der Sozialforschung. Kölner Zeitschrift für Soziologie und Sozialpsychologie, Sonderheft 44. Wiesbaden: VS Verlag für Sozialwissenschaften. Fahrmeir, L., Künstler, R., Pigeot, I., & Tutz, G. (2009). Statistik: Der Weg zur Datenanalyse. Berlin: Springer, 7. Auflage. Fleck, C. (2010). 60 Jahre Empirische Sozialforschung in vergleichender Perspektive. In F. Faulbaum & C. Wolf (Hg.), Gesellschaftliche Entwicklungen im Spiegel der empirischen Sozialforschung. Wiesbaden: VS Verlag für Sozialwissenschaften. Gehring, U. & Weins, C. (2009). Grundkurs Statistik für Politologen und Soziologen. Wiesbaden: VS Verlag für Sozialwissenschaften, 5. Auflage. König, R., Hg. (1967). Handbuch der empirischen Sozialforschung, Band 1 und 2. Stuttgart: Enke. Kühnel, S.-M. & Krebs, D. (2007). Statistik für die Sozialwissenschaften. Grundlagen, Methoden, Anwendungen. Reinbek: Rowohlt, 4. Auflage. Langer, W. (2004). Mehrebenenanalyse. Eine Einführung für Forschung und Praxis. Wiesbaden: VS Verlag für Sozialwissenschaften. Reinecke, J. (2005). Strukturgleichungsmodelle in den Sozialwissenschaften. München: Oldenbourg Verlag. Urban, D. & Mayerl, J. (2006). Regressionsanalyse: Theorie, Technik und Anwendung. Wiesbaden: VS Verlag für Sozialwissenschaften, 2. Auflage.
2 Kausalität als Gegenstand der Sozialwissenschaften und der multivariaten Statistik Karl-Dieter Opp Universität Leipzig und University of Washington, Seattle
Zusammenfassung. Dieser Beitrag befasst sich mit folgenden Fragen: (1) Wie verwenden Sozialwissenschaftler Begriffe wie „Ursache“ und „Kausalität“? (2) Wie gehen Sozialwissenschaftler vor, wenn Kausalität ermittelt werden soll? (3) Inwieweit sind die verwendeten Begriffe und Verfahrensweisen sinnvoll? Nach der Explikation des Kausalitätsbegriffs wird gezeigt, warum Experimente in besonderem Maße geeignet sind, Kausalhypothesen zu testen. Sodann steht die Prüfung von Kausalaussagen durch multivariate statistische Verfahren zur Diskussion. Wir zeigen, dass Kausalmodelle aus Ursachenbehauptungen im vorher explizierten Sinne bestehen. Weiter wird ausführlich die Regressionsanalyse als Beispiel multivariater Verfahren zur Prüfung von Kausalaussagen diskutiert. U. a. wird gezeigt, dass diese als eine Explikation des vorher explizierten Kausalitätsbegriffs angesehen werden kann und in der Lage ist, Kausalhypothesen zu testen. Es können aber keine induktiven Schlüsse gezogen werden. Es wird weiter argumentiert, dass es keine Algorithmen gibt, die aus einem gegebenen Datensatz gültige Kausalmodelle ableiten. Weitere Fragen, die angesprochen werden, sind die erforderliche Anzahl von Fällen für die Prüfung von Kausalhypothesen und Kausalhypothesen in Messmodellen.
1 Einführung Die Literatur über Kausalität und verwandte Begriffe wie Ursache, Kausalprinzip, Kausalaussage oder Kausalgesetz ist nicht mehr zu überblicken, und sie wächst ständig.1 Bunges treffende Behauptung ist auch heute noch gültig: „Almost every philosopher and scientist uses his own definition of cause, even if he has not succeeded in formulating it clearly“ (Bunge 1979, S. 31). In vielen Abhandlungen über Kausalität geht es darum zu explizieren, was mit „Kausalität“ und verwandten Begriffen in der Alltagssprache gemeint ist oder gemeint sein könnte (vgl. z. B. Mellor 1995). Eine zweite Gruppe von Schriften hat die Verwendung von Kausalitätsbegriffen in den Einzelwissenschaften zum Gegenstand. So befasst sich Bunge (1979) mit Kausalität in den modernen Wissenschaften (einschließlich der Sozialwissenschaften), Hoover (2001) behandelt 1
Mehrere umfangreiche Bibliographien findet man auf den folgenden Internetseiten: http://www-personal.umd.umich.edu/~delittle/bibliographies/causal.pdf; http: //socrates.berkeley.edu/~fitelson/269/bib1.htm; http://socrates.berkeley.edu/ ~fitelson/269/bib2.htm; http://www.bayesnets.com/CausalityReferences.htm. Eine breit angelegte Kulturgeschichte von Ideen über Kausalität mit vielen Literaturhinweisen bietet Kern (2004).
S. 9–38 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_2, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
10
Karl-Dieter Opp
Kausalität in der Makroökonomie. Nur diese zweite Art der Analyse ist in diesem Zusammenhang von Interesse. Da unseres Erachtens die Wissenschaftstheorie das Ziel hat, die Vorgehensweisen der Einzelwissenschaftler zu rekonstruieren und einer kritischen Analyse zu unterziehen, erscheint es sinnvoll, zwei Fragen zu stellen: (1) Wie verwenden Einzelwissenschaftler Begriffe wie Ursache und Kausalität? (2) Wie gehen sie vor, um Kausalität zu ermitteln? Es geht also bei diesen Fragen um die Rekonstruktion von Begriffen und Verfahrensweisen in Wissenschaften, hier speziell in den Sozialwissenschaften. (3) Inwieweit sind die verwendeten Begriffe und Verfahrensweisen sinnvoll? Hier geht es um kritische Analyse. Rekonstruktion und kritische Analyse sind die klassischen Ziele von Wissenschaftstheoretikern wie Carl G. Hempel und Ernest Nagel. Gegenwärtig ist die kritische Analyse sozialwissenschaftlicher Praxis zugunsten reiner Deskription wissenschaftlicher Aktivitäten in den Hintergrund getreten. Welches auch immer die Gründe hierfür sein mögen: allein die kritische Analyse sozialwissenschaftlicher Praxis ist geeignet, diese zu verbessern und damit einen Erkenntnisfortschritt zu fördern. Dies ist auch das Ziel des vorliegenden Beitrages. Nach einer Explikation der Bedeutung von „Kausalität“ behandeln wir die Möglichkeit, Kausalaussagen in multivariaten Verfahren wie z. B. der Regressionsanalyse zu prüfen oder Kausalität zu ermitteln. Wir befassen uns weiter mit der Ermittlung der Kausalität in Experimenten und bei Einzelfallanalysen. Schließlich diskutieren wir kausale Beziehungen zwischen latenten Variablen und Indikatoren.
2 Was heißt Kausalität? Was meinen Sozialwissenschaftler mit Aussagen wie „X ist eine Ursache für Y “ oder, gleichbedeutend, „Y ist eine Wirkung von X“?2 Dabei beziehen sich „X“ und „Y “ auf empirische Sachverhalte oder Variablen. So könnte „X“ bedeuten „Höhe der Bestrafung für Schwarzfahren in öffentlichen Verkehrsmitteln“ und „Y “ die „Häufigkeit des Schwarzfahrens in öffentlichen Verkehrsmitteln“.3 Anstelle der Begriffe „Ursache“ und „Wirkung“ verwenden wir auch die Ausdrücke „unabhängige“ und „abhängige“ Variable. Eine Aussage, in der behauptet wird, dass bestimmte Phänomene Ursachen für andere Phänomene sind, nennen wir Kausalaussage. Es kann sich bei diesen zum einen um singuläre Kausalaussagen handeln, die sich also auf bestimmte Orte und Zeitpunkte oder Zeiträume beziehen, z. B.: „Die Erhöhung der Strafen für Schwarzfahren in Hamburg im Jahre 2006 (X) hat die Häufigkeit des Schwarzfahrens (Y ) vermindert.“ Der Satz „X ist eine Ursache von Y “ könnte aber auch eine generelle Kausalaussage sein, d. h. ein Kausalgesetz, also ein Satz ohne Raum-Zeit-Bezug. Ein Beispiel: „Immer 2
3
Jede der folgenden Explikationen wird in der Literatur ausführlich diskutiert. In diesem Beitrag können die verschiedenen Explikationen nur kurz vorgestellt und die unseres Erachtens wichtigsten Probleme behandelt werden. Zu weiteren Explikationen und deren Problemen muss auf die vorliegende Literatur verwiesen werden. Vgl. hierzu z. B. Diekmann (1980). Schwarzfahren ist auch im ALLBUS (Allgemeine Bevölkerungsumfrage in den Sozialwissenschaften) mehrfach erhoben worden (z. B. Kerschke-Risch 1993; Lüdemann 2008).
2 Kausalität und multivariate Statistik
11
wenn die Strafen für eine Handlung steigen, dann sinkt die Häufigkeit der Handlung.“ Kausale Aussagen werden in sehr verschiedener Weise ausgedrückt. Beispiele sind: „X führte zu Y “, „Y trat auf, weil X vorlag“, „aufgrund von X trat Y auf“, „immer wenn X sich erhöht, dann führt dies zu einer Erhöhung von Y “. Betrachten wir zunächst nur singuläre Kausalaussagen. Hier sind „X“ und „Y “ also bestimmte raum-zeitlich begrenzte Ereignisse. 2.1 Zeitliche Reihenfolge von Ereignissen als grundlegende Bedingung für Kausalität Das erste, weitgehend akzeptierte Kriterium dafür, dass X als „Ursache“ für Y bezeichnet werden kann, ist, dass X zeitlich vor Y auftritt: „X ist Ursache von Y “ impliziert „X tritt zeitlich vor Y auf“. Viele Ereignisse gehen anderen voraus, ohne dass sie Ursachen dieser anderen Ereignisse sind. Angenommen, wir ermitteln, dass bei denen, die sterben, immer ein Arztbesuch vorausgeht. Hier ist der Arztbesuch sicherlich keine Ursache für den Tod der Patienten. Es handelt sich vielmehr um eine Scheinkorrelation: Die Beziehung zwischen Arztbesuchen und Todesfällen kommt zustande, weil relativ schwere Erkrankungen häufig sowohl zu Arztbesuchen als auch zum Tod führen. Die Ursache für Todesfälle sind also Erkrankungen und nicht Arztbesuche. 2.2 Kausalität als „innerer Zusammenhang“ von Ereignissen Es ist weiter behauptet worden, dass X dann eine Ursache für Y ist, wenn X das Ereignis Y hervorbringt („produces“, siehe z. B. Blalock 1964, S. 9). D. h. es muss ein „innerer“ oder „notwendiger“ Zusammenhang zwischen X und Y bestehen. Wenn z. B. jemand mit der Faust auf den Tisch schlägt, dann bringt dies ein lautes Geräusch hervor. Was aber bedeutet „bringt hervor“? Wir können nur beobachten, dass nach dem Faustschlag ein Geräusch auftritt. Der „innere Zusammenhang“ liegt vermutlich darin, dass das Geräusch zeitlich unmittelbar nach dem Faustschlag erfolgt. Vielleicht suggeriert das Beispiel einen „inneren Zusammenhang“ auch in dem Sinne, dass man immer wieder beobachtet, dass ein Faustschlag unmittelbar mit einem bestimmten Geräusch verbunden ist. Die singuläre Kausalbehauptung scheint also mehr als nur einen raum-zeitlichen Zusammenhang zu implizieren. 2.3 Die Veränderung von Ereignissen nach der Manipulierung anderer Ereignisse: Die Kontroll-Definition von Kausalität Die singuläre Aussage „X ist eine Ursache von Y “ könnte weiter bedeuten, dass eine Veränderung von X – etwa durch einen Forscher in einem Experiment – dem Auftreten von Y zeitlich vorausgeht. Kurz gesagt: „to manipulate is to cause“ (Scheines 1997, S. 188). Diese Definition wird auch als Kontroll-Definition der Kausalität bezeichnet (vgl. zusammenfassend Woodward 1997, siehe z. B. auch Blalock 1964, S. 9). Wenn Manipulationen aus ethischen oder praktischen Gründen nicht möglich sind – so wird
12
Karl-Dieter Opp
man kaum die Armut erhöhen wollen, um zu prüfen, ob dies zu mehr Kriminalität führt –, dann bedeutet „Manipulation“, dass man verschiedene Werte der unabhängigen Variablen beobachten kann. Scheines (1997, S. 192) spricht hier von „idealen“ Manipulationen. Das Problem bei singulären Kausalaussagen ist, dass die betreffenden Ereignisse nur einmal auftreten. Wenn z. B. die Arztbesuche in Hamburg 2006 steigen – eine „ideale“ Manipulation – und danach auch die Todesfälle, dann läge Kausalität gemäß der Kontroll-Definition vor. 2.4 Kausalität als „Mechanismus“ Ereignis X könnte weiter als Ursache für Y bezeichnet werden, wenn wir die „Mechanismen“, d. h. die intervenierenden Prozesse kennen, die von einem Ereignis X zu einem Ereignis Y führten – bezeichnen wir diese These als die Mechanismen-Definition der Kausalität. Der Mechanismus für die zuerst genannte Kausalaussage könnte lauten: Beim Anstieg der Strafen für Schwarzfahren haben die Nutzer öffentlicher Verkehrsmittel überlegt, wie häufig sie wahrscheinlich bei Schwarzfahren gefasst werden und ob die Strafen dann nicht höher sind als der gesparte Fahrpreis. Bei diesen Überlegungen wurden Beobachtungen der Vergangenheit über die Häufigkeit von Fahrzeugkontrollen in Betracht gezogen. Dies führte zur Einschränkung des Schwarzfahrens. Dieser „Mechanismus“ ist wiederum eine Serie von singulären Kausalaussagen: die Erhöhung der Strafen führte zu bestimmten kognitiven Prozessen, diese führten zu Handlungen, nämlich zur Einschränkung des Schwarzfahrens. Das Problem, was „Ursache“ bedeutet, ist mit der Angabe von Mechanismen oder intervenierenden Variablen keineswegs gelöst. Wir haben der Aussage „X ist eine Ursache für Y “ lediglich weitere Kausalaussagen hinzugefügt wie „X ist eine Ursache für Q“, „Q ist eine Ursache für R“, „R ist eine Ursache für Y “. . . Wieder bleibt offen, was der Ausdruck „X ist eine Ursache von Y “ meint. 2.5 Die kontrafaktische Definition von Kausalität: Was wäre wenn? Betrachten wir nun die intensiv diskutierte kontrafaktische („counterfactual“) Definition von Kausalität.4 Die Grundstruktur einer kontrafaktischen Aussage lautet: „Wenn X (oder nicht-X) aufgetreten wäre, dann wäre auch Y (oder nicht-Y ) aufgetreten“ (Fearon 1991, S. 169). Angewendet auf unser Beispiel heißt dies: wenn die Strafen für Schwarzfahren nicht erhöht worden wären, dann wäre Schwarzfahren auch nicht zurückgegangen. Ein Problem ist, dass eine Verminderung (oder Zunahme) des Schwarzfahrens nicht nur durch eine Straferhöhung, sondern auch durch andere Faktoren bedingt sein 4
Zusammenfassend Menzies (2008); für die Sozialwissenschaften insbesondere Fearon (1991); Morgan & Winship (2007); Winship & Morgan (1999). Vgl. weiter die detaillierte Diskussion in dem Beitrag von Gangl (2010). Eine Zusammenstellung wichtiger Aufsätze enthält Collins et al. (2004); hierin gibt Kapitel 1 einen guten Überblick über die Diskussion.
2 Kausalität und multivariate Statistik
13
könnte. So könnte eine Erhöhung der Einkommen dazu führen, dass Schwarzfahren zurückgeht, da mehr Geld zur Verfügung steht und die Entrichtung des Fahrgeldes weniger „schmerzlich“ ist. Selbst wenn die Strafen nicht erhöht worden wären, würde die Erhöhung des Einkommens zu einer Verminderung des Schwarzfahrens führen. Die kontrafaktische Definition ist also nur bei strikten Kausalitäten, bei denen ein Sachverhalt Y allein durch X und nicht durch andere Faktoren bedingt ist, sinnvoll. Gehen wir einmal von solchen Fällen aus. Ein Problem besteht dann immer noch: Wie kann man jemals ermitteln, was geschehen wäre, wenn X aufgetreten oder nicht aufgetreten wäre? X und Y sind singuläre Ereignisse, die also nur einmal auftreten können. Andere Autoren treffen die Annahme strikter Kausalität nicht und gehen von der „ceteris paribus“ Annahme aus. Es scheint, dass bei solchen kontrafaktischen Definitionen zumindest implizit von einer generellen Aussage wie z. B.: „immer wenn X auftritt, dann tritt auch Y auf“ ausgegangen wird. Wenn in einem konkreten Fall dann X nicht aufgetreten ist, dann kann man in der Tat schließen: Wenn X aufgetreten wäre, dann wäre auch Y aufgetreten. Hier verweist das Argument auf eine generelle Aussage. In diesem Falle besteht kein Unterschied mehr zwischen der kontrafaktischen Konzeption und der hier vertretenen Konzeption von Kausalität (vgl. insbesondere Gangl 2010). 2.6 Exkurs: Die Logik der Erklärung Bevor wir uns mit der nächsten Kausalitäts-Definition befassen, soll zu deren besserem Verständnis kurz die Logik der Erklärung beschrieben werden. Wenn der Leser bzw. die Leserin hiermit vertraut ist, kann dieser Exkurs übersprungen werden. Wir wenden im Folgenden das insbesondere von Hempel & Oppenheim (1948) bzw. Hempel (1965) entwickelte „covering law model“ an. Danach wird ein Explanandum (d. h. ein Satz, der sich auf den zu erklärenden Sachverhalt bezieht) erklärt, indem es aus (mindestens) einer Gesetzesaussage und den zugehörigen Anfangsbedingungen abgeleitet wird. Das folgende Erklärungsschema illustriert die Vorgehensweise an unserem Beispiel. Gesetz: Wenn die Strafen für ein Verhalten erhöht werden, dann wird das Verhalten seltener ausgeführt. Anfangsbedingung: In Hamburg wurden im Jahre 2006 die Strafen für Schwarzfahren erhöht. Explanandum: Die Häufigkeit des Schwarzfahrens ging in Hamburg im Jahre 2006 zurück. Wichtig ist, dass die „Anfangsbedingung“ ein singulärer Sachverhalt ist, der unter die Wenn-Komponente des Gesetzes („Wenn die Strafen für ein Verhalten erhöht werden“) fällt. Das Explanandum, das ebenfalls einen singulären Sachverhalt bezeichnet, fällt dagegen unter die Dann-Komponente des Gesetzes („dann wird das Verhalten seltener ausgeführt“). Die Erklärung kann so gelesen werden: Schwarzfahren ging 2006 in Hamburg zurück, weil die Strafen für Schwarzfahren erhöht wurden und weil generell eine Erhöhung der Strafen für ein Verhalten dazu führt, dass dieses Verhalten seltener
14
Karl-Dieter Opp
auftritt. Die waagerechte Linie bedeutet, dass das Explanandum logisch aus dem Gesetz und den Sätzen, die die Anfangsbedingungen beschreiben, ableitbar ist. Im obigen Erklärungsschema sind die Gesetze deterministisch, d. h. immer wenn die Wenn-Komponente auftritt, tritt auch die Dann-Komponente auf. Bei nichtdeterministischen Gesetzen ist nicht immer zu erwarten, dass z. B. bei einer Straferhöhung auch das bestrafte Verhalten zurückgeht. Bei dieser Art von Gesetzen gilt das induktiv-statistische Erklärungsmodell: Das Explanandum ist dann nicht mehr logisch aus Gesetz und Anfangsbedingungen ableitbar, sondern wird durch Gesetz und Anfangsbedingungen bestätigt (Hempel 1965). Das genannte Erklärungsschema ist umstritten.5 Es ist in diesem Rahmen nicht möglich, auf diese Kritik einzugehen. Das Hauptproblem der Kritik ist, dass keine überzeugende Alternative zu dem „covering law model“ angeboten wird. Wenn keine Gesetze angewendet werden, gibt es kein Selektionskriterium für die Auswahl von Sachverhalten, die als „Ursache“ bezeichnet werden. 2.7 Ursachen als Anfangsbedingungen oder als Wenn-Komponente von Gesetzen: Die Gesetzes-Definition von Kausalität Kehren wir zu den Kausalitäts-Definitionen zurück. Wir wiesen bereits darauf hin, dass einige der genannten Kausalitäts-Definitionen über singuläre Behauptungen hinauszugehen. Wie könnte eine Explikation des Kausalitätsbegriffs lauten, bei der anscheinend implizit verwendete Theorien eine Rolle spielen? „X ist eine Ursache von Y “ könnte bedeuten, dass man immer wieder in den unterschiedlichsten Situationen beobachtet hat, dass dann, wenn X vorlag, auch Y auftrat. D. h.: „X ist Ursache von Y “ bedeutet: Immer dann, wenn Ereignisse auftreten, die unter X subsumierbar sind, treten zeitlich später Ereignisse auf, die unter Y subsumierbar sind. Mit anderen Worten: „X ist die Ursache von Y “ bedeutet, dass Ereignisse der Art X immer Ereignissen der Art Y zeitlich vorausgehen. Es existiert also ein empirisches Gesetz (d. h. eine raum-zeitlich unbeschränkte Aussage): „Immer wenn Ereignisse der Art X auftreten, dann treten zeitlich später Ereignisse der Art Y auf“. Man könnte diese Explikation als die Gesetzes-Definition von Kausalität bezeichnen. Wie genau hängt die singuläre Aussage S („X führt zu Y “) mit der genannten Gesetzesaussage G zusammen? Das Gesetz enthält eine Wenn-Komponente („. . . wenn Ereignisse der Art X auftreten“) und eine Dann-Komponente („dann treten Ereignisse der Art Y auf“). Die Ursachen von S fallen unter die Wenn-Komponente, die Wirkungen Y unter die Dann-Komponente. D. h. die „Ursachen“ sind sozusagen spezielle Ausprägungen der Wenn-Komponente, die Wirkungen spezielle Ausprägungen der Dann-Komponente. Es liegt nahe, dass man derartige Gesetze, in denen die Bedingungen zeitlich vor den Wirkungen auftreten, Kausalgesetze nennt. Von zentraler Bedeutung ist, dass nur das Gesetz ein Argument für die Behauptung liefert, dass bei 5
Siehe z. B. Woodward (2003, insbes. Kap. 4) oder Schurz (1988). Eine umfassende Diskussion bieten Kitcher & Salmon (1989), darin insbesondere der Beitrag von Salmon.
2 Kausalität und multivariate Statistik
15
Vorliegen von X (z. B. die Erhöhung der Strafen in Hamburg 2006) zu erwarten ist, dass zeitlich später Y auftritt (z. B. die Verminderung des Schwarzfahrens in Hamburg 2006). Ein singuläres Ereignis „X“ kann also als „Ursache“ für ein singuläres Ereignis „Y “ bezeichnet werden, wenn gemäß einem Gesetz immer nach Sachverhalten der Art X Sachverhalte der Art Y zu erwarten sind.6 Bisher bezog sich der Ursachen-Begriff auf singuläre Ereignisse. Man könnte aber zusätzlich die Wenn-Komponente eines Gesetzes als „Ursache“ bezeichnen. So könnte man sagen, dass Straferhöhungen eine Ursache dafür sind, dass die bestraften Verhaltensweisen seltener auftreten. Man kann aber auch sagen, wie im vorigen Absatz ausgeführt wurde, dass die Anfangsbedingungen eine Ursache für das Explanandum sind, das die Wirkung darstellt. Wir unterscheiden also zwei Ursachen-Begriffe: Zum einen kann man die Anfangsbedingungen in Kausalgesetzen als „Ursachen“ für das Explanandum bezeichnen, zum anderen die Faktoren bzw. Variablen der Wenn-Komponente von Kausalgesetzen. Wir haben bisher die Art der Gesetze, deren Wenn-Komponente oder Anfangsbedingungen als Ursachen bezeichnet werden, nicht genauer charakterisiert. Müssen diese Gesetze bestimmte Eigenschaften aufweisen? Muss es sich z. B. um Kausalgesetze handeln? Falls diese Frage bejaht wird: was genau bedeutet „Kausal-“Gesetz? Stegmüller (1960, siehe auch Stegmüller 1969, Kapitel VII) schlägt als „Minimalbegriff“ für die Definition von „Kausalgesetz“ vor: „nur quantitative, deterministische Nahwirkungsgesetze können als Kausalgesetze bezeichnet werden“ (S. 184). Da es in den Sozialwissenschaften wohl kaum deterministische Gesetze gibt, würde diese Explikation implizieren, dass es in den Sozialwissenschaften keine Ursachen gemäß der Gesetzes-Definition geben kann. Dasselbe gilt für die Eigenschaft, dass die Wirkung in zeitlicher Nähe auftreten muss. Das würde implizieren, dass z. B. wirtschaftspolitische Maßnahmen wie Investitionen in den Bildungsbereich, die erst viele Jahre später wirken, keine Ursachen sind. Bezeichnet man nur quantitative Aussagen als Gesetze, dann könnten z. B. Variablen wie Geschlecht oder Religionszugehörigkeit nicht Bestandteile von Kausalgesetzen sein. Es ist nicht klar, warum eine so enge Definition von „Kausalgesetz“ sinnvoll ist. Es erscheint ausreichend anzunehmen, dass für die Gesetzes-Definition lediglich Sukzessionsgesetze wichtig sind (d. h. Gesetze, in denen die in der Wenn-Komponente bezeichneten Sachverhalte zeitlich vor den in der DannKomponente beschriebenen Sachverhalten auftreten). Es ist dabei unerheblich, ob die Gesetze deterministisch oder nicht-deterministisch sind und ob die darin enthaltenen Begriffe qualitativ oder quantitativ sind.
6
Diese Explikation ist mit der Definition in David Humes „An Enquiry Concerning Human Understanding“ (1772) vereinbar: „. . . we may define a cause to be an object, followed by another, and where all the objects similar to the first are followed by objects similar to the second“ (Kapitel 7, zitiert nach http://interactivescript.org/ias/hume/www/ index_html, 9.12.2008). Im Übrigen findet man auch die kontrafaktische Definition von Kausalität bereits in einem Nebensatz bei Hume. Der Satz nach dem vorangegangenen Zitat lautet: „Or in other words where, if the first object had not been, the second never had existed.“
16
Karl-Dieter Opp
2.8 Zum Vergleich der Kausalitäts-Definitionen Inwieweit sind einige der früher beschriebenen Explikationen des Kausalitätsbegriffes mit unserer Explikation vereinbar? Zunächst ist unsere Explikation mit der KontrollDefinition der Kausalität vereinbar: Immer wenn bei Auftreten von Ereignissen der Art X später Ereignisse der Art Y auftreten, dann impliziert dies, dass nach einer Änderung von X später Y auftritt. So verwendet Scheines (1997, S. 188) u. a. das Beispiel, dass nach einer Veränderung des Rauchens eine Veränderung der Häufigkeit von Lungenkrebs auftritt. Dies ist eine implizite Gesetzesaussage, bei der die Bedingung zeitlich vor dem zu erklärenden Sachverhalt auftritt und bei der die Verbindung der beiden Sachverhalte invariant ist. Die Kontroll-Definition ist also vereinbar mit der Gesetzes-Definition. Unsere Explikation impliziert weiter, dass für die Beurteilung der Kausalität die Kenntnis von Mechanismen nicht erforderlich ist. Dies schließt nicht aus, dass aus anderen Gründen die Suche nach Mechanismen sinnvoll ist. Unsere Explikation von Kausalaussagen ist mit der kontrafaktischen Definition der Kausalität nur bei strikter Kausalität vereinbar, wie bereits gesagt: nur wenn allein die Strafe für eine Verhaltensänderung von Bedeutung ist, folgt, dass bei Ausbleiben der Strafe keine Verminderung des Schwarzfahrens stattgefunden hätte bzw. dass bei Auftreten der Strafe Schwarzfahren weniger häufig auftritt. Würde gemäß unserer Explikation von Kausalität die Anzahl der Arztbesuche als Ursache für Todesfälle klassifiziert werden müssen? Dies würde dann der Fall sein, wenn immer dann, wenn die Leute häufiger zum Arzt gehen, die Anzahl der Todesfälle steigt. Das ist aber nicht der Fall. Angenommen, man wählt in einem Stadtbezirk 2000 Personen aus und verspricht ihnen eine hohe finanzielle Belohnung, wenn sie einen Arzt in der Region besuchen. Nun steige die Anzahl der Arztbesuche stark an. Es ist kaum zu erwarten, dass auch die Anzahl der Todesfälle steigt. Die Anzahl der Arztbesuche ist also keine Ursache für die Todesfälle. Es gibt eben kein Gesetz, dass Ereignisse der Art X (Arztbesuche) zu Ereignissen der Art Y (Todesfälle) führen. In der Medizin gibt es Aussagen der Art, dass bei bestimmten Symptomen X eine Krankheit Y vorliegt. So sind Schmerzen im Brustraum und Atemnot „Anzeichen“ für einen Herzinfarkt. Solche Symptomgesetze besagen: Wenn Symptome der Art X auftreten, dann liegen Krankheiten der Art Y vor. Ein solches Symptomgesetz im sozialen Bereich könnte lauten, dass eine hohe Kriminalitätsrate X auf soziale Probleme Y wie Armut, Alkoholismus, und Säuglingssterblichkeit hinweist. Hier handelt es sich insofern nicht um Kausalaussagen, als Symptome (X) nicht zeitlich früher als die Sachverhalte Y , für die die Symptome „Indikatoren“ sind, auftreten. Wir werden in den nächsten Abschnitten sehen, dass die Überprüfung von Kausalaussagen u. a. darin besteht sicher zu stellen, dass die Wirkung von Drittfaktoren ausgeschlossen wird. Warum ist dies gemäß der Gesetzes-Definition von Bedeutung? Wenn behauptet wird, dass Sachverhalte der Art X zu Sachverhalten der Art Y führen, dann impliziert dies, dass eben nicht Drittfaktoren anstelle von X zu Y führen. Entsprechend ist es bei der Prüfung von Kausalaussagen besonders wichtig, die Wirkung von Drittfaktoren zu kontrollieren. Dies wird in den folgenden Abschnitten deutlich werden.
2 Kausalität und multivariate Statistik
17
Insgesamt vermuten wir, dass unsere Explikation des Kausalitätsbegriffs den Sprachgebrauch in den Sozialwissenschaften wiedergibt und auch sinnvoll ist. Dies werden auch unsere folgenden Ausführungen bestätigen.
3 Kausalität in sozialwissenschaftlichen Experimenten Wie stellt man fest, ob eine Kausalhypothese wie „Strafen führen zur Verminderung des bestraften Verhaltens“ zutrifft? Das Experiment gilt als Königsweg für den Test von Kausalhypothesen. Dabei werden Versuchspersonen zufällig auf mindestens zwei Gruppen aufgeteilt. Sodann wird die Variable, deren kausaler Effekt überprüft werden soll, vom Experimentator manipuliert. Somit kann, so scheint es, die Wirkung der manipulierten Variablen zweifelsfrei ermittelt werden. Inwieweit ist dies der Fall? Betrachten wir ein Beispiel.7 Eine Gruppe von Soziologen wolle prüfen, ob Personen häufiger öffentliche Verkehrsmittel in der Region nutzen, wenn sie positiven Informationen über die Nutzung dieser Verkehrsmittel ausgesetzt werden. Die Forscher wählen per Zufall 100 Studierende für ein Experiment aus. Die Personen werden zufällig in zwei Gruppen aufgeteilt. Für jede Gruppe wird zuerst ermittelt, inwieweit die Teilnehmer öffentliche Verkehrsmittel benutzen. Nun wird den Mitgliedern der einen Gruppe – die Experimentalgruppe – eine Informationsbroschüre über die Umweltfreundlichkeit und die geringen Kosten öffentlicher Verkehrsmittel – im Vergleich zu Automobilen – ausgehändigt mit der Bitte, diese zu lesen. Die andere Gruppe – die Kontrollgruppe – erhält eine Broschüre gleichen Umfangs, in der über den Lebenslauf Max Webers berichtet wird. Nach der Lektüre werden beiden Gruppen einige Fragen über den Inhalt der jeweiligen Broschüre gestellt, um zu prüfen, ob sie auch gelesen wurde. Alle Teilnehmer werden dann nach zwei Monaten gefragt, ob bzw. wie häufig sie nach Beendigung des Experiments öffentliche Verkehrsmittel benutzt haben. Es zeige sich, dass die Personen in der Experimentalgruppe überzufällig häufiger öffentliche Verkehrsmittel benutzten als die Personen in der Kontrollgruppe. Die Leiter des Experiments behaupten entsprechend, dass die Informationen in der Broschüre die Ursache für die häufigere Nutzung öffentlicher Verkehrsmittel sind. In welchem Sinne ist die Lektüre der positiven Informationen über öffentliche Verkehrsmittel eine „Ursache“ (X) für die häufigere Nutzung der Verkehrsmittel (Y )? Zunächst ist von Interesse, dass der singuläre Tatbestand X zeitlich vor dem singulären Tatbestand Y auftrat. Weiter wurde ausgeschlossen, dass andere Tatbestände Z wie z. B. das Alter der Teilnehmer oder der Beruf ihrer Eltern mit Y zusammenhängen, da ja alle Teilnehmer zufällig auf die beiden Gruppen aufgeteilt wurden und damit – innerhalb von Zufallsschwankungen – gleiche Eigenschaften aufwiesen. Nun wollen die Experimentatoren normalerweise nicht nur rein singuläre Zusammenhänge prüfen. Sie werden das Ergebnis der Untersuchung so beschreiben: die Konfrontierung der Teilnehmer mit positiven Informationen über öffentliche Verkehrsmittel hat deren Nutzung erhöht. Diese Aussage weist über das Experiment hinaus: offensichtlich wird angenommen, dass eine generelle Aussage bestätigt wurde: Immer 7
Im Folgenden wird ein Feldexperiment von Bamberg et al. (2008) leicht modifiziert dargestellt.
18
Karl-Dieter Opp
dann, wenn Ereignisse der Art X auftreten, dann treten zeitlich später Ereignisse der Art Y auf. Was genau die Art dieser Ereignisse ist, bleibt in vielen Experimenten unklar. Im einfachsten Falle könnten unsere Forscher behaupten, dass in Experimenten die Lektüre von Schriften mit positiven Informationen über öffentliche Verkehrsmittel die Nutzung der Verkehrsmittel erhöht. Es könnte aber auch eine generellere Theorie geprüft worden sein, die besagt, dass die Präsentierung von Informationen über die Konsequenzen einer Handlung (wie die Nutzung öffentlicher Verkehrsmittel), die Personen positiv bewerten, die Wahrscheinlichkeit erhöht, dass die Handlung ausgeführt wird. Wie auch immer die zu überprüfende Hypothese lautet: es scheint, dass immer geprüft wird, ob Ereignisse der Art X zu Ereignissen der Art Y führen. Unser Beispiel illustriert, warum Experimente eine besonders strenge Prüfung von Kausalhypothesen sind: Durch die zufällige Aufteilung der Teilnehmer auf verschiedene Gruppen, d. h. durch Randomisierung, und durch die Manipulierung der Werte mindestens einer Variablen wird die Wirkung anderer Variablen kontrolliert. Genauer gesagt sind alle Eigenschaften der Teilnehmer in den verschiedenen Gruppen im Rahmen von Zufallsschwankungen gleich verteilt. Durch Randomisierung und durch die Manipulierung bestimmter Faktoren wird also nur der Einfluss der manipulierten Faktoren ermittelt. Wenn dann eine Korrelation zwischen X und Y auftritt, dann kann diese nicht durch Drittfaktoren bedingt sein. Die Randomisierung hat die Konsequenz, dass die manipulierten Faktoren nicht mit anderen Faktoren korrelieren – da alle Variablenwerte in den verschiedenen Gruppen gleich verteilt sind. Somit wird allein die Wirkung der manipulierten Variablen ermittelt. In einem experimentellen Versuchsplan ist durch die Manipulierung von Faktoren weiter sichergestellt, dass die zeitliche Reihenfolge von möglicher Ursache und Wirkung klar ist: die manipulierten Faktoren (mögliche Ursachen) treten zuerst, die möglichen Wirkungen zeitlich später auf. Randomisierung und Manipulierung sind also die Stärken von Experimenten, z. B. im Vergleich zu Umfragen. Hier kann man nur Variablen, die Ursachen sein könnten, erheben und deren Einfluss mittels multivariater Verfahren prüfen, wie noch gezeigt wird. Findet man Korrelationen zwischen Faktoren, so können diese immer durch Drittfaktoren bedingt sein, da diese nicht systematisch, wie im Experiment, kontrolliert werden können. Trotzdem weisen auch Experimente Probleme auf. Einige dieser Probleme sollen im Folgenden behandelt werden.8 Die kontrollierten Faktoren – im Beispiel die Eigenschaften der teilnehmenden Studierenden – weisen normalerweise im Experiment nicht alle möglichen Werte auf. In unserem Beispiel ist zwar die berufliche Tätigkeit der Versuchsteilnehmer am Experiment in den verschiedenen Gruppen gleich verteilt, es handelt sich jedoch nur um eine Teilmenge aller Berufe. So ist nicht auszuschließen, 8
Siehe zum Experiment generell Fisher (1926), zu experimentellen Versuchsplänen und deren Problemen in den Sozialwissenschaften z. B. Diekmann (2007, Kapitel VIII). Der Klassiker für experimentelle und nicht-experimentelle Versuchspläne und deren Vor- und Nachteile ist Campbell & Stanley (1963), aktueller ist z. B. Kagel & Roth (1995) oder Camerer (2003). Laborexperimente in den Sozialwissenschaften werden z. B. vonWebster jr. & Sell (2007) dargestellt. Für deutschsprachige Veröffentlichungen sei verwiesen auf Opp (1973, 1969); Peuckert (1973).
2 Kausalität und multivariate Statistik
19
dass die Ergebnisse des Experiments bei leitenden Angestellten anders ausfallen. Wenn diese aufgrund ihres höheren Einkommens ein Auto besitzen, könnten die Kosten der Nutzung unbequemer öffentlicher Verkehrsmittel als zu hoch angesehen werden, so dass die Versuchsbedingung vielleicht keine Wirkung hat. Dies könnte auch dann der Fall sein, wenn etwa den Versuchsteilnehmern die in der Broschüre enthaltenen Ausführungen bekannt sind.9 Ein gravierendes Problem vieler Experimente ist, dass Werte der manipulierten Variablen und der zu erklärenden Sachverhalte nur in begrenztem Ausmaß realisiert werden können. Beispiele sind die Gruppengröße oder die Strafhöhe als unabhängige Variablen: will man die Wirkungen von großen Gruppen mit z. B. 100.000 Personen, die Wirkungen der Todesstrafe oder einer langjährigen Freiheitsstrafe ermitteln, so können diese Situationen im Experiment aufgrund der hohen Kosten (Gruppengröße von 100.000 Personen) oder aufgrund ethischer Probleme (Todesstrafe, lebenslange Freiheitsstrafe) nicht realisiert werden. Dies gilt auch für zu erklärende Tatbestände wie Selbstmorde, Scheidungen oder Kindesmisshandlungen. So wird kein Experimentator Personen in eine Situation bringen, in der Mord oder Selbstmord eine realistische Handlungsalternative ist. Weiter sind oft Randomisierungen ethisch nicht vertretbar. Will man z. B. die Wirkungen der Höhe der Zuwendungen bei Arbeitslosigkeit prüfen, so ist es gesetzlich nicht möglich, per Zufall Arbeitslose auf mehrere Gruppen aufzuteilen und die Höhe der Arbeitslosen-Unterstützung zu variieren. Diese Überlegungen illustrieren, dass es auch im Experiment Fehlerquellen gibt, die in der zitierten Literatur im Einzelnen behandelt werden. Randomisierung und Manipulierung sind trotzdem die Stärken experimenteller Versuchspläne, da die Fehlerquellen nicht-experimenteller Versuchspläne noch größer sind. Wegen der unterschiedlichen Stärken und Schwächen von Experimenten und nicht-experimentellen Untersuchungsplänen ist es grundsätzlich sinnvoll zu versuchen, beide zu kombinieren. So könnte man die Wirkungen von Fairness-Normen sowohl im Experiment als auch in natürlichen Situationen untersuchen. Wenn auch, wie gesagt, in Experimenten Kausalaussagen im genannten Sinne geprüft werden, so weiß man oft nicht, wie diese lauten (siehe Opp 2005, S. 159–162). In diesen Fällen leisten Experimente keinen oder nur einen geringen Beitrag zu unserem theoretischen Wissen. Man weiß dann lediglich, dass bestimmte „Effekte“ (vielleicht) regelmäßig unter bestimmten experimentellen Bedingungen gefunden wurden. Die Anwendung der Ergebnisse auf natürliche Situationen bleibt offen. Dies wird oft so ausgedrückt, dass die „externe Validität“ von vielen Experimenten zu wünschen übrig lässt. Faktisch heißt dies, dass der Informationsgehalt der geprüften Hypothesen sehr gering ist. Dies ist allerdings kein grundsätzliches Problem von Experimenten sondern ein Problem derer, die die Experimente durchführen.10 9
Generell ist das Problem, dass ein Interaktionseffekt zwischen der manipulierten und (mindestens) einer der randomisierten Variablen vorliegt, der sich aber erst zeigt, wenn eine randomisierte Variable bestimmte Werte hat, die im Experiment nicht realisiert sind. 10 Diese Probleme von Experimenten und Laborstudien werden durch die Untersuchungen zu Diktator- und Ultimatumspielen illustriert (vgl. z. B. Henrich et al. 2004): hier ist z. B. nicht klar, welche generellen Hypothesen, die über die Laborsituation hinausgehen, geprüft
20
Karl-Dieter Opp
4 Kausalität in multivariaten Analyseverfahren: Das Beispiel der Regression Auch in diesem Abschnitt befassen wir uns mit der Überprüfung von Kausalhypothesen. Dieses Mal stehen statistische Analyseverfahren zur Diskussion. Wir behandeln in diesem Abschnitt zwei Fragen: (1) Inwieweit sind Kausalmodelle Ursachenbehauptungen im vorher explizierten Sinne? (2) Inwieweit sind multivariate Analyseverfahren in der Lage, Kausalhypothesen zu testen oder Kausalität zu ermitteln? Wir diskutieren diese Frage am Beispiel der Regressionsanalyse, die wohl das am weitesten verwendete multivariate statistische Verfahren ist. 4.1 Enthalten Kausalmodelle Kausalaussagen? In einer Vielzahl von empirischen Untersuchungen werden Kausalmodelle mittels multivariater Verfahren geprüft. Gehen wir aus von unserem Modell in Abbildung 1. Angenommen, eine Forschergruppe wolle herausfinden, wovon der Rückgang des Schwarzfahrens im Jahre 2006 in Hamburg abhing. Dabei soll der Einfluss folgender Faktoren untersucht werden: (1) die Höhe der wahrgenommenen Bestrafungswahrscheinlichkeit für Schwarzfahren; (2) die Höhe des Einkommens und (3) das Ausmaß, in dem Freunde der Fahrgäste Schwarzfahren positiv bewerten. In dem Kausaldiagramm bedeutet das Plus-Zeichen eine positive Beziehung (je größer X, desto größer Y ) und das Minus-Zeichen eine negative Beziehung (je größer X, desto kleiner Y ). Die Forschergruppe befrage in Hamburg im Jahre 2006 repräsentativ 2000 Nutzer öffentlicher Verkehrsmittel. Die genannten Variablen werden durch Interviewfragen gemessen. U. a. wird gefragt, wie häufig die Befragten im letzten Jahr öffentliche Verkehrsmittel benutzt haben, ohne das geforderte Entgelt zu entrichten. Jeder Pfeil des Diagramms ist eine singuläre Kausalaussage, die sich auf Hamburg im Jahre 2006 bezieht. Der Faktor links vom Pfeil ist die Ursache, der Faktor rechts vom Pfeil die Wirkung. Was ist mit diesen Kausalaussagen gemeint? Zunächst dürfte bei allen Kausalmodellen – ausdrücklich oder stillschweigend – angenommen werden, dass die als Ursachen bezeichneten Variablen zeitlich vor den als Wirkung bezeichneten Variablen auftreten. Ob allerdings gemeint ist, dass Sachverhalte der Art X zu Sachverhalten der Art Y führen, ist meist unklar. Dies gilt auch für unser Beispiel. Nehmen wir zunächst an, es werde keine explizite Theorie genannt, die Forscher hätten vielmehr nur ausgeführt, dass sie das in Abbildung 1 dargestellte Modell prüfen wollen, bezogen auf Hamburg im Jahre 2006. Das Ergebnis der Auswertung mittels eines multivariaten Verfahrens wie der Regressionsanalyse ist dann, dass bestimmte Korrelationsmuster zwischen den Variablen zu einem bestimmten Zeitpunkt und an einem bestimmten Ort gelten. So wird sich ergeben, ob der Koeffizient, der die Beziehung zwischen Strafen und Schwarzfahren – bei gegebenen Werten der anderen beiden Faktoren – beschreibt, negativ ist. werden; unterschiedliche Ergebnisse in verschiedenen Kulturen lassen vermuten, dass die Werte randomisierter Variablen relevant sind. Schließlich können bestimmte Sachverhalte wie die verteilten Geldbeträge nur in bestimmten Grenzen manipuliert werden.
2 Kausalität und multivariate Statistik
21
Bestrafungswahrscheinlichkeit für Schwarzfahren
Einkommen
Schwarzfahren in öffentlichen Verkehrsmitteln
Soziale Belohnungen für Schwarzfahren
Abb. 1: Ein Beispiel für ein Kausalmodell Selbst wenn vom Forscher keine expliziten generellen Aussagen formuliert werden, so ist doch zu vermuten, dass immer implizit Aussagen, die über den Einzelfall hinausgehen, angewendet werden. Kein Forscher wird z. B. nur daran interessiert sein zu ermitteln, ob 2006 in Hamburg bestimmte Faktoren korrelieren. Im Beispiel will man etwa wissen, ob Strafhöhe eine Wirkung auf Schwarzfahren hat. Würde man die Forscher fragen, wieso „Strafhöhe“ als Ursache angenommen wird, dann würde auf vorliegendes Wissen verwiesen: man weiß aus früheren Untersuchungen, dass Strafen abschreckend wirken und dass nicht etwa die geringere Regenmenge in Hamburg im Jahre 2006 eine Ursache für den Rückgang des Schwarzfahrens gewesen ist. Dies ist ein klarer Bezug auf Gesetzesaussagen. Wie diese aber genau lauten, ist oft nicht ersichtlich. Dass aber bei der Prüfung von Kausalaussagen und Kausalmodellen immer gesetzesartiges Wissen angewendet wird, ist kaum zu bezweifeln. Dies geschieht oft auch explizit. In unserem Beispiel könnte man auf die „Rational Choice“-Theorie verweisen, nach der eine Erhöhung der Kosten für ein Verhalten dazu führt, dass das Verhalten seltener ausgeführt wird. In diesem Falle wird also explizit geprüft, inwieweit Ereignisse der Art X zu Ereignissen der Art Y führen. 4.2 Regressionsanalyse und kausale Schlüsse Das wohl am weitesten verbreitete statistische Verfahren, multivariate Zusammenhänge zu prüfen oder zu ermitteln, ist die multiple Regressionsanalyse.11 Andere multivariate Analyseverfahren wie die Diskriminanzanalyse oder die Mehrebenenanalyse können aus Raumgründen nicht behandelt werden. Wir vertreten jedoch die These, dass unsere Überlegungen zur Regressionsanalyse auch für diese Verfahren gelten.
11
Sie wird in einer Vielzahl statistischer Lehrbücher dargestellt. Ein gutes Lehrbuch ist Urban & Mayerl (2006). Zur Geschichte der Regression vgl. z. B. Turner (1997), zur sozialwissenschaftlichen Kausalanalyse die Sammlungen zentraler Aufsätze bei Hummell & Ziegler (1976) oder Blalock (1971). Siehe auch in diesem Handbuch die Beiträge in Teil V.
22
Karl-Dieter Opp
8
6
B
Schwarzfahren chwarzfahren
Schwarzfahren chwarzfahren
8
A 4
C 2
0
6
4
2
0
0
2
4
6
8
10
0
2
4
6
Strafen
(a)
8
10
Strafen
(b)
Abb. 2: Streudiagramme zur Beziehung zwischen zwei Faktoren Einführendes zur Vorgehensweise bei einer Regressionsanalyse Fragen wir zunächst, inwieweit die Regressionsanalyse geeignet ist, Aussagen der Art „X ist eine Ursache für Y “ zu prüfen. Wir gehen bei der Beantwortung der Frage von unserer Explikation des Kausalitätsbegriffs aus, nach dem „X ist Ursache für Y “ bedeutet, dass Phänomene der Art X zeitlich vor Phänomenen der Art Y auftreten. Wir beginnen mit einer kurzen Darstellung der Regressionsanalyse. Nehmen wir an, unser Kausalmodell in Abbildung 1 solle geprüft werden, und es handele sich um kausale Beziehungen. Im einfachsten Falle könnten dies lineare Beziehungen sein. Wir illustrieren diese für zwei Variablen – siehe in Abbildung 2 a, Punkteverteilung A. Die Beziehung ist folgender Art: wenn X (Strafhöhe) um eine Einheit steigt, dann sinkt Schwarzfahren immer um N Einheiten. Diese Beziehung wird durch folgende Gleichung ausgedrückt: Y = 6,5 − 0,5X. Für jeden Wert von X gibt es also genau einen Wert von Y . Die Beziehung zwischen den Variablen braucht aber keineswegs linear sein. Es wäre denkbar, dass sich beim Ansteigen der Strafhöhe das Schwarzfahren zunächst nicht verändert (siehe die Punkteverteilung B). Die Fahrgäste benötigen einige Zeit, um sich an die neue Situation anzupassen. Dann geht aber Schwarzfahren zurück. Auch dies ist eine Art von Beziehung zwischen X und Y , allerdings ist der Zusammenhang zwischen X und Y kurvilinear. Das gilt auch für die dritte Punkteverteilung C: hier geht bei steigender Bestrafung Schwarzfahren zunächst stark zurück; sodann wird der Rückgang schwächer. Deterministische Beziehungen wie in Abbildung 2 a kommen in den Sozialwissenschaften kaum vor. Typisch sind vielmehr nicht-deterministische Beziehungen, wie sie die Grafik in Abbildung 2 b illustriert. Hier lassen sich die Punkte nicht durch eine Gerade verbinden. D. h. wenn X um eine Einheit steigt, dann sinkt (oder steigt) Y nicht immer um die gleiche Einheit. Mit anderen Worten: bei gegebenem X gibt es eine Streuung der Y -Werte.
2 Kausalität und multivariate Statistik
23
Inwieweit kann Kausalität mittels Regressionsanalysen ermittelt werden? Inwieweit ist unsere Explikation des Kausalitätsbegriffs mit der Art und Weise vereinbar, wie in der Regressionsanalyse Beziehungen zwischen Variablen geschätzt werden? Die beschriebene Vorgehensweise der Regressionsanalyse ist nicht explizit in unserer Explikation des Kausalitätsbegriffs enthalten. Hier heißt es einfach, dass Kausalität vorliegt, wenn Faktoren der Art X zeitlich vor Faktoren der Art Y auftreten. Es ist aber nicht festgelegt, wie man genau vorgehen muss, wenn man bei einer Menge von Einheiten mit Werten der Faktoren X und Y prüfen kann, ob Faktoren der Art X vor Faktoren der Art Y auftreten. Das Schätzungsverfahren der Regressionsanalyse kann nun als eine Präzisierung unserer Explikation des Kausalitätsbegriffs angesehen werden. Hier ist nämlich nicht klar, ob z. B. bei der Verteilung der Punkte in Abbildung 2 b eine Kausalbeziehung vorliegt bzw. bestätigt wird, d. h. ob hier wirklich gilt, dass ein Faktor der Art X einem Faktor der Art Y vorausgeht. Die Regressionsanalyse beantwortet diese Frage. Damit leistet sie – gemeinsam mit anderen multivariaten Analyseverfahren – eine Beantwortung der Frage, was unter einer kausalen Beziehung zu verstehen ist, wenn der Zusammenhang zwischen Faktoren nicht deterministisch ist. Das Ausmaß der Streuung der Punkte um die Regressionslinie kann durch die Größe der quadrierten Abstände (d. h. durch den einfachen oder multiplen Korrelationskoeffizienten) ermittelt werden. Dieses Maß kann als eine Explikation der Enge einer kausalen Beziehung betrachtet werden, die in unserer Explikation des Kausalitätsbegriffs nicht ausdrücklich angesprochen wird. Damit ist, intuitiv gesprochen, gemeint, wie genau man den Wert eines Ereignisses (oder eines Faktors) der Art Y voraussagen kann, wenn ein Faktor der Art X vorliegt. Das skizzierte Verfahren kann auch auf nichtlineare Beziehungen angewendet werden. So könnten die Punkte in Abbildung 2 b einer Kurve der Art B (Abbildung 2 a) gleichen. Auch dies ist eine Explikation des explizierten Kausalbegriffs: wenn Kausalität heißt, dass Ereignisse der Art X Ereignissen der Art Y vorausgehen, dann kann dieser Zusammenhang auch nicht-linearer Art sein. Wie man einen solchen Zusammenhang im konkreten Fall feststellt, zeigt die Regressionsanalyse. Wenn Kausalhypothesen aus mehreren Ursachen bestehen, wie etwa in dem in Abbildung 1 dargestellten Kausalmodell, und wenn die Beziehungen nicht-deterministisch sind, entsteht die Frage, was in solchen Modellen „nicht-deterministisch“ bedeutet. Gehen wir wieder davon aus, dass die Hypothesen aus Abbildung 1 bei 2000 Fahrgästen überprüft wurden. Dies bedeutet, dass für jede Person Informationen über die Werte der in Abbildung 1 enthaltenen Ursachen vorliegen. Wie können wir ermitteln, ob eine nicht-deterministische Kausalhypothese wie das Modell der Abbildung 1 bestätigt wird? Wiederum ist die Regressionsanalyse geeignet, diese Frage zu beantworten. Die Grundidee ist, dass der Netto-Effekt (in Form partieller Regressionskoeffizienten) der unabhängigen Variablen berechnet wird. Dies illustriert das Beispiel der Scheinkorrelation: würde man die Korrelation der beiden unabhängigen Variablen „Schwere der Krankheit“ und „Häufigkeit des Arztbesuches“ nicht bei der Ermittlung der kausalen Effekte dieser Faktoren berücksichtigen, dann müssten beide Faktoren die Wahrscheinlichkeit eines Todesfalles beeinflussen. Aber, wie wir sahen, die Häufigkeit des Arztbesuches hat in Wirklichkeit keinen Effekt. Sie wirkt nur, „weil“ Personen mit
24
Karl-Dieter Opp
starken Erkrankungen häufig zum Arzt gehen, d. h. weil die unabhängigen Variablen korrelieren und weil zusätzlich noch beide unabhängigen Variablen bestimmte Korrelationen mit der abhängigen Variablen aufweisen. Dieses Beispiel illustriert, dass man bei der Berechnung der Stärke des Effektes einer Variablen die Korrelation dieser Variablen mit anderen unabhängigen Variablen (d. h. Ursachen) „auspartialisieren“ muss. Man will ja den Netto-Effekt eines Faktors ermitteln (siehe hierzu auch Kapitel 24 in diesem Handbuch). Diese Möglichkeit der Regressionsanalyse, die Wirkungen einzelner Faktoren zu isolieren, ist für die Prüfung von Kausalhypothesen von zentraler Bedeutung. Will man eine Kausalhypothese wie „Wenn Faktoren der Art X auftreten, dann treten zeitlich später Faktoren der Art Y auf“ prüfen, dann bedeutet dies, dass man auch feststellen will, ob vielleicht nicht X, sondern andere Faktoren der Art Z wirken. Mit anderen Worten: ein zentrales Ziel bei der Prüfung von Kausalhypothesen ist die Kontrolle von Faktoren. Wenn eine Kausalbeziehung definitionsgemäß vorliegt, wenn bei Vorliegen von Faktoren der Art X zeitlich später immer Faktoren der Art Y auftreten, dann impliziert dies ja, dass immer dann, wenn X vorliegt, auch Y vorliegt und dass nicht in Wirklichkeit andere Faktoren als X zu Y führen. Um dies zu ermitteln, wird dann der Einfluss zusätzlicher Faktoren – die auch als Kontrollfaktoren oder Testfaktoren bezeichnet werden – geprüft. Bleibt die Wirkung von X erhalten, dann ist dies eine Bestätigung der kausalen Wirkung von X.12 Die Regressionsanalyse erlaubt, wie gesagt, einen Test kausaler Beziehungen. Dies impliziert, dass die Kausalhypothesen bereits formuliert sind. Darüber hinaus werden bei der Anwendung der Regression eine Reihe von Annahmen getroffen (vgl. bereits Simon 1954). So wird vorausgesetzt, dass die Messung der Variablen valide ist, dass X vor Y aufgetreten ist oder dass die Irrtumsvariablen nicht mit den unabhängigen Variablen korrelieren. Nur wenn diese Annahmen erfüllt sind, kann eine Kausalhypothese getestet werden. Regressionsanalyse und Kausalität Kann mittels der Regressionsanalyse auf eine Kausalbeziehung logisch geschlossen werden? Angenommen, unsere Daten sind mit einer der Beziehungen A, B oder C (Abbildung 2 a) vereinbar. Lässt dies den logischen Schluss zu, dass generell eine kausale Beziehung zwischen Strafen für Schwarzfahren und Häufigkeit des Schwarzfahrens (also nicht nur in Hamburg im Jahre 2006) besteht? Diese Frage ist klar zu verneinen. Hier läge ein Schluss vor, der über die vorliegenden Daten hinausgeht, also eine Art gehaltserweiternder bzw. induktiver Schluss. Man kann solche Schlüsse ziehen, aber 12
Lazarsfeld (1955, S. 124–125, ähnlich Simon 1954) definiert eine Kausalbeziehung sogar in dieser Weise: „We can suggest a clearcut definition of the causal relationship between two attributes. If we have a relationship between ‚x‘and ‚y‘; and if for any antecedent test factors the partial relationships between x and y do not disappear, then the original relationship should be called a causal one“. Wenn wir diese Definition so ändern, dass „x“ und „y“ ersetzt wird durch „Faktoren der Art X“ und „Faktoren der Art Y “, dann ist diese Definition mit unserer Explikation des Kausalitätsbegriffs vereinbar. Zur logischen Analyse des Lazarsfeldschen Erklärungsschemas vgl. Opp (1976a, S. 158–163).
2 Kausalität und multivariate Statistik
25
sie garantieren nicht, dass die abgeleiteten Aussagen auch wahr sind, d. h. die Schlüsse sind nicht wahrheitskonservierend (vgl. hierzu kurz Opp 2005, S. 168–169). Freedman (1997b, S. 182) bringt dies auf eine sehr anschauliche Formel. Er formuliert das „law of conservation of rabbits“: „If you want to pull a rabbit out of the hat, you have to put a rabbit into the hat“. Dies bedeutet, wenn man eine Aussage aus einem Satz ableiten will, dann muss die Aussage in dem Satz bereits enthalten sein. Generelle theoretische Aussagen sind aber nicht in speziellen (singulären) Aussagen über die Ergebnisse empirischer Untersuchungen enthalten. Die Regressionsanalyse ist also nur geeignet, raum-zeitlich beschränkte korrelative Beziehungen zwischen bestimmten Variablen zu ermitteln. Wenn eine Kausalaussage, dass Phänomene der Art X immer mit Phänomenen der Art Y zusammenhängen, einem solchen korrelativen Muster entspricht, dann ist die Kausalhypothese bestätigt. Die Regressionsanalyse kann demnach nur Kausalbeziehungen testen. Die Vorgehensweise ist also die des deduktiven Testens von Hypothesen bzw. Theorien, wie sie Popper (2005) in seiner „Logik der Forschung“ beschrieben hat. Danach ermittelt man, welche Folgerungen sich aus bestimmten theoretischen Aussagen ergeben. Diese Folgerungen werden dann empirisch getestet. Für die Regressionsanalyse gilt entsprechend, dass mit ihrer Anwendung nichts „bewiesen“ werden kann, es können auch keine kausalen Schlüsse13 gezogen werden, d. h. es kann nicht von dem Vorhandensein singulärer Beziehungen auf Kausalitäten „geschlossen“ werden. Wir können lediglich Hypothesen formulieren, Daten sammeln und die Beziehungen zwischen den Variablen mittels der Regressionsanalyse testen. Bestätigen die Analysen die Hypothesen, dann bedeutet dies, dass ein Falsifikationsversuch gescheitert ist. Folglich ist die Hypothese vorläufig bestätigt. Genau dies ist die Methode des deduktiven Testens. Die Tatsache, dass man aus Regressionsanalysen Kausalbeziehungen nicht erschließen kann, zeigt sich auch darin, dass es Regressionsanalysen gibt, die keine Kausalbeziehungen testen. Angenommen, die Schadstoffbelastung der Umwelt in Regionen sei die abhängige Variable. Unabhängige Variablen seien die Anzahl der Ausländer und die Anzahl der Familien mit mehr als zwei Kindern, die in der Region wohnen. Es zeige sich, dass die „Effekte“ der unabhängigen Variablen relativ stark sind. Heißt dies, dass Ausländer und Familien mit mehr als zwei Kindern die Umwelt besonders stark belasten? Was hier ermittelt wird, ist das Ausmaß, in dem bestimmte Personengruppen in Regionen mit hoher Schadstoffbelastung wohnen und damit Schadstoffen ausgesetzt sind. Würde man dagegen die Anzahl der Industriebetriebe in einer Region als unabhängige Variable aufnehmen und einen Effekt finden, dann handelte es sich hier um einen kausalen Effekt. Kann man aber nicht doch die Ergebnisse von Untersuchungen generalisieren, wenn die untersuchten Einheiten eine Zufallsauswahl aus einer Grundgesamtheit sind? Diese 13
In der Kausalanalyse werden solche induktiven Schlüsse auch als „causal inferences“ bezeichnet. Dieser Ausdruck bezieht sich aber auch generell darauf, dass aus Beobachtungsaussagen – zusammen mit generelleren Annahmen wie z. B. Gesetzesaussagen – andere Beobachtungsaussagen gefolgert werden. Dies würde dann der bereits behandelten Logik der Erklärung entsprechen und ist nicht kritikwürdig. Der Ausdruck „causal inference“ bezieht sich weiter auf den Schluss von einer Stichprobe auf eine Grundgesamtheit. Man sollte hier besser von „statistical inferences“ anstatt von „causal inferences“ sprechen.
26
Karl-Dieter Opp
Frage ist zu bejahen. Es kann statistisch berechnet werden, inwieweit die Untersuchungsergebnisse einer Zufallsstichprobe für die Grundgesamtheit gelten. Wir können allerdings nicht schließen, ob gefundene Zusammenhänge – etwa zwischen Strafen und Häufigkeit des Schwarzfahrens in Hamburg 2006 – z. B. für andere Zeitpunkte oder für andere Städte oder Länder gelten. Solche Generalisierungen sind nicht möglich. Wir haben uns bisher mit relativ einfachen Modellen befasst: sie bestanden aus mehreren unabhängigen und einer abhängigen Variablen (Abbildung 1). Oft bestehen aber Modelle aus mehreren Ebenen (mehrstufige Modelle). So könnte unser Modell in Abbildung 1 in der Weise erweitert werden, dass Variablen eingefügt werden, die das Einkommen oder die Bestrafungswahrscheinlichkeit erklären. Weiter könnten Modelle für mehrere Zeitpunkte formuliert und geprüft werden. Bei solchen Modellen wird man oft nicht die einfache Regressionsanalyse, sondern andere statistische Verfahren wie die Kovarianzstruktur-Analyse mit Programmen wie AMOS, EQS und LISREL anwenden. Aber auch hier geht es grundsätzlich darum, dass Kausalbeziehungen getestet werden können und dass es nicht möglich ist, induktive Schlüsse zu ziehen. Oft wollen Forscher alternative Kausalmodelle testen. Man könnte vermuten, dass die Anwendung multivariater Verfahren es erlaubt zu entscheiden, welches Modell überlegen ist. Dies ist aber nicht immer der Fall. Es kommt vor, dass ein gegebener Datensatz mit völlig unterschiedlichen Kausalmodellen vereinbar ist (siehe insbes. MacCallum et al. 1993). In solchen Fällen müssen weitere empirische Untersuchungen und theoretische Analysen durchgeführt werden, um zu einer Entscheidung über das bessere Modell zu kommen. Dabei ist also die Regressionsanalyse, einschließlich anderer statistischer Verfahren, zunächst einmal nicht als Instrument zur Prüfung von Kausalhypothesen geeignet. Eine Möglichkeit, solche Probleme zu vermeiden, ist die Wahl eines geeigneten Forschungsplanes. So ist der Vorteil von Panel-Untersuchungen, im Vergleich zu Querschnittsdaten, dass zumindest die kausale Ordnung der Variablen klar ist: da bei Panel-Untersuchungen die Daten je Untersuchungseinheit zu mehreren Zeitpunkten vorliegen, bedeutet dies u. a., dass Faktoren X zu einem früheren Zeitpunkt als Faktoren Y erhoben werden, so dass Y nicht Ursache für X sein kann. 4.3 Kausalität in anderen multivariaten Verfahren Viele kausale Hypothesen können nicht mittels der einfachen Regressionsanalyse („ordinary least squares“) überprüft werden. Wenn z. B. Messfehler von Variablen korrelieren oder wenn die abhängigen Variablen dichotom oder nominal sind, müssen andere statistische Verfahren angewendet werden, z. B. Strukturgleichungsmodelle oder logistische Regression (Hall 2003; zu vielen anderen Beispielen kausaler Prozesse siehe Pierson 2003). Aus Platzgründen kann hier nicht auf andere multivariate Verfahren eingegangen werden. Es soll lediglich auf zwei Punkte hingewiesen werden. (1) Auch andere multivariate Verfahren können als Explikation von Kausalbeziehungen im hier definierten Sinne angesehen werden. (2) Was auch immer die konkreten kausalen Behauptungen sind, die Gegenstand der Analyse sind: sie weisen über den Einzelfall hinaus, d. h. es handelt sich um Aussagen darüber, dass Ereignisse der Art X Ereig-
2 Kausalität und multivariate Statistik
27
nissen der Art Y zeitlich vorausgehen. Entsprechend sind auch andere multivariate Verfahren zum Test von Kausalaussagen geeignet. 4.4 Gibt es Algorithmen für die Ermittlung von Kausalität? Man stelle sich vor, man verfüge über einen Datensatz mit einer Reihe von Variablen wie z. B. den Variablen in Abbildung 1. Wäre es nicht der Traum eines jeden Sozialwissenschaftlers, dass es ein Verfahren, also einen Algorithmus, gibt – am besten in Form eines Computerprogramms –, der es ermöglicht, bei solchen Datensätzen zu ermitteln, welche Variablen in welcher kausalen Beziehung zueinander stehen? Es scheint, dass Spirtes et al. (1993) einen solchen Algorithmus gefunden haben.14 Mit anderen Worten: „Using the algorithms, [Spirtes, Glymour und Scheines] claim to make rigorous inferences of causation from association“ (Freedman 1997a, S. 126). Dies ist ein Zitat aus einem Aufsatz, in dem der betreffende Algorithmus einer detaillierten Kritik unterzogen wird, die allerdings von Spirtes & Scheines (1997) nicht akzeptiert wird (siehe z. B. S. 164). Aber immerhin gestehen sie zu: „One part of our project was the proposal of some algorithms that use statistical data and background knowledge supplied by a user to suggest causal models compatible with the background knowledge and the data“ (Spirtes & Scheines 1997, S. 175). Es ist in diesem Rahmen nicht möglich, das genaue Programm der Autoren darzustellen oder zu rekonstruieren. Wir nehmen einfach an, dass die Autoren einen Algorithmus der genannten Art entwickelt haben. In der Tat gibt es das Programm TETRAD, das eine Kausalstruktur aus einem Datensatz generiert. Ähnliche Algorithmen sind auch in Programmen zur Berechnung von Strukturgleichungsmodellen wie z. B. in LISREL enthalten. Hier werden sog. Modifikations-Indices ausgegeben, die angeben, welche Modifikationen des Modells dessen „Fit“ in welchem Maße erhöhen. Auch dies könnte man als eine Art Algorithmus explizieren, kausale Beziehungen zu entdecken. Kann man mit solchen Algorithmen die Kausalstruktur einer Menge von Variablen ermitteln? Es ist sicherlich möglich, (mindestens) ein Gleichungssystem zu finden, das den Daten am besten entspricht. Aber es können keine Beziehungen ermittelt werden, die besagen, dass Faktoren der Art X zu Faktoren der Art Y führen. Hiergegen sprechen folgende Argumente. 1. Wie bereits erwähnt, würde ein solcher Algorithmus gehaltserweiternde bzw. induktive und wahrheitskonservierende Schlüsse ziehen. Solche Schlüsse sind logisch aber nicht möglich (siehe oben). 2. Wenn der Algorithmus wahre Kausalmodelle aus Daten ableiten könnte, dann wären die Erklärungsprobleme der Sozialwissenschaften gelöst oder weitgehend gelöst: alle Forscher würden den Algorithmus anwenden. Davon kann jedoch keine Rede sein. So hat Freedman (1997a) einige Modelle mit dem Computerprogramm TETRAD von Spirtes et al. (1993) geschätzt und wenig ermutigende Ergebnisse erzielt. 14
Vgl. das grundlegende Buch dieser Autoren von 1993. Zusammenfassend siehe Scheines (1997) und Glymour (1997) und die Diskussion dieses Ansatzes in dem von McKim & Turner (1997) herausgegebenen Band. Siehe weiter Pearl (2000). Das Lehrbuch von Shipley (2000) ist von diesem Ansatz stark beeinflusst.
28
Karl-Dieter Opp
Betrachtet man die Empfehlungen der Modifikations-Indices etwa im Programm LISREL, so findet man eine Vielzahl theoretisch unsinniger Beziehungen, deren Berücksichtigung den „Fit“ verbessern würde. So wird etwa zuweilen empfohlen, eine Variable, die zu einem bestimmten Zeitpunkt erhoben wurde, auf eine Variable wirken zu lassen, die zu einem früheren Zeitpunkt gemessen wurde. Mit anderen Worten: vorliegende Algorithmen sind nicht geeignet, gültige Kausalaussagen zu ermitteln. 3. Es hat sich weiter gezeigt, dass oft ein gegebener Datensatz mit völlig unterschiedlichen Modellen vereinbar ist, wie bereits vorher erwähnt. Dies bedeutet, selbst wenn ein erfolgreicher Algorithmus gefunden wird, dann kann er nur eine Menge möglicher wahrer Modelle ermitteln und nicht oder zumindest nicht immer genau ein Modell. 4. Bei der Formulierung ihrer Algorithmen kommen Spirtes et al. (1993) nicht ohne eine Vielzahl von Annahmen aus – dies wird sowohl von ihren Kritikern wie Freedman (1997a) betont und auch in der Erwiderung auf Freedman zugestanden (Spirtes & Scheines 1997). So wird festgelegt, dass bestimmte Variablen nicht Ursachen anderer Variablen sein können. Dieses ist „background knowledge“, wie es die Autoren nennen. Es wird z. B. angenommen, dass Rauchen zu Gesundheitsproblemen und dass nicht Gesundheitsprobleme zu Rauchen führen. Man hat bei der Lektüre der Schriften der Autoren oft den Eindruck, dass implizit bei der Generierung der Modelle generelle Hypothesen getestet werden, die dann sukzessive modifiziert werden, bis ein guter „Fit“ und ein theoretisch sinnvoll erscheinendes Modell vorliegt. Wäre dies der Fall, dann käme der Algorithmus dem oben beschriebenen Verfahren des deduktiven Testens von Theorien sehr nahe. Ergibt sich aus diesen Argumenten, dass Algorithmen zur Entdeckung kausaler Strukturen völlig nutzlos sind? Sie sind ungeeignet für logische Schlüsse auf Kausalitäten, aber sie sind sicherlich nützlich als Heuristiken zur Entdeckung kausaler Zusammenhänge. So dürften die Hinweise von Modifikations-Indices dem Forscher oft Hinweise auf theoretisch sinnvolle Zusammenhänge geben, die ihm vorher nicht eingefallen sind. Ob die theoretischen Ideen zutreffen, muss dann die weitere Forschung zeigen. Abschließend sei noch auf ein Problem der Schriften von Spirtes et al. (1993) hingewiesen: es ist nicht klar, was genau unter „Kausalität“ und verwandten Begriffen verstanden wird (vgl. insbesondere die erstaunlich vagen Ausführungen bei Spirtes et al. (1993, S. 42–43), und bei Glymour (1997); siehe weiter die Kritik von Humphreys (1997, S. 251, 284)).Wir sind hier davon ausgegangen, dass der oben explizierte Begriff auch von den Autoren zugrunde gelegt wird. Wenn man allerdings „Kausalität“ anders versteht, z. B. als eine Gleichungsstruktur, die die Daten relativ gut abbildet, dann gilt die genannte Kritik vielleicht nicht. Dies soll aber hier nicht untersucht werden.
2 Kausalität und multivariate Statistik
29
5 Einzelfallanalysen, historische Daten und die Prüfung von Kausalaussagen Wir waren bisher implizit davon ausgegangen, dass bei sozialwissenschaftlichen Datenanalysen hinreichend viele Fälle vorliegen, um kausale Hypothesen zu testen.15 Was aber sind „hinreichend“ viele Fälle?16 Eine Theorie bezieht sich definitionsgemäß auf eine unendliche Anzahl von Fällen. Wie viele Fälle sind hinreichend für die Überprüfung einer solchen Aussage? Ist es ein einziger Fall, oder sind es z. B. 10, 100, 1000 oder 10.000 oder noch mehr Fälle? Gehen wir zuerst davon aus, dass eine zu prüfende Theorie deterministisch ist. In diesem Falle reicht im Prinzip ein einziger Fall für die Prüfung einer Hypothese aus. Dies gilt aber nur für eine qualitative Aussage „wenn X, dann Y “ (bei der also die Variablen X und Y dichotom sind) oder wenn bei einer quantitativen Aussage die Funktion klar spezifiziert ist. Weiter ist erforderlich, dass die Begriffe der zu prüfenden Aussagen so klar sind, dass entschieden werden kann, auf welche empirischen Sachverhalte sich die Begriffe bei einem Test einer Hypothese beziehen. Demonstrieren wir dies an zwei generellen Aussagen: 1. Wenn die Belohnung für ein Verhalten (X) hoch ist, dann wird das Verhalten (Y ) häufig ausgeführt, d. h.: wenn X, dann Y . 2. Je stärker ein Verhalten belohnt wird, desto häufiger wird es ausgeführt. Genauer: Y = 2,6 + 3,5X. Hypothese (1) ist gemäß den Regeln der formalen Logik dann falsch, wenn X vorliegt und Y nicht vorliegt (d. h. X ist wahr und Y ist falsch). Wenn man einen solchen Fall findet, ist die Hypothese falsifiziert. Bei allen anderen Wahrheitswerten von X und Y ist dagegen (1) nicht falsifiziert. Auch wenn (1) aus einer komplexen Wenn-Komponente besteht, in der die Variablen jeweils dichotom sind, reicht ein einziger Fall zur Prüfung aus. Bei Hypothese (2) lässt sich bei einem gegebenen Wert von X der Wert von Y voraussagen. Zeigt sich in einem konkreten Fall, dass der vorausgesagte und tatsächliche Wert Y nicht übereinstimmen, dann ist die Hypothese falsifiziert. Dies gilt auch, wenn eine Hypothese komplexer ist, z. B. aus mehreren unabhängigen Variablen besteht. Probleme beim Test von Hypothesen (1) und (2) an einem einzigen Fall treten auf, wenn mindestens eine der genannten Bedingungen nicht erfüllt ist. Wenn z. B. (1) zur 15
16
In der Literatur gibt es eine Diskussion darüber, was ein „Fall“ ist (zusammenfassend Kriwy & Gross (2009), Gross & Kriwy (2009)). Es ist zu unterscheiden zwischen Objekten wie z. B. Organisationen, Gesellschaften, sozialen Netzwerken einerseits und Beobachtungswerten dieser Objekte andererseits. Die Objekte sind die „Fälle“. Ein „Fall“ wie z. B. eine Gesellschaft kann zu verschiedenen Zeitpunkten analysiert werden, so dass also verschiedene Beobachtungswerte erhoben werden, wie die Höhe der Kriminalitätsrate im Zeitablauf. Wenn im Folgenden von „Fall“ gesprochen wird, dann sind Objekte gemeint, die zu einem bestimmten Zeitpunkt analysiert werden, also nur einen Beobachtungswert bei bestimmten Variablen aufweisen. Vgl. zusammenfassend zu der umfangreichen Diskussion über Untersuchungen mit kleinen Fallzahlen Kriwy & Gross (2009).
30
Karl-Dieter Opp
Erklärung „inneren Tuns“ (Max Weber) wie etwa Nachdenken angewendet wird und wenn nicht klar ist, ob „Verhalten“ auch ein „inneres Tun“ beinhaltet, ist ein Test nicht möglich. Dies gilt auch, wenn bei (2) die Funktion nicht angegeben wird. Wenn wir dann z. B. bei einem Fall einen Wert für X und einen Wert für Y ermittelt haben, wissen wir nicht, bei welchem Wert von X welcher Wert von Y zu erwarten ist. Nehmen wir nun an, die beiden genannten Hypothesen seien nicht-deterministisch: Hypothese (1) laute, dass bei Vorliegen von X in den meisten Fällen (oder einem bestimmten Prozentsatz der Fälle) Y auftritt. Bei (2) wird ein Fehlerterm eingeführt: Y = 2,6 + 3,5X + e. Dies bedeute, dass bei gegebenen Werten von X der Wert von Y um die Linie, die der Funktion Y = 2,6 + 3,5X entspricht, streut (siehe etwa Abbildung 2 b). Prüft man die Hypothese (1) mit einem einzigen Fall, dann ist nicht ausgeschlossen, dass dieser Fall zu denen gehört, für die die Hypothese nicht gilt: wenn (1) „meistens“ zutrifft, dann könnte der ausgewählte Fall zu den „Ausnahmen“ gehören. Da (1) „meistens“ gilt, wird man erwarten, dass die Wahrscheinlichkeit relativ hoch ist, dass auch ein Einzelfall der Hypothese entspricht. Man würde sozusagen wetten, dass z. B. bei Vorliegen von X auch Y vorliegt. Findet man bei vorliegendem X, dass Y nicht gegeben ist, wird man dies also auch bei einer nicht-deterministischen qualitativen Hypothese als eine – vielleicht sehr vorläufige – Falsifikation ansehen. Angenommen, Gleichung (2) habe einen Fehlerterm und ein Fall habe einen bestimmten Wert von X. Welcher Wert von Y bestätigt die Hypothese? Man wird erwarten, dass Y von dem Wert der Linie abweicht. Aber wie stark darf der Wert abweichen, damit von einer Bestätigung gesprochen werden kann? Je geringer die Abweichung ist, desto eher wird man die Hypothese als bestätigt ansehen. Aber wie gering bzw. groß darf die Abweichung sein? Da es hierauf keine befriedigende Antwort gibt, bedeutet dies, dass man eine quantitative, nicht-deterministische Hypothese selbst dann nicht mit einem einzigen Fall testen kann, wenn eine Gleichung angegeben ist, was aber normalerweise nicht geschieht. Die Verwendung eines Einzelfalls zum Test von kausalen Hypothesen dürfte eher selten vorkommen. Viele angebliche Einzelfallanalysen verwenden in Wirklichkeit nicht einen Fall wie z. B. eine politische Partei zu einem Zeitpunkt, sondern vergleichen die erklärenden Faktoren und den Zustand des „Einzelfalles“ (also die Werte der abhängigen Variablen) zu verschiedenen Zeitpunkten (siehe z. B. Rueschemeyer 2003). Reine Einzelfallanalysen, in denen also ein Objekt zu genau einem Zeitpunkt analysiert wird, sind vermutlich selten. Offen ist, wie viele Fälle erforderlich sind, um kausale Hypothesen testen zu können. Die einzige, allerdings nicht sehr informative, Regel ist: je mehr Fälle, desto besser. Normalerweise entscheidet der Forscher, der Kausalhypothesen prüfen will, ob die ihm zur Verfügung stehenden Fälle hinreichend für den Test erscheinen. Wichtig ist in diesem Zusammenhang, dass mit relativ wenigen Fällen, z. B. mit 10 oder 15 Fällen, bereits quantitative Analysen durchgeführt und damit auch Kausalhypothesen getestet werden können (siehe z. B. Jann 2009). Hingewiesen sei auch auf Versuche eher qualitativ orientierter Sozialforscher, Analyseverfahren für wenige Fälle zu entwickeln (vgl. z. B. Buche & Carstensen 2009, siehe auch allgemein Kriwy & Gross 2009, Gross & Kriwy 2009).
2 Kausalität und multivariate Statistik
31
Zuweilen ist es nicht möglich, die Fallzahl zu erhöhen, wenn etwa nur ein „Fall“ existiert. Dies gilt z. B. für die einzige langfristig stabile direkte Demokratie der Schweiz. Will man Wohlfahrtsstaaten vergleichen, dann liegen nur wenige Untersuchungseinheiten vor. Aber auch hier besteht für viele Hypothesen die Möglichkeit, den „Fall“ oder die wenigen Fälle zu verschiedenen Zeitpunkten zu untersuchen. Es geht aber oft, insbesondere in der historischen und qualitativen Forschung, nicht um die Prüfung von Kausalhypothesen, sondern um die Erklärung bestimmter Sachverhalte. Die Vergleichende Historische Analyse („Comparative Historical Analysis“) ist z. B. ein „long-standing intellectual project oriented toward the explanation of substantively important outcomes“ (Mahoney & Rueschemeyer 2003, S. 6). Allerdings ist diese Art der Analyse u. a. „defined by a concern with causal analysis“ (6). Dabei werden oft ad hoc bestimmte Faktoren aufgrund nicht expliziter Hintergrundhypothesen als Ursachen bezeichnet. Solange diese Hintergrundtheorien nicht explizit formuliert sind, kann die Gültigkeit solcher Analysen nicht beurteilt werden. Man kann sie nur mehr oder weniger plausibel finden. Bei der expliziten Anwendung einer bestätigten Theorie wird man der Gültigkeit von Erklärungen dagegen mehr Vertrauen entgegen bringen. Detaillierte Einzelfall-Analysen sollen auch zur Entdeckung von Hypothesen, als „context of discovery“, geeignet sein. Wenn einem Forscher bei dem „Eintauchen“ in einen Fall neue Hypothesen einfallen, dann kann aber der betreffende Fall nicht zum Test dieser Hypothesen verwendet werden. Ob der theoretische Einfall empirisch zutrifft, muss dann in neuen Untersuchungen geprüft werden. Wir sagten, dass es wohl kaum deterministische Hypothesen in den Sozialwissenschaften gibt. Liest man jedoch historische, historisch-vergleichende oder qualitative Schriften oder auch bekannte sozialwissenschaftliche Untersuchungen (siehe z. B. Rueschemeyer 2003), dann scheint es nur deterministische Hypothesen zu geben. Gründe hierfür findet man nicht. Vielleicht erscheint folgende methodologische Regel sinnvoll: man behandle alle sozialwissenschaftlichen Hypothesen als deterministisch; falls sie falsifiziert werden, suche man nach Modifikationen oder neuen Theorien, die die Probleme beheben. Wenn die Hypothesen in Wirklichkeit nicht-deterministisch sind, dürften solche Modifikationen dazu führen, dass der nicht-deterministische Spielraum eingeschränkt wird. Der Vorteil dieser methodologischen Regel ist, dass man sich nicht damit zufrieden gibt, dass Hypothesen nicht-deterministisch sind, sondern versucht, sie zu verbessern.
6 Kausalität in Messmodellen In den Sozialwissenschaften werden oft relativ vage Begriffe wie Intelligenz, Anomie oder Entfremdung verwendet. Diese werden oft „latente Variablen“, „hypothetische Konstrukte“ oder „theoretische Begriffe“ genannt. Die übliche Vorgehensweise bei der Messung dieser Faktoren ist, dass man ihnen Indikatoren – etwa verschiedene Fragen in einem Interview – zuordnet. Illustrieren wir diese Vorgehensweise mit der Messung des wahrgenommenen politischen Einflusses – der Kürze halber sprechen wir von „Einfluss“. Im ALLBUS 1998 wurden zur Messung dieser Variablen den Befragten fünf Behauptungen vorgegeben
32
Karl-Dieter Opp
(siehe hierzu z. B. Lüdemann 2001). Zwei dieser Behauptungen lauten (1) „Leute wie ich haben sowieso keinen Einfluss darauf, was die Regierung tut“ und (2) „Die Politiker kümmern sich nicht viel darum, was Leute wie ich denken“. Die Befragten wurden gebeten anzugeben, inwieweit sie diesen Behauptungen zustimmen (mit vier möglichen Antworten, von „stimme voll und ganz zu“ (Kodierung 1) bis „stimme überhaupt nicht zu“ (mit Kodierung 4)). Nehmen wir an, die Antworten aller Indikatoren werden so kodiert, dass hohe Werte einen hohen Einfluss bedeuten. Gegenstand dieses Abschnitts ist die Art der Beziehung zwischen Konstrukt einerseits und den Indikatoren andererseits. Eine verbreitete Annahme ist, dass das Konstrukt unabhängig von den Messungen existiert und die Ursache für die Werte der Indikatoren ist.17 Abbildung 3 zeigt das betreffende Kausalmodell mit vier Indikatoren. Es besteht aus einer Menge von Kausalaussagen, z. B.: „Einfluss ist eine Ursache von Indikator (A)“. Die Koeffizienten b1 bis b4 symbolisieren die Größe der Effekte von Einfluss auf die Indikatoren. Die Korrelationen zwischen den Indikatoren, die aus den Daten berechnet werden können, sind durch Bögen zwischen den betreffenden Variablen symbolisiert. In welchem Sinne ist ein Konstrukt eine Ursache für die gemessenen Indikatoren? Es ist auffällig, dass normalerweise in Aussagen wie „X ist eine Ursache von Y “ beide Sachverhalte empirischer Art sind. D. h. man kann sowohl X (z. B. eine Straferhöhung für Schwarzfahren) als auch Y (z. B. die Häufigkeit des Schwarzfahrens) unabhängig voneinander messen. Dies ist bei der Aussage „Einfluss ist eine Ursache für Indikator (A)“ nicht der Fall. Hier kann X (Einfluss) nicht unabhängig von den Indikatoren gemessen werden. Es ist auch nicht vorstellbar, wie eine solche Messung aussehen soll. Eine Messung ist nur möglich, wenn ein Phänomen existiert und wenn es dem Forscher zugänglich ist. Das ist aber für „Einfluss“ nicht der Fall. Dasselbe gilt für eine Vielzahl von Konstrukten wie z. B. Intelligenz oder politische Entfremdung. Vielleicht handelt es sich aber gar nicht um eine empirische Beziehung? Bei einer solchen Beziehung müsste es im Prinzip möglich sein, dass der Einfluss steigt, dass sich aber die Werte der einzelnen Indikatoren nicht verändern. Ist es z. B. möglich zu behaupten, dass in der Bundesrepublik der durchschnittliche wahrgenommene politische Einfluss seit der Wende gesunken ist, dass aber die Durchschnittswerte der vier Indikatoren konstant geblieben sind? Dies scheint keine sinnvolle Aussage zu sein. 17
Dies wird als „reflective measurement“ bezeichnet, die Indikatoren heißen „effect indicators“. Eine seltener getroffene Annahme ist, dass die Indikatoren auf das Konstrukt wirken. Hier spricht man von „formative measurement“, die Indikatoren heißen „causal indicators“. Im Folgenden wird nur auf „reflective measurement“ eingegangen. Die Probleme des „formative measurement“ sind die gleichen. Zur Art der Beziehung zwischen Konstrukten und Indikatoren ist zum einen die Debatte in der Wissenschaftstheorie über theoretische und Beobachtungssprache von Bedeutung. Vgl. zusammenfassend Stegmüller (1970, Kapitel III und IV), für die Sozialwissenschaften Opp (1976a, S. 358–368). Gegenwärtig sind Kausalannahmen der genannten Art vor allem bei der Analyse von Strukturgleichungsmodellen üblich. Vgl. etwa Aish & Jöreskog (1990), Jöreskog & Sörbom (1993, S. 45–50). Vgl. außerdem die neuere Diskussion über „reflective“ und „formative measurement“, insbes. Howell et al. (2007) und die Diskussion dieses Artikels im gleichen Heft der Zeitschrift. Siehe im deutschen Sprachbereich Opp (1976b) und Schmidt (1977).
2 Kausalität und multivariate Statistik
33
Wahrgenommener politischer Einfluss
b1
Indikator A
b2
b3
Indikator B
rab
b4
Indikator C
rbc rac
Indikator D
rcd rbd
rad
Abb. 3: Ein Messmodell für „wahrgenommenen politischen Einfluss“ Dies aber bedeutet, dass die Beziehung zwischen Konstrukt und Indikatoren nicht empirischer und somit auch nicht kausaler Art ist. Wenn die Beziehung nicht empirisch ist, dann muss sie analytisch sein.18 Genauer gesagt: es handelt sich um eine Bedeutungsrelation. „Einfluss“ hat eine Bedeutung, die aber relativ vage ist. Wenn Sozialwissenschaftler solche Konstrukte messen wollen, dann wird versucht, Indikatoren wie z. B. Interviewfragen zu finden, die sich im Rahmen der Bedeutung des Konstrukts bewegen. Dabei können die Indikatoren nicht aus dem Begriff gefolgert werden, aber ihre Auswahl wird durch die Bedeutung des Konstrukts gesteuert und begrenzt. So wäre die Behauptung „Meine Freunde haben alle Abitur“ sicherlich keine adäquate Messung von „Einfluss“, da sich dieser Begriff nicht auf die Schulbildung der Freunde eines Befragten bezieht. Der Indikator „wenn ich meine Freunde um etwas bitte, dann tun sie das normalerweise auch“ bewegt sich im Rahmen der Bedeutung des Einfluss-Begriffs. Der zu messende Begriff fungiert also als eine Heuristik zur Formulierung von Indikatoren. In dieser Weise könnten die Pfeile in Abbildung 3 verstanden werden, nämlich als Bedeutungstransfers, in denen die Bedeutung eines Konstrukts zur Formulierung bestimmter Indikatoren beiträgt. Nun gibt es normalerweise eine Vielzahl von Indikatoren, die sich im Rahmen der vagen Bedeutung des Konstrukts bewegen. Um zu entscheiden, welche man verwenden will, werden bestimmte Kriterien angewendet bzw. Annahmen getroffen. So nimmt man an, dass nur solche Indikatoren das Konstrukt messen, die relativ eng miteinander korrelieren. Genau dies drücken die b-Koeffizienten aus. Diese werden auf der Grundlage der Korrelationen zwischen den Indikatoren berechnet. Aus den Korrelationen kann also nicht gefolgert werden, dass eine Kausalbeziehung vorliegt. Eine solche Folgerung würde eine Art induktiver Schluss sein, in dem von einer konkreten empirischen Korrelation auf eine darüber hinaus weisende kausale Beziehung geschlossen wird. Ein solcher Schluss ist logisch nicht zulässig. 18
Vgl. hierzu im Einzelnen die Unterscheidung zwischen empirischen und analytischen Indikatoren bei Opp (1995, S. 57–61; 2005, S. 122–127).
34
Karl-Dieter Opp
Man könnte dagegen einwenden, dass man – wie bei multivariaten Verfahren – das Verfahren des deduktiven Testens anwendet: man prüft, ob eine Kausalhypothese gilt, die eine Wirkung eines Konstrukts auf Indikatoren behauptet. Findet man, dass die b-Koeffizienten ungleich null und signifikant sind, dann ist die Kausalhypothese bestätigt. Das Problem ist jedoch, wie gesagt, dass bei einer normalen Kausalhypothese die behaupteten Ursachen und Wirkungen unabhängig voneinander geprüft werden können. Dies ist aber hier nicht der Fall. Halten wir fest, dass die üblichen Messmodelle keine Kausalbeziehungen enthalten. Die verwendeten Indikatoren sind analytisch. Die Koeffizienten beschreiben die Interkorrelationen der Indikatoren (etwa die Ladungen in der Faktorenanalyse).
7 Resümee Wissenschaftstheoretiker glauben oft, dass ihre Explikation und Kritik der Vorgehensweise von Wissenschaftlern die wissenschaftliche Praxis verbessert. Ist dies für die vorangegangenen Überlegungen zur Kausalität der Fall? Zumindest könnten diese dazu führen, dass Sozialwissenschaftler bei der Verwendung von Begriffen wie „Ursache“, „Wirkung“ oder „kausale Erklärung“ genauer überlegen, was die Bedeutung dieser Begriffe ist. Vielleicht bemerkt man nach der Lektüre dieses Aufsatzes, dass man in einer willkürlichen Weise bzw. ad hoc bestimmte Phänomene als „Ursachen“ bezeichnet und dass weder genau die Phänomene der Art X noch die Phänomene der Art Y herausgearbeitet wurden. Es wäre schon eine erhebliche Verbesserung sozialwissenschaftlicher Praxis, wenn der typische lockere Umgang mit „Kausalität“ reflektiert würde und wenn die typischerweise implizit angewendeten Theorien explizit formuliert und in den Prüfungsprozess einbezogen würden. Weiter wäre viel gewonnen, wenn man sich darüber im Klaren ist, dass eine Kausalanalyse keinerlei „kausale Schlüsse“ im Sinne induktiver Schlüsse erlaubt, sondern dass es lediglich möglich ist, Hypothesen zu testen. Auch dies dürfte dazu führen, dass man genauer spezifiziert, was die Ereignisse der Art X und der Art Y sind, aus denen eine Kausalbeziehung besteht.
8 Literaturempfehlungen Dieser Beitrag behandelt verschiedene Themenbereiche. Zu den Bereichen werden folgende Literaturempfehlungen gegeben: Zur Wissenschaftstheorie, zur Logik der Erklärung und insbesondere zum Hempel-Oppenheim Erklärungsmodell sollte zuerst einer der zentralen Aufsätze gelesen werden. Empfehlenswert ist Hempel (1965, Kapitel 10). Weiter ist die ausführliche Diskussion bei Woodward (2003) lesenswert. Zum Experiment empfehlen wir die umfassende Darstellung bei Webster jr. & Sell (2007). Zur Einführung in die Regressionsanalyse sollte ein gängiges Lehrbuch gelesen werden wie z. B. Urban & Mayerl (2006), oder die Beiträge in diesem Handbuch. Eine gute Diskussion qualitativer Verfahren bietet der Band von Gross & Kriwy (2009).
2 Kausalität und multivariate Statistik
35
Literaturverzeichnis Aish, A. M. & Jöreskog, K. G. (1990). A Panel Model for Political Efficacy and Responsiveness: An Application of LISREL 7 with Weighted Least Squares. Quality and Quantity, 24, 405–426. Bamberg, S., Davidov, E., & Schmidt, P. (2008). Wie gut erklären "enge" oder "weite" Rational-Choice-Versionen Verhaltensänderungen? Ergebnisse einer experimentellen Interventionsstudie. In A. Diekmann, K. Eichner, P. Schmidt, & T. Voss (Hg.), Rational Choice: Theoretische Analysen und empirische Resultate. Festschrift für Karl-Dieter Opp zum 70. Geburtstag (S. 143–170). Wiesbaden: VS Verlag für Sozialwissenschaften. Blalock, H. M. (1964). Causal Inferences in Nonexperimental Research. Chapel Hill: The University of North Carolina Press. Blalock, H. M., Hg. (1971). Causal Models in the Social Sciences. Chicago: Aldine Atherton. Buche, A. & Carstensen, J. (2009). Qualitative Comparative Analysis: Ein Überblick. In P. Kriwy & C. Gross (Hg.), Klein aber fein! Quantitative empirische Sozialforschung mit kleinen Fallzahlen (S. 65–92). Wiesbaden: VS Verlag für Sozialwissenschaften. Bunge, M. (1979). Causality and Modern Science. New York: Dover Publications, 3. Auflage. Camerer, C., Hg. (2003). Behavioral Game Theory: Experiments in Strategic Interaction. New York: Russell Sage Foundation. Campbell, J. C. & Stanley, J. C. (1963). Experimental and Quasi-Experimental Design for Research. Chicago: Rand McNally. Collins, J. D., Hall, E. J., & Paul, L. A., Hg. (2004). Causation and Counterfactuals. Cambridge: MIT Press. Diekmann, A. (1980). Die Befolgung von Gesetzen. Empirische Untersuchungen zu einer rechtssoziologischen Theorie. Berlin: Duncker & Humblot. Diekmann, A. (2007). Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen. Reinbek: Rowohlt, 18. Auflage. Fearon, J. D. (1991). Counterfactuals and Hypothesis Testing in Political Science. World Politics, 43, 169–195. Fisher, R. A. (1926). The Design of Experiments. Edinburgh: Oliver and Boyd. Freedman, D. A. (1997a). From Association to Causation via Regression. In V. R. McKim & S. P. Turner (Hg.), Causality in Crisis? Statistical Methods and the Search for Causal Knowledge in the Social Sciences (S. 113–161). Notre Dame: University of Notre Dame Press. Freedman, D. A. (1997b). Rejoinder to Spirtes and Scheines. In V. R. McKim & S. P. Turner (Hg.), Causality in Crisis? Statistical Methods and the Search for Causal Knowledge in the Social Sciences (S. 177–182). Notre Dame: University of Notre Dame Press. Gangl, M. (2010). Causal Inference in Sociological Research. Annual Review of Sociology, 36. Glymour, C. (1997). A Review of Recent Work on the Foundation of Causal Inference. In V. R. McKim & S. P. Turner (Hg.), Causality in Crisis? Statistical Methods and the Search for Causal Knowledge in the Social Sciences (S. 201–248). Notre Dame: University of Notre Dame Press. Gross, C. & Kriwy, P. (2009). Kleine Fallzahlen in der empirischen Sozialforschung. In P. Kriwy & C. Gross (Hg.), Klein aber fein! Quantitative empirische Sozialforschung mit kleinen Fallzahlen (S. 9–22). Wiesbaden: VS Verlag für Sozialwissenschaften.
36
Karl-Dieter Opp
Hall, P. A. (2003). Aligning Ontology and Methodology in Comparative Politics. In J. Mahoney & D. Rueschemeyer (Hg.), Comparative Historical Analysis in the Social Sciences (S. 373–406). Cambridge: Cambridge University Press. Hempel, C. G. (1965). Aspects of Scientific Explanation and other Essays in the Philosophy of Science. New York: Free Press. Hempel, C. G. & Oppenheim, P. (1948). Studies in the Logic of Explanation. Philosophy of Science, 15, 135–175. Henrich, J., Boyd, R., Bowles, S., Camerer, C., Fehr, E., & Gintis, H., Hg. (2004). Foundations of Human Sociality. Economic Experiments and Ethnographic Evidence from Fifteen SmallScale Societies. Oxford: Oxford University Press. Hoover, K. D. (2001). Causality in Macroeconomics. Cambridge: Cambridge University Press. Howell, R. D., Breivik, E., & Wilcox, J. B. (2007). Reconsidering Formative Measurement. Psychomedical Methods, 12, 205–218. Hummell, H. J. & Ziegler, R., Hg. (1976). Korrelation und Kausalität, Band 1 und 2. Stuttgart: Enke. Humphreys, P. (1997). A Critical Appraisal of Causal Discovery Algorithms. In V. R. McKim & S. P. Turner (Hg.), Causality in Crisis? Statistical Methods and the Search for Causal Knowledge in the Social Sciences. Notre Dame: University of Notre Dame Press. Jann, B. (2009). Diagnostik von Regressionsschätzungen bei kleinen Stichproben (mit einem Exkurs zu logistischer Regression). In P. Kriwy & C. Gross (Hg.), Klein aber fein! Quantitative empirische Sozialforschung mit kleinen Fallzahlen (S. 93–126). Wiesbaden: VS Verlag für Sozialwissenschaften. Jöreskog, K. G. & Sörbom, D. (1993). LISREL 8: Structural Equation Modeling With the SIMPLIS Command Language. Hillsdale: Lawrence Erlbaum Associates. Kagel, J. H. & Roth, A. E. (1995). The Handbook of Experimental Economics. Princeton: Princeton University Press. Kern, S. (2004). A Cultural History of Causality. Science, Murder Novels, and Systems of Thought. Princeton: Princeton University Press. Kerschke-Risch, P. (1993). Gelegenheit macht Diebe - Doch Frauen klauen auch. Massenkriminalität bei Frauen und Männern. Opladen: Westdeutscher Verlag. Kitcher, P. & Salmon, W. C., Hg. (1989). Scientific Explanation. Minneapolis: University of Minnesota Press. Kriwy, P. & Gross, C., Hg. (2009). Klein aber fein! Quantitative empirische Sozialforschung mit kleinen Fallzahlen. Wiesbaden: VS Verlag für Sozialwissenschaften. Lazarsfeld, P. F. (1955). Interpretation of Statistical Relations as a Research Operation. In P. F. Lazarsfeld & M. Rosenberg (Hg.), The Language of Social Research (S. 115–125). Glencoe: Free Press. Lüdemann, C. (2001). Politische Partizipation, Anreize und Ressourcen. Ein Test verschiedener Handlungsmodelle und Anschlußtheorien am ALLBUS 1998. In A. Koch, M. Wasmer, & P. Schmidt (Hg.), Politische Partizipation in der Bundesrepublik Deutschland. Empirische Befunde und theoretische Erklärungen (S. 43–71). Opladen: Leske + Budrich. Lüdemann, C. (2008). Zur Erklärung von Gesetzesübertretungen. Eine theoriegesteuerte Sekundäranalyse des ALLBUS 2000. In A. Diekmann, K. Eichner, P. Schmidt, & T. Voss (Hg.), Rational Choice: Theoretische Analysen und empirische Resultate. Fest-
2 Kausalität und multivariate Statistik
37
schrift für Karl-Dieter Opp zum 70. Geburtstag (S. 193–210). Wiesbaden: VS Verlag für Sozialwissenschaften. MacCallum, R. C., Wegener, D. T., Uchino, B. N., & Fabrigar, L. R. (1993). The Problem of Equivalent Models in Applications of Covariance Structure Analysis. Psychological Bulletin, 114, 185–199. Mahoney, J. & Rueschemeyer, D. (2003). Comparative Historical Analysis in the Social Sciences. Cambridge: Cambridge University Press. McKim, V. R. & Turner, S. P., Hg. (1997). Causality in Crisis? Statistical Methods and the Search for Causal Knowledge in the Social Sciences. Notre Dame: University of Notre Dame Press. Mellor, D. H. (1995). The Facts of Causation. London: Routledge. Menzies, P. (2008). Counterfactual Theories of Causation. In E. N. Zalta (Hg.), Stanford Encyclopedia of Philosophy (Online edition). Letzter Zugriff 29.03.2010: http://plato. stanford.edu/entries/causation-counterfactual/. Morgan, S. L. & Winship, C. (2007). Counterfactuals and Causal Inference. Methods and Principles for Social Research. Cambridge: Cambridge University Press. Opp, K.-D. (1969). Das Experiment in den Sozialwissenschaften. Einige Probleme und Vorschläge für seine effektivere Verwendung. Zeitschrift für die gesamte Staatswissenschaft, 125, 106–122. Opp, K.-D. (1973). Zur Fruchtbarkeit experimenteller und nicht-experimenteller Untersuchungspläne in der Soziologie. Soziale Welt, 24, 385–393. Opp, K.-D. (1976a). Methodologie der Sozialwissenschaften. Einführung in Probleme ihrer Theorienbildung. Reinbek: Rowohlt. Opp, K.-D. (1976b). Theoretische Begriffe, Beobachtungsbegriffe und Kausalanalyse. Soziale Welt, 27, 139–143. Opp, K.-D. (1995). Wissenschaftstheoretische Grundlagen der empirischen Sozialforschung. In E. Roth & K. Heidenreich (Hg.), Sozialwissenschaftliche Methoden. Lehr- und Handbuch für Forschung und Praxis (S. 49–73). München: Oldenbourg, 4. Auflage. Opp, K.-D. (2005). Methodologie der Sozialwissenschaften. Einführung in Probleme ihrer Theorienbildung und praktischen Anwendung. Wiesbaden: VS Verlag für Sozialwissenschaften, 6. Auflage. Pearl, J. (2000). Causality. Models, Reasoning and Inference. Cambridge: Cambridge University Press. Peuckert, R. (1973). Zur Generalisierbarkeit experimenteller Ergebnisse. Soziale Welt, 24, 394–408. Pierson, P. (2003). Big, Slow Moving, and ... Invisible. Macrosocial Processes in Comparative Politics. In J. Mahoney & D. Rueschemeyer (Hg.), Comparative Historical Analysis in the Social Sciences (S. 177–207). Cambridge: Cambridge University Press. Popper, K. R. (2005). Logik der Forschung. Tübingen: Mohr, 11. Auflage. Rueschemeyer, D. (2003). Can One or a Few Cases Yield Theoretical Gains? In J. Mahoney & D. Rueschemeyer (Hg.), Comparative Historical Analysis in the Social Sciences (S. 305–336). Cambridge: Cambridge University Press. Scheines, R. (1997). An Introduction to Causal Inference. In V. R. McKim & S. P. Turner (Hg.), Causality in Crisis? Statistical Methods and the Search for Causal Knowledge in the
38
Karl-Dieter Opp Social Sciences (S. 185–200). Notre Dame: University of Notre Dame Press.
Schmidt, P. (1977). Zur praktischen Anwendung von Theorien: Grundlagenprobleme und Anwendung auf die Hochschuldidaktik. Mannheim: Inaugural-Dissertation zur Erlangung des akademischen Grades eines Doktors der Philosophie der Universität Mannheim. Schurz, G. (1988). Erklären und Verstehen in der Wissenschaft. München: Oldenbourg. Shipley, B. (2000). Cause and Correlation in Biology. A User’s Guide to Path Analysis, Structural Equations and Causal Inference. Cambridge: Cambridge University Press. Simon, H. A. (1954). Spurious Correlation: A Causal Interpretation. Journal of the American Statistical Association, 49, 467–479. Spirtes, P., Glymour, C., & Scheines, R. (1993). Causation, Prediction and Search. New York: Springer. Spirtes, P. & Scheines, R. (1997). Reply to Freedman. In V. R. McKim & S. P. Turner (Hg.), Causality in Crisis? Statistical Methods and the Search for Causal Knowledge in the Social Sciences (S. 163–176). Notre Dame: University of Notre Dame Press. Stegmüller, W. (1960). Das Problem der Kausalität. In E. Topitsch (Hg.), Probleme der Wissenschaftstheorie. Festschrift für Victor Kraft (S. 171–190). Wien: Springer. Stegmüller, W. (1969). Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie, Band 1. Berlin: Springer. Stegmüller, W. (1970). Probleme und Resultate der Wissenschaftstheorie und Analytischen Philosophie, Band 2. Berlin: Springer. Turner, S. P. (1997). "Net Effects": A Short History. In V. R. McKim & S. P. Turner (Hg.), Causality in Crisis? Statistical Methods and the Search for Causal Knowledge in the Social Sciences (S. 23–46). Notre Dame: University of Notre Dame Press. Urban, D. & Mayerl, J. (2006). Regressionsanalyse: Theorie, Technik und Anwendung. Wiesbaden: VS Verlag für Sozialwissenschaften, 2. Auflage. Webster jr., M. & Sell, J. (2007). Laboratory Experiments in the Social Sciences. Boston: Elsevier. Winship, C. & Morgan, S. L. (1999). The Estimation of Causal Effects from Observational Data. Annual Review of Sociology, 25, 659–706. Woodward, J. (1997). Causal Models, Probabilities, and Invariance. In V. R. McKim & S. P. Turner (Hg.), Causality in Crisis? Statistical Methods and the Search for Causal Knowledge in the Social Sciences (S. 265–316). Notre Dame: University of Notre Dame Press. Woodward, J. (2003). Making Things Happen. A Theory of Causal Explanation. Oxford: Oxford University Press.
Teil II
Grundlagen der Datenanalyse
3 Datengewinnung und Datenaufbereitung Manuela Pötschke Universität Kassel
Zusammenfassung. Dieser Beitrag liefert auf der Basis einer ausführlichen Begriffsbestimmung in einem ersten Schritt eine Übersicht über die gängigsten Verfahren der Datenerhebung. Dabei werden die einzelnen Verfahren nach unterschiedlichen Kriterien systematisiert. Die Darstellung orientiert sich an Fragen danach, wann welches Verfahren wie am besten eingesetzt werden kann und welche Regeln jeweils beachtet werden müssen. Dadurch erhält der Leser eine erste Orientierung für die Auswahl eines geeigneten Vorgehens zur Lösung eines spezifischen empirischen Problems. Neben dem Erhebungsverfahren ist für die Datengewinnung von Interesse, wer befragt wird. Im dritten Abschnitt wird deshalb ein kurzer Überblick über Stichprobenverfahren gegeben. Der darauf folgende Abschnitt des Beitrages widmet sich der Vorbereitung der Daten für unterschiedliche Analysen. Dieser Schritt umfasst sowohl die Datenaufnahme und das Datenhandling als auch die Datenkontrolle.
1 Daten Unter Daten werden hier Informationen über Sachverhalte aus der Wirklichkeit verstanden, die so aufbereitet sind, dass sie für die statistische Analyse genutzt werden können. Diese Daten werden als Indikatoren für theoretische Konstrukte begriffen, die die Überprüfung und Entwicklung von Theorien erlauben. Im Unterschied zu Alltagsinformationen sprechen wir dann von Daten im hier verwandten Sinne, wenn sie systematisch erfasst werden und als Ausdruck der Messbarmachung eines allgemeineren Konzepts verstanden werden können. Von Primärdaten spricht man dann, wenn für ein bestimmtes Forschungsprojekt eigene Erhebungsinstrumente entwickelt und spezifische Daten erhoben werden. Die Vorteile für dieses Vorgehen bestehen zuerst einmal darin, dass das Erhebungsinstrument genau die Theorien und Hypothesen operationalisiert und umsetzt, die überprüft werden sollen. Dadurch ist eine enge Verzahnung zwischen den theoretischen Konstrukten und der empirischen Messung möglich. Die Erhebung von Primärdaten ist jedoch kostenintensiv. Die zu veranschlagenden Kosten lassen sich in Geld- und Zeitkosten differenzieren. Eine Abwägung zwischen diesen Kosten und dem Gewinn aus einer eigenen Operationalisierung führt häufig zur Nutzung von Sekundärdaten. Sekundärdaten wurden von Dritten erhoben und stehen in der Regel als analysierbare Datensätze zur Verfügung. Der Erhebungszusammenhang muss sich dabei natürlich nicht explizit auf die eigenen Fragestellungen und theoretischen Ansätze beziehen. Dadurch sind notwendige Kompromisse in der Messbarmachung der eigenen S. 41–64 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_3, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
42
Manuela Pötschke
abstrakten Konstrukte nicht auszuschließen. In Deutschland stehen verschiedene, große Datensätze zur Verfügung, auf deren Basis sehr weitreichende Problemstellungen der Sozialforschung bearbeitet werden können. So können mit Hilfe des ALLBUS (Allgemeine Bevölkerungsumfragen Sozialwissenschaften) beispielsweise Trendaussagen zu politischen Einstellungen, Verhaltensweisen und zur Sozialstruktur der Bundesrepublik formuliert werden.1 Im Sozio-Oekonomisches Panel (SOEP) wird nach den ökonomischen und sozialen Verhältnissen der Menschen gefragt.2 Eine spezifische Form von Sekundärdaten stellen Registerdaten dar. Dabei handelt es sich um Vollerhebungen von Informationen, die im Zuge von Verwaltungshandeln anfallen.3 In Abhängigkeit vom Ziel der Untersuchung können Datentypen unterschieden werden. Am häufigsten werden so genannte Querschnittsdaten verwendet, die Auskunft über Sachverhalte zu einem bestimmten Zeitpunkt geben können. Sind wir beispielsweise am aktuellen Wählerpotential einer politischen Partei interessiert, können Querschnittsdaten darüber informieren. Dazu werden Personen ausgewählt und nach ihren Parteipräferenzen befragt. Aussagen aus diesen Daten beziehen sich auf den Augenblick der Datenerhebung und ergeben Häufigkeitsverteilungen im Aggregat. Sollen die Verteilungen über die Zeit hinweg betrachtet werden, so werden in definierten Abständen weitere inhaltlich identische Querschnittserhebungen durchgeführt. Daraus lassen sich Aussagen über den Wandel und die Stabilität von Häufigkeiten oder von Zusammenhängen im Aggregat ableiten. Es ist nicht möglich, aus diesen so genannten Trenddaten auf individuelle Veränderungen zu schließen, da in den einzelnen Querschnittserhebungen unterschiedliche Personen befragt werden. Anders ist das in Panelerhebungen. Hier geht es darum, in möglichst gleichen Zeitabständen die gleichen Personen zu den gleichen Themen zu befragen und dann die entsprechenden Informationen über die Zeitpunkte hinweg für Individuen zu vergleichen. Wir können dann beispielsweise sehen, dass eine Person zum Befragungszeitpunkt im letzten Jahr arbeitslos gemeldet war und zum Befragungszeitpunkt in diesem Jahr wieder einer Berufstätigkeit nachging. Wenn uns auch die Zeit zwischen den beiden Befragungszeitpunkten interessiert, sprechen wir von Ereignis- oder Verlaufsdaten. Sie geben nahezu lückenlos Auskunft über die Dauer gesellschaftlicher und individueller Sachverhalte über einen längeren Zeitraum. Ein Beispiel dafür ist die Lebensverlaufsstudie des Max-Planck-Instituts für Bildungsforschung Berlin.4 1
Beim ALLBUS handelt es sich um eine seit 1980 alle zwei Jahre stattfindende Querschnittserhebung in bundesdeutschen Haushalten. Die Datenerhebung erfolgt mit persönlichen Interviews. 2 Im SOEP werden seit 1984 jährlich alle Personen über 16 Jahren in ausgewählten bundesdeutschen Haushalten befragt. Dabei geht es neben den objektiven Lebensbedingungen auch um subjektiv wahrgenommene Lebensqualität. In Ergänzung werden unregelmäßig spezifische Themen in den Blick genommen. Ziel der bundesweit repräsentativen Erhebung ist die Bereitstellung von Daten zur Erfassung, Analyse und Interpretation des gesellschaftlichen und wirtschaftlichen Wandels. 3 Für eine ausführliche Darstellung von Datensammlungen und Akteuren vgl. Weischer (2007). In Krug et al. (1999) werden wirtschaftsbezogene Daten ausführlicher vorgestellt. 4 Seit über 20 Jahren werden hier Informationen von mittlerweile 8500 Westdeutschen aus 20 Geburtsjahrgängen und 2900 Ostdeutschen aus 13 Geburtsjahrgängen retrospektiv
3 Datengewinnung und Datenaufbereitung
43
2 Formen der Datenerhebung Für die Gewinnung von Daten stehen vielfältige Möglichkeiten bereit. Grundsätzlich lassen sich reaktive und nicht-reaktive Verfahren der Datenerhebung unterscheiden. Während die Personen in der Stichprobe in der ersten Variante wissen, dass sie an einer Datenerhebung teilnehmen und explizit auf ein entsprechendes Instrument reagieren, spricht man von nicht-reaktiven Verfahren dann, wenn die Daten in natürlichen sozialen Situationen generiert werden. Das zweite Vorgehen vermeidet einen so genannten Hawthorne-Effekt. Darunter wird die Beobachtung verstanden, dass die wissenschaftliche Aufmerksamkeit, die den Befragten durch eine Studie entgegengebracht wird, zu Einstellungs- und Verhaltensänderungen führen kann. Die verbreitetste Form der Datenerhebung sind verschiedene Arten der Befragung (vgl. Abschnitt 2.1). Darüber hinaus soll hier auf Beobachtungen (vgl. Abschnitt 2.2) näher eingegangen werden. Die Auswahl eines geeigneten Erhebungsverfahrens hängt von drei zentralen Faktoren ab: der inhaltlichen Fragestellung, dem Zugang zum Feld und den Kosten, die die Studie verursachen darf und die bei der Anwendung einer Erhebungsmethode entstehen. In der Praxis sind die entstehenden Kosten sicherlich das Kriterium, auf das das Hauptaugenmerk gelegt wird. Trotzdem muss die Erhebungsform auch der Fragestellung angemessen sein und diese Kompatibilität bleibt jeweils darzustellen. 2.1 Befragung Als klassisches Verfahren der Datenerhebung kann die Befragung bezeichnet werden. Werden die Befragungen nach der Art der Kommunikation zwischen Forscher und Befragten betrachtet, lassen sich persönlich-mündliche, schriftliche, telefonische und Onlinebefragungen unterscheiden.5 Für alle Kommunikationswege stehen mehr oder weniger strukturierte Formen zur Verfügung (vgl. Tabelle 1 für einen Überblick). Auf einem Kontinuum können dadurch von vollständig strukturierten geschlossenen Befragungen bis zu vollständig offenen Befragungen alle Zwischenausprägungen beobachtet werden. In der Darstellung hier stehen die standardisierten Verfahren im Mittelpunkt, da auf deren Basis statistische Analyseverfahren angewendet werden können. Dies gilt für nicht standardisierte Erhebungen nur eingeschränkt. In der Regel finden Befragungen mit einem Interviewer und einem Befragten statt. Seltener werden Gruppendiskussionen oder Tandeminterviews durchgeführt. erhoben. Im Mittelpunkt stehen möglichst genaue und lückenlose Aufzeichnungen über die Bildungs-, Erwerbs-, Familien- und Wohngeschichte der zufällig ausgewählten Personen. Auf der Grundlage dieser Daten kann Fragen danach nachgegangen werden, wann bestimmte Ereignisse im Lebensverlauf stattfinden, welche Bedeutung historische Verhältnisse für den individuellen Lebensverlauf hatten und wie individuelle Verhaltensweisen Institutionen und eine veränderte Sozialstruktur prägen. 5 Für einen ausführlichen Überblick über die verschiedenen Befragungstypen vgl. Scholl (2003). Die dort vertretene Meinung, dass Onlinebefragungen „lediglich eine Variante der schriftlichen Befragung“ (Scholl 2003, S. 31) darstellen, muss jedoch nach aktuellem Forschungsstand kritisch gesehen werden.
44
Manuela Pötschke
Tab. 1: Differenzierung von Befragungsformen Strukturierungskriterium
Befragungsform
Art der Kommunikation
persönliche, mündliche Befragung (face-to-face) schriftliche Befragung telefonische Befragung Onlinebefragung vollständig strukturierte Befragung alle Fragen mit vorgegebenen Antwortkategorien in festgelegter Reihenfolge unstrukturierte, offene Befragung Interviewer und Befragter (Regelfall) Tandeminterview (zwei Interviewer, ein Befragter) Gruppendiskussion
Grad der Strukturierung
Zahl der teilnehmenden Personen
Zur Beurteilung der Datenqualität einer Befragung wird häufig zunächst die Rücklaufquote herangezogen.6 Damit wird das Verhältnis zwischen den in die Stichprobe gezogenen Personen und den tatsächlich an der Erhebung Teilnehmenden verstanden. Responsequote =
realisierte Interviews · 100 Nettostichprobe
Die so genannte Bruttostichprobe wird dabei um die Anzahl derer bereinigt, die mit einer Befragungseinladung nicht erreicht werden können oder die nicht zur Grundgesamtheit gehören und ergibt dadurch die Nettostichprobe (Diekmann 2007, S. 418). Hat die Person die Einladung zur Befragung zur Kenntnis nehmen können, sind vielfältige Gründe denkbar, warum sie nicht daran teilnehmen möchte. Die Gründe reichen von „keine Zeit“ über „kein Interesse“ bis zu Befürchtungen, sich zu blamieren. Solche Gründe sind vor allem vor dem Hintergrund verständlich, dass die Befragten in der Regel keinen unmittelbaren Nutzen aus ihrer Teilnahme schöpfen. Interessanter sind daher die Gründe, die für eine Teilnahme sprechen. Und zwar deshalb, weil an diesen Gründen ganz bewusst angesetzt werden kann, um Befragte doch noch zur Teilnahme zu bewegen.7 Außerdem sind die Gründe für eine Befragungsteilnahme interessanter als solche, die dagegen sprechen, weil letztere leicht nachvollziehbar sind und rational erscheinen.8 Warum ein Befragter aber seine Zeit aufwendet und fremden Personen Auskunft über persönliche und eventuell auch private Angelegenheiten gibt, bleibt diffus. Als genereller Grund wird häufig eine vermeintlich konsensuale Norm zur 6 7
8
Für eine Diskussion der Rücklaufquote als Qualitätsmerkmal siehe Engel et al. (2004) In diesem Zusammenhang wird in der Literatur diskutiert, dass die Interviewer auf die konkrete Situation in der Anbahnung eines Interviews flexibel reagieren und die Teilnahmegründe in den Mittelpunkt stellen sollen, die den Befragten von einer Teilnahme überzeugen (Engel et al. 2004, S. 108). Für einen Ansatz, Befragtenverhalten als rationales Entscheidungshandeln aufzufassen vgl. Esser (1986).
3 Datengewinnung und Datenaufbereitung
45
Unterstützung und Hilfe angesprochen. Damit ist gemeint, dass die Menschen in einer Situation, in der sie einem anderen ohne besonders großen Aufwand einen Gefallen tun könnten, sie das auch tun. Dahinter steckt die Idee, dass dem Einzelnen dieser Gefallen auch erwiesen wird, wenn er darum bittet. Es geht also um den erwarteten Austausch sozialer Handlungen. Nun ist es nicht sehr wahrscheinlich, dass Befragte gleichzeitig Interviewer sind. Die Norm selber gilt aber universell und nicht bezogen auf die gleiche Handlung. Eine Betonung der bedeutsamen Hilfe des Befragten stärkt diese Norm und führt eher zur Teilnahme. Abgesehen von dieser eher allgemeinen Norm sozialen Austausches wirkt das thematische Interesse als eines der wesentlichen Motive, an Befragungen teilzunehmen. Entweder der Befragte versteht sich selber als Experte und lässt andere deshalb gern an seinem Wissen teilhaben oder das Thema erscheint ihm so bedeutsam, dass er schon immer einmal seine Meinung dazu kund tun wollte. Insbesondere in Befragungen zu aktuell-politischen Themen spielt auch die potentielle Einflussmöglichkeit auf die Verteilung der Antworten eine Rolle. Darüber hinaus geht es für einige Befragte um ganz persönliche Vorteile. Diese können, als Incentivierung angeboten, materieller Art sein oder als Kommunikationsmöglichkeit auch immaterielle Bedürfnisse befriedigen. In der Literatur werden unterschiedliche Incentives diskutiert. Dabei handelt es sich um kleine Dankeschöns, die die soziale Austauschsituation verstärken sollen. Werden diese Incentives mit dem ersten Anschreiben oder der ersten Kontaktaufnahme jedem Befragten zugestanden, dann erzeugt das beim Befragten eine höhere Verbindlichkeit, quasi im Gegenzug an der Befragung teilzunehmen, als wenn eine Belohnung in Form einer Verlosung nach der Befragungsteilnahme versprochen wird. Für die einzelnen Befragungsformen gibt es mittlerweile zahlreiche empirische Evidenz für und gegen die Wirkung von Verlosungen versus Belohnungen für jeden, Sachpreise oder Geldbeträge und kleine oder große Geldbeträge.9 Eine weit verbreitete immaterielle Incentivierung erfolgt in wissenschaftlichen Studien durch das Angebot, an den Ergebnissen der Studie direkt zu partizipieren. Für den Forscher ist es wichtig, die Gründe für die Befragungsteilnahmen in Überzeugungsstrategien zu übertragen, um den Rücklauf zu erhöhen. Gleichzeitig kann ein Übergewicht an spezifischen Interessen der Befragten zu verzerrten Daten führen. Wenn es beispielsweise um eine aktuell-politische Befragung in der gesamten Bevölkerung geht, wären die Antworten möglicherweise nicht sehr glaubwürdig, wenn nur Personen mit einem besonders starken politischen Interesse daran teilnehmen würden. Das Interview selber kann als Kommunikationssituation verstanden werden, die vom Befragten eine Reihe spezifischer kognitiver Fähigkeiten erfordert. Diese Anforderungen sind unabhängig von der konkreten Form der Befragung. Lediglich die potentiellen Unterstützungsleistungen bei fehlerhafter Kognition und Unsicherheit fallen unterschiedlich aus. In einem ersten Schritt muss der Befragte die gestellte Frage im Sinne der Operationalisierung verstehen. Danach wird er Informationen abrufen, die der Beantwortung der Frage dienen. Dabei kann es sich um Erinnerungen, Erfahrungen oder Wissensbausteine handeln. Im dritten Schritt bildet der Befragte ein Urteil über die abgespeicherten Informationen und wählt eine zur Beantwortung aus. Im letzten 9
Ein Überblick findet sich in Engel et al. (2004).
46
Manuela Pötschke
Schritt geht es darum, die eigene Antwort auf die vorgegebenen Antwortmöglichkeiten zu skalieren (Sudman et al. 1996). Alle vier Schritte sind für den Forscher von großer Bedeutung. Ist das Frageverständnis fehlerhaft, erhalten wir keine Aussagen zum interessierenden Gegenstand und die Antwort des einen Befragten ist nicht mit Antworten von anderen zu vergleichen. Im Prozess der Antwortgenerierung kann der Befragte unangemessene Erinnerungen aussuchen. Häufig gehen in diesem Schritt deshalb Informationen verloren, weil der Befragte den Suchprozess bei der ersten passenden Antwort abbricht und nicht nach weiteren alternativen Antworten sucht. Auch die Transformation auf eine vorgegebene Skala ist fehleranfällig. Je nachdem wie die Skala interpretiert wird, werden unterschiedliche Angaben wahrscheinlich. Diesen Fehlerquellen kann nur in einem ausführlichen Pretest mit spezifischen Techniken auf den Grund gegangen werden. Die Schwierigkeit besteht dann darin, einen beim Befragten zumeist unbewusst ablaufenden Prozess kommunizierbar und transparent werden zu lassen.10 Um den Befragten im kognitiven Prozess der Beantwortung von Fragebögen zu unterstützen, sollten allgemeine Regeln der Fragebogengestaltung, der Frageformulierung und der Kategorienbildung eingehalten werden. Der Fragebogen soll einen Spannungsbogen beginnend bei der ersten Frage über die zentralen inhaltlichen Themenblöcke bis hin zu den soziodemographischen Informationen am Ende schlagen. Zwischen den Themenblöcken erleichtern Übergänge als mentale Brücken für den Befragten die Beantwortung eines Fragebogens. Besondere Bedeutung kommt der Eisbrecherfrage am Anfang des Fragebogens zu. Sie greift das Thema der Befragung in allgemeiner Art auf, so dass der Befragte sogleich den inhaltlichen Bezug zwischen Anschreiben, eigenem Interesse und Fragebogen herstellen kann und sich an die Befragungssituation gewöhnt und entspannt. Diese Frage wird in der Regel noch nicht die für den Forscher relevante abhängige Variable beinhalten, aber sie gibt dem Befragten die Gelegenheit, eine erste allgemeine Meinung zum Thema abgeben zu können. Wenn wir eine Ebene tiefer im Fragebogen die eigentlichen Fragen betrachten, so können sie grundsätzlich Informationen zu Einstellungen und Meinungen, zum Wissen und Überzeugungen, zum Verhalten und zu persönlichen Eigenschaften der Befragten erheben. Die Regeln zu ihrer Formulierung (Diekmann 2007) erscheinen im ersten Zugriff zum Teil trivial. Schließlich ist es selbstverständlich, dass die gestellten Fragen möglichst einfach und kurz sein sollen. Auch dass der Forscher auf Fachbegriffe, Fremdworte und wertbesetzte Begriffe eher verzichtet und sich in korrektem Deutsch dem Sprachduktus der Befragtengruppe annähert, ist schnell überzeugend. Darüber hinaus sollen die Fragen eindimensional sein und keine doppelten Verneinungen beinhalten. Letztere führen zu Missverständnissen in der Fragebedeutung und ihre Beantwortung erfordert vom Befragten eine erhöhte kognitive Anstrengung, die gerade vermieden werden soll (Sudman et al. 1996). Fragen sollen auch nicht suggestiv sein, da sie ansonsten das Ergebnis verzerren und die Messung das beinhaltet, was der Forscher in die Frage hineinlegt. Auch wenn diese grundlegenden Regeln auf den ersten Blick sehr 10
Ein Überblick über die kognitiven Anforderungen in Interviews und Konsequenzen für die Planung empirischer Studien findet sich in Sudman et al. (1996). Ausführlich wird über diesen Aspekt auch in Häder (2006) reflektiert.
3 Datengewinnung und Datenaufbereitung
47
einfach wirken, finden sich in der Forschungspraxis doch immer wieder Verletzungen. Deshalb ist es angebracht, sie anzusprechen und in der konzeptionellen Arbeit die eigenen Fragen immer wieder mit diesen Regeln zu konfrontieren. Innerhalb der einzelnen Fragen sollen Kategorien spezifische Eigenschaften aufweisen. Sie sollen hinreichend präzise, disjunkt und erschöpfend sein. Erschöpfend bedeutet, dass das theoretisch mögliche Spektrum an Antworten abgedeckt wird. Meist wird diese Anforderung erfüllt, in dem eine „Sonstige“-Kategorie die inhaltlichen ergänzt. Disjunkt sind Kategorien, wenn sie klar abgegrenzt sind und sich nicht überschneiden. Jede theoretisch mögliche Antwort soll eindeutig nur einer Kategorie zuzuordnen sein. Je präziser sie formuliert sind, um so leichter fällt den Befragten die Entscheidung über die Kompatibilität der eigenen Antwort mit den angebotenen Kategorien. Jede Befragung ist unabhängig vom Erhebungstyp von Antwortverzerrungen betroffen. Das erste Problem in diesem Zusammenhang stellt Item Nonresponse dar. Damit ist gemeint, dass die Befragten auf eine spezifische Frage keine Antwort geben (vgl. Kapitel 6 in diesem Handbuch). Darüber hinaus gibt es das Problem der Meinungslosigkeit. Wird den Befragten eine Kategorie „weiß nicht“ angeboten, können sie eine höhere kognitive Anstrengung durch die Verwendung dieser Kategorie vermeiden. Für die inhaltliche Analyse sind diese Antworten meist nicht hilfreich. Aber auch die Antworten, die gegeben werden, sind nicht ohne Fehler. So werden bei heiklen Fragen Phänomene sozialer Erwünschtheit beobachtet. Das heißt, der Befragte gibt als Antwort nicht seine eigene Meinung an, sondern die Meinung von der er glaubt, dass sie sozial akzeptiert und anerkannt ist. Darüber hinaus sind Reaktionen auf verschiedene Aspekte der Befragungssituation wie den Interviewer, Dritte, die Reihenfolge der Fragen im Fragebogen oder Assoziationen zu Layout und Farbgestaltung problematisch, weil sie zumeist nicht entdeckt und dadurch auch nicht in die Erklärungsmodelle einbezogen werden können (Diekmann 2007). Zu Verzerrungen führen auch die vom Inhalt unabhängigen immer zustimmenden Antworten von Befragten. Diese sind jedoch als Muster zu entdecken. Die entsprechenden Fälle werden dann meist aus den Analysen ausgeschlossen. Über diese allgemeinen Chancen und Probleme von Befragungen hinaus, haben die jeweiligen Formen spezifische Vorteile und Probleme, die im Folgenden ausführlicher dargestellt werden sollen. Persönlich-Mündliches Interview Das Interview in Form eines mündlichen, persönlichen Austauschs zwischen Forscher und Befragtem galt lange Zeit als der Königsweg der Datenerhebung. Mit Bezug auf Scheuch (1973, S. 70) können wir „unter Interview als Forschungsinstrument [...] ein planmäßiges Vorgehen mit wissenschaftlicher Zielsetzung, bei dem die Versuchsperson durch eine Reihe gezielter Fragen oder mitgeteilter Stimuli zu verbalen Informationen veranlasst werden soll“ verstehen. Im systematischen Vorgehen, das zu vergleichbaren Informationen zu genau definierten Sachverhalten führt, ist der zentrale Unterschied zwischen Alltagsgesprächen und wissenschaftlichen Interviews zu sehen. Persönlichmündliche Interviews zeichnen sich nun dadurch aus, dass (meist) ein Interviewer mit (meist) je einem Befragten ein Gespräch führt und die Informationen in eine vorbereitete Datenmaske einträgt. Diese Datenmaske kann in Form eines schriftlichen
48
Manuela Pötschke
Fragebogens oder eines computergestützten Formulars (CAPI) vorliegen. Der Interviewer wirkt dabei in zweierlei Hinsichten unterstützend. Zum einen kann er motivierend wirken, wenn Befragte nicht sofort bereit sind, am Interview teilzunehmen oder wenn sie im Verlauf des Interviews ermüden. Zum anderen kann der Interviewer Unklarheiten im Fragebogen ausräumen und auf eine korrekte Befolgung der Filterführung achten. Werden die Daten aus einem persönlich-mündlichen Interview computergestützt erhoben, können Plausibilitätsprüfungen und Filterführungen automatisiert werden. Die Programmierung der Befragung erlaubt die Rotation von Frageblöcken, Fragen und Items und trägt so zur Vermeidung von Reihenfolgeeffekten bei. Die Automatisierung lässt auch komplexe Filterführungen fehlerfrei funktionieren. Die Datenübertragung erfolgt im Prozess der Erhebung automatisch in eine Datenbank, so dass die Daten sofort für Analysen zur Verfügung stehen. Übertragungsfehler werden durch die fehlende separate Dateneingabe vermieden und die Projektzeiten verkürzt. Im Vergleich zu nicht administrierten Befragungen werden in Befragungen mit Interviewern Fehler und Unstimmigkeiten im Erhebungsinstrument schneller sichtbar. Deshalb werden in der Pretestphase häufig auch dann Interviewer eingesetzt, wenn in der tatsächlichen Erhebung auf sie verzichtet wird. Neben diesen Vorteilen, die auf den Interviewer zurückzuführen sind, birgt der Einsatz von Interviewern auch Risiken in sich. Die direkte Kommunikation mit einem bestimmten Interviewer gelingt nämlich nur dann, wenn der Befragte ihn akzeptiert und ihm selbstbewusst gegenübersteht. Insbesondere bei heiklen Fragen kann die Anwesenheit des Interviewers soziale Erwünschtheiten hervorrufen, die die Datenqualität schmälern. Der Interviewer wird dann als Repräsentant der Öffentlichkeit wahrgenommen, der die vermeintlich gültige Ansicht vertritt. Ein weiteres, nicht gering zu schätzendes Risiko beim Einsatz von Interviewern besteht darin, dass sie mit Absicht falsche Angaben aufnehmen. Insbesondere wenn die Akquirierung von Befragten sehr aufwändig ist, wenn Interviews lange dauern und die Bezahlung nach absolvierten Interviews erfolgt, sind Teilund vollständige Fälschungen möglich (Diekmann 2007, S. 466 ff.). Unabhängig vom Interviewerverhalten ist die persönlich-mündliche Erhebung sehr personal- und damit kostenintensiv. Im Vergleich zu anderen Befragungsformen dauert die Feldphase deutlich länger und es entstehen durch notwendige Reisen der Interviewer zu den Befragten und deren persönlichen Einsatz meist große finanzielle Belastungen. Nicht standardisierte Erhebungen finden ebenfalls sehr häufig als mündliche Interviews statt. Der Interviewer gibt hier mehr oder weniger offene Stimuli als Anreiz für den Befragten, über ein Thema zu sprechen. Besondere Bedeutung haben das fokussierte halbstandardisierte Interview, das problemzentrierte und das narrative Interview (Diekmann 2007). Schriftliche Befragung Wenn von schriftlichen Befragungen die Rede ist, so wird zumeist auf das Verfahren abgehoben, einen Fragebogen mit einem Einladungsschreiben zur Teilnahme an der Befragung per Post an den potentiellen Befragten zu schicken. Der Befragte wird dann in der Regel gebeten, den ausgefüllten Fragebogen in einem mitgesandten und vorfrankierten Rücksendeumschlag an die Forschergruppe zu retournieren. Darüber hinaus
3 Datengewinnung und Datenaufbereitung
49
findet aber auch eine Variante, die die schriftliche Erhebung mit Interviewerunterstützung verknüpft, eine große Verbreitung. Hier werden in größeren Gruppen schriftliche Fragebögen ausgeteilt und von den Teilnehmern beantwortet. Dabei steht jeweils ein Interviewer bereit, der mögliche Fragen klären kann. Diese „Klassenzimmererhebung“ wird vor allem in der Schulforschung angewandt. Die Vorteile einer schriftlichen Befragung liegen auf der Hand. Dem Befragten bleibt individuell genügend Zeit, um in Ruhe über die Fragen nachzudenken und Antworten zu generieren.11 Durch das Fehlen eines Interviewers werden ungünstige soziale Konstellationen und eine Tendenz zu sozial erwünschten Antworten vermieden. Auch ist den Befragten die Gewährleistung der Anonymität überzeugender zu vermitteln und sie können den Befragungszeitpunkt und -ort selber bestimmen. Das führt zu einer möglicherweise höheren Bereitschaft, einen solchen Fragebogen auszufüllen, als an einem vergleichbaren persönlichen Interview teilzunehmen. Die Feldphase kann in einer schriftlichen Befragung kürzer ausfallen als in einer persönlichen Erhebung, die Kosten werden im Vergleich dazu reduziert. Allerdings sind die Generierung der Stichprobe auf der Basis von Adresslisten aus Melderegistern und der Versand sehr aufwändig. Darüber hinaus sind schriftliche Befragungen durch eine mangelnde Kontrolle der Befragungssituation durch den Forscher gekennzeichnet. Die mögliche Einflussnahme von Dritten oder die fehlende Sicherheit, dass der Fragebogen von der Zielperson ausgefüllt wird, stellen Nachteile dieser Befragungsform dar. Das Fehlen eines Interviewers vermeidet zwar Interviewereffekte, gleichzeitig werden Verständnisprobleme beim Ausfüllen des Fragebogens jedoch nicht deutlich und können sich in einer schlechten Datenqualität oder aber einer geringen Rücklaufquote niederschlagen. Der Erhöhung der Rücklaufquoten insbesondere in schriftlichen Befragungen wurde in der methodischen Forschung besonderes Augenmerk zuteil. Dillman (2000) entwarf mit seiner Tailored Design Method eine Strategie, die alle Aspekte einer Erhebung mit Blick auf ihren maximalen Effekt auf die Rücklaufquote optimiert. Besondere Bedeutung kommt demnach der Erzeugung einer Einheit von Fragebogen, Umschlägen und Erinnerungspostkarten zu. Dazu trägt insbesondere ein einheitliches und ansehnliches Design und eine hohe inhaltliche Qualität bei. Einen positiven Einfluss auf die Beteiligung der Befragten hat eine Vorab-Information über die geplante Befragung, die einige Aspekte des im Folgenden beschriebenen Anschreibens beinhalten kann. Die Funktionen des Begleitbriefes zum Fragebogen sind inhaltlicher und formaler Art. Er dient dazu, den Befragten über den Untersuchungsgegenstand und das Ziel der Erhebung aber auch die Forschergruppe oder den Auftraggeber zu informieren. Besonders wichtig ist es, deutlich zu machen, wer als Ansprechpartner bei Rückfragen zur Verfügung steht und dass dieser ohne große Hürden zu erreichen ist. Als besondere Motivation zur Teilnahme sollte eine Begründung der Forschung, die auch die Bedeutung des Themas für die Allgemeinheit oder den Befragten selber einschließen kann, gegeben werden. Wichtig sind darüber hinaus Angaben dazu, wie lange die Beantwortung des Fragebogens ungefähr dauern wird, dass die Teilnahme an einer Befragung freiwillig ist und dass die Daten anonymisiert ausgewertet und vertraulich behandelt werden. Oft sind Befragte 11
Das führt jedoch gleichzeitig dazu, dass die schriftliche Befragung für Wissensfragen nicht besonders gut geeignet ist.
50
Manuela Pötschke
darüber unsicher, wie sie in die Stichprobe gelangen konnten. Auch in dieser Frage sollte der Forscher Transparenz herstellen und den Vorgang der Stichprobenziehung allgemein verständlich darstellen. Ein gutes Anschreiben wird jedoch nur dann das Ausfüllen des Fragebogens fördern, wenn auch dieser Fragebogen von hoher Qualität ist. Das Layout des Fragebogens soll dabei die Seriosität der Forschung unterstreichen, die leichte Handhabung demonstrieren und ästhetischen Maßstäben genügen. Der Versendeumschlag sollte neben dem Anschreiben und dem Fragebogen einen vorfrankierten Rücksendeumschlag beinhalten. Darüber hinaus haben sich finanzielle Anreize als rücklauffördernd erwiesen. Sie sollten monetär sein und mit dem Fragebogenversand (prepaid) erfolgen.12 Telefonbefragung Die verbreitetste Form der Datenerhebung in der Markt- und Meinungsforschung besteht in der Durchführung von Telefonbefragungen. Hier lassen sich wie in der persönlich-mündlichen Befragung die Vorteile einer interviewer- und einer computerunterstützten Befragung (CATI) verbinden und gleichzeitig die Kosten erheblich reduzieren. Zwar entstehen Personalkosten, durch die Ortsunabhängigkeit der Befragung sind sie aber geringer als in mündlichen Interviews. Gleichzeitig kann der Interviewer wie in der persönlich-mündlichen Situation flexibel auf den Befragten eingehen und ihn bei ursprünglichem Zögern zu einer Befragungsteilnahme überzeugen. Auch während der Befragung kann der Interviewer motivierend wirken, allerdings ist ein Abbruch für den Befragten am Telefon leichter als in einer persönlichen Kommunikationssituation. Ein großer Vorteil von Telefonbefragungen besteht in der unmittelbaren Kontrolle der Datenqualität und Interviewertätigkeit. Im Gegensatz zu den anderen Befragungsformen ist es durch die Realisation in entsprechend eingerichteten Telefonstudios leicht möglich, beides durch Supervision zu beaufsichtigen und kurzfristig Einfluss zu nehmen. Bei allen Vorteilen hat die Telefonbefragung auch mit spezifischen Problemen zu kämpfen. Durch fehlende Einträge in Telefonbüchern und die verbreitete Nutzung von Mobilfunkgeräten ist die herkömmliche Stichprobenziehung zunehmend erschwert. Darüber hinaus hat der Interviewer nur sehr eingeschränkt die Möglichkeit, die Interviewsituation zu kontrollieren. Er kann nicht immer beurteilen, ob der Befragte bei der Beantwortung durch Dritte oder Nebentätigkeiten abgelenkt ist. Im Zusammenhang mit Telefonumfragen werden verschiedene Ergebnisse aus Methodenstudien berichtet. Demnach sind auch in Telefonbefragungen komplexe Fragestellungen möglich, jedoch sollten Telefonbefragungen eine dreiviertel Stunde in Bevölkerungsumfragen nicht überschreiten und es sind hier ähnlich hohe Ausschöpfungsquoten zu erreichen wie mit persönlichen Interviews (Diekmann 2007, S. 430 f.). Voraussetzung für eine erfolgreiche Befragung am Telefon ist neben der klaren und einheitlichen Strukturierung des Interviews die Anwendung spezifischer Techniken. So sollten die Antwortmöglichkeiten für den Befragten strukturiert und dadurch reduziert werden. Liegen einer Antwortskala beispielsweise eindeutige Dichotomien zugrunde, 12
Für einen Überblick über die Ergebnisse verschiedener Metastudien zur Incentivierung und anderen Determinanten der Befragungsteilnahme vgl. ausführlich Engel et al. (2004).
3 Datengewinnung und Datenaufbereitung
51
kann zuerst nach der grundsätzlichen Richtung der Antwort gefragt werden und dann eine Feinabstufung vorgenommen werden. Zum Beispiel kann eine siebenstufige Skala mit den Polen „überhaupt nicht zufrieden“ und „voll und ganz zufrieden“ im ersten Schritt in „unzufrieden“ und „zufrieden“ zerlegt werden und sich danach die Frage nach der genauen Abstufung anschließen. Dieses Vorgehen vermeidet auch die Nennung der Mittelkategorie, die ansonsten in Telefonbefragungen häufiger auftritt als in anderen Befragungsformen. Ein Grund ist auch hier in der Reduktion der kognitiven Anforderung durch den Befragten zu suchen. Eine zweite Technik besteht in der Zusammenfassung von Items in Kategorien. Diese Technik findet beispielsweise in Studien zum Informationsverhalten Anwendung. Zuerst wird der Befragte gebeten anzugeben, ob er sich über die aktuellen politischen Geschehnisse in Tageszeitungen, Magazinen, dem Fernsehen oder dem Radio informiert. Danach werden innerhalb der zutreffenden Kategorien die möglichen konkreten Zeitungen oder Sender und Sendungen abgefragt. Wenn eine Fragestellung komplex ausfällt, sollte am Ende der Frage noch einmal ein Schlüsselbegriff genannt werden, damit der Befragte weiß, worum es geht. Dieser Schlüsselreiz ist auch deshalb wichtig, weil er dem „Recency“-Effekt entgegen wirkt. Damit ist die Beobachtung gemeint, dass die zuletzt vorgelesene Antwortkategorie systematisch häufiger gewählt wird, weil sie besser erinnert wird, als die anfänglich genannten. Auch eine Beschränkung der verwendeten Skalen auf möglichst wenig Varianten und die Verwendung von Metaphern, wie beispielsweise das Bild einer Waage, einer Leiter oder eines Tachometers, erleichtern das Verständnis des Befragten. Besonders wichtig ist in Telefoninterviews die Erstansprache der Befragten. Empfohlen wird von Engel et al. (2004) die Versendung eines Anschreibens, das die Anforderungen in einer schriftlichen Befragung erfüllen muss. Dieses Vorgehen erleichtert dem Interviewer den Zugang, weil der Befragte nicht unvorbereitet auf das Interviewanliegen reagiert. Außerdem kann die Befragung dadurch unterstützt werden, dass Visualisierungen der Skalen in diesem Anschreiben beigelegt werden.13 Unabhängig davon, ob ein Anschreiben vorausgeschickt wurde oder ob die Kontaktierung kalt erfolgt, muss der Interviewer einen seriösen Eindruck erwecken und nach einer Vorstellung möglichst zügig auf das Thema der Befragung zu sprechen kommen. Vor Beginn des Interviews muss er jedoch die korrekte Zielperson identifizieren und mit ihr verbunden werden. Die folgenden ersten drei Fragen sollen den inhaltlichen Bezug für den Befragten herstellen, möglichst leicht zu beantworten sein und Ängste nehmen sowie das Interesse des Befragten anregen. Die Anforderungen an den Interviewer sind während des gesamten Interviews sehr vielfältig. Er muss ausdrucksstark und genügend laut sprechen, flüssig lesen und die Antworten korrekt protokollieren und nicht zuletzt eine angenehme Kommunikationssituation schaffen, in der er flexibel auf den Befragten eingeht. Onlinebefragungen Onlinebefragungen finden immer mehr Verbreitung. Während zu Beginn der weitreichenden Durchsetzung des Internets insbesondere Probleme bestanden, korrekte 13
In der Praxis ist die Versendung eines Vorab-Briefes schwierig zu realisieren, weil die Recherchekosten der Postadressen groß sind.
52
Manuela Pötschke
Stichproben zu verwirklichen und potentielle Befragte zu erreichen, ist heutzutage durch zwei Entwicklungen eine Verbesserung in dieser Frage zu konstatieren. Zum einen ist die Nutzung des Internets nicht mehr vor allem auf jüngere, männliche Personen beschränkt. Somit wird die Frage der Erreichbarkeit zunehmend positiv zu beantworten sein. Trotzdem bleibt es schwierig, Menschen gezielt und auf der Basis eines Stichprobenplans zur Teilnahme an Onlinebefragungen zu bewegen und anzusprechen. Wird ein Hinweis auf eine Internetbefragung im Netz abgelegt, so ist von einer Selbstselektion der Teilnehmer auszugehen. Diejenigen, die sich besonders für ein Thema interessieren, werden eher einer entsprechenden Aufforderung folgen als andere. Es ist dann von einer Verzerrung der erhaltenen Daten auszugehen. Eine viel diskutierte Lösung hier sind sogenannte Access Panels. Ein Access Panel ist ein Pool mit Adressen von Menschen, die sich grundsätzlich bereit erklärt haben, an Befragungen teilzunehmen und die durch den Panelbetreiber regelmäßig dazu eingeladen werden.14 Die Vorteile von Access Panels sind vielfältig (Engel et al. 2004). Zuerst einmal ist die Teilnahmewahrscheinlichkeit nach einer Befragungseinladung höher, da die Panelmitglieder bereits ihr prinzipielles Einverständnis gegeben haben. Darüber hinaus können spezifische thematische Befragungen mit Stammdaten verknüpft werden, die relativ unveränderliche Merkmale der befragten Personen beinhalten. Diese Stammdaten werden bei der Aufnahme in das Panel erhoben und archiviert und müssen dann nicht immer wieder nachgefragt werden. Dadurch verringern sich die Umfänge der folgenden Befragungen. Auch können Segmentierungen vor der Stichprobenziehung vorgenommen und dadurch spezifische Zielgruppen identifiziert werden. Gegen Access Panels werden die teilweise verwendeten Rekrutierungsmechanismen in das Panel und Befragte als Incentive-Jäger ins Feld geführt. Üblicherweise wird die Teilnahme an einzelnen Befragungen mit Bonuspunkten oder anderen Dankeschöns belohnt. Die Befürchtungen beziehen sich nun auf die fehlende Datenqualtität bei solchen Befragten, die sich lediglich das Incentive sichern wollen, den Fragebogen aber nicht mit der nötigen Aufmerksamkeit und Sorgfalt beantworten. Um solchen Erscheinungen entgegen zu wirken, ist die Zahl der Befragungseinladungen für jeden Probanden pro Monat beschränkt. Erfolgt die Eintragung in ein Panel als passive Rekrutierung durch den Befragten selber, ist von einer Selbstselektion der Teilnehmer auszugehen. Deshalb wird in der Literatur gefordert, dass die Panelmitglieder aktiv nach einem Stichprobenplan beispielsweise per Telefon rekrutiert werden (Engel et al. 2004). Heutzutage werden Onlinebefragungen in der Regel als Befragungen über das Internet durchgeführt. Dagegen konnten sich Befragungen per E-Mail, in Newsgroups oder Disc-by-Mail-Befragungen nicht durchsetzen. Auch wenn die Einladung zur Teilnahme an Onlinebefragungen häufig über Mail-Adress-Listen realisiert wird, beinhaltet diese Mail lediglich eine URL, die den Zugang zum Fragebogen ermöglicht. Der Fragebogen selber wird dabei vom Forscher auf einem Server abgelegt. Die Befragten suchen die entsprechende Internetseite auf und geben ihre Antworten direkt in eine Datenbank 14
Der Begriff des Panels wird hier im Sinne eines Adresspools verwendet und nicht im Sinne eines Erhebungsdesigns, das darauf zielt, Personen mehrfach zu befragen, um individuellen Wandel beurteilen zu können.
3 Datengewinnung und Datenaufbereitung
53
ein. Mit jedem Abschicken einer Seite werden die Informationen laufend aktualisiert. Somit ist es möglich, nicht nur Aussagen über Verweigerer und Abbrecher zu erhalten, sondern auch die genaue Position anzugeben, an der ein Befragter aus dem Fragebogen aussteigt. Dadurch sind differenzierte Nonresponse-Analysen möglich, die im Falle von Pretests auch zu konkreten Fragebogenverbesserungen führen können. Die Anonymität des Onlinefragebogens führt jedoch dazu, dass ein Abbruch für den Befragten nicht mit sozialen Kosten verbunden ist, weil er nicht mit einem Interviewer konfrontiert ist. Deshalb tritt er möglicherweise häufiger auf als in Telefonbefragungen oder mündlichen Interviews. Warum erfreuen sich Onlinebefragungen nun einer steigenden Beliebtheit? Die Gründe dafür sind vielfältig und schlagen sich als Vorteile für den Forscher oder den Befragten nieder. Für den Befragten ist der Zugang zum Fragebogen leicht orts- und zeitunabhängig möglich. Voraussetzung ist lediglich ein Internetzugang. Durch die Unabhängigkeit von einem Interviewer kann der Befragte die Beantwortung in vielen Fällen unterbrechen und später fortsetzen. Voraussetzung dafür ist allerdings die Erlaubnis zur Speicherung von Cookies auf dem Rechner des Befragten. Das Verfahren, die Antworten der Befragten direkt in Datenbanken zu schreiben, erlaubt es auch, dass die Befragten selber am Ende der Befragung ein Feedback über ihre eigenen Antworten und die Verteilung der Antworten der anderen Teilnehmer erhalten. Diese unmittelbare Rückbindung an Ergebnisse der Befragung ist häufig ein wichtiges Motivationselement bei der Rekrutierung von Teilnehmern. Für den Forscher bringen Onlinebefragungen neben Erleichterungen durch die automatisierte Datenerhebung (wie mit CAPI oder CATI) neue Möglichkeiten der Fragebogengestaltung mit sich. Die Integration multimedialer Elemente erweitert das Spektrum der Anwendung von Befragungen und die Anschaulichkeit einzelner Fragen wird verbessert. Darüber hinaus entfallen Kosten für Interviewer, den Fragebogendruck und Porto. Das macht die Onlinebefragung zu einer für den Forscher kostengünstigen Erhebungsvariante. Bei der Programmierung einer Online-Befragung sind allgemeine und besondere Leitlinien zu beachten. Zu den allgemeinen Anforderungen gehören neben der Beachtung der Regeln der empirischen Sozialforschung,15 die Konzeption möglichst kurzer Fragebögen auch die Realisierung eines anspruchsvollen Designs, das die Möglichkeiten des Internets aufgreift und nutzt. Spezifische Leitlinien beziehen sich auf die Beachtung der technischen Erfordernisse und Kompetenzen bei den Befragten, die Erzeugung einer glaubwürdigen Kommunikation und spezifische Frageformate. Mit der ersten Nennung ist gemeint, dass die Möglichkeiten des Internets zwar genutzt werden sollen, wenn aber vermutet werden kann, dass Befragte nur über eine langsame Internetverbindung verfügen, dann bietet sich der Einbezug von großformatigen Bildern oder Videos nicht an. Auch die digitale Kompetenz der Befragten ist zu beachten. 15
Diese Anforderung gilt natürlich für alle Befragungsformen. Sie gewannen jedoch gerade zu Beginn der Entwicklung von Onlineerhebungen in der Diskussion unter Onlineforschern eine besondere Bedeutung, weil hier nicht nur Sozialforscher zusammenkamen, die über das entsprechende Wissen verfügten, sondern vor allem Informatiker und Programmierer in Erscheinung traten. Durch die leichte Realisierbarkeit einer Befragung durch jedermann werden grundsätzliche Fragen der Erhebungs- und Instrumentenqualität deshalb in der Onlineforschung stärker diskutiert.
54
Manuela Pötschke
Der Umgang mit der Maus ist nicht für jeden selbstverständlich und nicht jedem Befragten ist die Navigierung in einem Browser geläufig. Werden Zielgruppen befragt, für die derartig Defizite vermutet werden, sind spezielle Anweisungen und Hilfen einzuplanen. Besonders hervorzuheben ist die Notwendigkeit der Erzeugung einer vertrauensvollen Kommunikation zwischen Forscher und Befragtem. Einerseits ist die Anonymisierbarkeit im Internet sehr hoch, andererseits gibt es starke Befürchtungen, entanonymisiert zu werden und zumindest den Computer identifizierbar zu machen. Gelingt es, in dieser Frage Vertrauen herzustellen, dann sind Phänomene sozialer Erwünschtheit weniger stark zu erwarten als in allen anderen Erhebungsformen. Entscheidung für eine Befragungsform Bei der Entscheidung für eine der beschriebenen Befragungsformen spielen eine Reihe von Kriterien eine Rolle. In Abhängigkeit von der Forschungsfrage und den Zielen der empirischen Studie werden diese Kriterien unterschiedlich stark gewichtet. Hierbei ist zuerst immer die Angemessenheit der Erhebungsform zur Forschungsfrage zu belegen. Soll beispielsweise die besondere Situation von Wohnungslosen untersucht werden, ist der Zugang über eine schriftliche Befragung sicher nicht erfolgreich. Es ist auch zu beachten, dass die Teilnahme an den Befragungen spezifische Kompetenzen erfordert, die möglicherweise nicht von allen Zielgruppen gleichermaßen erfüllt werden können. Darüber hinaus ist der zur Verfügung stehende Mittelrahmen das Kriterium, das zumeist die Entscheidung für eine Erhebung mit sich bringt. Dabei sind die Kosten jeweils nur im Vergleich der Erhebungsformen zu interpretieren. Wenn für die Onlinebefragung geringe Kosten angegeben werden, heißt das nicht, dass diese Erhebung „billig“ sei. Im Vergleich zu den anderen Verfahren sind jedoch weniger Mittel vonnöten. Dieser Vorteil der Onlinebefragung wird möglicherweise dadurch aufgehoben, dass es nur in besonderen Fällen möglich ist, eine Zufallstichprobe dafür zu ziehen. Wenn das nicht notwendig ist, können in Onlinebefragungen vielfältige visuelle Hilfen eingesetzt werden, die den kognitiven Prozess der Antwortgenerierung unterstützen. Mit Blick auf den Umfang einer Befragung sind mündliche Interviews im Vorteil. Für sehr komplexe und schwierige Erhebungen ist die Unterstützung durch einen Interviewer zur Sicherung der Datenqualität sinnvoll. Auch hier ist der Einsatz visueller Hilfen möglich. Das Gleiche gilt für schriftliche Befragungen, wobei hier bei vergleichsweise geringeren Kosten die Unterstützung durch den Interviewer unterbleibt. Telefonbefragungen eignen sich besonders dann, wenn ein möglichst großer Kreis der Bevölkerung in einem weit gestreuten Gebiet schnell befragt werden soll. Deshalb ist die Telefonbefragung auch das Verfahren, dass in der Markt- und Meinungsforschung am häufigsten verwendet wird. Bei der Entscheidung für oder gegen eine Befragungsform sind neben dem Potential, das eine bestimmte Erhebungsform mit sich bringt, auch die typischen Fehlerquellen und Möglichkeiten ihrer Vermeidung mit einzubeziehen (vgl. Abbildung 1). In schriftlichen oder Onlinebefragungen sind drei Fehlerquellen zu identifizieren: der Befragte, das Erhebungsinstrument und der Forscher. Der Forscher selber kann durch eine ungenaue oder fehlerhafte Formulierung der Forschungsfrage ihre Lösung in Frage stellen. Auch die Definition der Grundgesamtheit und die Stichprobenziehung bergen
3 Datengewinnung und Datenaufbereitung
55
mögliche Fehlerquellen in telefonischen und persönlich-mündlichen Befragungen
Interviewer
Befragter
Instrument
Forscher
Interviewereffekte
falsche Antworten
allgemeine methodische Fehler
Definition der Grundgesamtheit
Manipulation
Abbruch
spezifische medienbedingte Fehler
Stichprobenziehung Forschungsfrage
mögliche Fehlerquellen in schriftlichen und Onlinebefragungen
Abb. 1: Fehlerquellen nach Erhebungsform Risiken in sich. Beide sind der Forschungsfrage angemessen zu konstruieren. Das Erhebungsinstrument kann allgemeine methodische Fehler aufweisen, die durch die Missachtung der oben beschriebenen Regeln auftreten können. Darüber hinaus stellen die einzelnen Erhebungsformen spezifische Anforderungen. Der Befragte selber kann verzerrte oder falsche Antworten geben (auf ausgewählte Gründe dafür wurde oben eingegangen). In mündlichen und telefonischen Befragungen werden diese Quellen durch eine vierte, den Interviewer, ergänzt. Dabei sind die eher unbewussten Interviewereffekte von bewussten Manipulationen durch den Interviewer zu unterscheiden. Krug et al. (1999, S. 212 ff.) differenzieren die möglichen Fehlerquellen nach stichprobenbedingt und nicht-stichprobenbedingten Fehlern und führen ausführliche Strategien des Umgangs damit an. 2.2 Beobachtung Neben der Datengewinnung durch Befragungen stellen Beobachtungen ein wichtiges Erhebungsinstrument dar. Beobachtungen sind selbstverständliche und alltägliche Handlungen der Menschen. Die Notwendigkeit sozialer Einbindung erfordert eine permanente Selbstvergewisserung in Bezug auf andere Menschen und ihr Verhalten. Im Alltag werden Beobachtungssituationen nach der eigenen subjektiven Bedeutung, nach persönlichen Motiven und Präferenzen ausgewählt und zur Beschreibung eine Alltagssprache verwendet, die auch Missverständnisse und Mehrdeutigkeiten implizieren kann. Für die Wissenschaftsbeobachtung gilt die theoriegeleitete systematische Auswahl spezifischer Situationen, die für den Beobachter klar vorgegeben sind. Zielgerichtete Beobachtungen im wissenschaftlichen Kontext verwenden eine intersubjektiv nachvollziehbare Protokollsprache, die die festgelegten Kategorien und wohl definierte Ausprägungen umfasst. Die Rolle des Beobachters unterscheidet sich ebenfalls zwischen
56
Manuela Pötschke
Tab. 2: Wissenschaftliche Beobachtungsformen Kriterium
Formen
Rolle des Forschers Grad der Strukturierung Grad der Offenheit Ort der Beobachtung Beobachterperson
teilnehmend versus nicht teilnehmend strukturiert versus unstrukturiert offen versus verdeckt Labor- versus Feldbeobachtung Fremd- versus Selbstbeobachtung
Alltags- und wissenschaftlicher Beobachtung. Im Alltag ist der Beobachter zumeist selbst Handelnder und fest eingebunden in den sozialen Kontext, in wissenschaftlichen Beobachtungen kann der Beobachter unterschiedliche Rollen einnehmen, er bleibt aber auf jeden Fall immer in seiner Rolle als Beobachter und muss diese reflektieren. Die Reflexion erstreckt sich auf das eigene Tun und auf die Wahrnehmung der zu Beobachtenden von Fremden. Beobachtungsformen können nach verschiedenen Kriterien unterschieden werden (vgl. Tabelle 2). Werden die Beobachtungsformen miteinander verglichen, so zeigt sich, dass die Vorteile einer strukturierten und einer Laborbeobachtung in der Kontrolle der Beobachtungssituation und ihrer Standardisierung liegen. Dadurch werden Beobachtungen vergleichbar und es lassen sich daraus Modelle ableiten. Unstrukturierte und Feldbeobachtungen sind dann besonders geeignet, wenn der Beobachtungsgegenstand in spezifische soziale Situationen eingebettet ist, wenn der Gegenstandsbereich von außen schwer einsehbar ist oder wenn die Fragestellung eher explorativen Charakter hat. Bezieht sich die Beobachtung auf einen Gegenstand in der Kultur, zu der der Forscher selber zählt, so erleichtert ihm das den Zugang zum Feld und er wird keine Anpassungsprobleme haben. Möglicherweise ist er dann aber auch voreingenommen und befangen und übersieht dadurch wichtige Sachverhalte. Wenn das Beobachtungsfeld zu einer fremden Kultur zählt, dann ist es für den Forscher schwieriger, den Feldzugang herzustellen und die Beobachtungen korrekt zu interpretieren. Andererseits kann die Fremdheit die Entdeckung wichtiger Zusammenhänge fördern. Unabhängig von der konkreten Form ist der typische Ablauf einer Beobachtungsstudie sehr ähnlich zu einer Befragung. Auch hier basieren auf einer konkreten, theoriegeleiteten Forschungsfrage die Operationalisierung der Konstrukte und die Konzeption des Erhebungsinstruments „Beobachtungsprotokoll“. An den Pretest schließen sich die Feldphase mit der Datenerhebung und -übertragung und die Datenauswertung an. Auch die Anforderungen an das Beobachtungsschema erinnern an die Qualitätskriterien eines guten Fragebogens: Die Beobachtungskategorien sollen eindimensional, disjunkt, vollständig und konkret sein. Darüber hinaus sollten sie in ihrer Anzahl beschränkt werden, damit der Beobachter nicht überfordert wird. Die größte Herausforderung einer Beobachtung besteht in der vollständigen Wahrnehmung von Situationen und ihrer korrekten Interpretation. Dabei ist davon auszugehen, dass Beobachter immer selektiv wahrnehmen. Auch der Zugang zum Feld und die Rolle des Beobachters können Störungen hervorrufen. Fraglich bleibt der Einfluss der Beobachtung auf den Gegenstand selber. Als klassisches Phänomen tritt dieser Einfluss
3 Datengewinnung und Datenaufbereitung
57
in Schulhospitationen auf. Die Beobachtung der Mentoren führt dazu, dass der Referendar anders als üblich vorbereitet in den Unterricht geht und die Schüler möglicherweise anders auf seine didaktischen Anreize reagieren als gewöhnlich. Neben den genannten Problemen bei einer Beobachtung sind spezifische Fehlerquellen anzufügen, auf deren Vermeidung besonderes Augenmerk zu richten ist. Dabei können intersubjektive von intrasubjektiven Fehlerquellen unterschieden werden. Erstere beziehen sich auf die Interaktion zwischen Beobachter und Beobachtenden. Die intrasubjektiven Fehlerquellen zielen auf das Selbstverständnis des Beobachters und auf mögliche Rollenkonflikte in seiner Person. Eine besondere Schwierigkeit besteht dann, wenn der Beobachter sich zu stark mit der Beobachtungsgruppe identifiziert und dadurch eine unabhängige Beurteilung der Beobachtungen nicht mehr möglich ist. Dieses Phänomen ist in langen Beobachtungssequenzen zu finden und vor allem ein Problem in ethnographischen Studien. Um die angesprochenen Probleme zu neutralisieren, stehen Hilfsmittel und Handlungsanleitungen zur Verfügung. Am wichtigsten ist die Schulung von mehreren Beobachtern, die unter Verwendung eines Beobachtungsleitfadens und klaren Beobachtungskriterien die gleiche Situation parallel beobachten, wenn das Beobachtungssetting das zulässt. Ein solches Vorgehen erlaubt im Nachhinein die Berechnung von Gütemaßen, die die Reliabilität der Daten bewerten (Interbeobachterreliabilität). Beobachtet ein Forscher die gleiche Situation mehrmals (beispielsweise auf der Basis von Videoaufzeichnungen) wird von Intrabeobachterreliabilität gesprochen. Die Schulung der Beobachter und der Einsatz mehrerer Beobachter sind nicht gering zu schätzen. Nur wenn sie das Instrument genau kennen und standardisiert vorgehen können, werden eine Überforderung durch komplexe Beobachtungssituationen und damit verbundene selektive Wahrnehmungen vermieden. Neben den Beobachtern spielt der Leitfaden eine besondere Rolle. Je weniger Spielraum die Kategorien des Beobachtungsschemas dem Beobachter für Schlussfolgerungen lassen, desto höher ist die inhaltliche Gültigkeit der erhobenen Informationen. Eine parallele Erhebung mit anderen Mitteln als der Beobachtung ist gut geeignet, die Validität abzusichern. Eine analoge Operationalisierung ist jedoch nicht immer möglich.
3 Stichprobenziehung Neben der Entscheidung darüber, wie die Daten erhoben werden, muss auch die Frage beantwortet werden, wer befragt oder beobachtet werden soll. Grundsätzlich können von allen Personen einer Grundgesamtheit oder nur von einigen Personen Informationen erfasst werden. Eine Grundgesamtheit ist dabei die Gruppe, über die der Forscher inhaltliche Aussagen machen möchte. In der Wahlforschung interessiert beispielsweise, welche Parteipräferenzen die Wahlberechtigten in einem Land haben. Alle Bürger, die in der Bundesrepublik zu einem bestimmten Stichtag wahlberechtigt sind, gehören hier zur Grundgesamtheit. Eine Vollerhebung würde dann vorliegen, wenn alle Personen der Grundgesamtheit in die Studie einbezogen werden. Dieses Vorgehen scheint auf den ersten Blick am besten geeignet zu sein, weil es uns vollständige
58
Manuela Pötschke
Informationen liefern kann. Aber es ist mit Nachteilen verbunden.16 Zuerst einmal ist es sehr teuer. Wenn für jede Sonntagsfrage die gesamte Wahlbevölkerung befragt werden würde, könnte sich niemand eine solche Erhebung leisten. Darüber hinaus ist das Schätzergebnis nicht unbedingt gut. Durch die große Datenmenge, die es zu bewältigen gilt, treten zeitliche Verzögerungen auf, so dass die Ergebnisse dann vorliegen, wenn die Sachverhalte sich längst geändert haben können. In Fällen großer Grundgesamtheiten sollten die zur Verfügung stehenden Mittel deshalb besser in die Erhebung bei einer Stichprobe investiert und dort der Rücklauf optimiert werden.17 Auch wenn das Forschungsinteresse auf die gesamte Grundgesamtheit gerichtet ist, können nicht immer alle Elemente in den Stichprobenplan einbezogen werden. Personen, die sich im Ausland aufhalten oder beispielsweise in einer Anstalt leben, können zumeist nicht angesprochen werden. Die Erhebungseinheiten bilden die Auswahlgesamtheit und bestehen aus den Elementen, die für die Stichprobenziehung überhaupt in Betracht kommen.18 Zufallsstichproben stellen die Basis für die Anwendung inferenzstatistischer Verfahren dar und sie sollen in der Regel drei Eigenschaften aufweisen: Repräsentativität, Genauigkeit und Präzision. Unter Repräsentativität wird dabei verstanden, dass jedes Element einer Grundgesamtheit eine angebbare, von Null verschiedene Auswahlchance hat und sie zufällig ausgewählt werden. Damit soll erreicht werden, dass die Stichprobe ein adäquates Abbild der Grundgesamtheit gibt und in der Konsequenz von Stichprobenergebnissen auf die Gegebenheiten in der Grundgesamtheit geschlossen werden kann. Stichprobenschätzer entsprechen den Werten in der Grundgesamtheit dabei nur sehr selten, aber sie streuen, spezifischen Verteilungen folgend, um den wahren Wert, so dass eine Wahrscheinlichkeit dafür angegeben werden kann, dass der geschätzte Bereich (Konfidenzintervall) den wahren Wert enthält. Je kleiner das Intervall ausfällt, desto präziser ist die Schätzung. Repräsentativität und Präzision sind die beiden Bestandteile der Genauigkeit einer Stichprobe und der aus ihr generierten Ergebnisse. Prinzipiell lassen sich Ziehungen mit und ohne Zurücklegen unterscheiden. Werden die Elemente mit Zurücklegen gezogen, wird nach einem ersten Ziehungsvorgang die nachfolgende Ziehung wieder auf alle Elemente der Grundgesamtheit bezogen. Es ist also möglich, dass ein bereits gezogenes Element wiederum ausgewählt wird. In der Praxis wird eher ein Ziehen ohne Zurücklegen realisiert, ansonsten würden Personen, die beispielsweise an einer Telefonbefragung teilgenommen haben, erneut angerufen werden. Am wenigsten komplex sind die einfachen Zufallsauswahlen (simple random sample – SRS). Aus einer Liste mit allen Elementen der Grundgesamtheit werden beispielsweise mit Hilfe von Zufallszahlen die Elemente ausgewählt, die in die Studie eingehen. Die Realisierung einer einfachen Zufallsauswahl ist jedoch nur dann möglich, wenn eine 16
17 18
Häder (2006, S. 139) beschreibt, dass in einigen Anwendungsfällen eine Totalerhebung entfällt, weil sie sonst den Untersuchungsgegenstand z. B. bei einer Weinprobe vernichtet. Solche Fälle sind aber für sozialwissenschaftliche Fragestellungen eher selten. Einen ausführlichen Überblick liefert Kish (1995). Dieser Sachverhalt wird als undercoverage bezeichnet. Dagegen wird von overcoverage gesprochen, wenn in der Stichprobe Elemente enthalten sind, die nicht in die Zielpopulation des Forschers gehören (Groves et al. 2004).
3 Datengewinnung und Datenaufbereitung
59
vollständige Liste der Auswahlgesamtheit vorliegt. Diese Liste kann Adressen oder Telefonnummern beinhalten. Für Telefonbefragungen wurden Techniken entwickelt, die das Problem der unvollständigen Listen lösen sollen. Immer dann, wenn die Struktur der vergebenen Nummern keiner spezifischen Systematik folgt, können Telefonnummern generiert werden (random digit dialing – RDD). Für Deutschland zeigt Gabler (2004) sehr eindrücklich, dass eine unsystematische Generierung von Telefonnummern nicht zum Erfolg führt, weil sich die Struktur der Nummern unterscheidet und vor allem weil die Besetzung möglicher Nummernbereiche unterschiedlich ausfällt. Gabler & Häder (1997) haben deshalb ein Verfahren entwickelt, das auf die unterschiedliche Besetzung der einzelnen Nummernblöcke rekurriert und blockspezifische Telefonnummern erzeugt. Für persönliche Interviews werden in einem Gebiet Begehungsanweisungen für den Interviewer entwickelt. Folgt der Interviewer von einer Ausgangsadresse den Random-Route-Anweisungen, bleibt dann lediglich die Auswahl der Befragungsperson innerhalb von Haushalten. Diese Auswahl kann nach der Geburtstagsmethode erfolgen. Dabei wird derjenige befragt, der zuletzt oder als nächster Geburtstag hat. Eine andere Möglichkeit ist der Einsatz eines sogenannten Schwedenschlüssels. Dieser ist auf den Fragebogen aufgedruckt. In Abhängigkeit von der Haushaltsgröße sind hier Zufallszahlen aufgelistet. Es ist dann die Person auszuwählen, die der Zufallszahl für ein bestimmtes Kriterium entspricht (beispielsweise die Person, die als übernächste Geburtstag hat). Eine Möglichkeit, die Präzision der Stichprobenergebnisse zu erhöhen, besteht in der Ziehung geschichteter Stichproben. Hierbei wird die Grundgesamtheit nach Schichtungsmerkmalen aufgeteilt und dann innerhalb der Schichten eine Zufallsstichprobe gezogen. Schichtungsmerkmale sind beispielsweise die Zugehörigkeit zu Regionen oder Gemeindetypen. Für Unternehmensstichproben ist es üblich, auf Branchen und Beschäftigtengrößenklassen hin zu schichten. Die Schichtungsmerkmale sollten dabei möglichst hoch mit den Studienzielen korrelieren. Die Schichtung kann proportional oder disproportinal zur Schichtgröße erfolgen. Je homogener die Elemente innerhalb der Schichten und je unterschiedlicher die Schichten untereinander sind, desto stärker ist der Schichtungseffekt, der sich in einer höheren Präzision der Schätzungen niederschlägt. Die Schichtung kann auch nachträglich (Schichtung a posteriori) erfolgen, wenn die Stichprobe in den Verteilungen wesentlicher Merkmale nicht den Gegebenheiten in der Grundgesamtheit entspricht. Einfache und geschichtete Zufallsauswahlen sind sehr kostenintensiv, wenn Aussagen über große Gruppen wie die bundesdeutsche Bevölkerung abgeleitet werden sollen. In solchen Surveys wird in der Regel auf mehrstufige Zufallsauswahlen zurückgegriffen. Sie erlauben eine kostenreduzierte Erhebung, führen aber zu größeren Standardabweichungen. In mehrstufigen Auswahlen wird die Gleichsetzung von Auswahl- und Erhebungseinheiten aufgegeben und die Auswahleinheiten schrittweise verändert. Ein typisches Beispiel für dieses Vorgehen ist das sogenannte ADM-Stichproben-Design. Hier werden in einem ersten Schritt Sample Points ausgewählt, die als Flächenstichprobe generiert werden, danach werden innerhalb der Sample Points Haushalte und im dritten Schritt in den Haushalten Personen ausgewählt. Wenn im letzten Schritt keine Zufallsauswahl mehr gezogen wird, sondern alle Elemente in die Studie gelangen, spricht man von einer Klumpenauswahl. Ein typisches Beispiel dafür sind die
60
Manuela Pötschke
PISA-Daten: nach der Auswahl von Schulen und Klassen wurden alle Schüler in diesen Klassen zum Test eingeladen. Ein Stichprobenverfahren, das keine repräsentativen Schlüsse zulässt, gleichwohl in der Praxis häufig Verwendung findet, ist das Quotenverfahren. Es handelt sich dabei um eine bewusste Auswahl, die spezifisches Wissen über die Verteilung relevanter Merkmale in der Grundgesamtheit erfordert. Diese Merkmalsverteilung wird als Quote bezeichnet. Die Quotierung kann sich auf ein oder mehrere Merkmale beziehen.
4 Datenaufbereitung Unabhängig davon, ob die Daten durch den Forscher erhoben wurden oder ob auf Sekundärdaten zurückgegriffen wird, besteht der erste Schritt jeder Analyse meist in der Aufbereitung der Daten. Dazu zählen neben der Verschriftlichung, der Kodierung und Plausibilisierung, die vor allem für Primärdaten gelten, auch die Bildung neuer Variablen oder Indizes, die Gewichtung und Archivierung. 4.1 Transkription Insbesondere für die Analyse von weniger standardisierten Interviews ist eine Transkription notwendig. Transkription heißt Verschriftlichung der mündlichen Sprache. Sie erzeugt das, den folgenden Analysen zugrundeliegende Material, denn in der Datenauswertungsphase werden in der Regel nicht mehr die Interviewmitschnitte verwendet, sondern das Textmaterial.19 Im Unterschied zur bloßen Deskription des Gesprächsverlaufs ist die Transkription durch eine klare Regelhaftigkeit gekennzeichnet. Vor der Verschriftlichung werden die auszuwählenden Verhaltensmerkmale und die zugehörige Notation in einem bestimmten Format festgelegt. Dadurch ist der Prozess der Texterzeugung systematisch und kann von verschiedenen Personen realisiert werden. Wichtig ist, dass in Abhängigkeit von der Forschungsfrage lediglich das Material transkribiert wird, das später auch die Analysebasis liefern soll. Dabei muss sichergestellt werden, dass in diesem Schritt noch keine inhaltliche Vorinterpretation und dadurch auch Vorauswahl relevanten oder irrelevanten Materials erfolgt. 4.2 Kodierung Unter Kodierung kann die Übertragung empirischer Sachverhalte, die in den verschiedenen Erhebungsformen aufgenommen wurden, in Zahlen verstanden werden. Dieser Vorgang ist natürlich nur für solche Sachverhalte notwendig, die nicht bereits als Zahlen vorliegen, bezieht sich aber sowohl auf standardisierte als auch auf offene Fragen. Bei der Kodierung ist zu beachten, dass die so entstehenden numerischen Relative auch 19
Allerdings führen neue technische Entwicklungen dazu, dass die Interpretation computergestützt zunehmend auch auf der Basis von Audiofiles erfolgen kann. Dann wäre die Transkription überflüssig und eine sehr zeitaufwändige und fehleranfällige Phase im Prozess der empirischen Forschung könnte entfallen (Weischer 2007, S. 357).
3 Datengewinnung und Datenaufbereitung
61
den empirischen Relativen und damit dem Skalenniveau der Variablen entsprechen. Werden beispielsweise Informationen über die Konfessionszugehörigkeit der befragten Personen erhoben, dann stehen die möglichen Ausprägungen als gleichberechtigte Alternativen zur Verfügung. Zwischen den Kategorien kann keine Rangordnung hergestellt werden. Dafür können zwei Personen als in dieser Merkmalsausprägung gleich oder ungleich klassifiziert werden. Für die Kodierung bedeutet das, dass unerheblich ist, welche Zahlen für die entsprechenden Kategorien genutzt werden, sie müssen sich lediglich unterscheiden. Etwas anderes ist für den Fall zu entscheiden, dass die Kategorien selber eine Rangordnung implizieren. Wird beispielsweise danach gefragt, wie häufig die Person den eigenen Computer nutzt, um im Internet zu surfen, stellen die Häufigkeitsalternativen Abstufungen auf einer gedachten Skala von „nie“ bis „sehr oft“ dar. Dabei sind die Abstände zwischen den einzelnen Kategorien oft ungleich oder nicht klar definiert. Das heißt für die Kodierung, dass Zahlen verwendet werden, die den aufsteigenden oder absteigenden Charakter der Kategorien aufgreifen und wiederspiegeln. Es muss sich aber nicht um lückenlos aufeinander folgende ganze Zahlen handeln. In der Praxis haben sich einige Routinen als sinnvoll herausgestellt. Der grundlegende Gedanke dabei ist, dem Dateneingeber die Arbeit möglichst leicht zu machen und die Kodes so zu wählen, dass für die Analysen keine oder wenige weitere Umformungen notwendig sind. Zu diesen Routinen gehört, dass die Kodes beginnend bei 0 oder 1 unter Verwendung aufsteigender ganzer Zahlen für die inhaltlichen Kategorien verwendet werden. Bei dichotomen Ausprägungen kann auf die Kodes 0 und 1 zurückgegriffen werden, so dass die Daten bereits in angemessener Form für spezifische Analyseverfahren vorliegen. Neben den Kodes für die inhaltlichen Informationen sind weitere Spezialkodes vorzusehen. Zum einen sollte ein spezieller Eintrag erfolgen, wenn der Befragte eine bestimmte Frage nicht beantwortet hat. Die Fälle mit diesen sogenannten Missings werden später aus den Analysen ausgeschlossen oder die fehlenden Werte werden durch gültige Werte ersetzt (Imputation). Daneben sollten technische Werte für den Fall einer Filterführung oder Fehler bzw. Uneindeutigkeiten in der Beantwortung vorgesehen werden, die ausserhalb des gültigen Wertebereichs der inhaltlichen Bedeutungen liegen (also beispielsweise negative Zahlen). Direkt mit der Kodierung ist die Digitalisierung der Daten verbunden. Nachdem die Kodes in einem Kodeplan definiert wurden, können unterschiedliche Personen die Informationen nach den gleichen Richtlinien in digitale Datensätze eingeben. Das ist die Voraussetzung für die Nutzung moderner Datenanalysesoftware. 4.3 Plausibilisierung Nachdem ein digitaler Datensatz erzeugt wurde, müssen die Dateneingaben auf Plausibilität überprüft werden. Der einfachste Weg dazu ist die Erzeugung von Häufigkeitstabellen für alle Variablen des Datensatzes unter Einschluss der Kodes für fehlende und technisch inkorrekte Werte. Die Verteilungen werden dann daraufhin beurteilt, dass alle eingetragenen Werte im definierten Wertespektrum liegen (Häder 2006, S. 404 f.). Wenn für die Variable Geschlecht die Kodes 0 und 1 vergeben wurden, die fehlenden Informationen mit -1 gekennzeichnet sind und in der Häufigkeitstabelle der Wert 2 erscheint,
62
Manuela Pötschke
handelt es sich um einen Eingabefehler, der korrigiert werden muss. Aber auch Werte, die zwar innerhalb des theoretisch denkbaren Wertebereichs liegen, sich aber deutlich vom Schwerpunkt der Verteilung unterscheiden, sollten überprüft werden. Handelt es sich z. B. um eine Einkommensangabe von 350000 EUR pro Monat, lohnt sich der Blick in den Originalfragebogen sicherlich zur Aufdeckung eines Übertragungsfehlers. Die Werte können darüber hinaus inkonsistent ausfallen. Wenn ein Befragter auf der einen Seite sagt, dass er arbeitslos sei und andererseits nutzt er den privaten PKW für den täglichen Weg zur Arbeit, liegt eine unplausible Konstellation vor. Die Fehlerquelle kann nun in der Übertragung der Daten vom Fragebogen in den Datensatz liegen oder aber der Befragte selber hat eine der Fragen falsch beantwortet. Im letzten Fall müssen andere Fragen innerhalb des Fragebogens genutzt werden, um Klarheit über die tatsächlichen Verhältnisse zu gewinnen. Gibt es keine eindeutigen Hinweise, sollte dieser Fall aus den Analysen ausgeschlossen werden. In computergestützten Befragungen entfallen Übertragungsfehler vom papiernen Fragebogen in die Datenmatrix. Außerdem können Plausibilitätschecks programmiert werden, die eine Reihe von Inkonsistenzen vermeiden.20 4.4 Gewichtung In komplexen Stichprobenziehungen sind die Auswahlwahrscheinlichkeiten für einzelne Elemente der Population nicht immer gleich. Darüber hinaus führt die fehlende Bereitschaft zur Befragungsteilnahme bei einigen Elementen (Unit Nonresponse) möglicherweise zu Abweichungen in der Verteilung wesentlicher Merkmale der realisierten Stichprobe im Vergleich zur Population. Um diesen Sachverhalten zu begegnen, ist es üblich, Gewichte zu berechnen. In geschichteten mehrstufigen Auswahlen müssen die Auswahlquoten nicht zwingend für alle Schichten gleich ausfallen. Diesem Problem wird mit einem Designgewicht begegnet werden (Groves et al. 2004, S. 322). Darüber hinaus kann eine unterschiedliche Auswahlwahrscheinlichkeit über die Gewichtung jedes Elements mit ihrer Inversen ausgeglichen werden. Auch für den Ausgleich von Unit Nonresponse werden Gewichte diskutiert. Ihr Einsatz erfordert hier allerdings besondere Kenntnisse über relevante Merkmale aller Elemente der ursprünglichen Stichprobe und der Einsatz von Gewichten unterstellt die Annahme der Zufälligkeit der beobachteten Ausfälle.21 Das sind auch die Voraussetzungen für eine nachträgliche Gewichtung nach Schichtungsmerkmalen, deren Verteilung in der Population bekannt ist. Gewichte können multiplikativ verknüpft werden, so dass unterschiedliche Probleme in der Stichprobenrealisation gleichermaßen ausgeglichen werden können (Groves et al. 2004, S. 326–328). 4.5 Archivierung Für die Reanalyse der Daten ist es notwendig, die originalen Datensätze so aufzubereiten, dass sie einer breiteren, wissenschaftlichen Öffentlichkeit zur Verfügung gestellt 20 21
Vergleiche für eine Übersicht Groves et al. (2004, S. 319). Für eine kritische Diskussion vgl. Schnell (1997)
3 Datengewinnung und Datenaufbereitung
63
werden können. Das kann über das GESIS-Datenarchiv erfolgen. Diese Einrichtung übernimmt eine Beschreibung der Daten in einem zentralen Datenbestandskatalog und bietet die langfristige Sicherung digitaler und schriftlicher Studienmaterialien an. Darüber hinaus werden die Daten nach einem einheitlichen Standard aufbereitet und interessierten Nutzern nach vordefinierten Kriterien der Zugang dazu ermöglicht. Die vollständige Archivierung beinhaltet die Daten, die Erhebungsinstrumente und möglicherweise methodische Beschreibungen des Studiendesigns. Für die persönliche Nachvollziehbarkeit ist es darüber hinaus hilfreich, die jeweiligen Analyseprozeduren vorzuhalten und dadurch nachvollziehbar werden zu lassen.
5 Literaturempfehlungen Neben dem nach wie vor sehr empfehlenswerten Lehrbuchklassiker von Diekmann (2007) sind weitere lesenswerte Übersichten von Häder (2006), Weischer (2007) und Scholl (2003) erschienen, die jeweils unterschiedlich gewichtet einen Überblick über Datenerhebungsmethoden geben. Für die Diskussion von Survey-Stichprobenpläne ist Kish (1995) die Basis. Aktuelle Darstellungen finden sich in Groves et al. (2004). Für die Ziehung von Telefonstichproben in Deutschland ist nach wie vor das Gabler/ Häder-Design entscheidend (Gabler & Häder 1997). Einen Literaturüberblick über empirische Ergebnisse zum Teilnahmeverhalten der Befragten in unterschiedlichen Befragungsformen und zu Konsequenzen aus Stichprobenziehungen und Nonresponse auf die Datenqualität geben Engel et al. (2004).
Literaturverzeichnis Diekmann, A. (2007). Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen. Reinbek: Rowohlt, 18. Auflage. Dillman, D. A. (2000). Mail and Internet Surveys. The Tailored Design Method. New York: John Wiley. Engel, U., Pötschke, M., Schnabel, C., & Simonson, J. (2004). Nonresponse und Stichprobenqualität. Frankfurt/M.: Horizont productions. Esser, H. (1986). Über die Teilnahme an Befragungen. ZUMA-Nachrichten, 18, 38–47. Gabler, S. (2004). Gewichtungsprobleme in der Datenanalyse. Kölner Zeitschrift für Soziologie und Sozialpsychologie, Sonderheft 44, 128–147. Gabler, S. & Häder, S. (1997). Überlegungen zu einem Stichprobendesign für Telefonumfragen in Deutschland. ZUMA-Nachrichten, 41, 7–18. Groves, R. M., Fowler, F. J., Couper, M. P., Lepkowski, J. M., Singer, E., & Tourangeau, R. (2004). Survey Methodology. Hoboken: John Wiley. Häder, M. (2006). Empirische Sozialforschung. Eine Einführung. Wiesbaden: VS Verlag für Sozialwissenschaften. Kish, L. (1995). Survey Sampling. Chichester: John Wiley. Krug, W., Nourney, M., & Schmidt, J. (1999). Wirtschafts- und Sozialstatistik. Gewinnung von Daten. Oldenbourg.
64
Manuela Pötschke
Scheuch, E. K. (1973). Das Interview in der Sozialforschung. In R. König (Hg.), Handbuch der empirischen Sozialforschung, Band 2 (S. 66–190). München: DTV Deutscher Taschenbuch. Schnell, R. (1997). Nonresponse in Bevölkerungsumfragen. Ausmaß, Entwicklung und Ursachen. Opladen: Leske + Budrich. Scholl, A. (2003). Die Befragung. Konstanz: UVK Verlagsgesellschaft mbH. Sudman, S., Bradburn, N. M., & Schwarz, N. (1996). Thinking about Answers. The Application of Cognitive Processes to Survey Methodology. Hoboken: Jossey-Bass Publishers. Weischer, C. (2007). Sozialforschung. Konstanz: UVK Verlagsgesellschaft mbH.
4 Uni- und bivariate deskriptive Statistik Cornelia Weins Ruhr-Universität Bochum
Zusammenfassung. Univariate Statistiken sind Maßzahlen, die sich auf ein einziges Merkmal beziehen. Dazu zählen vor allem Maße, die die zentrale Lage einer Verteilung charakterisieren (Mittelwerte) und die Streuung der Daten beschreiben. Bivariate Maßzahlen geben den Zusammenhang zwischen zwei Merkmalen wieder. Bivariate Analysen sind die Vorstufe zu multivariaten Analyseverfahren (vgl. die weiterführenden Beiträge in diesem Handbuch), die die gleichzeitige Analyse von mehr als zwei Merkmalen erlauben. Der vorliegende Beitrag beschränkt sich auf die Beschreibung der Daten (deskriptive Statistik). Dabei kann es sich um eine Auswahl oder eine Grundgesamtheit handeln. Inferenzstatistische Methoden zielen dagegen darauf ab, mit Daten einer Zufallsstichprobe Aussagen über eine Grundgesamtheit zu treffen.
1 Univariate Statistik 1.1 Lagemaße Arithmetische Mittel Das am häufigsten verwendete Maß zur Charakterisierung der zentralen Lage einer Verteilung ist das arithmetische Mittel x ¯ . Das arithmetische Mittel ist die Summe der beobachteten Werte ( xi ), dividiert durch die Zahl der Beobachtungen (n), also n
x ¯=
xi
i=1
n
.
(1)
Für n = 3 Personen mit einem Nettoeinkommen von 1700, 1000 und 3000 Euro beträgt das arithmetische Mittel des Nettoeinkommens x ¯ = (1700 + 1000 + 3000)/3 = 5700/3 = 1900 Euro. Bei vielen Beobachtungen kann das arithmetische Mittel aus einer Häufigkeitstabelle berechnet werden. Im ALLBUS 1980 wurde die von den Befragten als ideal angesehene Kinderzahl erhoben (Tabelle 1). Die erste Spalte enthält die Ausprägung des Merkmals, hier die Zahl der Kinder. Die zweite Spalte beinhaltet die absolute Häufigkeit (frequency) mit der die Merkmalsausprägung auftritt. 52 Befragte gaben keine Kinder an, 277 Befragte ein Kind usw. Die dritte Spalte enthält relative Häufigkeiten, ausgedrückt in Prozenten. Rund 10 % der Befragten, 277/2761 · 100, gaben ein Kind an. Die vierte S. 65–89 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_4, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
66
Cornelia Weins
Tab. 1: Ideale Kinderzahl Anzahl Kinder
Häufigkeit
0 1 2 3 4 5 6 8 15
52 277 1738 552 126 10 4 1 1
Gesamt
2761
Prozent
kumulierte Prozente
1,88 % 10,03 % 62,95 % 19,99 % 4,56 % 0,36 % 0,14 % 0,04 % 0,04 %
1,88 % 11,92 % 74,86 % 94,86 % 99,42 % 99,78 % 99,93 % 99,96 % 100,00 %
100
Quelle: Kumulierter ALLBUS, 1980
Spalte enthält die kumulierten, addierten, Prozentwerte. Knapp 12 % der Befragten gaben ein Kind oder kein Kind an. Das arithmetische Mittel berechnet sich nach m
x ¯=
(xk · fk )
k=1
n
=
(0 · 52) + (1 · 277) + · · · + (15 · 1) 6010 = = 2,2 . 2761 2761
Durchschnittlich wurde 1980 von den im ALLBUS Befragten eine Zahl von 2,2 Kindern als ideal angesehen. Das arithmetische Mittel ist der Schwerpunkt der Verteilung. Die Summe aller Abweichungen vom arithmetischen Mittel, (xi − x ¯), ist null. Zudem ist die Summe der quadrierten Abweichungen vom arithmetischen Mittel, (xi − x ¯)2 , minimal. Der arithmetische Mittelwert schöpft alle vorhandenen Informationen aus. Er hat jedoch zwei Nachteile. Zum einen wird er durch extreme Werte beeinflusst, was sich vor allem in kleinen Stichproben bemerkbar macht. Der andere Nachteil besteht darin, dass die Berechnung des arithmetischen Mittelwerts mindestens intervallskalierte (metrische) Daten voraussetzt. Für eine Vielzahl sozialwissenschaftlicher Merkmale wie beispielsweise Schulabschluss oder Religionszugehörigkeit ist das arithmetische Mittel kein geeignetes Lagemaß. Median (Zentralwert) Der Median x ˜ ist der Messwert, der in der Mitte liegt, wenn die Messwerte nach der Größe aufsteigend sortiert sind. Er teilt die Verteilung in zwei Hälften: 50 % der Messwerte liegen vor, 50 % hinter dem Median (50. Perzentil). Bei einer ungeraden Zahl von Messwerten existiert ein einziger Messwert, der in der Mitte liegt, und zwar an der Stelle (n + 1)/2. Die nach der Höhe geordneten Einkommen aus dem oben angeführten Beispiel betragen 1000, 1700 und 3000 Euro (n = 3). In der Mitte der drei sortierten Messwerte liegt der zweite Messwert x(n+1)/2 = x(3+1)/2 = x2 , der Median
4 Uni- und bivariate deskriptive Statistik
67
Tab. 2: Schulabschluss
Hauptschule Mittlere Reife Fachhochschulreife Hochschulreife Gesamt
Häufigkeit
Prozent
kum. Prozente
961 660 148 452
43 30 7 20
43 73 80 100
2221
100
100
Quelle: Kumulierter ALLBUS, 2006, Westdeutsche
beträgt x2 = 1700 Euro. Bei einer geraden Zahl von Beobachtungen gibt es zwei mittlere Messwerte xn/2 und x(n/2)+1 . Nehmen wir ein weiteres Einkommen hinzu, z. B. 4000 Euro, dann liegen n = 4 Einkommen vor: 1000, 1700, 3000 und 4000 Euro. Die beiden mittleren Werte sind der zweite (xn/2 = x2 ) und der dritte (x(n/2)+1 = x3 ) Wert der Verteilung, x2 = 1700 und x3 = 3000 Euro. Es hat sich bei einer geraden Zahl von Beobachtungen eingebürgert, den Median als das arithmetische Mittel zwischen diesen beiden Werten zu berechnen: (1700 + 3000)/2 = 2350 Euro. Alternativ können auch die beiden mittleren Werte angegeben werden, was bei ordinalskalierten Daten angemessener ist. Die Berechnung des Medians setzt lediglich voraus, dass die Messwerte in eine Reihenfolge gebracht werden können. Er ist deshalb für alle Daten angemessen, die mindestens ordinalskaliert sind. Tabelle 2 enthält die Verteilung der schulischen Abschlüsse der Befragten des ALLBUS 2006. Insgesamt liegen für 2221 Personen Beobachtungen vor. Der Median ist daher der (n + 1)/2 = (2221 + 1)/2 = 1111te Messwert, wenn die Schulabschlüsse wie in der Tabelle nach der Höhe des Abschlusses sortiert sind. In die Kategorie Hauptschule (niedrigster Abschluss) fallen 961 Beobachtungen. Die Kategorien Hauptschulabschluss und Mittlere Reife umfassen zusammen (961 + 660) = 1621 Beobachtungen usw. Die 962te bis 1621te Beobachtung fallen in die Kategorie Mittlere Reife, die damit auch die 1111te Beobachtung beinhaltet. Der Median ist daher x1111 = „Mittlere Reife“. Am leichtesten lässt sich der Median aus der Spalte der kumulierten Prozentwerte ablesen. Der Median ist der Wert, an dem 50 % der Beobachtungen einen kleineren Wert haben. 50 % (letzte Spalte) werden in der Kategorie Mittlere Reife erreicht. Im Gegensatz zum arithmetischen Mittelwert wird der Median nicht durch Extremwerte beeinflusst. Der Median der drei Einkommen 1000, 1700 und 3000 Euro ist 1700 Euro. Der Median der drei Einkommen 1000, 1700 und 6300 Euro ist ebenfalls 1700. Der arithmetische Mittelwert beläuft sich in der ersten Verteilung auf 1900 Euro, in der zweiten Verteilung dagegen auf 3000 Euro. An diesem Beispiel sieht man auch, dass Distanzen der Beobachtungen zur Mitte für den Median völlig unerheblich sind, weil lediglich die Rangordnung der Beobachtungen eine Rolle spielt. In symmetrischen Verteilungen sind Median und arithmetisches Mittel identisch, wie man an der annäherend symmetrischen Verteilung der Körpergröße der im ALLBUS 2004 in Westdeutschland befragten Männer (Abbildung 1) erkennen kann
68
Cornelia Weins
arithm. Mittel = Median = 178 cm
Median 150
160
170
180
190
200
210
0
Körpergröße (in cm)
(a) symmetrisch
arithmet. Mittel 2000
4000
6000
8000
Monatliches Nettoeinkommen (in Euro)
(b) rechtsschief
Abb. 1: Symmetrische und rechtsschiefe Verteilung (˜ x=x ¯ = 178 cm). In schiefen Verteilungen wird der arithmetische Mittelwert stärker in Richtung des längeren Endes der Verteilung beeinflusst. Die Verteilung der monatlichen Nettoeinkommen der in Westdeutschland befragten Männer (rechter Teil in Abbildung 1, kumulierter ALLBUS, 2006) ist rechtsschief (linkssteil). Die Einkommensverteilung steigt zunächst (am linken Ende) steil an und fällt dann nach rechts flach ab. Das längere Ende der Verteilung ist bei den höheren Einkommen. Das arithmetische Mittel der Einkommen (gestrichelte Linie) wird durch die sehr hohen Einkommen nach oben beeinflusst, der Median (durchgezogene Linie) nicht. Die mittleren Einkommen (˜ x) sind daher niedriger als die durchschnittlichen Einkommen (¯ x). Auch die als ideal angesehene Kinderzahl (Tabelle 1) ist rechtsschief verteilt: Der Median beträgt 2, das arithmetische Mittel 2,2. In rechtsschiefen Verteilungen ist der Median daher kleiner als der arithmetische Mittelwert. Das längere Ende der Verteilung kann sich natürlich auch am linken Ende der Verteilung befinden, was empirisch jedoch seltener vorkommt. In linksschiefen (rechtssteilen) Verteilungen ist das arithmetische Mittel kleiner als der Median. Modalwert Der Modalwert ist die am häufigsten vorkommende Merkmalsausprägung. Der Modalwert der Religionszugehörigkeit ist bei westdeutschen Befragten „evangelisch“, bei ostdeutschen Befragten „keine Konfession“ (Tabelle 3). Der Modalwert lässt sich für alle Messniveaus bestimmen. Eine bimodale Verteilung ist durch zwei annähernd gleich häufig vorkommende Kategorien gekennzeichnet. In einer eingipfligen, symmetrischen Verteilung sind arithmetischer Mittelwert, Median und Modalwert identisch. 1.2 Streuungsmaße Mittelwerte sind blind gegenüber der Streuung der Daten. Das Durchschnittseinkommen in einem Staat sagt nichts darüber aus, wie weit hohe und niedrige Einkommen
4 Uni- und bivariate deskriptive Statistik
69
Tab. 3: Religionszugehörigkeit Westdeutschland
Ostdeutschland
Häufigkeit
Prozent
Häufigkeit
Prozent
905 838 56 109 377
40 37 2 5 16
284 45 15 10 765
25 4 1 1 68
2285
100
1119
100
Evangelisch/Freikirche Katholisch Andere christliche Religion Nicht christliche Religion Keine Konfession Gesamt Quelle: Kumulierter ALLBUS, 2006
voneinander entfernt sind. Bei geringer Streuung sind Mittelwerte typischer für die Verteilung als bei großer Streuung. Varianz, Standardabweichung und Variationskoeffizient Die in der Statistik gebräuchlichsten Streuungsmaße sind die Varianz s2 und die Standardabweichung s, die für intervall- und ratioskalierte Merkmale geeignet sind. Zur Berechnung der Varianz wird die Summe der quadrierten Abweichungen der beobachteten Werte vom arithmetischen Mittel ermittelt ( (xi − x ¯)2 ) und durch die Zahl der Beobachtungen n dividiert. Die Abweichungen werden quadriert, weil die Summe der einfachen Abweichungen vom arithmetischen Mittel null ist, (xi − x ¯) = 0. Durch n wird dividiert, weil die Summe der quadrierten Abweichungen mit der Fallzahl zunimmt: n (xi − x ¯)2 i=1 2 (2) s = n Das arithmetische Mittel der drei Einkommen 1700, 1000 und 3000 Euro beträgt x ¯ = 1900 Euro. Die Summe der quadrierten Abweichungen beträgt (1700 − 1900)2 + (1000 − 1900)2 + (3000 − 1900)2 = 2060000 und die Varianz damit s2 = 2060000/3 = 686666,66. Die Varianz ist nicht in der Maßeinheit des zugrunde liegenden Merkmals (hier Euro) interpretierbar, weil die Abweichungen quadriert wurden. Die Quadratwurzel aus der Varianz – die Standardabweichung – gibt die Streuung wieder in der ursprünglichen Maßeinheit an. Die Standardabweichung der drei betrachteten Einkommen beträgt 828,65 Euro. n (xi − x ¯)2 √ i=1 s = s2 = (3) n Bei annähernd normalverteilten Merkmalen liegen ca. 68 % aller Werte im Bereich von ± 1 Standardabweichung um den Mittelwert und circa 95 % der Werte im Bereich von ± 2 Standardabweichungen. Die Körpergröße der in Westdeutschland befragten
70
Cornelia Weins Median 1. Quartil
3. Quartil
Quartilabstand
25%
25%
25%
25%
Abb. 2: Quartilabstand Männer (ALLBUS 2004, n = 979) ist annähernd normal verteilt um ein arithmetisches Mittel von 178 cm mit einer Standardabweichung von 7,3 cm (Abbildung 1, S. 68). Ca. 68 % der befragten westdeutschen Männer sind zwischen 171 (178 − 7,3) und 185 (178 + 7,3) cm groß. Empirische Merkmale sind nur selten normal verteilt. Die Normalverteilung hat jedoch eine große Bedeutung für die schließende Statistik. Mittelwerte (und auch Anteilswerte) in Zufallsstichproben verteilen sich normal um den wahren Mittelwert (Anteilswert), wenn die Stichproben hinreichend groß sind (Zentrales Grenzwerttheorem). Beachtet werden muss, dass Statistik-Programme Varianz und Standardabweichung als Schätzer für die Grundgesamtheit (ˆ σ2 , σ ˆ )1 berechnen und nicht zur Beschreibung 2 der vorliegenden Daten (s , s). Varianz und Standardabweichung in einer Stichprobe unterschätzen die Varianz und Standardabweichung in der Grundgesamtheit. Aus diesem Grund wird in Statistikprogrammen durch (n − 1) und nicht durch n (Gleichung (2) und Gleichung (3)) dividiert. Bei einer großen Zahl von Beobachtungen ist der Berechnungsunterschied bedeutungslos. Merkmale mit einem höheren arithmetischen Mittel weisen in der Regel auch eine größere Standardabweichung auf. Für metrische Merkmale, deren Ausprägungen nicht negativ sind (Kühnel & Krebs 2007, S. 92), kann der Variationskoeffizient V berechnet werden, der die Standardabweichung am arithmetischen Mittel relativiert. V =
s x ¯
(4)
Er nimmt einen Wert größer 1 an, wenn die Standardabweichung größer ist als der arithmetische Mittelwert. Weil sich die Maßeinheit rauskürzt, ist der Variationskoeffizient eine dimensionslose Größe. Er eignet sich deshalb zum Vergleich der Streuung bei zwei Gruppen auch dann, wenn ein Merkmal in unterschiedlichen Maßeinheiten (z. B. Einkommen in US-Dollar und Euro) vorliegt. Für die befragten westdeutschen Männer 1
Kennwerte der Grundgesamtheit werden mit griechischen Buchstaben gekennzeichnet. σ (sprich: sigma) ist die Standardabweichung in der Grundgesamtheit, σ 2 die Varianz der Grundgesamtheit.
4 Uni- und bivariate deskriptive Statistik
71
Tab. 4: Körpergröße – 5 Punkte-Zusammenfassung
Minimum 1. Quartil Median 3. Quartil Maximum
Männer
Frauen
155 cm 173 cm 178 cm 182 cm 205 cm
140 cm 160 cm 165 cm 170 cm 187 cm
Quelle: ALLBUS 2004, westdeutsche Befragte
beträgt der Variationskoeffizient der Körpergröße V = 0,04, also 4 % des arithmetischen Mittels. In Westdeutschland befragte Frauen (n = 989) sind durchschnittlich 165 cm groß (arithmetisches Mittel) bei einer Standardabweichung von 6,3 cm. Für westdeutsche Frauen beträgt V = 0,038, also 3,8 % des arithmetischen Mittels. Spannweite, Quartilabstand und 5-Punkte-Zusammenfassung einer Verteilung Die Spannweite gibt den Abstand zwischen dem maximalen und minimalen Wert einer Verteilung an. Der größte Mann in der westdeutschen Stichprobe des ALLBUS 2004 ist 205 cm groß, der kleinste 155 cm. Die Spannweite beträgt (205 − 155) = 50 cm. Die Spannweite nutzt lediglich die beiden Werte an den Enden der Verteilung und ist daher empfindlich gegenüber Ausreißern. Die Spannweite der idealen Kinderzahl beträgt 15, ohne den Extremwert „15“ wäre die Spannweite 8. Im Gegensatz zur Spannweite ist der Quartilabstand nicht empfindlich gegenüber Ausreißern. Er gibt die Differenz zwischen dem 3. Quartil und dem 1. Quartil einer Verteilung an (vgl. Abbildung 2). Zur Bestimmung der Quartile werden die Messwerte aufsteigend sortiert und in vier gleich stark besetzte Gruppen geteilt. Jedes Quartil enthält 25 % der Messwerte. 25 % der Messwerte sind kleiner als oder gleich dem Wert des 1. Quartils, 75 % sind gleich groß oder größer. Das 2. Quartil ist der Median. Das 3. Quartil ist der Wert, an dem 75 % der Werte kleiner oder gleich groß sind und 25 % gleich groß oder größer. Die mittleren 50 % der Messwerte befinden sich zwischen dem 1. und 3. Quartil einer Verteilung. Das 1. Quartil der Körpergröße der in Westdeutschland befragten Männer liegt bei 173 cm, das 3. Quartil bei 182 cm. 25 % der Männer der westdeutschen Stichprobe sind kleiner oder gleich 173 cm, 75 % sind kleiner oder gleich 182 cm. 50 % der Männer sind zwischen 173 und 182 cm groß. Der Quartilabstand beträgt 182 − 173 = 9 cm. In einer Häufigkeitstabelle können die Quartile einfach an den kumulierten Prozentwerten abgelesen werden. Minimum, 1. Quartil, Median, 3. Quartil und Maximum werden häufig zur Charakterisierung der Lage und Breite einer Verteilung herangezogen und als 5-PunkteZusammenfassung einer Verteilung (Tuckey 1977) bezeichnet. Quartile und Quartilabstand können ab ordinalem Messniveau berechnet werden. Bei ordinalem Messniveau muss der Quartilabstand aber als Abstand von Rangplätzen interpretiert werden (Kühnel & Krebs 2007, S. 96). Für nominale Daten sind die bisher diskutierten Streuungsmaße dagegen ungeeignet.
72
Cornelia Weins
Index qualitativer Variation Nominale Streuungsmaße sind nicht sehr weit verbreitet. Die Maße, die zur Verfügung stehen – wie die Devianz (Kühnel & Krebs 2007, S. 96 ff.) oder der hier dargestellte Index qualitativer Variation (IQV) –, beruhen darauf, dass die Streuung bei nominalen Merkmalen maximal ist, wenn die einzelnen Ausprägungen eines Merkmals gleich häufig besetzt sind. Bei einem dichotomen Merkmal ist die Streuung maximal, wenn jede der beiden Kategorien 50 % der Beobachtungen beinhaltet. Die Streuung ist null, wenn alle Beobachtungen (100 %) in eine Kategorie fallen. Der Index qualitativer Variation berechnet sich nach 1− IQV =
K i=1
p2i
(K − 1)/K
,
(5)
wobei K der Anzahl der Kategorien und pi der relativen Häufigkeit der i-ten Kategorie entspricht. Sofern eine Kategorie alle Beobachtungen umfasst, pi = 1, nimmt der Index einen Wert von Null an (keine Streuung). Bei einer gleichen Verteilung über alle Kategorien pi = 1/K wird der Index 1 (maximale Streuung). Für die westdeutschen Befragten beträgt die Streuung der Religionszugehörigkeit (Tabelle 3, S. 69) IQV =
1 − (. 42 +. 372 +. 022 +. 052 +. 162 ) = 0,84 . 4/5
Für die ostdeutschen Befragten ist die Streuung der Religionszugehörigkeit viel geringer. Rund 70 % der Befragten fallen hier auf eine einzige Kategorie, nämlich „Keine Konfession“. Der Index qualitativer Variation beträgt 0,37. 1.3 Schiefe Viele Merkmale sind nicht symmetrisch, sondern schief verteilt, wie bei den Lagemaßen bereits gezeigt wurde. Rechtsschiefe Verteilungen haben eine positive Schiefe – hier ist die Differenz zwischen arithmetischem Mittel und Median positiv (¯ x−x ˜ > 0). Linksschiefe Verteilungen higehen haben eine eine negative Schiefe (¯ x−x ˜ < 0). In symmetrischen Verteilungen wie der Normalverteilung ist die Schiefe null; arithmetisches Mittel und Median fallen auf einen Punkt (¯ x−x ˜ = 0). Je weiter das arithmetische Mittel vom Median entfernt ist, umso schiefer ist eine Verteilung. Auch die Schiefe lässt sich durch eine Maßzahl ausdrücken, deren Berechnung auf der Differenz zwischen arithmetischem Mittelwert und Median beruht. In rechtsschiefen Verteilungen ist der Zähler und damit auch die Maßzahl für die Schiefe positiv, in linksschiefen Verteilungen wird der Zähler und damit die Maßzahl negativ. Schiefe =
3(¯ x−x ˜) s
(6)
Das arithmetische Mittel des monatlichen Nettoeinkommens vollzeitbeschäftigter westdeutscher Männer (n = 418) betrug 2006 x ¯ = 1935 Euro, der Median x ˜ des
4 Uni- und bivariate deskriptive Statistik
73
Tab. 5: Univariate Maßzahlen Messniveau nominal
ordinal
intervall
ratio
Modalwert Median arithmetisches Mittel
X
X X
X X X
X X X
Index qualitativer Variation Quartilabstand Varianz & Standardabweichung Variationskoeffizient
X
X (X)
X X X (X)
X X X X
X
X
Schiefe
Einkommens 1725 Euro und die Standardabweichung s = 997 Euro. Die Einkommen sind rechtsschief verteilt (¯ x>x ˜), was auch in Abbildung 1 zu sehen ist. Die Schiefe beträgt 3(1935 − 1725)/997 = 0,63. Für die Körpergröße westdeutscher Männer (ALLBUS 2004, n = 979, x ¯=x ˜ = 178 cm, s = 7,3 cm) beträgt die Schiefe 3(178 − 178)/7,3 = 0. Die Schiefe lässt sich alternativ auch aus den Einzelmesswerten berechnen (Kühnel & Krebs 2007, S. 102). Tabelle 5 gibt wieder, für welche Messniveaus die dargestellten univariaten Maßzahlen sinnvoll interpretierbar sind.
2 Bivariate Statistik Mit bivariaten statistischen Methoden wird der Zusammenhang zwischen zwei Merkmalen untersucht. Häufig wird zwischen abhängigem Merkmal (Response-Merkmal) und unabhängigem Merkmal (Prädiktor) unterschieden. Interessieren Ost-West-Unterschiede in der Einstellung zur Abtreibung, dann ist die Einstellung zur Abtreibung das abhängige Merkmal und das Erhebungsgebiet das unabhängige Merkmal. Die gemeinsame Verteilung von zwei kategorialen (in der Regel nominalen oder ordinalen) Merkmalen kann in einer Kreuztabelle dargestellt werden. In Tabelle 6 ist die gemeinsame Häufigkeitsverteilung der Einstellung zur Abtreibung („Wenn die Frau es will“) und des Erhebungsgebiets wiedergegeben (Kontingenztabelle). In der untersten Zeile befinden sich die Spaltensummen. In der Spalte ganz rechts Tab. 6: Einstellung zur Abtreibung nach Erhebungsgebiet (Häufigkeiten) Abtreibung
Westdeutschland
Ostdeutschland
Summe
nein ja
1401 747
410 676
1811 1423
Summe
2148
1086
3234
Quelle: Kumulierter ALLBUS, 2006
0
20
40
60
80 100 120 140 160
Cornelia Weins
Gewicht (in kg)
74
140
150
160
170
180
190
Größe (in cm)
Abb. 3: Streudiagramm Körpergewicht und Körpergröße befinden sich die Zeilensummen. Die Spaltensumme gibt die univariate Verteilung des Merkmals Erhebungsgebiet an. Die Zeilensumme gibt die univariate Verteilung der Einstellung zur Abtreibung an. Die Gesamtsumme findet sich in der Zelle rechts unten (3234 Beobachtungen). Es hat sich in den deutschsprachigen Sozialwissenschaften eingebürgert, das unabhängige Merkmal in den Spalten und das abhängige Merkmal in den Zeilen abzutragen. Bei zwei quantitativen (metrischen) Merkmalen kann der Zusammenhang in einem Streudiagramm wiedergegeben werden. Abbildung 3 zeigt den Zusammenhang zwischen der Körpergröße und dem Körpergewicht westdeutscher Frauen (ALLBUS 2004). Zusammenhangsmaße quantifizieren die Stärke der Beziehung zwischen zwei Merkmalen. Die Wahl eines geeigneten Zusammenhangsmaßes hängt in erster Linie vom Messniveau der Merkmale ab (Tabelle 7). Mit Ausnahme von η 2 (Gehring & Weins 2009, S. 161–165) wird dasselbe Messniveau der beteiligten Merkmale vorausgesetzt. Liegen unterschiedliche Messniveaus vor, dann muss ein Zusammenhangsmaß gewählt werden, das für das niedrigere Messniveau geeignet ist. Liegen ein ordinal skaliertes und ein nominal skaliertes Merkmal vor, dann muss ein Zusammenhangsmaß verwendet werden, das für nominale Merkmale geeignet ist. Einige Zusammenhangsmaße unterscheiden zwischen abhängigem und unabhängigem Merkmal (asymmetrische Maße). Dazu zählen die Prozentsatzdifferenz, λ (lambda), Somers d und η 2 . Der Wert des Zusammenhangsmaßes hängt bei asymmetrischen Maßen davon ab, welches der beiden Merkmale als abhängig betrachtet wird. Für die meisten Zusammenhangsmaße ist die Unterscheidung zwischen abhängigem und unabhängigem Merkmal jedoch irrelevant (symmetrische Maße). Polychorische und tetrachorische Korrelationen beruhen auf einem Schwellenwertmodell. Ihre Berechnung beruht auf der Annahme, dass die dichotom bzw. ordinal vorliegenden Merkmale grobe Messungen eines eigentlich metrischen, zugrunde liegenden Merkmals sind. Polychorische und tetrachorische Korrelationen geben den Zusammenhang zwischen den zugrunde liegenden Merkmalen an. Für 2 × 2-Tabellen
4 Uni- und bivariate deskriptive Statistik
75
Tab. 7: Bivariate Maßzahlen für Mehrfeldertabellen Merkmal 1
Merkmal 2
Zusammenhangsmaß
dichotom
dichotom
nominal
nominal
ordinal
ordinal
nominala metrisch
metrischb metrisch
Prozentsatzdifferenz, Odds-Ratio, φ (phi), Yules Q, tetrachorische Korrelation Cramérs V, Kontingenzkoeffizient C, λ (lambda) γ (gamma), tau-Maße (τb , τc ),ρ (rho), Somers d, polychorische Korrelation η 2 (eta-Quadrat) Kovarianz, Produkt-Moment-Korrelation r
a b
unabhängiges Merkmal abhängiges Merkmal
existieren verschiedene Zusammenhangsmaße. Tetrachorische Korrelationen sind ein Spezialfall polychorischer Korrelationen für zwei dichotome Merkmale. Yules Q entspricht γ (gamma) in 2 × 2-Tabellen und φ (phi) ist identisch mit Cramérs V in einer Vierfeldertafel (aufgrund unterschiedlicher Berechnungsmöglichkeiten kann φ im Gegensatz zu Cramérs V allerdings negative Vorzeichen annehmen). Eine ausführliche Darstellung von Zusammenhangsmaßen findet sich bei Benninghaus (2007). Für das Verständnis multivariater Analyseverfahren ist die Kenntnis von Odds bzw. Odds-Ratios, der Kovarianz und der Produkt-Moment-Korrelation zentral. Logarithmierte Odds werden in logistischen Regressionsmodellen als abhängige Variable verwandt. Kovarianz- und Korrelationsmatrizen (gelegentlich auch Matrizen polychorischer und tetrachorischer Korrelationen) sind der Ausgangspunkt für Strukturgleichungsmodelle und faktorenanalytische Verfahren. 2.1 Tabellenanalyse Kreuztabellen sind eine geeignete Form der Darstellung des Zusammenhangs zwischen zwei Merkmalen mit wenigen Ausprägungen. Zur Illustration wird auf das Beispiel zum Zusammenhang zwischen dem Erhebungsgebiet und der Einstellung zur Abtreibung (Tabelle 6) zurückgegriffen. Spalten-, Zeilen- und Gesamtprozente Für jede Tabelle lassen sich Zeilen-, Spalten- und Gesamtprozente berechnen. Um zu bestimmen, ob die Einstellung zum Schwangerschaftsabbruch vom Erhebungsgebiet abhängt, müssen die beobachteten Häufigkeiten spaltenweise prozentuiert werden (linke Teiltabelle in Tabelle 8). Bei spaltenweise Prozentuierung werden die Zellhäufigkeiten durch die Spaltensumme dividiert und mit 100 multipliziert. 65 % (1401/2148 · 100) der in Westdeutschland Befragten lehnen eine Abtreibung im genannten Fall ab. In Ostdeutschland lehnen 38 % (410/1086· 100) der Befragten einen Schwangerschaftsabbruch ab. Bei allen Befragten sind es 56 %.
76
Cornelia Weins
Tab. 8: Spalten-, Zeilen- und Gesamtprozente (in Klammern: Prozentuierungsbasis) Abtreibung
nein ja Gesamt
Spaltenprozente: West
Ost
65 % 35 %
Zeilenprozente:
Gesamtprozente:
Gesamt
West Ost
Gesamt
West Ost Gesamt
38 % 62 %
56 % 44 %
77 % 23 % 52 % 48 %
100 % (1811) 100 % (1423)
43 % 13 % 23 % 21 %
56 % 44 %
100 % 100 % (2148) (1086)
100 % (3234)
66 % 34 %
100 % (3234)
66 % 34 %
100 % (3234)
Quelle: Kumulierter ALLBUS, 2006
Möchte man erfahren, wie viel Prozent der Abtreibungsgegner (-befürworter) ostund westdeutsche Befragte sind, muss zeilenweise prozentuiert werden. Dazu werden die Zellenhäufigkeiten durch die Zeilensumme dividiert und mit 100 multipliziert (mittlere Teiltabelle in Tabelle 8). 77 % (1401/1811 · 100) der Gegner eines Schwangerschaftsabbruchs leben in Westdeutschland. Von den Befürwortern eines Schwangerschaftsabbruchs leben 52 % (747/1423 · 100) in Westdeutschland. In der untersten Zeile ist die Randverteilung des Erhebungsgebietes angegeben: 66 % der Befragten leben in Westdeutschland, 34 % in Ostdeutschland. Bei den Gegnern eines Schwangerschaftsabbruchs sind Westdeutsche demnach überrepräsentiert. Spalten- und Zeilenprozente geben bedingte (konditionale) Verteilungen an. Spaltenprozente sind durch die Ausprägungen des in der Spalte stehenden Merkmals bedingt. Zeilenprozente sind durch die Ausprägungen des in der Zeile stehenden Merkmals bedingt. Bei der Berechnung von Gesamtprozenten (rechte Teiltabelle in Tabelle 8) werden die Zellhäufigkeiten an der Zahl aller Beobachtungen relativiert. 43 % (1401/3234 · 100) aller Befragten sind Westdeutsche und lehnen einen Schwangerschaftsabbruch ab, 13 % sind Ostdeutsche und lehnen einen Schwangerschaftsabbruch ab. Die Randverteilungen (Gesamt) geben die univariate Verteilung der beiden Merkmale an. 66 % der Befragten wohnen in Westdeutschland, 33 % in Ostdeutschland. Insgesamt lehnen 56 % der Befragten eine Abtreibung ab, 44 % der Befragten lehnen eine Abtreibung nicht ab. Gesamtprozente werden selten berechnet. Sie werden vor allem eingesetzt, um Veränderungen zwischen zwei Zeitpunkten zu quantifizieren. Welche Prozentuierung angemessen ist, hängt von der Fragestellung und der Anordnung der beiden Merkmale in der Tabelle ab. Bei einer kausalen Hypothese, und damit einer Unterscheidung zwischen unabhängigem und abhängigem Merkmal, wird die prozentuale Verteilung des abhängigen Merkmals (Einstellung zur Abtreibung) für jede Ausprägung des unabhängigen Merkmals (Erhebungsgebiet) getrennt ermittelt. Steht das unabhängige Merkmal wie im Beispiel in den Spalten, dann muss spaltenweise prozentuiert werden. Steht das unabhängige Merkmal in den Zeilen, dann muss zeilenweise prozentuiert werden. Prozentuierung und statistische Unabhängigkeit Ost- und westdeutsche Befragte unterscheiden sich – wie man an den Spaltenprozenten ablesen kann – in ihren Einstellungen zum Schwangerschaftsabbruch (Tabelle 9).
4 Uni- und bivariate deskriptive Statistik
77
Tab. 9: Beobachtete Häufigkeiten und Spaltenprozente Abtreibung
Westdeutschland
Ostdeutschland
Gesamt
nein ja
1401 747
(65 %) (35 %)
410 676
(38 %) (62 %)
1811 1423
(56 %) (44 %)
Gesamt
2148
(100 %)
1086
(100 %)
3234
(100 %)
Quelle: Kumulierter ALLBUS 2006
Tab. 10: Erwartete Häufigkeiten und Spaltenprozente bei statistischer Unabhängigkeit Abtreibung
Westdeutschland
nein ja
1202,9 945,2
Gesamt
2148
(56 %) (44 %) (100 %)
Ostdeutschland 608,2 477,9 1086
Gesamt
(56 %) (44 %)
1811 1423
(56 %) (44 %)
(100 %)
3234
(100 %)
Quelle: Kumulierter ALLBUS 2006
Zwei Merkmale sind statistisch unabhängig, wenn die bedingten Verteilungen identisch sind. Die prozentuale Verteilung der abhängigen Variable (Einstellung zur Abtreibung) ist dann für jede Ausprägung der unabhängigen Variable (West, Ost) identisch (Tabelle 10). Die Häufigkeiten, die dem Modell statistischer Unabhängigkeit entsprechen, werden als erwartete Häufigkeiten bezeichnet. Die erwarteten Häufigkeiten lassen sich unmittelbar aus der Randverteilung berechnen: (Spaltensumme · Zeilensumme) / Gesamtsumme. Für die linke obere Zelle: (2148 · 1811)/3234 = 1202,9. Statistische Unabhängigkeit ist eine symmetrische Eigenschaft. Wenn die prozentuale Verteilung innerhalb der Spalten identisch ist, dann ist auch die prozentuale Verteilung innerhalb der Zeilen identisch, wie man durch Zeilenprozentuierung der erwarteten Häufigkeiten leicht feststellen könnte. Prozentsatzdifferenz Ein einfach zu interpretierendes Maß für den Zusammenhang in 2 × 2-Tabellen bzw. Unterschiede zwischen verschiedenen Zellen in Mehrfeldertafeln ist die Prozentsatzdifferenz. Die Prozentsatzdifferenz der Ablehnung eines Schwangerschaftsabbruchs zwischen West- und Ostdeutschen lässt sich leicht aus den beobachteten Häufigkeiten (Tabelle 6) berechnen, 410 1401 − 100 = 27 Prozentpunkte, 2148 1086 oder kann direkt aus den Prozentwerten (Tabelle 9) bestimmt werden: 65 %−38 % = 27 Prozentpunkte. Die Prozentsatzdifferenz hat einen Wertebereich von −100 bis +100. Je größer der absolute Wert, umso stärker der Zusammenhang. Die Prozentsatzdifferenz ist ein asymmetrisches Zusammenhangsmaß. Hier wurde die Einstellung zum
78
Cornelia Weins
Schwangerschaftsabbruch in Abhängigkeit vom Erhebungsgebiet betrachtet. Wird dagegen das Erhebungsgebiet als abhängiges Merkmal betrachtet (wobei eine kausale Interpretation wenig Sinn ergibt, da wohl niemand wegen seiner Einstellung zur Abtreibung den Wohnort verlagert), dann ändert sich die Prozentsatzdifferenz. Nur (410/1811) · 100 = 22,6 % der Gegner eines Schwangerschaftsabbruchs leben in Ostdeutschland, aber (676/1423) · 100 = 47,5 % der Befürworter. Die Prozentsatzdifferenz beläuft sich auf [(410/1811) − (676/1423)]100 = −25 Prozentpunkte. Odds und Odds-Ratio Für eine binäre abhängige Variable geben die Odds (Chance) die Häufigkeit des interessierenden Ereignisses (Ablehnung eines Schwangerschaftsabbruchs) zur Häufigkeit des Gegenereignisses (Befürwortung eines Schwangerschaftsabbruchs) an. Sie berechnen sich als Häufigkeit Ereignis Odds = . (7) Häufigkeit Gegenereignis Treten beide Kategorien gleich häufig auf, dann betragen die Odds 1. Die Odds haben einen Wert größer eins, wenn das interessierende Ereignis häufiger auftritt als das Gegenereignis. Sie sind kleiner 1, wenn das interessierende Ereignis seltener auftritt als das Gegenereignis. Odds haben einen Wertebereich von 0 bis +∞. Für die westdeutschen Befragten betragen die Odds der Ablehnung eines Schwangerschaftsabbruchs OddsWest =
1401 = 1,88 . 747
Die Ablehnung des Schwangerschaftsabbruches ist für westdeutsche Befragte ca. 1,9mal häufiger als die Zustimmung. Es kommen 1,9 Ablehnungen auf eine Zustimmung. Umgekehrt ist das Verhältnis von Zustimmung zu Ablehnung 1/1,9 (= 0,53). Für ostdeutsche Befragte betragen die Odds OddsOst =
410 = 0,61 . 676
Für Ostdeutsche ist die Ablehnung eines Schwangerschaftsabbruchs seltener als die Befürwortung (Odds < 1). Die Chance der Ablehnung eines Schwangerschaftsabbruchs beträgt 0,6 zu 1. Die Chancen einer Befürwortung 1/0,6 = 1,66. Odds sind keine Wahrscheinlichkeiten. Die über den Anteil geschätzte Wahrscheinlichkeit der Ablehnung eines Schwangerschaftsabbruchs bei Ostdeutschen beträgt 0,38. Die Wahrscheinlichkeit setzt die Häufigkeit der interessierenden Kategorie zu allen Beobachtungen ins Verhältnis. Die Odds geben die Häufigkeiten der interessierenden Kategorie im Verhältnis zu den Häufigkeiten der restlichen Kategorien an. Wahrscheinlichkeiten können leicht in Odds umgerechnet werden. Dazu wird die Wahrscheinlichkeit des Ereignisses p durch die Wahrscheinlichkeit des Gegenereignisses (1 − p) dividiert (Gleichung (8)). Für Ostdeutsche also 0,38/(1 − 0,38) = 0,61. Odds =
p 1−p
(8)
4 Uni- und bivariate deskriptive Statistik
79
Besteht ein Zusammenhang zwischen dem Erhebungsgebiet und der Einstellung zur Abtreibung, dann unterscheiden sich die Odds der westdeutschen Befragten von den Odds der ostdeutschen Befragten. Um zwei Odds unmittelbar miteinander zu vergleichen, wird das Verhältnis aus diesen beiden Odds, die Odds-Ratio (Chancenverhältnis), gebildet. Odds1 (9) Odds-Ratio = Odds2 Die Odds-Ratio beträgt für west- und ostdeutsche Befragte 1,88/0,61 = 3,1. Die Chance der Westdeutschen einen Schwangerschaftsabbruch abzulehnen, beträgt das dreifache der Chance der Ostdeutschen. Oder umgekehrt ausgedrückt: Die Chance der Ostdeutschen Schwangerschaftsabbrüche abzulehnen, beträgt ca. ein Drittel (1/3,1 = 0,33) der Chance für Westdeutsche. Odds-Ratios haben einen Wertebereich von 0 bis ∞. Sind die beiden konditionalen Odds identisch (kein Zusammenhang), dann nimmt die Odds-Ratio den Wert 1 an. Ein Odds-Ratio > 1 bedeutet, dass die Odds für Gruppe 1 größer sind als die Odds für Gruppe 2 (positiver Zusammenhang). Ein Odds-Ratio < 1 zeigt, dass die Odds für Gruppe 1 kleiner sind als für Gruppe 2 (negativer Zusammenhang). Je weiter der Wert von 1 entfernt ist, umso stärker ist der Zusammenhang zwischen den beiden Merkmalen. Ein Odds-Ratio von 4 gibt einen stärkeren Zusammenhang wieder als ein Odds-Ratio von 1,5. Ein Odds-Ratio von 0,25 drückt einen stärkeren Zusammenhang aus als ein Odds-Ratio von 0,4. Um die Stärke des Zusammenhangs von Odds-Ratios < 1 mit Odds-Ratios > 1 zu vergleichen, wird der Kehrwert der Odds-Ratios betrachtet, die kleiner 1 sind. Eine Odds-Ratio von 2 drückt einen gleich starken Zusammenhang aus wie eine Odds-Ratio von 0,5 (1/2), allerdings in unterschiedlicher Richtung. Dies wird deutlich, wenn man den natürlichen Logarithmus der Odds-Ratios betrachtet: ln 0,5 = −0,69 und ln 2 = +0,69. Odds-Ratios dürfen nicht als Verhältnis von Wahrscheinlichkeiten interpretiert werden. Eine Odds Ratio von 2 bedeutet nicht, dass die Wahrscheinlichkeit für ein interessierendes Ereignis bei einer Gruppe doppelt so hoch ist wie bei einer anderen Gruppe. Das Verhältnis der Anteile – (p1 /p2 ) – wird als relatives Risiko bezeichnet. Der Anteil der Gegner eines Schwangerschaftsabbruchs ist in Westdeutschland 1,7-mal (p1 /p2 = 0,65/0,38 = 1,7) höher als in Ostdeutschland. Die Odds der westdeutschen Befragten betragen dagegen das dreifache der Odds der ostdeutschen Befragten. Ein Kritikpunkt an Odds-Ratios besteht darin, dass diese nichts über die Größe der zugrunde liegenden Odds aussagen: Eine Odds-Ratio von 2 kann daraus resultieren, dass Gruppe 1 eine Odds von 0,02 und Gruppe 2 eine Odds von 0,01 hat (0,02/0,01 = 2). Die Odds für das interessierende Ereignis sind in beiden Fällen sehr gering.2 Nominalskalierte Maße: Cramérs V Prozentsatzdifferenz und Odds-Ratio sind Maße für die Stärke des Zusammenhangs in 2 × 2-Tabellen. In Mehrfeldertabellen lassen sich mehrere Odds-Ratios und Prozentsatzdifferenzen berechnen. Auch für Mehrfeldertabellen existieren Maßzahlen, die 2
Auch das relative Risiko lässt keinen Aufschluss über die Größe der zugrunde liegenden Wahrscheinlichkeiten zu.
80
Cornelia Weins
den Zusammenhang zwischen zwei Merkmalen in einer einzigen Zahl ausdrücken. Zusammenhangsmaße für nominalskalierte Merkmale haben einen Wertebereich von 0 bis 1. 0 bedeutet kein Zusammenhang, 1 einen perfekten Zusammenhang. Sie sind vorzeichenlos, weil die Ausprägungen nominalskalierter Merkmale keine Rangordnung aufweisen. Für nominalskalierte Merkmale werden vor allem χ2 -basierte Zusammenhangsmaße (Kontingenzkoeffizient C oder Cramérs V) angegeben. Cramérs V hat gegenüber dem Kontingenzkoeffizient den Vorteil, dass in allen Tabellen der Maximalwert von 1 erreicht werden kann. λ (lambda) ist kein χ2 -basiertes Zusammenhangsmaß. Es hat die in der Regel nicht erwünschte Eigenschaft, immer dann einen Wert von null anzunehmen, wenn die Modalkategorie für alle Ausprägungen der unabhängigen Variable identisch ist. λ kann also auch dann den Wert null annehmen, wenn andere nominalskalierte Zusammenhangsmaße einen Zusammenhang indizieren. χ2 (chi-Quadrat) beruht auf der Abweichung der beobachteten Häufigkeiten b von den bei statistischer Unabhängigkeit erwarteten Häufigkeiten e (vgl. Tabelle 9 und Tabelle 10) in den einzelnen Zellen (Gleichung (10)). Durch die Quadrierung werden große Abweichungen der beobachteten von den erwarteten Häufigkeiten stärker gewichtet als kleine Abweichungen. Die quadrierte Differenz in einer Zelle wird an der erwarteten Häufigkeit relativiert, weil eine absolute Abweichung bei einer kleinen erwarteten Häufigkeit bedeutender ist als bei einer großen erwarteten Häufigkeit. Die Summenzeichen geben an, dass (bij − eij )2 /eij für alle Zellen berechnet und summiert wird. i ist der Laufindex über die Zeilen (i = 1 . . . l), j der Laufindex über die Spalten (j = 1 . . . m). m l (bij − eij )2 χ2 = (10) eij i=1 j=1 Für den Zusammenhang zwischen Erhebungsgebiet und Einstellung zur Abtreibung resultiert ein χ2 -Wert von χ2 =
(1401 − 1202,9)2 (410 − 608,2)2 (747 − 945,2)2 (676 − 477,9)2 + + + = 221 . 1202,9 608,2 945,2 477,9
χ2 ist kein Maß der Stärke des Zusammenhangs, weil dessen Wert von der Fallzahl abhängt. Würde man die beobachteten Häufigkeiten in den Zellen (Tabelle 9) verdoppeln, dann würde sich auch der χ2 -Wert verdoppeln, ohne dass sich an der prozentualen Verteilung (dem Zusammenhang) etwas ändert. Cramérs V normiert den χ2 -Wert auf einen Bereich von null bis eins, indem der χ2 -Wert durch den maximal erreichbaren χ2 -Wert in einer Tabelle dividiert wird (Gleichung (11)). In einer 2 × 2-Tabelle entspricht der maximal mögliche χ2 -Wert der Fallzahl n. In Mehrfeldertabellen ist χ2max = n(R − 1), wobei R dem Minimum der Zeilen- bzw. Spaltenzahl entspricht. In einer Tabelle mit 2 Zeilen und 3 Spalten ist die Zahl der Zeilen geringer als die Zahl der Spalten – R entspricht der Zeilenzahl und ist im Beispiel gleich 2. χ2 χ2 Cramérs V = = (11) 2 χmax n · (R − 1)
4 Uni- und bivariate deskriptive Statistik
81
Tab. 11: Einstellung zur Abtreibung nach Religion – Beobachtete Häufigkeiten und Spaltenprozente Abtr.
Religion Evang./ Freik.
nein ja
541 301
kath.
(64 %) 564 (36 %) 226
(71 %) 33 (29 %) 17
andere christl. (66 %) 78 (34 %) 19
andere
keine Konfession
(80 %) 177 (20 %) 180
Gesamt
(50 %) 1393 (50 %) 743
(65 %) (35 %)
Gesamt 842 (100 %) 790 (100 %) 50 (100 %) 97 (100 %) 357 (100 %) 2136 (100 %) Quelle: Kumulierter ALLBUS, 2006. Westdeutsche Befragte.
In einer 2 × 2-Tabelle ist R= 2. Für das Beispiel beträgt 221 Cramérs V = = 0,26 . 3234 · (2 − 1) Ein Wert von 0,26 ist weit vom Maximum 1 entfernt. Allerdings sind die empirisch zu beobachtenden Werte von Cramérs V in der Regel weit von 1 entfernt. Mit Ausnahme der beiden Extremwerte 0 (kein Zusammenhang) und 1 (perfekter Zusammenhang) ist der Wert von Cramérs V nur schwer interpretierbar. In 2 × 2-Tabellen ist – wie erwähnt – Cramérs V vom Betrag identisch zu φ (vgl. zur Herleitung Kühnel & Krebs 2007, S. 336). Ein anderer Kritikpunkt ist der, dass eine einzige Maßzahl wenig über die Art des Zusammenhangs zwischen zwei nominalskalierten Merkmalen aussagt. Für den Zusammenhang zwischen der Religionszugehörigkeit und der Einstellung zur Abtreibung (Tabelle 11) beträgt Cramérs V 0,17 (χ2 : 61,99). Dieser Wert deutet auf einen schwachen Zusammenhang hin. Wie sich die Angehörigen verschiedener Religionen/Konfessionen in ihren Einstellungen unterscheiden, geht daraus nicht hervor. Dazu muss das Antwortverhalten der einzelnen Religionsgruppen miteinander verglichen werden – am einfachsten mit Hilfe der prozentualen Verteilung. Man sieht, dass katholische Befragte und Befragte einer nicht-christlichen Glaubensgemeinschaft einen Schwangerschaftsabbruch prozentual am stärksten ablehnen. Die geringste Ablehnung äußern konfessionslose Befragte. Alternativ könnte auch der χ2 -Beitrag in den einzelnen Zellen betrachtet werden. Während χ2 für die schließende Statistik (vgl. Kapitel 8 in diesem Handbuch) eine große Bedeutung zukommt, sind χ2 -basierte Zusammenhangsmaße wie Cramérs V nur insoweit von Nutzen als sie einen groben Hinweis auf die relative Stärke des Zusammenhangs geben. Ordinalskalierte Merkmale Die Ausprägungen ordinalskalierter Merkmale haben eine Rangordnung, die bei der Berechnung ordinalskalierter Zusammenhangsmaße berücksichtigt wird. Zur Illustration wird der Zusammenhang zwischen der Höhe des monatlichen Nettoeinkommens
82
Cornelia Weins
Tab. 12: Einstellung zu Sozialleistungen nach Einkommenshöhe Sozialleistungen
Nettoeinkommen niedrig
kürzen wie bisher ausweiten Gesamt
mittel
hoch
25 58 24
(23 %) (54 %) (22 %)
30 78 7
(26 %) (68 %) (6 %)
57 54 12
(46 %) (44 %) (10 %)
107
(100 %)
115
(100 %)
123
(100 %)
Quelle: Kumulierter ALLBUS, 2004. Männliche, vollzeitbeschäftigte, westdeutsche Befragte.
(niedrig, mittel, hoch) und der Einstellung zu den Ausgaben für Sozialleistungen (kürzen, wie bisher, ausweiten) bei vollzeitbeschäftigten, westdeutschen Männern im Jahr 2004 herangezogen (Tabelle 12). Die Einstellung zu Sozialleistungen misst das von den Befragten akzeptierte Ausmaß der Umverteilung durch den Staat. Man sieht, dass Bezieher niedriger Einkommen überproportional häufig für eine Ausweitung sozialstaatlicher Leistungen sind (22 %). Überproportional viele Bezieher hoher Einkommen (46 %) sprechen sich für eine Kürzung der Sozialleistungen aus. Zwischen der Höhe des Einkommens (x) und der Akzeptanz sozialstaatlicher Umverteilung (y) besteht ein negativer Zusammenhang. Negativ, weil hohe Einkommen mit einer niedrigen Akzeptanz sozialstaatlicher Umverteilung einhergehen und niedrige Einkommen mit einer hohen Akzeptanz sozialstaatlicher Umverteilung. Ein positiver Zusammenhang läge vor, wenn niedrige x-Werte mit niedrigen y-Werten und hohe x-Werte mit hohen y-Werten einhergingen. Konkordante und diskordante Paare: Die Berechnung von γ (Gamma) beruht auf Paarvergleichen. Ein Befragter in der rechten, oberen Zelle hat ein hohes Einkommen und befürwortet eine Kürzung von Sozialleistungen. Ein Befragter in der mittleren Zelle der Tabelle hat ein mittleres Einkommen und ist für gleichbleibende Sozialleistungen (wie bisher). Ein solches Paar wird als diskordant bezeichnet. Der zweite Befragte hat ein niedrigeres Einkommen als der erste Befragte, befürwortet aber in stärkerem Umfang sozialstaatliche Umverteilung. Ein Paar ist diskordant, wenn der Befragte, der auf dem einen Merkmal eine höhere Ausprägung hat, auf dem anderen Merkmal eine niedrigere Ausprägung aufweist. In diesen beiden Zellen gibt es insgesamt 57 × 78 = 4446 diskordante Paare, weil jeder Befragte aus der einen Zelle mit jedem Befragten der anderen Zelle ein Paar bildet. Alle Personen, die sich in Zellen links und unterhalb zu einer Ausgangszelle befinden, sind zu den Personen der Ausgangszelle diskordant. Diskordante Paare indizieren einen negativen Zusammenhang zwischen beiden Merkmalen. Ein Befragter aus der mittleren Zelle der Tabelle hat ein höheres Einkommen und eine höhere Akzeptanz sozialstaatlicher Umverteilung als ein Befragter in der linken, obersten Zelle (niedriges Einkommen, Kürzung von Sozialleistungen). Solche Paare werden als konkordant bezeichnet. Der Befragte, der einen höheren Wert auf dem x-Merkmal hat, hat auch einen höheren Wert auf dem y-Merkmal. In diesen beiden
4 Uni- und bivariate deskriptive Statistik
83
Tab. 13: Berechnung konkordanter und diskordanter Paare C = 25 (78 + 54 + 7 +12) +30(54 + 12) +58(7 + 12) +78(12) = 7793 Zahl konkordanter Paare
D = 57 (58 + 78 + 24 + 7) +30(58 + 24) +54(7 + 24) +78(24) = 15525 Zahl diskordanter Paare
Zellen gibt es insgesamt 78 × 25 = 1950 konkordante Paare. Alle Personen, die sich in Zellen rechts und unterhalb zu einer Ausgangszelle befinden, sind zu den Personen der Ausgangszelle konkordant, denn sie haben auf beiden Merkmalen einen höheren Wert. Die Zahl konkordanter Paare in einer Tabelle wird mit C bezeichnet, die Zahl diskordanter Paare mit D. Zur Bestimmung der Zahl konkordanter Paare wird jede Zelle einmal zur Ausgangszelle. Die Häufigkeit in jeder Zelle wird mit der Summe der Befragten, die sich in Zellen rechts und unterhalb befinden, multipliziert. Die Zahl konkordanter Paare entspricht der Summe dieser Produkte für alle Zellen. Zu den Zellen in der untersten Zeile sowie in der äußersten rechten Spalte existieren keine Zellen, die rechts und unterhalb liegen. Die Berechnung startet in der Zelle links oben und ist im linken Teil von Tabelle 13 dargestellt. Zur Bestimung der diskordanten Paare wird die Häufigkeit jeder Ausgangszelle mit der Summe der links und unterhalb liegenden Häufigkeiten multipliziert. Die Zahl diskordanter Paare entspricht der Summe der Produkte. Zu Zellen in der ganz linken Spalte und der untersten Zeile existieren keine Zellen, die links und unterhalb liegen – hier kann es also keine diskordanten Paare geben. Die Berechnung (Tabelle 13, rechter Teil) startet in der rechten oberen Zelle der Tabelle. In Tabelle 12 ist C = 7793 und D = 15525. Mehr Paare zeigen einen negativen als einen positiven Zusammenhang an. Berechnung von γ (gamma): Ist die Zahl der konkordanten Paare größer als die Zahl der diskordanten Paare (C − D > 0), dann besteht ein positiver Zusammenhang zwischen zwei Merkmalen. Ist die Zahl diskordanter Paare größer als die Zahl konkordanter Paare (C − D < 0), dann besteht ein negativer Zusammenhang. Kein Zusammenhang existiert, wenn die Zahl konkordanter Paare der Zahl diskordanter Paare entspricht. Bei einer großen Stichprobe gibt es insgesamt mehr konkordante und diskordante Paare als bei einer kleinen Stichprobe. Die Differenz C − D wird deshalb zur Zahl konkordanter und diskordanter Paare ins Verhältnis gesetzt. γ=
C −D C +D
(12)
γ beträgt für das Beispiel (7793 − 15525)/(7793 + 15525) = −0,33. γ nimmt einen Wert von −1 an, wenn es keine konkordanten Paare in einer Tabelle gibt. γ wird 1, wenn es keine diskordanten Paare gibt. |γ| kann als Maß der proportionalen Fehlerreduktion (PRE-Maß, proportional reduction in error) interpretiert werden (Benninghaus 2007, S. 170–176): Durch Kenntnis des Einkommens wird die Vorhersage der Einstellung
84
Cornelia Weins
Tab. 14: Eckenkorrelation in einer 2 x 2-Tabelle
SPD Andere
Arbeiter
kein Arbeiter
100 0
50 50
D = 0, C = 100(50) = 5000, γ = 1
zu sozialstaatlichen Leistungen um 31 % verbessert. γ zählt zu den symmetrischen Zusammenhangsmaßen. In 2 × 2-Tabellen entspricht γ Yules Q. Weil γ immer dann ± 1 wird, wenn es in der Tabelle keine diskordanten bzw. keine konkordanten Paare gibt, werden auch bei einer so genannten „Eckenkorrelation“ perfekte Zusammenhänge ausgewiesen. In einer 2 × 2-Tabelle liegt eine Eckenkorrelation bereits bei einer unbesetzten Zelle vor (Tabelle 14). Beschränkt sich eine Hypothese auf das Wahlverhalten von Arbeitern (z. B. „Arbeiter wählen SPD“), dann ist das dargestellte Ergebnis, γ = 1, erwünscht. Gemäß der Hypothese handelt es sich um einen perfekten Zusammenhang. Anders stellt sich die Situation dar, wenn die Hypothese beinhaltet, dass Arbeiter überproportional häufig SPD wählen und Nicht-Arbeiter (∼Arbeiter) überproportional häufig andere Parteien. Ein perfekter Zusammenhang im Sinne dieser Hypothese wäre nur dann gegeben, wenn ausschließlich die Diagonale besetzt wäre. In diesem Fall ist Kendalls τb ein angemesseneres Maß (siehe unten). τb beträgt für die Daten in Tabelle 14 0,58. Über die konkordanten und diskordanten Paare hinaus gibt es weitere Beziehungen zwischen Paaren in einer Kreuztabelle, die bei der Berechnung von γ jedoch nicht genutzt werden: Verknüpfungen (ties) in x, Verknüpfungen in y und Verknüpfungen in x und y. Ein Paar ist in x verknüpft, wenn es auf der x-Variablen dieselben Werte, in y aber unterschiedliche Werte aufweist. Analog liegt eine Verknüpfung in y vor, wenn dieselben Werte in y beobachtet wurden, aber unterschiedliche Werte in x. In x und y ist ein Paar schließlich verknüpft, wenn dieselben Werte in x und y vorliegen, das Paar also in einer Zelle liegt. Kendalls τ -Maße und Somers’ d unterscheiden sich nicht im Zähler von γ, dieser ist immer C − D. Im Nenner werden jedoch zusätzlich zu C und D Verknüpfungen berücksichtigt. Der Nenner ist bei diesen Maßen daher größer als bei γ. Aus diesem Grund nimmt γ systematisch größere Werte an als die τ -Maße oder Somers’ d. Nur wenn gar keine Verknüpfungen in der Tabelle vorliegen, sind die Werte identisch. Somers d ist ein asymmetrisches Zusammenhangsmaß. Im Beispiel nimmt Somers’ d (Sozialstaat als abhängiges Merkmal) einen Wert von −,195 an. τb , das für Tabellen mit gleicher Spalten- und Zeilenzahl die Extremwerte ±1 erreichen kann, ist −,21. Solange man berücksichtigt, dass γ systematisch höhere Werte annimmt als die τ -Maße und Somers’ d, spricht nichts gegen dessen Verwendung. Zudem ist der Betrag von γ (wie auch Somers’ d) als proportionale Fehlerreduktion interpretierbar.
4 Uni- und bivariate deskriptive Statistik
85
(183−165)=18
(72−69)=3
_ y
(40−69)=−29
40
Körpergewicht (in kg) 60 80 100 120
140
160
_ x
0
20
(140−165)=−25
140
150
160 170 Körpergröße (in cm)
180
190
Abb. 4: Abweichungsprodukte 2.2 Metrische Merkmale: Kovarianz und Korrelation Kovarianz und Korrelation messen den linearen Zusammenhang zwischen zwei metrischen Merkmalen. In Abbildung 3 wurde der Zusammenhang zwischen der Körpergröße x und dem Körpergewicht y westdeutscher Frauen (ALLBUS 2004) graphisch dargestellt. Auch ohne Berechnung eines Zusammenhangsmaßes erkennt man leicht, dass beide Merkmale positiv korrelieren. Große (oder besser: lange) Frauen bringen durchschnittlich mehr auf die Waage als kleine Frauen. Bei einem positiven Zusammenhang erwarten wir, dass überdurchschnittlich große Frauen auch überdurchschnittlich schwer sind und umgekehrt. Ob ein Messwert groß oder klein ist, kann nicht absolut, sondern nur relativ zu allen anderen Messwerten bestimmt werden. Die befragten westdeutschen Frauen sind durchschnittlich x ¯ = 165 cm groß und x ¯ = 69 kg schwer. Eine 175 cm große westdeutsche Frau ist 10 cm größer als der Durchschnitt ihrer im ALLBUS befragten westdeutschen Geschlechtsgenossinnen. Ein 175 cm großer Mann ist dagegen 3 cm kleiner als der Durchschnitt der in Westdeutschland befragten Männer (Abbildung 1). In der Europäischen Union sind die Portugiesen durchschnittlich am kleinsten und die Niederländer am längsten (Willenbrock 2007). Bei der Berechnung von Kovarianz und Korrelation wird berücksichtigt, wie weit die Messwerte (xi ,yi ) vom jeweiligen arithmetischen Mittel (¯ x,¯ y ) abweichen. Je größer die Abweichung von der durchschnittlichen Größe (xi − x ¯), umso größer sollte bei einem positiven Zusammenhang auch die Abweichung vom durchschnittlichen Körpergewicht (yi − y¯) sein. Zur Illustration wurden zwei Messwertpaare herausgegriffen (Abbildung 4); eine Frau wiegt 40 kg bei 140 cm Körpergröße (linker Messwert), die andere wiegt 72 kg bei 183 cm Körpergröße (rechter Messwert). Man sieht, dass die Frau im linken Bereich der Abbildung 25 cm kleiner ist als der Durchschnitt (xi − x ¯ = 140 − 165 = −25 cm) und auch deutlich weniger wiegt, nämlich 29 kg (yi − y¯ = 69 − 40 = −29 kg). Die Frau im rechten Bereich der Abbildung hat eine
86
Cornelia Weins
Tab. 15: Stärke des Zusammenhangs – Produkt-Moment-Korrelation 0,00 < |r| < 0,05 0,05 < |r| < 0,20 0,20 < |r| < 0,50 0,50 < |r| < 0,70 |r| > 0,70
kein Zusammenhang: geringer Zusammenhang: mittlerer Zusammenhang: hoher Zusammenhang: sehr hoher Zusammenhang: Angaben nach Kühnel & Krebs (2007, 404 f.)
weit überdurchschnittliche Körpergröße (183 − 165 = 18 cm), ist aber mit 72 kg nur geringfügig schwerer als der Durchschnitt (72 − 69 = 3 kg). Das Abweichungsprodukt (xi − x ¯)(yi − y¯) beträgt für die Frau im linken Bereich −25 · −29 = 725 und für die Frau im rechten Bereich der Abbildung 18 · 3 = 54. Zur Berechnung der Kovarianz werden die Abweichungsprodukte aller Beobachtungen summiert und an der Zahl der Beobachtungen n relativiert (Gleichung (13)). Die Kovarianz beträgt hier 22,13. n
covxy =
(xi − x ¯) · (yi − y¯)
i=1
(13)
n
Eine Kovarianz von null bedeutet, dass kein Zusammenhang besteht. Sie nimmt positive Werte an, wenn die Messwerte sich vor allem im linken unteren und rechten oberen Quadranten befinden, weil die Abweichungsprodukte in diesen Quadranten positiv sind. Mit zunehmendem x steigt auch y. Sie nimmt negative Werte an, wenn die Messwerte sich vorwiegend im linken oberen und rechten unteren Quadranten befinden (negative Abweichungsprodukte). Je größer x, umso kleiner wird dann y. Der Betrag der Kovarianz kann maximal so groß wie das Produkt der Standardabweichungen der beiden Merkmale werden (|covxy | ≤ sx · sy ). Im Beispiel ist sx · sy = 6,345 · 14,164 = 89,87. Auch bei der Berechnung der Kovarianz muss darauf geachtet werden, dass StatistikProgramme durch (n − 1) dividieren, weil diese die Kovarianz in der Grundgesamtheit schätzen. Die Kovarianz ist maßstabsabhängig. Wäre die Körpergröße in Metern statt in Zentimetern gemessen, würde die Kovarianz um den Faktor 100 auf 0,2213 „schrumpfen“, ohne dass sich an der Stärke des Zusammenhangs etwas geändert hätte. Die ProduktMoment-Korrelation r (auch: Pearsons r) normiert den Zusammenhang zwischen zwei metrischen Merkmalen auf einen Wertebereich von −1 bis +1, indem die Kovarianz durch das Produkt der Standardabweichungen der beiden Merkmale (das Maximum der Kovarianz) dividiert wird (Gleichung (14)). n
covxy r= = n sx · sy
n
(xi −¯ x)·(yi −¯ y)
i=1
n (xi −¯ x)2
i=1
n
·
n
= (yi −¯ y )2
i=1
n
(xi − x ¯) · (yi − y¯)
i=1 n
i=1
2
(xi − x ¯) ·
n i=1
(14) (yi − y¯)
2
87
ƒ(x)
ƒ(x)
4 Uni- und bivariate deskriptive Statistik
x
x
(b) r = −0,999
ƒ(x)
ƒ(x)
(a) r = 0,999
x
(c) r = 0,65
x
(d) r = 0
Abb. 5: Unterschiedlich hohe Korrelationen (Gehring & Weins 2009, S. 174) Die Standardabweichung der Körpergröße beträgt 6,345 cm, die Standardabweichung des Gewichts 14,164 kg. Die Korrelation zwischen beiden Merkmalen beträgt daher covxy /(sx · sy ) = 22,13/(6,345 · 14,164) ≈ 0,25. Nach Kühnel & Krebs (2007, S. 404 f.) lässt sich in diesem Fall von einem geringen bis mittleren Zusammenhang sprechen (Tabelle 15). Bei Individualdaten treten Werte über 0,7 eher selten auf. Bei Aggregatdaten fallen die Korrelationen wegen des Aggregationseffekts dagegen regelmäßig höher aus. r2 ist wie γ ein PRE-Maß und lässt sich daher anschaulich prozentual interpretieren: 0,252 = 0,0625 ≈ 6 % der Unterschiede im Körpergewicht lassen sich durch Unterschiede in der Körpergröße erklären. Andere Erklärungsfaktoren scheinen weitaus bedeutsamer. Unterschiedlich hohe Korrelationen sind in Abbildung 5 graphisch dargestellt. r = ±1, wenn ein perfekter linearer Zusammenhang zwischen beiden Merkmalen vorliegt. Alle Beobachtungen befinden sich dann auf einer Geraden. Ist r = 0, dann heißt dies, dass ein linearer Zusammenhang zwischen den beiden Merkmalen nicht vorhanden ist. In der rechten, unteren Abbildung besteht kein Zusammenhang zwischen beiden Merkmalen. Beachtet werden muss, dass r = 0 auch bei nichtlinearen Zusammenhängen (z. B. einer u-förmigen Beziehung) auftreten kann. Kovarianz und Produkt-Moment-Korrelation sind symmetrische Maße.
88
Cornelia Weins
Die Produkt-Moment-Korrelation wird sehr häufig zur Berechnung von Zusammenhängen zwischen Merkmalen verwendet, die im Ratingformat erhoben wurden. Bei Ratingskalen können die Befragten eine Aussage in abgestufter Form bewerten. Die Berechnung von Produkt-Moment-Korrelationen ist dann gerechtfertigt, wenn unterstellt werden kann, dass die Befragten die Abstände zwischen den benachbarten Skalenpunkten als gleich groß wahrnehmen (Messung auf Intervallskalenniveau). Diese Annahme lässt sich prüfen (Rost 2004).
3 Ausblick Das Interesse bei der Analyse von Daten allgemeiner Bevölkerungsumfragen besteht darin, Aussagen über die Bevölkerung (Grundgesamtheit) zu treffen (vgl. Kapitel 8 in diesem Handbuch). Dabei müssen zwei Dinge Beachtung finden, die in der deskriptiven Statistik keine Rolle spielen. In der Regel handelt es sich nicht um reine Zufallsstichproben (simple random samples). Im ALLBUS haben ostdeutsche Befragte beispielsweise eine höhere Auswahlwahrscheinlichkeit als westdeutsche Befragte. Ostdeutsche Befragte sind in den ALLBUS-Stichproben im Vergleich zur Grundgesamtheit deshalb überrepräsentiert. Bei der gemeinsamen Analyse ost- und westdeutscher Befragter müssen die ungleichen Auswahlwahrscheinlichkeiten wieder rückgängig gemacht werden, um korrekte Punktschätzer für die Grundgesamtheit zu erhalten (Kohler 2006). Das Nettoeinkommen aller Befragten im ALLBUS unterschätzt beispielsweise das Einkommen in der bundesdeutschen Bevölkerung, weil Ostdeutsche im Datensatz überrepräsentiert sind und in Ostdeutschland niedrigere Nettoeinkommen realisiert werden. Zielt eine Analyse auf die Grundgesamtheit, dann müssen zudem Verzerrungen durch Befragungs- und Antwortverweigerung berücksichtigt werden. Bei den hier analysierten Angaben zum Nettoeinkommen ist die Antwortverweigerung besonders hoch. Sind die Ausfälle nicht rein zufällig (nicht missing completely at random), dann führt die gängige Praxis des listenweisen Fallausschlusses (listwise deletion) zu verzerrten Punktschätzern. Inzwischen existieren jedoch eine Reihe von Verfahren zum Umgang mit fehlenden Werten bei der Datenanalyse, die weniger restriktive Anforderungen an den Ausfallmechanismus stellen, weil alle beobachteten Informationen genutzt werden (vgl. Kapitel 6 in diesem Handbuch).
4 Literaturempfehlungen Die behandelten Maßzahlen sind grundlegend und werden daher in allen einschlägigen Statistik-Lehrbüchern für Sozialwissenschaftler diskutiert. Eine sehr ausführliche Darstellung bieten Benninghaus (2007) und Kühnel & Krebs (2007).
Literaturverzeichnis Benninghaus, H. (2007). Deskriptive Statistik. Eine Einführung für Sozialwissenschaftler. Wiesbaden: VS Verlag für Sozialwissenschaften, 11. Auflage.
4 Uni- und bivariate deskriptive Statistik
89
Gehring, U. & Weins, C. (2009). Grundkurs Statistik für Politologen und Soziologen. Wiesbaden: VS Verlag für Sozialwissenschaften, 5. Auflage. Kohler, U. (2006). Schätzer für komplexe Stichproben. In J. Behnke, T. Gschwend, D. Schindler, & K.-U. Schnapp (Hg.), Methoden der Politikwissenschaft (S. 309–320). BadenBaden: Nomos. Kühnel, S.-M. & Krebs, D. (2007). Statistik für die Sozialwissenschaften. Grundlagen, Methoden, Anwendungen. Reinbek: Rowohlt, 4. Auflage. Rost, J. (2004). Lehrbuch Testtheorie – Testkonstruktion. Bern: Huber, 2. Auflage. Tuckey, J. W. (1977). Exploratory Data Analysis. Reading: Addison Wesley. Willenbrock, H. (2007). Was uns groß macht. GEO, 2007 (4), 168–178.
5 Graphische Datenexploration Horst Degen Heinrich-Heine-Universität Düsseldorf
Zusammenfassung. Zwecks Informationsvisualisierung werden in diesem Kapitel Verfahren der graphischen Aufbereitung zur Analyse von statistischen Daten vorgestellt. Dabei handelt es sich durchaus auch um herkömmliche einfache Präsentationsdiagrammtypen wie Stab-, Rechteck- und Zeitreihendiagramme. In erster Linie liegt das Augenmerk jedoch bei den univariaten Verfahren auf speziellen Analyse-Diagrammtypen wie Boxplot, Histogramm und Probability-Plot. Für bivariates Datenmaterial wird als typische Diagrammform das Streudiagamm, für multivariates Datenmaterial die Streudiagramm-Matrix vorgestellt. Auf eine Besprechung spezieller Diagrammtypen, die ausschließlich im Zusammenhang mit bestimmten statistischen Methoden Verwendung finden (wie z. B. das Dendrogramm als Ergebnisgraphik einer Clusteranalyse), wird hier verzichtet, weil an anderer Stelle dieses Buches darauf eingegangen wird. Dies gilt ebenfalls für dimensionsreduzierende graphische Verfahren. Zu allen behandelten Diagrammtypen (mit Ausnahme des Beispiels zur Zeitreihe) werden aus den ALLBUS-Daten 1980–2006 Beispiele gezeigt, Vor- und Nachteile der Diagrammtypen bei der Verwendung zur graphischen Datenexploration diskutiert und Hinweise zur sachgemäßen Interpretation gegeben. Exploration bedeutet im Zusammenhang mit graphischen Darstellungen, dass die benutzten Diagramme es ermöglichen, die Besonderheiten eines zugrunde liegenden Datensatzes aufzudecken. Dabei geht es z. B. um die Visualisierung des Datenzentrums, um das Erkennen statistischer Ausreißer, um die Markierung des wesentlichen Streuungsbereichs und um die Aufdeckung von Beziehungen zwischen den Datensätzen. Eine wichtige Anwendung der graphischen Datenexploration ist auch die Überprüfung, ob eine empirische Häufigkeitsverteilung durch einen bestimmten theoretischen Verteilungstyp (z. B. eine Normalverteilung) modellhaft angenähert werden kann. Es wird – im Hinblick auf den Handbuchcharakter dieses Buches – auf eine Vielzahl an „exotischen“ graphischen Explorationstechniken verzichtet zugunsten der Konzentration auf in der Praxis häufiger angewendete Methoden und auf Verfahren, die allgemein leicht zugänglich sind, d. h. im Softwarepaket SPSS als Prozedur zur Verfügung stehen.
1 Einführung Die Kapitelüberschrift spricht beim Leser möglicherweise zwei unterschiedliche Aspekte im Umgang mit statistischen Diagrammen an: einerseits die graphische Präsentation von Daten in Form von statistischen Schaubildern (z. B. Abels & Degen 1981), andererseits die Analyse von Daten mittels graphischer statistischer Methoden (z. B. Jambu 1992). In diesem Kapitel soll der zweite Aspekt, die Datenanalyse, im Mittelpunkt S. 91–116 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_5, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
92
Horst Degen
stehen. Jedoch lassen sich die beiden Verwendungszwecke statistischer Diagramme nicht völlig voneinander trennen. Auch Präsentationsdiagramme erlauben bis zu einem gewissen Grad einen detektivischen Blick auf das Datenmaterial, während explorative graphische Instrumente ausdrücklich geschaffen sind für die analytische Visualisierung der Daten. Es lohnt sich daher, hinsichtlich beider Anwendungsbereiche einen kurzen Blick auf ihre historischen Wurzeln zu werfen. Statistische Schaubilder zur übersichtlichen Darstellung von Datenmaterial haben gegenüber tabellarischen Beschreibungen (und oft auch gegenüber der Angabe charakteristischer Kenngrößen in Form von deskriptiven Maßzahlen) immer schon die Vorteile der schnelleren Erfassbarkeit, der Übersichtlichkeit, der langfristigen Einprägsamkeit und der besseren Veranschaulichung von Besonderheiten besessen. „Ein Bild sagt mehr als tausend Worte“ – lautet eine Redensart, die auf die erhöhten Wahrnehmungsmöglichkeiten des menschlichen Gehirns für visuelle Eindrücke zielt. Selbst bei der Angabe charakteristischer Kenngrößen in Form von deskriptiven Maßzahlen wie Mittelwerten, Streuungsmaßen, Korrelationskoeffizienten und so weiter ist (vorab oder zumindest zeitgleich) die Verwendung graphischer Methoden unbedingt zu empfehlen. Ein einfaches Beispiel macht dies deutlich: Das arithmetische Mittel ist in der Regel als Mittelwert nur dann geeignet, wenn ein Merkmal untersucht wird, das metrisch skaliert ist und möglichst eine eingipfelige (unimodale) und symmetrische Häufigkeitsverteilung besitzt. Ist die Abweichung von dieser Modellvorstellung zu groß, z. B. bei einer deutlich zweigipfeligen (bimodalen) und/oder schiefen Häufigkeitsverteilung, dann muss die erfolgreiche Verwendung des arithmetischen Mittels als rechnerischer Mittelwert angezweifelt werden – mit allen Konsequenzen für die jeweilige weitere statistische Arbeit. Insofern lohnt oft ein schneller explorativer Blick auf einfache Präsentationsdiagramme. Sie besitzen eine lange Geschichte. Von den frühen Darstellungen, wie z. B. der Verwendung von Koordinatensystemen bei ägyptischen Landvermessern, einmal abgesehen, bereitete vor allem um 1800 der englische Ökonom William Playfair mit seinen frühen Stab-, Kreis- und Zeitreihendiagrammen das so genannte Goldene Zeitalter (etwa von 1860 bis 1890) der graphischen Verfahren in der Statistik vor (Playfair 2005). Zunächst diente ein Schaubild innerhalb eines Dokumentes hauptsächlich als Ergänzung, als Blickfang und zur Zusammenfassung des im zugehörigen Text beschriebenen Sachverhaltes. Aber bereits damals wurden statistische Schaubilder auch als Möglichkeit gesehen, über die rein deskriptive Präsentation hinaus als Analyseinstrument Verwendung zu finden (z. B. für meteorologische Untersuchungen). Die Entwicklung der Computertechnik und – verbunden damit – die Verfügbarkeit von Statistiksoftware waren in der zweiten Hälfte des 20. Jahrhunderts die Basis für eine zweite große Welle neuer graphischer Methoden. Spezielle graphische Software machte die Visualisierung zum wichtigen Ansatz im Rahmen der statistischen Datenanalyse. In den 1960er-Jahren schuf John W. Tukey den Begriff der Explorativen Datenanalyse (EDA) und machte ihn durch sein Lehrbuch aus dem Jahre 1977 weltweit bekannt (Tukey 1977). Gemeint ist mit EDA neben der Untersuchung der Robustheit der Daten, der Analyse von Residuen und der Überprüfung geeigneter Datentransformationen vor allem eine visuelle Inspektion der Daten mit dem Ziel des Entdeckens verborgener Strukturen, ungewöhnlicher Eigenschaften, untypischer Merkmalsausprägungen (Ausreißer), unerwarteter Beziehungen
5 Graphische Datenexploration
93
oder erkennbarer Gruppenbildungen unter den Datenwerten. Dabei entwickelte Tukey für seine EDA völlig neue Diagrammformen wie z. B. das Boxplot oder das Stem-andLeaf-Plot. Beide Techniken gehören heute zu den Standardprozeduren statistischer Software. Auch wenn diese Aufzählung im Zusammenhang mit der EDA nach einer Sammlung von neuen statistischen Techniken klingt, Tukeys Intention zielte eher auf eine veränderte Grundhaltung des statistischen Forschers: Weder sollen die Daten als „wahr“ hingenommen, noch ein den Daten zugrunde liegendes Modell als „wahr“ konstatiert werden. EDA will vielmehr als ein iterativer Prozess gesehen werden, der zu größerem Verständnis der Datenbasis und damit möglicherweise auch zu neuen Hypothesen und Theorien führen kann.
2 Graphische Methoden für die Datenexploration 2.1 Einteilungskriterien für graphische Darstellungen Von den vielen verschiedenen Möglichkeiten, graphische Darstellungen zu klassifizieren, sollen an dieser Stelle nur einige genannt werden. Die traditionelle Einteilung orientiert sich am Verwendungszweck: Präsentationsgraphik, Geschäftsgraphik und Analysegraphik. Die Präsentationsgraphik ist dabei das Endprodukt, das in Zeitungen, Zeitschriften, Geschäftsberichten usw. oft nur als journalistischer Blickfang oder Ergänzung zu Textbeiträgen Verwendung findet. Die geometrischen Grundformen von Präsentationsgraphiken leiten sich aus dem Charakter des Datenmaterials ab, das graphisch dargestellt werden soll: Bei absoluten Zahlen sind Stab- und Rechteckdiagramm (im SPSS-Paket Balkendiagramme genannt) die geeigneten Schaubildtypen, bei Prozentzahlen Kreis- und Balkendiagamm, bei zeitlich geordneten Daten das Zeitreihen- bzw. Liniendiagramm. Die Geschäftsgraphiken benutzen dieselben Grundformen, verzichten aber auf jegliche zusätzliche Ausstattung und Gestaltung. Es sind meist normierte einfache Schaubilder für den Alltag, die im Rahmen einer periodisch wiederkehrenden Aktualisierung übersichtlich und damit schnell erfassbar konstruiert sind. Die Analysegraphiken sind für die Arbeit des empirisch forschenden Wissenschaftlers oder des Technikers entwickelt worden, um schnelle visuelle Exploration und Diagnose zu ermöglichen. Für den Statistiker geht es dabei vor allem um Enthüllung unbekannter Datenstrukturen mittels Datenverdichtung, Vergleich von Häufigkeitsverteilungen desselben Merkmals in mehreren statistischen Massen oder Überprüfung von Verteilungsannahmen bzw. Streuungsanalyse für bivariate Daten. Viele Statistiker setzen bei der Einteilung für graphische Darstellungen auch bei der Dimensionalität der Daten an. Wird nur ein Merkmal betrachtet (Analyse univariater Daten), dann konzentriert sich die graphische Umsetzung auf die Lage, die Variabilität und die Häufigkeitsverteilung der betreffenden Variablen. Werden zwei Merkmale an einem Merkmalsträger untersucht (Analyse bivariater Daten), dann interessieren neben den jeweiligen univariaten Charakteristika beider Merkmale auch ihr Zusammenhang und – falls vorhanden – ihre kausale Abhängigkeit. Bei zwei quantitativen Merkmalen wird dies anhand eines gemeinsamen Streudiagramms untersucht. Bei einem quantitativen und einem qualitativen Merkmal oder zwei qualitativen Merkmalen
94
Horst Degen Abs. Hfgk. 52 127 136 157 136 166 125 116 135 125 125 143 75 27 6
Stem & Leaf 1. 2. 2. 3. 3. 4. 4. 5. 5. 6. 6. 7. 7. 8. 8.
88888888888888899999999999 00000000000000111111111111222222223333333333344444444444444444 5555555555555555555666666666666667777777777778888888888888999999999 000000000000000011111111111111222222222222333333333333333333333334444444444444 5555555555555555556666666667777777777788888888888888999999999999999 0000000000000001111111111111111111222222222222222222222233333333333333344444444444 5555555555555566666666666666677777777888888888888899999999999 000000000011111111111222222222223333333334444444444444444 555555555556666666666666666677777777777788888888888899999999999999 0000000000000000111111111112222222222222233333333344444444444 5555555555666666666667777777777777888888888888999999999999999 00000000000000111111111111112222222222222223333333333333344444444444444 5555555556666666666777778888888899999 001112233444 8&
Abb. 1: Stem-and-Leaf-Plot zum Alter der weiblichen Befragten (ALLBUS 1982) können zur Darstellung z. B. untergliederte Rechteckdiagramme verwendet werden. Bei zwei oder mehr qualitativen Merkmalen ist der Mosaikplot (eingeführt von Hartigan & Kleiner 1981) ein Verfahren zur Visualisierung. Wenn mehr als zwei gleichzeitig untersuchte Merkmale eines Merkmalträgers vorliegen, dann spricht man von der Analyse multivariater Daten. Da das menschliche Auge bestenfalls eine auf die Ebene projizierte dreidimensionale Darstellung wahrnehmen kann, sind hier ausgewählte und sukzessiv präsentierte Diagramme1 oder dimensionsreduzierende graphische Techniken (vgl. Schnell 1994, Kapitel 7) erforderlich. 2.2 Univariate Analysen Untersuchung der empirischen Häufigkeitsverteilung Stem-and-Leaf-Plot – Der Stem-and-Leaf-Plot ist eine von John W. Tukey entwickelte sehr einfache Möglichkeit, vor allem metrisch skaliertes Datenmaterial graphisch darzustellen. Wörtlich übersetzt spricht man von einem Stängel-und-Blatt-Diagramm. Eigentlich handelt es sich bei diesem optisch nicht sehr ansprechenden, aber in der Praxis leistungsfähigen Typus um eine semi-graphische Darstellung, d. h. um eine Mischform zwischen Tabelle und Schaubild, denn es werden keine geometrischen Elemente zur visuellen Umsetzung von Häufigkeitsverhältnissen verwendet, sondern die Ziffern (bzw. Ketten von Ziffern) erzeugen selbst einen graphischen Effekt. Die gewollte Assoziation zum Zusammenhang zwischen einem Stängel (das englische Wort „stem“ lässt sich auch als „Stiel“ oder „Stamm“ übersetzen) und den daran hängenden Blättern führt zur Idee dieses Darstellungstyps: Es handelt sich um eine Kombination von Strichliste und Histogramm bei gleichen Klassenbreiten. Jeder Beobachtungswert des Datenmaterials wird in einen Stängelteil und in einen Blattteil zerlegt. Zu diesem Zweck muss ein Beobachtungswert aus mindestens zwei Ziffernstellen2 bestehen: die führende Ziffer (bzw. die führenden Ziffern) stellt (bzw. stellen) die zu bildende Klasse und somit den Stängelteil dar, die restlichen Ziffernstellen den Blattteil. Es ist also zunächst die Einheit des Stängelteils festzulegen, dann die Anzahl der Klassen und damit die „Breite der Blätter“. Von der geordneten Urliste der 1 2
Z. B. Grand Tour oder Projection Pursuit (vgl. Asimov & Buja 1986). Bei den Zahlen 1 bis 9 wird als erste Ziffernstelle eine 0 vorangestellt.
5 Graphische Datenexploration
95
Beobachtungswerte werden die führenden Ziffern in Reihenfolge auf der senkrechten Achse eines Koordinatensystems platziert, die restlichen Ziffern des jeweiligen Beobachtungswertes (u. U. gerundet) an zugehöriger Position auf der waagrechten Achse. Bei z. B. zwei Ziffernstellen bilden die Zehnerziffer den Stängel und die Einerziffern die Blätter. Die Stammwertigkeit beträgt dann 10. Die Einerziffern der Beobachtungswerte erzeugen auf diese Weise selbst einen visuellen Eindruck der Häufigkeitsverteilung der Daten. In Abbildung 1 steht jedes Blatt für zwei Fälle (Beobachtungswerte); das Symbol „&“ bezeichnet ein „gebrochenes“ (fractional) Blatt, das entweder nur einen Fall (oder mehrere Fälle mit unterschiedlichen Ausprägungen) repräsentiert. Wenn das Datenmaterial sehr umfangreich ist, kann man die führenden Ziffern noch einmal unterteilen (d. h. statt einer Klasse von 0 bis 9 dann in zwei Klassen von 0 bis 4 und von 5 bis 9) und daraufhin die restlichen Ziffernstellen in zwei Zeilen anordnen. Auf diese Weise entsteht neben dem Stamm und den Blättern zusätzlich noch so etwas wie „Äste“. In Abbildung 1 ist die Darstellung zwei-ästig (d. h. fünf-ziffrig). Innerhalb der „Blätter“ können die Ziffernstellen ungeordnet oder (wie in Abbildung 1) geordnet abgetragen werden. Der Stem-and-Leaf-Plot liefert erste Informationen über die Charakteristika der Häufigkeitsverteilung des Datenmaterials. In Abbildung 1 deutet sich – abgesehen von den Randklassen – eine ziemlich gleichmäßige Belegung der Klassen an. Dreht man das Diagramm um 90 Grad nach links, erhält man eine Darstellung, die einem herkömmlichen Histogramm sehr nahe kommt. Dabei liegen die Vorteile gegenüber dem herkömmlichen Histogramm auf der Hand: Da die Beobachtungswerte numerisch abzulesen sind, können Häufungen oder Muster bestimmter Ziffern leicht erkannt werden (d. h. auch innerhalb der einzelnen Klasse!). Zusätzlich sind – wie bei Histogrammen – auch Symmetrie bzw. Schiefe oder Ein- bzw. Mehrgipfeligkeit ablesbar. Als Nachteil von Stem-and-Leaf-Plots muss angeführt werden, dass bei einer großen Anzahl von Beobachtungswerten insgesamt und/oder einer großen Anzahl von Beobachtungswerten in einer Klasse („Leaf“) die Übersichtlichkeit leicht verloren gehen kann. Es liegt in der Natur von Stem-and-Leaf-Plots, dass ausschließlich mit gleichen Klassenbreiten gearbeitet werden kann. Anzumerken ist, dass nur Schriftarten benutzt werden dürfen, bei denen alle Ziffern identische Druckbreiten aufweisen (d. h. es darf keine Proportionalschrift verwendet werden), um eine gleichmäßige Ausrichtung und ein vergleichendes Bild der Daten zu ermöglichen. Boxplot – Deskriptive Maßzahlen sind charakteristische Kenngrößen, die z. B. benutzt werden können, um die Häufigkeitsverteilung eines Merkmals einfach und schnell numerisch zu beschreiben. Zu diesem Zweck werden in der Regel Mittelwerte als Lagemaße und Abweichungen vom Mittel als Streuungsmaße verwendet. Eine solche Zusammenfassung ausgewählter Maßzahlen bezeichnet man auch als Pentagramm, bei dem für eine statistische Masse fünf Maßzahlen angegeben werden, nämlich das erste, zweite (Median) und dritte Quartil sowie die beiden Extremwerte (kleinster und größter Beobachtungswert der statistischen Masse). Trotz des Wortbestandteils „. . . gramm“ handelt es sich beim Pentagramm nicht um eine graphische Darstellung, sondern um eine normierte Form der Anordnung dieser fünf Maßzahlen. Die meisten statistischen Softwarepakete bieten diese Prozedur nicht an. Das Pentagramm sei
96
Horst Degen
Monatliches Nettoeinkommen
8000
6000
4000
2000
0
Abb. 2: Boxplot zum monatlichen Nettoeinkommen (ALLBUS 2006) hier deshalb erwähnt, weil das Boxplot, das als wichtige Möglichkeit der graphischen Datenexploration hier vorgestellt werden soll, auf der Idee des Pentagramms basiert. Wie der Stem-and-Leaf-Plot wurde auch der Boxplot (der oft auch als „Boxand-Whiskers-Plot“ bezeichnet wird) von John W. Tukey als wichtiges graphisches Datenanalyse-Tool für metrisch skalierte Merkmale vorgestellt. Fünf deskriptive Maßzahlen sind Grundlage eines Boxplots, das aus folgenden Bausteinen besteht: Im Mittelpunkt steht ein Rechteck (Box oder Schachtel genannt), das die mittleren fünfzig Prozent der Beobachtungswerte umfasst. Dieser so genannte Interquartilsabstand reicht vom unteren (ersten) Quartil bis zum oberen (dritten) Quartil. Eine Trennlinie in der Box markiert das zweite Quartil, den Median. Anschließend werden von der Mitte der Schmalseiten des Rechtecks jeweils Verbindungslinien zum kleinsten und größten Beobachtungswert der Daten gezogen, sofern sich keine Ausreißer im Datensatz befinden. Die Box mit diesen beiden Linien ähnelt damit ein wenig einem stilisierten Katzenkopf mit zwei Schnurrhaaren („Whiskers“). Dies hat zur englischen Bezeichnung „Box-and-Whiskers“ geführt (in der deutschen Übersetzung ist man weniger phantasievoll und spricht meist von „Schachteldiagrammen“). Falls sich Ausreißer unter den Beobachtungswerten befinden, werden die Verbindungslinien oft nicht bis zum kleinsten bzw. größten Beobachtungswert durchgezeichnet, sondern begrenzt auf einen so genannte „normalen“ Bereich von Beobachtungswerten. Das Softwarepaket SPSS bietet hierzu eine besondere Variante: Der „normale“ Bereich ist definiert als der Randwert der Box (erstes bzw. drittes Quartil) minus bzw. plus dem (üblicherweise) 1,5-fachen des Interquartilsabstandes3 . Der „normale“ Bereich definiert auf diese Weise die „inner fences“, die inneren Zäune. Beobachtungswerte, die außerhalb dieser Schranken liegen, werden durch ein eigenes Symbol (im SPSS-Paket mit einem Kreis) 3
Der Interquartilsabstand ist die Distanz zwischen dem ersten und dem dritten Quartil und beschreibt somit die mittleren 50 % einer Häufigkeitsverteilung.
5 Graphische Datenexploration
97
als Ausreißer („Außenpunkte“) gekennzeichnet. Beobachtungswerte, die um mehr als das dreifache des Interquartilsabstandes von den Randwerten der Box entfernt liegen („outer fences“), werden im SPSS-Paket als Extremwerte („Fernpunkte“) bezeichnet und jeweils mit einem Stern markiert (diese Idee geht auf John W. Tukey zurück). Bei Bedarf kann bei der Arbeit mit dem SPSS-Paket die Markierung von „Ausreißern“ und „Extremwerten“ auch unterdrückt werden. Das Boxplot für das Merkmal Nettoeinkommen in Abbildung 2 lässt die schiefe Verteilung der Daten erkennen. Vor allem das seltene Auftreten von monatlichen Nettoeinkommen oberhalb von 3. 000 Euro führt zu vielen „Ausreißern“ und „Extremwerten“. Demgegenüber ist der Median in der Box nur wenig aus der Symmetrieachse nach unten verlagert, das heißt. für die Schiefe der Verteilung sind nicht in erster Linie die Fälle innerhalb des Interquartilsabstandes verantwortlich. Wenn eine graphische Darstellung mit nur einem einzigen Boxplot vorgelegt wird, fragt man sich oft zu Recht, ob in einem solchen Fall nicht ein Histogramm besser geeignet sein könnte, die Charakteristika der betreffenden Häufigkeitsverteilung wiederzugeben. Durch die stilisierte Darstellung der mittleren 50 Prozent in der Box bleibt zumindest das, was sich in dieser Box abspielt (z. B. eine mögliche Multimodalität, das heißt Mehrgipfeligkeit der Häufigkeitsverteilung), verborgen. Das eigentliche Einsatzgebiet von Boxplots im Rahmen der explorativen Datenanalyse ist denn auch die Gegenüberstellung mehrerer Boxplots in einem Schaubild zum Vergleich mehrerer Häufigkeitsverteilungen. Dieser Vergleich kann zeitlicher (z. B. hinsichtlich der Entwicklung eines Merkmals über mehrere Jahre) bzw. räumlicher (z. B. hinsichtlich des Vergleichs eines Merkmals über mehrere Länder) Art sein oder sich auf die Untersuchung von Teilgruppen beziehen. Wegen ihres stilisierten Charakters kann die Analyse einer normierten Gegenüberstellung von Boxplots interessante Aufschlüsse über das Datenmaterial geben (Lage, Streuung sowie Symmetrie oder Schiefe der Häufigkeitsverteilung). Wenn unterschiedlich dimensionierte statistische Massen mittels Boxplots miteinander verglichen werden sollen, ist vorab eine Standardisierung der Daten empfehlenswert. Eine Gegenüberstellung der Daten aus Abbildung 2 für das Jahr 2006 und den entsprechenden Daten aus dem Jahr 1991 in zwei nebeneinander gestellten Boxplots zeigt deutlich den Anstieg der Einkommen zwischen 1991 und 2006 (siehe Abbildung 3). Ein Vergleich der drei Quartile zu beiden Zeitpunkten lässt auf eine Erhöhung aller drei Werte bei gleichzeitiger Verringerung der Schiefe innerhalb der mittleren 50 Prozent schließen. Desweiteren erkennt man zwischen 1991 und 2006 eine deutliche Zunahme der Streubreite der Daten (als Distanz zwischen dem minimalen und dem maximalen Beobachtungswert). Im Laufe der Zeit sind viele verschiedene Varianten von Box-Plots entwickelt worden (z. B. proportionale Boxplots, gekerbte Boxplots, gekreuzte Boxplots, Histplots, Vaseplots), die hier aber nicht vorgestellt werden sollen. Einige Softwareprogramme bieten auch so genannte 3-D-Boxplots an. Grundsätzlich muss jedoch von 3-D-Darstellungen abgeraten werden, weil durch die mögliche Überlagerung einzelner Diagrammteile und der erforderlichen perspektivischen Darstellung der Gesamteindruck verdeckt und/oder verfälscht werden könnte (vgl. Abels & Degen 1981, S. 261–270).
98
Horst Degen
Monatliches Nettoeinkommen
8000
6000
4000
2000
0 1991
2006
Abb. 3: Gruppierte Boxplots zum monatlichen Nettoeinkommen (ALLBUS 1991 und 2006) Histogramm und Häufigkeitspolygon – Auf den ersten Blick scheinen Stab- und Rechteckdiagramme denselben Zweck zu erfüllen wie ein Histogramm, aber die Anwendungsbereiche dieser drei Diagrammtypen müssen deutlich voneinander unterschieden werden. Ein Stabdiagramm weist als geometrische Übertragung von Häufigkeiten (absolute, relative, prozentuale) jeweils punktuell einen Stab unmittelbar auf der betreffenden Merkmalsausprägung aus. Aus diesem Grund wird ein Stabdiagramm auch für qualitative, das heißt kategoriale Merkmale (mit Merkmalsausprägungen wie z. B. beim Merkmal Haarfarbe: „blond“) oder für diskrete quantitative Merkmale (mit Merkmalsausprägungen wie z. B. beim Merkmal Kinderzahl: „2“) verwendet. Der graphische Bezug auf einen Punkt ist hier die angemessene Visualisierung der Datenlage. Der Unterschied zwischen Stab- und Rechteckdiagramm lässt sich auch an zeitlich bezogenen Daten deutlich machen: Bestandsdaten, das heißt auf einen Zeitpunkt bezogene Daten, benötigen jeweils auf dem Zeitpunkt einen Stab, während Bewegungsdaten, die auf einen Zeitraum bezogen sind, jeweils für die Spanne vom ersten bis zum letzten Termin des Zeitraums durch ein Rechteck deutlich markiert werden. Dabei sind die Zeiträume gleich lang (äquidistant) zu wählen, um zu gewährleisten, dass nur die unterschiedliche Höhe der Rechtecke als geometrische Übertragung der Häufigkeitsverhältnisse benutzt wird – bei identischer Breite der Rechtecke gilt diese Aussage natürlich auch für die Flächeninhalte der Rechtecke. 3-D-Darstellungen, bei denen die Stäbe durch Säulen und die Rechtecke durch räumliche Schachteln ersetzt werden, werden von der Statistik-Software zwar vornehmlich angeboten, sollten aber bei univariatem Datenmaterial (logischerweise) keine Anwendung finden. Wegen der scheinbar attraktiveren Wirkung auf den Betrachter werden sie aber sehr häufig verwendet. Stetige quantitative Merkmale sind metrisch skaliert und weisen meist viele voneinander unterscheidbare Merkmalsausprägungen auf. Deshalb wird die Skala der
Häufigkeit / (Klassenbreite x N) mit N = 2175
5 Graphische Datenexploration
75
Häufigkeit
60 45 30 15
99
,034 ,028 ,021 ,014 ,007 ,000
0 0
50
100
150
Dauer der Arbeitslosigkeit in Wochen
(a) Histogramm
200
0
50
100
150
200
Dauer der Arbeitslosigkeit in Wochen
(b) normiertes Histogramm
Abb. 4: Histogramme zur Dauer der Arbeitslosigkeit (ALLBUS 1982) Beobachtungswerte in Intervalle, das heißt Klassen eingeteilt. Man spricht daher auch von gruppierten Daten. Die geeignete Darstellungsform für gruppierte Daten ist das so genannte Histogramm – eine der beliebtesten Diagrammformen zur Präsentation und Analyse von empirischen Häufigkeitsverteilungen, die schon um 1800 durch William Playfair bekannt gemacht worden ist (Playfair 2005). In der Bezeichnung „Histogramm“ verbirgt sich das griechische Wort „histion“, das mit dem deutschen Wort „Gewebe“ übersetzt werden kann. Gemeint ist damit, dass nicht allein die Höhe des Rechtecks über einer Klasse, sondern auch der Flächeninhalt dieses Rechtecks die jeweilige Häufigkeit visualisiert. Die Klasseneinteilung für die vorliegenden Beobachtungswerte muss der Statistiker selbst vornehmen, sofern das Datenmaterial nicht bereits in gruppierter Form vorgegeben ist. Dabei sind einige Regeln zu beachten (vgl. Degen & Lorscheid 2002): –
4
Von großer Bedeutung für die spätere visuelle Inspektion eines Histogramms ist die Entscheidung, wie viele Klassen gebildet werden. Abgesehen von den Situationen, in denen die Klassengrenzen durch die Aufgabenstellung von vornherein vorgeschlagen sind (z. B. Einkommensteuerklassen in Euro), sind Vorüberlegungen nötig, wie die Klassen einzuteilen sind. Zu der Frage, wie groß die Zahl der Klassen für eine gegebene Anzahl von Beobachtungswerten sein sollte, gibt es zahlreiche Empfehlungen bis hin zu einer DIN-Norm4 , die lautet: Bis zu 100 Beobachtungswerten sind mindestens zehn Klassen, bei etwa 1. 000 Beobachtungswerten sind mindestens 13 Klassen, bei etwa 10. 000 Beobachtungswerten sind mindestens 16 Klassen zu bilden. Eine andere Faustregel besagt, dass bei bis zu 100 Beobachtungswerten die Anzahl der Klassen nicht größer als die Quadratwurzel aus der Zahl der Beobachtungswerte sein sollte. Sämtliche heuristischen Regeln sind jedoch zu relativieren hinsichtlich der Frage, ob die Beobachtungswerte vorherrschend unterschiedliche oder identische Vgl. Arbeitsausschuss Statistik im Deutschen Normenausschuss: DIN 55 302 Blatt 1.
100
Horst Degen
Werte besitzen. Insofern sollte die Entscheidung über die Anzahl der zu bildenden Klassen letztlich dem Sachverstand des Bearbeiters überlassen bleiben.5 Bei eher symmetrischen empirischen Häufigkeitsverteilungen reicht eine niedrigere Anzahl von Klassen aus; bei eher schiefen empirischen Häufigkeitsverteilungen ist eine größere Anzahl von Klassen zu empfehlen, um die breitere Streuung in der Schiefe möglichst gut darzustellen. Dabei ist die Orientierung an möglicherweise vorhandenen natürlichen Intervallen der Urliste (z. B. Rundung von Beobachtungswerten des Merkmals „Körpergröße“ auf ganze Zentimeter) zu empfehlen. Auch Zahlen in Einheiten mit „0“ oder „5“ am Ende als Klassengrenzen erleichtern eine schnelle Erfassbarkeit der Gruppierung. Bei der Frage nach der Anzahl der zu bildenden Klassen ist ein Kompromiss zwischen zwei gegensätzlichen Zielen zu finden: Erstens sollte bei der Gruppierung der Daten möglichst wenig Informationsverlust auftreten (immerhin werden nach der Gruppierung nicht mehr die Beobachtungswerte selbst, sondern nur noch die Häufigkeit ihres Auftretens innerhalb einer Klasse betrachtet), zweitens sollte durch die Gruppierung ein hohes Maß an Übersichtlichkeit und Einfachheit erzielt werden unter Hervorhebung von sachlich bedeutsamen Aspekten der empirischen Häufigkeitsverteilung. Wenn z. B. insgesamt nur zwei Klassen gebildet werden, entsteht ein Maximum an Übersichtlichkeit bei weitgehendem Verlust sämtlicher Detailinformationen zur Häufigkeitsverteilung. Wie die Verteilung innerhalb einer Klasse aussieht, ist nach einer Gruppierung nicht mehr ohne Weiteres erkennbar. Wenn man dagegen so viele Klassen bilden würde wie unterschiedliche Beobachtungswerte vorliegen – das heißt für jeden unterschiedlichen Beobachtungswert eine eigene Klasse –, dann wäre die Idee einer Gruppierung ad absurdum geführt. – Grundsätzlich sollten – wenn eben möglich – gleich breite (äquidistante) Klassen gebildet werden (die meisten statistischen Softwarepakete bieten Histogramme ausschließlich auf Basis äquidistanter Klassen an!). Die Vorteile identischer Klassenbreiten liegen erstens in der leichten Lesbarkeit und Vergleichbarkeit sowie zweitens in der einfacheren Interpretation des Histogramms: Der (eindimensionale) Vergleich der Rechteckhöhen im Histogramm reicht dann aus für den visuellen Vergleich der Häufigkeitsverhältnisse. Bei einem Histogramm mit unterschiedlichen Klassenbreiten müssten stattdessen die Flächeninhalte der Rechtecke im Histogramm miteinander verglichen werden, und dies fällt dem menschlichen Auge schwer. Man spricht in diesem Fall auch nicht mehr von einem Histogramm, sondern von einem „Flächendiagramm“. Die Rechteckhöhen in einem Flächendiagramm berechnen sich als Quotient aus absoluter Klassenhäufigkeit und Klassenbreite. Der Vorteil der korrekten Flächendarstellung ist dann erkauft mit dem Nachteil, dass die Häufigkeitsachse im Koordinatensystem dann keine anschaulich interpretierbare Größe oder Dimension mehr besitzt. Der Maßstab „Klassenhäufigkeit“ im Verhältnis zur „Klassenbreite“ wäre zwar eine rein formale Beschriftungsmöglichkeit dieser Achse; für die Interpretation des Schaubildes sind aber ausschließlich die Flächeninhalte 5
In der Literatur findet man auch Regeln zur Festlegung der Klassenanzahl, wenn bestimmte Wahrscheinlichkeits- bzw. Dichtefunktionen (z. B. Binomial- oder Gleichverteilung) dem Datenmaterial zugrunde liegen.
5 Graphische Datenexploration
101
maßgebend. Aus diesem Grund sollten in diesem Fall die Rechtecke auch schraffiert oder mit einem Raster versehen werden, um (im Unterschied zum Histogramm) auf die besondere Bedeutung der Flächen bei der Interpretation des Flächendiagramms hinzuweisen. Aus diesen Ausführungen wird deutlich, dass die Verwendung von Flächendiagrammen grundsätzlich nicht empfohlen werden kann, da die schnelle visuelle Vergleichbarkeit stark eingeschränkt ist. Unterschiedliche Klassenbreiten sind aber dennoch ausnahmsweise bei extrem unterschiedlicher Dichte der Verteilung der Beobachtungswerte auf der waagrechten Achse angebracht, um eben diese Besonderheit der empirischen Häufigkeitsverteilung zu veranschaulichen. In diesem Fall ist es nicht sinnvoll, eine große Anzahl von Klassen zu bilden, denn die meisten Klassen würden unbesetzt bleiben. Es ist aber auch nicht zu empfehlen, nur wenige große Gruppen zu bilden, weil dann der größte Teil aller Beobachtungswerte in eine Gruppe oder wenige Gruppen fallen würde. Die wesentlichen Datenbereiche blieben dann ohne detaillierte visuelle Übertragung. Für die Bestimmung der optimalen Klassenbreite gibt es in der Literatur zahlreiche Empfehlungen und Regeln, die meist auf die Kenntnis der den empirischen Daten zugrunde liegenden („wahren“) Dichtefunktion abstellen und sich an Umfang und Standardabweichung der Beobachtungswerte orientieren. In der Praxis erweisen sich jedoch derartige Automatismen oft nicht als beste Lösung. Auch hier bringt das Ausprobieren mit unterschiedlich groß gewählten Klassenbreiten zusätzlichen Einblick in die Besonderheiten der Daten. – Es müssen sämtliche Daten erfasst werden – auch diejenigen Beobachtungswerte, die extrem weit vom Zentrum der übrigen entfernt liegen. Die dünne Belegung mancher Klassen führt oft zu der Überlegung, durch Zusammenfassung benachbarter Klassen auf nicht äquidistante Klassen überzugehen. In jedem Fall müssen die obere und die untere Randklasse sinnvoll (auf die Bedeutung der Daten bezogen) geschlossen werden. Beim Merkmal Lebensalter z. B. ist das Schließen der unteren Randklasse beim unteren Wert Null selbstverständlich, während man sich fragen muss, ob ein Schließen der oberen Randklasse bei der oberen Klassengrenze von 100 Jahren ausreicht oder die Grenze noch höher anzusetzen ist. – Bei der Entscheidung über die zu verwendende Klassenbreite und über die konkreten Klassengrenzen orientiert man sich zunächst an der üblichen Praxis, das heißt für die Darstellung z. B. der Körpergröße werden zehn (oder fünf) Zentimeter breite Klassen mit Klassengrenzen bei den Endziffern 0 (und 5) gewählt. Alternativ könnte auch der am häufigsten auftretende Beobachtungswert (Modus) den Ausgangsund Mittelpunkt der Klassenbildung darstellen, das heißt zur Festlegung der Klassenbreite benutzt werden. Wenn z. B. in Abbildung 1 beim Merkmal Lebensalter die Merkmalsausprägung von 42 Jahren am häufigsten vorkommt, dann könnte man davon ausgehend die Altersklasse von „40 bis unter 45“ als Grundlage für die Klassenbreite verwenden. – Sämtliche Klassen sollten als links geschlossenes und rechts offenes Intervall definiert werden. Die verbale Beschreibung einer Klasse, d. h. der unteren und oberen Klassengrenze, sollte deshalb lauten: „von . . . (der unteren Klassengrenze) bis unter . . . (die obere Klassengrenze)“.
102
–
Horst Degen
Nach Abschluss der Klassenbildung sind die ursprünglichen Beobachtungswerte nicht mehr erkennbar. Für jede einzelne Klasse verwendet man dann die Klassenmitte, d. h. den Punkt, der die Mitte einer Klasse beschreibt, als charakteristischen Wert dieser Klasse. Dieser Vorgehensweise liegt die Vorstellung (als Arbeitshypothese) zugrunde, dass innerhalb einer Klasse alle Beobachtungswerte gleichmäßig über die gesamte Klasse verteilt sind, und daher der Wert der Klassenmitte eine brauchbare Kenngröße für die Gesamtheit der Merkmalsausprägungen in dieser Klasse ist. Man könnte deshalb die Klassengrenzen auch unter dem Gesichtspunkt wählen, dass die Maßzahl „Klassenmitte“ eine möglichst einfache Zahl ist.
Das Histogramm ist die grundlegende und damit wichtigste Diagrammform, um einen Eindruck von der empirischen Häufigkeitsverteilung zu gewinnen. Deshalb sollte der Anwender bei der Frage der Klassenbildung sich nicht an automatische (und damit starre) Regeln binden, sondern im Vorfeld der Untersuchung unterschiedliche Klassenbreiten und mehrere, vollständig verschobene (das heißt mit einem anderen Wert beginnende erste Klasse der Klasseneinteilung) Varianten der Klassenbildung ausprobieren, anstatt sich mit der automatischen Voreinstellung der statistischen Software-Prozedur zufrieden zu geben. Wählt man in einem Histogramm die Höhe der Rechtecke gleich dem Quotienten aus relativer Klassenhäufigkeit und Klassenbreite, dann erhält man ein so genannte normiertes Histogramm, bei dem sich sämtliche Flächeninhalte der Rechtecke des Histogramms zum Wert Eins aufsummieren (vgl. Abbildung 4 b). Diese normierte empirische Häufigkeitsverteilung ist dann sehr ähnlich der Dichtefunktion einer stetigen Zufallsvariablen, bei der das Integral unter der Dichtefunktion ebenfalls den Wert Eins ergibt. Die beiden Darstellungen in Abbildung 4 a und b unterscheiden sich also nur in der Beschriftung der senkrechten Achse. Als gleiche Klassenbreite wird in der Abbildung 4 a und b für alle Klassen der Wert 12,5 Wochen (= etwa ein Quartal) verwendet. Um die Analogie zwischen empirischer Häufigkeitsverteilung und Dichtefunktion noch weiter zu führen, kann man ein Histogramm mit gleichen Klassenbreiten um ein so genannte Häufigkeitspolygon ergänzen (das Wort ist aus den beiden griechischen Begriffen „polys“ und „gonia“ zusammengesetzt, was auf deutsch „viele Winkel“ bedeutet). Dabei werden alle oberen Enden der Rechtecke eines Histogramms auf Höhe der Klassenmitten durch Linien miteinander verbunden. Von der unteren und von der oberen Randklasse zieht man solche Verbindungslinien zu den Klassenmitten der (eigentlich nicht mehr vorhandenen) nächst kleineren bzw. nächst größeren Klasse. Da diese beiden fiktiven Klassen keine von Null verschiedenen Häufigkeiten besitzen (die Klassen enthalten ja keine Beobachtungswerte), enden die Verbindungslinien – und damit das Häufigkeitspolygon insgesamt auf der waagrechten Achse (vgl. Abbildung 5). Bei identischen Klassenbreiten – und nur in diesem Fall – ergibt sich daher die so genannte Flächentreue zwischen Histogramm und Häufigkeitspolygon. Damit ist gemeint, dass die Summe der Flächeninhalte aller Rechtecke des Histogramms der
Häufigkeit / (Klassenbreite x N) mit N = 2175
5 Graphische Datenexploration
103
,034
,028
,021
,014
,007
,000 0
50
100
150
200
250
Dauer der Arbeitslosigkeit in Wochen
Abb. 5: Häufigkeitspolygon zur Dauer der Arbeitslosigkeit (ALLBUS 1982) Fläche unter dem Häufigkeitspolygon entspricht – bei normierten Histogrammen also dem Wert Eins.6 Wenn im Rahmen der graphischen Datenexploration die empirische Häufigkeitsverteilung untersucht werden soll oder Fragen der Symmetrie bzw. der Anzahl von Gipfeln der Verteilung im Vordergrund stehen, dann wird an Stelle eines Histogramms oft ein Häufigkeitspolygon bevorzugt verwendet. Dagegen kommt das Häufigkeitspolygon als statistisches Schaubild zur Datenpräsentation eher selten vor. Die Eignung eines Häufigkeitspolygons zur Datenanalyse hängt wie beim Histogramm ebenfalls ab von der Zahl der gebildeten Klassen. Je mehr Klassen verwendet werden, desto besser wird in der Regel die Qualität des Häufigkeitspolygons als Indikator für eine zugehörige Dichtefunktion sein. Auf der anderen Seite sollten nicht zu viele Klassen verwendet werden, um kleinere Abweichungen, Ungenauigkeiten oder Messfehler auszumitteln und somit dem modellhaften Charakter einer Dichtefunktion als theoretische Verteilung gerecht zu werden. Vergleich von Verteilungen Überlagerung von Histogramm und Dichtefunktion – Aus dem vorigen Abschnitt wird bereits deutlich, dass bei der graphischen Datenexploration die Darstellung eines Histogramms oder eines Häufigkeitspolygons oft dazu benutzt wird, um die Gestalt der empirischen Häufigkeitsverteilung mit der Dichtefunktion eines theoretischen Verteilungsmodells zu vergleichen. Ziel der Analyse könnte in diesem Fall z. B. sein, eine graphische Überprüfung einer hypothetischen Verteilungsannahme vorzunehmen. Zu 6
Beim Softwarepaket SPSS wird das Polygon automatisch unter den Klassenmitten der beiden Randklassen abgeschnitten. Die Darstellung muss manuell zu einem fehlerlosen Häufigkeitspolygon umgearbeitet werden.
Horst Degen
Häufigkeit / (Klassenbreite x N) mit N = 2175
Häufigkeit / (Klassenbreite x N) mit N = 2175
104
,034 ,028 ,021 ,014 ,007
,034 ,028 ,021 ,014 ,007 ,000
,000 0
50
100
150
Dauer der Arbeitslosigkeit in Wochen
(a) normiertes Histogramm mit Normalverteilung
200
0
50
100
150
200
Dauer der Arbeitslosigkeit in Wochen
(b) normiertes Histogramm mit Exponentialverteilung
Abb. 6: Histogramme zur Dauer der Arbeitslosigkeit (ALLBUS 1982) diesem Zweck zeichnet man die theoretische Dichtefunktion zusätzlich zum Histogramm oder zum Häufigkeitspolygon in dasselbe Schaubild und vergleicht die beiden Verteilungsbilder. Das SPSS-Paket bietet hier als typische Anwendung die Möglichkeit, das normierte Histogramm mit einer geeigneten Normalverteilung zu überlagern. Dabei werden vom Programm aus den Beobachtungswerten des Datenmaterials die Parameter der Normalverteilung geschätzt. Es ist zu beachten, dass – wie im vorigen Abschnitt beschrieben – die Qualität und das Ergebnis des Vergleichs von der gewählten Klasseneinteilung abhängt. Es ist zu empfehlen, dabei mehrere Varianten der Klassenbildung auszuprobieren. Vergleicht man die beiden Verteilungsanpassungen in den Abbildungen 6 a und 6 b, so erkennt man, dass die Dichtefunktion einer Exponentialverteilung (Abbildung 6 b) den Datensatz der Abbildungen 4 b und 5 wesentlich besser anpasst als eine Normalverteilung (Abbildung 6 a). Tatsächlich wird die Exponentialverteilung häufig zur Beschreibung von Zeitverläufen herangezogen. Probability-Plots – Im Mittelpunkt der explorativen Datenanalyse steht oft die Frage, ob das empirisch beobachtete Datenmaterial einer bestimmten theoretischen Zufallsverteilung genügt. Falls man diese Frage positiv beantworten kann, d. h. wenn man Übereinstimmung zwischen der empirischen Häufigkeitsverteilung und einer konkreten Wahrscheinlichkeitsverteilung eines bestimmten Typs festgestellt hat, dann lässt sich das zu untersuchende Datenmaterial meist mit den wenigen Parametern der zugrunde liegenden Verteilung zufriedenstellend beschreiben. Im Rahmen dieser Fragestellung kommt in der Praxis der Quantil-Plot (Q-Plot) zum Einsatz. Voraussetzung ist ein mindestens ordinal skaliertes Merkmal. Eine Merkmalsausprägung xα wird als ein α-Quantil (oder als ein α-Punkt) der Häufigkeitsverteilung bezeichnet, wenn die relative Häufigkeit der Beobachtungswerte, die kleiner oder gleich xα sind, mindestens α und diejenige der Beobachtungswerte, die größer oder gleich xα
5 Graphische Datenexploration
105
sind, mindestens 1 − α beträgt. Ausgangspunkt für die Bestimmung eines Quantils ist die geordnete Urliste. Bei einem Q-Plot wird in einem Koordinatensystem für jeden Beobachtungswert der geordneten Urliste auf der waagrechten Achse das zugehörige Quantil auf der senkrechten Achse abgetragen. Jeder einzelne Beobachtungswert wird durch einen Punkt in der Graphik dargestellt. Mehrere identische Beobachtungswerte führen in der Graphik zu senkrecht übereinander abzutragenden Punkten und somit zu einem steileren Anstieg der Punkteschar. Statistische Ausreißer an den Rändern der Graphik sind auffällig und ebenso wie die Quartile direkt an der senkrechten Achse ablesbar. Q-Plots bieten sich deshalb als interessante Alternative zu Box-Plots an. Die Bezeichnung „Q-Q-Plot“ ist eine Abkürzung für den Begriff „Quantil-QuantilPlot“ und beschreibt die Idee, die Q-Plots zweier empirischer Häufigkeitsverteilungen gemeinsam in einer Graphik gegenüberzustellen. Dabei definiert man als α-Quantile die Zahlen Q1 , Q2 , . . . , Qα−1 , welche die geordnete Urliste der Beobachtungswerte in α gleiche Teile zerlegt. Dieses Vorgehen ist so bei empirischen Häufigkeitsverteilungen nur dann möglich, wenn beide Datensätze aus derselben Anzahl von Beobachtungswerten bestehen. Wenn dies nicht der Fall sein sollte, gibt es Möglichkeiten zur Abhilfe, indem durch Interpolieren die fehlenden Beobachtungen aufgefüllt werden (vgl. Chambers et al. 1983, S. 55). Wenn beide Datensätze der Beobachtungswerte annähernd dieselbe Verteilung besitzen, erwartet man, dass die Punkte im Q-Q-Plot, die jeweils die Beobachtungen der beiden Häufigkeitsverteilungen wiedergeben, auf der Diagonalen oder zumindest in ihrer Nähe liegen oder sich unsystematisch um die Diagonale herum schlängeln. Auffällige Abweichungen von der Diagonalen zeigen an, dass die Hypothese identischer Verteilungen nicht aufrecht erhalten werden kann. Die Abweichungen kann man bei Bedarf einer weiteren Untersuchung unterziehen, indem man die Differenzen der Quantile in einer Residuenanalyse näher betrachtet7 . Dazu werden die Quantile der einen Häufigkeitsverteilung auf der waagrechten Achse den Abweichungen von den Quantilen der zweiten Häufigkeitsverteilung auf der senkrechten Achse gegenübergestellt. Sind die beiden Verteilungen identisch, liegen sämtliche Punkte auf einer waagrechten, durch den Nullpunkt verlaufenden Geraden. Auffällige Abweichungsmuster von dieser Geraden deuten an, welche Unterschiede zwischen den beiden Verteilungen herrschen. Man kann daher aus einer Residuenanalyse deutliche Hinweise erhalten, welche besondere Form des Zusammenhangs zwischen den Quantilen bestehen könnte. Eine in der Praxis verbreitete Variante der Q-Q-Plots ist, wie erwähnt, der Vergleich von einer empirischen Häufigkeitsverteilung mit der Dichtefunktion eines bestimmten theoretischen Verteilungstyps. Wenn das empirische Datenmaterial, wie häufig der Fall, in Klassen eingeteilt vorliegt, dann verläuft die zugehörige graphische Darstellung als Treppenfunktion. Die theoretische Verteilung einer stetigen Zufallsvariablen ist jedoch eine stetige Funktion, sodass ein Vergleich der beiden Darstellungen oft deutliche Unterschiede ausweist. Eine Interpretation des Ausmaßes und der Wichtigkeit solcher Abweichungen fällt oft nicht leicht. Abhilfe schaffen kann hier die visuelle Inspektion von Q-Q-Plots. Im SPSS-Paket stehen verschiedene Verteilungstypen stetiger Zufallsvariablen zur Verfügung, wie z. B. Gleich-, Normal-, Exponential-, Weibull-, 7
Im SPSS-Paket irreführend als trendbereinigtes Q-Q- oder P-P-Plot bezeichnet.
106
Horst Degen
100
Abweichung vom erwarteten Wert der Normalverteilung
Erwarteter Wert der Normalverteilung
150
100
50
0
-50 -50
80 60 40 20 0 -20
0
50
100
150
200
0
50
Beobachteter Wert
(a) Q-Q-Plot unter Normalverteilung
200
100
Abweichung vom erwarteten Wert der Exponentialverteilung
Erwarteter Wert der Exponentialverteilung
150
(b) Trendbereinigter Q-Q-Plot unter Normalverteilung
200
150
100
50
0 -50
100
Beobachteter Wert
80 60 40 20 0 -20
0
50
100
Beobachteter Wert
(c) Q-Q-Plot unter Exponentialverteilung
150
200
0
50
100
150
200
Beobachteter Wert
(d) Trendbereinigter Q-Q-Plot unter Exponentialverteilung
Abb. 7: Verschiedene Q-Q-Plots zur Dauer der Arbeitslosigkeit (ALLBUS 1982) Laplace-, Chi-Quadrat-, Studentsche t- oder logistische Verteilung. Am häufigsten wird der „Normal Q-Q-Plot“ in der Praxis verwendet. Zu diesem Zweck werden auf der waagrechten Achse eines Koordinatensystems die empirischen Quantile der Beobachtungswerte abgetragen und auf der senkrechten Achse die Quantile der erwarteten Werte, wenn das Datenmaterial einer zugehörigen Normalverteilung entstammen würde. Wie bereits in den Abbildungen 6 a und b erkennbar, lässt sich das Datenmaterial der Arbeitslosigkeitsdauer jedoch eher durch eine Exponential- als durch eine Normalverteilung annähern. Die Abweichungen von den Geraden machen dies in allen vier Abbildungen 7 a bis d deutlich. Der P-P-Plot (Perzentil-Perzentil-Plot) ist eine in der Praxis seltener eingesetzte Variante der Q-Q-Plots. Beim P-P-Plot werden die empirisch beobachteten kumulierten
5 Graphische Datenexploration
107
relativen Häufigkeiten (in Prozent) den unter einer bestimmten Verteilungshypothese theoretisch erwarteten kumulierten relativen Häufigkeiten (in Prozent) im Koordinatensystem gegenübergestellt. Im SPSS-Paket ist für P-P-Plots wiederum ein Test auf Normalverteilung voreingestellt. Wie beim Q-Q-Plot steht auch im SPSS-Paket für P-P-Plots eine Auswahl von Verteilungstypen zur Verfügung. Im Unterschied zum Q-Q-Plot trennt der P-P-Plot die Beobachtungswerte deutlicher voneinander: Ausreißer zeigen sich hier weniger auffällig, dichte Häufungen im mittleren Bereich der Verteilung zeigen sich weniger betont. Ein Nachteil der P-P-Plots ist dagegen ihre geringere Robustheit gegenüber linearen Transformationen. Die Darstellung von Zeitreihen Stehen die zeitliche Veränderung oder die zeitliche Entwicklung einer Größe im Mittelpunkt der Betrachtung, dann benutzt man ein Zeitreihendiagramm (auch Liniendiagramm genannt) zur graphischen Darstellung. Zeitreihen werden gewöhnlich beschrieben als eine Folge von zeitlich geordneten Beobachtungswerten, die Zeitpunkten (Bestandsgrößen) oder Zeiträumen (Bewegungsgrößen) zuzuordnen sind. Liegen bei einer Zeitreihe mehr als etwa fünf Beobachtungswerte (Zeitpunkte oder -räume) vor, so kann davon ausgegangen werden, dass bei der graphischen Darstellung in erster Linie die Entwicklung der Größe im Zeitablauf veranschaulicht und/oder untersucht werden soll – also die Änderung im Zeitablauf, der Anstieg oder der Abfall der Zeitreihe. Bei bis zu fünf Beobachtungswerten ist eher ein Stab- oder Rechteckdiagramm angebracht, weil dann möglicherweise der Abstand oder der Unterschied der einzelnen Beobachtungswerte im Vordergrund stehen und (noch) nicht der zeitliche Ablauf. Die Zeit (Zeitpunkte oder -räume) ist immer auf der waagrechten Achse des Koordinatensystems abzutragen. Zeiträume sind dabei wie Zeitpunkte zu behandeln. Es ist jeweils die Mitte der Zeiträume zu bestimmen. Nur die Mitte ist dann (wie auch bei Zeitpunkten) auf der waagrechten Achse abzutragen. Die jedem Zeitpunkt zuzuordnenden Beobachtungswerte werden auf der senkrechten Achse des Koordinatensystems abgetragen. Die sich auf diese Weise ergebenden Wertepaare (Zeitpunkt, Größe des Beobachtungswertes) werden im Diagramm durch Datenpunkte markiert. Diese Datenpunkte werden jeweils durch Linien miteinander verbunden. Damit wird der Zusammenhang zwischen den einzelnen Wertepaaren betont und die zeitliche Entwicklung verdeutlicht. In Abbildung 8 wird die Zeitreihe der durchschnittlichen Anzahl an Ehescheidungen pro Jahr in der Zeit von 1955 bis 2007 wiedergegeben. Neben dem stetigen Anstieg der Scheidungszahlen während der gesamten betrachteten Zeitspanne fällt vor allem der plötzliche vorübergehende Rückgang bei der Zahl der Ehescheidungen auf, als im Jahre 1977 das neue Scheidungsrecht die Zerrüttungsthese vor die Schuldfrage setzte und nach Ablauf eines einjährigen Trennungsjahres die Scheidung ermöglichte. Viele Ehepartner mussten damals den Ablauf dieser Jahresfrist abwarten. Manchmal wird die Fläche unterhalb der Zeitreihe durch Farbe, Schraffur oder Raster markiert und so hervorgehoben (im SPSS-Paket Flächendiagramm genannt). Diese Maßnahme bringt für die Darstellung einer Zeitreihe keinerlei Vorteile, wirkt aber auf den Betrachter möglicherweise plakativer. Wenn jedoch zwei oder drei Zeitreihen,
108
Horst Degen
Anzahl der Scheidungen pro Jahr
250.000
200.000
150.000
100.000
50.000
0 1955
1965
1975
1985
1995
2005
Abb. 8: Zeitreihe zur Anzahl der Ehescheidungen pro Jahr von 1955 bis 2007 (StBA) deren Zeitreihenwerte eine sinnvolle Summierung erlauben, in einem einzigen Schaubild wiedergegeben werden sollen, dann bietet ein Füllmuster der Flächenbereiche zwischen und unterhalb der Zeitreihen eventuell eine Hilfe bei der Interpretation (im SPSS-Paket gestapeltes Flächendiagramm genannt). Die graphische Datenexploration bei einer Zeitreihe konzentriert sich auf die Suche nach Mustern im zeitlichen Verlauf der Beobachtungswerte. Das einfachste Muster ist dabei eine visuelle Inspektion, ob die Zeitreihe über alle betrachteten Zeitpunkte insgesamt steigt, fällt oder auf einem bestimmten Niveau verharrt. Die daran anschließende Untersuchung bezieht sich auf mögliche wiederkehrende Schwankungen (Schwingungen) im Zeitablauf. Falls solche Schwankungen existieren, ist festzustellen, ob sie im Zeitablauf in identischer Form wiederkehren oder ob sie variabel sind hinsichtlich ihrer zeitlichen Länge und/oder hinsichtlich ihrer Ausschläge (Amplituden) nach oben und unten. Bei der traditionellen Zerlegung einer Zeitreihe in Komponenten werden auf diese Weise die Komponenten Trend, Zyklus (z. B. Konjunktur), Saison und unsystematischer Rest (irreguläre Komponente) unterschieden. Der graphischen Exploration einer Zeitreihe sind enge Grenzen gesetzt; stattdessen kommen in der Praxis eher komplexe numerische Verfahren zum Einsatz (vgl. Kapitel 40 in diesem Handbuch). Dennoch ist festzuhalten, dass die visuelle Inspektion einer Zeitreihe eine wichtige Vorarbeit zum Aufdecken der im Einzelfall auftretenden Komponenten und ihres Zusammenwirkens (additiv oder multiplikativ) leisten kann. 2.3 Bivariate Analysen Univariate Analyse eines Merkmals bedeutet die von sämtlichen Informationen hinsichtlich weiterer Merkmale losgelöste Untersuchung von Datenmaterial einer statistischen Masse. Oft gibt der Statistiker sich dabei mit der Berechnung von deskriptiven Maß-
5 Graphische Datenexploration
109
zahlen wie Mittelwerten und Streuungsmaßen sowie der Präsentation von Schaubildern wie Rechteck- und Kreisdiagrammen für sein Datenmaterial zufrieden. Sogar wenn Beobachtungswerte für zwei gemeinsam an den Merkmalsträgern einer statistischen Masse erhobene Merkmale vorliegen (so genannte bivariate Daten), begnügt man sich häufig mit der Berechnung univariater Maßzahlen wie Mittelwerte und Streuungsmaße, ergänzt um einen Korrelationskoeffizienten, der Richtung und Stärke des (linearen) Zusammenhangs der beiden Beobachtungswertreihen beschreibt. Das Anscombe-Quartett Dass deskriptive Maßzahlen u. U. nicht ausreichen, um den Zusammenhang zwischen den Beobachtungswertreihen hinreichend wiederzugeben, zeigt das nach wie vor eindrucksvolle Zahlenbeispiel von F. J. Anscombe aus dem Jahre 1973 (das so genannte „Anscombe-Quartett“). Vier metrisch skalierte bivariate Beobachtungswertreihen (xi , yi ), erhoben an jeweils elf Merkmalsträgern weisen für alle vier x-Variablen jeweils den Wert 9,0 beim arithmetischen Mittel bzw. jeweils den Wert 7,5 für alle vier y-Variablen auf. Ebenso sind die Werte der Korrelationskoeffizienten für alle Variablenkombinationen stets 0,8. Erst bei Betrachtung der Streudiagramme (vgl. Abbildung 9) erkennt man die tatsächliche Datenlage der von Anscombe geschickt gewählten Beobachtungswerte, die sich graphisch als in ihrer Struktur völlig unterschiedlich entpuppen: Nur einer der bivariaten Zusammenhänge ist in etwa positiv linear, so dass der Korrelationskoeffizient von 0,8 das hält, was er verspricht; ein zweiter Zusammenhang ist funktional sehr viel strenger zu interpretieren, aber nicht linear; der dritte Zusammenhang ist streng positiv linear bis auf einen einzigen Datenpunkt, der als Ausreißer deutlich von dieser Beziehung abweicht; der vierte Zusammenhang zeichnet sich durch Konstanz von zehn x-Werten aus bei einem einzigen deutlichen Ausreißer, der für die hohe positive Korrelation sorgt. Das Beispiel ist zwar schon mehr als 35 Jahre alt, fasziniert aber immer noch im Hinblick auf die Bedeutung visueller Inspektion von Daten. Weder die Tabellenwerte (vgl. Tabelle 1 auf Seite 115 im Anhang) noch die deskriptiven Maßzahlen erlauben das Erkennen der zugrunde liegenden Strukturen. Erst die graphische Aufbereitung in Form von Streudiagrammen deckt die tatsächliche Datenlage auf. Bei den herkömmlichen Schaubildformen für Präsentationsgraphiken lassen sich in der Regel relativ einfach zwei statistische Massen für Vergleichszwecke in ein Diagramm nebeneinander platzieren. Dies gilt für Stab- oder Rechteckdiagramme, für Kreisdiagramme, für Zeitreihendiagramme und so weiter. Wenn bivariate Daten vorliegen, also zwei Merkmale am selben Merkmalsträger gemessen worden sind, sind spezielle Darstellungsformen zu verwenden. Ist das erste Merkmal quantitativ oder qualitativ und das zweite qualitativ, so kann ein untergliedertes Rechteckdiagramm konstruiert werden, bei dem das qualitative zweite Merkmal zur Untergliederung der Rechtecke, die das erste Merkmal beschreiben, herangezogen werden. Diese Vorgehensweise bleibt jedoch nur dann übersichtlich, wenn das qualitative zweite Merkmal nur Ausprägungen in wenigen Kategorien – am besten nur in zwei – besitzt. Als Beispiel in Abbildung 10 a werden die Daten des monatlichen Nettoeinkommens (vergleiche Abbildungen 2 und 3) verwendet und nach einem zweiten, nominalen
110
Horst Degen
Abb. 9: Streudiagramme zum „Anscombe-Quartett“ Merkmal untergliedert – hier das Merkmal Geschlecht (ALLBUS v486 im Jahr 2006). Das Problem bei der Verwendung untergliederter Rechtecke für ein dichotomes zweites Merkmal liegt darin, dass man für alle Klassen des ersten Merkmals nur die erste der beiden Merkmalsausprägungen des zweiten Merkmals auf der waagrechten Grundlinie anordnen kann, während die zweite Merkmalsausprägung für die Rechtecke keine gemeinsame Bezugslinie besitzt. In Abbildung 10 b ist dargestellt, wie die Verteilung des Nettoeinkommens der Männer als einfaches Histogramm aussieht. Dem hier angesprochenen Nachteil der untergliederten (gestapelten) Darstellung steht jedoch entgegen, dass in Abbildung 10 a die gemeinsame Verteilung des Nettoeinkommens insgesamt zusätzlich zu den beiden geschlechterspezifischen Verteilungen zum Ausdruck kommt. Streudiagramm Das Streu(ungs)diagramm (Scatterplot; „scatter“ = zerstreuen) wird dann benötigt, wenn der Zusammenhang zwischen zwei bivariaten quantitativen Merkmalen (mindestens intervallskaliert) visuell untersucht werden soll (vgl. das Beispiel des Anscombe-Quartetts). Die Beobachtungswertepaare (xi , yi ) werden als Punktwolke in ein Koordinatensystem eingetragen und anhand der Form und des Verlaufs der Punktwolke visuell inspiziert bezüglich Richtung und Stärke des möglichen statistischen Zusammenhangs. Auch die Vertretbarkeit des Vorschlages, die Punkte im Streudiagramm durch eine einfache Funktion (z. B. einer Geraden) zu beschreiben, wird dabei überprüft. Dabei handelt es sich zunächst um die Suche nach einem formalen (linearen) Zusammenhang im Sinn der Korrelationsanalyse. Gehen die Überlegungen weiter in Richtung auf einen kausalen Zusammenhang im Sinne der (linearen oder nicht-linearen) Regressionsanalyse, dann trägt man zu diesem Zweck die abhängige Variable y auf der senkrechten und die unabhängige Variable x auf der waagrechten
5 Graphische Datenexploration
111
400
200
100 MANN FRAU
0
Häufigkeit
Häufigkeit
300
120 80 40 0
0
2000
4000
6000
8000
Monatliches Nettoeinkommen
(a) Untergliedertes Histogramm (Männer und Frauen)
10000
0
2000
4000
6000
8000
10000
Monatliches Nettoeinkommen
(b) Histogramm (Männer)
Abb. 10: Histogramm zu Nettoeinkommen und Geschlecht im Jahr (ALLBUS 2006) Achse ab. Eine visuelle Inspektion des Streudiagramms gibt erste Aufschlüsse über Richtung und Stärke des Zusammenhangs, aber auch über Ausreißer oder über die Frage, ob die Punktwolke in mehrere Teilgruppen unterteilt werden sollte. Häufig wird ein Streudiagramm durch das Einzeichnen einer Hilfslinie informationstechnisch angereichert. Besonders das Eintragen einer Regressionsgeraden in die Punktwolke ist sehr beliebt. Jedoch muss die funktionale Form des linearen Zusammenhangs nicht immer der Datenlage angemessen sein. So genannte „Scatterplot-Smoother“ können Aufschluss über eine angemessene Visualisierung der Beziehung der beiden beteiligten Variablen geben. Wegen seiner Robustheit hat sich der von Cleveland (1979) entwickelte LOWESS-Smoother (Locally-Weighted Scatterplot Smoother) in der Praxis durchgesetzt (siehe auch Schnell 1994, S. 102–116). Er gewichtet den Einfluss eines Beobachtungswertes auf die Glättung umso geringer, je größer seine Entfernung von dem betrachteten Glättungspunkt ist. Entscheidend (und beinahe wichtiger als die richtige Wahl des Typs des Smoothers) ist dabei die Festlegung des Glättungsparameters f im Wertebereich 0 < f < 1. Bei sehr niedrigem Wert für f folgt der LOWESS-Smoother jeder Unregelmäßigkeit in den Daten, bei sehr hohem Wert für f nähert sich der LOWESS-Smoother einer linearen Funktion. In der Praxis brauchbare Werte liegen meist zwischen 0,5 und 0,8.8 Wenn man das Streudiagramm in Abbildung 11 betrachtet, liegt zunächst nahe, eine im Diagramm oben links beginnende und leicht abfallende Gerade in die Punktwolke einzuzeichnen. Der in die Punktwolke eingezeichnete Smoother verfeinert diesen Eindruck und bestätigt insgesamt den nahezu linearen Zusammenhang. 8
Im SPSS-Paket wird eine neuere Variante von LOWESS – Loess genannt – angeboten, die an ausgewählten Punkten eine schnellere Berechnung mit anschließender Interpolation erlaubt und daher auch für größere Stichprobenumfänge geeignet ist.
112
Horst Degen
Durchschnittliche Dauer der Schulausbildung in Jahren
13 12 11 10 9 8 7 6 20
40
60
80
Alter
Abb. 11: Streudiagramm zu Lebensalter und durchschnittlicher Dauer der Schulbildung von Frauen (ALLBUS 1991) 2.4 Multivariate Analysen Wenn an einem Merkmalsträger mehr als zwei Merkmale gleichzeitig erhoben werden, spricht man von multivariatem Datenmaterial. Die Möglichkeiten der graphischen Datenexploration stoßen bereits bei dreidimensionalem Datenmaterial an ihre natürlichen Grenzen, weil auf der zweidimensionalen Ebene (Papier, Bildschirm) keine räumlichen Darstellungen möglich sind. Die Computertechnik ist dabei hilfreich, indem sie es ermöglicht, dreidimensionale Punktwolken von Streudiagrammen in 3-D-Simulation auf dem Monitor sichtbar und sogar rotierbar zu machen sowie unterschiedliche Ansichten der Punktwolke im Raum zu realisieren (3-D-Rotation). Die computergestützte Visualisierungstechnik dieser dynamischen (oder kinetischen) Graphik wurde in den 1970er- und 1980er-Jahren entwickelt.9 Obwohl die interaktive dynamische graphische Analyse heute keine größeren technischen Probleme mehr mit sich bringt, haben dennoch die großen Hersteller von Statistik-Software diese Methoden nur ansatzweise in ihre Programme aufgenommen.10 Neben der 3-D-Darstellung ist die Streudiagramm-Matrix eine hilfreiche Visualisierungsmöglichkeit zur multivariaten graphischen Analyse. Dabei handelt es sich um ein Verfahren, mehrere Streudiagramme in einem Diagramm systematisch zueinander in Beziehung zu stellen. Bekanntlich werden in einem Streudiagramm jeweils die Beobachtungswerte von zwei Variablen in Form einer Punktwolke dargestellt. Bei insgesamt vier Variablen sind bereits sechs Streudiagramme zu erstellen und auszuwerten. Nach der Berechnungsformel k · (k − 1)/2 sind bei k = 6 Variablen insgesamt 15 Streudiagramme 9 10
Beispielsweise PRIM-9 von Fisherkeller et al. (1971). Seit Jahren führend auf diesem Gebiet ist das Statistikpaket Data DeskTM (vgl. Velleman 1997).
113
Auszugsalter DauerSchulbildung Schulbildung AuszugElternhaus
Alter Alter
5 Graphische Datenexploration
Alter
Alter
DauerSchulbildung AuszugElternhaus
Schulbildung
Auszugsalter
Abb. 12: 3 × 3 Streudiagramm-Matrix zu Lebensalter, durchschnittlicher Dauer der Schulbildung und durchschnittlichem Alter beim Zeitpunkt des Auszugs aus dem Elternhaus von Frauen (ALLBUS 1991) zu betrachten. Die Reduzierung der eigentlich erforderlichen 6-dimensionalen Betrachtungsweise auf nacheinander auszuwertende 15 zweidimensionale Streudiagramme kann natürlich den simultanen Charakter der Analyse nicht ersetzen, ermöglicht aber einen sukzessiven graphischen Zugang zur Datensituation. Tatsächlich sind auch in der Regel nicht sämtliche 15 Streudiagramme von gleich wichtiger Bedeutung für den Statistiker; er wird sich die interessanteren Streudiagramme herauspicken müssen, um einen Überblick über die verschiedenen bivariaten Datenlagen – und damit für die 6-dimensionale Situation – zu gewinnen. In Abbildung 12 lassen sich die drei möglichen Streudiagramme für die drei beteiligten Merkmale auf einen Blick betrachten und so die verschiedenen Zusammenhänge visuell untersuchen. Einzelne Datenpunkte oder auch Gruppen von Datenpunkten können in allen Streudiagrammen gleichzeitig markiert werden. So fällt es leichter, Ausreißer oder auffällige Datenkonstellationen zu identifizieren. Im betrachteten Beispiel könnten z. B. ergänzend zur Darstellung der weiblichen Befragten auch die männlichen Befragten farblich oder durch die Wahl eines anderen Symbols (statt des Kreises) abgesetzt in die Streudiagramm-Matrix eingetragen und einer Gegenüberstellung unterzogen werden. Eine Streudiagramm-Matrix („scatterplot matrix“) ist das graphische Gegenstück zur numerischen Kovarianz- oder Korrelationsmatrix. Die Streudiagramm-Matrix besteht aus genau so vielen Zeilen und Spalten wie Variablen in der Untersuchung sind. Jede Zelle der Matrix ist gefüllt mit einem einheitlich großen Streudiagramm für ein Variablenpaar. Die Zellen der Hauptdiagonalen bleiben unbesetzt (bzw. nehmen die Variablenbezeichnungen auf), da hier Streudiagramme nicht sinnvoll sind: Wenn auf beiden Achsen des Koordinatensystems dieselbe Variable abgetragen würde, lägen die
114
Horst Degen
Punkte des Streudiagramms alle auf der Winkelhalbierenden am Koordinatennullpunkt. Von den beiden Dreiecksmatrizen benötigt man für die Interpretation nur eine, jedoch kann der Betrachter anhand der gesamten Matrix alle Streudiagramme einer Zeile oder einer Spalte in den Blick nehmen. In jeder Zeile oder Spalte kann man den Vergleich einer Variablen mit den k − 1 übrigen Variablen durchführen. Lineare Zusammenhänge oder Gruppierungen von Beobachtungswerten lassen sich leicht erkennen. Zu diesem Zweck können im SPSS-Paket beim Anklicken einzelner Datenpunkte deren Position in allen Streudiagrammen sichtbar gemacht werden. Diese Möglichkeit erweist sich vor allem dann als nützlich, wenn viele Variablen in die Streudiagramm-Matrix aufgenommen werden. Dabei ist die Obergrenze an gleichzeitig in einer Streudiagramm-Matrix zu untersuchenden Variablen bei maximal zehn11 erreicht, damit die Übersichtlichkeit erhalten bleibt.
3 Fehlervermeidung und Hinweise zum praktischen Vorgehen Angesichts der Vielfalt und Fülle an graphischen Methoden zur Unterstützung von Informationsvisualisierung ist es nicht möglich, einen Katalog typischer Fehler zusammenzustellen. „Datenanalyse kann man nur dadurch erlernen, dass man Datenanalysen durchführt“, schreibt R. Schnell als Gebrauchshinweis zu seinem Buch „Graphisch gestützte Datenanalyse“. Zum Ausprobieren will diese Feststellung animieren. Grundlegende Techniken stehen dazu im Softwarepaket SPSS bereit. Die Software für die fortgeschrittenen und ausgefalleneren Methoden muss man sich oft individuell bei den jeweiligen Entwicklern besorgen. Ein zu Beginn häufig auftretender Fehler ist die Verwendung von Prozeduren, die für die jeweiligen Daten nicht geeignet sind. Sämtliche Überlegungen zur Datenanalyse sollten daher stets die zugrunde liegende Skalenform der Daten (nominal, ordinal, metrisch) berücksichtigen. Der Blick sollte dann auf die Trennung typischer und untypischer Datenlagen und -punkte gerichtet werden. Dabei können statistische Ausreißer identifiziert und entweder aus der Untersuchung entfernt werden oder aber in der Untersuchung verbleiben, weil sie möglicherweise wesentliche Hinweise auf nicht erwartete Besonderheiten der Daten geben können. Die hier besprochenen Verfahren sind zwar computergestützt, erlauben aber trotzdem keine automatische Datenexploration. Die Arbeit mit den Diagrammen und die Interpretation der Diagramme setzen statistische Methodenkenntnisse und viel Wissen über die Dateninhalte voraus. Nur im Zusammenspiel von Erfahrung mit DatenanalyseTechniken und Expertenwissen aus der jeweiligen Fachdisziplin kann eine graphische Datenexploration zu einem statistischen Erfolg geführt werden. Für eine graphische Datenexploration ist Training erforderlich. Selbst erfahrene Datenexplorateure identifizieren manchmal in derselben Graphik unterschiedliche, d. h. widersprüchliche Charakteristika eines Datensatzes. 11
Zur Darstellung höher dimensionaler Datensätze eignen sich spezielle Graphiktools wie z. B. Gesichterdarstellungen (Flury & Riedwyl 1981), Andrews-Plots (Andrews 1972) oder Parallelkoordinatenplots (Inselberg 1985), die hier nicht vorgestellt werden, da sie im SPSS-Paket nicht zur Verfügung stehen.
5 Graphische Datenexploration
115
4 Literaturempfehlungen Bei der Literatur zur graphischen Darstellung in der Statistik ist zu unterscheiden zwischen Lehrbüchern zur Präsentation von Daten sowie Lehrbüchern und Artikeln zur Analyse von Daten. Das „Handbuch des statistischen Schaubilds“ von Abels & Degen (1981) deckt als Einführung den ersten Bereich hinsichtlich Konstruktion, Interpretation und Manipulation von graphischen Darstellungen auch heute noch recht gut ab, während das Buch „Graphisch gestützte Datenanalyse“ von Schnell (1994) in den ersten sechs Kapiteln die grundlegenden Plots und Techniken zur gaphischen Analyse von Daten ausführlich vorstellt. Ergänzt um die Entwicklungen der letzten Jahre und mit speziellem Blick auf die Darstellung großer Datensätze geben Unwin et al. (2006) in ihrem Buch „Graphics of Large Datasets“ einen Überblick über die Methoden zur Visualisierung von Daten.
Anhang
Tab. 1: Datentabelle zum „Anscombe-Quartett“ I
II
III
IV
X
Y
X
Y
X
Y
X
Y
4 5 6 7 8 9 10 11 12 13 14
4,26 5,68 7,24 4,82 6,95 8,81 8,04 8,33 10,84 7,58 9,96
4 5 6 7 8 9 10 11 12 13 14
3,10 4,74 6,43 7,26 8,14 8,77 9,14 9,26 9,13 8,74 8,10
4 5 6 7 8 9 10 11 12 13 14
5,39 5,73 6,08 6,42 6,77 7,11 7,46 7,81 8,15 12,74 8,84
8 8 8 8 8 8 8 8 8 8 19
6,58 5,76 7,71 8,84 8,47 7,04 5,25 5,56 7,91 6,89 12,50
Quelle: Anscombe (1973, S. 19)
116
Horst Degen
Literaturverzeichnis Abels, H. & Degen, H. (1981). Handbuch des statistischen Schaubilds. Herne: NWB. Andrews, D. F. (1972). Plots of High Dimensional Data. Biometrics, 28, 125–136. Anscombe, F. J. (1973). Graphs in Statistical Analysis. The American Statistician, 27, 17–21. Asimov, D. & Buja, A. (1986). Grand Tour Methods. In D. Allen (Hg.), Computer Science and Statistics, Proceedings of the 17th Symposium of the Interface (S. 63–67). New York: Elsevier. Chambers, J. M., Cleveland, W. S., Kleiner, B., & Tukey, P. A. (1983). Graphical Methods for Data Analysis. Belmont: Wadsworth. Cleveland, W. S. (1979). Robust Locally Weighted Regression and Smoothing Scatterplots. Journal of the American Statistical Association, 74, 829–836. Degen, H. & Lorscheid, P. (2002). Statistik-Lehrbuch. München: Oldenbourg, 2. Auflage. Fisherkeller, M. A., Friedman, J. H., & Tukey, J. W. (1971). PRIM-9: An Interactive Multidimensional Data Display and Analysis System. In W. S. Cleveland & M. E. McGill (Hg.), Dynamic Graphics for Statistics (1988) (S. 91–109). Belmont: Wadsworth Inc. Flury, B. & Riedwyl, H. (1981). Graphical Representation of Multivariate Data by Means of Asymmetrical Faces. Journal of the American Statistical Association, 76, 757–765. Hartigan, J. A. & Kleiner, B. (1981). Mosaics for Contingency Tables. In W. F. Eddy (Hg.), Computer Science and Statistics. Proceedings of the 13th Symposium on the Interface (S. 268–273). New York: Springer. Inselberg, A. (1985). The Plane with Parallel Coordinates. The Visual Computer, 1, 69–91. Jambu, M. (1992). Explorative Datenanalyse. Stuttgart: Fischer. Playfair, W. (2005). Playfair’s Commercial and Political Atlas and Statistical Breviary. London: Cambridge. Schnell, R. (1994). Graphisch gestützte Datenanalyse. München: Oldenbourg. Tukey, J. W. (1977). Exploratory Data Analysis. Reading: Addison Wesley. Unwin, A., Theus, M., & Hofmann, H. (2006). Graphics of Large Datasets. Berlin: Springer. Velleman, P. F. (1997). DataDesk Version 6.0 - Statistics Guide. Ithaca: Data Description Inc.
6 Der Umgang mit fehlenden Werten Martin Spieß Universität Hamburg
Zusammenfassung. Dieser Beitrag behandelt zwei breit einsetzbare Techniken zur Kompensation fehlender Werte: Die Gewichtung, die im Wesentlichen zur Kompensation fehlender Einheiten eingesetzt wird, und die Methode der multiplen Imputation, die im Wesentlichen zur Kompensation fehlender Werte von ansonsten beobachteten Einheiten verwendet wird. Die der Gewichtung zugrunde liegende Idee basiert darauf, dass diejenigen Einheiten mit einer geringeren Beobachtungswahrscheinlichkeit relativ zu jenen mit einer höheren Beobachtungswahrscheinlichkeit höher gewichtet werden. Bei der Methode der multiplen Imputation werden für jeden fehlenden Wert mehrere plausible Werte erzeugt, in deren Variation sich die mit diesen Schätzungen verknüpfte Unsicherheit widerspiegelt. Um die Einsatzmöglichkeiten beider Techniken, aber auch deren Grenzen beleuchten zu können, wird zunächst eine Einführung in die gängige Klassifikation der Mechanismen vorgestellt, die es erlaubt, zwischen Ignorierbarkeit und Nicht-Ignorierbarkeit des Missingmechanismus zu unterscheiden. Dieser Unterscheidung kommt eine wichtige Bedeutung zu, denn bei Ignorierbarkeit kann auf die fehleranfällige Modellierung des Missingmechanismus verzichtet werden. In weiteren Abschnitten werden die Methode der Gewichtung und die Methode der multiplen Imputation sowie deren Voraussetzungen ausführlich dargestellt und diskutiert. Dabei wird weitgehend davon ausgegangen, dass der Missingmechanismus ignorierbar ist. Sowohl die Gewichtung als auch die multiple Imputation können prinzipiell aber auch dann eingesetzt werden, wenn der Missingmechanismus nicht ignorierbar ist. In der Anwendung ist dies allerdings problematisch, denn in solchen Fällen wird Information von außerhalb der Stichprobe benötigt, etwa in Form von starken Annahmen, Restriktionen oder Daten. Diese steht jedoch oft nicht zur Verfügung. Der Einsatz beider Methoden wird anhand eines Beispiels veranschaulicht, nämlich der Schätzung einer Einkommensgleichung für Frauen. Zur Kompensation fehlender Personen werden die mit dem verwendeten Datensatz ausgelieferten Gewichte verwendet. Einzelne fehlende Werte werden mit Hilfe einer frei verfügbaren Software mehrfach imputiert.
1 Einführung in Techniken zur Kompensation fehlender Werte 1.1 Klassifikation fehlender Werte, Missingmechanismus und Ignorierbarkeit Fehlende Werte sind ein Problem der meisten in den Sozialwissenschaften verwendeten Datensätze, wobei das Nicht-Beobachten einzelner Werte auch als „Item-Nonresponse“ und das Nicht-Beobachten ganzer Einheiten, als Extremfall von Item-Nonresponse, etwa Personen, Haushalte oder Firmen, als „Unit-Nonresponse“ bezeichnet wird. Standard-Programme zur statistischen Analyse ignorieren meist jene Einheiten, die auf S. 117–142 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_6, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
118
Martin Spieß
wenigstens einer der berücksichtigten Variablen einen fehlenden Wert aufweisen. Die Interpretation der Analyseergebnisse basiert dann auf der meist impliziten Annahme, dass das Ignorieren derjenigen Einheiten mit fehlenden Werten „nicht schädlich ist“. Anders ausgedrückt, wird in diesem Fall davon ausgegangen, dass der Prozess, der zu den fehlenden Werten führte, der Missingmechanismus, ignoriert werden kann. Ob diese Annahme allerdings gerechtfertigt ist, muss jeweils im Einzelfall begründet werden. Ist sie es nicht, können entsprechende Analyseergebnisse zu erheblichen Fehlinterpretationen führen. Um diese zu vermeiden, sind solche Methoden zur Kompensation fehlender Werte einzusetzen, die den zugrunde liegenden Missingmechanismus adäquat berücksichtigen. Im Zentrum aller weiteren Überlegungen steht daher zunächst der Mechanismus, der zu den fehlenden Werten führte. Kann ein Missingmechanismus unterstellt werden, so dass die Wahrscheinlichkeit für das beobachtete Muster an fehlenden Werten unabhängig ist von allen anderen interessierenden Variablen, seien deren Werte beobachtet oder nicht, dann werden die fehlenden Werte als „missing completely at random“ (MCAR) bezeichnet. Dies wäre der Fall, wenn in einer Stichprobe die Wahrscheinlichkeit für das Fehlen von Einkommensangaben weder von anderen Variablen wie Alter noch von der Einkommenshöhe selbst abhängt. Neben inhaltlich interessierenden Variablen, in obigem Beispiel die Variablen Einkommen und Alter, gibt es eine Vielzahl weiterer erhobener bzw. nicht erhobener Variablen („unberücksichtigte Variablen“), wie etwa die Dauer der Datenerhebung für die jeweilige Einheit. Sind die fehlenden Werte MCAR, dann ist entweder die Wahrscheinlichkeit für das beobachtete Muster an fehlenden Werten auch von diesen Variablen unabhängig, oder diese unberücksichtigten Variablen sind selbst unabhängig von den interessierenden Variablen. Der beobachtete Teil der Stichprobe kann, wenn die fehlenden Werte MCAR sind, als eine einfache Zufallsstichprobe aus der ursprünglich vollständigen Stichprobe aufgefasst werden. Die Analyse der Daten mit Standardsoftware für vollständig beobachtete Datensätze führt unter den üblichen Annahmen zu gültigen Schlussfolgerungen. Aber selbst in diesem harmlosen Fall kann die Anwendung von Methoden zur Kompensation fehlender Werte sinnvoll sein, nämlich dann, wenn bei vielen Einheiten jeweils wenige Werte nicht beobachtet werden. Dann würde das Löschen dieser Einheiten zu einem erheblichen Informationsverlust führen. Ist die Wahrscheinlichkeit für das Muster an fehlenden Werten zwar abhängig von beobachteten interessierenden Variablenwerten, nicht aber zusätzlich von den Variablen, deren Werte nicht beobachtet wurden, dann werden die fehlenden Werte als „missing at random“ (MAR) bezeichnet. Nicht beobachtete Einkommensangaben etwa wären dann MAR, wenn deren Fehlen beispielsweise vom Alter, nicht aber zusätzlich von der Höhe des Einkommens selbst abhängt. Im Hinblick auf unberücksichtigte Variablen ist vorauszusetzen, dass die Wahrscheinlichkeit für das beobachtete Muster an fehlenden Werten für gegebene beobachtete Werte der interessierenden Variablen, entweder unabhängig von den unberücksichtigten Variablen ist oder Letztere unabhängig sind von den interessierenden Variablen mit fehlenden Werten. Sind fehlende Werte MAR, dann kann der Missingmechanismus in vielen Fällen ignoriert werden. Allerdings scheitert dies häufig daran, dass Standard-Software nicht adäquat mit unvollständig beobachteten Datensätzen umgehen kann oder daran, dass
6 Der Umgang mit fehlenden Werten
119
für den Missingmechanismus wesentliche Variablen nicht in das inhaltlich interessierende Modell aufgenommen werden. Im Allgemeinen wird es daher für gültige Schlussfolgerungen notwendig sein, eine geeignete Methode zur Kompensation der fehlenden Werte einzusetzen. Immerhin reicht zur Kompensation der fehlenden Werte im Wesentlichen die in der Stichprobe vorliegende Information aus. Üblicherweise unterstellen daher die meisten Kompensationsmethoden, dass die fehlenden Werte MAR sind. Wenn die Wahrscheinlichkeit für das Muster an fehlenden und beobachteten Werten allerdings nicht nur von beobachteten, sondern zusätzlich von den unbeobachteten Variablenwerten selbst abhängt, dann werden die fehlenden Werte als „not missing at random“ (NMAR; auch: „missing not at random“) bezeichnet. In diesem Fall kann die Wahrscheinlichkeit für das beobachtete Muster an fehlenden Werten auch von unberücksichtigten Variablen abhängen und zwar unabhängig davon, ob diese, bei gegebenen Werten der beobachteten interessierenden Variablen, unabhängig sind von den interessierenden Variablen, deren Werte nicht beobachtet wurden. Fehlende Einkommensangaben etwa sind dann NMAR, wenn die Beobachtungswahrscheinlichkeit des Einkommens nicht nur vom Alter, sondern zusätzlich von der Höhe des Einkommens selbst abhängt. Damit ist das Fehlen der Angaben von nicht beobachteter Information abhängig. Zur Kompensation fehlender Werte, die NMAR sind, ist ein erhebliches Maß an Information von außerhalb der Stichprobe im Hinblick auf die Selektivität des beobachteten Teils der Daten nötig, etwa in Form theoretischer Überlegungen oder auf der Basis anderer empirischer Untersuchungen. Auch für diesen Fall wurden Methoden zur Kompensation vorgeschlagen, beispielsweise das Selektionsmodell von Heckman (1976). Weiterführendes hierzu findet sich beispielsweise bei Little & Rubin (2002) und Van der Klaauw & Koning (2003). Ausgangspunkt ist dabei ein Modell, wie es auf der Basis eines vollständig beobachteten Datensatzes geschätzt werden würde. Liegt allerdings Unit-Nonresponse vor, dann ist zunächst der Missingmechanismus zu modellieren und das entsprechende Responsemodell zu schätzen. Dabei kommt bei Heckman (1976) ein Probitmodell für binäre abhängige Variablen zum Einsatz (vgl. Kapitel 31 in diesem Handbuch). In einem zweiten Schritt werden diese Schätzergebnisse verwendet, um im inhaltlich interessierenden Modell die Tatsache zu kompensieren, dass dieses nur auf Basis der beobachteten Fälle geschätzt werden kann. Für eine valide Schätzung spielt dabei die Verteilungsannahme des binären Modells eine wichtige Rolle, die aber meist schwer zu begründen ist. Dies ist das prinzipielle Problem bei Ansätzen zur Kompensation von fehlenden Werten, die NMAR sind: Die Nicht-Testbarkeit der damit verbundenen und meist sehr restriktiven Annahmen. Alternativ zur Formulierung sehr spezifischer und meist kaum überprüfbarer Modelle kann eine Sensitivitätsanalyse durchgeführt werden. Dabei wird das inhaltlich interessierende Modell unter verschiedenen plausiblen Annahmen bezüglich des Missingmechanismus geschätzt. Bleiben die Schlussfolgerungen im Wesentlichen dieselben, ist das interessierende Modell robust gegenüber diesen Missingmechanismen. Zu beachten ist, dass die Klassifikation fehlender Werte als MCAR, MAR oder NMAR von den bei einer Analyse berücksichtigten Variablen und deren Beziehung untereinander abhängt. Wenn beispielsweise das Nicht-Beobachten von Einkommensangaben von der Einstellung zum Datenschutz, nicht aber zusätzlich vom Alter sowie der
120
Martin Spieß
Einkommenshöhe selbst abhängt, diese drei Variablen aber gegenseitig abhängig sind, dann sind fehlende Einkommensangaben MAR wenn neben dem Einkommen auch die Einstellung zum Datenschutz berücksichtigt wird. Werden bei einer Analyse nur die Variablen Einkommen und Alter berücksichtigt, dann sind fehlende Einkommensangaben NMAR, denn das Nicht-Beobachten von Einkommensangaben hängt vom Alter und zusätzlich, vermittelt über die nicht berücksichtigte Einstellung zum Datenschutz, von der Höhe des Einkommens selbst ab. Würde die Einstellung zum Datenschutz nicht berücksichtigt werden und wäre sie unabhängig von Einkommen und Alter, dann wären fehlende Einkommensangaben MCAR, selbst wenn die Wahrscheinlichkeit für das Nicht-Beobachten des Einkommens wie im Beispiel von der Einstellung abhängt. Sind fehlende Werte MCAR, dann ist die Modellierung des Missingmechanismus nicht notwendig, der Missingmechanismus ist ignorierbar. Sind fehlende Werte MAR, dann ist der Missingmechanismus in großen Stichproben im Allgemeinen ebenfalls ignorierbar. Dies ist insbesondere dann der Fall, wenn davon ausgegangen werden kann, dass Missingmechanismus und inhaltlich interessierendes Modell nicht durch einen gemeinsamen Parameter gesteuert werden. Sind die fehlenden Werte NMAR, dann ist der Missingmechanismus im Allgemeinen nicht ignorierbar. Zu beachten ist, dass die Ignorierbarkeit des Missingmechanismus, wie die Klassifikation fehlender Werte, von den berücksichtigten Variablen und deren Beziehungen untereinander abhängt. Weiterhin lassen sich selbst bei Ignorierbarkeit des Missingmechanismus häufig nicht alle Eigenschaften der Schätzer, die bei vollständig beobachteten Datensätzen gelten, auf den Fall unvollständig beobachteter Daten übertragen (z. B. Spieß 2008). So kann bei der Maximum-Likelihood (ML) Methode die Verwendung der erwarteten Fisher’schen Informationsmatrix zur Schätzung der Standardfehler, anders als im Fall vollständig beobachteter Datensätze, zu verzerrten Schlussfolgerungen führen. Bei fehlenden Werten, einem ignorierbaren Missingmechanismus und einer ML Analyse sollte darauf geachtet werden, dass die verwendete Software stattdessen die beobachtete Fisher’sche Informationsmatrix verwendet. Darüber hinaus können Robustheitseigenschaften verloren gehen, die im Falle vollständig beobachteter Datensätze vorliegen. Eine Möglichkeit, dies zu verhindern, besteht im Rahmen des Gewichtungsansatzes darin, den Missingmechanismus explizit zu modellieren. 1.2 Gewichtung Die einer Gewichtung zugrunde liegende Idee geht auf einen design-basierten statistischen Ansatz zurück, der häufig etwa von der amtlichen Statistik gewählt wird. Dabei wird kein statistisches Modell, sondern es werden etwa Summen oder Anteile in endlichen Grundgesamtheiten geschätzt. Solange keine fehlenden Werte vorliegen, wird dabei lediglich die Ziehung der Stichprobe als Zufallsprozess aufgefasst. Die entsprechenden Ziehungswahrscheinlichkeiten sind aus dem gewählten Auswahlverfahren bekannt. Unterschiedliche Ziehungswahrscheinlichkeiten der Einheiten werden bei der Schätzung durch entsprechende Gewichte kompensiert (siehe Kapitel 7 in diesem Handbuch). Dabei wird, etwa bei einer Summenbildung, jede in der Stichprobe beobachtete Einheit mit einem Gewicht multipliziert. Werden alle in die Stichprobe gezogenen
6 Der Umgang mit fehlenden Werten
121
Einheiten beobachtet, handelt es sich bei diesen Gewichten um die Kehrwerte der aus dem (zufälligen) Auswahlverfahren bekannten Ziehungswahrscheinlichkeiten. Dieser Gewichtungsansatz wurde von z. B. Robins et al. (1995) und Wooldridge (2002a) auf modell-basierte Ansätze übertragen, um für Nonresponse und unterschiedliche Ziehungswahrscheinlichkeiten zu kompensieren. Bei modell-basierten Ansätzen steht die Schätzung bestimmter Aspekte statistischer Modelle, etwa der Mittelwertstrukturparameter in Regressionsmodellen, im Vordergrund. Die Zufallsprozesse sind bei diesem Ansatz Bestandteil des Modells, die in einer Stichprobe beobachteten Werte werden, anders als im design-basierten Kontext, als Realisationen entsprechender Zufallsvariablen aufgefasst. Die Ziehung der Stichprobe wird dabei häufig ignoriert. Ausgehend von beiden Ansätzen, kann Unit-Nonresponse als weitere Stufe des Auswahlverfahrens interpretiert werden, diesmal allerdings mit unbekannten „Ziehungswahrscheinlichkeiten“. Anders als die Ziehungswahrscheinlichkeiten im design-basierten Ansatz, sind die bedingten Wahrscheinlichkeiten, die Einheiten zu beobachten, d. h. die Responsewahrscheinlichkeiten, zu schätzen. Dies macht die explizite Modellierung des Missingmechanismus notwendig. Die Wahrscheinlichkeit eine Einheit zu beobachten, erhält man für die beobachteten Einheiten durch Multiplikation der Ziehungs- mit der Responsewahrscheinlichkeit. Durch die Gewichtung jeder beobachteten Einheit mit dem Kehrwert ihrer Responsewahrscheinlichkeit wird gewissermaßen vom beobachteten Teil der Stichprobe, der Netto-Stichprobe, auf die ursprünglich gezogene Stichprobe, die Brutto-Stichprobe, „hochgerechnet“. Schätzung der Responsewahrscheinlichkeiten Die Responsewahrscheinlichkeiten werden mit Hilfe von Modellen für binäre Variablen, meist Logit- oder Probitmodelle (siehe Kapitel 31 in diesem Handbuch), geschätzt. Die binäre abhängige Variable ist der Response-Indikator, der den Wert eins annimmt, wenn die entsprechende Einheit beobachtet wird, und sonst den Wert null. Als unabhängige Variablen sollten alle Variablen aufgenommen werden, die für die Responsewahrscheinlichkeit als wichtig erachtet werden. Voraussetzung ist, dass diese auch für die nicht beobachteten Einheiten beobachtet wurden. Gegebenenfalls sind zusätzlich Interaktionsterme beziehungsweise sonstige Funktionen der unabhängigen Variablen zu berücksichtigen (siehe Kapitel 26 in diesem Handbuch). Zu beachten ist, dass im Allgemeinen nicht die Parameter dieser Modelle, sondern die geschätzten Wahrscheinlichkeiten von zentralem Interesse sind. Es ist daher durchaus sinnvoll, möglichst viele und auch solche Variablen in das Modell aufzunehmen, die nicht aus theoretischen Überlegungen heraus nahe liegen. Tatsächlich führt die Hinzunahme von unabhängigen Variablen in das Responsemodell, selbst wenn diese keine nennenswerte Erklärungskraft besitzen, nicht zu weniger präziseren Aussagen bezüglich des inhaltlich interessierenden Modells. Für einige öffentlich nutzbare Datensätze sind Gewichte verfügbar, die als Kehrwerte von Beobachtungs- bzw. Responsewahrscheinlichkeiten interpretiert werden können. In anderen Fällen müssen die Gewichte selbst erzeugt werden. Während die Modellschätzung mit Standard-Software durchgeführt werden kann, soweit diese die Ausgabe der geschätzten Wahrscheinlichkeiten erlaubt, besteht das Hauptproblem
122
Martin Spieß
darin, möglichst viel an Information auch für die nicht beobachteten Einheiten zu erhalten. Vor Verwendung von Gewichten ist es ratsam, die Häufigkeitsverteilung der Gewichte auf Ausreißer zu inspizieren. Problematisch können geschätzte Beobachtungsoder Responsewahrscheinlichkeiten nahe null werden, da die entsprechenden Einheiten durch die Kehrwertbildung ein sehr hohes Gewicht erhalten. Handelt es sich dabei um Ausreißerwerte, die auf Modellierungsprobleme zurückführbar sind, dann können die Schlussfolgerungen basierend auf der gewichteten Analyse verzerrt sein. Gegebenenfalls sollten entsprechende Einheiten im Hinblick auf fehlerhafte Variablenwerte untersucht bzw. das Responsemodell überdacht werden. Gewichten oder nicht? Bei der Analyse eines unvollständig beobachteten Datensatzes stellt sich die Frage, ob gewichtet werden sollte oder nicht. Werden im Rahmen eines design-basierten Ansatzes Summen oder Anteile in einer endlichen Grundgesamtheit geschätzt, dann sind in der Regel Gewichte zu verwenden. Als Gewicht wird in diesen Fällen im Allgemeinen der Kehrwert der (geschätzten) Beobachtungswahrscheinlichkeit verwendet, d. h. das Produkt der Ziehungs- und der Responsewahrscheinlichkeit. Stimmt die zugrunde gelegte mit der realisierten Ziehungswahrscheinlichkeit überein, ist weiterhin das Modell des Missingmechanismus zur Schätzung der Responsewahrscheinlichkeit korrekt spezifiziert und würde das gewählte Schätzverfahren bei vollständig beobachteten Datensätzen zu gültigen Schlussfolgerungen führen, dann ist dies im Allgemeinen auch bei unvollständig beobachteten Datensätzen der Fall. Unter einem modell-basierten Ansatz ist die Frage danach, ob gewichtet oder ungewichtet geschätzt werden sollte, nicht so einfach zu beantworten. Die Beantwortung hängt u. a. vom zu schätzenden, inhaltlich interessierenden Modell und dem gewählten Schätzansatz ab. Im Folgenden wird vorausgesetzt, dass die Schätzung über ein Minimierungsverfahren, etwa ein Kleinst-Quadrate Verfahren, oder über ein Maximierungsverfahren, etwa ein ML Verfahren, erfolgt (siehe Kapitel 10 in diesem Handbuch). Generell birgt eine gewichtete Schätzung die Gefahr, dass das Modell zur Schätzung der Responsewahrscheinlichkeiten nicht korrekt spezifiziert ist, selbst wenn alle relevanten Variablen berücksichtigt wurden. Beispielsweise kann der Einfluss einer unabhängigen Variablen fälschlicherweise als Polynom ersten anstatt zweiten Grades modelliert worden sein oder wichtige Interaktionen wurden ignoriert. Eine gewichtete Schätzung kann dann zu falschen Schlussfolgerungen führen. Weiterhin führt eine gewichtete Schätzung im Vergleich zu einer ungewichteten Schätzung in vielen Fällen zu größeren Standardfehlern und damit zu weniger präzisen Aussagen. Eine Schätzung kann und sollte daher dann ungewichtet erfolgen, wenn die Beobachtungswahrscheinlichkeit alleine von Kovariablen abhängt, auf die im zu schätzenden inhaltlichen und korrekt spezifizierten Modell konditioniert wird. Die Aufteilung in abhängige und unabhängige Variablen schließt insbesondere die Schätzung allgemeiner Regressionsmodelle ein. Ist dagegen davon auszugehen, dass die Beobachtungswahrscheinlichkeit der Einheiten von Variablenwerten abhängt, die zwar sowohl für beobachtete als auch für
6 Der Umgang mit fehlenden Werten
123
nicht beobachtete Einheiten vorliegen, aber nicht als Kovariablen in das inhaltliche Modell aufgenommen werden und von denen angenommen werden muss, dass sie von den als zufällig behandelten Variablen des inhaltlich interessierenden Modells nicht unabhängig sind, dann sollte gewichtet geschätzt werden. Dies könnte etwa dann der Fall sein, wenn die Beteiligung an einer Haushaltsstichprobe durch Variablen, die das Wohnumfeld charakterisieren, statistisch „erklärt“ werden kann, nicht aber zusätzlich von Variablen, die nur nach Befragung der Haushaltsmitglieder beobachtbar sind. Generell sollten bei der Schätzung der Responsewahrscheinlichkeiten alle Kovariablen, die einen Einfluss auf die Responsewahrscheinlichkeit ausüben könnten, in das Modell aufgenommen werden. Dabei ist zu beachten, dass es im Allgemeinen nicht um inhaltlich zu interpretierende Modelle, sondern um die konsistente Schätzung der Responsewahrscheinlichkeiten geht. Daher kann auch die Aufnahme nicht intuitiver Kovariablen sowie höherer Polynome und Interaktionen der berücksichtigten Kovariablen sinnvoll sein. Da in vielen Fällen die Ziehung von Einheiten unabhängig von den Zufallsvariablen der interessierenden inhaltlichen Modelle ist, etwa der abhängigen Variablen in einem Regressionsmodell, können die Ziehungswahrscheinlichkeiten bei der Analyse oft vernachlässigt werden. Die Beobachtungswahrscheinlichkeiten werden dann zu Responsewahrscheinlichkeiten (für eine ausführliche Diskussion siehe z. B. Wooldridge 2007). Im Rahmen eines modell-basierten Ansatzes sind die Varianzen der inhaltlich interessierenden Parameterschätzer bei einer gewichteten Analyse über eine robuste Version des Varianzschätzers zu schätzen (siehe z. B. Wooldridge 2002a). Wenn diese in entsprechenden Software-Paketen nicht ohnehin Voreinstellung bei einer gewichteten Schätzung ist, dann kann sie oft über eine Option „robust“ oder „sandwich“ gewählt werden. Ergänzungen Bei der Schätzung von Längsschnitt- oder Panelmodellen tritt Unit-Nonresponse üblicherweise nicht nur in der ersten Erhebungswelle, sondern meist auch in allen Folgewellen auf. Zur Kompensation dieser „Panelabnutzung“ (engl. Panelattrition) schlagen z. B. Robins et al. (1995) eine Erweiterung des Gewichtungsansatzes auf die Schätzung von allgemeinen Panelregressionsmodellen vor. Die Gewichtung ist bei den dort betrachteten Modellen in jedem Falle dann notwendig, wenn die fehlenden Werte MAR sind, um die Robustheit dieser Modelle gegenüber Fehlspezifikationen der modellierten Korrelationsstruktur zu bewahren. Die zugrunde liegende Idee ist es, jede beobachtete Einheit mit dem Kehrwert der Wahrscheinlichkeit zu gewichten, diese Einheit am entsprechenden Zeitpunkt zu beobachten. Als Gewichte werden dann die Kehrwerte dieser geschätzten Wahrscheinlichkeiten verwendet. Panelabnutzung führt dazu, dass sich die Beobachtungswahrscheinlichkeiten der verbleibenden Einheiten und somit deren Gewichte über die Zeit ändern. Obwohl dieses Gewichtungskonzept technisch leicht umsetzbar ist, ist es in den meisten Standard-Softwarepaketen noch nicht möglich, solche zeitvariierenden Gewichte zu verwenden. Erheblich allgemeiner, technisch aufwendiger und daher ebenfalls in verfügbaren Softwarepaketen nicht umgesetzt, sind Vorschläge, Gewichtungsverfahren auch zur
124
Martin Spieß
Kompensation fehlender Variablenwerte einzusetzen. Oft basieren Analysen auf Datensätzen, die sowohl von Unit- als auch von Item-Nonresponse betroffen sind. Werden Gewichte zur Kompensation fehlender Einheiten verwendet, dann stellt sich zusätzlich die Frage, wie mit Item-Nonresponse umzugehen ist. Standardprogramme würden jene Einheiten ignorieren, die fehlende Werte aufweisen, Item-Nonresponse ist dann gleichbedeutend mit Unit-Nonresponse. Insbesondere für diesen Fall wurden verschiedene Imputationsverfahren vorgeschlagen, bei denen jeder fehlende Wert durch einen oder mehrere Schätzwerte ersetzt wird. 1.3 Multiple Imputation Voraussetzungen Imputationsmethoden basieren darauf, nicht beobachteten Variablenwerten in gewissem Sinne plausible Werte zuzuschreiben (engl. to impute) und einen unvollständig beobachteten Datensatz mit solchen „Imputationen“ aufzufüllen. Anschließenden Analysen liegt dann ein vervollständigter Datensatz zugrunde. Einen solchen aufgefüllten Datensatz wie einen vollständig beobachteten Datensatz zu behandeln, ist aber nur dann zulässig, wenn die imputierten Werte mit Sicherheit identisch mit den unbeobachteten Werten sind. In allen anderen Fällen handelt es sich bei den imputierten Werten lediglich um mit Unsicherheit behaftete Schätzwerte. Im Hinblick auf valide Schlussfolgerungen bezüglich der inhaltlich interessierenden Fragestellung, sind also vor allem zwei Aspekte wichtig: Erstens sollten die Modelle zur Erzeugung der Imputationen „angemessen“ sein und zweitens ist die Frage zu beantworten, ob und wie die Unsicherheit in den imputierten Werten bei den nachfolgenden Analysen zu berücksichtigen ist. Beiden Aspekten trägt die theoretisch begründete Methode der multiplen Imputation (Rubin 1987) Rechnung, indem für jeden fehlenden Wert auf der Basis statistischer Modelle mehrere (m = 1, . . . ,M ) plausible Werte oder Imputationen erzeugt werden, in deren Variation sich die mit diesen Schätzwerten verbundene Unsicherheit widerspiegelt. Zu beachten ist allerdings, dass valide Schlussfolgerungen erst dann begründet sind, wenn die zu imputierenden Werte mit einer „geeigneten“ Imputationsmethode erzeugt wurden. Eine multiple Imputationsmethode ist dann geeignet (siehe Rubin 1987), wenn der multipel imputierte Datensatz valide Schlussfolgerungen bezüglich der ursprünglich vollständigen Stichprobe erlaubt und wenn die Varianz der inhaltlich interessierenden Schätzer über die M imputierten Datensätze hinweg hinreichend genau geschätzt werden kann. Führt weiterhin die ausgewählte Schätzmethode für vollständig beobachtete Datensätze unter den üblichen Annahmen zu validen Schlussfolgerungen, dann erlaubt auch die Inferenz basierend auf dem multipel imputierten Datensatz im Allgemeinen valide Schlüsse. Wie sind nun die multiplen Imputationen zu erzeugen, so dass die für valide Schlussfolgerungen notwendigen Eigenschaften in Anspruch genommen werden können? Zunächst ist eine multiple Imputationsmethode tendenziell dann geeignet, wenn die zu imputierenden Werte mit Hilfe geeigneter (Prädiktions-)Modelle basierend auf einem Bayes-Ansatz erzeugt werden – oder basierend auf einem Ansatz, der Bayes’sche
6 Der Umgang mit fehlenden Werten
125
Imputationen approximiert. Dies bedeutet, dass geeignete statistische Modelle zur Schätzung der nicht beobachteten Werte zu formulieren und zu schätzen sind. Jeder fehlende Wert ist dann durch mehrere plausible Prädiktionen zu ersetzen, in deren Variation alle Unsicherheitsquellen adäquat zu berücksichtigen sind. Sind die Prädiktionsmodelle geeignet spezifiziert – sie müssen nicht notwendigerweise identisch mit den „wahren“ Modellen sein – dann handelt es sich bei diesen Unsicherheitsquellen einerseits um die in jedem statistischen Modell explizit angenommenen zufälligen Fehlervariablen und andererseits um die Unsicherheit, die darauf zurückzuführen ist, dass die „wahren“ Prädiktionsmodelle unbekannt sind und zumindest die entsprechenden Parameter geschätzt werden müssen. Diese letztere Unsicherheitsquelle wird bei einem Bayes-Ansatz durch die Annahme plausibler Verteilungen der Modellparameter vor Beobachtung der Daten berücksichtigt, in denen sich das a priori Wissen oder die a priori Annahmen bezüglich der Parameter widerspiegeln („a priori Verteilung“) und die im Lichte der Daten in die „a posteriori Verteilung“ übergeht. Im Rahmen des klassischen inferenzstatistischen Ansatzes, bei dem die Parameter eines Modells als feste aber unbekannte Größen aufgefasst werden, kann durch die wiederholte Ziehung von Bootstrap-Stichproben die mit den geschätzten Parametern der Prädiktionsmodelle verknüpfte Unsicherheit abgebildet werden. Software, die multiple Imputationen theoretisch fundiert erzeugt, basiert im Allgemeinen auf einem Bayes-Ansatz, seltener auf einem Bootstrap-Ansatz (siehe Kapitel 9 in diesem Handbuch). Imputationen, die mit Hilfe eines Bootstrap-Ansatzes anstatt über eine a priori Verteilung erzeugt werden, können aber als Approximation an mit Hilfe des Bayes-Ansatzes erzeugte Imputationen aufgefasst werden („Approximative Bayes Bootstrap“, ABB). Erzeugung multipler Imputationen Bislang sind nur wenige große und öffentlich zugängliche Datensätze mit multiplen Imputationen zur Kompensation fehlender Werte ausgestattet, die zudem noch mit Hilfe geeigneter Methoden erzeugt wurden. Dabei ist die Ausgangsidee der multiplen Imputation sehr attraktiv: Datenbereitsteller besitzen meist die nötigen Ressourcen (statistisches Wissen, Rechner- bzw. Arbeitszeit) und Informationen (z. B. Variablen, die aus Datenschutzgründen nicht weitergegeben werden dürfen), um die multiplen Imputationen zu erzeugen. Ist ein Datensatz einmal (geeignet) multipel imputiert, sind eine ganze Reihe von Analysen möglich. Sehr ineffizient ist es dagegen, wenn jede(r) Nutzer(in) für einzelne Analysen selbst multiple Imputationen erzeugt. Da es aber noch nicht üblich ist, Datensätze mit geeigneten multiplen Imputationen auszuliefern, sind die Imputationen für die meisten Sekundäranalysen, wie auch für selbst erhobene Datensätze, nach wie vor individuell zu erzeugen. Dafür stehen eine Reihe von Programmen zur Verfügung, entweder als eigenständige Versionen oder als Teil größerer Statistik-Pakete. Neben kommerziellen Versionen sind entsprechende Programme auch als Freeware verfügbar. Unterstellt wird im Allgemeinen, dass die fehlenden Werte MCAR oder MAR sind. Imputationsmethoden, für die nicht theoretisch begründet werden kann, dass die resultierenden inhaltlich interessierenden Schätzer valide Aussagen erlauben, können
126
Martin Spieß
zu völlig falschen Schlüssen führen. Bei der Auswahl eines Programmes zur Erzeugung multipler Imputationen ist daher darauf zu achten, dass die Imputationen auf einer theoretisch fundierten Basis erzeugt werden. Stehen mehrere solcher Programme zur Verfügung, dann hängt die Auswahl des Programms auch davon ab, ob es sich bei den Variablen mit fehlenden Werten nur um stetige Variablen handelt oder ob auch andere, beispielsweise binäre Variablen von fehlenden Werten betroffen sind. In ersterem Fall bietet sich zur Erzeugung der zu imputierenden Werte ein Programm an, bei dem – gegebenenfalls nach geeigneter Transformation – als gemeinsame Verteilung der Variablen mit fehlenden Werten, gegeben alle anderen Variablen und Parameter, auch als prädiktive a posteriori Verteilung bezeichnet, die multivariate Normalverteilung angenommen wird (siehe Schafer 1997). Allerdings sollte ein solches Programm nicht verwendet werden, wenn auch kategoriale, insbesondere binäre Variablen zu imputieren sind. Zwar ist es naheliegend, Imputationen zunächst unter Annahme einer stetigen Variable zu imputieren, um anschließend zu runden, aber diese Vorgehensweise führt zu verzerrten inhaltlich interessierenden Schätzern. Sind verschiedene Variablentypen zu imputieren, dann sollte ein Programm verwendet werden, das dies explizit erlaubt. Ein solches frei verfügbares Programm ist IVEware (Raghunathan et al. 2002, siehe http://www.multiple-imputation.com/), das für jede zu imputierende Variable ein eigenes Imputationsmodell spezifiziert und gleichzeitig sehr flexibel ist. So können Interaktions- oder quadratische Terme der Kovariablen der Imputationsmodelle formuliert werden. Auch lassen sich mögliche Wertebereiche für die zu imputierenden Variablen angeben, beispielsweise könnten zu imputierende Altersangaben auf den Bereich von 17 bis 100 Jahre beschränkt werden. Weiterhin können bestimmte zu imputierende Subpopulationen definiert werden. So kann etwa die Menge der Einheiten, für die Werte für die Variable „Einkommen aus Arbeit“ zu imputieren ist auf diejenigen beschränkt werden, die zu dem entsprechenden Zeitpunkt beschäftigt waren, wobei diese Angabe auch selbst wieder imputiert sein kann. Bei den Modellen zur Erzeugung der Imputationen handelt es sich um Regressionsmodelle, die auf der Basis beobachteter Variablenwerte geschätzt werden. Grundsätzlich sollten in diesen Modellen möglichst viele Kovariablen, deren Interaktionen bzw. andere Funktionen der Kovariablen genutzt werden um die Chance zu minimieren, dass fehlende Werte NMAR sind. Wie bei der Schätzung von Responsewahrscheinlichkeiten geht es auch hier um die Prädiktion, d. h. die Modelle selbst sind nicht von inhaltlichem Interesse. Konsequenterweise sollten zwar alle inhaltlich begründeten Kovariablen als Prädiktoren aufgenommen werden, d. h. solche von denen angenommen wird, dass sie mit der jeweils zu imputierenden Variable korrelieren. Darüber hinaus können aber auch Feldvariablen, etwa Schicht- oder geographisch kleinräumige Informationen und Ziehungsvariablen, sowie Variablen, die mit der Responsewahrscheinlichkeit der Einheiten zusammenhängen, aber auch geschätzte Responsewahrscheinlichkeiten selbst, sinnvoll sein. Andererseits kann eine sehr große Zahl an Prädiktoren zu Multikollinearitäten oder linearen Abhängigkeiten und damit zu technischen Problemen führen. Mit IVEware lässt sich dieses Problem entweder durch die Angabe einer maximalen Anzahl an Prädiktoren für die verschiedenen Imputationsmodelle bzw. durch die Festsetzung
6 Der Umgang mit fehlenden Werten
127
der minimal notwendigen Erklärungskraft für die Aufnahme eines Prädiktors in das jeweilige Imputationsmodell lösen. Von wenigen Ausnahmen abgesehen, basiert die Erzeugung der zu imputierenden Werte auf sog. Markov Chain Monte Carlo (MCMC) Methoden. Dabei werden die zu imputierenden Werte nicht direkt aus der gesuchten prädiktiven a posteriori Verteilung aller Variablen mit fehlenden Werten, sondern sukzessive aus geeigneten bedingten Verteilungen erzeugt. Genauer werden bei diesen Simulationsmethoden wiederholt Werte auf der Basis bereits für andere Variablen und Parameter generierter Werte erzeugt. Nach einer ausreichenden Anzahl solcher Wiederholungen konvergiert die Verteilung der erzeugten Werte unter schwachen Bedingungen gegen die – falls eine solche existiert – prädiktive a posteriori Verteilung und die Imputationen können als von den Anfangswerten unabhängige Ziehungen aus dieser prädiktiven a posteriori Verteilung interpretiert werden. Die Anzahl an Wiederholungen („Iterationen“) sollte so hoch wie möglich gewählt werden, wobei die mindestens notwendige Anzahl abhängig von der jeweiligen Situation ist, etwa dem Anteil an fehlender Information in der Stichprobe. In der Literatur finden sich Angaben von zehn bis mehreren tausend Iterationen. Einige Programme geben Kennzahlen aus, die helfen sollen die Konvergenz zu beurteilen. Für eine ausführliche Diskussion, siehe Schafer (1997). Nach der letzten Iteration wird ein erster Satz an zu imputierenden Werten abgespeichert. Um für jeden fehlenden Variablenwert des Datensatzes eine zweite Imputation zu erzeugen, muss die Gesamtanzahl an Iterationen erneut durchlaufen werden. Alternativ können Imputationen auch aus parallelen Ketten erzeugt werden (siehe z. B. Schafer 1997). Für die die Anzahl M an Imputationen gilt: Je mehr desto besser, wobei im Hinblick auf die derzeitigen Rechnergenerationen Angaben von M = 5 bis M = 20 zu finden sind. Auswertung multipel imputierter Datensätze Während die Erzeugung multipler Imputationen mit Hilfe einer geeigneten Imputationsmethode im Allgemeinen sehr anspruchsvoll ist, ist die Auswertung eines multipel imputierten Datensatzes vergleichsweise einfach. So wird jeder einzelne der M imputierten Datensätze mit Standardsoftware für vollständig beobachtete Datensätze ausgewertet. Dies liefert M Schätzwerte für den interessierenden Parameter bzw., im design-basierten Kontext, für den interessierenden Kennwert, θˆm , und M geschätzte ˆ Dabei kann var ˆ jeweils als geschätzter quaVarianzen des Schätzers, var
m (θ).
m (θ) ˆ drierter Standardfehler des Parameterschätzers θm des verwendeten Analysemodells interpretiert werden, wenn alle Werte beobachtet worden wären. Der Parameter des inhaltlich interessierenden Modells bzw. der interessierende Kennwert kann mit M 1 ˆ θˆ = θm M m=1
(1)
und dessen asymptotische Varianz mit 1 ˆ = var var
b var(
θ)
w + 1+ M
(2)
128
Martin Spieß
M geschätzt werden. Dabei ist var
w = 1/M m=1 var(
θˆm ) ein Schätzer der „Within“M ˆ ˆ 2 ein Schätzer der „Between“-Varianz der Varianz und var
b = 1/(M −1) m=1 (θm − θ) Schätzwerte über die M imputierten Datensätze. Der geschätzte Anteil an fehlender Information in der Stichprobe, bedingt durch die nicht beobachteten Werte, ist eine ˆ Der geschätzte Funktion des Verhältnisses der Terme (1 + M −1 )var
b und var(
θ): Anteil an fehlender Information ist höher, je größer unter sonst gleichen Bedingungen, die geschätzte, auf die Variation in den Imputationen zurückgehende „Between“Varianz relativ zur geschätzten Gesamtvarianz ist. Zu beachten ist, dass der Begriff der fehlenden Information, nicht mit dem Anteil an fehlenden Werten identisch ist (Rubin 1987). Unter recht allgemeinen Voraussetzungen, kann θˆ in großen Stichproben und bei hinreichend großem M im Allgemeinen als ungefähr normalverteilt angenommen werden (Rubin 1987). Bei einer kleinen Anzahl an Imputationen bzw. bei kleinen Datensätzen kann es allerdings notwendig werden, die Normalverteilung für θˆ durch eine t-Verteilung mit einer angepassten Anzahl an Freiheitsgraden zu ersetzen (siehe Little & Rubin 2002, und die dort zitierte Literatur). Wie üblich können dann Konfidenzintervalle angegeben und Tests durchgeführt werden. Ergänzungen Wie bei dem in Abschnitt 1.2 beschriebenen Gewichtungsansatz, wird auch bei der Kompensation mit Hilfe der multiplen Imputation unterstellt, dass fehlende Werte schlimmstenfalls MAR sind. Diese Annahme lässt sich nicht immer aufrecht erhalten. Stattdessen ist sicher häufig davon auszugehen, dass ein Teil der nicht beobachteten Werte MCAR oder MAR und ein weiterer Teil NMAR ist. Allerdings gibt es einige Hinweise, dass selbst dann die resultierenden Schlussfolgerungen oft nur unwesentlich verzerrt sind, solange die Fehlspezifikationen nicht zu massiv sind (z. B. Spieß 2008). Dies rechtfertigt die beschriebene Vorgehensweise in vielen typischen Situationen mit fehlenden Werten, was allerdings nicht von der Pflicht befreit, die Anwendung der Methode in jedem Einzelfall zu begründen. Die Anwendungsmöglichkeit der Methode der multiplen Imputation beschränkt sich nicht auf Item-Nonresponse. Tatsächlich lassen sich prinzipiell auch ganze Einheiten imputieren. Dies ist insbesondere für einfache Längsschnitte interessant, bei denen Einheiten zu einem späteren Zeitpunkt ausfallen. Allerdings sind in diesen Fällen Abhängigkeiten der Variablen über die Zeit zu berücksichtigen, etwa indem die an den Einheiten erhobenen Variablen aus allen Jahren jeweils in einem langen Vektor zusammengefasst werden (Spieß 2008). Zu beachten ist aber, wie bei allen anderen Kompensationsmethoden auch, dass der Anteil an fehlender Information nicht zu hoch sein sollte, denn je höher dieser Anteil, desto stärker hängen die Schlussfolgerungen von den Imputationsmodellen oder, im Falle der Gewichtung, von den Responsemodellen ab. So wurde die Methode der multiplen Imputation für einen Anteil an fehlender Information von bis zu 30 % konzipiert. Bei einem Anteil von mehr als 50 % kommt den Imputationsmodellen ein zu hohes Gewicht zu.
6 Der Umgang mit fehlenden Werten
129
2 Mathematisch-statistische Grundlagen 2.1 Klassifikation fehlender Werte, Missingmechanismus und Ignorierbarkeit In Abschnitt 1.1 wurde darauf hingewiesen, dass die Ignorierbarkeit des Missingmechanismus vom Missingmechanismus selbst, von den berücksichtigten Variablen aber auch von der eingesetzten Analysemethode abhängt. Im Falle fehlender Werte werden für jede Einheit i = 1, . . . , n neben den interessierenden Variablen, uij (j = 1, . . . , J), auch „Response-Indikatoren“, rij , beobachtet, die – als binäre Zufallsvariablen konzipiert – für jede Variable uij angeben, ob der Wert dieser Variablen beobachtet wurde (rij = 1) oder nicht (rij = 0) und bei der Analyse von Datensätzen mit fehlenden Werten zu berücksichtigen sind. Der Einfachheit halber sollen die an Einheit i erhobenen Variablen in einem Vektor ui und die entsprechenden Response-Indikatoren im Vektor ri zusammengefasst werden. Üblicherweise wird auf der Basis modell-basierter Ansätze von Unabhängigkeit der Einheiten ausgegangen und davon, dass die Modelle für alle i = 1, . . . , n in gleicher Weise gelten. Es soll daher zunächst der Index i ignoriert werden. Der Missingmechanismus wird als ein Modell für die binären Variablen r aufgefasst, g(r|u; γ), mit γ einem unbekannten Parametervektor. Liegen fehlende Werte vor, dann wurden die Werte eines Teils des Vektors u beobachtet, mit uobs bezeichnet, und Werte des anderen Teils nicht. Letzterer soll mit umis bezeichnet werden. Fehlende Werte sind damit MAR, wenn g(r|uobs ; γ) = g(r|uobs ,umis ; γ)
(3)
für alle möglichen Werte von umis . Sie sind MCAR, wenn g(r; γ) = g(r|uobs ,umis ; γ)
(4)
für alle möglichen Werte von uobs und umis . Zur Schätzung eines Modells wird häufig auf die ML Methode (siehe Kapitel 10 in diesem Handbuch) zurückgegriffen. In diesem Fall ist die Wahrscheinlichkeits- bzw. Dichtefunktion der als zufällig aufgefassten Variablen zu modellieren. Im Falle fehlender Werte sind neben den inhaltlich interessierenden Variablen u auch die (zufälligen) Response-Indikatoren zu berücksichtigen. Ausgangspunkt ist im Allgemeinen die Modellierung der Verteilung der Variablen im vollständigen Datensatz. Die entsprechende Wahrscheinlichkeits- bzw. Dichtefunktion soll im Folgenden mit f (u; θ) bezeichnet werden, wobei θ ein unbekannter Parametervektor ist. Liegen fehlende Werte vor, dann ist Ausgangspunkt der Inferenz die gemeinsame Verteilung von u und r, h(u,r; θ,γ) = f (uobs ,umis ; θ)g(r|uobs ,umis ; γ) ,
(5)
die sich als Produkt der gemeinsamen Verteilung von uobs und umis und der bedingten Verteilung von r|uobs ,umis schreiben lässt (vgl. Multiplikationstheorem für beliebige Ereignisse).
130
Martin Spieß
Um den Parameter θ schätzen zu können, ist allerdings zu berücksichtigen, dass ein Teil der Variablenwerte in u nicht beobachtet wurde. Daher wird durch Herausintegrieren der Variablen umis die Randverteilung der uobs gebildet. Sind weiterhin die fehlenden Werte MAR, dann zerfällt die Verteilung der Variablen mit beobachteten Werten wegen (3) in fobs (uobs ; θ)g(r|uobs ; γ) .
(6)
Die entsprechende Log-Likelihood-Funktion zerfällt in zwei Summanden, l(θ,γ) = ln fobs (uobs ; θ) + ln g(r|uobs ; γ) .
(7)
Zur Schätzung von θ kann nun l(θ) ≡ ln fobs (uobs ; θ) verwendet werden. ML-Schätzer ist jener Wert, der diese Funktion für festes uobs maximiert. Trägt der Parameter γ keine Information für θ, dann ist der zweite Summand irrelevant im Hinblick auf die Schätzung von θ, der Missingmechanismus ist ignorierbar. 2.2 Gewichtung Bei der Schätzung eines statistischen Modells ist meist eine Funktion zu maximieren (z. B. ML Methode) oder zu minimieren (z. B. Kleinst-Quadrate (KQ) Methode). Da das Minimierungs-Problem über einen Vorzeichenwechsel in ein Maximierungsproblem überführt werden kann, soll im Folgenden nur noch von der Maximierung einer entsprechenden Funktion die Rede sein. Da Regressionsmodelle basierend auf Querschnittsdaten in diesem Kontext von zentralem Interesse sind, soll im Folgenden der Vektor ui in einen Skalar yi , der die abhängige Variable bezeichnet, und einen Vektor xi , der die unabhängigen Variablen bezeichnet, aufgespalten werden. Weiterhin liegt oft ein Variablenvektor vor, dessen Werte immer beobachtet werden, etwa die Wohnumgebung von Personen, die aber, zumindest teilweise, für das inhaltlich interessierende Modell keine Bedeutung haben. Dieser Vektor, der auch Elemente mit xi gemeinsam haben kann, soll mit zi bezeichnet werden. Wenn für alle Einheiten beobachtet, was allerdings im hier betrachteten Fall von Unit-Nonresponse unrealistisch ist, kann zi auch yi beinhalten. Weiterhin soll der Response-Indikator ri angeben, ob die i-te Einheit beobachtet wurde (ri = 1) oder nicht (ri = 0). Im Zentrum der Schätzung eines Regressionsmodells steht die Funktion m(ui ; θ), mit θ dem interessierenden Parameter. Bei der ML Schätzung ist dies der natürliche Logarithmus der bedingten Dichte- bzw. Wahrscheinlichkeitsfunktion von yi |xi , bei einer KQ Schätzung die mit einem negativen Vorzeichen versehene quadrierte Abweichung der beobachteten abhängigen Variable vom entsprechenden Mittelwertmodell. Werden nicht alle Einheiten beobachtet, dann ist die zu maximierende Funktion auch Funktion des Response-Indikators. Mit πi der Wahrscheinlichkeit dafür, dass ri den Wert eins annimmt, wird die zu maximierende Funktion zu q(θ) =
n ri m(ui ; θ) , π i=1 i
(8)
6 Der Umgang mit fehlenden Werten
131
ˆ erhält wobei ri /πi als Gewicht der i-ten Einheit bezeichnet wird. Einen Schätzer θ man durch Maximieren der Funktion nach θ. Werden alle Einheiten beobachtet, ist ri = 1 und πi = 1 für alle i. Fehlen Einheiten, dann wird die Summe in (8) nur über die beobachteten Einheiten gebildet. Ein gewichteter Schätzer besitzt dann Eigenschaften, die valide Aussagen erlauben, wenn, neben üblichen Voraussetzungen, E[{ri /πi } m(ui ; θ)] = E[m(ui ; θ)]
(9)
gilt, wobei der Erwartungswert bezüglich aller als zufällig behandelten Variablen gebildet wird. Dies ist offensichtlich dann der Fall, wenn E[{ri /πi }|ui ,zi ] = 1, d. h. wenn Pr(ri = 1|ui ,zi ) = πi gilt. Die unbekannte Wahrscheinlichkeit πi = Pr(ri = 1|ui ,zi ) muss geschätzt werden, wofür aber Information auch für alle nicht beobachteten Einheiten benötigt wird. Damit wird die Annahme nötig, dass die Wahrscheinlichkeit für ri = 1 nur von beobachteten Variablenwerten abhängt, anders ausgedrückt, dass Pr(ri = 1|ui ,zi ) = Pr(ri = 1|zi ). Die Wahrscheinlichkeiten πi werden üblicherweise mit Hilfe der Maximum-Likelihood Methode über Modelle für binäre abhängige Variablen geschätzt. Eine Gewichtung ist daher dann angebracht, wenn die Responsewahrscheinlichkeit von Variablen in zi abhängt, die bei gegebenem xi nicht unabhängig von yi sind und auf die im interessierenden Modell nicht konditioniert wird. Die fehlenden Werte wären bei einer ungewichteten Schätzung im Hinblick auf die berücksichtigten Variablen NMAR. Wird ein Modell ohne Kovariablen geschätzt, beispielsweise der Erwartungswert der Variablen yi , dann wäre immer dann zu gewichten, wenn die Responsewahrscheinlichkeit von zi abhängt und auch yi nicht unabhängig von zi ist. Wie aus (8) und (9) ersichtlich, ist die Verwendung der Gewichte dann überflüssig, wenn Pr(ri = 1|ui ,zi ) = Pr(ri = 1|xi ), wenn also die Responsewahrscheinlichkeit nur von in das Modell aufgenommenen Kovariablen abhängt. In diesem Fall ist E[{ri /πi } m(ui ; θ)] = E[{ri /πi }] E[m(ui ; θ)] = E[m(ui ; θ)]
(10)
denn der Erwartungswert ist bezüglich der Variablen ri und yi zu bilden, während auf die Kovariablen konditioniert wird. Tatsächlich sollte in diesem Fall nicht gewichtet werden, denn eine Gewichtung würde im Allgemeinen zu größeren Standardfehlern führen. Zu beachten ist, dass in diesem Fall die Responsewahrscheinlichkeit von Variablen abhängen kann, die nicht für alle Einheiten beobachtet werden. Schädlich wäre eine Gewichtung im Allgemeinen dann, wenn die Schätzung der Responsewahrscheinlichkeiten auf zi , nicht aber auf Variablen in xi basiert, etwa weil diese nicht für alle Einheiten beobachtet wurden, obwohl letztere einen bedeutsamen Einfluss nicht nur auf yi , sondern auch auf ri besitzen. Wenn in (8) anstatt „wahrer“, geschätzte Wahrscheinlichkeiten verwendet werden, ˆ unter den oben genannten und weiteren üblichen Bedingungen dann ist der Schätzer θ dennoch konsistent und asymptotisch normalverteilt (Robins et al. 1995; Wooldridge 2002b). Seine Varianz kann in großen Stichproben über einen robusten Varianzschätzer („Sandwich“-Schätzer) geschätzt werden. Die Verwendung geschätzter Responsewahrscheinlichkeiten führt gegenüber einer Verwendung der wahren Responsewahrscheinˆ Üblicherweise werden die geschätzten lichkeiten zu kleineren Varianzen der Schätzer θ.
132
Martin Spieß
als „wahre“ Wahrscheinlichkeiten behandelt. In diesem Fall erhält man etwas zu große Standardfehler, die Inferenz ist konservativ, d. h. Konfidenzintervalle sind etwas zu groß, Null-Hypothesen werden tendenziell etwas zu selten abgelehnt. 2.3 Multiple Imputation Ausgangspunkt der theoretischen Begründung der Methode der multiplen Imputation ist ein Bayes’scher Ansatz (Rubin 1987). Anders als bei der klassischen statistischen oder einer Likelihood Inferenz, wird dabei angenommen, dass die Modellparameter selbst Zufallsvariablen sind und sich das Vorwissen über diese in Form einer sogenannten a priori Verteilung der Parameter niederschlägt. Im Lichte der Daten wird die a priori in die a posteriori Verteilung der Parameter überführt. Ziehungen von Parameterwerten aus dieser Verteilung werden dann verwendet um zu imputierende Werte zu generieren, indem mit Hilfe geeigneter Imputationsmodelle Prädiktionen erzeugt werden. Die Verteilung, aus der diese Prädiktionen erzeugt werden, wird auch als prädiktive a posteriori Verteilung bezeichnet. Eine multiple Imputationsmethode ist tendenziell dann geeignet, wenn die zu imputierenden Werte als unabhängige Ziehungen aus dieser prädiktiven a posteriori Verteilung gewonnen werden. Unter geeigneten Bedingungen (Abschnitt 1.3; siehe auch Rubin (1987)) sind Inferenzen basierend auf multiplen Imputationen, die entsprechend dieses Bayes-Ansatzes erzeugt wurden, tendenziell valide. Dies gilt aber auch für Imputationen, die nicht entsprechend eines BayesAnsatzes, sondern eines diesen approximierenden Ansatzes erzeugt wurden (siehe Abschnitt 1.3, „Approximative Bayes Bootstrap“). Wie in Abschnitt 2.2, soll auch hier ein vollständig beobachteter Variablenvektor zi berücksichtigt werden. Für die folgende Darstellung sollen ui und zi , i = 1, . . . , n, jeweils in den Vektoren u und z zusammengefasst werden. Die Bezeichnungen obs und mis sollen wie in Abschnitt 2.1 verwendet werden. Eventuell für alle Einheiten vollständig beobachtete Teile von ui können als Teilvektoren in z aufgenommen werden. Ferner bezeichnet ξ einen Parametervektor, der im Allgemeinen nicht mit θ identisch ist (Abschnitt 2.1). Berücksichtigt man alle beteiligten Variablen, dann sind im Falle eines ignorierbaren Missingmechanismus die Imputationen aus der bezüglich ξ marginalen, prädiktiven a posteriori Verteilung
f (umis |uobs ,z) = h(umis |uobs ,z,ξ)π(ξ|uobs ,z) dξ , (11) zu ziehen. Dabei sind f (·|·) und h(·|·) je nach Kontext bedingte Wahrscheinlichkeitsbzw. Dichtefunktionen und π(·) bezeichnet die bedingte Verteilung des als Zufallsvariable aufgefassten Parameters ξ, dessen a posteriori Verteilung. Im Prinzip kann ein Wert für umis gewonnen werden, indem zunächst ein Wert für ξ, ξ ∗ , aus π(ξ|uobs ,z) gezogen und verwendet wird, um aus h(umis |uobs ,z,ξ = ξ∗ ) einen Wert für umis zu ziehen. Man erhält damit Werte aus der gemeinsamen a posteriori Verteilung von (umis ,ξ), wobei die für umis gezogenen Werte als Imputationen verwendet werden können. Die M -malige Wiederholung dieser Schritte führt zu M Imputationen.
6 Der Umgang mit fehlenden Werten
133
Allerdings sind die unter dem Integral in (11) auftretenden Verteilungen nicht praktikabel. Vereinfachungen ergeben sich dadurch, dass – wie sich zeigen lässt – die bedingte Verteilung h(umis |uobs ,z,ξ) lediglich von dem Parameter der bedingten Verteilung von u|z, ξ u|z , abhängt und wenn man, wie üblich, Unabhängigkeit der Einheiten annimmt. Eine weitere hilfreiche Annahme, die allerdings nicht immer erfüllt sein muss, ist die Unabhängigkeit der beiden Parameter ξ u|z und ξz , beide Funktionen von ξ, mit ξ z dem Parameter der Verteilung von z. Diese Annahme wäre etwa dann nicht erfüllt, wenn der Korrelationsmatrix von (u ,z ) ein gemeinsamer skalarer Parameter zugrunde liegt. Dann trüge z Information im Hinblick auf diesen Parameter. Das Ignorieren dieser Information würde einerseits zu einem weniger präzisen Schätzer basierend alleine auf u für den Korrelationsstrukturparameter führen. Andererseits wäre es dann nicht nötig, ein Modell für z zu formulieren, das wenn fehlspezifiziert, zu einer möglichen Fehlerquelle wird. Unter geeigneten Voraussetzungen lässt sich h(umis |uobs ,z,ξ) damit als Produkt der individuellen bedingten Dichten bzw. Wahrscheinlichkeitsfunktionen h(ui,mis |ui,obs ,zi , ξ u|z ) schreiben. Weiterhin müssen für die a posteriori Verteilung von ξ u|z nur die bedingte Verteilung u|z,ξ u|z sowie die a priori Verteilung π(ξ u|z ) spezifiziert werden. Zudem gehen in diese a posteriori Verteilung nur jene Einheiten ein, für die wenigstens ein Wert aus u nicht beobachtet wurde. Für die Erzeugung zu imputierender Werte ergibt sich damit folgende Vorgehensweise: Zunächst wird eine a priori Verteilung für ξ u|z spezifiziert, für Regressionsparameter etwa eine Art Gleichverteilung. Die Schätzung des Modells für u|z basierend auf Einheiten mit beobachteten Werten erlaubt dann Ziehungen der Parameter aus der a posteriori Verteilung. Diese werden verwendet, um für jede Einheit mit fehlenden Daten, Werte aus der a posteriori Verteilung h(ui,mis |ui,obs ,zi ,ξu|z ) zu ziehen. Nach wie vor ist diese Aufgabe nicht trivial, denn üblicherweise wird das Muster an fehlenden Werten und damit das Verteilungsmodell über die Einheiten variieren. Weiter erschwerend kommt hinzu, dass meist Variablen unterschiedlichen Typs von fehlenden Werten betroffen sind. In diesem Fall wären über die Einheiten variierend, gemeinsame Verteilungen etwa von stetigen, binären, gestutzten und multinomialen Variablen zu modellieren. Für spezifische Situationen, wenn beispielsweise nur stetige Variablen von fehlenden Werten betroffen sind, lassen sich praktikable Lösungen erarbeiten (z. B. Schafer 1997). Weist zusätzlich nur eine skalare Variable in u fehlende Werte auf, dann basiert die a posteriori Verteilung von ξ u|z nur auf vollständig beobachteten Einheiten. Die prädiktive a posteriori Verteilung von umis erhält man über das Produkt der individuellen prädiktiven a posteriori Verteilungen derjenigen Einheiten mit einem fehlenden Wert für diese Variable. Obwohl diese Situation auf den ersten Blick sehr speziell erscheint, lässt sich die entsprechende Vorgehensweise auch in Situationen anwenden, bei denen mehrere Variablen fehlende Werte aufweisen. Eine solche Situation ist dann gegeben, wenn das Muster an fehlenden Werten monoton ist. Ein monotones Missingmuster liegt vor, wenn bei einem Datensatz, bei dem jede Zeile die Werte einer Einheit repräsentiert, die Spalten (Variablen) so angeordnet werden können, dass rechts (alternativ: links) von einem fehlenden Wert in der entsprechenden Zeile kein weiterer beobachteter Wert mehr auftritt. Liegt ein solches Missingmuster vor
134
Martin Spieß
und geht man von den bereits genannten vereinfachenden aber schwachen Annahmen aus, dann besteht eine einfache Vorgehensweise darin, zunächst die fehlenden Werte derjenigen Variable mit dem geringsten Anteil an fehlenden Werten, im Folgenden mit ui,(1) bezeichnet, zu imputieren. Dabei wird auf alle vollständig beobachteten Variablen konditioniert. Dies geschieht in mehreren Phasen. Zunächst ist ein (univariates) Modell für die bedingte Verteilung von ui,(1) |zi ,ξu(1) |z zu formulieren und auf der Basis derjenigen Einheiten, für die ui,(1) beobachtet wurde, über die ML-Methode zu schätzen. Mit Hilfe einer a priori Verteilung für ξ u(1) |z erhält man über das Bayes-Theorem die a posteriori Verteilung, die in Standardsituationen analytisch verfügbar ist. Aus der a posteriori Verteilung wird dann ein Wert ξ ∗u(1) |z generiert. Einsetzen von ξ∗u(1) |z in die bedingte Verteilung von ui,(1) |zi ,ξ u(1) |z ermöglicht schließlich die Ziehung von Werten für ui,(1) für alle i, für die der Wert der Variablen nicht beobachtet wurde. Anschließend werden z und die aufgefüllte Spalte verwendet, um für diejenige Variable mit dem geringsten Anteil fehlender Werte der verbleibenden Variablen Imputationen zu erzeugen. Diese Vorgehensweise wird wiederholt bis der Datensatz aufgefüllt ist. Um mehrere Imputationen zu erzeugen, wird dieser Vorgang M -mal wiederholt. Dabei kann für jede Variable ein geeignetes Regressionsmodell verwendet werden. So bietet sich für eine stetige Variable mit fehlenden Werten ein lineares und für eine binäre Variable ein Logit- oder Probitmodell an. Oft liegt bei Variablen unterschiedlichen Typs mit fehlenden Werten kein monotones Missingmuster vor. Dann können entweder, wenn alle von fehlenden Werten betroffene Variablen stetig sind, Markov Chain Monte Carlo (MCMC) Methoden eingesetzt werden (z. B. Schafer 1997). Oder es wird ein Verfahren ähnlich dem Vorgehen bei einem monotonen Missingmuster gewählt (z. B. IVEWare Raghunathan et al. 2002). Die Vorgehensweise besteht dann darin, den Datensatz wie oben beschrieben aufzufüllen, um dann sequentiell für jede Variable mit fehlenden Werten ein Regressionsmodell zu formulieren, wobei alle anderen Variablen, ob beobachtet oder imputiert, als Kovariable aufgenommen werden. Dieser letzte Schritt wird K-mal wiederholt, um die am Ende erzeugten Werte als einen ersten Satz an Imputationen abzuspeichern. M -maliges Wiederholen dieser Schritte führt zu M Imputationen. Zu beachten ist hier, dass eine prädiktive a posteriori Verteilung der Variablen mit fehlenden Werten nicht explizit formuliert wird. Stattdessen wird lediglich angenommen, dass eine solche existiert und die Verteilung der erzeugten Werte gegen diese konvergiert. Nach derzeitigem Stand ist die Multiple-Imputations-Methode sehr allgemein einsetzbar und bemerkenswert robust gegenüber leichten Fehlspezifikationen. Zu beachten ist dennoch, dass die Erzeugung der multiplen Imputationen, insbesondere was die zu berücksichtigenden Variablen angeht, sehr sorgfältig vorgenommen werden sollte. Generell sollten so viele Variablen wie möglich, deren Interaktionen sowie quadratische und höhere Terme in das Imputationsmodell aufgenommen werden, um die Chance zu erhöhen, dass die fehlenden Werten ignorierbar sind. Vor allem dann, wenn für die schließlich interessierenden Analysen die Maximum-Likelihood Methode eingesetzt wird, kann im Allgemeinen von der Validität der Schlüsse bezüglich der interessierenden Fragestellungen ausgegangen werden. Zahlreiche Hinweise implizieren darüber hinaus, dass valide Inferenzen auch basierend auf anderen Schätzprozeduren möglich sind.
6 Der Umgang mit fehlenden Werten
135
3 Beispiel: Einkommensgleichung mit fehlenden Werten In diesem Abschnitt soll eine Einkommensgleichung für erwerbstätige Frauen im Jahr 2003 auf der Basis des Sozio-oekonomischen Panels (SOEP, DIW Berlin) geschätzt werden. Das SOEP ist ein Längsschnittdatensatz privater Haushalte in Deutschland, der aus mehreren Teilstichproben mit unterschiedlichen Startzeitpunkten besteht. Die im Jahr 2003 beobachteten sind zum größten Teil in der jeweiligen Startwelle gezogene Frauen. Eine andere Teilmenge besteht aus Frauen, die entweder durch Überschreiten der Altersgrenze – 17 Jahre im Jahr der Befragung – oder durch Zuzug in einen Stichprobenhaushalt nach der jeweiligen Startwelle Teil des SOEP wurden. Die Stichprobe umfasst n = 975 Frauen, eine Netto-Stichprobe aus mehreren ursprünglich gezogenen Brutto-Teilstichproben. So werden bereits in den jeweiligen Startwellen der Teilstichproben lediglich etwa zwischen 40 % und 60 % der gezogenen Haushalte tatsächlich beobachtet. Weiterhin kommt es im Zeitverlauf durch Kontaktverluste zu Panelattrition, wobei ein geringer Teil durch Zuzüge und spätere Aufnahme in die Stichprobe kompensiert werden kann. Der Anspruch der mit dem SOEP ausgelieferten Gewichte, die als Kehrwerte geschätzter Beobachtungswahrscheinlichkeiten interpretiert werden können, ist es, auch bei unterschiedlichen Ziehungswahrscheinlichkeiten, für fehlende aber auch für hinzugekommene Einheiten zu kompensieren. Diese Interpretation soll hier übernommen werden, womit die Gewichte, im SOEP die Querschnittsgewichte der Welle 2003, wie in Abschnitt 2.2 beschrieben, direkt in die Schätzprozedur übernommen werden können. Zu beachten ist, dass der Erzeugung der Gewichte eine Reihe von Annahmen zugrunde liegt. Bei Verwendung von Gewichten, wie sie mit öffentlich nutzbaren Datensätzen ausgeliefert werden, sind insbesondere auch die den verwendeten Modellen zur Schätzung der Responsewahrscheinlichkeiten zugrunde liegenden Annahmen zu berücksichtigen. Dazu gehört die Modellklasse, vor allem aber die Wahl der Kovariablen sowie deren modellierter Einfluss. Soweit verfügbar, sollte dazu die Dokumentation des verwendeten Datensatzes konsultiert werden. Weiterhin empfiehlt es sich, die Verteilung der Gewichte zu inspizieren. Sehr große Gewichte können die Analyseergebnisse erheblich beeinflussen. Handelt es sich um Ausreißer, beispielsweise um Einheiten mit Ausreißerwerten in Variablen, die zur Prädiktion der Beobachtungswahrscheinlichkeiten zum Einsatz kamen, dann besteht eine Strategie darin, diese bei der Analyse zu ignorieren. Allerdings ist dies nicht unproblematisch, denn einerseits ist es oft eine subjektive Entscheidung, wann ein Wert ein valider Wert ist und wann nicht. Wenn sich die ignorierten Einheiten systematisch von den berücksichtigten Einheiten unterscheiden, kann das Ignorieren dieser Ausreißer andererseits zu verzerrten Schlussfolgerungen führen. Eine hilfreiche Strategie besteht darin, die Analyse sowohl mit als auch ohne diejenigen Einheiten mit den 1 % oder 5 % größten Gewichten durchzuführen, in der Hoffnung, dass beide Vorgehensweisen zu substantiell ähnlichen Ergebnisse führen (Sensitivitätsanalyse). Im Folgenden wird davon ausgegangen, dass die für eine valide Inferenz notwendigen Annahmen erfüllt sind, d. h. die geschätzten Modelle sind korrekt spezifiziert, die Beobachtungswahrscheinlichkeiten hängen im Hinblick auf die zu schätzende Einkom-
136
Martin Spieß
mensgleichung tatsächlich nur von den berücksichtigten Kovariablen ab, die nicht alle in das inhaltlich interessierende Modell aufgenommen werden. Die für die Schätzung der Einkommensgleichung interessierenden Variablen sind als abhängige Variable der logarithmierte Brutto-Stundenlohn (LnEk), wobei Sonderzahlungen und variable Lohnbestandteile berücksichtigt wurden, und als unabhängige eine binäre Variable Vollzeit (1: „ja“, 0: „nein“), eine kategoriale Variable Bildungsabschluss mit den Kategorien Lehre (1: „ja“, 0: „nein“) und Universitätsabschluss (Univ.-Abschl.; 1: „ja“, 0: „nein“), die Anzahl der im letzten Monat geleisteten Überstunden (Überstunden), die Firmengröße in Anzahl an Beschäftigten mit den Kategorien 20–<200 (1: „ja“, 0: „nein“), 200–<2000 (1: „ja“, 0: „nein“), ≥2000 (1: „ja“, 0: „nein“), die Branche mit den Kategorien Handel (1: „ja“, 0: „nein“), Metall (1: „ja“, 0: „nein“), Transport (1: „ja“, 0: „nein“), eine binäre Variable für den Status Arbeiterin (1: „ja“, 0: „nein“), eine binäre Variable für den Status Verheiratet (1: „ja“, 0: „nein“), ob Kinder im Haushalt leben (Kinder mit 1: „ja“, 0: „nein“), die Dauer der Betriebszugehörigkeit, die linear (Betriebszug.) und quadriert (Betriebszug.2 ) berücksichtigt wird. Nicht alle Werte aller berücksichtigten Variablen wurden für die n = 975 Frauen beobachtet. Der Anteil an fehlenden Werten schwankt zwischen 0 %, etwa für den beruflichen Bildungsabschluss, 0,005 % für die Variable Überstunden, 22 % für die Branchen-Variable und 23 % für das Einkommen. Um für diese Werte Imputationen zu erzeugen, wurden weitere Variablen berücksichtigt, die teilweise allerdings selbst wieder fehlende Werte aufweisen. Neben den in das Einkommensmodell aufgenommenen Variablen waren weitere Variablen etwa das Querschnittsgewicht der Welle 2003, eine Variable, die die Stichprobenzugehörigkeit angibt, die Anzahl an Schuljahren sowie die Berufserfahrung. Zur Erzeugung der Imputationen wurde IVEware verwendet. Dabei ist für jede Variable, die bei der Erzeugung der Imputationen berücksichtigt wird, der Typ anzugeben. So wurde die Variable LnEk als eine stetige Variable, die Variable Vollzeit sowie die Branchen-Variable wurden als kategoriale Variablen deklariert. Als Imputationsmodelle für stetige Variablen werden lineare, für kategoriale werden Logitmodelle eingesetzt. Die Anzahl an Kindern, die in das inhaltliche Modell in Form der binären Variable Kinder eingeht, wurde hier in seiner ursprünglichen Form als Zählvariable, die Variable Überstunden als eine „gemischte“ binäre/metrische Variable angegeben. Werte für eine Zählvariable werden mit Hilfe eines Poissonmodells erzeugt. Die Imputation gemischter Variablen erfolgt zweistufig, wobei zunächst ein binäres Logitmodell geschätzt wird, mit einer abhängigen Variable, die zwischen positiven Werten der Variable und dem Wert null unterscheidet. Anschließend wird für diejenigen Einheiten, für die eine Eins erzeugt wurde, ein lineares Modell zur Erzeugung von Werten ungleich null einer metrischen Variablen verwendet. Da die möglichen Wertebereiche der zu imputierenden Variablen beschränkt sein können, ist es bei IVEware möglich, Wertebereichsgrenzen anzugeben. Im Beispiel wurde etwa der Wertebereich der Variable LnEk auf größer null restringiert. Weiterhin ist es möglich, die Imputation eines Wertes an eine logische Bedingung bezüglich einer anderen Variablen zu knüpfen, wenn etwa ein Einkommen aus Arbeit nur dann zu imputieren ist, wenn für eine Variable „Arbeitslos“ der beobachtete oder bereits imputierte Wert „nein“ bedeutet.
6 Der Umgang mit fehlenden Werten
137
Neben den Variablen selbst sollten so viele Interaktionen und Terme höherer Ordnung wie möglich als Kovariablen in die Imputationsmodelle aufgenommen werden. Beides ist mit IVEware ebenfalls möglich. Im Beispiel wurden zahlreiche Interaktionen und quadratische Terme verwendet, beispielsweise das quadrierte Alter oder ein Interaktionsterm für Alter und Überstunden. Sowohl quadratische Terme als auch Interaktionen sind deterministische Funktionen der beteiligten Variablen. Sie sollten daher nicht vor der Imputationsprozedur als eigenständige Variablen definiert und dann imputiert werden. Dies hätte zur Folge, dass etwa imputierte quadrierte Terme nicht mehr mit quadrierten imputierten Variablen übereinstimmen. Stattdessen sollten quadrierte Terme und Interaktionen für die eigentlich interessierende Analyse erst auf der Basis der ergänzten Datensätze gebildet werden. Zu beachten ist, dass in die Imputationsmodelle zwar auf alle Fälle plausible Variablen, Interaktionen und höhere Polynomterme aufgenommen werden sollten, aber durchaus auch (Funktionen von) Variablen, die nicht unbedingt nahe liegen. Dies kann aber zu Problemen bei der Schätzung der Modelle führen, etwa aufgrund von Multikollinearitäten. IVEware erlaubt daher die Wahl eines Mindestwertes, den ein Pseudo-R2 bei der Aufnahme der jeweiligen Kovariable mindestens annehmen muss. Damit werden zu große und eventuell instabile Modelle verhindert. Im vorliegenden Beispiel wurde als Mindestwert 0,01 verwendet. Die Anzahl an erzeugten Imputationen ist M = 10, die Anzahl an Iterationen betrug K = 500. Der Kennwert K wurde festgelegt, ohne Konvergenz der Verteilung der erzeugten Werte zu kontrollieren. Leider stellt IVEware allerdings auch keine Werkzeuge dafür zur Verfügung. In der Dokumentation zu IVEware heißt es allerdings, dass K = 10 Iterationen häufig ausreichend seien. Nach Beendigung des Imputationsvorganges sollten einige deskriptive Verteilungsmaße, die IVEware in einen Output schreibt, inspiziert werden. Dabei ist darauf zu achten, ob die Verteilungen der imputierten Werte sehr auffällig ist. Besteht ein solcher Verdacht, dann sollten auch die aus der a posteriori Verteilung gezogenen Parameterwerte genauer betrachtet werden. Sehr große Variationen deuten auf problematische Modelle hin, die zur Erzeugung der Imputationen geschätzt werden. Bei einer großen Anzahl an Kovariablen in einem Modell, können große Varianzen der Parameterwerte für Multikollinearitäten in den Modellen sprechen. Ist die Anzahl sehr klein, dann ist das Ausmaß an Information zur Erzeugung der Imputationen sehr gering. Generell können große Variationen aber auch auf fehlspezifizierte Modelle hindeuten. Große Varianzen in den imputierten Werten können zu sehr konservativen Aussagen bezüglich der inhaltlich interessierenden Sachverhalte führen. Das hier gewählte Vorgehen der multiplen Imputation setzt voraus, dass der Missingmechanismus gegeben die berücksichtigten Variablen ignoriert werden kann. Ob die Ignorierbarkeits- gegenüber einer Nicht-Ignorierbarkeitsannahme aufrechterhalten werden kann, lässt sich – wie auch im Falle fehlender Einheiten – ohne weitere Annahmen nicht prüfen. Dennoch ist diese Annahme oft nicht zu streng. In vielen Fällen liegt es nahe davon auszugehen, dass nicht nur ein spezifischer Missingmechanismus wirkt. Stattdessen ist oft die Annahme verschiedener Missingmechanismen für verschiedene Teilstichproben plausibel. Solange der Anteil derjenigen Werte, die NMAR sind, nicht allzu hoch ist und die Wahrscheinlichkeit des Nichtbeobachtens nicht zu stark von den
138
Martin Spieß
Tab. 1: Ergebnisse der Schätzung einer Einkommensgleichung für Frauen im Jahr 2003. Abhängige Variable LnEk. Umgang mit fehlenden Werten: Gewichtung und multiple Imputation (“Kompensation”) bzw. Analyse nur von vollständig beobachteten Einheiten (“Nur vollst.”). Kompensation, n = 975, M = 10 Schätzwert Konstante Vollzeit Bildungsabschluss Lehre Univ.-Abschl. Überstunden Firmengröße 20–<200 200–<2000 ≥2000 Branche Handel Metall Transport Arbeiterin Verheiratet Kinder Betriebszug. Betriebszug.2 †
: p ≤ 0,1; ∗ : p ≤ 0,05;
sd
t-Wert
Schätzwert
sd
t-Wert
2,2641 0,6605
0,1235 0,0617
18,33 10,71∗∗∗
1,8867 0,7808
0,0807 0,0421
23,38∗∗∗ 18,54∗∗∗
0,0645 0,2441 0,0029
0,0734 0,1144 0,0019
0,88 2,13∗ 1,51
0,1801 0,4470 0,0050
0,0486 0,0837 0,0015
3,71∗∗∗ 5,34∗∗∗ 3,32∗∗∗
0,0507 0,1454 0,2427
0,0580 0,0662 0,0681
0,88 2,20∗ 3,56∗∗∗
0,2436 0,3741 0,3684
0,0460 0,0541 0,0497
5,30∗∗∗ 6,91∗∗∗ 7,41∗∗∗
−0,1533 −0,0647 −0,0342 −0,4262 −0,0354 −0,0597 0,0344 −0,0008
0,0765 0,0650 0,0754 0,0789 0,0566 0,0729 0,0095 0,0003
−2,00∗ −1,00 −0,45 −5,40∗∗∗ −0,63 −0,82 3,64∗∗∗ −2,72∗∗
−0,11449 0,02066 −0,07411 −0,28199 −0,07598 −0,02241 0,02459 −0,00049
0,0459 0,0543 0,0508 0,0481 0,0393 0,0414 0,0062 0,0002
−2,49∗ 0,38 −1,46 −5,86∗∗∗ −1,93† −0,54 3,98∗∗∗ −2,43∗
∗∗
: p ≤ 0,01;
∗∗∗
∗∗∗
Nur vollst., n = 652
: p ≤ 0,001
fehlenden Werten selbst abhängt, kann im Allgemeinen bei vorsichtiger Interpretation der Ergebnisse der inhaltlich interessierenden Analysen von der Gültigkeit der Schlussfolgerungen ausgegangen werden. Basierend auf den M = 10 erzeugten Imputationen wurde das Modell zehnmal geschätzt, wobei die Berechnung der Standardfehler auf einer robusten Varianzschätzung basiert. Die Schätzergebnisse wurden kombiniert, wie in Abschnitt 1.3 beschrieben und sind in Tabelle 1 abgetragen. Da die Stichprobe nicht klein, der Anteil an fehlenden Werten nicht zu hoch und die Anzahl an Imputationen nicht niedrig ist, wurden die Prüfgrößen als asymptotisch normalverteilt angenommen (vgl. Abschnitt 1.3; Little & Rubin 2002). Dasselbe Modell wurde auch ohne Kompensation der fehlenden Werte, lediglich auf Basis aller vollständig beobachteten Einheiten geschätzt. Die Schätzergebnisse beider Vorgehensweisen, einmal bei Kompensation von Unit- und Item-Nonresponse („Kompensation“) und bei Ignorieren der fehlenden Daten („Nur vollst.“), sind in Tabelle 1 zu finden. Geht man von einem Signifikanzniveau von 5 % aus, dann legen die Schätzergebnisse basierend auf der Kompensationsstrategie die Arbeitshypothese nahe, dass Frauen
6 Der Umgang mit fehlenden Werten
139
auf Vollzeitstellen relativ zu Frauen auf Teilzeitstellen tendenziell einen höheren Stundenlohn erhalten. Ebenso kann davon ausgegangen werden, dass Frauen mit Abitur und in größeren Firmen mehr verdienen, jeweils relativ zu Frauen ohne Abitur bzw. Frauen in kleineren Firmen. Wie zu erwarten, hat die Berufserfahrung einen sich über die Zeit hinweg abschwächenden positiven Effekt. Weiterhin implizieren die Ergebnisse, dass Frauen, die im Bereich Handel tätig sind, relativ zu Frauen in der entsprechenden Referenzkategorie (z. B. chemische Industrie oder öffentlicher Dienst) weniger verdienen. Ebenso ist der Stundenlohn als Arbeiterin tendenziell niedriger, relativ etwa zu Angestellten, frei beruflichen oder selbstständigen Frauen. Die Schätzung unter Berücksichtigung nur der vollständig beobachteten Einheiten liefert zum Teil deutlich andere t-Werte. Legt man jeweils dasselbe Signifikanzniveau der einzelnen Schätzwerte zugrunde, dann unterscheiden sich die Schlussfolgerungen bezüglich der Kovariablen Vollzeit, Firmengröße ≥2000, Branche (Handel, Metall, Transport), Arbeiterin, Kinder und Betriebszug. nicht. Andere Schlüsse müssten allerdings für die Variablen Lehre, Überstunden sowie die Firmengröße 20–<200 gezogen werden: Im Gegensatz zu den Ergebnissen unter der Kompensationsstrategie, unter der die geschätzten Einflüsse nicht signifikant sind, wäre nun von Einflüssen dieser Variablen auszugehen (α = 0,1 %). Während der geschätzte positive Einfluss eines Universitätsabschlusses unter der Kompensationsstrategie auf dem 5 %-Niveau signifikant ist, wäre er jetzt auf dem 0,1 %-Niveau signifikant. Dasselbe gilt für die Firmengröße 200–<2000. Ohne Kompensation wäre der geschätzte Einfluss der Variable Verheiratet auf dem 10 %-Niveau signifikant, nicht signifikant ist er unter der gewählten Kompensationsstrategie. Die Variable Betriebszug.2 dagegen ist unter der Kompensationsstrategie auf dem 1 %-Niveau, bei Ignorieren aller Einheiten mit fehlenden Werten lediglich auf dem 5 %-Niveau signifikant. Der Vergleich der Ergebnisse zeigt, dass die Interpretation der Schätzergebnisse sehr unterschiedlich sein kann, je nachdem, ob für fehlende Werte kompensiert wird oder nicht. Geht man davon aus, dass die der Gewichtung und der Imputation zugrunde gelegten Annahmen korrekt sind, dann wären die Schätzergebnisse, die lediglich auf den vollständig beobachteten Einheiten basieren, tendenziell nicht valide. Dafür spricht, dass etwa die Wahrscheinlichkeit für einen Ausfall über die Zeit bis 2003 in den entsprechenden SOEP Teilstichproben von einer Reihe verschiedener Variablen abhängt (Spieß & Kroh 2004), die ihrerseits nicht als unabhängig vom Einkommen angenommen werden können, selbst wenn auf die im Schätzmodell berücksichtigten Kovariablen konditioniert wird. Nicht auszuschließen ist allerdings, dass fehlende Werte NMAR sind. Wenn deren Anteil bedeutsam wäre, dann wäre davon auszugehen, dass auch die Ergebnisse basierend auf den gewählten Kompensationsstrategien verzerrt sind.
4 Häufige Fehler In vielen Anwendungen werden fehlende Werte ignoriert. Das heißt, in Analysen gehen häufig lediglich nur jene Einheiten ein, die im Hinblick auf die zu untersuchende Fragestellung vollständig beobachtet wurden. In den meisten Fällen bedeutet dies einen
140
Martin Spieß
hohen Verlust an Informationen, denn alle Einheiten mit wenigstens einem fehlenden Wert werden nicht berücksichtigt. Ist die Wahrscheinlichkeit für das Fehlen der Werte völlig unabhängig von den Variablen, die in die inhaltliche Analyse eingehen (fehlende Werte sind MCAR), dann führt diese Strategie zwar zu unpräzisen, aber prinzipiell zu validen Aussagen. Manchmal werden aber, um die Anzahl an analysierten Einheiten nicht zu klein werden zu lassen und gleichzeitig Standardsoftware für vollständig beobachtete Einheiten nutzen zu können, für einzelne fehlende Werte bedingte oder unbedingte Mittelwerte eingesetzt. Bei dieser Vorgehensweise werden die imputierten Werte von Standardsoftware als beobachtete Werte behandelt. Die Standardfehler in inhaltlich interessierenden Analysen werden dann im Allgemeinen massiv unterschätzt, denn die zusätzliche Unsicherheit in diesen Prädiktionen wird systematisch ignoriert, was zu Ablehnraten entsprechender Nullhypothesen von bis 100 % führen kann (Spieß 2008). Aber auch wenn ausgefeiltere Techniken zur Erzeugung von Imputationen verwendet werden, kann es zu erheblich verzerrten Standardfehlern kommen, wenn bei deren Berechnung nicht berücksichtigt wird, dass es sich bei den imputierten Werten lediglich um fehlerbehaftete Schätzwerte handelt. Daher kann diese Strategie selbst bei fehlenden Werten, die MCAR sind, wenn das Ignorieren der Einheiten mit fehlenden Werten harmlos wäre, zu fehlerhaften Schlussfolgerungen führen. Je größer der Anteil an fehlender Information, desto gravierender sind diese Effekte. Bei der Kompensation fehlender Werte mit Gewichten, sollte darauf geachtet werden, dass die verwendete Software die Gewichte als Kehrwerte geschätzter Wahrscheinlichkeiten behandelt. Würden die Gewichte nach Auf- oder Abrunden auf ganze Zahlen als Häufigkeiten aufgefasst werden, mit denen die aufgetretenen Kombinationen der Variablenwerte beobachtet wurden, würde dies zu im Allgemeinen extrem unterschätzten Standardfehlern führen. Bei gewichteten Analysen ist eine robuste Schätzung der Varianzen (bzw. Standardfehler) der Regressionsparameterschätzer zu wählen. Diese Option ist in Standardsoftware oft, aber nicht immer verfügbar. Weiterhin sollte die Verteilung der Gewichte inspiziert werden. Das Löschen von „Ausreißern“ in den Gewichten kann allerdings problematisch sein, denn gelöschte Einheiten sind fehlende Einheiten. Gegebenenfalls muss für die gelöschten Einheiten kompensiert werden, was meist aufwendig und nicht einfach ist. Geht es im Rahmen des design-basierten Ansatzes um die Schätzung etwa von Summen in einer konkreten und endlichen Grundgesamtheit, dann ist in jedem Falle für ignorierte Einheiten zu kompensieren. Die Erzeugung zu imputierender Werte sollte sehr sorgfältig erfolgen. Zu beachten ist, dass die Imputationsmodelle, ähnlich den Responsemodellen unter einer Gewichtungsstrategie, keine inhaltlich interessierenden Modelle, sondern lediglich Hilfsmittel darstellen, um die nicht beobachteten Werte zu schätzen. Dabei kann es nicht um den Versuch gehen, möglichst den wahren Wert zu treffen. Dies ist, außer wenn der nicht beobachtete Wert deduktiv, also unsicherheitsfrei, aus anderen Informationen abgleitet werden kann, kaum möglich. Aber selbst wenn ein mit Unsicherheit behafteter imputierter Wert exakt mit dem wahren, nicht beobachteten Wert übereinstimmt, wäre dies unbekannt. Daher sind die Imputationsmodelle möglichst reichhaltig und wenig restriktiv mit Kovariablen zu versehen, um möglichst präzise, um den wahren unbeobachteten Wert herum streuende Schätzungen zu ermöglichen. Die den Prädiktionen
6 Der Umgang mit fehlenden Werten
141
eigene Unsicherheit ist bei der Berechnung der Standardfehler zu berücksichtigen. Wird für jeden fehlenden Wert nur eine Imputation erzeugt, dann müssen die standardmäßig berechneten Standardfehler für vollständig beobachtete Datensätze korrigiert werden. Dies ist oft nicht trivial und verlangt im Allgemeinen spezielle Software. Erfolgt diese Anpassung nicht, erhält man systematisch zu kleine Standardfehler und damit zu kleine Konfidenzintervalle bzw. zu häufige Ablehnungen der Nullhypothese. Generell kann ohne weitere Information von außerhalb der beobachteten Stichprobe, etwa durch Restriktionen, unüberprüfbare Annahmen oder weitere Daten, nicht zwischen fehlenden Einheiten oder Werten, die MAR und solchen, die NMAR sind, unterschieden werden. Ist davon auszugehen, dass ein wesentlicher und nicht zu vernachlässigender Teil der fehlenden Werte NMAR ist, dann sind zwar prinzipiell Gewichtung und multiple Imputation anwendbar, allerdings müssen diese entsprechend angepasst werden. Eine einfache Möglichkeit bestünde etwa darin, in einem unter der MAR-Annahme multipel imputierten Datensatz alle Einkommen in mehreren Schritten mit verschiedenen plausiblen Werten zu multiplizieren, etwa 1,1; 1,2; 1,3 usw. wenn angenommen wird, dass die „wahren“ im Vergleich zu den imputierten Einkommen systematisch höher liegen (Sensitivitätsanalyse). Allgemein werden bei einer Sensitivitätsanalyse verschiedene plausible Szenarien realisiert, und es werden die Konsequenzen hinsichtlich der inhaltlich interessierenden Analyse untersucht. Ändern sich die substantiellen Schlussfolgerungen nicht, dann ist die Analyse robust gegenüber den realisierten Szenarien. Eine solche Strategie ist sowohl im Rahmen der multiplen Imputation als auch bei der Gewichtung möglich und sollte im Zweifelsfall realisiert werden. Auf keinen Fall sollten solche Analysen daran scheitern, dass Standardsoftware solche Vorgehensweisen bislang kaum unterstützt.
5 Literaturempfehlungen Eine gut lesbare Einführung in das Thema „Fehlende Werte“ anhand praktischer Beispiele gibt Allison (2002). Erheblich breiter aber auch statistisch anspruchsvoller führt Little & Rubin (2002) in das Thema der Kompensation fehlender Werte ein. Dabei wird die Methode der multiplen Imputation allerdings nur relativ kurz behandelt. Sehr ausführlich beschäftigen sich damit Rubin (1987) und Schafer (1997). Beide auf hohem statistischen Niveau, wobei Rubin (1987) die theoretischen Grundlagen und Vorgehensweisen auch anhand von Beispielen beschreibt, die neueren und rechenintensiven Methoden zur Erzeugung von Imputationen allerdings noch nicht berücksichtigt. Diese sind vor allem in Schafer (1997) recht gut lesbar beschrieben. Allerdings werden Ansätze zur Erzeugung multipler Imputationen, wie sie IVEware zugrunde liegen, auch dort nicht behandelt (siehe aber Raghunathan et al. 2002). Die Gewichtung als Methode zur Kompensation fehlender Einheiten wird von Wooldridge (2002a) recht gut aber auch nicht ganz einfach dargestellt. Allerdings ist Wooldridge (2002a) erheblich einfacher zu lesen als etwa Robins et al. (1995). Robins erarbeitet mit verschiedenen Kollegen und Kolleginnen in einer Reihe von Papieren eine Gewichtungsstrategie zur Schätzung von sehr allgemeinen Längsschnittmodellen bei fehlenden Einheiten und fehlenden Werten. Abgesehen von den einfachsten Situa-
142
Martin Spieß
tionen, sind diese Ansätze aber noch nicht in Standardsoftware implementiert. Etwas anspruchsvoller als in Wooldridge (2002a), aber durchaus noch lesbar, wird das Thema gewichteter Analysen in Wooldridge (2002b) und Wooldridge (2007) behandelt. Die Methode der Gewichtung, der multiplen Imputation sowie neuere Diskussionen dazu sind in Spieß (2008) dargestellt, wo auch die Probleme diskutiert werden, die mit einfachen Ad-hoc-Methoden verbunden sind. Ansätze zur Kompensation fehlender Einheiten, wenn diese NMAR sind, werden etwa in Heckman (1976) und Van der Klaauw & Koning (2003) vorgestellt.
Literaturverzeichnis Allison, P. D. (2002). Missing Data. Thousand Oaks: Sage. Heckman, J. J. (1976). The Common Structure of Statistical Models of Truncation, Sample Selection and Limited Dependent Variables and a Simple Estimator for Such Models. Annals of Economic and Social Measurement, 5, 475–492. Little, R. J. A. & Rubin, D. B. (2002). Statistical Analysis with Missing Data. New York: John Wiley, 2. Auflage. Raghunathan, T. E., Solenberger, P., & van Hoewyk, J. (2002). IVEware: Imputation and Variance Estimation Software. User Guide. Ann Arbor: Institute for Social Research, University of Michigan. Robins, J. M., Rotnitzky, A., & Zhao, L. (1995). Analysis of Semiparametric Regression Models for Repeated Outcomes in the Presence of Missing Data. Journal of the American Statistical Association, 90, 106–121. Rubin, D. B. (1987). Multiple Imputation for Nonresponse in Surveys. New York: John Wiley & Sons. Schafer, J. L. (1997). Analysis of Incomplete Multivariate Data. London: Chapman & Hall. Spieß, M. (2008). Missing-Data Techniken. Münster: LIT Verlag. Spieß, M. & Kroh, M. (2004). Documentation of Samples Sizes and Panel Attrition in the German Socio Economic Panel (SOEP) 1984 - 2003. In Data Documentation No. 1. Berlin: DIW. Van der Klaauw, B. & Koning, R. H. (2003). Testing the Normality Assumption in the Sample Selection Model with an Application to Travel Demand. Journal of Business & Economic Statistics, 21, 31–42. Wooldridge, J. M. (2002a). Econometric Analysis of Cross Section and Panel Data. Cambridge: MIT Press. Wooldridge, J. M. (2002b). Inverse Probability Weighted M-Estimators for Sample Selection, Attrition and Stratification. Portugese Economic Journal, 1, 117–139. Wooldridge, J. M. (2007). Inverse Probability Weighted Estimation for General Missing Data Problems. Journal of Econometrics, 141, 1281–1301.
7 Gewichtung Siegfried Gabler und Matthias Ganninger GESIS – Leibniz-Institut für Sozialwissenschaften, Mannheim
Zusammenfassung. Wenn man Daten durch eine Umfrage erhebt, stellt sich zunächst die Frage, bei welchen Personen oder Betrieben usw. die interessierenden Daten erhoben werden. Dies wird durch die Art und Weise bestimmt, wie die Stichprobe geplant wird. Zufallsbasierte Stichproben oder Zufallsauswahlen haben den Vorteil, dass Ergebnisse der Wahrscheinlichkeitstheorie Anwendung finden und statistische Schlüsse gezogen werden können. Die meisten Umfragen in Deutschland und auch sehr viele internationale Erhebungen, wie etwa der European Social Survey (ESS), basieren auf Stichproben, die mit komplexen Auswahlverfahren erhoben werden. Hiermit ist nicht mehr gewährleistet, dass z. B. das ungewichtete Stichprobenmittel ein erwartungstreuer Schätzer für das Mittel eines interessierenden Merkmals in der Grundgesamtheit ist. Dieser möglichen Verzerrung wird dadurch entgegen gewirkt, dass die einzelnen Einheiten in der Stichprobe mit so genannten Gewichten versehen werden. Ein anderer Fall, bei dem eine Gewichtung der einzelnen Datensätze vorgenommen wird, liegt vor, wenn die realisierte Stichprobe etwa durch Nonresponse von der geplanten Stichprobe abweicht. Durch Anpassung an bekannte Randverteilungen zentraler Variablen, wie etwa Alter, Geschlecht oder Bildung, versucht man, eine von der Gesamtheit abweichende Verteilung in der Stichprobe zu korrigieren. Hier spricht man von Anpassungsgewichtung, die nicht auf dem Auswahlverfahren beruht, sondern Modelle benutzt, die das Ausfallgeschehen beschreiben. Wie Gewichte bei einer konkreten Analyse benutzt werden, wird anhand ausgewählter Merkmale des ESS wie etwa der Lebenszufriedenheit näher erläutert. Allerdings werden bei falscher Verwendung von Gewichten schnell Fehler gemacht, von denen einige näher beschrieben werden.
1 Einführung in das Verfahren Bevor wir uns mit der Gewichtung befassen, benötigen wir einige grundlegende Überlegungen aus der Stichprobentheorie. Diese helfen zu verstehen, warum Gewichtung sinnvoll und wichtig ist und bilden die Grundlage, um verschiedene Arten der Gewichtung zu unterscheiden. Dabei ist die Ebene, auf der Aussagen getroffen werden sollen, von entscheidender Bedeutung. Wurden bei einer Umfrage etwa Personen mit gleichen Wahrscheinlichkeiten ausgewählt und haben alle ausgewählten Personen geantwortet, wäre eine unterschiedliche Gewichtung der Befragten ohne weitere Zusatzinformationen nicht plausibel. Will man aber bei derselben Umfrage über Haushalte Aussagen machen, wird man diese je nach Haushaltsgröße unterschiedlich gewichten müssen, denn in diesem Falle gewährleistet nur die Verwendung dieser unterschiedlichen Gewichte die Einhaltung wesentlicher Qualitätsanforderungen, die an einen Schätzer S. 143–164 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_7, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
144
Siegfried Gabler und Matthias Ganninger
gestellt werden können. Eines der Maße zur Beurteilung der Güte eines Schätzers ist dessen Erwartungstreue bzw. Unverzerrtheit. Oftmals werden Daten gewichtet, um genau diese Unverzerrtheit herzustellen. Häufig ist diese Erwartungstreue wie beim Verhältnisschätzer oder beim Regressionsschätzer nur asymptotisch gegeben. Neben der Erwartungstreue spielt aber auch die Präzision eines Schätzers eine wichtige Rolle. Die Präzision, oft gemessen durch die Varianz eines Schätzers, spiegelt den Grad der Unsicherheit wider, mit dem inferenzstatistische Aussagen getroffen werden. In vielen Fällen hat man neben den beobachteten Daten auch Zusatzinformationen über Kennwerte der Grundgesamtheit, die man in die Schätzung einbauen und dadurch präzisere Schätzer konstruieren kann. Ein konkretes Beispiel wäre der Verhältnisschätzer oder ganz allgemein auch die Klasse der Kalibrierungsschätzer (Särndal et al. 1992). Bei dieser Form der Gewichtung handelt es sich nicht um ein durch das Auswahlverfahren motiviertes Vorgehen, sondern es liegt ein Modell zugrunde, das den Zusammenhang zwischen Untersuchungsmerkmalen und den Zusatzinformationen spezifiziert. Dem Verhältnisschätzer liegt etwa das Modell zugrunde, dass die Werte des Untersuchungsmerkmals und des Hilfsmerkmals wenigstens näherungsweise proportional zueinander sind. Dem Regressionsschätzer dagegen liegt die Vorstellung zugrunde, dass die Werte des Untersuchungsmerkmals und des Hilfsmerkmals wenigstens näherungsweise auf einer Geraden liegen. Solche Modelle dienen in umso größerem Maße einer Verbesserung der Schätzung, je genauer sie die wahren Verhältnisse in der Gesamtheit widerspiegeln. Die Schätzung der Varianz von Schätzern bei komplexen Auswahlverfahren ist zum einen notwendig, um Konfidenzintervalle für die Schätzer angeben zu können. Auf der anderen Seite ist dies oft schwierig und nur approximativ zu lösen. Die Bücher von Särndal et al. (1992) und Wolters (1995) geben einen guten Einblick in die Thematik. Modelle werden aber auch dann verwandt, wenn die Stichprobe nicht vollständig realisiert werden konnte, etwa weil nicht alle Befragten geantwortet haben oder der Auswahlrahmen nicht alle Elemente umfasst, für die Aussagen getroffen werden sollen. In diesen Fällen kann eine Anpassungsgewichtung an bekannte Randverteilungen eine Lösung sein. Bei der Anpassungsgewichtung werden Beobachtungen der Stichprobe anhand von zentralen Merkmalen, wie etwa Geschlecht, Alter und Bildung, in Klassen zusammengefasst, über deren Häufigkeit verlässliche Populationszahlen vorliegen. Den Beobachtungen jeder Zelle wird dann ein Gewicht zugewiesen, das die Häufigkeit in der Stichprobe derjenigen in der Population zumindest in den Randverteilungen anpasst. Statistische Eigenschaften der so gewichteten Schätzer wie Erwartungstreue sind häufig nur noch asymptotisch gegeben. Ein einfaches Beispiel ist, wenn durch eine einfache Zufallsauswahl aus einer geschichteten Gesamtheit mit bekannten relativen Schichtumfängen Daten erhoben wurden, aber der geschichtete Schätzer verwendet wird, da erst durch die Befragung klar ist, zu welcher Schicht eine befragte Person gehört. Anpassungsgewichtung sollte eigentlich nie alleine, sondern nur in Verbindung mit einer Designgewichtung vorgenommen werden. Dies ist auch der Grund, warum in Abschnitt 2.2 beide Gewichtungen kombiniert betrachtet werden. Einige Argumente für und wider Gewichtungen finden sich in Gabler & HoffmeyerZlotnik (1993), wo neben mehr theoretischen Abhandlungen auch konkrete Gewichtungen etwa im Mikrozensus, bei Umfragen zum politischen Meinungsklima und Quer- und
7 Gewichtung
145
Längsschnittgewichtung des Sozio-Oekonomischen Panels vorgestellt werden. Spezifische Fragestellungen zu Gewichtung im ökonometrischen Umfeld sind unter anderem in Wooldridge (2002) und Robins et al. (1995) zu finden.
2 Mathematisch-statistische Grundlagen Die Grundgesamtheit ist die Menge von endlich vielen Elementen, über die Aussagen gemacht werden sollen. Sie wird auch als Population, Untersuchungs- oder Zielgesamtheit bezeichnet. Sie muss sachlich, räumlich und zeitlich klar definiert und an der Themenstellung sowie an der praktischen Durchführbarkeit orientiert sein. Im ESS ist die Grundgesamtheit etwa definiert als die Wohnbevölkerung eines Landes im Alter von mindestens 15 Jahren zu einem bestimmten Stichtag. Diese Definition umfasst große Teile der Bevölkerung, da es sich beim ESS um eine allgemeine Bevölkerungsumfrage handelt. Andere Umfragen haben einen sehr viel enger gefassten Forschungsgegenstand, wie z. B. eine Befragung in Baden-Württemberg zur Wiederansiedlung des Luchses. Allgemein ist ein Auswahlrahmen eine Liste von Elementen, aus der Einheiten gezogen werden und über den man Zugang zu den Untersuchungseinheiten erhält. So wird z. B. bei telefonischen Befragungen häufig eine Liste von Telefonnummern als Auswahlrahmen verwendet. Die über den Auswahlrahmen erreichbaren Einheiten bilden die Auswahlgesamtheit. Idealerweise enthält der Auswahlrahmen exakt alle Einheiten der Untersuchungsgesamtheit – nicht mehr und nicht weniger. In der Praxis ist dies jedoch selten der Fall, soll aber hier der Einfachheit halber unterstellt werden. Im Folgenden sprechen wir daher ganz allgemein von einer Gesamtheit. Wir bezeichnen die Gesamtheit mit U und ihre Elemente mit ui für i = 1, . . . , N . Der Buchstabe N bezeichnet den Umfang der Gesamtheit. Häufig wird auch einfach die Indexmenge U = {1, . . . , N } als Gesamtheit definiert. Eine Stichprobe S vom Umfang n ist eine n-elementige Folge (i1 , . . . , in ) von Elementen aus U . Der Index ik gibt die Einheit an, die beim k-ten Zug ausgewählt wurde. Der Buchstabe n bezeichnet den Stichprobenumfang. In endlichen Gesamtheiten zeichnen sich Zufallsstichproben dadurch aus, dass jeder möglichen Stichprobe S eine bekannte Wahrscheinlichkeit P (S) zugeordnet ist. Die Menge S aller Stichproben S mit P (S) > 0 heißt Stichprobenraum. Wählt man analog dem Ziehen von Lottozahlen n Elemente aus der Grundgesamtheit U = {1, . . . , N } uneingeschränkt zufällig ohne Zurücklegen aus, so ist der Stichprobenraum S gegeben durch S = {(i1 , . . . , in ) : i1 , . . . , in ∈ U,j = k → ij = ik } und alle Stichproben in S besitzen die gleiche Wahrscheinlichkeit P (S) =
1 . N (N − 1) · · · (N − n + 1)
Wählt man n Elemente aus der Grundgesamtheit U = {1, . . . , N } uneingeschränkt zufällig mit Zurücklegen aus, so ist der Stichprobenraum S gegeben durch
146
Siegfried Gabler und Matthias Ganninger
S = {(i1 , . . . , in ) : i1 , . . . , in ∈ U } und alle Stichproben in S besitzen die gleiche Wahrscheinlichkeit P (S) =
1 . Nn
Stichproben, die mit den beiden oben genannten Auswahlwahrscheinlichkeiten erhoben werden, nennt man einfache Zufallsauswahl. Eine Zufallsstichprobe, deren Auswahlwahrscheinlichkeit von den genannten beiden abweicht, heißt komplex. Ist Y = (Y1 , . . . ,YN ) der Vektor eines interessierenden Merkmals in der Gesamtheit, N etwa das Einkommen, so ist man häufig am Totalwert T = i=1 Yi oder am arithN T/N interessiert. Bei einfacher Zufallsauswahl metischen Mittel Y¯ = 1/N i=1 Yi = n ist der Stichprobenmittelwert y¯ = 1/n i=1 yi ein adäquater Schätzer für Y¯ . Bei dem Beobachtungsvektor eines interessierenden Merkmals y = (y1 , . . . , yn ) in der Stichprobe gibt die i-te Komponente den Y -Wert der Einheit an, die im i-ten Zug in die Stichprobe gelangt. Um zu verdeutlichen, dass es sich bei den beobachteten Werten um Beobachtungen aus einer Stichprobe handelt, verwenden wir den Kleinbuchstaben y als Bezeichner für den Beobachtungsvektor. Die Unterscheidung von Grundgesamtheit und Stichprobe erfolgt häufig durch die Verwendung von Groß- bzw. Kleinbuchstaben. Üblicherweise ist der Forscher mit einem Datenfile konfrontiert. Jede Zeile dieser Matrix wird als Datensatz bezeichnet und enthält die gegebenen Antworten einer ausgewählten und befragten Person. Die Gesamtzahl der Datensätze entspricht daher dem Nettostichprobenumfang. Aus Sicht der Gewichtung wird der i-te Datensatz in n der Datenmatrix mit dem Gewicht wi versehen und ey = i=1 wi yi/ ni=1 wi für Y¯ als Schätzfunktion verwendet. Im Falle einer einfachen Zufallsauswahl ist wi = 1 und ey = y¯. Bei der einfachen Zufallsauswahl hat a) jede Stichprobe dieselbe Ziehungswahrscheinlichkeit und daher b) jedes Element der Gesamtheit dieselbe Wahrscheinlichkeit, in die Auswahl zu gelangen. Noch bevor die Ziehung stattgefunden hat, kann also von keinem Element der Grundgesamtheit behauptet werden, dass es mit Sicherheit in die Stichprobe kommt oder dass es mit Sicherheit nicht der Auswahl angehören wird. Im Gegenteil: die Kombination aus Informationen zum Auswahlrahmen und Kenntnis des Auswahlverfahrens verrät uns nur, dass jedes der N Elemente des Auswahlrahmens bei der anschließenden Ziehung gleich behandelt wird. Somit hat vorab jedes Element dieselbe Wichtigkeit. Nachdem die Stichprobe gezogen und die interessierenden Variablen erhoben wurden, hat dementsprechend auch jede Ausprägung auf jeder Variablen jedes Befragten dieselbe Wichtigkeit – und wird daher gleich gewichtet. Üblicherweise werden die Gewichte auf Fallzahl normiert, d. h. die Summe der Gewichte entspricht der Zahl der Datensätze. Sind die Gewichte nicht alle gleich, wird der Gewichtungsvektor w = (w1 , . . . ,wn ) an die Datenmatrix gehängt. Ein Beispiel soll die Berechnung der Gewichte verdeutlichen. Beispiel 1 In einer (sehr kleinen) Population vom Umfang N = 10 haben die Elemente I = 1,. . . ,10 die in Tabelle 1 angegebenen Ausprägungen einer Variable Y . Die Summe T
7 Gewichtung
147
Tab. 1: Verteilung des Merkmals Y in der Grundgesamtheit aus Beispiel 1 I
1
2
3
4
5
6
7
8
9
10
YI
3
2
4
4
5
1
1
2
3
5
Tab. 2: Elemente der Stichprobe aus Beispiel 1 I
i-ter Zug
y i = YI
10 4 6 2
1 2 3 4
5 4 1 2
der Y -Werte ergibt T = 30 und somit einen Mittelwert von Y¯ = T/N = 30/10 = 3. Y¯ lässt sich auch als gewichtetes Mittel der verschiedenen Y -Werte schreiben, nämlich Y¯ = 2/10 · 1 + 2/10 · 2 + 2/10 · 3 + 2/10 · 4 + 2/10 · 5. Wir ziehen nun eine einfache Zufallsauswahl vom Umfang n = 4 und erhalten die in Tabelle 2 gegebenen Elemente in unsere Stichprobe. Die dem Forscher zur Verfügung stehende Datenmatrix bestünde in diesem Fall aus der dritten Spalte in Tabelle 2. Wegen wi = 1 erhalten wir n
yi · wi = y1 · 1 + y2 · 1 + y3 · 1 + y4 · 1 = 5 · 1 + 4 · 1 + 1 · 1 + 2 · 1 = 12.
i=1
n Nun teilen wir noch durch i=1 wi = n = 4 und erhalten den Stichprobenmittelwert n y¯ = i=1 wi yi/ ni=1 wi = 12/4 = 3. Das Stichprobenmittel y¯ stimmt also bei dieser konkreten Stichprobe mit dem zu schätzenden Wert Y¯ überein. Wir haben anhand von Beispiel 1 gesehen, dass bei einer einfachen Zufallsauswahl implizit auch gewichtet wird. Da jedes Element der Stichprobe allerdings aufgrund der Auswahlwahrscheinlichkeit das gleiche Gewicht bekommt, wird häufig auf deren explizite Nennung verzichtet. 2.1 Designgewichtung in komplexen Stichprobenerhebungen Allgemein spricht man von Designgewichtung, wenn man die sich aus dem Auswahlverfahren ergebenden Auswahlwahrscheinlichkeiten im Rahmen der Schätzung in Form von Gewichten als der Inversen der Auswahlwahrscheinlichkeit berücksichtigt. Im vorigen Abschnitt ergaben sich die identischen Gewichte jedes Elements der Stichprobe direkt aus deren identischen Auswahlwahrscheinlichkeiten. Ein Element, das a priori jedoch eine sehr geringe Chance hat, in die Auswahl zu gelangen, ist, wenn es doch ausgewählt wird, gewichtiger als ein Element das a priori eine sehr hohe Wahrscheinlichkeit hatte, gezogen zu werden. Dem Element mit einer geringen Auswahlwahrscheinlichkeit kommt daher ein hohes Gewicht zu, dem Element mit einer hohen Auswahlwahrscheinlichkeit dagegen ein geringes Gewicht. Um Extremgewichte
148
Siegfried Gabler und Matthias Ganninger
zu vermeiden, wird für die Gewichte manchmal eine Transformation vorgenommen, die diese extremen Gewichte in ein vorgegebenes Intervall abbildet. Beim ESS werden etwa auf Fallzahl normierte Extremgewichte über 4 gestutzt. Man nimmt bei der Stutzung eine Verzerrung des Schätzers in Kauf, um die Varianz der Gewichte und des Schätzers zu verringern. Eine Stutzung auf 0 kann beispielsweise bei negativen Gewichten sinnvoll sein. Kehren wir zu unserem Beispiel zurück: Hier hat jedes der n = 4 zu ziehenden Elemente eine Auswahlwahrscheinlichkeit von πi = n/N = 4/10 = 0,4. Der Kehrwert von πi wird allgemein als (rohes) Designgewicht, wi = 1/πi , bezeichnet. Da alle Elemente die gleiche Auswahlwahrscheinlichkeit von 0,4 haben, sind auch alle Designgewichte identisch, nämlich 2,5. Wie bereits erwähnt, werden Designgewichte üblicherweise auf Fallzahl normiert, so dass deren Summe n ergibt. Das hat den Vorteil, dass bei der Schätzung die Gewichte nicht noch einmal summiert werden müssen, sondern direkt n verwendet werden kann. Die so normierten Designgewichte ergeben sich aus den wi als w ˜i = wi n/ ni=1 wi . Wenn alle wi identisch sind, ist jedes normierte Designgewicht gleich 1. Bei den meisten Umfragen in den Sozialwissenschaften werden keine einfachen Zufallsverfahren zur Ermittlung der Stichprobe angewandt. Es werden vielmehr Auswahlverfahren verwendet, die davon teilweise deutlich abweichen. Diese Abweichungen betreffen auch die Auswahlwahrscheinlichkeiten der Elemente einer Stichprobe und somit die Designgewichte. Diese sind in einem komplexen Auswahlverfahren selten konstant. Einige Elemente der Grundgesamtheit werden eine hohe Wahrscheinlichkeit haben, ausgewählt zu werden, andere dagegen haben kaum eine Chance, in die Stichprobe zu gelangen. Es hängt stark vom jeweiligen Auswahlverfahren ab, in welchem Maß diese Auswahlwahrscheinlichkeiten und damit die Designgewichte variieren. Im Folgenden werden einige weit verbreitete Auswahlverfahren besprochen, welche eine Auswirkung auf die Auswahlwahrscheinlichkeiten der Elemente einer Stichprobe und somit auch auf die Gewichte haben. Schichtung Häufig sind Gesamtheiten in natürlicher Weise geschichtet, etwa Deutschland in die Bundesländer. Es sei {U1 , . . . ,UH } eine Zerlegung der Gesamtheit U in Schichten Uh mit Umfängen N1 , . . . ,NH . Die Auswahl in einer Schicht wird unabhängig von der Auswahl in einer anderen Schicht vorgenommen. Der Schicht h wird ein gewisser Stichprobenumfang nh zugeordnet. Die Art Weise der Zuordnung, d. h. die Allokation und H des Gesamtstichprobenumfangs n = h=1 nh auf die Schichten, ist zunächst beliebig und kann völlig frei oder aus inhaltlichen Überlegungen heraus erfolgen. Es existieren jedoch Allokationsverfahren, die gewisse Vorteile bieten. Wird eh aufgrund des Auswahlverfahrens in der h-ten Schicht (h = 1, . . . ,H) als guter Schätzer für Y¯h , dem arithmetischen Mittel H der nYh-Werte in Schicht Uh , angesehen, H so ist offensichtlich y¯str = h=1 Nh/N eh = h=1 i=1 whi yhi ein adäquater Schätzer Y . Wird in jeder Schicht eine einfache Zufallsauswahl vorgenommen, so ist y¯str = für H H nh Nh/(N nh )y Nh/N y ¯h = ¯h als dem Stichprobenmittel in der hi mit y i=1 h=1 h=1 h-ten Schicht. In einer vorliegenden Datenmatrix wäre das Gewicht eines Datensatzes
7 Gewichtung
149
i aus der h-ten Schicht konstant gleich whi = Nh/N nh oder auf Fallzahl normiert w ˜hi = (n/N ) · (Nh/nh ). Dieses Gewicht kann von Schicht zu Schicht unterschiedlich sein. In die Berechnung geht daher neben dem Allokationsvektor (n1 , . . . ,nH ) der Vektor der Schichtumfänge Nh in der Gesamtheit ein. Proportionale Aufteilung Angenommen, der Stichprobenumfang nh in der h-ten Schicht ist gleich nh =
Nh · n. N
Hier und im Folgenden wird der Einfachheit halber Ganzzahligkeit der NNh ·n unterstellt. Der Anteil der Stichprobenelemente in jeder Schicht entspricht dem Anteil der Elemente in der entsprechenden Schicht in der Gesamtheit. Ein Vorteil der proportionalen Aufteilung des Stichprobenumfangs auf die Schichten liegt unter anderem darin, dass w ˜hi = (n/N ) · (Nh/nh ) = 1 und damit der Schätzer für Y mit dem Stichprobenmittel identisch ist. Disproportionale Schichtung In vielen Fällen sind die Stichprobenumfänge in den einzelnen Schichten von einer proportionalen Aufteilung verschieden. Ein Grund dafür kann sein, dass die Schichten etwa durch verschiedene Länder definiert sind, bei denen die Stichprobenumfänge nh über alle Länder konstant sind und daher der Auswahlsatz von Land zu Land unterschiedlich ist. Beim ESS variieren die Stichprobenumfänge der teilnehmenden 2 Nh Länder, nh , deutlich. Sind die Varianzen Sh2 = 1/(Nh −1) i=1 Yhi − Y¯h der Y -Werte in den Schichten wenigstens näherungsweise bekannt, sollte die optimale Allokation nh = n ·
Nh Sh H
Ng Sg
g=1
verwendet werden, wenn in den Schichten jeweils eine einfache Zufallsauswahl vorgesehen ist. Sie besagt, dass in bzgl. der Y -Werte homogenen Schichten eher weniger und in bzgl. der Y -Werte heterogenen Schichten eher mehr Einheiten als in der proportionalen Aufteilung ausgewählt werden sollten. H Diese Aufteilung liefert die kleinste Varianz des geschichteten Schätzers y¯str = h=1 Nh/N y¯h bei vorgegebenem Gesamtstichprobenumfang. Im Falle, dass die Varianzen in den Schichten gleich sind, geht die optimale Allokation in die proportionale Allokation über. Der Nachteil der optimalen Aufteilung ist, dass gewisse Kenngrößen aus der Gesamtheit bekannt sein müssen, nämlich die Varianzen der Y -Werte. Manchmal gibt es aus früheren Erhebungen Schätzungen dafür. Da in einer Erhebung allerdings nicht nur ein Merkmal interessiert, kann es sein, dass die optimale Aufteilung für Merkmale mit anderen Homogenitätsstrukturen schlechte Schätzungen im Sinne von großer Varianz liefert.
150
Siegfried Gabler und Matthias Ganninger
Tab. 3: Verteilung des Merkmals Y in der Grundgesamtheit aus Beispiel 2 Land h
1
2
3
Zahl der Mitarbeiter (in tausend)
4
12
24
Beispiel 2 Die Firmenleitung eines großen Unternehmens in drei Ländern mit 40000 Mitarbeitern will wissen, wie zufrieden die Mitarbeiter mit einer getroffenen Maßnahme A sind. Da vermutet wird, dass die Zufriedenheit innerhalb der drei Länder homogener als insgesamt ausfällt, wird eine geschichtete Auswahl vorgenommen. Die Mitarbeiter verteilen sich auf die Länder wie in Tabelle 3 dargestellt. Der Anteil der mit A zufriedenen Mitarbeiter im Unternehmen wird mit P bezeichnet; Ph ist der entsprechende Anteil im Land h (h = 1,2,3). In einer proportional auf die Länder aufgeteilten Stichprobe vom Umfang n = 2500 ergeben sich als Stichprobenumfänge in den Schichten die Werte ⎧ ⎪ ⎨250 für h = 1 Nh · n = 750 für h = 2 nh = ⎪ N ⎩ 1500 für h = 3 . Die auf Fallzahl normierten Gewichte wären in diesem Fall gleich 1. Die Geschäftsleitung plant, 1392 Mitarbeiter auszuwählen. Da Experten davon ausgehen, dass im ersten Land 36 %, im zweiten 20 % und im dritten 10 % der Mitarbeiter mit A unzufrieden sind, ergibt sich wegen Sh2 ≈ Ph (1 − Ph ) für die optimale Aufteilung ⎧ ⎪ ⎨192 für h = 1 Nh Sh nh = n · H = 480 für h = 2 ⎪ ⎩ Ng Sg 720 für h = 3 . g=1
Die auf Fallzahl normierten Gewichte wären in diesem Fall für i ∈ Uh ⎧ ⎪ ⎨0,725 für h = 1 n Nh · w ˜hi = = 0,870 für h = 2 ⎪ N nh ⎩ 1,160 für h = 3 und damit deutlich von 1 verschieden. Klumpenauswahl Aus Kosten- oder organisatorischen Gründen ist es häufig notwendig, ganze Klumpen, etwa Schulklassen, auszuwählen und alle Schüler der Klasse zu befragen. Die Klumpen heißen auch Primäreinheiten, ihre Elemente Sekundäreinheiten.
7 Gewichtung
151
Tab. 4: Verteilung der Merkmale in der Grundgesamtheit aus Beispiel 3 i Mi
1
2
3
4
5
6
7
8
9
10
500
500
1300
1000
1400
1300
1000
500
1000
1500
Die Gesamtheit U bestehe aus den N Klumpen U1 , . . . ,UN mit Umfängen M1 , . . . , MN . Die Auswahl der Klumpen sei durch uneingeschränkte Zufallsauswahl vom Umfang n gegeben. Wir bezeichnen mit K=
N
Mi die Zahl der Sekundäreinheiten insgesamt
i=1
sowie mit Ti =
Mi
Yij die Summe der Y -Werte im i-ten Klumpen .
j=1
Die Summen der Y -Werte in den ausgewählten Klumpen seien mit t1 , . . . ,tn bezeichnet. Der übliche Schätzer für Y ist N ti . Kn i=1 n
y¯cluster =
Die auf Fallzahl normierten Gewichte wären in diesem Fall alle gleich 1. Es ist allerdings anzumerken, dass die Zahl der ausgewählten Sekundäreinheiten von Stichprobe zu Stichprobe variiert. Beispiel 3 Eine Gesamtheit von Personen besteht aus 10 Klumpen. Die Umfänge Mi der Klumpen sind Tabelle 4 zu entnehmen. Man entnimmt eine Klumpenstichprobe vom Umfang n = 3. Die Zahl der ausgewählten Sekundäreinheiten variiert von 1500 bis 4200. Die erwartete Anzahl der ausgewählten Personen ist 3000. Auswahl mit ungleichen Wahrscheinlichkeiten Bei der geschichteten Zufallsauswahl haben wir gesehen, dass die Gewichte für die einzelnen Personen nicht gleich sein müssen. Die Gesamtheit U bestehe aus N Einheiten. Davon werden n Einheiten durch Ziehen mit Zurücklegen ausgewählt. ψi sei die Auswahlwahrscheinlichkeit der i-ten Einheit in jedem Zug. Es bezeichne Hi die Häufigkeit, mit der Einheit i in die Auswahl gelangt. Als erwartungstreue Schätzfunktion für Y wird der so genannte Hansen-Hurwitz Schätzer verwendet:
152
Siegfried Gabler und Matthias Ganninger
y¯HH =
N
Hi wi Yi =
i=1
N 1 Yi Hi . nN i=1 ψi
Das Gewicht wi für die im i-ten Zug ausgewählte Person lautet daher wi = 1/(nN ψi ). Im Falle ψi = 1/N für i = 1,. . . , N ist y¯HH = y¯. Die Gesamtheit U bestehe aus N Einheiten. P (S) bezeichne wieder die Wahrscheinlichkeit, die Stichprobe S auszuwählen. Unter der Stichprobe S wollen wir aber nicht mehr eine Folge von ausgewählten Einheiten verstehen, sondern nur noch die Menge der verschiedenen ausgewählten Einheiten. Der Stichprobenumfang muss nicht fest sein. Die Auswahlwahrscheinlichkeit P (S) πi = S:i∈S
gibt die Wahrscheinlichkeit an, dass die Einheit i,(i = 1, . . . , N ), in die Stichprobe gelangt. Der Horvitz-Thompson Schätzer für Y ist definiert durch y¯HT =
N 1 Yi 1 Yi Li = . N i=1 πi N πi i∈S
Dabei ist Li = 1 , wenn die Einheit i in die Auswahl gelangt und 0 sonst. Das Designgewicht wi = 1/(N πi ) (i = 1,. . . , N ) ist groß, wenn die Auswahlwahrscheinlichkeit für die i-te Einheit klein ist, ihre Auswahl also eher unwahrscheinlich ist. Die auf Fallzahl normierten Designgewichte lauten 1
w ˜i = n πi 1 (i ∈ S) . j∈S
πj
1 j∈S /πj ist eine Schätzung für den Umfang N der Gesamtheit. Es wird häufig der modifizierte Horvitz-Thompson-Schätzer
Yi i∈S πi w ˜ i Yi = 1 i∈S π i∈S i
verwendet. Ein Vorteil dieses Schätzers im Falleder Schätzung für Z¯ mit Zi = ist, Zdass aYi +b i 1 1 / / aY + b die Beziehung w ˜ Z = = = π π i i∈S i∈S i i i∈S i i i∈S πi i∈S πi a i∈S w ˜i Yi + b gilt. Dies ist besonders für Anteilswerte von Bedeutung. Beispielsweise ist der geschätzte Anteil eines Merkmals für Männer dann 1 minus dem geschätzten Anteil desselben Merkmals für Frauen.
7 Gewichtung
153
Tab. 5: Verteilung demografischer Merkmale in der Stichprobe aus Beispiel 4 Befragter i Haushalts- Telefon- Geschlecht Alter größe nummern [in Jahren] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 2 2 2 2 1 1 2 1 1 1 1 1 2 1 1
1 1 2 3 2 1 1 1 1 1 1 3 1 3 1 1
männlich männlich männlich weiblich weiblich weiblich weiblich weiblich weiblich weiblich männlich weiblich männlich männlich weiblich weiblich
64 72 51 55 65 68 53 50 69 71 56 55 66 64 55 65
Bildung
Körpergewicht [in kg]
ohne Abschluss Volksschule Abitur Realschule Volksschule Volksschule Realschule Abitur Volksschule Volksschule Abitur Volksschule Realschule Volksschule Abitur Realschule
80 65 70 66 57 55 79 70 62 65 88 64 78 65 58 60
Summe
1082
2.2 Kombination von Anpassungs- und Designgewichtung In der Umfragepraxis kommt es häufig vor, dass Personen mit ungleichen Auswahlwahrscheinlichkeiten in die Stichprobe gelangen, beispielsweise bei Telefonumfragen, da Personen in großen Haushalten eine kleinere Auswahlwahrscheinlichkeit haben als Personen in kleinen Haushalten. Daher wird bei der Schätzung eine Designgewichtung notwendig. Durch Nonresponse kann man in der Stichprobe zudem eine Verzerrung bei der Verteilung gewisser Merkmale erhalten. Z. B. sind Personen mit höherer Bildung bei Telefoninterviews überrepräsentiert. Anpassungsgewichte sollen helfen, dieses Ungleichgewicht zu reparieren. An einem einfachen Beispiel wird im Folgenden gezeigt, wie man beide Gewichtungen in ein Gewicht überführt. Beispiel 4 Angenommen wir hätten folgende Datensätze für 16 interviewte Personen, die aus einer Gesamtheit von 50-75 Jährigen ausgewählt wurden. Haushalte wurden dabei proportional zur Zahl der Telefonnummern im Haushalt gezogen. Die interviewte Person wurde durch einfache Zufallsauswahl innerhalb des Haushalts gezogen. In Tabelle 5 sind die Ausprägungen verschiedener Merkmale aufgelistet. Aus den Spalten 1 2 und 3 lassen sich die auf Fallzahl normierten Designgewichte wid = 16 · π1i / 16 j=1 πj berechnen. Dabei ist πi die Auswahlwahrscheinlichkeit für die i-te Person. Das Ergebnis ist in Tabelle 6 abzulesen. Ist die (prozentuale) multivariate Verteilung der Anpassungsmerkmale Alter, Geschlecht und Bildung aus der Gesamtheit bekannt, dann entspricht die Anpassungsge-
154
Siegfried Gabler und Matthias Ganninger
Tab. 6: Designgewichte für Befragte in der Stichprobe aus Beispiel 4 Befragter i
Haushaltsgröße
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Telefonnummern
1 2 2 2 2 1 1 2 1 1 1 1 1 2 1 1
1 1 2 3 2 1 1 1 1 1 1 3 1 3 1 1 Summe
Haushaltsgröße Telefonnummern
c/πi
Designgewicht wid
1 2 1 2/3 1 1 1 2 1 1 1 1/3 1 2/3 1 1
0,96 1,92 0,96 0,64 0,96 0,96 0,96 1,92 0,96 0,96 0,96 0,32 0,96 0,64 0,96 0,96
50/3
16
Tab. 7: Prozentuelle Aufteilung in der Gesamtheit (Stichprobe in Absolutzahlen) Geschlecht / Alter
Ohne Abschluss oder Volksschule
männlich / 50–60 männlich / 61–75 weiblich / 50–60 weiblich / 61–75
10 15 20 10
(0) (3) (1) (4)
Summe
55 (8)
Realschule oder Abitur 15 14 10 6
(2) (1) (4) (1)
45 (8)
Summe 25 29 30 16
(2) (4) (5) (5)
100 (16)
wichtung einer einfachen Soll/Ist Gewichtung. Sind nur die univariaten Verteilungen der Anpassungsmerkmale bekannt, kann man etwa den Iterative Proportional Fitting Algorithmus von Deming & Stephan (1940) zur Schätzung der multivariaten Verteilung zu Hilfe nehmen. In der Gesamtheit liegen die Häufigkeiten beim Alter und Bildung in je 2 Klassen vor. Um Stichproben-Nullen zu vermeiden, fassen wir im Falle ohne Abschluss oder Volksschule die Altersklassen bei männlich zusammen und haben als Anpassungszellen wie sie in Tabelle 8 dargestellt sind. Ordnet man die Datensätze nach der VariablenKombination, erhält man die Darstellung aus Tabelle 9. Als Anpassungsgewicht würde man für die nk Befragten in der k-ten Zelle (k = 1, . . . , 7)
7 Gewichtung
Tab. 8: Prozentuelle Aufteilung in der Gesamtheit (Stichprobe in Absolutzahlen nh ) Geschlecht / Alter
Ohne Abschluss oder Volksschule
männlich / 50–60 männlich / 61–75 weiblich / 50–60 weiblich / 61–75 Summe
Nh/N
Realschule oder Abitur
20 (1) 10 (4)
15 14 10 6
55 (8)
45 (8)
25 (3)
155
(2) (1) (4) (1)
Summe 25 29 30 16
(2) (4) (5) (5)
100 (16)
Tab. 9: Datensätze nach Variablen-Kombinationen sortiert aus Beispiel 4 Zelle 1 2 3 4 5 6 7
Variablen-Kombination
Befragten-Nr.
männlich / 50–75 / Ohne Abschluss oder Volksschule männlich / 50–60 / Realschule oder Abitur männlich / 61–75 / Realschule oder Abitur weiblich / 50–60 / Ohne Abschluss oder Volksschule weiblich / 50–60 / Realschule oder Abitur weiblich / 61–75 / Ohne Abschluss oder Volksschule weiblich / 61–75 / Realschule oder Abitur
1,2,14 3,11 13 12 4,7,8,15 5,6,9,10 16
Nk/N nk/n
verwenden. Zur Kombination von Design- und Anpassungsgewichtung führen wir zunächst folgende Definitionen ein: S(i) enthält alle Einheiten der Stichprobe aus der Zelle, zu der der i-te Befragte gehört. – n(i) ist die Anzahl nk aller Einheiten in der Stichprobe aus der Zelle k, zu der der i-te Befragte gehört, d. h. der Umfang von S(i). – N (i) ist die Anzahl Nk aller Einheiten der Population aus der Zelle k, zu der der i-te Befragte gehört.
–
Als auf Fallzahl normiertes Gewicht w ˜i für die i-te ausgewählte Person ergibt sich ⎛ ⎞ 1 1 N (i) n ⎜ n(i) ⎟ N (i)/N = ⎝ πi1 ⎠ , w ˜i = π1i · N n(i)/n πj πj j∈S(i)
j∈S(i)
das durch Multiplikation des Designgewichts mit dem Anpassungsgewicht zustande kommt. Damit erhält man im Beispiel 4 für die Design- bzw. Anpassungsgewichte die in Tabelle 10 angegebenen Werte. Mit dem Gesamtgewicht w ˜i lassen sich nun leicht Schätzungen für interessierende Variablen berechnen, z. B. für das durchschnittliche Gewicht der Personen in der Gesamtheit wie in Tabelle 11 dargestellt. Das ungewichtete durchschnittliche Körpergewicht in der Stichprobe beträgt 67,625 kg. Hätte man
156
Siegfried Gabler und Matthias Ganninger
Tab. 10: Design- bzw. Anpassungsgewichte aus Beispiel 4 Befragter i
Zelle k
Designgewichte wid = n(i) π1i
1 2 14 3 11 13 12 4 7 8 15 5 6 9 10 16
1 1 1 2 2 3 4 5 5 5 5 6 6 6 6 7 Summe
j∈s(i)
1 πj
Anpassungsgewicht
Gesamtgewicht
N (i)/N n(i)/n
Spalte 3 * Spalte 4
auf Zellumfänge in der Stichprobe normiert
auf Zellanteile in der Gesamtheit normiert
w ˜i
0,81818181 1,63636363 0,54545454 1 1 1 1 0,57142857 0,85714286 1,71428572 0,85714286 1 1 1 1 1
0,25/3/16
12/11
0,25/3/16
24/11
0,25/3/16
8/11
0,15/2/16
6/5
0,15/2/16
6/5 56/25
16
0,14/1/16 0,20/1/16 0,10/4/16
16/5 16/70
0,14/4/16
24/70
0,10/4/16
48/70
0,10/4/16
24/70
0,10/4/16
2/5
0,10/4/16
2/5
0,10/4/16
2/5
0,10/4/16 0,06/1/16
2/5 24/25
16
16
Tab. 11: Schätzung des Durchschnittsgewichts aus Beispiel 4 Befragter i
Körpergewicht Gi [in kg]
Gewicht w ˜i
Gi · w ˜i
80 65 70 66 57 55 79 70 62 65 88 64 78 65 58 60
12/11 24/11
960/11 1560/11
6/5 16/70
420/5 1056/70
2/5
114/5
2/5 24/70
110/5 1896/70
48/70
3360/70
2/5
124/5
2/5
130/5
6/5 16/5
544/5 1024/5
56/25
4368/25
8/11 24/70
520/11 1392/70
24/25
1440/25
1
69,296
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Mittelwert
1082/16
= 67,625
7 Gewichtung
157
nur die Designgewichte wid bei der Schätzung verwendet, wäre die Schätzung 61,48 kg. Das design- und anpassungsgewichtete durchschnittliche Körpergewicht in der Stichprobe beträgt 69,296 kg. Das ungewichtete durchschnittliche Alter in der Stichprobe beträgt 61,188 Jahre, das design- und anpassungsgewichtete durchschnittliche Alter in der Stichprobe beträgt 61,324 Jahre. Hätte man als Merkmal die klassifizierte Altersvariable (50–60 und 61–75 Jahre) verwendet, hätte man den tatsächlichen Anteil der 50–60 Jährigen in der Gesamtheit exakt geschätzt, da dieses Merkmal zu den Anpassungsmerkmalen zählt. Die oben beschriebene Vorgehensweise lässt sich auch allgemeiner durch einen Kalibrierungsschätzer darstellen, der folgende Gewichte verwendet: ⎛ N −1 ⎞ xk 1 1 ⎝ xk − xk xk xi ⎠ . wi = 1+ πi πk πk k=1
k∈r
k∈r
Dabei steht xk für die k-te Spalte (k = 1, . . . , 16 mit n = 16) der Matrix der Befragten. In unserem Beispiel mit ⎛ ⎞ 1100000000000100 ⎜0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0⎟ ⎜ ⎟ ⎜0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0⎟ ⎜ ⎟ ⎟ x= ⎜ ⎜0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0⎟ ⎜0 0 0 1 0 0 1 1 0 0 0 0 0 0 1 0⎟ ⎜ ⎟ ⎝0 0 0 0 1 1 0 0 1 1 0 0 0 0 0 0⎠ 0000000000000001 N wäre demnach x1 = (1,0,0,0,0,0,0). Des weiteren ist k=1 xk = (25,15,14,20,10,10,6) der Vektor der Anteile der Anpassungszellen in der Gesamtheit. Setzt man dies und ⎛ ⎞ 4,125 ⎜ 2,250 ⎟ ⎜ ⎟ ⎜ 1,125 ⎟ xk ⎜ ⎟ ⎟ =⎜ ⎜ 0,375 ⎟ πk ⎜ ⎟ k∈S ⎜ 5,250 ⎟ ⎝ 4,500 ⎠ 1,125 sowie
⎛
⎞ 4,125 0 0 0 0 0 0 ⎜ 0 2,250 0 0 0 0 0 ⎟ ⎜ ⎟ ⎜ 0 0 1,125 0 0 0 0 ⎟ 1 ⎜ ⎟ 0 0 0 0,375 0 0 0 ⎟ xk xk = ⎜ ⎜ ⎟ πk ⎜ 0 0 0 0 5,250 0 0 ⎟ k∈S ⎜ ⎟ ⎝ 0 0 0 0 0 4,500 0 ⎠ 0 0 0 0 0 0 1,125
in die obige Formel ein, erhält man nach Normierung genau die gleichen Gewichte wie zuvor.
158
Siegfried Gabler und Matthias Ganninger
3 Gewichtung am Beispiel des ESS „Der European Social Survey (ESS) ist eine aktuelle sozialwissenschaftliche Umfrage, welche die sozialen und politischen Einstellungen von Bürgerinnen und Bürgern aus über 20 europäischen Ländern untersucht.“ (http://www.europeansocialsurvey.de). Der ESS weist eine stark methodische Orientierung auf, sowohl im Hinblick auf die Stichprobenplanung als auch im Bezug auf die Feldarbeit (ESS 2005). Im Bereich der Harmonisierung der Stichproben ist vor allem die Arbeit des Sampling Expert Panels zu nennen, das dafür Sorge trägt, Stichprobenpläne zu erarbeiten, welche dazu führen, dass in den teilnehmenden Ländern Schätzer vergleichbarer Präzision berechnet werden können. Dies setzt die Berücksichtigung von Designeffekten voraus, bei deren Berechnung wiederum auf Meta-Daten aus dem Stichprobenziehungsprozess zurückgriffen werden muss. Im ESS werden hierzu so genannte Sample Design Data Files (SDDF) erstellt, welche auf der Mikroebene eine Reihe von Informationen zum Stichprobendesign beinhalten. Unter Anderem finden sich hier z. B. bei einer mehrstufigen Auswahl die Auswahlwahrscheinlichkeiten jeder Stufe für jeden Befragten. Aus diesen werden, wie oben beschrieben, die Designgewichte (im ESS als Variable DWEIGHT bezeichnet), berechnet als die Inverse des Produkts der Auswahlwahrscheinlichkeiten auf den einzelnen Stufen eines Befragten. Diese rohen Designgewichte werden anschließend auf die Fallzahl normiert. Gewichte über 4.0 werden gestutzt. In Ländern in denen eine einfache Zufallsauswahl realisiert wurde, sind diese Gewichte natürlich alle 1. In Ländern mit einem mehrstufigen Auswahlverfahren werden häufig die Elemente der ersten Stufe (beispielsweise Gemeinden) größenproportional ausgewählt und anschließend in jeder Primäreinheit eine fixe Anzahl von Sekundäreinheiten (beispielsweise Haushalte) gezogen. Anschließend wird auf der dritten Stufe in jedem ausgewählten Haushalt eine zu befragende Person zufällig ausgewählt. Dieses Vorgehen führt dazu, dass das Produkt der Auswahlwahrscheinlichkeiten der ersten beiden Stufen konstant ist. Lediglich auf der Stufe der Personenauswahl entsteht Variation in den Auswahlwahrscheinlichkeiten durch unterschiedliche Haushaltsgrößen. Denn in einem Einpersonenhaushalt wird die einzige dort lebende Person mit Sicherheit ausgewählt, in einem Dreipersonenhaushalt hat dagegen jeder Bewohner eine Chance von 1/3, in die ESS Stichprobe zu gelangen. Dementsprechend variiert die Verteilung sowohl der rohen als auch der normierten Designgewichte von Land zu Land. In einem Land das seine Auswahl nach dem eben beschriebenen Verfahren realisiert, werden die Designgewichte in geringerem Maße streuen als in einem Land dessen Auswahlverfahren auch Variation in den Auswahlwahrscheinlichkeiten einer der ersten beiden Stufen aufweist. Keine Variation der Designgewichte wird dagegen auftreten, wenn ein Land eine einfache Zufallsstichprobe gezogen hat. Dies wird verdeutlicht durch die Histogramme in Abbildung 1, in denen die Verteilungen der auf die Fallzahl normierten Designgewichte des ESS aus dem Jahr 2006 (Runde 3) für Finnland und Frankreich dargestellt sind. Darüber hinaus wird für jedes teilnehmende Land ein so genanntes PWEIGHT ausgegeben. Dabei handelt es sich um ein Schichtgewicht, das proportional zur Größe der Zielpopulation in einem Land ist. Durch die Verwendung von PWEIGHT ist es möglich, die Datensätze mehrerer Länder zu kombinieren und gemeinsame Aus-
7 Gewichtung
(a) Finnland
159
(b) Frankreich
Abb. 1: Normierte Designgewichte aus ESS Runde 3 wertungen zu realisieren. Analog hierzu bezeichnet RWEIGHT ein Gewicht für die Kombination von Daten aus mehreren Runden des ESS. Insgesamt gilt es, vier Szenarien zu unterscheiden, in denen Gewichte im ESS eine Rolle spielen: 1. Auswertungen auf Basis eines Landes in einer Runde (DWEIGHT) 2. Auswertungen auf Basis mehrerer Länder in einer Runde (DWEIGHT, PWEIGHT) 3. Auswertungen auf Basis der kombinierten Datensätze eines Landes über mehrere Runden (DWEIGHT, RWEIGHT) 4. Auswertungen auf Basis der kombinierten Datensätze mehrerer Länder über mehrere Runden (DWEIGHT, RWEIGHT, PWEIGHT). Im Folgenden wird das Vorgehen in diesen vier Szenarien näher beschrieben. Auf Anpassungsgewichtungen wird der Einfachheit halber hier verzichtet. Szenario 1: Auswertungen auf Basis eines Landes in einer Runde Angenommen, die Untersuchungsvariable sei die im ESS angegebene Wahlbeteiligung bei der letzten nationalen Wahl (in Deutschland die Bundestagswahl). Um diesen Anteilswert zu schätzen, eignet sich die ESS-Variable x = VOTE. Sie nimmt die Ausprägung 1 an für angegebene Teilnahme an der letzten Wahl bzw. 0 für angegebene Nicht-Teilnahme, bzw. 2 für alle Personen die nicht wahlberechtigt sind. Interessiert nun z. B. der Anteil der Wähler an den Wahlberechtigten, müssen, um näherungsweise unverzerrte Schätzungen zu erhalten, die Angaben jedes Befragten mit seinem Designgewicht multipliziert werden, hiervon die Summe gebildet und anschließend durch die Summe der Designgewichte geteilt werden:
160
Siegfried Gabler und Matthias Ganninger
pVOTE =
xi · zi · wi , zi · wi
i∈S
i∈S
wobei zi den Wert 1 für die wahlberechtigten Personen annimmt und sonst den Wert 0 hat. Szenario 2: Auswertungen auf Basis mehrerer Länder in einer Runde Sollen nun die Datensätze mehrerer Länder kombiniert werden, müssen zusätzlich zu den Designgewichten auch noch die Ländergewichte berücksichtigt werden. Soll zum Beispiel die mittlere Wahlbeteiligung in den skandinavischen Ländern berechnet werden, so ist auf Basis der designgewichteten Schätzungen der einzelnen Länder deren gewogenes Mittel zu berechnen. Als Gewicht dient PWEIGHT, welches für ein gegebenes Land natürlich konstant für alle Befragten ist. Deshalb ist es zulässig, erst die designgewichteten Schätzungen für jedes Land zu berechnen und anschließend das mit PWEIGHT gewogene Mittel zu bestimmen. Im konkreten Fall würde die mittlere Wahlbeteiligung der skandinavischen Länder Norwegen (NO), Schweden (SE) und Finnland (FI) wie folgt berechnet werden: 1. Zunächst werden die designgewichteten Mittelwerte der in die Kombination eingehenden Länder berechnet: xi · zi · wi i∈S (NO) (NO) pVOTE = , zi · wi i∈S (NO)
(SE) pVOTE
=
xi · zi · wi
i∈S (SE)
zi · wi
,
i∈S (SE)
(FI) pVOTE
=
xi · zi · wi
i∈S (FI)
zi · wi
.
i∈S (FI)
2. Dann wird das gewogene Mittel der Schätzungen aus 1. gebildet (wobei PW für PWEIGHT steht): (NO)
(SKAN)
pVOTE =
(SE)
(FI)
PW(NO) · pVOTE + PW(SE) · pVOTE + PW(FI) · pVOTE PW(NO) + PW(SE) + PW(FI)
Szenario 3: Auswertungen auf Basis der kombinierten Datensätze eines Landes über mehrere Runden Manchmal ist es wünschenswert, die Ergebnisse eines Landes über mehrere Runden hinweg zu kombinieren, etwa, weil die Fallzahl auf Grund von Item-Nonresponse einer Runde zu klein erscheint.
7 Gewichtung
161
Die Kombination der Daten eines Landes aus mehreren Runden setzt adäquate Rundengewichte (RWEIGHT) voraus. Man könnte natürlich die Nettostichprobengröße als Gewicht vorschlagen. Da es innerhalb eines Landes jedoch von einer Runde zur nächsten zu Änderungen im Stichprobendesign kommen kann, wird ein Schätzer auf Basis der Daten einer Runde nicht zwangsläufig dieselbe Güte haben wie der gleiche Schätzer auf Basis der Daten einer anderen Runde. Beispielsweise müsste eine Kombination der Schätzungen des Horvitz-Thompson Schätzers für Norwegen der Runden 1 und 2 des ESS den Wechsel im Stichprobendesign von einer geklumpten Auswahl (Runde 1) hin zu einer einfachen Zufallsauswahl (Runde 2) berücksichtigen, da die Varianz des Schätzers der ersten Runde, berechnet unter der Annahme einer einfachen Zufallsauswahl, unterschätzt würde. Den Faktor dieser Unterschätzung nennt man den Designeffekt, kurz Deff . Er ist definiert als der Quotient der Varianz eines Schätzers e unter einem gegebenen komplexen Stichprobendesign zur Varianz des Schätzers V arcomplex (e) unter einer einfachen Zufallsauswahl mit Zurücklegen (ZmZ): Deff = V ar . Der ZmZ (e) Designeffekt für den Stichprobenmittelwert einer zweistufigen Klumpenauswahl kann als Deff = Deffp · Deffc geschrieben werden, wobei Deffp den Designeffekt aufgrund ungleicher Auswahlwahrscheinlichkeiten bezeichnet und Deffc den Designeffekt aufgrund von Klumpung. In vielen am ESS teilnehmenden Ländern werden auf der ersten Stufe als Primäreinheiten (oder Klumpen) Adressen mit gleichen Wahrscheinlichkeiten ausgewählt. In den ausgewählten Adressen wird dann zufällig eine Person gezogen. Eine Einführung in die Konzeption und Verwendung von Designeffekten geben Gabler et al. (2008). Die Schätzung von Designeffekten im ESS wird in Ganninger et al. (2006) beschrieben. Der effektive Stichprobenumfang einer komplexen Auswahl ist mithin der um den Designeffekt bereinigte Nettostichprobenumfang, neff = n/Deff. Der effektive Stichprobenumfang ist demnach jener Stichprobenumfang, der mit einer einfachen Zufallsauswahl realisiert werden müsste, um einen Schätzer mit derselben Varianz zu erhalten wie ihn eine gegebene komplexe Zufallsauswahl hervorbringt. Damit eignet sich der effektive Stichprobenumfang als Rundengewicht, da er den Nettostichprobenumfang unabhängig vom verwendeten Stichprobendesign macht. Nehmen wir an, wir wollten die Allgemeine Lebenszufriedenheit (STFLIFE) im Deutschen Teil des ESS gemeinsam für Runde 1 und 2 schätzen. Neben einem leichten Anstieg der Zufriedenheit von Runde 1 zu Runde 2 hat sich die Zahl der Primäreinheiten von 153 auf 163 erhöht, was eine Reduktion des Designeffekts zur Folge hatte. Gleichzeitig ging jedoch auch der Nettostichprobenumfang zurück, was dazu führt, dass der effektive Stichprobenumfang von Runde 1 zu Runde 2 leicht zurückgeht. Diese Entwicklungen sind in Tabelle 12 zusammengefasst, wobei hier exemplarisch das arithmetische Mittel und nicht dem ordinalen Skalenniveau entsprechend der Median genommen wurde. Der kombinierte gewogene Schätzer der mittleren allgemeinen Lebenszufriedenheit in Deutschland über die Runden 1 und 2 des ESS, y¯komb , ergibt sich als 1 2916 2870 + 7,17 · = 7,08 . y¯komb = 2916 2870 · 6,96 · 6,10 4,95 6,10 + 4,95
162
Siegfried Gabler und Matthias Ganninger
Tab. 12: Mittelwerte der Variable STFLIFE im deutschen Teil des ESS, Runden 1 und 2
Mittelwert Deff neff
Runde 1
Runde 2
6,96 6,10 2916
7,17 4,95 2870
Tab. 13: Verteilung des Ländergewichts PWEIGHT über Runden 1 und 2 Original
DE GB PT
Standardisiert
Runde 1
Runde 2
Runde 1
Runde 2
(R1+R2) 2
2,39 2,33 0,55
2,45 2,57 0,43
0,4540 0,4416 0,1044
0,4498 0,4713 0,0789
0,4519 0,4564 0,0917
Es bleibt anzumerken, dass die Kombination der Daten mehrerer Runden eines Landes die Annahme impliziert, dass die Befragten der kombinierten Erhebungen aus derselben Population stammen. Diese Annahme, vor allem die möglichen Folgen ihrer etwaigen Verletzung, sollte im Rahmen der weiteren Auswertungen immer berücksichtigt werden. Szenario 4: Auswertungen auf Basis der kombinierten Datensätze mehrerer Länder über mehrere Runden Das prinzipielle Vorgehen bei der Kombination von Daten aus mehreren Runden und Ländern ist äquivalent zum Vorgehen im zweiten Szenario. Zunächst werden länderweise die design- und rundengewichteten Mittelwerte und anschließend mit dem Mittelwert von PWEIGHT in einem Land aus den betreffenden Runden deren gewogenes Mittel berechnet. Angenommen, es interessiert die mittlere Allgemeine Lebenszufriedenheit (STFLIFE) in Deutschland (DE), Großbritannien (GB) und Portugal (PT) kombiniert für die Runden 1 und 2. Die länderspezifischen design- und rundengewichteten Mittelwerte sind 7,08 (DE), 7,22 (GB) und 6,06 (PT). Zudem ergibt sich für diese Länder die in Tabelle 13 dargestellte Verteilung von PWEIGHT. Die in Tabelle 13 vorgenommene Standardisierung von PWEIGHT über die Länder ist nötig, da die Größe von PWEIGHT innerhalb einer Runde auch von den anderen teilnehmenden Ländern abhängt. Der Mittelwert über PWEIGHT von Runde 1 und Runde 2 innerhalb eines Landes dient dann als Gewicht für das gewogene Mittel von STFLIFE. Somit ergibt sich im konkreten Fall für die gemeinsame mittlere Lebenszufriedenheit in Deutschland, Großbritannien und Portugal aus Runde 1 und 2, y¯komb = 7,08 · 0,4519 + 7,22 · 0,4564 + 6,06 · 0,0917 = 7,05.
7 Gewichtung
163
4 Häufige Fehler Manche Nutzer von Daten haben die Vorstellung, dass Gewichtung ein Allheilmittel ist, auch wenn ein schlechtes Stichprobendesign und damit verbunden „schlechte Daten“ der Analyse zugrunde liegen. Eine grundlegende Erkenntnis ist, dass auf die Wahl des Auswahlverfahrens viel Zeit investiert werden muss, auch im Hinblick auf die spätere Datenanalyse und die damit verbundene Gewichtung. Ein gewisser Mindeststichprobenumfang sollte zur Erhebung der Daten auch gewählt werden, da sonst Ergebnisse trotz Gewichtung erzeugt werden, die mit den Gegebenheiten in der Gesamtheit nichts mehr zu tun haben. Ein bekanntes Beispiel ist das von Basu (1971) berichtete Wiegen eines Elefanten (Gabler 2004). Vielfach enthält eine Datenmatrix einen Gewichtungsvektor, der ausschließlich auf der Basis einer Anpassungsgewichtung berechnet wurde. Die vom Auswahlverfahren her begründete Designgewichtung fällt fälschlicherweise unter den Tisch. Ein häufiger Fehler im Zusammenhang mit der Datenanalyse ist die Aussage, dass man bei multivariaten Datenanalysen nicht gewichten muss. Dieser Trugschluss mag in vergangenen Zeiten darin begründet gewesen sein, dass die üblichen Softwareprogramme gar nicht in der Lage waren, adäquate Gewichte einzubauen. Inzwischen haben die meisten Programme zumindest Module, die Datenanalyse bei komplexen Stichproben möglich machen. Tiefer gehende Aussagen zur Gewichtung in diesem Bereich sind in den Büchern von Lohr (1999), Korn & Graubard (1999) sowie Chambers & Skinner (2003) zu finden. Sinnvolle Möglichkeiten, auch bei kleinen Stichprobenumfängen geeignete Gewichtungen zu erzeugen, sind in neuerer Zeit durch Small-Area Schätzer entwickelt worden. Umfangreiche Ergebnisse sind in dem Buch von Rao (2003) enthalten.
5 Literaturempfehlungen Die Grundlagen zu Stichprobenverfahren und Gewichtung findet man in vielen Lehrbüchern, von denen zwei herausgehoben werden sollen. Das Buch von Lohr (1999) ist sowohl vom theoretischen als auch vom praktischen Standpunkt sehr empfehlenswert, da es neben fundierten mathematischen Formeln und deren Ableitungen Probleme in der Praxis aufgreift sowie Übungsaufgaben enthält, die dem besseren Verständnis dienen. Als umfangreiches Standardwerk auf diesem Gebiet ist auch das Buch von Särndal et al. (1992) zu nennen. Wer ein Buch sucht, in dem Empfehlungen bei der Analyse von Erhebungsdaten aber auch Alternativvorschläge gegeben werden, wird bei Korn & Graubard (1999) fündig.
Literaturverzeichnis Basu, D. (1971). An Essay on the Logical Foundations of Survey Sampling. In V. P. Godambe & D. A. Sprott (Hg.), Foundations of Statistical Inference (S. 203–242). Geneva: Holt McDougal. Chambers, R. & Skinner, C. (2003). Analysis of Survey Data. Chichester: John Wiley & Sons.
164
Siegfried Gabler und Matthias Ganninger
Deming, W. & Stephan, F. (1940). On a Least Squares Adjustment of a Sampled Frequency Table when the Expected Marginal Totals are Known. Annals of Mathematical Statistics, 11, 427–444. ESS (2005). European Social Survey, Round 3: Specification for Participating Countries. Specification. Letzter Zugriff 29.03.2010: http://naticent02.uuhost.uk.uu.net/proj_ spec/round_3/r3_spec_participating_countries.pdf. Gabler, S. (2004). Gewichtungsprobleme in der Datenanalyse. Kölner Zeitschrift für Soziologie und Sozialpsychologie, Sonderheft 44, 128–147. Gabler, S., Ganninger, M., Häder, S., & Münnich, R. (2008). Design Effects. In P. Lavrakas (Hg.), Encyclopedia of Survey Research Methods (S. 193–197). London: Sage Publications. Gabler, S. & Hoffmeyer-Zlotnik, J. H.-P. (1993). Gewichtung in der Umfragepraxis. Wiesbaden: Westdeutscher Verlag. Ganninger, M., Häder, S., & Gabler, S. (2006). Estimation of Design Effects for ESS Round ii. 1st National Coordinators meeting of the ESS. Letzter Zugriff 29.03.2010: http://naticent02.uuhost.uk.uu.net/ess_docs/R3/Methodology/r2_ ganninger_design_effects.pdf. Korn, E. & Graubard, B. (1999). Analysis of Health Surveys. Chicester: John Wiley & Sons. Lohr, S. (1999). Sampling: Design and Analysis. Pacific Grove: Duxbury Press. Rao, J. (2003). Small Area Estimation. John Wiley & Sons. Robins, J. M., Rotnitzky, A., & Zhao, L. (1995). Analysis of Semiparametric Regression Models for Repeated Outcomes in the Presence of Missing Data. Journal of the American Statistical Association, 90, 106–121. Särndal, C.-E., Swensson, B., & Wretman, J. (1992). Model Assisted Survey Sampling. Heidelberg: Springer Verlag. Wolters, K. (1995). Introduction to Variance Estimation. Heidelberg: Springer Verlag. Wooldridge, J. M. (2002). Econometric Analysis of Cross Section and Panel Data. Cambridge: MIT Press.
8 Grundlagen des statistischen Schließens Steffen M. Kühnel und Dagmar Krebs a b
Georg-August-Universität Göttingen Justus-Liebig-Universität Gießen
Zusammenfassung. Beim statistischen Schließen werden mit Hilfe von Stichprobendaten Aussagen über Eigenschaften einer Population getroffen. Da vom Besonderen – der Stichprobe – auf das Allgemeine – die Population – geschlossen wird, gibt es, wie bei jedem Induktionsschluss, ein aus logischen Gründen unvermeidbares Fehlerrisiko. Der Nutzen statistischen Schließens besteht darin, Fehlerrisiken abzuschätzen und bisweilen auch zu minimieren. Erreicht wird dies durch einen Perspektivenwechsel vom Einzelfall (eines Induktionsschlusses in einer Stichprobe) auf die Verteilung der Ergebnisse aller gleichartigen Induktionssschlüsse (in gleichartigen Stichproben). Innerhalb des statistischen Schließens wird zwischen dem Schätzen von Populationseigenschaften bzw. Modellparametern einerseits und der Prüfung von Vermutungen oder Behauptungen über Populationseigenschaften bzw. Modellparameter andererseits unterschieden. Während das Ergebnis des Schätzens eine empirisch begründete Feststellung über die Beschaffenheit der Population oder Wahrscheinlichkeitsverteilung ist, ist das Ergebnis des Testens die empirisch begründete Feststellung, dass die Vermutung entweder zutrifft oder nicht zutrifft. Aufgrund des Induktionsproblems ist es grundsätzlich nicht auszuschließen, dass die Feststellung fehlerhaft sein kann. In diesem Beitrag werden wir zunächst die grundlegende Logik des statistischen Schätzens und dann die grundlegende Logik des statistischen Testens vorstellen. Da das größte Problem beim statistischen Schließen in der Fehlinterpretation der Ergebnisse besteht, werden im letzten Teil des Beitrags einige häufig vorkommende Anwendungsprobleme und Anwendungsfehler diskutiert, die zu Fehlinterpretationen von Ergebnissen führen können.
1 Einführung in die Fragestellung Statistisches Schließen und die Prüfung (das Testen) statistischer Hypothesen wird am Beispiel der Entlohnung von Frauen und Männern erläutert.1 Soll z. B. die Vermutung geprüft werden, dass in der Bundesrepublik der durchschnittliche Stundenlohn von weiblichen Beschäftigten deutlich geringer ist als der durchschnittliche Stundenlohn männlicher Beschäftigter mit gleicher Qualifikation, Erfahrung und Tätigkeit, dann kann diese Vermutung an einer Stichprobe von 500 männlichen und 500 weiblichen 1
Das Beispiel ist fiktiv und dient allein der Konkretisierung der abstrakten Argumentation. Da es in diesem Beitrag allein um die Logik des statistischen Schließens geht, verzichten wir auf Beispielrechnungen mit empirischen Daten. Empirische Beispiele finden sich in Lehrbüchern zur Statistik, z .B. in Kühnel & Krebs (2007).
S. 165–189 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_8, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
166
Steffen M. Kühnel und Dagmar Krebs
Beschäftigen überprüft werden. Angenommen, in der Stichprobe besteht kein Unterschied des durchschnittlichen Stundenlohns von Frauen und Männern. Vor dem Hintergrund dieser Daten liegt der Schluss nahe, dass der Durchschnittslohn von Frauen und Männern tatsächlich gleich hoch ist. Für die Abschätzung des Risikos einer Fehlentscheidung wird in der schließenden Statistik nun nicht nur die einzelne Stichprobe betrachtet, sondern mit der Verteilung aller möglichen Stichproben von zweimal 500 Fällen aus zwei Subpopulationen in Beziehung gesetzt. Unter bestimmten Voraussetzungen (siehe Abschnitt 3.1) lässt sich berechnen, mit welcher maximalen Wahrscheinlichkeit in einer Stichprobe der Durchschnittslohn der Männer über dem Durchschnittslohn der Frauen liegt, wenn in der Population der Durchschnittslohn der Frauen tatsächlich kleiner oder gleich dem der Männer ist. Nur wenn diese Wahrscheinlichkeit sehr klein ist, wird dies als Bestätigung der Vermutung gesehen, dass der Stundenlohn der Frauen unter dem der Männer liegt (siehe hierzu Abschnitt 4.2). Geht es dagegen nicht um den Test einer Vermutung, sondern darum den prozentualen Unterschied des Durchschnittslohns von Frauen und Männern zu schätzen, dann ist es sinnvoll, anstelle der Schätzung eines konkreten Werts einen Bereich – ein Konfidenzintervall – zu schätzen, das den zu schätzenden Wert vermutlich einschließt. Statistisches Schließen und Testen sind Gegenstände der Inferenzstatistik (inferential statistics), die auch induktive oder schließende Statistik genannt wird. Wie oben beschrieben, geht es in der Inferenzstatistik darum, von einer Stichprobe auf die Grundgesamtheit, aus der die Stichprobe stammt, zu schließen.
2 Statistisches Schätzen Ziel des statistischen Schätzens ist es, Erkenntnisse über Eigenschaften einer Population zu gewinnen. Die Population kann – wie im Beispiel des Stundenlohnvergleichs von Männern und Frauen – sehr konkret sein. In den meisten sozialwissenschaftlichen Anwendungen ist die Population allerdings nicht näher spezifiziert. Statistische Schlüsse beziehen sich dann auf eine gedachte Population oder Wahrscheinlichkeitsverteilung von Stichproben, wobei angenommen wird, dass die empirische Stichprobe eine Zufallsauswahl aus der Gesamtheit der theoretisch möglichen, gleichartigen Stichproben ist. Zentrale Voraussetzung für jede Wahrscheinlichkeitsaussage der schließenden Statistik ist, dass sich die beobachtete Datenbasis als Ergebnis eines Zufallsexperiments auffassen lässt. Die beim Schätzen betrachteten Eigenschaften sind Kennwerte der Population, wie etwa der Mittelwert einer Variablen oder die Produktmomentkorrelation zwischen zwei Variablen – jeweils definiert über alle Elemente der Population. Diese Beschreibung des Gegenstands statistischen Schätzens folgt der Logik des designbasierten Ansatzes. Im designbasierten Ansatz (Lohr 1999) ergibt sich die Zufälligkeit der Stichprobenergebnisse ausschließlich durch eine Zufallsauswahl der Stichprobenelemente. Die Populationsverteilung wird hier als eine empirische Verteilung betrachtet. Die Realisierungen in der Stichprobe sind dann formal gesehen Eigenschaftswerte von Untersuchungseinheiten der Population. Statistisch gesehen sind dann die in einer Stichprobe beobachteten Daten mathematische Konstanten, die mit den Realisierungswahrscheinlichkeiten der Stichprobenziehung beobachtet werden können.
8 Grundlagen des statistischen Schließens
167
Im modellbasierten Ansatz wird dagegen davon gesprochen, dass Parameter einer (multivariaten) Wahrscheinlichkeitsverteilung oder eines statistischen Modells geschätzt werden. Im modellbasierten Ansatz (Lohr 1999) wird die gesamte Datengenerierung als ein stochastischer Prozess aufgefasst und die beobachteten Daten sind Realisierungen aus Wahrscheinlichkeitsverteilungen. Obwohl die beiden Ansätze für spezifische Anwendungen zu unterschiedlichen Ergebnissen kommen können, ist es für die Praxis in der Regel irrelevant, ob ein Ergebnis designbasiert oder modellbasiert hergeleitet wird. Wichtiger ist, dass grundsätzlich alle Ergebnisse der schließenden Statistik an Voraussetzungen gebunden sind, was bei ihrer Interpretation zu bedenken ist. Für die Darstellung der Logik des statistischen Schließens ist es aber einfacher, vom designbasierten Ansatz auszugehen. Einer in der Statistik üblichen Notation folgend werden in diesem Beitrag sowohl die Kennwerte einer Population als auch die Parameter einer Wahrscheinlichkeitsverteilung oder eines Modells durch griechische Buchstaben symbolisiert. So steht der kleine griechische Buchstabe μ (mü) für den Populationsmittelwert bzw. den Erwartungswert einer Wahrscheinlichkeitsverteilung und der griechische Buchstabe σ (sigma) für die Standardabweichung. Als allgemeines Symbol für eine beliebige Kenngröße oder einen beliebigen Parameter wird der griechische Buchstabe θ (theta) verwendet. Wenn nicht nur eine einzige Kenngröße, sondern mehrere betrachtet werden, stehen die Symbole nicht mehr für einzelne Werte, sondern für Vektoren oder Matrizen, also Anordnungen von Werten in ein- oder zweidimensionalen Tabellen. Große lateinische Buchstaben kennzeichnen in der Regel Variablen, kleine lateinische Buchstaben beschreiben die Ausprägungen einer Variablen. Bei einer Darstellung als Matrixgleichung wird häufig Fettdruck verwendet. Hier stehen große Buchstaben für Matritzen und kleine Buchstaben für Vektoren. Die Schätzung von Kenngrößen und Parametern erfolgt mit Hilfe von Stichprobendaten. Dabei wird unter Anwendung einer mathematischen Funktion oder eines mathematischen Algorithmus aus den Stichprobendaten eine Schätzung des Parameterwertes berechnet (siehe Kapitel 10 in diesem Handbuch zu Maximum-Likelihood, Kapitel 9 zu Bootstrapping). Um Schätzungen von den zu schätzenden Kenngrößen oder Parametern zu unterscheiden, wird üblicherweise ein Dach über das Symbol des Parameters gesetzt: μ ˆ bezeichnet also Schätzungen von μ, θˆ entsprechend Schätzungen von θ. Um die Logik des statistischen Schätzens zu verstehen, muss dabei zwischen einer konkreten Schätzung und der mathematischen Funktion bzw. dem Schätzalgorithmus unterschieden werden. Die mathematische Funktion bzw. der Algorithmus wird in diesem Zusammenhang als Schätzer bezeichnet, die Anwendung des Schätzers auf die Daten einer konkreten Stichprobe als Schätzung. Leider gibt es bislang keine eindeutige Symbolik zur Unterscheidung von Schätzer und Schätzung. 2.1 Eigenschaften von Schätzern Das statistische Problem des Schätzens besteht darin, Schätzer zu finden, die die interessierenden Kennwerte oder Parameter möglichst gut schätzen. Dazu müssen Kriterien vorliegen, nach denen Schätzer beurteilt werden können. Ein optimaler Schätzer würde in allen Stichproben die interessierenden Kennwerte oder Parameter
168
Steffen M. Kühnel und Dagmar Krebs
exakt ergeben. Aufgrund des Induktionsproblems kann es solche Schätzer nicht geben. Im designbasierten wie im modellbasierten Ansatz sind die Stichprobendaten Ergebnis eines Zufallsexperiments. Daher sind alle Schätzungen mit Hilfe eines Schätzers ebenfalls Ergebnisse eines Zufallsexperiments und der Schätzer selbst kann als eine Zufallsvariable aufgefasst werden, wobei die einzelnen Schätzungen Realisierungen dieser Zufallsvariablen sind. Die Eigenschaften von Schätzern beziehen sich entsprechend auf die Wahrscheinlichkeitsverteilung der Schätzer über alle möglichen Stichproben. Von besonderem Interesse sind dabei die ersten beiden Momente der Verteilung, also der Erˆ und seine Varianz σ 2 (θ) ˆ bzw. Standardabweichung wartungswert eines Schätzers μ(θ) 2 ˆ Die Standardabweichung eines Schätzers wird üblicherweise als Standardfehler σ(θ). oder Standardschätzfehler bezeichnet. Im Eingangsbeispiel interessiert der Populationsmittelwert μ(Y ) des Stundenlohns von abhängig Beschäftigten. Als Schätzer könnte der Stichprobenmittelwert über alle n Realisierungen y1 ,y2 , . . . , yn einer Stichprobe des Umfangs n herangezogen werden: 1 yi n i=1 n
μ ˆ(Y ) = y¯ =
(1)
In einfachen Zufallsauswahlen mit Zurücklegen bzw. in Zufallsauswahlen aus unbegrenzt großen Populationen ist der Erwartungswert dieses Schätzers – in der Wahrscheinlichkeitsverteilung aller theoretisch möglichen Stichproben vom Umfang n – gleich dem Populationsmittelwert μ(Y ) von Y und der Standardschätzfehler ist die positive Quadratwurzel aus der Varianz σ 2 (Y ) von Y in der Population geteilt durch den Stichprobenumfang: σ 2 (Y ) μ(¯ y ) = μ(Y ) und σ(¯ y) = (2) n Anhand dieses Beispiels eines Schätzers kann die Bedeutung der erwünschten Eigenschaften eines Schätzers verdeutlicht werden. Da es aufgrund des Induktionsproblems nicht möglich ist,3 dass jede Schätzung den zu schätzenden Wert genau trifft, so sollte zumindest der Mittelwert über alle Schätzungen, d. h. der Erwartungswert der Wahrscheinlichkeitsverteilung des Schätzers, gleich dem zu schätzenden Wert sein. Diese Bedingung wird vom Stichprobenmittelwert in einfachen Zufallsauswahlen erfüllt. Der Stichprobenmittelwert ist ein sogenannter erwartungstreuer oder unverzerrter (engl.: unbiased) Schätzer. Die Stichprobenvarianz (definiert als Mittelwert der quadrierten Abweichungen aller Realisierungen in einer Stichprobe vom Stichprobenmittelwert) ist dagegen i. a. kein erwartungstreuer Schätzer der Populationsvarianz.4 In einfachen Zufallsauswahlen ist der Erwartungswert der Wahrscheinlichkeitsverteilung der Stichprobenvarianz bei reellwertigen Variablen nämlich: 2
3
4
Wenn mehrere Parameter θi und θj geschätzt werden, interessiert zudem die Kovarianz σ(θˆi ,θˆj ) zwischen den Schätzern. Im Beispiel gilt dies immer dann, wenn die Werte der interessierenden Variablen Y in der Population variieren. Eine Ausnahme ist die Schätzung der Populationsvarianz einer dichotomen Variablen, die erwartungstreu über die Stichprobenvarianz geschätzt werden kann.
8 Grundlagen des statistischen Schließens
μ(s2Y ) = μ
n 1 (yi − y¯)2 · n i=1
=
n−1 2 · σ (Y ) < σ 2 (Y ) n
169
(3)
Die Differenz zwischen dem Erwartungswert eines Schätzers und dem zu schätzenden Wert wird als Verzerrung (engl.: bias) bezeichnet. Bei der Stichprobenvarianz als Schätzer der Populationsvarianz beträgt die Verzerrung in einfachen Zufallsauswahlen −1/n, die Populationsvarianz wird also unterschätzt. Neben der Erwartungstreue ist die Konsistenz eines Schätzers eine sehr erwünschte Eigenschaft. Ein Schätzer ist konsistent, wenn damit zu rechnen ist, dass mit steigendem Stichprobenumfang der Schätzer immer genauer wird. Da hier die Fallzahl n der Stichprobe von Bedeutung ist, werden die Symbole für einen Schätzer durch die Fallzahl n indiziert. θˆn bezeichnet also einen Schätzer des Kennwerts oder Parameters θ in Stichproben des Umfangs n. Formal lässt sich die Konsistenz dann über den Grenzwert der vorzeichenbereinigten Differenzen zwischen den Realisierungen der Schätzer und dem zu schätzenden Wert definieren. Da Wahrscheinlichkeitsverteilungen betrachtet werden, wird von einem konsistenten Schätzer verlangt, dass bei steigender Fallzahl die Wahrscheinlichkeit P r gegen Eins gehen soll, dass die vorzeichenbereinigte Differenz zwischen den Schätzungen und dem zu schätzenden Wert kleiner als eine beliebig kleine positive Größe ε ist: ˆ < ε) = 1 (4) lim P r(|θˆn − θ| n→∞
Um zu prüfen, ob ein Schätzer konsistent ist, kann dessen erwarteter quadrierter Fehler (mean squared error, MSE) bei steigenden Fallzahlen betrachtet werden. Der MSE ist der Erwartungswert der quadrierten Differenzen zwischen dem Schätzer und dem zu schätzenden Wert. Aufgrund der Eigenschaft von Mittelwerten und Erwartungswerten, dass sie die Summe der quadrierten Abweichungen aller Realisierungen von sich selbst minimieren, gilt für den mittleren quadrierten Fehler, dass er die Summe aus der Varianz eines Schätzers plus der quadrierten Verzerrung ist: 2 ˆ + μ(θ) ˆ −θ ˆ = μ (θˆ − θ)2 = σ 2 (θ) MSE(θ)
(5)
Bei erwartungstreuen Schätzern ist der mittlere quadrierte Fehler gleich dem quadrierten Standardfehler. Wenn der mittlere quadrierte Fehler bei steigender Fallzahl gegen Null geht, ist ein erwartungstreuer Schätzer konsistent. Dies trifft für den Stichprobenmittelwert als Schätzer des Populationsmittelwerts in einfachen Zufallsstichproben zu: 2 2 σ (Y ) =0 (6) lim σ (¯ y ) = lim n→∞ n→∞ n Obwohl die Stichprobenvarianz kein erwartungstreuer Schätzer der Populationsvarianz ist, ist auch sie ein konsistenter Schätzer, da sowohl die Verzerrung −1/n mit steigender Fallzahl gegen Null geht als auch ihr quadrierter Standardfehler. Wenn zudem, wie bei der Stichprobenvarianz, die Verzerrung eines Schätzers mit steigender Fallzahl immer kleiner wird, ist der Schätzer asymptotisch unverzerrt.
170
Steffen M. Kühnel und Dagmar Krebs
Wenn verschiedene Schätzer des gleichen zu schätzenden Parameters beurteilt werden sollen, betrachtet man ihre relative Effizienz. Ein Schätzer ist effizienter als ein zweiter, wenn der mittlere quadrierte Fehler des ersten Schätzers kleiner ist als der des zweiten. Inhaltlich bedeutet dies, dass bei einem effizienteren Schätzer eine größere Chance besteht, bei gleicher Fallzahl eine Schätzung in der Nähe des zu schätzenden Wertes zu erzielen als bei einem weniger effizienten Schätzer. Als Beispiel wird oft die Schätzung von Populationsmittelwert und -median herangezogen. Bei symmetrischen Verteilungen sind beide Werte identisch, so dass es möglich ist, den gemeinsamen Populationswert mittels des Stichprobenmittelwerts oder des Stichprobenmedians zu schätzen. Bei einer einfachen Zufallsauswahl aus einer normalverteilten Population ist der Stichprobenmittelwert mit dem oben aufgeführten Standardfehler um den zu schätzenden Wert normalverteilt. Auch der Stichprobenmedian ist bei normalverteilten Populationen und einfachen Zufallsauswahlen ein erwartungstreuer normalverteilter 2 Schätzer des Populationsmittelwertes. Seine Varianz kann als σ 2 (˜ y ) = (π/2)·(σ (Y )/n) berechnet werden. Da diese Varianz größer ist als die Varianz des Stichprobenmittelwerts 2 σ 2 (¯ y ) = σ (Y )/n, ist der Mittelwert bei einfachen Zufallsauswahlen aus normalverteilten Populationen ein effizienterer Schätzer und damit dem Median vorzuziehen. Allerdings gilt die Effizienz meist nur unter bestimmten Bedingungen. So ist es möglich, dass der Stichprobenmedian bei nichtnormalverteilten symmetrischen Populationen ein effizienterer Schätzer für die Lage der Verteilung ist als der Stichprobenmittelwert. 2.2 Intervallschätzung So gute Eigenschaften ein Schätzer auch haben mag, es ist niemals ausgeschlossen, dass die einzelne Schätzung deutlich von dem zu schätzenden Wert abweicht. Zwar gilt für konsistente Schätzer, dass die Wahrscheinlichkeit von Abweichungen mit der Größe der Abweichung sinkt, gleichwohl ist es ausgesprochen unwahrscheinlich, dass eine Schätzung mit dem zu schätzenden Wert exakt übereinstimmt. Es kann daher sinnvoll sein, anstelle der Schätzung eines konkreten Werts (= Punktschätzung) einen Bereich zu schätzen, innerhalb dessen der zu schätzende Wert vermutlich liegt. Solche Schätzungen werden als Intervallschätzungen bezeichnet. Bei der Intervallschätzung werden Konfidenzintervalle berechnet. Voraussetzung hierfür ist die Definition einer Funktion über die Stichprobendaten, im Allgemeinen ein Schätzer, deren Wahrscheinlichkeitsverteilung von dem zu schätzenden Kennwert bzw. Parameter abhängt. Die übliche Vorgehensweise bei der Berechnung eines Konfidenzintervalls kann am Beispiel der Intervallschätzung eines Populationsmittelwerts μY bei einer einfachen Zufallsauswahl mit Zurücklegen verdeutlicht werden. Unter dieser Bedingung gilt, dass der Stichprobenmittelwert mit einem quadrierten Stan2 dardfehler von σ (Y )/n um den Populationsmittelwert asymptotisch normalverteilt ist. Bei hinreichend großen Stichproben lässt sich daher für eine beliebige vorgegebene Wahrscheinlichkeit 1 − α die Wahrscheinlichkeit berechnen, dass ein Intervall um den Stichprobenmittelwert den Populationsmittelwert enthält: P r y¯ − z1− α2 · σ(¯ y ) ≤ μY ≤ y¯ + z1− α2 · σ(¯ y) ≈ 1 − α
(7)
8 Grundlagen des statistischen Schließens
171
Der Ausdruck z1−α/2 steht dabei für das Quantil der Standardnormalverteilung mit der Quantilwahrscheinlichkeit 1 − α/2.5 Da die Normalverteilung nur asymptotisch gilt, gilt auch die Wahrscheinlichkeit nur asymptotisch, was hier durch das Symbol für „ungefähr gleich“ (≈) statt „gleich“ (=) ausgedrückt wird. Wäre die Populationsvarianz σ 2 (Y ) und damit der Standardfehler bekannt, ließen sich die Intervallgrenzen direkt berechnen. Die asymptotische Normalverteilung gilt aber auch, wenn der Standardfehler über die geschätzte Populationsvarianz geschätzt wird: ˆ (¯ y ) ≤ μY ≤ y¯ + z1− α2 · σ ˆ (¯ y) P r y¯ − z1− α2 · σ σ ˆ 2 (Y ) σ ˆ 2 (Y ) =P r y¯ − z1− α2 · ≤ μY ≤ y¯ + z1− α2 · n n (8) n n 2 (y − y ¯ ) (yi − y¯)2 i i=1 i=1 ≤ μY ≤ y¯ + z1− α2 · =P r y¯ − z1− α2 · n · (n − 1) n · (n − 1) ≈1 − α Zu beachten ist, dass sich die Wahrscheinlichkeitsaussage auf das Konfidenzintervall bezieht und nicht auf den zu schätzenden Parameter. Nicht der Populationsmittelwert liegt mit einer Wahrscheinlichkeit von 1 − α in dem durch das Konfidenzintervall festgelegten Bereich, sondern das Intervall enthält mit einer Wahrscheinlichkeit von 1 − α den Populationswert. Ob ein konkretes Konfidenzintervall den zu schätzenden Wert tatsächlich enthält, bleibt ungewiss, da eine Chance von α besteht, dass das Intervall den Wert nicht enthält. Der Wert α wird daher als Irrtumswahrscheinlichkeit bezeichnet, der Wert 1 − α als Vertrauenswahrscheinlichkeit. Die Festlegung der Irrtumswahrscheinlichkeit liegt in der Entscheidung des Anwenders, wobei allerdings im Laufe der Zeit Konventionen entstanden sind. So werden in der Sozialforschung in der Regel Irrtumswahrscheinlichkeiten von 5 % oder 1 % verwendet, und entsprechend meist Konfidenzintervalle berechnet, deren Vertrauenswahrscheinlichkeit 95 % oder 99 % beträgt. Bei der Festlegung der Irrtums- bzw. Vertrauenswahrscheinlichkeit ist zu berücksichtigen, dass die Intervallbreite umso größer ist, je größer die Vertrauenswahrscheinlichkeit, bzw. je kleiner die Irrtumswahrscheinlichkeit ist. Da die Irrtumswahrscheinlichkeit je zur Hälfte am unteren und am oberen Rand der Verteilung liegt muss sie halbiert werden, um den angemessenen Quantilwert der Normalverteilung zu bestimmen. So beträgt das in die Berechnung des Konfidenzintervalls eingehende (1 − α/2)-Quantil der Standardnormalverteilung bei einer Irrtumswahrscheinlichkeit von 5 % z0,975 = 1,96, bei einer Irrtumswahrscheinlichkeit von 1 % z0,995 = 2,576. Das 99 %-Konfidenzintervall für den Populationsmittelwert ist daher 1,31 (= 2,576/1,96) mal so breit wie ein 95 %-Konfidenzintervall. Wenn die Irrtumswahrscheinlichkeit zu klein 5
Das α-Quantil einer Wahrscheinlichkeitsverteilung ist die kleinste Zahl für die gilt, dass die Realisierungen der Verteilung mit einer Wahrscheinlichkeit von mindestens α kleiner oder gleich dieser Zahl sind. Bei empirischen Verteilungen wird statt der Wahrscheinlichkeit die relative Häufigkeit aller Fälle betrachtet.
172
Steffen M. Kühnel und Dagmar Krebs
gewählt wird, ist das Intervall evtl. nicht aussagekräftig, da es einen zu großen Bereich abdeckt. Analog zur Berechnung eines Konfidenzintervalls für einen Populationsmittelwert lassen sich (asymptotisch gültige) Konfidenzintervalle für beliebige andere Kennwerte bzw. Parameter berechnen, solange ein (asymptotisch) unverzerrter und normalverteilter Schätzer verwendet wird. Wenn θˆ ein solcher Schätzer eines Parameters θ ist und ˆ der geschätzte Standardfehler des Schätzers, dann berechnen sich die Grenzen σ ˆ (θ) des (1 − α)-Konfidenzintervalls nach ˆ . ˆ (θ) θˆ ± z1− α2 · σ
(9)
Da für viele Schätzmethoden (siehe Kapitel 10 in diesem Handbuch) gilt, dass sie zu asymptotisch unverzerrten und asymptotisch normalverteilten Schätzern führen, können nach dieser Formel asymptotische Konfidenzintervalle für die gebräuchlichsten Kennwerte und Parameter berechnet werden. Konfidenzintervalle können zudem direkt mit der Bootstrapping-Methode (Kapitel 9 in diesem Handbuch) berechnet werden. Anstelle der asymptotisch gültigen Konfidenzintervalle lassen sich bisweilen auch „exakte“ Konfidenzintervalle berechnen. So gilt für Stichprobenmittelwerte bei einfachen Zufallsauswahlen aus normalverteilten Populationen, dass der Quotient y¯ − μY y¯ − μY = n σ ˆ (¯ y) (yi −¯ y )2
(10)
i=1
n·(n−1)
mit df = n − 1 Freiheitsgraden t-verteilt ist. Bei normalverteilten Populationen und einfachen Zufallsauswahlen können daher exakte Konfidenzintervalle für die Schätzung des Populationsmittelwerts berechnet werden: ˆ (¯ y ) ≤ μY ≤ y¯ + t1− α2 ;df =n−1 · σ ˆ (¯ y) = 1 − α , P r y¯ − t1− α2 ;df =n−1 · σ
(11)
wobei t1−α/2;df =n−1 das (1− α/2)-Quantil der t-Verteilung mit df = n−1 Freiheitsgraden bezeichnet. Konfidenzintervalle können nicht nur für die Parameter selbst, sondern auch für eineindeutige Funktionen der Parameter berechnet werden. Wenn g(θ) eine solche Funktion eines Parameters θ ist, dann ergeben sich die Grenzen des (1−α)-Konfidenzintervalls für g(θ) durch Anwendung der Funktion g(. . .) auf die Intervallgrenzen. Bei asymptotisch normalverteilten Schätzern gilt also: ˆ ˆ ≈1−α ˆ (θ) ≤ g (θ) ≤ g θˆ + z1− α2 · σ ˆ (θ) (12) P r g θˆ − z1− α2 · σ Als ein Beispiel für die Transformation soll die Berechnungsformel für das (1 − α)-Konfidenzintervall der Standardabweichung σY in einer normalverteilten Population berechnet werden, wenn aus dieser Population eine einfache Zufallsauswahl des Umfangs n gezogen ist.6 Dieses Beispiel demonstriert auch die Anwendung nicht normalverteilter Statistiken bei der Berechnung von Konfidenzintervallen. Die Variation 6
Da Varianzen nicht negativ sind, stehen Standardabweichung und Varianz in einer eineindeutigen Funktion zueinander.
8 Grundlagen des statistischen Schließens
173
von Y geteilt durch die Populationsvarianz ist in einer einfachen Zufallsauswahl aus einer normalverteilten Population mit df = n − 1 Freiheitsgraden chiquadratverteilt. Dann folgt: n n 2 2 (y − y ¯ ) (y − y ¯ ) i i i=1 i=1 ≤ χ2α;df =n−1 = P r ≤ σY2 = α , (13) Pr σY2 χ2α;df =n−1 wobei χ2α;df =n−1 das α-Quantil der Chiquadratverteilung mit df = n−1 Freiheitsgraden bezeichnet. Somit ergibt sich das (1 − α)-Konfidenzintervall für die Populationsvarianz nach: n n 2 2 ¯) ¯) 2 i=1 (yi − y i=1 (yi − y ≤ σY ≤ Pr =1−α (14) χ21− α ;df =n−1 χ2α ;df =n−1 2
2
Das gesuchte Konfidenzintervall für die Standardabweichung ergibt sich durch Ziehen der positiven Quadratwurzel: n n ¯)2 ¯)2 i=1 (yi − y i=1 (yi − y Pr ≤ σY ≤ =1−α (15) χ21− α ;df =n−1 χ2α ;df =n−1 2
2
Konfidenzintervalle werden meistens für einzelne Kennwerte oder Parameter berechnet. Es ist aber auch möglich, mehrdimensionale Konfidenzregionen für Mengen von Parametern zu berechnen. Die Berechnung basiert auf multivariaten Wahrscheinlichkeitsverteilungen und wird schnell sehr komplex. Auf die leicht mögliche Fehlinterpretation eines Konfidenzintervalls, dessen Vertrauenswahrscheinlichkeit auf den zu schätzenden Parameter statt auf das Intervall zu beziehen, wurde bereits hingewiesen. Nicht bedacht wird auch oft, dass die Berechnung von Konfidenzintervallen nicht wirklich eindeutig ist. Anstatt ein symmetrisches Konfidenzintervall um den zu schätzenden Parameter zu berechnen, z. B. ˆ ≤ θ ≤ θˆ + z1− α · σ ˆ ≈ 1−α, ˆ (θ) ˆ ( θ) (16) P r θˆ − z1− α2 · σ 2 lassen sich beliebige andere Intervalle mit gleicher Auftretenswahrscheinlichkeit berechnen, beispielsweise: ˆ ≈ 1 − α oder P r θˆ + z ˆ · σ ˆ ≤θ ≈1−α ˆ (θ) ˆ ( θ) (17) P r θ ≤ θˆ + z1−α;θˆ · σ α;θ Für alle diese Intervalle gilt, dass sie mit einer Wahrscheinlichkeit von 1 − α den zu schätzenden Wert enthalten. Wenn die Wahrscheinlichkeitsverteilung eines Schätzers allerdings unimodal und symmetrisch um den zu schätzenden Wert liegt, ist das Intervall mit den Quantilen α/2 und 1 − α/2 das kleinstmögliche Intervall. Da es informativer ist, wenn sich die Aussage auf ein möglichst kleines Intervall bezieht, liegt es daher nahe, genau diese beiden Quantile zu verwenden. Bei schiefen Verteilungen können dagegen andere Quantilwerte kleinere Konfidenzintervalle ergeben.
174
Steffen M. Kühnel und Dagmar Krebs
3 Statistisches Testen Beim statistischen Testen werden Vermutungen über die Eigenschaft einer Population bzw. über Parameter eines statistischen Modells geprüft. Die Prüfung der Frage ob der durchschnittliche Stundenlohn von Frauen deutlich unter dem von Männern liegt, ist ein Beispiel für eine Fragestellung, für deren Beantwortung ein statistischer Test angewendet wird. Während das Ergebnis des Schätzens über die Beschaffenheit der Population oder Wahrscheinlichkeitsverteilung informiert, führt die Prüfung statistischer Hypothesen zu der Feststellung, dass die Vermutung entweder zutrifft oder nicht zutrifft. Aufgrund des Induktionsproblems ist es grundsätzlich nicht auszuschließen, dass diese Feststellung fehlerhaft sein kann. 3.1 Hypothesentests über Konfidenzintervalle Insbesondere beim Prüfen einer Vermutung über einen einzelnen Populationswert bzw. Parameter liegt es nahe, ein Konfidenzintervall zu berechnen und die Entscheidung über die Richtigkeit der Vermutung davon abhängig zu machen, ob der durch das Konfidenzintervall abgedeckte Bereich mit der Vermutung kompatibel ist oder nicht. Im Sinne eines strengen Testens ist es sinnvoll, die Vermutung nur dann als zutreffend zu akzeptieren, wenn das Gegenteil der Vermutung mit großer Sicherheit falsch ist. Diese Überlegung führt dazu, zwischen der inhaltlich interessierenden Forschungshypothese und ihrem Gegenteil zu unterscheiden. Beim statistischen Testen wird im Allgemeinen das Gegenteil der Forschungshypothese als Nullhypothese H0 bezeichnet. Die Prüfung einer Vermutung mittels eines Konfidenzintervalls erfolgt dann so, dass kontrolliert wird, ob der durch die Nullhypothese postulierte Wert bzw. die durch die Nullhypothese postulierten Werte innerhalb des Konfidenzintervalls liegen. Ist dies der Fall, dann ist die Nullhypothese mit den empirischen Daten kompatibel. Liegen die Werte der Nullhypothese dagegen außerhalb des Konfidenzintervalls, dann ist die Nullhypothese vermutlich falsch und entsprechend die eigentlich interessierende Forschungshypothese zutreffend. Da bei einem (1 − α)-Konfidenzintervall eine Wahrscheinlichkeit von α besteht, dass ein Konfidenzintervall den wahren Populationswert bzw. Parameter nicht enthält, ist dann die Wahrscheinlichkeit gleich α, dass die Nullhypothese abgelehnt wird, obwohl sie zutrifft. Das Risiko, eine falsche Forschungshypothese zu akzeptieren, ist hier also gleich der Irrtumswahrscheinlichkeit α. Bei einer kleinen Irrtumswahrscheinlichkeit und Ablehnung der Nullhypothese kann daher mit guten Gründen angenommen werden, dass die Forschungshypothese zutrifft. Wird die Nullhypothese dagegen nicht abgelehnt, bestehen begründete Zweifel an der Gültigkeit der Forschungshypothese. Als Beispiel soll diese Strategie auf die Prüfung der Vermutung der Diskriminierung von Frauen bei der Entlohnung angewendet werden. Da sich die Vermutung auf den Vergleich von zwei Populationsmittelwerten bezieht, liegt es nahe, ein Konfidenzintervall für die Differenz der beiden Populationsmittelwerte zu berechnen. Wenn y¯0 den durchschnittlichen Stundenlohn der Männer bezeichnet und y¯1 den der Frauen und entsprechend s0 die Standardabweichung in der Stichprobe der Männer und s1 die in der Stichprobe der Frauen und n0 und n1 die Anzahl der Männer bzw. Frauen in der Stichprobe, dann ist in einfachen Zufallsstichproben mit Zurücklegen die Differenz
8 Grundlagen des statistischen Schließens
175
(¯ y0 − y¯1 ) ein erwartungstreuer asymptotisch normalverteilter Schätzer der Differenz der Populationsmittelwerte der Männer und Frauen. Der geschätzte Standardfehler einer Linearkombination – hier der Differenz der Stundenlöhne von Männern und Frauen – berechnet sich aufgrund der Unabhängigkeit der beiden Teilstichproben (s. Fußnote 8) nach: s21 σ ˆ12 σ ˆ02 s20 + (18) σ ˆ (¯ y0 − y¯1 ) = + = n0 n1 n0 − 1 n1 − 1 Die Grenzen des (1 − α)-Konfidenzintervalls ergeben sich dann nach: s21 s20 (¯ y0 − y¯1 ) ± z1− α2 · + n0 − 1 n1 − 1
(19)
Die Vermutung, dass Frauen weniger verdienen als Männer, ist die interessierende Forschungshypothese. Da die Nullhypothese das Gegenteil der Forschungshypothese behauptet, besagt die Nullhypothese, dass Männer weniger als oder gleich viel wie Frauen verdienen. Wenn μ(Y0 ) für den Populationsmittelwert der Männer und μ(Y1 ) für den der Frauen steht, ergibt sich formal die Nullhypothese: H0 : μ(Y0 ) − μ(Y1 ) ≤ 0. Enthält das Konfidenzintervall nur Werte größer Null, wird die Nullhypothese mit der Irrtumswahrscheinlichkeit α abgelehnt. Dann ist davon auszugehen, dass in der Grundgesamtheit Frauen weniger verdienen als Männer. Enthält das Konfidenzintervall dagegen den Wert Null oder gar negative Werte, dann kann die Nullhypothese nicht abgelehnt werden. Inhaltlich ist dann nicht mit hinreichender Sicherheit auszuschließen, dass Frauen im Durchschnitt genau so viel wie oder sogar mehr verdienen als Männer. Wenn das Ergebnis des Tests zur Ablehnung der Nullhypothese führt, wird davon gesprochen, dass das Testergebnis bei einer Irrtumswahrscheinlichkeit von α signifikant ist. Die Irrtumswahrscheinlichkeit wird beim Testen auch als Signifikanzniveau bezeichnet. Bei einem signifikanten Ergebnis kann also davon ausgegangen werden, dass die Nullhypothese falsch ist und somit die eigentlich interessierende Vermutung zutrifft (wenn diese das Gegenteil der Nullhypothese besagt). 3.2 Signifikanztests Die Strategie des Hypothesenprüfens mittels eines Konfidenzintervalls entspricht im Wesentlichen der Strategie des klassischen Signifikanztests. Anstelle eines Konfidenzintervalls wird beim Signifikanztest allerdings eine Teststatistik berechnet, deren Wahrscheinlichkeitsverteilung bei zutreffender Nullhypothese bekannt ist. Die Nullhypothese wird dann abgelehnt, wenn der in einer Stichprobe realisierte Wert der Teststatistik bei gültiger Nullhypothese sehr unwahrscheinlich ist. Dazu wird der gesamte Wertebereich der Teststatistik in einen Annahmebereich und einen Ablehnungsbereich zerlegt. Der Ablehnungsbereich ist der Bereich, in dem die Teststatistik bei gültiger Nullhypothese eher nicht realisiert wird. Die Irrtumswahrscheinlichkeit α ist hier die (maximale) Wahrscheinlichkeit, dass die Teststatistik bei zutreffender Nullhypothese in den Ablehnungsbereich fällt.
176
Steffen M. Kühnel und Dagmar Krebs
Beim Signifikanztest der Prüfung der Vermutung, dass Frauen einen geringeren Stundenlohn als Männer erhalten, wird also eine Teststatistik benötigt, deren Verteilung bei gültiger Nullhypothese bekannt ist. Da die Differenz der Stichprobenmittelwerte der Stundenlöhne asymptotisch normalverteilt ist, liegt es nahe, den Quotienten aus dieser Differenz geteilt durch ihren Standardfehler als Teststatistik Z zu verwenden: Z=
y¯0 − y¯1 σ ˆ02 n0
+
σ ˆ12 n1
=
y¯0 − y¯1 s20 n0 −1
+
s21 n1 −1
(20)
Die Bezeichnung Z für die Teststatistik bezieht sich darauf, dass die Teststatistik asymptotisch standardnormalverteilt ist, also Z-Werte ergibt, wenn die Differenz der Populationsmittelwerte in der Population genau Null ist. Entscheidend für den Test ist die Festlegung des Ablehnungsbereichs. Die Nullhypothese behauptet, dass der Durchschnittslohn der Männer nicht über dem der Frauen liegt: H0 : μ(Y0 ) − μ(Y1 ) ≤ 0. Bei falscher Nullhypothese ist die Differenz der Populationsmittelwerte dagegen positiv. Da die Stichprobenmittelwerte unverzerrte Schätzer der Populationsmittelwerte sind, ist somit bei falscher Nullhypothese mit einer positiven Differenz der Stichprobenmittelwerte zu rechnen und damit mit positiven Werten der Teststatistik. Die Nullhypothese wird entsprechend mit einer Irrtumswahrscheinlichkeit α abgelehnt, wenn die Teststatistik in der Stichprobe größer oder gleich dem (1 − α)-Quantil der Standardnormalverteilung ist, also im oberen Bereich der Wahrscheinlichkeitsverteilung liegt: Z ≥ z1−α ⇒ Ablehnung von H0
(21)
Der Unterschied zwischen dem Signifikanztest mittels Teststatistik und der Hypothesenprüfung mittels Konfidenzintervall besteht darin, dass im Beispiel für den Signifikanztest ein sogenannter einseitiger Hypothesentest durchgeführt wurde, während der Test mittels Konfidenzintervall einem zweiseitigen Hypothesentest entspricht. Beim zweiseitigen Hypothesentest würde im Beispiel die Nullhypothese behaupten, dass die Differenz der beiden Populationsmittelwerte genau Null ist: H0 : μ(Y0 ) − μ(Y1 ) = 0. Die Forschungshypothese würde dann entsprechend behaupten, dass die Differenz ungleich Null ist, wobei die Differenz positiv oder negativ sein kann. Inhaltlich würde die Forschungshypothese also behaupten, dass es unterschiedliche Löhne bei Männern und Frauen gibt, während die Nullhypothese dies bestreitet. Wenn die Nullhypothese der Gleichheit der Löhne falsch ist, ist die Differenz der Populationsmittelwerte entweder negativ, wenn Frauen mehr verdienen als Männer, oder positiv, wenn Männer mehr verdienen als Frauen. Entsprechend ist bei falscher Nullhypothese entweder mit negativen oder mit positiven Werten der Teststatistik zu rechnen. Der Ablehnungsbereich wird dann so festgelegt, dass sehr kleine (negative) und sehr große (positive) Werte gegen die Nullhypothese sprechen. Um insgesamt eine Irrtumswahrscheinlichkeit von α nicht zu übersteigen, wird daher jeweils die halbe Irrtumswahrscheinlichkeit am unteren und am oberen Rand der Wahrscheinlichkeitsverteilung der Teststatistik bei gegebener Nullhypothese platziert. Die Nullhypothese wird entsprechend beim zweiseitigen Hypothesentest der Mittelwertdifferenz abgelehnt, wenn folgende Ungleichung erfüllt wird:
8 Grundlagen des statistischen Schließens
Z ≤ z α2 oder Z ≥ z1− α2 ⇒ Ablehnung von H0
177
(22)
Der Annahmebereich der Nullhypothese entspricht hier exakt den Grenzen des (1 − α)-Konfidenzintervalls. Der Unterschied zwischen dem Testen einer Nullhypothese mittels Konfidenzintervall und mittels Signifikanztest besteht in erster Linie darin, dass der Test über ein Konfidenzintervall keine Informationen der Nullhypothese nutzt, während der des Signifikanztest dies tut. Es ist allerdings auch möglich, ein modifiziertes Konfidenzintervall zu berechnen, das ebenfalls die Informationen der Nullhypothese bestmöglich nutzt. So können für den einseitigen Test der Nullhypothese H0 : μ(Y0 ) − μ(Y1 ) ≤ 0 die Grenzen des Intervalls so gelegt werden, dass die Untergrenze des Intervalls am Beginn der Wahrscheinlichkeitsverteilung der Differenz der Stichprobenmittelwerte liegt und die Obergrenze entsprechend beim (1 − α)-Quantil: ⎞ ⎛ 2 2 s s 0 1 ⎠≈1−α + (23) P r ⎝−∞ ≤ μ0 − μ1 ≤ y¯0 − y¯1 + z1−α · n0 − 1 n1 − 1 Dieses Konfidenzintervall führt zu identischen Ergebnissen wie der einseitige Hypothesentest. Anstatt zu prüfen, ob die Teststatistik bei einer vorgegebenen Irrtumswahrscheinlichkeit α in den Ablehnungsbereich fällt, wird oft das empirische Signifikanzniveau berechnet. Das empirische Signifikanzniveau gibt unter der Annahme, dass die Nullhypothese (gerade noch) zutrifft, die Wahrscheinlichkeit an, bei der Teststatistik den tatsächlich beobachteten Wert aufzufinden oder einen Wert, der noch stärker gegen die Nullhypothese spricht. Es könnte z. B. der Fall sein, dass in einer Stichprobe der Wert der Teststatistik Z = 2,0 beträgt. Da im einseitigen Test der Nullhypothese H0 : μ(Y0 ) − μ(Y1 ) ≤ 0 große Werte gegen die Nullhypothese sprechen, wird berechnet, wie wahrscheinlich es ist, einen Wert von +2,0 oder größer zu erreichen, wenn die Nullhypothese gerade noch zutrifft, die durchschnittlichen Stundenlöhne also gleich sind. Bei einer – in diesem Fall – standardnormalverteilten Zufallsvariablen entspricht der Quantilwert +2,0 der Quantilwahrscheinlichkeit von 0,9772: Mit einer Wahrscheinlichkeit von 97,72 % weist eine standardnormalverteilte Zufallsvariable einen Wert von +2,0 oder kleiner auf. Dann beträgt die Wahrscheinlichkeit, dass ein Wert von +2,0 oder größer auftritt 1 − 0,9772 = 0,0228 oder 2,28 %. Das empirische Signifikanzniveau beträgt hier somit 2,28 %. Beim zweiseitigen Test der Nullhypothese H0 : μ(Y0 ) − μ(Y1 ) = 0 sprechen sehr große wie sehr kleine Werte gegen die Nullhypothese. In diesem Fall entspricht dem Teststatistikwert Z = 2,0 die Wahrscheinlichkeit, dass die Teststatistik mindestens einen Abstand von 2,0 vom Erwartungswert Null der Standardnormalverteilung hat, also +2,0 oder größer oder aber −2,0 oder kleiner ist. Da die Standardnormalverteilung symmetrisch ist, ist die Wahrscheinlichkeit einen Wert von −2,0 oder kleiner zu erreichen, mit 2,28 % genau so groß wie die bereits berechnete Wahrscheinlichkeit einen Wert von +2,0 oder größer zu erreichen. Das empirische Signifikanzniveau beträgt beim zweiseitigen Test und einem Wert von Z = 2,0 zweimal 2,28 % oder 4,56 %. Mit einer Wahrscheinlichkeit von 4,56 % weist eine Standardnormalverteilung einen Z-Wert von −2 oder kleiner oder +2 oder größer auf.
178
Steffen M. Kühnel und Dagmar Krebs
Würde schließlich die Nullhypothese getestet, dass Männer den gleichen oder einen höheren Stundenlohn haben als Frauen: H0 : μ(Y0 ) − μ(Y1 ) ≥ 0 würden nur sehr kleine Werte gegen die Nullhypothese sprechen. Das empirische Signifikanzniveau würde hier der Wahrscheinlichkeit entsprechen, dass eine standardnormalverteilte Zufallsvariable einen Wert von +2 oder kleiner aufweist. Da diese Wahrscheinlichkeit 97,72 % ist, würde auch das empirische Signifikanzniveau 97,72 % sein. Da das empirische Signifikanzniveau die Wahrscheinlichkeit angibt, mit der bei gültiger Nullhypothese die in einer Stichprobe berechnete Teststatistik oder ein noch ungünstigerer Wert auftritt, sprechen große Werte zugunsten und kleine Werte zuungunsten der Nullhypothese. Wird von einer Irrtumswahrscheinlichkeit von 5 % ausgegangen, ist die Nullhypothese abzulehnen, wenn das empirische Signifikanzniveau maximal 5 % beträgt. Entsprechend wird bei einer Irrtumswahrscheinlichkeit von 1 % die Nullhypothese abgelehnt, wenn das empirische Signifikanzniveau maximal 1 % beträgt. In manchen Untersuchungen werden Testergebnisse, deren empirisches Signifikanzniveau maximal 1 % ist, als hochsignifikant bezeichnet und bei einem empirischen Signifikanzniveau von maximal 0,1 % als höchstsignifikant. Signifikanz wird bei diesem Sprachgebrauch leider oft fälschlicherweise mit Relevanz gleichgesetzt. Die Ablehnung einer Nullhypothse mit einer sehr kleinen Irrtumswahrscheinlichkeit besagt nur, dass die spezifizierte Nullhypothese vermutlich falsch ist, nicht aber, dass dieses Ergebnis inhaltlich von großer Bedeutung ist. 3.3 Berücksichtigung der Trennschärfe von Tests Bei der Vorstellung der Logik von Konfidenzintervallen haben wir darauf hingewiesen, dass eine zu kleine Irrtumswahrscheinlichkeit dazu führen kann, dass das Intervall zu breit und damit nicht mehr informativ wird. Eine ähnliche Gefahr gibt es auch, wenn die geforderte Irrtumswahrscheinlichkeit beim Hypothesentesten zu gering ist. Es gibt nämlich nicht nur die Fehlermöglichkeit, eine richtige Nullhypothese fälschlicherweise abzulehnen, sondern auch den umgekehrten Fehler, eine falsche Nullhypothese fälschlicherweise beizubehalten. Inhaltlich bedeutet dieser sogenannte Fehler zweiter Art oder β-Fehler, dass aufgrund des Testergebnisses eine zutreffende Forschungshypothese nicht als richtig erkannt wird. Da die Irrtumswahrscheinlichkeit, die in diesem Kontext auch als Wahrscheinlichkeit eines Fehlers erster Art bzw. α-Fehlers bezeichnet wird, um so kleiner wird, je kleiner der Ablehnungsbereich bzw. je größer der Annahmebereich ist, stehen α- und β-Fehler in einem negativen Verhältnis zueinander. Bei ansonsten identischen Bedingungen erhöht eine Verringerung der Irrtumswahrscheinlichkeit α die Wahrscheinlichkeit eines β-Fehlers und umgekehrt. Nach den beiden Statistikern Neyman & Pearson (1933) ist eine Teststrategie benannt, die die Aufmerksamkeit auf den α- wie den β-Fehler lenkt. Dazu wird beim Hypothesentesten jeweils sowohl die Forschungshypothese wie auch ihr Gegenteil explizit formuliert. Die Forschungshypothese ist dabei üblicherweise die sogenannte Alternativhypothese H1 , ihr Gegenteil die Nullhypothese H0 . Beim Neyman-PearsonTest decken die beiden Hypothesen den Wertebereich der zu testenden Parameter bzw. des zu testenden Parameters vollkommen ab. Im Beispiel des Tests der Vermutung eines geringeren Stundenlohns von Frauen verglichen mit Männern würde also das
8 Grundlagen des statistischen Schließens
179
Hypothesenpaar H0 : μ(Y0 ) − μ(Y1 ) ≤ 0 versus H1 : μ(Y0 ) − μ(Y1 ) > 0 getestet, beim zweiseitigen Test der Forschungshypothese, dass sich die Löhne (wie auch immer) unterscheiden das Hypothesenpaar H0 : μ(Y0 ) − μ(Y1 ) = 0 versus H1 : μ(Y0 ) − μ(Y1 ) = 0. Zur Prüfung des Hypothesenpaars wird dann eine Teststatistik gesucht, deren Wahrscheinlichkeitsverteilung sich bei gültiger Nullhypothese von der bei gültiger Alternativhypothese unterscheidet. Der Wertebereich der Teststatistik wird wie beim Signifikanztest in zwei Bereiche geteilt. Fällt die Teststatistik in den Annahmebereich, wird die Nullhypothese als vermutlich zutreffend akzeptiert und die Alternativhypothese verworfen, fällt sie in den Ablehnungsbereich, wird die Nullhypothese verworfen und die Alternativhypothese als vermutlich zutreffend akzeptiert. Da die Verteilung der Teststatistik bei Null- wie Alternativhypothese bekannt ist, kann für alle Werte des zu testenden Parameters die Wahrscheinlichkeit berechnet werden, dass die Teststatistik in den Ablehnungsbzw. Annahmebereich fällt. Die Teststärkefunktion (engl.: power function) gibt die Wahrscheinlichkeit an, dass die Teststatistik in den Ablehnungsbereich fällt. Bei Werten, die der Nullhypothese entsprechen, gibt die Teststärkefunktion daher die α-Fehlerwahrscheinlichkeiten an. Bei Werten, die der Alternativhypothese entsprechen, gibt sie dagegen die Wahrscheinlichkeit von Eins minus der β-Fehlerwahrscheinlichkeit an. Diese 1 − β-Wahrscheinlichkeit (der Ablehnung einer falschen Nullhypothese) wird auch als Trennschärfe bezeichnet. Die maximale α-Fehlerwahrscheinlichkeit (Irrtumswahrscheinlichkeit) ist Eins minus der maximalen β-Fehlerwahrscheinlichkeit. Bei einer maximalen Irrtumswahrscheinlichkeit von 5 % beträgt also die maximale β-Fehlerwahrscheinlichkeit 95 %. Diese β-Fehlerwahrscheinlichkeit wird erreicht, wenn in der Population der Wert des getesteten Parameters unmerklich außerhalb der Nullhypothese liegt, im Beispiel der Stundenlohndifferenzen also Frauen ganz geringfügig weniger verdienen als Männer. Da bei diesen Parameterwerten eine große Wahrscheinlichkeit besteht, die Nullhypothese fälschlicherweise beizubehalten, spricht man davon, dass der Test hier nicht trennscharf ist. Grundsätzlich gibt es bei allen Tests mit geringer Irrtumswahrscheinlichkeit α Parameterwerte im Bereich der Alternativhypothese, in denen ein Test nicht trennscharf ist. Bei der Anwendung eines Neyman-Pearson-Tests kommt es darauf an, den Bereich geringer Trennschärfe möglichst klein zu halten. Bei gegebener Teststatistik kann dies nur dadurch erreicht werden, dass die Fallzahl und/oder die α-Fehlerwahrscheinlichkeit erhöht wird, wobei vor allem große Fallzahlen die Trennschärfe erhöhen. In der Praxis werden oft Elemente der Logik des Neyman-Pearson-Tests mit einem Signifikanztest kombiniert. Die praktische Durchführung des Tests erfolgt dabei wie beim Signifikanztest, wobei jedoch zuvor die Untersuchungsplanung entsprechend dem Neyman-Pearson-Test die Möglichkeit von α- und β-Fehlerwahrscheinlichkeiten berücksichtigt. Dazu wird zum einen wie beim Signifikanztest die noch akzeptable α-Fehlerwahrscheinlichkeit festgelegt. Darüber hinaus wird eine maximale β-Fehlerwahrscheinlichkeit festgelegt, die noch tolerabel erscheint, wenn der zu testende Parameter einen vorgegebenen minimalen Abstand zum Parameterbereich der Nullhypothese aufweist. Im Beispiel des Tests der Forschungshypothese, dass Frauen einen geringeren Stundenlohn erhalten als Männer, könnte z. B. gefordert werden, dass die β-Fehlerwahrscheinlichkeit maximal 20 % betragen soll, wenn die Differenz
180
Steffen M. Kühnel und Dagmar Krebs
im Stundenlohn in der Population mindestens 1 € beträgt. Die Differenz, im Beispiel 1 €, die der Test mit einer Trennschärfe von mindestens 80 % (= 1 − β) erkennen soll, wird auch als Effektstärke bezeichnet. Bei dieser Festlegung würde der Test mit großer Sicherheit (≥ 80 %) erkennen können, wenn Frauen mindestens 1 € weniger verdienen als Männer. Gleichzeitig wäre die Irrtumswahrscheinlichkeit maximal 5 %, fälschlicherweise anzunehmen, dass Frauen weniger als Männer verdienen. Verdienen Frauen im Durchschnitt bis zu 1 € pro Stunde weniger als Männer, besteht sowohl eine große Wahrscheinlichkeit die Nullhypothese abzulehnen, wie sie beizubehalten. Der Test ist in diesem Bereich nicht trennscharf. Die im Beispiel vorgegebene maximale α-Fehlerwahrscheinlichkeit und Trennschärfe bei einer ebenfalls vorgegebenen minimalen Effektstärke lässt sich nur dann realisieren, wenn die Fallzahl der Stichprobe vor der Durchführung eines Tests festgelegt werden kann. Für verschiedenste Tests sind Formeln entwickelt, mit deren Hilfe sich die notwendige Fallzahl berechnen lässt, wenn die Irrtumswahrscheinlichkeit und die Trennschärfe bei einer festgelegten Effektstärke vorgegeben sind. Für die Anwendung der Formeln müssen zudem oft zusätzliche empirische Informationen vorliegen, beim Test von Mittelwertdifferenzen z. B. Schätzungen der Standardabweichungen. Eine rechnerisch meist etwas weniger aufwendige Alternative zur Berechnung der notwendigen Fallzahl besteht darin, die Fallzahl so festzulegen, dass ein Konfidenzintervall eine gegebene Breite nicht überschreitet. Dazu werden die Formeln zur Berechnung der Intervallgrenzen nach den Fallzahlen als abhängige Größe aufgelöst. Liegt die Fallzahl einer Stichprobe bereits fest, sind solche Berechnungen wenig sinnvoll. Allerdings kann auch ex post über die Berechnung der Teststärkefunktion bzw. die Länge eines geeigneten Konfidenzintervalls ermittelt werden, in welchem Bereich der Test nicht trennscharf ist. Wenn z. B. beim einseitigen Test der Nullhypothese, dass der Stundenlohn der Männer nicht kleiner als der der Frauen ist, die Obergrenze des Konfidenzintervalls von −∞ bis zum (1 − α)-Quantil der Wahrscheinlichkeitsverteilung der Mittelwertdifferenz der Wert 1 € wäre, würde dies bedeuten, dass bei gegebener Irrtumswahrscheinlichkeit α der Test Mittelwertdifferenzen bis 1 € zu Ungunsten der Frauen vermutlich nicht mit hinreichender Sicherheit erkennen kann, er bei Differenzen ab 1 € aber trennscharf ist. 3.4 Wald-Tests, Score-Tests und Chiquadrat-Differenzen-Tests Voraussetzung für die Durchführung eines statistischen Tests ist das Vorliegen einer geeigneten Teststatistik, für die bei zutreffender Nullhypothese und möglichst auch bei zutreffender Alternativhypothese die Wahrscheinlichkeitsverteilung bekannt ist bzw. für die es einen geeigneten Schätzer gibt, um Konfidenzintervalle zu berechnen. Wenn sich die Hypothesen auf Kennwerte bzw. Parameter beziehen, die mit Kleinstquadratschätzern, ML-Schätzern oder sog. verallgemeinerten Moment-Schätzern (GMMSchätzern) geschätzt werden können, gibt es Standardverfahren zur Generierung von Teststatistiken mit bekannten leicht berechenbaren Wahrscheinlichkeitsverteilungen. Bei diesen Standardverfahren wird vorausgesetzt, dass die Nullhypothese Restriktionen über mögliche Parameterwerte postuliert. Im Beispiel des zweiseitigen Tests der Einkommensdifferenz von Männern und Frauen postuliert so die Nullhypothese,
8 Grundlagen des statistischen Schließens
181
dass die Differenz der Populationsmittelwerte Null ist. Dies ist eine Restriktion (Einschränkung) der möglichen Werte der Differenz. Man kann sich nun zwei statistische Schätzmodelle vorstellen, ein liberaleres Modell M1 , dass keinerlei Einschränkung über die möglichen Parameterschätzungen der beiden Populationsmittelwerte vorsieht, und ein restriktives Modell M0 , bei dem die Parameterschätzung so erfolgt, dass die beiden Populationsmittelwerte tatsächlich gleich groß sind. Der nach dem Statistiker Abraham Wald benannte Wald-Test prüft, ob die im liberalen Modell M1 geschätzten Parameterwerte überzufällig von den zusätzlichen Restriktionen des Modell M0 abweichen. Voraussetzung für einen Wald-Test ist, dass die Schätzer des Modells M1 (asymptotisch) erwartungstreu und normalverteilt sind und dass auch die Varianzen und Kovarianzen der Schätzer konsistent aus den Stichprobendaten geschätzt werden können. Die zusätzlichen Restriktionen des Modells M0 lassen sich dann als Kontraste formulieren. Im Beispiel des Tests der Gleichheit der beiden Populationsmittelwerte μ(Y0 ) und μ(Y1 ) könnte so ein linearer Kontrast c formuliert werden: c=μ ˆ (Y1 ) − μ ˆ (Y0 ) = y¯1 − y¯0
(24)
Da lineare Funktionen von (asymptotisch) normalverteilten Schätzern wiederum asymptotisch normalverteilt sind, ist die Verteilungsfunktion des Kontrasts ebenfalls normalverteilt. Treffen die Restriktionen des Modells M0 zu, ist der Erwartungswert des Kontrasts bekannt. Da zudem die Varianz bzw. der Standardfehler des Kontrasts eine Funktion der Varianzen und Kovarianzen der Schätzer ist (Balluerca et al. 2005), lässt sich bei zutreffendem Modell M0 durch Standardisierung eine (asymptotisch) standardnormalverteilte Teststatistik berechnen. Dies ist die Vorgehensweise, wie sie bereits oben vorgestellt wurde. Es lassen sich zudem mehrere Kontraste simultan schätzen. Dazu muss die Varianz-Kovarianz-Matrix Σc der Kontraste und der Vektor r der Erwartungswerte der Kontraste bei zutreffendem Modell M0 berechnet werden. Wenn das Modell M0 zutrifft, dann ist die quadratische Form
W 2 = (c − r) · Σc−1 · (c − r)
(25)
chiquadratverteilt, wobei die Zahl der Freiheitsgrade gleich der Zahl der Kontraste ist (Greene 1997, S. 162 ff.). Ist dagegen nur M1 zutreffend und nicht zusätzlich die Restriktionen aus M0 , dann ist die Teststatistik W 2 nichtzentral chiquadratverteilt. Während der Wald-Test von der Parameterschätzung des liberalen Modells M1 ausgeht, ist die Parameterschätzung des restriktiven Modells M0 Ausgangspunkt des Lagrange-Multiplier (LM)-Tests oder Score-Tests. Bei diesem Test werden die ˆ des liberalen Modells M1 für partiellen ersten Ableitungen der Schätzfunktion L(θ) die Parameterwerte berechnet, die zuvor im restriktiven Modell M0 geschätzt wurden. Wenn M0 zutrifft, sind die Erwartungswerte der ersten Ableitungen Null. Wiederum gilt, dass bei vielen Schätzverfahren diese ersten Ableitungen bei zutreffendem Modell M0 über die Stichproben hinweg asymptotisch normalverteilt sind, wobei sich wiederum die Varianzen und Kovarianzen der ersten Ableitungen aus den Daten schätzen lassen (Greene 1997, S. 165 ff.). Entsprechend dem Vorgehen beim Wald-Test kann dann
182
Steffen M. Kühnel und Dagmar Krebs
wieder die Teststatistik S 2 über die quadratische Funktion für die ersten Ableitungen berechnet werden: ⎞ ⎞ ⎛ ⎛ ∂L θˆM1 |θˆM0 ∂L θˆM1 |θˆM0 ⎠ · Σ −1 · ⎝ ⎠ S2 = ⎝ (26) ∂ θˆM1 ∂ θˆM1 ∂ θˆM1 In der Formel steht ∂L(θˆM1 |θˆM0 ) für die Parameterschätzfunktion des liberalen Modells M1 , wenn die im restriktiven Modell M0 geschätzten Parameterwerte eingesetzt werden. Wie beim Wald-Test gilt auch beim LM-Test, dass die Teststatistik nichtzentral chiquadratverteilt ist, wenn M1 statt M0 zutrifft. Die Freiheitsgrade sind gleich der Zahl der zusätzlichen Restriktionen von M0 gegenüber M1 . Die dritte Teststatistik basiert auf einen Vergleich der Werte der Schätzfunktionen der beiden Modelle M1 und M0 . Werden die Parameter von M1 und M0 mittels ML-Methode geschätzt, dann ist der mit −2 multiplizierte Logarithmus der Likelihoodfunktionen von M0 geteilt durch M1 asymptotisch chiquadratverteilt, wenn M0 zutrifft (Greene 1997, S. 161 f.). Die Statistik L2 des Likelihood-Quotienten-Tests (LR-Test) ergibt sich somit nach: L (M0 ) 2 = −2 · ln L (M0 ) − (−2 · ln L (M1 )) L = −2 · ln (27) L (M1 ) Die Zahl der Freiheitsgrade ist wieder gleich der Zahl der zusätzlichen Restriktionen von M0 gegenüber M1 . Ist M1 statt M0 zutreffend, ist die Teststatistik wiederum nichtzentral chiquadratverteilt. Der LR-Test wurde ursprünglich im Kontext der LM-Schätzmethode entwickelt. Da aber auch die Differenz der Schätzfunktionen von M0 minus der von M1 bei anderen Schätzmethoden chiquadratverteilt ist, wird verallgemeinernd auch von Chiquadrat-Differenzen-Tests gesprochen. Die Vorgehensweise bei Wald-Tests, Score-Tests und Chiquadrat-Differenzen-Tests lässt sich für sehr viele Fragestellungen nutzen. Zu beachten ist aber, dass bei allen drei Testverfahren vorausgesetzt wird, dass das restriktive Modell M0 , das mit der Vermutung der Nullhypothese korrespondiert, ein Spezialfall eines liberaleren Modells M1 ist. Wenn diese Bedingung nicht erfüllt ist, lassen sich diese Tests nicht anwenden.
4 Anwendungsfehler und Anwendungsprobleme Vor allem über die Bedeutung von Signifikanztests für die inhaltliche Forschung gibt es eine nahezu unübersehbare Zahl von Publikationen mit einer Vielzahl von kontroversen Beurteilungen.7 Es ist schon aus Platzgründen nicht möglich, alle Argumente und Gegenargumente aufzuzählen. Wir wollen im Folgenden nur auf diejenigen eingehen, die zu generellen Hinweisen auf Anwendungsfehler und Anwendungsprobleme beim statistischen Schließen führen.
7
Für einen neueren Überblick vgl. Balluerca et al. (2005).
8 Grundlagen des statistischen Schließens
183
4.1 Fallzahlabhängigkeit Die Aussagekraft eines statistischen Schlusses hängt nahezu immer auch vom Umfang der Stichprobe ab, auf deren Basis ein statistischer Schluss durchgeführt wird. Ein Missverständnis beim statistischen Schätzen ist allerdings die Annahme, dass mit der Größe der Population auch der Umfang der Stichprobe steigen muss, um hinreichend genaue Ergebnisse zu erhalten. Entscheidend für die zu erwartende (Un-) Genauigkeit einer Schätzung ist die Höhe des Standardfehlers, bei verzerrten Schätzern zudem die Höhe der Verzerrung. Der Standardfehler (und oft auch die Verzerrung) sinkt mit der Fallzahl, wobei die Höhe eines Standardfehlers meist umgekehrt proportional zur positiven Quadratwurzel des Stichprobenumfangs ist. Die Größe der Population spielt dabei eher keine Rolle. Selbst bei einfachen Zufallsauswahlen ohne Zurücklegen des Umfangs n aus einer Population von N Elementen ist die Größe des Standardfehlers bei vielen Schätzern proportional zur Wurzel aus der Inversen der Fallzahl (1/n) und dem Korrekturfaktor für endliche Populationen (N −n)/(N −1). Der Korrekturfaktor ist in den meisten sozialwissenschaftlichen Stichproben praktisch gleich 1,0 und daher vernachlässigbar. Bedeutsamer ist dagegen die (vom Forscher meist nicht zu beeinflussende) Variation der interessierenden Variablen in der Population. So steigt der Standardfehler von Mittelwerten bei einfachen Zufallsauswahlen proportional mit der Standardabweichung in der Population. Um bei einer doppelt so hohen Standardabweichung die gleiche Genauigkeit zu erreichen, muss die Stichprobe daher viermal so groß sein. Zu beachten ist zudem, dass bei statistischen Schlüssen Genauigkeit nur eine erwartete Genauigkeit ist. Auch bei einem sehr kleinen Standardfehler ist es nicht ausgeschlossen, dass sich die gezogene Zufallsstichprobe zufällig sehr stark von der Population unterscheidet. Die Wahrscheinlichkeit eines solchen Ereignisses kann sehr klein sein, was aber nicht das – wenn auch sehr seltene – Auftreten eines solchen Ereignisses ausschließt. Ähnlich wie beim Schätzen gibt es auch beim Testen Missverständnisse über die Bedeutung des Stichprobenumfangs. So wird gegen die Anwendung von Signifikanztests oft argumentiert, dass bei sehr kleinen Fallzahlen praktisch kein signifikantes Ergebnis auftritt, bei hinreichend großen Fallzahlen dagegen praktisch alle Ergebnisse signifikant sind. Tatsächlich ist es so, dass – wiederum als Folge sinkender Standardfehler – mit steigender Fallzahl die Trennschärfe eines Tests zunimmt. Bei sehr geringen Fallzahlen kann die Trennschärfe umgekehrt so gering sein, dass selbst bei sehr großen Effekten eine hohe β-Fehlerwahrscheinlichkeit besteht. Wie oben erwähnt, kann dies durch die Berechnung von geeigneten Konfidenzintervallen erkannt werden. Wenn es in solch einer Situation nicht sinnvoll ist, die α-Fehlerwahrscheinlichkeit deutlich heraufzusetzen, ist die Durchführung eines Tests nicht sinnvoll. Dies spricht nicht generell gegen statistische Tests. Es ist sogar umgekehrt eine Stärke statistischen Schließens, dass erkannt werden kann, dass in dieser Situation ein statistischer Schluss unvermeidbar hoch risikobehaftet ist. Wenn umgekehrt die Fallzahl sehr groß ist, kann es sein, dass ein Test eine sehr hohe Trennschärfe aufweist. Dann werden – selbstverständlich zu Recht – mit großer Wahrscheinlichkeit falsche Nullhypothesen entdeckt. Korrekte Nullhypothesen werden dagegen auch bei beliebig großer Fallzahl nur mit der maximalen Irrtumswahrschein-
184
Steffen M. Kühnel und Dagmar Krebs
lichkeit α fälschlicherweise verworfen. Das Problem der angeblich zu großen Fallzahl besteht eher darin, dass die Formulierung von Null- und Alternativhypothese nicht der inhaltlichen Fragestellung entspricht. 4.2 Spezifikation der statistischen Fragestellung Wenn die inhaltliche Fragestellung nicht in ein angemessenes statistisches Problem transformiert ist, kann von einem Spezifikationsfehler gesprochen werden. Im Beispiel der Prüfung der Vermutung, dass Frauen einen deutlich geringeren Stundenlohn als Männer erhalten, ist die Umsetzung in das Hypothesenpaar H0 : μ(Y0 ) − μ(Y1 ) ≤ 0 versus H1 : μ(Y0 ) −μ(Y1 ) > 0 nicht unbedingt sinnvoll, da selbst unbedeutend geringere Stundenlöhne der Frauen im Widerspruch zur statistischen Nullhypothese stehen. Sinnvoller erscheint es hier, den Ausdruck „deutlich geringer“ adäquat umzusetzen, und z. B. zu fordern, dass die Differenz größer 50 Eurocent sein soll: H0 : μ(Y0 )−μ(Y1 ) ≤ 0,5 versus H1 : μ(Y0 ) − μ(Y1 ) > 0,5. Die Teststatistik wäre dann: Z=
y¯0 − y¯1 − 0,5 σ ˆ02 n0
+
σ ˆ12
=
n1
y¯0 − y¯1 − 0,5 s20 n0 −1
+
(28)
s21 n1 −1
Die Differenz zwischen dem Stundenlohn von Männern und Frauen in den Stichproben muss hier stets größer sein als 0,5 € damit die Teststatistik überhaupt negative Werte annehmen und in den Ablehnungsbereich der Nullhypothese fallen kann. Anstelle einer konkreten Differenz mag es auch sinnvoll sein, von einem Prozentwert auszugehen und z. B. in der statistischen Formulierung zu fordern, dass der Stundenlohn der Frauen mehr als 10 % unter dem der Männer liegen soll, wenn die Nullhypothese falsch sein soll: H0 : 0,9 · μ(Y0 ) − μ(Y1 ) ≤ 0 versus H1 : 0,9 · μ(Y0 ) − μ(Y1 ) > 0. Die Teststatistik würde nun lauten:8 Z=
0,9 · y¯0 − y¯1 0,92
·
σ ˆ02 n0
+
σ ˆ12 n1
=
0,9 · y¯0 − y¯1 0,92 ·
s20 n0 −1
+
s21 n1 −1
(29)
Der Unterschied zwischen den beiden Hypothesenformulierungen besteht darin, dass bei der absoluten Differenz ein Unterschied von bis zu 0,5 € als unerheblich betrachtet wird, unabhängig davon, ob der durchschnittliche Stundenlohn (von Männern) bei 2 € oder bei 20 € liegt. Umgekehrt ist bei der prozentualen Gegenüberstellung bereits eine Differenz von mehr als 0,2 € bedeutsam, wenn der Stundenlohn der Männer bei 2 € läge. Bei einem Stundenlohn von 20 € wäre dagegen erst eine Differenz von mehr als 2 € bedeutsam. Ursprünglich wurde die zu testende Vermutung so formuliert, dass die Lohndifferenz bei gleicher Qualifikation, Erfahrung und Tätigkeit auftreten soll. Die bisher vorgestellte statistische Hypothesenformulierung ignoriert diese Kontrollvariablen. Wird jedoch anstelle des einfachen Mittelwertvergleichs ein Regressionsmodell formuliert (siehe Kapitel 24 in diesem Handbuch), ist es relativ einfach, Kontrollvariablen zu berücksichtigen. 8 Generell gilt für Linearkombinationen Y = βk · Xk , dass sich ihre Varianz aus den 2 Varianzen und Kovarianzen der Summanden ergibt: σY =
βk · βm · σ(Xk ,Xm ).
8 Grundlagen des statistischen Schließens
185
Generell gibt es verschiedene Möglichkeiten, eine inhaltliche Fragestellung in eine statistische Spezifikation zu übersetzen. Durch geschickte Spezifikation ist es möglich, die inhaltliche Aussagekraft eines statistischen Schlusses zu erhöhen. Zu berücksichtigen ist aber auch, dass jede statistische Spezifikation spezifische Voraussetzungen hat, die in einer Anwendung eventuell nicht erfüllt werden. Bei der Entscheidung für eine Spezifikation stellt sich daher nicht nur das Problem, dass die inhaltliche Fragestellung möglichst gut umgesetzt wird, sondern auch, dass die Voraussetzungen der statistischen Modellierung berücksichtigt werden. Hierbei gilt leider in der Regel, dass eine Spezifikation, die eine größere inhaltliche Aussagekraft hat, auch größere Anforderungen an das Untersuchungsdesign und die Datenqualität stellt. Von großem praktischen Interesse ist dabei die Robustheit statistischer Aussagen, wobei eine Aussage robust bezüglich einer Anwendungsvoraussetzung ist, wenn sie auch dann (zumindest mit hinreichender Genauigkeit) zutrifft, wenn die Anwendungsvoraussetzung nicht erfüllt ist. In der Statistik gibt es seit einiger Zeit Forschungsarbeiten, die sich mit Robustheitsfragen beschäftigen. Dies führte zur Entwicklung von Diagnoseverfahren zur Entdeckung von Annahmeverletzungen und zur Entwicklung von robusten Schätzern (siehe auch Kapitel 25 und 27 in diesem Handbuch). 4.3 Fehlinterpretation von Ergebnissen statistischer Schlüsse Interpretation von Konfidenzintervallen Der vermutlich häufigste Fehler bei Anwendung statistischen Schließens besteht in der Fehlinterpretation der Ergebnisse. So wird bei Punktschätzungen eines Populationswerts oder Parameters oft nicht berücksichtigt, dass es sehr unwahrscheinlich ist, dass der geschätzte Populationswert tatsächlich exakt mit dem berechneten Schätzwert übereinstimmt. Ähnlich ist bei der Interpretation von Konfidenzintervallen immer wieder zu lesen, mit der Wahrscheinlichkeit 1 − α würde der interessierende Populationswert im berechneten Intervall liegen. Tatsächlich ist der Populationswert eine konstante empirische Eigenschaft, die keine Auftretenswahrscheinlichkeit kleiner Eins haben kann.9 Wie bereits erwähnt, bezieht sich die Wahrscheinlichkeitsaussage des Konfidenzintervalls auf die Verteilung aller Intervalle und nicht auf den zu schätzenden Populationswert. Vor der Stichprobenziehung gibt es somit eine Chance von 1 − α, dass das Intervall den Wert enthalten wird. Ob das konkret berechnete Intervall den Wert nun tatsächlich enthält oder nicht, bleibt prinzipiell ungewiss. Gerade deswegen kann auch nach der Realisierung der Stichprobe behauptet werden, dass das Intervall mit einer Wahrscheinlichkeit von 1 − α den Populationswert enthält. Interpretation von Signifikanzen Einen analogen Fehler gibt es bei der Interpretation von Signifikanzen. Eine geringe Irrtumswahrscheinlichkeit α wird oft so interpretiert, dass die Nullhypothese mit dieser 9
Dies gilt für die klassische Interpretation der Statistik als objektive Wahrscheinlichkeitsaussagen über das Auftreten von Ereignissen. Bei einer subjektiven Interpretation von Wahrscheinlichkeiten, wie sie die Bayessche Statistik denkt, kann ein Populationswert durchaus eine Realisierungswahrscheinlichkeit haben (Koehler 1993).
186
Steffen M. Kühnel und Dagmar Krebs
Wahrscheinlichkeit zutrifft. Tatsächlich handelt es sich um die bedingte Wahrscheinlichkeit, mit der ein Testergebnis auftritt, unter der Bedingung, dass die Nullhypothese zutrifft. Ob der aus einem Test gezogene Schluss korrekt oder falsch ist, bleibt wiederum ungewiss. Wenn die Nullhypothese abgelehnt wird, ist es möglich, dass die Ablehnung fehlerhaft ist, wobei vor der Durchführung des Tests eine Wahrscheinlichkeit von maximal α besteht, dass dies der Fall ist, falls die Nullhypothese wahr sein sollte. Wenn die Nullhypothese nicht abgelehnt wird, ist es ebenfalls ungewiss, ob diese Entscheidung fehlerhaft ist, wobei allerdings nicht klar ist, wie groß die Wahrscheinlichkeit vor der Durchführung des Tests war, die Nullhypothese beizubehalten, wenn sie tatsächlich falsch ist. Im Extremfall kann diese (β-Fehler-) Wahrscheinlichkeit nahezu 1 − α betragen haben. Formulierung der Forschungshypothese als Alternativhypothese Aufgrund der Ungewissheit über die Höhe der β-Fehlerwahrscheinlichkeit vor Durchführung eines Tests sollte die Forschungshypothese als Alternativhypothese formuliert werden. Nur dadurch ist sichergestellt, dass es keine Wahrscheinlichkeit größer α gibt, die Forschungshypothese fälschlicherweise als richtig zu akzeptieren. Allerdings ist dies nicht immer möglich. Wenn etwa eine Forscherin die inhaltliche Vermutung hat, dass die Stundenlöhne von Männern und Frauen gleich sind, müsste im Sinne eines strengen Testens die Gleichheit der Löhne als Alternativhypothese und die Verschiedenheit als Nullhypothese formuliert werden. Da dann aber der Ablehnungsbereich bei einer tatsächlichen Lohndifferenz von unmerklich unter Null im oberen Teil der Wahrscheinlichkeitsverteilung läge und alle anderen Werte für die Annahme sprächen, umgekehrt aber bei einer tatsächlichen Lohndifferenz von unmerklich über Null der Ablehnungsbereich im unteren Bereich läge und alle anderen Werte für die Annahme sprächen, lässt sich für die Nullhypothese H0 : μ(Y0 ) − μ(Y1 ) = 0 gar kein eindeutiger Ablehnungsbereich definieren. Die Forschungshypothese müsste hier also als Nullhypothese formuliert werden. Bei einer Irrtumswahrscheinlichkeit von α besteht dann aber eine Chance von praktisch 1 − α, die Forschungshypothese beizubehalten, auch wenn sie falsch sein sollte. Dies wäre dann der Fall, wenn tatsächlich nur eine ganz geringe Stundenlohndifferenz bestünde. Erst wenn die Trennschärfe des Tests hinreichend groß ist, gibt es eine große Chance, eine falsche Forschungshypothese zu entdecken, wenn diese als Nullhypothese formuliert ist. Wenn die Forschungshypothese die zu testende Nullhypothese ist, sollte daher eher eine deutlich größere α-Fehlerwahrscheinlichkeit als 5 % akzeptiert werden, wenn die empirische Forschung im Sinne eines strengen Testens die Widerlegung der Forschungshypothese anstrebt. Multiples Testen Ein weiteres Problem besteht in der Interpretation von Ergebnissen beim multiplen Testen. In der Regel wird während der statistischen Analyse eine Vielzahl von Tests durchgeführt. Multiples Testen erhöht die Chance, ein signifikantes Ergebnis zu erhalten, obwohl eine Nullhypothese falsch ist. So ist bei einer Irrtumswahrscheinlichkeit von α = 5 % zu erwarten, dass 5 von 100 (statistisch unabhängigen) Testergebnissen signifikant sind, obwohl die Nullhypothese jeweils falsch ist. Um dies zu berücksichtigen,
8 Grundlagen des statistischen Schließens
187
sind verschiedene Formeln zur Korrektur der Irrtumswahrscheinlichkeit bei multiplem Testen vorgeschlagen worden. Aus der Binomialverteilung lässt sich berechnen, dass 1 die Irrtumswahrscheinlichkeit eines einzelnen Tests gleich δ = 1 − (1 − α) /n (≈ α/n bei kleinem α) betragen sollte, wenn bei n unabhängigen Tests mit einer Irrtumswahrscheinlichkeit α genau ein signifikantes Ergebnis auftritt, obwohl alle Nullhypothesen falsch sind. Bei n = 10 Tests und einer angestrebten Irrtumswahrscheinlichkeit von 5 %, müsste der einzelne Test also eine Irrtumswahrscheinlichkeit von 1 − (0,95)0,1 = 0,51 % haben. Allerdings sind beim multiplen Testen an einer einzigen Stichprobe die Ergebnisse nicht notwendigerweise statistisch unabhängig voneinander, was die Anwendung der Korrekturformeln in Frage stellt. Darüber hinaus hat die Korrektur der α-Fehlerwahrscheinlichkeit Auswirkungen auf die β-Fehlerwahrscheinlichkeiten. Es kann daher eventuell günstiger sein, mit dem Risiko zu leben, dass beim multiplen Testen eine größere Chance als bei einem singulären Test besteht, zu Unrecht eine zutreffende Nullhypothese abzulehnen. Modell-Fitting Multiples Testen liegt auch beim sogenannten „Fitten“ eines statistischen Modells vor. In der Regressionsanalyse kann etwa die Fragestellung darin bestehen, aus einer Menge von potentiellen erklärenden Variablen die Teilmenge zu finden, die eine zutreffende und gleichzeitig sparsame Erklärung oder Vorhersage einer abhängigen Variablen ermöglicht10 . Typisch hierbei ist, dass die Entscheidung für oder gegen die Durchführung späterer Tests von früheren Testergebnissen abhängt. Ein Beispiel für eine solche Sequenz von Tests ist etwa beim Mittelwertvergleich die Entscheidung zur Verwendung des T -Tests für gleiche oder aber verschiedene Varianzen in Abhängigkeit von einem Test auf Gleichheit der Varianzen. Die tatsächlichen Irrtumswahrscheinlichkeiten der späteren Tests entsprechen dann nicht mehr ihren formalen Signifikanzniveaus. Da beim Fitten durch die Interaktion mit den Daten das konfirmatorische Ziel der Hypothesentestung zugunsten einer eher explorativen Datenanalyse zurücksteht, ist es hier sinnvoll, Testergebnisse nicht als strikte Entscheidungsregeln sondern eher als Informationsquelle zu interpretieren. Es besteht zudem die Gefahr des „Overfittings“, das ist die Gefahr, sich zu sehr an der zufällig gezogenen Stichprobe zu orientieren und ein Endmodell zu finden, das zwar für die Stichprobe optimal ist, nicht aber für die Population. Zur Vermeidung dieses Problems kann bei großen Stichproben die Ausgangsstichprobe zufällig in (mindestens) zwei Teilstichproben zerlegt werden, so dass eine Validierung der in einer Stichprobe aufgefundenen Ergebnisse mit einer weiteren Stichprobe möglich wird. Ist die ursprüngliche Stichprobe hierfür zu klein, sollte auf die Vorläufigkeit von Ergebnissen hingewiesen werden und eine Replikation mit neuen Daten angestrebt werden. 10
Eine in der Regressionsanalyse häufig angewandte Strategie ist das schrittweise Einführen von Variablen in das Regressionsmodell, um auf diese Weise ein sparsames aber – im statistischen Sinne – erklärungsstarkes Modell „herauszufinden“. Allerdings ist von einer rein empiri(sti)schen, nicht theoriebasierten Strategie der Einbeziehung von Variablen abzuraten.
188
Steffen M. Kühnel und Dagmar Krebs
Stichprobenpläne als Quelle von Interpretationsfehlern Insbesondere bei Aggregatdaten ist ein Datensatz oft keine Zufallsauswahl im üblichen Sinne. Wenn etwa eine Aussage über die EU-Staaten getroffen werden soll und dazu Aggregatdaten aus jedem EU-Staat vorliegen, ist der Datensatz eine Vollerhebung. Bei einem designbasierten Ansatz sind dann statistische Schlüsse überflüssig, weil gar kein Induktionsproblem vorliegt. Es ist jedoch vorstellbar, dass die verwendeten Aggregatdaten wie das Bruttosozialprodukt eines Staates messfehlerbehaftet und/oder Schätzungen aus Stichprobendaten sind. Aus einer modellbasierten Perspektive können daher auch bei (scheinbaren) Vollerhebungen oder sogar bei nicht zufälligen Stichproben statistische Schlüsse sinnvoll sein, wenn der datengenerierende Prozess als ein spezifisches Zufallsexperiment aufgefasst werden kann. Tatsächlich stellt sich das Problem der Zufallsauswahl bereits bei den üblichen Umfragen der Sozialforschung. Die standardmäßig eingesetzten Schätzer und Tests basieren vielfach auf einfachen Zufallsauswahlen bzw. voneinander unabhängig und identisch verteilten Zufallsvariablen, deren Realisierungen die Stichprobenfälle sind. Tatsächlich werden in der Sozialforschung meist mehrstufige und geschichtete Stichprobenpläne verwendet. Durch Abweichungen der Stichprobenziehung vom vorgesehenen Stichprobenplan insbesondere als Folge von Ausfällen können zusätzliche Verletzungen der für die statistischen Schlüsse zugrunde liegenden Annahmen auftreten (siehe die Kapitel 6 und 7 in diesem Handbuch). Die genannten Verletzungen der Voraussetzungen bedeuten nicht, dass auf statistisches Schließen verzichtet werden sollte. Nur die Statistik ermöglicht es, Risiken von Induktionsschlüssen abzuschätzen. In der mathematischen Statistik werden zudem robustere und für die Praxis der Sozialforschung besser angepasste Modelle entwickelt. Da es aber unmöglich bleiben wird, statistische Schlüsse ausschließlich aus robusten Annahmen abzuleiten, scheint generell eine vorsichtige Interpretation von Ergebnissen angebracht. Empirisches Arbeiten kann stets zu fehlerhaften Interpretationen führen. Statistische Schlüsse liefern wertvolle Hinweise auf die Gefahr von Fehlinterpretationen, geben aber keine Sicherheit, sie zu vermeiden.
5 Literaturhinweise Ausführungen zur statistischen Hypothesenprüfung und zu Konfidenzintervallen finden sich in allen Monographien zur Statistik. Umfangreich, aber eher an psychologischen Fragestellungen orientiert, sind die Ausführungen bei Bortz (2005). Grundlegend, aber mathematisch anspruchsvoll, ist Stuart et al. (1999). Eine kritische Auseinandersetzung mit statistischer Hypothesenprüfung, sowie einen – wiederum psychologisch orientierten – Überblick liefern Balluerca et al. (2005). Eine ausführliche Darstellung der Grundzüge des statistischen Schätzens und Testens mit konkreten Datenbeispielen findet sich bei Kühnel & Krebs (2007).
8 Grundlagen des statistischen Schließens
189
Literaturverzeichnis Balluerca, N., Gómez, J., & Hidalgo, D. (2005). The Controversy Over Null-Hypothesis Significance Testing Revisited. Methodology, 1, 55–70. Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler. Heidelberg: Springer Medizin Verlag, 6. Auflage. Greene, W. H. (1997). Econometric Analysis. Upper Saddle River: Prentice-Hall, 6. Auflage. Koehler, J. J. (1993). The Influence of Prior Beliefs on Scientific Judgments of Evidence Quality. Organizational Behavior and Human Decision Processes, 56, 28–55. Kühnel, S.-M. & Krebs, D. (2007). Statistik für die Sozialwissenschaften. Grundlagen, Methoden, Anwendungen. Reinbek: Rowohlt, 4. Auflage. Lohr, S. (1999). Sampling: Design and Analysis. Pacific Grove: Duxbury Press. Neyman, J. & Pearson, E. S. (1933). On the Problem of the Most Efficient Tests of Statistical Hypothesis. Philosophical Transaction of the Royal Society of London, Series A, 231, 289–337. Stuart, A., Ord, J. K., & Arnold, S., Hg. (1999). Kendall’s Advanced Theory of Statistics, Band 2a von Classical Inference and the Linear Model. London: Arnold.
9 Einführung in die Inferenz durch den nichtparametrischen Bootstrap Susumu Shikano∗ Universität Konstanz
Zusammenfassung. Bei der Inferenzstatistik interessiert man sich für die Verteilung von statistischen Kennwerten, um von einer Stichprobe auf die Grundgesamtheit zu schließen. Bei parametrischen Verfahren wird die interessierende Verteilung mathematisch hergeleitet, indem gewisse theoretische Annahmen über die Verteilungsform gemacht werden. Im Gegensatz hierzu wird bei nichtparametrischen Verfahren keine Grundannahme dieser Art getroffen. Die Verteilungsform wird stattdessen direkt aus der empirisch vorliegenden Stichprobe ermittelt. Während bereits verschiedene spezifische nichtparametrische Verfahren für einzelne statistische Kennwerte vorgeschlagen wurden, ist das Bootstrap-Verfahren gegenüber den anderen Verfahren überlegen, da es auf unterschiedlichste statistische Kennwerte anwendbar ist. Außerdem ist seine Vorgehensweise relativ einfach zu implementieren. Das Bootstrap-Verfahren rekonstruiert die Verteilung des interessierenden statistischen Kennwerts direkt aus einer Stichprobe, indem viele Bootstrap-Stichproben aus der untersuchten Stichprobe „mit Zurücklegen“ gezogen werden. Diese Bootstrap-Stichproben simulieren nämlich die potenziellen Stichproben aus der Grundgesamtheit. Für die gezogenen einzelnen Bootstrap-Stichproben kann man den interessierenden statistischen Kennwert berechnen. So lässt sich eine Verteilung der Kennwerte rekonstruieren. Daraus lassen sich der Standardfehler und/oder das Konfidenzintervall ermitteln. Die breite Anwendbarkeit des Verfahrens auf unterschiedliche statistische Kennwerte wird dadurch ermöglicht, dass für die Verwendung von Bootstrap in Bezug auf Stichprobe und Grundgesamtheit deutlich weniger Voraussetzungen erfüllt sein müssen als bei den üblichen parametritschen inferenzstatistischen Verfahren. Andererseits ist das Bootstrap-Verfahren stärker von der Stichprobe abhängig, sodass die Qualität der Stichprobe beachtet werden muss, bevor diese Methode eingesetzt werden kann.
1 Einführung in das Verfahren Bei vielen sozialwissenschaftlichen Studien werden anhand von einer Stichprobe Schlüsse über eine gewisse Grundgesamtheit gezogen. Dabei ist die Qualität oder Genauigkeit der Schätzer genauso wichtig wie der Punktschätzer an sich. Bei den gängigen parametrischen Verfahren sind bestimmte Voraussetzungen bezüglich der Verteilungsform der interessierenden statistischen Kennwerte notwendig. Vor allem wird dabei angenommen, dass der zugrunde liegende Zufallsprozess zu einer bestimmten Klasse von Verteilungen, typischerweise einer Normalverteilung, gehört. ∗
Der Autor dankt Anna Kurella für ihre Untersützung bei der Berechnung der hier dargestellten Analysen.
S. 191–204 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_9, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
192
Susumu Shikano
Noch spezifischer kann man diese Vorgehensweise wie folgt formulieren: Um eine Aussage über einen interessierenden statistischen Kennwert θ machen zu können, ziehen wir eine Stichprobe des Umfangs n aus der Grundgesamtheit F . Anhand ˆ berechnen. Neben dieser Stichprobe können wir einen Schätzer des Kennwerts (θ) dem Wert von θˆ interessiert uns immer auch die Genauigkeit von θˆ in Bezug auf θ, da wir letztendlich eine Aussage über θ machen wollen. Wenn es sich bei θ um die Linearkombination mehrerer unabhängiger Zufallswerte (z. B. das arithmetische Mittel) handelt, kann mit Hilfe des Zentralen Grenzwertsatzes der Standardfehler von ˆ der mit σ ˆ bezeichnet wird, mathematisch hergeleitet werden. Nach dem Zentralen θ, θ Grenzwertsatz konvergiert die Verteilung von θˆ bei großen Stichprobenumfängen gegen eine Normalverteilung. Einerseits gilt diese Konvergenz unabhängig von der Verteilungsform der zugrunde liegenden Grundgesamtheit. Andererseits konvergiert die Verteilung schneller, d. h. schon bei mittleren Stichprobenumfängen, wenn die Stichprobe aus einer normalverteilten Grundgesamtheit gezogen wird. Kann bei dem Vorliegen der entsprechenden Bedingungen eine Normalverteilung von θˆ angenommen werden, dann kann entsprechend ein Konfidenzintervall von θˆ berechnet werden. Derartige Verfahren können bei der konkreten Umsetzung der empirischen Sozialforschung mit verschiedenen Problemen verbunden sein. Erstens muss der interessierende statistische Kennwert θ nicht immer eine Linearkombination der beobachteten Werte sein. Stellen wir uns vor, dass wir nur eine ordinalskalierte Variable haben, wie es in der Sozialforschung oft der Fall ist. Wenn man sich dabei für die zentrale Tendenz der Variable interessiert, stellt nicht das arithmetische Mittel, sondern der Median den interessierenden Kennwert dar. Während das arithmetische Mittel aus einer linearen Kombination der Werte berechnet wird, basiert der Median nicht darauf. Beim Letzteren gilt deshalb der Zentrale Grenzwertsatz nicht. Selbst wenn man sich für das arithmetische Mittel oder für einen anderen statistischen Kennwert aus einer linearen Kombination der Werte interessiert, kann die Annahme des normalverteilten Kennwerts problematisch sein. Zwar konvergiert die Verteilung der Kennwerte unabhängig von der Verteilungsform der Grundgesamtheit gegen eine Normalverteilung, aber dies gilt nur unter einer Bedingung: bei großen Stichprobenumfängen. Auch die Erfüllung dieses Kriteriums ist in der Sozialforschung nicht immer garantiert. Was können wir aber machen, wenn die Voraussetzungen zur Anwendung des Zentralen Grenzwertsatzes nicht erfüllt sind, d. h. wenn nicht von einer Normalverteilung von θˆ ausgegangen werden kann, oder es nicht möglich ist, den Standardfehler σθˆ analytisch herzuleiten? Eine Alternative stellt die nichtparametrische Inferenz dar. Dies ist ein Überbegriff für verschiedene Inferenzverfahren, die keine Verteilungsannahme bezüglich der statistischen Kennwerte treffen. Zum Beispiel gibt es für den Vergleich von mehreren Medianwerten den „Mann-Whitney-Wilcoxon-Test“ oder den „KruskallWallis Test“. Ein weiteres bekanntes Beispiel ist der χ2 -Test für die Häufigkeiten einer nominalskalierten Variable. Des Weiteren kann es vorkommen, dass man sich für einen statistischen Kennwert interessiert, dessen Teststatistik nicht bekannt ist. Zum Beispiel ist für 5 %-Quantilwerte oder den Interquartilabstand weder eine parametrische noch eine nichtparametrische
9 Bootstrap-Verfahren
193
Tab. 1: Ziehung der Bootstrap-Stichproben konkret vorliegende Stichprobe Bootstrap-Stichproben
(b = 1) (b = 2) (b = 3) (b = 100)
{6,2,1,1,8,1,2,0,6,5}
θˆ = 1
{2,1,1,1,8,5,2,6,6,6} {5,6,8,6,5,6,5,8,6,6} {6,2,1,6,1,1,1,6,1,6} .. . {2,2,8,6,0,0,5,6,8,5}
θˆ1∗ = 1 θˆ2∗ = 5 θˆ3∗ = 1 ∗ θˆ100 =2
Teststatistik bekannt. Genau dieses Problem löst der Bootstrap auf eine intuitiv nachvollziehbare Art und Weise. Die Grundannahme dabei ist, dass die konkret vorliegende Stichprobe als beste Approximation der Grundgesamtheit betrachtet werden kann. Unter dieser Annahme kann man durch mehrere Stichproben aus der Stichprobe (resampling) alle potenziellen Stichproben aus der Grundgesamtheit simulieren. Für jede simulierte Stichprobe wird anschließend der interessierende Kennwert berechnet. Auf dieser Basis kann man den entsprechenden Standardfehler und/oder das Konfidenzintervall ermitteln. Diese Grundidee wird oft auch „Plug-in-Prinzip“ genannt. Konkret werden die folgenden Schritte vorgenommen: 1. Stichproben des Umfangs n werden B-mal aus der konkret vorliegenden Stichprobe „mit Zurücklegen“ gezogen. Wir nennen die hier gezogenen Stichproben „BootstrapStichproben“. 2. Für die einzelnen Bootstrap-Stichproben wird der interessierende statistische Kennwert (θˆb∗ ) geschätzt. 3. Von der Verteilung von θˆ∗ werden der Standardfehler und das Konfidenzintervall ermittelt. Betrachten wir folgendes hypothetische Beispiel. Wir interessieren uns für das untere Quartil der Selbsteinstufung von Studierenden auf einer Links-Rechts-Skala von null bis zehn. Wir haben zehn zufällig ausgewählte Studierende befragt und einen Datensatz gewonnen, der in der ersten Zeile von Tabelle 1 zu finden ist. Diese Daten ergeben als unteres Quartil 1. Aber wie genau ist dieser Quartilwert in Bezug auf die Grundgesamtheit? Um das abschätzen zu können, ziehen wir mehrere BootstrapStichproben aus den Daten. In der ersten Bootstrap-Stichprobe (b = 1) taucht der Wert 6 dreimal auf, obwohl er nur zweimal in der Stichprobe vorkommt. Dies ist in der Stichprobenziehung „mit Zurücklegen“ möglich. Dafür taucht der Wert 0 in der ersten Bootstrap-Stichprobe gar nicht auf. Noch extremer ist die zweite Bootstrap-Stichprobe (b = 2), in der nur die Werte 5, 6 und 8 vorkommen. Nachdem wir 100-mal diesen Vorgang wiederholt haben, können wir für diese 100 Bootstrap-Stichproben jeweils das untere Quartil berechnen. Von diesen θˆb∗ , wobei b = 1, . . . , 100, gewinnen wir eine Verteilung von θˆ∗ , um den Standardfehler und/oder das Konfidenzintervall um den oben geschätzten Wert 1 zu bilden. In dem Beispiel wurden 100 Bootstrap-Stichproben gezogen. Wie viele BootstrapStichproben soll man ziehen? Dies hängt von der konkreten Anwendung ab. Benötigt
194
Susumu Shikano
man „nur“ den Standardfehler der Verteilung der interessierenden Kennwerte, dann genügen oft 100 Bootstrap-Stichproben. Interessiert man sich hingegen für das Konfidenzintervall, zum Beispiel für 95 %, dann sind 100 Bootstrap-Stichproben nicht ausreichend. Die notwendige Anzahl der Bootstrap-Stichproben hängt jedoch auch von der Verteilungsform der interessierenden Kennwerte ab. Bei einer schiefen Verteilung benötigt man wesentlich mehr Bootstrap-Stichproben. Zur Bildung des Konfidenzintervalls stehen verschiedene Methoden zur Verfügung. Meistens wird eine der folgenden drei Methoden verwendet: Normale Approximationsmethode, Perzentil-Methode und bias-corrected and accelerated Methode. Bei der normalen Approximationsmethode wird eine Normalverteilung um θˆ angenommen, wobei ihre Standardabweichung von der Verteilung von θˆb∗ berechnet wird. Bei der Perzentil-Methode wird der untere und obere Grenzwert des Konfidenzintervalls beim entsprechenden Perzentilwert der Verteilung von θˆb∗ gesucht. Diese beiden Methoden nehmen jedoch an, dass die Verteilung θˆb∗ keine Verzerrung von θˆ aufweist. Dies ist jedoch nicht immer der Fall. Zur Korrektur derartiger Verzerrungen steht die biascorrected und accelerated Methode zur Verfügung. Die genaue Vorgehensweise dieser Methoden wird in Abschnitt 2.1 vorgestellt. Bei der Anwendung des Bootstrap-Verfahrens auf Umfragedaten, eine typische Datenform in der sozialwissenschaftlichen Datenanalyse, muss man vor allem auf zwei Dinge achten: Nicht-kontinuierliche Messungen und Ausfälle (Non-Response). Bei den Nicht-kontinuierlichen Messungen handelt es sich darum, dass eine nur begrenzte Anzahl der Werte einer Variablen besetzt werden und die sonstigen Werte unbesetzt bleiben. Dies wird meistens dadurch verursacht, dass den Befragten nur eine begrenzte Zahl der Antwortalternativen vorgelegt wird. Zum Beispiel wird eine kontinuierliche Variable für die Links-Rechts-Orientierung der Befragten angenommen. Bei der Messung wird hingegen oft eine 11-Punkte-Skala vorgelegt, wobei die Befragten nur eine der möglichen 11 Positionen auf der Skala wählen können. Eine nicht-kontinuierliche Messung kann jedoch auch zustande kommen, wenn die Befragten eine solche Skala nicht vorgelegt bekommen. Zum Beispiel wurde bei ALLBUS 2004 nach der durchschnittlichen Dauer des täglichen Fernsehkonsums gefragt, wobei die Befragten die entsprechende Dauer in Minuten angeben durften. Hier kann man sich leicht vorstellen, dass die Befragten ihre Angaben gewissermaßen auf- oder abrunden. In der Tat lassen sich die meist besetzten Werte durch 30 teilen. Die Vermutung liegt nahe, dass die meisten Angaben in Stunden gemacht wurden, wie z. B. „eine halbe Stunde“, „zwei Stunden“. Solche nicht-kontinuierlichen Messungen sind vor allem dann problematisch, wenn man sich für den Standardfehler des Medians oder der Quantilwerte interessiert. Denn die Bootstrap-Stichproben können möglicherweise immer zum gleichen Wert für θˆb∗ führen, sodass keine Varianz ermittelt werden kann. Eine mögliche Lösung hierfür ist das „smooth“-Bootstrap. Dabei wird zunächst eine geglättete („smoothed“) Approximation der Datenverteilung gebildet, aus der dann mehrere Bootstrap-Stichproben gezogen werden. Als ewiges Problem der Umfrageforschung gelten fehlende Werte. Es ist längst bekannt, dass der listenweise Ausschluss der Befragten mit fehlenden Werten in mehreren Hinsichten (z. B. deutlich reduzierte Fallzahl, Verzerrung der Schätzer) oft problematisch ist. So wurden bereits verschiedene Verfahren zur Imputation der
9 Bootstrap-Verfahren
195
fehlenden Werte vorgeschlagen (siehe dazu auch Kapitel 6 in diesem Handbuch). Dabei werden mehrere Bootstrap-Stichproben aus den empirisch vorhandenen Daten mit den imputierten Werten gezogen. Es ist jedoch bekannt, dass ein derartiger „naiver“ Einsatz des Bootstraps die Varianz der Schätzer unterschätzt. Stattdessen wird vorgeschlagen, die Imputation in den einzelnen Bootstrap-Stichproben wiederholt durchzuführen. Dadurch kann die durch die Imputation vergrößerte Varianz der Schätzer mitberücksichtigt werden.
2 Mathematisch-statistische Grundlagen Das Bootstrap-Verfahren basiert auf zwei Arten von Asymptotik. Bei der ersten Asymptotik handelt es sich um den Zusammenhang zwischen der Grundgesamtheit und der Stichprobe. Bei der zweiten handelt es sich um den Zusammenhang zwischen der Stichprobe und der Bootstrap-Stichprobe. Sei X = (X1 ,X2 , . . . Xn ) eine Zufallsstichprobe mit Umfang n aus einer Grundgesamtheit mit der kumulativen Wahrscheinlichkeitsverteilung F (x): Xi ∼i.i.d. F (x) .
(1)
Es sei beachtet, dass die Stichprobe unabhängig und identisch verteilt (independent and identically distributed) ist. Nach dem Satz von Glivenko und Cantelli approximiert die empirische Verteilungsfunktion Fn (x) aus Xi mit zunehmendem n die tatsächliche Funktion F (x). In einer konkreten Situation interessieren wir uns für einen unbekannten statistischen Kennwert θ für F (x), wobei seine Schätzung θˆ anhand von Fn (x) vorhanden ist. Zum ˆ Hierzu lässt sich das BootstrapInferenzzweck benötigt man die Verteilung von θ. Verfahren einsetzen, da das Verfahren den zufälligen Auswahlprozess aus F (x) simuliert. Konkret werden aus X n Werte „mit Zurücklegen“ gezogen. Anhand dieser BootstrapStichprobe wird der entsprechende Schätzwert θ ∗ gebildet. Wiederholt man diesen Vorgang B-mal, kann man B Schätzwerte θ∗ erhalten. Es ist bekannt, dass die empirische Verteilung von θˆ∗ mit zunehmendem B die Verteilung von θˆ approximiert. Es ist offensichtlich, dass das Bootstrap-Verfahren auf zwei wichtigen Grundlagen beruht: einer ausreichenden Zahl für n und B. In der Literatur werden hierzu unterschiedliche Meinungen vertreten. Nach Mooney & Duval (1993, S. 21) gilt im Allgemeinen: Wenn n > 30 and B > 1000 sollte man auf der sicheren Seite sein. Die Wahl hängt jedoch erstens von den Verteilungsformen der Grundgesamtheit und θˆ ab, die jeweils approximiert werden müssen. Außerdem hängt die Entscheidung auch davon ab, ob man „nur“ den Standardfehler oder das Konfidenzintervall schätzen möchte. Wie man diese beiden Schätzungen erhält, wird im nächsten Abschnitt vorgestellt. 2.1 Standardfehler und Konfidenzintervall von θˆ Die Berechnung des Standardfehlers von θˆ ist unkompliziert. Anhand der Verteilung von θˆb∗ wird der Standardfehler wie folgt geschätzt:
196
Susumu Shikano
σ ˆθ∗
=
B ˆ∗ b=1 (θb
∗ 2 − θˆ(.) )
B−1
∗ , wobei θˆ(.) =
B
ˆ∗ b=1 θb B
.
(2)
Zur Bildung des Konfidenzintervalls wurden in der Literatur unterschiedliche Methoden vorgeschlagen. Im Folgenden konzentrieren wir uns auf vier Methoden: Normale Approximationsmethode, Perzentil-Methode, bias-corrected and accelerated Methode und Perzentil-T-Methode. Normale Approximationsmethode Die Bildung des Konfidenzintervalls nach dieser Methode erfolgt analog zur parametrischen Methode. Mit dem Standardfehler (Gleichung (2)) kann man eine Normalverteilung um θˆ bilden und dementsprechend das Konfidenzintervall ermitteln. (3) ˆθ∗ < θ < θˆ + zα σ ˆθ∗ = 1 − 2α P r θˆ − zα σ zα ist der α-Quantilwert der standardisierten Normalverteilung. Zu beachten ist, dass ∗ die Normalverteilung nicht auf θˆ(.) , sondern auf θˆ zentriert wird. Das BootstrapVerfahren ist hauptsächlich zum Inferenzzweck entwickelt worden. Ziel ist dabei nicht die Punktschätzung, sondern die Bildung eines Konfidenzintervalls. Ein Nachteil dieser Methode besteht jedoch eben in der Annahme, dass θˆ normalverteilt ist, was nicht immer angemessen ist. Perzentil-Methode Diese Methode ist am besten intuitiv zu verstehen. Das Konfidenzintervall wird aus der Verteilung der Statistik der Bootstrap-Stichproben geschätzt. Für das 95 %Konfidenzintervall werden jeweils das 2,5 %- als unterer und das 97,5 %-Perzentil als oberer Wert genommen. Generell lässt sich das wie folgt darstellen: ∗ ∗ = 1 − 2α . (4) < θ < θˆ((1−α)B) P r θˆ(αB) Diese Schätzung ist im Gegensatz zur normalen Approximationsmethode völlig frei von parametrischen Annahmen. Dafür müssen aber mehr Bootstrap-Stichproben gezogen werden. Während 200 Stichproben für die normale Approximationsmethode genügen, werden für diese Methode 1000 Stichproben empfohlen (Efron & Tibshirani 1986, S. 72). Diese Methode setzt jedoch voraus, dass θˆ∗ nicht schief verteilt ist. Weiterhin soll es ˆ = θˆ∗ − θˆ = 0. Falls diese Voraussetzungen nicht keine Verzerrung geben, d. h. bias (.) erfüllt sind, muss eine Korrektur der Grenzen des Konfidenzintervalls vorgenommen werden. Hierfür wird im Folgenden eine weitere Methode vorgestellt. Bias-corrected and accelerated Methode (BCa) Anstatt davon auszugehen, dass θˆ∗ nicht verzerrt und normalverteilt ist, wird bei der BCa-Methode angenommen, dass die Verteilung von θˆ∗ durch eine unbekannte Transformation an eine Normalverteilung angepasst werden kann. Dazu gibt es zwei
9 Bootstrap-Verfahren
197
Korrekturwerte: zˆ0 für die Verzerrung und a ˆ für die Schiefe. Der Korrekturwert für die Verzerrung wird wie folgt geschätzt: ˆ ˆ∗ < θ) ( θ b zˆ0 = Φ−1 . (5) B Der Korrekturwert für die Schiefe wird wie folgt geschätzt: n a ˆ= 6
i=1 (θ(·)
ˆ
− θˆ(i) )3
n ˆ i=1 (θ(·)
− θˆ(i) )2
!
" 32 .
(6)
θˆ(i) ist der geschätzte Wert für θ anhand der empirisch vorliegenden Daten ohne Xi : Jackknife-Schätzer ohne i-te Beobachtung. Außerdem: 1 ˆ θˆ(·) = θ(i) . n i=1 n
(7)
Auf Basis der beiden geschätzten Korrekturwerte können wir das Signifikanzniveau wie folgt korrigieren: zˆ0 + zα . (8) α ˆ = Φ zˆ0 + 1−a ˆ(ˆ z0 + zα ) Dementsprechend lässt sich das Konfidenzinterval nach der Perzentil-Methode wie folgt korrigieren: ∗ ˆ∗ P r θˆαB = 1 − 2α . (9) ˆ < θ < θ(1# −α)B 1# − α lässt sich mit Gleichung (8) schätzen, wobei zα durch z1−α ersetzt wird. Wenn zˆ0 = a ˆ = 0, dann α ˆ = α. In diesem Fall reduziert sich die BCa-Methode auf die Perzentil-Methode.1 Es ist noch zu beachten, dass für diese Methode wieder eine parametrische Annahme eingeführt wird. Es stellt sich die Frage, welches Konfidenzintervall zum Inferenzzweck verwendet werden soll. Wenn die Verteilung der Bootstrap-Stichproben (Abbildung 2 c) von der Form einer Normalverteilung gänzlich abweicht, muss man das Konfidenzintervall sowohl hinsichtlich der Verzerrung des Mittels als auch im Sinne der Schiefe der Verteilung korrigieren. Nämlich indem man das BCa-Verfahren wählt. Anders herum formuliert gilt, dass sich die Konfidenzintervalle der verschiedenen Methoden stark ähneln, wenn sich die θˆb∗ annähernd normal verteilen. Insofern kann man eine generelle Empfehlung für das Konfidenzintervall nach dem BCa-Verfahren aussprechen. Es ist jedoch auch zu beachten, dass das BCa-Verfahren eine größere Rechenkapazität für die Berechnung von a ˆ benötigt. Dies wird problematisch, wenn man eine große Fallzahl im Datensatz hat. Bei solchen Fällen ist es empfehlenswert, zunächst die Verteilung von θˆb∗ zu betrachten. Wenn dessen Form einer Normalverteilung ähnelt, wird es sich nicht lohnen, ein Konfidenzintervall nach dem BCa-Verfahren zu bilden. 1
Wenn a ˆ = 0 angenommen wird, wird dies „Bias-corrected Methode (BC)“ genannt.
1
3
5
links <−
7
9
1
−> rechts
3
5
links <−
(a)
7
9
0.00 0.05 0.10 0.15 0.20
Density
Density
0.10 0.00
0.00
Density
0.10
0.20
0.30
Susumu Shikano
0.20
198
1
−> rechts
3
5
links <−
(b)
7
9
−> rechts
(c)
Abb. 1: Verteilung der Links-Rechts-Selbsteinstufung der westdeutschen Befragten 2.2 Besonderheiten bei der Anwendung des Bootstraps auf Umfragedaten Wie bereits erwähnt, muss man bei der Anwendung des Bootstrap-Verfahrens auf Umfragedaten vor allem auf nicht-kontinuierliche Messungen und fehlende Werte Acht geben. Im Folgenden werden diese Themen diskutiert. Bei nicht-kontinuierlichen Messungen kann man als Alternative das „smooth“Bootstrap einsetzen. Dieses Verfahren wird am Beispiel in Abbildung 1 dargestellt. Das linke Bild zeigt das Histogramm der Verteilung der Links-Rechts-Selbsteinstufung, die mit Hilfe einer 10-Punkte-Skala abgefragt wurde. Anstatt aus dieser empirisch vorliegenden Stichprobe werden die Bootstrap-Stichproben nun aus einer geglätteten Approximation der Verteilung gezogen. Während verschiedene Methoden für die Glättung der Verteilung zur Verfügung stehen, wird hier der Gauss-Kernel verwendet. Mit diesem Schätzer kann man die geglättete kumulierte Verteilung der Daten X = (X1 ,X2 , . . . Xn ) wie folgt definieren: 1 Φ nh i=1 n
x − Xi h
.
(10)
h entspricht der Standardabweichung der Normalverteilung, die für den einzelnen gemessenen Wert angenommen wird. In Abbildung 1 b und 1 c gilt deshalb jeweils h = 0,3 und h = 0,5. Bei der konkreten Berechnung werden jedoch die Bootstrap-Stichproben nicht aus der geglätteten Verteilung gezogen. Stattdessen werden die Bootstrap-Stichproben (Y1∗ ,Y2∗ , . . . Yn∗ ) aus der empirischen Stichprobe gezogen und eine Zufallszahl aus der Normalverteilung addiert: Xi∗ = Y¯ ∗ +
Yi∗ − Y¯ ∗ + h ˆ 2 /ˆ 1+h σ2
.
(11)
9 Bootstrap-Verfahren
199
Die Normierung im Nenner ist notwendig, damit die Varianz innerhalb einzelner σ 2 ) korrespondiert. Falls Bootstrap-Stichproben mit der empirischen Stichprobe (ˆ h = 0, reduziert sich dieses Verfahren auf das konventionelle Bootstrap-Verfahren, nämlich Xi∗ = Yi∗ . Bei der Analyse mit fehlenden Werten, wie es in der Umfrageforschung üblich ist, gibt es konventionell zwei Maßnahmen: Gewichtung und Imputation. Vor allem eine Technik unter der letzteren Klasse, multiple Imputation, wird zunehmend eingesetzt, vor allem deshalb, weil diese Technik erlaubt, die durch die fehlenden Werte verursachte Varianz zu berücksichtigen (mehr dazu in Kapitel 6 in diesem Handbuch). Während die multiple Imputation vor allem aus der bayesianischen Sicht gerechtfertigt wird, bietet der Bootstrap eine attraktive Alternative aus der frequentistischen Sicht. Dabei wird die Imputation nicht in der empirisch vorliegenden Stichprobe, sondern in den einzelnen Bootstrap-Stichproben wiederholt durchgeführt. Dadurch kann die durch die Imputation der fehlenden Werte erhöhte Varianz berücksichtigt werden. Als Imputationsmethoden kann man hierbei sowohl deterministische als auch probabilistische Imputation einsetzen.
3 Ein Beispiel In diesem Abschnitt werden die Schätzung des Standardfehlers und die Bildung des Konfidenzintervalls der Armutsgrenze vorgestellt.2 Dazu werden die folgenden Schritte vorgenommen: Erstens wurde das Haushaltseinkommen pro Kopf ermittelt. Dazu kann man das Haushaltseinkommen (V634) durch die Haushaltsgröße (V1081) teilen. Dies würde jedoch das Wohlstandsniveau eines großen Haushalts unterschätzen. Deshalb wurden die Personen, die zusätzlich zum Haushaltsvorstand im Haushalt leben, diskontiert aufgezählt. Konkret wurden hierbei weitere Haushaltsmitglieder über 15 Jahren mit 0,5 und Kinder unter 15 Jahren mit 0,3 gewichtet und aufsummiert. Das Haushaltseinkommen wurde nun durch die diskontierte Haushaltsgröße geteilt und das so errechnete Äquivalenzeinkommen, noch spezifischer der Medianwert des Äquivalenzeinkommens, ermittelt. Als Armutsgrenze wird in diesem Beitrag ein Einkommen von 60 % des so ermittelten Medianwerts gewählt. Ein Nachteil dieses Kennwerts ist, dass seine Verteilungsform nicht bekannt ist. Das heißt, für die Inferenz kann man sich nicht auf parametrische Verfahren stützen. Deshalb muss auf ein nicht-parametrisches Bootstrap-Verfahren zurückgegriffen werden. Unser Ziel ist es, den Standardfehler und das Konfidenzintervall für die Armutsgrenze zu bilden. Der Punktschätzer anhand der empirischen Stichprobe ist θˆ = 742,86 Euro. Der erste Schritt ist die Ziehung von Bootstrap-Stichproben. An dieser Stelle werden 1000 Bootstrap-Stichproben gezogen (B = 1000). Zunächst werden die Befragten mit fehlenden Werten außer Acht gelassen. Dadurch reduziert sich die Größe der Stichprobe auf 1423, ca. 62 % der Gesamtstichprobe. Dann wird für jede der 1000 BootstrapStichproben die Armutsgrenze ermittelt. Die Verteilung dieser 1000 Armutsgrenzen 2
Im kumulierten Datensatz des ALLBUS findet man die entsprechende Variable unter V634. In der folgenden Analyse werden nur die westdeutschen Befragten im Jahr 2006 einbezogen (n=2299).
2000
4000
6000
8000
Einkommen
(a) Einkommensverteilung
0.06 0.04 0.02
0.00
0 0
0.00
0.02
0.04
Dichte
Dichte
0.06
400 300 200 100
Häufigkeit
0.08
Susumu Shikano 0.08
200
700
720
740
760
780
800
Armutsgrenze
(b) Armutsgrenzen ohne Imputation
700
720
740
760
780
800
Armutsgrenze
(c) Armutsgrenzen mit Imputation
Abb. 2: Einkommensverteilung und Verteilung der Bootstrap-Stichproben findet man in Abbildung 2 b. Aus dieser Verteilung kann man den Standardfehler berechnen: σ ˆθ∗ = 14,08. Die einfachste Möglichkeit, das Konfidenzintervall zu bilden, ist die normale Approximationsmethode. Dabei wird eine Normalverteilung mit dem Mittelwert ˆθ∗ = 14,08 angenommen und dementspreθˆ = 742,86 und der Standardabweichung σ chend das Konfidenzintervall gebildet. Die entsprechende Normalverteilung und das 95 %-Konfidenzintervall findet man in Abbildung 2 b und der linken Spalte von Tabelle 2. Hierbei ist eindeutig zu erkennen, dass die Verteilung der Bootstrap-Stichproben stark von der Normalverteilung abweicht. Insofern muss angezweifelt werden, dass man das Konfidenzintervall nach der normalen Approximationsmethode schätzen kann. Eine weitere, relativ unkomplizierte Methode ist die Perzentil-Methode. Es wird angenommen, dass die Verteilung der Armutsgrenzen in Abbildung 2 b genau der Verteilung von θ entspricht. So werden die entsprechenden Perzentilwerte der Vertelung ermittelt, um das Konfidenzintervall zu bilden. Die beiden Grenzwerte findet man wieder in Tabelle 2. Demnach sind die beiden Grenzwerte nach der PerzentilMethode kleiner als die der normalen Approximationsmethode. Vor allem ist der untere Grenzwert um ca. 10 Euro verschoben. Dies spiegelt wider, dass die Verteilungsform der Bootstrap-Stichprobenkennwerte weit von der Normalverteilung entfernt ist. Die Verzerrung der Bootstrap-Stichprobenkennwerte ist hingegen nicht so dramatisch. Während die Schätzung der Armutsgrenze aus der empirischen Stichprobe 742,86 beträgt (die durchgezogene vertikale Linie in Abbildung 2 b), ist der Mittelwert der Bootstrap-Armutsgrenze 740,27 (die gepunktete Linie). Das bedeutet, dass die Bootstrap-Stichproben im Mittel eine um etwa 2,5 Euro niedrigere Armutsgrenze liefert als die empirisch vorliegende Stichprobe. Eventuell sollte deshalb das Konfidenzintervall auf Basis der Perzentile der Bootstrap-Stichproben nach oben korrigiert werden. Dies wird nun durch das BCa-Verfahren überprüft. Wie bereits vorgestellt wurde, benötigt das BCa-Verfahren zwei Korrekturwerte für die Verzerrung (ˆ z0 ) und
9 Bootstrap-Verfahren
201
Tab. 2: Standardfehler und Konfidenzintervalle (95 %) für die Armutsgrenze Ohne Imputation Standardfehler
(ˆ σθ∗ )
Konfidenzintervalle Normale Approximation Perzentil BCa
14,08
Mit Imputation 14,23
715,26 720,00 720,00
770,45 760,00 766,67
714,96 720,00 720,00
770,76 760,00 760,00
die Schiefe der Verteilung (ˆ a) (siehe Abschnitt 2.1). Für diese beiden Korrekturwerte wurden die folgenden Werte ermittelt: zˆ0 = 0,10 und a ˆ = 0,06 × 10−4 . Anhand dieser beiden Werte kann man die korrigierten Perzentilwerte für die Bildung des 95 %-Konfidenzintervalls ermitteln. Dieses soll nun zwischen 3,97 % und 98,48 %, und nicht wie bei der Perzentil-Methode zwischen 2,5 % und 97,5 %, gebildet werden. Während diese Verschiebung bei der Berechnung nicht den unteren Grenzwert (720) beeinträchtigt, wurde der obere Grenzwert nach oben auf 766,67 korrigiert (vgl. Tabelle 2). Nun wurden insgesamt drei verschiedene Konfidenzintervalle gebildet. Welches Konfidenzintervall soll für den Inferenzzweck verwendet werden? An diesem Beispiel wird empfohlen, das dritte Konfidenzintervall nach dem BCa-Verfahren zu benutzen. Dies liegt daran, dass die Verteilung der Bootstrap-Stichproben (Abbildung 2 b) eine vollkommen andere Form als eine Normalverteilung aufweist. 3.1 Ermittlung des Standardfehlers und des Konfidenzintervalls mit Imputation Bisher wurden nur die Befragten mit der Angabe des Einkommens berücksichtigt. Das bedeutet, dass die oben vorgestellten Schätzungen nur auf ca. 62 % der Stichprobe basieren. Nun werden die fehlenden Werte durch eine zufällige Imputation ersetzt. Wie bereits oben beschrieben, wird die Imputation nicht bei der empirisch vorliegenden Stichprobe vorgenommen, sondern bei den einzelnen Bootstrap-Stichproben separat. Dabei werden die Befragten zunächst ihrem Bildungsniveau gruppiert. Die fehlende Werte werden dann durch die vorhandenen Werte ersetzt, die zufällig aus demselben Bildungsniveau gewählt wurden. Während sich das durchschnittliche Einkommen unter den Bildungsniveaus stark unterscheiden, ist der Unterschied im Anteil der fehlenden Werte nicht so groß. Hier können wir deshalb erwarten, dass der Punktschätzer θˆ = 742,86 auf Basis der Stichprobe ohne fehlende Werte nicht stark verzerrt ist. Die Ergebnisse des Bootstrap-Verfahrens mit Imputation findet man in der rechten Hälfte von Tabelle 2. Die Verteilung der Armutsgrenzen auf Basis von 1000 BootstrapStichproben findet man in Abbildung 2 c. Demnach ist der Standardfehler marginal größer als der ohne Imputation. Dementsprechend wird das Konfidenzintervall nach der normalen Approximationsmethode etwas größer geschätzt. Nach der Perzentil-Methode bleiben hingegen die beiden Grenzwerte gleich. Dies liegt daran, dass die entsprechenden Werte als Armutsgrenze in mehreren Bootstrap-Stichproben herausgebildet wurden. Wie der Verteilung in Abbildung 2 c entnommen werden kann, ist die Verzerrung
202
Susumu Shikano
der Bootstrap-Kennwerte auch bei den imputierten Bootstrap-Stichproben marginal. Die beiden Korrekturwerte lassen sich nun wie folgt berechnen: zˆ0 = −0,27 und a ˆ = 0,06 × 10−4 . Die Korrektur der Perzentile durch diese Werte führt jedoch zu keiner Veränderung des Konfidenzintervals von der Perzentil-Methode. Insgesamt haben wir vier verschiedene Konfidenzintervalle gebildet. Darunter haben wir dreimal dasselbe Konfidenzintervall erhalten (720,00; 760,00). Dies liegt eindeutig daran, dass die Bootstrap-Kennwerte häufig die beiden Werte annehmen (siehe Abbildung 2 b und 2 c). Dies bedeutet aber wiederum, dass das ermittelte Konfidenzintervall unabhängig von den Methoden stabil sein kann.
4 Häufige Fehler Wegen der unkomplizierten Grundidee und Umsetzung könnte man das Bootstrap für eine Art Allzweckwaffe halten. Dies ist jedoch in vielerlei Hinsicht nicht korrekt. Erstens muss deutlich gemacht werden, dass das Bootstrap-Verfahren ein Inferenzverfahren und keine Schätzmethode ist. In diesem Zusammenhang wird fälschlicherweise oft angenommen, dass der Mittelwert der Parameterschätzungen aus mehreren Boot∗ strapstichproben θˆ(·) die Schätzung für den interessierenden statistischen Kennwert θ für die Grundgesamtheit sei. Dies ist eindeutig falsch. Die Schätzung für θ basiert auf der empirisch vorliegenden Stichprobe. Beim zweiten Fehler geht es um den Stichprobenumfang. Bei der Größe der ursprünglichen Stichprobe muss man zwar nicht den Zentralen Grenzwertsatz beachten, es soll hier aber betont werden, dass die wichtigste Annahme des Bootstrap-Verfahrens ist, dass die Stichprobe die Grundgesamtheit gut abbilden muss. Da das BootstrapVerfahren nur die Informationen aus der Stichprobe verwendet, müssen die Daten genügend Variation in jeder Variable besitzen, um die Grundgesamtheit adäquat abzubilden. Insofern läuft die Anwendung des Bootstrap-Verfahrens auf eine Stichprobe mit einem ziemlich kleinen Umfang Gefahr, dass nur eine begrenzte Menge der möglichen Werte in der Grundgesamtheit in den Bootstrap-Stichproben vertreten ist. Die Annahme der adäquaten Abbildung der Grundgesamtheit durch die Stichprobe bedeutet auch, dass die Stichprobe durch ein Zufallsverfahren gezogen wurde. Bei der einfachen Anwendung des Bootstrap-Verfahrens auf die Gesamtdaten muss zusätzlich noch angenommen werden, dass die Elemente aus der Grundgesamtheit voneinander unabhängig mit Zurücklegen gezogen wurden. Dies ist jedoch nicht immer der Fall. Bei der modernen Umfrageforschung ist üblicherweise die Stichprobenziehung komplexer als eine einfache Zufallsstichprobe, wie sie die ursprüngliche Version des Bootstrap-Verfahrens unterstellt. Häufig wird dabei ein geschichtetes mehrstufiges Auswahlverfahren eingesetzt. Dies kann zwei Probleme verursachen. Bei der Schichtung kann es durchaus sein, dass aus den Schichten jeweils nur eine kleine Anzahl der Primäreinheiten (PSU) gezogen werden. Wie bereits erwähnt, basiert das BootstrapVerfahren auf einer Asymptotik, die eine gewisse Anzahl von n voraussetzt. Diese Voraussetzung könnte innerhalb der Schichten verletzt werden. So ist längst bekannt, dass eine unabhängige Ziehung mehrerer Bootstrap-Stichproben in einzelnen Schichten
9 Bootstrap-Verfahren
203
h mit kleinem nh den Standardfehler von θˆ unterschätzt (Rao & Wu 1988). Außerdem müssen bei einer mehrstufigen Auswahl die Design-Gewichte berücksichtigt werden. Hierzu wurde vorgeschlagen, Bootstrap-Stichproben mit einem kleineren Umfang als dem der Originalstichprobe zu ziehen. Dies wird dann im Nachhinein durch die Reskalierung der Gewichtung der einzelnen Beobachtungen in den Bootstrap-Stichproben kompensiert (mehr dazu vgl. z. B. McCarthy & Snowden 1985; Rao & Wu 1988; Rao et al. 1992).3 Wenn bei einem komplexen Stichprobendesign imputiert wird, was oft in konkreten Untersuchungen der Fall ist, liefert die oben vorgestellte Reskalierung der Gewichte keinen korrekten Schätzer. So schlagen Saigo et al. (2001) vor, „a repeated half-sample bootstrap“ zu ziehen. Das Verfahren ist leicht zu implementieren. Man zieht von der Schicht h mit nh Primäreinheiten nh /2 Primäreinheiten ohne Zurücklegen. Die gezogene Bootstrapstichprobe wird dann verdoppelt, damit sie insgesamt nh Primäreinheiten enthält. Auf der Basis dieser Bootstrap-Stichproben kann man den Standardfehler und das Konfidenzintervall ohne Reskalierung bilden. Es kann aber noch weitere Zufallsstichproben in der empirischen Sozialforschung geben, die nicht durch einen einfachen Zufallsprozess realisiert werden: zum Beispiel Zeitreihendaten. Analog zu den mehrstufigen Stichproben muss das Bootstrap-Verfahren mit einer Korrektur durchgeführt werden. Für Zeitreihendaten wird als Lösung, obwohl nicht unumstritten (z. B. Hall & Horowitz 1996), das „Block“-Bootstrap vorgeschlagen, bei dem Bootstrap-Stichproben nicht direkt aus der gesamten Stichprobe, sondern blockweise gezogen werden. Für Zeitreihendaten werden die angrenzenden Beobachtungen gruppiert und von dort werden die Stichproben gezogen (vgl. „moving blocks bootstrap“ in Efron & Tibshirani 1993, S. 99 ff.). Ähnlich kann man auch Stichproben mit einer räumlichen Korrelation behandeln. Aus diesen Gründen sollte die leichtfertige Anwendung des Bootstrap-Verfahrens auf alle denkbaren Zwecke vermieden werden. Außerdem muss noch angemerkt werden, dass nichtparametrische Verfahren im Allgemeinen nicht leichtfertig verwendet werden sollen. Da keine Annahme über die Verteilung der interessierenden Kennwerte erforderlich ist, genießen nichtparametrische Verfahren eine breitere Anwendbarkeit als parametrische Verfahren. Dies hat jedoch seinen Preis. Da weniger a priori Informationen in Bezug auf die Verteilungsform berücksichtig werden, besitzen die Tests nach dem nichtparametrischen Verfahren weniger Power und somit niedrigere Effizienz. Wenn man über gewisse Informationen über die Verteilungsform verfügt, soll man deshalb auf entsprechende parametrische Verfahren zurückgreifen. Auch für das Bootstrap-Verfahren wurde längst eine parametrische Variante entwickelt (siehe z. B. Efron & Tibshirani 1993).
3
Derartige Reskalierung der Gewichtung mag umständlich erscheinen. Der Bootstrap hat jedoch immer noch einen großen Vorteil gegenüber den Linearisierungsmethoden, die eine längere Tradition haben und theoretisch gut begründet sind. Während bei der Linearisierung die Varianz für jeden Schätzer spezifisch mithilfe vom Satz von Taylor hergeleitet werden muss, ist das Anwendungsschema beim Bootstrap im Prinzip identisch für alle Arten von Schätzer.
204
Susumu Shikano
5 Literaturempfehlungen Als leichter Einführungstext zum Thema ist Mooney & Duval (1993) geeignet. Mooney & Krause (1997) geben einen Überblick über Weiterentwicklungen des Verfahrens und einen Vergleich mit anderen Methoden. Als ausführlicher Text zum Bootstrap gilt Efron & Tibshirani (1993) und Davison & Hinkley (1997). Für die Anwendung des Bootstrap-Verfahrens auf Umfragedaten mit komplexem Stichprobendesign kann man Shao & Tu (1995) zu Rate ziehen. Bei der Anwendung des Bootstraps auf zeitlich und/oder räumlich abhängige Daten treten erhebliche Probleme auf. Diese Problematik wird detailliert von Lahiri (2003) diskutiert.
Literaturverzeichnis Davison, A. C. & Hinkley, D. V. (1997). Bootstrap Methods and their Application. Cambridge: Cambridge University Press. Efron, B. & Tibshirani, R. (1986). Bootstrap Methods for Standard Errors, Confidence Intervals, and Other Measures of Statistical Accuracy. Statistical Science, 1, 54–75. Efron, B. & Tibshirani, R. (1993). An Introduction to the Bootstrap. New York: Chapman & Hall. Hall, P. A. & Horowitz, J. L. (1996). Bootstrap Critical Values for Tests Based on GeneralizedMethod-of-Moments Estimators. Econometrica, 64, 891–916. Lahiri, S. N. (2003). Resampling Methods for Dependent Data. New York: Springer. McCarthy, P. J. & Snowden, C. B. (1985). The Bootstrap and Finite Population Sampling. Public Health Service Publication 85-1369. Washington: US Goverment Printing Office. Mooney, C. Z. & Duval, R. D. (1993). Bootstrapping: A Nonparametric Approach to Statistical Inference. Newbury Park: Sage. Mooney, C. Z. & Krause, G. A. (1997). Of Silicon and Political Science - Computationally Intensive Techniques of Statistical Estimation and Inference. British Journal of Political Science, 27, 83–110. Rao, J. N. K. & Wu, C. F. J. (1988). Resampling Inference with Complex Survey Data. Journal of the American Statistical Association, 83, 231–41. Rao, J. N. K., Wu, C. F. J., & Yue, K. (1992). Some Recent Work on Resampling Methods for Complex Surveys. Survey Methodology, 18, 209–17. Saigo, H., Shao, J., & Sitter, R. R. (2001). A Repeated Halfsample Bootstrap and Balanced Repeated Replications for Randomly Imputed Data. Survey Methodology, 27, 189–196. Shao, J. & Tu, D. (1995). The Jackknife and Bootstrap. New York: Springer.
10 Maximum-Likelihood Schätztheorie Thomas Gautschi Universität Mannheim
Zusammenfassung. Dieser Beitrag ist als Einführung in die Maximum-Likelihood (ML) Schätztheorie gedacht und erfordert vom Leser nur wenig Vorwissen. Im Gegensatz zu anderen Schätzverfahren, wie zum Beispiel dem OLS-Ansatz, beruht der Maximum-Likelihood Ansatz auf der expliziten Spezifizierung der auf die unabhängigen Variablen bedingten Verteilung der abhängigen Variable. Die Parameter (z. B. Regressionskoeffizienten) werden dann so bestimmt, dass die Schätzwerte der Parameter die Wahrscheinlichkeit maximieren, dass die Verteilung der vorhergesagten Werte der abhängigen Variable möglichst gut mit der beobachteten Verteilung der Werte übereinstimmt. Diese Idee ist so generell, dass sie sowohl auf lineare wie auch nichtlineare Modelle angewandt werden kann. Zudem erlaubt der Maximum-Likelihood Ansatz, dass die Parameter wie auch ihre Inferenzstatistik in einem einheitlichen Rahmen hergeleitet werden können. Grob gesagt ist es lediglich notwendig, dass die aus dem Modell resultierende Maximum-Likelihood Funktion zweimal stetig differenzierbar ist. Nachteilig wirkt sich dieser einheitliche Ansatz jedoch dahingehend aus, als dass die Maximum-Likelihood Theorie nur asymptotische Gültigkeit besitzt und zur Parameterbestimmung in kleinen Stichproben ungeeignet ist, da die Schätzwerte im Allgemeinen nicht erwartungstreu sein werden. In diesem Beitrag werden die wichtigsten Punkte besprochen, welche zum Verständnis der Maximum-Likelihood Schätztheorie und damit verbundenen, gängigen Regressionsverfahren der Sozialwissenschaften wesentlich sind: Maximum-Likelihood Schätzung für Modelle mit einem Parameter, Maximum-Likelihood Schätzung für Modelle mit mehreren Parametern, Inferenzstatistik (Hypothesen über einen Parameter, Hypothesen über mehrere Parameter) und Modellgüte. Des Weiteren wird auf die statistischen Eigenschaften der Maximum-Likelihood Schätzer eingegangen. Da Maximum-Likelihood Schätzer nicht immer analytisch zu bestimmen sind, rundet ein kurzer Abschnitt zu gebräuchlichen, numerischen Optimierungsverfahren den Beitrag ab. Natürlich ist der Platz in diesem Beitrag zu knapp, als dass alle Themen im Zusammenhang mit dem Maximum-Likelihood Ansatz besprochen werden könnten. So ist es zum Beispiel nicht möglich, auf diverse Erweiterungen einzugehen. Bei nicht korrekter Spezifizierung der Verteilung der abhängigen Variable resultieren zum Beispiel Maximum-Likelihood Schätzer, die nicht mehr die gewollten statistischen Eigenschaften aufweisen. In solchen Fällen muss die Maximum-Likelihood Funktion entsprechend angepasst werden (z. B. Pseudo-MaximumLikelihood Schätzungen). Für solche und weitere Erweiterungen sei der Leser auf die im Literaturverzeichnis aufgeführten Lehrbücher verwiesen.
S. 205–235 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_10, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
206
Thomas Gautschi
1 Einführung in das Verfahren Das vorrangige Ziel statistischer Analysen liegt in der Quantifizierung der Zusammenhänge zwischen verschiedenen Merkmalen. Zum Beispiel möchte man wissen, ob eine höhere Schulbildung zu mehr Einkommen führt. Die Quantifizierung eines solchen Zusammenhangs auf Basis entsprechender Daten im Sinne der Bestimmung der Stärke und Richtung des Zusammenhangs (Parameter, z. B. Regressionskoeffizienten) zwischen Merkmalen ist das erklärte Ziel von Schätzverfahren. In Abhängigkeit des funktionalen Zusammenhangs zwischen den Merkmalen sind verschiedene Schätzverfahren zur Bestimmung der Parameter denkbar. Im Falle eines linearen Zusammenhangs zwischen den Merkmalen kommen in der Regel Schätzverfahren wie OLS (ordinary least squares, Methode der kleinsten Quadrate) oder GLS (generalized least squares) zum Einsatz. Im Rahmen der linearen Regressionsanalyse, mithilfe der Methode der kleinsten Quadrate, werden die Schätzparameter so bestimmt, dass die Summe der quadrierten Abweichungen zwischen den beobachteten und den vorhergesagten Werten der metrischen abhängigen Variable minimal wird. Die Zusammenhänge zwischen Merkmalen sind (in den Sozialwissenschaften) jedoch oft nichtlinear und bedürfen daher generelleren Ansätzen zur Bestimmung der interessierenden Parameter. Eine Möglichkeit besteht im Ansatz der generalisierten Methode der Momente (GMM, generalized methods of moments), welche den oder die Parameter direkt aus den Momentbedingungen des Modells herleitet. Das heißt auch, dass für den GMM-Ansatz nur bestimmte Momente der Verteilung, aber nicht die gesamte Verteilung, bekannt sein muss. Dies ist auf den ersten Blick zwar ein sparsamer Modellierungsansatz, ist jedoch mit einigen Nachteilen – zum Beispiel kein einheitlicher Ansatz zur Parameterschätzung und Inferenzstatistik – verbunden. Ein Ansatz, welcher sowohl die Bestimmung der Parameter als auch die Inferenzstatistik in einem einheitlichen Rahmen ermöglicht, ist das Maximum-Likelihood Prinzip. Werden die Parameter des Modells mittels einer Maximum-Likelihood Schätzung (MLE, maximum likelihood estimation) bestimmt, ergeben sich alle weiteren Angaben zur Herleitung der statistischen Inferenz (Hypothesentests und deren asymptotischen Verteilungen) automatisch. Zudem besitzt der Maximum-Likelihood Schätzer (ML-Schätzer) wünschenswerte Eigenschaften. Er ist asymptotisch konsistent und erwartungstreu, effizient und normalverteilt (vgl. Abschnitt 3). Den Preis, den wir dabei „zu bezahlen“ haben, ist aber, dass im Gegensatz zum GMM-Ansatz die gesamte Verteilung und nicht lediglich einige Momente bekannt sein müssen. Sofern die auf ein oder mehrere Merkmale xk (mit k = 1, . . . , m) bedingte Verteilung eines Merkmals y bis auf wenige, nicht zu beobachtenden Parameter bekannt ist, können diese Parameter θj , mit j = 1, . . . , p, mittels Maximum-Likelihood geschätzt werden. Das Maximum-Likelihood Prinzip der Schätzung ist damit erheblich allgemeiner anwendbar als zum Beispiel die Methode der kleinsten Quadrate. Zudem beruht das Maximum-Likelihood Prinzip nicht auf der Idee der Minimierung der Fehlerquadrate, sondern setzt viel genereller an. Für die Maximum-Likelihood Schätzung wird eine spezielle Annahme über die Verteilung der abhängigen Zufallsvariable y getroffen. Die explizite Spezifizierung der auf die unabhängigen Variablen bedingte Verteilung
10 Maximum-Likelihood Schätztheorie
207
der abhängigen Variable ist also unerlässlich. Unter dieser Voraussetzung lautet das Maximum-Likelihood Prinzip: Bestimme die unbekannten Schätzparameter so, dass die Wahrscheinlichkeit der Beobachtung der gegebenen Werte der abhängigen Variable so hoch wie möglich ist. Grob gesprochen werden diejenigen Schätzer bestimmt, deren Anwendung zu Schätzwerten führen, welche die Wahrscheinlichkeit der Beobachtungswerte der abhängigen Variable maximieren. Die Parameter werden also so bestimmt, dass die resultierende Verteilung so gut wie möglich zu den beobachteten Daten passt und die MaximumLikelihood Schätzer damit die höchste Wahrscheinlichkeit garantieren, die vorliegende Stichprobe aus der (durch eine bestimmte Verteilungsannahme und Parameterkonstellation gekennzeichneten) Population zu erhalten. Die Maximum-Likelihood Methode geht auf Sir Ronald A. Fisher (1890–1962) zurück, welcher die Grundlagen bereits in seinem dritten Studienjahr 1912 publizierte. Die vollständige Methode entwickelte er in einer Serie von Artikeln zwischen 1922 bis 1925 (Aldrich 1997). Dass das Verfahren aber erst seit den 1980er Jahren vermehrt Beachtung findet, liegt nicht zuletzt an der praktischen Anwendung der ML-Schätztheorie. Wie im folgenden Abschnitt dargestellt werden wird, bedarf dies der Bestimmung der ersten Ableitung der so genannten Log-Likelihood Funktion und anschließendem Nullsetzen. Für alle außer den einfachsten Anwendungen sind die ML-Schätzer jedoch selten analytisch herzuleiten, so dass erst die Einführung computergestützter, numerischer Optimierungsverfahren die einfache Anwendung des ML-Verfahrens möglich machte. Trotz der vielen Vorteile, welche eine ML-Schätzung hat, sollen doch auch einige Nachteile nicht unerwähnt bleiben. ML-Schätzer sind zwar in der Klasse der Schätzer, welche eine explizite Spezifizierung der auf die unabhängigen Variablen bedingten Verteilung der abhängigen Variable erfordern, die effizientesten. Diese Effizienz hat aber ihren Preis. Die ML-Schätzer sind gegenüber Verletzungen der getroffenen Verteilungsannahmen wenig robust. Während zumindest die Punktschätzer des linearen OLS-Modells auch bei nicht-normal verteilten Störtermen unverzerrt geschätzt werden, ist dies bei einer ML-Schätzung nicht der Fall. Denn ML-Schätzer sind generell (d. h. abgesehen von einigen Spezialfällen) inkonsistent, wenn die verwendete Verteilung oder ein Teil davon fehlspezifiziert ist. Dies ist insofern von Bedeutung, als dass sozialwissenschaftliche Theorien selten explizit genug sind, um die bedingte Wahrscheinlichkeitsdichte oder Wahrscheinlichkeitsfunktion der abhängigen Variablen eindeutig zu definieren. Deswegen beinhaltet die Wahl einer bestimmten Wahrscheinlichkeitsdichte oder Wahrscheinlichkeitsfunktion in den aller meisten Anwendungen einige arbiträre Elemente. Maximum-Likelihood Modelle müssen diese zusätzlichen Annahmen durch die Wahl der Wahrscheinlichkeitsdichte oder Wahrscheinlichkeitsfunktion explizit machen. Dies ist auch ein Vorteil, da die eingeführten Annahmen dadurch transparent und diskutierbar werden. Im folgenden Abschnitt wird die Idee und Mechanik hinter dem ML-Schätzverfahren erläutert. Dabei demonstrieren wir den Ansatz anhand der Bestimmung eines Parameters und verallgemeinern danach auf Probleme, bei denen mehrere Parameter
208
Thomas Gautschi
zu bestimmen sind. Abschnitt 3 bespricht die statistischen Eigenschaften der MLSchätzer und Abschnitt 4 die Inferenzstatistik und Modellgüte. Der Beitrag schließt mit einem kurzen Abschnitt zu numerischen Optimierungsverfahren.
2 Die Mechanik des Maximum-Likelihood Verfahrens Die Fundierung der Maximum-Likelihood Schätztheorie ist ein Wahrscheinlichkeitsmodell der Form Pr(Y = y) = f (y|θ) , (1) wobei f (·) eine Wahrscheinlichkeitsdichte (stetiger Fall) oder eine Wahrscheinlichkeitsfunktion (diskreter Fall) ist. Die Funktion beschreibt die Verteilung eines Merkmals Y in der Population, während θ einen interessierenden Parameter der Verteilung darstellt. Anders gesagt, dass man bestimmte Werte der Verteilung mit einer bestimmten Wahrscheinlichkeit beobachtet, wird durch den Parameter θ bestimmt. Somit gilt auch, dass Pr(Y ≤ y) = F (y|θ); die Wahrscheinlichkeit, Y ≤ y zu beobachten folgt also einer noch nicht näher spezifizierten kumulativen Wahrscheinlichkeitsverteilungsfunktion. Unter Benützung von F (·) können wir somit Wahrscheinlichkeiten für die Beobachtung von bestimmten Werten von Y , gegeben dem Parameter θ berechnen.1 Betrachten wir beispielhaft eine Binomialverteilung mit dem Parameter π = 0. 5 und einer Stichprobengröße von n = 4. Die Wahrscheinlichkeit, dass das Ereignis nie respektive immer eintritt, ist somit jeweils 0. 0625. Die Wahrscheinlichkeit, dass genau ein Ereignis eintritt, y = 1, ist genau 0. 25. Die Wahrscheinlichkeit, dass das Ereignis zweimal eintritt, y = 2, ist 0. 375 und dass das Ereignis dreimal eintritt, y = 3, ist wiederum 0. 25. Wir betrachten also streng nach dem Wahrscheinlichkeitsmodell aus Gleichung (1) den Parameter als gegeben und die Daten als die Unbekannte, welche auf Basis einer einfachen Wahrscheinlichkeitsrechnung vorherzusagen sind. In der Maximum-Likelihood Theorie wird nun aber „das Pferd quasi von hinten aufgezäumt“, da der Parameter θ unbekannt ist und das Merkmal y beobachtet wurde. Man stellt sich also die Frage, welcher Parameter die höchste Wahrscheinlichkeit besitzt, die Daten korrekt zu beschreiben. Die Anwendung des Maximum-Likelihood Verfahrens bedarf weiter der Beschreibung des datengenerierenden Prozesses anhand der korrekten Wahrscheinlichkeitsdichte (oder Wahrscheinlichkeitsfunktion). Die Stichprobe besteht annahmegemäß aus n unabhängigen Ziehungen aus dieser Wahrscheinlichkeitsdichte (oder einer Wahrscheinlichkeitsfunktion) mit dem Parameter θ. Somit muss zur Bestimmung von θ diese Funktion im Rahmen des Maximum-Likelihood Ansatzes bekannt sein. 1
Während gewisse Verteilungen aufgrund von spezifischem Vorwissen über den datengenerierenden Prozess a priori ausgeschlossen werden können (beispielsweise ist die Binomialverteilung für Körpergrößen ungeeignet und vielmehr eine Normalverteilung plausibel), bleibt die Wahl der Verteilung letztlich immer subjektiv und unsicher. Die Notwendigkeit, eine bestimmte Verteilung zu wählen und diese Wahl anschließend zu verteidigen, erfordert oftmals nicht testbare Annahmen. Idealerweise werden diese Annahmen formalisiert, weil erst dieser Präzisionsgrad eine kritische Diskussion über die Plausibilität erlaubt.
10 Maximum-Likelihood Schätztheorie
209
Betrachten wir nochmals unser Beispiel. Wir wissen, dass die Stichprobe der Größe n = 4 aus einer Binomialverteilung mit dem Parameter π stammt. Wir beobachten y = 2. Welcher Wert für den Parameter π führt mit höchster Wahrscheinlichkeit zu der beobachteten Stichprobe mit zwei Ereignissen? Die erwartete Anzahl Ereignisse einer Binomialverteilung ist E[y] = nπ, so dass bei n = 4 und y = 2 die Lösung einfach gefunden ist: π = y/n. Somit ist π ˆ = 2/4 der Parameterwert, welcher mit höchster Wahrscheinlichkeit zu den beobachteten Daten geführt hat. Es wäre jedoch falsch zu behaupten, dass der Binomialparameter der beobachteten Daten mit Sicherheit π = 2/4 ist. Andere Parameterwerte haben ebenfalls eine von Null verschiedene Wahrscheinlichkeit, die beobachteten Daten zu generieren. Aus allen möglichen Parameterwerten für π ist es jedoch am wahrscheinlichsten, dass π = 2/4 die beobachteten Daten generiert hat. Ganz allgemein gesagt liegt das Interesse dementsprechend in einem bestimmten Element θ◦ aus dem Parameterraum Θ, welches zur Generierung von y, oder geneˆ reller gesagt, der Daten D verwendet wurde. Der Schätzwert für dieses Element, θ, ˆ bezeichnen wir im Folgenden als Maximum-Likelihood Schätzer. Ein ML-Schätzer, θ, des Parameters θ maximiert somit die Wahrscheinlichkeit bei entsprechender Wahrscheinlichkeitsdichte oder Wahrscheinlichkeitsfunktion die beobachteten Daten, D, zu erhalten. Dabei dient der „Hut“ (ˆ) auf dem Parameter zur Unterscheidung des Schätzwertes vom wahren Populationswert. 2.1 Das ML-Verfahren zur Bestimmung eines Parameters Ausgehend von dem in Gleichung (1) definierten Wahrscheinlichkeitsmodell kann nun die Likelihood Funktion bestimmt werden. Angenommen, man kann den n × 1 Vektor der Werte für das Merkmal y in der Stichprobe beobachten, wird die Likelihood Funktion geschrieben als L(θ|y) = f (y1 ,y2 , . . . , yn |θ) , wobei f (·) eine entsprechende Wahrscheinlichkeitsdichte oder Wahrscheinlichkeitsfunktion korrespondierend zu F (·) bezeichnet. Die Form von F (·) wird durch den datengenerierenden Prozess von y, oder allgemeiner, der Daten D bestimmt. Der Maximum Likelihood Ansatz beschreibt somit den Versuch, die Wahrscheinlichkeit L(θ|D) zu beschreiben, dass man die vorliegenden Daten beobachtet, sofern θ bekannt ist. Die Anwendung des Maximum-Likelihood Verfahrens erfordert jedoch zwei Annahmen. Erstens, die Population kann aufgrund einer Wahrscheinlichkeitsdichte respektive Wahrscheinlichkeitsfunktion beschrieben werden, welche bis auf die zu schätzenden Parameter bekannt ist. Zweitens, die Stichprobe besteht aus n unabhängig verteilten Ziehungen aus dieser Wahrscheinlichkeitsdichte respektive Wahrscheinlichkeitsfunktion. Bestehen irgendwelche Zusammenhänge zwischen den Beobachtungen, so werden diese durch den oder die zu bestimmenden Parameter beschrieben. Das Resultat ist eine Zufallsstichprobe mit unabhängig und identisch verteilten Beobachtungen (i. i. d.).2 2
Sind die Fehler nicht unabhängig voneinander (z. B. bei Autokorrelation), kann die „overall“ Likelihood Funktion nicht länger durch einfache Multiplikation der einzelnen Wahrschein-
210
Thomas Gautschi
Unter diesen Annahmen beschreibt die Likelihood Funktion die Wahrscheinlichkeit die aus den n Beobachtungen bestehenden Daten der Stichprobe, d. h. Pr(D), zu beobachten: Pr(D) = f (y1 ,y2 , . . . , yn |θ) = f (y1 |θ) · f (y2 |θ) · . . . · f (yn |θ) = (θ|y1 ) · (θ|y2 ) · . . . · (θ|yn ) n $ (θ|yi ) =
(2)
i=1
= L(θ|y) . Hier steht (θ|yi ) für die individuelle und L(θ|y) für die „overall“ Likelihood Funktion. Wir werden im Folgenden aber die generelle Notation L(θ|D) zur Bezeichnung der „overall“ Likelihood Funktion benutzen. ˆ zu finden, wird die Funktion Um den Maximum-Likelihood Schätzer von θ, also θ, maximiert ˆ (3) L(θ|D) = sup L(θ|D) , θ∈Θ
wobei θˆ die Lösung der Maximierungsaufgabe und somit eine reelle Zahl aus dem nicht-leeren Parameterraum Θ ist (supremum der Likelihood Funktion). Da aufgrund von Gleichung (2) die Likelihood Funktion das Produkt von individuellen Wahrscheinlichkeiten ist, ist der Wert der Likelihood Funktion (für größere n) sehr klein, was zu numerischen Problemen bei der computerbasierten Berechnung führen kann. Die Bestimmung des ML-Schätzers kann somit ungenau werden. Da aber L(θ|D) eine positive Funktion und der natürliche Logarithmus ln(·) eine monoton steigende Transformation ist, bietet sich die Logarithmierung der „overall“ Likelihood Funktion (2) an. Aufgrund der Monotonität der Transformation verändert sich das Maximum der Funktion nicht. Durch die Logarithmierung werden aber – etwas salopp gesagt – kleine positive Zahlen des Einheitsintervalls in den gesamten Raum der negativen Zahlen abgebildet.3 Die Transformation führt unter der i. i. d.-Annahme dazu, dass die „overall“ Likelihood Funktion geschrieben werden kann als
3
lichkeitsdichten respektive Wahrscheinlichkeitsfunktionen der individuellen Beobachtungen konstruiert werden (vgl. Gleichung (2)). Üblicherweise behilft man sich dann entweder mit einer Transformation, welche die Unabhängigkeit der Fehler herstellt oder man arbeitet mit einer so genannten multivariaten Dichtefunktion, welche diese Korrelationen modelliert. Dies soll im Rahmen dieses Beitrags jedoch nicht besprochen werden und der Leser sei auf die entsprechende Fachliteratur verwiesen (z. B. Amemiya 1985; Wooldridge 2002; Greene 2008). Betrachtet sei als kleines Beispiel eine Bernoulli Wahrscheinlichkeitsfunktion mit n = 1000 und π = 0. 5. Somit ist L(π|D) = 0. 51000 ≈ 9· 10−302 . Die entsprechend transformierte LogLikelihood Funktion ist dann ln L(π|D) = ln(0. 51000 ) = 1000 · ln(0. 5) ≈ 1000 · −0. 6931 = −693. 1, ein Wert, welcher für jeden modernen Prozessor einfach zu berechnen ist.
10 Maximum-Likelihood Schätztheorie
ln L(θ|D) = ln = ln
n $
i=1 n $
211
f (yi |θ) (θ|yi )
i
=
n
ln (θ|yi ) .
(4)
i=1
Um den Maximum-Likelihood Schätzer θˆ zu finden, wird nun die Log-Likelihood Funktion maximiert: ˆ ln L(θ|D) = sup ln L(θ|D) . (5) θ∈Θ
Abgesehen von numerischen Gründen bewegen uns auch statistische Gründe dazu, anstelle von Gleichung (2) die Gleichung (4) zu maximieren. Die Bildung von Erwartungswerten und Varianzen ist bei Summen einfacher als bei Produkten, insbesondere wenn die einzelnen Terme unabhängig voneinander sind. Das Finden des Maximums einer Log-Likelihood Funktion ist im Prinzip einfach und folgt der allgemeinen Logik zur Bestimmung eines Extremwerts (d. h. Maximum oder Minimum) einer Funktion. Man bestimmt die erste (partielle) Ableitung der Log-Likelihood Funktion nach dem interessierenden Parameter θ, setzt diese gleich Null ∂ ln L(θ|D) =0 ∂θ und bestimmt durch Umstellen den Schätzer von θ. Um zu bestimmen ob θˆ ein Maximum darstellt, muss die zweite (partielle) Ableitung ∂ 2 ln L(θ|D) <0 ∂θ∂θ an der Stelle θˆ negativ sein (eine positive zweite Ableitung würde auf ein Minimum hindeuten). Die erste Ableitung bestimmt die Steigung der Log-Likelihood Funktion (Gradient). Somit ist klar, dass ein (lokaler) Extremwert dann gefunden wird, wenn der Gradient Null ist. Die zweite Ableitung bestimmt die Steigung des Gradienten oder anderes gesagt, die Krümmung der Log-Likelihood Funktion. Je größer die zweite ˆ desto betonter ist der Extremwert der Funktion. Dies ist Ableitung an dem Punkt θ, insofern von Bedeutung, als dass ein betonteres Maximum gleichbedeutend ist mit einer präziseren Schätzung von θ. Die zweite Ableitung der Log-Likelihood Funktion kann somit als Basis für die Bestimmung der Varianz des Schätzers dienen. Der negative Wert der zweiten Ableitung der Log-Likelihood Funktion, − ln L(θ|D) , wird als beobachtete Fisher Information bezeichnet und der negative Erwartungswert der zweiten Ableitung der Log-Likelihood Funktion heißt erwartete Fisher Information: −E[ln L(θ|D) ]. Die Varianz eines Maximum-Likelihood Schätzers θˆ entspricht dann dem Kehrwert der erwarteten Fisher Information. Es ist also einfach zu sehen, dass je größer die zweite Ableitung der Log-Likelihood Funktion ist, desto kleiner wird die Varianz des Schätzers sein.
212
Thomas Gautschi
ˆ = Var(θ)
1 . −E[ln L(θ|D) ]
(6)
Der Standardfehler des Schätzers bestimmt sich aus der Quadratwurzel der Varianz. Eine letzte Bemerkung ist an dieser Stelle noch angebracht. Weil Log-Likelihood Funktionen nicht immer quadratisch sind, sind diese einerseits nicht immer einfach analytisch zu bestimmen.4 Zudem ergibt sich andererseits die Problematik lokaler Maxima und somit die Möglichkeit, dass die Maximierung der Parameter des Modells nicht optimal ist. In solchen Fällen wird auf die Bestimmung der Parameter über numerische Optimierungsverfahren ausgewichen, wobei auch da nicht zwingend garantiert ist, dass der Algorithmus nicht in einem lokalen Maximum „stecken“ bleibt (vgl. Abschnitt 5). Betrachten wir nun ein Beispiel zur Veranschaulichung der Bestimmung des Maximum-Likelihood Schätzers und seiner Varianz. Beispiel: Die Binomialverteilung Greifen wir zur Verdeutlichung des eben Besprochenen unser einführendes Beispiel der Binomialverteilung wieder auf. Wenn der datengenerierende Prozess einer Binomialverteilung folgt, dann resultiert zur Bestimmung des Parameters π die Binomial Likelihood Funktion n y π (1 − π)n−y L(π|D) = y respektive ihre korrespondierende Log-Likelihood Funktion n + y ln π + (n − y) ln(1 − π) . ln L(π|D) = ln y Dieses Beispiel zeigt, neben der Darstellung der Schätzung des Parameters π ˆ , eine weitere Eigenheit des Maximum-Likelihood Ansatzes. Die Binomial Log-Likelihood Funktion besteht aus drei Termen, wobei aber lediglich der zweite und dritte Term den interessierenden Parameter enthalten. Der erste Term ist invariant oder konstant bezogen auf π und enthält somit auch keine Informationen über den Parameter. Dies bedeutet für den Maximierungsprozess, dass dieser Term der Log-Likelihood Funktion auch keine Informationen zur Bestimmung des Parameters beisteuern kann. Wir können somit die Log-Likelihood Funktion auch ohne diesen Term schreiben, ohne dass dabei die Schätzung des Parameters, das heißt, die Bestimmung von π ˆ tangiert wird. Wir können daher, ohne Verlust von Informationen über den interessierenden Parameter, die Log-Likelihood Funktion schreiben als ln L(π|D) = y ln π + (n − y) ln(1 − π) . Dies nennen wir den Kern der Log-Likelihood Funktion. Der Kern einer Funktion ist der Teil, welcher Informationen über den zu schätzenden Parameter enthält oder, anders gesagt, der Teil der Funktion, welcher keine konstanten Terme mehr enthält. 4
Idealerweise sind Log-Likelihood Funktionen quadratische Funktionen. Erstens haben diese ein eindeutiges Maximum, welches relativ einfach bestimmt werden kann. Zweitens ist es garantiert, dass die Schätzer auf Basis von quadratischen Log-Likelihood Funktionen asymptotisch normalverteilt sind (z. B. Le Cam 1986, Kap. 11).
10 Maximum-Likelihood Schätztheorie
(a)
213
(b)
Abb. 1: Binomial Log-Likelihood Funktion und Gradient für y=44 und n=100 Die Bedingung erster Ordnung, das heißt, Maximieren des Kerns der Log-Likelihood Funktion nach π und anschließendes Null setzen, ergibt y n−y ∂ ln L(π|D) = − = 0 ∂π π 1−π und somit bestimmt sich der Maximum-Likelihood Schätzer durch Umstellen und Auflösen nach π: y n−y − =0 ⇔ π 1−π n−y y = ⇔ π 1−π y − yπ = nπ − yπ ⇔ y π ˆ= . n Der Maximum-Likelihood Schätzer für das Binomial-Problem entspricht somit dem Anteil der Beobachtungen mit einem Ereignis an der Gesamtheit der Beobachtungen. Ob es sich dabei um ein Maximum oder ein Minimum handelt, bestimmt sich über die zweite Ableitung n−y y ∂ 2 ln L(π|D) < 0, = − 2− ∂π∂π π (1 − π)2 welche in diesem Fall negativ ist und somit ein Maximum bei π ˆ = y/n signalisiert. Die linke Graphik in Abbildung 1 zeigt beispielhaft die Log-Likelihood Funktion und die rechte Graphik den zugehörigen Gradienten (inkl. dem Maximum der Log-Likelihood Funktion) für y = 44 und n = 100. Betrachten wir im Folgenden noch die Bestimmung der Varianz des Schätzers, indem wir zuerst den Erwartungswert der zweiten Ableitung bestimmen. Dabei wissen wir, dass E[y] = nπ gilt:
214
Thomas Gautschi
y n−y E[ln L(π|D) ] = E − 2 − π (1 − π)2 E[y] n − E[y] =− 2 − π (1 − π)2 nπ n − nπ =− 2 − π (1 − π)2 n n =− − π 1−π n . =− π(1 − π) Die Varianz des Schätzers entspricht dem Kehrwert der erwarteten Fisher Information, welche ihrerseits −1 mal dem oben berechneten Erwartungswert der zweiten Ableitung nach π entspricht. Somit ist die Varianz des Schätzers π ˆ Var(ˆ π) =
π(1 − π) n
und der Standardfehler
π(1 − π) . n Die Varianz und der korrespondierende Standardfehler enthalten auf der rechten Seite aber immer noch den zu bestimmenden Parameter. Wir behelfen uns, indem wir für π dessen Schätzwert π ˆ einsetzen und somit mit der geschätzten Varianz und dem geschätzten Standardfehler rechnen. Fast ausnahmslos alle Maximum-Likelihood Varianzen sind geschätzte Varianzen, da es kaum eine erwartete Fisher Information gibt, welche lediglich aus bekannten Werten der Daten (suffiziente Statistiken) besteht. se(ˆ π) =
2.2 Das ML-Verfahren zur Bestimmung mehrerer Parameter Natürlich beschränken sich reale Beispiele, bei denen die Bestimmung der Parameter mittels Maximum-Likelihood geschieht (z. B. Logit, Probit, Poissonregression etc.) nicht auf die Bestimmung eines einzigen Parameters. Die Logik des Maximum-Likelihood Ansatzes kann aber ohne größere Probleme auf die Bestimmung von mehreren Parametern erweitert werden. Dies bedingt jedoch, dass wir uns in diesem Abschnitt mit Vektoren und Matrizen beschäftigen. Betrachten wir wie schon in Abschnitt 2.1 eine Wahrscheinlichkeitsdichte respektive Wahrscheinlichkeitsfunktion f (y|θ), wobei θ nun ein Vektor mit p unbekannten Parametern ist. In Anlehnung an die in Gleichung (2) definierte Likelihood Funktion, ist die Likelihood Funktion für den p-Parameter-Fall Pr(D) = f (y1 ,y2 , . . . , yn |θ) n $ (θ|yi ) = i=1
= L(θ|y)
(7)
10 Maximum-Likelihood Schätztheorie
215
und ihre entsprechende Log-Likelihood Funktion ist ln L(θ|D) =
n
ln (θ|yi ) .
(8)
i=1
ˆ zu finden, wird die Log-Likelihood Funktion Um den Maximum-Likelihood Schätzer θ maximiert: ˆ ln L(θ|D) = sup ln L(θ|D) , (9) θ∈Θ
wobei Θ nun ein p-dimensionaler Parameterraum ist. Die Schätzer der einzelnen p-Parameter (d. h. θˆ1 ,θˆ2 ,. . . ,θˆp ) bestimmen sich auch in diesem Fall über die Bedingung erster Ordnung für jeden einzelnen Parameter. Konkret wird die Log-Likelihood Funktion (8) nach jedem der Parameter abgeleitet, Null gesetzt und schließlich nach θj aufgelöst: ∂ ln L(θ|D) =0 ∂θ1 ∂ ln L(θ|D) =0 ∂θ2 .. . ∂ ln L(θ|D) = 0. ∂θp Diese partiellen ersten Ableitungen werden normalerweise im so genannten Gradientenoder Scorevektor, also dem p × 1-Vektor der ersten Ableitungen zusammengefasst und mit ∇ bezeichnet: ∇=
∂ ln L(θ|D) ∂θ ⎡ ∂ ln L(θ|D) ⎤ ∂θ1
⎢ ∂ ln L(θ|D) ⎥ ⎢ ⎥ ∂θ2 ⎥. =⎢ .. ⎢ ⎥ ⎣ ⎦ . ∂ ln L(θ|D) ∂θp
Damit lässt sich die Bedingung erster Ordnung kompakter schreiben: ∇ = 0. Die Bedingung zweiter Ordnung für ein Maximum ist im p-Parameterfall, dass die Hesse Matrix H negativ definit ist.5 Die Hesse Matrix ist die p × p-Matrix der zweiten partiellen Ableitungen der Log-Likelihood Funktion nach den interessierenden Parametern. Infolge der erforderlichen Kreuzableitungen, das heißt, der Ableitung zuerst nach θi und dann nach θj , für i = j, resultiert kein Vektor, sondern die Hesse Matrix H 5
Eine Matrix A ist negativ definit, wenn für einen nicht-Null Vektor x mit entsprechender Dimension x Ax < 0 gilt. In dem Fall sind auch alle Eigenwerte von A negativ. Für eine gute Einführung in die lineare Algebra sei auf Hadley (1961) verwiesen.
216
Thomas Gautschi
H=
∂ 2 ln L(θ|D) ∂θ∂θ’ ⎡ ∂ 2 ln L(θ|D)
⎢ ⎢ ⎢ =⎢ ⎢ ⎣
∂ 2 ln L(θ|D) ∂θ1 ∂θ1 ∂θ1 ∂θ2 ∂ 2 ln L(θ|D) ∂ 2 ln L(θ|D) ∂θ2 ∂θ1 ∂θ2 ∂θ2
.. .
... ... .. .
.. .
∂ 2 ln L(θ|D) ∂ 2 ln L(θ|D) ∂θp ∂θ1 ∂θp ∂θ2
...
∂ 2 ln L(θ|D) ∂θ1 ∂θp ∂ 2 ln L(θ|D) ∂θ2 ∂θp
.. .
∂ 2 ln L(θ|D) ∂θp ∂θp
⎤ ⎥ ⎥ ⎥ ⎥. ⎥ ⎦
Analog zum univariaten Fall entspricht auch im multivariaten Fall die Krümmung der Log-Likelihood Funktion der negativen Hesse Matrix −H, welche identisch mit der beobachteten Fisher Informationsmatrix ist: Io = −H. Wir möchten also auch im multivariaten Fall eine maximale Krümmung der Log-Likelihood Funktion (im pParameterfall natürlich eine Fläche im (p+1)-dimensionalen Raum und keine „einfache“ Kurve mehr), so dass die Varianz der Schätzer möglichst klein ist. Die p × p-Varianz-Kovarianz Matrix der Schätzer ist definiert als der Kehrwert der erwarteten Fisher Informationsmatrix Ie = −E[H], so dass gilt ˆ = I−1 , V[θ] e
(10)
wobei die Hauptdiagonalelemente die Varianzen der Schätzer und die Nebendiagonalelemente die Kovarianzen zwischen den Schätzern darstellen. Entsprechend ergeben sich die Standardfehler der Schätzer als die Wurzel aus den Hauptdiagonalelementen. Beispiel: Die Normalverteilung Die Schätzung von mehr als einem Parameter mittels des Maximum-Likelihood Ansatzes soll exemplarisch an der Normalverteilung veranschaulicht werden. Die Wahrscheinlichkeitsdichte der Normalverteilung ist f (y|μ,σ 2 ) = √
1 2πσ 2
e−
(y−μ)2 2σ 2
mit den zwei zu bestimmenden Parametern μ, dem Populationsmittelwert, und σ 2 , der Populationsvarianz. Das Ziel ist somit die Herleitung von Schätzern für diese beiden Parameter. Um die Notation dieses Abschnittes aufzugreifen, definieren wir den Zeilenvektor θ = (μ σ 2 ) und betrachten eine Stichprobe von n unabhängigen Beobachtungen aus einer Normalverteilung. Damit ist die Likelihood Funktion L(θ|D) = f (y1 ,y2 , . . . ,yn |D; θ) n $ f (yi |D; θ) = i=1
=
√
1 2πσ2
n $ n
e
−(yi −μ)2 2σ 2
i=1
und die korrespondierende Log-Likelihood Funktion, unter Verwendung der Umformung = (2πσ 2 )−1/2 :
√ 1/ 2πσ 2
10 Maximum-Likelihood Schätztheorie
ln L(θ|D) = −
217
n n n 1 ln(2π) − ln(σ 2 ) − 2 (yi − μ)2 . 2 2 2σ i=1
Die Bestimmung des ML-Schätzers für μ erfordert die partielle Ableitung des Kerns der Log-Likelihood Funktion nach diesem Parameter und anschließendes Nullsetzen n ∂ ln L(θ|D) 1 = 2 (yi − μ) = 0 ⇔ ∂μ σ i=1 n
(yi − μ) = 0 ⇔
i=1 n
yi − nμ = 0 ⇔
i=1
n i=1
n
yi
=μ ⇔
μ ˆ = y¯ . Wir erhalten also das uns bekannte Ergebnis, dass der Stichprobenmittelwert der ML-Schätzer für den Mittelwert der Normalverteilung ist. Um den ML-Schätzer für die Varianz der Normalverteilung zu finden, gehen wir analog vor und bestimmen die partielle erste Ableitung des Kerns der Log-Likelihood Funktion nach σ 2 , setzen diese gleich Null und lösen für σ 2 : n n 1 ∂ ln L(θ|D) = − + (yi − μ)2 = 0 ⇔ ∂σ2 2σ 2 2σ 4 i=1 n 1 1 2 (yi − μ) −n + 2 =0 ⇔ 2σ 2 σ i=1 n 1 (yi − μ)2 = n ⇔ σ 2 i=1 n (yi − μ)2 2 . σ ˆ = i=1 n
Der ML-Schätzer für die Varianz entspricht in diesem Fall nicht der aufgrund der Stichprobe geschätzten Populationsvarianz, da diese durch (n − 1) dividiert wird.6 Der Gradientenvektor im Falle der Normalverteilung ist somit 6
Relevant ist dieser Umstand zum Beispiel dann, wenn wir die Parameter eines OLSModells mittels Maximum-Likelihood herleiten wollen. Die ML-Regressionsparameter sind identisch mit den OLS-Parametern, die Varianz der ML-Regressionsparameter weisen jedoch aufgrund der fehlenden Korrektur für die k Freiheitsgrade der Steigungsparameter eine größere Varianz auf als die OLS-Koeffizienten. Die ML-Varianz ist also in kleinen Stichproben verzerrt jedoch konsistent (vgl. dazu auch Abschnitt 3).
218
Thomas Gautschi
,
+ ∇= =
∂ ln L(θ|D) ∂μ ∂ ln L(θ|D) ∂σ2 n 1 i=1 (yi − μ) σ2 n 1 − 2σ 2 + 2σ 4 ni=1 (yi −
μ)2
.
Die Bestimmung der Varianz der Parameter erfordert in einem ersten Schritt die Berechnung der Hesse Matrix. Dies kann im p-Parameter-Fall einen erheblichen Rechenaufwand bedeuten, da die zweiten partiellen Ableitungen zu bestimmen sind und diese infolge der Kreuzableitungen mit jedem zusätzlichen Parameter exponentiell mehr werden. In unserem Beispiel mit zwei Parametern ist die Darstellung jedoch noch einfach möglich, da lediglich vier zweite Ableitungen zu bestimmen sind (die Herleitung sei dem Leser überlassen). Aufgrund der Symmetrie der Kreuzableitungen (Theorem von Young) ist die Hesse Matrix immer quadratisch und symmetrisch, womit die Bestimmung von in diesem Fall drei partiellen Ableitungen ausreichend wäre: ∂ 2 ln L(θ|D) ∂μ∂μ ∂ 2 ln L(θ|D) ∂μ∂σ 2 2 ∂ ln L(θ|D) ∂σ 2 ∂μ 2 ∂ ln L(θ|D) ∂σ 2 ∂σ 2
=− =−
n σ2 n
i=1 (yi σ4
− μ)
i=1 (yi σ4
− μ)
n =−
n = − 2σ 4
n
i=1 (yi σ6
− μ)2
.
Die Hesse Matrix im Falle der Normalverteilung resultiert somit als + ∂ 2 ln L(θ|D) ∂ 2 ln L(θ|D) , H= ⎡ =
=
∂μ∂μ ∂μ∂σ2 ∂ 2 ln L(θ|D) ∂ 2 ln L(θ|D) ∂σ2 ∂μ ∂σ 2 ∂σ 2
n
−n − ⎣ n σ2 (yi −μ) n − i=1σ4 2σ 4 − n − σ2 0 , 0 − 2σn4
(yi −μ) nσ4 (yi −μ)2 i=1 σ6 i=1
⎤ ⎦
wobei der letzte Schritt dass unabhängig der Werte n aufgrund der Tatsache n resultiert, 2 2 für yi natürlich (y − μ) = 0 und (y − μ) = nσ gilt. Für eine Matrix, i i i i deren Neben- oder Hauptdiagonalelemente Null sind, entsprechen die Eigenwerte gerade den Diagonalelementen. Damit ist klar, dass die Hesse Matrix aufgrund der negativen Diagonalelemente negativ definit ist. Somit ist bewiesen, dass die Elemente des Gradientenvektors ein Maximum der Likelihood Funktion bestimmen. Die Varianz-Kovarianz Matrix errechnet sich, wie dargestellt, aus dem Kehrwert der erwarteten Fisher Informationsmatrix. Dazu müssen wir jedoch erst den Erwartungswert der Hesse Matrix bestimmen. Da die Hesse Matrix jedoch keine variablen
10 Maximum-Likelihood Schätztheorie
219
Werte (sprich yi ) mehr enthält, gilt, dass E[−n/σ2 ] = −n/σ2 und E[−n/2σ4 ] = −n/2σ4 . Damit ist die erwartete Fisher Informationsmatrix im Falle der Normalverteilung bis auf das Vorzeichen der Hauptdiagonalelemente identisch mit der Hesse Matrix: n − σ2 0 −E[H] = − 0 − 2σn4 n 0 2 = σ n 0 2σ4 ˆ bestimmt als und damit ist die Varianz-Kovarianz Matrix der Schätzer θ −1 n ˆ = I−1 = σ2 0 V[θ] e 0 n4 + 2 2σ , σ 0 = n 2σ4 . 0 n Für die Anwendung ersetzen wir die unbekannten Parameter μ und σ 2 durch ihre √ jeweiligen Schätzwerte μ ˆ und σ ˆ 2 . Der Standardfehler des Mittelwertes√ist somit σˆ/ n 2 √ und der Standardfehler der Varianz der Normalverteilung ist dann 2ˆσ / n. Beide Ausdrücke sind dem Leser bestimmt geläufig und in Verbindung mit dem Hinweis auf das Wurzel-n-Gesetz sicherlich bekannt. Im multiplen Fall sind jedoch nicht immer alle Parameter der Likelihood Funktion von Interesse. Allerdings müssen auch bei der Schätzung der interessierenden Parameter diese so genannten „nuisance“ Parameter, η, berücksichtigt werden. Um zu dem obigen Beispiel mit der Normalverteilung zurück zu kehren: Vielfach interessiert man sich lediglich für den Schätzwert des Mittelwertes und behandelt die Varianz als „nuisance“ Parameter. Zur Schätzung von interessierenden Parametern unter Berücksichtigung von „nuisance“ Parametern hat die Statistik verschiedene Variationen der Likelihood Funktion entwickelt, auf die jedoch in diesem Beitrag nicht eingegangen werden kann. Der Leser sei diesbezüglich auf die Literatur (z. B. Berger et al. 1999; Pawitan 2001, Kap. 10) und die Stichworte „profile likelihood“ (Ersetzen des „nuisance“ Parameters mit seinem ML-Schätzwert), „estimated likelihood“ (Ersetzen des „nuisance“ Parameters mit einem Schätzwert anders als der ML-Schätzer), „marginal“ und „conditional likelihood“ (Aufteilen der Likelihood Funktion in zwei Teile, d. h. L(θ,η|D) = L1 (θ|D)L2 (θ,η|D), wobei nur der erste Teil vom interessierenden Parameter abhängt und optimiert wird), sowie „integrated likelihood“ (anstelle der Maximierung über den „nuisance“ Parameter wird dieser aus der Likelihood Funktion herausintegriert) verwiesen.
3 Statistische Eigenschaften der ML-Schätzer Maximum-Likelihood Schätzer haben einige sehr nützliche, und vor allem bekannte statistische Eigenschaften, die sie wie kaum ein anderer Schätzer für die angewandte
220
Thomas Gautschi
Statistik sehr fruchtbar machen. Dies im Gegensatz, zum Beispiel, zu Kleinst-Quadrate Schätzern, deren Eigenschaften von Fall zu Fall bewiesen werden müssen. Zu diesen Eigenschaften von Maximum-Likelihood Schätzern gehören (i) Effizienz, (ii) Konsistenz, (iii) Suffizienz, (iv) asymptotische Normalverteilung und (v) Invarianz gegenüber Reparametrisierungen. Die Eigenschaften (i) bis (v) sind Maximum-Likelihood Schätzern inhärent und gelten deshalb für alle mittels Maximum-Likelihood geschätzten Modelle. Im Folgenden werden die Eigenschaften (i) bis (v) diskutiert. Dazu müssen aber zuerst einige so genannte Regularitätsbedingungen besprochen werden, die für eine Diskussion der Eigenschaften von ML-Schätzern notwendig sind. Die Regularitätsbedingungen sind eher technische Nebenbedingungen, welche jedoch erfüllt sein müssen, um die statistischen Eigenschaften von ML-Schätzern beweisen zu können. In der Literatur werden verschiedene Versionen dieser Regularitätsbedingungen formuliert, wobei sie sich bezüglich ihrer Restriktivität unterscheiden (z. B. Greene 2008; Wooldridge 2002; Wilks 1962). Die Restriktivität der Regularitätsbedingungen kann dabei durchaus vom jeweiligen Modell abhängig sein. Im Folgenden werden kurz vier Regularitätsbedingungen besprochen, welche hinreichend sind, um die Eigenschaften (i) bis (v) zu beweisen. 1. Die Anzahl der Parameter θ1 ,θ2 , . . . ,θp des Modells bleiben begrenzt auch wenn n gegen positiv unendlich strebt. 2. Die Wahrscheinlichkeitsdichte respektive die Wahrscheinlichkeitsfunktion f (y|θ) und damit auch die Likelihood Funktion L(θ|y) sind dreimal stetig nach θ differenzierbar. Dies gilt für alle θ im Innern des Parameterraums Θ : θ ∈ int(Θ). 3. Der Erwartungswert der ersten und zweiten Ableitung der Likelihood Funktion nach θ kann berechnet werden. 4. Die erwartete Fisher Informationsmatrix Ie [θ] ist positiv definit und endlich. Bei Gültigkeit dieser Regularitätsbedingungen sind die Eigenschaften von MaximumLikelihood Schätzern erfüllt und können auch bewiesen werden. Im Folgenden werden diese Eigenschaften kurz skizziert. Effizienz Maximum-Likelihood Schätzer sind effizient, dies folgt aus der Cramér-Rao Untergrenze für die Varianz (z. B. Amemiya 1985, S. 14 ff.). Die Effizienz macht eine Aussage über die relative Präzision des Schätzers. Jeder (unverzerrte) Schätzer mit der kleinsten Varianz wird effizient genannt. Es sei T (y) eine Statistik mit Erwartungswert E[T (y)] = θ, die Statistik ist also ein unverzerrter Schätzer des Populationsparameters. Die Cramér-Rao Untergrenze ist in diesem Fall gegeben durch Var(T (y)) ≥
1 . Ie
Die Varianz eines Maximum-Likelihood Schätzers entspricht dem Kehrwert der erwarteten Fisher Information, respektive im multivariaten Fall der Inversen der Fisher Informationsmatrix, womit aus obiger Ungleichung sofort folgt, dass die MaximumLikelihood Schätzer effizient sind. Die Cramér-Rao Untergrenze gilt jedoch nur, wenn
10 Maximum-Likelihood Schätztheorie
221
die Statistik ein unverzerrter Schätzer des interessierenden Populationsparameters ist. Da die Maximum-Likelihood Schätzer lediglich asymptotisch unverzerrt sind (d. h. für n → ∞), sind sie somit aber auch nur asymptotisch effizient. Konsistenz Maximum-Likelihood Schätzer sind konsistent, das heißt, dass der Schätzer θˆ bei zunehmend größerem Stichprobenumfang in Wahrscheinlichkeit zum Populationsparaˆ = θ. Die meter θ konvergiert: (E[θ] − θ) → 0 für n → ∞. Es gilt also, dass plim(θ) asymptotische Verteilung von θˆ konzentriert sich bei unendlicher Stichprobengröße an einem bestimmten Punkt θ. In diesem Fall nennt man θ das Wahrscheinlichkeitslimit ˆ (probability limit) von θ. Ein im Kontext von Maximum-Likelihood Schätzern relevanter Spezialfall ist die so genannte Konvergenz in quadratischem Mittel: limn→∞ E[|xn − x|2 ] = 0. Diese Bedingung ist eine hinreichende, wenn auch nicht notwendige Bedingung für Konsistenz. Betrachten wir den ML-Schätzer der Varianz der Normalverteilung (siehe Seite 217), 2 dessen Erwartungswert E[ˆ σ 2 ] = σ 2 − σ /n ist. Der Schätzer der Varianz ist also verzerrt, 2 da der ML-Schätzer die wahre Varianz um den Faktor σ /n unterschätzt. Der Fehler im quadratischen Mittel ist somit, nach einigen Rechenschritten, ((1+2n)/n2 )σ 4 , was für n → ∞ gegen Null tendiert. Der ML-Schätzer der Varianz der Normalverteilung ist daher im quadratischen Mittel konsistent und somit auch generell konsistent. Suffizienz Maximum-Likelihood Schätzer sind minimal suffizient, das heißt, sie sind eine Funktion einer anderen suffizienten Statistik. Eine Statistik T heißt suffizient, wenn ihre bedingte Verteilung f (y1 ,y2 , . . . , yn |T ) nicht vom interessierenden Parameter θ abhängt. Betrachten wir die Schätzer des Mittelwertes und der Varianz derNormalverteilung. n n 2 In diesem Fall ist i yi suffizient für μfalls σ bekannt ist und i yi2 ist suffizient n n 2 2 für σ falls μ bekannt ist. Somit sind i yi , i yi gemeinsam suffizient für μ und σ 2 , da lediglich diese beiden Summen notwendig sind, um μ und σ 2 herzuleiten, und die suffizienten Statistiken nicht von den Parametern der Normalverteilung abhängig sind. Asymptotische Normalverteilung Maximum-Likelihood Schätzer sind asymptotisch normalverteilt. Dieses Resultat birgt wichtige Implikationen für die Inferenzstatistik, wie im folgenden Abschnitt dargestellt werden wird. Werden die Ergebnisse für Konsistenz und Varianz der MaximumLikelihood Schätzer mit dem zentralen Grenzwertsatz von Lindeberg-Feller kombiniert, resultiert die Verteilung von θ mit n → ∞ als θˆ ∼ N (θ,Ie [θ]−1 ). Maximum-Likelihood Schätzer sind also normalverteilt mit Mittelwert θ und der Varianz(-Kovarianz Matrix) entsprechend der Inversen der erwarteten Fisher Information(smatrix). Normalität ist jedoch ein asymptotisches Resultat, so dass nicht per se angenommen werden kann, dass der Maximum-Likelihood Schätzer auch in kleinen Stichproben normalverteilt sein wird (Le Cam 1986).
222
Thomas Gautschi
Invarianz Maximum-Likelihood Schätzer sind invariant gegenüber Eins-zu-Eins Transformationen. Das heißt, wenn θˆ ein Maximum-Likelihood Schätzer für θ ist und g(θ) eine ˆ ein Maximum-Likelihood Schätzer von g(θ). Funktion von θ ist, dann ist auch g(θ) Es gibt in diesem Fall keine Restriktionen für die Funktion g(θ). Oft sind Transformationen der Likelihood Funktion hilfreich, da sie zu einer Likelihood Funktion mit besseren Eigenschaften führen. So führt zum Beispiel die logistische Transformation ˆ = ln[θˆ/(1−θ) ˆ ] zu einer Likelihood Funktion, welche eine quadratische Funktion apg(θ) proximiert. Wie in Fußnote 4 angesprochen, weisen quadratische Likelihood Funktionen besonders willkommene Eigenschaften auf. Werden die Maximum-Likelihood Schätzer transformiert, so muss auch der Standardfehler des Schätzers angepasst werden. Es - ˆ = se(θ) ˆ -- ∂g --. gilt in diesem Fall, dass se[g(θ)] ∂θ
4 Inferenzstatistik und Modellanpassung Hypothesentests können in Maximum-Likelihood Modellen auf verschiedene Arten durchgeführt werden. Während Hypothesentests für individuelle Parameter aufgrund deren asymptotischer Normalverteilung sehr einfach sind, können verbundene Hypothesen (Test auf Signifikanz mehrerer Parameter) mit dem Likelihood Ratio Test (LR-Test), dem Wald-Test (W-Test) oder dem Lagrange Multiplikatortest (LM-Test) getestet werden (z. B. Engle 1984; Greene 2008). Diese Tests sind asymptotisch äquivalent, produzieren also für n → ∞ die gleichen Resultate. In kleinen Stichproben sind aber unterschiedliche Resultate zu erwarten, da die Tests auf unterschiedlichen Logiken beruhen. Der LR-Test erfordert die Schätzung des restringierten und des unrestringierten Modells7 . Der W-Test erfordert lediglich die Schätzung des unrestringierten Modells, während der LM-Test auf nur dem restringierten Modell beruht. Obwohl der LM-Test damit auf den ersten Blick am einfachsten erscheint, ist dessen Verwendung in den Sozialwissenschaften doch relativ selten. Es besteht eine verbreitete Tendenz hin zum LR-Test, da ein Test auf Basis einer expliziten Schätzung sowohl des restringierten als auch des unrestringierten Modells als vorteilhaft angesehen wird. Unglücklicherweise sind alle drei Tests für kleine Stichproben verzerrt und es ist unklar, welchem Test in diesem Fall am ehesten vertraut werden sollte. Abbildung 2 stellt die grundlegende Logik der drei Tests graphisch dar, wobei die Skalen der einzelnen Kurven (also die Log-Likelihood Funktion, der Gradient sowie die Kurve der linearen Restriktionen) nicht wahrheitsgetreu wiedergegeben sind und θˆR den ML-Schätzer des restringierten und θˆ den ML-Schätzer des unrestringierten Modells bezeichnet.
7
Das restringierte Modell umfasst eine (leere) Teilmenge der Parameter des unrestringierten Modells, wobei die Parameter in beiden Modellen in der gleichen funktionalen Form vorliegen müssen. Das restringierte Modell ist somit im unrestringierten Modell verschachtelt.
10 Maximum-Likelihood Schätztheorie
223
Abb. 2: Graphische Darstellung der Hypothesentests (in Anlehnung an Greene 2008, S. 499) 4.1 Test auf Signifikanz individueller Parameter In erster Linie sind im Rahmen von Maximum-Likelihood Modellen Tests auf individuelle Parameter von Bedeutung. Generell wird also die Nullhypothese H0 : θ = θ0 gegen die Alternativhypothese H1 : θ =
θ0 getestet, wobei θ0 einen unter der Nullhypothese gültigen Wert des Parameters bezeichnet. Einseitige Hypothesentests sind analog zu formulieren. In der Regel (z. B. alle Regressionsmodelle) wird getestet, ob sich ein individueller Parameter (z. B. Regressionskoeffizient) überhaupt statistisch signifikant von Null unterscheidet, also θ0 = 0 und somit: H0 : θ = 0. Der von allen Statistikprogrammen berichtete z-Wert ist ein Spezialfall des Wald Tests (zur Logik und Herleitung des Wald Tests siehe den folgenden Unterabschnitt). Wenden wir die Logik des Wald Tests auf einen Skalar und nicht auf einen Parametervektor an, so erhalten wir ˆ −1 (θˆ − θ0 ) W = (θˆ − θ0 )Var[θ] (θˆ − θ0 )2 = ˆ Var[θ] 2 θˆ − θ0 . = ˆ se[θ] In der rechten Seite der Gleichung erkennen wir das Quadrat einer z-Transformation des ML-Schätzers unter der H0 . Da der Wald Test asymptotisch χ2 -verteilt ist, folgt,
224
Thomas Gautschi
dass der normalerweise berichtete z-Test für die Nullhypothese, das heißt, z=
θˆ − θ0 ∼ N (0,1) ˆ se(θ)
(11)
standardnormalverteilt ist (das Quadrat einer Standardnormalverteilung folgt einer χ2 -Verteilung mit einem Freiheitsgrad). Die Nullhypothese wird daher abgelehnt, falls Φ(z) ≥ Pr(Z ≤ z) oder konkret, falls – im Falle eines zweiseitigen Hypothesentests – Φ(z) ≥ (1 − α/2), wobei α das Signifikanzniveau des Tests bezeichnet. 4.2 Test auf Signifikanz mehrerer Parameter Der Test auf mehrere Parameter ist immer ein gemeinsamer Hypothesentest, welcher im einfachsten Fall testet, ob eine (Teil-)Menge der Parameter θ = (θ1 ,θ2 , . . . ,θp ) Null ist, zum Beispiel: H0 : θ1 = θ2 = 0. Der generelle Ansatz ist dagegen ein Test auf lineare oder nichtlineare Restriktionen, zum Beispiel H0 : θ3 = θ5 respektive deren Reformulierung zur äquivalenten Nullhypothese H0 : θ3 − θ5 = 0. Im Folgenden werden die verschiedenen Tests, Likelihood Ratio Test, Wald-Test und Lagrange Multiplikatortest besprochen. Likelihood Ratio Test Der LR-Test basiert auf der Evaluation des restringierten und des unrestringierten Modells und der Tatsache, dass der Wert der Likelihood Funktion des restringierten Modells (r) nie größer sein kann als der Wert der Likelihood Funktion des unrestringierten Modells (u): Lu ≥ Lr . Anders gesagt, die Anpassung des unrestringierten Modells an die Daten ist in keinem Fall schlechter als die Anpassung des restringierten Modells. Das Verhältnis der Likelihood Werte (likelihood ratio) ist dann definiert als λ=
Lr , Lu
wobei 0 < λ ≤ 1 gilt. Falls also die unter der Nullhypothese getroffenen Restriktionen zutreffen und die ML-Schätzer den unter der Nullhypothese definierten Werten entsprechen, ist Lu ≈ Lr und somit λ ≈ 1. Falls die unter der Nullhypothese getroffenen Restriktionen empirisch jedoch nicht haltbar sind, wird Lu > Lr und λ < 1. Je kleiner die Werte von λ, desto stärker die Evidenz gegen die Nullhypothese. Um die Möglichkeit für einen Hypothesentest zu haben, muss aber die Stichprobenkennwerteverteilung von λ bekannt sein. Es ist bekannt, dass minus zwei Mal der natürliche Logarithmus von λ einer χ2 -Verteilung mit q Freiheitsgraden folgt, wobei q die Anzahl Restriktionen unter der Nullhypothese bezeichnet (d. h. die Anzahl Parameter des unrestringierten Modells minus die Anzahl Parameter des restringierten Modells). Somit gilt:
10 Maximum-Likelihood Schätztheorie
LR = −2 ln λ Lr = −2 ln Lu = −2[ln(Lr ) − ln(Lu )] ∼ χ2 (q) .
225
(12)
Die Nullhypothese wird auf dem Signifikanzniveau α abgelehnt, falls die Testgröße LR > χ21−α (q). Wald-Test Der Wald-Test basiert auf der Idee, dass wenn eine hypothetische Restriktion auf die Parameter korrekt ist, die geschätzten Werte dieser Parameter approximativ diesen Restriktionen entsprechen sollten. Im Unterschied zum Likelihood Ratio Test müssen für den Wald-Test demnach nicht das restringierte und das unrestringierte Modell, sondern lediglich letzteres geschätzt werden. Der Wald-Test berücksichtigt jedoch nicht lediglich die Distanz der geschätzten Parameter zu ihren unter der Nullhypothese spezifizierten Restriktionen, sondern auch die Varianz dieser Differenz. Es sei θ der p×1 Parametervektor, r der q ×1 Vektor der spezifizierten Restriktionen und R die q × p Designmatrix, welche die Parameter mit den unter der Nullhypothese spezifizierten Restriktionen verbindet. Die linearen Restriktionen werden dann durch das lineare Gleichungssystem Rθ = r beschrieben, wobei dies eine generelle Schreibweise für beliebige lineare Restriktionen ist, die unabhängig von der Art des konkreten Tests ist. Betrachten wir zur Illustration zwei kleine Beispiele bezüglich des Parametervektors θ = (θ1 θ2 θ3 θ4 ). Im ersten Fall sei H0 : θ1 = θ3 = 0. Damit sind sowohl r als auch R bestimmt als 0 1000 r = und R = . 0 0010 Falls die Nullhypothese H0 : θ2 + θ3 − θ4 = c die Behauptung aufstellt, dass die Kombination der drei Parameter eine Konstante ergeben sollte (z. B. c = 5), erhalten wir aufgrund der Tatsache, dass r nun eigentlich ein Skalar ist, die Vektoren . / . / r = 5 und R = 0 1 1 −1 . Sind die unter der Nullhypothese aufgestellten Restriktionen empirisch haltbar, sollˆ sein. Es kann daher erwartet werden, dass unter Gültigkeit ten diese nahe bei θ ˆ − r ≈ 0 ist. Falls die Nullhypothese nicht haltbar ist, sollte der Nullhypothese Rθ ˆ Rθ − r daher weiter vom Nullvektor entfernt sein. Um eine belastbare Teststatistik herzuleiten, wird ebenfalls die Stichprobenvarianz dieser Differenz mit einbezogen. Die ˆ − r] = RV[θ]R ˆ . Stichprobenvarianz beträgt V[Rθ Der Wald-Test basiert auf der so genannten quadratischen Form, da deren Grenzwertverteilung bekannt ist. Wenn ein Parametervektor θ der Dimension q ×1 normalverteilt
226
Thomas Gautschi
ist mit θ ∼ (μ,Σ), dann folgt dessen quadratische Form [θ − μ] Σ−1 [θ − μ] einer χ2 Verteilung, wobei q wiederum die Anzahl Freiheitsgrade bezeichnet. Die Teststatistik des Wald-Test ist unter Anwendung dieser Tatsache 1−1 0 1 0 1 0 ˆ ˆ−r ˆ − r RV[θ]R Rθ (13) W = Rθ ∼ χ2 (q) , wobei die Teststatistik wiederum nur asymptotisch korrekt ist. Die Nullhypothese wird wie im Falle des LR-Tests auf dem Signifikanzniveau α abgelehnt, falls die Testgröße W > χ21−α (q). Lagrange Multiplikatortest Der Lagrange Multiplikatortest basiert auf der Idee Joseph Louis Lagranges bezüglich der Optimierung einer Funktion unter einer Nebenbedingung (ein Ansatz, der in die „tool box“ jedes Sozial- und Wirtschaftswissenschaftlers gehört). Die Optimierung einer Funktion f (x,y) unter der Nebenbedingung c(x,y) = 0 wird durch die Optimierung der Funktion h(x,y,λ) = f (x,y) + λc(x,y) erreicht, wobei λ den Lagrange-Multiplikator bezeichnet. Die Optimierung geschieht durch partielle Ableitung der Funktion h(x,y,λ) nach allen drei Variablen und anschließendem Nullsetzen. Die errechneten Werte für x, y und λ ergeben das bedingte Maximum (oder Minimum) der Funktion. Die Anwendung dieser Idee im Zusammenhang mit Maximum-Likelihood Schätzern liegt auf der Hand. Die zu optimierende Funktion ist eine Log-Likelihood Funktion ln L(θ|D) unter der Nebenbedingung entsprechender Restriktionen. Diese Restriktionen sind dieselben wie im Wald-Test, also Rθ − r = 0 unter Gültigkeit der Nullhypothese. Der Lagrange Multiplikatortest hat einen gewichtigen Vorteil. Er erfordert lediglich die Schätzung des restringierten und damit einfacheren Modells. In vielen ML-Anwendungen ist das unrestringierte Modell oftmals komplex und schwierig zu schätzen. Wenn also die Restriktionen empirisch haltbar sind (und die Nullhypothese somit nicht zu verwerfen ist), sollte sich kein signifikanter Unterschied zwischen dem Maximum der Log-Likelihood Funktion des restringierten Modells und dem Maximum der unter der Nebenbedingung optimierten Log-Likelihood Funktion zeigen. Der LM-Test erfordert somit die Optimierung der Funktion h(θ,λ) = ln L(θ|D) + [Rθ − r] λ mit den Bedingungen erster Ordnung ∂h(θ,λ) = ∇ + R λ = 0 und ∂θ ∂h(θ,λ) = Rθ − r = 0 . ∂λ Im Maximum unter Nebenbedingungen gilt somit, dass ∇ = −R λ. Wenn die Restriktionen empirisch haltbar sind, sollte aber ∂h/∂θ identisch zu ∂ ln L/∂θ sein. Das heißt
10 Maximum-Likelihood Schätztheorie
227
also, dass ∂h/∂θ − ∇ = R λ gegen Null tendieren sollte, was bedeutet, dass λ → 0. Unter Gültigkeit der Nullhypothese muss also gelten, dass ∂ ln L(θ)r = ∇r = 0 , ∂θ r wobei das Subskript r auf die Restriktionen hinweist und ∇r somit der unter den spezifizierten Restriktionen evaluierte Gradientenvektor der Log-Likelihood Funktion des restringierten Modells ist. Um eine bekannte Stichprobenkennwerteverteilung zu erhalten, wird analog zum Wald-Test die quadratische Form verwendet, so dass die Teststatistik definiert ist als ˆ r ]∇r LM = ∇r V[θ ∼ χ2 (q) ,
(14)
ˆ r ] die unter den Restriktionen evaluierte Varianz-Kovarianz Matrix des wobei V[θ restringierten Modells ist. Gleichung (14) zeigt auch, wieso der LM-Test oft alternativ als Score Test bezeichnet wird. Die Nullhypothese wird auf dem Signifikanzniveau α abgelehnt, falls die Testgröße LM > χ21−α (q). 4.3 Modellgüte Der Test individueller oder mehrerer Parameter beantwortet Fragen im Zusammenhang mit individuellen Einflussgrössen des Modells. In der Regel ist man aber auch an der Modellgüte als Ganzes interessiert, das heißt, ob das geschätzte Modell den Daten gerecht wird oder wie das geschätzte Modell im Vergleich zu alternativen Modellen abschneidet. Zu diesem Zweck werden oft so genannte Pseudo-R2 Maße berechnet (für eine Übersicht z. B. Windmeijer 1995; Maddala 1986). Die Kennziffern für diese Pseudo-R2 unterscheiden sich wesentlich vom R2 der linearen Modelle (und dessen Varianten). Wichtig ist insbesondere, dass diese PseudoMaßzahlen keineswegs dasselbe wie R2 messen. Vielmehr sind sie definierte Indizes, welche üblicherweise wenig mit der Varianzaufklärung der abhängigen Variablen durch die Regressoren zu tun haben. Grob gesprochen setzen sie die Wahrscheinlichkeit der Beobachtungen bei gegebenen Parameterschätzwerten (Likelihood Wert des Schätzmodells) in Beziehung zu der Wahrscheinlichkeit, dass die vorliegenden Daten durch einen reinen Zufallsprozess erzeugt worden sind (Likelihood des Referenzmodells, in der Regel das Nullmodell oder leere Modell mit lediglich einer oder mehreren Konstanten). Sie eignen sich daher nur für den Vergleich solcher Modelle, die für bestimmte Parameterwerte prinzipiell ineinander überführbar und daher verschachtelt sind (z. B. auch Modelle mit und ohne Interaktionseffekte). Der Vergleich eines voll spezifizierten Modells mit dem Nullmodell ist zwar von der Logik her ähnlich der Idee des R2 der linearen Modelle, die R2 der nichtlinearen Modelle verhalten sich aber grundlegend anders. Zudem ist zu betonen, dass sie (wie das R2 der linearen Regressionsanalyse und im Gegensatz zum adjustierten oder auch dem modifizierten Determinationskoeffizienten) nicht für die Zahl der Regressoren und damit für die Freiheitsgrade der Schätzung
228
Thomas Gautschi
korrigieren. Damit wird der Vergleich zwischen Modellen mit einer unterschiedlichen Zahl von Regressoren auf der Grundlage von Pseudo-R2 von vornherein ausgeschlossen. Will man solche Vergleiche durchführen, so ist mit Maßzahlen der Anpassungsgüte zu arbeiten, welche die Aufnahme zusätzlicher Regressoren „bestrafen“. Die bekanntesten sind Akaike’s Information Criterion (AIC) sowie das Bayesian Information Criterion (BIC). Wir werden beide Kennziffern kurz besprechen. Für eine ausführliche Darstellung sei jedoch auf die Literatur verwiesen. Generell sollte man die Pseudo-R2 Kennziffern nicht überbewerten. Weil sie bekanntlich nicht gleich Eins werden können (in der Regel aufgrund ihrer Definition), werden die Werte für Pseudo-R2 zudem selbst bei guter Anpassung des Modells an die Daten in sozialwissenschaftlichen Anwendungen mit nichtlinearen Zusammenhängen normalerweise kleiner ausfallen als die Werte von R2 bei guter Anpassung im Rahmen der linearen Regressionsanalyse. Ein Pseudo-R2 zwischen 0. 2 und 0. 4 wird in der Literatur in der Regel als Wert für eine gute Modellanpassung angesehen. McFadden R2 Das wohl am meisten verbreitete Pseudo-R2 ist das McFadden R2 (McFadden 1973). Die Maßzahl evaluiert das Verhältnis der Werte der Log-Likelihood Funktionen des vollen Modells, ln L1 , und des Nullmodells, ln L0 , und ist definiert als8 2 RM cF = 1 −
ln L1 . ln L0
(15)
Die Herleitung des McFadden R2 folgt der Logik der Varianzdekomposition und dem R2 in linearen Modellen. Es sei ln Lmax der maximal erreichbare Wert der LogLikelihood Funktion. Dann gilt: ln Lmax − ln L0 = (ln Lmax − ln L1 ) + (ln L1 − ln L0 ), wobei der erste Term auf der rechten Seite der unerklärte Anteil und der zweite Term der erklärte Anteil ist. Wenn wir annehmen, dass der maximal erreichbare Wert der Log-Likelihood Funktion Null ist – was im diskreten Fall tatsächlich wahr ist –, dann ergibt sich aus dieser Logik Gleichung (15). Das McFadden R2 ist somit dasjenige, 2 9 welches am ehesten der Idee der linearen Modelle nahekommt. Es gilt 0 ≤ RM cF < 1. Die Untergrenze wird erreicht, falls ln L0 = ln L1 und die Regressoren somit überhaupt keine Erklärungskraft besitzen.10 8
9
10
ln L1 entspricht somit dem unrestringierten Modell und ln L0 dem restringierten Modell mit lediglich einer oder mehreren Konstanten. Ich verwende im Zusammenhang mit den Pseudo-R2 Kennzahlen die Schreibweise ln L0 und nicht ln Lr um deutlich zu machen, dass letzteres hier immer das Nullmodell darstellt. 2 Einige Lehrbücher geben für die Obergrenze an, dass RM cF ≤ 1. Der Wert 1 kann jedoch nur dann erreicht werden, wenn L1 = 1, was nur möglich ist, sofern das unrestringierte Modell dem vollständig spezifizierten Modell (saturated model) entspricht, also mit einem Parameter für jede Beobachtung. 2 Oft sieht man auch eine Version des RM cF , welche eine „Bestrafung“ für unnötige Regressoren besitzt: ln L1 − p 2 ¯M . R cF = 1 − ln L0
10 Maximum-Likelihood Schätztheorie
229
LR-basierte R2 Eine alternative Spezifizierung setzt beim Likelihood-Ratio, λ = L0/L1 , an. Wenn die p Regressoren des Modells keine Erklärungskraft besitzen, dann ist λ = 1 und der LR, wie definiert in Gleichung (12), ist gleich Null und ein dermaßen spezifiziertes Pseudo-R2 sollte somit auch Null sein. Diese Voraussetzung erfüllt die Definition (Maddala 1986) 2
2 RLR = 1 − λn
(16)
− LR n
= 1−e
n/2
mit der theoretischen Obergrenze von 1 − L0 . Das wohl bekanntere Pseudo-R2 auf Basis des Likelihood-Ratio ist aber jenes von Aldrich & Nelson (1984), deren Definition wie folgt ist: LR 2 . (17) RAN = LR + n Beide Spezifikationen enthalten die Stichprobengröße, jedoch auf eine unterschiedliche Art und Weise. Da die Definition des Likelihood-Ratios LR explizit die Werte der Log-Likelihood Funktionen des restringierten (d. h. in diesem Fall des Nullmodells) und des unrestringierten Modells enthält, kann prinzipiell auch das McFadden PseudoR2 als Funktion des LR geschrieben werden. In dem Fall ergibt sich als alternative Schreibweise LR 2 . RM cF = LR − 2 ln L1 2 2 Danach unterscheiden sich RAN und RM cF lediglich dahingehend, ob man die Fallzahl n oder die stets negative Größe 2 ln L1 bei der Berechnung der Modellanpassung verwendet. Weil ln L1 im Gegensatz zu n mit der Schätzgüte variiert, scheint McFaddens Maßzahl für Modellvergleiche etwas aussagekräftiger. Zu bedenken ist allerdings, dass ein extrem kleiner Wert von ln L1 keineswegs nur eine hohe Anpassungsgüte bedeutet, sondern auch die Unmöglichkeit einer Maximum-Likelihood Schätzung reflektieren kann.
Wald- und LM-basierte R2 In der Literatur finden sich häufig auch zwei Pseudo-R2 Maße, welche auf dem Wald-Test respektive dem Lagrange Multiplikatortest beruhen (Magee 1990). Erstere Spezifikation folgt der Idee des Pseudo-R2 nach Aldrich und Nelson, wobei anstelle des LR der Wald-Test eingesetzt wird: 2 RW =
W . W +n
(18)
2 ¯M Somit vergrößert sich R cF nur dann, wenn sich ln L1 um mehr als Eins für jeden Parameter des Modells erhöht.
230
Thomas Gautschi
2 Der Vorteil gegenüber RAN liegt darin, dass für den W -Test im Gegensatz zum LRTest lediglich das unrestringierte Modell geschätzt werden muss, jedoch nicht das Nullmodell.11 Sofern das Nullmodell eine angemessene Anpassung an die Daten darstellt, ergibt der Lagrange Multiplikatortest einen Wert von LM = 0. Somit ist die Herleitung einer letzten Pseudo-R2 Maßzahl einfach: 2 = RLM
LM . n
(19)
Der Nachteil all dieser Pseudo-R2 Maßzahlen ist jedoch, dass sie lediglich den Vergleich verschachtelter Modelle erlauben und auch nicht durchgehend für eventuell verschiedene Fallzahlen verschachtelter Modelle korrigieren. Eine Alternative ohne diese Nachteile bieten die Entropie-basierten Maße der Modellgüte. AIC und BIC Die Idee hinter den Entropie-basierten Maßzahlen entstammt der Physik und dem Konzept der Information (über ein Ereignis), welche eine sinkende Funktion der Eintrittswahrscheinlichkeit des Ereignisses ist.12 Es sei f (x|θ∗ ) die wahre Dichtefunktion einer Zufallsvariable x und g(x|θ) sei das geschätzte Modell. Die „Übereinstimmung“ des Modells mit der wahren Dichtefunktion wird durch die Kullback-Leibler Informa2 2 tion I = E[ln(f (x|θ∗ )) − ln(g(x|θ))] = ln(f (x|θ ∗ ))f (x|θ ∗ )dx − ln(g(x|θ)f (x|θ ∗ )dx bestimmt, wobei das erste Integral die Entropie (also die Unsicherheit in den Daten bezüglich eines bestimmten Modells) und das zweite Integral die Kreuz-Unsicherheit ist, also die Unsicherheit der Modellschätzung (Kullback & Leibler 1951). Je kleiner I ausfällt, desto besser das Modell g(x|θ). Oder anders ausgedrückt: desto wahrscheinlicher, dass f (x|θ∗ ) die wahre Dichtefunktion von x ist (siehe z. B. Cameron & Windmeijer 1997) und desto weniger Information geht durch die Approximation von f (x|θ∗ ) durch g(x|θ) verloren. Der Nachteil dieses Ansatzes ist, dass f (x|θ∗ ) bekannt sein muss, was jedoch nie der Fall ist. Die bekannten Maßzahlen AIC (Akaike’s Informations Criterion) und BIC (Bayesian Information Criterion) nähern sich der Idee von I über den Erwartungswert der Kullback-Leibler Information. BIC und AIC sind somit nur asymptotisch korrekt. Akaike’s Information Criterion (Akaike 1973) ist definiert als AIC = −2 ln Li + 2pi , 11
12
(20)
Der Log-Likelihood Wert eines Nullmodells ist jedoch in vielen Regressionsmodellen einfach zu bestimmen. So lange lediglich ein Achsenabschnittskoeffizient im Modell vorkommt, ist die Verteilungsfunktion (Link Funktion) bei gegebener Modellfamilie für die Berechnung der Wahrscheinlichkeiten irrelevant. Eine häufige Spezifikation der Informationsfunktion ist i(p) = ln 1/p. Die Information über ein Ereignis, wenn sich dessen Eintrittswahrscheinlichkeit von p zu q verändert ist dann i(p) − i(q) = ln q/p und im Falle von n sich gegenseitig ausschließenden Ereignissen ist der n Erwartungswert der Information I = i=1 qi ln qi/pi . Die Generalisierung dieser Idee auf Dichtefunktionen führt zur Kullback-Leibler Information.
10 Maximum-Likelihood Schätztheorie
231
wobei ln Li der Log-Likelihood Wert des geschätzten Modells ist und somit die Modellgüte erfasst, während pi die Anzahl Parameter des Modells erfasst und damit die Sparsamkeit der Modellierung berücksichtigt. Das Modell mit dem kleinsten AIC ist, bei Vergleich verschiedener (verschachtelter oder auch unverschachtelter) Modelle, das zu bevorzugende Modell. Für kleine Fallzahlen empfiehlt sich wegen der lediglich asymptotischen Gültigkeit eine Korrektur: AIC c = AIC + [2pi (pi +1)]/[n−pi −1]. Das Bayesian Information Criterion (Schwarz 1978) ist eine asymptotische Approximierung an die Idee der Bayesianischen Modellselektion und erfordert daher – im Gegensatz zum AIC – keine explizite Spezifikation der (a priori) Verteilung der Parameter. BIC ist definiert als BIC = −2 ln Li + pi ln n .
(21)
Das BIC hat im Gegensatz zu AIC zwei wesentliche Vorteile. Es ist bekannt, dass das BIC eher konservativ ist, als dass es im Gegensatz zu AIC weniger wahrscheinlich komplexe Modellspezifikationen bevorzugt. Zudem ist das BIC konsistent, was AIC nicht ist. Ein Vergleich der Strafterme aus Gleichung (20) und (21) zeigt, dass das BIC größer ist und das AIC, sofern e2 < n, also sofern n ≥ 8. Da in sozialwissenschaftlichen Anwendungen so kleine Stichproben wohl nie vorkommen, gilt BIC > AIC wohl ausnahmslos.
5 Numerische Optimierungsverfahren Die Bestimmung der Maximum-Likelihood Schätzer erfolgt über die Bedingung erster Ordnung der Maximum-Likelihood Funktion. In den Beispielen in Abschnitt 2 war die Herleitung der ersten Ableitung der Maximum-Likelihood Funktion nach dem interessierenden Parameter und anschließendes Nullsetzen und Umstellen nach dem Parameter einfach möglich. In den meisten Anwendungsfällen (z. B. Regressionsverfahren) ist dies häufig nicht mehr möglich, da die Ableitungen vielfach zu komplex für eine analytische Lösung sind, zum Beispiel dann, wenn die Ableitung(en) nicht mehr linear in den Parametern sind. In diesen Fällen werden die Maximum-Likelihood Schätzer anhand von numerischen Optimierungsverfahren bestimmt (z. B. Thisted 1988). Diesen Verfahren gemeinsam ist, dass der Computer ausgehend von Startwerten der Parameter (vielfach anhand von OLS bestimmt) diese kontinuierlich verändert, bis das Maximum der Likelihood Funktion bis auf einen akzeptablen Fehler gefunden ist (Konvergenzkriterium). Das heißt, dass für die numerischen Optimierungsverfahren nicht zwingend ∇ = 0 im Maximum gelten muss, sondern dass die ersten Ableitungen lediglich genug nahe bei Null sein müssen, ohne dass die Parameterschätzung dabei empirisch ungenau wird. Das simpelste numerische Optimierungsverfahren ist der „steilste Anstieg“ Algorithmus (steepest ascent). Dieser verfeinert einen Vektor von (arbiträren) Startwerten θ 0 so lange, bis dass die Evaluation der Log-Likelihood Funktion an der Stelle θ t+1 ein Maximum ergibt: θ t+1 = θ t + ξt bis ∇ ≈ 0 erfüllt ist. Jeder Schritt, welcher den Algorithmus näher an das Optimum bringt, wird dabei als Iteration bezeichnet. Der
232
Thomas Gautschi
Algorithmus nähert sich den optimalen Parameterwerten über die einfache Bedingung ξ t > 0 so lange wie ∇ > 0 und ξ t < 0 so lange wie ∇ < 0. Salopp gesagt, marschiert der „steepest ascent“ Algorithmus also auf der Log-Likelihood Funktion so lange Richtung Maximum, so lange es „aufwärts“ geht. Wird das Maximum überschritten, ist die erste Ableitung negativ und der Algorithmus „dreht um“ und schreitet wieder „zurück“ Richtung Maximum, wobei die Schrittlänge (d. h. ξ t ) verkleinert wird. Dies wiederholt sich so lange mit jeweils verkürzten Schrittlängen, bis das Maximum der Log-Likelihood Funktion bestimmt ist. Schon dieses einfache Optimierungsverfahren zeigt, dass die Algorithmen der numerischen Optimierungsverfahren sehr rechenintensiv sind. Der „steepest ascent“ Algorithmus hat aber den Nachteil, dass die Korrekturen der Schrittgrößen nicht optimal ausfallen, da sie exogen vorgegeben sind und lediglich in fixen Abständen verkleinert werden. Das Maximum der Log-Likelihood Funktion ist daher nur mühsam, d. h. über viele Iterationen zu bestimmen. Diesen Nachteil behebt der „hill-climbing“ Algorithmus, da er zusätzlich die Schrittlänge vom Gradientenvektor, evaluiert an der Stelle θ t , abhängig macht, d. h. ξ t = ξ(∇). Die Idee, die Schrittlängen bei jeder Iteration von dem Wert des Gradientenvektors abhängig zu machen, ist auch im Newton-Raphson Algorithmus implementiert. Er tut dies jedoch auf eine weit effizientere Art und Weise und erfordert damit weniger Iterationen als der einfachere „hill-climbing“ Algorithmus. Der Ansatz ist simpel und geht auf Sir Isaac Newton zurück. Um den Wert von x zu bestimmen, für welchen f (x) = 0 gilt, ist folgendes Vorgehen möglich. Man wähle einen Startwert x0 und bestimme anschließend f (x0 ) und die Tangente f (x0 ). Die Tangente wird verlängert bis sie die Abszisse schneidet. Der Schnittpunkt der Tangente und der Abszisse bestimmt den x-Wert für die nächste Iteration. Mathematisch bestimmt sich jeder neue x-Wert als xt+1 = xt − f (xt )/f (xt ). Die Anwendung auf das Maximum-Likelihood Verfahren liegt auf der Hand, in dem f (x) durch den Gradientenvektor und f (x) durch die Hesse Matrix ersetzt werden, so dass gilt: θ t+1 = θ t − H−1 t ∇t . Der Newton-Raphson Algorithmus ist in den meisten Statistikprogrammen der Standardalgorithmus zur Bestimmung der Maximum-Likelihood Schätzer. Der negative Wert der Hesse Matrix entspricht der beobachteten Fisher Informationsmatrix. Eine Variante des Newton-Raphson Algorithmus ist der Fisher Scoring Algorithmus, welcher die beobachtete durch die erwartete Fisher Informationsmatrix ersetzt. Da die Inverse der erwarteten Fisher Informationsmatrix der Varianz der Schätzer entspricht, gilt für den Fisher Scoring Algorithmus θ t+1 = θ t + V[θ t ]∇t . Der Vorteil dieses Algorithmus liegt in der Tatsache, dass die erwartete Fisher Informationsmatrix einerseits oft simpler ist als die beobachtete Fisher Informationsmatrix und dass sie andererseits – und dies ist der wahre Vorteil – immer positiv definit ist (es ist ja schließlich die Varianz-Kovarianz Matrix), was für −H nicht zwingend gilt. Der Vorteil des Newton-Raphson und des Fisher Scoring Algorithmus gegenüber dem einfachen „hill-climbing“ Algorithmus liegt in der präzisen Bestimmung der Schrittlänge, da diese eine Funktion der Hesse Matrix und nicht lediglich des Gradientenvektors ist. Der Nachteil der beiden Algorithmen liegt jedoch darin, dass die Hesse Matrix oder deren Erwartungswert berechnet werden muss, was nicht immer einfach oder möglich ist. Um dies zu umgehen, wurden etliche Verfahren vorgeschlagen,
10 Maximum-Likelihood Schätztheorie
233
welche die Information der Hesse Matrix über Funktionen des Gradientenvektors annähern (z. B. über das Kreuzprodukt des Gradientenvektors). Für Informationen zu diesen Quasi-Newton Algorithmen (z. B. Berndt-Hall-Hall-Hausman, DavidsonFletcher-Powell oder Broyden-Fletcher-Goldfarb-Shanno) sowie weiteren numerischen Optimierungsverfahren sei der Leser zum Beispiel auf Thisted (1988) verwiesen. Allen Optimierungsverfahren ist wie gesehen gemeinsam, dass sie ausgehend von Startwerten diese so lange optimieren, bis ∇ ≈ 0. Der Unterschied zwischen den Algorithmen liegt also lediglich in der mathematischen Spezifikation und somit bei der Genauigkeit und Effizienz des „Korrekturfaktors“ ξ. Die Frage ist jedoch, wann die Iteration eines Algorithmus gestoppt werden soll oder anders gesagt, wann die ersten Ableitungen nahe genug bei Null sind, damit empirisch korrekte Schätzer resultieren. In der Regel wird dazu ein Kovergenzkriterium q festgelegt (z. B. q = 0. 0000001 als Standardeinstellung in Stata), so dass die Iteration des Algorithmus abgebrochen wird falls - ln Lt+1 − ln Lt - < q, ln Lt da sehr kleine Veränderungen in der Log-Likelihood Funktion mit ln L → 0 einhergehen und damit das gesuchte Maximum anzeigen. Bei komplexeren Log-Likelihood Funktionen ist jedoch nicht immer garantiert, dass der Algorithmus auch tatsächlich das absolute Maximum findet. Es besteht die Möglichkeit, dass lediglich ein lokales Maximum gefunden wird. Es empfiehlt sich daher, bei komplexen Log-Likelihood Funktionen den Algorithmus bei verschiedenen Startwerten θ 0 zu initiieren und die resultierenden Werte der Log-Likelihood Funktion zu vergleichen. Sind diese annähernd identisch, kann davon ausgegangen werden, dass das absolute Maximum der Log-Likelihood Funktion gefunden wurde. Ein anderer Ansatz ist die Optimierung der Log-Likelihood Funktion mittels verschiedener Algorithmen und dem anschließenden Vergleich der resultierenden Werte der jeweiligen Log-Likelihood Funktion. Oft werden auch anhand eines einfachen Algorithmus die Startwerte θ 0 für einen komplexeren Algorithmus bestimmt, in der Annahme, dass die Startwerte bereits nahe am absoluten Maximum liegen.
6 Literaturempfehlungen Eine Einführung in die Maximum-Likelihood Schätztheorie findet sich in verschiedenen fortgeschrittenen Ökonometrie-Lehrbüchern (z. B. Amemiya 1985; Greene 2008; Wooldridge 2002; Verbeek 2008; Wilks 1962). Die einzelnen Texte unterscheiden sich, abgesehen von unterschiedlichen Notationen und mathematischen Darstellungen, lediglich hinsichtlich der Tiefe, mit welcher sie die verschiedenen Aspekte der Maximum-Likelihood Schätztheorie besprechen. Einen gut verständlichen Überblick ohne all zu große Detailtiefe und rigorose Darstellung von Beweisen und Herleitungen gibt zum Beispiel Verbeek (2008). Dabei werden auch einzelne Aspekte des Themas bewusst ausgeklammert und der Fokus richtet sich vor allem auf die Darstellung der Anwendbarkeit der Schätzverfahrens anhand von mehreren Beispielen. Der fortgeschrittene Leser findet zum Beispiel in Amemiya (1985), Greene (2008) oder Wooldridge
234
Thomas Gautschi
(2002) eine tiefergehende und umfangreichere Darstellung der Thematik, welche auch den Herleitungen und Beweisen genügend Platz einräumt, ohne dass aber die Anwendungsbeispiele fehlen würden. Einzelne Aspekte der Maximum-Likelihood Schätztheorie (z. B. Aspekte der Modellgüte) und deren Weiterentwicklungen werden regelmäßig in verschiedenen theoretischen aber auch anwendungsorientierten ökonometrischen Zeitschriften behandelt, welche in der Regel auch für Sozialwissenschaftler ohne rigorose Mathematikausbildung gut nachvollziehbar sind.
Literaturverzeichnis Akaike, H. (1973). Information Theory and an Extension of the Maximum Likelihood Principle. In B. N. Petrov & B. F. Csaki (Hg.), Second International Symposium on Information Theory (S. 267–281). Budapest: Academiai Kiado. Aldrich, J. H. (1997). R. A. Fisher and the Making of Maximum Likelihood 1912 - 1922. Statistical Science, 12, 162–176. Aldrich, J. H. & Nelson, F. D. (1984). Linear Probability, Logit, and Probit Models. Beverly Hills: Sage Publications. Amemiya, T. (1985). Advanced Econometrics. Cambridge: Harvard University Press. Berger, J. O., Liseo, B., & Wolpert, R. L. (1999). Integrated Likelihood Methods for Eliminating Nuisance Parameters. Statistical Science, 14, 1–28. Cameron, A. C. & Windmeijer, F. A. G. (1997). An R-squared Measure of Goodness of Fit for Some Common Nonlinear Regression Models. Journal of Econometrics, 77, 329–342. Engle, R. F. (1984). Wald, Likelihood Ratio and Lagrange Multiplier Tests in Econometrics. In Z. Griliches & M. D. Intriligator (Hg.), Handbook of Econometrics, Band 2 (S. 775–826). New York: North-Holland. Greene, W. H. (2008). Econometric Analysis. Englewood Cliffs: Prentice-Hall, 6. Auflage. Hadley, G. (1961). Linear Algebra. Reading: Addison Wesley. Kullback, S. & Leibler, R. A. (1951). On Information and Sufficiency. Annals of Mathematical Statistics, 22, 79–86. Le Cam, L. (1986). Asymptotic Methods in Statistical Decision Theory. New York: Springer (Springer Series in Statistics). Maddala, G. S. (1986). Limited-Dependent and Qualitative Variables in Econometrics. Cambridge: Cambridge University Press. Magee, L. (1990). R-square Measures Based on Wald and Likelihood Ratio Joint Significance Tests. The American Statistician, 44, 250–253. McFadden, D. (1973). Conditional Logit Analysis of Qualitative Choice Behaviour. In P. Zarembka (Hg.), Frontiers in Econometrics (S. 105–142). New York: Academic Press. Pawitan, Y. (2001). In All Likelihood: Statistical Modelling and Inference Using Likelihood. New York: Oxford University Press. Schwarz, G. (1978). Estimating the Dimension of a Model. Annals of Statistics, 6, 461–464. Thisted, R. A. (1988). Elements of Statistical Computing: Numerical Computation. New York: Chapman & Hall.
10 Maximum-Likelihood Schätztheorie
235
Verbeek, M. (2008). A Guide to Modern Econometrics. West Sussex: John Wiley & Sons, 3. Auflage. Wilks, S. S. (1962). Mathematical Statistics. New York: John Wiley & Sons. Windmeijer, F. A. G. (1995). Goodness-of-fit Measures in Binary Choice Models. Econometric Reviews, 14, 101–116. Wooldridge, J. M. (2002). Econometric Analysis of Cross Section and Panel Data. Cambridge: MIT Press.
Teil III
Messen und Skalieren
11 Reliabilität, Validität, Objektivität Beatrice Rammstedt GESIS – Leibniz-Institut für Sozialwissenschaften, Mannheim
Zusammenfassung. Das folgende Kapitel beschreibt den Weg von dem zu messenden Merkmal über die Erstellung eines Erhebungsinstruments bis zum Messwert. Schwerpunkt des Kapitels liegt auf der Gütebestimmung für diese Erhebungsinstrumente, nämlich auf der Überprüfung der Objektivität, Reliabilität und Validität von Messverfahren. Nur die Überprüfung und damit die Gewährleistung der Güte eines Erhebungsverfahrens rechtfertigen dessen Einsatz sowie die aus der Untersuchung gezogenen Schlüsse. So kann mittels eines nicht reliablen Verfahrens zur Bestimmung der Lesekompetenz nicht bestimmt werden, ob eine Gruppe von Befragten kompetenter ist als eine andere, da die erhaltenen Testergebnisse zu hohem Maße von Messfehlern beeinflusst sind und somit nicht als valide erachtet werden können. Für die einzelnen Gütemerkmale werden Definitionen, wo angebracht mathematische Grundlagen und Darstellungen zur Berechnung berichtet und deren Anwendung an einem Beispiel verdeutlicht.
1 Einführung Das Messen eines interessierenden Konstrukts und somit dessen Operationalisierung stellt meist eine größere Herausforderung dar, als vom Forscher primär erwartet: In einem ersten Schritt muss das zu erfassende Konstrukt eingegrenzt werden. Welche Aspekte sollen abgebildet werden und welche werden per definitionem ausgeschlossen? Nach der Konzeptspezifikation muss in einem zweiten Schritt entschieden werden, ob dieser eingegrenzte Merkmalsbereich mit einem einzelnen Item erfasst werden kann/soll oder ob hierfür ein Instrument mit multiplen Items sinnvoller ist. In letzterem Falle sollten zunächst spezifische Indikatoren für das Merkmal identifiziert werden (häufig ergeben sich diese bereits indirekt während der Konstruktabgrenzung beziehungsweise -eingrenzung), zu denen dann spezifische Items entwickelt werden. Beispielsweise könnte ein Forscher in einer Befragung herausfinden wollen, wie religiös die Befragten sind. Zunächst einmal definiert er, wie er das Merkmal Religiosität versteht und abbilden will. Demnach soll das Merkmal einerseits religiöse Erfahrungen beinhalten, darüber hinaus aber auch den religiösen Glauben (vgl. Kecskes & Wolf 1993, 1995). Der Forscher entscheidet sich, dass ein einzelnes Item „Sind Sie religiös?“ oder „Wie religiös sind Sie?“ ihm nicht differenziert genug ist. Daher entscheidet er sich für eine Messung des Merkmals mit multiplen Items. Indikatoren sind nach seiner Definition des Merkmals religiöse Erfahrungen und der religiöse Glaube. Basierend auf diesen Indikatoren werden die folgenden Items entwickelt „Durch den Glauben habe ich schon oft die S. 239–258 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_11, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
240
Beatrice Rammstedt
Nähe Gottes erfahren“, „In einer gefährlichen Situation hatte ich schon einmal das Gefühl von einem Schutzengel beschützt zu werden.“, „Gott lenkt die Welt“ und „Jesus hat Wunder vollbracht“ (vgl. Kecskes & Wolf 1993). Der Summen- oder Mittelwert über diese Items wird dann als Indikator für christliche Religiosität verwandt. Im Anschluss an diese Item- beziehungsweise Skalenentwicklung1 oder an die Auswahl einer bereits bestehenden Skala stellt sich primär die Frage, wie gut diese generell ist beziehungsweise wie gut sie sich für den Untersuchungszweck und -kontext eignet. Überprüfungen der Güte und somit der Qualität einer Skala sind für die empirische Forschung von essentieller Bedeutung, da nur eine solche Überprüfung sicherstellen kann, dass (1) die vermeintliche Skala tatsächlich das in Frage stehende Merkmal erfasst und (2) der Grad der Zuverlässigkeit des Merkmals gemessen wird und somit überprüfbar ist. Ein Großteil der im Folgenden dargestellten Methodiken zur Qualitätsüberprüfung ist ausschließlich für Multi-Item-Skalen geeignet ein Teil der Analysen lässt sich jedoch auch auf Single-Items übertragen. Von zentraler Bedeutung für die Beurteilung der Qualität von Skalen sind die sogenannten Hauptgütekriterien, nämlich die Objektivität, die Reliabilität und die Validität des Verfahrens. Jedes der drei Kriterien lässt sich in drei oder vier Aspekte untergliedern, die im Folgenden näher dargestellt werden.
2 Objektivität Objektivität ist definiert als Grad, in dem das Untersuchungsresultat unabhängig ist von jeglichen Einflüssen außerhalb der untersuchten Person 2 (vgl. Rost 1996). Die Objektivität einer Messung ist direkt abhängig vom Maß, in dem das Messergebnis vom zu messenden Merkmal und nicht von externen Einflüssen, wie zum Beispiel, vom Verhalten des Interviewers oder von Situationsvariablen wie Tageszeit, Lichtverhältnisse oder momentane Stimmung abhängt. Es werden drei Arten der Objektivität eines Instruments unterschieden, die Durchführungsobjektivität, die Auswertungsobjektivität und die Interpretationsobjektivität. 2.1 Durchführungsobjektivität Die Durchführungsobjektivität beschreibt die Konstanz der Untersuchungsbedingungen. Die Durchführungsobjektivität einer Untersuchung kann beeinträchtigt sein, wenn die Durchführung anfällig für Störfaktoren ist und es daher nicht gelingt, alle befragten Personen unter vergleichbaren und damit in diesem Sinne fairen Untersuchungsbedingungen zu befragen oder zu testen. Die Durchführungsobjektivität kann beeinträchtigt sein durch (1) Effekte des Interviewers, in der Form, dass ein Interviewer mit verschiedenen Befragten unterschiedlich interagiert, zum Beispiel Hilfestellungen leistet 1
2
Im Folgenden wird Skala als Bezeichnung für eine Vielzahl zusammengefasster Items, die ein Konstrukt messen sollen, verwendet. Im Folgenden wird der Einfachheit halber von Personen als Untersuchungseinheit gesprochen. Diese kann natürlich auch ein Unternehmen, eine Gruppe oder Ähnliches sein.
11 Reliabilität, Validität, Objektivität
241
oder positiv verstärkend wirkt und somit die Messsituation nicht vergleichbar ist. Eine weitere potentielle Einflussgröße auf die Durchführungsobjektivität ist (2) die Reihenfolge der dargebotenen Items. Es zeigt sich, dass der Kontext einer Frage einen starken Effekt auf das Antwortverhalten haben kann, da die befragte Person implizit annimmt, dass aufeinanderfolgende Fragen in einem Zusammenhang zueinander stehen, jedoch nicht redundant sind. Wird eine Person also erst nach ihrer Zufriedenheit mit ihrer beruflichen Situation befragt und anschließend nach ihrer generellen Zufriedenheit, exkludiert sie bei letzterer Frage die berufliche Zufriedenheit, da sie hierzu ja schon berichtete. Wird hingegen die Reihenfolge der Items invertiert, entsteht dieser Exklusionseffekt nicht, da der Befragte die generelle Frage vor der spezifischen beantwortet. Somit misst das Item zur generellen Zufriedenheit in den beiden Fällen jeweils ein unterschiedliches Konstrukt. Weitere potentielle Einflussgrößen sind (3) Unterbrechungen oder Störungen der Erhebungssituation. Insbesondere direkte Testungen zum Beispiel im Bereich der Kompetenzmessung sind anfällig für jegliche Störung oder Unterbrechung, da diese die Konzentration der Befragten und somit das Resultat beeinflussen können. Schließlich können aber auch (4) situative Effekte wie das Wetter oder die momentane physische oder psychische Verfassung des Befragten das Untersuchungsergebnis beeinflussen. Es ist zum Beispiel denkbar, dass Fragen nach der beruflichen Zufriedenheit durch einen aktuellen beruflichen Konflikt oder durch eine gerade erhaltene Gehaltserhöhung negativ beziehungsweise positiv beeinflusst werden. Liegt dies nicht im Fokus der Befragung, sondern soll vielmehr die generelle, also nicht situationsspezifische berufliche Zufriedenheit erfasst werden, sollte bereits das Item selbst so situationsunspezifisch wie möglich formuliert werden. Prinzipiell ist daher die situationsunspezifische Formulierung genereller Items die beste Gewährleistung für die Durchführungsobjektivität. Um eine möglichst hohe Durchführungsobjektivität zu erzielen, sollte schließlich die Fragebogenerhebung unter möglichst standardisierten Bedingungen durchgeführt werden. Diese sind in der Regel bei selbstauszufüllenden Fragebogen unter Anwesenheit eines Interviewers gegeben. Bei persönlich-mündlichen und telefonischen Verfahren ist auf eine ausführliche Interviewerschulung, auf eindeutige Intervieweranweisungen sowie auf deren Einhaltung zu achten. 2.2 Auswertungsobjektivität Das Ausmaß der Auswertungsobjektivität bezeichnet den Grad, zu dem die numerische oder kategoriale Auswertung der registrierten Messwerte oder des Testverhaltens objektiv erfolgte. Sie wird durch Fehler, die bei der Umsetzung der unmittelbaren Reaktionen der befragten Personen in Zahlenwerte auftreten, beeinträchtigt – zum Beispiel bei der Codierung offener Antworten, bei der Dateneingabe, also beim Abtippen oder Einscannen der Fragebogen. Die Auswertungsobjektivität kann daher generell als umso höher angesehen werden, je weniger die unmittelbaren Itembeantwortungen des Befragten in Zahlenwerte transformiert werden müssen. So können zum Beispiel im schriftlichen Erhebungsmodus Fehler bei der manuellen Übertragung der Antwortskalenwerte in den Computer oder bei der persönlich-mündlichen Befragung bei der Übertragung der verbalen Beantwortung einer Frage in den Antwortmodus entstehen.
242
Beatrice Rammstedt
Eine möglichst hohe Auswertungsobjektivität ist dann gewährleistet, wenn möglichst wenige Transformationen zwischen der eigentlichen Beantwortung durch den Befragten und den computerisierten Daten liegen, so zum Beispiel bei CASI. In Fällen, in denen noch manuelle Transformationen von Nöten sind ist eine hohe Auswertungsobjektivität insbesondere durch eindeutige Vorgaben zur Dateneingabe und -transformation zu erzielen. So sollte zum Beispiel der Umgang mit fehlenden Werten, mit Ankreuzungen zwischen Kästchen sowie detaillierte Recodieranweisungen und Skalieranweisungen für Items gegeben sein. Offene Fragen sollten zur Maximierung der Auswertungsobjektivität generell vermieden werden. Wenn der Einsatz offener Antwortformate jedoch unvermeidlich ist, sollten eindeutige Klassifikationsanweisungen für die Antworten gegeben sein. Quantitativ bestimmt werden kann die Auswertungsobjektivität in Fällen, in denen manuelle Transformationen benötigt werden, indem realisierte Interviews oder ausgefüllte Fragebogen mindestens zwei Auswertern vorgegeben werden, die unabhängig voneinander die Vercodung beziehungsweise Transformationen der Itembeantwortungen vornehmen. Die mittlere Korrelation zwischen den Auswertern kann dann als Maß der Auswertungsobjektivität interpretiert werden. 2.3 Interpretationsobjektivität Die Interpretationsobjektivität bezieht sich auf das Ausmaß, in dem die aus den Befragungsergebnissen gezogenen Schlüsse über verschiedene Forscher vergleichbar sind. Eine hohe Interpretationsobjektivität ist demnach dann gegeben, wenn die Befunde von verschiedenen Forschern in gleicher Weise interpretiert werden. Zur Maximierung der Interpretationsobjektivität ist es von zentraler Bedeutung, dass das Wissen der Forscher über die Messintention der Skala und über die Interpretation der quantitativen Messwerte vergleichbar ist. Die Interpretation einer eingesetzten Konservatismusskala kann zum Beispiel sehr wenig objektiv sein, wenn in der Fragebogendokumentation keine klaren Interpretationshinweise oder keine genaue Beschreibung des erfassten Konstrukts gegeben ist. Ferner sind zur Einordnung eines individuellen Scores Vergleichswerte beziehungsweise Benchmarks für die Skala wichtig. Ohne solche Informationen kann nur ausgesagt werden, dass Person oder Gruppe x einen Wert y auf der Konservatismusskala z hat. Um den Wert y als „hoch“ oder „niedrig“ zu interpretieren, sind Vergleichswerte (Mittelwerte und Standardabweichungen) und Konfidenzintervalle notwendig. Nur diese ermöglichen den Wert y in Relation zu der Referenzpopulation (Gesamtpopulation oder eingegrenzte Alters- oder Bildungspopulation) zu setzen und mittels der gegebenen Konfidenzintervalle zu bestimmen, ob die Abweichung zwischen dem beobachteten Wert y und dem Referenzwert zufällig (innerhalb des Konfidenzintervalls) oder signifikant unterschiedlich (außerhalb der Grenzen des Konfidenzintervalls) ist.
3 Reliabilität Die Reliabilität einer Skala ist definiert als die Genauigkeit, mit der eine Skala ein Merkmal misst. Nach den Grundannahmen der Klassischen Testtheorie setzt sich ein
11 Reliabilität, Validität, Objektivität Korrelat 1
Korrelat 2
Person 1
Person 1
Zeitpunkt 1
Zeitpunkt 1
Skala 1
Skala 1
243
Abb. 1: Schematische Darstellung des theoretischen Modells der Reliabilitätsbestimmung beobachteter Wert x, also der Wert, den eine Person j in einer Skala t erzielt, additiv aus dem wahren Wert w („True Score“) einer Person in dem erfassten Merkmal und aus dem Messfehler e zusammen: xtj = wtj + etj ,
(1)
wobei xtj der beobachtete Wert der Person j in Test t ist, wtj der wahre Wert der Person j in Test t und etj der Messfehler der Person j in Test t. Grundannahme ist hier, dass jeder gemessene Wert fehlerbehaftet ist, zum Beispiel durch situative Einflüsse. Je genauer eine Skala ein Merkmal misst, desto stärker bildet sie den wahren Wert der Person in dem Merkmal ab und desto weniger ist sie daher messfehlerbehaftet. Die Reliabilität einer Skala oder eines Tests (rtt ) gibt daher den Anteil der Varianz der wahren Werte s2wt an der Varianz der beobachteten Werte s2xt an: rtt =
s2wt , s2xt
(2)
wobei rtt die Reliabilität des Tests t bezeichnet, s2wt = die Varianz der wahren Werte in Test w ist und s2xt = die Varianz der beobachteten Werte in Test t. Ein Reliabilitätskoeffizient von beispielsweise rtt = 0,80 bedeutet demnach, dass 80 % der beobachteten Varianz auf wahre Unterschiede zwischen Personen zurückzuführen sind und 20 % auf Fehlervarianz beruhen. Neben der Objektivität ist die Reliabilität ein weiteres, meist anspruchsvolleres Gütekriterium für eine Skala. Eine Waage mit Digitalanzeige kann beispielsweise völlig objektiv in dem Sinne sein, dass zwei Personen genau das gleiche Messergebnis von ihr ablesen. Sie kann jedoch dabei gleichzeitig sehr unreliabel sein, wenn sie bei einer Person mit stabilem Gewicht und täglichen Messungen deutlich unterschiedliche Angaben macht. Die Reliabilität eines Verfahrens kann deshalb als die Replizierbarkeit von Messergebnissen verstanden werden. Diese Replizierbarkeit wird durch Korrelationskoeffizienten ausgedrückt. Im Idealfall ist die Replizierbarkeit maximal. Dies bedeutet, dass bei wiederholten Messungen das gleiche Resultat erzielt wird und somit die Korrelation zwischen den Messergebnissen r = 1 ist. Um die Replizierbarkeit von Untersuchungsergebnissen zu überprüfen, müsste theoretisch eine Person zu einem Zeitpunkt mit einem Verfahren (einer Skala oder
244
Beatrice Rammstedt Korrelat 1
Korrelat 2
Person 1
Person 1
Zeitpunkt 1
Zeitpunkt 2
Fragebogen 1
Fragebogen 1
Abb. 2: Schematische Darstellung der Retest-Reliabilität einem Test) mehrmals getestet und diese beiden Ergebnisse (Korrelat 1 und Korrelat 2) miteinander korreliert werden. Abbildung 1 veranschaulicht diesen Idealfall. Praktisch ist dieses schwer möglich, da eine Person zu ein und demselben Zeitpunkt nicht mehrfach befragt werden kann. Ferner sind auch bei mehrmaligen Messungen in einem lediglich eng umgrenzten Zeitraum keine unabhängige Beantwortung der Items möglich, da Erinnerungseffekte zu erwarten sind. Daher ist die oben beschriebene Reliabilitätsbestimmung nur in Näherung möglich. Als mögliche solcher Näherungen werden vier verschiedene Methoden zur Reliabilitätsbestimmung unterschieden, (1) die Retest-Reliabilität, (2) die Paralleltest-Reliabilität, (3) die Testhalbierungs-Reliabilität und (4) Konsistenzanalysen. 3.1 Retest-Reliabilität Bei der Test-Retest-Methode der Reliabilitätsbestimmung wird im Vergleich zum Ideal die Stabilität des Messzeitpunkts aufgegeben. Die untersuchte Skala wird nach einem gewissen Zeitintervall der befragten Person wiederholt zur Bearbeitung vorgegeben. Die Korrelation der Messwerte der befragten Person zu beiden Messzeitpunkten wird als Index für die Reliabilität des Verfahrens angesehen (siehe Abbildung 2). Die Aufgabe des stabilen Messzeitpunkts hat zum Ziel, durch ein zeitliches Intervall zwischen den beiden Erhebungen, Erinnerungseffekte an die Items und ihre Beantwortung zu reduzieren und somit möglichst voneinander unabhängige Messungen zu ermöglichen. Dies ist aber nur dann sinnvoll, wenn angenommen werden kann, dass sich die Ausprägung einer Person in dem zu erfassenden Merkmal, also deren „True Score“ zwischen den beiden Zeitpunkten nicht (oder nur unwesentlich) ändert. Die Retest-Reliabilität ist daher nur für solche Skalen geeignet, die stabile Merkmale wie zum Beispiel Wertvorstellungen, Einstellungen erfassen, nicht jedoch für Instrumente, die vergleichsweise änderungssensitiv sein sollen und zum Beispiel zum Ziel haben, momentane Stimmungen abzubilden. Das Ausmaß der Stabilität des Merkmals bestimmt auch die zu wählende Länge des Intervalls zwischen Zeitpunkt Eins und Zeitpunkt Zwei: je stabiler das Merkmal, desto länger darf das Intervall sein. Werden aus genannten Gründen eher kurze Intervalle gewählt (< 4 Wochen), so sollte durch Veränderungen des Fragebogens (z. B. Veränderung der Itemreihenfolge, Einfügen von Füllitems) darauf geachtet werden,
11 Reliabilität, Validität, Objektivität
245
Tab. 1: Reteststabilität (rtt ) der fünf BFI-10-Skalen zu Zeitpunkt 1 und 2 BFI-10 Skalen Extraversion Verträglichkeit Gewissenhaftigkeit Neurotizismus Offenheit
rtt 0,869 0,716 0,828 0,708 0,782
potentielle Erinnerungseffekte möglichst gering zu halten.3 Weiterhin ist vom Forscher bei der Verwendung der Test-Retest-Methode sicher zu stellen, dass zwischen den beiden Messzeitpunkten kein Ereignis statt gefunden hat, das das in Frage stehende Merkmal maßgeblich beeinflusst haben kann. Im Zusammenhang mit der Erfassung politischer Einstellungen könnte es sich bei solchen Ereignissen zum Beispiel um Wahlen oder Bestechungsskandale handeln. Beispiel zur Bestimmung der Retest-Reliabilität Zur Bestimmung der Reliabilität des 10-Item Big Five Inventory (BFI-10; Rammstedt & John 2007) wurde das Inventar einer Stichprobe ein zweites Mal im Abstand von sechs Wochen vorgegeben. Das BFI-10 ist ein Persönlichkeitsfragebogen, der die sogenannten Big Five Dimensionen der Persönlichkeit, nämlich Extraversion, Verträglichkeit, Gewissenhaftigkeit, Neurotizismus und Offenheit für neue Erfahrungen mit je zwei Items pro Dimension erfasst. Zur Bestimmung der Retest-Reliabilität wurden die individuellen Werte in den fünf Skalen zu den Erhebungszeitpunkten miteinander korreliert. Wie aus den in Tabelle 1 wiedergegebenen Korrelationskoeffizienten ersichtlich, ergaben sich für die Skalen des BFI-10 Retest-Reliabilitäten zwischen 0,708 für Neurotizismus und 0,869 für Extraversion. 3.2 Die Paralleltest-Reliabilität Bei der Paralleltest-Methode der Reliabilitätsbestimmung wird eine Person zu ein und demselben Messzeitpunkt mit zwei vergleichbaren (parallelen) Skalen oder Tests untersucht. Grundannahme hierbei ist, dass beide Erhebungsinstrumente dasselbe Konstrukt erfassen, dass also Test 2 einen Zwilling von Test 1 darstellt. Die Ergebnisse beider Erhebungsinstrumente werden miteinander korreliert. Durch die Verwendung des Paralleltests anstatt der wiederholten Vorgabe des ursprünglichen Tests werden Erinnerungseffekte und, da die Messung zum selben Zeitpunkt stattfindet, tatsächliche Veränderungen im Merkmal vermieden. 3
Saris & Gallhofer (2007) konnten jedoch zeigen, dass bereits bei sehr kurzen Zeitintervallen von beispielsweise 20 Minuten keine Erinnerungseffekte mehr zu beobachten sind. Es scheint daher, dass auch der Iteminhalt und dessen Zentralität für den Befragten einen Einfluss auf die Erinnerungseffekte und somit auf das zu wählende Zeitintervall haben.
246
Beatrice Rammstedt Korrelat 1
Korrelat 2
Person 1
Person 1
Zeitpunkt 1
Zeitpunkt 1
Fragebogen 1
Fragebogen 2
Abb. 3: Schematische Darstellung der Paralleltest-Reliabilität Zur Entwicklung eines parallelen Verfahrens wird für jedes Item eines Tests ein vergleichbares entwickelt. Empirisch vergleichbar sind Items dann, wenn sie hoch miteinander korrelieren und gleiche Mittelwerte und Streuungen aufweisen. Faktisch ist es sehr schwer, parallele Items für Einstellungsmaße zu entwickeln. Um eine hohe Parallelität zu erzielen müssen die Formulierungen der Fragen fast identisch sein, so dass wiederum Erinnerungseffekte auftreten können. Jede Variation allerdings kann die Aufgabenschwierigkeit und somit den Itemmittelwert beeinflussen und daher die Parallelität aussetzen. Aus diesem Grund wird diese Form der Reliabilitätsbestimmung zumeist im Bereich der Leistungsmessung angewandt. Testverfahren, für die Paralleltestversionen existieren, sind zum Beispiel der Intelligenz-Struktur-Test (I-S-T 2000, siehe Amthauer et al. 1999) oder das Leistungsprüfsystem (LPS, siehe Horn 1983). 3.3 Die Split-Half-Reliabilität Bei der oben beschriebenen Paralleltest-Methode der Reliabilitätsbestimmung werden wie dargestellt zwei parallele Testversionen entwickelt und diese dann gegeneinander geprüft. Es werden demnach beide Testversionen gleichzeitig auf ihre Reliabilität geprüft. Weist die eine eine Paralleltestreliabilität von r =. 78 auf, so trifft dies auch auf die Reliabilität der anderen zu. Da in den meisten Fällen anschließend nur eine einzige Testversion benötigt wird, ist im Anschluss an die Reliabilitätsüberprüfung die Parallelversion meist obsolet. Es wurde also lediglich zur Reliabilitätsüberprüfung aufwändigst eine im Idealfalle hoch reliable Parallelversion entwickelt, die anschließend keine Verwendung mehr findet. Ein Versuch mit einem ähnlichen Grundgedanken jedoch ohne die beschriebene Ineffizienz der Paralleltestmethode ist die Split-Half- (oder Testhalbierungs-)Methode der Reliabilitätsbestimmung. Diese Methode ist insofern eine Vereinfachung der Paralleltest-Methode als anstatt eine neue Skala zu erstellen, die bestehende Skala in zwei vergleichbare Hälften geteilt wird und somit aus einer Skala zwei Subskalen mit jeweils der Hälfte der Items erstellt werden. Ebenso wie bei der Paralleltestreliabilität wird die Beantwortung der einen Testhälfte dann mit der der zweiten pro Person korreliert. Abbildung 4 veranschaulicht dieses Vorgehen. Eine wichtige Voraussetzung für die Anwendung der Split-Half-Methode ist die Homogenität der Items, also dass sämtliche Items dasselbe Merkmal erfassen. Nur dies ermöglicht, dass die beiden Testhälften des Instruments die gleichen Aspekte des interessierenden Merkmals erfassen und daher auf „True Score“-Ebene zu eins
11 Reliabilität, Validität, Objektivität Korrelat 1
Korrelat 2
Person 1
Person 1
Zeitpunkt 1
Zeitpunkt 1
Fragebogen 1,Teil 1
Fragebogen 1,Teil 2
247
Abb. 4: Schematische Darstellung der Split-Half-Reliabilität korrelieren sollten. Das entspricht dem Prinzip der multiplen Indikatoren aus dem Indikatorenuniversum für ein Konstrukt. Zur Testhalbierung existieren verschiedene Verfahren, die hier nur kurz genannt werden: Am Einfachsten bietet sich eine Aufteilung in erste vs. zweite Testhälfte an (zum Beispiel Items 1 – 10 vs. 11 – 20). Dieses Verfahren birgt besonders bei langen Instrumenten die Gefahr, dass Ermüdungseffekte die Itembeantwortung der beiden Testhälften unterschiedlich beeinflussen. Es sollte daher nur bei relativ kurzen Skalen angewandt werden. Alternativ kann die Skala nach gradzahligen und ungradzahligen Itemnummern oder nach Zufall geteilt werden. Idealerweise wird jedoch eine Aufteilung nach Itemkennwerten vorgenommen. Bei diesem Vorgehen wird zu jedem Item das auf Grund seiner Itemkennwerte – wie Mittelwert, Streuung, Korrelation mit Gesamtindex (in unserem Beispiel mit der Gesamtskala „Konservatismus“) – am besten passende Item ausgewählt. Von diesen Itempärchen wird jeweils eines per Zufall der ersten und das andere der zweiten Testhälfte zugeordnet. Bei allen Halbierungsverfahren ist natürlich darauf zu achten, dass sämtliche Items in dieselbe Richtung des zu erfassenden Merkmals gepolt sind, also zu recodierende Items bereits recodiert wurden, so dass alle Items das Merkmal in positiver Ausprägung erfassen. Da die Split-Half-Reliabilität im Gegensatz zur verwandten Paralleltestmethode die Reliabilität lediglich auf der Basis der Hälfte der Items bestimmt und da die Reliabilität einer Skala abhängig von ihrer Länge ist, also von der Itemanzahl, wird die Reliabilität mit der Split-Half-Methode geringer ausfallen. Rechnerisch lässt sich diese „Unterschätzung“ der Reliabilität rtt mit der Spearman-Brown-Formel für Testverdoppelung (für die allgemeine Form vgl. Lienert & Raatz (1998) korrigieren: corr rtt =
2rtt . 1 + rtt
(3)
rtt ist die nach der Split-Half-Methode ermittelte Reliabilität des Tests t, corr rtt die korrigierte Reliabilität des Tests t. Nach dieser Formel lässt sich zum Beispiel für eine nach der Split-Half-Methode bestimmte Reliabilität einer Teilskala von rtt = 0,70 eine Reliabilität der Gesamtskala von corr rtt = 0,82 schätzen. Beispiel zur Bestimmung der Split-Half-Reliabilität Im Rahmen der Gütebestimmung für die Machiavellismusskala von Henning & Six (2003) wurde deren Split-Half-Reliabilität bestimmt. Die Skala umfasst 18 Items. Die
248
Beatrice Rammstedt Korrelate Person 1 Zeitpunkt 1
Item 1
Item 2
Item 3
Item 4
Item 5
Abb. 5: Schematische Darstellung der Konsistenzanalysen Autoren berichten in ihrer Dokumentation eine unkorrigierte Split-Half-Reliabilität von r = 0,70. Der Korrelationskoeffizient wurde anschließend nach der SpearmanBrown-Formel korrigiert und ergab eine korrigierte Reliabilität von 0,82. 3.4 Konsistenzanalysen Die Konsistenzanalyse stellt eine Erweiterung der Split-Half-Methode dar. Da sich bei der Split-Half-Methode das Problem ergibt, dass sich in Abhängigkeit davon, nach welcher Methode man die Skala halbiert, leicht unterschiedliche Reliabilitätskoeffizienten ergeben, wäre es wünschenswert, möglichst viele Splits vorzunehmen und dabei die Skala nicht nur in zwei sondern in vier, acht oder in so viele Teile zu zerlegen, wie Items vorhanden sind. Das Mittel über sämtliche Korrelationen entspräche dann einer „Durchschnittsreliabilität“ der Skala. Dieser Problematik trägt die Konsistenzanalyse Rechnung. Hierbei werden nicht nur zwei Testhälften, sondern sämtliche Items eines Instruments miteinander korreliert (siehe Abbildung 5). Wie der Name vermuten lässt, gibt dieser Reliabilitätskoeffizient Auskunft über die Konsistenz, also die Homogenität eines Verfahrens. Zur Bestimmung der internen Konsistenz existieren verschiedene Formeln. Am verbreitetesten ist der Alpha-Koeffizient nach Cronbach (1951), dessen Berechnung auch im Statistikprogramm SPSS als Standardmethode zur Reliabilitätsbestimmung angeboten wird. Dieser Alpha-Koeffizient berechnet sich wie folgt: α=
n¯ r , 1 + r¯(n − 1)
(4)
wobei n die Gesamtanzahl der Items4 und r¯ die mittlere Interkorrelation der Items ist. Beispiel zur Bestimmung der internen Konsistenz Exemplarisch wird die interne Konsistenz einer Itembatterie zur Einstellung gegenüber in Deutschland lebenden Ausländern (beziehungsweise in früheren Wellen „Gastarbeitern“; v217 – v220) aus dem ALLBUS 2006 dargestellt. Da es unter den vier Items 4
Vorausgesetzt ist hierbei, dass alle Items in dieselbe Richtung codiert sind.
11 Reliabilität, Validität, Objektivität
249
Tab. 2: Item-Total-Charakteristika der Skala „Einstellungen zu in Deutschland lebenden Ausländern/Gastarbeitern“ aus dem ALLBUS SkalenSkalenKorrigierte Quadrierte Cronbachs mittelwert, varianz, Item-Skala multiple Alpha, wenn Item wenn Item Korrelation Korrelation wenn Item weggelassen weggelassen weggelassen Ausländer, Gastarbeiter mehr Anpassung heim b. knapper Arbeit keine polit. Aktionen unter sich heiraten
10,37 11,75 11,62 12,31
28,280 23,115 22,651 23,458
0,394 0,611 0,580 0,540
0,161 0,380 0,346 0,315
0,747 0,630 0,647 0,672
kein negativ gepoltes gibt, erübrigt sich eine Recodierung der Items. Zur Berechnung der mittleren Interkorrelation der Items wurden die vier Items der Skala miteinander korreliert. Die sechs Korrelationskoeffizienten ergeben im Mittel eine Korrelation von r¯ = 0,409. Eingesetzt in die Formel zur Berechnung der internen Konsistenz ergibt sich: α=
4 · 0,409 = 0,735 . 1 + 0,409 · (4 − 1)
Die Skala „Einstellungen gegenüber in Deutschland lebenden Ausländern / Gastarbeitern“ aus dem ALLBUS weist demnach eine interne Konsistenz von 0,735 auf. 3.5 Die Beurteilung der Höhe von Reliabilitätskoeffizienten Wann ist eine Reliabilität als gut zu beurteilen? Diese Frage wird häufig gestellt und ist schwer zu beantworten, da die Höhe des Reliabilitätskoeffizienten neben der eigentlichen Zuverlässigkeit der Skala von einigen Faktoren abhängt: 1. Itemanzahl der Skala: Je mehr Items eine Skala enthält, desto höhere Reliabilitätskoeffizienten sind zu erwarten. 2. Zeitlicher Abstand zwischen den Fragebogenvorgaben beim Retest-Design: Bei geringerem zeitlichen Abstand (zum Beispiel ein bis zwei Wochen im Vergleich zu sechs Monaten) werden in der Regel vergleichsweise höhere Koeffizienten erzielt. Daher sollte bei Verwendung der Retest-Methode in der Skalendokumentation immer das zeitliche Intervall berichtet werden. 3. Inhaltliche Heterogenität der Items bei Konsistenzanalysen: Wenn die Items einer Skala recht heterogen sind, ergeben sich vergleichsweise niedrigere Iteminterkorrelationen und somit auch eine niedrigere interne Konsistenz. Darüber hinaus hängt die Anforderung an die Zuverlässigkeit einer Skala stark vom Untersuchungsziel ab. Während für Individualdiagnosen extrem hohe Reliabilitäten der Messverfahren erforderlich sind, werden für Gruppenvergleiche meist Reliabilitätskoeffizienten über 0,70 als befriedigend angesehen. Als gut gilt eine Reliabilität ab ca. 0,80 (vgl. Nunnally & Bernstein 1994).
250
Beatrice Rammstedt
4 Validität Die Validität einer Skala bezeichnet den Grad der Genauigkeit, mit der ein Verfahren tatsächlich das misst oder vorhersagt, was es messen oder vorhersagen soll. Objektive und zuverlässige Verfahren müssen nicht unbedingt valide sein. Dies lässt sich wiederum an dem oben aufgeführten Beispiel der Waage verdeutlichen: Diese Waage kann nicht nur in der Form objektiv messen, dass mehrere Personen dasselbe Messergebnis von ihr ablesen, sie kann auch reliabel messen, in der Form, dass eine Person mit stabilem Gewicht bei mehrmaliger Messung (Retest) ein und denselben Messwert erzielt. Jedoch ist unklar, ob der so erzielte Messwert tatsächlich das Gewicht der Person und somit das zu messende Merkmal widerspiegelt. So könnte der angezeigte Wert auch das Gewicht des vorher gewogenen Menschen oder schlichtweg ein Maß für die Raumtemperatur sein. Bei der Validität eines Verfahrens geht es also um den Nachweis, dass das Verfahren tatsächlich das zu messende Merkmal erfasst. Hierzu stehen verschiedene, sich ergänzende Validierungskonzepte zur Verfügung. In der Regel werden drei Arten der Validität unterschieden: (1) die Inhaltsvalidität, (2) die Kriteriumsvalidität und (3) die Konstruktvalidität. 4.1 Die Inhaltsvalidität Die Inhaltsvalidität (content validity) beruht auf einer inhaltlichen Analyse des Messverfahrens. Diese Analyse hat zum Ziel festzustellen, ob der zu messende Merkmalsbereich durch die in dem Erhebungsinstrument verwendeten Items hinreichend genau repräsentiert wird. Voraussetzung für eine inhaltlich valide Testkonstruktion ist die Definierbarkeit des Itemuniversums für das zu erfassende Merkmal. Demnach müssen theoretisch alle potentiellen Items für den Merkmalsbereich benennbar sein, um daraus abzuleiten, ob diese hinreichend in den ausgewählten Items repräsentiert sind. Diese Definierbarkeit ist für viele Merkmalsbereiche oft angezweifelt worden. Diese Umstrittenheit der grundlegenden Prämisse hat primär die generelle Verbreitung inhaltlich valider Testverfahren über die besonders übersichtlichen klassischen Anwendungsbereiche der Pädagogischen Psychologie (z. B.: „Grundrechnen“) hinaus verhindert. Die Überprüfung der Inhaltsvalidität eines Instruments setzt in der Regel schon zum Zeitpunkt der Skalenkonstruktion an. Das Vorgehen zur Konstruktion inhaltlich valider Skalen ist weitgehend analog zur rationalen, Theorie-basierten Skalenkonstruktion, jedoch sind die Anforderungen deutlich strenger: In einem ersten Schritt wird das Itemuniversum definiert. Hierbei wird primär der Merkmalsbereich eingegrenzt, in dem definiert wird, welche Aspekte durch das zu erstellende Instrument abgedeckt werden sollen und welche bewusst ausgeklammert werden (zum Beispiel Grundrechnen im Zahlenraum bis zehn jedoch keine Zehnerüberschreitung). In diesem Schritt ist auch das „universe of items“ (vgl. Borg & Shye 1995), das heißt die Gesamtheit sämtlicher potenzieller Items (zum Beispiel sämtliche Kombinationen der Zahlen eins bis neun mittels der Grundrechenarten) zu bestimmen. Schließlich sind im Zuge dessen auch die genauen Item- und Antwortformate festzulegen (zum Beispiel multiple choice mit fünf Antwortalternativen). Der zweite Schritt im Rahmen der Inhaltsvalidierung umfasst die Ziehung systematischer Stichproben aus dem Itemuniversum, die somit
11 Reliabilität, Validität, Objektivität
251
die Repräsentativität dieser Items für das gesamte Itemuniversum gewährleisten. Die so erstellte kontentvalide Skala muss dann in der Anwendung auf ihre Angemessenheit hin erprobt werden (für eine detailliertere Darstellung der inhaltlichen Validität siehe Klauer 1984). Um zu überprüfen, inwieweit ein Verfahren inhaltlich valide ist, wird dessen Herstellungsprozedur detailliert beleuchtet. So wird überprüft, ob das Itemuniversum eindeutig definiert und abgegrenzt wurde, ob diese Definition des Itemuniversums validiert wurde, ob sie zum Beispiel von Experten hinsichtlich ihrer Gültigkeit beurteilt wurde, und wie die Auswahl der zu der Skala zusammengefassten Items aus dem Itemuniversum vorgenommen wurde. Eine systematische Methode zur Überprüfung der Inhaltsvalidität bietet die Facettentheorie (siehe z. B. Borg & Shye 1995). 4.2 Kriteriumsvalidität Die Kriteriumsvalidität beschreibt den Grad der Übereinstimmung des mit dem Erhebungsinstrument erzielten Ergebnisses mit einem Außenkriterium wie zum Beispiel Schulerfolg, Wahlverhalten oder Mitgliedschaft in bestimmten Organisationen. Bei dem Kriterium handelt es sich um einen Maßstab, der das zu messende Konstrukt abbildet jedoch von dem zur Beurteilung eingesetzten Erhebungsinstrument unabhängig ist (zum Beispiel Ausbildungserfolg, Lehrerurteil). So könnte zum Beispiel eine Religiositätsskala an dem Außenkriterium Anzahl der Kirchenbesuche pro Jahr oder eine Skala zum Umweltverhalten an dem Kriterium Spendenbereitschaft für oder Mitgliedschaft in entsprechenden Organisationen (wie zum Beispiel BUND, Greenpeace) validiert werden. Diese Validität wird zumeist in Form eines Korrelationskoeffizienten berichtet. Da das Kriteriumsverhalten den wahren Wert einer Person und somit das Merkmal widerspiegelt, wäre zu erwarten, dass – wenn die Messung des Merkmals 100 % reliabel wäre – die Korrelation zwischen der Messung und dem Verhalten selbst r = 1 erreicht. Da die Skala aber, wie oben dargestellt, zu einem gewissen Umfang messfehlerbehaftet ist und somit ihre Reliabilität < 1 ist, kann sie nur zu dem Ausmaß mit einem Kriterium kovariieren, zu dem sie reliabel ist. Ist nun die Messung des Kriteriums ebenfalls messfehlerbehaftet, reduzierte auch diese die maximal zu erzielende Validität. Empirisch lässt sich nachweisen, dass die Validität der Skala somit nicht größer sein kann als das geometrische Mittel der beiden Reliabilitätskoeffizienten: √ rxtxu = rwtwu rtt ruu .
(5)
Selbst wenn also die Korrelation der wahren Werte rwtwu = 1 wäre, die Skala t allerdings nur eine Reliabilität von rtt = 0,80 und die Messung des Kriteriums u eine Reliabilität von ruu = 0,90 erzielte, wäre demnach die Kriteriumsvalidität der Skala t gemessen am Kriterium u lediglich rxtxu = 0,85. Die Validität eines Erhebungsinstruments ist somit direkt abhängig von dessen Reliabilität. Um nun die wahre Validität des Instruments bezogen auf ein Kriterium zu messen und um somit die beschriebene Interdependenz aufzulösen kann die bobachtete Validität rxtxu korrigiert werden um die Unzuverlässigkeit der Messung. Die Messungenauigkeit der Skala und gegebenenfalls auch des Kriteriums wird dabei aus
252
Beatrice Rammstedt
der beobachteten Korrelation heraus gerechnet, so dass eine Schätzung für die wahre Validität rwtwu erlangt wird. Notwendig hierfür ist die Kenntnis über die Reliabilität der beiden Messungen. Die sogenannte Minderungskorrektur (Lienert & Raatz 1998), beziehungsweise correction for attenuation (Spearman 1910) berechnet sich wie folgt: rxtxu rwtwu = √ √ , (6) rtt ruu wobei rwtwu die korrigierte Messgenauigkeit: Korrelation der wahren Werte der Tests t und u ist, rxtxu die beobachtete Korrelation der Tests t und u, rtt die Reliabilität des Tests t und ruu die Reliabilität des Tests u. Diese sogenannte Minderungskorrektur ergibt eine Schätzung der wahren Korrelation, korrigiert um die Unzuverlässigkeit der Messung. Je nachdem, wann das Kriterium erhoben wurde, unterscheidet man zwischen der retrograden, konkurrenten und prognostischen (Kriteriums-)Validität. Bei der retrograden Validierung wird das Erhebungsinstrument mit einem zu einem früheren Zeitpunkt stattgefundenem Kriteriumsverhalten verglichen. So könnte zum Beispiel eine Konservatismusskala an dem Wahlverhalten bei der letzten Bundestagswahl validiert werden. Bei der konkurrenten Validierung wird das zu validierende Instrument mit Kriteriumsverhalten, das zum gleichen Zeitpunkt wie das Verfahren selbst erfasst wird, verglichen. Ein Beispiel hier könnte die Validierung einer Umwelteinstellungsskala an selbstberichtetem umweltfreundlichen Verhalten sein. Bei der prognostischen (Kriteriums-)Validität wird geprüft, inwieweit die Befunde eines Verfahrens mit den später tatsächlich eingetretenen Ereignissen übereinstimmen. Prognostische Validität wird daher häufig bei Instrumenten eingesetzt, die eine Vorhersage, eine Prognose ermöglichen sollen. Hierfür typische Verfahren sind Berufs-, Studien- oder Schuleignungstests, bei denen zu einem Zeitpunkt vor dem Eintritt in das jeweilige System, der entsprechende berufliche, Studien- oder Schulerfolg prognostiziert werden soll. Diese hypothetische Prognosekraft muss mittels der Überprüfung der prognostischen Validität nachgewiesen werden. So muss der entsprechende Eignungstest am späteren Kriteriumsverhalten Berufs-, Studien- beziehungsweise Schulerfolg zum Beispiel mittels einer Korrelationsanalyse validiert werden. Schneider & Minkmar (2003) validierten ihren Konservatismusfragebogen an der Einschätzung der eigenen politischen Haltung auf einer Rechts-links-Skala. Hierzu beantwortete eine Stichprobe neben dem Konservatismusfragebogen auch die Frage zur eigenen politischen Einstellung. Die individuellen Werte des Konservatismusfragebogens und der politischen Einstellung wurden miteinander korreliert. Es ergab sich ein Zusammenhang von 0,51 in der Form, dass konservativere Personen ihre eigene politische Einstellung eher als rechts beschrieben. Wie oben berichtet weist die Konservatismusskala eine Reliabilität von 0,87 auf. Korrigiert um die Unzuverlässigkeit5 ergibt sich nach Gleichung (5) eine korrigierte Validität von: 0,51 rwtwu = √ = 0,55 . 0,87 Gemessen am Kriterium der Rechts-links-Skala weist die Konservatismusskala daher eine wahre Validität von 0,55 auf. 5
Da die Reliabilität der Rechts-links-Skala unbekannt ist, wird lediglich um die Unzuverlässigkeit der Konservatismusskala korrigiert.
11 Reliabilität, Validität, Objektivität
253
4.3 Konstruktvalidität Eine Konstruktvalidierung dient dem Ziel, die Beziehungen zwischen den im Messinstrument berichteten Einstellungen oder Verhaltensweisen und Konstrukten aufzuklären. Es wird also überprüft, inwiefern das Instrument das zu erfassende Merkmal (= Konstrukt) misst. Ein Konstrukt ist ein gedankliches Konzept, das aus Überlegungen und Erfahrungen abgeleitet wurde, um beobachtbares Verhalten zu erklären, z. B. Konservatismus oder Maskulinität. Es gibt sehr viele unterschiedliche Methoden, um die Konstruktgültigkeit eines Verfahrens zu überprüfen: Eine Methode besteht darin, Hypothesen über die Dimensionalität des zu erfassenden Merkmals empirisch an dem in Frage stehenden Instrument zu überprüfen. Dieses kann mittels explorativer oder konfirmatorischer Faktorenanalyse (CFA) geschehen. Eine andere Möglichkeit der Konstruktvaliditätsüberprüfung ist es, die Skala mit einem anderem Instrument, das ein stark verwandtes oder das gleiche Konstrukt erfasst, zu vergleichen (zum Beispiel eine neu entwickelte Skala zu Konservatismus mit einem bereits etablierten Konservatismusfragebogen). Hierzu werden beide Instrumente an einer Stichprobe erhoben und die individuellen Werte miteinander korreliert. Eine dritte Möglichkeit schließlich ist, eine Zielperson von verschiedenen Beurteilern einschätzen zu lassen zum Beispiel neben dem Selbsturteil, Bekanntenurteile oder Expertenurteile heranzuziehen und sie miteinander zu korrelieren. Im Folgenden sollen diese drei Möglichkeiten exemplarisch anhand der Validierung des BFI-10 dargestellt werden. Konstruktvalidierung mittels Dimensionalitätsüberprüfung (Prüfung auf formale Validität) Die Voraussetzung für diese Art der Konstruktvalidierung ist das Vorliegen von Annahmen über die dimensionale Struktur des zu erfassenden Konstrukts. Ist dieses Konstrukt eindimensional (also homogen), oder gliedert es sich in mehrere Teilaspekte? Das oben beschriebene BFI-10 wurde entwickelt zur Messung der sogenannten Big Five Dimensionen der Persönlichkeit. Es hat also zum Ziel diese fünf Dimensionen abzubilden. Zur Überprüfung der Konstuktvalidität des BFI-10, muss nachgewiesen werden, dass das Verfahren tatsächlich eine fünfdimensionale Struktur aufweist, die die Dimensionen Extraversion, Verträglichkeit, Gewissenhaftigkeit, Neurotizismus und Offenheit für neue Erfahrungen widerspiegeln. Um dieses zu überprüfen, werden die mit dem Instrument erfassten BFI-10 Daten einer Faktorenanalyse unterzogen, welche Aufschluss über die zugrundeliegende Dimensionalität gibt. Als Verfahren zur Faktorenextraktion wurde die Hauptkomponentenanalyse (principal component analysis) gewählt (vgl. Kapitel 15 in diesem Handbuch). Zur Bestimmung der Anzahl der Faktoren (= Dimensionen) wurde der in Abbildung 6 wiedergegebene Screeplot verwendet. Dieser gibt Aufschluss über den Eigenwerteverlauf sämtlicher potentieller Faktoren. Nach dem Scree-Test (Cattell 1966) wird der Eigenwerteverlauf auf einen „Knick“ hin untersucht und die Anzahl von Faktoren extrahiert, deren Eigenwerte oberhalb des Knicks liegen.6 6
Cattell nannte den Test „Scree-Test“ (=Geröll-Test), da der Eigenwerteverlauf vorstellbar ist wie Geröll, das einen Berghang hinunter rutscht. Der Knick, an dem der feste Fels beginnt und das Geröllfeld endet, bestimmt die Anzahl zu extrahierender Faktoren.
254
Beatrice Rammstedt
Eigenwert
2,0
1,5
1,0
0,5
1
2
3
4
5
6
7
8
9
10
Faktorzahl
Abb. 6: Verlauf der Eigenwerte der BFI-10-Items In dem Bespiel ergeben sich sowohl nach dem Kaiser-Guttman-Kriterium (Eigenwerte > 1) als auch nach dem Scree-Test fünf zu extrahierende Faktoren (siehe Abbildung 6). Das Standardverfahren der Rotation und das auch in der Big-Five-Forschung übliche ist die Rotation der extrahierten Faktoren nach Varimax, das heißt orthogonal nach dem Einfachstrukturprinzip. Daher wurden die extrahierten Faktoren im vorliegenden Fall ebenfalls nach Varimax rotiert. Die resultierende Faktorladungsmatrix ist in Tabelle 3 wiedergegeben. Auch wenn zur Überprüfung der Validität bereits empirisch gezeigt werden konnte, dass das BFI-10 auf einer übergeordneten Ebene fünf Dimensionen aufweist, muss basierend auf der in Tabelle 5 dargestellten Faktorladungsmatrix noch nachgewiesen werden, dass jedes der zehn Items seine höchste Ladung auf dem korrespondierenden Faktor aufweist, während er nach dem Einfachstrukturprinzip, das der Varimaxrotation zugrunde liegt, auf den anderen Faktoren geringe Ladungen (mindestens < 0,40) aufweisen sollte. Demnach müssen jeweils die beiden Items Eins und Zwei (Extraversion), Items Drei und Vier (Verträglichkeit), Items Fünf und Sechs (Gewissenhaftigkeit), Items Sieben und Acht (Neurotizismus) und Items Neun und Zehn7 (Offenheit) auf je einem Faktor am höchsten laden. Dies ermöglicht die Interpretation der fünf extrahierten Faktoren im Sinne der oben beschriebenen Big Five und bestätigt somit die Konstruktvalidität des BFI-10. Konstruktvalidierung mittels eines empirischen Vergleichs mit anderen, dasselbe Konstrukt messenden Instrumenten Das BFI-10 wurde an einem etablierten Big Five Instrument, dem NEO Personilty Inventory (NEO-PI-R; Costa & McCrae 1992) validiert. Hierzu bearbeitete eine Stich7
Es fällt jedoch im vorliegenden Fall auf, dass die Ladung des Items 10 mit 0,47 im vorliegenden Fall zwar die höchste des Items aber deutlich geringer als die höchsten Ladungen der anderen Items ist.
11 Reliabilität, Validität, Objektivität
255
Tab. 3: Output der rotierten Ladungsmatrix in SPSS BFI-10 Items
1
2
3
4
5
0,474
−0,042
0,054
−0,164
Geht aus sich heraus, ist gesellig
0,764
0,160
0,082
−0,044
0,095
Neigt dazu, andere zu kritisieren
−0,028
0,289
0,156
−0,302
−0,031
0,078
0,741
0,028
−0,028
−0,017
Ist eher zurückhaltend, reserviert
Schenkt anderen Vertrauen, glaubt an das Gute im Menschen
0,046
Erledigt Aufgaben gründlich
0,147
0,216
0,405
0,023
0,150
Ist bequem, neigt zur Faulheit
0,033
−0,040
0,776
−0,141
−0,014
Ist entspannt, lässt sich durch Stress nicht aus der Ruhe bringen
−0,123
−0,087
−0,032
0,498
−0,094
Wird leicht nervös und unsicher
−0,147
0,071
−0,043
0,893
0,003
Hat eine aktive Vorstellungskraft, ist phantasievoll
0,062
0,045
−0,030
0,010
0,768
Hat nur wenig künstlerisches Interesse
0,059
−0,047
0,093
−0,071
0,471
Tab. 4: Bestimmung der Konstruktvalidität: Konvergente Korrelation des BFI-10 mit dem NEO-PI-R BFI-10 Skalen Extraversion Verträglichkeit Gewissenhaftigkeit Neurotizismus Offenheit
NEO-PI-R 0,688 0,517 0,696 0,733 0,629
probe beide Instrumente. Die individuellen Resultate wurden miteinander korreliert. Die konvergenten Korrelationskoeffizienten, die aus der Diagonalen der Tabelle 4 ersichtlich sind, geben Auskunft über die Validität der einzelnen Skalen. Wie aus der Tabelle ersichtlich validieren diese zwischen 0,52 für die Skala Verträglichkeit und 0,73 für die Skala Neurotizismus. Konstruktvalidierung mittels der Überprüfung des Zusammenhangs zwischen Selbstund Fremdurteil Zur Bestimmung der Konstruktvalidität mittels der Überprüfung des Zusammenhangs zwischen Selbst- und Fremdurteil schätzten heterosexuelle Paare sowohl sich selbst als auch ihren Partner mittels des BFI-10 ein. Die Selbst- und Partnereinschätzungen wurden pro Zielperson miteinander korreliert. Wiederum aus der Diagonalen der Tabelle 5 sind die entsprechenden Validitätskoeffizienten ersichtlich.
256
Beatrice Rammstedt
Tab. 5: Bestimmung der Konstruktvalidität: Konvergente Korrelation der Selbst- und Partnereinschätzung im BFI-10 BFI-10 Skalen (selbst) Extraversion Verträglichkeit Gewissenhaftigkeit Neurotizismus Offenheit
Partner 0,625 0,607 0,617 0,695 0,505
5 Vorgehen zur Güteüberprüfung von Skalen Im Zuge der Dokumentation einer Skala, beispielsweise im Rahmen ihrer Publikation, ist es notwendig, auf die Qualität der Skala einzugehen. In dieser Einführung wurden verschiedene Verfahren zur Bestimmung der Hauptgütekriterien vorgestellt. Häufig stellt sich jedoch die Frage, wie – mit möglichst geringem Aufwand – die Gütemerkmale am besten zu bestimmen sind. Daher soll hier zum Abschluss in Form einer Checkliste auf das minimale Vorgehen zur Bestimmung der Skalenqualität eingegangen werden. Objektivität –
Wird die Skala standardisiert vorgegeben, das heißt gibt es klare Anweisungen zur Durchführung der Befragung? Dann kann die Durchführungsobjektivität in der Regel als gesichert angesehen werden. – Werden ausschließlich geschlossene Antwortformate verwendet? Dann kann die Auswertungsobjektivität als gesichert angesehen werden. – Werden Mittelwerte und Standardabweichungen, eine inhaltliche Beschreibung für die Skala sowie für die Zielpopulation relevante Normen berichtet? Dann ist die Interpretationsobjektivität weitgehend gegeben. Reliabilität – –
Bei Skalen mit mehr als zwei Items sollte standardmäßig eine Reliabilitätsbestimmung in Form der internen Konsistenz durchgeführt werden. Wenn ein stabiles Merkmal erfasst wird (oder bei Skalen mit einem oder zwei Items), könnte an einer kleinen (Gelegenheits-)Stichprobe die Retest-Reliabilität zusätzlich bestimmt werden.
Validität – –
Die dimensionale Struktur der Skala sollte mittels explorativer oder konfirmatorischer Faktorenanalyse überprüft werden. Wenn Zusammenhänge zu bestimmten Außenkriterien oder mit anderen Skalen, die das gleiche oder ein verwandtes Merkmal erfassen, theoretisch unterstellt werden, sollte dies überprüft und die Korrelationen berichtet werden. Hierzu reicht in der Regel eine Gelegenheitsstichprobe aus.
11 Reliabilität, Validität, Objektivität
257
6 Häufige Fehler Der sicherlich häufigste Fehler bei der Konstruktion einer Skala ist es, die psychometrische Güteüberprüfung vollständig auszulassen. Da bei ungeprüften Skalen unklar ist, was und wie gut sie etwas messen, sind Korrelationen oder Ähnliches dieser mit Kriterien nur schwerlich interpretierbar. In Bezug auf die einzelnen Verfahren, geschehen häufig Fehler im Bereich der Interpretation der Cronbach Alpha-Koeffizienten. Da dieses Verfahren die am häufigsten verwendete Methode zur Reliabilitätsbestimmung ist, wird der Alpha-Koeffizient gleich gesetzt mit der Reliabilität. Zum einen gibt es nicht eine Reliabilität, sondern verschiedenen Koeffizienten basierend auf verschiedenen Bestimmungsmethoden. Diese Koeffizienten schwanken – genau wie beobachtete Werte – um eine wahre Reliabilität. Zum anderen wird missverstanden, dass der Alpha-Koeffizient lediglich die Homogenität einer Skala abbildet, somit die Interkorrelation ihrer Items. Ist eine Skala aber extrem heterogen, zum Beispiel da versucht wird mit möglichst wenig Items ein breites Merkmal inhaltlich abzudecken, ist zu erwarten, dass der Alpha-Koeffizient niedrig ausfällt. Ein hohes Alpha widerspräche sogar der Intention die Breite der Skala und somit deren Heterogenität mit sehr wenig Items abzudecken. Weitere Fehler geschehen häufig in der Verwendung der Faktorenanalyse. En Detail wird auf diese Fehler in Kapitel 15 dieses Handbuchs eingegangen; an dieser Stelle sollen lediglich die häufigsten kurz genannt sein: Häufig wird „Eigenwerte > 1“ als Extraktionskriterium verwendet, auch daher, da es bei SPSS voreingestellt ist. Bei geringer Anzahl von Items pro zu erfassendem Merkmal führt dieses Kriterium allerdings häufig zu einer Unterschätzung der zu extrahierenden Faktoren. Ferner, wird oft die resultierende Faktorenstruktur nicht rotiert. Die Interpretation dieser unrotierten Lösung ist bei mehr als einem Faktor allerdings nur schwerlich möglich, da der erste unrotierte Faktor immer der varianzstärkste ist.
7 Literaturempfehlungen Einen sehr guten Überblick über die mathematischen Grundlagen, Herleitungen und eine detaillierte Darstellung der Gütekriterien findet man bei Lienert & Raatz (1998). Dort wird auch auf Nebengütekriterien, wie die Fairness, die Akzeptanz oder die Transparenz eingegangen. Gerade für den Bereich der sozialwissenschaftlichen Umfrageforschung hat sich das Handbuch von Saris & Gallhofer (2007) etabliert. Es beschreibt nachvollziehbar und anhand typischer Beispiele die Erstellung, Güteüberprüfung und Auswertung von Fragebogen für den Kontext sozialwissenschaftlicher Umfragen.
258
Beatrice Rammstedt
Literaturverzeichnis Amthauer, R., Brocke, B., Liepmann, D., & Beauducel, A. (1999). Intelligenz-Struktur-Test 2000. Göttingen: Hogrefe. Borg, I. & Shye, S. (1995). Facet Theory: Form and Content. Newbury Park: Sage. Cattell, R. B. (1966). The Scree Test for the Number of Factors. Multivariate Behavioral Research, 1, 245–276. Costa, P. T. & McCrae, R. R. (1992). Revised NEO Personality Inventory (NEO PI-R) and NEO Five Factor Inventory. Professional Manual. Odessa: Psychological Assessment Ressources. Cronbach, L. (1951). Coefficient Alpha and the Internal Structure of Tests. Psychometrika, 16, 297–334. Henning, H. & Six, B. (2003). Machiavellismus. In ZUMA (Hg.), Elektronisches Handbuch sozialwissenschaftlicher Erhebungsinstrumente, Version 7.00. Mannheim: ZUMA. Horn, W. (1983). Leistungsprüfsystem (L-P-S). Göttingen: Hogrefe, 2. Auflage. Kecskes, R. & Wolf, C. (1993). Christliche Religiosität: Konzepte, Indikatoren, Messinstrumente. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 45, 270–287. Kecskes, R. & Wolf, C. (1995). Christliche Religiosität: Dimensionen, Messinstrumente, Ergebnisse. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 47, 494–515. Klauer, K. J. (1984). Kontentvalidität. Diagnostica, 30, 1–23. Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse. Weinheim: Beltz, 6. Auflage. Nunnally, J. C. & Bernstein, I. H. (1994). Psychometric Theory. New York: McGraw-Hill, 3. Auflage. Rammstedt, B. & John, O. P. (2007). Measuring Personality in One Minute or Less: A 10-Item Short Version of the Big Five Inventory in English and German. Journal of Research in Personality, 41, 203–212. Rost, J. (1996). Lehrbuch Testtheorie – Testkonstruktion. Bern: Huber. Saris, W. E. & Gallhofer, I. (2007). Design, Evaluation and Analysis of Questionnaires in Survey Research. New York: Wiley. Schneider, J. & Minkmar, H. (2003). Konservatismus. In A. Glöckner-Rist (Hg.), ZUMAInformationssystem. Elektronisches Handbuch sozialwissenschaftlicher Erhebungsinstrumente, Version 7.00. Mannheim: Zentrum für Umfragen, Methoden und Analysen. Spearman, C. (1910). "General Intelligence", Objectively Determined and Measured. American Journal of Psychology, 3, 281ff.
12 Thurstone- und Likertskalierung Joachim Gerich Johannes Kepler Universität Linz
Zusammenfassung. Eindimensionale Skalierungsverfahren sind notwendig, wenn eine gesuchte Merkmalsdimension nicht direkt messbar ist und ersatzweise durch die Kombination mehrerer manifester Indikatoren erhoben wird. Um diese Einzelmessungen zu einem gemeinsamen Messwert zusammenführen zu können sind Annahmen nötig, in welcher Weise die einzelnen Indikatoren mit der gesuchten latenten Variable in Verbindung stehen. Diese Annahmen (die Messmodelle) sind Grundlage eines Skalierungsverfahrens. In diesem Beitrag werden Messmodelle von Thurstone und Likert aus den frühen Entwicklungen der empirischen Sozialforschung präsentiert und ihre Anwendung anhand empirischer Daten demonstriert.
1 Einleitung Unter Skalierung wird in den Sozialwissenschaften das „Etikettieren von Objekten mit Zahlenwerten nach irgendeiner Regel“ (Borg & Staufenbiel 2007, S. 11) verstanden. Die eindimensionale Skalierung hat zum Ziel, Objekten durch die Etikettierung einen Messwert an einer gesuchten Inhaltsdimension zuzuordnen. Diese Skalierungsverfahren finden dann Anwendung, wenn die gesuchte Inhaltsdimension nicht direkt und unmittelbar (z. B. durch eine einzelne Frage) gemessen werden kann. Stattdessen wurden zur Messung mehrere manifeste Indikatoren operationalisiert, von denen angenommen wird, dass sie gemeinsam eine Messung der gesuchten latenten Dimension bilden. Skalierungsverfahren werden in der Regel angewandt, (1) um zu prüfen, welche dieser Indikatoren am besten dazu geeignet sind, (2) festzustellen wie „gut“ die Indikatoren insgesamt zur Messung geeignet sind und (3) wie aus den Einzelmessungen ein Index ermittelt werden kann, der die Messung entlang der gesuchten latenten Dimension repräsentiert. Die „Regel“ nach denen die Etikettierung erfolgt, folgt dabei bestimmten Annahmen – dem Messmodell. Die Annahme unterschiedlicher Messmodelle führt zu unterschiedlichen Etikettierungsregeln, d. h. Skalierungsverfahren. Im vorliegenden Beitrag wird eine Auswahl von prominenten Skalierungsverfahren (Thurstone- und Likertskalierung) näher vorgestellt.1 Diese Verfahren unterscheiden sich neben dem zugrunde gelegten Messmodell unter anderem durch einen wichtigen Anwendungsaspekt. Die Verfahren nach Thurstone konzentrieren sich in erster Linie auf die Skalierung der 1
Weitere Skalierungsverfahren mit unterschiedlichen Messmodellen werden in diesem Handbuch auch in Kapitel 13 (Guttman- und Mokkenskalierung) bzw. in Kapitel 14 (ItemResponse Theorie) vorgestellt.
S. 259–281 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_12, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
260
Joachim Gerich
Items (der Stimuli), in dem diesen durch die Urteile von Personen einer Eichstichprobe Zahlenwerte entlang des latenten Kontinuums zugewiesen werden. Auf Basis dieser „Vorarbeit“ können die Items anschließend bei den eigentlichen Untersuchungsstichproben zur Messung der gesuchten latenten Dimension eingesetzt werden. Die Anwendung des Skalierungsverfahrens von Likert kann dagegen auch ohne Eichstichprobe, d. h. direkt anhand der durchgeführten Messungen erfolgen.
2 Thurstone Skalierung Der Psychologe Louis Leon Thurstone (1887–1955) entwickelte verschiedene Verfahren zur Skalierung. Insbesondere drei Verfahren – Methode der paarweisen Vergleiche, Methode der gleich erscheinenden Intervalle und Methode der sukzessiven Intervalle – werden in der empirischen Sozialforschung auch als Thurstone Skalierungen bezeichnet. Die drei Methoden weisen zwar gewisse Ähnlichkeiten auf, dennoch handelt es sich um drei unterschiedliche Ansätze, die im Folgenden erläutert werden. 2.1 Die Methode der Paarweisen Vergleiche (Law of Comparative Judgement, LCJ) Grundlagen des Verfahrens Der Grundgedanke dieses Verfahrens besteht in einer psychophysischen Messung: Die „physische“ Ebene der Messung bezieht sich auf ein objektives Kontinuum. Dieses kann z. B. das Gewicht oder die Größe von Objekten darstellen, es kann sich jedoch auch – übertragen auf sozialwissenschaftliche Inhalte – z. B. um die Schwere von Verbrechen, das Ausmaß der Religiosität oder die Gefährlichkeit von psychoaktiven Substanzen handeln. Die psychische Ebene der Messung besteht in der eingeschätzten Wahrnehmung von Objekten entlang des Kontinuums. Die psychophysische Messung beschäftigt sich sodann mit dem Zusammenhang zwischen physischer Erscheinung und deren wahrgenommener Bewertung (z. B. dem nichtlinearen Zusammenhang zwischen objektiver Lautstärke und deren Wahrnehmung). Thurstones Methode knüpft an die Idee der psychophysischen Messung an. Ziel ist es jedoch nicht die objektive Verortung mit der subjektiven Wahrnehmung zu vergleichen, sondern die Ermittlung einer Messskala der subjektiven Einschätzung.2 Thurstone (1927a,b) geht von der Annahme aus, dass die Einschätzung eines Objektes entlang eines definierten Kontinuums aufgrund verschiedener Beeinflussungen der menschlichen Wahrnehmung variiert. Er geht jedoch auch davon aus, dass diese Beeinflussungen die Wahrnehmung in zufälliger Weise verschieben und bei mehrmaliger Einschätzung desselben Objektes ein Modalwert des Urteiles zu beobachten ist. Im speziellen trifft Thurstone die Annahme, dass das beobachtete Urteil über ein Objekt normalverteilt ist, und der Mittelwert der Verteilung die „wahre“ Einschätzung 2
Nach einem sehr ähnlichen Prinzip ist beispielsweise auch die Magnitude-Skalierung aufgebaut, deren Grundlage die Verhältnisschätzung von Reizen durch Respondenten darstellt. Wegener (1985) hat mit diesem Verfahren die, im ALLBUS verfügbare, MagnitudePrestige Skala entwickelt.
12 Thurstone- und Likertskalierung
261
Abb. 1: Wahrnehmungsverteilung der Differenz zweier Objekte entlang des Kontinuums repräsentiert. Wenn nun zwei Objekte (i und j) entlang des definierten Kontinuums miteinander verglichen werden sollen, so werden vom Urteiler die wahrgenommenen Orte beider Objekte am Kontinuum (si und sj ) miteinander verglichen. Wenn die wahrgenommene Ausprägung von i größer ist als die von j, dann führt dies zu einem Dominanzurteil (i>j). Nachdem jedoch die Wahrnehmungen von i und j variieren, kann das Urteil der Person nicht deterministisch – in dem Sinne, dass dies der wahren Dominanzrelation von i und j entspricht – interpretiert werden. Es kann lediglich angenommen werden, dass der Urteiler mit einer bestimmten Wahrscheinlichkeit zu einem Dominanzurteil i > j kommt, wenn die „wahre“ Anordnung der Objekte tatsächlich dieser Relation entspricht. Wenn die Wahrnehmung von i und j jeweils normalverteilt um die wahren Werte si und sj variieren, dann ist auch die Differenz der Wahrnehmungen von i und j normalverteilt mit dem Mittelwert si − sj und der Standardabweichung σi−j =
σi2 + σj2 − 2rij σi σj ,
(1)
wobei σk die Standardabweichung der Wahrnehmung von Objekt k und rij die Korrelation der Wahrnehmungen der Objekte i und j bezeichnen. Wenn die Differenzverteilung von si − sj z-standardisiert wird, ergibt sich ein z-Wert an der Stelle 0 der Verteilung folgender Weise: zij =
0 − (si − sj) σi2 + σj2 − 2rij σi σj
=
sj − si σi2 + σj2 − 2rij σi σj
(2)
Abbildung 1 zeigt ein Beispiel einer Verteilung von Differenzurteilen. Die „wahre“ Differenz von Objekt i und Objekt j ist in diesem Fall kleiner null (genauer: um 0,4 Standardabweichungen), was bedeutet, dass Objekt j eine höhere Ausprägung auf dem Kontinuum besitzt als Objekt i. Die beobachteten Differenzurteile werden normalverteilt um die wahre Differenz si -sj angenommen. Die Wahrscheinlichkeit, dass eine beobachtete Differenz der beiden Merkmale ebenfalls kleiner null ist, ergibt sich somit aus der Fläche unter der Normalverteilungskurve, die sich links vom Nullpunkt befindet. Im Beispiel aus Abbildung 1 liegt der Nullpunkt zij = 0,4 Standardabwei-
262
Joachim Gerich P-Matrix
Z-Matrix
j 1 1 i
j
2 ଵଶ
3 ଵଷ
4 ଵସ
ଶଷ
ଶସ
.50 ସଷ
ଷସ
2
.50 ଶଵ
3
ଷଵ
.50 ଷଶ
4
ସଵ
ସଶ
i
.50
1
2
3
4
1
.00
ݖଵଶ
ݖଵଷ
ݖଵସ
2
ݖଶଵ
.00
ݖଶଷ
ݖଶସ
3
ݖଷଵ
ݖଷଶ
.00
ݖଷସ
4
ݖସଵ
ݖସଶ
ݖସଷ
.00
Skalenwert
ݖҧ
i
ݏଵ
1
ݖҧଵ ൌ ሺݖଵଶ ݖଵଷ ݖଵସ ሻȀͶ
1
ݏଵ ൌ ݖҧଵ െ ݉݅݊ ሺݖҧ ሻ
2
ݖҧଶ ൌ ሺݖଶଵ ݖଶଷ ݖଶସ ሻȀͶ
2
ݏଶ ൌ ݖҧଶ െ ݉݅݊ሺݖҧ ሻ
3
ݖҧଷ ൌ ሺݖଷଵ ݖଷଶ ݖଷସ ሻȀͶ
3
ݏଷ ൌ ݖҧଷ െ ݉݅݊ሺݖҧ ሻ
4
ݖҧସ ൌ ሺݖସଵ ݖସଶ ݖସଷ ሻȀͶ
4
ݏସ ൌ ݖҧସ െ ݉݅݊ሺݖҧ ሻ
i
Abb. 2: Vorgehensweise bei der Skalierung chungen rechts neben der wahren Differenz. Die Wahrscheinlichkeit für ein Urteil j > i beträgt daher in diesem Fall 65 %. Wären dagegen die „wahren“ Ausprägungen der Objekte i und j gleich (si − sj = 0), dann wäre die Wahrscheinlichkeit der Urteile i>j und j>i mit jeweils 50 % gleich hoch. D. h., bei Objekten mit gleichen Ausprägungen am Kontinuum werden die beiden möglichen Urteile zufällig und mit gleicher Häufigkeit auftreten, wenn die Personen in jedem Fall ein Urteil abgeben müssen (forced-choice Erhebung). Zur Vereinfachung wurden von Thurstone zwei Restriktionen angenommen. Zum einen wird vereinfacht angenommen, dass die Varianzen der Wahrnehmungen aller Objekte gleich sind (σi2 = σj2 ), zum anderen, dass die Korrelationen der Wahrnehmungen zwischen allen Objekten konstant ist (rij = rik ). Durch die Vernachlässigung der Subskripte vereinfacht sich daher Gleichung (2) zu zij = √
σ2
sj − si sj − si . =3 2 2 + σ − 2rσ 2σ 2 (1 − r)
(3)
3 Der Ausdruck 2σ 2 (1 − r) in (3) ist allerdings für alle Paarvergleiche konstant und kann ohne weiteren Informationsverlust beispielsweise gleich eins gesetzt werden, da es sich lediglich um eine Lineartransformation der Skalierung handelt. Daraus resultiert die übliche vereinfachte Gleichung des „law of comparative judgments“, die von Thurstone als „Case V“ bezeichnet wird als: zij = sj − si
(4)
Vorgehensweise bei der Skalierung Angenommen es werden vier Objekte (Stimuli) zur Skalierung verwendet, dann werden den Urteilern alle möglichen k ·(k −1)/2 (in diesem Fall daher sechs) Paarvergleiche vorgelegt. Die Personen geben für alle Paarvergleiche ein Urteil darüber ab, ob hinsichtlich
12 Thurstone- und Likertskalierung Rekonstruierte z-Matrix
Rekonstruierte P-Matrix j
j 1
i
263
2
3
4
1
-
1
2
ݖଶଵ ൌ ݏଶ െ ݏଵ
-
3
ݖଷଵ ൌ ݏଷ െ ݏଵ
ݖଷଶ ൌ ݏଷ െ ݏଶ
-
4
ݖସଵ ൌ ݏସ െ ݏଵ
ݖସଶ ൌ ݏସ െ ݏଶ
ݖସଷ ൌ ݏସ െ ݏଷ
i -
1
2
-
3
2
Ԣଶଵ
-
3
ᇱ ଷଵ
Ԣଷଶ
-
4
Ԣସଵ
Ԣସଶ
Ԣସଷ
4
-
Differenzmatrix j 1
i
2
3
1
-
2
݀ଵ ൌ หଶଵ െ ଶଵ ห
-
3
݀ଶ ൌ หଷଵ െ ଷଵ ห
݀ସ ൌ หଷଶ െ ଷଶ ห
-
4
݀ଷ ൌ หସଵ െ ସଵ ห
݀ହ ൌ หସଶ െ ସଶ ห
݀ ൌ หସଷ െ ସଷ ห
4 ܦܣൌ
σሺିଵሻȀଶ ݀ ୀ ݇ሺ݇ െ ͳሻȀʹ
-
Abb. 3: Prüfung der Reproduzierbarkeit des vorgegebenen Kontinuums Stimulus i größer j oder umgekehrt Stimulus j größer i ist. Die Urteile der n unterschiedlichen Personen werden als n Replikationen von Urteilen aufgefasst. Die Ergebnisse der Urteile werden anschließend in einer P-Matrix (Dominanzmatrix) zusammengefasst (Abbildung 2). Die P-Matrix beinhaltet die relativen Häufigkeiten pij , zu denen der Stimulus i (Zeilen der Matrix) größer eingeschätzt wird als der Stimulus j (Spalten der Matrix). Es handelt sich also um jene relativen Häufigkeiten, zu denen Stimulus i den Stimulus j dominiert. Da der Paarvergleich eines Stimulus mit sich selbst klarerweise nicht erhoben wird, kann in der Diagonale – entsprechend den theoretischen Annahmen – die Wahrscheinlichkeit 0,5 eingetragen werden. Die P-Matrix wird in die z-Matrix übergeführt, in dem für die geschätzten Wahrscheinlichkeiten der P-Matrix die entsprechenden z-Werte aus einer Tabelle der kumulativen Normalverteilung eingesetzt werden. Die z-Werte eines Stimulus werden anschließend über alle Paarvergleiche gemittelt. Üblicherweise werden diese durchschnittlichen z-Werte bezüglich des kleinsten Wertes normiert, woraus die endgültigen Skalenwerte si für jeden Stimulus resultieren. Im Anschluss daran kann geprüft werden, inwieweit die so ermittelten Skalenwerte für jeden Stimulus geeignet sind, die Ausgangsmatrix P der empirisch ermittelten Wahrscheinlichkeiten zu reproduzieren. Dazu wird für jedes Stimuluspaar die Differenz der Skalenwerte gebildet, welche dem theoretischen z-Wert (z ) entspricht, der aufgrund der Skalenwerte rekonstruiert werden kann (Abbildung 3). Die den z -Werten entsprechenden p -Werte können aus einer Tabelle der kumulativen Normalverteilung entnommen werden, wodurch die rekonstruierte P-Matrix (P ) resultiert. Dies sind die auf Basis der Skalenwerte prognostizierten Wahrscheinlichkeiten p(i > j). Nun kann für jedes Stimuluspaar die Differenz der reproduzierten und
264
Joachim Gerich
empirischen Wahrscheinlichkeit (d) berechnet werden. Die durchschnittliche absolute Differenz (AD) kann schließlich als einfacher Indikator der Modellanpassung herangezogen werden. Nach Edwards (1957, S. 40) sollten sich „typische“ Werte von AD etwa in einem Bereich kleiner als 0,03 bewegen. Für weitere Maße zur Beurteilung des Modellfits sowie Tests der Signifikanz sei auf Edwards (1957) sowie Borg & Staufenbiel (2007) verwiesen. Nachdem die Skalenwerte der Stimuli ermittelt wurden, können diese einer Untersuchungsstichprobe in dichotomer Form (z. B. stimme zu / lehne ab, trifft zu / trifft nicht zu) vorgelegt werden. Personenwerte können sodann als Median oder Mittelwert der Skalenwerte (der Eichstichprobe) jener Stimuli errechnet werden, denen die Befragten zugestimmt haben. Anwendungsbeispiel Zur Demonstration der Methode der paarweisen Vergleiche wurde 29 Studierenden ein Fragebogen zur Bewertung der Gefährlichkeit von sieben Substanzen vorgelegt. Bei den Substanzen handelt es sich um Alkohol, Ecstasy, Hanf (Haschisch, Marihuana), Heroin, Kokain, Nikotin und Kaffee. Das Ziel der Erhebung bestand darin, die Stimuli (Substanzen) entlang des Kontinuums der Gefährlichkeit bei regelmäßigem Konsum zu skalieren. Dazu wurden alle 21 möglichen Paare von Substanzen gebildet und in einer zufälligen Reihung vorgelegt. Die Befragten sollten jeweils beurteilen, welche der beiden Substanzen bei regelmäßigem Konsum zu größeren körperlichen Gefahren führt. Zu Vergleichszwecken wurde denselben Studierenden ein zweites Erhebungsinstrument vorgelegt. In diesem Fall sollte die Gefährlichkeit derselben sieben Substanzen anhand einer siebenteiligen Ratingskala (1 =völlig ungefährlich, 7 =sehr gefährlich) eingestuft werden. Tabelle 1 beinhaltet die P-Matrix der Angaben zu den vollständigen Paarvergleichen. Sie zeigt jene Anteile an Befragten, welche die Substanzen in der jeweiligen Zeile im Vergleich zu den Substanzen in der jeweiligen Spalte gefährlicher einstufen. Alkohol wurde beispielsweise von sieben Prozent der Befragten gefährlicher als Ecstasy und von zehn Prozent gefährlicher als Kokain bewertet. Aus dieser Matrix ist ersichtlich, dass es insgesamt sechs Paarvergleiche gibt, bei deren Bewertung durch die 29 Studierenden keine Varianz auftritt. Alkohol wird beispielsweise von allen Befragten gefährlicher als Kaffee eingeschätzt. Tabelle 2 beinhaltet die zur Dominanzmatrix P entsprechende Z-Matrix der kumulativen Normalverteilung. Hier besteht das Problem, dass für p-Werte von eins bzw. null aus jenen Paarvergleichen mit konstanter Bewertung keine z-Werte definiert sind (sie wären + bzw. − ∞). Diese p-Werte müssen somit zur Bestimmung der z-Werte ersetzt werden. Zur Ermittlung der z-Werte in Tabelle 2 wurden p-Werte in der Höhe von 1,0 durch 0,99 und 0,0 durch 0,01 ersetzt. Tabelle 3 beinhaltet die zeilenweise aus Tabelle 2 gemittelten z-Werte. Die endgültigen Skalenwerte si der Thurstone-Skalierung ergeben sich dann durch die Normierung zum kleinsten Skalenwert (−1,75 für Kaffee). Wenig überraschend zeigt sich, dass Kaffee mit deutlichem Abstand die, als am wenigsten gefährlich eingestufte Substanz ist. Heroin ist die am gefährlichsten eingestufte
12 Thurstone- und Likertskalierung
265
Tab. 1: P-Matrix
Alkohol Ecstasy Hanf Heroin Kokain Nikotin Kaffee
Alkohol
Ecstasy
Hanf
Heroin
Kokain
Nikotin
Kaffee
0,50 0,93 0,24 1,00 0,90 0,21 0,00
0,07 0,50 0,00 0,79 0,35 0,03 0,03
0,76 1,00 0,50 0,97 0,97 0,59 0,07
0,00 0,21 0,03 0,50 0,07 0,00 0,00
0,10 0,65 0,03 0,93 0,50 0,07 0,00
0,79 0,97 0,41 1,00 0,93 0,50 0,03
1,00 0,97 0,93 1,00 1,00 0,97 0,50
Alkohol
Ecstasy
Hanf
Heroin
Kokain
Nikotin
Kaffee
0,00 1,48 −0,71 2,33 1,28 −0,81 −2,33
−1,48 0,00 −2,33 0,81 −0,39 −1,88 −1,88
−2,33 −0,81 −1,88 0,00 −1,48 −2,33 −2,33
−1,28 0,39 −1,88 1,48 0,00 −1,48 −2,33
0,81 1,88 −0,23 2,33 1,48 0,00 −1,88
Tab. 2: Z-Matrix
Alkohol Ecstasy Hanf Heroin Kokain Nikotin Kaffee
0,71 2,33 0,00 1,88 1,88 0,23 −1,48
2,33 1,88 1,48 2,33 2,33 1,88 0,00
Tab. 3: Skalenwerte z¯i
si
s¯rating (SD) 4,69 (1,37) 6,41 (1,12) 4,03 (1,35) 6,86 (0,44) 6,48 (0,91) 4,62 (0,94) 2,34 (0,90)
Alkohol
−0,18
1,57
Ecstasy
1,02
2,77
−0,79
0,96
Heroin
1,59
3,34
Kokain
0,73
2,48
Nikotin
−0,63
1,12
Kaffee
−1,75
0,00
Hanf
266
Joachim Gerich
Abb. 4: Verortung der Substanzen durch Rating und Paarvergleiche Substanz. Dazwischen findet sich einerseits die Gruppe der „weichen“ Substanzen (Alkohol, Nikotin und Hanf-Produkte) und davon deutlich abgesetzt die „härteren“ Substanzen Kokain und Ecstasy. Insbesondere die – im Vergleich zu den übrigen Substanzen – relativ geringe Gefährlichkeitseinstufung von Hanf-Produkten und die höhere Einstufung von Alkohol spiegelt die Stichprobenabhängigkeit (die Befragten sind Soziologie-Studierende) der Skalierung wider: In einer allgemeinen Bevölkerungsumfrage wird der regelmäßige Konsum von Hanf-Produkten deutlich gefährlicher als der von Alkohol bewertet (z. B. Uhl et al. 2005). Auf der Basis der Thurstone-Skalierung sind Verhältnisaussagen über Distanzen möglich. Beispielsweise ist die Distanz der Gefährlichkeit von Kaffee und Alkohol (1,57) annährend gleich groß wie die zwischen Alkohol und Heroin. In Tabelle 3 und Abbildung 4 sind zum Vergleich auch die Mittelwerte der Gefährlichkeitseinstufungen anhand der siebenteiligen Ratingskalen ersichtlich. Obwohl beide Erhebungsarten leichte Differenzen zeigen (z. B. ist die Reihenfolge der Einstufung von Kokain und Ecstasy beim Rating-Format im Vergleich zur Thurstone-Skalierung vertauscht), weisen die Ergebnisse beider Skalierungen dennoch eine hohe Ähnlichkeit auf. Die gemeinsame Verortung der Substanzen nach Rating- und Paarvergleichen (Abbildung 4) zeigt, dass die Distanzen zwischen Kaffee, Hanf, Alkohol und Ecstasy nach beiden Skalierungen annähernd identisch sind. Die abweichenden Distanzen der übrigen drei Substanzen könnten in Anbetracht der geringen Anzahl an Urteilern wohl auch im Bereich von Stichprobenfehlern liegen.3 Ob sich somit der höhere Erhebungsaufwand der LCJ-Skalierung im Vergleich zu einem Rating-Verfahren lohnt, wäre daher insbesondere in diesem Fall fraglich.4 Krabbe (2008) berichtet ebenfalls von 3
4
Die Mittelwertsdifferenzen zwischen Kokain und Ecstasy sowie Alkohol und Nikotin, basierend auf den Rating-Urteilen, sind beispielsweise nicht signifikant. Einschränkend muss jedoch berücksichtigt werden, dass die Erhebung der Rating-Urteile direkt im Anschluss an die Paarvergleiche erfolgte. Daher können die Ergebnisse der Rating-
12 Thurstone- und Likertskalierung
267
ReproduzierteݖԢ Matrix Alkohol Ecstasy Hanf Heroin Kokain Nikotin Kaffee
Alkohol 1,20 0,61 1,77 0,91 0,45 1,57
Ecstasy 1,81 0,57 0,29 1,65 2,77
Hanf Heroin 2,38 1,52 0,86 0,16 2,22 0,96 3,34 ReproduzierteԢ Matrix
Kokain 1,36 2,48
Nikotin 1,12
Kaffee
Alkohol Ecstasy Hanf Heroin Kokain Nikotin Kaffee
Alkohol 0,89 0,27 0,96 0,82 0,33 0,06
Ecstasy 0,04 0,72 0,35 0,05 0,00
Hanf Heroin 0,99 0,94 0,15 0,56 0,01 0,17 0,00 dMatrix
Kokain 0,09 0,01
Nikotin 0,13
Kaffee
Alkohol Ecstasy Hanf Heroin Kokain Nikotin Kaffee
Alkohol 0,04 0,03 0,04 0,08 0,12 0,06
Ecstasy 0,04 0,07 0,00 0,02 0,03
Hanf 0,02 0,03 0,03 0,10
Kokain 0,02 0,01
Nikotin 0,10
Kaffee
Heroin 0,08 0,01 0,00
Abb. 5: Prüfung der Reproduzierbarkeit einem hohen Übereinstimmungsgrad zwischen LCJ-Skalierung und Rating-Verfahren. Der Autor sieht dennoch Vorteile in der Erhebung mittels Paarvergleichen, da er bei Rating-Urteilen im Vergleich zu Paarvergleichen einen höheren kognitiven Aufwand (durch die stärkere Notwendigkeit von generalisierten Urteilen) für die Respondenten vermutet. Weitere Untersuchungen zur Stützung dieser Annahme wären jedoch zweifellos nötig. Zur Beurteilung der Güte der Thurstone-Skala werden nun basierend auf den Skalenwerten Si in Tabelle 3 die reproduzierten z-Werte (zi ) ermittelt woraus anhand der Tafelwerte der kumulativen Normalverteilung die reproduzierte p’-Matrix erstellt werden kann. Anschließend werden die absoluten Differenzen zwischen empirischen und reproduzierten p-Werten ermittelt (Abbildung 5). Die durchschnittliche absolute Differenz zwischen empirischen und reproduzierten Wahrscheinlichkeiten betragen in diesem Beispiel AD = 0,93/21 = 0,044. Verglichen mit den Richtwerten von Edwards (1957) handelt es sich somit um eine mäßige basierten Skalierung – streng genommen – nicht unabhängig von den Paarvergleichen interpretiert werden. Es ist also denkbar, dass die Rating-Urteile als persönliche Bilanz der – zuvor durchgeführten – paarweisen Urteile aufzufassen sind.
268
Joachim Gerich
Abb. 6: Veränderung der Skalenwerte aufgrund unterschiedlicher Substitutionen der beobachteten 1- bzw. 0-Wahrscheinlichkeiten Güte. Dieses Ergebnis ist jedoch folgenderweise zu relativieren: Für die beobachteten Wahrscheinlichkeiten 1,0 bzw. 0,0 wurden stellvertretend die Werte 0,99 bzw. 0,01 eingesetzt, damit die entsprechenden z-Werte (in diesem Fall +2,33 bzw. −2,33) ermittelt werden konnten. Wenn nun jedoch statt p = 1,0 der stellvertretende Wert 0,9999 (anstelle von 0,99) verwendet wird, führt dies zu einer deutlichen Veränderung des korrespondierenden z-Wertes (3,72 statt 2,33). Die Neuberechnung der Skalenwerte führt in diesem Fall zu einer geringfügigen Verschiebung der resultierenden Skalenwerte (Abbildung 6). Die durchschnittliche absolute Differenz zwischen empirischen und reproduzierten Wahrscheinlichkeiten reduziert sich jedoch auf AD = 0,46/21 = 0,022. Dieser Wert repräsentiert nun eine akzeptable Skalengüte. Generell bleibt festzuhalten, dass – insbesondere, wenn die eingesetzten Stimuli ein sehr breites Spektrum des Beurteilungskontinuums abdecken – bei Paarvergleichen mit dem Auftreten von Dominanzwahrscheinlichkeiten von 1,0 bzw. 0,0 zu rechnen ist. In dieser Anwendung war beispielsweise von vorneherein damit zu rechnen, dass es wenig wahrscheinlich ist, dass jemand Kaffee gefährlicher einschätzen würde als Heroin. Wenn diese 1- bzw. 0-Wahrscheinlichkeiten mit unterschiedlichen Werten substituiert werden, kann sich dies auch unterschiedlich auf das Resultat der Skalierung auswirken. Borg & Staufenbiel (2007) erwähnen auch die Möglichkeit, die Zellen mit 1- bzw. 0-Wahrscheinlichkeiten bei der Auswertung unberücksichtigt zu lassen. Der Nachteil dieser Vorgehensweise besteht jedoch darin, dass gerade jene Stimuluspaare mit eindeutig beurteilter Dominanzrelation nicht in die Ermittlung der Skalenwerte eingehen. Insgesamt ist daher diese Methode insbesondere für die Skalierung feiner Stimulusdifferenzen sinnvoll. 2.2 Die Methode der gleich erscheinenden Intervalle Die Methode der gleich erscheinenden Intervalle (equal-appearing intervals) wurde von Thurstone & Cave (1929) begründet. Sie ist zur vereinfachten Skalierung einer größeren Anzahl an Items (Thurstone & Cave (1929) verwendeten beispielsweise 130 Aussagen) als Alternative zur LCJ-Methode gedacht, da der Aufwand der Erhebung der Urteile bei paarweisen Vergleichen nicht-linear mit der Anzahl der Stimuli zunimmt. In der ursprünglichen Variante wurden die zu skalierenden Stimuli auf Karten geschrieben.
12 Thurstone- und Likertskalierung
269
Die Urteiler sollten diese Karten hinsichtlich eines definierten inhaltlichen Kriteriums auf einer elfteiligen Skala einordnen. Die elf Skalenpunkte wurden mit den Buchstaben A-K bezeichnet, wobei lediglich die beiden Endpunkte (K =„favorable“, also positiv mit der Zieldimension assoziiert, A = „unfavorable“, also negativ mit der Zieldimension assoziiert) und der Mittelpunkt (F =neutral) definiert sind. Die Urteiler sollten dabei nicht nach ihrer eigenen Einstellung antworten, sondern die inhaltliche Bedeutung der Stimuli entlang des definierten Kontinuums einordnen. Thurstone & Cave (1929) verwendeten beispielsweise folgende Items für eine Skala zur Einstellung zur Kirche: – –
„I believe the church is the greatest institution in America today“ und „I believe the churches are doing far more harm than good“
Während die erste Aussage von den Urteilern überwiegend als deutlich positive Einstellung gegenüber der Kirche eingestuft wurde, entspricht die zweite Aussage einer Einstellung, die als deutlich negative Einstellung gegenüber der Kirche interpretiert wird. Thurstone und Chave gehen bei dieser Einstufung einerseits davon aus, dass die jeweilige Semantik von den Urteilern unabhängig von ihrer eigenen Einstellung bewertet werden kann. Untersuchungen zu dieser Annahme kommen allerdings zu unterschiedlichen Ergebnissen.5 Weiterhin wird angenommen, dass die Abstände zwischen den elf Skalenpunkten von den Urteilern als gleich groß interpretiert werden. Dies sollte dadurch suggeriert werden, dass lediglich drei Referenzpunkte (Endpunkte und neutraler Punkt) benannt werden und daher die Abstufungen dazwischen als gleich groß erscheinen sollten („equal-appearing“). Die weitere Vorgehensweise der Skalierung ist wenig aufwändig. Als Skalenwert si eines Stimulus wird der Median der Urteile entlang der elfteiligen Skala verwendet. Anhand dieses Skalenwertes werden für die Endform der Skala eine bestimmte Menge an Stimuli (etwa 20) so selektiert, dass diese das gesamte Spektrum der elf Skalenpunkte möglichst gleichmäßig abdecken. Als zweites Kriterium der Stimulusselektion wird der Quartilsabstand (Q) der Urteilsverteilungen herangezogen. Demnach sollten insbesondere Stimuli mit kleinen Quartilsabständen für die endgültige Skala präferiert werden. Durch dieses Kriterium sollen somit vorwiegend Stimuli selektiert werden, die bei den Urteilern die geringsten Bewertungsdivergenzen hervorrufen. Zur Ermittlung von Personenwerten werden die auf diese Weise selektierten Stimuli einer Befragtenstichprobe zur Messung der gesuchten latenten Variable in zufälliger Reihenfolge als Items mit dichotomen Antwortvorgaben („trifft zu“ – „trifft nicht zu“, „stimmt“ – „stimmt nicht“, etc.) vorgelegt. Personenwerte werden entweder aus dem arithmetischen Mittel oder aus dem Median der Si -Werte jener Items berechnet, denen der Befragte zugestimmt hat.
5
Vergleiche dazu Borg & Staufenbiel (2007, S. 311) sowie Edwards (1957).
270
Joachim Gerich
2.3 Die Methode der sukzessiven Intervalle (MSI) Grundlagen des Verfahrens Eine weitere von Thurstone entwickelte Methode wurde erstmals von Saffir (1937) publiziert. Es handelt sich um eine Methode, die gewissermaßen die Logik der paarweisen Vergleiche mit jener der gleich erscheinenden Intervalle verbindet. Die Urteile über eine bestimmte Anzahl an Stimuli hinsichtlich ihrer Position am latenten Kontinuum werden ähnlich wie in der Methode der gleich erscheinenden Intervalle (d. h. ohne den Rückgriff auf Paarvergleiche) anhand einer geordneten Skala mit mehreren Ausprägungen erhoben. Im Unterschied zur Methode der gleich erscheinenden Intervalle werden allerdings die Abstände zwischen den Kategorien nicht als fixiert und gleich groß angenommen. Wie in der Methode der paarweisen Vergleiche wird angenommen, dass aufgrund unterschiedlicher Wahrnehmungsfaktoren die Einordnung eines Stimulus entlang des latenten Kontinuums normalverteilt variiert. Des Weiteren wird angenommen, dass das latente Kontinuum in eine bestimmte Anzahl an geordneten Kategorien eingeteilt werden kann (diese entsprechen den Ausprägungen der Bewertungsskala). Allerdings wird nun die Lokation einer bestimmten Kategorie am latenten Spektrum ebenfalls nicht als fixiert angenommen. Wie für die Einordnung der Stimuli gilt nun auch für die Verortung der Skalenkategorien, dass deren wahrgenommene Lokation am latenten Spektrum normalverteilt um den „wahren“ Ort variiert. Die grundlegende Modellannahme ist somit identisch mit jener des „comparative judgements“. Jedoch wird nicht das Urteil des Vergleiches zweier Stimuli betrachtet, sondern das Urteil des Vergleiches eines Stimulus mit einer bestimmten Anzahl an Kategorien. Die Annahme lautet, dass eine Person einen Stimulus unterhalb einer bestimmten Kategorie der vorgelegten Skala einordnet, wenn der wahrgenommene Ort des Stimulus am Kontinuum kleiner ist als die wahrgenommene Lokation der Kategorie am Kontinuum. Da sowohl die wahrgenommene Lokation des Stimulus wie auch die der Kategorien als normalverteilt angenommen werden, kann analog zum law of comparative judgment folgende Grundgleichung aus der Differenz zweier normalverteilter Variablen angeschrieben werden: zjg =
tg − sj σg2 + σj2 − 2rgj σg σj
(5)
Dabei ist zjg jener z-Wert der kumulativen Normalverteilung, der mit der Wahrscheinlichkeit, dass Stimulus j unterhalb der Kategorie g eingeordnet wird, korrespondiert. tg repräsentiert den Ort der Kategorie g und sj den Ort des Stimulus j am Kontinuum mit den jeweiligen Standardabweichungen σ und der Korrelation r zwischen den wahrgenommen Positionen von Stimulus und Kategorie. Da zur Lösung der Gleichung wiederum zu viele unbekannte Parameter enthalten sind, wurden verschiedene Varianten mit unterschiedlichen Restriktionen vorgeschlagen (Torgerson 1965, S. 209). Die einfachste Lösung besteht – wie auch im „case V“ des law of comparative judgments – darin, Varianzen und Korrelationen als konstant
12 Thurstone- und Likertskalierung
271
anzunehmen. Wenn der konstante Term mit eins gleichgesetzt wird, reduziert sich (wie im „case V“ des law of comparative judgments) Gleichung (5) zu zjg = tg − sj .
(6)
Die praktische Vorgehensweise wird folgenderweise realisiert: Es werden für jeden Stimulus und jede Kategorie der Bewertungsskala die Häufigkeiten ermittelt, zu denen die n Urteiler Stimulus j in Kategorie g einordnen. Aus diesen Verteilungen werden die kumulativen relativen Häufigkeiten ermittelt, zu denen Stimulus j in eine Kategorie kleiner gleich g eingeordnet wurde. Dies ist die Schätzung der Wahrscheinlichkeit, dass die Kategorie g + 1 den Stimulus j „dominiert“. Anschließend wird wiederum die zMatrix ermittelt, welche die mit den Dominanzwahrscheinlichkeiten korrespondierenden z-Werte der Nomalverteilung enthält. Wie Torgerson (1965, S. 235 f.) zeigt, stellt der Mittelwert der z-Werte einer bestimmten Kategorie über alle Stimuli den Kleinste-Quadrate-Schätzer der Lokation der Kategorie am Kontinuum dar. Die Mittelwerte der z-Werte eines Stimulus über alle Kategorien subtrahiert vom Gesamtdurchschnitt aller z-Werte sind die KleinsteQuadrate-Schätzer für die gesuchten Lokationen der Stimuli am latenten Kontinuum. Anwendungsbeispiel Zur Illustration der Methode der sukzessiven Intervalle soll im Folgenden das Beispiel zur Gefährlichkeitsbewertung verschiedener Substanzen wieder aufgegriffen werden (vergleiche Anwendungsbeispiel zur LCJ-Skalierung). Zur Skalierung wird nun nicht wie bei der LCJ auf die Erhebung der Paarvergleiche der Substanzen zurückgegriffen, sondern auf die Ratingurteile der Gefährlichkeitseinschätzung der sieben Substanzen anhand der siebenteiligen Skala (von 1 =völlig ungefährlich bis 7 =sehr gefährlich). In Tabelle 4 sind die jeweiligen Verteilungen der Einstufungen aller sieben Substanzen an den sieben Beurteilungskategorien basierend auf den Urteilen der 29 befragten Studierenden ersichtlich. Der Tabelle kann beispielsweise entnommen werden, dass zehn von 29 Urteiler Alkohol in Kategorie 5 und 14 von 29 Beurteilern Kaffee in Kategorie 2 eingeordnet haben. Für die Verteilung in Tabelle 4 werden nun die kumulierten relativen Häufigkeiten je Substanz berechnet, die in Tabelle 5 dargestellt sind (z. B. 79 Prozent der Urteiler haben Alkohol in einer Kategorie kleiner/gleich 5 eingeordnet). Die Tabelle beinhaltet zusätzlich die mit den kumulierten Wahrscheinlichkeiten korrespondierenden z-Werte aus den Tafelwerten der kumulativen Normalverteilung. Dazu bleibt einerseits die höchste Ausprägungskategorie (7) unberücksichtigt, da sie keine Skalierungsinformation liefert (die kumulierte Wahrscheinlichkeit ist hier immer gleich eins). Andererseits ist ersichtlich, dass in Tabelle 5 in den verbleibenden Kategorien zahlreiche Null- und Eins-Wahrscheinlichkeiten auftreten. Da für diese Wahrscheinlichkeiten keine z-Werte ermittelt werden können, müssen diese Zellen entweder für die Skalierung unberücksichtigt bleiben oder durch andere Werte substituiert werden. In diesem Beispiel wurden Null-Wahrscheinlichkeiten mit 0,0001 und Eins-Wahrscheinlichkeiten mit 0,9999 ersetzt.
272
Joachim Gerich
Tab. 4: Häufigkeitsverteilung der Einordnung der sieben Substanzen an den sieben Antwortkategorien durch 29 Urteiler Kategorie
Alkohol Ecstasy Hanf Heroin Kokain Nikotin Kaffee
1
2
3
4
5
6
7
0 0 0 0 0 0 4
0 0 4 0 0 0 14
7 2 9 0 1 4 9
6 0 2 0 0 7 1
10 2 10 1 2 15 1
1 5 4 2 7 2 0
5 20 0 26 19 1 0
Tab. 5: Kumulierte Wahrscheinlichkeit (j≤g), z-Werte in Klammer Kategorie
Alkohol Ecstasy Hanf Heroin Kokain Nikotin Kaffee
1
2
3
4
5
6
0,00 (−3,72) 0,00 (−3,72) 0,00 (−3,72) 0,00 (−3,72) 0,00 (−3,72) 0,00 (−3,72) 0,14 (−1,08)
0,00 (−3,72) 0,00 (−3,72) 0,14 (−1,08) 0,00 (−3,72) 0,00 (−3,72) 0,00 (−3,72) 0,62 (0,31)
0,24 (−0,71) 0,07 (−1,48) 0,45 (−0,13) 0,00 (−3,72) 0,03 (−1,88) 0,14 (−1,08) 0,93 (1,48)
0,45 (−0,13) 0,07 (−1,48) 0,52 (0,05) 0,00 (−3,72) 0,03 (−1,88) 0,38 (−0,31) 0,97 (1,88)
0,79 (0,81) 0,14 (−1,08) 0,86 (1,08) 0,03 (−1,88) 0,10 (−1,28) 0,90 (1,28) 1,00 (3,72)
0,83 (0,95) 0,31 (−0,50) 1,00 (3,72) 0,10 (−1,28) 0,35 (−0,39) 0,97 (1,88) 1,00 (3,72)
7 1,00 1,00 1,00 1,00 1,00 1,00 1,00
Tab. 6: Skalenwerte der Kategorien Kategorie 1 z¯g
−3,34
2 −2,77
3 −1,07
4 −0,80
5
6
0,38
1,16
12 Thurstone- und Likertskalierung
273
Tab. 7: Skalenwerte der Stimuli z¯j Alkohol Ecstasy Hanf Heroin Kokain Nikotin Kaffee
−1,09 −2,00 −0,01 −3,01 −2,15 −0,91 1,67
sj 0,02 0,93 −1,06 1,94 1,08 −0,16 −2,74
Aus den spaltenweise gemittelten z-Werten erhält man die Lokationen der Urteilskategorien am latenten Kontinuum (Tabelle 6). Aus den Distanzen dieser Skalenwerte ist ersichtlich, dass für dieses Anwendungsbeispiel unterschiedliche Kategorienbreiten geschätzt werden. Aus der grafischen Darstellung (Abbildung 7) ist beispielsweise ersichtlich, dass die Kategorie 4 einen deutlich kleineren Bereich des latenten Kontinuums (Gefährlichkeit) repräsentiert als die übrigen, dass also die Intervalle mit unterschiedlichen Breiten geschätzt werden. Die Skalenwerte der Stimuli werden aus den zeilenweise gemittelten z-Werten errechnet (Tabelle 7), in dem diese vom Gesamtmittelwert der z-Werte subtrahiert werden. Diese Skalenwerte können zur Verortung der Stimuli am latenten Kontinuum der Gefährlichkeit herangezogen werden (Abbildung 7). In Abbildung 8 sind die resultierenden Skalenwerte der LCJ- und der MSI- Skalierung gegenübergestellt. Zusätzlich sind zum Vergleich die einfachen Mittelwerte der Urteile auf den siebenteiligen Ratingskalen veranschaulicht. Ein vergleichendes Urteil der drei Resultate fällt schwer: Einerseits weisen alle drei Skalierungsresultate starke Ähnlichkeiten auf. Diese Ähnlichkeit bezieht sich einerseits auf die beiden Endpunkte, die erwartungsgemäß durch Heroin und Kaffe gebildet werden. Die Abstände – und teilweise auch die Ränge – der übrigen Substanzen variiert. Jedoch können bei allen drei Skalierungsresultaten zwei weitere hierarchisch abgrenzbare Substanzgruppen (Kokain und Ecstasy einerseits und Alkohol, Nikotin und Hanfprodukte andererseits) identifiziert werden. Der Frage, wie sich die unterschiedlichen Skalierungslösungen in der Anwendung auswirken, soll im Folgenden dadurch nachgegangen werden, indem die Gefährlichkeits-
Abb. 7: Veranschaulichung der Skalenwerte der Urteilskategorien und der Stimuli
274
Joachim Gerich
Abb. 8: Skalenwerte aus Ratings, Paarvergleichen und sukzessiven Intervallen im Vergleich Tab. 8: Korrelationen zwischen den Skalenwerten basierend auf den Konsumdaten des Oberösterreichischen Drogenmonitorings
MSI-Skalenwerte LCJ-Skalenwerte Rating-Skalenwerte
MSI-Skalenwerte
LCJ-Skalenwerte
0,77 0,90
0,80
einschätzung der Urteiler auf reale Konsummuster angewendet werden. Dazu wurde auf den Datensatz des Oberösterreichischen Drogenmonitorings zurückgegriffen.6 Bei jeder befragten Person (n = 1507) wurde der Durchschnitt der Skalenwerte (MSI, LCJ-Skalenwerte der Stimuli bzw. Mittelwert der 29 Urteiler aus den siebenteiligen Ratingskalen) der von ihr konsumierten Substanzen als Personenwert ermittelt. Diese Personenwerte repräsentieren somit die Gefährlichkeit des Konsummusters einer Person basierend auf der Einschätzung der 29 Urteiler. Anschließend wurden die Korrelationen zwischen den drei Skalenwerten berechnet (Tabelle 8). Dabei zeigt sich einerseits eine relativ hohe Übereinstimmung der aus den unterschiedlichen Skalenwerten berechneten Personenbewertungen. Insbesondere die hohen Korrelationen (0,9 bzw. 0,8) von LCJ- bzw. MSI-Methode mit der einfachen Methode der mittleren Rating-Urteile legt – zumindest für dieses Anwendungsbeispiel – nahe, dass kaum Argumente für die Anwendung der aufwändigeren Skalierungen (insbesondere mittels Paarvergleiche) sprechen. 6
In dieser Untersuchung wurde der Konsum der hier skalierten Substanzen – mit Ausnahme von Kaffee- anhand einer für Oberösterreich repräsentativen Stichprobe erhoben. Der Konsum jeder Substanz wurde für diese Analyse dichotomisiert: Alkoholkonsum mindestens einmal wöchentlich versus seltener und Nikotinkonsum täglich versus geringer. Bei den übrigen Substanzen wurde aufgrund der insgesamt geringen Konsumhäufigkeit in mindestens einmaligen Konsum versus keinen Konsum dichotomisiert.
12 Thurstone- und Likertskalierung
275
2.4 Häufige Fehler bei der Thurstone Skalierung Aus den Anwendungsbeispielen wurde ersichtlich, dass sowohl bei der LCJ- als auch bei der MSI-Skalierung Probleme durch Dominanzwahrscheinlichkeiten von null und eins auftreten. Diese müssen bei der Skalierung entweder ersetzt werden oder gänzlich unberücksichtigt bleiben, was zu unterschiedlichen Skalierungsresultaten führt. Die Skalierungsverfahren sollten daher eher dann in Betracht gezogen werden, wenn feine Stimulusdifferenzen skaliert werden sollen. Weiterhin stellt sich die Frage, ob sich aufgrund der Ähnlichkeit der Skalierungsergebnisse der unterschiedlichen Verfahren die relativ aufwändige Erhebung mittels Paarvergleiche bei der LCJ lohnt. Die Methode der gleich erscheinenden Intervalle und die MSI-Skalierung sind dahingehend als ökonomischer zu bezeichnen, als eine geringere Anzahl von Urteilen erhoben werden muss. Bei allen drei Verfahren ist es jedoch umstritten, ob Urteiler ihre Stimulusbewertung unabhängig von ihrer eigenen Einstellung vornehmen können.
3 Likertskalierung 3.1 Grundlagen des Verfahrens Das von Likert (1932) vorgeschlagenen Skalierungsmodell stellt ein sehr einfaches Konzept dar und ist in den Sozialwissenschaften Grundlage der wohl verbreitesten Form der Skalierung. In der ursprünglichen Version von Likert wird das Verfahren auf eine größere Anzahl von Rating-Items mit fünf Ausprägungen angewandt. Die Items bestehen aus Aussagen, von denen angenommen wird, dass sie entweder positiv oder negativ mit den Ausprägungen einer zu messenden latenten Variablen verknüpft sind. Anhand der bipolaren Antwortvorgaben drücken die Befragten das Ausmaß ihrer Zustimmung bzw. Ablehnung zur jeweiligen Aussage aus. Likert (1932) verwendete dazu die Antwortkategorien (1) „strongly approve“, (2) „approve“, (3) „undecided“,(4) „disapprove“ und (5) „strongly disapprove“. Die Anwendung der Likertskalierung ist jedoch prinzipiell nicht beschränkt auf eine bestimmte Anzahl an Ausprägungen, bzw. eine spezifische Benennung der Antwortkategorien (vgl. Borg & Staufenbiel 2007, S. 23). Die Items sollten – in erster Linie zur Vermeidung von Response-Sets – aus einer ausgeglichenen Anzahl an positiv und negativ formulierten Aussagen bestehen. Zur Ermittlung des vorläufigen Messwertes für die latente Variable werden die einzelnen Rating-Urteile sodann für jede Person über alle Items summiert, wozu natürlich die Ausprägungen der negativ formulierten Items zuvor umgepolt werden. Daher wird diese Methode auch als die „Methode der summierten Ratings“ (Birds in Edwards 1957, S. 152) bezeichnet. Anhand dieses vorläufigen Messwertes in Form des einfachen additiven Scores über alle Items erfolgt eine Prozedur zur Itemselektion („Itemanalyse“). Diese Itemanalyse besteht im Wesentlichen in der Ermittlung der Trennschärfen. Die Trennschärfe betrifft das Ausmaß, zu dem ein einzelnes Item in der Lage ist, zwischen verschiedenen Ausprägungen der latenten Variable zu diskriminieren. Zur Ermittlung der Trennschärfe wurden zwei Methoden – die Berechnung des Trennschärfe-Index sowie des Trennschärfe-Koeffizienten – vorgeschlagen.
276
Joachim Gerich
Zur Berechnung der Trennschärfe-Indizes wird die Untersuchungsstichprobe anhand des ersten und dritten Quartils der Verteilung des vorläufigen Summenscores aller Items in zwei Gruppen geteilt. Einerseits werden jene 25 % aller Respondenten mit den geringsten Summenscores und andererseits jene 25 % mit den höchsten Summenscores zusammengefasst. Die restlichen 50 % der Befragten bleiben bei dieser Analyse unberücksichtigt. Anschließend wird für jedes Item der Index T durch T =
¯l x ¯h − x s2h nh
+
s2l nl
(7)
berechnet, wobei x ¯h und x ¯l die Mittelwerte eines Items in der Gruppe der Personen mit hohen bzw. niedrigen Summenscores, s2h und s2l die Itemvarianz der jeweiligen Gruppen sowie nh und nl die Gruppengrößen bezeichnen. Dieser Index entspricht somit der Testgröße des gewöhnlichen t-Tests für Mittelwertsdifferenzen bei unabhängigen Stichproben. Die Größe T reflektiert das Ausmaß, zu dem ein Item zwischen hohen und niedrigen Scoregruppen differenziert. Als Minimalerfordernis hinsichtlich der Itemselektion kann formuliert werden, dass T Werte größer 1,75 annehmen sollte.7 Die Items können jedoch auch nach T gereiht werden. Jene mit den kleinsten T-Werten können anschließend aus der endgültigen Skala eliminiert werden. Der Nachteil des Trennschärfeindex besteht darin, dass nur ein Teil der Information des Summenscores verwendet wird, da die Hälfte der Gesamtstichprobe aus der Analyse ausgeschlossen wird. Der Trennschärfekoeffizient dagegen berücksichtigt die gesamte vorhandene Information. Er wird berechnet als Korrelation eines Items mit dem vorläufigen Summenscore. Da jedoch die Information des Items, für das der Trennschärfekoeffizient berechnet wird, selbst in den Summenscore eingeht, führt dies – insbesondere bei einer geringen Gesamtanzahl an Items – zu einer Überschätzung der Trennschärfe. Daher wird in der Regel der „korrigierte Trennschärfekoeffizient“ berechnet. Dazu wird anstatt des Summenscores der Restscore verwendet, das ist die Summe der Ausprägungen aller Items mit Ausnahme jenes Items, für das die Trennschärfe berechnet werden soll. Items mit den geringsten korrigierten Trennschärfekoeffizienten können für eine mögliche Eliminierung in Betracht gezogen werden. Als Minimalerfordernis kann auch eine bestimmte Schranke festgelegt werden. Bortz & Döring (1995) beispielsweise geben als Minimalerfordernis einen Trennschärfekoeffizienten von mindestens 0,3 an. Im Anschluss an die Itemselektion wird üblicherweise eine Reliabilitätsschätzung mittels Split-Half Methode oder Cronbachs Alpha durchgeführt (vgl. Kapitel 11 in diesem Handbuch). Zur Bewertung der Skalenqualität werden von verschiedenen Autoren unterschiedliche Empfehlungen abgegeben. Bortz und Döring beispielsweise geben folgende Empfehlung ab: „Ein guter Test, der nicht nur zu explorativen Zwecken verwendet wird, sollte eine Reliabilität von über 0,8 aufweisen“ (Bortz & Döring 7
Ein T-Wert größer 1,75 entspricht bei kleinen Stichproben (je 25 Personen in der hohen und niedrigen Scoregruppe) einer einseitigen Signifikanz der Mittelwertsdifferenz von 95 %. Durch das Minimalkriterium soll daher die Signifikanz der Diskriminationsfähigkeit der Items sichergestellt werden. Da T von der Stichprobengröße abhängt, verliert dieses Minimalerfordernis bei großen Stichproben an Bedeutung.
12 Thurstone- und Likertskalierung
277
1995, S. 184). Dem Zitat kann schon entnommen werden, dass – insbesondere unter Berücksichtigung der jeweiligen Forschungsintention – in der Praxis auch Skalen mit geringeren Reliabilitäten akzeptiert werden. Die Summenscores der endgültigen Skala können als Messwerte der gesuchten latenten Variablen verwendet werden. Zu deskriptiven Zwecken kann auch der, mit der Anzahl der Items – gemittelte Gesamtpunktewert verwendet werden, da dieser besser anhand der ursprünglich verwendeten Ausprägungen der Einzelitems interpretiert werden kann. Die Interpretation des Summenscores ist jedoch (mit Ausnahme der Endpunkte) nicht zur absoluten Interpretation, sondern nur zu einer relativen Einordnung der Respondenten zueinander geeignet und daher von der Verteilung des Scores in der betrachteten Stichprobe abhängig (Edwards 1957). Es ist zu erwähnen, dass die Prozedur der Likertskalierung nur bedingt dazu geeignet ist, die zugrunde gelegte Annahme der Eindimensionalität der Messung zu überprüfen. Wenn beispielsweise eine Fragebatterie aus Items zu zwei voneinander völlig unabhängigen Inhaltsdimensionen besteht und die Items in annähernd gleichem Ausmaß eine der beiden Dimensionen messen, können dennoch hohe Trennschärfekoeffizienten und Reliabilitätsmaße resultieren. Dies liegt daran, dass die Einzelmessungen beider Dimensionen zu gleichen Teilen in den Summenscore Eingang finden. Die Folge wäre eine unbrauchbare Messung, der jedoch fälschlicherweise eine hohe Qualität zugeschrieben wird. Die wahre mehrdimensionale Struktur könnte in diesem Fall nur anhand der Inspektion der Korrelationsmatrix der Einzelitems erkannt werden. Anhand der Korrelationsmatrix würden in diesem Fall zwei „Cluster“ von Itemgruppen dahingehend identifizierbar sein, dass die Items eines Clusters untereinander hoch korrelieren, aber jeweils nur gering mit Items des anderen Cluster korrelieren. Ein Verfahren, welches geeignet ist, derartige Muster – und damit die Mehrdimensionalität einer Itemmenge – zu identifizieren stellt die Faktorenanalyse dar. Es sollte daher vor einer Itemanalyse die Annahme der Eindimensionalität mittels Faktorenanalyse geprüft werden.8 3.2 Anwendungsbeispiel Im Rahmen des ALLBUS 2002 und 2004 wurden sechs Items zur Berufsrolle der Frau vorgelegt (Tabelle 9). Die Zieldimension, die den Einzelmessungen zugrunde liegen sollte, ist das Ausmaß der Akzeptanz der Berufstätigkeit von Frauen. Jedes Item beinhaltet eine Aussage, deren Zustimmung bzw. Ablehnung anhand einer vierteiligen Ratingskala eingestuft wird. Eine hohe Ausprägung (Ausprägung 4) entspricht einer Ablehnung, eine niedrige Ausprägung (Ausprägung 1) einer Zustimmung. Zwei der sechs Items beinhalten eine – hinsichtlich der Akzeptanz mütterlicher Berufstätigkeit – positiv formulierte Aussage (V269 und V273). Die restlichen Items bestehen aus negativ formulierten Aussagen. Zur weiteren Analyse werden die Items zunächst so umcodiert, dass die Ausprägungen aller Items – hinsichtlich der zu messenden Zieldimension – eine gemeinsame 8
Siehe dazu die Kapitel 15 (Exploratorische Faktorenanalyse) bzw. 29 (Konfirmatorische Faktorenanalyse) in diesem Handbuch.
278
Joachim Gerich
Tab. 9: Antwortverteilungen der Items zur Berufstätigkeit von Müttern
V269: Eine berufstätige Mutter kann ein genauso herzliches und vertrauensvolles Verhältnis zu ihren Kindern finden wie eine Mutter, die nicht berufstätig ist. V270: Für eine Frau ist es wichtiger, ihrem Mann bei seiner Karriere zu helfen, als selbst Karriere zu machen. V271: Ein Kleinkind wird sicherlich darunter leiden, wenn seine Mutter berufstätig ist. V272: Es ist für alle Beteiligten viel besser, wenn der Mann voll im Berufsleben steht und die Frau zu Hause bleibt und sich um den Haushalt und die Kinder kümmert. V273: Es ist für ein Kind sogar gut, wenn seine Mutter berufstätig ist und sich nicht nur auf den Haushalt konzentriert. V274: Eine verheiratete Frau sollte auf eine Berufstätigkeit verzichten, wenn es nur eine begrenzte Anzahl von Arbeitsplätzen gibt, und wenn ihr Mann in der Lage ist, für den Unterhalt der Familie zu sorgen.
stimme voll zu
stimme eher zu
stimme eher nicht zu
stimme gar nicht zu
n
57,6
25,6
12,7
4,1
6663
8,2
19,4
39,3
33,1
6478
27,4
29,6
26,5
16,5
6608
14,9
24,1
33,0
27,9
6613
18,5
36,7
32,2
12,6
6478
13,9
21,0
31,9
33,2
6520
Bewertung repräsentieren. Im vorliegenden Fall wurde dazu die Codierrichtung der Variablen 269 und 273 umgedreht. Somit repräsentieren hohe Ausprägungen bei allen Items eine akzeptierende Einstellung gegenüber mütterlicher Berufstätigkeit. Die Voraussetzung der Eindimensionalität soll hier einfachheitshalber vorausgesetzt werden. Im Anschluss wird die Itemanalyse durchgeführt. Tabelle 10 zeigt die korrigierten Trennschärfekoeffizienten und den Trennschärfeindex für jedes Item. Der geringste Trennschärfekoeffizient (V269) weist einen Wert von 0,45 auf. Die geringere Trennschärfe dieses Items könnte auch auf die Verteilung des Items zurückzuführen sein. Es handelt sich um das „leichteste“ Item (d. h. die meisten Personen stimmen dieser Aussage zu). Sehr „leichte“ (oder auch sehr „schwere“ Items) weisen bei sonst gleichen Bedingungen geringere Trennschärfen auf. Wird die Richtlinie von Bortz & Döring (1995) angewandt, so sind die Trennschärfen zweier Items (V269 und V270) als mittelmäßig (zwischen 0,3 und 0,5) und die der restlichen Items als hoch zu bezeichnen (größer 0,5). Die Trennschärfeindizes sind zwar alle größer als die von Likert vorge-
12 Thurstone- und Likertskalierung
279
Tab. 10: Itemanalyse TKa
Rang
Ml b (SDl )
Mh c (SDh )
Td
Rang
αi e
V269 (−)
0,454
6
6
0,79
0,496
5
57,40
5
0,78
V271
0,590
2
81,01
2
0,76
V272
0,707
1
102,95
1
0,73
V273 (−)
0,535
4
64,14
4
0,77
V274
0,555
3
3,91 (,31) 3,65 (,58) 3,33 (,77) 3,72 (,50) 3,39 (,66) 3,66 (,60)
48,99
V270
2,71 (,99) 2,22 (,89) 1,42 (,61) 1,66 (,69) 1,87 (,74) 1,86 (,85)
72,99
3
0,77
n listwise = 6014; Cronbachs α der Skala = 0,80 a b c d e
Korrigierter Trennschärfekoeffizient Mittelwert und Standardabweichung des ersten Scorequartils Mittelwert und Standardabweichung des dritten Scorequartils Trennschärfeindex Cronbachs α der verbleibenden Items, wenn das jeweilige Item eliminiert wird
schlagene Schwelle von 1,75. In Anbetracht der großen Fallzahl (n > 6000) kann dies jedoch nicht als Skalierbarkeits-Kriterium herangezogen werden. Die Items können jedoch nach beiden Kriterien (Trennschärfekoeffizient und -index) gereiht werden. Im vorliegenden Fall ist aus Tabelle 10 ersichtlich, dass beide Methoden zur gleichen Reihung der Trennschärfebeurteilung führen. In beiden Fällen kann die geringste Trennschärfe für Item V269 und die höchste Trennschärfe bei V272 festgestellt werden. Zur Reliabilitätsschätzung der Skala kann Cronbachs Alpha berechnet werden, welches für die aus sechs Items bestehende Skala einen Wert von 0,8 annimmt. Es kann somit von ausreichender Reliabilität ausgegangen werden. Schließlich kann noch untersucht werden, ob durch das Ausschließen eines Items Cronbachs Alpha erhöht werden könnte. Anhand der letzten Spalte in Tabelle 10 ist ersichtlich, dass dies bei keiner Eliminierung der Fall ist. In jedem Fall führt die Eliminierung eines Items zu einer Reduktion von Alpha. Die geringste Reduktion ist allerdings bei einer Eliminierung von V269 zu beobachten, also bei jenem Item, welches die geringste Trennschärfe aufweist. Abschließend kann zusammengefasst werden, dass die Skala bestehend aus allen sechs Items alle geprüften Voraussetzungen einer Likert Skala erfüllt. Die Eindimensionalität der Itemmenge kann anhand der Faktorenanalyse als bestätigt angesehen werden, alle Items weisen ausreichende Trennschärfen auf und die interne Konsistenz der Skala (gemessen an Cronbachs Alpha) deutet auf eine hinreichende Reliabilität hin. Da weiterhin durch eine etwaige Eliminierung eines Items keine Erhöhung von
280
Joachim Gerich
Alpha erreicht werden kann, sind für die endgültige Skala keine weiteren Adaptionen nötig. Als Skalenwert, der die Messung der zugrundeliegenden Variable (Akzeptanz mütterlicher Berufstätigkeit) darstellt, kann der Gesamtpunktewert aus den gleichgepolten sechs Variablen gebildet und für anschließende weitere Analysen eingesetzt werden. 3.3 Häufige Fehler bei der Likert Skalierung Hohe Werte von Cronbachs Alpha bzw. der Trennschärfekoeffizienten werden fälschlicherweise häufig als Beleg für die Eindimensionalität der Messungen herangezogen. Die Eindimensionalität ist jedoch vielmehr eine Voraussetzung zur Berechnung dieser Koeffizienten. Die dimensionale Struktur der Items sollte daher zuvor stets geprüft werden.
4 Literaturempfehlungen Eine umfassende Darstellung aller hier behandelten Verfahren findet sich neben den im Text zitierten Originalarbeiten in Edwards (1957). Borg & Staufenbiel (2007) behandeln insbesondere die LCJ-Methode nach Thurstone im Rahmen einer allgemeineren Kategorie von Skalierungsmodellen (Fechner-Skalierung). Ausführlichere mathematische Ableitungen für Thurstones Messmodelle finden sich bei Torgerson (1965). Eine – sowohl historische wie formale – Einordnung der Thurstone-Skalierung in die Entwicklungslinie der modernen Item-Response Theorie bieten Sijtsma & Junker (2006).
Literaturverzeichnis Borg, I. & Staufenbiel, T. (2007). Theorien und Methoden der Skalierung. Bern: Huber, 4. Auflage. Bortz, J. & Döring, N. (1995). Forschungsmethoden und Evaluation. Berlin: Springer. Edwards, A. (1957). Techniques of Attitude Scale Construction. New York: Appleton-CenturyCrofts. Krabbe, P. (2008). Thurstone Scaling as a Measurement Method to Quantify Subjective Health Outcomes. Medical Care, 46, 357–365. Likert, R. (1932). A Technique for the Measurement of Attitudes. Archives of Psychology, 140, 1–55. Saffir, M. (1937). A Comparative Study of Scales Constructed by Three Psychophysical Methods. Psychometrica, 2, 179–198. Sijtsma, K. & Junker, B. (2006). Item Response Theory: Past Performance, Present Developments, and Future Expectations. Behaviormetrika, 33, 75–102. Thurstone, L. (1927a). A Law of Comparative Judgement. Psychological Review, 34, 273–286. Thurstone, L. (1927b). Psychological Analysis. American Journal of Psychology, 38, 368–389.
12 Thurstone- und Likertskalierung
281
Thurstone, L. & Cave, E. (1929). The Measurement of Attitude. Chicago: University of Chicago Press. Torgerson, W. (1965). Theory and Methods of Scaling. New York: Wiley. Uhl, A., Springer, A., Kobrna, U., Gnambs, T., & Pfarrhofer, D. (2005). Österreichweite Repräsentativerhebung zu Substanzgebrauch, Erhebung 2004. Wien: Bundesministerium für Gesundheit und Frauen. Wegener, B. (1985). Gibt es Sozialprestige? Zeitschrift für Soziologie, 14, 209–235.
13 Guttman- und Mokkenskalierung Joachim Gerich Johannes Kepler Universität Linz
Zusammenfassung. In diesem Beitrag werden Skalierungsverfahren für solche Items behandelt, welche einer hierarchischen Operationalisierung folgen. Es handelt sich dabei um Items, welche eine gesuchte latente Variable eindimensional abbilden, indem sie deren Ausprägungsspektrum aufgrund unterschiedlicher Itemschwierigkeiten in einzelne Abschnitte teilen. Ein einfaches Skalierungsmodell für hierarchisch operationalisierte Items liegt der Guttmanskalierung zugrunde. Es handelt sich dabei um ein deterministisches Modell, welches bei gegebenen Itemschwierigkeiten eine spezifische Form „erlaubter“, d. h. modellkonformer Ausprägungskombinationen definiert und davon abweichende Kombinationen als Fehlermuster klassifiziert. Da dieser Determinismus für sozialwissenschaftliche Anwendungen wenig realistisch ist und in der Anwendung nur wenige Daten diesen Anforderungen genügen, wird die Guttmanskalierung in der Forschungspraxis nur selten angewendet. Daher wird in diesem Beitrag als alternatives Verfahren auch die Mokkenskalierung präsentiert, welche als probabilistische Formulierung der Guttmanskala aufgefasst werden kann. Die Mokkenskala stellt als nichtparametrisches Verfahren auch ein „Bindeglied“ zwischen Guttmanskala und parametrischen IRT-Modellen (vgl. Kapitel 14 in diesem Handbuch) dar.
1 Einleitung Die beiden hier vorgestellten Skalierungsverfahren (aber auch parametrische Verfahren wie die Rasch- oder Birnbaum-Skalierung) können eingesetzt werden, um „Fähigkeitsskalen“ zu erstellen. Der Skalenwert einer Fähigkeitsskala spiegelt die Fähigkeit einer Person hinsichtlich einer inhaltlichen Dimension (z. B. mathematische Fertigkeiten) insofern wieder, als ein höherer Skalenwert mit einer höheren Fähigkeit der Person korrespondiert. Die Fähigkeitsskala wird dabei aus hierarchisch operationalisierten Items – d. h. Items deren Schwierigkeit über das latente Ausprägungsspektrum variiert – konstruiert (z. B. Mathematikaufgaben mit unterschiedlichem Schwierigkeitsgrad). Die Idee der Fähigkeitsskala kann jedoch auch zur Anwendung auf Einstellungsskalen übertragen werden. So könnte das Ausmaß der Akzeptanz des Drogenkonsums dadurch operationalisiert werden, dass die Akzeptanz von Substanzen mit unterschiedlich starkem Suchtpotenzial erfragt wird, oder die politische Aktivitätsbereitschaft mittels der Bereitschaft zur Beteiligung an politischen Aktivitäten unterschiedlichen Aufwandes (Lesen von innenpolitischen Nachrichten, Beteiligung an politischen Wahlen, Beteiligung an einer Unterschriftenaktion etc.) erhoben werden. Formal betrachtet besteht die Grundlage der Guttman- und Mokkenskalierung in Dominanzbeziehungen zwischen S. 283–309 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_13, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
284
Joachim Gerich
Subjekten und Stimuli: Wenn eine Person eine bestimmte Fähigkeit aufweist, dann „dominiert“ sie den Stimulus. Eine Person kann beispielsweise ab einer bestimmten Fähigkeitsstufe ein Mathematikbeispiel einer bestimmten Schwierigkeitsstufe richtig lösen. Liegt die Fähigkeit einer Person dagegen unterhalb einer bestimmten Schwelle, dann „dominiert“ der Stimulus die Person (sie kann das Beispiel nicht richtig lösen). Der Skalenwert einer Person – d. h. ihre Fähigkeit – kann umgekehrt aus der Schwierigkeit jener Stimuli geschätzt werden, welche die Person lösen, bzw. nicht lösen kann. Die zentrale Aufgabe der Guttman- und Mokkenskalierung liegt nicht in erster Linie darin, den Skalenwert selbst zu schätzen, da dies unter Kenntnis der Eigenschaften der Stimuli offensichtlich ein leichtes Unterfangen darstellt. Zentrale Aufgabe dieser Skalierungsverfahren ist es vielmehr, die angenommenen Messeigenschaften in Form der Dominanzbeziehungen zwischen Subjekten und Stimuli auf einer gesuchten Inhaltsdimension zu prüfen. Auch andere Messmodelle (wie beispielsweise Thurstones law of comparative judgements, vgl. Kapitel 12 in diesem Handbuch) basieren auf Dominanzrelationen.1 Im Unterschied zu den hier behandelten Verfahren werden im Messmodell von Thurstone jedoch lediglich Dominanzbeziehungen zwischen Stimuli (Paarvergleiche), nicht aber Dominanzbeziehungen zwischen Subjekten und Stimuli berücksichtigt. Guttman- und Mokkenskalierung sind auch von jenen Messmodellen zu unterscheiden, welche sich auf die Analyse von Präferenzdaten beziehen (z. B. Unfolding Modelle). Hier werden einerseits wie in der Guttman- und Mokkenskalierung Stimuli und Subjekte in Relation zueinander gesetzt. Allerdings sind diese Relationen nicht durch Dominanz- sondern durch Ähnlichkeits- bzw. Distanzurteile definiert.2 Im Rahmen der Faktorenanalyse bzw. der Multidimensionalen Skalierung (vgl. Kapitel 15 bzw. 17 in diesem Handbuch) werden ebenfalls Ähnlichkeiten bzw. Distanzen zwischen Stimuli analysiert wobei jedoch – wie im Falle der Thurstone Skalierung – die Relation der Subjekte nicht konstituierend ist.3 Insbesondere die Mokkenskalierung ist sowohl für explorative als auch konfirmative Analysen geeignet. Sie kann in dem Sinne konfirmatorisch angewandt werden, als Messhypothesen über spezifische Dominanzrelationen von Stimuli geprüft werden. Ebenso kann die Robustheit einer Skala hinsichtlich verschiedener Subpopulation geprüft werden. Zur explorativen Anwendung ist insbesondere die Technik der schrittweisen Skalenerweiterung geeignet, mit deren Hilfe Subgruppen von Stimuli identifiziert werden können, welche den spezifischen Anforderungen der Dominanzrelationen genügen. 1
Zur Klassifikation von Skalierungsverfahren vgl. Scheuer (2005, S. 20 f.) bzw. Coombs (1964, S. 27 f.). 2 Präferenzdaten entstehen beispielsweise dadurch, dass Personen bestimmte Produkte oder Produkteigenschaften gemäß ihrer eigenen Präferenzen reihen. 3 Scheuer (2005, S. 21) kategorisiert daher diese Skalierungsverfahren (Thurstone Skalierung, Faktorenanalyse bzw. Multidimensionale Analyse) als solche, welche sich nur auf die Relationen innerhalb eines Sets von Elementen (die Stimuli) beziehen. Die Funktion der Respondenten im Rahmen dieser Verfahren liegt weniger in der Skalenkonstituierung sondern in der Replikation von Dominanz- bzw. Ähnlichkeitsurteilen. Verfahren wie Guttman- und Mokkenskalierung (aber auch Unfolding Verfahren) werden als solche Verfahren charakterisiert, welche sich auf zwei Sets von Elementen (Relationen zwischen Subjekten und Stimuli) beziehen.
13 Guttman- und Mokkenskalierung
285
2 Guttmanskalierung 2.1 Grundlagen des Verfahrens Gegenstand der Guttmanskalierung (Guttman 1944, 1950) – wie auch zahlreicher anderer Skalierungsverfahren – ist es, anhand mehrerer manifester Indikatoren (Items), die Ausprägungen von Subjekten (i.d.R. Personen) auf einem latenten Kontinuum zu schätzen. In der Regel bezieht sich die Guttmanskala auf dichotome Items, obwohl auch eine Verallgemeinerung der Guttmanskalierung für polytom ordinalskalierte Items möglich ist. Entsprechend der grundlegenden Skalierungsaufgabe steht somit einer bestimmten Auswahl an Subjekten eine Auswahl an Stimuli gegenüber. Von jedem Subjekt wird ein Response zu jedem einzelnen Item in dem Sinne erhoben, als sich die Subjekte (hinsichtlich ihrer latenten Einstellung, Fähigkeit oder Präferenz) in Relation zum jeweiligen Item setzen. Das bedeutet, dass – ähnlich dem Vorgehen der Likertskalierung, aber im Unterschied zu Thurstones Methode der paarweisen Vergleiche – nicht Stimuli zueinander bewertet werden, sondern die jeweilige Relation von Subjekt und Stimulus erhoben wird (vgl. Kapitel 12 in diesem Handbuch). Die Besonderheit in Guttmans Messmodell (und zahlreicher Weiterentwicklungen im Rahmen der probabilistischen Testtheorie) betrifft jedoch die spezifischen Anforderungen an die Itemeigenschaften der Messung. Diese Anforderungen setzen zum einen voraus, dass alle Items einer Skala eindimensional das latente Spektrum messen und zum anderen, dass jedes Item das Ausprägungsspektrum der latenten Variable in zwei Abschnitte teilt. Items mit dieser Eigenschaft werden als monotone oder kumulative Items bezeichnet. Die MonotonieEigenschaft der Items sei anhand des Lebensalters der Respondenten veranschaulicht. Lautet die Frage „Sind Sie 30 Jahre oder älter?“ mit den Antwortmöglichkeiten ja und nein, dann besitzt dieses Item hinsichtlich der – in diesem Fall „latenten“ – Variable des Lebensalters eine monotone Eigenschaft: Sie teilt das Spektrum des möglichen Lebensalters von Personen in zwei Teile (kleiner 30 Jahre versus älter). Lautet die Frage hingegen „Sind Sie zwischen 30 und 35 Jahre alt?“ mit den möglichen Antworten ja und nein, dann besitzt dieses Item keine monotone Eigenschaft: In diesem Fall handelt es sich um ein „Punkt-Item“ und daraus resultierend um „Präferenzdaten“, da die Wahrscheinlichkeit für eine ja-Antwort in einem begrenztem Spektrum der latenten Variable hoch (hier etwa zwischen einem Lebensalter von 30 und 35 Jahren) und links und rechts dieses Bereiches geringer ist. Die Eigenschaften beider Items sind in Abbildung 1 dargestellt. In dieser Abbildung sind die Itemcharakteristiken (auch ICC – Item Characteristic Curve oder Tracelines genannt) beider Itemarten veranschaulicht. Auf der Abszisse sind die Ausprägungen der latenten Variable θ (hier das Lebensalter) dargestellt. Die Ordinate veranschaulicht die Lösungswahrscheinlichkeit eines Items als Funktion von θ, d. h. die Wahrscheinlichkeit, dass jene Ausprägung des Items gewählt wird, welche mit der latenten Variable positiv assoziiert ist (in diesem Fall die Antwort „ja“). Es ist ersichtlich, dass die Tracelines kumulativer Items (Abbildung 1 a) eine monoton steigende Funktion der latenten Variable darstellen. Zusätzlich wird im Rahmen der Guttmanskalierung die vereinfachende Annahme getroffen, dass die Antwortcharakteristik eines kumulativen Items eindeutig durch
286
Joachim Gerich
(a) Monotones Item
(b) Nicht monotones Item
Abb. 1: Wahrscheinlichkeit der Ausprägung 1 („ja“) für monotone und nicht monotone Items die Ausprägung der latenten Variable determiniert wird, was sich in der klassischen Sprung- oder Treppenfunktion von Guttmanitems widerspiegelt (Abbildung 2 b). Für Guttmanitems wird somit – angewandt auf das Beispiel des Lebensalters – angenommen, dass alle Personen, die 30 Jahre oder älter sind, das Item mit „ja“ beantworten, und alle, die jünger als 30 Jahre sind, das Item verneinen. Die Traceline des Items weist daher eine Unstetigkeitsstelle bei θ = 30 auf, was gleichbedeutend damit ist, dass die Antwortwahrscheinlichkeit nur Werte von null oder eins annehmen kann. Von einer Guttmanskala kann dann gesprochen werden, wenn die gesuchte latente Dimension von mehreren eindimensional messenden Items mit diesen monotonen Eigenschaften abgebildet wird, wobei die jeweilige Sprungstelle jedes einzelnen Items das latente Spektrum an einer unterschiedlichen Stelle teilt (Abbildung 2 b). Wenn für jedes Guttmanitem jener Ort am latenten Spektrum bekannt ist, der seine Sprungstelle markiert, dann kann umgekehrt aus der Beantwortung der Items auf jenen Bereich geschlossen werden, der die Ausprägung der Person am latenten Spektrum markiert. Wenn beispielsweise eine Person die Items in Abbildung 2 b so beantwortet, dass sie die Items i1 und i2 bejaht und Item i3 verneint, dann kann – vorausgesetzt die Items bilden eine perfekte Guttmanskala – daraus geschlossen werden, dass ihr gesuchtes Lebensalter im Bereich zwischen 40 und 49 Jahren liegt. Die Präzision einer solchen Messung nimmt dabei mit der Anzahl der Items, aus denen eine Guttmanskala gebildet wird, sowie deren Verteilung entlang des gesuchten Spektrums zu. Im Rahmen der Guttmanskalierung sind letztlich jedoch nicht die genauen Orte der Sprungstellen der Items am latenten Spektrum, sondern lediglich deren hierarchische Anordnung bekannt. Weiterhin kann angemerkt werden, dass im Unterschied zum Beispiel aus Abbildung 2 b die Abstände zwischen den Sprungstellen der Items nicht zwingend gleich groß sein müssen. Daher folgt, dass für die Messung anhand einer Guttmanskala in der Regel lediglich ordinales Messniveau angenommen werden kann. Im Rahmen des Messmodells von Guttman wird der Personenparameter θ, der die latente Variable repräsentiert, in der Regel als Fähigkeitsparameter benannt. Jener
13 Guttman- und Mokkenskalierung
(a) Guttmanitem
287
(b) Guttmanitems unterschiedlicher Schwierigkeit
Abb. 2: Itemcharakteristiken von Guttmanitems Ort am Fähigkeitsspektrum, der die Sprungstelle eines Items definiert, stellt einen Itemparameter dar, der als „Itemschwierigkeit“ benannt und in der Regel mit δ bezeichnet wird. Der Hintergrund dieser Bezeichnungen kann dadurch verdeutlicht werden, indem das Prinzip der Guttmanskala auf einen klassischen Leistungstest angewendet wird. Bei einem Leistungstest soll die Fähigkeit einer Person hinsichtlich einer bestimmten Dimension (z. B. Rechenfertigkeit) erhoben werden. Dazu können den Personen Übungsaufgaben mit unterschiedlicher Schwierigkeit vorgelegt werden. Sofern die Items (in diesem Fall die Mathematikaufgaben) monoton und eindimensional die Mathematikfähigkeiten (und beispielsweise nicht durch deren Formulierung gleichzeitig sprachliche Fähigkeiten) messen, ergibt sich die Wahrscheinlichkeit dafür, dass ein beliebiges Beispiel gelöst wird, aus der Fähigkeit der Person und der Schwierigkeit des Beispiels. Je mehr Personen ein Übungsbeispiel richtig lösen können, umso leichter ist offensichtlich das Beispiel. Umgekehrt kann aus der Bearbeitung der Aufgaben durch eine Person auf deren Fähigkeit geschlossen werden: Sie kann Beispiele bis zu jener Schwierigkeit richtig lösen, die ihre Fähigkeit nicht übersteigt. In Analogie zur Guttmanskala wird sodann auch üblicherweise aus der Anzahl richtig gelöster Beispiele auf die Fähigkeit der Person geschlossen. Modellannahmen Die Guttmanskalierung wird angewendet auf eine Stichprobe von n Subjekten (Personen) und k (dichotome) Items. Der Vektor X = (x1 ,x2 , . . . xk ) repräsentiert das Antwortmuster einer Person hinsichtlich der k Items wobei xi = {0,1} die beiden möglichen Ausprägungen eines Items i mit i = {0, . . . , k} bezeichnet. Insgesamt gibt es daher 2k mögliche Antwortmuster. Wenn mit θν die Fähigkeit einer beliebigen Person ν aus der Stichprobe der n Personen und mit δi die Schwierigkeit eines Items i bezeichnet wird, dann ist die Item Response Charakteristik im Falle einer perfekten Guttmanskala durch P (xi = 1 |θν ,δi ) definiert, mit
288
Joachim Gerich
Abb. 3: Antwortmuster einer perfekten Guttmanskala P (xi = 1|θν ,δi ) = 0 wenn θν < δi und P (xi = 1|θν ,δi ) = 1 wenn θν ≥ δi
(1)
Daraus folgt, dass es für eine perfekte Guttmanskala aus den 2k möglichen Antwortmustern nur maximal k + 1 gültige (perfekte) Antwortmuster gibt. Dies ist in Abbildung 3 veranschaulicht. In diesem Beispiel sind drei Guttmanitems unterschiedlicher Schwierigkeit dargestellt. Die Anordnung der drei Items im Vektor der Antwortmuster ist hier – beginnend mit dem leichtesten Item – nach der Itemschwierigkeit gereiht. Bei drei Items gibt es 23 = 8 mögliche Antwortmuster: (0,0,0), (1,0,0), (0,1,0), (0,0,1), (1,1,0), (0,1,1), (1,0,1), (1,1,1). Wenn die Items im Vektor der Antwortmuster nach ihrer Schwierigkeit gereiht sind, dann sind unter Anwendung von (1) nur die (3 + 1) = 4 Antwortmuster (0,0,0), (1,0,0), (1,1,0), (1,1,1) gültig. Das Antwortmuster (0,1,0) widerspricht beispielsweise der Definition der Guttmanskala laut (1): Die Ausprägung null bei Item 1 würde zur Interpretation führen, dass die Fähigkeit der Person kleiner ist als jener Ort des Fähigkeitsspektrums, der durch die Schwierigkeit von Item 1 repräsentiert wird. Andererseits wird das schwierigere Item 2 mit eins beantwortet, was gemäß Annahme (1) bedeuten würde, dass die Person eine Fähigkeit besitzt, die mindestens so groß ist wie jene Fähigkeit, die mit der Schwierigkeit von Item 2 korrespondiert. Nachdem sich die beiden Interpretationen widersprechen, kann es sich um kein gültiges Antwortmuster einer Guttmanskala handeln. Schätzung von Item- und Personenparametern Die Schwierigkeit der Items wird im Rahmen der Guttmanskalierung aus der Stichprobenschwierigkeit der Items mit pi = ni /n (2) geschätzt, wobei ni jene Anzahl an Personen der Stichprobe bezeichnet, welche Item i mit Ausprägung eins beantwortet haben. Die Itemschwierigkeit wird somit aus den
13 Guttman- und Mokkenskalierung
289
Stichprobenanteilen der Eins-Ausprägungen der Items geschätzt. Beim Vorliegen einer perfekten Guttmanskala muss gelten, dass pi < pj ⇔ δi > δj . Dies gilt deshalb, da im Rahmen einer perfekten Guttmanskala alle Personen, welche ein Item i mit eins beantworten, auch dieselbe Ausprägung bei leichteren Items aufweisen müssen. Andererseits kann es jedoch Personen geben, deren Fähigkeit zwar die Schwierigkeit von Item j, nicht jedoch die Schwierigkeit von i übersteigt und daher die Ausprägung eins bei Item j und die Ausprägung null bei Item i aufweisen. Die Stichprobenfähigkeit der Personen wird durch den Skalenwert der Personen, definiert als die Summe der Itemausprägungen einer Person gν =
k
xiν
(3)
i=1
mit den Ausprägungen 0 bis k geschätzt. Durch den Summenscore wird bei Vorliegen einer perfekten Guttmanskala das latente Spektrum in k + 1 ordinale Klassen geteilt. Dies ist deshalb der Fall, da gν die Anzahl an Items beinhaltet, welche die Person aufgrund ihrer Fähigkeit mit Ausprägung eins beantworten konnte. Am Beispiel von Abbildung 3 ist ersichtlich, dass eine Person mit gν = 2 bei Vorliegen einer perfekten Guttmanskala eine Fähigkeit θ aufweisen muss, die zwischen den Punkten δ2 und δ3 liegt. Weiterhin gilt, dass der Score gν im Falle einer perfekten Guttmanskala eine suffiziente Statistik für das gesamte Antwortmuster einer Person darstellt.4 Dies ist deshalb der Fall, da es aufgrund von Annahme (1) nur ein mögliches perfektes Antwortmuster für einen bestimmten Gesamtpunktewert gibt. Daher kann die Datenmatrix einer perfekten Guttmanskala alleine aus Kenntnis der Gesamtpunktewerte vollständig reproduziert werden. Stichprobenabhängigkeit der Schätzung von Item- und Personenparametern Zur Schätzung der Itemschwierigkeit wird auf die Stichprobenschwierigkeit in Form des Anteils der Eins-Ausprägungen der Items zurückgegriffen. Dieser Anteil ist von der Stichprobenverteilung der Personen (d. h. der Personenfähigkeiten) abhängig. Der Anteil der Eins-Ausprägungen eines Items mit einer bestimmten Schwierigkeit wird in einer Stichprobe umso höher ausfallen, je höher die Fähigkeiten der Personen in der Stichprobe sind. Die Reihung der dadurch geschätzten Itemschwierigkeiten bleibt dabei jedoch – vorausgesetzt die Fähigkeitsverteilung weist hinreichende Varianz auf – von der Stichprobenverteilung der Fähigkeiten unbeeinflusst.5 4
5
Ein Schätzwert ist nach Bortz (1999, S. 97) suffizient oder erschöpfend, „wenn er alle in den Daten einer Stichprobe enthaltenen Informationen berücksichtigt“. Eine hinreichende Varianz der Fähigkeiten ist die Voraussetzung dafür, dass die Reihenfolge der Itemschwierigkeiten schätzbar ist. Würde beispielsweise die Fähigkeit der Personenstichprobe so hoch sein, dass sämtliche Items von allen Personen mit Ausprägung eins beantwortet werden würden, dann wäre der Anteil der Eins-Ausprägungen für alle Items konstant 1,0 und die Items könnten nicht nach ihrer Schwierigkeit gereiht werden. Gleiches würde gelten, wenn alle Items mit Ausprägung null beantwortet werden.
290
Joachim Gerich
Ähnlich kann auch für die Schätzung der Personenparameter argumentiert werden. Die Verteilung des Gesamtpunktewertes als Schätzung der Personenfähigkeit hängt von der Auswahl der Items ab: Wenn mehr leichte Items zur Messung verwendet werden, werden Personen mit konstanter Fähigkeit höhere Gesamtpunktewerte aufweisen. Die Ordnungsrelation zwischen den Personen wird davon jedoch nicht beeinflusst, solange die Itemschwierigkeiten hinreichende Varianz aufweisen.6 In diesem Zusammenhang ist allerdings anzumerken, dass die Präzision der Schätzung der Personenparameter gegenüber den Itemparametern zumeist geringer ist, da üblicherweise zwar eine relativ große Personenstichprobe, aber eine verhältnismäßig kleine „Itemstichprobe“ gezogen wird. Modellprüfung Die bisherigen Ausführungen gehen davon aus, dass für eine Menge an Personen und Items die Annahme (1), also die spezifische Eigenschaft der Guttmanskala erfüllt ist. Nachdem es sich um ein deterministisches Messmodell handelt, könnte grundsätzlich die Überprüfung dieser zentralen Annahme auf einfache Weise dadurch erfolgen, dass die vorhandene Datenmatrix nach Fällen durchsucht wird, die der Annahme widersprechen. Dazu könnten beispielsweise bei den Antwortmustern aller Personen geprüft werden, ob tatsächlich nur gültige Muster auftreten. Es scheint jedoch – z. B. aufgrund von Messfehlern – unrealistisch, dass in einer Untersuchung ausschließlich solche Antwortmuster auftreten, welche den deterministischen Anforderungen des Guttman-Modells entsprechen. Stattdessen werden zur Prüfung des Messmodells Maßzahlen herangezogen, die das Ausmaß der „Fehler“ bzw., in Umkehrung dazu, das Ausmaß der Übereinstimmung der Daten mit den Annahmen des Messmodels abbilden. Guttman hat dazu einen Koeffizienten vorgeschlagen, welcher sich auf die – bereits erwähnte – Eigenschaft der Reproduzierbarkeit der Antwortmuster durch den Summenscore bezieht. Dabei wird überprüft, in welchem Ausmaß die Antwortmuster der Personen auf Basis der Kenntnis des Gesamtpunktewertes reproduziert werden können. Dieser Reproduktionskoeffizient hat die einfache Form von E , (4) nk wobei E die Anzahl der Reproduktionsfehler bezeichnet. Guttman selbst beschreibt den Koeffizienten als „counting up the number of responses which would have been predicted wrongly for each person on the basis of his scale score, dividing these errors by the total number of responses and subtracting the resulting fraction from 1“ (Guttman 1944, S. 77). Als Schwellenwert, ab dem von einer hinreichend gültigen Guttmanskala gesprochen werden kann, wird ein Rep-Koeffizient größer 0,9 Guttman (1950) bzw. 0,85 (Guttman 1944) angegeben. Rep = 1 −
6
Guttman (1950, S. 80 f.) verwendet in diesem Zusammenhang den Begriff des „Universe of Items“: Wenn die zur Messung ausgewählten Items eine Stichprobe des Universums möglicher (Guttman-)Items zur selben Zieldimension darstellen, ist die Personenreihung invariant gegenüber der aktuell gewählten Itemstichprobe.
13 Guttman- und Mokkenskalierung
291
Zur Art der Ermittlung der Fehler E wurden unterschiedliche Arten vorgeschlagen. Von Guttman (1944) selbst wurde die Methode der Fehlerminimierung („minimalization of error“) vorgeschlagen. Die Ermittlung der Fehler erfolgt dadurch, dass die Anzahl der minimal erforderlichen Umcodierungen von Itemausprägungen (1 in 0 bzw. 0 in 1) gezählt werden, die notwendig sind, um ein nicht-perfektes Antwortmuster in ein perfektes umzuwandeln. Ein nach aufsteigender Schwierigkeit geordnetes Antwortmuster (0 1 0 0) weist demnach beispielsweise einen Fehler auf, da eine Umwandlung einer Eins-Anzeige in eine Null ausreicht um das Muster in ein perfektes Muster (0 0 0 0) umzuwandeln. Das Muster (1 0 1 0) weist ebenfalls einen Fehler auf, da es ausreicht das Item an der zweiten Stelle von 0 auf 1 zu setzten, wodurch das perfekte Muster (1 1 1 0) entsteht. Das Problem, das dieser Fehlerberechnung anhaftet, besteht darin, dass lediglich die Konsistenz der Antwortmuster geprüft wird, dass jedoch nicht die Eigenschaft der Reproduzierbarkeit aus dem Gesamtpunktewert Gegenstand der Fehlerermittlung ist. Für diese Art der Fehlerberechnung ist die Schätzung der Fähigkeit aus dem Skalenwert irrelevant und die Transformation eines fehlerhaften Musters in ein perfektes Muster kann zu einer Änderung des Skalenwertes der Person führen. Ein wesentliches Kriterium der Guttmanskala besteht jedoch darin, dass auf Basis des Skalenwertes das vollständige Antwortmuster reproduziert werden kann. Dieser Anforderung wird die Methode der Fehlerberechnung nach Goodenough und Edwards gerecht (Edwards 1957). Hier wird der jeweilige Score der Person bei der Fehlerkorrektur nicht verändert. Dies erfolgt dadurch, dass die empirischen Antwortmuster mit den theoretischen Mustern des zugehörigen Scores verglichen werden. Jedes Item, welches bei gegebenem Gesamtpunktewert eine vom theoretischen Muster abweichende Ausprägung aufweist, wird als Fehler gezählt. Die so ermittelte Fehlerzahl ist daher höher als die durch die Methode nach Guttman ermittelte. Das Muster (0 1 0 0) weist im Vergleich zum zugehörigen perfekten Muster für einen Gesamtpunktewert von 1 (1 0 0 0) zwei Fehler auf, da die beobachteten Ausprägungen an der ersten und zweiten Stelle vom perfekten Muster abweichen. Das Muster (1 0 1 0) weist im Vergleich zum entsprechenden perfekten Muster (1 1 0 0) ebenfalls zwei Fehler auf (das zweite und dritte Item besitzt jeweils die „falsche“ Ausprägung). Da diese Methode der Fehlerberechnung stärker mit dem theoretischen Messmodell korrespondiert, wird bei der Guttmanskalierung üblicherweise die Goodenough-Edwards Technik verwendet. In Tabelle 1 sind die Fehlerberechnungen beider Methoden für fünf fiktive Antwortmuster bei fünf Items dargestellt. Es wird dabei angenommen, dass die Items hinsichtlich ihrer Itemschwierigkeit aufsteigend sortiert sind (Item B ist das leichteste). Aus Tabelle 1 ist ersichtlich, dass die Fehlerermittlung nach Goodenough-Edwards im Vergleich zur Guttman-Methode zu einer höheren Anzahl an Fehlern führt. Die Anzahl der ermittelten Fehler beider Methoden ist nur dann gleich, wenn sämtliche perfekte Muster aufgrund der Reproduktion durch den Gesamtscore gleichzeitig auch die perfekten Muster der minimalen Abweichung sind. Eine weitere Methode der Fehlerermittlung wurde von Loevinger (1947) vorgeschlagen, welche hier deshalb erwähnt werden soll, da sie die Grundlage der von Mokken
292
Joachim Gerich
Tab. 1: Ermittlung der Fehler für Beispieldaten S
0 2 1 4 5
Beobachtete Muster
Theoretische Muster (reproduziert aus s)
Fehlermatrix (GoodenoughEdwards)
EGE
B
A
C
D
E
B
A
C
D
E
B
A
C
D
E
0 1 0 1 1
0 0 0 1 1
0 1 0 1 1
0 0 1 0 1
0 0 0 1 1
0 1 1 1 1
0 1 0 1 1
0 0 0 1 1
0 0 0 1 1
0 0 0 0 1
0 0 1 0 0
0 1 0 0 0
0 1 0 0 0
0 0 1 1 0
0 0 0 1 0
0 2 2 2 0
Theoretische EG Muster (Minimalization of Error) B
A
C
D
E
0 1 0 1 1
0 0 0 1 1
0 0 0 1 1
0 0 0 1 1
0 0 0 1 1
0 1a 1 1 0
S = Gesamtpunktewert EGE = Fehler nach Goodenough-Edwards EG = Fehler nach Guttman (minimization of error) a
Theoretisches Muster nicht eindeutig: Das Muster (1 1 1 0 0) wäre mit derselben Anzahl an Vertauschungen möglich
Tab. 2: Paarweiser Itemvergleich Item B
Item A
0 1
0
1
Konsistent Inkonsistent
Konsistent Konsistent
Item A ist schwieriger als Item B
(1971) präsentierten Weiterentwicklung der Guttmanskala darstellt7 . Diese Fehlerermittlung basiert nicht auf den kompletten Antwortmustern, sondern auf paarweisen Item-Vergleichen. Dabei wird aus der bivariaten Verteilung aller Itempaare die Anzahl der inkonsistenten Antwortkombinationen ermittelt. Inkonsistente Antwortkombinationen treten dann auf, wenn das leichtere Item die Ausprägung null und das schwerere Item die Ausprägung eins aufweist (Tabelle 2). Zur Fehlerermittlung im Rahmen der Guttmanskalierung werden die Häufigkeiten inkonsistenter Paare gezählt. Die Fehlerermittlung nach dieser Methode für die fiktiven Beispieldaten ist in Tabelle 3 dargestellt. Das Antwortmuster (0 0 0 1 0) beinhaltet nach dieser Methode drei Fehler, da die drei (nach der Schwierigkeit) erstgeordneten Items jeweils mit dem Item an der vierten Stelle eine paarweise Inkonsistenz verursachen. Da die Fehlerermittlung alleine auf Paarvergleichen basiert, wird auch hier das Kriterium der Reproduktion der 7
Ein weiterer Grund für die Erwähnung dieser Methode der Fehlerberechnung liegt darin, dass die verfügbare Prozedur für Stata zur Ermittlung von Guttmanfehler und RepKoeffizienten lediglich diese Methode verwendet (Prozedur loevH von J.B. Hardouin).
13 Guttman- und Mokkenskalierung
293
Tab. 3: Fehlerermittlung nach Loevinger g
0 2 1 4 5
Beobachtete Muster
EL
B
A
C
D
E
0 1 0 1 1
0 0 0 1 1
0 1 0 1 1
0 0 1 0 1
0 0 0 1 1
0 1 3 1 0
g = Gesamtpunktewert EL = Fehler nach Loevinger
Antwortmuster auf Basis des Gesamtscores nicht berücksichtigt. Die nach der Methode von Loevinger ermittelte Fehleranzahl ist größer oder gleich der ermittelten Anzahl bei der Guttman-Technik, kann aber sowohl kleiner als auch größer im Vergleich zur Goodenough-Edwards-Technik sein. Da die ermittelten Fehler in die Berechnung des Rep-Koeffizienten der Guttmanskala eingehen, hängt die Größe dieses Koeffizienten von der Art der Fehlerberechnung ab. Der Rep-Koeffizient wurde jedoch weiterhin auch von verschiedenen Autoren kritisiert. Die Kritik bezieht sich im Wesentlichen auf die Normierung des Koeffizienten. Zwar ist einerseits das Maximum des Rep-Koeffizienten von 1 nur beim Vorliegen perfekter Antwortmuster möglich. Andererseits ist jedoch entgegen der Intuition 0 nicht das mögliche Minimum des Koeffizienten. Dies liegt daran, dass das Ausmaß der Reproduzierbarkeit eines Items nicht geringer sein kann als der Anteil der modalen Antwortkategorie (Edwards 1957, S. 48). Wenn also beispielsweise ein Item zu 60 % mit Ausprägung eins oder Ausprägung null beantwortet wird, dann ist es bei gegebener Randverteilung nur maximal möglich, in 40 % der Fälle Guttmanfehler zu produzieren. Aus der Perspektive der Personenfähigkeiten betrachtet ist die minimale Reproduzierbarbeit von der Verteilung des Gesamtpunktewertes abhängig. Bei einem Gesamtpunktewert von null bzw. einem maximalen Gesamtpunktewert k können keine Fehler auftreten. Diese Antwortmuster würden sich daher für jede beliebige Guttmanskala, d. h. für jede beliebige Itemreihung eignen. Diese Überschätzung des Rep-Koeffizienten kann bei einer Normierung durch die Zahl der maximal möglichen Fehler verhindert werden und entspricht der Grundüberlegung bei der Berechnung der minimalen marginalen Reproduktivität. Es werden dabei die Fehler bei einer bestmöglichen Reproduktion der Datenmatrix alleine durch die Randverteilungen der Items zugrunde gelegt. Bestmöglich heißt dabei, eine Reproduktion durch den Modalwert der Ausprägungshäufigkeiten der Items. Dies entspricht einer Fehlerberechnung nach der Goodenough-Edwards-Technik, wenn als perfektes Antwortmuster jenes bei statistischer Unabhängigkeit der Items angenommen wird. Analog zum Rep-Koeffizienten kann nun der minimale marginale Reproduktionskoeffizient (MMR) in der Form
294
Joachim Gerich
Tab. 4: Paarweiser Itemvergleich zur Berechnung des Konsistenzkoeffizienten Item B
Item A
0 1
0
1
gebunden inkonsistent
konsistent gebunden
Item A ist schwieriger als Item B
Er (5) nk berechnet werden, wobei Er die Fehler bei Reproduktion über die Randverteilungen bezeichnet. Wird die Monotonievorschreibung der Guttmanskala (durch den eigentlichen Rep-Koeffizienten) berücksichtigt, ist durch MMR = 1 −
P I = Rep − M M R
(6)
die prozentuelle Verbesserung der Reproduktion durch die Guttmanskala im Vergleich zu zufälligen Antwortmustern (unter Berücksichtigung der Randverteilungen) gegeben. PI kann auch geschrieben werden als: Er − E (7) nk Es ist daraus ersichtlich, dass die Differenz PI Werte von 0 (keine Verbesserung) bis Er /(nk) annehmen kann. Da der maximale marginale Fehler pro Item 50 % beträgt, beträgt auch das theoretische Maximum der Differenz PI 0,5. Da die Interpretation eines Wertes, dessen Maximum bei Er /(nm) liegt, wenig attraktiv erscheint, kann die Logik eines PRE-Koeffizienten („proportional reduction of error“) auf die Guttmanskala übertragen werden, wodurch sich ergibt: PI =
P RE =
Er − E Er
(8)
Der PRE-Koeffizient gibt also die relative prozentuelle Verbesserung der Reproduktion durch ein Messmodell nach Guttman gegenüber der Reproduktion aus den Randverteilungen wieder und nimmt Werte zwischen 0 (keine Verbesserung) und 1 (perfekte Reproduktion) an. Weder für den PI noch für den PRE-Koeffizienten gibt es jedoch Angaben für Schwellenwerte. Nach Menzel (McIver & Carminesm 1983, S. 50), sollte der PRE-Koeffizient jedoch einen Wert von mindestens 0,6 annehmen. Die spezifischen Monotonieeigenschaften der Guttmanskalierung finden stärkere Berücksichtigung bei der Konstruktion des Konsistenzkoeffizienten von Cliff (1983). Dabei werden Items bzw. Personen paarweise miteinander verglichen. Aufgrund der Monotoniebedingung der Guttmanskala ergeben sich dabei die Möglichkeiten der Konsistenz bzw. Inkonsistenz und der Bindung (Tabelle 4).
13 Guttman- und Mokkenskalierung
295
Tab. 5: Dominanzmatrix
i1 i2 i3 i4 i5
i1
i2
i3
i4
i5
− n2−,1+ n3−,1+ n4−,1+ n5−,1+
n1−,2+ − n3−,2+ n4−,2+ n5−,2+
n1−,3+ n2−,3+ − n4−,3+ n5−,3+
n1−,4+ n2−,4+ n3−,4+ − n5−,4+
n1−,5+ n2−,5+ n3−,5+ n4−,5+ −
Das Subskript „−“ bezeichnet die Null-Ausprägung und „+“ die Eins-Ausprägung der Items. Beispiel: n2−,1+ beinhaltet alle Fälle mit Ausprägung 0 bei i2 und 1 bei i1 .
Gebundene Paare (00) bzw. (11) erlauben keine Aussage über die Konsistenz oder Inkonsistenz zweier Itempaare und werden daher zur Berechnung des Konsistenzkoeffizienten eliminiert. Werden diese Vergleiche für alle Itempaare durchgeführt, kann die jeweilige Anzahl der konsistenten und inkonsistenten Paare in eine Dominanzmatrix eingetragen werden. Das Schema der Dominanzmatrix ist in Tabelle 5 dargestellt. Die Matrix beinhaltet die Häufigkeiten, mit denen das jeweilige Spaltenitem mit null und das Zeilenitem mit eins beantwortet wurde. Wenn die Items zeilen- und spaltenweise nach aufsteigender Schwierigkeit angeordnet sind, befinden sich im oberen Dreieck der Matrix die konsistenten Paare und im unteren Dreieck die inkonsistenten Paare. Wird eine weitere Dominanzmatrix aus den theoretischen Antwortmustern der Guttmanskala gebildet, entsteht eine theoretische Dominanzmatrix, deren unteres Dreieck nicht besetzt ist, und deren oberes Dreieck die maximal möglichen Konsistenzen beinhaltet. Der Konsistenzkoeffizient C nach Cliff (1983) wird definiert als emp C (9) max C mit maxC als Anzahl maximal möglicher Konsistenzen (oberes Dreieck der theoretischen Dominanzmatrix bzw. Summe aller Zellen der empirischen Dominanzmatrix) und empC als Anzahl der empirischen Konsistenzen (Summe oberes Dreieck – Summe unteres Dreieck der empirischen Dominanzmatrix).8 Allerdings besteht auch bei diesem Koeffizienten das Problem, dass dieser den Wert null nur annehmen kann, wenn alle Items gleiche Schwierigkeit aufweisen und dass bislang keine Empfehlungen für Schwellenwerte vorliegen. Es empfiehlt sich jedoch, bei Anwendungsfällen mit hohen Rep-Koeffizienten (≥ 0,9) und gleichzeitig niedrigen C-Koeffizienten (etwa kleiner 0,6) sowohl die Verteilung der Personenfähigkeit (hohe Anteile an minimalen und/oder maximalen Scores) als auch die Verteilung der Itemschwierigkeiten (sehr leichte oder sehr schwere Items) als mögliche Gründe der Überschätzung des Rep-Koeffizienten in Betracht zu ziehen. In Ergänzung zur Beurteilung des Modellfits der Gesamtskala können sämtliche hier vorgestellten Koeffizienten als Itemkoeffizienten berechnet werden. Sie können im Rahmen einer Itemanalyse dazu eingesetzt werden, Items zu identifizieren (bzw. C=
8
Vgl. Bacher (1990, S. 29) für Einzelheiten.
296
Joachim Gerich
gegebenenfalls zu eliminieren), welche mit dem Guttmanmodell schlechter vereinbar sind. 2.2 Anwendungsbeispiel Die Anwendung der Guttmanskalierung wird anhand der ALLBUS-Fragen zur Einstellung zum Schwangerschaftsabbruch demonstriert. In der hier präsentierten Auswertung werden nur die Daten der Erhebung aus dem Jahr 2006 herangezogen. Die Einstellung zum Schwangerschaftsabbruch wurde anhand von sieben Items erhoben, welche nach der Akzeptanz oder Nichtakzeptanz einer Abtreibung bei Vorliegen unterschiedlicher persönlicher Umstände fragen (Tabelle 6).9 Wenn angenommen wird, dass die latente Variable (das Ausmaß der persönlichen Akzeptanz des Schwangerschaftsabbruchs) durch die vorliegende Operationalisierung stufenweise erfolgt, könnte eine Guttmanskala unterstellt werden. Demnach besteht die Messhypothese darin, dass das Spektrum der Akzeptanz durch unterschiedlich „schwierige“ Situationen unterteilt wird. Konkret besteht dann also die Vermutung, dass es einerseits Begründungen für einen Schwangerschaftsabbruch gibt, die von einem Großteil der Befragten akzeptiert werden, dagegen aber andere („schwierigere“) Begründungen nur dann als Begründung ausreichen, wenn die generelle Akzeptanz der Befragten für einen Schwangerschaftsabbruch eine bestimmte Höhe überschreitet. Tabelle 6 zeigt die relativen Häufigkeiten der „ja“ Antworten (pi ), d. h. der Akzeptanz, dass unter den genannten Umständen ein Schwangerschaftsabbruch möglich sein sollte. Die grundlegende Annahme der unterschiedlichen Itemschwierigkeit bestätigt sich dabei anhand der Daten: Medizinische Begründungen sind demnach eher „leichte“ Items, da diese von einem Großteil als Begründung für eine Abtreibung akzeptiert werden, finanzielle Gründe sind eher von mittlerer Schwierigkeit und die Beziehung der Mutter zum Vater (aus heutiger Sicht wohl etwas unglücklich mittels Heirat formuliert) stellt das schwierigste Item dar. Die unterschiedlichen Itemschwierigkeiten auf Aggregatebene alleine können jedoch noch nicht als Beleg dafür gewertet werden, dass es sich im vorliegenden Fall um kumulative Items einer Guttmanskala handelt. Zur Prüfung der Modellannahmen werden die Items auf Basis ihrer Stichprobenschwieirgkeiten (pi ) gereiht, was zur Schätzung der Itemschwierigkeit δi führt (Tabelle 6). Die Koeffizienten der Guttmanskalierung und die Itemkoeffizienten der nach aufsteigender Schwierigkeit gereihten Items sind in Tabelle 7 dargestellt.10 Der Reproduktionskoeffizient zeigt sowohl bei der Berechnungsmethode nach Loevinger als auch nach Goodenough-Edwards einen Wert größer 0,9. Gleichzeitig ist auch ein hoher Wert des C-Koeffizienten (> 0,8) nach Cliff ersichtlich. Die Reproduktion auf Basis der Information der Marginalverteilungen beträgt 0,705 (MMR), wodurch eine Verbesserung der Reproduktion durch Berücksichtigung des Guttmanmodells von rund 21 % resultiert (P I = 0,212). Die relative Verbesserung der Reproduktion durch 9
10
Als Antwortkategorien wurden jeweils „ja, sollte möglich sein“ und „nein, sollte nicht möglich sein“ vorgegeben. Zur Berechnung der Koeffizienten der Guttmanskala kann ein SPSS-Makro verwendet werden (Download von http://www.soz.jku.at/aes/content/e39/e259/).
13 Guttman- und Mokkenskalierung
297
Tab. 6: Itemschwierigkeiten Bitte sagen Sie mir, ob es Ihrer Meinung nach einer Frau gesetzlich möglich sein sollte oder nicht, einen Schwangerschaftsabbruch vornehmen zu lassen... V307 Wenn das Baby mit hoher Wahrscheinlichkeit eine ernsthafte Schädigung haben wird? V308 Wenn die Frau verheiratet ist und keine Kinder mehr haben möchte? V309 Wenn die Gesundheit der Frau durch die Schwangerschaft ernsthaft gefährdet ist? V310 Wenn die Familie nur über ein geringes Einkommen verfügt und sich keine Kinder mehr leisten kann? V311 Wenn die Schwangerschaft Folge einer Vergewaltigung ist? V312 Wenn die Frau unverheiratet ist und den Vater des Kindes nicht heiraten möchte? V313 Wenn die Frau es so will, unabhängig davon, welchen Grund sie dafür hat?
pi
δi
0,90
3
0,52
4
0,94
1
0,51
5
0,91
2
0,38
7
0,47
6
n (Listenweise) = 2828
Tab. 7: Skalen- und Itemkoeffizienten
V309 V311 V307 V308 V310 V313 V312 Skala
EGE
REPGE
EL
REPL
MMR
PI
PRE
C
87 148 171 364 336 305 223 1634
0,969 0,948 0,940 0,871 0,881 0,892 0,921 0,917
206 309 356 648 690 599 386 1597
0,927 0,891 0,874 0,771 0,756 0,788 0,864 0,919
0,939 0,906 0,901 0,523 0,512 0,535 0,622 0,705
0,030 0,042 0,039 0,348 0,369 0,357 0,300 0,212
0,494 0,444 0,391 0,730 0,756 0,768 0,792 0,720
0,930 0,891 0,875 0,752 0,742 0,785 0,879 0,839
EGE , RepGE : Fehler und Rep-Koeffizient nach Goodenough-Edwards EL , RepL : Fehler und Rep-Koeffizient nach Loevinger
das Guttmanmodell im Vergleich zu der Reproduktion über die Randverteilungen beträgt 72 % (PRE). Obwohl somit in diesem Anwendungsbeispiel von einer Guttmanskalierbarkeit ausgegangen werden kann, können die Itemkoeffizienten inspiziert werden, um Hinweise auf eine mögliche Verbesserungen der Skaleneigenschaften durch Eliminierung einzelner Items zu erhalten. Je nach Koeffizient zeigen sich hier jedoch verschiedene Hinweise: Der geringste Rep-Koeffizient (nach Goodenough-Edwards) zeigt sich bei V308, der kleinste PRE-Koeffizient bei V307 und der kleinste C-Koeffizient bei V310. Wenn jeweils ein Item probeweise aus der Skalierung ausgeschlossen wird, dann zeigt sich,
298
Joachim Gerich
Tab. 8: Scoreverteilung Score
Absolut
%
0 1 2 3 4 5 6 7
85 69 164 717 370 336 240 847
3,0 2,4 5,8 25,4 13,1 11,9 8,5 30,0
n=2828
dass die Skalenkoeffizienten RepGE (0,949), PRE (0,768) und C (0,878) jeweils den höchsten Wert aufweisen, wenn V310 eliminiert werden würde. Nachdem auch schon die Ausgangsskala bestehend aus sieben Items ausreichende Guttmanskalierbarkeit aufweist, obliegt es in diesem Beispiel der jeweiligen Entscheidung des Anwenders, ob eine Eliminierung von V310 erfolgt oder nicht. In Tabelle 8 ist die Verteilung des Gesamtpunktewertes der aus sieben Items bestehenden Skala dargestellt. Dieser Gesamtpunktewert repräsentiert somit die Ausprägung der Personen auf der latenten Variablen (Ausmaß der Akzeptanz eines Schwangerschaftsabbruches). Es ist eine bimodale Verteilung zu beobachten, wobei fast ein Drittel der Befragten die maximale Ausprägung von sieben aufweisen (hohe Akzeptanz). Aus der Perspektive der Skaleneigenschaften bedeutet dies einerseits, dass die Messung im oberen Spektrum der latenten Variable zu wenig differenziert, d. h. zu wenige „schwierige“ Items operationalisiert wurden. Auf der anderen Seite bieten die Antwortmuster der 847 Personen mit einem Gesamtpunktewert von sieben keine relevante Information zur Beurteilung der Skalierbarkeit. Würden jene Personen mit einem maximalem Score zur Berechnung der Skalenkoeffizienten nicht herangezogen werden, so würde sich der RepGE Koeffizient auf 0,882 reduzieren (der C-Koeffizient wäre unverändert, da bei diesem Koeffizienten gebundene Ausprägungskombinationen unberücksichtigt bleiben). Wenn die weniger strenge Schwelle für den Rep-Koeffizient von 0,85 herangezogen wird, dann würde also selbst dann, wenn die Extremgruppe nicht zur Beurteilung der Skalenqualität herangezogen wird, hinreichende Guttman-Skalierbarkeit vorliegen. 2.3 Häufige Fehler bei der Guttmanskalierung Die Guttmanskalierung ist ein Verfahren zur Anwendung auf solche Items, welche aufgrund ihrer monotonen Charakteristik die gesuchte latente Dimension an unterschiedlichen Stellen teilen. Das Verfahren sollte daher zur Vermeidung von Skalierungsartefakten auch nur auf Items angewendet werden, die dieser Logik auch entsprechen. Es sollten Items verwendet werden, welche das latente Spektrum in einem möglichst breiten Schwierigkeitsspektrum abdecken. Zugleich sollten jedoch extreme Verteilungen von Schwierigkeiten (zu leichte oder zu schwierige Items) und / oder Fähigkeiten
13 Guttman- und Mokkenskalierung
299
(Personen können alle oder keine Items „lösen“) vermieden werden, da diese tendenziell zu einer Überschätzung der Skalierbarkeit führen. Es können alternative Koeffizienten berechnet werden (z. B. PRE- oder C-Koeffizient), welche gegenüber diesen extremen Verteilungen robuster sind. Allerdings sind für diese Koeffizienten keine Schwellenwerte zur Beurteilung der Skalenqualität bekannt. Ein allgemeiner Kritikpunkt der Guttmanskala betrifft deren deterministische Eigenschaft in Form der Treppenfunktion der Itemcharakteristik, welche für sozialwissenschaftliche Anwendungen als unrealistisch gilt. Alternativ können daher auch probabilistische parametrische Verfahren (z. B. Rasch-Skalierung, vgl. Kapitel 14 in diesem Handbuch) oder nichtparametrische Verfahren (z. B. Mokkenskalierung, siehe nächster Abschnitt) angewendet werden.
3 Mokkenskalierung 3.1 Grundlagen des Verfahrens Die Mokkenskalierung (Mokken 1971) kann als Weiterentwicklung der Guttmanskala gesehen werden, bei der die deterministische Restriktion des spezifischen treppenförmigen Verlaufs der Tracelines durch allgemeinere Monotoniebedingungen ersetzt wird. Sie kann weiterhin als probabilistisches Verfahren bezeichnet werden, da die Wahrscheinlichkeit von Itemausprägungen als Funktion von Item- und Personeneigenschaften definiert wird. Da diese Wahrscheinlichkeit im Rahmen der Mokkenskalierung jedoch nicht durch eine spezifische mathematische Funktion erfolgt, wird sie als „nichtparametrisches“ Skalierungsverfahren bezeichnet.11 Die Definition einer Mokkenskala bezieht sich nicht wie in der Guttmanskala auf ein bestimmtes modellkonformes Ausprägungsmuster der Items, sondern ist im wesentlichen durch zwei Montoniebedingungen („doppelte Monotonie“) bestimmt. 12 1. Im Rahmen der Bedingung der Monotonen Homogenität wird vorausgesetzt, dass zwischen der Ausprägung der latenten Variable θ und der Auftrittswahrscheinlichkeit einer Eins-Ausprägung eines Items i πi (θ,δ) eine monotone Beziehung in folgender Form besteht: πi (θ,δ) ist monoton steigend in θ: θ1 > θ2 ⇒ πi (θ1 ,δ) > πi (θ2 ,δ)
(10)
Mit (10) wird somit vorausgesetzt, dass die Tracelines aller Items einer Mokkenskala monoton mit der Ausprägung der latenten Variable steigen. Dies ist gilt zwar auch für die Guttmanskala, im Unterschied zu dieser wird jedoch sonst keine weitere spezifische Verlaufsform der Traceline verlangt. 11
Beispiele für parametrische probabilistische Skalierungsverfahren wären etwa das Raschoder Birnbaummodell, bei denen die Wahrscheinlichkeitsfunktion durch ein- bzw. zweiparametrische logistische Funktionen definiert sind (vgl. dazu Kapitel 14 in diesem Handbuch). 12 Darüber hinaus wird – wie für die meisten probabilistischen Skalierungsmodelle – für die Mokkenskalierung lokale stochastische Unabhängigkeit der Einzelmessungen vorausgesetzt (vgl. Lord & Novick 1968, S. 360 f.).
300
Joachim Gerich
(a)
(b)
Abb. 4: Beispiele verschiedener Itemcharakteristiken 2. Mit der Bedingung der Monotonie der Itemschwierigkeiten wird eine monotone Beziehung zwischen Itemschwierigkeiten und den Auftrittswahrscheinlichkeiten einer Eins-Ausprägung der Items festgelegt: πi (θ,δ) ist monoton fallend in δ : δi > δj ⇒ πi (θ,δi ) < πj (θ,δj )
(11)
Mit (11) wird vorausgesetzt, dass für beliebige Ausprägungen der latenten Variable die Auftrittswahrscheinlichkeit einer 1-Anzeige eines leichteren Items kleiner als die eines schwereren Items ist. Diese Voraussetzung ist gleichbedeutend damit, dass sich die Tracelines der Items einer Mokkenskala über das gesamte Spektrum der latenten Variable hinweg nicht überschneiden dürfen. In Abbildung 4 sind als Beispiele unterschiedliche logistische Itemcharakteristiken dargestellt (vgl. dazu Kapitel 14 in diesem Handbuch). Die rechte Seite der Abbildung zeigt die Antwortfunktionen zweier Items, welche einer Rasch-Skalierung entsprechen. Itemcharkteristiken dieses Modells zeichnen sich durch monoton steigende Verläufe der Tracelines mit jeweils konstanter Steigung aus. Die Kurven verlaufen daher jeweils parallel zueinander und können sich deshalb nicht überschneiden. Items, welche den Anforderungen dieses einparametrischen Raschmodells genügen, erfüllen somit auch die Bedingungen der doppelten Monotonie und sind daher mokkenskalierbar. Auf der linken Seite der Abbildung sind die Itemcharakteristiken zweier Items dargestellt, welche einem zweiparametrischem logistischen Skalierungsmodell (BirnbaumModell) entsprechen. Die Steigungen der Antwortfunktion von Items einer BirnbaumSkala können variieren, wodurch eine Überschneidung der Tracelines (wie in diesem Beispiel) möglich ist. Items dieses Modells sind somit nicht zwingend mokkenska-
13 Guttman- und Mokkenskalierung
301
Item j 0 Item i
0 1
1 1
1
Abb. 5: Kontingenztabelle mit πi < πj lierbar, sondern nur dann, wenn sich die Tracelines über das Spektrum von θ nicht überschneiden.13 Modellprüfung Bei parametrischen Verfahren gestaltet sich die Prüfung der Modellanpassung – zumindest theoretisch – einfach, da aufgrund der mathematischen Spezifikation der Antwortfunktion erwartete Werte mit empirisch beobachteten im Sinne eines „goodness of fit“-Tests verglichen werden können. Im Falle der nichtparametrischen Mokkenskalierung ist eine derartige Form der Prüfung der Modellanpassung nicht möglich. Statt dessen wurden von Mokken (1971) Prüfmöglichkeiten vorgeschlagen, welche sich auf notwendige Bedingungen stützen, die bei Gültigkeit der doppelten Monotonie abgeleitet werden können. Die zentrale Prüfmöglichkeit der Bedingung der montonen Homogenität erfolgt anhand der Paarvergleiche aller Items einer Skala mit Hilfe des Koeffizienten H in Anlehnung an Loevinger (1947). Grundlage des Koeffizienten ist die Ableitung, dass für zwei monoton homogene Items i und j gilt, dass die Wahrscheinlichkeit einer gemeinsamen 1-Anzeige (πij ) größer oder gleich dem Produkt der marginalen Wahrscheinlichkeiten der 1-Anzeigen sein muss, d. h. πij ≥ πi πj (Mokken 1971, S. 130 f.). Der H-Koeffizient dient als normiertes Maß dafür, in welchem Ausmaß diese Voraussetzung für empirische Daten gegeben ist. Die Logik des Koeffizienten kann auch anhand der Kontingenztabelle zweier Items veranschaulicht werden (Abbildung 5). In einer bivariaten Verteilung zweier Items i und j widerspricht eine Antwortkombination, bei welcher das schwierige Item mit null und das leichtere Item mit eins beantwortet wird der Bedingung der monotonen Homogenität. In Abbildung 5 entspricht dies der schraffiert eingezeichneten Zelle. Es handelt sich dabei gleichzeitig auch um die paarweise beobachtbaren Guttmanfehler für Item i und j. Die Auftrittswahrscheinlichkeit dieser inkonsistzenten Antwortwahrscheinlichkeit ist durch Eij = πi − πij gegeben. Die erwartete Wahrscheinlichkeit inkonsistenter Antwortkombinationen bei konstanter Itemschwierigkeit, jedoch statistischer Unabhängigkeit beider Items ergibt sich durch E0ij = πi (1 − πj ). Beim H-Koeffizienten wird nun die empirische Wahrscheinlichkeit der Inkonsistenz mit der erwarteten Wahrscheinlichkeit in folgender Form in Beziehung gesetzt: 13
Die Wahrscheinlichkeit der Überschneidung ist umso geringer, je weniger die Steigungsparameter der Items (die der Diskriminationsfähigkeit entsprechen) variieren bzw. je größer die Schwierigkeitsabstände der Items zueinander sind.
302
Joachim Gerich
Hij = 1 −
E0ij − Eij πij − πi πj Eij πi (1 − πj ) − (πi − πij ) = = = E0ij E0ij πi (1 − πj ) πi (1 − πj )
(12)
Der paarweise Hij -Koeffizient kann Werte zwischen −1 und +1 annehmen. Sein Wert ist +1, wenn keine Inkonsistenzen auftreten und gleich null, wenn die beobachtete Wahrscheinlichkeit der Inkonsistenzen jener der erwarteten Wahrscheinlichkeit der Inkonsistenzen entspricht. Negative Werte von Hij entsprechen einer negativen Korrelation der beiden Items und treten auf, wenn die beobachtete Wahrscheinlichkeit der Inkonsistenz die erwartete Wahrscheinlichkeit übertrifft. Da die Zelle der Inkonsistenzen jener der paarweisen Guttmanfehler entspricht, sind Items mit einem Hij -Koeffizienten in der Höhe von +1 auch zueinander perfekte Guttmanitems. Durch die Summierung der erwarteten und beobachteten Wahrscheinlichkeiten über alle Paarvergleiche eines Itemsets, in denen ein bestimmtes Item i enthalten ist, wird der Itemkoeffizient Hi ermittelt: k
Hi =
(πij − πi πj )
j=1,j =i i−1
πj (1 − πi ) +
j=1
k
(13) πi (1 − πj )
j=i+1
Mittels einer Summierung über alle Paarvergleiche eines Itemsets kann weiterhin der Skalenkoeffizient H berechnet werden: k−1
H=
k
(πij − πi πj )
i=1 j=i+1 k−1
k
(14) πi (1 − πj )
i=1 j=i+1
Für alle drei Koeffizienten (Hij ,Hi und H) kann mittels einer approximativ normalverteilten Teststatistik Δ geprüft werden, ob die Koeffizienten Werte aufweisen, welche signifikant größer null sind (Mokken 1971, S. 160 f.). Mittels dieser Größen erfolgt schließlich die Beurteilung der Skalierbarkeit hinsichtlich der Bedingung der monotonen Homogenität: 1. Die paarweisen Hij -Koeffizienten (und folglich auch der Skalenkoeffizient H und die Itemkoeffizienten Hi ) einer formal gültigen Mokkenskala müssen signifikant größer null sein. 2. Da relativ geringe (positive) Werte des H-Koeffizienten kein ausreichendes Kriterium einer Skalierbarkeit darstellen, ist es zudem nötig für den Akzeptanzbereich einer Mokkenskala Untergrenzen für den Skalenkoeffizienten H zu setzen. Die Empfehlung von Mokken (1971) lautet, als Untergrenze des H-Koeffizienten einen Wert von 0,3 festzulegen. Skalen, die H-Koeffizienten zwischen 0,3 und 0,4 aufweisen werden als „schwache“ Skalen, jene mit Werten zwischen 0,4 und 0,5 als „mittlere“ und jene mit Werten größer 0,5 als „starke“ Skalen bezeichnet. Mokken
13 Guttman- und Mokkenskalierung
303
kommentiert diese pragmatische Einteilung folgenderweise: „The concept of a strong scale corresponds to the original strong requirements for a Guttman-scale. The medium scale may well prove very useful in research. In fact even our weak scales may possess enough structure to be used in research with profit for the measurement of an underlying dimension“ (Mokken 1971, S. 185). 3. Da durch diese zwei Bedingungen noch nicht gesichert ist, dass jedes einzelne Item über ausreichende Skalierungsqualitäten verfügt, ist auch eine Untergrenze für die Itemkoeffizienten Hi festzulegen. Mokken schlägt auch hier eine Untergrenze von 0,3 vor, um sicherzustellen, dass jedes einzelne Item ein Minimum an Modellkonformität aufweist. Der Itemkoeffizient Hi ist weiterhin die wesentliche Grundlage der Itemanalyse im Rahmen der Mokkenskalierung. Die von Mokken vorgeschlagene Prüfung der Bedingung der Montonie der Itemschwierigkeiten erfolgt anhand der „P-Matrizen“.14 . Diese Vorgehensweise beruht auf zwei Ungleichungen, welche unter der Bedingung der Monotonie der Itemschwierigkeiten erfüllt sein müssen. Für eine Menge von k Items, welche sowohl die Bedingung der monotonen Homogenität als auch die der Monotonie der Itemschwierigkeiten erfüllen, muss für alle Items i, r, s aus k, mit Item r schwieriger als s, gelten: πir (1,1) ≤ πis (1,1) und πir (0,0) ≥ πis (0,0)
(15)
Gemäß (15) ist zu erwarten, dass die gleichzeitige 1-Anzeige eines beliebigen Items (i) mit einem schwereren Item (r) weniger häufig auftritt als die gemeinsame 1-Anzeige mit einem leichteren Item (s). Analog muss gelten, dass die gemeinsame Null-Ausprägung eines beliebigen Items (i) mit einem schwereren Item (r) weniger häufig auftritt als die gemeinsame Null-Ausprägung mit einem leichterem Item (s). Die beiden Ungleichungen können sodann in Form zweier Matrizen (P- und P0 -Matrix) für sämtliche Itemtriaden eines Itemsets überprüft werden. Die symmetrische P-Matrix (Abbildung 6) der Dimension k mal k enthält dabei als Einträge die Anteilswerte nij /n der 1-Anzeigen jeweils zweier Items als Schätzer der Parameter πij (1,1). Die Items sind dabei nach aufsteigender Schwierigkeit geordnet. Die P0 -Matrix enthält die entsprechenden Anteile der gleichzeitigen Null-Anzeigen zweier Items. Die Diagonalen der Matrizen sind nicht definiert.15 Gilt nun die Mono14
15
In weiterer Folge wurden zusätzliche Prüfmöglichkeiten für die Bedingung der Monotonie der Itemschwierigkeiten entwickelt. Die wichtigsten sind die Itemsplit-Methode, die Methode der Restscorevergleiche und die Berechnung des Personenkoeffizienten H T (Rosenbaum 1987; Sijtsma & Junker 1996, 1997; Gerich 2001) Es wurden allerdings verschiedene Ansätze entwickelt, um die Diagonalglieder der PMatrix zu schätzen (Mokken 1971; Sijtsma 1988; Sijtsma & Molenaar 1987). Es handelt sich dabei um die Schätzung des (in der Regel unbekannten) Anteils an Personen, welche bei unabhängigen Replikationen Item i mit einer Eins-Ausprägung beantworten. Die Schätzung der Diagonalglieder ist in weiterer Folge die Grundlage der Berechnung von Reliabilitätskoeffizienten im doppelt-monotonen Skalierungsmodell.
304
Joachim Gerich Item
i
i
-
i+1 … k
…
i+1
…
k
… -
…
…
-
…
…
-
Abb. 6: P–Matrix tonie der Itemschwierigkeiten, muss für die P-Matrix gelten, dass die Anteilseinträge von oben nach unten sowie von links nach rechts sinkende (oder zumindest gleich große) Werte aufweisen. Die P0 -Matrix muss die gegenteilige Eigenschaft besitzen: Die Anteilseinträge müssen von oben nach unten sowie von links nach rechts steigende (oder zumindest gleich große) Werte aufweisen. Mokken schlägt vor, Abweichungen in der Höhe von ±0,03 von diesem Muster zu tolerieren. Es besteht jedoch auch die Möglichkeit, einen statistischen Test zur Prüfung der Signifikanz der Abweichungen anzuwenden (Gerich 2001). Abschließend kann die forschungspraktische Anwendung der Mokkenskalierung zusammengefasst werden: Für eine ausgewählte Itemmenge wird zunächst die Bedingung der monotonen Homogenität geprüft. Dies erfolgt mit Hilfe der Testgrößen Delta (Prüfung der Hypothesen Hij , Hi und H > 0). Des Weiteren wird inspiziert, ob die Werte der Skalen- und Itemkoeffizienten größer einer festgelegten Schwelle sind (z. B. Hi und H > 0,3 als Minimalkriterium der Skalierbarkeit). Anschließend erfolgt die Prüfung der Monotonie der Itemschwierigkeiten anhand der P-Matrizen und alternativ unter Einbeziehung weiterer Prüfkriterien (Itemsplit-Methode, die Methode der Restscorevergleiche, H T Koeffizienten). Abschließend werden die Skalenwerte einer gültigen Mokkenskala wie auch im Rahmen der Guttmanskalierung aus dem einfachen Summenindex der Items berechnet. Das Skalenniveau des Skalenwertes weist daher wie in der Guttmanskala ordinales Messniveau auf. Zur (explorativ angewandten) Konstruktion einer Skala aus einem gegebenem Itempool wurde von Mokken (1971, S. 190 f.) eine schrittweise Prozedur vorgeschlagen. Ausgehend von jenem Itempaar mit dem höchsten Hij -Koeffizienten werden dabei schrittweise weitere Items in die Skala aufgenommen, bis ein vordefiniertes Abbruchkriterium erreicht wird.16 Für die verbleibenden (nicht mokkenhomogenen) Items kann erneut eine schrittweise Prozedur angewendet werden, so dass aus einem vorhandenen Itempool mehrere mokkenhomogene Skalenkerne hervorgehen können. Auf diese Weise besteht die Möglichkeit, die Mehrdimensionalität einer Itemmenge in Form mehrerer unabhängiger (d. h. nicht kombinierbarer) Skalen abzubilden.
16
Das Abbruchkriterium wird in der Regel dadurch definiert, dass kein zusätzliches Item mit Hi größer 0,3 verfügbar ist bzw. der Skalenkoeffizient H bei der Aufnahme eines zusätzlichen Items Werte kleiner als 0,5 annimmt.
13 Guttman- und Mokkenskalierung
305
Weiterhin ist zu erwähnen, dass mehrere Möglichkeiten zur Robustheitsprüfung von Mokkenskalen vorgeschlagen wurden (Mokken 1971, S. 164 ff. bzw. 224 ff.). Der Begriff der Robustheit soll die Vergleichbarkeit von Skalen über verschiedene Subpopulationen hinweg beschreiben. Die Robustheit einer Skala ist beispielsweise im Rahmen kulturübergreifender oder kulturvergleichender Forschung von entscheidender Bedeutung (vgl. Scheuer 2005). Dabei kann jedoch die Äquivalenz unterschiedlich strikt ausgelegt werden.17 Die wichtigste Form der Robustheitsprüfung im Rahmen der Mokkenskalierung besteht darin, die Gleichheit des Skalenkoeffizienten H in verschiedenen Subpopulationen zu prüfen. Dies kann mit Hilfe einer approximativ Chi2 -verteilten Teststatistik erfolgen (Mokken 1971, S. 168 f.). Scheuer (2005, S. 33 ff.) skizziert in diesem Zusammenhang einen „Top-down-Ansatz“ zur Konstruktion vergleichbarer Skalen im Rahmen kulturübergreifender Analysen. Dabei wird zunächst basierend auf den gepoolten Daten (d. h. dem Gesamtdatensatz aller Subpopulationen) mit Hilfe der schrittweisen Prozedur der Skalenerweiterung explorativ eine skalierbare Itemmenge identifiziert. Anschließend wird die Skala konfirmatorisch innerhalb jeder Subpopulation getrennt getestet und hinsichtlich ihrer Robustheit über sämtliche Subpopulationen überprüft. Sollte sich die ursprüngliche Skala als nicht robust erweisen, wird der Vorgang iterativ wiederholt. 3.2 Anwendungsbeispiel Die Grundelemente der Anwendung der Mokkenskalierung sollen wiederum anhand der sieben Items zum Schwangerschaftsabbruch demonstriert werden, welche bereits im Beispiel zur Guttmanskalierung verwendet wurden. In einem ersten Schritt werden sämtliche Hij -Koeffizienten mit den entsprechenden Teststatistiken Δij berechnet.18 Entsprechend der von Mokken geforderten Voraussetzungen weisen sämtliche Hij Koeffizienten für dieses Anwendungsbeispiel numerische Werte größer als null auf (der niedrigste Hij -Koeffizient beträgt 0,49 für das Itempaar V311 und V307, der höchste Hij -Koeffizient beträgt 0,83 für das Itempaar V313 und V312) und können auch – basierend auf der normalverteilten Prüfgröße Δij – als signifikant größer null angenommen werden (p jeweils < 0,01). Anschließend werden die Itemkoeffizienten Hi inspiziert (Tabelle 9). 17
18
Mokken definiert die Robustheit einer Skala in Abgrenzung zur strikteren „Invarianz“ folgender Weise: „A scale (or a factor structure) is robust for a set of cultures or nations, when its structure is approximately the same for the cultures or nations concerned“ (Mokken 1971, S. 225). Die Robustheit einer Skala über verschiedene Subpopulationen hinweg kann somit unterschiedlich streng definiert werden, je nachdem, auf welche Kriterien sie bezogen wird (z. B. Invarianz der Reihung der Itemschwierigkeiten, Invarianz der Skalenkoeffizienten, Invarianz der Reliabilität etc.) Die Berechnung der H-Koeffizienten kann mittels Stata mit der Prozedur loevH bzw. msp von J.B. Hardouin durchgeführt werden. Im Statistikprogramm ALMO (Holm 2009) ist ebenfalls eine Prozedur zur Mokkenskalierung enthalten, welche neben der Ermittlung der P-Matrizen auch zahlreiche zusätzliche Funktionen bietet. Umfangreiche Prozeduren zur Mokkenskalierung bietet zudem das Programm MSP (http://www.scienceplus.nl/msp), welches allerdings in seiner Funktionalität auf die Mokkenskalierung beschränkt ist.
306
Joachim Gerich
Tab. 9: Skalen- und Itemkoeffizienten
V309 V311 V307 V308 V310 V313 V312
δi
Hi
Δi
p
0,94 0,91 0,90 0,52 0,51 0,47 0,38
0,675 0,655 0,614 0,706 0,689 0,725 0,794
31,274 35,509 33,546 59,621 58,656 60,414 58,393
0,000 0,000 0,000 0,000 0,000 0,000 0,000
0,708
93,252
0,000
Skala
Tab. 10: P-Matrix
V309 V311 V307 V308 V310 V313 V312
V309
V311
V307
V308
V310
V313
V312
− 0,88 0,88 0,52 0,50 0,46 0,37
− 0,86 0,51 0,50 0,45 0,37
− 0,51 0,49 0,45 0,37
− 0,42 0,40 0,34
− 0,39 0,34
− 0,34
−
Auch sämtliche Itemkoeffizienten sind signifikant größer null. Ihre numerischen Werte sind durchgehend deutlich höher als die von Mokken angegebene Schranke von 0,3. Der resultierende Skalenkoeffizient H beträgt 0,71, woraus abgeleitet werden kann, dass die Gesamtskala entsprechend der von Mokken vorgeschlagenen Einteilung, als „starke“ Skala (H > 0,5) bezeichnet werden kann. In weiterer Folge werden die P- und P0 -Matrizen inspiziert (Tabellen 10 und 11). Die P-Matrix der sieben Items ist aufsteigend nach der Itemschwierigkeit (ersichtlich aus δi in Tabelle 9) arrangiert. Aus Tabelle 10 ist ersichtlich, dass die P-Matrix die Erfordernisse der Monotonie der Itemschwierigkeiten erfüllt: Die Matrix weist sowohl von oben nach unten als auch von links nach rechts sinkende oder gleich hohe Einträge auf. Analog erfüllt die P0 -Matrix die Erfordernisse einer Mokkenskala, da die Matrix sowohl von oben nach unten als auch von links nach rechts betrachtet steigende oder gleich hohe Einträge beinhaltet (Tabelle 11). Abschließend ist somit festzustellen, dass die sieben Items zum Schwangerschaftsabbruch den hier geprüften Anforderungen einer Mokkenskala genügen und nach der von Mokken vorgeschlagenen Klassifikation eine „starke“ Skala bilden. Da jedoch zuvor schon die Skalierbarkeit der Items entsprechend dem Guttman-Modell bestätigt wurde, ist natürlich die Bestätigung der Mokkenhomogenität wenig überraschend. Eine nahezu perfekte Guttmanskala erfüllt selbstverständlich ebenso die weniger strengen Anforderungen einer Mokkenskala.
13 Guttman- und Mokkenskalierung
307
Tab. 11: P0 -Matrix
V309 V311 V307 V308 V310 V313 V312
V309
V311
V307
V308
V310
V313
V312
− 0,04 0,04 0,05 0,05 0,05 0,05
− 0,05 0,08 0,08 0,08 0,09
− 0,08 0,08 0,08 0,09
− 0,38 0,41 0,44
− 0,41 0,45
− 0,50
−
3.3 Häufige Fehler bei der Mokkenskalierung Zunächst ist festzuhalten, dass sich die Möglichkeiten zur Prüfung der Modellannahmen lediglich auf wenige notwendige – nicht jedoch hinreichende – Voraussetzungen beziehen, welche aus den Bedingungen der doppelten Monotonie abgeleitet wurden. Aus diesem Grund wurde die hier skizzierte Vorgehensweise verschiedentlich kritisiert (Rosenkam et al. 1986). Daher wurden zahlreiche zusätzliche Prüfmethoden entwickelt, um mögliche Modellverletzungen identifizieren zu können. Eine zusammenfassende Darstellung dieser weiteren Methoden findet sich bei Gerich (2001). Weiterhin gilt wie bei der Guttmanskala, dass bei extremen Verteilungen von Schwierigkeiten (zu leichte oder zu schwierige Items) und / oder Fähigkeiten (Personen können alle oder keine Items lösen) die Beurteilung der Skalierbarkeit anhand der H-Koeffizienten überschätzt wird. Zu berücksichtigen ist auch, dass die Mokkenskalierung für Items einer spezifischen Dominanzrelation (hierarchische Operationalisierung nach dem Muster von Fähigkeitsskalen) geeignet ist. Wenn die zugrundeliegenden Items einer anderen Operationalisierungslogik folgen (z. B. wenn es sich um Items zur Erfassung von Präferenzen handelt), sind andere geeignete Verfahren (z. B. Unfoldingmodelle) anzuwenden.19 Auf der anderen Seite besteht ein weiterer Anwendungsfehler der Mokkenskalierung gleichsam in ihrer Nichtanwendung. So führt beispielsweise die Anwendung einer Faktorenanalyse bei Mokken- (bzw. Guttman-)homogenen Items tendenziell zu einer Extraktion artifizieller Schwierigkeitsfaktoren (z. B. Denz 1982, S. 17). Das bedeutet, dass in diesem Fall Itemschwierigkeiten unzutreffender Weise als unterschiedliche Inhaltsdimensionen interpretiert werden.
4 Literaturempfehlungen Eine anwendungsorientierte Darstellung der Guttmanskalierung gibt Bacher (1990). Gerich (2001) bietet einen umfassenden Überblick über die Mokkenskalierung und deren forschungspraktische Anwendung, wie auch detailliertere Beschreibungen zur 19
Auch für diese Anwendung besteht die Möglichkeit, ein nichtparametrisches Unfoldingverfahren anzuwenden, welches der Logik der Mokkenskalierung sehr ähnlich ist (Schuur 1988).
308
Joachim Gerich
Technik der schrittweisen Skalenerweiterung. Für eine detailliertere Behandlung der Robustheitsprüfung sei auf Mokken (1971, S. 224 ff.) verwiesen. Zahlreiche Anwendungen der Mokkenskalierung und der Robustheitsprüfung im Rahmen der Kulturübergreifenden und Kulturvergleichenden Forschung finden sich bei Scheuer (2005). Weitere statistische Tests für H-Koeffizienten werden von Ark et al. (2008) präsentiert. Spezielle Methoden zur Schätzung von Reliabilitätskoeffizienten im Rahmen der Mokkenskalierung finden sich bei Sijtsma (1988) und Sijtsma & Molenaar (1987). Eine alternative Prüfmethode der Monotonie der Itemschwierigkeiten mittels ordinaler Analyse latenter Klassen präsentiert Croon (1991). Die Verallgemeinerung der Mokkenskalierung für polytome Merkmale behandeln Sijtsma & Molenaar (2002). Sijtsma et al. (2008) illustrieren den Vergleich zwischen parametrischen und nichtparamtetrischen IRT-Modellen anhand eines Anwendungsbeispiels.
Literaturverzeichnis Ark, v. d. A., Croon, M. A., & Sijtsma, K. (2008). Mokken Scale Analysis for Dichotomous Items Using Marginal Models. Psychometrika, 73, 183–208. Bacher, J. (1990). Einführung in die Logik der Skalierungsverfahren. Historische Sozialforschung, 15, 4–170. Bortz, J. (1999). Statistik für Sozialwissenschaftler. Berlin: Springer. Cliff, N. (1983). Evaluating Guttman Scales: Some Old and New Thoughts. In H. Wainer & S. Messick (Hg.), Principals of Modern Psychological Measurement (S. 283–301). Hillsdale: Erlbaum. Coombs, C. H. (1964). A Theory of Data. New York: John Wiley. Croon, M. A. (1991). Investigating Mokken Scalability of Dichotomous Items by Means of Ordinal Latent Class Analysis. British Journal of Mathematical and Statistical Psychology, 44, 315–331. Denz, H. (1982). Analyse latenter Strukturen. München: Franke. Edwards, A. (1957). Techniques of Attitude Scale Construction. New York: Appleton-CenturyCrofts. Gerich, J. (2001). Nichtparametrische Skalierung nach Mokken. Linz: Trauner. Guttman, L. (1944). A Basis for Scaling Qualitative Data. American Sociological Review, 9, 139–150. Guttman, L. (1950). The Basis for Scalogram Analysis. In S. A. Stouffer, L. Guttman, E. A. Suchman, P. F. Lazarsfeld, S. A. Star, & J. A. Clausen (Hg.), Measurement and Prediction (S. 66–90). New York: John Wiley and Sons. Holm, K. (2009). ALMO Statistiksystem. Linz: Universität Linz. Loevinger, J. (1947). A Systematic Approach to the Construction and Evaluation of Tests of Ability. Psychological Monographs, 61, 1–49. Lord, F. M. & Novick, M. R. (1968). Statistical Theories of Mental Test Scores. Reading: Addison-Wesley. McIver, J. & Carminesm, E. (1983). Undimensional Scaling. Beverly Hills: Sage. Mokken, R. (1971). A Theory and Procedure of Scale Analysis. The Hague: Mouton.
13 Guttman- und Mokkenskalierung
309
Rosenbaum, P. R. (1987). Comparing Item Characteristics Curves. Psychometrika, 52, 217–233. Rosenkam, E. E., Wollenberg, v. d. A. L., & Jansen, P. G. W. (1986). The Mokken Scale: A Critical Discussion. Applied Psychological Measurement, 10, 265–277. Scheuer, A. (2005). How Europeans see Europe. Structure and Dynamics of European Legitimacy Beliefs. Amsterdam: Vossiuspers. Schuur, v. W. H. (1988). Stochastic Unfolding. In W. E. Saris & I. Gallhofer (Hg.), Sociometric Research, Band 1 (S. 137–159). Basingstoke: Macmillan Press. Sijtsma, K. (1988). Reliability Estimation in Mokken’s Nonparametric Item Response Model. In W. E. Saris & I. Gallhofer (Hg.), Sociometric Research, Band 1 (S. 159–174). Basingstoke: Macmillan Press. Sijtsma, K., Emons, W. H. M., Bouwmeester, S., Nyklicek, I., & Roorda, L. D. (2008). Nonparametric IRT Analysis of Quality-of-Life Scales and its Application to the World Health Organization Quality-of-Life Scale (WHOQOL-Bref). Quality of Life Research, 17, 275–290. Sijtsma, K. & Junker, B. (1996). A Survey of Theory and Methods of Invariant Item Ordering. British Journal of Mathematical and Statistical Psychology, 49, 79–105. Sijtsma, K. & Junker, B. (1997). Invariant Item Ordering of Transitive Reasoning Tasks. In J. Rost & R. Langeheine (Hg.), Applications of Latent Trait and Latent Class Models in the Social Sciences (S. 100–110). Münster: Waxmann. Sijtsma, K. & Molenaar, I. W. (1987). Reliability of Test Scores in Nonparametric Item Response Theory. Psychometrica, 52, 79–97. Sijtsma, K. & Molenaar, I. W. (2002). Introduction to Nonparametric Item Response Theory. Thousand Oaks: Sage.
14 Item-Response-Theorie Christian Geiser und Michael Eid a b
Arizona State University Freie Universität Berlin
Zusammenfassung. Dieses Kapitel gibt einen Überblick über die wichtigsten Modelle und Methoden der Item-Response-Theorie (IRT). Die IRT stellt Modelle zur psychometrischen Analyse und Skalierung von Test- und Fragebogenitems insbesondere mit nominalem und ordinalem Skalenniveau zur Verfügung. Als eines der einfachsten und bekanntesten IRTModelle wird zunächst das Rasch-Modell (1-parametriges logistisches Modell) für dichotome Items vorgestellt. Im Rasch-Modell wird angenommen, dass alle Items einer Skala oder eines Tests dieselbe latente Dimension (z. B. Fähigkeit, Einstellung, Persönlichkeitseigenschaft) mit unterschiedlichen Itemschwierigkeiten aber jeweils identischer Trennschärfe erfassen. Wichtige Eigenschaften sind die spezifische Objektivität der Messungen, wenn das Rasch-Modell für einen Itemsatz gilt sowie die Tatsache, dass der ungewichtete Summenscore der Items bei Gültigkeit des Rasch-Modells eine suffiziente Statistik für den Personenparameter darstellt. Mögliche Gründe für eine Fehlanpassung des Rasch-Modells in der Praxis werden diskutiert. Anschließend werden das Birnbaum-Modell (2-parametriges logistisches Modell), in welchem die Annahme gleicher Trennschärfen aller Items aufgehoben wird, und das BirnbaumModell mit Rateparameter (3-parametriges logistisches Modell), in welchem zusätzlich die Ratewahrscheinlichkeit berücksichtigt wird, besprochen. In den folgenden Abschnitten wird auf Weiterentwicklungen des Rasch-Modells eingegangen. Exemplarisch werden Rasch-Modelle für mehrstufig geordnet kategoriale (ordinale) Items sowie Mischverteilungsmodelle (Mixed-Rasch-Modell) behandelt. In einer empirischen Anwendung auf sechs dichotome Testitems zur Messung der Fähigkeit zur „mentalen Rotation“ (N = 519) zeigen wir, wie mit Hilfe des Computerprogramms WINMIRA die Modellparameter, Fitstatistiken für das Rasch-Modell und das Mixed-RaschModell geschätzt werden können. In diesem Anwendungsbeispiel zeigt sich, dass das einfache Rasch-Modell aufgrund unterschiedlicher Lösungsstrategien in Subgruppen schlechter passt als ein 2-Klassen-Mixed-Rasch-Modell, in welchem sich die Itemparameter für zwei latente Klassen unterscheiden können. Eine zweite Anwendung (drei 7-stufige Items zur Erfassung von Offenheit aus dem SOEP; N = 2036) illustriert, wie Mischverteilungs-IRT-Modelle dazu genutzt werden können, a priori unbekannte Personengruppen zu identifizieren, die sich hinsichtlich der Nutzung der Ratingskala unterscheiden. Im vorliegenden Fall zeigt sich, dass nur ca. 65 % der Befragten die vorgegebene 7-stufige Ratingskala in der intendierten Weise verwendet haben. Die restlichen 35 % der Befragten verwendeten die Skala dagegen nur eingeschränkt mit einer Tendenz zu den Extremkategorien sowie zur Mittelkategorie der Skala. Abschließend wird auf praktische Aspekte und besondere Probleme bei der Durchführung von IRT-Analysen eingegangen.
S. 311–332 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_14, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
312
Christian Geiser und Michael Eid
1 Einführung Die Item-Response-Theorie (IRT) stellt eine Vielzahl von Modellen und Methoden zur psychometrischen Analyse der Antworten von Personen auf psychologische Testund Fragebogenitems zur Verfügung (zum Überblick s. Rost 2004). Dabei kann es sich entweder um dichotome (binäre) Items (z. B. Testaufgabe nicht gelöst vs. gelöst bzw. Fragebogenitems mit nur zwei Antwortkategorien wie z. B. „stimme zu“ vs. „stimme nicht zu“) oder um ordinale Items (z. B. Testitem nicht gelöst – teilweise gelöst – vollständig gelöst bzw. Fragebogenitems mit mehr als zwei Kategorien wie z. B. stimme überhaupt nicht zu – stimme etwas zu – stimme voll und ganz zu) handeln. Es existieren darüber hinaus auch Modelle für kontinuierliche Antwortvariablen (Müller 1999). In der Literatur werden Modelle und Verfahren der IRT häufig auch unter dem Begriff „Probabilistische Testtheorie“ diskutiert, da in IRT-Modellen die Wahrscheinlichkeit für eine bestimmte Itemantwort (z. B. „stimme der Aussage zu“) als Funktion bestimmter Item- und Personenparameter spezifiziert wird. Zentrale Fragestellungen bei einer IRT-Analyse sind, mit welchem Modell sich die Itemantworten adäquat beschreiben lassen und ob bzw. welche der Items einer Skala zur Messung der in Frage stehenden Personenfähigkeit bzw. -eigenschaft (z. B. Intelligenz, räumliche Vorstellung, Einstellung, Extraversion etc.) geeignet sind. Im Gegensatz zur IRT beschäftigt sich die Klassische Testtheorie (Lord & Novick 1968) eher mit der Analyse von metrischen Antwortvariablen wie z. B. Testsummenwerten sowie deren Reliabilität (und nicht mit der Analyse einzelner kategorialer Items). IRT-Modelle werden häufig auch als Latent-Trait-Modelle bezeichnet. Dies erklärt sich aus der Grundidee der meisten IRT-Modelle, wonach die beobachteten dichotomen oder ordinalen Itemantworten messfehlerbehaftete Indikatoren für eine kontinuierliche (metrische) latente Personenfähigkeits- bzw. Personeneigenschafts-Variable (sog. Latent-Trait-Variable) darstellen. Diese Latent-Trait-Variable wird in der gängigen IRT-Notation häufig mit dem griechischen Buchstaben θ (Theta) bezeichnet. Der latente Traitwert einer Person v, θv , ist im Gegensatz zu den Itemantworten per Definition frei von Messfehlern. Ein Ziel von Anwendungen der IRT ist es häufig, die latenten Traitwerte der zu untersuchenden Personen auf Basis eines bestimmten IRT-Modells zu schätzen, um die Personenfähigkeiten bzw. -eigenschaftswerte zu bestimmen. Mit Hilfe von IRT-Analysen kann außerdem geklärt werden, ob mit den verschiedenen Items eines Tests oder Fragebogens tatsächlich dieselbe latente Eigenschaft erfasst wird (Überprüfung der Eindimensionalität einer Skala oder eines Tests) und ob sich alle Items einer Skala zur Messung der gewünschten latenten Dimension eignen. Es können dabei Items identifiziert werden, die zur Messung der zu betrachtenden Personeneigenschaft ungeeignet sind (Itemselektion). Ferner kann das Antwortformat (z. B. die gewählte Abstufung einer Ratingskala) auf ihre Funktionalität hin überprüft werden (siehe dazu Abschnitt 4 und 6). Wir werden als erstes das wohl bekannteste Modell der IRT vorstellen, das sogenannte Rasch-Modell. Aus didaktischen Gründen werden wir uns dabei zunächst auf den Fall dichotomer Items beschränken. Die Erweiterung des Rasch-Modells auf ordinale (mehrstufig geordnet kategoriale) Items wird in Abschnitt 3 besprochen.
14 Item-Response-Theorie
313
2 Modelle für dichotome Items Aus Platzgründen werden wir hier nur die drei bekanntesten IRT-Modelle für dichotome Items besprechen (das Rasch-Modell, das Birnbaum-Modell und das Modell mit Rateparameter). Weitere Modelle für dichotome Antwortvariablen (z. B. das Mokken-Modell sowie Unfolding-Modelle) werden z. B. in den Lehrbüchern von Rost (2004) sowie Fischer & Molenaar (1995) vorgestellt. 2.1 Das Rasch-Modell Im Rasch-Modell (Rasch 1960) wird angenommen, dass die Wahrscheinlichkeit P (xvi ), dass eine Person v bei einem Item i (z. B. einer Intelligenztestaufgabe) eine bestimmte Antwort x gibt, von genau zwei Faktoren abhängt: (1) der Schwierigkeit des Items (σi ) und (2) dem Wert θv der Person auf der latenten Personeneigenschaftsvariable θ (z. B. Intelligenz). Für dichotome Items ergibt sich dabei folgende Modellgleichung: e(θv −σi ) , (1) 1 + e(θv −σi ) wobei e die Eulersche Zahl bezeichnet. P (xvi = 1) steht für die Wahrscheinlichkeit, dass die Antwort der Person v bei Item i gleich 1 ist, zum Beispiel für die Wahrscheinlichkeit, ein Testitem zu lösen oder einem Fragebogenitem zuzustimmen (im Gegensatz zur Kategorie 0, die für die Nichtlösung bzw. Ablehnung des Items steht). Da die Wahrscheinlichkeit der zweiten Kategorie (0) gleich der Gegenwahrscheinlichkeit ist, d. h. P (xvi = 0) = 1 − P (xvi = 1), reicht es bei dichotomen Items aus, nur eine der Kategorien zu betrachten (üblicherweise die höhere). Der in Gleichung (1) beschriebene Zusammenhang zwischen beobachtetem Antwortverhalten, Itemschwierigkeit (Itemparameter) und latenter Traitausprägung (Personenparameter) lässt sich mit Hilfe von sogenannten charakteristischen Itemfunktionen oder Item Characteristic Curves (ICCs) graphisch darstellen. Abbildung 1 zeigt die ICCs für drei dichotome, Rasch-konforme Items mit unterschiedlichen Schwierigkeitsparametern σi . In Abbildung 1 ist auf der Ordinate (y-Achse) die Wahrscheinlichkeit der Kategorie 1 (Item-Lösungs- bzw. Zustimmungswahrscheinlichkeit) abgetragen. Auf der Abszisse (x-Achse) sind die Werte der Personen auf der latenten kontinuierlichen Traitvariablen θ bzw. die Itemschwierigkeiten σi abgetragen. Latenter Trait und Itemschwierigkeit werden im Rasch-Modell auf einer gemeinsamen Skala gemessen. Der Schwierigkeitswert σi eines Items kann per Definition exakt bei der Traitausprägung abgelesen werden, für die die Lösungswahrscheinlichkeit 0,50 beträgt (siehe gestrichelte Linien in Abbildung 1). Gemäß Gleichung (1) besteht zwischen Itemantwort und latentem Trait im RaschModell ein logistischer (S-förmiger) Zusammenhang. Ein logistischer (und kein linearer) Zusammenhang wird angenommen, da die Antwortwahrscheinlichkeit für ein Item auf das Intervall [0; 1] beschränkt ist und man mit einer linearen Itemcharakteristik diesen Wertebereich bei extrem geringen und extrem hohen Traitausprägungen verlassen würde (was wenig sinnvoll wäre). Man kann das Rasch-Modell jedoch auch als lineares P (xvi = 1) =
314
Christian Geiser und Michael Eid
Abb. 1: Exemplarische Rasch-Itemfunktionen für drei Items Modell formulieren, wobei dann auf der linken Seite der Modellgleichung nicht mehr die Antwortwahrscheinlichkeit, sondern der logarithmierte Wettquotient erscheint. Beim Wettquotienten handelt es sich um das Verhältnis der Antwortwahrscheinlichkeit P (xvi = 1) zur Gegenwahrscheinlichkeit 1 − P (xvi = 1). Den natürlichen Logarithmus (ln) des Wettquotienten bezeichnet man auch als Logit: P (xvi = 1) = θv − σi . ln (2) 1 − P (xvi = 1) Anhand von Abbildung 1 lässt sich erkennen, dass mit steigender Trait-Ausprägung (auf der Abszisse nach rechts) die Wahrscheinlichkeit zunimmt, das Item zu lösen bzw. dem Item zuzustimmen. Je höher beispielsweise die numerische Verarbeitungskapazität einer Person ist, desto größer ist gemäß Rasch-Modell die Wahrscheinlichkeit, dass die Person eine bestimmte Zahlenreihenaufgabe lösen wird. Oder: Je größer die Ausprägung der Extraversion einer Person ist, desto wahrscheinlicher ist es, dass die Person der Aussage „Ich gehe gerne auf Parties“ zustimmen wird. In Abbildung 1 ist Item 1 das leichteste und Item 3 das schwierigste Item. Dies kann man sich daran veranschaulichen, dass bei Item 3 eine höhere Traitausprägung vorhanden sein muss, um dieselbe Antwortwahrscheinlichkeit zu erzielen als bei Item 1 bzw. Item 2. Da es im Rasch-Modell nur einen Itemparameter gibt (nämlich σi ), wird das Modell häufig auch als 1-parametriges logistisches Modell (1-parameter logistic model) bezeichnet. Eine wichtige Konsequenz ist, dass die ICCs aller Items gemäß Rasch-Modell den gleichen Anstieg haben. Folglich verlaufen die Itemfunktionen aller Items parallel und somit überschneidungsfrei. Inhaltlich impliziert dies die Annahme, dass sich Items nur hinsichtlich ihrer Schwierigkeit, nicht aber hinsichtlich ihrer Trennschärfe unterscheiden. Die Trennschärfe ist allgemein ein Kennwert dafür, wie gut ein Item zwischen Personen mit unterschiedlicher Traitausprägung unterscheiden (diskriminieren) kann. Das Rasch-Modell macht somit die Annahme, dass alle Items gleich gut hinsichtlich der zu messenden latenten Eigenschaft diskriminieren. Andere IRT-Modelle lassen auch Unterschiede hinsichtlich der Trennschärfe zwischen Items zu, indem ein zusätzlicher Itemparameter eingeführt wird (z. B. das sog. Birnbaum-Modell, siehe Abschnitt 2.2).
14 Item-Response-Theorie
315
Die zweite wichtige Annahme ist die der lokalen stochastischen Unabhängigkeit. Diese besagt, dass alle Zusammenhänge zwischen den Itemantworten allein durch die latente Traitvariable erklärt werden können. Wenn das Rasch-Modell auf einen Itemsatz passt, so spricht man davon, dass die Items der entsprechenden Skala bzw. des Tests Rasch-homogen seien. Es gibt eine Reihe von Methoden, mit Hilfe derer man überprüfen kann, ob Items Rasch-homogen sind oder nicht. Ferner wurden Methoden entwickelt, um abweichende Items zu detektieren und auszusondern. Methoden der Modelltestung werden in Abschnitt 5 besprochen. Eine wichtige Eigenschaft des Rasch-Modells ist, dass – bei Gültigkeit des Modells auf einen Itemsatz – der ungewichtete Summenscore dieser Items alle Informationen über die latente Personeneigenschaft enthält. Es ist bei einem aus Rasch-homogenen Items bestehenden Test somit nicht bedeutsam, welche Items eine Person gelöst hat (bzw. welchen sie zugestimmt hat), sondern lediglich wie viele. Festzuhalten ist, dass die gängige Praxis, Testitems ungewichtet aufzusummieren und den Summenscore als Personeneigenschaftswert zu interpretieren, strenggenommen nur dann zulässig ist, wenn zuvor gezeigt wurde, dass das Rasch-Modell für die vorliegenden Items nicht verworfen werden muss. Ein weiterer Vorteil eines Rasch-homogenen Itemsatzes liegt in der sogenannten spezifischen Objektivität der resultierenden Messergebnisse. Dies bedeutet erstens, dass – bei Gültigkeit des Rasch-Modells – der Vergleich zweier Personen (allgemein: Objekte) unabhängig von der Itemauswahl (allgemein: den Messinstrumenten) ist. Zweitens gilt auch, dass der Vergleich zweier Messinstrumente in Bezug auf ihre Eigenschaften (hier: Schwierigkeit) unabhängig von den Objekten ist, anhand derer die Messungen vorgenommen wurden. Wichtig ist hierbei, dass das Rasch-Modell als einziges IRT-Modell für dichotome Antwortvariablen spezifisch objektive Messungen gewährleistet, vorausgesetzt es passt tatsächlich auf den zu analysierenden Itemsatz. Die Modellpassung muss anhand von Modellgeltungstests überprüft werden (s. u.). Leider passt das Rasch-Modell in der Praxis jedoch häufig nicht, d. h. viele Tests erweisen sich nach Durchführung von Modelltests als nicht Rasch-homogen. Es lassen sich im Wesentlichen drei mögliche Gründe für eine schlechte Modellanpassung (die auch in Kombination miteinander auftreten können) nennen: 1. Das gewählte Messmodell ist nicht adäquat. Die Items könnten zum Beispiel – multidimensional sein (nicht nur einen, sondern mehrere latente Traits messen) – Methodeneffekte aufweisen (z. B. weil eine Skala sowohl positiv als auch negativ formulierte Items enthält und sich hieraus Multidimensionalität ergibt) – unterschiedliche Itemtrennschärfen aufweisen. Wenn Items zwar eindimensional, aber unterschiedlich trennscharf sind, ist möglicherweise das Birnbaum-Modell für die Daten eher geeignet, welches in Abschnitt 2.2 besprochen wird. 2. Es liegt Personenheterogenität vor, z.B. weil – die Items nicht eine kontinuierliche latente Traitvariable, sondern mehrere latente Personentypen messen (latente Klassen; z.B. Persönlichkeitstypen, Subgruppen mit unterschiedlichen Lösungsstrategien etc.). In diesem Fall ist die Auswertung mit Hilfe des Mixed-Rasch-Modells (siehe Abschnitt 4.1
316
Christian Geiser und Michael Eid
Abb. 2: Itemfunktionen gemäß Birnbaum-Modell für drei Items sowie Abschnitt 6) oder der Latent-Class-Analyse (vgl. Kapitel 22 in diesem Handbuch) sinnvoller. – die Items in Teilpopulationen unterschiedliche Traits/Dimensionen erfassen. 3. Der Datensatz enthält Antworten von Personen mit abweichendem Antwortverhalten (sogenannte „aberrant response patterns“), z.B. – Ja-Sager – Personen mit Hang zu extremen Antworten oder Antwortstilen – Personen, die rein zufällig angekreuzt haben. Einzelne „unskalierbare“ Personen lassen sich z.B. über Personen-Fit-Statistiken ausfindig machen (Rost, 2004). Wenn ganze Subgruppen von Personen ein abweichendes Antwortverhalten zeigen, können diese mit Hilfe des Mixed-Rasch-Modells (s. u.) identifiziert werden. 2.2 Das Birnbaum-Modell Im Birnbaum-Modell (Birnbaum 1968) wird die im Rasch-Modell getroffene Annahme homogener Trennschärfen aller Items gelockert. Dies geschieht über die Einführung eines zweiten Itemparameters (sogenannter Diskriminations- oder Trennschärfeparameter αi ), weswegen das Birnbaum-Modell häufig auch als 2-parametriges logistisches Modell (2-parameter logistic model) bezeichnet wird: P (xvi = 1) =
eαi (θv −σi ) . 1 + eαi (θv −σi )
(3)
Anhand von Gleichung (3) ist erkennbar, dass das Rasch-Modell ein Spezialfall des Birnbaum-Modells ist, da sich das Birnbaum-Modell durch Setzung von αi = 1 zum Rasch-Modell vereinfachen lässt. Abbildung 2 zeigt die ICCs für drei Items gemäß Birnbaum-Modell. Illustriert in Abbildung 2 sieht man, dass die ICCs verschiedener Items im BirnbaumModell nicht wie im Rasch-Modell überschneidungsfrei verlaufen müssen. Somit lässt das Modell zu, dass Items unterschiedlich trennscharf sein können. Allerdings wird die Lockerung der Annahme gleicher Trennschärfen mit dem Nachteil erkauft, dass
14 Item-Response-Theorie
317
Abb. 3: Itemfunktionen gemäß Birnbaum-Modell mit Rateparameter für drei Items mit unterschiedlichen Ratewahrscheinlichkeiten (0,5, 0,3 und 0,1) der ungewichtete Summenscore im Birnbaum-Modell keine suffiziente Statistik ist und die Messungen gemäß Birnbaum-Skalierung nicht spezifisch objektiv sind. Bei der Scorebildung nach dem Birnbaum-Modell muss eine Gewichtung der Messwerte mit den Itemtrennschärfen vorgenommen werden, und die Wahl der Itemstichprobe ist nicht beliebig (Rost 2004). 2.3 Das Modell mit Rateparameter Das Rasch- und das Birnbaum-Modell nehmen z. B. bei Intelligenztestitems an, dass die Lösungswahrscheinlichkeit gegen Null geht, je geringer die Intelligenz ausgeprägt ist. Hierbei wird außer Acht gelassen, dass die richtige Lösung erraten werden könnte. Beispielsweise beträgt die Wahrscheinlichkeit, ein Testitem allein durch Raten richtig zu lösen, bei Testaufgaben im Multiple-Choice-Format mit vier Antwortalternativen 0,25. Beide Modelle lassen sich um einen zusätzlichen Itemparameter erweitern, der die Ratewahrscheinlichkeit bei einem Item abbildet. Die Erweiterung um einen Rateparameter wird in Gleichung (4) für das Birnbaum-Modell gezeigt. P (xvi = 1) = γi + (1 − γi )
eαi (θv −σi ) . 1 + eαi (θv −σi )
(4)
Dieses Modell bezeichnet man häufig als 3-parametriges logistisches Modell (3-parameter logistic model), da es zusätzlich zum Schwierigkeits- und Trennschärfeparameter noch den Rateparameter γi als Itemparameter enthält. Der Parameter γi kann entweder anhand der Daten geschätzt oder a priori festgelegt werden (Rost 2004). Rost (2004) weist darauf hin, dass sich die Schätzbarkeit der Parameter im 3parametrigen Modell in der Praxis schwierig gestaltet, da diese nicht unabhängig voneinander bestimmt werden können. Zusätzliche Verteilungsannahmen und große Stichproben können diese Probleme zwar zum Teil verringern, jedoch erlaubt das 3parametrige Modell – ebenso wie das Birnbaum-Modell ohne Rateparameter – keine spezifisch objektiven Messungen.
318
Christian Geiser und Michael Eid
Abb. 4: Kategorienfunktionen für ein 3-stufiges Item im ordinalen Rasch-Modell 3 Modelle für mehrstufig geordnete Items In vielen Bereichen der empirischen psychologischen Forschung werden nicht dichotome, sondern mehrstufig geordnet kategoriale (ordinale) Antworten von Personen erhoben. Beispielsweise werden in Persönlichkeits- und Einstellungsfragebögen meist Items im sogenannten Likert-Format vorgegeben. Personen werden z. B. gefragt, ob sie sich als „1 = überhaupt nicht“, „2 = kaum“, „3 = etwas“ oder „4 = sehr“ extravertiert einstufen. Aber auch bei Leistungstests werden z. T. mehrfach abgestufte Scoring-Verfahren eingesetzt. Beispielsweise gibt es im Mentalen-Rotations-Test (MRT; Vandenberg & Kuse 1978) bei jeder Aufgabe genau zwei korrekte Lösungen. Personen, die bei einer Aufgabe nur eine der beiden richtigen Lösungen gefunden haben, kann „partial credit“ gewährt werden. D. h. ein solches Item könnte dreistufig mit den Kategorien „0 = keine Alternative korrekt angekreuzt“, „1 = eine Alternative korrekt angekreuzt“ und „2 = beide Alternativen korrekt angekreuzt“ ausgewertet werden. Für nahezu alle dichotomen IRT-Modelle existieren Erweiterungen für mehrstufig geordnet kategoriale Items. Aus Platzgründen wird hier ausführlich nur auf die Erweiterung des dichotomen Rasch-Modells auf mehrkategoriale Items eingegangen. Weiter unten werden noch Spezialfälle des ordinalen Rasch-Modells umrissen, ansonsten verweisen wir auf die in Abschnitt 8 angegebene weiterführende Literatur. 3.1 Das ordinale Rasch-Modell (Partial-Credit-Modell) Im Gegensatz zum dichotomen Rasch-Modell, bei dem die Betrachtung der Itemfunktionen für lediglich eine Kategorie (in der Regel die Wahrscheinlichkeit für eine 1-Antwort, s. o.) ausreichend ist, werden beim ordinalen Rasch-Modell sogenannte Kategorienfunktionen für alle vorhandenen Kategorien betrachtet. Abbildung 4 zeigt die Kategorienfunktionen für ein 3-stufiges Item. Die Kategorienfunktionen geben an, in welcher Weise die Wahrscheinlichkeit, in eine bestimmte Antwortkategorie x (x = 0, . . . ,m) zu fallen (oder diese zu wählen), von der latenten Traitausprägung θ abhängt.
14 Item-Response-Theorie
319
Zur Illustration nehmen wir an, dass es sich bei dem zu messenden Trait um die Fähigkeit zur mentalen Rotation und bei dem Item in Abbildung 4 um eine 3-stufig ausgewertete Aufgabe aus dem MRT handelt (0 = nicht gelöst, 1 = teilweise gelöst, 2 = vollständig gelöst). Dann können wir uns vorstellen, dass die Wahrscheinlichkeit für die erste Kategorie, P (0), d. h. die Wahrscheinlichkeit, bei dem Item keine der beiden korrekten Alternativen zu entdecken, bei sehr geringer Fähigkeitsausprägung hoch ist und dann mit zunehmender Fähigkeitsausprägung absinkt. Gleichzeitig steigt mit zunehmender Fähigkeit zunächst die Wahrscheinlichkeit P (1), eine Antwort in Kategorie 1 zu erhalten (d. h. eine, jedoch nicht beide richtigen Lösungen des Items gefunden zu haben). Mit weiter ansteigender mentaler Rotationsfähigkeit sinkt dann die Wahrscheinlichkeit, nur eine der beiden korrekten Lösungen zu erkennen, wieder ab. Die Wahrscheinlichkeit P (2), einen Score von 2 (beide korrekten Alternativen erkannt) zu erreichen steigt. Das ordinale Rasch-Modell wird aufgrund der Möglichkeit, mit diesem Modell nicht nur dichotome Items (richtig – falsch), sondern auch die teilweise („partielle“) Lösung von Testaufgaben modellieren und analysieren zu können, auch als Partial-Credit-Modell bezeichnet (Masters 1982). Ein analoges Beispiel kann man sich jedoch auch für den Bereich der Einstellungsmessung (bzw. für mehrstufige Fragebogenitems allgemein) vorstellen. Je stärker jemand Atomkraftwerke ablehnt, desto wahrscheinlicher ist es, dass die Person bei dem Item „Ich bin gegen Atomkraft“ mit den Kategorien „trifft überhaupt nicht zu“ – „trifft eher nicht zu“ – „trifft eher zu“ – „trifft voll und ganz zu“ eine Antwort in der höchsten Kategorie gibt. Die beiden unteren Kategorien sind dagegen wahrscheinlicher für Personen mit niedrig ausgeprägter Ablehnung von Atomkraft. Die Übergänge zwischen den Kategorien werden im ordinalen Rasch-Modell als Schwellen (Thresholds) bezeichnet und mit Hilfe der Schwellenparameter τis beschrieben, wobei der Index i wiederum das Item und der Index s (s = 1, . . . , m) alle Kategorien außer der ersten bezeichnet. Jeder τis -Parameter gibt den Schnittpunkt der Kategorienfunktion für Kategorie s mit der Kategorienfunktion der nächst höheren Kategorie s + 1 an (siehe Abbildung 4). Formal lässt sich das ordinale Rasch-Modell mit folgender Gleichung beschreiben: exθv −σix P (xvi = x) = m sθ −σ . v is s=0 e
(5)
Diese Gleichung sagt aus, dass die Wahrscheinlichkeit einer Person v, bei einem Item i einen Score von x zu erhalten (bzw. eine bestimmte Kategorie x zu wählen), vom latenten Trait θ sowie dem kumulierten Schwellenparameter σix abhängt. Der kumulierte Schwellenparameter errechnet sich hierbei aus der Summe der Schwellenparameter τis , σix =
x s=1
τis ,
(6)
k m wobei für alle Items i gilt σi0 = 0 sowie als Normierungsbedingung i=1 x=1 τix = 0. Die Schwellenparameter τis teilen die zu messende latente Dimension in so viele Abschnitte auf, wie Antwortkategorien vorliegen. In Abbildung 4 trennt beispielsweise
320
Christian Geiser und Michael Eid
Abb. 5: Kategorienfunktionen für ein 3-stufiges Item mit ungeordneten Schwellen τi1 die Kategorie 0 von der Kategorie 1 und τi2 die Kategorie 1 von der Kategorie 2. Die Schwellen liefern Informationen über die Größe und Ordnung der Antwortkategorien. Je größer der Abstand zwischen zwei benachbarten Schwellen, desto mehr Raum nimmt eine bestimmte Kategorie auf dem latenten Kontinuum ein. Sind die Abschnitte der einzelnen Kategorien auf dem latenten Kontinuum in der Ordnung anzutreffen, die der Reihenfolge der Kategorien entspricht, so liegen geordnete Schwellen vor. Bei dem Item in Abbildung 4 ist dies der Fall, da τi1 < τi2 . Es können in der Praxis jedoch auch ungeordnete Schwellen vorkommen. Abbildung 5 zeigt die Kategorienfunktionen für ein 3-stufiges Item mit ungeordneten Schwellen. Ungeordnete Schwellen deuten darauf hin, dass eine oder mehrere Antwortkategorien von den Personen nicht bzw. nicht in der intendierten Weise verwendet wurden. Beispielsweise zeigt sich an den Kategorienfunktionen des Items in Abbildung 5, dass bei diesem Item die zweite Kategorie unterrepräsentiert ist. Dies kann z. B. dann vorkommen, wenn in einem Fragebogen die Mittelkategorie vermieden wird oder wenn (zu) viele Antwortkategorien vorgegeben werden, und die befragten Personen mit der entsprechend feinen Abstufung überfordert sind (ein entsprechendes empirisches Beispiel wird in Abschnitt 6 gezeigt). Mit Hilfe des ordinalen Rasch-Modells kann somit überprüft werden, ob für die Itemantworten tatsächlich ein ordinales Skalenniveau angenommen werden kann (Rost 2004). Erweisen sich die Schwellen als ungeordnet, so muss diese Annahme verworfen werden. Es sollte dann u. a. das verwendete Antwortformat (Anzahl der Antwortkategorien) überdacht werden. 3.2 Weitere IRT-Modelle für ordinale Items Aus dem ordinalen Rasch-Modell lassen sich eine Reihe von Spezialfällen ableiten, in welchen bestimmte Restriktionen auf die Schwellenstruktur gelegt werden. Im Ratingskalenmodell werden die Schwellenabstände beispielsweise so restringiert, dass sie bei allen Items gleich groß sind (wobei die Schwellen innerhalb der Items nicht gleichabständig sein müssen) und sich zwischen Items nur hinsichtlich ihrer Lokation (Schwierigkeit) auf dem latenten Kontinuum unterscheiden. Die Annahme gleichabständiger („äqui-
14 Item-Response-Theorie
321
distanter“) Kategorien kann durch Gleichsetzung der Schwellenabstände innerhalb der Items getestet werden. Ordinale Rasch-Modelle mit restringierter Schwellenstruktur werden ausführlich von Rost (2004) diskutiert.
4 Weitere IRT-Modelle 4.1 Mischverteilungs-IRT-Modelle: Das Mixed-Rasch-Modell Alle bislang besprochenen IRT-Modelle gehen davon aus, dass die untersuchte Population homogen ist, d. h. bei allen Personen dieselbe latente Dimension gemessen wird und dass für alle Personen dieselben Itemparameter gelten. In der Praxis ist diese Annahme jedoch nicht immer erfüllt. Beispielsweise ist Populationshomogenität dann nicht gegeben, wenn Subgruppen in einem Test unterschiedliche Lösungsstrategien (z. B. Köller et al. 1994) oder in einem Fragebogen unterschiedliche Antwortstile (z. B. volle Ausnutzung aller Antwortmöglichkeiten der Ratingskala vs. Beschänkung auf die Extremkategorien; Eid & Zickar 2007) verwenden. Konsequenzen einer Verletzung der Populationshomogenität können zum einen eine schlechte Modellanpassung eines konventionellen IRT-Modells und zum anderen die verzerrte Schätzung der Itemparameter sein, da unterschiedliche Gruppen vermischt werden, für die in Wahrheit jeweils unterschiedliche Itemparameter gelten. Wenn heterogene Subgruppen a priori bekannt sind, können diese von vorn herein getrennt betrachtet werden, bzw. es kann mit sogenannten Differential-Item-Functioning(DIF-)Analysen überprüft werden, ob in den entsprechenden Teilpopulationen tatsächlich unterschiedliche Itemparameter gelten (siehe z. B. Embretson & Reise 2000; Zumbo 2007). In der Praxis sind Personengruppen mit spezifischem Antwortverhalten jedoch häufig unbekannt. Man bezeichnet derartige Subgruppen dann auch als latente Klassen. Mit Hilfe von Mischverteilungs-IRT-Modellen können a priori unbekannte Subgruppen mit unterschiedlichem Antwortverhalten ausfindig gemacht werden. Mischverteilungs-IRT-Modelle stellen eine Verbindung aus dimensionalen und typologischen (Latent-Class-)Modellen des Antwortverhaltens von Personen dar. Ein prototypisches Modell ist das Mixed-Rasch-Modell (MRM, vgl. Rost 1990). Das MRM nimmt an, dass sich die untersuchte Population aus heterogenen Subgruppen („Typen“, latenten Klassen; vgl. Kapitel 22 in diesem Handbuch) zusammensetzt, wobei in jeder Subgruppe unterschiedliche Itemparameter gelten. Ziel einer MRM-Analyse ist es, diese Subgruppen zu identifizieren und Unterschiede zwischen den Gruppen zu beschreiben. Alternativ kann das MRM auch konfirmatorisch eingesetzt werden, beispielsweise wenn a priori Theorien über bestimmte Typen von Lösungsstrategien existieren und empirisch geprüft werden sollen (Köller et al. 1994). Für dichotome Items lässt sich das MRM folgendermaßen ausdrücken: P (xvi = 1) =
G g=1
πg
e(θvg −σig ) . 1 + e(θvg −σig )
(7)
322
Christian Geiser und Michael Eid
Hierbei bezeichnet der zusätzliche Index g (g = 1, . . . , G) eine von G latenten Klassen G und der Parameter πg die Größe einer Klasse g, wobei g=1 πg = 1 (d. h. die Klassengrößen summieren sich als Normierungsbedingung zu 100 %). Das bedeutet, dass im MRM die Personen- und Itemparameter von der Zugehörigkeit zu einer bestimmten latenten Klasse abhängen, was durch den zusätzlichen Index für die latente Klasse g ausgedrückt wird. Es wird hierbei angenommen, dass jede Person einer (und nur einer) Klasse angehören kann. Für mehrstufig kategoriale (ordinale) Items lautet die Modellgleichung des MRM: P (xvi = x) =
G
e(xθvg −σixg ) πg m (sθ −σ ) , vg isg s=0 e g=1
(8)
G G mit g=1 πg = 1 und g=1 σig = 0 für alle g. Der Parameter σixg bezeichnet die kumulativen Schwellenparameter: σixg =
x
τisg ,
(9)
s=1
k m wobei wiederum σi0g = 0 für alle Klassen g und Items i gilt sowie i=1 x=1 τixg = 0 für alle Klassen g (d. h. die Summe der Schwellenparameter innerhalb jeder Klasse ist als Normierungsbedingung auf Null gesetzt). Die Wahrscheinlichkeit, dass eine Person v bei einem Item i einen Score von x erhält (bzw. eine bestimmte Kategorie x wählt), hängt somit nicht mehr wie im konventionellen ordinalen Rasch-Modell von einem generellen latenten Trait und generellen Schwellenparametern ab, sondern von der Zugehörigkeit zu einer bestimmten latenten Klasse und der in dieser Klasse gemessenen klassenspezifischen Traitvariable θg sowie der Summe der klassenspezifischen Schwellenparameter τisg . Das MRM kann z. B. dazu genutzt werden, Personen mit spezifischen Antworttendenzen oder Strategien ausfindig zu machen und von solchen Teilgruppen zu separieren, die ein „normales“ Antwortverhalten zeigen. Dies wird in Abschnitt 6 anhand eines empirischen Beispiels demonstriert. Zunächst gehen wir jedoch auf Methoden zur Überprüfung der Modellanpassung von IRT-Modellen im Allgemeinen ein.
5 Modelltestung und Modellvergleiche Der grundlegende Ansatz der Modelltestung von IRT-Modellen bezieht sich auf den Vergleich der empirisch ermittelten Häufigkeiten von Antwortmustern über ein Set von Items (Patternhäufigkeiten) mit den vorhergesagten (modellimplizierten) Patternhäufigkeiten eines bestimmten IRT-Modells. Liegt eine statistisch bedeutsame Abweichung zwischen empirisch ermittelten und modellimplizierten Patternhäufigkeiten vor, so kann das postulierte Modell die Daten nicht exakt reproduzieren bzw. erklären. Zur Testung der empirischen gegen die modellimplizierten Patternhäufigkeiten stehen eine Reihe von asymptotisch χ2 -verteilten Teststatistiken zur Verfügung (von Davier
14 Item-Response-Theorie
323
1997), von denen die Likelihood-Ratio-(LR-)χ2 und die Pearson-χ2 -Statistik wohl die bekanntesten sind: 2
LR-χ = 2
P
op ln
p=1
Pearson-χ2 =
op ep
,
P (op − ep )2 p=1
ep
(10)
,
(11)
wobei op die beobachteten (observed) und ep die modellimplizierten (expected) Häufigkeiten bezeichnet. Die Freiheitsgrade (df ) lassen sich für beide Statistiken folgendermaßen bestimmen: df = mk − t − 1 , (12) wobei m für die Anzahl der Kategorien und k für die Anzahl der Items steht, so dass mk die Anzahl der möglichen Antwortmuster angibt. t bezeichnet die Anzahl der im Modell frei geschätzten Parameter. Beide Statistiken erlauben eine inferenzstatistische Überprüfung der Modellanpassung. Allerdings setzen die Statistiken voraus, dass die erwarteten Häufigkeiten alle größer als 1 sind. Andernfalls ist nicht sicher gestellt, dass die Statistiken tatsächlich einer χ2 -Verteilung folgen (Rost 2004). In der Praxis sind die asymptotischen Bedingungen häufig nicht erfüllt, insbesondere dann nicht, wenn viele Items untersucht werden und die Stichprobengröße eher moderat ist. Bereits bei zehn dichotomen Items beträgt die Anzahl möglicher Antwortmuster 210 = 1024. In vielen Anwendungen ist die Stichprobengröße zu gering, so dass die theoretische χ2 -Verteilung nicht zur validen Beurteilung der Modellanpassung anhand der LRund Pearson-Statistik verwendet werden sollte. Als Faustregel gilt, dass den p-Werten der LR- und Pearson-Statistik dann nicht vertraut werden sollte, wenn die LR- und Pearson-χ2 -Werte deutlich voneinander abweichen. Ein Ausweg ist in einem solchen Fall die Verwendung einer parametrischen Bootstrap-Prozedur, bei der eine korrekte Prüfverteilung (die korrekten p-Werte) für den entsprechenden Anwendungsfall empirisch ermittelt wird (Langeheine et al. 1996). Allerdings scheint der entsprechende Bootstrap nur für die Pearson-, nicht aber für die LR-Statistik valide Ergebnisse zu liefern (von Davier 1997). Ein allgemeines Problem inferenzstatistischer Verfahren der Modelltestung besteht darin, dass mit hinreichender statistischer Power (Teststärke) praktisch jedes nicht-saturierte Modell verworfen werden kann. Dies liegt daran, dass die meisten IRT-Modelle (wie viele andere statistische Modelle auch) Annahmen machen, die eine Vereinfachung der Realität darstellen. Die Modelle passen somit nicht absolut, sondern nur approximativ. Mithin ist es in großen Stichproben (man denke etwa an die PISA-Daten) nahezu unmöglich, ein einigermaßen sparsames (d. h. nicht überparametrisiertes) Modell zu finden, das der inferenzstatistischen Prüfung des absoluten Fits standhält. Ein alternativer Ansatz der Modelltestung bezieht sich weniger auf die Beurteilung des absoluten Fits eines Modells als vielmehr auf den relativen Fit im Vergleich zu
324
Christian Geiser und Michael Eid
konkurrierenden Modellen. Häufig verwendete Indices zum Modellvergleich sind die sogenannten informationstheoretischen Maße oder Informationskriterien (information criteria, IC ). Hierzu zählen z. B. Akaike’s Information Criterion (AIC) und das Bayes Information Criterion (BIC; zu den Formeln siehe z. B. Rost 2004, S. 342). IC berücksichtigen neben der Modellanpassung auch die Anzahl der geschätzten Modellparameter als Indikator für die Modellsparsamkeit. Modelle mit vielen freien Parametern werden von den IC „bestraft“, da sie weniger sparsam sind. In der Praxis werden die zu vergleichenden Modelle anhand der IC in eine Rangreihe gebracht und das Modell mit dem kleinsten IC-Wert wird ausgewählt. Speziell für das Rasch-Modell wurden weitere Methoden der Modellgeltungskontrolle entwickelt. Darüber hinaus existieren für die meisten IRT-Modelle auch Detailmaße der Modellanpassung (Modellresiduenstatistiken sowie Item- und Personenfitmaße), mit denen die Ursachen einer schlechten Modellanpassung untersucht werden können. Eine ausführliche Besprechung verschiedener Modellgütemaße liefert Rost (2004).
6 Beispielanwendung Im Folgenden werden zwei beispielhafte Anwendungen einer IRT-Analyse besprochen. Die erste Anwendung stammt aus dem Bereich der Kompetenzmessung (Analyse von dichotomen Testitems zur Messung des räumlichen Vorstellungsvermögens). Die zweite Anwendung ist eine typische Anwendung aus dem Bereich der Surveyforschung und bezieht sich auf die Analyse von drei mehrstufigen Fragebogenitems zur Messung der Persönlichkeitsdimension Offenheit aus dem Sozio-Oekonomischen Panel (SOEP). 6.1 Anwendung 1: Kompetenzmessung In dieser Anwendung betrachten wir sechs Items aus dem MRT (siehe Abbildung 6), die von N = 519 Schülerinnen und Schülern bearbeitet wurden. Der MRT ist ein Papier-und-Bleistift-Test zur Messung der Fähigkeit zur mentalen Rotation, einer Facette des räumlichen Vorstellungsvermögens. Abbildung 6 zeigt zwei Beispielitems aus dem MRT. Ziel ist es, bei jedem Item durch mentale Drehung diejenigen beiden Figuren auf der rechten Seite zu identifizieren, die mit der Zielfigur (Z) auf der linken Seite identisch sind. Die Probanden erhielten für eine Aufgabe nur dann einen Punkt, wenn sie beide korrekten Alternativen markiert hatten, ansonsten Null Punkte. Interessant für das vorliegende Anwendungsbeispiel ist, dass anhand der verwendeten Distraktoren zwei Itemtypen unterschieden werden können (Geiser et al. 2006). Bei den sogenannten Typ-I-Items sind die Distraktorfiguren D gespiegelte Versionen der Zielfigur Z (siehe Abbildung 6 a). Dagegen sind bei Typ-II-Items die Distraktorfiguren strukturell anders zusammengesetzt als die Zielfigur (siehe Abbildung 6 b). Dies hat zur Folge, dass bei den Typ-II-Items die Distraktoren durch Detailvergleiche ausgeschlossen werden können (was bei den Typ-I-Items nicht ohne Weiteres möglich ist). Somit lassen sich Typ-II-Items durch eine rein analytische Lösungsstrategie, d. h. auch ohne Fähigkeit zur mentalen Rotation, lösen.
14 Item-Response-Theorie
325
Abb. 6: Zwei Beispielitems aus dem Mentalen Rotationstest (MRT) Auf die sechs MRT-Items wurde im ersten Schritt mit Hilfe des Computerprogramms WINMIRA (von Davier 2000) das dichotome Rasch-Modell angepasst. WINMIRA liefert Maximum-Likelihood-Schätzungen der Modellparameter und Fitstatistiken. Zur Beurteilung der Modellgüte wurde die Pearson-Statistik herangezogen, wobei der entsprechende p-Wert nicht anhand der normalen χ2 -Verteilung, sondern mit Hilfe des parametrischen Bootstraps (basierend auf 500 Bootstrap-Stichproben) ermittelt wurde (bei sechs dichotomen Items gibt es 26 = 64 mögliche Antwortmuster; im vorliegenden Datensatz traten jedoch nur 58 dieser Muster tatsächlich auf). Gemäß Bootstrapp-Wert der Pearson-Statistik weicht das Rasch-Modell bei einem Alpha-Niveau von 5 % signifikant von den Daten ab, Pearson χ2 = 99,61; df = 56; Bootstrap p = 0,014. Ein zum Vergleich auf die Daten angepasstes Mixed-Rasch-Modell mit 2 latenten Klassen muss dagegen aufgrund der Pearson-Statistik nicht verworfen werden (Pearson χ2 = 52,74; df = 48; Bootstrap p = 0,152). Dieses MRM liefert uns zudem eine inhaltliche Erklärung für die Fehlanpassung des einfachen Rasch-Modells. Es zeigt sich, dass durch die unterschiedlichen MRT-Itemtypen offensichtlich eine Personenheterogenität induziert wurde, in dem Sinne, dass von unterschiedlichen Subgruppen unterschiedliche Lösungsstrategien eingesetzt wurden. Abbildung 7 zeigt die geschätzten klassenbedingten Itemschwierigkeiten. Man beachte, dass die Items 1, 2, 5 und 6 zum Typ-I gehören (Distraktoren sind Spiegelungen der Zielfigur), während die Items 3 und 4 Typ-II-Items sind (Distraktorfiguren sind strukturell anders aufgebaut als die jeweilige Zielfigur). Wir können erkennen, dass in der größeren Klasse 1 (59,1 %; mittlere Klassenzuordnungswahrscheinlichkeit: 0,81) die Itemschwierigkeiten für alle Items in etwa gleich hoch sind. Im Gegensatz dazu sind in Klasse 2 (40,9 %; mittlere Klassenzuordnungswahrscheinlichkeit: 0,94) alle Typ-I-Items schwerer als in Klasse 1, während die beiden Typ-II-Items deutlich geringere Itemschwierigkeiten aufweisen als in Klasse 1. Daraus können wir schließen, dass die Angehörigen der zweiten Klasse offenbar eine besondere Lösungsstrategie anwenden, die jedoch nur bei den Typ-II-Items erfolgreich ist. Wir können vermuten, dass die Probanden in Klasse 2 eine analytische Strategie anwenden,
326
Christian Geiser und Michael Eid
Abb. 7: Klassenbedingte Itemschwierigkeiten im 2-Klassen-Mixed-Rasch-Modell bei der sie die Distraktoren von Typ-II-Items durch einen Mustervergleich ausschließen. Da diese Strategie nur bei Typ-II-Items erfolgreich eingesetzt werden kann, ergeben sich in dieser Klasse geringere Lösungswahrscheinlichkeiten für die Typ-I-Items als in Klasse 1. Die Anwendung der Rasch- bzw. Mixed-Rasch-Analyse auf die MRT-Items illustriert eine häufige Ursache für eine Fehlanpassung des Rasch-Modells, nämlich das Vorliegen von Personenheterogenität (siehe oben). Liegt eine solche Heterogenität vor, beispielsweise dadurch, dass unterschiedliche latente Personengruppen unterschiedliche kognitive Lösungsstrategien verwenden, so verletzt das die Annahme homogener Itemschwierigkeiten für alle Personen. Das MRM erweist sich in diesem Zusammenhang als sehr nützlich, um latente Subgruppen zu detektieren, die sich hinsichtlich der Itemparameter unterscheiden bzw. um Items zu identifizieren, die zur Messung der latenten Personeneigenschaft ungeeignet sind. Mögliche praktische Konsequenzen könnten im konkreten Anwendungsfall beispielsweise darin bestehen, den Test zu revidieren und alle Typ-II-Items durch Typ-I-Items zu ersetzen, welche tatsächlich zur Messung der latenten Dimension „mentale Rotation“ geeignet sind. 6.2 Anwendung 2: Surveyforschung In unserem zweiten Anwendungsbeispiel analysieren wir drei ordinale Fragebogenitems zur Messung von Offenheit aus dem SOEP. Die drei Items lauten: – – –
Item 1: Ich bin jemand, der originell ist, neue Ideen einbringt. Item 2: Ich bin jemand, der künstlerische Erfahrungen schätzt. Item 3: Ich bin jemand, der eine lebhafte Phantasie, Vorstellungen hat.
Personen wurden aufgefordert, sich jeweils auf einer 7-stufigen Skala von 1 = „trifft überhaupt nicht zu“ bis 7 = „trifft voll zu“ einzuschätzen.
14 Item-Response-Theorie
327
Tab. 1: Modellgütestatistiken für die IRT-Analysen der Offenheits-Items
Rasch-Modell 2-Klassen-MixedRasch-Modell 3-Klassen-MixedRasch-Modell
Anzahl freier Parameter
df
LR − χ2
Pearson-χ2
19
323
668,30
1. 259,15
39
303
426,60
59
283
392,86
Bootstrap p-Wert für Pearson χ2
AIC
BIC
< 0,001
21. 441 21. 547
442,81
0,09
21. 239 21. 458
413,17
0,10
21. 245 21. 577
Eine interessante Fragestellung im vorliegenden Beispiel ist, ob die drei Items tatsächlich dieselbe latente Personeneigenschaft messen und ob die 7-stufige Antwortskala von allen Personen in der intendierten Weise genutzt wird. IRT-Analysen anderer Fragebogenskalen haben gezeigt, dass Personen mit sehr fein abgestuften Ratingskalen z. T. überfordert sind und sie nicht alle vorhandenen Kategorien auch tatsächlich ausnutzen (Eid & Rauber 2000). Mit Hilfe des ordinalen Rasch-Modells bzw. des ordinalen MRMs kann zum einen geprüft werden, ob sich die Itemantworten auf einen gemeinsamen latenten Trait zurückführen lassen. Zum anderen kann anhand der geschätzten Schwellenparameter bzw. der Kategoriencharakteristiken analysiert werden, ob bzw. in welcher Weise alle Kategorien der Ratingskala von den Personen genutzt wurden. Mit Hilfe des MRM kann darüber hinaus untersucht werden, ob latente Subgruppen vorliegen, die die vorgegebenen Kategorien der Ratingskala in unterschiedlicher Weise nutzen. Im vorliegenden Beispiel wurde auf die Itemantworten von N = 2. 036 Personen aus der SOEP-Welle 22 mit WINMIRA zunächst das ordinale Rasch-Modell angepasst. Bei drei siebenstufigen Items gibt es 73 = 343 mögliche Antwortmuster, wobei im vorliegenden Datensatz jedoch nur 274 dieser Muster tatsächlich auftraten. Zur Beurteilung der Modellgüte wurde daher wiederum die Pearson-Statistik mit parametrischem Bootstrap (500 Bootstrap-Stichproben) verwendet. Im ordinalen Rasch-Modell werden im vorliegenden Fall 19 unabhängige Parameter (Schwellen) geschätzt. Somit hat das Modell 343 − 19 − 1 = 323 Freiheitsgrade. Wie anhand von Tabelle 1 ersichtlich ist, weicht das Rasch-Modell gemäß Pearson-Statistik signifikant von den Daten ab (Bootstrap p < 0,001). Eine Betrachtung der geschätzten Schwellenparameter (siehe Tabelle 2) zeigt, dass diese bei Item 2 z. T. ungeordnet sind (τi3 < τi2 und τi5 < τi4 ). Auch bei Item 1 und Item 3 liegen die Schwellen τi2 und τi3 sehr dicht beieinander. Eine mögliche Erklärung dieser Befunde und der Tatsache, dass das ordinale Rasch-Modell signifikant von den Daten abweicht, könnte sein, dass die untersuchte Population kein homogenes Antwortverhalten zeigt. Möglicherweise besteht die untersuchte Population aus Subgruppen, die die 7-stufige Skala in unterschiedlicher Weise nutzen. Beispielsweise fanden Eid & Rauber (2000), dass ca. 30 % der von ihnen untersuchten Personen einen Hang zu extremen Antwortkategorien zeigten, während ca. 70 % die vorgegebene 6-stufige Skala in der erwarteten Weise verwendeten. Um zu
328
Christian Geiser und Michael Eid
Tab. 2: Geschätzte Schwellenparameter τis im Rasch-Modell τi1 Item 1 Item 2 Item 3
−1,31 −0,33 −1,30
τi2 −1,04 −0,20 −0,82
τi3 −0,67 −0,25 −0,72
τi4
τi5
τi6
0,31 0,58 0,10
0,71 0,52 0,50
1,63 1,25 1,05
Mittlerer Schwellenwert −0,06 0,26 −0,20
Tab. 3: Geschätzte Schwellenparameter τisg im 2-Klassen-MRM τi1g
τi2g
τi3g
τi4g
τi5g
τi6g
Mittlerer Schwellenwert
Klasse 1 (g = 1, π1 = 0,64) Item 1 Item 2 Item 3
−4,67 −2,24 −5,29
−1,36 −0,29 −1,42
−0,48 0,09 −0,54
0,53 0,72 0,35
1,48 1,19 1,07
5,48 2,41 2,96
0,16 0,31 −0,48
0,30 0,41 −0,17
−0,11 0,29 −0,18
Klasse 2 (g = 2, π2 = 0,36) Item 1 Item 2 Item 3
−0,29 0,84 −0,43
−0,50 0,28 0,12
−0,70 −0,66 −0,83
0,55 1,13 0,17
0,00 −0,27 0,08
untersuchen, ob eine ähnliche Personenheterogenität (latente Klassenstruktur) bezüglich des Antwortverhaltens die schlechte Datenanpassung des Rasch-Modells im vorliegenden Fall erklären kann, wurde als weiteres Modell ein MRM mit 2 Klassen auf die Daten angepasst und hinsichtlich des Fits mit dem Rasch-Modell verglichen. Im 2-Klassen-MRM müssen 19 zusätzliche Schwellenparameter (für die hinzukommende zweite Klasse) sowie ein unabhängiger Klassengrößenparameter geschätzt werden. Somit hat das Modell 20 Freiheitsgrade weniger als das einfache Rasch-Modell. Wie aus Tabelle 1 ersehen werden kann, muss das 2-Klassen-MRM für die folgenden Daten anhand der Pearson-Statistik auf einem α-Niveau von 0,05 nicht verworfen werden (p = 0,09). Auch weist dieses Modell im Vergleich zum Rasch-Modell kleinere AIC- und BIC-Werte auf. Somit kann ein MRM-Modell, das von 2 unterschiedlichen Personentypen ausgeht, die Daten besser erklären, als ein einfaches Rasch-Modell, das von nur einer Klasse ausgeht. (Das zum Vergleich außerdem geschätzte 3-Klassen-MRM passt gemäß AIC und BIC nicht besser als das 2-Klassenmodell, so dass hier das sparsamere 2-Klassenmodell gewählt wurde, siehe Tabelle 1.) Im vorliegenden Fall ergibt sich gemäß 2-Klassen-MRM eine Klasse, die etwa 64 % der Personen umfasst (Klasse 1: π1 = 0,64) und eine Klasse, der etwa 36 % der Probanden zuzuordnen sind (Klasse 2: π2 = 0,36). Jede Person erhält anhand ihres Antwortmusters eine Wahrscheinlichkeit für die Zugehörigkeit zu beiden Klassen (sog. Zuordnungswahrscheinlichkeit). Für beide Klassen sind die von WINMIRA ebenfalls geschätzten mittleren Zuordnungswahrscheinlichkeiten hoch (Klasse 1: 0,84, Klasse 2: 0,83). Das bedeutet, dass die Personen im vorliegenden 2-Klassenmodell im Schnitt mit
14 Item-Response-Theorie
329
0,3
Wahrscheinlichkeit heinlichkeit keit
Wahrscheinlichkeit heinlichkeit keit
0,3
02 0,2
0,2 02
0,1
1 trifft überhaupt nicht zu 2 3 4 5 6 7 trifft voll zu
0,1
0
0
Item 1
Item 2
(a) Klasse 1 (64 %)
Item 3
Item 1
Item 2
Item 3
(b) Klasse 2 (36 %)
Abb. 8: Erwartete relative Kategorienhäufigkeiten für die drei Offenheitsitems im 2-Klassen-MRM einer sehr hohen Treffsicherheit einer der beiden Klassen zugeordnet werden können, was ebenfalls für die Güte dieses Modells spricht. Tabelle 3 zeigt die geschätzten Schwellenparameter im 2-Klassen-MRM. Es zeigt sich, dass es sich bei der größeren Klasse 1 ähnlich wie in der Studie von Eid & Rauber (2000) um eine Klasse von Personen handelt, die die 7-stufige Antwortskala in der intendierten Art und Weise verwendet, da in dieser Klasse für alle Items geordnete Schwellenparameter geschätzt werden. In Klasse 2, welcher immerhin etwa ein Drittel der Befragten zuzuordnen sind, liegen hingegen bei allen Items ungeordnete Schwellen vor. Offensichtlich handelt es sich bei den Angehörigen von Klasse 2 um eine Subgruppe von Befragten, die mit der 7-fach abgestuften Antwortskala überfordert sind und nur wenige der sieben möglichen Kategorien tatsächlich benutzen. In Abbildung 8 können die erwarteten relativen Kategorienhäufigkeiten für beide Klassen verglichen werden. Es zeigt sich, dass die Kategorienhäufigkeiten in Klasse 1 annähernd symmetrisch verteilt sind (wenn auch leicht nach rechts, zum Zustimmungspol der Skala hin verschoben). In Klasse 2 hingegen zeigen sich bei allen Items asymmetrische Verteilungen der Kategorienhäufigkeiten mit einer deutlichen Tendenz zu extremen Antwortkategorien bzw. zur Mittelkategorie. Dies verdeutlicht, dass die Angehörigen dieser Klasse nur einen Teil des möglichen Antwortspektrums verwenden. Somit ist unklar, inwiefern die Messergebnisse (Itemsummenscores) in dieser Klasse mit den Summenscores in Klasse 1 vergleichbar sind. Es handelt sich somit um ein Beispiel für DifferentialItem-Functioning in latenten Subgruppen: Offenbar wird in Klasse 2 z. T. eine andere Personeneigenschaft gemessen als in Klasse 1, was die Verwendung und Interpretation eines globalen Summenscores für alle Personen problematisch erscheinen lässt. Die empirische Anwendung demonstriert, dass IRT-Modelle nützliche Informationen über die Messung von Personeneigenschaften anhand von Analysen des Antwortverhaltens auf Itemebene liefern. Im vorliegenden Fall können wir folgenden wichtigen Schluss aus den Rasch- und MRM-Analysen ziehen: Von einem großen Teil der Befragten (etwa
330
Christian Geiser und Michael Eid
einem Drittel) wird die verwendete 7-stufige Ratingskala nicht in der vorgesehenen Art und Weise (mit geordneten Kategorien) verwendet. Diese Personen sind offensichtlich mit der Anzahl der möglichen Antwortkategorien überfordert. Eine Konsequenz aus den hier durchgeführten Analysen könnte somit darin bestehen, das Antwortformat der Items zu modifizieren. Praktische Erfahrungen zeigen, dass in vielen Fällen ein 4-stufiges Antwortformat ausreichend ist. Mit einem solchen Antwortformat ergeben sich häufig sogar gleichabständige Schwellen. Ein 7-stufiges Antwortformat sollte auch deswegen vermieden werden, da es hier eine Mittelkategorie gibt, die von Personen in ganz unterschiedlicher Weise verwendet (z. B. als Ausdruck von Unentschlossenheit, Nicht-Zutreffen der Frage, Antwortverweigerung etc.) oder gar gemieden wird (Rost 2004).
7 Häufige Fehler Abschließend soll noch auf einige praktische Aspekte der Durchführung von IRTAnalysen eingegangen werden. Ein bereits in Abschnitt 5 diskutiertes Problem betrifft die Größe der Stichprobe, die zur Durchführung von IRT-Analysen benötigt wird. Da die Parameter der Modelle in der Regel anhand der Maximum-Likelihood-Methode geschätzt werden und die Pearson- sowie LR-Fitstatistiken nur bei großen Stichproben und kleinen Itemzahlen einer χ2 -Verteilung folgen, ergeben sich in vielen Fällen Anwendungsbeschränkungen, da Nutzer entweder nicht über hinreichend große Stichproben verfügen und/oder Skalen mit einer großen Itemzahl analysiert werden sollen. In vielen Fällen können zwar die Parameter und deren Standardfehler auch bei moderaten Stichprobengrößen und großen Itemzahlen noch zuverlässig bestimmt werden. Die Verwendbarkeit der Fitstatistiken ist in diesen Fällen jedoch eingeschränkt, auch wenn Bootstrap-Methoden (von Davier 1997) einen gewissen Ausweg ermöglichen. Exakte Modelltests (Ponocny 2001) oder die relative Modellgütebeurteilung über Modellvergleiche mittels IC bieten in solchen Fällen eine Alternative. Ein weiteres praktisches Problem ergibt sich dadurch, dass Items so konstruiert werden müssen, dass die Personen eine und nur eine Kategorie auswählen, da die Modelle nicht zur Auswertung von Mehrfachantworten geeignet sind. Ferner setzen die hier behandelten eindimensionalen Modelle voraus, dass die Items einer Skala nur eine und nicht mehrere Personeneigenschaften messen. Diese Annahme ist sehr streng und insbesondere bei Fragebogenitems nicht immer leicht zu realisieren. Es sollte daher bereits in der Phase der Itemkonstruktion große Sorgfalt in Bezug auf die Frage der Eindimensionalität der Items gelegt werden. Zur psychometrischen Analyse multidimensionaler Skalen können mehrdimensionale IRT-Modelle verwendet werden, wie sie z. B. Rost (2004) beschreibt. Wie bei vielen statistischen Verfahren besteht auch bei der Modellierung von Itemantworten auf Basis der IRT die Gefahr des „Overfitting“, d. h. der Anwender muss darauf achten, nicht zu viele Modellparameter zu schätzen. Das Problem des Overfitting kann sich insbesondere dadurch ergeben, dass in großen Stichproben nahezu alle einfachen IRT-Modelle (die von wenigen Parametern ausgehen) aufgrund von Modellgeltungstests verworfen werden müssten. Mit komplexeren Modellen, welche
14 Item-Response-Theorie
331
mehr Parameter beinhalten, lässt sich tendenziell immer eine bessere Datenanpassung erzielen, jedoch stellt sich hierbei die Frage, ob die zusätzlichen Parameter theoretisch zu rechtfertigen sind, ob sie praktisch bedeutsame Effekte abbilden und ob sie inhaltlich interpretierbar sind. 8 Literaturempfehlungen Das Lehrbuch von Rost (2004) bietet eine umfassende Einführung in die IRT und behandelt zudem verschiedene spezielle IRT-Modelle im Detail. Auch findet man in diesem Buch eine detaillierte Besprechung unterschiedlicher Modelltests sowie Personenund Itemfitmaße. Embretson & Reise (2000) liefern eine Einführung in die IRT speziell für Psychologen. Steyer & Eid (2001) setzen sich auf Grundlage der stochastischen Messtheorie vertiefend mit dem Rasch-Modell auseinander und behandeln u. a. Fragen der Eindeutigkeit und Bedeutsamkeit von Modellgrößen sowie der Testbarkeit von Modellannahmen. Von Davier & Carstensen (2007) geben einen Überblick über die Theorie und Anwendung verschiedener Erweiterungen des Rasch-Modells wie z. B. Modelle für multidimensionale Skalen und Mischverteilungsmodelle. Literaturverzeichnis Birnbaum, A. (1968). Some Latent Trait Models and Their Use in Inferring an Examinee’s Ability. In F. M. Lord & M. R. Novick (Hg.), Statistical Theories of Mental Test Scores (S. 395–479). Reading: Addison-Wesley. Eid, M. & Rauber, M. (2000). Detecting Measurement Invariance in Organizational Surveys. European Journal of Psychological Assessment, 16, 20–30. Eid, M. & Zickar, M. (2007). Detecting Response Styles and Faking in Personality and Organizational Assessment by Mixed Rasch Models. In M. van Davier & C. Carstensen (Hg.), Multivariate and Mixture Distribution Rasch Models (S. 255–270). New York: Springer. Embretson, S. & Reise, S. (2000). Item Response Theory for Psychologists. Mahwah: Erlbaum. Fischer, G. H. & Molenaar, I. W. (1995). Rasch Models: Foundations, Recent Developments, and Applications. New York: Springer. Geiser, C., Lehmann, W., & Eid, M. (2006). Separating "Rotators" from "Non-Rotators" in the Mental Rotations Test: A Multigroup Latent Class Analysis. Multivariate Behavioral Research, 41, 261–293. Köller, O., Rost, J., & Köller, M. (1994). Individuelle Unterschiede beim Lösen von Raumvorstellungsaufgaben aus dem IST- bzw. IST-70-Untertest "Würfelaufgaben". Zeitschrift für Psychologie, 202, 65–85. Langeheine, R., Pannekoek, J., & van de Pol, F. (1996). Bootstrapping Goodness-of-Fit Measures in Categorical Data Analysis. Sociological Methods and Research, 24, 492–516. Lord, F. M. & Novick, M. R. (1968). Statistical Theories of Mental Test Scores. Reading: Addison-Wesley. Masters, G. N. (1982). A Rasch Model for Partical Credit Scoring. Psychometrika, 47, 149–174.
332
Christian Geiser und Michael Eid
Müller, H. (1999). Probabilistische Testmodelle für diskrete und kontinuierliche Ratingskalen. Bern: Huber. Ponocny, I. (2001). Nonparametric Goodness-Of-Fit Tests for the Rasch Model. Psychometrika, 66, 437–460. Rasch, G. (1960). Probabilistic Models for Some Intelligence and Attainment Tests. Kopenhagen: Nissen & Lydicke. Rost, J. (1990). Rasch Models in Latent Classes. An Integration of Two Approaches to Item Analysis. Applied Psychological Measurement, 14, 271–282. Rost, J. (2004). Lehrbuch Testtheorie – Testkonstruktion. Bern: Huber, 2. Auflage. Steyer, R. & Eid, M. (2001). Messen und Testen. Berlin: Springer, 2. Auflage. Vandenberg, S. G. & Kuse, A. R. (1978). Mental Rotations. A Group Test of Three Dimensional Spatial Visualisation. Perceptual and Motor Skills, 60, 343–350. von Davier, M. (1997). Bootstrapping Goodness-of-fit Statistics for Sparse Categorical Data: Results of a Monte Carlo Study. Methods of Psychological Research-Online, 2, 29–48. Letzter Zugriff 29.03.2010: http://www.dgps.de/fachgruppen/methoden/mpr-online/ issue3/art5/article.html. von Davier, M. (2000). WINMIRA - A Program System for Analysis with the Rasch Model, with the Latent Class Analysis and with the Mixed Rasch Model. Groningen: Progamma. von Davier, M. & Carstensen, C. H. (2007). Multivariate and Mixture Distribution Rasch Models. New York: Springer. Zumbo, B. D. (2007). Three Generations of Differential Item Functioning (DIF) Analyses: Considering where it has been, where it is now, and where it is going. Language Assessment Quarterly, 4, 223–233.
15 Hauptkomponentenanalyse und explorative Faktorenanalyse Hans-Georg Wolff und Johann Bacher a b
Universität Erlangen-Nürnberg Johannes Kepler Universität Linz
Zusammenfassung. Die Faktorenanalyse ist eine Familie multivariater Verfahren, bei denen eine Menge von beobachtbaren (manifesten) Variablen auf wenige zugrunde liegende nicht beobachtbare Variablen zurückgeführt wird, die aus den beobachtbaren Variablen zusammengesetzt sind. Diese nicht beobachteten Variablen werden als Faktoren bezeichnet. Bei der hier vorgestellten explorativen Faktorenanalyse sind keine inhaltlichen Vorannahmen nötig. Es wird lediglich untersucht, inwieweit sich die Zusammenhänge zwischen einer Menge von beobachtbaren Variablen durch wenige Faktoren erklären lassen. Weder die Zahl der Faktoren noch die genaue Zuordnung der manifesten Variablen zu den Faktoren ist bekannt. Im Unterschied dazu müssen bei einer konfirmatorischen Faktorenanalyse genaue Hypothesen über die Zahl der Faktoren und die Zuordnung der manifesten Variablen zu den Faktoren vorliegen. In diesem Beitrag werden mit der Hauptkomponentenanalyse und der explorativen Faktorenanalyse zwei Verfahren vorgestellt, die in ihren Grundannahmen zwar verschieden, in der Anwendung aber austauschbar erscheinen können. Dies zeigt sich bereits an der Verwendung des Begriffes Faktorenanalyse: Einerseits steht er für ein bestimmtes Modell, nämlich das Modell mehrerer gemeinsamer Faktoren, andererseits dient der Begriff Faktorenanalyse aber auch als Sammelbegriff für eine Familie von Verfahren, unter den auch die Hauptkomponentenanalyse fällt. Im Folgenden soll eine geometrisch orientierte Darstellung der Hauptkomponentenanalyse den Einstieg ermöglichen und die konkreten Schritte der Hauptkomponentenanalyse dargestellt werden. Anschließend wird das Modell mehrerer gemeinsamer Faktoren präsentiert und von der Hauptkomponentenanalyse abgegrenzt. Abschnitt 2 enthält die mathematischen Grundlagen und ein Anwendungsbeispiel wird in Abschnitt 3 präsentiert. Abschließend werden in Abschnitt 4 häufige Probleme diskutiert und Handlungsempfehlungen abgeleitet.
1 Einführung in das Verfahren Wir werden im Folgenden zunächst die Einsatzmöglichkeiten für die Familie faktorenanalytischer Verfahren skizzieren (1.1) und anschließend die Hauptkomponentenanalyse in ihrem Ablauf vorstellen (1.2). Abschnitt 1.3 arbeitet die Unterschiede zwischen Hauptkomponentenanalyse und dem Modell mehrerer gemeinsamer Faktoren heraus. 1.1 Einsatzmöglichkeiten Die (explorative) Faktorenanalyse ist ein Verfahren mit dem Zusammenhänge zwischen Variablen systematisiert werden können. Im Rahmen der Faktorenanalyse werden S. 333–365 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_15, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
334
Hans-Georg Wolff und Johann Bacher Gemeinsamkeiten finden
Satzergänzung
Verbale Fähigkeiten
Mathematische Textaufgaben
Zahlenreihen ergänzen
Numerische Fähigkeiten
Additionsaufgabe
Abb. 1: Modell der Faktorenanalyse am Beispiel von Intelligenzaufgaben Messwerte von Objekten (in den Sozialwissenschaften meistens befragte Personen) in einer Menge beobachteter (manifester) Variablen auf Faktoren zurückgeführt. Faktoren sind dabei als hypothetische, nicht beobachtete Variablen (Konstrukte) definiert, die den beobachteten Variablen Gemeinsames abbilden. Ein Beispiel ist in Abbildung 1 dargestellt. Fünf Aufgaben aus einem Intelligenztest sind in Rechtecken dargestellt und repräsentieren die manifesten, tatsächlich erfassten Variablen. Die Zusammenhänge zwischen diesen fünf manifesten Variablen werden durch zwei Faktoren erklärt, die als verbale und numerische Fähigkeiten bezeichnet sind. Die Richtung der Verbindungspfeile in Abbildung 1 deutet an, dass die Faktoren Erklärungen für die Ausprägungen in den manifesten Variablen darstellen. Anhand dieser Abbildung lassen sich drei weitere Aspekte aufzeigen: 1) Die Faktorenanalyse besitzt einen systematisierenden Charakter, denn die Variablen werden durch die Zuordnung zu Faktoren gruppiert; hier sind es zwei Faktoren bzw. Gruppen. 2) Es erfolgt keine disjunkte Gruppenzuordnung: Bei den mathematischen Textaufgaben tragen offensichtlich beide Faktoren, verbale als auch numerische Fähigkeiten, zur Erklärung des Abschneidens in dieser Variable bei. 3) Die Faktorenanalyse wird oftmals zur Zusammenfassung oder sparsameren Beschreibung einer Variablenmenge durch eine geringere Anzahl an Faktoren eingesetzt. Dies zeigt sich hier in der Erklärung von fünf Variablen durch zwei Faktoren. Bei der Faktorenanalyse handelt es sich um ein exploratives oder hypothesengenerierendes Verfahren. Das bedeutet, dass weder konkrete Vermutungen über die Zahl der zugrunde liegenden Faktoren noch über die Zuordnung der Variablen zu Faktoren a priori bekannt sein müssen. Vielmehr werden Faktorenzahl und die Zuordnung der Variablen im Rahmen der Analyse ermittelt. Bestehen bereits Vermutungen über Faktorenzahl und Zuordnungen von Variablen zu Faktoren, sollte eine konfirmatorische Faktorenanalyse verwendet werden. Mit ihr kann geprüft werden, ob mit den bestehenden Hypothesen über Faktorzahl und -struktur die Daten angemessen repräsentiert werden können (siehe auch Kapitel 29 in diesem Handbuch). Als Forschungsmethode kann die Faktorenanalyse zur Erreichung mehrerer Ziele eingesetzt werden. Vier häufige Ziele sind (vgl. Gorsuch 1983):
15 Hauptkomponentenanalyse und explorative Faktorenanalyse
335
1. Bestimmung der dimensionalen Struktur einer Variablenmenge.1 Dabei steht die Frage im Vordergrund, wie viele Faktoren einer Variablenmenge zugrunde liegen und wie die Faktoren zu benennen oder zu interpretieren sind. Es wird hier auch von der Beschreibung einer inhaltlichen Domäne gesprochen. Im Sinne der Sparsamkeit wird dabei in der Regel eine Begrenzung auf „wichtige Faktoren“ vorgenommen. 2. Konstruktion von Skalen im Rahmen der Itemanalyse (z. B. Gorsuch 1997). Ziel ist die Identifikation von Variablen, die möglichst nur auf einen einzelnen Faktor zurückführbar sind. Solche Variablen gelten als „reine“ Manifestation des jeweiligen Faktors und sind besonders gut für die Messung des zugrunde liegenden latenten Konstrukts geeignet. 3. Datenreduktion. Zwei Varianten sind hier denkbar: a) Es lassen sich für die Untersuchungsobjekte Messwerte bestimmen, welche die individuelle Ausprägungen der Objekte für einen Faktor bestimmen, im Sinne von Messwerten in einer hypothetischen Variable (sog. Faktorwerte). Im Beispiel in Abbildung 1 wäre es möglich, für die getesteten Personen ihre individuellen Ausprägungen auf den Faktoren verbale bzw. mathematische Fähigkeiten zu bestimmen. Ist die Zahl der Faktoren kleiner als die Zahl der manifesten Variablen, findet eine Reduktion der erforderlichen Messwerte statt. b) Die Faktorenanalyse kann zur Selektion manifester Variablen für Folgestudien eingesetzt werden. Im Rahmen der Faktorenanalyse lassen sich Variablen identifizieren, die einen Faktor besonders gut repräsentieren. Es ist daher möglich, einige wenige Variablen auszuwählen, und diese in Folgestudien für die repräsentative und ökonomische Erfassung der Faktoren zu verwenden. 4. Orthogonalisierung von Variablen. In manchen weiterführenden statistischen Analysen wird empfohlen, schwach oder unkorrelierte Variablen (z. B. hinsichtlich Multikollinearität in der multiplen Regression) zu verwenden. Die Faktorenanalyse (fast immer die Hauptkomponentenanalyse) kann dazu verwendet werden, ursprünglich korrelierte Variablen in unkorrelierte Variablen zu transformieren, was als Orthogonalisierung bezeichnet wird. Bei dieser Transformation handelt es sich um eine Neuzusammensetzung der Variablen. Die genannten Ziele schließen einander nicht aus, dennoch werden die ersten drei Ziele öfter im Rahmen einer Untersuchung gemeinsam thematisiert, da ihnen eine inhaltliche Fragestellung zugrunde liegt. Beispielsweise wird eine Anzahl von Variablen analysiert. Nachdem man mittels Faktorenanalyse ermittelt hat, dass sie einer bestimmten Anzahl von Konstrukten zugeordnet werden können (Identifikation der Dimensionalität), kann man anschließend einige dieser Variablen zur Bildung von Skalen verwenden (Skalenkonstruktion). Dabei können weniger geeignete Variablen von der Skalenbildung ausgeschlossen (Datenreduktion im Sinne von 3b) oder die Faktorwerte als individuelle Messwerte für die ermittelten Konstrukte verwendet (Datenreduktion im Sinne von 3a) und mit diesen weitere Analysen durchgeführt werden. 1
Faktoren können auch als Koordinatenachsen eines n-dimensionalen Raumes aufgefasst werden, wie die geometrische Darstellung der Hauptkomponentenanalyse veranschaulicht. Deshalb wird in der Literatur der Begriff Dimension oftmals als Synonym für einen Faktor verwendet.
336
Hans-Georg Wolff und Johann Bacher
Abb. 2: Darstellung von drei Variablen als Vektoren, deren Interkorrelationen als Winkel präsentiert sind Bei der Orthogonalisierung spielen inhaltliche Aspekte eine untergeordnete Rolle. Hier wird die Möglichkeit der Faktorenanalyse ausgenutzt, die Faktoren als unkorrelierte Linearkombinationen der manifesten Variablen zu ermitteln. 1.2 Die Hauptkomponentenanalyse Im Folgenden soll zunächst die Hauptkomponentenanalyse (PCA für Principal Components Analysis) näher betrachtet werden, da sie sich zur einführenden Beschreibung sehr gut anbietet und sich gleichzeitig gut geometrisch darstellen lässt. Es sollen hier zunächst drei wichtige Schritte in der PCA einführend erläutert werden: die Extraktion von Hauptkomponenten, die reduzierte Komponentenlösung und die Rotation der Komponenten. Die konkreten Schritte bei der Anwendung einer PCA werden im nachfolgenden Abschnitt dargestellt. Eine geometrische Perspektive Geht man von J manifesten Variablen aus, so lassen sich diese als Vektoren im J-dimensionalen Raum (mit J = Variablenzahl) darstellen. Die Korrelationen zwischen zwei Variablen kann dabei als Cosinus des Winkels zwischen den zwei Vektoren dargestellt werden (r = cos(v)). Beispielsweise sind die Vektoren bei einer Korrelation von r = 1 deckungsgleich (Winkel von 0◦ ). Bei Unabhängigkeit (r = 0) ergibt sich ein Winkel von 90◦ . In Abbildung 2 sind drei solcher Vektoren eingezeichnet. Die Winkel von 50◦ , 60◦ und 10◦ entsprechen Korrrelationen von 0,64, 0,50 und 0,98. Für die korrekte Abbildung einer Zahl von J Variablen und den (J − 1)J/2 Variableninterkorrelationen ist ein J-dimensionaler Raum erforderlich. Da die relevante Information (die Korrelation) in den Winkeln der Vektoren enthalten ist, bleibt die Wahl eines Koordinatensystems in diesem Raum zunächst arbiträr. Ein besonderes Koordinatensystem stellen die sogenannten Hauptkomponenten dar, deren Berechnung als Komponentenextraktion bezeichnet wird. Die Koordinatenachsen bzw. Komponenten werden dabei so bestimmt, dass sie zwei wichtige Bedingungen erfüllen: Erstens werden sie sukzessive varianzmaximierend extrahiert. Das bedeutet, dass die erste Hauptkomponente den größtmöglichen Anteil an Varianz in den Variablen erklärt. Die zweite soll den größtmöglichen Anteil der verbliebenen, durch
15 Hauptkomponentenanalyse und explorative Faktorenanalyse
337
Abb. 3: Extraktion einer Hauptkomponente die erste Hauptkomponente nicht extrahierten Restvarianz erklären und so weiter. Die Bedingung der maximalen Varianzaufklärung lässt sich wie folgt fassen: Im normierten Raum2 entspricht die senkrechte Projektion eines Variablenvektors auf die Hauptkomponente der Korrelation r zwischen Variablen und Hauptkomponente. Diese senkrechte Projektion wird Komponentenladung genannt und entspricht dem Koordinatenwert des Vektorendpunkts. Die quadrierte Komponentenladung ist deshalb ein Determinationskoeffizient r 2 und ein Maß für die Varianzerklärung. Die größtmögliche Varianz erklärt eine Komponente dann, wenn die Summe der quadrierten Komponentenladungen ein Maximum ist. Bildlich gesprochen liegt die erste Komponente so nahe wie möglich an allen Variablen. Die erste Hauptkomponente für das zweidimensionale Beispiel in Abbildung 2 ist in Abbildung 3 durch die gestrichelte Gerade dargestellt. Die Komponentenladungen sind durch die gestrichelten senkrechten Projektionen auf die Komponente dargestellt. Vergleicht man die senkrechten Projektionen auf die Hauptkomponente, so erkennt man, dass die Variablen B und C höhere Komponentenladungen besitzen als die Variable A. Damit einhergehend ist auch der Winkel zwischen der Hauptkomponente und den Variablen B und C kleiner als der Winkel zwischen der Hauptkomponente und Variable A. Die zweite Bedingung in der Hauptkomponentenextraktion ist die Orthogonalität. Extrahiert man eine weitere Hauptkomponente, so soll diese den größtmöglichen Anteil der verbleibenden Varianz erklären. Es wird also zusätzlich gefordert, dass es sich um verbliebene, nicht durch bereits extrahierte Komponenten erklärte Restvarianz handelt. Geometrisch bedeutet diese Forderung, dass die jeweilige Komponente orthogonal (im Winkel von 90◦ ) zu den bereits extrahierten Komponenten steht. Dies entspricht einer Korrelation von r = 0 zwischen den Faktoren und einer gemeinsamen Varianz von r2 = 0 (vgl. Abbildung 4). So wird durch die Orthogonalitätsbedingung sichergestellt, dass es sich tatsächlich um verbliebene, d. h. durch die anderen Komponenten nicht
2
In der Hauptkomponentenanalyse ist die Länge der Vektoren auf 1 normiert.
338
Hans-Georg Wolff und Johann Bacher
Abb. 4: Extraktion der zweiten Hauptkomponente erklärte Varianz handelt. Die senkrechten Projektionen auf die beiden Achsen zeigen die Komponentenladungen der Variablen auf die beiden Hauptkomponenten. Auf diese Weise lassen sich sämtliche Hauptkomponenten extrahieren und man erhält die vollständige Hauptkomponentenlösung. Die maximale Zahl an extrahierbaren Hauptkomponenten entspricht dem Rang der Korrelationsmatrix, der zumeist der Variablenzahl entspricht.3 Resultat der vollständigen Hauptkomponentenlösung ist eine Beschreibung der Variableninterkorrelationen in einem Koordinatensystem, in dem die orthogonalen Koordinatenachsen sukzessive die maximal mögliche Varianz erklären. Alle Hauptkomponenten gemeinsam stellen ein System zur Beschreibung der korrelierenden manifesten Variablen dar. Das bedeutet, dass sie unabhängige Komponenten repräsentieren, welche die Zusammenhänge zwischen den Variablen formal erklären. Außerdem lassen sich die Hauptkomponenten, da sie ja wie die manifesten Variablen als Vektoren dargestellt sind, als transformierte Variablen betrachten. Diese transformierten Variablen beinhalten dieselben Informationen wie die ursprünglichen manifesten Variablen. Die Information wurde allerdings so auf die transformierten Variablen „verteilt“, dass sie unkorreliert sind. Setzt man die Hauptkomponentenanalyse zur Orthogonalisierung von korrelierenden manifesten Variablen ein, so können in weiteren Analysen anstelle der manifesten Variablen diese transformierten, unkorrelierten Variablen verwendet werden. Die Beziehung zwischen ursprünglichen Variablen und Hauptkomponenten wird dabei durch die Komponentenladungen ausgedrückt. Die Ladungen lassen sich als Zusammenhang zwischen Komponente und Variable betrachten. Je höher die Ladung, desto größer der Zusammenhang.
3
Die Zahl der extrahierbaren Komponenten ist dann kleiner als die Zahl der Variablen, wenn die Korrelationsmatrix keinen vollen Rang, d. h. einen Rang kleiner als die Zahl der Variablen, besitzt. In diesem Fall liegen perfekte lineare Beziehungen zwischen den Variablen oder Variablengruppen und damit redundante Informationen in den Variablen vor.
15 Hauptkomponentenanalyse und explorative Faktorenanalyse
339
Der zweite Schritt in der PCA ist die Entscheidung über die Betrachtung einer bestimmten Komponentenzahl. Im Sinne einer sparsamen Abbildung der manifesten Variablen wird man meist eine Datenreduktion vornehmen, indem man nur „die wichtigsten Komponenten“ betrachtet. Werden nicht alle Hauptkomponenten betrachtet, so spricht man von einer reduzierte Hauptkomponentenlösung. Für die Wahl der „wichtigsten Komponenten“ spielt die sukzessive Varianzmaximierung eine entscheidende Rolle: Die ersten x Hauptkomponenten beschreiben die jeweils beste (varianzmaximierende) niederdimensionale Approximation an die Daten. Geht man von J = 5 Variablen aus, so identifiziert die erste Hauptkomponente die Gerade, die die meiste Varianz im fünfdimensionalen Raum erklärt. Zwei Hauptkomponenten bestimmen die Lage der Ebene, in der der maximal durch zwei Dimensionen erklärbare Varianzanteil liegt und so fort. Hinsichtlich der Varianzmaximierung werden die Komponenten sozusagen in der Reihenfolge ihrer „Wichtigkeit“ extrahiert. Es lässt sich dabei auch ermitteln, welcher (prozentuale) Anteil der Gesamtvarianz durch die jeweiligen x Hauptkomponenten erklärt werden. Wenn sich mit einer reduzierten Hauptkomponentenlösung ein großer Anteil an Varianz erklären lässt, dann stellt die reduzierte Lösung eine gute, sparsame, approximative Anpassung an die manifesten Variablen dar. Mit einer reduzierten Hauptkomponentenlösung wird also dem Ziel der Datenreduktion Rechnung getragen: Die Zusammenhänge zwischen den Variablen lassen sich approximativ durch eine geringe Anzahl an Hauptkomponenten erklären. Auch das Ziel der Dimensionalitätsbestimmung wird durch die reduzierte Hauptkomponentenlösung erreicht, da die reduzierte Lösung einen niederdimensionalen Raum mit varianzmaximierender Approximation darstellt. Die genaue Entscheidung darüber, wie viele Komponenten denn eine gute Approximation darstellen, bleibt jedoch eine subjektive Entscheidung. Im Rahmen der Hauptkomponentenanalyse werden zwar einige Anhaltspunkte zur Unterstützung dieser Entscheidung gegeben, letztendlich ist es jedoch ein individuelles Urteil, was als „gute Approximation“ gilt. Dabei muss ein Kompromiss zwischen Approximationsgüte und Sparsamkeit der Darstellung gefunden werden. Mit der reduzierten Hauptkomponentenlösung lässt sich zwar die Dimensionalität abbilden, allerdings sind die Hauptkomponenten nur selten zur Interpretation der manifesten Variablen geeignet. Die Lage der Hauptkomponenten folgt keiner inhaltlichen, sondern einer algebraischen Logik, nämlich der sukzessiven Varianzmaximierung. In einem dritten Schritt der PCA werden die Komponenten in der Regel rotiert, um eine inhaltliche Interpretation zu erleichtern. Die Rotation entspricht bildlich einer Drehung der Koordinatenachsen. Dadurch ändern sich auch die Beziehungen zwischen Komponente und Variable, d. h. die Komponentenladungen werden verändert. Dies ist immer dann möglich, wenn mindestens zwei Komponenten extrahiert werden. Ziel der Rotation ist es, ein Koordinatensystem so festzulegen, dass es eine gute inhaltliche Interpretation erlaubt. Zur Identifikation einer inhaltlich interpretierbaren Lage der Faktoren wird häufig das Kriterium der Einfachstruktur herangezogen. Die Komponenten werden dabei so rotiert, dass jede Variable möglichst hoch auf einer Komponente lädt und gleichzeitig geringe Ladungen auf den restlichen Komponenten aufweist. Abbildung 5 a stellt eine solche Rotation exemplarisch dar. Das ursprüngliche Koordinatensystem wurde so rotiert, dass die Faktoren bildlich gesprochen möglichst
340
Hans-Georg Wolff und Johann Bacher
(a) Orthogonale Rotation
(b) Schiefwinklige Rotation
Abb. 5: Orthogonale und schiefwinklige Rotation in eine Einfachstruktur nahe an einem Teil der Variablen liegen. Variablen, die einer Einfachstruktur entsprechen, lassen sich somit auf nur einen Faktor zurückführen, und können zur eindeutigen Benennung des Faktors herangezogen werden. In der Literatur wird eine Vielzahl von Rotationsvarianten beschrieben, die sich grundlegend darin unterscheiden, ob eine orthogonale oder schiefwinklige Rotation durchgeführt wird (vgl. Abbildung 5). Bei orthogonalen Rotationsverfahren bleiben die Faktoren, wie bei der Extraktion, orthogonal zueinander und sind dementsprechend unkorreliert. Bei schiefwinkligen Rotationsverfahren wird die Restriktion der Orthogonalität der Faktoren aufgeben und somit eine Korrelation zwischen den Faktoren zugelassen. In diesem Fall stehen die Faktoren nicht senkrecht zueinander, was die Erreichung einer Einfachstruktur erleichtern kann. Im rechten Teil von Abbildung 5 beispielsweise beträgt der Winkel zwischen den schiefwinklig rotierten Faktoren 76◦ , was einer Korrelation zwischen den Faktoren von r = 0,23 entspricht. Die Faktorkorrelationen sollten jedoch nicht zu hoch sein, da zwei sehr hoch korrelierenden Faktoren kaum noch unterscheidbar sind. Die konkreten Schritte der PCA Der Ausgangspunkt der PCA ist eine Menge von Objekten (z. B. Personen) für die in einer Menge von Variablen Messwerte vorliegen. Rein algebraisch lässt sich die PCA auf diese Objekt × Variablen-Datenmatrix anwenden, es kann jedoch gezeigt werden (vgl. Abschnitt 2, Fundamentaltheorem der Faktorenanalyse), dass alle relevanten Informationen für die PCA in der Korrelationsmatrix enthalten sind. Tatsächlich kann aus den Ergebnissen der PCA-Lösung die Korrelationsmatrix zwischen den Variablen zurückberechnet werden. Eine perfekte Übereinstimmung ergibt sich im Falle der vollständigen Komponentenlösung. Wird im Sinne einer Datenreduktion eine reduzierte Lösung mit geringerer Komponentenzahl verwendet, so ergibt sich bei der Zurückberechnung eine mehr oder weniger gute Approximation der ursprünglichen Korrelationsmatrix, die mit zunehmender Komponentenzahl besser gelingt.
15 Hauptkomponentenanalyse und explorative Faktorenanalyse
341
Noch vor der eigentlichen Analyse kann geprüft werden, ob sich die vorliegende Korrelationsmatrix für eine PCA eignet.4 Zwei in Statistikprogrammen häufig implementierte Tests sind der Spherizitätstest von Bartlett sowie das Kaiser-Meyer-Olkin Kriterium (vgl. Dziuban & Shirkey 1974). Der Test von Bartlett prüft anhand einer χ2 -Verteilung mit df = J · (J−1)/2 Freiheitsgraden, ob die Korrelationsmatrix signifikant von einer Zufallsdatenmatrix abweicht. Ein signifikanter Wert deutet darauf hin, dass systematische Zusammenhänge zwischen den Variablen existieren, die mit Hilfe einer Faktorenanalyse näher untersucht werden können. Das Kaiser-Meyer-Olkin Kriterium (KMO) basiert vornehmlich auf der Höhe der Variableninterkorrelationen. Der Index variiert zwischen Null und Eins, wobei höhere Werte eine bessere Eignung der Korrelationsmatrix anzeigen. Dziuban & Shirkey (1974) gehen davon aus, dass eine PCA bei Werten von KMO > 0,60 möglich ist, bei geringeren Werten sollte man Vorsicht walten lassen. Bestimmung der Komponentenzahl Ein häufiges Ziel der PCA ist die Bestimmung der Dimensionalität einer Variablenmenge und damit der Zahl zugrunde liegender Komponenten. Die maximal mögliche Anzahl an Komponenten für eine vollständige Komponentenlösung entspricht dem Rang der Korrelationsmatrix. Strebt man eine reduzierte Komponentenlösung an, so muss die genaue Komponentenzahl vom Untersucher mit bestimmt werden. Für diese Entscheidung werden im Rahmen der Analyse zwar Kennwerte berechnet, es ist aber immer (auch) ein subjektives Urteil über die angemessene Faktorenzahl erforderlich. Grundlage aller Entscheidungskriterien, die für dieses subjektive Urteil herangezogen werden können, sind die sogenannten Eigenwerte. Eigenwerte geben an, wie viel Varianz eine Komponente erklärt. In der PCA lässt sich die Höhe eines Eigenwertes als Erklärungsgehalt in „Variableneinheiten“ interpretieren: Ein einzelner Faktor mit einem Eigenwert von 2,4 erklärt so viel wie 2,4 Variablen, ein Eigenwert von 0,5 zeigt an, dass der entsprechende Faktor weniger Erklärungskraft als eine manifeste Variable besitzt. Die Summe der Eigenwerte entspricht dem Rang der Korrelationsmatrix. Da diese Summe bekannt ist, lässt sich der Eigenwert einer Hauptkomponente auch als prozentualer erklärter Varianzanteil betrachten. Bei fünf Variablen und vollem Rang der Korrelationsmatrix entspräche ein Eigenwert von 2,4 also 2,4/5 = 48 % erklärter Varianz, ein Eigenwert von 0,5 entspräche 10 % erklärter Varianz. Da die Komponenten jeweils sukzessive varianzmaximierend extrahiert werden, nehmen die Eigenwerte für die Komponenten sukzessive ab, d. h. die erste Komponente besitzt den größten, die zweite Komponente den zweitgrößten Eigenwert und so fort. Im Folgenden werden drei Kriterien zur Bestimmung der Faktorzahl vorgestellt. Basis aller Kriterien ist die Anordnung der Eigenwerte in absteigender Reihenfolge. Das erste, einfachste Kriterium ist das sogenannte Kaiser-Kriterium, bei dem die Zahl der Faktoren gleich der Zahl der Komponenten mit Eigenwerten größer 1 gesetzt wird. Die Logik dieses Kriteriums liegt in der Interpretation des Erklärungsgehalts der Eigenwerte. Diejenigen Faktoren mit Eigenwerten größer eins besitzen einen Erklärungsgehalt der über dem einer einzelnen Variable liegt. In diesem Sinne stellen 4
Diese Prüfung wird in Aufsätzen nur selten berichtet.
342
Hans-Georg Wolff und Johann Bacher Eigenwert 4 3 2 1 0 1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 Faktor
Abb. 6: Scree-Plot einer Faktorenanalyse von 15 Variablen Faktoren mit Eigenwerten größer eins eine Zusammenfassung mehrerer Variablen im Sinne einer Datenreduktion dar. Ein zweites Verfahren zur Bestimmung der Faktorenzahl ist der Scree-Plot (z. B. Cattell & Vogelmann 1977). Es handelt sich um ein grafisches Verfahren, in dem die Eigenwerte in einem Diagramm in absteigender Rangfolge geordnet abgetragen werden. Abbildung 6 zeigt beispielhaft die Eigenwerte aus einer Faktorenanalyse von 15 Variablen (hier können maximal 15 Faktoren mit entsprechenden Eigenwerten extrahiert werden). Es ist ersichtlich, dass die sich ergebende Kurve zu Beginn steil abfällt, und nach einem Knick flacher, sich einer Geraden annähernd ausläuft. Cattell verglich diese Abbildung mit der Steilwand eines Berges, an deren Fuß sich Geröll sammelt (engl. Scree = Geröll). Auf seinen Erfahrungen basierend, schlug Cattell vor, diejenigen Faktoren als inhaltlich relevant zu erachten, die über dem Knick liegen, d. h. die bildlich gesprochen als „harter Fels“ gelten und sich vom „Geröll“ abheben.5 In Abbildung 6 zeigt sich nach drei Faktoren ein Knick, der eine Lösung mit drei Faktoren nahelegt. Ein Problem des Scree-Plots ist, dass die Identifikation des „Knickes“ auf einem subjektiven Urteil beruht. In Abbildung 6 könnte zum Beispiel diskutiert werden, ob eine Lösung mit fünf Faktoren angemessen ist, da bei sechs Faktoren ein Knick auftritt. Die Übereinstimmung zwischen mehreren Beurteilern ist oft nur befriedigend (Streiner 1998). Probleme entstehen insbesondere dann, wenn mehrere „Knicke“ im Scree-Plot sichtbar sind. In solchen Fällen empfehlen Cattell & Vogelmann (1977) den höheren Knick zu wählen, also die geringere Faktorenzahl (vgl. jedoch die Diskussion zur Überund Unterextraktion in Abschnitt 4). Ein drittes Verfahren, die Parallelanalyse, beruht auf dem Vergleich der Eigenwerte der empirischen Datenmatrix mit Eigenwerten von Zufallsdaten (z. B. O’Connor
5
Eine andere Metapher ist die eines gebeugten Ellenbogens: Man extrahiere die Faktoren oberhalb der Armbeuge.
15 Hauptkomponentenanalyse und explorative Faktorenanalyse
343
2000).6 Entsprechend der Objekt- und Variablenzahl der empirischen Daten, werden eine Vielzahl (z. B. 1000) von Zufallsdatensätzen erzeugt und die jeweiligen Eigenwerte aus den anschließend durchgeführten Hauptkomponentenanalysen ermittelt. Man erhält so eine Verteilung für die Höhe von Eigenwerten unter Zufallsbedingungen.7 Man kann nun die Eigenwerte der Stichprobe mit den zufälligen Eigenwerteverteilungen vergleichen und diejenigen Faktoren extrahieren, deren Eigenwerte deutlich über den Zufallseigenwerten liegen. Als Kriterium wird dabei oft auf das Perzentil P95 oder P99 der Zufallseigenwerteverteilung zurückgegriffen. Komponenten mit Eigenwerten, die jeweils über dem gewählten Perzentil liegen, werden als inhaltlich relevant betrachtet und behalten. Die drei hier vorgestellten Verfahren liefern nicht notwendigerweise übereinstimmende Ergebnisse. In solchen Fällen wird geraten, alle in Betracht kommenden Lösungen zu inspizieren und diejenige Lösung zu wählen, die am besten interpretierbar ist. Simulationsstudien zeigen, dass die Parallelanalyse ein gut geeignetes Verfahren darstellt. Nach dem Kaiser-Kriterium, das in Statistikprogrammen oft als Voreinstellung implementiert ist, werden oft zu viele Komponenten extrahiert (Zwick & Velicer 1986, vgl. Überextraktion im Abschnitt 4). Die Entscheidung mittels Scree-Plot ist, wie oben beschrieben, stärker vom subjektiven Urteil abhängig. Neben den drei behandelten Verfahren stehen auch statistische Signifikanztests zur Verfügung (Arminger 1979, S. 71–72; Holm 1976). Die unrotierte Lösung Die Beziehung zwischen Hauptkomponenten und manifesten Variablen wird durch die Komponentenladungen beschrieben. Geometrisch entsprechen Komponentenladungen der senkrechten Projektion der Variablenvektoren auf die Komponenten (z. B. Abbildung 4). Umgangssprachlich würde man sie als Koordinatenwerte der Vektorendpunkte auf den Hauptkomponenten beschreiben. Sie lassen sich (bei orthogonaler Rotation, s. u.) als Korrelation zwischen Variablen und Komponenten interpretieren und variieren zwischen −1 und 1. Sie werden in der sogenannten Ladungsmatrix zusammengefasst. Eine im Betrag hohe Ladung zeigt, dass eine Variable in hohem Ausmaß durch eine Komponente erklärt wird. In Tabelle 1 haben wir eine fiktive Ladungsmatrix für die bereits in Abbildung 1 verwendeten Intelligenztestaufgaben dargestellt. Die Ladungen spiegeln das Prinzip der sukzessiven Varianzmaximierung wider: Die Summe der quadrierten Ladungen der ersten Hauptkomponente entspricht der maximalen Varianz, die durch eine Komponente erklärt werden kann. Dass alle Variablen hohe positive Ladungen auf der ersten Hauptkomponente besitzen, zeigt, dass alle Variablen etwas Gemeinsames besitzen. Erst die zweite Hauptkomponente zeigt Unterschiede zwischen den Variablen auf, denn einige besitzen negative, andere positive Ladungen. 6
7
SAS- und SPSS-Syntax für die Parallelanalyse werden in O’Connor (2000) dargestellt und können aus dem Archive of Norms, Stimuli, and Data der Psychonomic Society unter www.psychonomic.org heruntergeladen werden. Die Eigenwerte bei Zufallsdaten liegen i. d. R. alle auf einer abfallenden Gerade. Die Logik des Scree-Plots lässt sich demnach auch damit erklären, dass die Komponenten, an die sich beim kleinsten Eigenwert beginnend eine Gerade anpassen lässt, zufällige, irrelevante Streuung enthalten.
344
Hans-Georg Wolff und Johann Bacher
Tab. 1: Beispiel für eine unrotierte Ladungsmatrix
Gemeinsamkeiten finden Satzergänzung Math. Textaufgaben Zahlenreihen ergänzen Additionsaufgabe
Komponente 1
Komponente 2
0,66 0,70 0,72 0,64 0,59
−0,49 −0,45 −0,21 0,63 0,65
Rotation Wie bereits erwähnt, beruht die Extraktion der Hauptkomponenten auf einem „inhaltlich blinden“ Verfahren, das die Komponenten orthogonal und sukzessive varianzmaximierend bestimmt. Die Lage der Faktoren (im Sinne von Koordinatenachsen) folgt bei dieser sogenannten unrotierten Lösung keiner an den Variableninhalten orientierten Logik. Dennoch sollte diese Lösung betrachtet werden, insbesondere die erste unrotierte Hauptkomponente. Laden alle Variablen positiv auf dem ersten unrotierten Faktor, ist dies ein Hinweis darauf, dass alle Variablen etwas Gemeinsames besitzen. Dies kann auf einen Generalfaktor höherer Ordnung aber auch auf Schwierigkeitsartefakte hindeuten (vgl. Abschnitt 4). Wird mehr als ein Faktor extrahiert und eine inhaltliche Interpretation der Faktoren angestrebt, sollte eine Komponentenrotation (Rotation der Koordinatenachsen) durchgeführt werden. Die gängigen Rotationsverfahren verwenden dazu algebraische Kriterien, die eine inhaltliche Interpretation durch die Approximation einer Einfachstruktur erleichtern: Variablen sollten jeweils hoch auf einer Komponente laden und gleichzeitig geringe Ladungen auf den restlichen Komponenten aufweisen. Variablen, die einer Einfachstruktur entsprechen, lassen sich somit auf nur eine Komponente zurückführen, und können zur Interpretation der Komponente herangezogen werden. In der Literatur wird eine Vielzahl von Rotationsvarianten beschrieben, die sich grundlegend darin unterscheiden, ob eine orthogonale und schiefwinklige Rotation durchgeführt wird (vgl. Abbildung 5).8 Unter den orthogonalen Rotationsverfahren wird die sogenannte Varimaxrotation als die Rotationsmethode bezeichnet. Zur Veranschaulichung zeigt Tabelle 2 die Ladungen aus Tabelle 1 nach einer Varimaxrotation. Das Prinzip der Einfachstruktur wird für die Variablen erreicht. Die ersten drei Variablen besitzen hohe Ladungen auf der ersten und geringe Ladungen auf der zweiten Komponente und für die beiden anderen Variablen ergibt sich das umgekehrte La-
8
Es sei darauf hingewiesen, dass die hier beschriebenen Rotationsverfahren auf algebraisch definierten Kriterien beruhen und sie das übliche Vorgehen darstellen. Es ist jedoch auch möglich auf solche Kriterien zu verzichten und eine visuelle Rotation vorzunehmen. Das heißt, zu versuchen, durch die Inspektion der unrotierten Lösung eine angemessenere Lage der Komponenten auf Basis von Intuition oder Erfahrung zu bestimmen. Auch eine sogenannte Zielrotation, d. h. die Festlegung bestimmter inhaltlich begründeter Kriterien für die Rotation ist möglich.
15 Hauptkomponentenanalyse und explorative Faktorenanalyse
345
Tab. 2: Varimaxrotierte Ladungsmatrix aus Tabelle 1
Gemeinsamkeiten finden Satzergänzung Math. Textaufgaben Zahlenreihen ergänzen Additionsaufgabe
Komponente 1
Komponente 2
0,85 0,83 0,70 0,13 0,08
0,01 0,06 0,26 0,89 0,88
dungsmuster. Lediglich die Variable „Mathematische Textaufgaben“ weicht hiervon etwas ab. Bei schiefwinkligen Rotationsverfahren wird die Restriktion der Orthogonalität aufgegeben und somit eine Korrelation zwischen den Komponenten zugelassen (vgl. Abbildung 5). Die Komponentenkorrelationen sollten jedoch nicht zu hoch sein, da zwei sehr hoch korrelierende Komponenten kaum noch unterscheidbar sind und sich im Erklärungsgehalt überlappen. Die beiden gängigsten schiefwinkligen Rotationsverfahren sind die Promaxrotation und die Obliminrotation. Bei diesen schiefwinkligen Verfahren muss vom Anwender ein Parameter vorgegeben werden, der die Höhe der Faktorkorrelationen mit steuert. Für die Promaxrotation ist dies der Parameter κ, der zwischen 1 < κ < ∞ variieren kann. Auf Basis von Simulationsstudien empfehlen Wood et al. (1996) Werte für κ zwischen 2 und 4. Ein höherer Wert führt zu höheren Faktorkorrelationen. Bei der Obliminrotation wird die Höhe der Komponentenkorrelationen durch den Parameter δ bestimmt, der theoretisch zwischen −∞ < δ < 1 variiert werden kann. Meist erzielt man mit δ = 0 gute Ergebnisse. Werden dennoch deutliche Abweichungen von der Einfachstruktur erzielt, sollten andere Werte ausprobiert werden und jene Lösung ausgewählt werden, die der Einfachstruktur am nächsten kommt. Als formales Kriterium kann hierzu die in Wolff & Bacher (2008) angegebene Maßzahl verwendet werden. Bei schiefwinkligen Rotationen wird zusätzlich zwischen Struktur- und Mustermatrix unterschieden.9 In der Strukturmatrix sind die Korrelationen der Variablen mit den Komponenten enthalten, die sich als rechtwinklige Projektion einer Variable auf eine Komponente ergeben. Die Mustermatrix enthält die eigentlichen Komponentenladungen, die sich als Regressionskoeffizienten der Komponenten (Prädiktor) auf die Variablen (Kriterium) interpretieren lassen (vgl. Gleichung (1) in Abschnitt 2). Die Ladungen der Mustermatrix lassen sich außerdem als achsparallele Projektion auf eine Komponente interpretieren. Während in der Strukturmatrix alle direkten und indirekten Zusammenhänge zwischen Komponente und Variable zusammengefasst werden, wird in der Mustermatrix nur der direkte Effekt eines Faktors auf eine Variable wiedergegeben. Zur Interpretation ist folgendes zu beachten: Die Koeffizienten der Mustermatrix sind kontextabhängig, denn bei anderer Komponentenzusammensetzung, z. B. nach Elimination eines Items, ändern sich die Werte der Muster-, nicht aber der 9
Für orthogonale Faktoren ist diese Unterscheidung unerheblich, denn Faktorstruktur- und Faktormustermatrix sind in diesem Fall identisch.
346
Hans-Georg Wolff und Johann Bacher
Strukturmatrix. Umgekehrt kann in der Strukturmatrix aber ein hoher Wert eines Items auf einer Komponente dadurch entstehen, dass das Item auf weiteren Komponenten hoch lädt und die Komponenten korreliert sind. In diesem Fall charakterisiert das Item nicht die Komponente, obwohl es einen hohen Wert in der Strukturmatrix aufweist. Es empfiehlt sich daher, beide Matrizen zu betrachten. Die Entscheidung zwischen orthogonaler und schiefwinkliger Rotation ist von den Zielen der Analyse (z. B. Orthogonalisierung) und inhaltlichen Überlegungen abhängig. Ist die Identifikation hypothetischer Konstrukte Ziel der Analyse, so wäre zu überlegen, inwieweit diese Konstrukte unkorreliert sein müssen, wie dies bei orthogonalen Rotationsverfahren vorgegeben wird. Eine solche Restriktion muss für kognitive Fähigkeiten oder Einstellungen gegenüber Personengruppen nicht notwendigerweise gelten. Liegen solche Überlegungen nicht vor, liefert Gorsuch (1983) eine pragmatische Empfehlung: Zunächst sollte eine schiefwinklige Rotation durchgeführt werden. Ergeben sich nur geringe Korrelationen zwischen den Faktoren, so schränkt die Orthogonalitätsrestriktion die Ergebnisse nur unwesentlich ein und die einfachere orthogonale Rotation sollte bevorzugt werden. Zur Interpretation oder Benennung der Komponenten werden die hohen Ladungen der jeweiligen Komponenten betrachtet und versucht, das Gemeinsame der Variablen zu umschreiben, um dieses als Bezeichnung für eine Komponente zu verwenden. Für das Beispiel in Tabelle 2 könnte man Komponente 1 als verbale Fähigkeiten und Komponente 2 als mathematische Fähigkeiten bezeichnen. Die Interpretation „hoher“ Ladungen wirft die Frage auf, ab welchem Wert von hohen Ladungen gesprochen werden kann. Für die PCA wie auch die meisten anderen faktoranalytischen Methoden lassen sich keine Signifikanztests für die Ladungen durchführen. Oft werden in der Literatur Faustregeln zitiert, die auch fachspezifisch unterschiedlich sind. In der Psychologie werden oft Ladungen größer 0,3 als bedeutsam interpretiert (z. B. Gorsuch 1983; Grice 2001). In der Soziologie existieren Empfehlungen, zur Namensgebung nur Items mit Ladungen mit einem Absolutbetrag größer 0,5 oder 0,6 zu verwenden. Gleichzeitig ist zu fordern, dass diese Items auf keiner anderen Komponente bedeutsam laden, also hier nur Werte mit einem Absolutbetrag kleiner 0,3 vorliegen. Der Interpretation liegt ein subjektives Urteil der Anwenderin zugrunde und in manchen Fällen kann das Ladungsmuster durchaus mehrere Interpretationen einer Komponente nahe legen. Es bietet sich deshalb eine externe Validierung der Interpretation an, indem aus der Interpretation Hypothesen abgeleitet und empirisch geprüft werden (Bacher 1996). Im zu Beginn des Abschnitts dargestellten Beispiel von Intelligenztestaufgaben könnte zum Beispiel geprüft werden, inwieweit die beiden Komponenten Zusammenhänge mit den Noten im Fach Deutsch bzw. Mathematik aufweisen. Ist die Benennung korrekt, so sollten sich die entsprechenden Fähigkeiten differenziell auf die Leistung in diesen beiden Fächern auswirken. Wir möchten abschließend auf die Möglichkeit von Faktorenanalysen höherer Ordnung verweisen. Wird eine schiefwinklige Rotation durchgeführt, so ergeben sich Korrelationen zwischen den Faktoren. Diese Faktorkorrelationsmatrix kann wiederum einer Faktorenanalyse unterzogen werden, die als Faktorenanalyse höherer Ordnung bezeichnet wird. Die Faktoren, die aus den manifesten Variablen extrahiert werden, bezeichnet man als Faktoren erster Ordnung. Extrahiert man aus den Faktorinterkorrelation wiederum Faktoren, werden diese als Faktoren zweiter Ordnung bezeichnet usw.
15 Hauptkomponentenanalyse und explorative Faktorenanalyse
347
Man erhält so Faktorladungen von Faktoren niederer Ordnung auf Faktoren höherer Ordnung. Faktorenanalysen höherer Ordnung werden durchgeführt um abstraktere Konstrukte zu identifizieren. Ein Fragebogen mit einer Vielzahl von Persönlichkeitsitems kann beispielsweise zu einer Vielzahl von eng definierten Faktoren erster Ordnung führen, die sich in einer Faktorenanalyse zweiter Ordnung auf eine geringere Anzahl breiterer Persönlichkeitsmerkmale zurückführen lassen. Die Faktoren zweiter Ordnung lassen sich zunächst nur anhand der Faktoren erster Ordnung interpretieren, da nur diese auf den Faktoren zweiter Ordnung laden, während die Beziehung zwischen manifesten Variablen und Faktoren zweiter Ordnung nur indirekt erschließbar ist. Die Beziehungen zwischen Faktoren zweiter Ordnung und manifesten Variablen lassen sich mit Hilfe der Schmid-Leimann Prozedur berechnen (z. B. Wolff & Preising 2005). Die Schmid-Leimann Prozedur eignet sich auch für die Bildung von Skalen mit unterschiedlichem Abstraktionsgrad, zum Beispiel um sowohl Skalen für sehr eng umrissene Persönlichkeitsmerkmale als auch abstrakte, breitere Merkmale zu bilden. Berechnung von Komponentenwerten Viele Analysen werden nach der Interpretation beendet, denn meist stehen die Variablen und die Erklärung der Zusammenhänge im Vordergrund. Es ist jedoch weiterhin möglich, für jedes der Objekte einen Wert bzw. eine Ausprägung auf den Komponenten zu berechnen, sog. Komponentenwerte. Diese lassen sich in vielen Programmen speichern und als Variablen für weitere Analysen verwenden.10 Komponentenwerte lassen sich als Maß für das hypothetische Konstrukt auffassen und stellen somit eine Reduktion einzelner Werte in manifesten Variablen zu einem Wert in diesem Konstrukt dar. In dieser Hinsicht sind sie mit den Summenwerten, die oft für eindimensionale Skalen durch Summierung der einzelnen manifesten Variablen gebildet werden, vergleichbar. Im Vergleich zu einfachen Summenscores sind die Komponentenwerte einerseits genauere Schätzungen für die Ausprägung, die ein Objekt in einem latenten Konstrukt aufweist. Andererseits ermöglichen sie keinen Vergleich von Komponenten sondern geben nur die relative Ausprägung in einer Stichprobe wieder. Es lässt sich auch nicht sagen, ob Komponente 1 für die untersuchte Stichprobe, eine Gruppe oder eine Person wichtiger ist als Komponente 2 (oder umgekehrt), da die Komponentenwerte standardisiert sind. Zusätzlich eignen sich Komponentenwerte weniger gut für die Generalisierbarkeit der Ergebnisse, da sie stichprobenabhängig sind (Grice 2001). Bei der genaueren Messung kann es sich schließlich um Scheingenauigkeit handeln (ebenda). Es ist deshalb abzuwägen, ob Summenscores oder Komponentenwerte die bessere Maßzahl für ein hypothetisches Konstrukt darstellen.
10
Dabei ist zu berücksichtigen, dass die Komponentenwerte, die aus einer unrotierten und einer rotierten Ladungsmatrix berechnet werden, sehr unterschiedlich ausfallen können, da die Ladungen in die Berechnung mit einfließen. Die Information, die in allen Faktorwerten gemeinsam repräsentiert ist, bleibt jedoch konstant (z. B. die multiple Korrelation aller Komponentenwerte mit einer weiteren Variablen).
348
Hans-Georg Wolff und Johann Bacher
1.3 Das Modell mehrerer gemeinsamer Faktoren: Faktorenanalyse im engeren Sinne Wie eingangs bereits erwähnt, zählt die PCA streng genommen nicht zu den Faktorenanalysen, wird aber zumeist mit den Faktorenanalysen gemeinsam behandelt. Der Hauptunterschied zwischen PCA und Faktorenanalyse ist, dass die PCA kein Fehlermodell beinhaltet und alle Komponenten als gleichwertig betrachtet. Es wird davon ausgegangen, dass die gesamte Varianz in den Variablen durch die vollständige Hauptkomponentenlösung erklärbar ist. Diese Grundannahme wird in der eigentlichen Faktorenanalyse (FA) durch das Modell mehrerer gemeinsamer Faktoren ersetzt. Dieses Modell stellt ein Messmodell dar, das davon ausgeht, dass die Variablen nicht beobachtbare, latente Konstrukte erfassen, dass jede Variable für sich jedoch eine fehlerbehaftete Messung darstellt. Hierzu wird postuliert, dass zwei Arten von Faktoren existieren. Zum einen existieren gemeinsame Faktoren, welche die Korrelationen zwischen den Variablen erklären. Nur diese Faktoren sind von inhaltlicher Bedeutung, da sie das latente Konstrukt, das den Variablen gemeinsam ist, abbilden. Zum anderen existieren spezifische Faktoren (engl. unique factors), die eine Reststreuung für eine Variable repräsentieren. Bei dieser Reststreuung handelt es sich um Messfehler und andere Merkmale, die jeweils nur einer einzelnen (spezifischen) Variable zugeordnet werden können. Mit den spezifischen Faktoren wird somit postuliert, dass nicht die gesamte Varianz auf gemeinsame Faktoren zurückführbar ist. Die Zahl der spezifischen Faktoren entspricht der Variablenzahl, die Zahl der gemeinsamen Faktoren ist jedoch unbekannt und muss im Rahmen der Analyse bestimmt werden. Vergleicht man das Modell mehrerer gemeinsamer Faktoren der FA mit der PCA, so liegt der wesentliche Unterschied in der Annahme spezifischer Faktoren. Die PCA postuliert lediglich gemeinsame Faktoren und geht aus der FA hervor, wenn die spezifischen Faktoren auf null restringiert werden (vgl. auch Formeln (1) und (6) in Abschnitt 2). Im Unterschied dazu müssen bei der FA die Streuungsanteile, die auf gemeinsame und spezifische Faktoren zurückgehen, geschätzt werden. Diese Schätzung wird als Kommunalitätenproblem bezeichnet. Die Kommunalität entspricht dem Streuungsanteil einer Variable, der durch die gemeinsamen Faktoren erklärt werden kann. Die Kommunalität ist auf das Intervall von 0 bis 1 normiert und kann als Prozentanteil erklärbarer Varianz interpretiert werden. Der verbleibende restliche Streuungsanteil wird den spezifischen Faktoren zugeschlagen.11 Betrachtet man die Korrelationsmatrix als möglichen Ausgangspunkt von FA und PCA, so liegt der Unterschied zwischen PCA und FA in der Diagonalen der Korrelationsmatrix. In der PCA wird die eigentliche Korrelationsmatrix, in deren Hauptdiagonale Einsen enthalten sind, verwendet. In der FA werden zunächst die Kommunalitäten geschätzt, die Kommunalitäten dann in die Hauptdiagonale der Korrelationsmatrix eingesetzt und diese leicht abgewandelte Matrix verwendet. Die weiteren Schritte der FA sind weitgehend mit denen der PCA identisch. Die Eignung der Korrelationsmatrix, die Bestimmung der Faktorenzahl und die Rotation der Faktoren ändern sich nicht. Es 11
In der PCA werden die Kommunalitäten per Definition auf 1 gesetzt und damit implizit angenommen, dass sich 100 % der Streuung auf gemeinsame Faktoren zurückführen lassen (und gleichzeitig keine Reststreuung für spezifische Faktoren existiert).
15 Hauptkomponentenanalyse und explorative Faktorenanalyse
349
kommt lediglich die Schätzung der Kommunalitäten hinzu, die je nach Schätzmethode vor oder nach der Bestimmung der Faktorenzahl vorzunehmen ist. Ein weiterer Unterschied besteht in der Berechnung von Faktor- und Komponentenwerten. In der PCA können die Komponentenwerte exakt berechnet werden, in der FA können sie nicht eindeutig bestimmt, sondern nur näherungsweise geschätzt werden. Da gemeinsame und spezifische Faktoren berücksichtigt werden müssten, enthalten die entsprechenden Gleichungen mehr unbekannte Parameter als Gleichungen und sind nicht eindeutig lösbar. Zur Schätzung von Faktorwerten in der FA bieten die meisten Statistikprogramme Regressionsschätzungen an. Auch vereinfachende Methoden, die anstelle exakter Schätzungen grobe Gewichtungen vornehmen (z. B. die Bildung der Summe über Variablen, die hoch auf einem Faktor laden) können verwendet werden und eignen sich vermutlich besser für die Generalisierung auf andere Stichproben (Grice 2001). Die Ergebnisse von PCA und FA unterscheiden sich – zumeist – nicht hinsichtlich der Zahl (gemeinsamer) Faktoren bzw. Komponenten. Unterschiede zeigen sich jedoch in den Faktorladungen, die in der FA zumeist geringer ausfallen. Die Unterschiede zwischen FA und PCA sind umso geringer, je höher die Kommunalitäten sind und je mehr Variablen einem Faktor zugeordnet werden können. Die Unterschiede werden auch mit zunehmender Variablenzahl in der Regel geringer. In der Literatur ist es grundsätzlich umstritten, ob die PCA zur Familie der Faktorenanalysen zählt, da sie mangels Fehlermodell streng genommen keine latenten Faktoren identifiziert, sondern lediglich lineare Transformationen der ursprünglichen Variablen berechnet werden (z. B. Fabrigar et al. 1999). Dennoch wird sie insbesondere im deutschen Sprachraum oft als „Faktorenanalyse“ verwendet. Im Rahmen der FA ist allerdings die Kommunalitätenschätzung problematisch und die Güte einer Lösung ist von der Qualität dieser Schätzung abhängig. Die Nähe zwischen FA und PCA zeigt sich dabei auch darin, dass die PCA in einigen Verfahren zur Kommunalitätenschätzung eine wichtige Rolle spielt. Dies gilt insbesondere für Implementierungen in Statistikprogrammen. In SPSS beispielsweise wird die Kommunalitätenschätzung durch eine vorgelagerte PCA durchgeführt, so dass sich oft nur geringe Unterschiede zwischen beiden Verfahren ergeben (siehe dazu Abschnitt 4). Welches Verfahren bevorzugt wird, ist darüber hinaus von den Zielen der Analyse abhängig. In der Literatur wird die PCA übereinstimmend dann empfohlen, wenn die Analyse auf eine reine Datenreduktion oder Orthogonalisierung von Variablen abzielt. Geht man jedoch auf Basis inhaltlicher Überlegungen von der Existenz latenter Konstrukte aus, dann wird von vielen, v. a. englischsprachigen Autoren die FA empfohlen. Die Entscheidung kann auch von fachspezifischen Erwägungen abhängen, so wird zum Beispiel in der deutschen Psychologie und Soziologie häufig die PCA verwendet. Plant man weitergehende, konfirmatorische Faktorenanalysen so bietet sich die FA an, da auch die konfirmatorische Faktorenanalye auf dem Modell mehrerer gemeinsamer Faktoren basiert.
350
Hans-Georg Wolff und Johann Bacher
2 Mathematisch-statistische Grundlagen Sowohl FA als auch PCA gehen davon aus, dass sich die Messwerte von Objekten in den manifesten Variablen auf eine bestimmte Anzahl hypothetischer Konstrukte zurückführen lassen. Hier soll zunächst die Hauptkomponentenanalyse (PCA) beschrieben und im Anschluss das Modell der FA als Erweiterung betrachtet werden. Hauptkomponentenanalyse Die Modellgleichung der PCA lautet: xij = f1i aj1 + f2i aj2 + · · · + fki ajk
(1)
Die linke Seite dieser Gleichung bezeichnet mit xij den zumeist standardisierten Wert x,12 den ein Objekt i in der Variable j aufweist. Dieser Wert in xij lässt sich gemäß der rechten Seite in k Komponenten zerlegen, die jeweils durch das Produkt fki ·ajk gekennzeichnet sind. Fki , der Komponentenwert, charakterisiert den Wert (die Ausprägung) des Objekts i auf Komponente k. Ajk sind die Komponentenladungen, die das Ausmaß, indem Variable j durch Komponente k erklärt werden kann, kennzeichnet. In der rechten Seite der Gleichung wird somit postuliert, dass der Messwert eines Objekts i in Variable j sowohl von Charakteristika des Objekts (Komponentenwert) als auch von Charakteristika der Variablen (Komponentenladung) abhängt. In Matrizenschreibweise lässt sich Gleichung wie folgt ausdrücken: X = FA .
(2)
Wobei X die I × J Matrix der Messwerte der Objekte in den manifesten Variablen, A die K × J Matrix der Komponentenladungen und F die I × K Matrix der Komponentenwerte darstellt. Da diese Gleichung mehr Unbekannte als Gleichungen enthält, ist sie zunächst nicht eindeutig lösbar. Es lässt sich jedoch zeigen, dass die Komponentenladungen unabhängig von den Komponentenwerten aus der Korrelationsmatrix R zwischen den Variablen geschätzt werden können. Dies wird als Fundamentaltheorem der Faktorenanalyse bezeichnet: R = ADA .
(3)
Diese Gleichung lässt sich mit Hilfe der Eigenwertzerlegung lösen, und die Komponentenladungen können entsprechend bestimmt werden. Die hier neu hinzugekommene Matrix D der Ordnung K × K enthält die Korrelationen zwischen den Komponenten und ist nur für Lösungen mit korrelierenden Komponenten von Bedeutung. Im Falle orthogonaler Lösungen handelt es sich um eine Einheitsmatrix,13 die keinen Einfluss auf die Berechnungen hat. Wie wir im Abschnitt über Rotationen erläutern werden, ist Matrix D jedoch für schiefwinklige Rotationen von Bedeutung. 12
13
Standardisierte Variablen werden so linear transformiert, dass ihr Mittel Null und ihre Standabweichung 1 beträgt. Die Einheitsmatrix enthält in der Diagonale Einsen, im Rest Nullen. Sie ist ein neutrales Element, das heißt die Multiplikation einer Matrix A mit der Einheitsmatrix ergibt A.
15 Hauptkomponentenanalyse und explorative Faktorenanalyse
351
Die quadrierten Komponentenladungen stellen ebenso wie quadrierte Korrelationen Varianzanteile dar. Aus ihnen lassen sich die Eigenwerte zurückberechnen, die als Varianzanteil, der durch eine Komponente erklärt wird, interpretierbar sind. Hierzu wird die Summe der quadrierten Komponentenladungen für eine Komponente k berechnet: a2jk (4) λk = j
Dementsprechend lässt sich aus der PCA-Lösung auch im Nachhinein eine Kommunalität berechnen. Die Kommunalität h2j ist definiert als die durch k Komponenten erklärte Varianz in einer Variable und lässt sich ebenfalls als Summe quadrierte Komponentenladungen beschreiben: a2jk (5) h2j = k
Wird die vollständige Komponentenlösung betrachtet, das heißt alle J möglichen Komponenten extrahiert, so ergibt sich für jede Variable eine Kommunalität von h2j = 1. Bei der reduzierten Lösung ergibt sich h2j < 1. Auch wenn sich so in der PCA post hoc die Kommunalität einer Variable bestimmen lässt, sollte diese nicht mit der a priori geschätzten Kommunalität der FA gleichgesetzt werden. Komponentenwerte für die I Objekte lassen sich in der PCA mit Hilfe der Eigenwerte und Komponentenladungen exakt berechnen: F = ZAΛ−1
(6)
Dabei entspricht Matrix F einer I × K Matrix, die für jedes Objekt i Komponentenwerte enthält. Λ ist die K × K Diagonalmatrix der Eigenwerte und Z entspricht der z-standardisierten I × J Matrix der Variablenausprägungen der Objekte. A ist schließlich die J × K Matrix der Faktorladungen. Faktorenanalyse In der FA wird Gleichung (2) um einen weiteren Term erweitert, so dass die Grundgleichung wie folgt lautet: (7) X = FA + U Die neu hinzugekommene Matrix U der Form I × J enthält die spezifischen Anteile der Variablen, die diese nicht mit den anderen Variablen teilt. Gemäß dem Fundamentaltheorem lassen sich auch für die FA die Faktorladungen aus der Korrelationsmatrix berechnen, (8) Rh = (R − U2 ) = ADA , dazu muss jedoch der spezifische Anteil der Variablen in U2 bestimmt werden. Dies geschieht in der Kommunalitätenschätzung, die zumeist iterativ bestimmt werden. In vielen Statistikprogrammen ist folgende iterative Kommunalitätenschätzung implementiert: –
Für die Kommunalitäten werden Startwerte berechnet.
352
Hans-Georg Wolff und Johann Bacher
–
Die Matrix Rh mit den geschätzten Kommunalitäten in der Diagonale wird berechnet und mittels Eigenwertzerlegung faktorisiert. – Auf der Basis der Faktorisierung werden die Kommunalitäten erneut berechnet. Weichen diese von der vorausgehenden Schätzung ab, wird der Rechenvorgang erneut unter Verwendung der neu bestimmten Kommunalitäten durchgeführt.
Die Konvergenz des dargestellten Algorithmus ist nicht bewiesen, das Verfahren hat sich aber bisher in der Praxis bewährt. Einen Überblick über unterschiedliche Möglichkeit zur Berechnung von Startwerten gibt Arminger (1979, S. 41). Ein formal gut begründetes Verfahren ist der Einsatz der quadrierten multiplen Korrelationen. Für jede Variable i wird eine multiple Regression gerechnet, wobei die Variable i die abhängige und alle anderen Variablen j die unabhängigen Variablen sind. Die erklärte Varianz (=quadrierter multipler Korrelationskoeffizient R2 ) für die Variable i wird als Schätzwert für die Kommunalität verwendet. Sie stellt eine untere Schranke für die 2 tatsächliche Kommunalität dar (Arminger 1979, S. 42–43), d. h. es gilt R(i) < h2i . In SPSS und auch in anderen Statistikpogrammen wird zusätzlich zu Beginn die Zahl der Faktoren mittels PCA festgelegt, d. h., die Zahl der Faktoren wird gleich den Hauptkomponenten mit Eigenwerten größer 1 gesetzt. Diese Festlegung ist nicht zwingend notwendig. Die Faktorenzahl könnte auch bei der ersten Faktorisierung der Matrix Rh bestimmt werden. In diesem Fall sind alle Faktoren mit Eigenwerten größer 0 zulässig (Arminger 1979, S. 40). Dies wird als Guttman-Kriterium bezeichnet. Die Faktorwerte können in der FA nicht exakt berechnet werden, sondern müssen geschätzt werden. Eine häufig verwendete Regressionsschätzung im Rahmen der Hauptachsenanalyse ist die ursprünglich von Thurstone entwickelte Schätzung: F = ZR−1 A ,
(9)
wobei R−1 die Inverse der Korrelationsmatrix ist. Bei nicht-orthogonalen Faktoren ist A die Strukturmatrix, also die Matrix der Korrelationen der Variablen mit den Faktoren (Arminger 1979, S. 116). Rotationen Die folgenden Rotationen können meist sowohl für die PCA als auch die FA verwendet werden. Der Einfachheit halber verwenden wir die Termini der FA.14 Die Rotation wird über die Multiplikation der Ladungsmatrix A mit einer Rotationsmatrix T erreicht: AT = V .
(10)
Die Matrix T basiert auf den Rotationswinkeln, deren Cosinus- bzw. Sinuswerte sie enthält. Je nach Rotationsmethode wird dabei eine Rotationsmatrix gesucht, die ein bestimmtes Kriterium optimiert. 14
In der Faktorenanalyse erhalten Variablen durch die Schätzung der Kommunalitäten eine unterschiedliche Gewichtung. Deswegen wird in der Faktorenanalyse bei der Rotation meist eine Kaiser-Normalisierung durchgeführt, indem die Ladungen durch die Kommunalität geteilt werden. Damit wird angenommen, dass alle Variablen durch die Faktoren gleich gut erklärt werden (Arminger 1979, S. 92).
15 Hauptkomponentenanalyse und explorative Faktorenanalyse
353
Für die orthogonale Varimaxrotation sollen die Faktoren so rotiert werden, dass die summierten Varianzen der quadrierten Faktorladungen je Faktor ein Maximum ergibt. Die Varianz der quadrierten Ladungen eines Faktors k ergibt sich mit s2k =
j
a2jk − a2jk J
2
⎛ ⎞2 1 2 2 1 ⎝ 2 ⎠ = (a ) − 2 ajk . J j jk J j
(11)
Die Varianz ist dann maximal wenn die Ladungsquadrate nahe an Null oder am Maximum von 1 liegen, was eine algebraische Formulierung des Einfachstrukturkriteriums für einen Faktor ist. Die Summe dieser Varianzen, s2k (12) k
soll im Rahmen der Varimaxmethode maximiert werden. Bei schiefwinkliger Rotation wird die bisher vernachlässigte Faktorkorrelationsmatrix D relevant (vgl. Formeln (3) und (8)). Sie ist im Falle orthogonaler Faktoren eine Einheitsmatrix, bei schiefwinkligen Rotationen enthält sie die Korrelationen der Faktoren untereinander. Liegen korrelierende Faktoren vor, so muss zwischen Mustermatrix und Strukturmatrix differenziert werden. Die Mustermatrix entspricht dabei der Faktorladungsmatrix A. Allerdings lassen sich die Ladungen der Mustermatrix nun nicht mehr als Korrelation zwischen Faktor und Variable auffassen. Vielmehr stellen sie den direkten Effekt eines Faktors dar. Weil die Faktoren korreliert sind, existieren jedoch zusätzlich indirekte Effekte. Die Korrelation zwischen Variable und Faktor ergibt sich aus der Summe der direkten und indirekten Effekte, die dem Produkt der Mustermatrix A mit der Faktorkorrelationsmatrix D entsprechen. Diese Matrix wird als Strukturmatrix S bezeichnet und soll hier anhand eines Zahlenbeispiels diskutiert werden. S = AD . (13) ⎡ ⎤ ⎡ ⎤ 0,88 0,37 0,85 0,11 ⎢0,91 0,19⎥ ⎢ 0,94 −0,10⎥ ⎢ ⎥=⎢ ⎥ · 1 0,31 (14) ⎣0,27 0,89⎦ ⎣−0,01 0,89 ⎦ 0,31 1 0,28 0,89 0 0,89 Das hier angeführte Beispiel zeigt, dass sich die Koeffizienten der Muster- und Strukturmatrix durchaus unterscheiden können. Für das Element A41 der Mustermatrix ergibt sich eine Ladung von Null, das bedeutet, dass kein direkter Effekt von Faktor 1 auf Variable 4 vorliegt. Das entsprechende Element der Strukturmatrix, S41 beträgt 0,28. Darin zeigt sich, dass ein indirekter Zusammenhang zwischen Variable 4 und Faktor 1 besteht, weil diese Variable auf Faktor 2 lädt und dieser wiederum mit Faktor 1 korreliert ist. Die schiefwinklige Promaxrotation basiert auf einem zweistufigen Verfahren. Im ersten Schritt wird eine orthogonale Varimaxrotation berechnet, die dann in einem zweiten Schritt durch das Zulassen von Korrelationen zwischen den Faktoren im Sinne einer Einfachstruktur weiter optimiert wird. Die Optimierung geschieht durch
354
Hans-Georg Wolff und Johann Bacher
eine Zielrotation (Procustestransformation) auf die potenzierten Varimaxladungen. Die Potenzierung wird mit dem Parameter κ gesteuert. Ist κ = 2, so werden die Varimaxladungen quadriert,15 für κ = 3 wird die dritte Potenz der Ladungen berechnet. Durch die Potenzierung werden hohe Ladungen stärker gewichtet als geringe Ladungen. Mit einer Zielrotation wird dann die ursprüngliche Varimaxlösung so gut wie möglich an die Zielmatrix mit potenzierten Ladungen angenähert, wobei Korrelationen zwischen den Faktoren zugelassen werden. Je höher der Parameter κ gewählt wird, desto höhere Faktorkorrelation ergeben sich. Die Promaxrotation stellt somit den Versuch einer Verbesserung der orthogonalen Varimaxrotation dar. Die beiden Lösungen sind daher oftmals ähnlich. Die ebenfalls schiefwinklige Obliminrotation verwendet folgendes Kriterium, das in diesem Falle minimiert wird: ⎛ ⎞ δ ⎝ B= a2jk a2jk − a2jk a2jk ⎠ , mit k = k (15) J j j j k
k
Die Gewichtung des zweiten Terms wird durch den Parameter δ gesteuert. Eine stärkere Gewichtung dieses Termes durch höheres δ führt zu höheren Korrelationen zwischen den Faktoren. Bei δ = 0 wird der zweite Term nicht berücksichtigt, für Werte von δ < −4 ergeben sich annähernd orthogonale Lösungen.
3 Ein Anwendungsbeispiel: Vertrauen in Institutionen Dieser Abschnitt zieht ein Datenbeispiel aus dem ALLBUS heran, um die Anwendung der Faktorenanalyse darzustellen. Ziel ist zunächst die Bestimmung der dimensionalen Struktur. Verwendet werden hierfür 11 Items zum Vertrauen in Institutionen, die im Jahr 2002 erhoben wurden. Für 2400 Personen liegen vollständige Werte vor. Die Personen wurden gefragt, wie groß ihr Vertrauen in die jeweilige Institution ist und konnten ihre Antwort auf einer siebenstufigen Likert-Skala angeben. Tabelle 9 auf Seite 364 im Anhang enthält Mittelwerte, Standardabweichung und Korrelationen für die 11 Items. Der Bartlett-Test, ob die Korrelationsmatrix aus Zufallsdaten entstanden sein könnte, ist signifikant und zeigt damit an, dass die Korrelationsmatrix nicht nur zufällige sondern auch systematische Streuung enthält und eine Faktorenanalyse möglich ist (χ2 = 8265,6; df = 55; p <. 01). Auch das Kaiser-Meyer Olkin Kriterium mit einem befriedigendem Wert von KMO = 0,79 weist auf die Eignung der Korrelationsmatrix hin. Wir führen zunächst eine Hauptkomponentenanalyse durch und erhalten die in Tabelle 3 dargestellten Eigenwerte, anhand derer zunächst die Komponentenzahl zu bestimmen ist. Bei 11 Variablen können maximal 11 Eigenwerte und die dazugehörigen Komponenten bestimmt werden. In Tabelle 3 ist ebenfalls die durch die jeweilige Komponente erklärte Varianz sowie die durch eine bestimmte Komponentenzahl kumulierte erklärte Varianz dargestellt. Die erklärte Varianz wird berechnet, indem 15
Bei geraden Potenzen werden die Vorzeichen beibehalten.
15 Hauptkomponentenanalyse und explorative Faktorenanalyse
355
Tab. 3: Eigenwerte aus PCA und Ergebnisse der Parallelanalyse für die Items zum Vertrauen in Institutionen Ergebnisse der Parallelanalyse Komponente 1 2 3 4 5 6 7 8 9 10 11
Eigenwert
% erklärte Varianz
% kumulierte erklärte Varianz
Mittlerer Eigenwert
P95
3,92 1,45 1,32 0,79 0,77 0,67 0,62 0,50 0,35 0,33 0,29
35,6 13,1 12,0 7,2 7,0 6,1 5,6 4,6 3,2 3,0 2,7
35,6 48,7 60,7 67,9 75,0 81,0 86,6 91,2 94,3 97,3 100,0
1,11 1,08 1,06 1,04 1,02 1,00 0,98 0,96 0,94 0,92 0,90
1,14 1,10 1,07 1,05 1,03 1,01 1,00 0,98 0,96 0,94 0,92
Anmerkungen: N = 2400; P95 = Perzentil 95 Für die Parallelanalyse wurden Eigenwerte aus 1000 Zufallsdatensätzen erzeugt.
der jeweilige Eigenwert einer Komponente durch die Summe der Eigenwerte geteilt wird. Der Wert von 35,6 % für die erste Komponente ergibt sich also durch Division des Eigenwertes von 3,92 mit der Variablenzahl von 11. An den Eigenwerten erkennt man die sukzessive Varianzmaximierung bei der Komponentenextraktion, denn die durch eine Komponente erklärte Varianz nimmt für jede weitere Komponente ab. Die letzten Komponenten erklären nur wenig Varianz und könnten im Sinne der Datenreduktion fallen gelassen werden. Wie viele Komponenten sollten extrahiert werden? Nach dem Kaiser-Kriterium sind Komponenten mit Eigenwerten größer 1 (λ > 1) zu berücksichtigen. Es wird hier also eine dreidimensionale Lösung nahegelegt. Der Scree-Plot (Abbildung 7 a) ist nicht ganz eindeutig. Hier zeigen sich zwei Knicke, nach einer und nach drei Komponenten. Nach der Empfehlung von Cattell & Vogelmann (1977) sollte der höhere Knick beachtet werden, der für die Extraktion einer Komponente spricht. Es wurde außerdem eine Parallelanalyse durchgeführt. Für diese wurden 1000 Zufallsdatensätze erzeugt und die entsprechenden Eigenwerte berechnet. In Tabelle 3 sind die Mittelwerte und das Perzentil P95 der Eigenwerteverteilung der Zufallsdatensätze dargestellt und in Abbildung 7 b wurde P95 in den Screeplot mit eingezeichnet. Vergleicht man die empirischen Eigenwerte mit P95 der Zufallsdateneigenwerte, so liegen die ersten drei empirischen Eigenwerte über denen der Zufallsdaten. Gemäß Parallelanalyse wäre somit ebenfalls eine dreidimensionale Lösung angemessen. Da sich in allen Kriterien Hinweise auf eine dreifaktorielle Lösung ergeben, soll diese zunächst näher betrachtet werden, auch um die Gefahr einer Unterextraktion (vgl. Abschnitt 4) zu vermeiden. Die Variablen lassen sich im Wesentlichen durch drei Komponenten erklären, mit denen gut 61 % der Gesamtvarianz erklärbar sind.
356
Hans-Georg Wolff und Johann Bacher
(a) Scree-Plot
(b) Parallelanalyse
Abb. 7: Scree-Plot und Parallelanalyse der Items zum Vertrauen Für eine erste Inspektion der Daten ziehen wir auch die unrotierten Faktorladungen heran (vgl. Tabelle 4) und prüfen insbesondere, ob der erste Faktor inhaltlich sinnvoll interpretierbar ist. Es zeigt sich, dass alle 11 Variablen hohe Ladungen auf dem ersten unrotierten Faktor besitzen. Dies deutet darauf hin, dass den Variablen insgesamt eine Gemeinsamkeit zugrunde liegt. Dabei könnte es sich um eine allgemeine Vertrauensdisposition handeln. Die anderen Faktoren sind inhaltlich nicht interpretierbar, da noch keine Rotation durchgeführt wurde. Die Faktoren lassen aber in manchen Fällen Differenzierungen erkennen. So bilden die beiden „Kirchen“-Variablen eine Gruppe mit hohen Ladungen auf Komponente 2, die sich offensichtlich von Fernsehen und Zeitung, die hier negative Ladungen aufweisen unterscheiden. Tabelle 3 enthält auch die Kommunalitäten der Variablen, die hier nicht wie in der FA geschätzt, sondern aus den Quadratsummen der Ladungen nachträglich berechnet wurden. Für die meisten Variablen kann mit der dreidimensionalen Lösung mehr als 50 % der Streuung erklärt werden. Ausnahmen sind die Variablen Gesundheitssystem, Hochschulen und Polizei. Sie weisen offenbar besondere Charakteristika auf, die in der Lösung weniger gut repräsentiert sind. Da mehr als eine Komponente extrahiert wurde, kann eine Rotation der Komponenten erfolgen, die eine bessere inhaltliche Interpretation erlauben sollte. Wir haben zunächst eine orthogonale Varimax-Rotation durchgeführt (vgl. Tabelle 5). Wir betrachten dabei nur Ladungen mit ajk > 0,30 um zu prüfen, ob sich eine Einfachstruktur ergibt, das heißt ob jede Variable auf nur einer Komponente hohe Ladungen besitzt. Dies ist für 10 der 11 Variablen der Fall und die Annahme der Einfachstruktur ist somit gut erfüllt. Lediglich die Variable „Hochschulen“ besitzt keine Einfachstruktur, da sie auf den Komponenten 1 und 2 hohe Ladungen besitzt. Eine Interpretation der Komponenten anhand der rotierten Ladungen ist nun möglich: Auf Komponente 1 laden diejenigen Variablen, die staatliche Institutionen repräsentieren, wie etwa Bundesverfassungsgericht, Bundestag oder Polizei. Auf den beiden anderen Komponenten laden Variablen, die nichtstaatliche Institutionen betreffen, die Medien (Komponente
15 Hauptkomponentenanalyse und explorative Faktorenanalyse
357
Tab. 4: Unrotierte Ladungsmatrix aus einer PCA 1 1) 2) 3) 4) 5) 6) 7) 8) 9) 10) 11)
Gesundheitswesen Bundesverfassungsgericht Bundestag Kath. Kirche Ev. Kirche Justiz Fernsehen Zeitungswesen Hochschulen Bundesregierung Polizei
2
3
−0,19 0,06 0,15 0,66 0,65 −0,03 −0,46 −0,46 −0,32 −0,03 −0,03
0,51 0,61 0,74 0,50 0,51 0,69 0,51 0,52 0,55 0,71 0,64
−0,14 −0,45 −0,25 0,38 0,40 −0,25 0,56 0,54 −0,04 −0,22 −0,14
h2 0,32 0,58 0,63 0,83 0,84 0,54 0,79 0,77 0,41 0,55 0,43
Tab. 5: Varimaxrotierte Ladungsmatrix (PCA) 1 1) 2) 3) 4) 5) 6) 7) 8) 9) 10) 11)
Gesundheitswesen Bundesverfassungsgericht Bundestag Kath. Kirche Ev. Kirche Justiz Fernsehen Zeitungswesen Hochschulen Bundesregierung Polizei
0,51 0,75 0,74 0,16 0,16 0,71 0,13 0,15 0,49 0,71 0,60
2 0,24 −0,08 0,05 0,06 0,09 0,14 0,87 0,86 0,40 0,17 0,19
3 −0,02 0,07 0,28 0,90 0,90 0,13 0,10 0,09 −0,06 0,15 0,15
2) und die Kirchen (Komponente 3). Zur Benennung der Komponenten bieten sich daher die Begriffe staatliche Institutionen, Medien und Kirche an. Diese Benennung der Komponenten wird der Mehrheit der Ladungen gerecht. Einige Variablen scheinen jedoch nicht in diese Interpretation zu passen. Die Variable Gesundheitswesen scheint auf den ersten Blick nur bedingt zu Komponente 1, staatliche Institutionen, zu passen. Allerdings wird diese Institution stark reglementiert und es besteht Versicherungspflicht, so dass dieses Item vermutlich deshalb dieser Komponente zugeordnet wird. Dies gilt auch für die Hochschulen, allerdings kommt hier eine hohe Ladung auf Komponente 2 hinzu, die sie auch in die Nähe der Medien rückt. Tabelle 6 enthält die Ladungsmatrix (Mustermatrix) nach zwei schiefwinkligen Rotationen, einer Promaxrotation (κ = 4) und einer Obliminrotation (δ = 0). Beide Ladungsmuster sind dem der Varimaxrotation sehr ähnlich. Die schiefwinkligen Lösungen erlauben allerdings eine bessere Approximation an eine Einfachstruktur. Daher fallen im Vergleich zur Varimaxrotation hohe Ladungen hier tendenziell etwas höher und geringe Ladungen etwas niedriger aus. Die Interpretation der Komponenten bleibt jedoch
358
Hans-Georg Wolff und Johann Bacher
Tab. 6: Faktorladungsmatrix (Mustermatrix) bei schiefwinkeliger Rotation und Komponenteninterkorrelationen Promaxrotation (κ = 4) 1 1) 2) 3) 4) 5) 6) 7) 8) 9) 10) 11)
Gesundheitswesen Bundesverfassungsgericht Bundestag Kath. Kirche Ev. Kirche Justiz Fernsehen Zeitungswesen Hochschulen Bundesregierung Polizei
Faktorinterkorrelationen 1 2 3
2
0,51 0,82 0,75 0,01 0,00 0,73 −0,03 −0,01 0,47 0,72 0,60
0,16 −0,22 −0,09 0,01 0,04 0,02 0,89 0,88 0,34 0,05 0,09
1 0,35 0,32
1 0,15
Oblimin-Rotation (δ = 0) 3
−0,11 −0,05 0,17 0,91 0,91 0,01 0,05 0,04 −0,16 0,03 0,06
1
1
2
0,51 0,8 0,75 0,04 0,04 0,72 −0,01 0,01 0,47 0,72 0,60
0,15 −0,22 −0,09 0,04 0,06 0,01 0,88 0,87 0,33 0,04 0,09
1 0,25 0,32
1 0,08
3 −0,09 −0,03 0,19 0,90 0,90 0,04 0,07 0,06 −0,13 0,06 0,08
1
die Gleiche, auch die einzige Abweichung von der Einfachstruktur, die Doppelladung des Items Hochschulen, bleibt bestehen. Die Korrelationen zwischen den Komponenten sind ebenfalls in Tabelle 6 dargestellt. Die positiven Korrelationen zeigen, dass den Komponenten – und damit indirekt den Items – etwas Gemeinsames zugrunde liegt. Möglicherweise existiert eine allgemeine Tendenz, allen hier verwendeten Institutionen Vertrauen entgegen zu bringen. Für die Daten wurde ebenfalls eine Faktorenanalyse durchgeführt. Dabei wird angenommen, dass sich die Zusammenhänge zwischen den Variablen zwar auf die gemeinsamen Faktoren zurückführen lassen, dass die Variablen jedoch messfehlerbehaftet sind und möglicherweise andere spezifische Aspekte erfassen. So könnte das Ausmaß an Vertrauen in die beiden erfassten Konfessionen auch von der individuellen Religionszugehörigkeit oder Einstellung zur Religion beeinflusst werden. Geht man davon aus, dass solche Einflüsse vorliegen und die zugrunde liegenden Faktoren latente Konstrukte darstellen, so ist die FA das angemessenere Modell. Das Ergebnis der FA ist in Tabelle 7 dargestellt. Da die Kriterien zur Bestimmung der Faktorenzahl meist über eine PCA und deren Eigenwerte ermittelt werden, sind die entsprechenden Kennwerte zur Bestimmung der Faktorzahl identisch zu denen der PCA. Es erscheint auch hier die dreifaktorielle Lösung angemessen. Tabelle 7 enthält die Kommunalitäten, die in der FA geschätzt wurden. Für drei Variablen liegen Kommunalitäten h2 < 0,40 vor, Gesundheitswesen, Hochschulen und Polizei. Erfahrungswerte besagen, dass FA und PCA zu ähnlichen Ergebnissen führen, wenn die Kommunalitäten nicht zu niedrig
15 Hauptkomponentenanalyse und explorative Faktorenanalyse
359
Tab. 7: Vertrauen in Institutionen, Varimaxrotierte Faktorladungsmatrix (FA)
1) 2) 3) 4) 5) 6) 7) 8) 9) 10) 11)
Gesundheitswesen Bundesverfassungsgericht Bundestag Kath. Kirche Ev. Kirche Justiz Fernsehen Zeitungswesen Hochschulen Bundesregierung Polizei
1
2
0,42 0,64 0,71 0,18 0,18 0,64 0,17 0,19 0,43 0,66 0,53
0,05 0,08 0,24 0,82 0,81 0,13 0,08 0,08 0,02 0,14 0,15
3 0,19 −0,01 0,08 0,07 0,09 0,15 0,78 0,77 0,30 0,17 0,18
h2 0,21 0,42 0,57 0,70 0,70 0,45 0,64 0,63 0,27 0,49 0,33
liegen.16 Dies wird hier bestätigt, da das Ladungsmuster und die Interpretation der Faktoren gleichbleiben. Lediglich die Faktoren 2 und 3 sind im Vergleich zu Tabelle 5 vertauscht. Im Vergleich zur Hauptkomponentenanalyse fallen die substanziellen, zur Interpretation herangezogenen Ladungen etwas kleiner aus. Wir haben abschließend für die PCA mit Varimaxrotation Faktorwerte nach Gleichung (7) ermittelt und in Tabelle 8 die entsprechenden Faktorwerte für drei Befragte im Datensatz dargestellt, sowie die jeweiligen deskriptiven Statistiken. Person 1 besitzt beispielsweise ein hohes Vertrauen in staatliche Institutionen und die Medien und ein geringes Vertrauen in die kirchlichen Institutionen. Das entsprechende Muster findet sich auch in den ursprünglichen manifesten Variablen wieder. Ihr Vertrauen in die evangelische und katholische Kirche hat diese Person auf der siebenstufigen Likert-Skala mit „2“, d. h. eher gering beurteilt, während andere Institutionen durchweg höher beurteilt wurden. Zum Vergleich wurden auch mittlere Gesamtpunktwerte für die jeweils auf einem Faktor ladenden Variablen berechnet. Dabei wurde die Variable „Hochschule“ jeweils zur Hälfte dem Faktor „staatliche Institutionen“ und dem Faktor „Medien“ zugerechnet. Der Gesamtpunktwert für staatliche Institutionen ergibt sich beispielsweise durch Mittelung der Werte in den Variablen Gesundheitswesen, Bundesverfassungsgericht, Bundestag, Justiz, Hochschulen (gewichtet mit 0,5), Bundesregierung und Polizei. An diesem Beispiel kann nochmals der Unterschied zwischen diesen beiden Techniken verdeutlicht werden: Die Faktorwerte der Person 2 in den beiden ersten Faktoren sind mit −0,11 und −0,12 fast identisch. Die Interpretation, dass bei der Person 2 das Vertrauen in staatliche Institutionen und in Medien gleich ist, ist aber nicht zulässig, da die Faktorwerte standardisiert sind. Die mittleren Gesamtpunktwerte (Summenscores) ermöglichen dagegen einen Vergleich. Da für den Faktor „Institutionen“ der Mittelwert von 4,23 größer als jener von 3,80 für den Faktor „Medien“ ist, liegt ein höheres Vertrauen in staatliche Institutionen vor. Analog ist ein Vergleich von 16
Fabrigar et al. (1999) geben als Erfahrungswert, ab dem sie Kommunalitäten als niedrig betrachten, h2 = 0,40 an.
360
Hans-Georg Wolff und Johann Bacher
Tab. 8: z-standardisierte Faktorwerte und mittlere Gesamtpunktwerte aus PCA mit Varimaxrotation für drei Personen im Datensatz Faktorwerte
Mittlere Gesamtpunktwerte
Identifikationsnummer
1 Staatl.
2 Medien
3 Kirche
1 Staatl.
2 Medien
3 Kirche
1 2 3 ... Mittelwert Standardabweichung
0,79 −0,11 −0,39
1,16 −0,12 2,35
−1,06 0,44 −0,84
5,08 4,23 4,15
5,20 3,80 6,40
2,00 4,00 2,00
0,00 1,00
0,00 1,00
0,00 1,00
4,30 0,96
3,84 1,11
3,24 1,66
Verteilungskennwerten von Gruppen oder der Gesamtstichprobe nicht zulässig. Nur relative Aussagen sind möglich. Daher ist auch eine Generalisierung der Ergebnisse auf Basis der Faktorenanalyse schwierig, da die Werte stichprobenabhängig sind. Diese Unterschiede sind nur für deskriptive Zwecke relevant. Faktorwerte und (mittlere) Gesamtpunktwerte korrelieren i. d. R. deutlich über 0,90, so dass für korrelative und kausale Analysen die Frage, welche der beiden Konzepte verwendet werden soll, unbedeutend ist.
4 Probleme und Erweiterungen Die Faktorenanalyse ist ein komplexes Verfahren, das aufgrund subjektiver Entscheidungen des Nutzers (Faktorenzahl, Analysemethode, Interpretation der Faktoren) zu Fehlern führen kann. Einige Vor- und Nachteile verschiedener Vorgehensweisen wurden bereits in den vorigen Abschnitten diskutiert. Dieser Abschnitt diskutiert weitere Probleme und gibt Empfehlungen zur Vermeidung derselben. Der größte Fehler ist die blinde Verwendung der Voreinstellungen der meisten Statistikpakete. Meist handelt es sich um die PCA mit anschließender Varimaxrotation, wobei nach dem Kaiser-Kriterium alle Faktoren mit Eigenwerten größer 1 beibehalten werden. Grundsätzlich gilt, dass dies nicht die optimale Wahl sein muss und mit einer bewusst getroffenen Wahl von Optionen und gegebenenfalls der Berechnung unterschiedlicher Lösungen eine Vielzahl von Problemen und Fehlern vermieden werden kann. Eine wichtige Frage ist, wie groß die Stichprobengröße für eine Faktorenanalyse sein sollte. Um in einer Stichprobe eine Lösung zu erhalten, die der zugrunde liegenden Lösung in der Population entspricht, muss sowohl die Zahl der extrahierten Faktoren als auch die Interpretation der Faktoren korrekt sein. Studien (MacCallum et al. 2001) zeigen, dass Empfehlungen für eine minimale Stichprobengröße nicht mit allgemeinen Faustregeln aufgestellt werden können. Die erforderliche Stichprobengröße steigt mit a) geringeren Kommunalitäten, b) steigender Zahl der Faktoren und c) sinkender Zahl
15 Hauptkomponentenanalyse und explorative Faktorenanalyse
361
der Variablen, die einen Faktor bestimmen. Diese Aspekte sollten bei der Planung einer Untersuchung und der Festlegung der Stichprobengröße unbedingt berücksichtigt werden. Einige Empfehlungen finden sich in einer Studie von Mundfrom et al. (2005). Die Autoren berichten, dass in günstigen Fällen, etwa bei hohen Kommunalitäten (h2 > 0,6) und drei Populationsfaktoren, die durch je sieben Variablen erfasst werden, eine Stichprobe von N = 75 Personen ausreichend ist. Bei niedrigen Kommunalitäten (h2 < 0,40) und drei Faktoren, die durch drei Variablen erfasst werden, wird hingegen eine Stichprobe von N = 1700 empfohlen. Die Variablen für die Analyse sollten sorgfältig zusammengestellt werden. Bei einer schlechten Variablenauswahl kommt das „garbage in – garbage out“-Prinzip zum Tragen, das heißt, dass eine schlechte Auswahl die Interpretation der Ergebnisse erschweren oder verfälschen kann. Da Faktoren die Zusammenhänge zwischen den Variablen abbilden, ist die Identifikation eines Faktors auch daran gebunden, dass mehrere Variablen ähnliches erfassen. Werden wichtige Dimensionen nicht in den Items abgebildet, so kann die Faktorenanalyse keine entsprechenden Faktoren identifizieren. Beispielsweise kann unser Anwendungsbeispiel nicht belegen, dass Vertrauen dreidimensional ist. Man könnte sich z. B. fragen, ob das Vertrauen in weitere Nicht-Regierungsorganisationen einen vierten Faktor bildet. Bei der Anwendung sollte auch überlegt werden, inwieweit die verwendeten Variablen jeweils nur einen Faktor erfassen und somit unidimensional sind. Die Variablen könnten auch mehrere Teilaspekte unterscheiden und Multidimensionalität aufweisen (Wolff & Bacher 2008). Ein Beispiel für Multidimensionalität beschreibt Jäger (1982) im Bereich der Intelligenzdiagnostik. Die vom Autor verwendeten Items ließen sich auf theoretischer Ebene sowohl nach Aufgabeninhalten als auch nach erforderlichen Operationen zur Lösung der Aufgaben klassifizieren. In Faktorenanalysen war meist nur jeweils eine dieser Strukturierungen oder Mischungen erkennbar. Multidimensionalität kann dazu führen, dass die Faktorladungen von der Einfachstruktur abweichen und eine Interpretation der Faktoren schwer oder sogar unmöglich ist. Auch die Faktorenzahl kann schwer bestimmbar sein. Wenn Multidimensionalität naheliegt, bietet sich alternativ zur Faktorenanalyse die multidimensionale Skalierung an (siehe auch Kapitel 17 in diesem Handbuch). Bei Annahmen über die Ursachen der Multidimensionalität können auch dimensionshomogene Item-Parcels gebildet und einer Faktorenanalyse unterzogen werden. Die Faktorenanalyse wird heute oftmals zur Analyse von dichotomen oder ordinalskalierten Items eingesetzt, was zu Problemen führen kann (vgl. Gorsuch 1997). Dies kann zu Schwierigkeitsartefakten führen (z. B. Bernstein & Teng 1989).17 Stark variierende Itemschwierigkeiten verzerren die Korrelationen systematisch. Bei Items mit sehr unterschiedlichen Schwierigkeiten fällt die Korrelation niedriger aus (z. B. die Korrelation zwischen einem sehr schweren und einem sehr leichten Item). Die Korrelationen zwischen Items mit ähnlicher Schwierigkeit sind davon nicht betroffen. Dies kann dazu führen, dass ein Faktor identifiziert wird, dessen Ladungen hoch mit der Itemschwierigkeit korrelieren. Auch Guttman hat bereits 1954 (zit. in Bacher 1996, 17
Schwierigkeitsartefakte können prinzipiell auch bei intervallskalierten Variablen auftreten. Sie treten jedoch eher bei Items mit wenigen Antwortkategorien auf.
362
Hans-Georg Wolff und Johann Bacher
S. 127) darauf hingewiesen, dass bei der Analyse von Einstellungsskalen, die einer Guttman-Skala entsprechen, oft vier Faktoren extrahiert werden können, von denen nur der erste (unrotierte) Faktor die Einstellung selbst repräsentiert. Die Frage, ob dieser Faktor eine inhaltliche Bedeutung besitzt oder ein reines Artefakt der Messung darstellt, ist nur sehr schwer zu beantworten. Es sollte daher im Rahmen der Analyse untersucht werden, inwieweit die Ladungen der unrotierten Faktoren schwierigkeitsabhängig sind, z. B. in dem man für einen Faktor die Korrelation zwischen Itemschwierigkeiten und Faktorladungen berechnet (vgl. auch Bacher 1996, S. 126–132). Anzumerken ist, dass die Schwierigkeitsartefakte aber nur in „extremen“ Situationen auftreten, insbesondere wenn die Variablen dichotom sind, sehr unterschiedliche Schwierigkeitsgrade haben und die Zieldimension sehr gut messen (Bacher 1996, S. 126–132). Es gibt mehrere Vorschläge zum Umgang mit Schwierigkeitsartefakten. Eine Möglichkeit besteht in der Verwendung anderer Korrelationskoeffizienten, die entsprechende Korrekturen vornehmen. Hierfür werden z. B. tetra- oder polychorische Korrelationskoeffizienten empfohlen, die allerdings andere Probleme mit sich bringen können (z. B. Gorsuch 1983). Eine weitere Möglichkeit besteht in der Bildung von so genannten ItemParcels oder Miniskalen (Gorsuch 1997). Darunter wird die Bildung neuer Variablen aus Gruppen von zwei bis 4 Items verstanden, die dann einer Faktorenanalyse unterzogen werden. Die Verteilungseigenschaften der Parcels sollten eher den Anforderungen der Faktorenanalyse genügen. Als alternative Verfahren bieten sich für nominale und ordinale Daten auch modernere Analyseverfahren an, insbesondere die nichtmetrische PCA (siehe z. B. Kapitel 16 in diesem Handbuch). Kann Eindimensionalität angenommen werden, so ist auch der Einsatz von Item-Response-Modellen möglich. Die Faktorenanalyse setzt voraus, dass der Befragte jedes Item unabhängig von den anderen Items beantworten kann. Bei einer Präferenzordnung oder Rangfolge ist dies nicht der Fall. Wurde ein Item auf Rang Eins plaziert, müssen die anderen Items einen anderen Rangplatz haben. Dadurch entstehen automatisch Abhängigkeiten. Die Faktoranalyse ist in diesem Fall nicht mehr zum Aufdecken der zugrunde liegenden dimensionalen Struktur geeignet (Bacher 1987). Ein weiterer Punkt, an dem Probleme auftreten können, ist die Bestimmung der Faktorenzahl. Viele Programme verwenden per Voreinstellung das Kaiser-Kriterium, da es im Rahmen der Berechnung eindeutig bestimmbar ist. Wir empfehlen die Verwendung mehrerer Kriterien; insbesondere sollte eine Parallelanalyse durchgeführt werden. Es lohnt sich ebenfalls, mehrere Lösungen zu betrachten, die von den unterschiedlichen Kriterien nahegelegt werden. Aufgrund des subjektiven Urteils besteht dennoch die Gefahr der Extraktion zu vieler (Überextraktion) oder zu weniger Faktoren (Unterextraktion). Simulationsstudien (z. B. Wood et al. 1996) kommen zu dem Urteil, dass insbesondere eine Unterextraktion vermieden werden sollte, da in diesem Fall die Faktorladungen stark von den Populationswerten abweichen und somit eine Fehlinterpretation wahrscheinlicher ist. Im Falle einer Überextraktion finden sich oftmals nur sehr geringe Ladungen auf den zu viel extrahierten, bedeutungslosen Faktoren. Es kann auch zu Faktorspaltungen kommen, das heißt Variablen, die eigentlich auf einem Faktor laden, werden auf zwei Faktoren abgebildet. Diese Gefahr ist besonders bei einfaktoriellen Lösungen groß. So bleibt auch in unserem Anwendungsbeispiel in
15 Hauptkomponentenanalyse und explorative Faktorenanalyse
363
Abschnitt 3 offen, ob nicht doch die vom Scree-Plot favorisierte einfaktorielle Lösung angemessener ist. Wood et al. (1996) empfehlen, neben einer genauen Inspektion der Lösung, die Wiederholung der Analyse mit zusätzlichen Zufallsvariablen, da diese nicht auf inhaltlich bedeutsamen Faktoren laden sollten. Auch eine Kreuzvalidierung wäre sinnvoll. Neben der rotierten Lösung empfiehlt es sich ebenfalls, die unrotierte Lösung zu betrachten. Dabei können gegebenenfalls Schwierigkeitsartefakte identifiziert werden. Auch wenn in dieser Lösung zumeist nur der erste Faktor inhaltlich interpretierbar ist, so zeigen Ladungen der unrotierten Lösung, bei der die Faktoren sukzessive varianzmaximierend extrahiert wurden, zwischen welchen Variablen die varianzstärksten Unterschiede auftreten. Liegen keine inhaltlich Gründe vor, die für eine orthogonale Rotation sprechen, wird in Anlehnung an Gorsuch (1983) empfohlen, eine schiefwinklige Rotation durchzuführen und bei geringen Korrelationen zwischen den Faktoren eine orthogonale Rotationsmethode zu wählen. Liegt keine Einfachstruktur vor, so kann dies ein Hinweis auf Multidimensionalität der Variablen sein. Im Anschluss an eine Interpretation und Benennung der Faktoren sollte darüber hinaus die Validität dieser Interpretation geprüft werden. Die Kreuzvalidierung, das heißt die Replikation der Faktorstruktur in einer weiteren Stichprobe ist dabei zu empfehlen. Bei großen Stichproben ist auch eine zufällige Aufteilung der Probanden in zwei Stichproben möglich. Die Validität sollte zudem durch die Formulierung von empirisch prüfbaren Hypothesen, in denen ein Zusammenhang der Faktoren mit externen Variablen spezifiziert wird, geprüft werden. Hierdurch können alternative Faktorinterpretationen, z. B. als Schwierigkeitsartefakt oder als Faktor, der durch gleiche Itemformulierung (Verneinung, bestimmte Begriffe) bedingt ist, ausgeschlossen werden.
5 Literaturempfehlungen Die mathematischen Grundlagen von Hauptkomponentenanalyse und Faktorenanalyse werden in Überla (1971) ausführlich auf Deutsch beschrieben. Gorsuch (1983) bietet einen umfassenden Einblick in englischer Sprache. Etwas umfassender sind die Bücher von Loehlin (2004) und Bacher (1996). Sie betten die Faktorenanalyse in einen größeren Rahmen ein und beschreiben darüber hinaus weitere Verfahren, z. B. konfirmatorische Faktorenanalysen und Clusteranalysen. Einen Überblick über die Anwendung der Faktorenanalyse liefern Fabrigar et al. (1999). Eine Vielzahl von Einzelstudien – z. B. zu Extraktionsmethoden, Stichprobengrößen, Analyse dichotomer Items – finden sich in unterschiedlichen Fachzeitschriften, z. B. Multivariate Behavioral Research oder Psychological Methods.
364
Hans-Georg Wolff und Johann Bacher
Anhang
Tab. 9: Interkorrelationsmatrix von 11 Items zum Vertrauen in Institutionen
1) 2) 3) 4) 5) 6) 7) 8) 9) 10) 11)
Gesundheitswesen Bundesverfassungsgericht Bundestag Kath, Kirche Ev, Kirche Justiz Fernsehen Zeitungswesen Hochschulen Bundesregierung Polizei
M
SD
1
2
3
4
5
6
4,34 4,82 3,73 2,99 3,44 4,19 3,35 3,78 4,94 3,61 4,78
1,44 1,47 1,41 1,79 1,78 1,48 1,46 1,37 1,16 1,43 1,31
1 0,26 0,31 0,14 0,12 0,29 0,26 0,18 0,27 0,32 0,29
1 0,52 0,18 0,18 0,46 0,10 0,15 0,28 0,38 0,33
1 0,33 0,32 0,46 0,22 0,22 0,27 0,62 0,35
1 0,70 0,22 0,15 0,15 0,11 0,23 0,23
1 0,24 0,17 0,17 0,12 0,24 0,25
1 0,24 0,25 0,32 0,44 0,45
7
8
9
10 11
1 0,64 1 0,26 0,33 1 0,26 0,26 0,34 1 0,23 0,23 0,34 0,37 1
Anmerkungen: N = 2400, Angaben auf siebenstufiger Likert-Skala mit 1 = überhaupt kein Vertrauen, 7 = sehr großes Vertrauen. Alle Korrelationen sind signifikant mit p < .01
Literaturverzeichnis Arminger, G. (1979). Faktorenanalyse. Stuttgart: Teubner. Bacher, J. (1987). Faktorenanalyse von Rangordnungen. Österreichische Zeitschrift für Soziologie, 12, 85–89. Bacher, J. (1996). Clusteranalyse. Anwendungsorientierte Einführung. München: Oldenbourg. Bernstein, I. H. & Teng, G. (1989). Factoring Items and Factoring Scales are Different: Spurious Evidence for Multidimensionality Due to Item Categorization. Psychological Bulletin, 105, 467–477. Cattell, R. B. & Vogelmann, S. (1977). A Comprehensive Trial of Scree and KG Criteria for Determining the Number of Factors. Multivariate Behavioral Research, 12, 289–325. Dziuban, C. D. & Shirkey, E. C. (1974). When is a Correlation Matrix Appropriate for Factor Analysis? Psychological Bulletin, 81, 358–361. Fabrigar, L. R., Wegener, D. T., MacCallum, R. C., & Strahan, E. J. (1999). Evaluating the Use of Exploratory Factor Analysis in Psychological Research. Psychological Methods, 4, 272–299. Gorsuch, R. L. (1983). Factor Analysis. Hillsdale: Erlbaum, 2. Auflage. Gorsuch, R. L. (1997). Exploratory Factor Analysis: Its Role in Item Analysis. Journal of Personality Assessment, 68, 532–560. Grice, J. W. (2001). Computing and Evaluating Factor Scores. Psychological Methods, 6, 430–450.
15 Hauptkomponentenanalyse und explorative Faktorenanalyse
365
Holm, K. (1976). Die Faktorenanalyse. In K. Holm, Die Befragung 3. München: UTB. Jäger, O. A. (1982). Mehrmodale Klassifikation von Intelligenzleistungen: Experimentell kontrollierte Weiterentwicklung eines deskriptiven Intelligenzstrukturmodells. Diagnostica, 28, 195–225. Loehlin, J. C. (2004). Latent Variable Models. An Introduction to Factor, Path, and Structural Equation Analysis. Mahwah: Lawrence Erlbaum. MacCallum, R. C., Widaman, K. F., Preacher, K. J., & Hong, S. (2001). Sample Size in Factor Analysis: The Role of Model Error. Multivariate Behavioral Research, 36, 611–637. Mundfrom, D. J., Shaw, D. G., & Ke, T. L. (2005). Minimum Sample Size Recommendations for Conducting Factor Analyses. International Journal of Testing, 5, 159–168. O’Connor, B. P. (2000). SPSS and SAS Programs for Determining the Number of Components Using Parallel Analysis and Velicer’s MAP Test. Behaviour Research Methods, Instruments & Computers, 32, 396–402. Streiner, D. L. (1998). Factors Affecting Reliability of Interpretations of Scree Plots. Psychological Reports, 83, 687–694. Überla, K. (1971). Faktorenanalyse. Berlin: Springer. Wolff, H.-G. & Bacher, J. (2008). Dimensionale Analyse Multidimensionaler Items. In J. Reinecke & C. Tarnai (Hg.), Klassifikationsanalyse in Theorie und Anwendung (S. 19–41). Münster: Waxmann. Wolff, H.-G. & Preising, K. (2005). Exploring Item and Higher-Order Factor Structure with the Schmid-Leiman Solution: Syntax Codes for SPSS and SAS. Behaviour Research Methods, Instruments & Computers, 37, 48–58. Wood, J. M., Tartaryn, D. J., & Gorsuch, R. L. (1996). Effects of Under- and Overextraction on Principal Axis Factor Analysis with Varimax Rotation. Psychological Methods, 1, 354–365. Zwick, W. R. & Velicer, W. F. (1986). Comparison of Five Rules for the Number of Components to Retain. Psychological Bulletin, 99, 432–442.
16 Korrespondenzanalyse Jörg Blasius Universität Bonn
Zusammenfassung. In den Sozialwissenschaften, insbesondere in der Umfrageforschung, gibt es eine Vielzahl von kategorialen Daten. Diese können mit Hilfe der Korrespondenzanalyse in einen gemeinsamen Raum projiziert und die Distanzen zwischen den Merkmalsausprägungen können als Ähnlichkeiten interpretiert werden; dabei gilt: Je dichter zwei Ausprägungen beieinander liegen bzw. je ähnlicher deren Winkel zum Achsenkreuz sind, desto ähnlicher sind sie. Diese Möglichkeit der Visualisierung ist vermutlich der wichtigste Grund für die in den letzten Jahren zu verzeichnende deutliche Zunahme der Anwendungen dieses Verfahrens. Die meisten und die wohl auch bekanntesten sozialwissenschaftlichen Anwendungen der Korrespondenzanalyse kommen bis dato aus dem französischen Sprachbereich, wobei insbesondere die Arbeiten von Pierre Bourdieu genannt werden können. In diesem Artikel werden die grundlegenden Elemente der Korrespondenzanalyse vorgestellt und es werden Anwendungen auf verschiedene kategoriale Daten diskutiert, die dem ALLBUS 2002 entnommen wurden.
1 Einleitung Seit etwa 20 Jahren wird in den Sozialwissenschaften zunehmend ein neues multivariates Auswertungsverfahren eingesetzt, die Korrespondenzanalyse – ein exploratives Verfahren zur grafischen und numerischen Darstellung von Zeilen und Spalten beliebiger Datenmatrizes mit nicht-negativen Einträgen. Analysiert werden können u. a. einfache Häufigkeitstabellen, zusammengesetzte Tabellen, ordinale und metrische Daten, Rangdaten, Multi-Response-Tabellen, mehrdimensionale Tabellen, quadratische Tabellen, Burt-Matrizen und Indikatormatrizen. In den Sozialwissenschaften dürfte dieses Verfahren insbesondere durch die Arbeiten von Bourdieu, so z. B. „Die feinen Unterschiede“ 1982 und „Homo Academicus“ 1984, bekannt geworden sein, der die Korrespondenzanalyse als statistische Grundlage zu seiner Theorie der sozialen Räume verwendet hat (Bourdieu 1991; Rouanet et al. 2000; Le Roux & Rouanet 2004; Blasius & Friedrichs 2008). Die Korrespondenzanalyse kann als Hauptkomponentenanalyse mit nominalen Daten bezeichnet werden. Ähnlich wie bei der Hauptkomponentenanalyse werden mit Hilfe eines (verallgemeinerten) Kleinsten-Quadrate-Schätzers Achsen bestimmt, mit denen ein latenter Raum aufgespannt wird. Der wohl wichtigste Vorteil der Korrespondenzanalyse gegenüber der Hauptkomponentenanalyse ist, dass als Eingabedaten kategoriale Variablen verwendet werden können. In den Sozialwissenschaften gibt es S. 367–389 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_16, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
368
Jörg Blasius
eine Vielzahl von kategorialen Daten, insbesondere Umfragedaten werden überwiegend mit Hilfe von nominal oder ordinal skalierten Fragen erhoben. Die Korrespondenzanalyse, wie sie im Folgenden dargestellt wird, wurde in den sechziger Jahren in Frankreich unter der Leitung von Jean-Paul Benzécri entwickelt. Sie ist dort, zusammen mit anderen Verfahren zur Visualisierung von Daten, wichtigster Bestandteil der Analyse des Donneés, der geometrischen Datenanalyse (vgl. Benzécri & collaborateurs 1973; Le Roux & Rouanet 1998, 2004). Außerhalb Frankreichs begann die Diskussion der statistischen Grundlagen der Korrespondenzanalyse erst mit den beiden 1984 erschienenen englischsprachigen Lehrbüchern von Lebart et al. und von Greenacre. Mit der Ende der achtziger Jahre erfolgten Aufnahme von Prozeduren in die großen Statistikpakete, und hier vermutlich insbesondere in SPSS, ist auch in den angelsächsischen Ländern ein deutlicher Anstieg der Anzahl von Anwendungen zu beobachten. Aufgrund der vielfältigen Anwendungsmöglichkeiten der Korrespondenzanalyse, der Möglichkeit der grafischen Darstellung der Ergebnisse und insbesondere aufgrund der Verwendung von kategorialen Daten dürfte das Verfahren auch im deutschsprachigen Raum in den nächsten Jahren einen weiter zunehmenden Stellenwert bekommen. Im einfachsten Beispiel wird eine einfache Kreuztabelle analysiert, in der z. B. in den Spalten die Ausprägungen der Sonntagsfrage stehen können und in den Zeilen die Ausprägungen des Materialismus-Postmaterialismus-Indexes (vgl. Tabelle 1 auf Seite 372). Mit Hilfe der Korrespondenzanalyse kann dann der Zusammenhang zwischen den Spalten und den Zeilen der Tabelle grafisch und numerisch dargestellt werden. Statt einer einzigen Tabelle kann auch eine zusammengesetzte betrachtet werden. In diesem Fall wird eine zu beschreibende Variable, z. B. die Sonntagsfrage, mit einer (beliebigen) Anzahl von beschreibenden Variablen kreuztabelliert, z. B. mit dem Materialismus-Postmaterialismus-Index, dem Alter (in Gruppen) und der Schulbildung. Die Häufigkeiten der einzelnen Kreuztabellen werden zeilenweise untereinander geschrieben, ein Beispiel wird in Tabelle 5 auf Seite 378 gegeben. Anstelle einer zusammengesetzten Matrix mit einer zu beschreibenden und einem Satz von beschreibenden Variablen, kann auch jede Variable mit jeder anderen kreuztabelliert werden, einschließlich mit sich selbst. Anschließend werden die Tabellen mit den Häufigkeiten zeilen- und spaltenweise verkettet, das Ergebnis ist eine Burt-Matrix (B). Anstelle der Burt-Matrix kann auch die Indikatormatrix (H) als Eingabeinformation verwendet werden, also eine Matrix mit Qc Spalten (= Anzahl der Variablenausprägungen) und N Zeilen (= Anzahl der Befragten), die als Elemente nur Nullen und Einsen haben (für „genannt“ und „nicht genannt“); aufgrund von B = HT H können die Ergebnisse der beiden Analysen ineinander überführt werden. Wird der Algorithmus der (einfachen) Korrespondenzanalyse auf die Burt-Matrix oder auf die Indikatormatrix angewendet, so wird von multipler Korrespondenzanalyse gesprochen, oder, in der niederländischen Tradition, von der Homogenitätsanalyse (vgl. Gifi 1990; Heiser & Meulman 1994; Michailidis & de Leeuw 1998). Bei der Anwendung der Korrespondenzanalyse auf eine Indikatormatrix handelt es sich um eine Individualdatenanalyse. Während bei der Hauptkomponentenanalyse metrisches Datenniveau vorausgesetzt und auf der Basis der Korrelations- oder der Kovarianzmatrix eine kanonische
16 Korrespondenzanalyse
369
Zerlegung durchgeführt wird (siehe auch Kapitel 15 in diesem Handbuch), ist es bei der Korrespondenzanalyse eine verallgemeinerte kanonische Zerlegung (singuläre Wertezerlegung, singular value decomposition oder SVD) auf der Basis der Matrix der standardisierten Residuen. Diese enthält gemäß der Chi-Quadrat-Statistik die gewichteten Abweichungen von beobachteten und erwarteten Werten. Ähnlich wie bei der Hauptkomponentenanalyse gibt es bei der Korrespondenzanalyse Eigenwerte, erklärte Varianzen der Eigenwerte, Faktorladungen und Kommunalitäten, anhand derer die Ergebnisse numerisch beschrieben werden können (siehe Abschnitt 3). Während bei der Hauptkomponentenanalyse meistens auf eine Visualisierung der Ergebnisse verzichtet wird, ist diese bei der Korrespondenzanalyse zentraler Bestandteil für die Interpretation der Daten.
2 Mathematisch-statistische Grundlagen Bei der Korrespondenzanalyse handelt es sich um ein auf der Chi-Quadrat-Statistik basierendes exploratives Verfahren, welches auf bekannten geometrischen Verfahren basiert (vgl. Greenacre 1984, 2007; Blasius 2001). Zur formalen Darstellung des Verfahrens wird die einfache Korrespondenzanalyse betrachtet, das heißt eine Kreuztabelle mit I Zeilen und J Spalten. Aus den Zellhäufigkeiten der Kontingenztabelle (N) wird im ersten Schritt die Korrespondenzmatrix (P) bestimmt mit den Elementen pij = nij/n (nij = Häufigkeiten der Zelle (ij), n = Gesamtsumme der Eingabematrix; wenn nur zwei Variablen berücksichtigt werden ist n = N , mit N = Anzahl der Befragten). Des Weiteren werden die durchschnittlichen Zeilen- und Spaltenprofile aus der Division der Zeilen- bzw. der Spaltensummen durch die Gesamtsumme bestimmt, z. B. für die i-te Zeile ri = ni+/n. Die durchschnittlichen Profilelemente werden auch als Massen bezeichnet, sie entsprechen den „Gewichten“, die die Zeilen (ri ) und Spalten (cj ) in den Daten haben. Unter dem Modell der Unabhängigkeit ist das Produkt aus (ri ) und (cj ) gleich dem prozentuierten Erwartungswert der Zelle (ij). Die Differenzen der Werte aus der Korrespondenzmatrix und den dazugehörigen prozentuierten Erwartungswerten (pij − ri cj ) entsprechen den Abweichungen von empirischen und den auf der Basis des Unabhängigkeitsmodells erwarteten Werten. Im nächsten Schritt erfolgt gemäß der Chi-Quadrat-Statistik die Gewichtung dieser Abweichungen mit den jeweiligen Massen von Zeilen und Spalten. Für ein beliebiges Element der resultierenden Matrix −1/2 gilt aij = (pij −ri cj )/√ri cj , oder in Matrixschreibweise A = D−1/2 (P − rcT )Dc . Die r Ähnlichkeit zur Chi-Quadrat-Statistik wird ersichtlich, wenn die Elemente von A(aij ) quadriert, über die I × J Zellen aufsummiert und mit n multipliziert werden: χ2 = I J (p −r c )2 I J (n −ˆn )2 n i=1 j=1 ij ri cij j = i=1 j=1 ijnˆ ij ij , mit n ˆ ij = (ni+ ×n+j )/n. A ist die Matrix der standardisierten Residuen, die Summe ihrer quadrierten Elemente wird als Gesamtträgheitsgewicht (λG ) bezeichnet. Dieser Wert ist gleich der Summe der Eigenwerte ( λk ), er kann zugleich als Maßzahl zur Beschreibung der Variation der Daten verwendet werden (vgl. Blasius 1994, 2001). Wird das Gesamtträgheitsgewicht mit der Gesamtsumme (n) multipliziert, so ist das Ergebnis der Chi-Quadrat-Wert der Ausgangsdaten (χ2 = nλG ).
370
Jörg Blasius
Auf die Matrix der standardisierten Residuen (A) wird eine verallgemeinerte Eigenwertzerlegung (Eckart & Young 1936, bezogen auf die Korrespondenzanalyse Greenacre 1984) angewendet. Die verallgemeinerte Eigenwertzerlegung der Matrix A mit I Zeilen und J Spalten ist definiert als das Produkt von A = UΓ VT .
(1)
Dabei ist Γ die Diagonalmatrix mit singulären Werten in absteigender Ordnung γ1 ≥ γ2 ≥ · · · ≥ γK ≥ 0, mit Rang K der Matrix A. Die Spalten von U, diese werden als linke singuläre Vektoren bezeichnet, und V, diese werden als rechte singuläre Vektoren bezeichnet, sind orthonormal, so dass UT U = VT V = I. Die Verbindung der Eigenwertzerlegung und der singulären Wertezerlegung kann abgeleitet werden aus:
und entsprechend
AT A = VΓ UT UΓ VT = VΓ 2 VT
(2)
AAT = UΓ 2 UT .
(3)
Aus den Gleichungen (1) und (2) wird ersichtlich, dass die rechten singulären Vektoren von A den Eigenvektoren von AT A entsprechen, die linken singulären Vektoren entsprechen den Eigenvektoren von AAT und die quadrierten singulären Werte von Γ 2 sind gleich den Eigenwerten (λ1 bis λK ) von AAT . Diese Eigenwerte werden im Kontext der Korrespondenzanalyse auch als Trägheitsgewichte der Achsen (Trägheitsmomente, im englischen: principal inertias) bezeichnet. Mit Hilfe der Informationen aus der singulären Wertezerlegung können die Hauptkoordinatenwerte für die Ausprägungen der Zeilen- und Spaltenvariable(n) berechnet werden, die für die grafische Darstellung benötigt werden. Für die Lokalisationen der Zeilen ergibt sich die (I × K) Matrix F: F = D−1/2 UΓ r
(4)
und für die der Spalten die (J × K) Matrix G: G = D−1/2 VΓ . c
(5)
Wie in der Hauptkomponentenanalyse und wie auch bei anderen Datenreduktionsverfahren werden so wenig Dimensionen wie möglich für die Interpretation der Ergebnisse verwendet (vgl. auch die Kapitel 14, 15 und 17 in diesem Handbuch). In der Korrespondenzanalyse sind es – u. a. aufgrund der Einschränkungen bei den grafischen Darstellung – sehr oft nur die beiden ersten Achsen. Die Bestimmung der Anzahl der zu berücksichtigenden Dimensionen kann aber auch analog zur Hauptkomponentenanalyse erfolgen: mittels des Eigenwertkriteriums – berücksichtigt werden alle Eigenwerte, deren latente Variablen mehr Varianz binden als der Durchschnitt –, mittels eines Scree-Tests oder durch die Berücksichtigung jener Dimensionen, welche inhaltlich zu interpretieren sind (vgl. ausführlich Blasius 1994, 2001). Aus pragmatischen Gründen wird in sozialwissenschaftlichen Studien meistens die zwei-dimensionale Darstellung verwendet, auch wenn diese nicht immer die den Daten angemessene ist. Wird als
16 Korrespondenzanalyse
371
Eingabeinformation die Indikatormatrix verwendet, so können die Faktorwerte der Individuen im Datensatz gespeichert werden. Die so erhaltenen latenten Variablen, die den Mittelwert Null und die Standardabweichung Eins haben, können dann in weitergehenden Analysen verwendet werden, z. B. innerhalb eines Regressionsansatzes (vgl. die Kapitel 24 und 25 in diesem Handbuch). In der log-linearen Analyse können mit Hilfe von Interaktionseffekten unterschiedlicher Ordnung die Ausgangsdaten rekonstruiert werden (siehe Kapitel 18 in diesem Handbuch). Diese Rekonstruktion erfolgt in der Korrespondenzanalyse mit Hilfe der Lokalisationsparameter und der Eigenwerte. Wie bereits erläutert, werden bei der Korrespondenzanalyse Abweichungen vom Unabhängigkeitsmodell beschrieben (visualisiert). Was in der log-linearen Analyse die Interaktionseffekte unterschiedlicher Ordnung erklären, erklären in der Korrespondenzanalyse die latenten Variablen (die Achsen). Beiden Verfahren ist gemeinsam, dass das sparsamste Modell gewählt werden soll. In der log-linearen Analyse ist es das Modell mit den wenigsten Interaktionseffekten, in der Korrespondenzanalyse ist es das mit den wenigsten Faktoren (eine ausführliche Beschreibung des Zusammenhangs dieser Modelle geben Van der Heijden et al. 1989, 1994). Für die Rekonstruktion der Daten mit Hilfe der latenten Variablen gilt in der Korrespondenzanalyse P = rcT + Dr FΓ −1 GT Dc , wobei rcT der Teil des Unabhängigkeitsmodells ist. Mit Hilfe von k Faktoren (k = 1, . . . ,k, . . . ,K) und den dazugehörigen Hauptkoordinaten der Variablenausprägungen auf diesen Faktoren können die Abweichungen von der statistischen Unabhängigkeit modelliert werden. Demzufolge ist die Korrespondenzanalyse nicht nur eine explorative Technik, sondern sie kann (im statistischen Sinn) als Modell bezeichnet werden (vgl. Goodman 1991; Van der Heijden et al. 1994, sowie Kapitel 22 in diesem Handbuch). 3 Ein Beispiel 3.1 Graphische Darstellung Um einen Überblick über das Verfahren zu geben, verwenden wir eine Häufigkeitstabelle, die aus den Daten der Allgemeinen Bevölkerungsumfrage (ALLBUS) 2002 generiert wurde (Tabelle 1): In den Zeilen stehen die vier Ausprägungen des MaterialismusPostmaterialismus-Indexes, in den Spalten die Parteien, die als Antwort auf die „Sonntagsfrage“ angegeben wurden. In dem Beispiel wurden drei Gruppierungen berücksichtigt, die in vielen anderen Studien als „fehlend“ definiert werden: die Nichtwähler, die Nichtwahlberechtigten und die Verweigerer. Die Aufnahme derartiger Kategorien ist bei der Korrespondenzanalyse prinzipiell immer möglich, analysiert werden kategoriale Daten. Inhaltlich sinnvoll ist die Aufnahme derartiger Kategorien aber nur dann, wenn es eine ausreichend große Fallzahl in den jeweiligen Ausprägungen gibt. Bei großen Fallzahlen, wie sie z. B. im ALLBUS gegeben sind, könnten es 2 bis 5 Prozent sein, bei kleineren Fallzahlen, z .B. bei etwa 500 Befragten, sollten eher 10 Prozent angesetzt werden. Diese Einschränkung gilt jedoch generell und ist keine Besonderheit der Korrespondenzanalyse. Es macht inhaltlich nur selten Sinn, Kategorien zu betrachten, die nur von wenigen Personen genannt wurden, gegebenenfalls sollten die entsprechenden Kategorien zusammengefasst werden.
372
Jörg Blasius
Tab. 1: Eingabedaten: Materialismus-Postmaterialismus Index mit „Wenn am nächsten Sonntag . . . “ CDU SPD FDP Grüne PDS Andere Nicht- Nicht Verwei- Aktiver Partei wähler ber. gert Rand Postmaterialisten PM-Mischtyp M-Mischtyp Materialisten
113 219 242 147
179 177 178 123
81 84 80 37
109 45 34 13
45 47 42 27
13 21 22 3
30 65 69 48
19 28 44 31
87 101 115 84
676 787 826 513
Summe
721
657
282
201
161
59
212
122
387
2. 802
Tab. 2: Spaltenprofile: Materialismus-Postmaterialismus Index mit „Wenn am nächsten Sonntag. . . “ CDU SPD
FDP Grüne PDS Andere Nicht- Nicht Verwei- DurchPartei wähler ber. gert schnitt
Postmaterialisten PM-Mischtyp M-Mischtyp Materialisten
0,157 0,304 0,336 0,204
0,287 0,298 0,284 0,131
0,280 0,292 0,261 0,168
0,220 0,356 0,373 0,051
0,142 0,307 0,325 0,226
0,156 0,230 0,361 0,254
0,225 0,261 0,297 0,217
0,241 0,281 0,295 0,183
Summe
1,000 1,000 1,000 1,000 1,000
1,000
1,000
1,000
1,000
1,000
0,272 0,269 0,271 0,187
0,542 0,224 0,169 0,065
Die Häufigkeiten, so wie sie z. B. in Tabelle 1 wiedergegeben sind (ohne die Randsummen), können als Eingabematrix für die einfache Korrespondenzanalyse verwendet werden. Da die Häufigkeiten nur wenig aussagekräftig sind, wurden die Spaltenprozente (oder Spaltenprofile, um es in der Terminologie der Korrespondenzanalyse zu formulieren) angegeben (Tabelle 2). Diese Spaltenprofile sind zugleich ein wichtiger Bestandteil für die Interpretation der Ergebnisse – diese erfolgt immer relativ zum Durchschnitt der Verteilung und nicht in absoluten Größen. Bezogen auf Tabelle 2 werden die Spaltenprofile, die Ausprägungen der „Sonntagsfrage“ (die Parteien), ins Verhältnis zu dem durchschnittlichen Spaltenprofil (Spalte „Durchschnitt“) gesetzt. Aus Tabelle 2 wird ersichtlich, dass es bei den Grünen mehr als doppelt so viele Postmaterialisten gibt als im Durchschnitt aller Befragten, das Verhältnis ist 0,542 zu 0,241. Dem entgegen ist der entsprechende Anteil bei den Anhängern der CDU als auch bei den Nichtwählern und den Nichtwahlberechtigten unterdurchschnittlich. Diese Differenzen werden auch bei der späteren grafischen Darstellung ersichtlich: Die Anhänger der Grünen werden dann den Postmaterialisten zugeordnet, tendenziell auch die Anhänger von FDP und PDS. Anhänger der CDU hingegen werden davon relativ weit entfernt sein, da sie überdurchschnittlich oft materialistisch eingestellt sind. Des Weiteren ist insbesondere bei den Nichtwahlberechtigten der Anteil der Materialisten relativ hoch, bei den Anhängern der anderen Parteien sind es die beiden Mischtypen
16 Korrespondenzanalyse
andere Partei
FDP • PDS •
•
Grüne
*
-0,5 Postmaterialisten SPD •
•
373
λ 2 = 0,006 (9,0%)
Postmat-Mischtyp * Mat-Mischtyp * • CDU-CSU
•
λ1 = 0,057 Nichtwähler (89,9%) Verweigerer • * Nichtwahlberechtige Materialisten
•
Abb. 1: Graphische Darstellung der Korrespondenzanalyse der Daten aus Tabelle 1 aus Materialisten und Postmaterialisten. Zu den „anderen Parteien“ ist einschränkend zu bemerken, dass deren Wähleranteil mit gut 2 Prozent relativ klein ist und diese Gruppe damit nur eine geringe inhaltliche Bedeutung hat, oder in der Terminologie der Korrespondenzanalyse, sie hat nur eine geringe Masse. Zu der gleichen Interpretation wie der oben gegebenen würde man kommen, wenn die Prozentuierung der Daten nicht spaltenweise, sondern zeilenweise erfolgen würde (hier nicht gezeigt; ein Beispiel gibt Blasius 2001). Werden die Daten von Tabelle 1 als Eingabeinformation der (einfachen) Korrespondenzanalyse verwendet, so erklärt die erste Dimension 89,9 % der gesamten Variation, die zweite weitere 9,0 % und die letzte verbleibende 1,1 %. Obwohl die erste Dimension zur Interpretation der Ergebnisse ausreichen würde, zeigen wir aus didaktischen Gründen die zweidimensionale Lösung (Abbildung 1). Die Dimensionalität der (4 × 9)-Tabelle ist drei (Minimum: Anzahl Zeilen, Spalten minus Eins). Mit den ersten beiden Dimensionen (Abbildung 1) werden insgesamt 98,9 % der gesamten Variation der Daten erklärt. Werden auf die erste Dimension die vier Ausprägungen der Variablen „Materialismus-Postmaterialismus“ im rechten Winkel projiziert, so wird ersichtlich, dass die Postmaterialisten im negativen Bereich liegen und die beiden Mischtypen sowie die Materialisten im positiven Bereich. Dabei bleibt die ordinale Ordnung der vier Ausprägungen im Projektionsraum erhalten – (von links nach rechts) Postmaterialisten, Postmaterialisten-Mischtyp, Materialisten-Mischtyp, Materialisten; d. h. die erste Achse spiegelt die inhaltlich erwartete Reihenfolge wider. Je weiter eine Gruppe im negativen Bereich lokalisiert ist, desto stärker ist ihre (durchschnittliche) postmaterielle Einstellung, je weiter sie im positiven Bereich lokalisiert ist, desto stärker ist ihre (durchschnittliche) materialistische Einstellung. Werden zusätzlich die neun Ausprägungen der Variablen „wenn am nächsten Sonntag Wahlen wären . . . „ auf die erste Achse projiziert, so gibt es eine deutliche Differenzierung: Ganz links im negativen Bereich sind die Anhänger der Grünen lokalisiert, mit relativ weitem Abstand, aber dann ziemlich dicht beieinander (bezogen auf die erste Achse) folgen die Anhänger von FDP, PDS, SPD und der anderen Parteien. Bereits im positiven
374
Jörg Blasius
Bereich, aber ebenfalls wie die letztgenannten Parteien in unmittelbarer Nähe des Achsenkreuzes, sind die „Verweigerer“ zu finden. Mit etwas größerem Abstand folgen die Wähler von CDU-CSU, die bekennenden Nichtwähler und die Nichtwahlberechtigten. Auf der zweiten Achse sind lediglich die Wähler der anderen Parteien separiert, die allerdings nur von jedem fünfzigsten Befragten angegeben wurden. Ansonsten ist weder eine klare Trennung der vier Typen von Materialisten-Postmaterialisten noch eine der verbleibenden acht Wählergruppen zu verzeichnen. Da diese Trennung aufgrund der geringen Erklärungskraft dieser Achse auch nicht zu erwarten war, wird auf die inhaltliche Interpretation dieser Achse verzichtet. Bei der einfachen Korrespondenzanalyse werden die Häufigkeiten von Kontingenztabellen als Eingabeinformation verwendet (z. B. Tabelle 1), es handelt sich somit um eine Aggregatdatenanalyse. Dargestellt wurden die Hauptkoordinaten von Zeilen und Spalten (Abbildung 1). Die Distanzen zwischen den Zeilen- und Spaltenmerkmalen dürfen bei dieser Art der Visualisierung nicht euklidisch interpretiert werden, ihre Zuordnung erfolgt in diesem Fall ausschließlich über gemeinsame Projektionen auf den Achsenabschnitten bzw. über die Ähnlichkeit der Winkel. Diese Art der Darstellung wird als symmetrisch (oder als „French Plot“) bezeichnet, sie wird in den Sozialwissenschaften mit weitem Abstand am häufigsten verwendet. Sollen die Distanzen zwischen Zeilen- und Spaltenmerkmalen interpretiert werden, so muss die „asymmetrische Darstellung“ gewählt werden, auf die hier jedoch verzichtet werden soll (zu den unterschiedlichen Möglichkeiten der grafischen Darstellung und deren Vorund Nachteile siehe Greenacre 1984, 2007; Blasius 2001). 3.2 Numerische Darstellung Zusätzlich zu der grafischen Darstellung der Korrespondenzanalyse gibt es auch eine numerische, die in weiten Bereichen jener der Hauptkomponentenanalyse ähnlich ist. Wie auch bei dieser gibt es Faktorwerte, Faktorladungen (hier für die einzelnen Variablenausprägungen) und Kommunalitäten, also die Anteile der erklärten Varianz für die einzelnen Variablenausprägungen, die mit den k berücksichtigten Faktoren erklärt werden können. Des Weiteren werden in der numerischen Lösung die Lokalisationen der Ausprägungen auf den berücksichtigten Achsen und die Anteile der Varianz der Achsen angegeben, die durch die einzelnen Variablen(ausprägungen) erklärt werden, diese werden als relative Trägheitsgewichte bezeichnet (Blasius 2001). Die Interpretation dieser relativen Trägheitsgewichte ist ergänzend zu der Interpretation der Faktorladungen. Während mit den Faktorladungen erklärt wird, wie viel Varianz der einzelnen Variablen(ausprägungen) durch die jeweilige Achse erklärt wird, wird mit den Trägheitsgewichten erklärt, wie viel Varianz der Achsen, genauer: der geometrischen Ausrichtung der Achsen im latenten Raum, durch die Variablen(ausprägungen) beschrieben wird. In den Tabellen 3 (Zeilendarstellung) und 4 (Spaltendarstellung) sind die numerischen Ergebnisse für die oben durchgeführte einfache Korrespondenzanalyse wiedergegeben. Als Ausgabeformat wurde jenes von SPSS 17 verwendet (in der deutschen Version), ergänzt durch die Abkürzungen, die nachfolgend für die exemplarischen Berechnungen verwendet wurden.
16 Korrespondenzanalyse
375
Tab. 3: Zeilendarstellung Wert in Dimension
Beitrag des Punktes an der Trägheit der Dimension Trägheit (ai )
s1i
s2i
l1i
l2i
Ges. (Li )
0,241 −0,413 −0,028 0,281 0,055 0,074 0,295 0,148 0,039 0,183 0,221 −0,139
0,041 0,003 0,007 0,013
0,717 0,015 0,113 0,156
0,033 0,269 0,078 0,620
0,995 0,311 0,883 0,713
0,005 0,562 0,061 0,284
1,000 0,873 0,944 0,997
1,000
0,064
1,000
1,000
InglehartIndex
Masse (ri )
Postmaterialisten PM-Mischtyp M-Mischtyp Materialisten Summe
f1i
f2i
der Dimension an der Trägheit des Punktes
Tab. 4: Spaltendarstellung Wert in Dimension
Beitrag
Wenn am nächsten Sonntag . . .
des Punktes an der Trägheit der Dimension Trägheit (bj )
t1j
t2j
m1j
m2j
Ges. (Mj )
0,010 0,002 0,003 0,037 0,001
0,171 0,019 0,030 0,645 0,010
0,059 0,074 0,140 0,002 0,001
0,967 0,695 0,679 0,999 0,830
0,033 0,278 0,321 0,000 0,005
1,000 0,973 1,000 0,999 0,835
0,365
0,003
0,000
0,488
0,003
0,963
0,966
0,076
0,237 −0,002
0,004
0,074
0,000
0,983
0,000
0,983
0,044 0,138
0,242 −0,116 0,057 −0,075
0,004 0,001
0,044 0,008
0,101 0,134
0,713 0,361
0,163 0,630
0,876 0,992
0,064
1,000
1,000
Masse (cj ) CDU-CSU SPD FDP Grüne PDS Andere Partei Nichtwähler Nicht berechtigt Verweigert
0,257 0,234 0,101 0,072 0,057
Summe
1,000
g1j
g2j
der Dimension an der Trägheit des Punktes
0,195 0,036 −0,067 −0,043 −0,130 0,089 −0,719 −0,014 −0,099 0,008
0,021 −0,020
376
Jörg Blasius
Die nachfolgenden Berechnungen beziehen sich überwiegend auf die Darstellung der Zeilen, jene der Spalten ist analog zu verstehen und wird nur in wenigen Fällen erläutert. Bei den Massen (ri ) handelt es sich um die relativen Anteile der Zeilen (vgl. auch Tabelle 2, letzte Spalte), so wurden z. B. 24,1 % aller Befragten den Postmaterialisten zugeordnet (r1 = 0,241). Bei den Werten f1i und f2i handelt es sich um die Lokalisationen der I = 4 Zeilen auf den ersten beiden Achsen (in allgemeiner Schreibweise: fki ), also um die Distanzen zum Schwerpunkt der Darstellung; die analogen Werte für die J = 9 Spalten sind g1j und g2j . Aus den Massen und deren Entfernungen zum Schwerpunkt (in der grafischen Darstellung symbolisiert durch das Achsenkreuz), kann das absolute Trägheitsgewicht für jede Variablenausprägung auf jeder Achse bestimmt werden. Jenes ergibt sich wie in der Physik (vgl. dort das Prinzip der Balkenwaage) aus dem Quadrat der Entfernung zum Schwerpunkt multipliziert mit der Masse (hier dem Anteil, den die jeweilige Ausprägung an allen Ausprägungen hat). Für die vierte Ausprägung 2 auf der ersten Achse ergibt sich a14 = f14 × r4 = 0,2212 × 0,183 = 0,0089, und 2 für die zweite Achse a24 = f24 × r4 = −0,1392 × 0,183 = 0,0035. Die beiden hier berechneten Werte sind in Tabelle 3 nicht wiedergegeben, abgebildet ist die Summe der absoluten Trägheitsgewichte aller K = 3 Achsen (ai ). Dieser Wert ist für die vierte Ausprägung der Zeilen (Materialisten) a4 = 0,013 (vgl. Tabelle 3, Spalte „Trägheit“). Die Summen der absoluten Trägheitsgewichte ergeben die Eigenwerte der I J jeweiligen Achse (= Trägheitsgewichte der Achsen), also i=1 aki = j=1 bkj = λk (im gegebenen Beispiel mit I = 4 und J = 9) oder für die erste Dimension in der Darstellung I der Zeilen i=1 a1i = λ1 = 0,057. Werden die absoluten Trägheitsgewichte auf die Trägheitsgewichte der korrespondierenden Achsen bezogen, so ergeben sich die relativen Trägheitsgewichte (für die Zeilen: ski , für die Spalten tkj ). Für die vierte Ausprägung der Zeilen auf der ersten Achse ergibt sich s14 = a14/λ1 = 0,0089/0,057 = 0,156. Damit erklärt auf der Ebene der Zeilen die vierte Ausprägung 15,6 % der Variation der ersten Achse (oder besser deren geometrische Ausrichtung im Projektionsraum). Einen deutlich größeren Anteil an der geometrischen Ausrichtung der ersten Achse haben die Postmaterialisten mit 71,7 %. Die gleichen Berechnungen werden für die Spaltendarstellung durchgeführt. Bei den relativen Trägheitsgewichten fällt hier insbesondere der hohe Wert für die Grünen auf (t14 = 0,645), d. h. auf der Ebene der Spalten determinieren die Grünen zu 64,5 % die geometrische Ausrichtung der ersten Achse. Werden die Trägheitsgewichte bei der inhaltlichen Interpretation berücksichtigt, so wird die gesamte Variation der Daten insbesondere durch die sehr hohen Werte für die Grünen und für die Postmaterialisten erklärt. Die Interpretation der relativen Trägheitsgewichte der Variablenausprägungen ist zentraler Bestandteil vieler Anwendungen der Korrespondenzanalyse im Rahmen der „französischen“ geometrischen Datenanalyse; so verwendet Bourdieu (1982) diese Koeffizienten u. a. in seinen „feinen Unterschieden“, wo sie in der deutschen Übersetzung als „Trägheiten“ bezeichnet werden. Die absoluten Trägheitsgewichte der einzelnen Variablenausprägungen auf den einzelnen Achsen können auch auf die Summe der absoluten Trägheitsgewichte dieser Ausprägungen bezogen werden, betrachtet wird dann lki = aki/ai . Diese Werte
16 Korrespondenzanalyse
377
entsprechen in der Hauptkomponentenanalyse den quadrierten Faktorwerten. Für die vierte Ausprägung der Zeilen auf der ersten Achse ergibt sich ein Wert von l14 = a14/a4 = 0,0089/0,013 = 0,713; d. h. 71,3 % der Variation der Ausprägung „Materialisten“ werden durch den ersten Faktor erklärt, weitere 28,4 % durch den zweiten Faktor. In der Summe sind dies 99,7 %. Dieser letzte Wert wird in der Hauptkomponentenanalyse als Kommunalität bezeichnet, er entspricht dem Anteil der durch die ersten k Dimensionen erklärten Varianz (hier 99,7 %). Während bei der Hauptkomponentenanalyse (und ebenso bei der Faktorenanalyse) meistens die Faktorladungen angegeben werden, sind es bei der Korrespondenzanalyse fast immer die quadrierten Faktorladungen (die einfachen Faktorladungen können durch einfaches Radizieren bestimmt werden, die Vorzeichen sind den korrespondierenden Lokalisationsparametern zu entnehmen). Die Angabe der Faktorwerte, also der Werte, welche die einzelnen Objekte (hier die Befragten) auf den einzelnen Achsen haben, ist bei der Korrespondenzanalyse genauso wie bei der Hauptkomponentenanalyse in den meisten Fällen nicht sinnvoll, aber ebenfalls möglich. Inhaltlich sinnvoll kann eine derartige Angabe sein, wenn nur wenige Objekte vorhanden sind, deren Ähnlichkeiten (Unähnlichkeiten) inhaltlich interpretiert werden sollen, z. B. jene von Politikern oder Professoren (vgl. Bourdieu 1984; Blasius 2001). Die entsprechenden Werte können aber auch gespeichert und in weiteren Analyseschritten als abhängige bzw. als unabhängige Variablen verwendet werden, z. B. in einem Regressionsmodell. Wie bei der Hauptkomponentenanalyse sind die Faktorwerte der Korrespondenzanalyse standard-normalverteilt mit Mittelwert Null und Standardabweichung Eins.
4 Erweiterungen der Korrespondenzanalyse 4.1 Zusammengesetzte Tabellen Im vorangegangen Abschnitt wurden die Ergebnisse der Korrespondenzanalyse der Tabelle 1 „Parteipräferenz nach Materialismus/Postmaterialismus“ diskutiert. Dabei wurde gesagt, dass mit Hilfe der singulären Wertezerlegung die Variation in der Tabelle, 2 ausgedrückt als λG = χ /n, derart zerlegt wird, dass mit dem ersten Eigenwert (λ1 ) ein Maximum an Variation erklärt wird, mit dem zweiten (λ2 ) ein Maximum der verbleibenden Variation usw. In dem gegebenen Beispiel bildet die erste Dimension überwiegend den Gegensatz von Materialismus und Postmaterialismus sowie den korrespondierenden Parteipräferenzen ab. Der zweiten Dimension wurde aufgrund ihrer geringen Erklärungskraft keine inhaltliche Interpretation zugeschrieben. Für eine Erweiterung der Analyse, die als joint bivariat bezeichnet werden kann, werden im Folgenden weitere Merkmale mit der Sonntagsfrage kreuztabelliert. Die resultierenden Häufigkeiten werden zeilenweise mit Tabelle 1 verknüpft. In der zu analysierenden Matrix stehen die neun Ausprägungen der Variablen „Parteipräferenz“ in den Spalten und die damit verbunden Variablen(ausprägungen) in den Zeilen. Zusätzlich aufgenommen wurden das Geschlecht, das Alter (fünf Gruppen) und der Schulabschluss (vier Gruppen). Nicht berücksichtigt wurden die fehlenden Werte,
378
Jörg Blasius
Tab. 5: Eingabedaten: Zusammengesetzte Tabelle CDU SPD FDP Grüne PDS Andere Nicht- Nicht Verwei- Summe Partei wähler Ber. gerer Postmaterialisten PM-Mischtyp M-Mischtyp Materialisten Männer Frauen Bis 29 Jahre 30 bis 44 Jahre 45 bis 59 Jahre 60 bis 74 Jahre 75 Jahre plus Hauptschule Realschule Fachabitur Abitur Summe
113 219 242 147 400 322 117 173 175 209 48 297 225 57 133
179 177 178 123 339 321 111 198 156 151 44 271 195 51 134
81 84 80 37 148 136 44 70 79 72 19 93 95 26 69
109 45 34 13 82 119 45 87 51 11 6 37 47 19 91
45 47 42 27 76 85 30 50 48 27 6 39 60 13 46
13 21 22 3 42 18 9 28 15 8 0 22 24 6 6
30 65 69 48 95 124 34 93 48 33 9 109 77 11 20
19 28 44 31 63 59 36 51 26 7 1 49 33 5 29
87 101 115 84 152 239 63 139 93 66 27 163 123 22 72
676 787 826 513 1397 1423 489 889 691 584 160 1080 879 210 600
2877 2628 1133
796
641
237
865
481
1546
11204
von denen es hier auch nur wenige gibt. Die betroffenen Variablen haben damit ein etwas geringeres Gewicht, welches proportional zu der Anzahl der fehlenden Werte ist (zu den Effekten Blasius 2001). Die Anzahl der Ausprägungen schwankt bei den vier beschreibenden Variablen zwischen zwei (Geschlecht) und fünf (Alter), was noch als unbedenklich angesehen werden kann. Große Unterschiede in der Anzahl der Ausprägungen sollten jedoch vermieden werden. Die Eingabedaten sind in Tabelle 5 wiedergegeben; in Abbildung 2 sind die gewichteten Abweichungen vom Unabhängigkeitsmodell der Effekte von „Parteipräferenz“ mit „Materialismus-Postmaterialismus“, „Alter“, „Geschlecht“ und „Schulabschluss“ grafisch dargestellt, die Effekte zwischen den vier beschreibenden Variablen werden bei der Analyse dieser zusammengesetzten Tabelle nicht berücksichtigt. Die Dimensionalität der Lösung wird bei zusammengesetzten Tabellen aus dem Minimum von Zeilen und Spalten minus der jeweiligen Anzahl von Variablen bestimmt, also min (I − Qr ,J − Qc ) = min(9 − 1,15 − 4) = 8. Das Gesamtträgheitsgewicht (λG = 0,047) entspricht dem durchschnittlichen Trägheitsgewicht der vier Tabellen, wobei die vier Variablen die folgenden Anteile haben: Materialismus-Postmaterialismus: λG.M = 0,064, Geschlecht: λG.G = 0,018, Alter: λG.A = 0,055 und Bildung: λG.B = 0,053; damit sind die Effekte von „Materialismus-Postmaterialismus“, „Alter“ und „Bildung“ auf die Sonntagsfrage wesentlich stärker als jener des Geschlechts. In der grafischen Darstellung wird dies dadurch sichtbar, dass die beiden Ausprägungen des Geschlechts relativ dicht am Achsenkreuz liegen, während die der anderen drei Variablen relativ stark im Projektionsraum streuen (vgl. Abbildung 2).
16 Korrespondenzanalyse
379
λ2 = 0,011 (22,2%)
Nichtwahlberechtigte • 30-44 Jahre *
λ1= 0,028 (59,4%)
Grüne• -0,5 Postmaterialisten * * Abitur
Frauen 18-29 Jahre * *
• Nichtwähler • Verweigerer * Materialisten andere Partei * Hauptschule • * Mat-Mischtyp * Realschule
• PDS • SPD * Postmat-Mischtyp 45-59 Jahre* * • CDU-CSU Männer FDP • * 75 Jahre und mehr Fachabitur * 60-74 Jahre *
Abb. 2: Graphische Darstellung der Korrespondenzanalyse der Daten aus Tabelle 5 Im Gegensatz zum ersten Beispiel ist die Lösung der Korrespondenzanalyse auf die zusammengesetzte Tabelle zweidimensional mit λ1 = 0,028 (59,4 % erklärte Varianz) und λ2 = 0,011 (22,2 %). Dabei spiegelt die erste Dimension auf der Ebene der präferierten Parteien insbesondere den Gegensatz von Grünen (und tendenziell auch PDS) vs. den Anhängern von CDU-CSU und den bekennenden Nichtwählern wider. Die zweite Achse reflektiert insbesondere die Nichtwähler und die Nichtwahlberechtigten vs. Anhänger der FDP und tendenziell jene der CDU-CSU. Auf der Ebene der beschreibenden Variablen korrespondieren die Anhänger der Grünen (und tendenziell jene der PDS) mit den Postmaterialisten und den Abiturienten, die Wähler von CDU-CSU mit den Materialisten, den Älteren (60 bis 74 Jahre sowie 75 Jahre und älter) und den Hauptschülern. Bei der Interpretation von Abbildung 2 ist zu beachten, dass die Effekte zwischen „Materialismus-Postmaterialismus“, „Alter“, „Geschlecht“ und „Bildung“ in der Analyse nicht berücksichtigt wurden. Sollen diese Effekte in die Analyse eingehen, dann muss die multiple Korrespondenzanalyse verwendet werden. 4.2 Multiple Korrespondenzanalyse Im Folgenden sollen die Zusammenhänge innerhalb eines Sets von Variablen betrachtet werden, also alle Interaktionseffekte erster Ordnung. Bei dieser Art der Analyse, die der Hauptkomponentenanalyse am ähnlichsten ist, wird nach Strukturen (nach latenten Variablen) gesucht, mit denen die Zusammenhänge zwischen den Variablen beschrieben werden können; z. B. haben die Personen, die zu den Materialisten zählen, überdurchschnittlich oft einen Hauptschulabschluss und sind Abiturienten überdurchschnittlich oft Postmaterialisten?
380
Jörg Blasius
Als Eingabeinformation für die multiple Korrespondenzanalyse kann sowohl die Burt-Matrix als auch die Indikatormatrix verwendet werden, die Lösungen sind ineinander überführbar. So entsprechen die Eigenwerte der Burt-Matrix dem Quadrat der Eigenwerte der Indikatormatrix (λB.k = λ2H.k ). Das Verhältnis der Lokalisationen der Variablenausprägungen der Burt-Matrix (λB.k ) zu denen der Indikatormatrix (λH.k ) 2 2 kann wie folgt angegeben werden (vgl. Blasius 2001, S. 186): yB.jk/λB.k = yH.jk/λH.k . Das Gesamtträgheitsgewicht errechnet sich im Fall der Burt-Matrix aus der Summe der Trägheitsgewichte der einzelnen bivariaten Tabellen, dividiert durch deren Anzahl (Q2 mit Q = Anzahl der Variablen). Wie Benzécri (1979) zeigt, sind bei der Zerlegung der Burt- bzw. der Indikatormatrix jene Eigenwerte irrelevant, die kleiner 1/Q (bei der Indikatormatrix) bzw. als kleiner 1/Q2 (bei der Burt-Matrix) sind. Die verbleibenden Eigenwerte können ebenso wie die Koordinatenwerte reskaliert werden. Die Reskalierung der Eigenwerte erfolgt im Fall der Indikatormatrix durch: ˜k = λ
Q Q−1
1 λH.k − Q
2 mit
K
˜k = λ ˜G . λ
(6)
k=1
Werden die reskalierten Eigenwerte auf die Summe der reskalierten Eigenwerte bezogen, so ist der Anteil der erklärten Varianz des ersten Faktors (bzw. in Abhängigkeit von der Anzahl der relevanten Dimensionen, der ersten Faktoren) in der Regel deutlich größer als jene(r) ohne Reskalierung. Greenacre (1988) zeigt, dass die erklärte Varianz des ersten Faktors (der ersten Faktoren) des auf der Basis der singulären Wertezerlegung hervorgehenden Eigenwertes unterschätzt und dass die erklärte Varianz, die auf der Basis der von Benzécri reskalierten Eigenwerte berechnet wurde, überschätzt ist. Durch die Reskalierung verschieben sich die Koordinaten der Variablenausprägungen in Abhängigkeit der Trägheitsgewichte der Achsen, d. h. die Distanzen im latenten Raum werden um achsenspezifische Faktoren verändert. Da aber die relativen Abstände auf den einzelnen Achsen erhalten bleiben und da die Interpretationen über die Projektionen auf den Achsen erfolgen sollte, bleibt die Interpretation der Ergebnisse unverändert (ausführlich dazu Blasius 2001). Als Beispiel für eine multiple Korrespondenzanalyse verwenden wir die im gleichen Datensatz vorhandenen Beurteilungen von neun abweichenden Verhaltensweisen, die jeweils auf einer vierstufigen Skala beantwortet werden sollten. Die Ausprägungen reichen von „halte ich für sehr schlimm“ bis „halte ich für überhaupt nicht schlimm“. Der Wortlaut der Fragen und deren univariate Verteilungen sind in Tabelle 6 wiedergegeben. Anhand von Tabelle 6 wird ersichtlich, dass alle Variablen relativ viel Varianz haben und dass sie unterschiedlich verteilt sind. Während fast alle Befragten es als zumindest ziemlich schlimm beurteilen, wenn der Mann seine Ehefrau zum Geschlechtsverkehr zwingt, finden dies nur etwas weniger als 25 % der Befragten hinsichtlich homosexueller Beziehungen, nahezu jede(r) zweite beurteilt diese Verhaltensweise als „überhaupt nicht schlimm“. Da es in allen Variablen nur relativ wenige fehlende Werte gibt und da diese zudem noch hoch miteinander korreliert sind, lassen wir sie aus den nachfolgenden Berechnungen heraus – diese Vorgehensweise entspricht dem des „listwise deletion“. Die Fallzahl reduziert sich damit von N = 2. 802 (vgl. Tabelle 1) auf N = 2. 673. Eine
16 Korrespondenzanalyse
381
Tab. 6: Beurteilungen von Verhaltensweisen, Angaben in Prozent (nur gültige Fälle) N A Ein Mann schlägt sein 10-jähriges Kind, weil es ungehorsam war. B Eine Frau lässt einen Schwangerschaftsabbruch vornehmen, weil sie keine Kinder haben möchte. C Ein Arzt gibt einem unheilbar kranken Patienten auf dessen Verlangen hin ein tödliches Gift. D Ein Arbeitnehmer macht absichtlich beim Lohnsteuerjahresausgleich falsche Angaben und erhält dadurch 500 Euro zuviel Lohnsteuerrückerstattung. E Jemand fährt mit öffentlichen Verkehrsmitteln, ohne einen gültigen Fahrausweis zu besitzen. F Ein Mann zwingt seine Ehefrau zum Geschlechtsverkehr. G Jemand raucht mehrmals in der Woche Haschisch. H Ein Mann hat homosexuelle Beziehungen zu einem anderen Mann. I Ein verheirateter Mann hat mit einer anderen Frau ein Verhältnis.
Sehr Ziemlich Weniger Nicht schlimm schlimm schlimm schlimm
2799
49,6
32,7
16,6
1,1
2772
21,8
26,6
33,5
18,1
2775
15,2
13,9
40,7
30,1
2798
19,4
36,6
35,2
8,8
2814
16,3
30,5
45,0
8,2
2801
79,5
17,3
2,5
0,7
2802
45,3
25,2
21,8
7,7
2800
14,2
10,4
27,0
48,4
2786
31,4
40,7
22,0
5,9
elegantere Möglichkeit als den fallweisen Ausschluss der Werte diskutieren Greenacre & Pardo (2006) im Rahmen ihrer Subset Korrespondenzanalyse. Werden die Interaktionseffekte der neun Variablen zu den Beurteilungen von abweichenden Verhaltensweisen mit Hilfe der multiplen Korrespondenzanalyse beschrieben, so ist der erste Eigenwert λ1 = 0,293 und der zweite λ2 = 0,198. Die dazugehörigen erklärten Varianzen sind 9,8 % und 6,6 %, diese sind allerdings stark unterschätzt (siehe oben). Die grafische Darstellung der Ergebnisse (die ersten beiden Dimensionen) ist in Abbildung 3 wiedergegeben. Um die Abbildung übersichtlich zu gestalten, wurden die Variablen mit einzelnen Buchstaben gekennzeichnet (zum Wortlaut der Fragen und der Abkürzungen vgl. Tabelle 6). Die Zahlen stehen für die Ausprägungen (1 = sehr schlimm, 2 = ziemlich schlimm, 3 = weniger schlimm, 4 = überhaupt nicht schlimm). Von den neun Variablen sind sieben stark mit der ersten Dimension korreliert, was in der grafischen Darstellung u. a. daran zu erkennen ist, dass in diesen Fällen die ordinale Reihenfolge der jeweils vier Ausprägungen erhalten bleibt (vgl. die rechtwinkligen Projektionen auf der ersten Achse). Die sukzessiven Ausprägungen dieser sieben Variablen wurden zur besseren Lesbarkeit durch gestrichelte Linien verbunden. Damit misst die erste Dimension eine generelle Einstellung zu abweichenden Verhaltenswei-
382
Jörg Blasius λ 2=0,198 C2 B2 H3 E2
I2 F2 G2
D2 C3 A2
H2
B3 E3 D3 G3
λ 1 =0,293
A3 -1,0
G1
-0,5
I3
F1
1,0
H4
A1 I1 C1
D1
-0,5 B1
C4
F3
E1 H1 B4 -1,0
D4 G4 A4 -1,5 E4 F4
I4
Abb. 3: Graphische Darstellung der multiplen Korrespondenzanalyse sen, wobei die Faktorwerte umso niedriger sind, je stärker die Ablehnung derartiger Verhaltensweisen ist (negativer Bereich der ersten Dimension). Die beiden Ausnahmen sind die Einstellungen zur Gewalt gegen Kinder (Variable A) und zu Vergewaltigungen in der Ehe (F). Mit beiden Variablen wird anscheinend etwas anderes gemessen als die generelle Einstellung zu abweichenden Verhaltensweisen. Da bei beiden Variablen die Ablehnung überdurchschnittlich hoch ist (vgl. Tabelle 6), kann vermutet werden, dass diese Verhaltensweisen auch von Personen als (sehr) schlimm bewertet werden, die gegenüber anderen abweichenden Verhaltensweisen eine weniger ablehnende Einstellung haben. Die zweite Dimension reflektiert bei allen neun Variablen einen sogenannten „Horseshoe-“ oder Guttman-Effekt, mit negativen Werten bei den Randkategorien und positiven Werten bei den mittleren Kategorien. Dieser Horseshoe-Effekt ist methodisch bedingt (vgl. Greenacre 1984; Van Rijckevorsel 1987; Blasius & Thiessen 2006, 2009), er kann in dem gegebenen Beispiel als zusätzliches Kriterium für die Bedeutung der ersten Dimension angesehen werden. Soll weitere inhaltlich bedingte Variation visualisiert werden, z. B. jene, die durch die beiden Variablen „Gewalt gegen Kinder“
16 Korrespondenzanalyse
383
und „Vergewaltigung in der Ehe“ verursacht wird, so kann auch die erste gegen die dritte oder die dritte gegen die vierte Dimension grafisch dargestellt werden. 4.3 Aktive und passive Merkmale Sowohl bei der einfachen als auch bei der multiplen Korrespondenzanalyse ist es möglich, Variablen(ausprägungen) in einen bereits bestehenden Raum zu projizieren. Diese zusätzlich berücksichtigten passiven Variablen(ausprägungen) haben keinen Einfluss auf die geometrische Ausrichtung der Achsen, sie können aber gemeinsam mit den aktiven Variablen(ausprägungen) interpretiert werden. Passive Variablen(ausprägungen) müssen im Fall der einfachen Korrespondenzanalyse lediglich die gleiche Spalten- bzw. die gleiche Zeilenstruktur wie die Ausgangsdaten haben. Auch in der multiplen Korrespondenzanalyse können passive (ergänzende, illustrierende) Variablen oder auch nur einzelne Variablenausprägungen verwendet werden. So können Lebensstilmerkmale, wie sie von Bourdieu (1982) verwendet wurden, auch multipel verknüpft werden. Mit einem derartigen Set von Variablen kann der Projektionsraum aufgespannt werden, und dort können dann sozio-demografische Merkmale als passive Ausprägungen berücksichtigt werden (z. B. Blasius & Friedrichs 2008). Es kann aber auch mit Hilfe von Indikatoren, wie bevorzugten TV-Sendungen, Lebensstilmerkmalen, Schauspielern, Künstlern und Sportlern, ein „sozialer Raum“ aufgespannt werden, in den nachträglich (passiv) die Präferenzen für Produkte projiziert werden. Damit wäre eine Zuordnung von Merkmalen, die u. a. für die Werbung relevant sind (welche Schauspieler bzw. welche Sportler sind die geeigneten Sympathieträger für ein bestimmtes Produkt, welche Sendungen sind ideal für die Platzierung von Werbung), und Produkten möglich (Blasius & Mühlichen 2010). Passive Merkmale können auch dann verwendet werden, wenn es bei einer Variablen viele fehlende Werte oder gar strukturelle Nullen gibt, und wenn nur die inhaltlich relevanten Ausprägungen in die Interpretation einbezogen werden sollen. Da passive Merkmale auch als Ausprägungen mit einem Gewicht von „Null“ betrachtet werden können, und da sie keinen Einfluss auf die geometrische Ausrichtung der Achsen haben, ist die Verteilung der Merkmale relativ beliebig. Die Fallzahlen der einzelnen Kategorien und deren Anzahl pro Variable können sehr unterschiedlich sein. In Abbildung 4 wurden die Merkmale Parteipräferenz (neun Ausprägungen), Alter (fünf Ausprägungen), Schulabschluss (vier Ausprägungen) und MaterialistenPostmaterialisten (vier Ausprägungen) in den Raum projeziert, der bereits auf der Basis der neun Verhaltensweisen bestimmt wurde (Abbildung 3). Zur besseren Lesbarkeit wurden dies Merkmale kursiv gesetzt. Durch die Berücksichtigung dieser zusätzlichen Merkmale kommt es zu keiner Änderung der geometrischen Ausrichtung der Achsen, der Zusammenhang zwischen den neun abweichenden Verhaltensweisen mit ihren insgesamt 36 Ausprägungen bleibt also unverändert. Die neuen Ausprägungen können aber in die Interpretation eingebunden werden, so dass jetzt u. a. gesagt werden kann, dass je jünger die Befragten sind, desto weniger schlimm finden sie abweichende Verhaltensweisen im Allgemeinen (Abbildung 4). Werden die fünf Ausprägungen des Alters („18-29“ bis „75+“) auf die erste Achse projiziert, dann wird ersichtlich, dass die ordinale Reihenfolge der Altersausprägungen fehlerfrei wiedergegeben wird – je älter die Befragten sind, desto weiter links sind sie auf der ersten Achse lokalisiert,
384
Jörg Blasius λ 2 =0,198 C2 B2 H3 0,5 E2
C3 A2
H2 FDP 75+ 60-74 -1,0 G1
CDU
HS -0,5 MAT
I2 F2 G2
D2
45-59 A3 MM F1 A1
SPD PMM RS VW AP PDS
B3 E3 D3 FA
PMAT
30-44 Abitur 18-29
G3
λ 1 =0,293
Grüne
1,0
I3 H4
NW
I1 NB C1
D1
B1
F3
C4
-0,5
E1 H1 B4 -1,0
D4 G4 A4 -1,5 E4 F4
I4
Abb. 4: Graphische Darstellung der Korrespondenzanalyse mit passiven Merkmalen desto schlimmer beurteilen sie abweichende Verhaltensweisen. Einen ähnlich deutlichen Zusammenhang mit der ersten Dimension gibt es bei der Schulbildung (HS-RS-FAAbitur): Je niedriger der formale Bildungsabschluss ist, desto stärker die Ablehnung abweichender Verhaltensweisen. Mit der Einbeziehung dieser beiden Indikatoren kann bereits ein plausibles Argument gegeben werden, warum die beiden Merkmale „Gewalt gegen Kinder“ und „Vergewaltigung in der Ehe“ nicht mit der ersten Dimension korrelieren, sondern etwas anderes als eine generelle Ablehnung abweichender Verhaltensweisen messen: Die Ablehnung dieser beiden Verhaltensweisen ist – im Gegensatz z. B. zur Beurteilung des Konsums von Haschisch, der insgesamt ähnlich häufig als sehr schlimm beurteilt wurde wie die Gewalt gegen Kinder – unabhängig von Alter und Bildung der Befragten. Sehr deutliche Unterschiede in der Beurteilung abweichender Verhaltensweisen bestehen auch bezüglich der Parteipräferenz (NB = Nichtwahlberechtigte, NW = Nichtwähler, VW = Verweigerer der Angabe, AP = andere Partei, CDU = CDUCSU). Insbesondere die Anhänger der Grünen, aber auch jene der PDS und der
16 Korrespondenzanalyse
385
anderen Parteien, beurteilen die vorgegebenen abweichenden Verhaltensweisen als weniger schlimm als der Durchschnitt der Befragten (Ausnahmen: Gewalt gegen Kinder und Vergewaltigung in der Ehe). Dem entgegen beurteilen die Anhänger von CDU und CSU, insbesondere jedoch die Nichtwahlberechtigten, abweichende Verhaltensweisen deutlich kritischer als der Durchschnitt der Bevölkerung. Da es sich bei den Nichtwahlberechtigten vorwiegend um Ausländer handeln dürfte, wird hier das Ergebnis von Friedrichs & Blasius (2000) bestätigt, demzufolge die türkischen Bewohner von benachteiligten Wohngebieten in Köln deutlich normenbewusster als ihre deutschen Nachbarn sind. Bezogen auf die materialistische-postmaterialistische Einstellung gilt, dass je mehr postmaterialistische Werte vorhanden sind, desto weniger schlimm werden abweichende Verhaltensweisen beurteilt (MAT = Materialisten, MM = MaterialistenMischtyp, PMM = Postmaterialisten-Mischtyp, PMAT = Postmaterialisten). 4.4 Andere Datenformate Wie im vorangegangenen Abschnitt gezeigt, werden bei der multiplen Korrespondenzanalyse alle Interaktionseffekte erster Ordnung berücksichtigt, was dem Vorgehen bei der Hauptkomponentenanalyse entspricht. Für einige Fragestellungen müssen jedoch die Effekte zweiter bzw. höherer Ordnung berücksichtigt werden. Soll zur Lösung eines derartigen Problems die Korrespondenzanalyse verwendet werden, so muss als Eingabeinformation eine höherdimensionale Kontingenztabelle gewählt werden. Beispiele für derartige Anwendungen geben Greenacre (2007), der die Selbsteinschätzung der eigenen Gesundheit (in fünf Stufen, von „sehr gut“ bis „sehr schlecht“) mit den interaktiv verknüpften Variablen Alter, Geschlecht und Nationalität analysiert. Blasius (2001) untersucht den Zusammenhang der interaktiv verknüpften Variablen „Alter“ und „Geschlecht“ mit den ebenfalls interaktiv verknüpften kulturellen Kompetenzen „Hosen umzunähen“ und „nach Popmusik zu tanzen“. Dabei findet er deutliche Unterschiede bei den Fähigkeiten hinsichtlich von Geschlecht und Alter – Alter ist eng mit Tanzen zu Popmusik verbunden, Geschlecht mit der Fähigkeit Hosen umzunähen –, aber nur einen marginalen Effekt zwischen den beiden kulturellen Kompetenzen. Die Ergebnisse der grafischen Darstellung können hier mit Hilfe des log-linearen Modells auf statistische Signifikanz überprüft werden. In der Wirtschafts- und Sozialforschung liegen sehr oft Tabellen vor, bei denen in den Zeilen und Spalten die gleichen Ausprägungen stehen. Ein Beispiel für derartige quadratische Tabellen sind bibliometrische Daten: In den Spalten stehen die zitierenden, in den Zeilen die zitierten Autoren und in den Zellen die Häufigkeiten des Zitierens, wobei die Hauptdiagonale die Anzahl der Selbstzitationen enthält. Bei der Auswertung von Paneldaten kann die Forschungsfrage auf die Veränderung des Berufsstatus oder der sozialen Schicht bezogen sein, also auf die vertikale, horizontale bzw. soziale Mobilität. In der Wahlforschung kann gefragt werden, wie groß der Anteil der Stammwähler der Parteien ist, von welcher Partei zu welcher Partei gewechselt wurde, für welche Parteien sich die Nichtwähler der vorangegangenen Wahl entschieden haben und welche Parteien Stimmen an die Nichtwähler verloren haben. Datengrundlage sind in den gegebenen Beispielen quadratische Tabellen, bei denen in der Regel die Hauptdiagonalen überdurchschnittlich stark besetzt sind: Es bleiben
386
Jörg Blasius
z. B. mehr Personen ihrer Partei treu als dass Personen zu einer bestimmten anderen Partei wechseln. Mit den ersten Dimensionen der Korrespondenzanalyse von derartigen quadratischen Tabellen werden daher insbesondere die gewichteten Abweichungen der Hauptdiagonalelemente von ihren Erwartungswerten beschrieben. An diesen Stellen wird die meiste Variation verursacht. Von besonderem Interesse sind aber oft die Personen, die von Partei A zu Partei B wechseln – und gerade diese Wechselwähler sollen angemessen beschrieben und grafisch dargestellt werden. Um diese Daten angemessen auswerten zu können, wird sich eines Tricks bedient: Die Daten werden in einen symmetrischen und schief-symmetrischen Teil überführt. Mit dem symmetrischen Teil kann dann die Stabilität grafisch dargestellt werden, mit dem schief-symmetrischen der Wechsel (Greenacre 2000; Blasius 2001). Des Weiteren können Ranking und Rating Daten ebenso analysiert werden wie metrische Daten und Multi-Response-Fragen. In diesen Fällen muss das Eingabeformat der Daten nur so gestaltet werden, dass die Gewichtung der Variablen keinen bzw. nur den gewünschten Effekt auf das Ergebnis hat.
5 Häufige Fehler Der Vorteil der Korrespondenzanalyse ist, dass man bei der Anwendung so gut wie keine Fehler machen kann und die richtige Interpretation ist meistens nur eine Frage des sorgfältigen Lesens der grafischen Darstellung. Dazu gehört allerdings etwas Übung, um z. B. sofort zu erkennen, wie eine Konfiguration „gelesen“ werden muss. Fehler in der Interpretation können zudem vermieden werden, wenn die Randauszählungen der Variablen standardmäßig einbezogen werden. Zu beachten ist, dass die Interpretation der Ergebnisse relativ zu allen Werten erfolgt, also relativ zum Durchschnitt und nicht in absoluten Zahlen. Schlussfolgerungen wie „sehr hoch“ oder „sehr niedrig“ können allenfalls auf der Basis der Randsummen erfolgen, sie sind kein Ergebnis der Korrespondenzanalyse, stattdessen sollte von „überdurchschnittlich hoch“ oder „relativ niedrig“ gesprochen werden. Ein zwar einfach zu vermeidender, aber immer wieder vorkommender Fehler ist eine grafische Darstellung, bei der die x-Achse anders als die y-Achse skaliert ist, d. h. die Distanz auf der x-Achse, z. B. 1,0 Skalenpunkte (gemessen in cm), ist ungleich der gleichen Distanz auf der y-Achse, d. h., für 1,0 Skalenpunkte werden in einer Dimension mehr Zentimeter als in der anderen Dimension verwendet. Die Ursache dieses Fehlers ist in der Regel die Verwendungen von Grafikprogrammen wie Powerpoint und die Übernahme von deren Voreinstellungen. Diese liefern zwar in der Regel ein schöneres und seitenoptimiertes Bild, aber eben leider ein fehlerbehaftetes. Bei der einfachen Korrespondenzanalyse, also bei der Eingabe von einzelnen oder zusammengesetzten Tabellen (ohne Burt-Matrizen), wird zwar in der Regel die symmetrische Darstellung verwendet, aber die Grafik wird ab und zu euklidisch interpretiert, was nicht möglich ist (SPSS 17 erlaubt eine derartige grafische Darstellung daher nicht, bei einer entsprechenden Einstellung werden nur die numerischen Koordinaten gegeben). Bei der multiplen Korrespondenzanalyse kann dieser Fehler nur begangen werden, wenn bei Verwendung der Indikatormatrix die Zeilen, also in der Regel die
16 Korrespondenzanalyse
387
Individuen, und die Spalten, also die Variablenausprägungen, in einer symmetrischen Darstellung gemeinsam visualisiert werden. Dieser Fall ist sehr theoretisch, da den einzelnen Personen meistens keine Bedeutung zukommt und sie grafisch nicht dargestellt werden – und wenn, so können deren Lagen im Projektionsraum in einer getrennten grafischen Darstellung wiedergegeben werden (z. B. Bourdieu 1984; Blasius & Mühlichen 2010).
6 Diskussion Anhand verschiedener Beispiele wurden die wichtigsten Einsatzmöglichkeiten der Korrespondenzanalyse zur Beschreibung von kategorialen Daten diskutiert. Das Verfahren kann auf nahezu beliebige Arten von Daten angewendet werden. In vielen Fällen müssen diese jedoch zuvor in eine geeignete Form gebracht werden – diese Kodierung ist häufig der schwierigste Teil bei der Anwendung der Korrespondenzanalyse. Der wohl größte Vorteil der Korrespondenzanalyse ist die Visualisierung der Ergebnisse. Komplexe Zusammenhänge zwischen einer Vielzahl von Merkmalen bzw. Merkmalsausprägungen können (meistens) in einer einzigen Abbildung dargestellt werden. Statt einer Vielzahl von Koeffizienten wird die Information konzentriert vermittelt. Eine Eigenschaft, der auch in der Marktforschung eine große Bedeutung zukommen sollte (vgl. Blasius & Mühlichen 2010). Wie bei allen Datenreduktionsverfahren kann es zu Fehlinterpretationen kommen, wenn Merkmale durch eine höhere Dimension erklärt werden. Um eine derartige Fehlinterpretation zu vermeiden, können entweder die grafischen Darstellungen der höheren Dimensionen gezeigt werden oder es kann auf die numerische Ausgabe der Korrespondenzanalyse zurückgegriffen werden. Mit den numerischen Informationen ist nicht nur eine exakte Zuordnung der Merkmale zu den Achsen möglich, sondern es kann auch angegeben werden, welche Merkmale wie wichtig zur Beschreibung der geometrischen Ausrichtung der Achsen im Projektionsraum sind (vgl. Greenacre 1984, 2007; Blasius 1994, 2001; Le Roux & Rouanet 2004). Die Korrespondenzanalyse ist ein exploratives Verfahren, statistische Tests sind – in der französischen Tradition – nicht intendiert. Dennoch kann die Korrespondenzanalyse auch als Modell im statistischen Sinn interpretiert werden; ähnlich wie bei der loglinearen Analyse können mit Hilfe der berechneten Parameter die Ausgangsdaten im K-dimensionalen Raum vollständig rekonstruiert werden (vgl. Greenacre 1984; Van der Heijden et al. 1989, 1994).
7 Literaturempfehlungen Inzwischen gibt es eine ganze Reihe guter Einführungen in die Korrespondenzanalyse, allerdings überwiegend in Englisch oder Französisch. Immer noch aktuell und statistisch relativ anspruchsvoll sind die Einführungen von Greenacre (1984) und Lebart et al. (1984), aber auch jene von Benzécri & collaborateurs (1973) ist durchaus noch lesenswert. Einen sehr guten Überblick über das Verfahren und viele Anwendungen aus
388
Jörg Blasius
unterschiedlichen inhaltlichen Gebieten gibt Greenacre (2007). Eine deutschsprachige Einführung mit sozialwissenschaftlichen Beispielen gibt Blasius (2001), eine statistisch anspruchvolle, z. T. in der formalen Darstellung leider auch unnötig komplizierte, aber ebenfalls mit vielen sozialwissenschaftlichen Beispielen versehene Einführung geben Le Roux & Rouanet (2004). Eine Vielzahl von Anwendungen aus unterschiedlichen thematischen Gebieten und einige theoretische Grundlagen der Korrespondenzanalyse und benachbarter Verfahren sind in den Readern von Greenacre & Blasius (1994, 2006), sowie von Blasius & Greenacre (1998) enthalten.
Literaturverzeichnis Benzécri, J.-P. (1979). Sur le calcul des taux d’inertia dans l’analyse d’un questionnaire. Cahiers de l’Analyse des Données, 4, 377–378. Benzécri, J.-P. & collaborateurs (1973). L’analyse des données. L’analyse des correspondances. Paris: Dunod. Blasius, J. (1994). Correspondence Analysis in Social Science Research. In M. Greenacre & J. Blasius (Hg.), Correspondence Analysis in the Social Sciences. Recent Developments and Applications (S. 23–52). London: Academic Press. Blasius, J. (2001). Korrespondenzanalyse. München: Oldenbourg. Blasius, J. & Friedrichs, J. (2008). Lifestyles in Distressed Neighborhoods. A Test of Bourdieu’s "Taste of Necessity" Hypothesis. Poetics, 36, 24–44. Blasius, J. & Greenacre, M., Hg. (1998). Visualization of Categorical Data. London: Academic Press. Blasius, J. & Mühlichen, M. (2010). Identifying Audience Segments Applying the "Social Space" Approach. Poetics, 38, 69–89. Blasius, J. & Thiessen, V. (2006). Assessing Data Quality and Construct Comparability in Cross-National Surveys. European Sociological Review, 22, 229–242. Blasius, J. & Thiessen, V. (2009). Facts and Artifacts in Cross-National Research: The Case of Political Efficacy and Trust. In M. Haller, R. Jowell, & T. W. Smith (Hg.), Charting the Globe. The International Social Survey Programme, 1985-2005 (S. 147–169). London: Routledge. Bourdieu, P. (1982). Die feinen Unterschiede. Kritik der gesellschaftlichen Urteilskraft. Frankfurt/M.: Suhrkamp. Bourdieu, P. (1984). Homo Academicus. Frankfurt/M.: Suhrkamp. Bourdieu, P. (1991). Inzwischen kenne ich alle Krankheiten der soziologischen Vernunft. Pierre Bourdieu im Gespräch mit Beate Krais. In P. Bourdieu, J.-C. Chamboreden, J.-C. Passeron, B. Krais, & H. Beister (Hg.), Soziologie als Beruf (S. 269–284). Berlin: Walter de Gruyter. Eckart, C. & Young, G. (1936). The Approximation of One Matrix by Another of Lower Rank. Psychometrika, 1, 211–218. Friedrichs, J. & Blasius, J. (2000). Leben in benachteiligten Wohngebieten. Opladen: Leske + Budrich. Gifi, A. (1990). Nonlinear Multivariate Analysis. Chichester: Wiley.
16 Korrespondenzanalyse
389
Goodman, L. A. (1991). Measures, Models, and Graphical Display in the Analysis of CrossClassified Data (with Discussion). Journal of the American Statistical Association, 86, 1085–1138. Greenacre, M. J. (1984). Theory and Applications of Correspondence Analysis. London: Academic Press. Greenacre, M. J. (1988). Correspondence Analysis of Multivariate Categorical Data by Weighted Least Squares. Biometrika, 75, 457–467. Greenacre, M. J. (2000). Correspondence Analysis of Square Asymmetric Matrices. Applied Statistics, 49, 297–310. Greenacre, M. J. (2007). Correspondence Analysis in Practice. Boca Raton: Chapman & Hall. Greenacre, M. J. & Blasius, J., Hg. (1994). Correspondence Analysis in the Social Sciences. Recent Developments and Applications. London: Academic Press. Greenacre, M. J. & Blasius, J., Hg. (2006). Multiple Correspondence Analysis and Related Methods. Boca Raton: Chapman & Hall. Greenacre, M. J. & Pardo, R. (2006). Multiple Correspondence Analysis of Subsets of Response Categories. In M. J. Greenacre & J. Blasius (Hg.), Multiple Correspondence Analysis and Related Methods (S. 197–217). Boca Raton: Chapman & Hall. Heiser, W. J. & Meulman, J. J. (1994). Homogeneity Analysis: Exploring the Distribution of Variables and their Nonlinear Relationship. In M. Greenacre & J. Blasius (Hg.), Correspondence Analysis in the Social Sciences. Recent Developments and Applications (S. 179–209). London: Academic Press. Le Roux, B. & Rouanet, H. (1998). Interpreting Axes in Multiple Correspondence Analysis: Method of the Contributions of Points and Deviations. In J. Blasius & M. Greenacre (Hg.), Visualization of Categorical Data (S. 197–220). San Diego: Academic Press. Le Roux, B. & Rouanet, H. (2004). Geometric Data Analysis. Amsterdam: North Holland. Lebart, L., Morineau, A., & Warwick, K. M. (1984). Multivariate Descriptive Statistical Analysis: Correspondence Analysis and Related Techniques for Large Matrices. New York: Wiley. Michailidis, G. & de Leeuw, J. (1998). The Gifi System for Descriptive Multivariate Analysis. Statistical Science, 13, 307–336. Rouanet, H., Ackermann, W., & Le Roux, B. (2000). The Geometric Analysis of Questionnaires: The Lesson of Bourdieu’s ’La Distinction’. Bulletin de Méthodologie, 65, 5–18. Van der Heijden, P. G. M., de Falguerolles, A., & de Leeuw, J. (1989). A Combined Approach to Contingency Table Analysis Using Correspondence Analysis and Loglinear Analysis. Applied Statistics, 38, 249–292. Van der Heijden, P. G. M., Mooijaart, A., & Takane, Y. (1994). Correspondence Analysis and Contingency Table Models. In M. Greenacre & J. Blasius (Hg.), Correspondence Analysis in the Social Sciences. Recent Developments and Applications (S. 79–111). London: Academic Press. Van Rijckevorsel, J. (1987). The Application of Fuzzy Coding and Horseshoes in Multiple Corresondence Analysis. Leiden: DSWO Press.
17 Multidimensionale Skalierung Ingwer Borg GESIS – Leibniz-Institut für Sozialwissenschaften, Mannheim
Zusammenfassung. Multidimensionale Skalierung (MDS) bezeichnet eine Familie von Verfahren, die Objekte des Forschungsinteresses durch Punkte eines mehrdimensionalen Raums (MDS-Lösung) so darstellen, dass die Distanz zwischen je zwei Punkten in diesem Raum einem gegebenen Nähe-, Abstands-, Ähnlichkeits- oder Unähnlichkeitswert (Proximität) dieser Objekte so genau wie möglich entspricht. Als Proximitäten lassen sich außerordentlich viele Funktionen verwenden wie etwa Korrelationen der Objekte über ihre Ausprägungen auf verschiedenen Variablen (z. B. die Interkorrelationen verschiedener sozialer Gruppen in Bezug auf eine Batterie von Eigenschaften); direkt erhobene globale Ähnlichkeitsratings für Paare von Objekten (z. B. Beurteilungen verschiedener Länder durch eine Person auf einer Skala von „sehr ähnlich“ bis „sehr verschieden“); oder co-occurrence Koeffizienten, die messen, wie oft ein Ereignis zusammen mit einem anderen auftritt (z. B. wie oft kommt Verbrechen X zusammen mit Verbrechen Y vor, relativ zur Gesamthäufigkeit von X und Y ). Das MDS-Modell spezifiziert (1) die Transformierbarkeit der Proximitäten (z. B. ordinal oder linear) und (2) die Distanzfunktion zwischen den Punkten (meist: die euklidische Distanz). Die formale Güte einer MDS-Darstellung wird durch ihren Stress-Wert angezeigt. Stress ist eine Verlustfunktion, die misst, wie schlecht die Distanzen den Proximitäten entsprechen. Ist der Stress gleich Null, dann entsprechen die Distanzen den (zulässig transformierten) Proximitäten perfekt. Der Anwender muss bewerten, ob der Stress klein genug ist für den gegebenen Kontext (Zahl der Objekte, Dimensionalität des Raums, Distanzfunktion, Interpretierbarkeit, Replizierbarkeit, usw.). Eine MDS-Darstellung dient meist dazu, die Daten für explorative Zwecke zu visualisieren. Eine MDS kann aber auch theorietestend eingesetzt werden, wenn Vorhersagen darüber entwickelt werden können, wie sich die Objekte im MDS-Raum verteilen. Die hierbei häufigste Form einer Hypothese ist die einer bestimmten Verteilung der Objekt-Punkte entlang von ein oder mehreren Dimensionen im MDS-Raum.
1 Einführung in die MDS Die MDS wird heute vorwiegend zur Datenanalyse verwendet. Ursprünglich war sie jedoch ein Modell darüber, wie Personen Urteile über die Ähnlichkeit von Objekten bilden. In vielen Anwendungen der MDS finden sich noch Spuren dieses Modells wieder. Wir betrachten deshalb zunächst ein typisches Beispiel aus den Anfängen der MDS.
S. 391–418 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_17, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
392
Ingwer Borg
Tab. 1: Mittlere Ähnlichkeitsratings für 12 Länder (Wish 1971) Land Brasilien Kongo Kuba Ägypten Frankreich Indien Israel Japan China UdSSR USA Jugoslawien
1
2
3
4
5
6
7
8
9
10
11
12
– 4,83 5,28 3,44 4,72 4,50 3,83 3,50 2,39 3,06 5,39 3,17
– 4,56 5,00 4,00 4,83 3,33 3,39 4,00 3,39 2,39 3,50
– 5,17 4,11 4,00 3,61 2,94 5,50 5,44 3,17 5,11
– 4,78 5,83 4,67 3,83 4,39 4,39 3,33 4,28
– 3,44 4,00 4,22 3,67 5,06 5,94 4,72
– 4,11 4,50 4,11 4,50 4,28 4,00
– 4,83 3,00 4,17 5,94 4,44
– 4,17 4,61 6,06 4,28
– 5,72 2,56 5,06
– 5,00 6,67
– 3,56
–
1.1 Die MDS als psychologisches Modell Wish (1971) interessierte sich für die Frage, wie der Eindruck subjektiver Ähnlichkeit von Ländern zustande kommt. Er führte dazu eine kleine Befragung durch, bei der acht Studenten 12 Länder nach ihren paarweisen Ähnlichkeiten beurteilten. Gefragt wurde z. B.: „Wie ähnlich finden Sie Japan und China?“ Für die Antwort stand den Befragten eine Skala von „sehr unähnlich“ (=1) bis „sehr ähnlich“ (=9) zur Verfügung. Was unter „ähnlich“ zu verstehen ist, wurde bewusst offen gelassen: „There were no instructions concerning the characteristics on which these similarity judgments were to be made; this was information to discover rather than to impose“ (Kruskal & Wish 1978, S. 30). Die mittleren Ähnlichkeitsratings zeigt Tabelle 1. Man kann sich nun folgende Aufgabe stellen. Man nehme 12 kleine Zettel und beschrifte diese mit Brasilien, Kongo usw. Dann werfe man diese Zettel auf einen Tisch und verschiebe sie anschließend in kleinen Schritten so, dass ihre Abstände den Werten in Tabelle 1 möglichst gut entsprechen. Da z. B. die Ähnlichkeit zwischen Brasilien und Kuba in Tabelle 1 mit 5,28 recht hoch ist, sollten also die Zettel für Brasilien und für Kuba relativ nah zusammenliegen. Da andererseits USA und Kongo mit 2,39 als relativ wenig ähnlich beurteilt werden, sollten diese Zettel einen großen Abstand haben. Testpersonen kommen mit dieser Aufgabe meist recht gut klar. Sie produzieren damit eine 2-dimensionale MDS-Darstellung der Ähnlichkeitsdaten per Hand. Einfacher ist es natürlich, hierfür ein entsprechendes Computerprogramm zu verwenden. Alle großen Statistikpakete enthalten entsprechende Module. Ihre Voreinstellungen entsprechen sich weitgehend. Vorausgesetzt wird immer, dass man vorab eine Proximitätsmatrix (wie z. B. in Tabelle 1) eingegeben oder berechnet hat. Unter den üblichen Voreinstellungen erzeugt das MDS-Programm dann eine Lösung wie in Abbildung 1. Ältere Computerprogramme geben für diese Punkte nur die kartesischen Koordinaten der Punkte aus (in Tabelle 2 als „Dim. 1“ und „Dim. 2“ bzw., zusam-
17 Multidimensionale Skalierung
393
2
Brasilien
1
Dimension 2
Kongo Indien
0
USA
Frankreich
Israel
Ägypten Kuba
Japan Jugoslawien
-1
UdSSR
China
-2 -2
-1
0
1
2
Dimension 1
Abb. 1: MDS-Darstellung der Ähnlichkeitswerte aus Tabelle 1 menfassend, als Koordinatenmatrix X bezeichnet), neuere automatisch auch grafische Konfigurationsplots. Abbildung 1 zeigt z. B., dass die Länder Jugoslawien und UdSSR durch Punkte dargestellt sind, die nah zusammenliegen. Entsprechend groß ist ihr Ähnlichkeitswert in Tabelle 1 (=6,67, der größte Wert). In Abbildung 1 sehen wir weiter, dass die Punkte Brasilien und China relativ weit voneinander entfernt liegen. Entsprechend klein ist ihr Ähnlichkeitsdatum (=2,39). Die Konfiguration repräsentiert die Daten also richtig, jedenfalls im Sinne der Ordnung dieser beiden Datenwerte. Zur Interpretation wird gefragt: Welche deutbaren Dimensionen spannen die Ebene auf? Formal wird die Ebene z. B. durch die vom Computerprogramm mit „Dimension 1“ und „Dimension 2“ bezeichneten Achsen aufgespannt. Diese sind hier die Hauptachsen der Konfiguration: Dimension 1 erklärt ein Maximum der Streuung der Punkte, weil die Summe der quadrierten Projektionswerte der Punkte auf sie größer ist als auf jede andere Gerade in dieser Ebene. Dimension 2 steht senkrecht auf Dimension 1 und erklärt – im 2-dimensionalen Fall trivialerweise – das Maximum der verbleibenden Varianz. Man kann die Koordinatenachsen in Abbildung 1 beliebig drehen („rotieren“), weil jedes andere Koordinatenkreuz die Ebene ebenfalls aufspannt („erklärt“). Wish jedenfalls meinte, dass ein um 45 Grad gedrehtes Koordinatenkreuz zu zwei besser interpretierbaren Dimensionen führt. Weit weg von der Mitte in Nord-West-Richtung liegen die Länder Kongo, Brasilien und Indien, während in der gegenüberliegenden Süd-Ost-Richtung z. B. Japan, USA und die UdSSR zu finden sind. Wish deutet diese Dimension als „Underdeveloped versus Developed“. Die zweite Achse (Süd-West nach Nord-Ost) interpretierte er als „Pro-Western versus Pro-Communist“. Diese
394
Ingwer Borg
Tab. 2: Koordinaten (X) der Punkte in Abbildung 1; Variablen ‚wirtschaftliche Entwicklung’ und ‚Einwohner’ zeigen weitere Messwerte für diese Länder X
wirtschaftliche
Einwohner
Land
Dim. 1
Dim. 2
Entwicklung
(Mio)
Brasilien Kongo Kuba Ägypten Frankreich Indien Israel Japan China UdSSR USA Jugoslawien
0,08 −1,12 −1,01 −0,56 0,42 −0,27 0,95 0,96 −0,80 0,14 1,19 −0,01
1,28 0,83 −0,13 0,08 0,19 0,41 −0,20 −0,46 −0,99 −0,84 0,27 −0,83
3 1 3 3 8 3 7 9 4 7 10 6
87 17 8 30 51 500 3 100 750 235 201 20
Interpretationen sind zu verstehen als Hypothesen darüber, welche Dimensionen die Befragten (nicht der Interpretierer selbst) bei ihren Urteilsbildungen – bewusst oder unbewusst – verwendet haben könnten. Ob dies so ist, lässt sich mit den gegebenen Daten nicht weiter prüfen. Für Wish jedenfalls war mit dieser Interpretation der Zweck dieser MDS-Studie erfüllt, nämlich das Aufdecken von Dimensionen, die der subjektiven Ähnlichkeit von Ländern zugrunde liegen könnten, oder – wie dies auch gerne bezeichnet wird – die inhaltliche Bestimmung der Dimensionen des „psychologischen Raums“, in dem derartige Urteile erzeugt werden. 1.2 Die MDS zur Exploration von Datenstrukturen Die MDS wird heute überwiegend zur Exploration von Datenstrukturen eingesetzt. Hierzu ein einfaches Beispiel. Abbildung 2 zeigt eine MDS-Darstellung von Korrelationen (für Westdeutschland) zwischen 13 Items aus dem ALLBUS 1991 (Tabelle 3 im Anhang). Die Items fragen danach, für wie wichtig die Befragten persönlich verschiedene Arbeitsaspekte wie z. B. hohes Einkommen oder gute Aufstiegschancen halten. In der MDS-Darstellung in Abbildung 2 kann man zwei dimensionale Deutungen vornehmen: In Nord-West-Richtung liegen extrinsische Arbeitswerte wie Geld, Sicherheit oder Aufstiegschancen, während süd-östlich intrinsiche Arbeitswerte wie interessante und unabhängige Arbeit liegen. Man kann die extrinsischen Arbeitswerte auch den sozialen Arbeitswerten (anderen helfen, nützliche Arbeit, sinnvolle Arbeit) gegenüberstellen und bekommt so eine zweite Dimension. Ein inhaltlich bedeutsames Achsenkreuz ergibt sich hier also nicht, sondern vielmehr eine Dreieck von Typen von Arbeitswerten (extrinsisch, intrinsisch, sozial). Die MDS dient in diesem Beispiel dazu, die Interkorrelationen der Items zu veranschaulichen. Der Betrachter soll so die Struktur der Interkorrelationen mit dem Auge
17 Multidimensionale Skalierung
395
Sicherheit Anerkennung Aufstiegschancen viel Geld
nützliche Arbeit anderen helfen
gesunde Arb.Bedg.
sinnvolle Arb. viel Kontakt
viel Freizeit
viel Verantwortg. unabhängige Arbeit interess. Arbeit
Abb. 2: Die Interkorrelationen von 13 Arbeitswerten (Westdeutschland) dargestellt in einer MDS-Ebene explorieren können. Das kann selbst im Fall einer relativ kleinen Anzahl von Variablen deutlich leichter fallen als das Studium einer Korrelationsmatrix, weil diese mit der Zahl ihrer Variablen fast quadratisch schnell anwächst, während auf einer Karte wie in Abbildung 2 mit jeder weiteren Variablen nur jeweils ein weiterer Punkt dazu kommt.
2 Mathematische Grundlagen der MDS 2.1 Güte einer MDS-Lösung Für jede MDS-Lösung stellt sich die Frage, wie gut sie die Daten darstellt. Hierüber informiert vor allem das Shepard-Diagramm, das die Beziehung der Proximitäten zu den MDS-Distanzen darstellt. Abbildung 3 illustriert dies für die Daten aus Tabelle 1. Man erkennt hier, dass die Distanzen in Abbildung 1 tendenziell kleiner werden, wenn die entsprechenden Proximitäten größer werden. Die Enge dieses Regressionstrends ließe sich z. B. mit einem Korrelationskoeffizienten als Fit-Index messen. Ebenso gut kann man eine Verlustfunktion verwenden, die zeigt, wie groß die Streuung der Punkte um eine in den Punkteschwarm optimal eingebettete Regressionslinie ist. Diese Regressionslinie ist in Abbildung 3 nicht linear, sondern nur monoton 1 , weil wir hier die ordinale MDS verwendet haben. Sie fordert, dass je größer die Ähnlichkeit 1
Genauer gesagt „schwach monoton fallend“, wobei „schwach“ heißt, dass die Regressionslinie auch Stufen bilden kann. Eine strikt monoton fallende Funktion würde von oben links nach unten rechts stets abwärts verlaufen. Das wäre zwar theoretisch attraktiver, mathematisch aber komplizierter und praktisch bedeutungslos, weil der Abfall beliebig flach erfolgen kann.
396
Ingwer Borg
Distanzen
2
1
0 3
4
5
6
Daten
Abb. 3: Shepard-Diagramm für die MDS-Lösung in Abbildung 1 der empirischen Objekte i und j ist, desto kleiner sollen die entsprechenden Distanzen der Punkte i und j sein. Differenzen, Verhältnisse oder andere metrische Eigenschaften der Daten bleiben also unbeachtet. Im Shepard-Diagramm in Abbildung 3 lässt sich der Informationsverlust der MDSDarstellung erfassen als Summe der quadrierten Abweichungen der Punkte von der Regressionslinie („Residuen“), gemessen entlang der Y -Achse, e2ij = [f (pij ) − dij (X)]2 , (1) i<j
i<j
für alle Punkte i und j. Hierbei sind die f (pij )’s Proximitäten, die innerhalb der Möglichkeiten des für die Daten angenommen Skalenniveaus so transformiert sind, dass sie die Distanzen der gegebenen MDS-Konfiguration X bestmöglich approximieren. Technisch ausgedrückt werden diese sog. Disparitäten mit einer Regression (vom Typ f ) der Distanzen auf die Daten ermittelt, so dass f (pij ) = d4ij (X) gilt. Die Distanzen sind im Normalfall euklidische Abstände der Punkte i und j der Konfiguration X. Sie berechnen sich aus den Punktkoordinaten als m dij (X) = (xia − xja )2 , (2) a=1
wobei m die Dimensionalität des MDS-Raums ist (im obigen Beispiel also m = 2). Die Distanz der Punkte i und j ergibt sich nach dieser Formel aus ihren Abständen auf den verschiedenen Dimensionen (von a = 1 bis a = m) des psychologischen Raums („intra-dimensionale Differenzen“). Der euklidische Abstand der Punkte Brasilien und
17 Multidimensionale Skalierung
397
Kongo beispielsweise errechnet sich also aus den Koordinatenwerten in Tabelle 2 als √ Quadratwurzel von [0,08 − (−1,12)]2 + (1,28 − 0,83)2 = 3,31 = 1,82. Geometrisch betrachtet entspricht dieser Abstand der natürlichen Vorstellung einer Distanz als der Länge der von Punkt i zu Punkt j gespannten Schnur oder dem Abstand von Punkt i und j mit dem Zollstock gemessen. Wenn man die Summe aus Formel (1) noch normiert mit einem Maß für die Größe der MDS-Darstellung, dann bekommt man ein allgemein interpretierbares Maß für die Güte einer MDS-Lösung. Genauer und nach Wurzelziehung2 ergibt sich die Verlustfunktion [dij (X) − d4ij (X)]2 i<j 2 . (3) Stress = dij (X) i<j
Stress ist der bekannteste Güteindex einer MDS-Lösung. 2.2 Bewertung des Stress Eine perfekte MDS-Lösung hat einen Stress von Null. In diesem Fall repräsentieren die Distanzen der MDS-Konfiguration die Daten perfekt im gewünschten Sinn. Die MDS-Lösung in Abbildung 2 hat einen Stress von 0,19.3 Sie repräsentiert die Daten also nur ungefähr richtig. Ist aber „ungefähr richtig“ auch gut genug? Ein Minimal-Kriterium hierfür ist, dass der Stress deutlich kleiner ist als der für Zufallswerte. Ist das nämlich nicht der Fall, dann lässt sich von den MDS-Distanzen überhaupt nicht mehr auf die Daten zurückschließen. Damit ist auch die MDS-Konfiguration unbestimmt: Ihre Punkte lassen sich beliebig hin- und herschieben. In der Praxis findet man so gut wie immer, dass der Stress kleiner ist als der entsprechende Stress für Zufallszahlen. Für n=12 Punkte und m=2 Dimensionen findet man aus den Abbildungen 4 und 5, dass der für Zufallsdaten zu erwartende Stress etwa 0,24 ist, mit einer Standardabweichung von 0,012 (nach einer Simulationsstudie von Spence & Ogilvie 1973). Der Stress für die MDS-Lösung in Abbildung 2 ist also mit 0,19 deutlich kleiner als der für Zufallszahlen zu erwartende. Dann bleibt zu entscheiden, ob der Stress einer MDS-Lösung klein genug ist oder ob man die Dimensionalität des MDS-Raums erhöhen soll, um so die Daten genauer darzustellen. Die Antwort hängt unter anderem davon ab, ob diese zusätzliche Genauigkeit „deutlich“ oder nur „ein wenig“ besser ist.4 Grundsätzlich gilt aber, dass sich, auch bei relativ großem Stress, Konfigurationen ergeben können, die mit neuen Daten 2
3
4
Hat keine tiefere Bedeutung und dient nur dazu, die resultierenden Werte besser unterscheidbar zu machen. Das wird merkwürdigerweise oft als 19% geschrieben, suggeriert aber fälschlicherweise, dass der Stress zwischen 0 und 1 variiert. Das ist nicht so: Die obere Schranke von Stress ist nicht bekannt; sie ist aber definitiv deutlich kleiner als 1 (Borg & Groenen 2005). Dazu lässt man sich MDS-Lösungen für 1-, 2-, 3- und höher-dimensionale Räume berechnen und fragt, ob der Stress bei Erhöhung der Dimensionalität deutlich oder nur ein wenig absinkt. Das „deutlich“ kann man absolut beurteilen oder relativ im Sinne eines „deutlich
398
Ingwer Borg 0,6
0,03
Standardabweichung der Stresswerte
0,5
Stress
0,4
0,3
48 36 26 18
0,2
0,1
0,02
0,01
12 18 36 26
12
48
0
0
1
2 3 4 Dimensionalität
5
6
Abb. 4: Durchschnittlicher Stress für Zufallsproximitäten für n Objekte; ordinale MDS mit 1 bis 5 Dimensionen
0
0
1
2 3 4 Dimensionalität
5
6
Abb. 5: Standardabweichungen für Kurven in Abbildung links
replizierbar sind. Das gilt vor allem dann, wenn die Daten nur eine geringe Messgenauigkeit besitzen. Die MDS agiert dann als Datenglätter, die das „Zufallsgeknitter“ in den Daten ausbügelt und so die systematische Struktur der Daten besser sichtbar macht. Zusammenfassend sind für die Bewertung des Stress mehrere Gesichtspunkte von Bedeutung5 : n, die Zahl der Punkte: Je größer n, desto größer ist der Stress (weil die Zahl der Distanzen fast quadratisch mit n ansteigt). – m, die Dimensionalität des MDS-Raums: Je größer m, desto kleiner ist der Stress (weil ein höher-dimensionaler Raum mehr Freiheiten bietet für die Positionierung der Punkte). –
5
stärker als für Zufallszahlen“. Meist findet man, dass die Abnahme eher gering ist, so dass man in typischen Anwendungsfällen mit 2 oder höchstens 3 Dimensionen eine ausreichende Darstellungsgenauigkeit erreicht. Eine absolute Bewertung des Stresswerts in dem Sinn, dass z. B. ein Stress von kleiner 0,05 als „gut“ bezeichnet wird (Kruskal 1964) ist zu simpel. Ebenso wenig ist es möglich eine Antwort auf die Frage zu geben, ab welchem Wert z. B. eine Korrelation „gross“ ist. Es kommt vielmehr „darauf an“.
17 Multidimensionale Skalierung
399
–
Das MDS-Modell: Metrische (z. B. lineare) MDS führt meist zu größerem Stress als ordinale MDS (weil die restriktiveren Modelle weniger Freiheiten lassen bei der Wahl der d4ij (X)’s). – Der Fehleranteil in den Daten: Je größer das Rauschen in den Daten, desto größer ist der Stress; Stress ist proportional zum Fehleranteil in den Daten. – Die Zahl der Ties in den Daten beim üblichen primären Ansatz für Ties in der ordinalen MDS: Je mehr „Ties“ (= gleiche Werte), desto kleiner der Stress (weil dieser Ansatz nicht fordert, dass gleiche Daten in gleiche Distanzen abgebildet werden müssen). 2.3 MDS-Modelle In der Literatur wird meist die ordinale (nicht-metrische) MDS verwendet. Sie geht davon aus, dass die Daten ordinales Skalenniveau haben und dass daher nur die Ränge der Proximitäten von Bedeutung sind, nicht aber die Werte selbst. Die Aufgabe der MDS ist es daher, diese Daten so in Distanzen über X abzubilden, dass dabei ihre Ranginformationen best-möglich erhalten bleiben. Die Funktion f in f : pij → dij (X)
(4)
soll monoton sein. Es soll also gelten, dass f : pij < pkl → dij (X) ≤ dkl (X) ,
(5)
für alle Paare i und j bzw. k und l gilt, für die Datenwerte vorliegen. Fehlende Proximitäten („missing data“) werden in diesen Formeln übersprungen6 . Fehlt der Wert für pij , dann kann die Distanz dij beliebig gewählt werden. In den letzten Jahren wieder populärer geworden sind metrische MDS-Modelle, bei denen für f eine analytische Funktion spezifiziert wird. Ein Vorteil solcher Modelle ist, dass sich ihre Eigenschaften mathematisch genauer entwickeln lassen (Schönemann & Borg 1983). Zudem vermeiden sie gewisse technische Schwierigkeiten der ordinalen MDS wie insbesondere degenerierte Lösungen (siehe dazu Abschnitt 3.1). Ihr Nachteil ist natürlich, dass sie höhere Ansprüche an das Skalenniveau der Daten stellen. Das Standardmodell der metrischen MDS ist die Intervall-MDS, für die gilt, dass pij → a + b · pij = dij (X) .
(6)
Sie nimmt an, dass die Daten intervall-skaliert sind. Andere MDS-Modelle ergeben sich leicht durch die Wahl anderer Abbildungsfunktionen f (z. B. einer Exponentialfunktion). Sie führen allerdings zu kaum interpretierbaren Ergebnissen, wenn f nicht zumindest schwach monoton ist. Ein bestimmtes MDS-Modell f wählt man zunächst aus den gleichen Gründen, die auch die Entscheidung über das Skalenniveau der Daten bestimmen. Sind die Daten z. B. nur Ränge, dann wird man die ordinale MDS verwenden. 6
MDS-Verfahren erlauben große Anteile von Missing Daten (bis zu 50%), inbesondere dann, wenn diese zufällig verteilt sind (siehe dazu Borg & Groenen 2005).
400
Ingwer Borg
Eine zweite Facette für die Klassifikation von MDS-Modellen ist die Wahl einer Distanzfunktion. Besonders in der Psychologie recht populär geworden als Modelle für die subjektive Unähnlichkeit mehr-dimensionaler Objekte ist die Familie der Minkowski-Metriken, die sich aus der Formel (p)
dij (X) = (
m
|xia − xja |p )1/p ,p ≥ 1 ,
(7)
a=1
ergeben. Setzt man in Formel (7) den Wert p = 1, dann erhält man die City-Block Metrik. Mit größer werdendem p wird die Distanz von i und j zunehmend von nur der Dimension bestimmt, für die die intra-dimensionale Differenz von i und j am größten ist. Geht p gegen unendlich, dann entspricht die Distanz nur noch der größten intra-dimensionalen Differenz, d. h. die Distanz von i und j wird nur noch von einer einzigen Dimension bestimmt (Dominanzmetrik). Es liegt nahe zu vermuten, dass eine solche Reduktion des Unähnlichkeitsurteils auf nur noch eine Dimension unter gewissen Bedingungen plausibel ist (z. B. bei hohem Zeitdruck für die Urteilsbildung oder bei wenig wichtigen Konsequenzen des Urteils). City-block-basierte Urteile werden dagegen in Situationen von großer Relevanz und viel Zeit wahrscheinlicher (Borg & Groenen 2005). Der MDS-Anwender sollte beachten, dass bei p =
2 nicht nur eine etwas andere Rechenformel verwendet wird, sondern dass mit jeder dieser Formeln auch eine andere Geometrie einhergeht. Insbesondere sind dann die geometrischen Beziehungen in der MDS-Lösung nicht immer so, wie sie anschaulich erscheinen. So sind z. B. Kreise in einer City-Block-Ebene nicht „rund“, sondern sehen vielmehr wie Quadrate aus, die auf einer Ecke stehen. Das liegt daran, dass der Eindruck, den der Betrachter von Punktabständen bekommt, irreführend ist. Punkte, die – euklidisch betrachtet – den gleichen Abstand haben, haben in der City-Block-Geometrie je nach ihrer Lage im Raum verschiedene Abstände: Sie sind sich am nächsten, wenn die Verbindungslinie zwischen ihnen entlang einer der Koordinatenachsen verläuft.7 Man kann eine CityBlock Konfiguration daher im Allgemeinen nicht im Koordinatensystem drehen, ohne damit die Abstände zwischen den Punkten und somit auch die Beziehung der Distanzen zu den Daten zu verändern. Die Minkowski-Geometrien sind trotz aller Verschiedenheit eng verwandt. Sie sind alle flach. Verwendet wurden im MDS-Kontext gelegentlich auch gekrümmte Geometrien wie die Darstellung der Daten durch Abstände auf der Oberfläche einer Kugel (Cox & Cox 1991). Diese MDS-Modelle sind aber höchst spezifisch und nur in besonderen theoretischen Zusammenhängen sinnvoll. Für die explorative Datenanalyse 7
Das erklärt auch den merkwürdigen Kreis in der City-Block-Ebene. Ein Kreis ist der Ort aller Punkte, die von einem als Mittelpunkt bezeichneten Punkt den gleichen Abstand haben. Der Abstand in der City-Block Ebene ist aber wie der Abstand von zwei Gebäuden in Manhattan: Um vom einen zum anderen zu gelangen, muss man die Straßen entlang laufen. Der City-Block-Abstand ist die Länge genau dieses Weges – also nicht die Länge des auf einer Karte mit dem Lineal gemessenen „direkten“ Weges, der der euklidischen Distanz (d. h., p = 2) entspricht.
17 Multidimensionale Skalierung
Y
Y
X
(a) Gemeinsamer Raum
401
Y
X
(b) Individueller Raum 1
X
(c) Individueller Raum 2
Abb. 6: Illustration des Dimensionsgewichtungsmodells kommt letztlich nur die euklidische Geometrie in Frage, weil nur sie eine Exploration der Punktekonfiguration mit dem Auge erlaubt. Eine populäre Variante der MDS ist die Modellierung interindividueller Unterschiede. Ihre Grundidee ist schematisch in Abbildung 6 illustriert. Gezeigt sind hier die Konfigurationen der Personen 1 und 2. Sie sind verschieden, ergeben sich aber beide vollständig aus einem gemeinsamen Raum durch entsprechende Gewichtung der Dimensionen X und Y . Man beachte hierbei, dass Streckungen oder Kompressionen des gemeinsamen Raums entlang anderer Dimensionen zu anderen Ergebnissen führen: Die Dimensionen sind in diesem Modell also, außer in Sonderfällen, eindeutig bestimmt. Etwas formaler ausgedrückt lautet das Modell, m (k) (k) dij (X) = wa (xia − xja )2 , wa(k) ≥ 0 , (8) a=1
wobei der Parameter k = 1, . . . ,N die verschiedenen Personen indiziert. Das Gewicht (k) wa kann man interpretieren als Salienz, die die Dimension a für das Unähnlichkeitsurteil von Person k hat (Horan 1969). Kruskal & Wish (1978) verwenden dieses Modell, um Unterschiede und Gemeinsamkeiten verschiedener Personen bei der Beurteilung der Ähnlichkeit verschiedener Länder zu erklären. Sie finden dabei eine Gruppe von Personen, die die MDS-Konfiguration (ähnlich der in Abbildung 1) auf der Dimension „wirtschaftliche Entwicklung“ stärker gewichten als auf der Dimension „politische Ausrichtung“. Diese Personen nennen sie „Tauben“. Die „Falken“ gewichten dagegen gerade umgekehrt, achten also stärker – oder im Extremfall sogar ausschließlich – darauf, in welchem Ausmaß diese Länder politisch auf Linie mit dem Westen sind. Den Erklärungswert des Modells individueller Dimensionsgewichtungen kann man dadurch prüfen, dass man zunächst jede der N Datenmatrizen einzeln skaliert; dann die Lösungen einander best-möglich anpasst durch Drehungen, Spiegelungen, Verschiebungen und Größenänderungen (siehe Abschnitt 3.4); aus ihnen dann eine Durch-
402
Ingwer Borg
schnittskonfiguration berechnet; und schließlich in dieser Dimensionen identifiziert, die, entsprechend gewichtet, die einzelnen MDS-Lösung bestmöglich erklären (sog. Pindis-Verfahren von Lingoes & Borg 1978). Eine zweite Möglichkeit ist die, von vornherein alle N Daten in einer einzigen drei-modalen MDS zu verarbeiten, die individuelle Dimensionsgewichtungen zulässt (sog. Indscal-Modell von Carroll & Chang 1970). Im zweiten Fall bekommt man als Lösung den gemeinsamen Raum und die Dimensionsgewichte für jede der N Personen, zusammen mit einem stress-ähnlichen Fit-Index für das gesamte Modell. Das Modell erscheint interessant, bringt in der Praxis aber meist recht wenig. Der Grund mag sein, dass dimensionale Deutungen von MDS-Konfigurationen und Interpretationen von Distanzformeln als Modelle für Ähnlichkeitsurteile letztlich zu simpel sind. Bei genauerer Betrachtung selbst einfachster Stimuli findet man nämlich, dass verschiedene Personen die Gegenstände verschieden „dimensionalisieren“: Sie verwenden verschiedene – nicht wie oben unterstellt: alle die gleichen – und verschieden viele Dimensionen, unterschiedliche Distanzfunktionen (Schönemann 1994) oder generieren sogar Ähnlichkeitsurteile, die sich überhaupt nicht mehr für eine Distanzmodellierung eignen (z. B. asymmetrische Urteile, siehe Tversky 1977). 2.4 MDS-Algorithmen Analytische Lösungen sind für die meisten MDS-Modelle nicht bekannt. Eine optimale Abbildung der Proximitäten in die Punktdistanzen einer bestimmten Geometrie wird daher iterativ gesucht. Ausgehend von einer Startkonfiguration werden die Punkte in einem Optimierungsalgorithmus iterativ so verschoben, dass der Stress der MDSKonfiguration kleiner wird und schließlich ein Minimum erreicht.8 Dieses Minimum muss allerdings nicht die best-mögliche Lösung sein. Vor allem ältere MDS-Programme finden bisweilen das globale Minimum nicht, sondern bleiben in lokalen Minima hängen. Um dies zu vermeiden, kann der Anwender eigene Startkonfigurationen definieren oder das MDS-Verfahren mit einer anderen als der vom Programm angebotenen Startkonfiguration – z. B. mit verschiedenen Zufallskonfigurationen – wiederholen und dann prüfen, ob der Algorithmus immer zum gleichen optimalen Ergebnis führt. Von großer praktischer Relevanz ist diese Thematik bei den heutigen MDS-Programmen aber nicht mehr, weil diese sehr zuverlässig die best-mögliche Lösung finden. 2.5 Konfirmatorische MDS In den obigen MDS-Modellen wird es dem Algorithmus gänzlich freigestellt, eine Punktekonfiguration zu finden, die den Stress minimiert. Das ist – abgesehen einmal von möglichen degenerierten Lösungen – im Fall einer explorativen Skalierungsabsicht in Ordnung, weil hier die Daten für sich selbst sprechen sollen. Gelegentlich hat man 8
Diese Algorithmen sind für den Sozialwissenschaftler nicht ohne weiteres verständlich. Ihre Mathematik ist kompliziert (siehe z. B. Borg & Groenen 2005), muss aber vom Anwender nicht verstanden werden. Man kann ein Auto auch dann fahren, wenn man nichts über Thermodynamik weiß.
17 Multidimensionale Skalierung
403
aber weiter ausformulierte Theorien über die Struktur der Daten, z. B. die, dass die Punkte ein gewisses Muster bilden. Man will daher eine vollständig theoriekonforme MDS-Lösung prüfen bzw. erzwingen. Ihr Stress gibt Auskunft darüber, wie gut Theorie und Daten harmonieren. In solch einer konfirmatorischen MDS werden also an die Konfiguration gewisse Zusatzforderungen gestellt. Im Fall einer dimensionalen Theorie kann man z. B. verlangen, dass die Punkte eine Art Gitter bilden, wie dies in Abbildung 6 gezeigt ist. Es kann sein, dass eine derartige Lösung radikal verschieden ist von einer explorativen, sich aber im Stress nur wenig unterscheidet (Beispiele hierfür finden sich in Borg & Groenen 2005), weil die Stressfunktion mehrere und fast gleich tiefe lokale Minima hat. In der Praxis kann man davon ausgehen, dass dann, wenn eine explorative MDS zu einer Lösung führt, die sich nicht sonderlich von der theoretisch erwarteten unterscheidet, die Aufprägung einer perfekt theoriekonformen Struktur auf die Lösung zu keinem größeren Stresszuwachs führt. Führt die explorative MDS dagegen nicht zum theoretisch erwarteten Ergebnis, lässt sich unmöglich sagen, ob dieses nicht doch existiert und mit einer konfirmatorischen MDS gefunden werden könnte. Zur Illustration der konfirmatorischen MDS zeigen wir im Folgenden ein Beispiel aus der Werteforschung. O’Reilly III et al. (1991) haben ein Instrument (Organizational Culture Profile oder OCP) vorschlagen, mit dem gemessen werden soll, wie gut die Werte einer Person mit den Werten einer Organisation übereinstimmen. Die Person wird hier mit 54 Items befragt, wie wichtig sie Werte wie „innovativ sein“, „Freiheit von Konflikten“, „informell sein“, „aggressiv sein“ findet. Zudem soll sie angeben, für wie wichtig ihrer Meinung nach diese Werte aus Sicht der Organisation sind. Aus der Diskrepanz der beiden Ratings soll sich ableiten lassen, wie gut die Person zur Organisation passt. Die 54 Items dieses Inventars lassen sich in Faktorenanalysen meist auf etwa acht Faktoren zurückführen. Bilsky & Jehn (2002) fragen nun, ob sich diese Werte in eine allgemeine Wertetheorie einbetten lassen, die den Anspruch erhebt, universell zu sein. Diese Theorie ist die Theory of Universals in Values (TUV; Schwartz 1992, 2007), die in ihrer einfachsten Form zwei Grunddimensionen für Werte postuliert: I=Ich-Betonung (individuelle Leistung soll sich lohnen, agressiv eigene Ziele verfolgen) versus T=Ich-Transzendenz (anderen helfen wollen, Harmoniestreben) und O=Offen für Veränderungen (Bereit, Neues zu versuchen; Risikobereitschaft) versus B=Bewahren und Regeln (Konservativität, Wunsch nach Sicherheit). Um dies zu testen, codieren sie die 54 OCP-Items zunächst nach inhaltlichen Überlegungen in die vier Typen der TUV.9 Sie skalieren dann die Interkorrelationen der 54 Items in einer 2-dimensionalen ordinalen MDSEbene (Stress=0,23) und versuchen, diese Ebene so zu partitionieren, dass in jeder Region nur Items vom selben Typ liegen (oder uncodierte Items, in der Abbildung 7 als schwarze Punkte dargestellt). Dieses Vorhaben gelingt recht gut. Allerdings sind dabei einige Fehlzuordnungen unvermeidlich (z. B. liegt Punkt 44 als „x“ in der „+“-Region und damit in der falschen Nachbarschaft). Zudem haben die Regionen so kurvige Grenz9
„Aggressiv sein“ wird z. B. als ein I-Item codiert, „Freiheit von Konflikten“ als ein T-Item. Zwölf der 54 Items sind mehrdeutig und bleiben daher uncodiert.
404
Ingwer Borg
5
31
8 7
27
15 43
48
40 10
54
32
52
53 45
35
49
36 50
14 13
9 11
17
30
37
29
1
8
42
IchTranszendieren
Bewahren und Regeln
Abb. 7: Explorative MDS der 54 OCP-Items, mit nachträglich eingetragenen Grenzlinien nach der TUV
34 26
32 53
6
7
48
27
2 1
46
31
3 4
2
16 25 21 38 20 23 46 18 22 24 39 41 19
12
51
5
28
44
33
34 4 7 26
Ich-Betonung
6
28
29
Offen für Veränderungen
Offen für Veränderungen
IchBetonung
15
33 10
12 47
40
51
35
20
44
38
13 14
39 24 50
54
23 22
18
36
45
25 21
16
43
52 17
49 30
41
42
3
19
Ich-Transzendieren
37
11 9 4
Bewahren und Regeln
Abb. 8: Konfirmatorische MDS der 54 OCP-Items mit erzwungener axialer Partitionierung nach der TUV
linien, dass das postulierte Zwei-Dimensionen-System nur verschwommen sichtbbar wird. Man kann also fragen, wie gut sich die Daten fehlerfrei in ein 4-Quadranten-System, das von zwei Dimensionen aufgespannt wird, zwingen lassen. Abbildung 8 zeigt hierfür die optimale MDS-Lösung (Stress = 0,24). Ihr Stress ist nur geringfügig größer als der der explorativen MDS. Sie ist daher die attraktivere MDS-Lösung für diese Daten: Sie lässt sich nicht nur leichter interpretieren, sondern vermutlich auch zuverlässiger replizieren, weil sie auf einer theoretisch begründeten Gesetzmäßigkeit beruht. Die explorative Lösung kann man dagegen eher als eine Überanpassung an die Daten, inklusive ihrer Zufallsfehler, interpretieren. Die Bewertung des Stress-Anstiegs der konfirmatorischen über die explorative MDSLösung hängt auch davon ab, wie restriktiv die Nebenbedingungen sind, die sich aus der Theorie ableiten. Permutiert man die TUV-Codierungen der Items völlig zufällig und berechnet dann jeweils mit einer solchen Zufallscodierung eine konfirmatorische MDS, dann findet man, dass diese in weniger als 1% der Fälle zu einer MDS-Lösung mit kleinerem Stress führen. Die TUV-Codierungen sind also recht starke Restriktionen für die MDS-Lösung. Insofern ist es bedeutsam, dass sie sich fast ohne Stress-Anstieg auf die MDS-Lösung aufzwingen lassen. Die Daten besitzen also die theoretisch erwartete nicht-triviale Struktur. Allgemeiner betrachtet ist das Gebiet der konfirmatorischen MDS groß und unübersichtlich, weil es sehr viele Möglichkeiten gibt, an die MDS-Konfigurationen zusätzliche Forderungen zu stellen (z. B. besondere dimensionale Strukturen, Cluster, regionale Muster, Projizierbarkeit auf externe Skalen oder geometrische Strukturen
17 Multidimensionale Skalierung
405
wie z. B. kreisförmige Punktekonfigurationen). Eine weitere Facette dieser Ansätze ist die Frage, ob man eine strikte Erfüllung dieser Restriktionen fordert oder nicht. Zwei relativ schwache konfirmatorische Ansätze sind die folgenden: (1) Statt es dem MDS-Verfahren zu überlassen, eine Startkonfiguration zu erzeugen, kann man eine nach theoretischen Gesichtspunkten konstruierte eingeben. Das kann dazu führen, dass der MDS-Algorithmus eine Lösung findet, die „in der Nähe“ dieser Startkonfiguration liegt, sich also von dieser nicht stark unterscheidet. Ein Anwendungsbeispiel hierfür wäre die Verwendung eines gemeinsamen Raums (wie im Indscal-Modell, siehe Abbildung 6) als Startkonfiguration in einer Studie, die MDS-Strukturen aus verschiedenen Jahren vergleicht (wie z. B. bei Dichtl et al. 1980). (2) Man kann eine MDS-Lösung auch nachträglich an eine „artifizielle“, nach theoretischen Überlegungen konstruierte Zielkonfiguration prokrustisch anpassen und dann prüfen, in welchem Ausmaß die Konfigurationen übereinstimmen. Eine streng-konfirmatorische MDS erzwingt dagegen eine Lösung im Sinne der externen Restriktionen, auch wenn der Stress dabei stark ansteigt. Die übliche Methode hierfür ist die, die Stressfunktion S als Verlustfunktion zu ergänzen mit einer Straffunktion F , deren Wert vom Ausmaß abhängt, in dem die strukturellen Zusatzforderungen erfüllt werden. Das MDS-Rechenverfahren beginnt mit einer beliebigen oder irgendwie gewählten Startkonfiguration X und optimiert diese dann iterativ in Bezug auf das Kriterium a · S + b · F , wobei a + b = 1, a ≥ 0 und b ≥ 0. Dabei ist zunächst a = 1. Mit jeder Iteration wird dann b etwas vergrößert auf Kosten von a (Borg & Lingoes 1980). Die Herausforderung bei einer konfirmatorischen MDS besteht für den Anwender darin, seine theoretischen Erwartungen an die MDS-Lösung so zu präzisieren, dass sie sich mathematisch in einer Straffunktion ausdrücken lassen, die das jeweilige Computerprogramm versteht. Am einfachsten, wenn auch recht mühsam, ist es, diese Restriktionen als Pseudodaten zu formulieren und diese dann zusammen mit den echten Daten in Programme wie Kyst, Proxscal oder Cmda einzubringen. Die konfirmatorische MDS im strengen Sinn erfordert also auf jeden Fall eine intensive Vorbereitung nicht nur theoretischer, sondern auch rechentechnischer Art (siehe dazu z. B. Borg et al. 2010). Bislang eignen sich die gängigen MDS-Programme nur eingeschränkt für konfirmatorische Analysen. Am einfachsten ist auf jeden Fall die Aufprägung von Dimensions- oder Clusterstrukturen auf die MDS-Lösung. Konfirmatorische MDS-Anwendungen mit regionalen Mustern sind dagegen oft schwierig zu realisieren (Groenen & Van der Lans 2004).
3 Häufige Fehler 3.1 Degenerierte Lösungen in der ordinalen MDS Die ordinale MDS ist das am häufigsten verwendete MDS-Modell. Sie erfordert nur ordinale Daten, erzeugt aber trotzdem sehr stabile Lösungen, wenn man genügend Punkte (n) im Raum der Dimensionalität m hat10 . Der Grund hierfür ist, dass die 10
Kruskal & Wish (1978) geben hierfür als Daumenregel an, dass mindestens n > 4 · m gelten sollte.
Ingwer Borg
ILR CCR
SVP LVP
CCP NR NP
Distanzen
406
SLP
0.0 0.5
0.6
0.7
0.8
0.9
1.0
Daten
(a) MDS-Lösung
(b) Shepard-Diagramm
Abb. 9: Ordinale MDS-Konfiguration für Daten aus Tabelle 4 Gleichung (5) eine Ordnungsbeziehung für jedes Paar von Distanzen festlegt. Das aber sind schon bei n = 12 Objekten wie in Abbildung 1 sehr viele Restriktionen: Für 12 Punkte existieren n(n − 1)/2 = k = (12 · 11/2)/2 = 66 Distanzen und somit k(k − 1)/2 = (66 · 65)/2 = 2. 145 Ordnungsrelationen, die mit den Daten abzustimmen sind. Bei n = 20 ergeben sich 17.955 Ordnungsrelationen, bei n = 50 sogar 749.700! Trotz so vieler Ordnungsrestriktionen kann bei der ordinalen MDS ein spezielles Problem auftreten, das der Anwender kennen sollte: Die Lösung ist degeneriert. Hierzu das folgende Beispiel. Tabelle 4 im Anhang zeigt eine Matrix von Interkorrelationen zwischen acht Untertests des KIPT, einem Test für Lesefertigkeiten (Guthrie 1973). Skaliert man diese Korrelationen mit der ordinalen MDS in der Ebene, bekommt man eine Lösung (Abbildung 9 a), deren Stress praktisch gleich Null ist.11 Das ShepardDiagramm dieser Lösung (Abbildung 9 b) zeigt allerdings eine merkwürdige Form: Die Regressionslinie ist eine einfache Stufenfunktion, obwohl die Daten über den ganzen Bereich von .44 bis .94 streuen und nicht nur zwei Werte annehmen. Man erkennt aus dem Shepard-Diagramm und auch aus der MDS-Konfiguration, dass die Punkte so platziert werden, dass praktisch nur zwei Distanzen entstehen: Alle großen Korrelationen (r ≥. 78) werden durch annähernd die gleiche Distanz von nahe Null dargestellt, alle kleinen Korrelationen (r <. 72) entsprechend durch nur eine relativ große Distanz. Dies stellt eine der Ordnungsbeziehungen in den Daten richtig dar: Die Korrelationen von Items aus zwei der Teilgruppen {NP,. . . ,NR}, {SLP} bzw. {CCR, ILR} ist immer kleiner als die von Items aus der gleichen Teilgruppe. 11
Hierbei spielt es keine Rolle, ob man dazu die Korrelationen selbst oder ihre Ränge verwendet. Die ordinale MDS führt in beiden Fällen zu exakt dem gleichen Ergebnis.
17 Multidimensionale Skalierung
ILR
407
CCP
LVP SVP
NR
Distanzen
NP
CCR
SLP
0.0 0.5
0.6
0.7
0.8
0.9
1.0
Daten
(a) MDS-Lösung
(b) Shepard-Diagramm
Abb. 10: Intervall-MDS-Konfiguration für Daten in Tabelle 4 Die zweistufige Abbildungsfunktion in Abbildung 9 ist in der ordinalen MDS zulässig. Sie nutzt aber die Möglichkeiten dieses Modells allzu radikal aus, weil man sicher nicht unterstellen will, dass die Unterschiede zwischen den Korrelationen überhaupt keine Bedeutung haben. Bemerkenswert ist zudem, dass auch die ordinale Abbildungsgüte bei weitem nicht so gut zu sein braucht, wie es der Stresswert nahelegt: Die großen und die kleinen Distanzen können nämlich jeweils untereinander beliebig geordnet sein, weil sich ihre Ordnung erst in den Nachkommastellen der Distanzen zeigt. Auf den Stresswert wirken sich aber so kleine Unterschiede der Distanzen nur minimal aus. Man kann ihn stets beliebig nahe an Null treiben, wenn man nur die großen Distanzen immer größer und die kleinen Distanzen immer kleiner macht. Im vorliegenden Beispiel ist die Datenstruktur zu wenig systematisch in sich verzahnt, um zu einer befriedigenden ordinalen MDS-Lösung zu führen. Als Ausweg bleibt nur, ein stärkeres MDS-Modell zu verwenden und damit den Daten ein höheres Skalenniveau zuzuweisen. Skaliert man die Daten mit der Intervall-MDS (siehe Formel (6)), dann ergibt sich die Konfiguration in Abbildung 10 a. Sie zeigt ebenfalls die drei Testcluster, kontrahiert sie aber nicht mehr so deutlich. Das zugehörige Shepard-Diagramm (Abbildung 10 b) entspricht der Verteilung der Werte in Tabelle 4 weit besser. 3.2 Falsche Polung der Proximitäten Wenn man in einem MDS-Programm die Proximitäten von außen her als Daten eingibt und nicht im Statistik-Paket selbst berechnet (z. B. als Korrelationen der Variablen), dann kann das Programm nicht wissen, wie es die Werte deuten soll, nämlich als Ähnlichkeits- oder als Unähnlichkeitsdaten. Diese Information muss der
408
Ingwer Borg
Anwender dem Programm mitteilen. So sind Korrelationen z. B. Ähnlichkeitsdaten, weil große Datenwerte kleinen Distanzen im MDS-Raum entsprechen sollen. Distanzmaße zwischen den Variablen sind dagegen Unähnlichkeitswerte, die eine direkte Beziehung zu den MDS-Distanzen haben sollen. Spezifiziert man den Datentyp falsch, dann resultiert meist eine inhaltlich völlig unsinnige Lösung mit sehr hohem Stress, weil die Daten, so gedeutet, keinen Sinn ergeben und nicht zusammenpassen. Ein verwandter Fehler in der Anwendung der MDS ist eine Codierung von einzelnen Variablen, die zu degenerierten Lösungen führt. Reflektiert man bei den Arbeitswerten in Tabelle 3 ein Item und fragt beispielsweise, wie wichtig es der Person ist, eine Arbeit zu haben, die wenig Verantwortung erfordert, dann sollte dieses Item mit den restlichen Items der Umfragestudie negativ korrelieren. Dies is darin begründet, dass alle anderen Items offenbar Wünschenswertes adressieren – wie die Korrelationen in Tabelle 3 zeigen – das Item mit „wenig Verantwortung“ dagegen nicht. Damit tritt aber genau der Fall ein, der zu einer degenerierten Lösung führt, d. h. es ist zu erwarten, dass hier 12 Items ein enges Cluster bilden, dem das eine reflektierte Item in großer Distanz gegenüberliegt. Repräsentiert wird in dieser MDS-Lösung jedoch nur noch die Formulierungsform „Hin-zu“- versus „Weg von“-Items.12 Bei der Analyse von Korrelationen mit der MDS ergibt sich noch ein anderes Problem. Bei r = +1 sollen die entsprechenden Punkte nah zusammenliegen und bei r = −1 weit voneinander entfernt. Bei r = 0 sollen die Punktdistanzen dagegen im mittleren Bereich liegen. Das aber führt zu einem Interpretationsproblem, weil die Bedeutung von r = 0 (kein statistischer Zusammenhang) ja nicht „zwischen“ r = +1 (perfekter direkter Zusammenhang) und r = −1 (perfekter inverser Zusammenhang) liegt. Die Interpretation einer MDS-Lösung für eine Matrix mit einer Mischung aus (deutlich) positiven und negativen Korrelationen ist daher schwierig, ja sogar nach Meinung mancher Autoren (z. B. Roskam 1979) unmöglich. In einfachen Fällen kann man das Problem jedoch durch die Umpolung einzelner Items eliminieren. 3.3 Fehlbewertung von Stress Ein häufiger Anwendungsfehler ist eine mechanisch-direkte Ablehnung einer MDSLösung wegen ihres hohen Stresswerts. Der Stress ist jedoch nur ein technischer Index, eine Zielfunktion für den Optimierungsalgorithmus des MDS-Programms. Die MDSLösung kann auch bei relativ hohem Stress stabil und replizierbar sein, z. B. dann, wenn der Fehleranteil in den Daten groß ist. Zudem ist der Stress „inhaltlich blind“ (Guttman 1977), d. h. er sagt nichts darüber aus, wie die Theorie des Forschers zu den jeweiligen Daten passt oder wie sich die Lösung interpretieren lässt. Hinzu kommt noch, dass der Stress ein summarischer Wert für alle Proximitäten ist. So fügen sich z. B. nicht alle Ähnlichkeitsurteile gleich gut in die Konfiguration in Abbildung 1 ein. Dies erkennt man im Shepard-Diagramm in Abbildung 3 an dem einen Punkt, der mit einem Pfeil markiert ist. Dieser Punkt trägt besonders stark zum 12
Natürlich kann man Items für den Zweck der Datenerhebung reflektieren. Man sollte sie aber für eine Datenanalyse per MDS durch Recodierung der Antworten so umpolen, dass sich keine derartigen Skalierungsartefakte ergeben.
17 Multidimensionale Skalierung
409
Stress bei, weil er – in der Vertikalen – sehr weit von der Regressionslinie entfernt liegt. Der Punkt entspricht dem Ähnlichkeitswert 3,44 für das Paar Ägypten-Brasilien aus Tabelle 1. Der Abstand der Punkte Ägypten und Brasilien in Abbildung 1 stellt also den empirisch beobachteten Ähnlichkeitswert dieser beiden Länder relativ schlecht dar. Das kann viele Gründe haben wie z. B. Fehler bei genau diesen Ratings oder die Möglichkeit, dass die Testpersonen bei diesem speziellen Vergleich andere oder zusätzliche Attribute der Objekte verwendet haben. Wie gut jeder einzelne Punkt in eine MDS-Konfiguration passt, kann man dadurch abschätzen, dass man die Distanzen von diesem Punkt zu allen anderen mit den entsprechenden Proxmitäten vergleicht (z. B. korreliert). Einige MDS-Programme ermitteln auch, wie viel jeder Punkt zum Gesamt-Stress beiträgt. Schlecht passende Punkte kann man dann evtl. aus den Analysen eliminieren, weil für sie besondere Überlegungen gelten. Eine sich nur an der Größe des Stress orientierende Bewertung der Güte einer MDS-Lösung ist zu simpel. Das sieht man auch aus Abbildung 2: Hier zeigt sich, dass der Stress bei einer Erhöhung der Dimensionalität um den gleichen Betrag (von 0,17 auf 0,09) absinkt wie im Fall der MDS-Lösung für die Wish-Daten in Abbildung 1. Die Stress-Reduktion wirkt sich aber bei den Arbeitswerten nicht „diffus“ auf die Konfiguration aus, sondern sie führt vor allem dazu, dass sich die Punkte ‚sichere Arbeitsbedingungen’ und vor allem ‚viel Freizeit’ deutlich aus der Ebene der 2-dimensionalen MDS-Lösung heraus bewegen. Hier repräsentiert die zusätzliche Dimension also nicht nur Fehler-Varianz, sondern eine besondere Beziehung dieser Variablen zu den anderen. Für den Punkt ‚viel Verantwortung’, der auch relativ schlecht in die 2-dimensionale MDS-Konfiguration passt, führt die Erhöhung der Dimensionalität dagegen zu keiner systematischen Verschiebung. 3.4 Fehler beim Vergleich verschiedener MDS-Lösungen Eine in der Praxis häufige Fragestellung entsteht beim Vergleich von zwei oder mehreren MDS-Lösungen. So könnte man z. B. fragen, ob Ost- und Westdeutsche die Arbeitswerte in gleicher Weise strukturieren, d. h. ob die MDS-Darstellungen der unteren und der oberen Hälfte von Tabelle 3 gleich sind. Bei einem Vergleich dieser Art – vor allem dann, wenn Dimensionen gedeutet werden und dabei nur Koordinaten wie in Tabelle 2, nicht MDS-Plots, betrachtet werden – wird oft der Fehler gemacht, dass bedeutungslose Unterschiede als bedeutsam interpretiert werden. Unterschiede, die durch Drehungen, Spiegelungen, Verschiebungen oder Maßstabsänderungen der MDS-Konfigurationen (Ähnlichkeitstransformationen) eliminierbar sind, sind jedoch nicht in den Daten begründet und daher bedeutungslos. Vor allem im Fall von höher-dimensionalen Lösungen benötigt man zur Identifikation echter Unterschiede prokrustische Transformationsverfahren, die bedeutungslose Unterschiede maximal eliminieren.13 Dazu wird eine Konfiguration als Ziel festgehalten. Alle anderen Konfigurationen werden auf best-mögliche Passung auf dieses Ziel hin zulässig transformiert. 13
Leider bieten nicht alle Statistikpakete prokrustische Transformationen an. Verfügt man jedoch über ein Programm für Matrix-Rechnung (z. B. MatLAB), dann kann man die Transformation leicht selbst berechnen. Es sei X die Zielkonfiguration und Y die Vergleichskonfiguration. Für C = X JY finde man die Singulärwertzerlegung C = PΦQ . Die optimale Ro-
410
Ingwer Borg
E
R
Sicherheit
Anerkennung Aufstiegschancen viel Geld
nützliche Arbeit anderen helfen
gesunde Arb.Bedg.
sinnvolle Arb.
viel Freizeit
E
R Sicherheit
gesunde Arb.Bedg.
viel Geld Anerkennung
viel Kontakt viel Verantwortg. interess. Arbeit
viel Verantwortg. interess. Arbeit
viel Freizeit
unabhängige Arbeit
G
G
(a) Westdeutsche
sinnvolle Arb.
Aufstiegschancen
viel Kontakt
unabhängige Arbeit
nützliche Arb. anderen helfen
(b) Ostdeutsche
Abb. 11: West- bzw. ostdeutsche Strukturen von Arbeitswerten, mit Partitionierung nach der ERG-Theorie Die verbleibenden Unterschiede zwischen dem Ziel und den so transformierten Konfigurationen sind dann deutbar. Prokrustische Transformationen unterstellen, dass die gegebenen MDS-Konfigurationen in ihrer Struktur nicht verändert werden sollten. Zulässig sind nur Transformationen, die – bis auf Größenänderungen – starr sind. Diese Beschränkung ist aber nur dann sinnvoll, wenn die Konfigurationen von den Daten her klar determiniert sind. Das ist im Fall der Arbeitswerte-Daten aus Tabelle 3 nur zum Teil der Fall. Abbildung 11 zeigt links die Arbeitswertestruktur für die Westdeutschen und rechts die Struktur für Ostdeutsche (zur Bedeutung der Sektoren E, R und G, siehe Abschnitt 3.5 unten). Die Konfigurationen sind offensichtlich recht ähnlich. Allerdings wurde bei der Berechnung der ostdeutschen Struktur die westdeutsche Konfiguration als Startkonfiguration vorgegeben. Überlässt man es dem MDS-Programm, eine Startkonfiguration zu konstruieren (z. B. zufällig oder per Faktorenanalyse), dann resultieren in manchen MDS-Programmen recht verschiedene Lösungen, die alle praktisch den gleichen Stress haben. Erhalten bleiben jedoch immer die drei Gruppen von Arbeitswerten (ex-, intrinsisch, sozial), woraus man entnehmen kann, dass von den Daten her nur dieser strukturelle Aspekt wirklich festliegt. Beim Vergleich der west- und ostdeutschen Daten ist die Stabilität dieser Meta-Struktur daher wichtiger als die Lage einzelner Punkte, die man prokrustisch behandelt. tationsmatrix ist T = QP ; der optimale Streckfaktor ist s = Spur(X JYT)/Spur(Y JY); ˆ = sYT + 1t , der optimale Translationsvektor ist t = n−1 (X − sYT) 1. Das ergibt Y wobei J eine Matrix von Einsen und 1 ein Vektor von Einsen ist (Borg & Groenen 2005).
17 Multidimensionale Skalierung
411
3.5 Mechanische Interpretation „der“ Dimensionen Die Interpretation einer MDS-Lösung kann man als Projektion von inhaltlichem Wissen auf die Konfiguration verstehen. Das oben am Beispiel der Daten von Wish (Tabelle 1) beschriebene Vorgehen beschreibt den hierbei typischen Praxisansatz, nämlich die Deutung von Dimensionen. Oft wird hierbei sogar direkt nach der Bedeutung „der“ Dimensionen gefragt, womit meist die vom Programm ausgewiesenen Hauptachsen („Dim. 1“ und „Dim. 2“ in Abbildung 1 bzw. Tabelle 2) gemeint sind. Dieses Dimensionssystem lässt sich aber beliebig drehen und schiefwinkelige Dimensionen spannen den Raum ebenso auf. Sie könnten zu einer besseren Interpretation der Lösung führen als „die“ Dimensionen. Für die Interpretation besser geeignet als Dimensionen sind oft Richtungen. Damit sind Achsen gemeint, die im MDS-Raum liegen und die – so wie Dimensionen auch – eine Art interne Skala darstellen, die die Streuung der Punkte in einer bestimmten Richtung misst. Im Gegensatz zu Dimensionen kann man beliebig viele solcher Richtungen deuten. Ansonsten interpretiert man Richtungen ähnlich wie Dimensionen. Man projiziert also die Punkte auf die jeweilige Achse und versucht, die Punktverteilung zu interpretieren: Warum liegen gerade diese Punkte hier so eng benachbart; warum liegen diese Punkte so weit auseinander; wie könnte man das erklären? Bei solchen Interpretationen können manchmal zusätzliche Daten von Nutzen sein. Im Beispiel aus Tabelle 1 könnte man zusätzlich zu den Proximitäten der Länder z. B. auch Ratings erheben, bei denen die Testpersonen jedes einzelne Land auf einer Rating-Skala von „wirtschaftlich wenig entwickelt“ bis „wirtschaftlich hoch entwickelt“ einstufen. Zudem liegen für die Länder bereits zahlreiche Messwerte vor, z. B. solche zu ihrer Fläche oder zur Zahl ihrer Einwohner. Diese zur MDS externen Skalen kann man zu Interpretationszwecken in die MDS-Konfiguration best-möglich einbetten („fitten“), um so Hypothesen zu entwickeln oder zu testen, welche Dimensionen die MDS-Konfiguration erklären. Formal betrachtet legt man dazu eine Gerade in die MDS-Konfiguration derart, dass die Projektionen der Punkte auf diese Gerade mit den externen Skalenwerten maximal korrelieren. Die Lage einer solchen Geraden lässt sich mittels multipler Regression bestimmen: Die externe Skala ist dabei das Kriterium, die Koordinatenvektoren der Punkte die Prädiktoren. Wir zeigen dies am Beispiel der Daten aus Tabelle 2. Das Regressionsmodell lautet hier: Rating „wirtschaftliche Entwicklung“ = a + b1 · Dim(1) + b2 · Dim(2), worin ba das Regressionsgewicht von Dimension a ist. Die optimalen Gewichte für diese Gleichung errechnet jedes Statistikprogramm.14 Sie sind hier b1 = 3,27 und b2 = −1,45. Damit kann man die gesuchte Gerade bestimmen: Sie läuft durch den Ursprung des Koordinatensystems und durch einen Punkt mit der X-Koordinate 3,27 und der Y -Koordinate -1,45 (Abbildung 12, links). Die Punktprojektionen auf dieser Geraden korrelieren mit der externen Ratingskala mit r = 0,96. Wirtschaftliche Entwicklung könnte man hier also mit gutem Grund als eine den Ähnlichkeitsurteilen zugrunde liegende Wahrnehmungs- oder Urteilsdimension vermuten. Die Einwohnerzahlen aus Tabelle 2 lassen sich dagegen nicht so gut in die 14
Die optimalen Gewichte sind die nicht-standardisierten oder „Roh“-Gewichte der multiplen Regression, nicht die standardisierten Gewichte (Betas).
412
Ingwer Borg
Brasilien
Brasilien Kongo
Kongo
Indien
Indien USA
Frankreich Ägypten
Israel
Ägypten Kuba
Frankreich Israel
USA
Kuba Jap an UdSSR
China Einwohner Einwohner (r=0,39) (r=0.39) (r=0,39)
Japan
Jugoslawien
Jugoslawien China
UdSSR
wirtsch. wirtsch.Entwcklg. Entwcklg. (r=0,96) (r=0.96) (r=0,96)
(a) Mit eingebetteten externen Skalen
(b) Mit hierarchischen Clustern
Abb. 12: MDS-Konfiguration aus Abbildung 1 MDS-Lösung einbetten (r = 0,39). (Dass dies nicht sonderlich gut gehen kann, sieht man z. B. aus der räumlichen Nähe von Israel und USA, die ja von der Bevölkerungszahl her ganz verschieden sind.) Die Größe der Länder im Sinne ihrer Bevölkerungszahl sollte daher bei den Ähnlichkeitsurteilen der Studenten keine systematische Rolle gespielt haben. Richtungsdeutungen sind jedoch nur Spezialfälle der Interpretation von Regionen. Regionen sind Teilgebiete des MDS-Raums, die (a) jeweils zusammenhängen, (b) zusammen den ganzen Raum abdecken und (c) sich nicht überlappen. Punkte, die in die gleiche Region fallen, sind in einem gewissen Sinn äquivalent. Ein Beispiel für eine regionale Partitionierung zeigt Abbildung 11. Hier wurden die Arbeitswerte nach einer Theorie von Alderfer (1972) zunächst inhaltlich sortiert in Outcomes, die primär existentiell-materielle (E), sozial-emotionale (R=relational) bzw. kognitive oder Wachstums-Motive (G=growth) befriedigen. Diese Etikettierung der Punkte induziert sowohl in den west- wie den ostdeutschen MDS-Konfigurationen der Arbeitswerte jeweils eine einfache polare Struktur. Die beiden Lösungen sind also in dieser Hinsicht äquivalent (Borg & Braun 1996). Partitionierungen testet oder findet man sukzessiv Facette für Facette. Dazu kennzeichnet man in einem ersten Schritt jeden Punkt der MDS-Konfiguration mit einem Etikett, das aussagt, welcher Kategorie der Facette Fi der Punkt zugehört. Dies ist in Abbildung 13 mit den Etiketten a, b und c angedeutet (Facettendiagramm). Im zweiten Schritt prüft man dann, ob und wie sich die verschiedenen Punkteklassen geometrisch trennen lassen. Dabei wählt man möglichst einfache Grenzlinien bzw. Liniensysteme und nimmt ggf. lieber kleinere Fehlklassifikationen in Kauf. Einfache Grenzlinien sind zu bevorzugen, (a) weil man nur so eine Regel formulieren kann,
17 Multidimensionale Skalierung
a
a
b b
c
c
c
b
c
a
b
b a
a
a a a a
c
b
c
b
c
a
b c
(a) axial
a
a
c
a
c
c
b
b
a b
b
c
b
c
c a
413
c
a
b
c c
(b) modular
b
b
(c) polar
Abb. 13: Prototypische Partitionierungen von MDS-Konfigurationen durch Facetten mit den Kategorien a, b und c wie sich die inhaltlichen Facetten in der MDS-Konfiguration zeigen bzw. wie die regionalen Muster aus den Facetten heraus erzeugt werden; und (b) weil man an robusten, replizierbaren Mustern interessiert ist, nicht an einer Überanpassung an die jeweiligen Daten. Anschließend verfährt man analog mit Facette Fj usw. (Borg & Groenen 1998). Ein Vorgehen „mit Bleistift und Radiergummi“ ist in der Praxis optimal. Computerunterstützte Ansätze (Borg & Shye 1995) existieren zwar, aber sie sind relativ restriktiv. Abbildung 13 zeigt drei prototypische Partitionierungsmuster: Axiale, modulare und polare. Die ersten beiden basieren auf geordneten Facetten bzw. sie verweisen auf solche Facetten. Polaren Mustern liegt meist eine ungeordnete (nominale) Facette zugrunde. Tritt allerdings eine bestimmte Ordnung der Sektoren wiederholt auf, dann sollte man über den Grund für die zirkuläre Ordnung nachdenken (Borg & Shye 1995). Regionalisierungen sind selten trivial. Wenn man einige zufällig ausgewählte Punkte einer Ebene mit „a“ etikettiert und dazu noch einige weitere mit „b“ bzw. mit „c“, dann lässt sich leicht nachprüfen, dass es meist unmöglich ist, diese Konfiguration zu partitionieren – schon gar nicht mit so einfachen Grenzlinien wie in den in Abbildung 13 gezeigten. Noch weniger wahrscheinlich ist es, dass sich ein einmal gefundenes regionales Muster bei einer Replikation dieses Versuchs bestätigen würde. Ein einfaches regionales Muster verweist also auf einen gesetzmäßigen Zusammenhang zwischen der Klassifikationsfacette und der MDS-Lösung: Die Facette „greift“ empirisch. Diese Logik wird noch zwingender, wenn man eine MDS-Konfiguration mit verschiedenen Facetten gleichzeitig partitionieren kann. Eine MDS-Lösung kann prinzipiell mit so vielen verschiedenen Facetten partitioniert werden, wie man für die Klassifikation der Objekte ableiten kann. Es gibt also keine feste Beziehung zwischen der Dimensionalität der MDS-Lösung und der Anzahl der Facetten, die den MDS-Raum partitionieren. Regionale Muster werden gelegentlich verwechselt mit Clustern. Cluster aber sind Spezialfälle von Regionen. Sie sind geometrisch meist definiert als Klumpen von Punkten, zwischen denen leerer Raum liegt. Eine solche Klumpenbildung ist für
414
Ingwer Borg
Regionen nicht erforderlich. Regionen entsprechen Städten in Bundesländern: So liegen die Städte Mannheim und Ludwigshafen in verschiedenen Regionen (=Bundesländer), obwohl sie räumlich nur durch einen Fluss getrennt sind. Aus Cluster-Sicht bilden Mannheim und Ludwigshafen dagegen einen Klumpen. Cluster sind zudem rein formal definiert, nicht inhaltlich wie die einer Regionalisierung zugrunde liegenden Facetten. Das Ergebnis einer Clusteranalyse lässt sich auf eine MDS-Lösung projizieren, wie Abbildung 12 (rechts) für die Wish-Daten zeigt. Die „Höhenlinien“ zeigen ein Muster mit zwei großen Clustern mit den westlichen bzw. den kommunistischen Ländern, ein kleines Cluster der politisch neutralen Länder (Indien, Ägypten) und einen Sonderfall (Kongo). Das entspricht in etwa der von Wish benannten Dimension Pro-Western versus Pro-Communist. Zu beachten ist aber, dass die Clusteranalyse nicht sonderlich robust ist und bei Verwendung verschiedener Amalgationskriterien recht verschiedene Ergebnisse produzieren kann.15 Die Clusteranalyse ist also kein Verfahren, mit dem man die Interpretation einer MDS-Lösung validieren kann, obwohl dies gelegentlich behauptet wird. 3.6 Behandlung störender Punkte In der Anwendung taucht häufig das Problem auf, dass sich eine MDS-Konfiguration einfach und gut interpretieren ließe, wenn nicht einzelne Punkte „falsch“ lägen. Diese störenden Punkte führen dazu, dass Regionen überlappen, Grenzlinien verschlungen bzw. kurvig verlaufen oder Klassifikationsfehler entstehen. Eine mögliche Lösung dieses Problems ist, die störenden Punkte einfach zu eliminieren (wie dies in der Skalenkonstruktion üblich ist; siehe Borg & Staufenbiel 2007). Man kann aber auch fragen, wie stark sich der Stress der MDS-Darstellung erhöht, wenn die störenden Punkte so verschoben werden, dass eine einfache Partitionierung möglich wird. Um dies zu testen, kann man wie folgt vorgehen. Man ermittelt im MDS-Konfigurationsplot die Koordinaten des Ortes, an dem der störende Punkt liegen „sollte“. Dann verwendet man die MDS-Lösung als Startkonfiguration für eine zweite MDS der gegebenen Daten, ersetzt in dieser Startkonfiguration aber die Koordinaten der störenden Punkte durch ihre Soll-Koordinatenwerte. Schließlich setzt man die Zahl der Iterationen auf Null. Das MDS-Programm berechnet dann den Stress der so veränderten MDS-Lösung, ohne diese zu verändern. Der Unterschied der Stress-Werte zeigt an, wie stark sich die Punktverschiebung auf die Qualität der Datendarstellung auswirkt.16 Es ist nicht selten der Fall (vor allem bei Verschiebung nur weniger Punkte), dass dabei der Stress kaum ansteigt. Dann aber sollte man die einfachere, theoretisch klarere und vermutlich auch besser replizierbare Lösung der formal etwas besseren, aber möglicherweise den Fehlern in den Daten überangepassten Lösung vorziehen. 15
16
Für Abbildung 12 wurde die hierarchische single-linkage Clusteranalyse verwendet. Wählt man dagegen das „Average“-Kriterium, dann wird der Kongo dem Cluster Ägypten-Indien zugeordnet, bleibt also kein Sonderfall. Diese Lösung des Problems ist formal nicht optimal. Besser wäre eine entsprechende konfirmatorische MDS, aber die Ausformulierung der regionalen Erwartungen und ihre Umsetzung in mathematische Restriktionen, die ein verfügbares MDS-Programm verarbeiten kann, kann sehr schwierig oder unmöglich sein.
17 Multidimensionale Skalierung
415
3.7 Überinterpretation von Dimensionsgewichten Ein häufig verwendetes MDS-Verfahren ist Indscal. Es skaliert nicht nur eine ganze Batterie von Proximitätsmatrizen, sondern modelliert dabei auch noch gleichzeitig Unterschiede zwischen Personen durch individuelle Dimensionsgewichte. Zudem sind von Indscal identifizierten Dimensionen in ihrer Orientierung eindeutig, so dass man hier, wie es scheint, auch gleich „die“ Dimensionen findet. Bei der Verwendung dieser vielversprechenden Modell-Eigenschaften ist jedoch Vorsicht geboten. Zunächst findet Indscal eindeutige Dimensionen auch dann, wenn andere Dimensionen fast ebenso viel Varianz erklären. Die Dimensionen können also nur ganz schwach eindeutig sein, obwohl die Dimensionsgewichte stark streuen (Lingoes & Borg 1978). Vor allem aber ist die Deutung der Dimensionsgewichte nur bedingt möglich: Sie hängt davon ab, wie der gemeinsame Raum normiert wird. Betrachten wir hierzu Abbildung 6. Hier ist der gemeinsame Raum so skaliert, dass die Summe der quadrierten Projektionen der Punkte auf die Achsen X und Y gleich groß ist. Durch Gewichtung der Y -Dimension mit dem Faktor 2 kommt man so zum individuellen Raum 1 in Abbildung 6. Entsprechend müssen wir die X-Dimension mit dem Faktor 2 gewichten, um zum individuellen Raum 2 zu kommen. Wie es scheint, ist für Person 1 also die Y -Dimension doppelt so wichtig wie die X-Dimension, das Umgekehrte gilt für Person 2. Diese Deutung der Dimensionsgewichte verändert sich aber dann, wenn wir den gemeinsamen Raum anders normieren. Das aber ist ohne weiteres möglich, weil diese Normierung nicht von den Daten abhängt, sondern willkürlich gewählt wird. Dehnt man den gemeinsamen Raum z. B. in der Y -Richtung und verkleinert entsprechend die individuellen Gewichte für diese Dimension, dann bleibt der ModellFit gleich. Man kann den Indscal-Gewichten daher also nicht entnehmen, ob Person 1 die Dimension Y „doppelt so wichtig“ oder auch nur „wichtiger“ findet wie X, sondern nur, dass sie Y wichtiger findet als Person 2. Die Dimensionsgewichte lassen sich also intra-individuell nicht über die Dimensionen hinweg vergleichen. Vergleichbar ist nur die Ordnung der Gewichte verschiedener Personen für die gleiche Dimension.
4 Literaturempfehlungen Eine erweiterte Darstellung dieses Textes findet sich in Borg et al. (2010). Dort wird auch ausgeführt, wie das derzeit beste MDS-Computerprogramm, das Modul Proxscal in SPSS, zu bedienen ist. Eine enzyklopädische Darstellung der MDS (verschiedenste MDS-Modelle, technisch-mathematische Aspekte, Algorithmen, Computerprogramme, Anwendungen in Datenanalyse und Theoriebildung, Interpretation und Bewertung von MDS-Lösungen, mit der MDS verwandte Modelle und Methoden) ist Borg & Groenen (2005). Ein kompakteres, eher mathematisch orientiertes Buch ist Cox & Cox (2000).
416
Ingwer Borg
Anhang
Tab. 3: Interkorrelationen von 13 Arbeitswerten aus dem ALLBUS 1991 (untere/obere Hälfte: West-/Ostdeutschland; Dezimalpunkte weggelassen) Arbeitswert
1
interessante Tätigkeit unabhängig arbeiten zu können Arbeit, die viel Verantwortung erfordert Arbeit, die bedeutsam und sinnvoll ist gute Aufstiegschancen Arbeit, die anerkannt und geachtet ist Arbeit, bei der man anderen helfen kann Arbeit, die nützlich für Gesellschaft ist Arb. mit viel Kontakt zu and. Menschen sichere Arbeitsstellung hohes Einkommen Arbeit, bei der man viel Freizeit hat sichere, gesunde Arbeitsbedingungen
51 42 37 28 18 20 20 31 14 20 25 32
2
3
4
47 43 53 57 30 33 29 33 23 34 19 31 17 28 34 39 17 18 26 25 22 13 31 23
5
6
7
8
38 28 37 29 31 27 34 23 39 32 42 38 20 33 38 18 43 19 24 43 37 33 17 32 40 18 37 56 31 21 24 43 19 39 37 24 05 54 32 05 09 19 30 13 37 25 20 25
28 25 38 44 25 39 48 34 25 08 18 23
9 10 11 12 13 27 28 41 29 15 29 49 32
16 25 24 24 39 37 16 23 16
15 16 16 13 52 29 10 16 11 40
21 15 09 08 27 21 14 18 10 18 27
17 11 32 19 16 30 24 33 16 23
28 26 25 33 34 35 26 30 19 38 29 25
Tab. 4: Korrelationen (untere Hälfte) einiger Untertests des KIPT und ihre Ränge (oben) np Nonsense word production (np) Long vowel production (lvp) Short vowel production (svp) Consonant cluster production (ccp) Nonsense word recognition (nr) Single letter production (slp) Consonant cluster recognition(ccr) Initial letter recognition (ilr)
– 0,78 0,87 0,94 0,84 0,53 0,72 0,66
lvp
svp
ccp
9
4 1
1 7 3
– 0,94 0,83 0,85 0,47 0,48 0,45
– 0,90 0,91 0,56 0,57 0,44
– 0,83 0,60 0,69 0,57
nr 6 5 2 7 – 0,56 0,59 0,55
slp
ccr
19 21 17 14 17 – 0,62 0,57
10 20 16 11 15 13 – 0,82
ilr 12 22 23 16 18 16 8 –
17 Multidimensionale Skalierung
417
Literaturverzeichnis Alderfer, C. P. (1972). Existence, Relatedness, and Growth. New York: Free Press. Bilsky, W. & Jehn, K. A. (2002). Organisationskultur und individuelle Werte: Belege für eine gemeinsame Struktur. In M. Myrtek (Hg.), Die Person im biologischen und sozialen Kontext (S. 211–228). Göttingen: Hogrefe. Borg, I. & Braun, M. (1996). Work Values in East and West Germany: Different Weights but Identical Structures. Journal of Organizational Behavior, 17, 541–555. Borg, I. & Groenen, P. (1998). Regional Interpretations in Multidimensional Scaling. In J. Blasius & M. Greenacre (Hg.), Visualization of Categorical Data (S. 347–364). New York: Academic Press. Borg, I. & Groenen, P. (2005). Modern Multidimensional Scaling. New York: Springer, 2. Auflage. Borg, I., Groenen, P., & Mair, P. (2010). Multidimensionale Skalierung. Mering: Rainer Hampp Verlag. Borg, I. & Lingoes, J. C. (1980). A Model and Algorithm for Multidimensional Scaling with External Constraints on the Distances. Psychometrika, 45, 25–38. Borg, I. & Shye, S. (1995). Facet Theory: Form and Content. Newbury Park: Sage. Borg, I. & Staufenbiel, T. (2007). Theorien und Methoden der Skalierung. Bern: Huber, 4. Auflage. Carroll, J. D. & Chang, J. J. (1970). Analysis of Individual Differences in Multidimensional Scaling via an N-Way Generalization of ’Eckart-Young’ Decomposition. Psychometrika, 35, 283–320. Cox, T. F. & Cox, M. A. A. (1991). Multidimensional Scaling on a Sphere. Communications in Statistics A, Theory and Methods, 20, 2943–2953. Cox, T. F. & Cox, M. A. A. (2000). Multidimensional Scaling, Band 2. London: Chapman & Hall. Dichtl, E., Bauer, H. H., & Schobert, R. (1980). Die Dynamisierung mehrdimensionaler Marktmodelle am Beispiel des deutschen Automobilmarkts. Marketing, 3, 163–177. Groenen, P. J. F. & Van der Lans, I. (2004). Multidimensional Scaling With Regional Restrictions for Facet Theory: An Application to Levy’s Political Protest Data. In M. Braun & P. P. Mohler (Hg.), Beyond the Horizon of Measurement (S. 41–64). Mannheim: ZUMA. Guthrie, J. T. (1973). Models of Reading and Reading Disability. Journal of Educational Psychology, 65, 9–18. Guttman, L. (1977). What Is Not What in Statistics. The Statistician, 26, 81–107. Horan, C. B. (1969). Multidimensional Scaling: Combining Observations when Individuals have Different Perceptual Structures. Psychometrika, 34, 139–165. Kruskal, J. B. (1964). Multidimensional Scaling by Optimizing Goodness of Fit to a Nonmetric Hypothesis. Psychometrika, 29, 1–27. Kruskal, J. B. & Wish, M. (1978). Multidimensional Scaling. Beverly Hills: Sage. Lingoes, J. C. & Borg, I. (1978). A Direct Approach to Individual Differences Scaling Using Increasingly Complex Transformations. Psychometrika, 43, 491–519.
418
Ingwer Borg
O’Reilly III, C. A., Chatman, J. A., & Caldwell, D. F. (1991). People and Organizational Culture: A Profile Comparison Approach to Assessing Person-Organization Fit. Academy of Management Journal, 34, 487–516. Roskam, E. E. (1979). The Nature of Data: Interpretation and Representation. In J. C. Lingoes, E. E. Roskam, & I. Borg (Hg.), Geometric Represenations of Relational Data (S. 149–235). Ann Arbor: Mathesis Press. Schönemann, P. H. (1994). Measurement: The Reasonable Ineffectiveness of Mathematics in the Social Sciences. In I. Borg & P. P. Mohler (Hg.), Trends and Perspectives in Empirical Social Research (S. 149–160). New York: De Gruyter. Schönemann, P. H. & Borg, I. (1983). Grundlagen der mehrdimensionalen metrischen Skaliermethoden. In H. Feger & J. Bredenkamp (Hg.), Enzyklopädie der Psychologie: Messen und Testen (S. 257–345). Göttingen: Hofgrefe. Schwartz, S. H. (1992). Universals in the Content and Structure of Values: Theoretical Advances and Empirical Tests in 20 Countries. Advances in Experimental Social Psychology, 25, 1–65. Schwartz, S. H. (2007). Value Orientations: Measurement, Antecedents and Consequences Across Nations. In R. Jowell, C. Roberts, R. Fitzgerald, & G. Eva (Hg.), Measuring attitutes cross-nationality: Lessons from the European Social Survey (S. 169–203). London: Sage. Spence, I. & Ogilvie, J. C. (1973). A Table of Expected Stress Values for Random Rankings in Nonmetric Multidimensional Scaling. Multivariate Behavioral Research, 8, 511–517. Tversky, A. (1977). Features of Similarity. Psychological Review, 84, 327–352. Wish, M. (1971). Individual Differences in Perceptions and Preferences Among Nations. In C. W. King & D. Tigert (Hg.), Attitude Research Reaches New Heights (S. 312318). Chicago: American Marketing Association.
Teil IV
Analyse von Häufigkeiten, Gruppen und Beziehungen
18 Analyse kategorialer Daten Hans-Jürgen Andreß Universität zu Köln
Zusammenfassung. Kategoriale Daten sind Variablen mit wenigen Ausprägungen, so dass statistische Verfahren angewendet werden können, die die Wahrscheinlichkeit des Auftretens einzelner Ausprägungen modellieren. Kategoriale Variablen können nominales, ordinales oder metrisches Messniveau haben. Wenn alle (abhängigen und unabhängigen) Variablen nur wenige Ausprägungen aufweisen, dann lässt sich ihre gemeinsame Verteilung in einer (multivariaten) Tabelle darstellen. Im Folgenden wird gezeigt, dass kategoriale Datenanalyse nichts Anderes als Regressionsanalyse mit tabellierten Häufigkeiten ist. Abhängige Variable dieser Regressionsmodelle sind entweder die Häufigkeiten selbst oder aus den Häufigkeiten errechnete Anteilswerte oder Häufigkeitsverhältnisse (Odds bzw. logarithmierte Odds). Es werden drei Ansätze vorgestellt: der so genannte GSK-Ansatz, Logit-Modelle und log-lineare Modelle. Der einführende Abschnitt 1 zeigt die Verbindungen dieser drei Ansätze zu einfachen Methoden der Tabellenanalyse. Abschnitt 2 erläutert ihre statistisch-mathematischen Grundlagen und Abschnitt 3 illustriert die drei Ansätze mit einem Anwendungsbeispiel aus der politischen Soziologie. Der Beitrag schließt mit einer Diskussion häufiger Anwendungsprobleme (Abschnitt 4) und einigen Literaturempfehlungen (Abschnitt 5).
1 Einführung in das Verfahren Was sind kategoriale Daten? – Bei kategorialen Daten handelt es sich um Variablen, die lediglich eine begrenzte Zahl von Ausprägungen haben. Beispiele wären etwa das Geschlecht einer Befragungsperson mit den Ausprägungen „männlich“ und „weiblich“; ihre Parteipräferenz unterschieden nach „SPD“, „CDU/CSU“, „FDP“, „Bündnis 90/Die Grünen“, „Republikaner“ und „sonstige Parteien“; die Anzahl der Mitbewohner im Haushalt dieser Person (0, 1, 2, 3 und mehr); die soziale Schicht, der sich die Person zuordnet (Unterschicht, Mittelschicht, Oberschicht) oder ihr Einkommen, wenn dieses in Klassen wie z. B. „unter 1000 €“, „1000–1999 €“, „2000–2999 €“, „3000 und mehr €“ erhoben wird. Variablen mit sehr vielen Ausprägungen, wie etwa das Einkommen in genauen Geldbeträgen oder das Lebensalter in Jahren, zählen nicht zu den kategorialen Variablen. Sie haben so viele Ausprägungen, dass ihre statistische Modellierung (als abhängige Variable) mit den hier vorzustellenden Methoden zu unübersichtlich und ineffizient wäre. Warum diese Unterscheidung zwischen wenigen und vielen Ausprägungen? – Eine begrenzte Anzahl von Ausprägungen ermöglicht den Forschern, die Wahrscheinlichkeit des Auftretens einzelner Kategorien zu modellieren. Eine typische Untersuchungsfrage S. 421–454 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_18, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
422
Hans-Jürgen Andreß
in diesem Kontext lautet: Wie groß ist die Wahrscheinlichkeit, ein SPD-Anhänger zu sein, und mit welchen Eigenschaften der Person hängt diese Wahrscheinlichkeit zusammen? Hat eine abhängige Variable sehr viele Ausprägungen (wie beispielsweise das genau erfragte Einkommen), ist dieses Vorgehen nicht besonders praktikabel. Wenn dieser Variablen eine kontinuierliche Eigenschaft zugrunde liegt, wie beispielsweise beim Einkommen, dann modelliert man üblicherweise bestimmte Eigenschaften der Verteilung aller Ausprägungen der Variablen (z. B. den Erwartungswert). Hat man also das Einkommen mit genauen Geldbeträgen und nicht klassifiziert erfasst, dann ist eine typische Untersuchungsfrage: „Wie hoch ist das Durchschnittseinkommen, und wie variiert es mit bestimmten Eigenschaften der Person?“. Diese Analysestrategie funktioniert natürlich nicht bei Variablen mit vielen Ausprägungen, denen keine kontinuierliche Eigenschaft zugrunde liegt. Ein Beispiel wäre die Variable Nationalität, die bei mehr als 190 Nationalstaaten auf der Welt im Prinzip sehr viele Ausprägungen haben kann, aber eben nur nominales Messniveau aufweist. Hier sind wiederum Verfahren kategorialer Datenanalyse einschlägig. Um diese sinnvoll anwenden zu können, müssen allerdings die vielen Ausprägungen in eine begrenzte Anzahl von Kategorien zusammengefasst werden. Die Unterscheidung zwischen wenigen und vielen Ausprägungen wirft natürlich die praktische Frage auf, ab wie vielen Ausprägungen man nicht mehr von kategorialen Daten spricht. Auf diese Frage gibt es keine Antwort, vielmehr sollte man fragen, ab welcher Anzahl von Ausprägungen Methoden kategorialer Datenanalyse nicht mehr sinnvoll angewendet werden können. Um diese Frage zufriedenstellend beantworten zu können, muss man etwas mehr über kategoriale Datenanalyse wissen, als ich im Rahmen dieses Handbuchartikels vermitteln kann. Klar ist jedoch, dass Variablen mit einer zweistelligen Anzahl von Ausprägungen Modelle für kategoriale Daten sehr kompliziert machen und diese daher schwierig zu interpretieren sind. Häufig wird die Meinung vertreten, dass Methoden kategorialer Datenanalyse im Wesentlichen Analyseverfahren für nicht-metrische Daten sind, also für Variablen nominalen oder ordinalen Messniveaus. Wie die obigen Beispiele zeigen, ist diese Ansicht jedoch falsch. Auch metrische Variablen können, sofern die Anzahl der Ausprägungen hinreichend klein ist, mit Analyseverfahren für kategoriale Variablen modelliert werden. So kann eine klassifizierte Einkommensvariable – Gleichverteilung in den Einkommensklassen vorausgesetzt – sowohl als metrische als auch als kategoriale Variable aufgefasst werden. Gleiches gilt für die Variable „Personen im Haushalt“. Die typischen Eigenschaften metrischer Variablen, nämlich die sinnvolle Interpretierbarkeit von Differenzen und Verhältnissen (also Informationen auf Intervall- und Verhältnisskalenniveau) können im Rahmen kategorialer Datenanalyse berücksichtigt werden. Schließlich sei noch darauf hingewiesen, dass es auch Variablen gibt, die sowohl kategoriale als auch kontinuierliche Informationen enthalten. Ein Beispiel wäre die Frage nach den Ausgaben für den Besuch von Bundesligaveranstaltungen. Eine Vielzahl von Befragten wird hier 0,00 € angeben, weil sie sich gar nicht für Fußball interessieren, geschweige denn ins Stadion gehen. Insofern unterscheiden die Ausprägungen der Ausgabenfrage erstens zwischen Besuchern und Nicht-Besuchern von Bundesligaveranstaltungen. Darüber hinaus werden zweitens die Besucher danach unterschieden, wie viel sie für diese Freizeitaktivität ausgeben. Variablen dieser Art müssen durch
18 Analyse kategorialer Daten
423
eine Kombination von Methoden für kategoriale und kontinuierliche Daten analysiert werden, die ich aus Platzgründen hier nicht besprechen kann.1 Methoden kategorialer Datenanalyse lassen sich leicht verstehen, weil sie direkt an Methoden anknüpfen, die in der Grundausbildung in Statistik vermittelt werden. Ich möchte das an einem klassischen Beispiel aus der politischen Soziologie illustrieren. In einem häufig zitierten Aufsatz entwickeln Riker & Ordeshook (1968) (im Folgenden abgekürzt mit R & O) ein Rational Choice Modell der Wahlbeteiligung, das davon ausgeht, dass die Frage, ob sich eine Person an einer Wahl beteiligt (V – voting) von vier Faktoren abhängt: – von der subjektiv empfundenen Wahlpflicht (D – duty), – von den persönlichen Kosten des Wahlaktes (C – cost), – von dem erwarteten relativen Vorteil, den der Wahlsieg einer Partei gegenüber dem Wahlsieg einer anderen Partei mit sich bringt (B – benefit), – und von der subjektiven Einschätzung der Wahrscheinlichkeit, dass die eigene Stimme den Wahlsieg der favorisierten Partei herbeiführt bzw. den Sieg einer anderen Partei verhindert (P – probability). Tabelle 1 zeigt, wie die Wahlbeteiligung V in den R & O-Daten mit drei (D, B, P ) der vier vermuteten Ursachen zusammenhängt (Informationen zu den Kosten standen R & O nicht zur Verfügung).2 Dieses kleine Beispiel illustriert die typischen Eigenschaften kategorialer Daten. Es enthält dichotome und polytome Variablen sowie Variablen unterschiedlichen (nominalen und ordinalen) Messniveaus. Würde man die subjektiv empfundene Wahlpflicht differenzierter abfragen (z. B. mit einer 7-stufigen LikertSkala), dann wird die Variable D auch von einigen Autoren als metrische Variable interpretiert. Da alle Variablen eine begrenzte Anzahl von Ausprägungen haben, lassen sich die Daten bequem in Tabellen darstellen, weshalb man Methoden kategorialer Datenanalyse auch häufig als Methoden zur Analyse tabellierter Daten bezeichnet. Erinnern wir uns nun an die Methoden, mit denen man entscheiden kann, ob die verwendeten Variablen statistisch voneinander unabhängig sind (zu klassischen bivariaten Zusammenhangsmaßen vgl. Kapitel 4 in diesem Handbuch). Dabei sind im Wesentlichen zwei Fragen untersuchungsleitend: (i) Unterscheidet sich die (bedingte) Verteilung der abhängigen Variablen signifikant zwischen verschiedenen Ausprägungen (Bedingungen) der unabhängigen Variablen, und (ii) unterscheidet sich die gemeinsame Verteilung der beiden Variablen signifikant von der Verteilung, die man erwarten würde, wenn beide Variablen unabhängig wären. Die erste Untersuchungsfrage setzt eine klare Unterscheidung von unabhängigen und abhängigen Variablen voraus. Man spricht auch von einer asymmetrischen Fragestellung. Diese Unterscheidung spielt für die zweite Untersuchungsfrage keine Rolle, weshalb man in diesem Fall auch von einer symmetrischen Fragestellung spricht. Beim R & O-Modell der Wahlbeteiligung 1
2
Dabei handelt es sich um so genannte Tobit-Modelle, die in jedem Ökonometrie-Lehrbuch mehr oder weniger ausführlich behandelt werden (z. B. in Woolridge 2008, Kapitel 17). Die R & O-Daten dienen hier nur als Anwendungsbeispiel, und dementsprechend sollen die vier Erklärungsfaktoren hier nicht weiter hinterfragt werden. Für eine inhaltliche Diskussion verschiedener Erklärungsmodelle der Wahlbeteiligung vgl. Aldrich (1993).
Häufigkeit Prozent
Insgesamt
1051 67,37
207 19,70 844 80,30 4,08
2. hoch
16,25 2,29 48,34 46,67 43,84
509 32,63
183 35,55 326 64,05 1,78
1. niedrig
B. Vorteil
Quelle: Riker & Ordeshook (1968)
Prozentsatzdifferenz d% Odds Ratio OR Pearsons XP2 Likelihood L2 2 Neymanns XN
2. ja
Häufigkeit Prozent Häufigkeit Prozent Odds (ja/nein)
1. nein
V. Wahlbeteiligung
313 20,06
83 26,52 230 73,48 2,77
1. niedrig
1,90 1,10 0,48 0,48 0,47
1247 79,94
307 24,62 940 75,38 3,06
2. hoch
P. Wahrscheinlichkeit
395 25,32
187 47,34 208 52,66 1,11
1. niedrig
25,06 3,14 154,01 147,50 144,53
552 35,38
123 22,28 429 77,72 3,49
2. mittel
D. Wahlpflicht
Tab. 1: Bivariate Zusammenhänge der Wahlbeteiligung mit den Variablen B, P und D
34,29 5,99
613 39,29
80 13,05 533 86,95 6,66
3. hoch
1560 100,00
390 25,00 1170 75,00 3,00
Insgesamt
424 Hans-Jürgen Andreß
18 Analyse kategorialer Daten
425
handelt es sich um eine asymmetrische Fragestellung, da der vermutete Zusammenhang eine eindeutige Richtung aufweist und dementsprechend unabhängige und abhängige Merkmale klar definiert sind. Es geht jetzt also darum, die Verteilung der Wähler und Nicht-Wähler für verschiedene Ausprägungen der unabhängigen Variablen D, B und P zu vergleichen. Dementsprechend wurde Tabelle 1 aufgebaut. Da der Mensch in vielen Kulturen gewohnt ist, horizontal zu lesen, lautet üblicherweise die Empfehlung, die unabhängige Variable X in den Tabellenkopf und die abhängige Variable Y in den Tabellenzeilen zu platzieren. Auf diese Weise stehen die bedingten Verteilungen nebeneinander und man kann sie leicht vergleichen. Leider führt dieses Prinzip bei einer Vielzahl von unabhängigen Variablen zu sehr unhandlichen Tabellen, insbesondere wenn man sich nicht nur für die bivariaten (wie in Tabelle 1), sondern auch für die multivariaten Zusammenhänge interessiert. Doch dazu unten mehr. Wenden wir aber zuerst einmal das Auswertungsprinzip (i) auf den bivariaten Zusammenhang von Wahlbeteiligung und Vorteil an. Die unterschiedliche Verteilung der Wähler und Nicht-Wähler in den beiden Gruppen, die entweder eher wenige (B = 1) oder eher viele (B = 2) Vorteile sehen, lässt sich auf zweierlei Weise quantifizieren: 1. Man betrachtet den Prozentsatz der Wähler und Nicht-Wähler in jeder Gruppe und berechnet beispielsweise die Differenz des Wähleranteils in beiden Gruppen. Erwartungsgemäß ist der Anteil der Wähler in der Gruppe der Befragten, die eher viele Vorteile sehen, um 16,3 Prozentpunkte höher. Da es sich um Differenzen von zwei Prozentwerten handelt, wird der Unterschied in Prozentpunkten (und nicht in Prozent!) ausgedrückt. Das entsprechende Maß bezeichnet man daher auch als Prozentsatzdifferenz d%. 2. Man betrachtet das Größenverhältnis von Wählern zu Nicht-Wählern in beiden Gruppen. In der Gruppe der Befragten, die eher viele Vorteile sehen, beträgt das Größenverhältnis 4,08 : 1 (844/207) und ist 2,29 mal größer als das entsprechende Größenverhältnis in der Gruppe der Befragten, die eher geringe Vorteile sehen (326/183 = 1,78). In der statistischen Fachliteratur wird das Größenverhältnis mangels eines allgemein akzeptierten deutschen Begriffs auch als Odds (engl., Gewinn- oder Wettchancen) bezeichnet. Bildet man zum Vergleich der beiden bedingten Verteilungen das Verhältnis der beiden Größenverhältnisse (Odds), dann spricht man auch von einem Odds Ratio OR. Man beachte, dass wir im ersten Fall Differenzen und im zweiten Fall Verhältnisse betrachten. Den Prozentsatzdifferenzen liegt also ein Modell additiver Assoziation zugrunde, den Odds Ratios dagegen ein Konzept multiplikativer Assoziation. Unterscheiden sich die bedingten Verteilungen nicht, dann muss im ersten Fall die Prozentsatzdifferenz null sein und im zweiten Fall das Odds Ratio eins. Weder das eine noch das andere trifft in der Tabelle VB zu, so dass wir davon ausgehen können, dass Wahlbeteiligung und Vorteile statistisch miteinander zusammenhängen. Gleiches gilt auch für den Zusammenhang von V und P , wenngleich hier die Unterschiede zwischen den bedingten Verteilungen sehr viel kleiner sind. Der Vergleich bedingter Verteilungen wird etwas komplizierter, wenn man unabhängige Variablen mit mehr als zwei Ausprägungen betrachtet. Ein Beispiel ist die dritte unabhängige Variable Wahlnorm (D), die drei Ausprägungen aufweist. Es sind jetzt
426
Hans-Jürgen Andreß
nicht nur zwei, sondern drei bedingte Verteilungen zu vergleichen. Dementsprechend lassen sich jeweils zwei Prozentsatzdifferenzen bzw. zwei Odds Ratios berechnen: einmal für den Vergleich „mittel“ versus “niedrig“ und das andere Mal für den Vergleich „hoch“ versus „niedrig“.3 Die entsprechenden Prozentsatzdifferenzen und Odds Ratios weisen erwartungsgemäß darauf hin, dass sich Personen um so eher an Wahlen beteiligen, je stärker sie subjektiv eine Pflicht zur Wahlbeteiligung wahrnehmen. Obgleich im betrachteten Beispiel eine klare Unterscheidung zwischen unabhängigen und abhängigen Merkmalen vorliegt, soll auch das zweite Auswertungsprinzip (ii) anhand der gemeinsamen Verteilung von D und V verdeutlicht werden. Der Vorteil dieses zweiten Ansatzes besteht darin, dass auch bei polytomen Variablen die Stärke des Zusammenhangs in einer Maßzahl verdichtet werden kann. Hier lautet die Untersuchungsfrage: „Wie hätten die Häufigkeiten in der Tabelle VD aussehen müssen, wenn beide Variablen statistisch voneinander unabhängig wären?“. Im Vergleich dieser „fiktiven“ Indifferenztabelle mit der realen Tabelle liegt schließlich die dritte Möglichkeit, den statistischen Zusammenhang zwischen zwei kategorialen Variablen zu messen. Dazu bedient man sich eines ganz einfachen Satzes der Wahrscheinlichkeitsrechnung, der Folgendes besagt: Wenn zwei Ereignisse voneinander unabhängig sind, dann kann man die Wahrscheinlichkeit ihres gemeinsamen Auftretens aus dem Produkt beider Einzelwahrscheinlichkeiten errechnen. Die Einzelwahrscheinlichkeiten erhalten wir, wenn wir uns die unbedingten Verteilungen der Variablen V und D anschauen (also die Randverteilungen der Tabelle VD). 75 % aller Befragten haben gewählt und 25,3 % aller Befragten fühlen sich nur im geringen Maße zur Wahlbeteiligung verpflichtet, so dass unter der Annahme statistischer Unabhängigkeit die Wahrscheinlichkeit einer Beobachtung in der linken unteren Zelle der Tabelle VD (gerundet) 20,0 % beträgt. Multipliziert mit dem Stichprobenumfang ergibt sich eine erwartete Häufigkeit von (gerundet) 296 Personen. Tatsächlich gehen jedoch sehr viel weniger Personen mit dieser Merkmalskombination zur Wahl, nämlich 205, was ein Hinweis darauf ist, das Wahlbeteiligung und Wahlnorm positiv miteinander zusammenhängen. Komplettiert wird dieser Eindruck, wenn man in ähnlicher Weise für alle anderen 5 Zellen der Tabelle VD die erwarteten Häufigkeiten berechnet. Die Abweichungen zwischen erwarteten und beobachteten Häufigkeiten kann man schließlich für alle Zellen zusammenfassen und ein summarisches Maß der Abweichungen zwischen vorhergesagten Werten und empirischen Daten berechnen. Eine entsprechende Maßzahl wurde von Pearson vorgeschlagen und ist als Pearsons Chi-Quadrat XP2 bekannt. Weitere Möglichkeiten sind das Likelihood 2 Chi-Quadrat L2 und Neymanns Chi-Quadrat XN . Die entsprechenden Formeln finden sich in Abschnitt 2. Alle drei Bezeichnungen sind etwas irreführend, weil sie suggerieren, dass die drei Maßzahlen mit der aus der theoretischen Statistik bekannten Zufallsvariablen χ2 identisch sind, die man auch den einschlägigen statistischen Tabellenwerken entnehmen 2 kann. Das jeweilige Anhängsel „Chi-Quadrat“ rührt daher, dass XP2 , L2 und XN eine 3
Natürlich ist auch der Vergleich der Ausprägungen „hoch“ und „mittel“ von Interesse. Es lässt sich jedoch relativ schnell zeigen, dass die entsprechende Prozentsatzdifferenz bzw. das entsprechende Odds Ratio aus den beiden anderen Prozentsatzdifferenzen bzw. Odds Ratios errechnet werden kann.
18 Analyse kategorialer Daten
427
ähnliche Verteilung aufweisen wie die theoretische χ2 -Verteilung. Diese Ähnlichkeit besteht aber nur unter bestimmten Bedingungen und die drei Maße sind in endlichen Stichproben niemals gleich (vgl. Tabelle 1) und auch nicht mit χ2 identisch. Sie sind zunächst also nichts Anderes als Maße für die Abweichung zwischen einer Modellvorstellung über die Daten (z. B. die der statistischen Unabhängigkeit) und den empirischen Daten selbst. Ich bezeichne sie daher als Anpassungsmaße bzw. als GOF-Statistiken (GOF – goodness of fit). Statt Pearsons (Likelihood, Neymanns) Chi-Quadrat spreche ich von Pearsons (Likelihood, Neymanns) Statistik. Wie man aus Tabelle 1 erkennen kann, lässt sich das zweite Auswertungsprinzip auch auf die „einfacheren“ 2 × 2-Tabellen VB und VP anwenden. Aus dem Vergleich 2 der numerischen Werte XP2 , L2 und XN für alle drei bivariaten Zusammenhänge kann man den Eindruck gewinnen, dass der statistische Zusammenhang zwischen Wahlbeteiligung und Wahlnorm am höchsten ist, gefolgt von dem Zusammenhang zwischen Wahlbeteiligung und Vorteil bzw. Wahlbeteiligung und Wahrscheinlichkeit. Nebenbei gesagt: Die Prozentsatzdifferenzen und Odds Ratios vermitteln einen ähnlichen Eindruck. In diesem Beispiel sind die Unterschiede so deutlich, dass man sich weitere Analysen sparen kann. Im allgemeinen Fall ist dieser einfache Vergleich jedoch aus zweierlei Gründen etwas vorschnell. Erstens enthält die Tabelle VD sehr viel mehr Zellen als die Tabellen VB und VD und kann allein schon deshalb sehr viel größere GOF-Statistiken generieren. Zweitens beruhen die beobachteten Häufigkeiten auf einer Zufallsstichprobe und liefern daher je nach Stichprobenumfang mehr oder weniger unsichere Informationen über die Population aller Wahlberechtigten, über die Aussagen gemacht werden soll. Eine vollständige statistische Analyse muss daher mindestens die durch die Zufallsauswahl bedingten Stichprobenfehler kontrollieren. Auch dazu werden in der statistischen Grundausbildung die wesentlichen Methoden vermittelt: 1. Bei der Prozentsatzdifferenz wäre beispielsweise zu fragen, ob die Prozentanteile der Wähler in den jeweils verglichenen Gruppen signifikant voneinander abweichen bzw. ob die Prozentsatzdifferenz signifikant von Null verschieden ist. Mit Hilfe des geschätzten Standardfehlers der Prozentsatzdifferenz würde man beispielsweise einen Z-Test durchführen, wobei man allerdings unterstellen müsste, dass die Prozentwerte näherungsweise normalverteilt sind. 2. Ganz ähnlich wäre das Vorgehen beim Vergleich der beiden Odds, wobei allerdings die Schwierigkeit darin besteht, dass das Odds Ratio das Verhältnis und nicht die Differenz der beiden Odds verwendet. Ein entsprechender Test betrachtet daher den natürlichen Logarithmus des Odds Ratios, weil dieser wiederum der Differenz der beiden logarithmierten Odds entspricht. 3. Bei den drei genannten GOF-Statistiken fragt man sich schließlich, ob sie bei der gegebenen Anzahl von Zeilen und Spalten der Tabelle so groß sind, dass sie nicht mehr durch Zufall erklärt werden können, wenn die Annahme der Unabhängigkeit der beiden Variablen zutreffen soll. Genauer gesagt verläuft die Argumentation in etwa so: Wenn die Stichprobe ein exaktes Abbild der Population ist und beide 2 Variablen in der Population unabhängig sind, dann müssen XP2 , L2 und XN gleich 2 null sein. Ein Wert von beispielsweise XP = 0,5 kann jedoch auftreten, wenn
428
Hans-Jürgen Andreß
man zufällige Abweichungen der Stichprobe von der Population unterstellt. Würde dagegen ein Wert von XP2 = 10,5 auftreten, dann wäre er bei einer 2 × 3-Tabelle so unwahrscheinlich, dass die Annahme der Unabhängigkeit nicht zutreffen kann. Die Frage der Wahrscheinlichkeit würde man durch Vergleich der Pearson Statistik mit der theoretischen χ2 -Verteilung mit df = (3 − 1)(2 − 1) = 2 Freiheitsgraden entscheiden (und damit auch gleichzeitig die Anzahl der Zellen in der Tabelle kontrollieren). Die Wahrscheinlichkeit, dass bei 2 Freiheitsgraden ein Wert von χ2 ≥ 10,5 auftritt, beträgt ca. 5,2 Promille und ist damit sehr unwahrscheinlich (zum Vergleich: P (χ2 ≥ 0,5|df = 2) = 0,779). Diese einfachen Techniken sind für die Analyse bivariater Zusammenhänge vollkommen ausreichend, werden aber schnell unübersichtlich, wenn man mehrere Variablen gleichzeitig betrachtet, was in jeder ernsthaften empirischen Analyse der Regelfall ist. R & O gehen beispielsweise davon aus, dass alle drei Erklärungsfaktoren B, P und D gleichzeitig wirken und dass im Übrigen der Einfluss des wahrgenommenen Vorteils einer Partei (B) davon abhängt, wie hoch man die Wahrscheinlichkeit (P ) einschätzt, mit seiner eigenen Stimme die Wahl beeinflussen zu können. An dieser Stelle kommen die Vorteile kategorialer Datenanalyse zum Tragen, die diese einfachen Techniken in einem allgemeinen Regressionsmodell integriert und sie damit problemlos für multivariate Fragestellungen nutzbar macht. Um das Vorgehen zu verstehen, muss man an dieser Stelle lediglich wissen, wie eine multiple Regression mit Dummy-Variablen funktioniert (vgl. Kapitel 24 und 26 in diesem Handbuch). Anhand der Tabelle VB möchte ich daher im Folgenden illustrieren, wie die Analyse von Prozentsatzdifferenzen, Odds Ratios und erwarteten Häufigkeiten in einem Regressionsansatz reformuliert werden kann. Lineare Modelle für Anteilswerte Unser Datensatz besteht aus n = 2 Fällen (den beiden Gruppen „i = 1 mit B = 1“ und „i = 2 mit B = 2“) und zwei Variablen (dem Anteil der Wähler pro Gruppe pi2 und dem wahrgenommenen Vorteil B). Die Hypothese, dass sich der Wähleranteil mit dem wahrgenommenen Vorteil verändert, lässt sich durch das folgende Regressionsmodell formalisieren: (1) E(pi2 ) = β0 + β1 · DummyBi Die neu zu bildende Dummy-Variable DummyB hat den Wert 1 in der Gruppe derjenigen, die eher viele Vorteile sehen (B = 2), und den Wert 0 in der Gruppe derjenigen, die eher wenige Vorteile sehen (B = 1). Dementsprechend beträgt der erwartete Wähleranteil in der ersten Gruppe (B = 2) E(p22 ) = β0 + β1 und in der zweiten Gruppe (B = 1) E(p12 ) = β0 . Anders ausgedrückt: Die Prozentsatzdifferenz d% entspricht dem Regressionskoeffizienten β1 multipliziert mit 100. Und weiterhin: Die Hypothese, dass die Prozentsatzdifferenz zwischen beiden Gruppen null ist, entspricht der Hypothese, dass der Regressionskoeffizient β1 nicht signifikant von Null verschieden ist. Die Analyse von Prozentsatzdifferenzen ist also einfach in einen Regressionsansatz zu integrieren, wobei das Regressionsmodell nicht nur eine (wie in diesem Beispiel), sondern mehrere unabhängige Variablen und deren Interaktionen enthalten kann. Der
18 Analyse kategorialer Daten
429
Nachteil eines linear-additiven Regressionsansatzes ist lediglich, dass nicht garantiert ist, dass das Modell sinnvolle Prognosen im Einheitsintervall [0, 1] liefert, in dem sich Anteilswerte bewegen dürfen (Wähleranteile über 100 % oder unter 0 % gibt es nicht). Außerdem stellt sich die Frage, wie man die Parameter dieses Modells schätzen soll, denn einfache Kleinste-Quadrate-Schätzungen (OLS – ordinary least squares) sind an bestimmte Voraussetzungen gebunden, die bei Anteilswerten nicht gegeben sind (z. B. Varianzhomogenität). Entsprechend verallgemeinerte Schätzverfahren sollten natürlich auch berücksichtigen, dass jeder „Fall“ des Datensatzes nicht eine einzelne Person, sondern eine ganze Gruppe von Personen repräsentiert, die unterschiedlich umfangreich sein kann. Multiplikative Modelle für Odds bzw. Logit-Modelle Die Daten bleiben dieselben, nur verwenden wir dieses Mal als abhängige Variable die Odds, eher wählen als nicht wählen zu gehen. Die Odds lassen sich aus dem Anteil der Wähler (pi2 ) und Nicht-Wähler (pi1 ) errechnen: ωi2/1 = pi2/pi1 = pi2/(1−pi2 ). Der Index „2/1“ bei ω (neben dem i) soll verdeutlichen, dass hier die zweite Ausprägung von V im Verhältnis zur ersten Ausprägung betrachtet wird. Gültige Werte von Odds liegen im Wertebereich 0 ≤ ω < ∞. Dementsprechend ist es sinnvoll, das Regressionsmodell so zu formulieren, dass Vorhersagen nur im positiven Bereich vorkommen können: E(ωi2/1 ) = exp(β0 + β1 · DummyBi ) = exp(β0 ) · exp(β1 )DummyBi
(2)
In der Gruppe der Personen, die eher geringe Vorteile sehen (DummyB= 0), reduziert sich die Gleichung auf E(ω12/1 ) = exp(β0 ), und in der Vergleichsgruppe (DummyB= 1) auf E(ω22/1 ) = exp(β0 ) · exp(β1 ). Durch Verwendung der Exponentialfunktion ist sichergestellt, dass Werte im zulässigen Wertebereich von Odds vorhergesagt werden. Es handelt sich darüber hinaus um ein multiplikatives Modell, in dem exp(β1 ) angibt, um welchen (multiplikativen) Faktor sich die Odds, eher wählen zu gehen, in der Vergleichsgruppe erhöhen. Mit anderen Worten: exp(β1 ) entspricht dem Odds Ratio OR zwischen der Gruppe, die eher viele Vorteile sieht, und der Gruppe, die eher geringe Vorteile sieht. Das multiplikative Modell lässt sich durch Logarithmierung relativ einfach in ein linear-additives transformieren: E(ln ωi2/1 ) = β0 + β1 · DummyBi
(3)
Abhängige Variable sind jetzt die logarithmierten Odds oder kurz die Logits. Für Logits beträgt der zulässige Wertebereich −∞ < ln(ω) < +∞, so dass – im Gegensatz zu linearen Modellen für Anteilswerte – hier keine Probleme mit dem linear-additiven Ansatz entstehen. Dafür sind die Ergebnisse des Logit-Modells4 weniger anschaulich, weil das Konzept der Logits (und Odds) weniger intuitiv ist, insbesondere bei statistischen Laien. Die Frage, ob sich beide Gruppen bezüglich der Wahlbeteiligung unterscheiden, 4
In diesem Beitrag wird durchgängig der Begriff des „Logit-Modells“ verwendet. Faktisch ist das Modell jedoch ein Spezialfall der logistischen Regression, genauer gesagt einer logistischen Regression mit ausschließlich kategorialen unabhängigen Variablen (zur logistischen Regression siehe Kapitel 31 in diesem Handbuch).
430
Hans-Jürgen Andreß
lässt sich in diesem Ansatz in ähnlicher Weise beantworten wie in dem vorherigen Modell für Anteilswerte. Die Frage nach Gruppenunterschieden entspricht der Hypothese, dass das Odds Ratio OR = exp(β1 ) signifikant von 1 verschieden ist bzw. (äquivalent) dass die Differenz der Logits, gemessen durch β1 , signifikant von 0 verschieden ist. Auch hier stellt sich die Frage einer optimalen Schätzung der Regressionskoeffizienten, denn auch bei Logits ist die für OLS-Schätzungen notwendige Annahme der Varianzhomogenität nicht gegeben und die „Fälle“ der Datei repräsentieren nicht einzelne Personen, sondern unterschiedlich umfangreiche Personengruppen. Log-lineare Modelle für Häufigkeiten Um ein Regressionsmodell für erwartete Häufigkeiten zu formulieren, müssen wir die Daten etwas anders arrangieren als in den beiden anderen Ansätzen. Da jetzt keine der verwendeten Variablen explizit als abhängige betrachtet wird (symmetrische Fragestellung), entsprechen die Fälle der folgenden Regressionsanalysen nicht den verschiedenen Merkmalsausprägungen der unabhängigen Variablen, sondern den Merkmalskombinationen von unabhängigen und abhängigen Variablen. Das sind in unserem Beispiel B und V , die jeweils 2 Ausprägungen haben, so dass sich insgesamt n = 2 · 2 = 4 „Fälle“ ergeben. Die entsprechende Datei enthält drei Variablen: B, V und die Häufigkeit fi der jeweiligen Ausprägungskombination. Der Grundgedanke des obigen Testes auf statistische Unabhängigkeit lässt sich relativ simpel in einem Regressionsansatz für erwartete Häufigkeiten abbilden. Statistische Unabhängigkeit impliziert, dass die erwarteten Häufigkeiten lediglich von den Randverteilungen der beiden Variablen und dem Stichprobenumfang abhängen, aber nicht von dem statistischen Zusammenhang der beiden Variablen. Da es sich bei Häufigkeiten um positive Zahlen handelt, formulieren wir das entsprechende Regressionsmodell unter Verwendung der Exponentialfunktion bzw. des Logarithmus gleich in einer Form, so dass negative Vorhersagen nicht auftreten können: E(fi ) = exp(β0 ) · exp(β1 )DummyBi · exp(β2 )DummyVi E(ln fi ) = β0 + β1 · DummyBi + β2 · DummyVi
(4) (5)
Die Dummy-Variablen DummyB und DummyV wurden nach den gleichen Prinzipien wie in den beiden vorherigen Beispielen gebildet (eine 1 repräsentiert die Wähler bzw. die Personen, die eher viele Vorteile sehen, eine 0 entsprechend die jeweilige Restgruppe). exp(β0 ) misst die erwartete Häufigkeit der Gruppe von Personen, die nicht wählen und (gleichzeitig) eher weniger Vorteile sehen (DummyV = 0 ∧ DummyB = 0). Die erwarteten Häufigkeiten der Personen, die sich in mindestens einer dieser beiden Eigenschaften von dieser Gruppe unterscheiden, erhält man durch Multiplikation mit exp(β1 ) oder mit exp(β2 ) oder mit beiden. exp(β0 ) kontrolliert praktisch den Stichprobenumfang. Je größer dieser ausfällt, desto höher auch die durchschnittliche Höhe aller Zellenhäufigkeiten der Tabelle (darunter auch die Häufigkeit, auf die exp(β0 ) fokussiert). exp(β1 ) und exp(β2 ) kontrollieren dagegen die Verteilung der beiden Variablen B und V . Gibt es insgesamt mehr Personen, die viele Vorteile sehen, als Personen, die wenige Vorteile sehen, dann ist exp(β1 ) größer als Eins (im umgekehrten Fall ist exp(β1 ) < 1). Gibt es mehr Wähler als Nicht-Wähler, dann ist
18 Analyse kategorialer Daten
431
exp(β2 ) größer als Eins (im umgekehrten Fall ist exp(β2 ) < 1). Wenn die Annahme der statistischen Unabhängigkeit nicht gegeben wäre, dann müsste das Regressionsmodell auch einen Interaktionseffekt der beiden Variablen B und V enthalten, was wie folgt aussehen würde: E(fi ) = exp(β0 ) · exp(β1 )DummyBi · exp(β2 )DummyVi · exp(β3 )DummyBi ·
DummyVi
(6)
Die Hypothese statistischer Unabhängigkeit lässt sich entweder dadurch testen, dass das vorherige Modell ohne Interaktionseffekt bereits sehr gute Prognosen für die beobachteten Häufigkeiten liefert (also geringe Residuen aufweist), oder dadurch, dass der Interaktionseffekt β3 nicht signifikant von Null verschieden ist. Aus vielerlei Gründen ist es nicht sinnvoll, Regressionsmodelle für erwartete Häufigkeiten mit OLS zu schätzen. Einer davon ist die Tatsache, dass die Verteilung der Häufigkeiten nicht (auch nicht näherungsweise) einer Normalverteilung entspricht. Regressionsmodelle für erwartete Häufigkeiten werden daher immer durch Maximum Likelihood geschätzt. Zusammenfassung Abschließend wollen wir diese Ergebnisse noch einmal zusammenfassen. Ausgangsdaten kategorialer Datenanalyse sind tabellierte Daten. Die Fälle der entsprechenden Regressionsmodelle ergeben sich bei asymmetrischen Fragestellungen aus der Anzahl der Merkmalskombination der unabhängigen Variablen und bei symmetrischen Fragestellungen aus der Anzahl der Merkmalskombinationen aller Variablen, egal ob sie als unabhängige oder abhängige Variablen betrachtet werden. Anhand der vollständigen R & O-Daten zeigt Tabelle 2, wie eine solche multivariate Tabelle aufgebaut sein sollte, wenn sie als Eingangsdaten für eine asymmetrische Fragestellung fungiert. Die Zeilen der Tabelle DBPV entsprechen den Merkmalskombinationen der unabhängigen Variablen D, B und P , und in den Spalten sind die verschiedenen Ausprägungen der Variablen V abgetragen. Insgesamt hat diese Tabelle n = 3 · 2 · 2 = 12 Zeilen und 2 Spalten. Aus den insgesamt 24 Häufigkeiten lassen sich zeilenweise Anteilswerte, Odds, Logits und andere Funktionen der Häufigkeiten berechnen, die dann als abhängige Variablen in Regressionsmodellen verwendet werden können. Bei einer symmetrischen Fragestellung würden die gleichen Daten nur etwas anders arrangiert; und zwar so, dass die Zeilen der Tabelle die Merkmalskombinationen aller beteiligten Variablen enthalten und in einer einzigen Spalte alle Häufigkeiten abgetragen werden. Diese Tabelle hätte dann n = 3 · 2 · 2 · 2 = 24 Zeilen und 1 Spalte. Die bivariaten Tabellen BV, PV und DV, die wir vorher diskutiert haben (vgl. Tabelle 1) ergeben sich aus Tabelle 2 durch entsprechende Aggregation über die jeweils ausgeblendeten Variablen. Beispielsweise ergibt sich Tabelle BV durch Aggregation über die verschiedenen Ausprägungen von P und D. Da alle beteiligten Variablen wenige Ausprägungen aufweisen, kann man sie offensichtlich auf sehr effiziente Art und Weise in einer Tabelle zusammenfassen und direkt in einer wissenschaftlichen Veröffentlichung publizieren, so dass man die zugrunde liegenden Mikrodaten (über einzelne Personen) gar nicht kennen muss.5 Solche multivariaten Tabellen sind quasi das Pendant zu Korrelationsmatrizen bei kontinuierlichen 5
Ich habe die Daten dem Aufsatz von Riker & Ordeshook (1968) entnommen.
432
Hans-Jürgen Andreß
Tab. 2: Multivariate Verteilung der Variablen D, B, P und V D. Wahlpflicht
1. 1. 1. 1. 2. 2. 2. 2. 3. 3. 3. 3.
niedrig niedrig niedrig niedrig mittel mittel mittel mittel hoch hoch hoch hoch
B. Vorteil
1. 1. 2. 2. 1. 1. 2. 2. 1. 1. 2. 2.
niedrig niedrig hoch hoch niedrig niedrig hoch hoch niedrig niedrig hoch hoch
P. Wahrscheinlichkeit
1. 2. 1. 2. 1. 2. 1. 2. 1. 2. 1. 2.
niedrig hoch niedrig hoch niedrig hoch niedrig hoch niedrig hoch niedrig hoch
V. Wahlbeteiligung 1. nein
2. ja
16 86 21 64 9 46 17 51 6 20 14 40
16 73 33 86 17 95 58 259 21 104 85 323
Insgesamt
32 159 54 150 26 141 75 310 27 124 99 363
Quelle: Riker & Ordeshook (1968)
(metrischen) Variablen, die auch häufig in wissenschaftlichen Veröffentlichungen zu finden sind und mit denen man die dort publizierten Regressionsergebnisse für kontinuierliche Variablen replizieren kann. Anders ausgedrückt: Multivariate Tabellen sind ein Auszug aus einem Mikrodatensatz in aggregierter Form. Die Zellen der Tabelle bzw. die Fälle des aggregierten Datensatzes beschreiben Gruppen (Subpopulationen) von Mikroeinheiten, die sich bezüglich der verwendeten kategorialen Variablen nicht weiter unterscheiden. Wenn wir (bei symmetrischer Fragestellung) Personen nach den Variablen D, B, P und V unterscheiden wollen, dann ergeben sich n = 3 · 2 · 2 · 2 = 24 Subpopulationen, vorausgesetzt alle Merkmalskombinationen kommen in dem Datensatz vor. Wenn wir dagegen (bei asymmetrischer Fragestellung) Personen nur nach den Variablen D, B und P unterscheiden und innerhalb dieser Gruppen dann nach Wahlbeteiligung V differenzieren wollen, dann sind lediglich n = 3 · 2 · 2 = 12 Subpopulationen zu berücksichtigen, innerhalb derer allerdings zwischen Wählern und Nicht-Wählern differenziert wird (daher 2 Häufigkeiten pro Subpopulation). Kategoriale Datenanalyse ist schließlich nichts Anderes als Regressionsanalyse mit tabellierten (aggregierten) Häufigkeiten, wobei aufgrund der besonderen Eigenschaften der jeweiligen abhängigen Variablen (Anteilswerte, Logits, Häufigkeiten) nicht-lineare Regressionsfunktionen und entsprechend angepasste Schätzverfahren zum Einsatz kommen. Lineare Modelle für Anteilswerte, Logits und andere aus Häufigkeiten errechenbare Statistiken lassen sich beispielsweise mit gewichteten Kleinste-Quadrate Schätzungen (WLS – weighted least squares) überprüfen. Diese Möglichkeit wird nach seinen Erfindern Grizzle, Starmer und Koch (1969) auch als GSK-Ansatz bezeichnet. Log-lineare Modelle für Häufigkeiten werden dagegen mit Maximum Likelihood (ML) geschätzt. ML-Schätzungen sind unter statistisch-theoretischen Gesichtspunkten WLSSchätzungen vorzuziehen, so dass Logit-Modelle häufig auch mit ML geschätzt werden (nicht jedoch lineare Modelle für Anteilswerte). Da Logits, Odds, Anteilswerte und
18 Analyse kategorialer Daten
433
andere Statistiken alle aus Häufigkeiten errechnet werden, sind log-lineare Modelle für Häufigkeiten der allgemeinste Ansatz. So lassen sich beispielsweise die Regressionskoeffizienten eines Logit-Modells aus den Regressionskoeffizienten eines log-linearen Modells ableiten. Analog zur klassischen Regression für kontinuierliche Variablen stehen verschiedene Maßzahlen zur Beurteilung der Anpassung des jeweiligen Modells an die Daten und zur Beurteilung der Signifikanz der einzelnen Regressionskoeffizienten zur Verfügung. Das sind zum Einen die oben beschriebenen GOF-Statistiken XP2 , L2 und 2 XN und zum Anderen Z- und Wald-Tests für die einzelnen Regressionskoeffizienten. 2 Mathematisch-statistische Grundlagen Bevor ich im Folgenden die mathematisch-statistischen Grundlagen kategorialer Datenanalyse erläutere, müssen wir uns erst mit der Notation anfreunden, die sich für diese Art von Modellen eingebürgert hat. Wie ich eingangs erläutert habe, geht es bei kategorialen Daten darum, die Wahrscheinlichkeit jeder einzelnen Ausprägung zu modellieren, wobei wir anhand der Beispiele des vorherigen Abschnitts gelernt haben, dass praktisch jede Ausprägung der untersuchten Variablen einen Effekt haben kann. Wir müssen also eine Notation finden, die es erlaubt, jede(n) Häufigkeit (Anteilswert, Odds, Logit) eindeutig zu bezeichnen und Effekte für verschiedene Ausprägungen der beteiligten Merkmale unterscheidbar zu machen. Dazu verwendet man Großbuchstaben für die jeweilige kategoriale Variable, die in einem hochgestellten Index (Superskript) notiert werden, und Zahlen bzw. Kleinbuchstaben für die jeweiligen Ausprägungen der Variablen, die in einem tiefgestellten Index notiert werden. Das log-lineare Modell für die Tabelle VB mit Interaktionseffekt würde beispielsweise folgendermaßen aussehen: V BV ln FijBV = θ + λB i + λj + λij
(7)
BV Das große F ist eine Abkürzung für die erwartete Häufigkeit E(fij ). Die beobachteten Häufigkeiten in der Stichprobe werden mit einem kleinen f bezeichnet. Laut Tabelle 1 BV gibt es beispielsweise f22 = 844 Personen, die eher Vorteile sehen (B = 2) und zur Wahl gehen (V = 2). Da die zuvor verwendeten Dummy-Variablen DummyB und DummyV eigentlich nur zur Folge haben, dass ein bestimmter Effekt vorhanden ist oder nicht, verzichtet die neue Schreibweise gänzlich auf die Verwendung von Dummies und nennt nur die Effekte, die für die jeweilige Häufigkeit gelten sollen. Um das zu verstehen, schauen wir uns einmal an, wie die vorherige Gleichung für jede der vier Zellen der Tabelle BV aussieht: BV V BV = θ + λB ln F11 1 + λ1 + λ11 BV V BV ln F12 = θ + λB 1 + λ2 + λ12 BV V BV ln F21 = θ + λB 2 + λ1 + λ21 BV V BV ln F22 = θ + λB 2 + λ2 + λ22
θ misst das durchschnittliche Niveau der Häufigkeiten und entspricht unserer vorherigen Regressionskonstanten. λV2 bzw. λV1 messen, wie die Häufigkeiten der Wähler
434
Hans-Jürgen Andreß
(V = 2) bzw. der Nichtwähler (V = 1) von diesem Niveau abweichen. Man bezeichnet B das auch als den Haupteffekt der Variablen V . Dementsprechend messen λB 1 und λ2 den Haupteffekt der Variablen B bzw. spiegeln die Verteilung des wahrgenommenen Vorteils wider. Der Interaktionseffekt λBV 11 misst schließlich, ob die Häufigkeit der Nicht-Wähler (V = 1), die eher wenige Vorteile sehen (B = 1), noch zusätzlich von dem allgemeinen Trend abweicht, der durch den Durchschnittseffekt und die beiden Haupteffekte beschrieben wird. Gleiche Überlegungen gelten für die drei anderen BV BV Interaktionseffekte(λBV 12 , λ21 , λ22 ), die die (zusätzlichen) Abweichungen in den anderen drei Tabellenzellen beschreiben. Die Interaktionseffekte messen also Unterschiede zwischen der o. g. Indifferenztabelle und der realen Verteilung beider Variablen und somit den Einfluss, den ein wahrgenommener Vorteil auf das Wahlverhalten hat. Es ist jedoch unmöglich, diese insgesamt 12 verschiedenen Regressionskoeffizienten mit den Daten einer Tabelle zu schätzen, die lediglich vier Häufigkeiten enthält. Es sind daher gewisse Identifikationsrestriktionen notwendig, um das Gleichungssystem lösbar zu machen. Dabei zeigt sich, dass die Zusammenhänge in der Tabelle bereits durch eine kleinere Anzahl von Parametern erschöpfend beschrieben werden können. Eine Möglichkeit besteht darin, jeweils einen Koeffizienten pro Haupteffekt auf null zu setzen (z. B. den der jeweils ersten Ausprägung). Bei den Interaktionseffekten setzt man dementsprechend die Effekte null, die mit mindestens einer der auf Haupteffektebene ausgeschlossenen Kategorien zusammenhängen. Unser vorheriges Beispiel reduziert sich dementsprechend auf folgendes (gerade identifiziertes) Gleichungssystem (vier Gleichungen mit vier Unbekannten): V BV = θ+λB 1 · 0+λ1 · 0+λ11 · 0
BV ln F11 =θ BV ln F12 =θ BV = θ+λB ln F21 2
+λV2
V BV = θ+λB 1 · 0+λ2 · 1+λ12 · 0 V BV = θ+λB 2 · 1+λ1 · 0+λ21 · 0
BV V BV B V BV ln F22 = θ+λB 2 +λ2 +λ22 = θ+λ2 · 1+λ2 · 1+λ22 · 1
Diese Möglichkeit entspricht der Verwendung von 1/0-kodierten Dummy-Variablen im vorherigen Abschnitt und wird daher auch als Dummy-Kodierung bezeichnet. Bei dieser Parametrisierung werden die Effekte als Abweichungen von einer Referenzgruppe ausgedrückt (der Gruppe, die durch die jeweils ausgeschlossenen Kategorien definiert wird; hier B = 1 und V = 1). Man spricht daher auch von auf eine Kategorie bezogenen Effekten. Eine andere, aus der Varianzanalyse bekannte Reparametrisierung fordert, dass die Summe der Koeffizienten jedes Haupteffektes Haupteffekt von B null ergibt. Für den B B würde man beispielsweise fordern, dass j λB = 0 gilt. Wenn λ 1 + λ2 = 0 sein soll, j B dann kann man einen Parameter einsparen, denn aus der Restriktion folgt λB 2 = −λ1 . Analoge Überlegungen gelten für die Interaktionseffekte, so dass sich folgendes (gerade identifiziertes) Gleichungssystem ergibt:
18 Analyse kategorialer Daten
435
BV V BV B V BV ln F11 = θ+λB 1 +λ1 +λ11 = θ+λ1 · (+1)+λ1 · (+1)+λ11 · (+1) BV V BV B V BV = θ+λB ln F12 1 −λ1 −λ11 = θ+λ1 · (+1)+λ1 · (−1)+λ11 · (−1) BV V BV B V BV ln F21 = θ−λB 1 +λ1 −λ11 = θ+λ1 · (−1)+λ1 · (+1)+λ11 · (−1) BV V BV B V BV = θ−λB ln F22 1 −λ1 +λ11 = θ+λ1 · (−1)+λ1 · (−1)+λ11 · (+1)
Diese Möglichkeit entspricht der Verwendung von Dummy-Variablen, die mit „+1“ für die interessierende Kategorie und mit „−1“ für die Referenzkategorie kodiert sind.6 Man spricht hier auch von Effekt-Kodierung. Die Effekte können als Abweichung vom Gesamtdurchschnitt interpretiert werden, wenn alle Merkmalskombinationen der beteiligten Variablen vorkommen, d. h. keine Nullzellen in der Tabelle existieren. Das liefert einerseits besonders anschauliche Interpretationen der Daten und führt andererseits im Gegensatz zur Dummy-Kodierung zu einem einheitlichen Vergleichsmaßstab (dem Gesamtdurchschnitt), während die Referenzgruppe bei der Dummy-Kodierung immer davon abhängt, welche Variablen im Modell berücksichtigt wurden. Effekt-Kodierung liefert daher so genannte zentrierte Effekte. Bevor ich mich Fragen der Schätzung der Regressionskoeffizienten zuwende, will ich noch kurz erläutern, wie man mit der neuen Notation ein Regressionsmodell für Anteilswerte und für Logits spezifizieren würde. Beiden Modellen liegt eine asymmetrische Fragestellung zugrunde, weil eine der beteiligten Variablen explizit als abhängige Variable verwendet wird. Wir bringen das dadurch zum Ausdruck, dass wir den entsprechenden Buchstaben mit einem Querstrich versehen. Entsprechende Modelle für die Anteilswerte und Logits in Tabelle BV sehen dann folgendermaßen aus: ¯
¯
¯
BV BV Anteilswerte: πi2 = β2V + βi2 ¯
¯
¯
V BV BV Logits: Φi2/1 = β2/1 + βi2/1 ¯
BV π ist eine Abkürzung für den erwarteten Anteilswert E(pi2 ) und Φ eine Abkürzung ¯ BV für die erwarteten Logits E(ωi2/1 ). Wenn die abhängige Variable insgesamt j = 1, . . . ,J Ausprägungen hat, dann kann man zwar insgesamt J Anteilswerte bzw. Logits berechnen, jedoch sind nur J − 1 voneinander unabhängig. Wenn man beispielsweise für eine der Subgruppen (z. B. B = 1) weiß, dass der Wähleranteil 64,1 % beträgt, dann kennt man auch gleichzeitig den Anteil der Nicht-Wähler, der 100 − 64,1 = 35,9% beträgt (vgl. Tabelle 1). Ähnliches gilt für Odds und Logits: Wenn das Größenverhältnis von Wählern und Nicht-Wählern in der Subgruppe (B = 1) 1,78 : 1 beträgt, dann entspricht der Kehrwert dem umgekehrten Größenverhältnis von Nicht-Wählern zu Wählern 1/(1,78 : 1) = 0,56. Die entsprechenden Logits lauten 0,58 und −0,58, d. h. das Logit der ausgeschlossenen Kategorie entspricht dem negativen Wert des Logits der ausgewählten Kategorie. Bei der dichotomen Zielvariablen V reicht es daher aus, wenn wir den Anteil der zweiten Kategorie bzw. das Größenverhältnis von Kategorie 2 zu ¯ Kategorie 1 modellieren (siehe die entsprechenden Indizes „2“ bzw. „2/1“). β..V misst 6
Hat eine Variable mehr als zwei Ausprägungen, dann kommt bei den Dummies noch der Kode 0 hinzu, der immer dann vergeben wird, wenn es sich weder um die interessierende Kategorie handelt, die das Dummy repräsentieren soll, noch um die Referenzkategorie.
436
Hans-Jürgen Andreß ¯
jeweils das durchschnittliche Niveau der Anteilswerte (Logits) und β..B V misst den Haupteffekt der Variablen B. Durch geeignete Identifikationsrestriktionen (Dummyoder Effekt-Kodierung) ist schließlich sicherzustellen, dass das Gleichungssystem auch lösbar ist. Durch Einsetzen der Häufigkeiten kann man im Übrigen zeigen, dass sich die Regressionskoeffizienten des Logit-Modells aus den Koeffizienten des log-linearen Modells ergeben (weshalb wir für letztere andere griechische Symbole als β s verwendet haben): ¯
BV BV BV = ln Fi2 − ln Fi1 Φi2/1 V BV B V BV = (θ + λB i + λ2 + λi2 ) − (θ + λi + λ1 + λi1 )
=
(λV2
−
λV1
)+
(λBV i2
−
λBV i1
(8)
) ¯
¯
BV BV V Ein Koeffizientenvergleich ergibt β2/1 = (λV2 − λV1 ) und βi2/1 = (λBV i2 − λi1 ). Je ¯
V nachdem, welche Identifikationsrestriktionen man gewählt hat, ergibt sich also β2/1 = ¯
¯
¯
V BV V BV BV λV2 und β22/1 = λBV 22 (Dummy-Kodierung) oder β2/1 = −2λ2 und βi2/1 = −2λ11 (Effekt-Kodierung). Hier erweist sich eine Dummy-Kodierung als vorteilhaft, weil man die Koeffizienten des Logit-Modells direkt aus den log-linearen Koeffizienten ablesen kann. Wenn beide Methoden – log-lineare Modelle und Logit-Modelle – zu gleichen Ergebnissen kommen, drängt sich natürlich die Frage auf, was log-lineare Modelle eigentlich zusätzlich machen. Diese Frage ist anhand der vorherigen Umformung leicht zu beantworten: Neben den Einflüssen der unabhängigen Variablen auf die abhängige enthält das log-lineare Modell noch Parameter, die die Verteilung der unabhängigen Variablen (vgl. den Koeffizienten λB i ) und den Stichprobenumfang (vgl. den Koeffizienten θ) kontrollieren. Beide werden bei einer asymmetrischen Fragestellung als gegeben betrachtet, weil nur noch die bedingten Verteilungen der abhängigen Variablen innerhalb der Subpopulationen modelliert werden. Die vielen Regressionskoeffizienten eines log-linearen Modells, insbesondere bei der Analyse multivariater Tabellen, verlangen förmlich nach einer einfacheren Schreibweise. Üblicherweise benennt man in geschweiften Klammern lediglich die Variablen, die entweder allein (Haupteffekt) oder in Kombination mit anderen (Interaktionseffekt) die Verteilung der Häufigkeiten in der Ausgangstabelle bestimmen. Für das vorherige Modell ergibt sich dementsprechend folgende Modellformel: {B, V , BV }.7 Bei asymmetrischen Fragestellungen verwendet man eckige Klammern. Das vorherige Logit-Modell 7
Der Durchschnittseffekt θ wird nicht extra erwähnt. Die Modellformel könnte weiter auf {BV } abgekürzt werden, wenn man sich auf hierarchische Modelle beschränkt, die auch alle rangniedrigeren Effekte (hier: B, V ) enthalten. Ursprünglich geht diese Art, das Modell zu spezifizieren, auf ein bestimmtes numerisches Optimierungsverfahren zur Berechnung der ML-Schätzer in log-linearen Modellen zurück, das so genannte IPFVerfahren (iterative proportional fitting). Beim IPF-Verfahren geht es darum, iterativ die erwarteten Häufigkeiten eines log-linearen Modell dadurch zu schätzen, dass man bestimmte Randverteilungen der multivariaten Ausgangstabelle exakt reproduziert. Das heißt, die geschätzten erwarteten Häufigkeiten des Modells entsprechen exakt den beobachteten
18 Analyse kategorialer Daten
437
würde dementsprechend mit [1, B] bezeichnet (die „1“ steht für die Regressionskonstante). Anhand dieser Modellformeln ergibt sich folgende Faustregel, wie man das gewünschte Logit-Modell mit einem log-linearen Modell repliziert. Man multipliziert alle Terme des Logit-Modells mit der abhängigen Variablen ([1, B] · V ⇒ V,BV ) und fügt dann noch Terme hinzu, die die Verteilung der unabhängigen Variablen beschreiben (B). Es ist also ein log-lineares Modell {B, V, BV } zu schätzen, um für die Tabelle BV den Effekt der Variablen B auf die Wahlbeteiligung V zu bestimmen. Nachdem wir durch geeignete Reparametrisierung sichergestellt haben, dass die Koeffizienten des jeweiligen Regressionsmodells überhaupt berechnet werden können (technisch: dass sie überhaupt identifiziert sind), können wir uns jetzt Gedanken über ihre Schätzung machen. Für die obigen Beispiele ist der Begriff der „Schätzung“ vielleicht etwas übertrieben, denn es handelt sich um gerade identifizierte Gleichungssysteme (so genannte saturierte Modelle), in denen genau so viele Unbekannte (Regressionskoeffizienten) wie Gleichungen (Daten) vorkommen, so dass die Schätzer der Regressionskoeffizienten direkt und eindeutig berechnet werden können. Im allgemeinen Fall analysieren wir jedoch umfangreichere Tabellen mit sparsameren Modellen und haben dementsprechend mehr Daten als zu schätzende Regressionskoeffizienten. Diese Freiheitsgrade werfen die Frage auf, wie man die Koeffizienten schätzen soll, um eine optimale Beschreibung der Daten zu erstellen, zumal die Daten eine Zufallsstichprobe sind und daher zufällig von den tatsächlichen Verhältnissen in der Population abweichen können. Bevor wir diese Frage beantworten, ist daher zunächst zu klären, welches Verteilungsmodell der theoretischen Statistik am besten die Verteilung der Häufigkeiten beschreibt, die die Ausgangsdaten für unsere Analysen von Anteilswerten, Logits, erwarteten Häufigkeiten usw. sind. In der Regressions- und Faktorenanalyse für kontinuierliche Variablen wird üblicherweise angenommen, dass die Daten einer (multivariaten) Normalverteilung folgen. Bei kategorialen Daten wird dagegen entweder eine Poisson-, eine multinomiale oder produkt-multinomiale Stichprobenverteilung angenommen. In allen drei Fällen geht man davon aus, dass die Population vollständig in K sich gegenseitig ausschließende und voneinander unabhängige Subpopulationen unterteilt werden kann, die durch alle Merkmalskombinationen der Variablen, die Gegenstand der Analyse sind, gebildet werden. Bei asymmetrischen Fragestellungen sind die Subpopulationen durch die Merkmalskombinationen der unabhängigen Variablen definiert. Der Umfang jeder einzelnen Subpopulation wird als gegeben betrachtet, so dass die Verteilung der Häufigkeiten innerhalb der Subpopulation durch die Multinomialverteilung beschrieben werden kann (im Falle einer dichotomen Zielvariablen ergibt sich als Spezialfall die Binomialverteilung). Sind die einzelnen Subpopulationen voneinander unabhängig, dann wird die gesamte Verteilung aller Häufigkeiten einer (asymmetrischen) multivariaten Kreuztabelle (also nicht nur der Häufigkeiten innerhalb einer Subpopulation) durch eine Produkt-Multinomialverteilung beschrieben. Ist schließlich der gesamte Häufigkeiten in den genannten Randverteilungen. Die Modellformel muss dann lediglich die Randverteilungen höchster Ordnung benennen, die angepasst werden sollen. Wenn man beispielsweise mit der Modellformel {BV } die bivariate Verteilung von B und V reproduziert, dann werden damit notwendigerweise auch die univariaten Verteilungen von B und V angepasst.
438
Hans-Jürgen Andreß
Stichprobenumfang (also die Summe der Stichproben aus allen Subpopulationen) eine zufällige Größe, dann kann man zeigen, dass die Produkt-Multinomialverteilung einem Produkt von Poisson-Verteilungen entspricht. Das letzte Verteilungsmodell wird bei symmetrischen Fragestellungen benutzt, bei denen alle Häufigkeiten sozusagen gleichberechtigt modelliert werden, ohne sie vorher nach den Merkmalskombinationen der unabhängigen Variablen zu differenzieren. Aus diesen Verteilungsmodellen lassen sich nun wichtige Schlussfolgerungen für das zu verwendende Schätzverfahren ableiten. ML-Schätzer der Regressionskoeffizienten ergeben sich beispielsweise, wenn man aus der Menge der möglichen Werte, die diese Koeffizienten annehmen können, diejenigen auswählt, die die Wahrscheinlichkeit des Stichprobenergebnisses, also die Häufigkeiten der multivariaten Tabelle, maximieren. Um dieses Schätzverfahren anwenden zu können, benötigt man also ein Modell der Stichprobenverteilung der Häufigkeiten. Beim Logit-Modell ist das die ProduktMultinomialverteilung und beim log-linearen Modell die Poisson-Verteilung. Darüber hinaus lassen sich mit Hilfe der Multinomialverteilung Angaben über Varianzen und Kovarianzen von Anteilswerten und Logits ableiten, um WLS-Schätzungen vornehmen zu können. Für die oben diskutierten Anteilswerte ergeben sich dabei folgende Formeln:
Var(pij ) =
πij · (1 − πij ) fi.
(9)
und Cov(pij ,pij ) =
−πij πij (j = j ) fi.
(10)
Darin nummeriert der Index i die jeweilige Subpopulation, die sich durch die Kombination aller unabhängigen Variablen ergibt, und der Index j die jeweilige Kategorie der abhängigen Variablen. fi. = j fij entspricht der Summe aller Häufigkeiten einer Subpopulation i, also dem Stichprobenumfang der Subpopulation i. Um Varianzen und Kovarianzen berechnen zu können, benötigt man Schätzwerte für die erwarteten Anteilswerte. Hierfür verwendet man mangels besserer Alternativen die beobachteten Anteilswerte: π ˆij = pij . Sind die Stichprobenumfänge der Subpopulationen i = 1, . . . ,n nicht zu klein (siehe dazu Abschnitt 4), sind die Anteilswerte näherungsweise normalverteilt. Varianzen und Kovarianzen für nicht-lineare Funktionen der Anteilswerte (also z. B. Logits) können mit einem Näherungsverfahren (Delta-Methode) abgeleitet werden. Sie werden bei hinreichend großen fi. ebenfalls als normalverteilt angenommen. Wenn Anteilswerte und Logits (näherungsweise) normalverteilt sind, dann kann man die entsprechenden Regressionsmodelle auch mit der Methode der Kleinsten Quadrate schätzen. Wenn die erwarteten Anteilswerte πij bzw. die erwarteten Logits Φij mit Hilfe der unabhängigen Variablen modelliert werden, dann zeigen jedoch die vorherigen Formeln, dass die Varianzen der beobachteten Anteilswerte und Logits nicht konstant (homoskedastisch) sind, wie bei OLS üblicherweise angenommen, sondern mit den Werten der unabhängigen Variablen, von denen die πij laut Modell abhängen, variieren. Diese Annahmenverletzung kann man aber durch eine Verallgemeinerung
18 Analyse kategorialer Daten
439
des Schätzverfahrens, eine gewichtete Kleinste-Quadrate Schätzung, heilen. Hier wird die mit den inversen Varianzen gewichtete Quadratsumme der Residuen (WSSR) minimiert. Für Anteilswerte sieht die entsprechende Zielfunktion folgendermaßen aus:8 WSSR =
n i=1
1 (pi1 − π ˆi1 )2 V ar(pi1 )
(11)
Bei Logits ist entsprechend die Varianz der Logits zu verwenden, und die Residuen entsprechen den Differenzen zwischen beobachteten ωi1/2 und geschätzten erwarteten Logits Φˆi1/2 . In beiden Fällen wurde angenommen, dass die abhängige Variable dichotom ist, man daher nur den Anteilswert einer Ausprägung (den Logarithmus eines Größenverhältnisses) modellieren muss und dafür den Anteil der ersten Ausprägung (den Logarithmus des Größenverhältnisses von Ausprägung „1“ versus „2“) verwendet. In diesem Fall lässt sich jedes normale Regressionsprogramm, das die Analyse gewichteter Daten erlaubt, dazu verwenden, um die WLS-Schätzer der Regressionskoeffizienten zu berechnen.9 Bei abhängigen Variablen mit J > 2 Ausprägungen ist die Situation schwieriger und für den Normalanwender ohne Spezialsoftware nicht lösbar. Wie bereits erwähnt, gibt es in diesem Fall (J − 1) voneinander unabhängige Anteilswerte (Logits), für die dementsprechend (J − 1) Regressionsmodelle simultan geschätzt werden müssen, da – wie die obigen Kovarianzformeln zeigen – die (J − 1) Anteilswerte (Logits) miteinander kovariieren.10 Hier ist das System von mehreren Regressionsgleichungen mit der Varianz-Kovarianz-Matrix der Anteilswerte (Logits) zu gewichten, was man ohne Matrizenrechnung und/oder Spezialsoftware nicht umsetzen kann. ML-Schätzungen ergeben unter schwachen Bedingungen asymptotisch erwartungstreue, normalverteilte Schätzer der Regressionskoeffizienten, die minimale Varianz haben. Für die WLS-Schätzer kann man ebenfalls zeigen, dass sie asymptotisch erwartungstreu, effizient und normalverteilt sind. Das ist einerseits positiv, bedeutet aber auch andererseits, dass die statistischen Eigenschaften beider Schätzverfahren in kleinen Stichproben unklar sind. Für die Berechnung der WLS-Schätzer gibt es analytische Lösungen. Gleiches gilt für die Standardfehler der mit WLS geschätzten Regressionskoeffizienten. ML-Schätzwerte müssen dagegen mit Verfahren numerischer 8
Bhakpar (1966) konnte zeigen, dass WLS-Schätzer, die diese Summe minimieren, identisch 2 mit den Schätzern sind, die Neymanns Statistik XN minimieren. Genauer gesagt, gilt diese Identität nur für Modelle mit Anteilswerten oder mit linearen Funktionen der Anteilswerte als abhängige Variable, also nicht für Logits (vgl. Agresti 2002, S. 612). Man bezeichnet den GSK-Ansatz daher auch als Minimum-Chi-Quadrat-Methode. 9 Man muss allerdings das Regressionsprogramm zwingen, keinen Standardfehler der Regression (root mean square error) zu berechnen, sonst werden die Standardfehler der WLS-Schätzer falsch ausgewiesen. Die Varianz des Fehlerterms der Regression wird bereits vollständig durch das Gewicht (inverse Varianz) beschrieben. 10 An dieser Stelle fragt sich vielleicht mancher, wie die Beschreibungen „unabhängige Anteilswerte (Logits)“ und „miteinander kovariieren“ zueinander passen. Unabhängigkeit meint nicht statistische Unabhängigkeit, sondern die Tatsache, dass man beispielsweise (J − 1) Anteilswerte schätzen kann und dann der letzte Anteilswert notwendigerweise bekannt ist, weil sich alle Anteilswerte einer Subpopulation zu 1 addieren.
440
Hans-Jürgen Andreß
Optimierung gefunden werden. Erfreulicherweise hat die Likelihood-Funktion bei den hier diskutierten Modellen immer ein einziges Maximum, so dass entsprechende Algorithmen immer eine eindeutige Lösung liefern. Der Deeming-Stephan-Algorithmus (auch als IPF-Verfahren bekannt, siehe Fn. 7) findet sehr schnell eine Lösung, schätzt aber nur die erwarteten Häufigkeiten, aus denen man sich in einem getrennten Schritt die Regressionskoeffizienten berechnen muss. Außerdem liefert er keine Standardfehler der Regressionskoeffizienten. Der Newton-Raphson-Algorithmus ist dagegen etwas langsamer, liefert dafür aber gleich Schätzwerte der Regressionskoeffizienten und ihrer Standardfehler. Mit den geschätzten Standardfehlern kann man – wie in der linearen Regression für kontinuierliche Variablen – Signifikanztests für jeden einzelnen Regressionskoeffizienten durchführen. Da die statistischen Eigenschaften beider Schätzverfahren nur asymptotisch (also nur in großen Stichproben) gelten, wird als Testverteilung nicht die T -, sondern die Standardnormalverteilung verwendet. Die entsprechende Teststatistik wird wie folgt berechnet: βˆ − β 0 (12) z= σ ˆβ Darin ist βˆ der jeweils geschätzte Regressionskoeffizient, β 0 der in der Nullhypothese angenommene Wert des Koeffizienten (zum Beispiel β 0 = 0) und σ ˆβ der geschätzte Standardfehler des Regressionskoeffizienten. Wenn ein Regressionskoeffizient mindestens doppelt so groß ist wie sein Standardfehler, dann kann man mit einer Irrtumswahrscheinlichkeit von 5 % sagen, dass er von Null verschieden ist. ˆ der Schätzer kann man darüber Mit der gesamten Varianz-Kovarianz-Matrix V ˆ ist symmetrisch hinaus auch zusammengesetzte Hypothesen überprüfen. Die Matrix V und hat genauso viele Spalten und Zeilen, wie Regressionskoeffizienten geschätzt wurden. Auf der Diagonalen der Matrix stehen die geschätzten Varianzen der Regressionskoeffizienten (die Wurzel daraus ergibt den o. g. Standardfehler), und außerhalb der Diagonalen findet man die geschätzten Kovarianzen der Regressionskoeffizienten. Zusammengesetzte Hypothesen sind beispielsweise die Frage, ob mehrere Regressionskoeffizienten gleichzeitig einen Wert von Null aufweisen, oder die Frage, ob ein Regressionskoeffizient βk genau so groß ist wie ein anderer Koeffizient (z. B. βk , k = k ). Die erste Frage taucht z. B. dann auf, wenn man eine polytome unabhängige Variable im Modell berücksichtigt, die dementsprechend mit mehreren Effekten in der Regressionsgleichung vertreten ist. Möchte man nicht nur wissen, ob bestimmte Ausprägungen dieser Variablen statistisch bedeutsam sind, sondern die Variable insgesamt, dann muss man alle ihre Effekte gemeinsam auf Signifikanz prüfen. Zusammengesetzte Hypothesen lassen sich am besten in einer Matrizengleichung der Form Cβ = 0 spezifizieren. Darin ist β ein K × 1-Vektor mit den K Regressionskoeffizienten des Modells und 0 ein entsprechend dimensionierter Nullvektor. Die so genannte Restriktions- oder Kontrastmatrix C spezifiziert die Hypothesen. Sie hat K Spalten und genauso viele Zeilen, wie Hypothesen getestet werden. Die folgenden zwei Beispiele zeigen für ein Regressionsmodell mit vier Regressionskoeffizienten, wie man die beiden genannten Beispielhypothesen spezifizieren würde.
18 Analyse kategorialer Daten
441
Beispiel 1: H0 : β3 = 0 ∧ β4 = 0 :
⎛
⎞ β1 ⎜β2 ⎟ 0010 0 ⎜ ⎟ ×⎝ ⎠= 0001 0 β3 β4
Beispiel 2: ⎛
H0 : β2 = β4 :
⎞ β1 ⎜β2 ⎟ ⎟ 0 1 0 −1 × ⎜ ⎝β3 ⎠ = 0 β4
Natürlich ließe sich auf diese Weise auch der zuvor diskutierte Signifikanztest eines einzelnen Regressionskoeffizienten spezifizieren: Beispiel 3: ⎛
H 0 : β2 = 0 :
⎞ β1 ⎜β2 ⎟ ⎟ 0 1 0 0 ×⎜ ⎝β3 ⎠ = 0 β4
Nun kann man zeigen, dass das folgende Matrizenprodukt – unter Verwendung der ˆ der geschätzten Regressionsˆ des Vektors β geschätzten Varianz-Kovarianz-Matrix V, koeffizienten und der Restriktionsmatrix C – näherungsweise χ2 -verteilt ist: ˆ (CVC ˆ ∼ χ2 ˆ )−1 (Cβ) W 2 = (Cβ) df
mit df = Rang(C)
(13)
Die Anzahl der Freiheitsgrade entspricht der Anzahl der Zeilen der Kontrastmatrix C, und diese ist identisch mit dem Rang der Kontrastmatrix. Die Teststatistik W 2 , auch als Wald-Statistik bezeichnet, ist sowohl bei WLS- als auch bei ML-Schätzungen verfügbar, weil sie auf der in beiden Verfahren gleichermaßen verwendeten Annahme aufbaut, dass die geschätzten Regressionskoeffizienten normalverteilt sind. Berechnet man die Wald-Statistik, um einen einzelnen Regressionskoeffizienten auf Signifikanz zu prüfen (siehe Beispiel 3), dann entspricht W 2 dem Quadrat der zuvor berechneten ZStatistik. Wenn man jedoch eine gerichtete Hypothese für den Regressionskoeffizienten testen möchte (z. B. β > 0), dann sollte man den Z-Test verwenden. Schließlich stellt sich noch die Frage, ob das jeweilige Regressionsmodell insgesamt überhaupt eine gute Beschreibung der Daten liefert. Im Rahmen des klassischen linearen Regressionsmodells gibt es hierfür den F -Test der Regression, der im Prinzip untersucht, ob das interessierende Modell die Daten signifikant besser erklärt als das einfachste Modell, das man überhaupt für die Daten formulieren kann, nämlich das Modell, das lediglich eine Regressionskonstante enthält. Damit das Modell „passt“, muss der F -Test ein signifikantes Testresultat zeigen. Man könnte das Testprinzip als ein Bottom-Up-Verfahren bezeichnen, bei dem es darum geht, ausgehend vom einfachsten Modell so lange nach einem komplexeren Modell zu suchen, bis keine
442
Hans-Jürgen Andreß
signifikante Modellverbesserung mehr möglich ist. Bei kategorialen Variablen funktioniert das Testverfahren ähnlich, nur handelt es sich eher um ein Top-Down-Verfahren. Man beginnt mit dem komplexesten (saturierten) Modell, das genau so viele Regressionskoeffizienten wie Daten enthält und daher eine perfekte Modellanpassung aufweist (alle Residuen sind null).11 Dann fragt man sich, inwieweit man das saturierte Modell vereinfachen kann, ohne dass sich eine signifikant schlechtere Modellanpassung ergibt. Die entsprechenden Anpassungstests sollten daher möglichst kein signifikantes Ergebnis zeigen (also darauf hinweisen, dass die Modellvereinfachung nicht zu einem signifikant schlechteren Modellfit führt). Entsprechende Anpassungstests ergeben sich mit den eingangs erwähnten GOF2 Statistiken XP2 , L2 und XN , die folgendermaßen definiert sind: Pearsons Statistik :
XP2 =
(fi − Fˆi )2
Fˆi fi L2 = 2 fi ln Fˆi
(14)
i
Likelihood Statistik :
(15)
i
Neymanns Statistik :
2 = XN
(fi − Fˆi )2 i
fi
(16)
Alle drei Statistiken zeichnen sich dadurch aus, dass sie die i = 1, . . . ,I 12 beobachteten Häufigkeiten fi einer multivariaten Tabelle mit den geschätzten Häufigkeiten Fˆi vergleichen, die man aufgrund des jeweiligen Modells erwarten würde (in der Einleitung also z. B. das Modell statistischer Unabhängigkeit).13 Wenn man berücksichtigt, dass das saturierte Modell die beobachteten Häufigkeiten exakt reproduziert, dann sind alle drei Statistiken nichts Anderes als ein summarisches Maß der Abweichungen des aktuellen Modells (repräsentiert durch Fˆi ) vom saturierten Modell bzw. den beobachteten Daten (repräsentiert durch fi ). Wie bereits erwähnt, sind alle drei Statistiken näherungsweise χ2 -verteilt mit df Freiheitsgraden. Ganz grob ergibt sich die Anzahl der Freiheitsgrade aus der „Anzahl der Daten“ des jeweiligen Regressionsmodells abzüglich der Anzahl der geschätzten Regressionskoeffizienten. Lediglich bei der Bestimmung der Anzahl der Daten des jeweiligen Regressionsmodells muss man etwas aufpassen. Bei symmetrischen Fragestellungen (d. h. bei log-linearen Modellen) entspricht diese Zahl in der Tat der Gesamtzahl aller Häufigkeiten. Bei asymmetrischen Fragestellungen (d. h. 11
12
13
Das im Gegensatz zum klassischen linearen Regressionsmodell andere Testprinzip beruht u. a. darauf, dass sich kategoriale Daten immer als eine multivariate Tabelle mit einer begrenzten Zahl von Häufigkeiten darstellen lassen. Für solche eher kleinen Datensätze lässt sich immer ein Regressionsmodell spezifizieren, das die Daten perfekt erklärt. I misst hier die Gesamtzahl aller Häufigkeiten der Tabelle, egal ob diese (bei einer symmetrischen Fragestellung) als ein langer Vektor von Häufigkeiten (für jede Merkmalskombination aller beteiligten Variablen) aufgefasst werden oder (bei asymmetrischer Fragestellung) als zweidimensionale Matrix von n Subpopulationen (für jede Merkmalskombination der unabhängigen Variablen) und K Ausprägungen der abhängigen Variablen. Da es sich um Schätzungen der erwarteten Häufigkeiten handelt, wird Fi mit einem Dach versehen.
18 Analyse kategorialer Daten
443
bei Modellen für Anteilswerte oder Logits) muss man dagegen in Rechnung stellen, dass man nicht die Häufigkeiten, sondern daraus abgeleitete Statistiken (Anteilswerte, Logits) modelliert. Dementsprechend entspricht hier die Anzahl der Daten der Zahl der Anteilswerte bzw. Logits, die modelliert werden. Zwei der vorherigen GOF-Statistiken ergeben sich im Übrigen aus sehr viel allgemeineren Testprinzipien. Bei ML-Schätzungen untersucht man beispielsweise mit Likelihood-Verhältnis-Tests, ob sich zwei unterschiedlich komplexe Modelle signifikant unterscheiden. Die entsprechende, näherungsweise χ2 -verteilte Teststatistik berechnet sich wie folgt: LR = 2 · (Lu − Lr ) , (17) wobei Lr der negativen Log-Likelihood des weniger komplexen Modells r entspricht, das sich aus dem komplexeren Modell u (mit negativer Log-Likelihood Lu ) ergibt, wenn man einige Regressionskoeffizienten des komplexeren Modells u restringiert, also z. B. auf Null setzt. u und r stehen für „unrestricted“ und „restricted model“. Man spricht auch von geschachtelten („nested“) Modellen. Die Anzahl der Freiheitsgrade dieses Tests entspricht der Anzahl der Restriktionen. Dieser Gedankengang lässt sich auf log-lineare Modelle übertragen, die mit ML geschätzt werden. Wenn man als nicht-restringiertes Modell u das saturierte Modell verwendet und das aktuelle Modell mit r bezeichnet, dann ergibt die Anwendung des Likelihood-Verhältnis-Tests die oben diskutierte Likelihood-Statistik L2 . Die dafür beschriebene Formel für die Freiheitsgrade (Anzahl Daten minus Anzahl geschätzter Regressionskoeffizienten) ist ebenfalls mit der Definition der Freiheitsgrade des Likelihood-Verhältnis-Tests vereinbar: Um das saturierte Modell zu schätzen, benötigt man genau so viele Regressionskoeffizienten, wie man Daten hat. Folglich entspricht die Anzahl der Restriktionen des LikelihoodVerhältnis-Tests der Differenz zwischen der Anzahl der Daten und der Anzahl der geschätzten Parameter des aktuellen Modells. In ähnlicher Weise kann man für WLS-Schätzungen zeigen, dass die gewichtete Summe der quadrierten Residuen (vgl. Formel W SSR weiter oben) näherungsweise χ2 -verteilt ist. Wenn man sich die Formel näher anschaut, dann erkennt man, dass es darin um die Abweichungen der Prognosen (Anteilswerte, Logits) des aktuellen Modells und den Prognosen des saturierten Modells geht, in dem alle Anteilswerte (Logits) exakt reproduziert werden. Auch hier ergibt sich die Anzahl der Freiheitsgrade aus der Anzahl der Daten (Anteilswerte, Logits) abzüglich der Anzahl der geschätzten Regressionskoeffizienten. Wie bereits in Fußnote 8 erwähnt, entspricht bei Modellen für Anteilswerte die gewichtete Summe der quadrierten Residuen Neymanns Statistik 2 XN . 3 Ein Beispiel In diesem Abschnitt soll nun gezeigt werden, wie die bisherigen Methoden genutzt werden können, um ein möglichst gute Beschreibung für die multivariaten Zusammenhänge zu finden, die den R & O-Daten (Tabelle 2) zugrunde liegen. Statistische Lehrbücher unterstellen üblicherweise, dass man vor Beginn der Datenanalyse eine Reihe von Hypothesen aufgestellt hat, die nur noch anhand der erhobenen Daten
444
Hans-Jürgen Andreß
getestet werden müssen. Das würde sich in unserem Beispiel auch anbieten, denn R & O haben relativ konkrete Vorstellungen, wie sich die Variablen D, B und P auf die Wahlbeteiligung auswirken. Mit dieser Lehrbuchmeinung wird jedoch suggeriert, dass Datenanalyse immer ein einmaliger Vorgang des Bestätigens oder Widerlegens theoretischer Annahmen ist. Damit ist die Praxis entsprechender Analysen jedoch nur unzureichend beschrieben. Zum einen können zwar bestimmte Vorannahmen vorliegen, jedoch das Vorwissen nicht ausreichen, um in allen Teilbereichen unterschiedliche Erklärungen der Empirie auszuschließen. In diesem Fall müssen verschiedene, miteinander rivalisierende Modelle getestet werden. Zum anderen sind die beschriebenen Teststatistiken relativ globale Tests, mit denen sich nicht alle theoretischen Erwartungen widerspruchsfrei überprüfen lassen. Es kann z. B. sein, dass man ein Modell auf der Basis der GOF-Teststatistik insgesamt akzeptieren muss, obwohl sich nicht alle Einzelhypothesen bestätigen lassen (z. B. weil nicht alle Regressionskoeffizienten signifikant von Null verschieden sind). Mit diesen unerwarteten Ergebnissen müsste man die ursprünglichen Annahmen zumindest teilweise verwerfen und alternative Erklärungsmodelle untersuchen. Ich vertrete daher den Standpunkt, dass konfirmatorische Datenanalysen häufig kein einmaliger Testvorgang sind, sondern ein iterativer Prozess, in dem die ursprünglichen Annahmen schrittweise korrigiert und erweitert werden. Wenn man berücksichtigt, dass explorative Analysen nicht nur von statistischen, sondern auch von inhaltlichen Kriterien („Hypothesen“) gesteuert werden sollen, dann sind die Unterschiede zwischen konfirmatorischen und explorativen Analysen nicht prinzipieller, sondern eher gradueller Natur. Zumindest in Teilbereichen werden sich also die Suchstrategien beider Ansätze überschneiden. Der Nachteil explorativer Strategien besteht vor allem darin, dass die Anzahl möglicher Erklärungsmodelle mangels theoretischer Vorstellungen nur bedingt a priori eingegrenzt werden kann. Das führt dazu, dass die Daten nach einem Modell „durchsucht“ werden müssen, das zum einen eine sinnvolle inhaltliche Interpretation der Daten erlaubt und zum anderen die Daten mit möglichst wenigen Parametern beschreibt, ohne wesentliche Informationen zu vernachlässigen. Das Modell sollte also einen optimalen Kompromiss zwischen Informationsreduktion einerseits und Genauigkeit andererseits darstellen. Dies impliziert notwendigerweise eine stärkere Berücksichtigung statistischer Auswahlkriterien. Im Prinzip geht es dabei darum, ein Modell zu finden, das nicht durch Hinzufügung weiterer Effekte signifikant verbessert werden kann, das sich aber dann signifikant verschlechtert, wenn einer seiner Effekte weggelassen wird. Konkret soll das gesuchte Modell folgende Kriterien erfüllen: 1. Alle Regressionskoeffizienten müssen sich theoretisch begründen lassen. 2. Das Modell sollte so auf die Daten passen, dass die verbleibenden Abweichungen zwischen Modellprognosen und Daten unter statistischen Gesichtspunkten vernachlässigt werden können. Die GOF-Statistiken sollten daher keine signifikanten Ergebnisse liefern. 3. Alle Regressionskoeffizienten des Modells sollten unter statistischen und inhaltlichen Gesichtspunkten bedeutsam sein. Dies bedeutet zum einen, dass jeder Einzeleffekt signifikant von Null verschieden ist, und zum anderen, dass die Stärke des Effektes so groß sein muss, dass er eine wesentliche Änderung der abhängigen
18 Analyse kategorialer Daten
445
Variablen bewirkt. Hier ergibt sich allerdings die schwierige Frage, was eine wesentliche Änderung ist. Während sich bei Signifikanztests durch Konvention gewisse kritische Werte „eingebürgert“ haben (5 % oder 1 % in den Sozialwissenschaften), ist die Frage, welcher Effekt numerisch groß genug ist, um inhaltlich bedeutsam zu sein, von Anwendung zu Anwendung neu zu begründen. 4. Wenn möglich, sollten Parameter so berechnet werden, dass die entsprechenden Effekte anschaulich interpretiert werden können. Dies gilt in besonderem Maße für Interaktionseffekte, die sich sehr viel anschaulicher in Form von konditionalen Haupteffekten darstellen lassen, auf die wir weiter unten eingehen. Wenn ein Modell alle diese Kriterien erfüllt, kann man eher damit rechnen, dass es eine angemessene Beschreibung der wesentlichen Strukturen der erhobenen Stichprobe liefert. Da die Anpassung an die erhobenen Daten hierbei im Vordergrund steht (vgl. vor allem Kriterium b), bezeichnen wir es als das passende Modell für die Stichprobe. Dabei ist natürlich die Gefahr groß, dass das Modell eher die Besonderheiten der Stichprobe als die wesentlichen Strukturen der Population beschreibt, aus der die Stichprobe stammt. Falls bei gegebenem Modellfit zwei verschiedene Modelle gleich gut zu den Daten passen, dann ist dem Modell der Vorzug zu geben, das weniger Parameter zur Prognose der Daten benötigt oder bei gleicher Parameterzahl eine unter theoretischen Gesichtspunkten sinnvollere Beschreibung der Daten ermöglicht. Dafür sprechen nicht nur ästhetische, sondern vor allem wissenschaftstheoretische Gründe: Nach Auffassung des kritischen Rationalismus sind Modelle, die bezüglich der Anzahl der Parameter sparsamer sind und eine einfachere Beschreibung der Wirklichkeit erlauben, deshalb informativer, weil sie damit mehrere komplexere Beschreibungen der Wirklichkeit ausschließen. Sie haben daher ein größeres Risiko, widerlegt bzw. falsifiziert zu werden. Da aber die Falsifikation wissenschaftlicher Aussagen ein wesentlicher Motor wissenschaftlichen Fortschritts ist, so die Annahme der kritischen Rationalisten, sind einfachere Modelle komplexeren Erklärungen vorzuziehen. Tabelle 3 zeigt die GOF-Statistiken verschiedener Modelle unterschiedlichen Komplexitätsgrades für die R & O-Daten. Diese explorative Suche nach einem passenden Modell lässt sich am schnellsten mit dem IPF-Verfahren für log-lineare Modelle umsetzen. Auf diese Weise sieht man überblicksartig, welches Modell einerseits möglichst sparsam konstruiert ist, aber andererseits noch hinreichend genaue Prognosen liefert, ohne dass die GOF-Statistik L2 signifikant wird. Dabei ist allerdings zu beachten, dass die Häufigkeiten der Tabelle mit einem log-linearen Modell vorgesagt werden, aus dem sich zwar die Regressionskoeffizenten eines Logit-Modells ableiten lassen, wie wir gesehen haben, nicht aber die Regressionskoeffizienten eines linearen Modells für Anteilswerte. Logit-Modelle gehen von einem Konzept multiplikativer Assoziation aus (vgl. das Odds Ratio), lineare Modelle der Anteilswerte dagegen von einem Konzept additiver Assoziation (vgl. die Prozentsatzdifferenz). Sie führen daher nicht notwendigerweise zu identischen Schlussfolgerungen und bei beiden Ansätzen können sich auch unterschiedliche Modelle als passend erweisen (auch wenn in unserem Fall log-lineare Modelle und lineare Modelle zu ähnlichen Schlussfolgerungen kommen). 2 Aus diesem Grund enthält Tabelle 3 auch die GOF-Statistik XN , die sich ergibt, wenn
446
Hans-Jürgen Andreß
Tab. 3: GOF-Statistiken ausgewählter Regressionsmodelle für die R & O-Daten Log-lineare Modellformel
negative Log Likelihood L
DBP,V DBP,V,VD DBP,V,VB DBP,V,VP DBP,V,VD,VB DBP,V,VD,VP DBP,V,VB,VP DBP,V,VD,VB,VP DBP,V,VD,VB,VP,VPB saturiertes Modell: DBPV
5612,539 5686,289 5635,874 5612,777 5697,023 5686,419 5636,502 5697,392 5697,485 5699,576
df 11 9 10 10 8 8 9 7 6 0
ML: log-lineares Modell
WLS: lineares Modell
L2
p
XP2
p
2 XN
p
174,07 26,57 127,40 173,60 5,11 26,31 126,15 4,37 4,18 0,00
0,000 0,002 0,000 0,000 0,746 0,001 0,000 0,737 0,652 1,000
180,28 27,40 133,83 180,52 5,15 27,13 133,34 4,37 4,17 0,00
0,000 0,001 0,000 0,000 0,741 0,001 0,000 0,736 0,653 1,000
175,17 25,25 126,58 173,17 6,70 24,43 123,87 5,49 5,44 0,00
0,000 0,003 0,000 0,000 0,570 0,002 0,000 0,601 0,488 1,000
Daten: Tabelle 2, eigene Berechnungen
man die Daten mit einem linearen Modell für Anteilswerte vorhersagt. Schließlich enthält Tabelle 3 auch die GOF-Statistik XP2 , die parallel zu L2 für die erwarteten Häufigkeiten der log-linearen Modelle berechnet wurde. Sie wird häufig zu Kontrollzwecken berechnet, weil große Abweichungen zwischen XP2 und L2 ein Hinweis darauf sind, dass die angenommene näherungsweise χ2 -Verteilung nicht zutrifft (was in unserem Fall aber offensichtlich kein Problem ist). Das saturierte Modell, das alle Haupt- und Interaktionseffekte (auch höherer Ordnung) für die beteiligten Variablen enthält, erklärt die Häufigkeiten (Logits, An2 , XP2 und L2 in diesem Fall null. Die teilswerte) perfekt. Dementsprechend sind XN 2 2 GOF-Statistik L (und ähnlich XN ) fragt nun, ob sich das jeweilige (weniger komplexe) Modell signifikant vom saturierten Modell mit perfekten Datenfit unterscheidet. Das ist beispielsweise für alle drei Modelle der Fall, die jeweils nur einen der Haupteffekte der drei unabhängigen Variablen enthält. Das gilt sowohl für das log-lineare Modell als auch für das lineare Modell der Anteilswerte. Das Modell {DBP, V, V D, V B, V P, V P B}14 dagegen, das alle drei Haupteffekte der unabhängigen Variablen und zusätzlich den Interaktionseffekt von P und B enthält, ist zwar wesentlich einfacher als das saturierte Modell, aber dadurch, dass df = 6 Regressionskoeffizienten des saturierten Modells auf Null gesetzt wurden, hat sich der Modellfit nicht signifikant verschlechtert, wie man anhand der Likelihood-Statistik für das log-lineare Modell (L2 = 4,18, p = 0,652) 2 bzw. Neymanns Statistik für das lineare Modell (XN = 5,44, p = 0,488) erkennen kann. Diesen Vergleich mit dem saturierten Modell bezeichnet man auch als globalen Anpassungstest. 14
Die entsprechende Modellformel für das (asymmetrische) Logit- oder Anteilswert-Modell lautet dementsprechend [1, D, B, P, P B]. Bei dem Term DBP wurde im Übrigen aus Platzgründen darauf verzichtet, alle implizierten rangniedrigeren Effekte (D, B, P, DB, DP, BP ) explizit zu nennen.
18 Analyse kategorialer Daten
447
Beide GOF-Statistiken (nicht aber XP2 ) können im Übrigen dazu genutzt werden, einzelne restringierte Modelle gegeneinander zu testen. Aus Tabelle 3 ist beispielsweise zu erkennen, dass das Modell {DBP, V, V D, V B, V P } ohne den Interaktionseffekt ebenfalls keine signifikanten Abweichungen vom saturierten Modell aufweist (L2 = 2 = 5,49, p = 0,601). Von daher stellt sich die Frage, ob der 4,37, p = 0,737, XN Interaktionseffekt nicht auch weggelassen werden kann, was identisch ist mit der Hypothese, dass sich Modell {DBP, V, V D, V B, V P } nicht signifikant von Modell {DBP, V, V D, V B, V P, V P B} unterscheidet. Dazu bildet man die Differenz der entsprechenden GOF-Statistiken, die ebenfalls näherungsweise χ2 -verteilt ist, wobei die Anzahl der Freiheitsgrade dieses so genannten konditionalen Anpassungstests der Differenz der Freiheitsgrade der beiden miteinander verglichenen Modelle entspricht. Für das log-lineare Modell ergibt sich eine Differenz von L2r/u = L2r −L2u = 4,37−4,18 = 0,19, die bei dfr/u = dfr − dfu = 7 − 6 = 1 Freiheitsgraden nicht signifikant ist (p = 0,667). Die gleiche Schlussfolgerung ergibt sich im linearen Modell für Anteilswerte 2 (Xr/u = Xr2 − Xu2 = 5,49 − 5,44 = 0,05; dfr/u = dfr − dfu = 7 − 6 = 1; p = 0,834). Die konditionalen Anpassungstests zeigen also, dass man den Interaktionseffekt auch außer Acht lassen kann, ohne die Modellanpassung signifikant zu verschlechtern. Nach den zuvor aufgestellten Regeln für die explorative Suche nach einem passenden Modell wäre im Übrigen das Modell {DBP, V, V D, V B}, das lediglich jeweils einen Haupteffekt der Variablen D und B annimmt, das Modell der Wahl. Es ist das „sparsamste“ (größte Anzahl Freiheitsgrade) unter allen passenden Modellen (nichtsignifikante GOF-Statistik); und zwar sowohl bei den Modellen, die eine multiplikative Assoziation unterstellen (log-lineares bzw. Logit-Modell), als auch bei den Modellen, die eine additive Assoziation unterstellen (lineares Modell für Anteilswerte). Dennoch haben wir mit Absicht unser Augenmerk auf das Modell mit dem Interaktionseffekt gerichtet, weil dieses nämlich zu den theoretischen Annahmen von R & O passt. Die Autoren gehen davon aus, dass alle unabhängigen Variablen D, C, B und P einen eigenständigen Einfluss auf die Wahlbeteiligung haben (Daten für C lagen leider nicht vor), dass sich aber die subjektive Wahrnehmung von relativen Vorteilen (B) beim Wahlsieg einer Partei nur dann auswirkt, wenn der/die Wahlberechtigte der Meinung ist, dass seine Stimme wahrscheinlich den Wahlausgang beeinflusst (P ). Die letzte Einschränkung spricht daher dafür, ein Modell zu unterstellen, in dem der Einfluss von B von den Werten der Variablen P abhängt. Nichts Anderes macht ein Interaktionseffekt: Er fügt den Haupteffekten der beteiligten Variablen sozusagen noch einen Zusatzeffekt hinzu, der von der Merkmalskombination der beiden Variablen abhängt. Bei zentrierten Effekten wird der Interaktionseffekt dazu addiert, wenn die beiden Variablen B und P konkordante Ausprägungen aufweisen, und abgezogen, wenn die Merkmalsausprägungen diskordant sind. Bei auf eine Kategorie bezogenen Effekten wird der Interaktionseffekt nur dann dazu addiert, wenn keine der beiden Variablen B und P die Referenzkategorie aufweist.15 Das klingt alles sehr kompliziert
15
Dieser und der vorherige Satz ist am besten nachzuvollziehen, wenn man sich das jeweilige Gleichungssystem einmal hinschreibt. Als Vorlage kann das obige Beispiel mit dem loglinearen Modell für die bivariate Tabelle BV verwendet werden.
448
Hans-Jürgen Andreß
und macht die Interpretation von Interaktionseffekten schwierig, wenn man deren Schätzer interpretieren möchte. Eine einfachere Interpretation ergibt sich mit so genannten konditionalen Haupteffekten. Darunter versteht man Haupteffekte, die nur unter bestimmten Bedingungen auftreten, nämlich dann, wenn andere Merkmale eine bestimmte Ausprägung haben. Konditionale Haupteffekte sind sehr einfach zu verstehen und erlauben daher eine weitaus anschaulichere Interpretation des Einflusses von Merkmalskombinationen, als dies mit Interaktionseffekten möglich ist. Grundsätzlich lässt sich jedes Modell mit Interaktionseffekten in ein Modell mit konditionalen Haupteffekten umformen, das die gleichen Modellprognosen liefert. Dazu muss man den Interaktionseffekt im Zusammenhang mit den dazugehörenden Haupteffekten betrachten: Man behält einen der beiden Haupteffekte bei und ersetzt Interaktionseffekt und zweiten Haupteffekt durch zwei konditionale Haupteffekte. Wenn also das ursprüngliche Modell durch die Formel [1, D, B, P, P B]16 beschrieben wird, dann ergeben sich identische Prognosen, wenn man das folgende Modell mit konditionalen Haupteffekten schätzt: [1, D, P, B |P = 1, B| P = 2]. Darin wurden Haupteffekt von B und Interaktionseffekt P B durch einen konditionalen Haupteffekt von B unter der Bedingung P = 1 und einen weiteren konditionalen Haupteffekt von B unter der Bedingung P = 2 ersetzt. Wenn man nur an den Schätzwerten der konditionalen Haupteffekte interessiert ist, dann kann man diese bereits aus den Schätzern des Modells [1, D, B, P, P B] per Hand errechnen. Wenn man aber die Schätzwerte auf Signifikanz prüfen will, dann muss man die in Abschnitt 2 diskutierte Methode der linearen Kontraste auf die Schätzer des Modells [1, D, B, P, P B] anwenden. Noch viel einfacher ist es jedoch, konditionale Haupteffekte direkt mit Hilfe von Dummy-Variablen zu spezifizieren und dann das Modell [1, D, P, B |P = 1, B| P = 2] zu schätzen. Wenn man zentrierte Effekte schätzen möchte, dann werden Haupteffekte durch Dummies mit den Kodes +1 und −1 abgebildet. Wenn man auf eine Kategorie bezogene Effekte schätzen möchte, dann werden Haupteffekte durch Dummies mit den Kodes +1 und 0 abgebildet. Dummies für konditionale Haupteffekte ergeben sich aus den Dummies für die (unbedingten) Haupteffekte, indem man letztere immer dann auf Null setzt, wenn die Bedingung nicht zutrifft. Einige Computerprogramme haben spezielle Anweisungen zur Berechnung solcher konditionaler Haupteffekte. Wenn wir auf die eine oder andere Weise das Modell [1, D, P, B |P = 1,B| P = 2] schätzen, erhalten wir jedenfalls die gleichen GOF-Statistiken wie im Modell [1, D, B, P, P B] (L2 = 4,18 im Logit-Modell, 2 XN = 5,44 im Anteilswert-Modell), was ein Hinweis darauf ist, dass wir die Schätzwerte des Ursprungsmodells nur auf eine andere Art und Weise ausdrücken. Eine genauere Prüfung der einzelnen Regressionskoeffizienten zeigt jedoch (hier nicht dokumentiert), dass sowohl der Haupteffekt von P als auch der konditionale Haupteffekt von B unter der Bedingung, dass P = 1(P = niedrig) ist, sich nicht signifikant von Null unterscheidet. Als signifikant erweisen sich lediglich die Regressionskonstante, der Haupteffekt von D und der konditionale Haupteffekt von B unter der Bedingung, dass P = 2 16
Wir verwenden hier die Schreibweise für asymmetrische Fragestellungen, nicht nur weil sie kürzer ist, sondern auch weil konditionale Haupteffekte für log-lineare Modelle eher eine untergeordnete Rolle spielen.
18 Analyse kategorialer Daten
449
Tab. 4: Modell zur Erklärung der Wahlbeteiligung (Logit-Modell, lineares Anteilswert-Modell) Effekt
ML: logit βˆ
D=2 (mittel) D=3 (hoch) B=hoch | P=hoch Konstante
0,144 0,769 0,315 1,029
Log Likelihood 2 GOF: L2 , XN (df = 8) Wald Test: W 2 (df = 3) N
WLS: linear
se
p
ˆ exp(β)
βˆ
se
p
0,087 0,094 0,071 0,063
0,096 0,000 0,000 0,000
1,15 2,16 1,37 2,80
0,053 0,134 0,051 0,715
0,015 0,014 0,012 0,012
0,000 0,000 0,000 0,000
−793,728 7,043 167,029 1560
7,984 167,188 12
Daten: Tabelle 2, eigene Berechnungen
(hoch) ist. Etwas ähnliches haben aber auch Riker & Ordeshook (1968) behauptet, wenn sie sagen, dass die Wahrnehmung einer Wahlpflicht (D) und eines relativen Parteienvorteils (B) sich positiv auf die Wahlbeteiligung auswirken, letzteres aber nur, wenn der Wahlberechtigte der Meinung ist, dass seine Stimme hoch wahrscheinlich den Wahlausgang beeinflusst (P = 2). Tabelle 4 zeigt die Schätzergebnisse dieses stark vereinfachten Modells [1, D, B|P = 2]. Sowohl das Logit-Modell (L2 = 7,04, df = 8, p = 0,532) als auch das lineare Anteils2 wert-Modell (XN = 7,98, df = 8, p = 0,435) zeigen einen ausreichenden Datenfit. Bei „nur“ df = 8 Freiheitsgraden sind sie ähnlich sparsam wie das gerade noch „passende“ sparsamste Modell aus Tabelle 3. Modell [1, D, B|P = 2] ist aus theoretischen Gründen jedoch dem Modell [1, D, B] vorzuziehen, weil es mehr Hypothesen der Theorie von Riker & Ordeshook (1968) bestätigt. Bei der Interpretation der einzelnen Regressionskoeffizienten hat das lineare Anteilswert-Modell den Charme, dass sich die Regressionskoeffizienten direkt in Prozentsätze und Prozentsatzdifferenzen übersetzen lassen. Die in Tabelle 4 dargestellten Koeffizienten wurden als zentrierte Effekte geschätzt und messen daher Abweichungen vom Gesamtdurchschnitt. Danach beträgt die Wahlbeteiligung im Durchschnitt 71,5 %. Personen, die eine mittlere Wahlpflicht wahrnehmen, liegen um 5,3 Prozentpunkte über dem Durchschnitt; Personen, die eine hohe Wahlpflicht wahrnehmen, sogar um 13,4 Prozentpunkte. Personen, die einen relativen Vorteil beim Wahlsieg einer Partei sehen, wählen ebenfalls überdurchschnittlich; und zwar um 5,1 Prozentpunkte, vorausgesetzt sie sind der Meinung, dass ihre Stimme hoch wahrscheinlich den Wahlausgang beeinflusst. Für Personen, die nicht dieser Meinung sind, spielt die Wahrnehmung von Vorteilen keine Rolle. Interessiert man sich für die jeweils ausgeschlossene Kategorie, also diejenigen, die eher kaum eine Wahlpflicht wahrnehmen oder die keine relativen Vorteile sehen, dann muss man sich daran erinnern, wie die Identifikationsrestriktionen bei zentrierten Effekten definiert waren. Die Summe der Effekte über die Ausprägungen sollte null ergeben. Wenn die Summe der Effekte von D null sein soll, dann ergibt sich
.75 .5 .25 0
0
.25
.5
.75
1
Hans-Jürgen Andreß
1
450
P=niedrig P=hoch P=niedrig P=hoch P=niedrig P=hoch D=niedrig D=mittel D=hoch
B=niedrig
B=hoch
(a) Lineares Anteilswert-Modell
P=niedrig P=hoch P=niedrig P=hoch P=niedrig P=hoch D=niedrig D=mittel D=hoch
B=niedrig
B=hoch
(b) Logit-Modell
Abb. 1: Geschätzte (Balken) und beobachtete Wähleranteile (Linien) der Effekt der ausgeschlossenen (ersten) Ausprägung β1 durch folgende Umrechnung: βˆ1 + 0,053 + 0,134 = 0 ⇔ βˆ1 = −(0,053 + 0,134) = −0,187. Die Gruppe derjenigen, die eher kaum eine Wahlpflicht wahrnehmen, liegt also mit ihrer Wahlbeteiligung 18,7 Prozentpunkte unter dem Durchschnitt. Das Logit-Modell erscheint auf den ersten Blick sehr viel unanschaulicher, weil sich niemand etwas unter Logits vorstellen kann. Wir transformieren daher das Logit-Modell ˆ in ein Modell für Odds, indem wir für jeden Koeffizienten den Antilogarithmus exp(β) berechnen (s. Tabelle 4). Danach erkennen wir aus der Regressionskonstanten, dass das Größenverhältnis (Odds) von Wählern zu Nicht-Wählern im Durchschnitt 2,8 : 1 beträgt. Dieses Größenverhältnis nimmt bei Personen, die eine mittlere Wahlpflicht wahrnehmen, um den (multiplikativen) Faktor 1,15 oder um 15 % zu. Bei den Personen, die eine hohe Wahlpflicht wahrnehmen, liegt das Größenverhältnis sogar um den Faktor 2,16 oder um 116 % höher. Bei Personen, die einen relativen Vorteil beim Wahlsieg einer Partei sehen, ist das Größenverhältnis um den Faktor 1,37 oder um 37 % höher als im Durchschnitt, vorausgesetzt sie sind der Meinung, dass ihre Stimme hoch wahrscheinlich den Wahlausgang beeinflusst. Für Personen, die nicht dieser Meinung sind, spielt die Wahrnehmung von Vorteilen keine Rolle. Anders als im linearen Anteilswert-Modell, in dem alle Regressionskoeffizienten signifikant von Null verschieden, erweist sich der Effekt der zweiten Ausprägung von D als nicht signifikant. Würde man allerdings einen einseitigen Test durchführen (H0 : β ≤ 0, H1 : β > 0), was angesichts der Hypothesen von R & O Sinn machen würde, dann wäre auch dieser Koeffizient knapp auf dem 5 %-Niveau signifikant. Eine letzte Möglichkeit, die Schätzergebnisse zu präsentieren, ist die graphische Darstellung der Modellprognosen. Abbildung 1 zeigt den vorhergesagten Anteil der Wähler sowohl im Logit-Modell als auch im linearen Anteilswert-Modell mit Hilfe von Säulendiagrammen. Die vorhergesagten Wähleranteile des linearen Anteilswertˆ ergeben sich direkt durch Einsetzen in die Regressionsgleichung. Für die Modells π entsprechenden Wähleranteile des Logit-Modells benötigt man zunächst die vorherge-
18 Analyse kategorialer Daten
451
sagten Logits ω ˆ , die sich ebenfalls durch Einsetzen in das Regressionsmodell ergeben. Die vorhergesagten Wähleranteile ergeben sich dann aus folgender Umformung der Logits: π ˆ = exp(ˆω)/(1+exp(ˆω)). Zum Vergleich enthält die Abbildung auch die beobachteten Anteilswerte (s. die durch Linien verbundenen Punkte), so dass man sehr gut erkennen kann, in welchen Subpopulationen das Modell eher keine gute Vorhersage macht. Bis auf wenige Ausnahmen sind die Residuen jedoch eher klein und folgen keinem systematischen Muster.
4 Häufige Fehler Aus den bisherigen Ausführungen sollte deutlich geworden sein, dass Methoden zur Analyse kategorialer Daten die Häufigkeiten einzelner Ausprägungen bzw. die Wahrscheinlichkeit des Auftretens dieser Ausprägungen modellieren. Das setzt voraus, dass alle Ausprägungen in hinreichender Anzahl beobachtet werden können. Dieses Problem verschärft sich, wenn man mehrere kategoriale Variablen gleichzeitig betrachtet. Dann müssen für jede Ausprägungskombination hinreichend viele Daten vorliegen. Warum sind kleine Fallzahlen ein Problem? Diese Frage kann leider nicht unabhängig von dem jeweiligen Modell und dem verwendeten Schätzverfahren beantwortet werden. Ganz allgemein kann man jedoch sagen, dass die Anforderungen an den notwendigen Stichprobenumfang bei WLS-Schätzungen in der Regel höher sind als bei ML-Schätzungen. Das hat damit zu tun, dass WLS-Schätzungen davon ausgehen, dass Anteilswerte oder Logits näherungsweise normalverteilt sind. Diese Näherung ist umso besser, je größer der Stichprobenumfang ausfällt und je weniger schief die abhängige Variable verteilt ist. Auch ist zu berücksichtigen, wie viele Ausprägungen die abhängige Variable hat und dementsprechend wie viele Anteilswerte (Logits) pro Subpopulation analysiert werden. Als Faustregel lassen sich für die Berechnung des Mindeststichprobenumfangs folgende drei Datenkonstellationen unterscheiden (Forthofer & Lehnen 1981). 1. Dichotome abhängige Variablen, deren Ausprägungen nicht zu extrem verteilt sind (0,2 ≤ πij ≤ 0,8): Bei dieser Datenkonstellation werden mindestens fi. = 25 Fälle pro Subpopulation benötigt. Diese Forderung darf bei einem Viertel der Subpopulationen verletzt werden, wenn keine Subpopulation weniger als 10 Fälle aufweist. 2. Dichotome abhängige Variablen, deren Ausprägungen sehr schief verteilt sind (πij < 0,2 oder πij > 0,8): In diesem Fall sollte man sich nicht nur die Häufigkeiten der Subpopulationen insgesamt, sondern auch jede Zelle der Ausgangstabelle genau anschauen. Die erwarteten (Zell-)Häufigkeiten sollten mindestens fünf Fälle umfassen. 3. Polytome abhängige Variablen: In diesem Fall müssen die oben angegebenen Mindestfallzahlen mit einem bestimmten Faktor multipliziert werden. Als grobe Faustregel kann man bei einer abhängigen Variablen mit J > 2 Ausprägungen die jeweilige Mindestfallzahl mit J − 1 multiplizieren.
452
Hans-Jürgen Andreß
Aber auch ML-Schätzungen stellen gewisse Anforderungen an den Stichprobenumfang. Wenn viele der erwarteten Zellhäufigkeiten niedrige Werte haben (<5 oder sogar <1), dann ist die Annäherung der GOF-Statistik L2 an die theoretische χ2 -Verteilung 2 schlecht (gleiches gilt für XP2 und XN ). Fehlentscheidungen bei der Frage, ob das jeweilige Modell insgesamt die Daten angemessen beschreibt, sind daher nicht auszuschließen. Erfreulicherweise sind Modellvergleiche mit Hilfe des Likelihood-Verhältnis-Testes weniger von der Einhaltung eines bestimmten Mindeststichprobenumfangs abhängig. Welche Probleme tauchen nun auf, wenn einzelne Zellen der Ausgangstabelle überhaupt nicht besetzt sind. Man unterscheidet hier zwischen strukturellen Nullen einerseits und Stichprobennullen andererseits. Alle Ausprägungskombinationen, die in der Population nicht existieren, bezeichnet man als strukturelle Nullen. Beispiele wären Frauen mit Prostatakrebs, schwangere Männer usw. In diesem Fall kann eine konkrete Stichprobe auch noch so umfangreich sein, man wird diese Ausprägungskombinationen nicht beobachten können, weil es sie eben nicht gibt. Anders dagegen bei Stichprobennullen: Diese Ausprägungskombinationen gibt es in der Population, wenn auch sehr selten, so dass sie in kleinen Stichproben möglicherweise nicht vorkommen. Strukturelle Nullen können in der Regel durch geeignete Modelle berücksichtigt werden. Stichprobennullen sind dagegen insbesondere für WLS-Schätzungen ein Problem, da bei der Gewichtung u. a. auch die Häufigkeit der einzelnen Subpopulationen berücksichtigt wird. Dadurch kommt es einerseits zu numerischen Problemen (Division durch null), und andererseits würde eine Gewichtung mit null auch zu logischen Problemen führen. Um Stichprobennullen zu umgehen, wird häufig zu allen Häufigkeiten einer multivariaten Tabelle eine kleine Zahl größer als null und kleiner als 0,5 hinzuaddiert. Diese „Korrektur“ der Daten bleibt jedoch nicht ohne Auswirkungen auf die Schätzergebnisse, und man sollte daher immer verschiedene Korrekturwerte ausprobieren, um festzustellen, wie stark und an welchen Stellen das Schätzergebnis davon betroffen ist. Für ML-Schätzungen können Stichprobennullen in sehr spezifischen Fällen auch ein Problem sein, in den meisten Fällen kann der Likelihood-Ansatz jedoch sehr viel besser mit ihnen umgehen als WLS-Schätzungen. Ganz allgemein benötigt man bei ML-Schätzungen für alle die Ausprägungen bzw. Ausprägungskombinationen Beobachtungen, für die man Effekte schätzen möchte. Nachdem so viel über kleine Stichproben und Nullzellen gesagt wurde, sei schließlich auch kurz der umgekehrte Fall – große Stichproben – angesprochen. Das kommt vor allem dann vor, wenn man amtliche Daten mit sehr großem Stichprobenumfang oder Totalerhebungen betrachtet. Ganz abgesehen davon, dass einige Autoren bei Totalerhebungen Inferenzstatistik für überflüssig halten, versagen bei großen Stichproben die Teststatistiken, weil aufgrund der hohen Fallzahlen alle Statistiken signifikant sind, seien die getesteten Unterschiede auch noch so klein. Es ist daher sehr schwierig, zwischen verschiedenen alternativen Modellen zu entscheiden, da jedes für sich einen signifikanten Erklärungszuwachs aufweist. In dieser Situation sollte man noch mehr als in allen anderen Fällen nicht nur auf die Signifikanz bestimmter Effekte, sondern auch auf die Größe der Effekte achten, um zu sehen, ob sie wirklich einen bedeutsamen Unterschied machen. Neben Teststatistiken werden zusätzlich auch häufig deskriptive Maße der Modellanpassung (ähnlich dem Anteil erklärter Varianz R2 in der multiplen Regression) verwendet, mit denen man alternative Modelle in Bezug auf ihre
18 Analyse kategorialer Daten
453
Anpassungsgüte miteinander vergleichen kann (vgl. dazu Kapitel 31 über logistische Regression in diesem Handbuch).
5 Literaturempfehlungen Das Lehrbuch von Andreß et al. (1997) gibt einen Überblick über alle hier diskutierten Modelle für kategoriale Daten und ihre Erweiterungen. Einführungen in log-lineare und Logit-Modelle gibt es auf unterschiedlichem Schwierigkeitsniveau. Die Bücher von Bishop et al. (1975), Haberman (1978, 1979) und Agresti (2002) sind sehr umfassend, sie sind jedoch gleichzeitig nur für sehr fortgeschrittene Leser geeignet. Auf einem mittleren Schwierigkeitsniveau gibt es neben anderen die Bücher von Fienberg (1980), Wickens (1989), Powers & Xie (2008) und Hagenaars (1990). Einführende Darstellungen loglinearer Modelle finden sich bei Reynolds (1977), Knoke & Burke (1980) und Langeheine (1986). Der GSK-Ansatz wurde 1969 von Grizzle et al. in einem Aufsatz der Zeitschrift Biometrics über die Analyse kategorialer Daten mit linearen Modellen vorgestellt (vgl. auch die Klarstellungen und Spezifizierungen in einem späteren Aufsatz von Koch et al. 1977). Die statistisch-theoretische Begründung für den GSK-Ansatz findet sich in Arbeiten von Wald (1943) und Neyman (1949). Die Äquivalenz dieser beiden Zugänge für die Klasse der linearen Modelle wurde von Bhakpar (1966) bewiesen. Eine anwendungsorientierte Einführung in englischer Sprache findet sich bei Forthofer & Lehnen (1981). Vergleichende Darstellungen mit klassischen Regressionsmodellen oder log-linearen Modellen finden sich bei Küchler (1979) in deutscher Sprache bzw. Reynolds (1977) in englischer Sprache.
Literaturverzeichnis Agresti, A. (2002). Categorical Data Analysis. New York: Wiley, 2. Auflage. Aldrich, J. H. (1993). Rational Choice and Turnout. American Journal of Political Science, 37, 246–278. Andreß, H.-J., Hagenaars, J. A., & Kühnel, S. (1997). Analyse von Tabellen und kategorialen Daten. Log-lineare Modelle, latente Klassenanalyse, logistische Regression und GSK-Ansatz. Berlin: Springer. Bhakpar, V. P. (1966). A Note on the Equivalence of Two Criteria for Hypotheses in Categorical Data. Journal of the American Statistical Association, 61, 228–235. Bishop, Y. M., Fienberg, S. E., & Holland, P. W. (1975). Discrete Multivariate Analysis: Theory and Practice. Cambridge: MIT Press. Fienberg, S. E. (1980). The Analysis of Cross-Classified Categorical Data. Cambridge: MIT Press. Forthofer, R. N. & Lehnen, R. G. (1981). Public Program Analysis: A New Categorical Data Approach. Belmont: Wadsworth. Grizzle, J. E., Starmer, C. F., & Koch, G. G. (1969). Analysis of Categorical Data by Linear Models. Biometrics, 25, 489–504.
454
Hans-Jürgen Andreß
Haberman, S. J. (1978). Analysis of Qualitative Data. Vol. 1: Introductory Topics. New York: Academic Press. Haberman, S. J. (1979). Analysis of Qualitative Data. Vol. 2: New Developments. New York: Academic Press. Hagenaars, J. A. (1990). Categorical Longitudinal Data: Log-Linear Panel, Trend, and Cohort Analysis. Newbury Park: Sage. Knoke, D. & Burke, P. J. (1980). Log-Linear Modeling. Beverly Hills: Sage. Koch, G. G., Landis, J. R., Freeman, J. L., Freeman, D. H., & Lehnen, R. G. (1977). A General Method for the Analysis of Experiments with Repeated Measurement of Categorical Data. Biometrics, 33, 133–159. Küchler, M. (1979). Multivariate Analyseverfahren. Stuttgart: Teubner. Langeheine, R. (1986). Log-lineare Modelle. In J. von Koolwijk & M. Wieken-Mayser (Hg.), Kausalanalyse, Band 8 von Techniken der empirischen Sozialforschung. (S. 122–195). München: Oldenburg. Neyman, J. (1949). Contributions to the Theory of the Chi Square Test. In J. Neyman (Hg.), Proceedings of the First Berkeley Symposium on Mathematical Statistics and Probability (S. 230–273). Berkeley: University of California Press. Powers, A. & Xie, Y. (2008). Statistical Methods for Categorical Data Analysis. Bingley: Emerald Group Publishing Limited. Reynolds, H. T. (1977). The Analysis of Cross-Classifications. New York: Free Press. Riker, W. H. & Ordeshook, P. C. (1968). A Theory of the Calculus of Voting. American Political Science Review, 62, 25–42. Wald, A. (1943). Tests of Statistical Hypotheses Concerning General Parameters when the Number of Observations is Large. Transactions of the American Mathematical Society, 54, 426–487. Wickens, T. D. (1989). Multiway Contingency Analysis for the Social Sciences. Hillsdale: Lawrence Erlbaum. Woolridge, J. (2008). Introductory Econometrics: A Modern Approach. Florence: South West College Publishing.
19 Varianz- und Kovarianzanalyse Manuel C. Völkle und Edgar Erdfelder∗ a b
Max-Planck-Institut für Bildungsforschung, Berlin Universität Mannheim
Zusammenfassung. Die Varianz- und Kovarianzanalyse (AN(C)OVA) ist eine statistische Verfahrensklasse zur Analyse von Unterschieden in Gruppenmittelwerten. Im ersten Teil des Kapitels soll der Leser schrittweise mit den Grundlagen der AN(C)OVA vertraut gemacht werden. Wir beginnen mit einem kurzen Überblick über das Verfahren und erläutern, wann dessen Einsatz in der Praxis sinnvoll ist. Im nächsten Schritt illustrieren wir den Gedanken der Varianzzerlegung am Beispiel von zwei Gruppen und entwickeln eine allgemeine Teststatistik zum Vergleich von Mittelwerten. Darauf aufbauend wird das Verfahren für den Vergleich beliebig vieler Gruppen erweitert (einfaktorielle ANOVA). Schließlich betrachten wir den Fall multipler unabhängiger Variablen (mehrfaktorielle ANOVA) sowie die Kontrolle von kontinuierlichen Kovariaten (Kovarianzanalyse). Vor allem den Voraussetzungen zur Durchführung der Varianz- und Kovarianzanalyse soll dabei ein besonderer Stellenwert eingeräumt werden. Der erste Teil endet mit einer Einführung in die Effektstärkenberechnung und die darauf basierende Berechnung der Teststärke. Der zweite Teil „mathematisch-statistische Grundlagen“ richtet sich an den methodisch interessierten Leser. In diesem Abschnitt wird die Varianz- und Kovarianzanalyse aus dem Blickwinkel des Allgemeinen Linearen Modells (ALM) betrachtet. Es wird gezeigt, wie mittels der Dummy- bzw. Effektkodierung klassische varianzanalytische Fragestellungen im Rahmen des ALMs analysiert werden können. Der Schwerpunkt dieses Abschnitts liegt auf den Vorteilen des ALM gegenüber der klassischen AN(C)OVA. Im dritten Teil illustrieren wir alle vorgestellten Analysemöglichkeiten anhand mehrerer Beispiele auf Basis der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS). Das Kapitel endet mit einer kurzen Checkliste zur Durchführung der Varianzund Kovarianzanalyse und zur Vermeidung häufig gemachter Fehler.
1 Einführung in das Verfahren Historisch betrachtet ist die Varianz- und Kovarianzanalyse untrennbar mit der experimentellen Forschung verbunden. Egal ob in den Agrarwissenschaften, der Biologie, der Medizin oder später der Psychologie und den Sozialwissenschaften, versucht man mit Hilfe der AN(C)OVA herauszufinden, ob die Manipulation einer oder mehrerer unabhängiger Variablen (UV) einen Einfluss auf die durchschnittliche Ausprägung einer abhängigen Variablen (AV) hat. Früheste Anwendungen beschäftigten sich zum Beispiel mit dem Effekt von unterschiedlichen Düngemitteln auf den Ernteertrag. Aber ∗
Wir danken Jan Kühnhausen und Andreas Brandmaier für die kritische Lektüre und Dietrich Wagener für anregende Diskussionen zum Thema des Kapitels.
S. 455–493 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_19, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
456
Manuel C. Völkle und Edgar Erdfelder
auch nichtexperimentelle Untersuchungen können mit der AN(C)OVA ausgewertet werden, wie zum Beispiel der Effekt des Schulabschlusses (Hauptschule, Realschule, Gymnasium) auf das spätere Einkommen. Gemeinsam ist diesen Beispielen, dass es sich bei den unabhängigen Variablen um kategoriale Variablen handelt, während die AV hingegen stets kontinuierlich sein muss. Die Varianz- und Kovarianzanalyse zielt damit auf die Analyse von Mittelwertunterschieden in den betrachteten Gruppen ab (z. B. mittleres Einkommen von Gymnasiasten versus Haupt- oder Realschülern). Zumindest oberflächlich betrachtet unterscheidet sie sich dadurch von der in Kapitel 24 und 25 in diesem Handbuch beschriebenen linearen Regression (kontinuierliche AV und kontinuierliche UV), sowie der in Kapitel 31 dieses Handbuchs behandelten logistischen Regression (kategoriale AV und kontinuierliche UV). Wie später im Abschnitt „mathematisch-statistische Grundlagen“ jedoch gezeigt wird, sind sowohl regressionsanalytische Verfahren wie auch die AN(C)OVA letztendlich nur Spezialfälle des zugrunde liegenden Allgemeinen Linearen Modells (ALM) beziehungsweise des Generalisierten Linearen Modells im Falle von nicht normalverteilten abhängigen Variablen (z. B. bei der logistischen Regression). Zu unterscheiden sind weiterhin Modelle mit nur einer abhängigen Variablen und Modelle mit mehreren AVn, die der sogenannten multivariaten Varianzanalyse (MANOVA) zugrunde liegen. Letztere werden wir aus Platzgründen in diesem Kapitel jedoch nicht behandeln können. Eine gute Einführung findet sich in Tabachnick & Fidell (2001) oder deutschsprachig in Bortz (2005). Aufgrund der besonderen historischen Entwicklung und ihrer engen Verbindung zur experimentellen Forschung hat sich trotz der mathematischen Verwandtschaft mit der linearen Regression eine eigene Terminologie entwickelt. So bezeichnet man die unabhängigen Variablen nicht wie in der Regression üblich als Prädiktoren, sondern als Faktoren und deren kategoriale Ausprägungen als Faktorstufen. Einfaktorielle Modelle sind folglich Analysen mit nur einem Faktor (aber beliebig vielen Faktorstufen), mehrfaktorielle Designs umfassen immer mindestens zwei Faktoren. Die durch einen Faktor verursachten Mittelwertunterschiede auf der AV (ggf. gemittelt über die Stufen weiterer Faktoren) bezeichnet man als Haupteffekt des Faktors, in Abgrenzung zu möglichen Interaktionseffekten mit weiteren Faktoren, die im Folgenden noch näher erläutert werden. Schließlich ist es möglich, den Einfluss von kontinuierlichen Drittvariablen (sogenannten Kovariaten) statistisch zu kontrollieren, woraus sich der Begriff der Kovarianzanalyse (ANCOVA) ableitet. Weitere Begrifflichkeiten werden wir im Laufe des Kapitels einführen. Wann also darf oder sollte man die AN(C)OVA einsetzen? Kurz gesagt immer dann, wenn man sich für die aufgrund unterschiedlicher Gruppenzugehörigkeit vermuteten Mittelwertunterschiede auf einer kontinuierlichen AV interessiert. Wenn man sich beispielsweise für das Monatseinkommen (AV) in Abhängigkeit vom Geschlecht (erste UV) und der Ausbildung einer Person (zweite UV) interessiert, so wäre dies ein denkbares sozialwissenschaftliches Anwendungsbeispiel für die AN(C)OVA, auf welches wir in ähnlicher Form im Laufe des Kapitels zurückkommen werden. Gelegentlich werden kontinuierlich erfasste UVn (z. B. das Alter oder das Gewicht einer Person) z. B. durch Dichotomisierung am Median künstlich gruppiert, um die Anwendung einer Varianz- und Kovarianzanalyse zu ermöglichen. Von diesem Vorgehen
19 Varianz- und Kovarianzanalyse
457
raten wir im Allgemeinen ab. Der Informationsverlust sowie der damit einhergehende Verlust an Teststärke ist oftmals nicht nur enorm, sondern vor allem unnötig (Cohen 1983). In solchen Fällen sollte besser auf regressionsanalytische Verfahren (siehe z. B. Kapitel 24 in diesem Handbuch) zurückgegriffen werden, bzw. es sollten ggf. kategoriale und kontinuierliche UVn im Rahmen verallgemeinerter AN(C)OVA-Modelle miteinander kombiniert werden (vgl. dazu Abschnitt 2 des vorliegenden Kapitels). 1.1 Vergleich von zwei Gruppen Beginnen wir mit einer Situation, die jedem Leser bestens vertraut sein dürfte. Nehmen wir an, wir hätten für eine Zufallsstichprobe von N Personen eine kontinuierliche Zufallsvariable Y erfasst. Dies könnte zum Beispiel das Einkommen dieser Personen sein, deren Intelligenz oder deren sozioökonomischer Status. Jede Person i, i = 1, . . . , N , hat folglich eine bestimmte Ausprägung auf der Variablen (yi ), die ihrerseits einen Populationsmittelwert μ aufweist. Entsprechend lässt sich, wie in Gleichung (1) dargestellt, jeder beobachtete Wert yi als personenspezifische Abweichung εi vom Populationsmittelwert der Variablen ausdrücken: yi = μ + εi .
(1)
Wie bei vielen statistischen Verfahren geht man auch in der Varianz- und Kovarianzanalyse davon aus, dass die individuellen Abweichungen (εi ) in der Population normalverteilt sind, mit einem Erwartungswert von Null und einer bestimmten Varianz (σε2 ). Dies wird kurz symbolisiert durch εi ∼ N (0, σε2 ). Im obigen Fall von nur einer einzigen Gruppe ist die Annahme der Normalverteilung der individuellen Abweichungen vom Mittelwert (auch „Fehler“ genannt) identisch mit der Annahme, dass die ursprüngliche Variable Y normalverteilt ist. In aller Regel ist dies jedoch nicht so. Folglich muss man sorgsam zwischen der Verteilung der abhängigen Variable (Y ) und der Verteilung der Fehler (εi ) trennen. Für die Varianzund Kovarianzanalyse ist es von zentraler Bedeutung, dass die Fehler eine Verteilung der Form εi ∼ N (0,σε2 ) aufweisen. Ist diese Annahme erfüllt, ist die Verteilung der abhängigen Variablen an sich irrelevant. Am Beispiel des Mittelwertvergleichs von zwei Gruppen lässt sich dieser Unterschied leicht veranschaulichen. Zu diesem Zwecke modifizieren wir Gleichung (1) wie folgt: yij = μj + εij
εij ∼ N (0, σε2 ) .
(2)
Der zusätzliche Index j in Gleichung (2) spezifiziert die Gruppenzugehörigkeit. Zum Beispiel könnte man sich für das Einkommen (yij ) von Frauen (j = 0) versus Männern (j = 1) interessieren. Unterscheiden sich Männer und Frauen in ihrem mittleren Einkommen, so wird die abhängige Variable (yij ) eine mehr oder weniger bimodale Verteilung aufweisen. Innerhalb jeder Gruppe sollte sich das Einkommen jedoch wiederum normal verteilen. Während die Verteilung der AV über alle Gruppen hinweg also ohne Belang ist, bildet die Normalverteilung der Fehler innerhalb jeder Gruppe
458
Manuel C. Völkle und Edgar Erdfelder
eine wichtige Voraussetzung für alle im Folgenden behandelten inferenzstatistischen Verfahren1 . Wie jedoch überprüft man, ob aufgrund eines beobachteten (deskriptiven) Mittelwertunterschieds zwischen den beiden Gruppen auch auf Einkommensunterschiede in der Population (μj ) geschlossen werden darf? Es könnte schließlich genauso gut sein, dass ein beobachteter Unterschied durch einfache Zufallsfluktuationen entstanden ist. Der Beantwortung dieser Frage wollen wir uns Schritt für Schritt in den nächsten Abschnitten widmen. Modellgleichung Wir wiederholen dazu Gleichung (2) in etwas anderer Schreibweise als (yij − μ) = (μj − μ) + (yij − μj ) . 5 67 8 5 67 8 aj
(3)
εij
Der einzige Unterschied zu Gleichung (2) besteht darin, dass nun der Gesamtmittelwert μ auf beiden Seiten der Gleichung abgezogen wird. Die Abweichung jedes einzelnen Messwerts vom Gesamtmittelwert in der Population setzt sich somit additiv zusammen aus der Abweichung (αj ) des gruppenspezifischen Mittelwerts vom Gesamtmittelwert und der Abweichung (εij ) jedes individuellen Messwerts vom gruppenspezifischen Mittelwert. Letztere Abweichung entspricht dem Fehlerterm aus Gleichung (2). Auch wenn es im Moment etwas umständlich erscheinen mag (der Vorteil dieser allgemeinen Schreibweise wird spätestens im nächsten Abschnitt ersichtlich), spiegelt αj den Effekt des Geschlechts auf das Einkommen wider, da α1 die Abweichung des mittleren Einkommens der Männer vom allgemeinen Durchschnittseinkommen abbildet, α0 hingegen die Abweichung des mittleren Einkommen der Frauen vom allgemeinen Durchschnittseinkommen. Da das Durchschnittseinkommen bei bekannten Gruppeneinkommen jedoch eine fixe Größe ist, wird dadurch auch der Einkommensunterschied zwischen Männern und Frauen quantifiziert, da (μ1 − μ) − (μ0 − μ) = (μ1 − μ0 ). Gleichung (3) bildet somit die Grundgleichung der ANOVA für den Vergleich von zwei Gruppen, anhand derer die zu prüfenden Hypothesen spezifiziert werden können. Hypothesen Unterscheiden sich Männer und Frauen nicht in ihrem durchschnittlichen Populationseinkommen, so ist μ0 = μ1 = μ. Folglich muss auch die Differenz der beiden Populationsmittelwerte Null sein (μ0 −μ1 = 0), beziehungsweise deren Abweichung vom globalen Populationsmittelwert (μj − μ = 0). Letzteres ist gemäß Gleichung (3) gleichbedeutend mit einem Effekt von Null (αj = 0), so dass sich Nullhypothese (H0 : kein Unterschied im Populationsmittelwert der beiden Gruppen) und Alternativhypothese (H1 : Männer und Frauen unterscheiden sich in ihrem mittleren Populationseinkommen) formal spezifizieren lassen als: 1
Wir sprechen später etwas genauer von der Annahme unabhängig und identisch normalverteilter Fehler.
19 Varianz- und Kovarianzanalyse
459
H0 : αj = 0 für j = 0 und j = 1 versus H1 : aj = 0 für j = 0 oder j = 1 . Man beachte, dass im Zwei-Gruppen-Fall αj = 0, sobald das Einkommen von Männern oder Frauen vom Gesamtmittelwert abweicht, da dies zwangsläufig auch einen Unterschied zwischen den beiden Gruppen impliziert. Quadratsummen Bevor wir auf die inferenzstatistische Prüfung obiger Hypothesen zu sprechen kommen, ist ein letzter Zwischenschritt erforderlich. Bisher haben wir uns nämlich ausschließlich mit Populationsparametern beschäftigt. Wären uns diese bekannt, könnten wir ohne jede weitere Analyse sofort sehen, ob sich die beiden Populationen unterscheiden oder nicht. Da es sich um Populationsparameter handelt, würde jeder noch so kleine Unterschied im Widerspruch zur H0 stehen. In aller Regel sind uns Populationsparameter jedoch nicht bekannt, sondern müssen auf Grundlage einer Stichprobe geschätzt werden. Als Schätzer für Populationsmittelwerte dienen uns dabei die jeweiligen Stichprobenmittelwerte, welche wir im Folgenden mit einem „Querstrich“ kennzeichnen (z. B. y¯). Für eine gegebene Stichprobe mit N Personen wird obige Modellgleichung (3) daher durch (yij − y¯) = (¯ yj − y¯) + (yij − y¯j ) geschätzt. Man bildet dann die Summe der quadrierten Abweichungen über alle Personen und Gruppen hinweg. Diese sogenannten Quadratsummen (Abkürzung SS für engl. sum of squares) sind wie folgt definiert: SSTotal =
Nj J (yij − y¯)2 j=1 i=1
SSA =
J
Nj (¯ yj − y¯)2 .
(4)
j=1
SSE =
Nj J
(yij − y¯j )2
j=1 i=1
J steht für die Anzahl der Gruppen (in unserem Fall also zwei: Männer und Frauen), Nj für die Anzahl der Personen in Gruppe j und y¯ für den Stichprobenmittelwert über beide Gruppen hinweg, während y¯j das arithmetische Mittel in Gruppe j bezeichnet. Analog zur Modellgleichung (3) gilt somit SSTotal = SSA + SSE .
(5)
Man beachte, dass es sich für eine gegebene Stichprobe bei den Quadratsummen um konstante Werte handelt. SSTotal bildet die Gesamtvariabilität in der Stichprobe ab, welche zerlegt wird in die Variabilität (SSA ) zu Lasten des interessierenden Faktors A (in unserem Beispiel Geschlecht) sowie verbleibende Restvariabilität, d. h. die Quadratsumme der Fehler (SSE ). Aus dieser Zerlegung der Varianz in systematische und Fehlervarianz leitet sich letztendlich auch der Begriff der „ANalysis Of VAriance“ ab.
460
Manuel C. Völkle und Edgar Erdfelder
Freiheitsgrade Bei genauerer Betrachtung der drei obigen Quadratsummen wird man feststellen, dass deren Berechnung auf unterschiedlich breiter Informationsbasis erfolgt. Muss man z. B. für die Berechnung von SSTotal die Ausprägung aller N Personen auf Y kennen, so reicht zur eindeutigen Bestimmung von SSA die Kenntnis der J Mittelwerte (und Stichprobengröße Nj ) aus. Die Freiheitsgrade eines Parameters (Abkürzung df für engl. degrees of freedom) informieren dabei über die Anzahl der frei variierbaren Werte, auf denen die jeweilige Statistik basiert. Unter „frei variierbar“ versteht man die Menge aller unabhängigen Werte, abzüglich der Anzahl der für die Berechnung zusätzlich zu schätzenden Parameter. So muss man zur Berechnung von SSTotal die Ausprägungen aller N Personen kennen (Anzahl unabhängiger Werte), doch erfordert SSTotal ebenfalls die Berechnung einer weiteren Statistik, nämlich des Mittelwerts y¯. Ist dieser bestimmt, können nur noch N − 1 Werte frei variieren, weshalb die Anzahl der Freiheitsgrade für SSTotal dann auch dfTotal = N − 1 beträgt. Gleiches gilt für die Berechnung der Freiheitsgrade von SSA . Hierzu ist es erforderlich, die Mittelwerte aller J Gruppen zu kennen (in unserem Beispiel das Einkommen von Männern und Frauen), doch geht in die Berechnung von SSA ebenfalls der Gesamtmittelwert y¯ ein. Ist jedoch das Gesamteinkommen sowie das Einkommen von Männern bekannt, ist auch das Einkommen von Frauen festgelegt, so dass die Anzahl der Freiheitsgrade dfA = J − 1 beträgt. Die Freiheitsgradanzahl von SSE ist schließlich dfE = N − J , da wieder alle N Werte zur Berechnung von SSE bekannt sein müssen, abzüglich der J ebenfalls zu berechnenden Gruppenmittelwerte (¯ yj ). Allgemeine Teststatistik Auf Basis der Quadratsummen und Freiheitsgrade lässt sich nun eine allgemeine Teststatistik einführen, mit deren Hilfe man eine statistisch fundierte Entscheidung herbeiführen kann, ob die in einer Stichprobe beobachteten Mittelwertunterschiede tatsächlich indikativ für Unterschiede in der Population sind (H1 ) oder vielmehr auf Zufallsschwankungen zurückzuführen sind (H0 ). Betrachten wir dazu die im Abschnitt 1.1 aufgestellten Hypothesen im Lichte der gerade eingeführten Quadratsummen nochmals neu, so zeigt sich, dass die Hypothesenprüfung dem Vergleich zweier Modelle entspricht (Maxwell & Delaney 2000). Unter der Nullhypothese geht man von einem Modell aus, bei welchem die Mittelwerte von Männern und Frauen gleich sind. Dies ist ein sehr restriktives Modell, denn es postuliert, dass die gesamte Variabilität der abhängigen Variable durch Zufallsschwankungen – das heißt individuelle Unterschiede, aber keine Gruppenunterschiede – zustande gekommen ist. Wir sprechen daher auch vom Nullmodell, d. h. SSTotal = SSE (Null). Die Abkürzung Null steht hierbei für Nullmodell2 . Im Gegensatz 2
Der Begriff des Nullmodells hat zweierlei Konnotationen, die in diesem Kontext jedoch weitgehend identisch sind. Wir sprechen vom Nullmodell, weil es das unter der Nullhypothese postulierte Modell ist, bei dem alle zu schätzenden Parameter gleich gesetzt werden. Es handelt sich damit auch um ein Vergleichsmodell in Analogie zum Nullmodell in der Strukturgleichungsmodellierung. Hier wird der Begriff jedoch noch etwas restriktiver verwendet.
19 Varianz- und Kovarianzanalyse
461
dazu postuliert die Alternativhypothese (H1 ) ein Modell mit unterschiedlichen Gruppenmittelwerten und zerlegt damit die Variabilität der AV, wie oben demonstriert, in SSTotal = SSA + SSE (Alt). Die Abkürzung Alt steht hier für Alternativmodell. Da es sich bei dem Alternativmodell um ein weniger restriktives Modell handelt, ist die verbleibende Fehlervarianz SSE (Alt) in einer gegebenen Stichprobe natürlich kleiner als im restriktiveren Modell unter der H0 (d. h. SSE (Null)). Die Größe der Differenz SSE (Null) − SSE (Alt) hängt in erster Linie davon ab, ob H0 oder H1 in der zugrundeliegenden Population gilt. Trifft H0 zu, so unterscheiden sich SSE (Null) und SSE (Alt) nur aufgrund von Stichprobenfehlern, so dass SSE (Null) − SSE (Alt) in der Regel klein ausfallen wird. Gilt dagegen H1 , so unterscheiden sich SSE (Null) und SSE (Alt) systematisch, so dass SSE (Null) − SSE (Alt) im Allgemeinen groß ausfallen wird. Eine vernünftige Entscheidungsregel zwischen H0 und H1 sollte daher von der Größe der Quadratsummendifferenz SSE (Null) − SSE (Alt) Gebrauch machen. Dieser Vergleich von Fehlervarianzen unter zwei verschiedenen Mittelwertmodellen ist der Kerngedanke der Varianzanalyse. Sind eine Reihe noch zu behandelnder Annahmen erfüllt, lässt sich zeigen, dass eine geeignet normierte Differenz der beiden Fehlerquadratsummen bei Gültigkeit von H0 einer F -Verteilung folgt und somit als Teststatistik zwecks Entscheidung zwischen H0 und H1 herangezogen werden kann3 . Die für alle AN(C)OVA-Modelle gültige F -Teststatistik lautet: SSE (Null) − SSE (Alt) df (Null) − df (Alt) F = . (6) SSE (Alt) df (Alt) Die generische Schreibweise von Gleichung (6) hat eine Reihe an Vorteilen. Erstens gilt Gleichung (6) für alle varianz- und kovarianzanalytischen Verfahren gleichermaßen. Zweitens betont sie den modellvergleichenden Charakter der AN(C)OVA. Sie macht deutlich, dass es bei der Hypothesenprüfung mittels AN(C)OVA immer darum geht, ein restriktives Mittelwertmodell (H0 ) mit einem weniger restriktiven Alternativmodell (H1 ) zu vergleichen. Je nach Fragestellung ändert sich zwar das Null- oder Alternativmodell, doch bleibt das prinzipielle Vorgehen immer gleich. Das gilt selbstverständlich auch für die Freiheitsgrade. Gerade für Novizen ist dies ein unschätzbarer Vorteil, denn es entfällt die Notwendigkeit, die Freiheitsgradanzahl für bestimmte Tests „auswendig“ zu lernen. Man muss sich lediglich überlegen, wie viele Parameter in jedem der beiden Modelle geschätzt werden. Dies ist relativ leicht und fördert darüber hinaus das Verständnis des Tests. Drittens unterstreicht Gleichung (6) die Bedeutung der 3
Damit wird es möglich, den berechneten F -Wert der ANOVA mit einem a priori festgelegten kritischen F -Wert zu vergleichen. Der kritische F -Wert wird in aller Regel so gewählt, dass die Wahrscheinlichkeit, bei Zutreffen der Nullhypothese einen größeren F -Wert als den kritischen zu erhalten, unter 5 % liegt. Dazu wird ein kritischer F -Wert gewählt, welcher gerade die oberen 5 % der Fläche der F -Verteilung unter der Nullhypothese abschneidet. Statt des 5 %-Signifikanzniveaus wird z. T. auch ein 1 %-Signifikanzniveau verwendet. Eine ausführlichere Einführung in die Grundlagen der Hypothesenprüfung bietet jedes Statistikbuch.
462
Manuel C. Völkle und Edgar Erdfelder
Fehlervarianzen. Die Gleichung macht klar, dass in der ANOVA nur diese miteinander verglichen werden, weshalb auch nur für diese die gleich zu besprechenden Annahmen von Normalverteilung, Homogenität und Unabhängigkeit der Fehler von Belang sind. Bezüglich unserer Fragestellung, ob sich Männer und Frauen in ihrem Populationseinkommen unterscheiden (d. h. H0 : μ0 = μ1 = μ bzw. αj = 0 für j = 0 und j = 1; H1 : μ0 = μ1 = μ bzw. αj = 0 für j = 0 oder j = 1), entspricht die Fehlerquadratsumme des restriktiven Modells einfach der Gesamtquadratsumme (d. h. J Nj SSTotal = SSE (Null) = j=1 i=1 (yij − y¯)2 ). Die Fehlerquadratsumme des AlternaJ Nj tivmodells ist SSE (Alt) = j=1 i=1 (yij − y¯j )2 . Bildet man gemäß Gleichung (6) die Differenz der beiden Quadratsummen, so bleibt die Quadratsumme zu Lasten des Geschlechts (SSA ) übrig. Die Freiheitsgrade berechnen sich analog. Im restriktiven Moy ) frei geschätzt werden, so dass dfNull = N − 1. dell muss nur ein einziger Parameter (¯ Im liberaleren Modell müssen hingegen J Gruppenmittelwerte frei geschätzt werden, so dass dfAlt = N − J. Als Differenz der beiden ergeben sich nach Gleichung (6) im Zähler (N − 1) − (N − J ) = J − 1 Freiheitsgrade. Da in unserem Fall J = 2, resultiert als F -Test für den Zwei-Gruppen-Fall:4 J yj − y¯)2 j=1 Nj (¯ F = J j=1
1 Nj
i=1 (yij
− y¯j )2
.
(7)
(N − 2) Annahmen Während die Eingangs vorgestellte Zerlegung der Quadratsummen für unabhängige Gruppen immer gilt, basiert die gerade beschriebene Hypothesenprüfung auf einer Reihe entscheidender Annahmen. So gehen wir erstens davon aus, dass alle personenspezifischen Fehlerterme in der Population voneinander unabhängig sind. Mit anderen Worten dürfen individuelle Einkommensunterschiede weder innerhalb einer Gruppe noch über verschiedene Gruppen hinweg miteinander zusammenhängen5 . Zweitens nehmen wir an, dass die Populationsfehlervarianz in jeder Gruppe gleich groß ist. Inferenzstatistische Analysen basierend auf Gleichung (6) sind also nur dann gerechtfertigt, wenn individuelle Einkommensunterschiede in der Population der Frauen weder größer noch kleiner ausfallen als Einkommensunterschiede in der Population der Männer. Dies bezeichnet man auch als Homogenität der Fehlervarianzen. Diese bildet zusammen mit der Unabhängigkeit der Fehler sowie der bereits diskutierten Normalverteilung der 4
5
Da die Anzahl der Freiheitsgrade im Zähler im Fall von nur zwei Gruppen Eins beträgt, entspricht die Wurzel aus der F -Verteilung einer t-Verteilung. Der Test ist folglich identisch mit dem t-test für zwei unabhängige Stichproben. Verletzt wäre die Annahme der statistischen Unabhängigkeit der Fehler zum Beispiel in hierarchisch strukturierten Datensätzen. Ein typisches Beispiel sind Schüler welche in Klassen, Schulen oder Schulbezirken „genested“ sind, diese Information jedoch nicht durch die unabhängige Variable abgebildet wird. Es ist naheliegend, dass sich Schüler innerhalb einer Klasse ähnlicher sind als über verschiedene Klassen hinweg. In solchen Fällen sollte die ANOVA nicht eingesetzt werden.
19 Varianz- und Kovarianzanalyse
463
Fehler in jeder Gruppe die drei zentralen Annahmen der Varianz- und Kovarianzanalyse. Die drei Kernannahmen werden häufig unter der Bezeichnung „unabhängig und identisch normalverteilte Fehler“ zusammengefasst. Exkurs: Mittlere Quadratsummen Die durch die entsprechende Freiheitsgradanzahl geteilten Quadratsummen bezeichnet man auch als Mittlere Quadratsummen (Abkürzung MS für engl. mean squares; d. h. M STotal = SSTotal/dfTotal ; M SA = SSA/dfA ; M SE = SSE/dfE ). Dabei handelt es sich um eine gängige Schreibweise, die den Vorteil hat, dass sich der in Gleichung (7) definierte F -Test nun einfach als M SA (8) F = M SE schreiben lässt. Diesem Vorteil steht jedoch eine Reihe von Nachteilen gegenüber. Erstens gilt Gleichung (8) nur für Faktor A im Gegensatz zur allgemeinen Teststatistik in Gleichung (6), die für alle varianzanalytischen Tests Gültigkeit besitzt. Zweitens gilt die Varianzzerlegung wie in Gleichung (5) gezeigt nur für Quadratsummen, nicht aber für mittlere Quadratsummen (d. h. M STotal = M SA + M SE erscheint auf den ersten Blick vielleicht plausibel, ist aber falsch). Drittens werden mittlere Quadratsummen häufig als Schätzer für Populationsvarianzen herangezogen, was teilweise berechtigt, zugleich aber auch die Ursache einer Reihe von Missverständnissen darstellt (Voelkle et al. 2007). So ist M STotal zwar in der Tat ein erwartungstreuer Schätzer der Populationsvarianz der abhängigen Variable (σy2 ), genau wie M SE ein erwartungsteuer Schätzer für die Fehlervarianz (σε2 ) ist, doch ist der Erwartungswert von M SA unter der Nullhypothese keineswegs Null wie man vielleicht leichthin annehmen könnte, sondern ebenfalls ein erwartungstreuer Schätzer der Fehlervarianz. Unter der Nullhypothese gilt also E(M SE ) = E(M SA ) = σε2 , wobei E(·) für den Erwartungswert der betreffenden Statistik steht. Unter der Alternativhypothese hingegen ist M SA ein erwartungstreuer Schätzer für die Fehlervarianz plus einem weiteren positiven Term, welcher von der Stärke J der 2Mittelwertunterschiede αj abhängt. Genauer gesagt gilt E(M SA ) = σε2 + ( j=1 Nj αj )/(J−1) (siehe Hays 1994, S. 393). Schließlich findet sich in der Literatur auch immer wieder der Ausdruck σα2 , mit dem analog zur Populationsvarianz der abhängigen Variable σy2 und der Populationsvarianz der Fehler σε2 , die Populationsvarianz der AV zu Lasten der Gruppen gekennzeichnet werden soll. Dies ist ebenfalls irreführend, denn im Gegensatz zu σy2 und σε2 gibt es eine solche Populationsvarianz nicht. Der Grund dafür liegt in der Tatsache, dass in der klassischen ANOVA, wie wir sie in diesem Kapitel behandeln, davon ausgegangen wird, dass es sich bei Mittelwertunterschieden um feste Effekte handelt (man spricht daher auch von der ANOVA mit festen Effekten). Dies bedeutet, dass man zwar einen Gesamtmittelwert und Quadratsummen berechnen kann, die Effektparameter jedoch keine Verteilung haben und damit auch keinen Erwartungswert und keine Populationsvarianz6 . 6
Dies unterscheidet die ANOVA mit festen Effekten (engl. fixed effects ANOVA) von der ANOVA mit Zufallseffekten (engl. random effects ANOVA). Letztere wird in diesem Kapitel jedoch nicht behandelt.
464
Manuel C. Völkle und Edgar Erdfelder
1.2 Vergleich von mehr als zwei Gruppen: Die einfaktorielle Varianzanalyse Der im vorangegangenen Abschnitt behandelte Vergleich von zwei Gruppen ist genauer betrachtet nur ein Spezialfall der einfaktoriellen Varianzanalyse mit mehreren Gruppen (Faktorstufen). Aus diesem Grunde macht sich an dieser Stelle die Eingangs vielleicht etwas umständlich anmutende aber allgemeine Schreibweise der Modellgleichung und Teststatistik bezahlt, denn der einzige Unterschied zum Vergleich von zwei Gruppen besteht darin, dass die Anzahl der Gruppen J nun eben beliebig groß sein darf (j = 1, . . . , J mit J ≥ 2). Ebenfalls gelten alle bereits behandelten Voraussetzungen der Varianzanalyse für den Vergleich von mehr als zwei Gruppen gleichermaßen. Im Rahmen der einfaktoriellen ANOVA mit mehreren Faktorstufen könnte man sich zum Beispiel dafür interessieren, ob verschiedene Behandlungsansätze wie verhaltenstherapeutisch, tiefenpsychologisch oder analytisch ausgerichtete Therapien bei der Behandlung von Depression unterschiedlich effektiv sind. Hier geht es nicht um den Vergleich von zwei, sondern um den Vergleich von drei Gruppen. Das Vorgehen bei der Analyse ist jedoch identisch zum Zwei-Gruppen-Fall (siehe Modellgleichung (3)). Die Hypothesen lauten jetzt: H0 : αj = 0 für alle j, versus H1 : αj = 0 für mindestens eine Gruppe j . Wie zuvor gehen wir unter der Nullhypothese also von einem restriktiven Modell aus, bei welchem alle J Gruppenmittelwerte in der Population gleich sind und damit auch dem Gesamtmittelwert entsprechen (μj = μ). Im Gegensatz dazu postuliert die Alternativhypothese ein deutlich liberaleres Modell, bei welchem die Mittelwerte über die Gruppen hinweg frei variieren (μj = μ). Um herauszufinden, ob die in einer Stichprobe beobachteten Mittelwertunterschiede auf Zufall basieren oder tatsächlich Unterschiede in der Population widerspiegeln, müssen die beiden Modelle gemäß der allgemeinen Teststatistik in Gleichung (6) miteinander verglichen werden. Die Berechnung der Quadratsummen und Freiheitsgrade erfolgt ebenfalls wie im vorangegangen Abschnitt beschrieben. Ob die Reduktion der Fehlervarianz signifikant ist (signifikanter F -Wert), entscheidet dann über Beibehaltung der Nullhypothese oder deren Ablehnung zugunsten des weniger restriktiven Alternativmodells. Anders als beim Vergleich von nur zwei Gruppen gilt es nun zu beachten, dass es sich bei Gleichung (6) um einen globalen Test auf Unterschiedlichkeit aller Gruppenmittelwerte handelt, welcher keine Aussagen über die Unterschiedlichkeit ganz bestimmter Gruppen erlaubt. So würde ein signifikanter F -Wert zwar darüber informieren, ob sich verhaltenstherapeutisch, tiefenpsychologisch und analytisch ausgerichtete Therapien hinsichtlich ihrer Effektivität unterscheiden, doch würde er nicht die Frage beantworten, ob eine verhaltenstherapeutische Therapie in der Population bessere Ergebnisse erzielt als eine tiefenpsychologisch orientierte Therapie. Dazu wären sogenannte Post-Hoc-Tests oder spezifische Vergleiche erforderlich. Wie wir im Abschnitt 2 näher erläutern werden, bilden vor allem spezifische Vergleiche einen leistungsstarken Ansatz zur Überprüfung gezielter – unter Umständen äußerst differenzierter – Hypothesen. Entsprechend ist ihr Einsatz immer dann angebracht, wenn man bereits a
19 Varianz- und Kovarianzanalyse
465
priori konkrete Hypothesen bezüglich der zu erwartenden Mittelwertunterschiede hat. Wurde die AN(C)OVA hingegen als primär exploratorisches Verfahren eingesetzt, war das erste Ziel, herauszufinden, ob es überhaupt irgendwelche Mittelwertunterschiede gibt. Erst nachdem diese signifikant wurden interessiert man sich für die spezifischen Stufen, die für den Effekt verantwortlich sind – folglich handelt es sich um einen Post-Hoc-Test. Es versteht sich dabei von selbst, dass ein hypothesengeleiteter Ansatz via spezifischer Kontraste dem exploratorischen Ansatz mittels Post-Hoc-Analysen in aller Regel vorzuziehen ist. Post-Hoc-Tests dienen also vor allem dem pragmatischen Ziel, post hoc ein besseres Verständnis eines insgesamt signifikanten AN(C)OVA Ergebnisses zu erlangen. Es wird dabei die nicht-ausschließende disjunktive Metahypothese getestet, dass sich zwei und/oder mehr beliebige Zellenmittelwerte unterscheiden (H1M : (μ1 = μ2 ) ∨ (μ1 = μ3 ) ∨ (μ2 = μ3 ) ∨ . . .). Hierbei ergibt sich allerdings das Problem, dass die Vielzahl möglicher Vergleiche die Wahrscheinlichkeit erhöhen, per Zufall ein signifikantes Ergebnis zu erhalten. Um dieser Alpha-Inflation und der daraus resultierenden Kapitalisierung des Zufalls entgegenzuwirken, ist es erforderlich, das Alpha-Niveau entsprechend anzupassen. Erfolgt die Anpassung jedoch zu konservativ, reduziert dies wiederum die Power, einen in der Population existierenden Effekt auch zu entdecken. Post-Hoc-Tests versuchen diesen Spagat zwischen adäquater Kontrolle des Alpha-Fehlers bei gleichzeitiger Maximierung der Power. Darüber hinaus sollte ein guter Post-Hoc-Test möglichst robust gegenüber ungleichen Zellbesetzungen und ungleichen Varianzen sein. Über die Jahre hinweg wurden eine Vielzahl unterschiedlicher Post-Hoc-Verfahren entwickelt, deren Beschreibung den Rahmen dieses Kapitels sprengen würde. Für eine Übersicht und konkrete Empfehlungen, wann welcher Test eingesetzt werden sollte, empfehlen wir das Buch von Sahai & Ageel (2000). 1.3 Mehrfaktorielle Varianzanalyse Bisher haben wir uns auf den Fall eines einzigen Faktors – wenn auch mit beliebig vielen Faktorstufen – beschränkt. Viele Problemstellungen erfordern jedoch die simultane Betrachtung mehrerer Faktoren. Zum Beispiel könnten wir uns in Anlehnung an die Fragestellung aus dem vorangegangen Abschnitt dafür interessieren, ob nicht nur die Behandlungsform (Verhaltenstherapie, tiefenpsychologische Therapie oder analytische Therapie), sondern auch die Art der Erkrankung (z. B. Depression versus Angststörung), oder die Interaktion der beiden Faktoren einen Einfluss auf das Behandlungsergebnis haben (z. B. operationalisiert über die kontinuierliche Global-Assessment-of-Functioning-Skala = GAF). Unter Interaktion (synonym: Wechselwirkung) versteht man dabei, dass der Effekt eines Faktors für verschiedene Stufen des anderen Faktors unterschiedlich ausfällt. Zum Beispiel läge ein Interaktionseffekt vor, wenn sich die drei Therapieformen in ihrer Effektivität bei der Behandlung von Depression unterscheiden, bei der Behandlung von Angststörungen jedoch keine Unterschiede aufweisen würden. Modellgleichung Da wir es nun mit zwei unterschiedlichen Faktoren und deren Interaktion zu tun haben, wird es erforderlich, Gleichung (3) entsprechend zu erweitern:
466
Manuel C. Völkle und Edgar Erdfelder
(yijk − μ) = (μj − μ) + (μk − μ) + (μjk − μj − μk + μ) + (yijk − μjk ) . 67 8 5 67 8 5 67 8 5 67 8 5 αj
βk
(αβ)jk
(9)
εijk
Der Index k = 1, . . . , K indiziert die jeweilige Stufe des neu hinzugekommenen Faktors B, βk den Effekt zu Lasten des Faktors B und (αβ)jk den Interaktionseffekt. Der Interaktionseffekt entspricht dabei dem Teil der Abweichung der Gruppenmittelwerte vom globalen Mittelwert (μjk − μ), welcher nach Kontrolle der Haupteffekte des ersten Faktors (μj − μ) und des zweiten Faktors (μk − μ) verbleibt. Liegt keine Interaktion vor, so setzt sich die Variabilität der Gruppenmittelwerte (μjk − μ) additiv aus den beiden Haupteffekten zusammen. Dies wäre gleichbedeutend mit der Nullhypothese, dass die Wahl der optimalen Behandlungsform (optimal bedeutet hier eine möglichst hohe Ausprägung auf der GAF-Skala) unabhängig von der Erkrankung (Depression versus Angststörung) ist. Hypothesen Mittels der mehrfaktoriellen ANOVA lassen sich also Hypothesen bezüglich verschiedener Faktoren zeitgleich testen. In Anlehnung an unser obiges Beispiel vermuten wir unter der Nullhypothese, dass sich die drei Behandlungsformen (Faktor A) in ihrer Effektivität nicht unterscheiden. Ist dies der Fall, sollten alle J Mittelwerte dieses Faktors gleich sein und damit auch μj − μ = αj = 0 für alle j = 1, . . . , J Faktorstufen (in unserem Fall J = 3). Gleiches gilt für die Art der Erkrankung (Faktor B), sowie die Interaktion der beiden Faktoren (Faktor AB). Formal lassen sich die Hypothesen also spezifizieren als: a) Haupteffekt von Faktor A: H0 : αj = 0 für alle j = 1, . . . , J H1 : αj = 0 für mindestens eine Gruppe j = 1, . . . , J b) Haupteffekt von Faktor B: H0 : βk = 0 für alle k = 1, . . . , K H1 : βk = 0 für mindestens eine Gruppe k = 1, . . . , K c) Interaktion von Faktor A und B: H0 : (αβ)jk = 0 für alle Kombinationen von j und k H1 : (αβ)jk = 0 für mindestens eine Kombination von j und k Im Unterschied zur einfaktoriellen ANOVA vergleichen wir in der mehrfaktoriellen ANOVA also nicht nur zwei, sondern mehrere Modelle miteinander. Im Beispielfall handelt es sich dabei um drei restriktive Modelle gemäß der o. g. Nullhypothesen und die zugehörigen liberaleren Vergleichsmodelle gemäß der drei obigen Alternativhypothesen. Bevor wir jedoch auf die daraus resultierenden F -Tests näher eingehen, folgt zunächst die Berechnung der Quadratsummen. Quadratsummen Wie in der einfaktoriellen ANOVA (siehe Gleichung (5)), lässt sich die gesamte Variabilität der AV (SSTotal ) additiv zerlegen in die Quadratsumme zwischen den Gruppen SSZwischen und die Quadratsumme innerhalb der Gruppen (SSE ).
19 Varianz- und Kovarianzanalyse
SSTotal = SSZwischen + SSE .
467
(10)
Im Unterschied zur einfaktoriellen ANOVA entspricht SSZwischen im mehrfaktoriellen Fall jedoch nicht mehr einfach SSA , sondern die Quadratsumme zwischen den Gruppen lässt sich, entsprechend Modellgleichung (9) weiter zerlegen in die Quadratsumme des ersten Faktors (psychische Erkrankung), des zweiten Faktors (Behandlungsform), sowie die Interaktion der beiden Faktoren: SSZwischen = SSA + SSB + SSAB .
(11)
Die totale Quadratsumme SSTotal berechnet sich dabei wie zuvor, nur dass in der mehrfaktoriellen ANOVA noch ein weiterer Index k = 1, . . . , K hinzukommt: SSTotal =
Njk J K
(yijk − y¯)2 .
(12)
k=1 j=1 i=1
Die Fehlerquadratsumme berechnet sich (ebenfalls analog zum einfaktoriellen Fall) über die Abweichung jedes einzelnen Messwertes vom Mittelwert der jeweiligen Stufenkombination der beiden Faktoren, d. h. dem Zellmittelwert y¯jk : SSE =
Njk K J
(yijk − y¯jk )2 .
(13)
k=1 j=1 i=1
Die Quadratsumme zwischen den Gruppen entspricht schließlich der Summe der mit der Zellgröße Njk multiplizierten quadrierten Abweichungen aller Zellmittelwerte vom globalen Mittelwert: SSZwischen =
J K
Njk (¯ yjk − y¯)2 , wobei
k=1 j=1
SSA =
J
Nj (¯ yj − y¯)2
j=1
SSB =
K
(14)
Nk (¯ yk − y¯)2
k=1
SSAB =
K J
Njk (¯ yjk − y¯j − y¯k + y¯)2 .
j=1 k=1
Freiheitsgrade Die Berechnung der Freiheitsgrade erfolgt analog zur einfaktoriellen ANOVA. Wie bei den Quadratsummen besteht der einzige Unterschied darin, dass es nun nicht mehr eine einzige Quadratsumme zwischen den Gruppen gibt, sondern sich diese in drei
468
Manuel C. Völkle und Edgar Erdfelder
verschiedene Quadratsummen zerlegen lässt mit jeweils (J −1), (K −1) beziehungsweise (J − 1)(K − 1) Freiheitsgraden im Zähler. Zur Berechnung der Fehlerquadratsumme müssen alle N Werte bekannt sein, doch müssen auch die Mittelwerte in jeder Gruppe berechnet werden, so dass die Freiheitsgradanzahl dfE = N − JK beträgt. Teststatistik Die im Abschnitt 1.1 eingeführte allgemeine Teststatistik behält auch im Falle der mehrfaktoriellen ANOVA uneingeschränkt Gültigkeit. Entsprechend der drei Hypothesen ergeben sich die drei zugehörigen F -Tests wie folgt: SSA FA = J − 1 , SSE N − JK
SSB FB = K − 1 SSE N − JK
und FAB
SSAB (J − 1)(K − 1) = . SSE N − JK
(15)
Analog zur einfaktoriellen ANOVA handelt es sich bei SSA um die Differenz von SSE (Null) und SSE (Alt), wenn SSE (Null) die Fehlerquadratsumme des Modells ist, bei dem alle J Mittelwerte des Faktors A gleichgesetzt werden. Bezogen auf unser Beispiel ist dies gleichbedeutend mit der Nullhypothese (H0 ), dass sich die drei Behandlungsformen in ihrer Effektivität nicht unterscheiden. SSB ist entsprechend die Differenz von SSE (Null) und SSE (Alt), wenn SSE (Null) die Fehlerquadratsumme des Modells ist, bei dem alle K Mittelwerte des Faktors B gleich gesetzt werden (H0 : Depressive und Angstpatienten unterscheiden sich nicht in ihren GAF Werten). SSAB bildet schließlich die verbleibende Variabilität der Gruppenmittelwerte ab, die weder durch den einen noch den anderen Haupteffekt der Faktoren erklärt werden kann. Für eine ausführliche Darstellung der Berechnung siehe Maxwell & Delaney (2000). Die Anzahl der möglichen Faktoren und Faktorstufen ist dabei prinzipiell beliebig und nur durch praktische oder theoretische Überlegungen limitiert. So sinkt mit zunehmender Anzahl von Faktoren und Faktorstufen in aller Regel die Power zur Entdeckung eines Effekts (Abschnitt 1.6). Folglich ergeben sich in der Praxis häufig Probleme bei der Interpretation von komplizierten Interaktionstermen. Würden wir zum Beispiel noch einen zusätzlichen dritten Faktor aufnehmen (z. B. Geschlecht), würde dies in drei Haupteffekten, drei Interaktionen erster Ordnung und einer Interaktion zweiter Ordnung resultieren. In unserem Fall könnte dies bedeuten, dass die Wahl der optimalen Behandlungsform bei Männern von der zugrundeliegenden Erkrankung abhängt, bei Frauen hingegen unabhängig von der Erkrankung ist. Man kann sich leicht vorstellen, wie kompliziert die Interpretation der ANOVA-Ergebnisse von mehr als drei Faktoren mit jeweils multiplen Faktorstufen potentiell werden kann. Wir wollen an dieser Stelle daher auf eine ausführlichere Betrachtung von Designs mit drei und mehr Faktoren verzichten, verweisen aber auf die einschlägige Literatur (z. B. Bortz 2005; Hays 1994). Annahmen Die inferenzstatistischen Annahmen der einfaktoriellen ANOVA (Homogenität der Fehlervarianzen, Normalverteilung und Unabhängigkeit der Fehler) gelten für die
19 Varianz- und Kovarianzanalyse
469
mehrfaktorielle ANOVA gleichermaßen. Zu beachten ist lediglich, dass diese sich nun nicht mehr auf die Gruppen eines einzigen Faktors beziehen, sondern auf die durch Kombination aller Faktoren entstehenden Zellen. Des Weiteren gehen wir davon aus, dass die Faktoren unabhängig voneinander sind, was der Fall ist, wenn alle Zellen gleich besetzt sind. Eigentlich handelt es sich hierbei um keine Annahme im engeren Sinne, doch ergibt sich das Problem, dass die zu untersuchenden Effekte in der ANOVA (also Haupteffekte und Interaktionen) bei ungleichen Zellenhäufigkeiten nicht mehr unabhängig voneinander sind7 . Entgegen obiger Beschreibung würden sich dann die Quadratsummen nicht länger einfach additiv zusammensetzen8 . Es wurden eine Reihe an Verfahren vorgeschlagen, wie man mit solchen nicht-orthogonalen Designs umgehen kann. Die flexibelste Art ist unseres Erachtens jedoch die Verwendung von nonorthogonalen Kontrasten im Rahmen des Allgemeinen Linearen Modells, auf welches wir im Abschnitt 2 kurz zu sprechen kommen. Für eine ausführlichere Diskussion von Varianzanalysen mit ungleichen Stichprobengrößen verweisen wir ein weiteres Mal auf Bortz (2005). 1.4 Kovarianzanalyse Wie bei der ANOVA auch, interessiert man sich bei der Kovarianzanalyse (ANCOVA) in erster Linie für Mittelwertunterschiede auf einer kontinuierlichen AV aufgrund einer oder mehrerer kategorialer UVn. In manchen Fällen steht jedoch noch zusätzliche Information in Form von weiteren Variablen (sogenannten Kovariaten) zur Verfügung. Hängen diese ebenfalls mit der interessierenden AV zusammen, kann es sinnvoll sein, deren Einfluss vor der eigentlichen Analyse statistisch zu kontrollieren. Dies reduziert die verbleibende Fehlervarianz und erhöht die Wahrscheinlichkeit, existierende Effekte auch tatsächlich zu entdecken9 . Sind die Kovariaten kategorial, ist es möglich, sie einfach als weitere Faktoren in die ANOVA aufzunehmen. Bei kontinuierlichen Kovariaten ist dies hingegen nicht möglich, sondern erfordert die Kovarianzanalyse. Die Kovarianzanalyse verbindet die Regression (siehe z. B. Kapitel 24 in diesem Handbuch) mit der Varianzanalyse, wobei ihr Grundgedanke eigentlich sehr einfach ist. Vom Prinzip her wird eine Regression der AV auf die Kovariate gerechnet, und die Residuen dieser Regression dienen als neue AV in einer anschließenden Varianzanalyse. Zum Beispiel könnte man sich für den Effekt der Behandlungsform (Verhaltenstherapie, tiefenpsychologische Therapie oder analytische Therapie) auf den Therapieerfolg interessieren, jedoch unabhängig von der Intelligenz der Patienten, von der vermutet wird, dass sie ebenfalls eine entscheidende Determinante des Therapieerfolgs darstellt.
7
8
9
Abgesehen von wenigen Ausnahmen wie zum Beispiel proportional geschichtete Stichproben. Der allgemeine F -Test behält dennoch Gültigkeit. Es werden dann Typ III Quadratsummen getestet (siehe auch Fußnote 15) Obwohl ggf. auch die Treatmentvarianz durch Aufnahme einer Kovariaten positiv oder negativ beeinflusst werden kann.
470
Manuel C. Völkle und Edgar Erdfelder
Modellgleichung Dazu muss die in den vorangegangenen Abschnitten eingeführte Modellgleichung der ANOVA um die zusätzliche Kovariate erweitert werden. Dies geschieht für die ein- beziehungsweise mehrfaktorielle ANCOVA gleichermaßen. Aus Gründen der Einfachheit beschränken wir uns bei der Darstellung daher auf die einfaktorielle ANCOVA (vgl. Gleichung (3)). (yij − μ) = (μj − μ) + γyx (xij − μx ) + [(yij − μj ) − γyx (xij − μx )] . 5 67 8 5 67 8 5 67 8 αj
Kovariateneffekt
(16)
εij
xij symbolisiert dabei die Ausprägung der Person i in Gruppe j auf der Kovariate X,μx deren Populationsmittelwert und γyx das Regressionsgewicht zur Vorhersage der AV durch die Kovariate. Damit die Gleichung aufgeht, muss schließlich der Fehlerterm entsprechend erweitert werden. ANOVA versus ANCOVA Abgesehen von der Kontrolle der Kovariaten, bleibt das in den vorangegangenen Abschnitten für die ein- und mehrfaktorielle ANOVA vorgestellte Grundmodell dasselbe. Gleiches gilt für die Formulierung der Hypothesen und die zugrundeliegenden Annahmen, weshalb auf eine Wiederholung an dieser Stelle verzichtet wird. Stattdessen wollen wir uns nachfolgend auf einige Besonderheiten der ANCOVA gegenüber der bereits vorgestellten ANOVA konzentrieren. Dazu ist es erforderlich, zumindest einen kurzen Blick auf die lineare Regression zu werfen, welche für die ANCOVA von zentraler Bedeutung ist. Eine ausführliche Einführung in die Regression findet sich in den Kapiteln 24 und 25 in diesem Handbuch (siehe aber auch Abschnitt 2 in diesem Kapitel). Ihr Grundgedanke ist die Vorhersage einer kontinuierlichen Variable Y (des Kriteriums) durch einen oder mehrere Prädiktoren. Für eine gegebene Zufallsstichprobe lässt sich die Regressionsgleichung mit einem kontinuierlichen Prädiktor X als ¯) + c yˆij = gyx (xij − x
(17)
schreiben. Wie zuvor ist yˆij das Kriterium und xij die zu kontrollierende Kovariate, wobei das Dach über yˆij kennzeichnet, dass wir es hier nicht mit beobachteten, sondern vorhergesagten Werten zu tun haben, so dass der Fehlerterm entsprechend weggelassen werden kann. yˆij sind also die aufgrund der Kovariate vorhergesagten Werte der abhängigen Variablen für Person i in Gruppe j. Darüber hinaus liegt sowohl in Gleichung (16) als auch Gleichung (17) die Kovariate in Abweichungsform vor, das heißt ihr Mittelwert wurde von jedem beobachteten Wert abgezogen (xij − x ¯). Dies hat den Vorteil, dass die neu eingeführte Konstante c nunmehr direkt dem Mittelwert der abhängigen Variablen entspricht (analog zu μ in Gleichung (16)). Im nächsten Schritt kann man nun die Residuen der Regression als einfache Differenz zwischen vorhergesagten und beobachteten Werten der AV berechnen (yij − yˆij ). Ein Vergleich der Varianz der so berechneten Residuen mit der ursprünglichen Varianz von yij
19 Varianz- und Kovarianzanalyse
471
informiert über die Reduktion in der Gesamtunterschiedlichkeit aller Werte der AV durch Kontrolle der Kovariate. Eigentlich interessiert jedoch weniger die Reduktion der Gesamtvariabilität der AV, sondern vielmehr die Reduktion der Fehlervariabilität durch Aufnahme einer Kovariaten in der ANOVA. Daher ist es sinnvoll, in jeder Gruppe eine separate Regression zu rechnen, in der statt des Gesamtmittelwerts der Kovariaten, wie in ¯j eingesetzt wird. Dies hat zur Gleichung (17), der jeweilige Gruppenmittelwert x Folge, dass die Gruppenmittelwerte der abhängigen Variablen jetzt in Form von gruppenspezifischen Konstanten (cj ) abgebildet werden. ¯j ) + cj . yˆij = gpooled (xij − x
(18)
Wird in jeder Gruppe eine separate Regression durchgeführt, erhält man natürlich nicht nur gruppenspezifische Konstanten (cj ), sondern möglicherweise ebenfalls gruppenspezifische Regressionsgewichte (gj ). Inhaltlich entspricht dies einer Interaktion zwischen Faktor und Kovariate. Ein solcher Interaktionsterm ist in der klassischen Kovarianzanalyse jedoch nicht vorgesehen und wird daher per Annahme, dass der Zusammenhang in der Population zwischen Kovariate und abhängiger Variablen in allen Gruppen identisch ist, ausgeschlossen (siehe z. B. Elashoff 1969, S. 396)10 . In einer gegebenen Stichprobe variiert der Zusammenhang von Gruppe zu Gruppe natürlich etwas, so dass es erforderlich wird, die individuellen Regressionsgewichte zu einer einzigen Kennzahl (gpooled ) zusammenzufassen. Dies könnte prinzipiell durch einfache Mittelung erfolgen, doch hat es Vorteile, die Koeffizienten hinsichtlich ihrer Stabilität vorher zu Dies geschieht durch Multiplikation jedes individuellen Gewichts Ngewichten. J gj mit i=1 (xij − x ¯j )2 und anschließender Division durch die Summe aller Gewichte. Für Details verweisen wir auf Maxwell & Delaney (2000). Des Weiteren geht man davon aus, dass die Kovariate, genau wie das Treatment, fehlerfrei erfasst wurde. Im Gegensatz zur AV, deren Fehlervarianz sowohl durch mangelnde prognostische Güte als auch mangelnde Reliabilität zustande kommen kann, sieht die (Ko)varianzanalyse keinen expliziten Fehlerterm für Kovariaten und unabhängige Variablen vor. Alternative Ansätze sind im Rahmen von Strukturgleichungsmodellen denkbar (siehe Kapitel 29 in diesem Handbuch). Schließlich ist darauf zu achten, dass die Kovariate der unabhängigen Variable kausal vorgeordnet ist. Ist dies nicht der Fall, so dass die Ausprägungen auf der Kovariaten (kausal) von der eigentlich interessierenden unabhängigen Variable abhängen, so würde durch Aufnahme der Kovariate der Effekt der UV reduziert oder sogar gänzlich eliminiert. 1.5 Effektstärke Bislang haben wir besprochen, wie man eine, zwei oder multiple Gruppen miteinander vergleichen kann. Wir haben inferenzstatistische Tests kennengelernt, um etwaige Unterschiede auf ihre Signifikanz hin zu überprüfen. Dann haben wir behandelt, wie man den Einfluss von Kovariaten kontrolliert. Ignoriert wurde bislang die Frage, ob 10
Wie wir im Abschnitt 2 sehen werden, bietet das Allgemeine Lineare Modell die Möglichkeit diese Interaktionen explizit zu modellieren.
472
Manuel C. Völkle und Edgar Erdfelder
statistisch signifikante Effekte auch praktisch bedeutsam sind. Unberücksichtigt blieb ferner, wie sich Effekte über verschiedene Studien hinweg miteinander vergleichen lassen. Bei genauerer Betrachtung unserer allgemeinen Teststatistik in Gleichung (6) zeigt sich nämlich, dass bei nicht perfekter Passung des Nullmodells – ceteris paribus – mit zunehmender Stichprobengröße (N ) der resultierende F -Wert gegen Unendlich geht. Dies bedeutet, dass auch extrem kleine – und in der Praxis vielleicht gänzlich unbedeutende – Gruppenunterschiede signifikant werden, wenn nur die Stichprobe groß genug gewählt wird. Im Umkehrschluss können aber auch deskriptiv große Gruppenunterschiede bei kleinem N in nicht signifikanten Teststatistiken resultieren. Es ist daher von zentraler Wichtigkeit, neben rein inferenzstatistischen Angaben dem Leser auch Angaben über die Größe von Effekten an die Hand zu geben, die es ihm erlauben, deren praktische Bedeutung einzuschätzen und Vergleiche zu Befunden in anderen Untersuchungen herzustellen11 . Die Wichtigkeit von Effektstärken für die wissenschaftliche Praxis wird nicht zuletzt durch zahlreiche Erklärungen und Richtlinien der American Psychological Association (APA) unterstrichen, auf die wir an dieser Stelle jedoch nur verweisen können (z. B. Wilkinson & APA 1999; APA 2009). Betrachten wir erneut den in Abschnitt 1.1 eingeführten Vergleich von zwei Gruppen. Nehmen wir dabei wieder an, wir interessieren uns dafür, ob das durchschnittliche Jahreseinkommen von Männern in der Population höher ausfällt als das von Frauen. Nehmen wir des Weiteren an, wir haben in einer Zufallsstichprobe ein mittleres Jahreseinkommen von 50.000 € für Männer (¯ y1 ) und 49.000 € für Frauen (¯ y0 ) beobachtet. Den zugehörigen inferenzstatistischen Test haben wir bereits besprochen. Was jedoch bedeutet nun ein Unterschied im Jahresgehalt von 1000 €? Diese Frage lässt sich nicht ohne Blick auf die Streuung beantworten. Bei einer Streuung des Einkommens von z. B. 100.000 € in beiden Gruppen (sdy ) ist ein mittlerer Unterschied von 1000 € geradezu trivial. Sind die individuellen Unterschiede im Einkommen jedoch relativ gering (z. B. sdy = 500 € in beiden Gruppen) sind 1000 € eine beachtliche Differenz. Ob der Unterschied bei gegebener Streuung signifikant ist oder nicht, ist dabei wieder ausschließlich eine Funktion der Stichprobengröße. Für eine sinnvolle Interpretation des Unterschieds ist es also erforderlich, diesen anhand der Streuung zu normieren. Zu diesem Zwecke definiert Cohen (1992, 1988)12 die Effektstärke für den Vergleich von zwei gleich großen Gruppen als sd2y1 + sd2y0 y¯1 − y¯0 ˆ . (19) d= wobei sdpooled = sdpooled 2 Wie zuvor symbolisiert das „Dach“ über der Effektgröße d, dass es sich um einen auf der Basis von Stichprobenwerten geschätzten Parameter handelt. Unterscheiden sich die Varianzen in den beiden Gruppen, empfiehlt Cohen (1988) einfach deren Durchschnitt zu nehmen (sdpooled ). Für ungleiche Stichprobengrößen bietet es sich darüber hinaus an, vor Mittelung anhand der Gruppengröße zu gewichten, 3die2Varianzen 2 also sdpooled = (sdy1 N1 +sdy0 N0 )/(N1 +N0 ). Bei einer Streuung von sdy =100.000 € 11 12
Letzteres ist der Grundgedanke der sogenannten Metaanalyse. Es existieren eine Reihe an alternativen Effektstärkemaßen wie zum Beispiel Hedge’s g, auf welche an dieser Stelle jedoch nicht näher eingegangen werden kann.
19 Varianz- und Kovarianzanalyse
473
würde somit ein Effekt von d = 0,01 resultieren, bei einer Streuung von 500 € ein Effekt von d = 2. Diese Werte erlauben nicht nur eine direkte Bewertung, sondern auch einen Vergleich über verschiedene Untersuchungen hinweg. Zur ungefähren Einschätzung der Effektgröße hat Cohen (1992, 1988) eine Klassifikation nach kleinen (d = 0,2), mittleren (d = 0,5) und großen (d = 0,8) Effekten vorgeschlagen (für eine Übersicht siehe Cohen 1992, S. 157). Im ersten Fall würde es sich also um einen sehr kleinen, im zweiten um einen sehr großen Effekt handeln. Auch wenn sich diese Konventionen mittlerweile einer großen Beliebtheit erfreuen, hängt die Bewertung einer Effektstärke natürlich vor allem vom jeweiligen Untersuchungsgegenstand und -kontext ab, so dass solche „Faustregeln“ stets mit einer Portion gesunder Skepsis verwendet werden sollten. Für mehr als zwei Gruppen, wie bei der typischen einfaktoriellen ANOVA, existiert natürlich nicht nur eine einzige Differenz wie in Gleichung (4). Vielmehr interessiert hier die Variabilität aller Gruppenmittelwerte. Genauer gesagt interessiert uns der Anteil der Variabilität aufgrund von Mittelwertunterschieden (SSZwischen ) an der Gesamtvariabilität (SSTotal ). Dieses Verhältnis bezeichnen wir als ηˆ2 . Mittels ηˆ2 lässt sich dann problemlos die von Cohen (1988) für die einfaktorielle ANOVA vorgeschlagene Effektstärke f berechnen als ηˆ2 SSZwischen mit ηˆ2 = . (20) fˆ = 2 1 − ηˆ SSTotal Bei einer Effektstärke von f = 0,10 spricht Cohen (1992, 1988) von einem kleinen, bei f = 0,25 von einem mittleren und bei f = 0,40 von einem großen Effekt. Da man es in der mehrfaktoriellen ANOVA mit mehreren Haupteffekten und Interaktionen zu tun hat, erfordert dies natürlich auch die Berechnung von unterschiedlichen Effektstärken. Die zugrunde liegende Logik ist dabei jedoch identisch zur einfaktoriellen ANOVA. So könnte man für jeden Haupteffekt und jede Interaktion den aufgeklärten Varianzanteil ηˆ2 als das Verhältnis der Quadratsumme des betreffenden Effekts zur totalen Quadratsumme berechnen. Ein solches Vorgehen wäre jedoch überaus konservativ, da ja bereits bekannt ist, dass ein Teil der Gesamtquadratsumme im Nenner durch die anderen Faktoren erklärt werden kann und sich somit nicht zur „Normierung“ eignet. Anstelle der Gesamtquadratsumme nimmt man daher nur die Quadratsumme zu Lasten des betreffenden Effekts (SSEffekt ) plus der verbleibenden Residualvarianz nach Kontrolle aller anderen Effekte (SSinnerhalb ). Man berechnet also ein partielles ηˆ2 unter Auspartialisierung aller bekannten, aber nicht interessierenden, Effekte. ηˆp2 =
SSEffekt . SSEffekt + SSinnerhalb
(21)
Die eigentliche Effektstärke f berechnet sich dann wieder wie in Gleichung (20), nur eben auf der Basis von ηˆp2 . Die Effektstärkenberechnung in der Kovarianzanalyse folgt dem gleichen Prinzip und es gelten die gleichen Formeln. Einziger Unterschied ist, dass zur Berechnung von ηˆ2 , beziehungsweise fˆ, die aufgrund der Kovariate adjustierten Quadratsummen herangezogen werden (siehe Abschnitt 1.4).
474
Manuel C. Völkle und Edgar Erdfelder
Kritisch anzumerken bleibt, dass die hier vorgestellten Effektstärkemaße (insbesondere ηˆ2 ) keine erwartungstreuen Schätzer der Populationseffektgrößen sind, sondern diese systematisch überschätzen. Während diese Tatsache für große Stichproben und wenige Gruppen häufig vernachlässigbar ist, kann die Überschätzung des Populationseffekts in kleinen Stichproben schnell problematisch werden. Entsprechend wurden schon früh eine ganze Reihe an korrigierten Effektstärkemaßen vorgeschlagen (z. B. ω ˆ 2, siehe Hays 1994). Für eine tiefergehende Diskussion verweisen wir auf Maxwell et al. (1981) sowie Olejnik & Algina (2003). Ebenfalls möchten wir den Leser dazu ermutigen, Konfidenzintervalle um Effektstärken zu berichten, da diese sowohl inferenzstatistische Informationen, als auch Informationen über die (deskriptive) Größe eines Effekts in sich vereinen. Für eine Einführung in diese Thematik verweisen wir auf Steiger (2004). 1.6 Teststärke Mit Hilfe der Effektstärken lässt sich die Wahrscheinlichkeit berechnen, einen tatsächlich vorhandenen Effekt in der Population auch zu entdecken. Diese Wahrscheinlichkeit bezeichnen wir als die Teststärke oder die Power eines Tests. Im Wesentlichen unterscheidet man zwischen a-priori- und post-hoc-Poweranalysen.13 Ziel von a-prioriPoweranalysen ist die Bestimmung der optimalen Stichprobengröße, um einen existierenden Populationseffekt mit einer bestimmten Wahrscheinlichkeit auch zu entdecken. Im Umkehrschluss ist (1−Power) der Fehler 2. Art, also die Wahrscheinlichkeit, die Nullhypothese zu Unrecht beizubehalten. Als Faustregel empfiehlt Cohen (1988) eine Untersuchung so anzulegen, dass der Fehler 2. Art maximal viermal so groß ist wie der Fehler 1. Art. Da Letzterer gewöhnlich 5 % beträgt, entspricht dies einer Power von mindestens 0,80. Ziel von post-hoc-Poweranalysen ist es hingegen, die Teststärke einer bestehenden Untersuchung bei feststehender Stichprobengröße zu bestimmen. Für jeden statistischen Test lässt sich die Power als eine Funktion von drei Parametern bestimmen: dem Signifikanzniveau (Alpha), der Effektgröße in der zugrundeliegenden Population (z. B. f ) und der Stichprobengröße. Anhand der beiden letzten Einflussgrößen lässt sich die Verteilungsform der Prüfstatistik – im Fall der AN(C)OVA also der F -Statistik – unter der Alternativhypothese (H1 ) bestimmen. Basierend auf dieser Verteilung kann man bei gegebenem Alpha-Niveau schließlich die Teststärke berechnen. Auf mathematische Details der Berechnung soll an dieser Stelle verzichtet werden. Diese finden sich zum Beispiel in Erdfelder et al. (2010) oder Cohen (1988). Auch existieren mittlerweile eine Reihe benutzerfreundlicher und frei verfügbarer Programme für Teststärkeanalysen (Faul et al. 2009). Im Abschnitt 3.6 kommen wir auf ein solches (GPower) im Rahmen einer kurzen Beispielanalyse nochmals zurück. 13
Weitere Varianten sind natürlich möglich. So unterscheiden Erdfelder et al. (2010) fünf Formen der Teststärkeanalyse. Auch trennen die Autoren zwischen post hoc und retrospektiven Poweranalysen. Während Erstere, genau wie a-priori-Poweranalysen, die Angabe von Populationsparametern verlangen, werden bei Letzteren die Effektgrößen wie oben beschrieben aus Stichprobendaten geschätzt. So handelt es sich beispielsweise bei der in SPSS berichteten „observed power“ streng genommen um eine retrospektive (und keine post-hoc) Poweranalyse.
19 Varianz- und Kovarianzanalyse
475
2 Mathematisch-statistische Grundlagen Die mathematisch-statistischen Grundlagen von Varianz- und Kovarianzanalysen kann man am besten verstehen, wenn man sich klar macht, dass alle in diesem Kapitel behandelten Modelle Spezialfälle des sogenannten Allgemeinen Linearen Modells (ALM) mit fixierten Effekten sind: yi = β0 + β1 xi,1 + β2 xi,2 + · · · + βm xi,m + εi .
(22)
In der ALM-Modellgleichung (22) bezeichnet yi den Wert einer kontinuierlichen abhängigen Variablen (AV) für die i-te Beobachtungseinheit, z. B. für das i-te von insgesamt N beobachteten Individuen, i = 1, . . . , N . Analog bezeichnen xi,1 bis xi,m die Werte der i-ten Beobachtungseinheit auf m verschiedenen unabhängigen Variablen (UVn). Zusammen mit den Parametern β0 , β1 , . . . , βm , welche (unbekannte) reellwertige Konstanten repräsentieren, bilden die m UVn eine sogenannte Linearkombination, d. h. eine gewichtete Summe von Variablenwerten. Das letzte noch fehlende Glied auf der rechten Seite von Gleichung (22) ist die Fehlervariable εi , eine Zufallsvariable, von der angenommen wird, dass sie für jede Beobachtungseinheit i einer unabhängigen Normalverteilung jeweils mit Erwartungswert E(εi ) = 0 und homogener Streuung σ folgt. Wie oben schon erläutert, symbolisiert man diese Annahme unabhängig und identisch normalverteilter Fehler gewöhnlich durch εi ∼ N (0, σε2 ). In Worten ausgedrückt besagt das ALM somit, dass man – vom Fehlerterm εi abgesehen – die AV durch eine Linearkombination von m verschiedenen UVn erklären bzw. vorhersagen kann. Dies entspricht dem Grundgedanken der multiplen Regressionsanalyse, weshalb man Gleichung (22) durchaus auch als „multiple Regressionsgleichung“ bezeichnen kann, die AV entsprechend als „Kriterium“, die UVn als „Prädiktoren“ und die Parameter β0 , β1 , . . . , βm als „Regressionskonstanten“ bzw. „Regressionsgewichte“ (vgl. Kapitel 24 in diesem Handbuch). Allerdings muss man hierbei beachten, dass in Modellgleichung (22) nur εi und yi Zufallsvariablen sind und somit eine Verteilung mit entsprechenden Verteilungsparametern (wie Erwartungswert und Varianz) besitzen. Die UVn bzw. Prädiktoren sind in diesem Modell keine Zufallsvariablen, sondern Variablen mit festen, bekannten Ausprägungen für alle N Beobachtungseinheiten. Somit ist das ALM gemäß Gleichung (22) vom multiplen Regressionsmodell mit stochastischen Prädiktoren zu unterscheiden, bei dem sowohl das Kriterium als auch die m Prädiktoren Zufallsvariablen mit einer gemeinsamen multivariaten Verteilung sind. Die Wahl zwischen dem Modell mit stochastischen Prädiktoren und dem Modell mit festen Prädiktoren gemäß Gleichung (22) ist einerseits inferenzstatistisch relevant (z. B. ist die Power statistischer Tests im Modell mit festen Prädiktoren erheblich größer; vgl. Faul et al. 2009) und andererseits bedeutsam für die Interpretation der Regressionskonstanten. Die βj quantifizieren in beiden Modellen „Effekte“ der Prädiktoren auf das Kriterium. Im Modell mit stochastischen Prädiktoren beziehen sich diese Effekte jedoch auf die Verteilung aller möglichen Prädiktorenwerte, während sie sich im Modell mit festen, nicht-stochastischen Prädiktoren lediglich auf die konkreten Prädiktorwerte beziehen, die in der Stichprobe beobachtet wurden. Man spricht im letztgenannten Fall deshalb vom ALM mit fixierten (oder festen) Effekten. Prinzipiell
476
Manuel C. Völkle und Edgar Erdfelder
kann dieses Modell sowohl im Rahmen der Regressionsanalyse als auch – wie noch erläutert wird – im Rahmen der ANOVA und ANCOVA Verwendung finden. Die Behandlung von Varianz- und Kovarianzanalysen als Spezialfälle des Allgemeinen Linearen Modells mit fixierten Effekten hat zwei unschätzbare Vorteile. Zum einen ergibt sich für Anwender der entscheidende Vorteil, dass man lediglich ein allgemeines Verfahren der Parameterschätzung und ein allgemeines Verfahren der inferenzstatistischen Hypothesenprüfungen zum ALM lernen und verstehen muss, um alle ALM-Spezialfälle – seien es nun ANOVAs, ANCOVAs oder multiple Regressionsund Korrelationsanalysen – daraus abzuleiten. Zum zweiten ergeben sich im Rahmen des ALM in einfacher und naheliegender Weise viele zusätzliche statistische Analyseverfahren, welche die Möglichkeiten traditioneller ANOVAs, ANCOVAs sowie multipler Regressions- und Korrelationsanalysen erheblich erweitern und oftmals auf sozialwissenschaftliche Fragestellungen, die empirischen Datenerhebungen zugrunde liegen, wesentlich besser abgestimmt sind. Die Beschränkung auf traditionelle ANOVAs und ANCOVAs – wie in den vorstehenden Abschnitten behandelt – bedeutet folglich oftmals eine unnötige Einschränkung des vollen Leistungsspektrums des ALM. Mit den folgenden beiden Abschnitten möchten wir Anwender nachdrücklich motivieren, das volle Leistungsspektrum des ALM zu nutzen. Wir beginnen mit einer Darstellung von ANOVA und ANCOVA als Spezialfälle des ALM, bevor wir ANOVAund ANCOVA-Erweiterungen im Rahmen des ALM kurz skizzieren. 2.1 ANOVA und ANCOVA als Spezialfälle des ALM Datenanalysen im Rahmen des ALM erfordern im Wesentlichen zwei Dinge: Erstens ein Verfahren zur Schätzung der Regressionskoeffizienten aus Stichprobendaten und zweitens ein Verfahren zur Prüfung von statistischen Hypothesen über die Regressionskoeffizienten βj in der zugrunde liegenden Population. Für beide Probleme existieren seit langem leicht verfügbare und einfach anwendbare Lösungen mit vielen günstigen Eigenschaften. Sind die Verteilungsannahmen des ALM erfüllt, so liefern KleinstQuadrat-Schätzer (ordinary least squares bzw. OLS-Schätzer) sogenannte Best Linear Unbiased Estimators (BLUE) mit bekannten Optimalitätseigenschaften (Konsistenz, Effizienz, Erwartungstreue)14 . Bei OLS-Schätzung werden die Schätzwerte der Regressionskoeffizienten für eine bestimmte Stichprobe von N Beobachtungseinheiten so gewählt, dass die Summe der quadrierten Residuen N i=1
(εi )2 =
N
m
i=1
j=0
yi −
2 βj xi,j
→ min!
(23)
ein Minimum annimmt. Eine eindeutige Lösung für dieses Minimierungsproblem existiert dann und nur dann, wenn die m Prädiktorvariablen nicht perfekt linear 14
Genau genommen ist die Gültigkeit aller Verteilungsvoraussetzungen eine hinreichende, nicht aber zwingend notwendige Voraussetzung dafür, dass OLS-Schätzer BLUE sind. Nach dem Gauß-Markoff-Theorem reicht es aus, dass die Fehler unkorreliert sind sowie den Erwartungswert Null und homogene Varianzen aufweisen. Insbesondere ist also eine Normalverteilung der Fehler nicht zwingend erforderlich.
19 Varianz- und Kovarianzanalyse
477
abhängig sind, d. h. keiner der Prädiktoren als Linearkombination der anderen m − 1 Prädiktoren darstellbar ist. Die βj -Schätzwerte, welche Gleichung (23) minimieren, werden mit βˆj , j = 0, . . . , m, symbolisiert und als Kleinst-Quadrat-Schätzer bezeichnet. Als Maß für die praktische Bedeutsamkeit der Vorhersage der Kriteriumsvariablen Y aus den m Prädiktorvariablen X1 bis Xm verwendet man am besten die ProduktMoment-Korrelation zwischen Y and der Vorhersage Yˆ aufgrund der Kleinst-QuadratSchätzer: Yˆ = βˆ0 + βˆ1 X1 + · · · + βˆm Xm . (24) Diese Korrelation RY ·X1 ,..., Xm := r(Y, Yˆ ) bezeichnet man als „multiple Korrelation“. Das multiple Korrelationsquadrat, RY2 ·X1 ,..., Xm , schätzt den erklärten Varianzanteil des Kriteriums Y durch die lineare Vorhersagegleichung (24) und ist – wie noch zu zeigen sein wird – bei geeigneter Wahl der Prädiktorvariablen mit dem in Abschnitt 1.5 eingeführten Effektstärkemaß ηˆ2 identisch. Zur Prüfung von statistischen Hypothesen über die Regressionskoeffizienten βj verwendet man die allgemeine F -Statistik SSE (Null) − SSE (Alt) RY2 ·X1 ,..., Xm − RY2 ·X1 ,..., Xk df (Null) − df (Alt) m−k , = F = SSE (Alt) 1 − RY2 ·X1 ,..., Xm df (Alt) N −m−1
(25)
welche das unrestringierte lineare Modell gemäß Gleichung (22) mit einem restringierten Modell vergleicht, in dem eine Teilmenge von (m − k) Prädiktorvariablen das Regressionsgewicht βj = 0 zugewiesen bekommt. Die Nullhypothese (H0 ), dass das restringierte Modell gilt, kann mit dieser allgemeinen F -Statistik überprüft werden. Bei Gültigkeit von H0 und der sonstigen Verteilungsannahmen des ALM folgt diese F -Statistik nämlich einer F ((m − k),(N − m − 1))-Verteilung, so dass ein kritischer Wert der Teststatistik definiert werden kann, mit dem die α-Fehlerwahrscheinlichkeit (und damit das Signifikanzniveau) kontrollierbar wird. Ebenso wie sich das in Abschnitt 1.5 eingeführte Effektstärkemaß ηˆ2 als Spezialfall des (partiellen) multiplen Korrelationsquadrats erweist, so erweist sich auch der in Abschnitt 1.1 eingeführte allgemeine AN(C)OVA F -Test gemäß Gleichung (6) als Spezialfall des allgemeinen ALM-F -Tests (25), wenn man nur die Prädiktorvariablenwerte xi,1 , . . . , xi,m in der ALM-Modellgleichung geeignet wählt. Offen blieb bislang allerdings, was unter „geeigneter Wahl der Prädiktorvariablenwerte“ genau zu verstehen ist. Erst wenn dieses Problem gelöst ist, ist die Integration von ANOVAs und ANCOVAs in das ALM abgeschlossen. Betrachten wir den einfachsten ANOVA-Spezialfall – den Vergleich zweier Gruppenmittelwerte (vgl. Abschnitt 1.1) – als Beispiel. Eine naheliegende Idee besteht darin, hierfür eine einzige Prädiktorvariable xi,1 zu wählen, deren Werte einfach den Gruppennummern der Beobachtungseinheiten entsprechen. Geht es also – wie in Abschnitt 1.1 – um Einkommensunterschiede zwischen Frauen (Gruppe j = 0) und Männern (Gruppe j = 1), so würde man den Prädiktorwert auf xi,1 = 0 setzen, falls i eine Frau ist und xi,1 = 1, falls i ein Mann ist. Dies bezeichnet man auch als Dummy-Kodierung der Gruppenzugehörigkeit (Cohen et al. 2003).
Manuel C. Völkle und Edgar Erdfelder
Einkommen
478
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
Prädiktor
Abb. 1: Beispiel für eine dummykodierte unabhängige Variable: Einkommensunterschiede zwischen Männern (j = 1) und Frauen (j = 0) Abbildung 1 illustriert, was passiert, wenn wir unter Ignorierung der Tatsache, dass der Prädiktor X1 keine kontinuierliche Variable ist, gemäß ALM eine einfache lineare Regression des Einkommens Y auf die Dummyvariable X1 rechnen. Die Stichprobendaten stellen sich hier als zwei „Perlenketten“ an den Stellen X1 = 0 (Einkommen der Frauen) und X1 = 1 (Einkommen der Männer) dar. Nach dem Kleinst-Quadrat-Schätzprinzip wird eine Regressionsgerade durch genau die Punkte der beiden „Perlenketten“ gelegt, um welche die Summe der quadrierten Residuen jeweils ein Minimum annimmt. Per definitionem sind dies die Mittelwerte der beiden Gruppen. Man erkennt sofort, dass die Regressionsgerade dann und nur dann eine Steigung von 0 hat, wenn die beiden Gruppenmittelwerte exakt gleich sind. Sind die beiden Mittelwerte (wie in Abbildung 1) ungleich, muss die Regressionsgerade zwangsläufig eine Steigung ungleich null haben. Dies gilt für die Stichprobe wie für die zugrunde liegende Population gleichermaßen. Folglich übersetzt sich die Nullhypothese der Zwei-Gruppen-ANOVA (H0 : μ1 = μ2 bzw. H0 : αj = 0) in die Nullhypothese einer einfachen Regressionsanalyse (H0 : β1 = 0). Beide Hypothesen sind mathematisch äquivalent. Man beachte auch, dass die Verteilungsannahmen von ANOVA und Regressionsanalyse im ALM mit fixierten Effekten absolut identisch sind. Deshalb sollte es nun nicht mehr überraschen, dass varianzanalytische und regressionsanalytische F -Tests (in diesem Fall auch t-Tests) zu numerisch exakt identischen Ergebnissen führen. Leser, die in diesem Abschnitt erstmals mit der regressionsanalytischen Behandlung varianzanalytischer Hypothesen konfrontiert werden, stellen sich möglicherweise die Frage, ob wir mit der Wahl der Prädiktorwerte 0 und 1 vielleicht einfach nur Glück gehabt haben. Tatsächlich ist diese Wahl ja nicht zwingend. Man könnte ebenso gut andere Gruppenkodierungen wählen, beispielsweise 1 und 2 (oder auch 22,2 und −10124,3) für Frauen und Männer. Ein wenig Nachdenken zeigt schnell, dass die Veränderung der Kodiervariablenwerte zwar die Regressionskoeffizienten beeinflusst
19 Varianz- und Kovarianzanalyse
479
● ● ● ● ● ● ● ● ● ● ●
Y
● ● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ●
Prädiktor
Abb. 2: Beispiel für eine unabhängige Variable mit drei Stufen und möglicherweise sogar das Vorzeichen des Steigungskoeffizienten, nicht aber die Tatsache, ob der Steigungskoeffizient der Regressionsgeraden durch die beiden Gruppenmittelwerte 0 oder nicht 0 ist. Sind die beiden Mittelwerte gleich, so muss der Steigungskoeffizient für jede mögliche Kodierung 0 sein, sind sie ungleich, so muss der Steigungskoeffizient für jede denkbare Kodierung ungleich 0 sein. Es ist also tatsächlich völlig egal, welche Gruppenkodierungen man wählt, solange man nur sicherstellt, dass alle Männern den gleichen Wert c1 und alle Frauen den gleichen Wert c2 auf dem Prädiktor zugewiesen bekommen, wobei natürlich c1 = c2 zu beachten ist. Ermutigt durch die reibungslose „Abwicklung“ der Zwei-Gruppen-ANOVA als Spezialfall der bivariaten Regression könnten Leser nun einem Fehlschluss unterliegen, nämlich dass sich ANOVAs mit beliebig vielen Gruppen ebenfalls problemlos als Spezialfälle der einfachen Regression darstellen lassen, indem man die bivariate Regression der AV auf die Gruppennummern als Prädiktor berechnet. Abbildung 2 zeigt, warum dieser Gedanke in die Irre führen muss: Offensichtlich unterscheiden sich hier die Gruppenmittelwerte, obwohl die Kleinst-Quadrat-Regressionsgerade auf die Gruppennummern eine Steigung von 0 hat. Die einfache Regressionsanalyse auf die Gruppennummern entdeckt die Mittelwertunterschiede nicht, weil der Mittelwertstrend über die Gruppen hinweg hier nichtlinearer Natur ist. Im Allgemeinen wird man also bei drei oder mehr Gruppen mit einer Kodiervariablen für die Gruppenmitgliedschaft nicht auskommen. Die Lösung besteht darin, für G ≥ 2 Gruppen, zwischen denen Mittelwertunterschiede interessieren, grundsätzlich G − 1 Kodiervariablen im ALM-Regressionsmodell zu wählen. Die N × (G − 1)-Matrix der Kodiervariablenwerte für die N Beobachtungseinheiten bezeichnet man auch als „Designmatrix“ des Modells. Soll lediglich die ANOVA-Nullhypothese gleicher Populationsmittelwerte getestet werden, ist die Wahl der Designmatrix letztlich völlig beliebig. Wie im Zwei-Gruppen-Fall ist lediglich sicherzustellen, dass die Kodiervariablenwerte die Gruppenmitgliedschaft eineindeutig abbilden. Bei G ≥ 3 ist zusätzlich zu fordern, dass die per Gruppenkodierung gebildeten Prädiktoren nicht perfekt linear abhängig
480
Manuel C. Völkle und Edgar Erdfelder
sind. Alle unter Einhaltung dieser Bedingungen berechneten regressionsanalytischen F -Tests der H0 : β1 = · · · = βm = 0 führen zum selben Ergebnis, das zudem dem Ergebnis des varianzanalytischen F-Tests gleichen wird. Die Wahl der Kodiervariablenwerte beeinflusst allein die Interpretation der Regressionskoeffizienten β1 bis βm . Ist man z. B. an einer Kleinst-Quadrat-Schätzung der Effektparameter αj in der ANOVA Modellgleichung (3) interessiert, so empfiehlt sich die sog. Effektkodierung der Gruppenmitgliedschaft (Cohen et al. 2003). Regressionskoeffizienten von Prädiktoren, die Effektkodierungen darstellen, entsprechen exakt den Effektparametern αj . Die Verallgemeinerung auf mehrfaktorielle ANOVA-Designs ist unproblematisch. Hat man z. B. ein zweifaktorielles Design mit A Stufen des einen und B Stufen des anderen Faktors, so bildet man A−1 nicht linear abhängige Kodiervariablen zur Repräsentation des Haupteffekts des einen Faktors, B − 1 nicht linear abhängige Kodiervariablen zur Repräsentation des Haupteffekts des anderen Faktors und (A − 1) · (B − 1) Kodiervariablen zur Repräsentation der Interaktion beider Faktoren durch Berechnung aller möglichen paarweisen Produktvariablen der Haupteffektkodiervariablen. Bei höherfaktoriellen Designs wird entsprechend verfahren, wobei Tripelinteraktionen durch Dreifachprodukte von Haupteffektkodiervariablen, Vierfachinteraktionen durch Vierfachprodukte etc. repräsentiert werden. Die Verallgemeinerung auf ANCOVAs ergibt sich für alle geschilderten Designs durch Ergänzung der entsprechenden varianzanalytischen Kodiervariablen um eine oder mehrere quantitative Kovariaten im Modell. Die entsprechenden Kovariaten sind einfach als zusätzliche Prädiktoren in die entsprechende ALM-Modellgleichung aufzunehmen (vgl. Cohen et al. 2003). Man sieht, dass der Unterschied zwischen quantitativen und kategorialen UVn im ALM bedeutungslos wird. Man kann beide UV-Klassen völlig problemlos im gleichen Regressionsmodell miteinander kombinieren, solange nur beachtet wird, dass kategoriale UVn mit G Stufen jeweils durch G − 1 nicht linear abhängige Kodiervariablen zu repräsentieren sind. 2.2 Jenseits von ANOVA und ANCOVA: Kreative Modellierung im Rahmen des ALM Der vorherige Abschnitt hat zu zeigen versucht, dass ein tiefes Verständnis des ALM ausreicht, um alle ANOVA- und ANCOVA-Verfahren als Spezialfälle von ALM-Analysen herzuleiten. Er hat dadurch hoffentlich auch deutlich gemacht, dass ANOVA- und ANCOVA-Prozeduren in Statistik-Programmpaketen wie STATA, Systat oder SPSS im Prinzip überflüssig sind. Ein einziges leistungsfähiges lineares Regressionsprogramm, das flexible Implementationen von ALM-Regressionsmodellen und zugehörige Analysen erlaubt, könnte alle Programme zur Analyse von Mittelwertunterschieden schadlos ersetzen. Doch ist mit dieser mathematischen Einsicht auch ein praktischer Gewinn für Anwender verbunden, die statistische Datenanalysen nicht als Selbstzweck betrachten, sondern als Werkzeug zur empirischen Beantwortung substanzwissenschaftlicher Fragen? Ist die Betrachtung der AN(C)OVA als Spezialfall des ALM mehr als nur eine intellektuelle Übung, die vielleicht Methodiker und Statistiker begeistern mag, aber für Praktiker letztlich unwichtig ist oder – schlimmer noch – unnötige Zusatzarbeit
19 Varianz- und Kovarianzanalyse
481
verursacht? Spätestens bei der Bildung einer geeigneten Designmatrix für ein dreifaktorielles 5 × 4 × 7 – Design mit insgesamt 139 Kodiervariablen für 140 Gruppen vergeht jedem Anwender bei ALM-Analysen der Spaß. Wir sind der Auffassung, dass die Betrachtung von AN(C)OVA und multipler Regressionsanalyse als Spezialfälle des ALM auch für Anwender mit primär substanzwissenschaftlicher Schwerpunktsetzung von großer Wichtigkeit ist. Dies soll in diesem Abschnitt anhand einiger Beispiele kurz begründet werden. Die traditionelle Statistik unterscheidet strikt zwischen (multiplen) Regressionsanalysen und (Ko-)Varianzanalysen. Erstere untersuchen Effekte kontinuierlicher Prädiktoren, letztere Effekte kategorialer UVn. Nun haben wir gesehen, dass die Unterscheidung von kontinuierlichen und kategorialen UVn im ALM mit fixierten Effekten künstlich ist, so dass die Varianzanalyse mathematisch eigentlich nichts anderes als eine Regressionsanalyse ist. Sofort stellen sich Folgefragen: Warum fragt man in der ANOVA fast nie – wie in Regressionsanalyseanwendungen ansonsten üblich – nach dem Effekt einzelner Prädiktoren, sondern routinemäßig nach dem Effekt von Gruppen von Kodiervariablen, die Haupt- und Wechselwirkungseffekte repräsentieren? Warum fragt man umgekehrt in Regressionsanalysen – anders als in ANOVAs – praktisch nie nach Wechselwirkungseffekten von Prädiktoren? Und schließlich: Warum sind Wechselwirkungen zwischen kategorialen UVn und quantitativen Kovariaten in der ANCOVA „verboten“? Die Antworten auf derartige Fragen generieren neue, potentiell sehr hilfreiche Analyseverfahren für Anwender, welche die traditionelle Lehrbuchstatistik nicht kennt, ungeachtet der Tatsache, dass sie mit linearen Regressionsanalyseprogrammen problemlos umgesetzt werden können. Im Rahmen der ANOVA wird die Prüfung von Hypothesen über einzelne Kodiervariablen als Technik der geplanten Vergleiche bezeichnet. Geplante Vergleiche repräsentieren spezifische Hypothesen über Linearkombinationen von Gruppenmittelwerten. Im Gegensatz zu ANOVAs, die lediglich die Untersuchung der Frage erlauben, ob sich G Gruppenmittelwerte signifikant unterscheiden, erlauben geplante Vergleiche die Beantwortung der weitergehenden Frage, wie sich Gruppenmittelwerte genau unterscheiden. Antworten auf derartige Fragen sind informativer als Standard-ANOVAs, weshalb man geplante Vergleiche immer dann anstelle einer ANOVA durchführen sollte, wenn derartige Vergleiche theoretisch begründbar sind. Umsetzbar sind sie über F -Tests oder t-Tests einzelner Regressionskoeffizienten, die den Effekt hypothesenkonform gewählter Kodiervariablen (z. B. Helmert-Kontraste) repräsentieren (Cohen et al. 2003). Die sogenannte Trendanalyse ist eine spezielle Variante der Technik geplanter Vergleiche. Hierbei wählt man G − 1 Kodiervariablen – so genannte orthogonale Polynome – so, dass sie lineare, quadratische, kubische oder höhere Trendverläufe der G Mittelwerte repräsentieren. Damit wird z. B. entscheidbar, ob der Zusammenhang zwischen einer kategorialen UV – z. B. der Dauer einer Psychotherapie – und einer AV (z. B. Befindlichkeit nach der Therapie) ausschließlich linearer Natur ist oder ob – wie z. B. in Abbildung 2 veranschaulicht – quadratische oder noch komplexere Zusammenhänge zwischen UV and AV bestehen. Eine besonders folgenschwere ANOVA-Konvention ist die routinemäßige Analyse mehrfaktorieller Designs mit mehrfaktoriellen ANOVAs – also die scheinbar obliga-
482
Manuel C. Völkle und Edgar Erdfelder
torische Zerlegung der Gesamtmittelwertvarianz in Haupteffekte und Interaktionen. Wissenschaftliche Fragestellungen lassen sich jedoch nicht immer mit Haupteffekten oder Interaktions(null)hypothesen in Einklang bringen. In diesen Fällen beantworten mehrfaktorielle ANOVAs daher Fragen, die niemand gestellt hat. Es wäre wesentlich sinnvoller, Designmatrizen und zugehörige Kodiervariablen so zu definieren, dass substanzwissenschaftlich aussagekräftige statistische Tests resultieren. Zwei Beispiele mögen dies illustrieren. Werden zwei verschiedene klinische Gruppen (z. B. Depressive und Angstpatienten) mit zwei verschiedenen Therapieformen (z. B. Verhaltenstherapie und Psychoanalyse) behandelt und wird anschließend die Befindlichkeit nach der Therapie in einem zweifaktoriellen 2 × 2 – ANOVA-Design untersucht, so geben Haupteffekte nur Information über durchschnittliche Therapie- bzw. Gruppeneffekte. Der Interaktionstest ermöglicht eine Entscheidung über die Hypothese, ob der Therapiemethodeneffekt in beiden Gruppen gleich ist. Wird dieser Test signifikant, so verrät das dem Anwender kaum etwas. Viel informativer wäre es, die Mittelwertsvarianz in einen Haupteffekt (klinische Gruppe) und zwei einfache Haupteffekte (Effekte der Therapiemethoden getrennt für die beiden klinischen Gruppen) zu zerlegen statt in zwei Haupteffekte und die Interaktion. Tests auf einfache Haupteffekte innerhalb der beiden klinischen Gruppen – über geeignete Kodiervariablen im ALM-Ansatz problemlos realisierbar – erlauben die Beantwortung der viel interessanteren Frage, welche Therapiemethode für welche der beiden Gruppen die bessere ist. Zweifaktorielle Versuchspläne werden in den Sozialwissenschaften häufig über sogenannte Querschnittsequenzen generiert, bei denen bestimmte Altersgruppen (z. B. 20-, 40-, 60-, 80-Jährige) zu verschiedenen Testzeitpunkten (z. B. Jahre 2000, 2010, 2020) bzgl. einer AV untersucht werden. Zugrunde liegt gewöhnlich die Idee, dass die AV-Gruppenmittelwerte durch einen entwicklungsbedingten Alterseffekt der Individuen beeinflusst werden, der wahrscheinlich durch sozioökonomisch und soziokulturell bedingte Kohorteneffekte und zusätzlich durch Testzeitpunkteffekte überlagert wird. Eine zweifaktorielle ANOVA mit den Haupteffekten „Alter“ und „Testzeitpunkt“ sowie deren Interaktion verrät uns jedoch über die Größe der Effekte im additiven Modell von „Alter“, „Testpunkt“ und „Kohorte“ nichts. Will man diese Effekte schätzen, muss man das Modell einer zweifaktoriellen ANOVA durch ein statistisch identifizierbares Alter-Testzeitpunkt-Kohorten-Modell ersetzen, für dessen Designmatrix in der Literatur unterschiedliche Vorschläge vorliegen (Erdfelder et al. 1996; Mason et al. 1973). In Regressionsanalysen wie auch in Kovarianzanalysen kann es fragestellungsabhängig sinnvoll sein, Interaktionen zwischen kontinuierlichen Prädiktoren – wie auch zwischen Kodiervariablen und kontinuierlichen Prädiktoren – durch entsprechende Produktvariablen zusätzlich im Modell zu repräsentieren. Damit wird insbesondere das „Verbot“ von Interaktionen zwischen Kovariaten und Faktoren obsolet, das bei klassischen Kovarianzanalysen oft Probleme verursacht (vgl. Abschnitt 1.4). Derartige Interaktionen können im ALM problemlos Berücksichtigung finden. Nicht zuletzt bleibt darauf hinzuweisen, dass Kovariaten in ANCOVA-Modellen nicht zwangsläufig kontinuierliche Prädiktoren sein müssen. Kategoriale Variablen (bzw. die zugehörigen Kodiervariablen) können ebenso als Kovariaten fungieren und helfen, Probleme zu lösen. Ein Beispiel hierfür sind Messwiederholungsdesigns, bei
19 Varianz- und Kovarianzanalyse
483
denen dieselben N Individuen unter verschiedenen Kontext- bzw. Randbedingungen mehrfach (r-fach) beobachtet werden. Würde man den Messwiederholungscharakter der Daten bei der Datenanalyse einfach ignorieren, wären die Verteilungsannahmen im ANOVA-Modell (wie natürlich auch im ALM) verletzt, weil die Fehlerterme über Individuen hinweg korreliert wären. Eine Lösung des Problems besteht darin, zwar jede Individuum-Messwiederholungs-Kombination als separate Beobachtungseinheit aufzufassen (und somit die Messwiederholungsnatur der Daten zunächst einmal zu ignorieren), zusätzlich aber N − 1 Dummyvariablen zur Kodierung der N Individuen, die jeweils r Messwiederholungen generieren, als Kovariaten in das Modell mit aufzunehmen. Dieses ANCOVA-Modell ist – wie sich zeigen lässt – mit dem Modell der univariaten Messwiederholungs-ANOVA mathematisch identisch, obwohl Letzteres in Statistikprogrammpaketen gewöhnlich als separate Prozedur angeboten wird.
3 Ein Beispiel Zur Illustration der bisher vorgestellten Analyseansätze wollen wir in diesem Abschnitt auf den ALLBUS-Datensatz zurückgreifen. Die Allgemeine Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) ist im Rahmen der Gesellschaft Sozialwissenschaftlicher Infrastruktureinrichtungen (GESIS) institutionalisiert. Daten und Hintergrundinformationen zur Umfrage, stehen jedem interessierten Nutzer unter http://www.gesis.org/allbus zum Download zur Verfügung. Die zugehörige SPSSSyntax, anhand derer die Datenaufbereitung sowie alle folgenden Analysen Schritt für Schritt nachvollzogen werden können finden Sie auf der Webseite des Handbuchs. Alle Auswertungen dienen jedoch primär dem Zweck, die Varianz- und Kovarianzanalyse zu illustrieren und Möglichkeiten zur Überprüfung der zugrundeliegenden Annahmen vorzustellen. Über die Illustration hinaus sollten keine weitergehenden inhaltlichen Schlussfolgerungen abgeleitet werden. Wir beschränken uns auf die Umfrage aus dem Jahr 1994 (Westdeutschland), bei der neben den üblichen demographischen Fragen zu Alter, Geschlecht und Nettoeinkommen auch Fragen zur Religionszugehörigkeit und zur Häufigkeit des Betens gestellt wurden. Nach Einlesen des kumulierten Gesamtdatensatzes 2006 bereitet der erste Teil der Syntax in die Daten auf. Es wird eine Zufallsstichprobe von 150 Befragten gezogen, welche als Ausgangsdatensatz für alle folgenden Analysen dient. Der SPSS-Datensatz „final.sav“ enthält neben dem Geschlecht (1 = Männer; 2 = Frauen) das Alter in Jahren, das Monats-Nettoeinkommen, die Religionszugehörigkeit (1 = protestantisch; 3 = römisch-katholisch; 6 = keine Religionszugehörigkeit) sowie die Häufigkeit, mit der die Befragten angeben zu beten. Bei der Analyse halten wir uns an die Reihenfolge in der die Varianz- und Kovarianzanalyse im ersten Teil vorgestellt wurde. Die Annahmen werden zusammenfassend in Abschnitt 3.5 besprochen. 3.1 Vergleich von zwei Gruppen In einem ersten Schritt könnten wir uns – wie in Abschnitt 1.1 – fragen, ob sich das durchschnittliche Monatseinkommen von Männern und Frauen in der Population
484
Manuel C. Völkle und Edgar Erdfelder
unterscheidet. Wir berechnen dazu das Stichprobeneinkommen der Frauen y¯0 = 823 € und das Stichprobeneinkommen der Männer y¯1 = 1664 €. Rein deskriptiv verdienen Frauen also weniger als Männer. Um zu überprüfen, ob man aus diesem Befund auch auf Unterschiede in der Population schließen darf, gilt es, die Nullhypothese H0 : μ0 = μ1 (bzw. αj = 0) gegen die entsprechende Alternativhypothese H1 : μ0 = μ1 (bzw. αj = 0) zu testen. Part 1 der SPSS-Syntax führt die entsprechende Analyse durch, wobei sich gemäß Gleichung (7) ein F -Wert von F (1,148) = 51,35 ergibt. Konventionsgemäß bezeichnet die erste Zahl in der Klammer nach dem F -Wert die Anzahl der Freiheitsgrade im Zähler, die zweite Zahl die Anzahl der Freiheitsgrade im Nenner. Der so berechnete F -Wert kann nun mit dem kritischen F -Wert verglichen werden. Für den Fall von nur einem einzigen Freiheitsgrad im Zähler entspricht die Wurzel aus F einem t-Wert. Die beiden Tests (und damit auch die ANOVA und der t-Test für zwei unabhängige Gruppen) sind folglich identisch. Bei einem üblichen AlphaNiveau von α = 0,05 wäre der kritische F -Wert circa 3,9, womit die Nullhypothese, dass sich Männer und Frauen in ihrem Einkommen nicht unterscheiden, klar abgelehnt 3 werden kann. Bei einer gemittelten Streuung SDpooled von 881,222 + 530,752 = 727,408 entspricht dies einer Effektstärke dˆ = (1664−813)/727,408 = 1,17 und damit einem recht beachtlichen Effekt gemäß der weiter oben vorgestellten Konventionen. 3.2 Vergleich von mehr als zwei Gruppen Die Wahl der abhängigen Variablen ist natürlich einzig von der inhaltlichen Fragestellung abhängig. Anstelle des so häufig bemühten Beispiels von Gruppenunterschieden im Einkommen könnten wir uns alternativ auch für die Häufigkeit interessieren, mit der die ALLBUS-Befragten angeben, zu Gott zu beten (11er Skala). Wir könnten dabei vermuten, dass es Populationsunterschiede in Abhängigkeit von der Religionszugehörigkeit gibt. Während es sich beim Einkommen jedoch offenkundig um eine kontinuierliche AV handelt, ist diese Voraussetzung bei Ratingskalen streng genommen nicht mehr erfüllt. Dies kann zu Problemen bei AN(C)OVA-Anwendungen führen, wie wir später sehen werden. Unsere Nullhypothese besagt, dass Katholiken, Protestanten und Menschen ohne Religionszugehörigkeit sich in ihrer Bethäufigkeit nicht unterscheiden. Es handelt sich also um eine einfaktorielle Varianzanalyse mit J = 3 Gruppen. Part 2 der SPSS-Syntax führt die entsprechenden Berechnungen wie in Abschnitt 1.2 geschildert durch. Tabelle 1 zeigt die Hauptergebnisse der Analyse. Mit einem F -Wert von F (2,147) = 5,49 unterscheiden sich die drei Gruppen signifikant voneinander. Die erste Zeile in Tabelle 1 („Corrected Model“) entspricht der Quadratsumme zu Lasten der unabhängigen Variablen und ist damit identisch mit SSReligion in der dritten Zeile, wohingegen die letzte Zeile („Corrected Total“) der Gesamtquadratsumme (SSReligion + SSFehler = 98,76 + 1321,80 = 1420,56) entspricht. Lediglich der Vollständigkeit halber sei erwähnt, dass SPSS zusätzlich unter dem Begriff „Total“ die Quadratsumme zu Lasten der Konstanten und der eigentlichen Gesamtquadratsumme ausgibt. Diese ist jedoch nur selten von Interesse und kann in aller Regel getrost ignoriert werden. Der aufgeklärte Varianzanteil ηˆ2 ergibt sich durch Division von SSReligion durch die Gesamtquadratsumme. Mit einem Wert von ηˆ2 = 98,760/1420,56 = 0,07 indiziert der
19 Varianz- und Kovarianzanalyse
485
Tab. 1: Ergebnisse der einfaktoriellen Varianzanalyse mit drei Gruppen
Corrected Model Konstante Religion Fehler Total Corrected Total
Quadratsumme
df
Mittlere Quadratsumme
98,760 6067,440 98,760 1321,800 7488,000 1420,560
2 1 2 147 150 149
49,380 6067,440 49,380 8,992
F
partielles η 2
Sig.
5,492 0,005 674,772 0,000 5,492 0,005
0,070 0,821 0,070
AV = Häufigkeit des Betens; UV = Religionszugehörigkeit (protestantisch; römischkatholisch; keine Religionszugehörigkeit)
Tab. 2: Ergebnisse der 2×3-faktoriellen Varianzanalyse
Corrected Model Konstante Religion Geschlecht Religion × Geschlecht Fehler Total Corrected Total
Quadratsumme
df
Mittlere Quadratsumme
F
Sig.
partielles η 2
135,840 6067,440 98,760 24,000 13,080 1284,720 7488,000 1420,560
5 1 2 1 2 144 150 149
27,168 6067,440 49,380 24,000 6,540 8,922
3,045 680,079 5,535 2,690 0,733
0,012 0,000 0,005 0,103 0,482
0,096 0,825 0,071 0,018 0,010
AV = Häufigkeit des Betens; UV1 = Religionszugehörigkeit (protestantisch; römischkatholisch; keine Religionszugehörigkeit); UV2 =Geschlecht
aufgeklärte Varianzanteil – beziehungsweise die daraus resultierende Effektstärke 3 fˆ = 0,07/(1−0,07) = 0,27 – einen mittelgroßen Effekt. 3.3 Mehrfaktorielle ANOVA Die mehrfaktorielle Varianzanalyse erlaubt die Aufnahme weiterer UVn. So können wir mit ihrer Hilfe beispielsweise überprüfen, ob die Häufigkeit des Betens in der Population nicht nur von der Religionszugehörigkeit abhängt, sondern ob sich auch Unterschiede zwischen Männern und Frauen zeigen oder eine mögliche Interaktion zwischen den beiden Faktoren vorliegt. Part 3 der SPSS-Syntax führt die entsprechende Zerlegung der Quadratsummen wie in Abschnitt 1.3 besprochen durch und testet diese auf Signifikanz. Tabelle 2 zeigt die Ergebnisse der 2 × 3-faktoriellen Varianzanalyse. Da die Stichprobengröße in allen sechs Zellen gleich ist, sind die beiden Faktoren unabhängig voneinander. Die Quadratsumme zu Lasten der Religionszugehörigkeit ist daher identisch mit der Quadratsumme aus der einfaktoriellen ANOVA (SSReligion = 98,76). Durch Aufnahme einer weiteren UV (Geschlecht) sowie der daraus resultierenden
486
Manuel C. Völkle und Edgar Erdfelder 9
Häufigkeit des Betens
Frauen Männer
8 ●
●
7 ● ●
●
6
5 ●
4 Protestantisch
Römisch−katholisch
Keine Religionszugeh.
Religionszugehörigkeit
Abb. 3: Mittlere Häufigkeit des Betens in Abhängigkeit von Religionszugehörigkeit und Geschlecht (68% Konfidenzintervalle) Interaktion der beiden Faktoren erhöht sich jedoch die insgesamt aufgeklärte Quadratsumme („Corrected Model“ Tabelle 2) um 24,00 (Geschlecht) plus 13,08 (Interaktion) auf 135,84. Im Umkehrschluss reduziert sich die Fehlerquadratsumme von ehemals 1321,8 auf nunmehr SSFehler = 1284,72. Gleiches gilt für die Freiheitsgrade, die sich wie in Abschnitt 1.1 und 1.3 beschrieben berechnen. Ein Blick auf die resultierenden F -Werte zeigt, dass Religionszugehörigkeit nach wie vor einen signifikanten Einfluss auf die Häufigkeit des Betens hat, wohingegen der Unterschied zwischen Männern und Frauen sowie die Interaktion der beiden UVn nicht signifikant sind. Die Effektstärken ändern sich jedoch leicht, da wir nun alle bekannten aber nicht interessierenden Effekte zu Lasten der anderen Faktoren 2 auspartialisieren (siehe Gleichung (21)). Das partielle ηˆReligion berechnet sich folglich als 98,76/(98,76+1284,72) = 0,071, so dass fˆReligion = 0,277, was etwas größer ist als die Effektstärke in der univariaten ANOVA. Die anderen partiellen Effekte berechnen sich auf die gleiche Weise. Der Klassifikation von Cohen folgend ergeben sich mit 3 fˆGeschlecht = 0,018/(1−0,018) = 0,14 bzw. fˆGeschlecht·Religion = 0,10 kleine Effekte für den Haupteffekt des Geschlechts und die Interaktion. Abbildung 3 veranschaulicht die Unterschiede graphisch. Um eine sinnvolle Interpretation zu gewährleisten, sei dem Anwender dringend angeraten, Konfidenzintervalle um die abgetragenen Mittelwerte anzugeben. Durch geschickte Kalibrierung der Ordinate lassen sich bei Ignorierung der Konfidenzintervalle nämlich auch kleinste Effekte graphisch schnell als große Unterschiede darstellen, ein „Kniff“ auf den in Präsentationen und Publikationen leider manchmal zurückgegriffen wird. Konfidenzintervalle relativieren diese Beliebigkeit des dargestellten Ordinatenabschnitts und machen den Unterschied zwischen statistisch aussagekräftigen und weniger aussagekräftigen Mittelwertunterschieden in Graphiken sichtbar.
19 Varianz- und Kovarianzanalyse
487
3.4 Kovarianzanalyse In Bezug auf die zuvor betrachtete AV „Häufigkeit des Betens“ mag die Hypothese plausibel erscheinen, dass mit zunehmendem Lebensalter der Glaube an Bedeutung gewinnt und damit auch die Häufigkeit des Betens zunimmt. Ist dieser Verdacht korrekt, könnte es sich lohnen, den Einfluss des Alters statistisch zu kontrollieren um damit systematische aber ungewollte (Fehler)Varianz zu reduzieren. Teil 4 der SPSS-Syntax führt die entsprechende Kovarianzanalyse mit Alter als Kovariate durch. Tabelle 3 zeigt die Ergebnisse dieser Analyse. Der insgesamt aufgeklärte Varianzanteil erhöht sich durch Aufnahme der Kovariate deutlich. Lag dieser in Tabelle 2 noch bei ηˆ2 = 135,84/1420,56 = 0,096, so beträgt er nun ηˆ2 = 264,998/1420,56 = 0,187. Bei genauerer Betrachtung von Tabelle 3 zeigt sich jedoch, dass im Gegensatz zu allen bisher besprochenen Analysen die insgesamt aufgeklärte Quadratsumme („Corrected Model“) nicht mehr der Summe der einzelnen Quadratsummen entspricht. Dies liegt daran, dass anders als die beiden UVn, die aufgrund der Gleichbesetzung der Zellen zueinander orthogonal sind, die Kovariate mit den Faktoren korreliert. Dies führt dazu, dass die durch Faktoren und Kovariate gemeinsam aufgeklärte Varianz keinem einzelnen Effekt zugeordnet wird, so dass die Summe 129,158 + 62,137 + 15,559 + 27,986 = 234,84 (SSAlter + SSReligion + SSGeschlecht + SSGeschlecht·Religion ) kleiner ausfällt als die insgesamt aufgeklärte Quadratsumme.15 Die „Annahme“ der Unabhängigkeit der Faktoren betrifft also streng genommen nicht nur die Faktoren, sondern involviert auch mögliche Kovariaten. Auch wenn durch die Kovariate insgesamt gesehen deutlich mehr Varianz aufgeklärt werden kann als zuvor, ändert sich an den einzelnen Effekten verhältnismäßig wenig. Verglichen mit der mehrfaktoriellen ANOVA reduzieren sich die Effektstärken (partielles ηˆ2 und entsprechende fˆ Werte) der Haupteffekte nur geringfügig. Ein Blick auf den positiven Regressionskoeffizienten der Kovariate im Allgemeinen Linearen Modell (siehe Abschnitt 2) verrät, dass die Häufigkeit des Betens mit zunehmendem Alter tatsächlich steigt, doch hat dies nahezu keinen Einfluss auf die Effekte zu Lasten der Religionszugehörigkeit, des Geschlechts oder der Interaktion der beiden Faktoren. 3.5 Annahmen der Varianz- und Kovarianzanalyse Verletzungen der soeben diskutierten „Annahme“ der Unabhängigkeit der Faktoren und Kovariaten resultieren jedoch nicht unmittelbar in falschen Statistiken, sondern führen vor allem zu Problemen bei der Interpretation (da sich die Quadratsummen nicht länger aufaddieren). Anders ist dies für alle weiteren Voraussetzungen, die in 15
Würde man in der SPSS-Syntax den Part /METHOD=SSTYPE(3) durch /METHOD=SSTYPE(1) ersetzen, würde die Zerlegung der Quadratsummen nicht simultan, sondern hierarchisch erfolgen (Typ I Quadratsummen anstelle der standardmäßig in SPSS ausgegebenen Typ III Quadratsummen). Da bei der hierarchischen Vorgehensweise immer nur die Inkremente getestet werden, entspräche hier die Summe der einzelnen Quadratsummen wieder dem „Corrected Model“. Auch entsprächen dann die SS der Konstante der SS aus Tabelle 1 und Tabelle 2.
488
Manuel C. Völkle und Edgar Erdfelder
Tab. 3: Ergebnisse der 2 × 3-faktoriellen Kovarianzanalyse mit Alter als Kovariate
Corrected Model Konstante Alter Religion Geschlecht Religion × Geschlecht Error Total Corrected Total
Quadratsumme
df
Mittlere Quadratsumme
264,998 199,083 129,158 62,137 15,559 27,986 1155,562 7488,000 1420,560
6 1 1 2 1 2 143 150 149
44,166 199,083 129,158 31,069 15,559 13,993 8,081
F 5,466 24,636 15,983 3,845 1,925 1,732
Sig.
partielles η 2
0,000 0,000 0,000 0,024 0,167 0,181
0,187 0,147 0,101 0,051 0,013 0,024
AV = Häufigkeit des Betens; UV1 = Religionszugehörigkeit (protestantisch; römischkatholisch; keine Religionszugehörigkeit); UV2 =Geschlecht; Kovariate: Alter
den vorangegangen Abschnitten diskutiert wurden. Diese sollte der Anwender routinemäßig bei jeder Varianz- und Kovarianzanalyse überprüfen. Zu diesem Zwecke steht mittlerweile ein ganzes Arsenal an Methoden und Tests zur Verfügung, von denen im Folgenden ein paar gängige Verfahren anhand der obigen mehrfaktoriellen ANOVA kurz skizziert werden sollen. Da die ANOVA gegenüber moderaten Verletzungen der meisten Annahmen jedoch relativ robust ist (Hays 1994; Bortz 2005), empfehlen sich unserer Meinung nach vor allem graphische Ansätze zur Überprüfung der Verteilungsannahmen (siehe Kapitel 25 in diesem Handbuch). Wie bei jeder statistischen Analyse ist es wichtig, die zugrundeliegenden Variablen gut zu kennen. Welches Skalenniveau haben diese? Welcher Verteilung folgen sie? Gibt es Ausreißer oder fehlende Werte? All dies sind grundlegende Fragen, die im Vorfeld geklärt werden sollten. Für einen schnellen Überblick, wie auch zur Überprüfung der Normalverteilungsannahme, ist es daher ratsam, sich die gruppenspezifischen Verteilungen zuerst einmal graphisch ausgeben zu lassen. Wir generieren dafür mit Hilfe der SPSS-Syntax Histogramme sowie Stem-and-Leaf-Plots für die Häufigkeit des Betens getrennt nach den sechs Zellen. Darüber hinaus berechnen wir deskriptive Informationen zu Mittelwert, Streuung, Schiefe und Kurtosis, die in Tabelle 4 zusammengefasst sind. Auf den ersten Blick scheinen alle diese Werte im Rahmen der Erwartungen zu liegen. Mit Ausnahme einer leichten Rechtsschiefe in der Zelle der Männer ohne Religionszugehörigkeit (fett in Tabelle 4) sind weder Schiefe noch Kurtosis signifikant. Im offensichtlichen Kontrast dazu indizieren die beiden in SPSS implementierten Tests auf Normalverteilung, der Kolmogorov-Smirnov- und Shapiro-Wilk-Test, eine signifikante Abweichung von der Normalverteilung in allen sechs Zellen. Ein Blick auf die ebenfalls erzeugten Histogramme (im Kapitel nicht abgebildet) erklärt diesen vermeintlichen Widerspruch. Die Werte der AV folgen in beinahe jeder Zelle einer eher bimodalen als unimodalen Verteilung. Die meisten Befragten geben entweder an, nur wenige Male im Jahr zu beten, oder sie beten beinahe täglich. Ein monatlicher Rhythmus (mittlere Ausprägung) scheint eher unüblich. Der Grund für die Abweichung
19 Varianz- und Kovarianzanalyse
489
Tab. 4: Mittelwert, Streuung, Schiefe und Kurtosis sowie zwei Tests auf Normalverteilung für die abhängige Variable „Häufigkeit des Betens“ getrennt nach den sechs Zellen der in Abschnitt 3.3 beschriebenen mehrfaktoriellen ANOVA
Mittelwert Streuung Schiefe Standardfehler Schiefe Kurtosis Standardfehler Kurtosis Kolmogorov-Smirnov Kolmogorov-Smirnov Sign. Shapiro-Wilk Shapiro-Wilk Sign.
M/Prot.
M/Kath.
M/K.R.
F/Prot.
F/Kath.
F/K.R.
6,200 3,215 0,115 0,464 −1,525 0,902 0,233 0,001 0,889 0,010
7,040 3,182 −0,267 0,464 −1,613 0,902 0,211 0,005 0,869 0,004
4,640 2,767 1,344 0,464 0,596 0,902 0,311 0,000 0,778 0,000
6,320 3,051 0,368 0,464 −1,594 0,902 0,296 0,000 0,831 0,001
7,760 2,990 −0,571 0,464 −1,198 0,902 0,221 0,003 0,864 0,003
6,200 2,677 0,207 0,464 −1,538 0,902 0,234 0,001 0,878 0,006
M = Mann; F = Frau; Prot. = Protestant; Kath. = Katholik; K.R. = keine Religionszugehörigkeit
von der Normalverteilung kann nun entweder an der Tatsache liegen, dass es sich bei der Häufigkeit des Betens wirklich um eine bimodale Mischverteilung handelt oder dass dies am gewählten Fragenformat bzw. an der nicht wirklich kontinuierlichen Natur der AV liegt. Ohne weitere Informationen (z. B. Vergleich mit offenem Fragenformat) kann diese Frage jedoch nicht abschließend beantwortet werden. Zwar ist die ANOVA gegen Verletzungen der Normalverteilungsannahme gerade bei symmetrischen Verteilungen einigermaßen robust, doch sollte man bei der Interpretation trotzdem Vorsicht walten lassen (siehe z. B. Bortz 2005, S. 286 oder Hays 1994, S. 406). Zu gleichen Ergebnissen kommt man bei Inspektion der ebenfalls ausgegebenen Probability-Plots (QQ- oder PP-Plots). Die Annahme der Varianzhomogenität lässt sich anhand des Levene-Tests überprüfen, der in SPSS zusammen mit der ANOVA ausgegeben wird. Dieser vergleicht die Gruppenvarianzen unter der Nullhypothese miteinander, dass sich diese in der Population nicht unterscheiden. Mit einem F -Wert von F (5, 144) = 1,455 ist der Test mit G − 1 = 5 Zählerfreiheitsgraden und N − G = 144 Nennerfreiheitsgraden nicht signifikant. Die Annahme der Homogenität der Fehlervarianzen ist also nicht verletzt. Dennoch ist es auch hier ratsam, sich die Verteilungen graphisch, zum Beispiel in Form von Boxplots, ausgeben zu lassen. Auch die Tests auf Gültigkeit von Verteilungsvoraussetzungen – beispielsweise der Levene-Test – können unter Problemen geringer statistischer Power leiden, so dass faktisch bestehende Annahmeverletzungen statistisch unentdeckt bleiben (Typ-2 Fehler). Abbildung 4 zeigt solche Boxplots getrennt nach den sechs Zellen. Die Box umfasst die mittleren 50 % aller Fälle (der Interquartilsabstand), der jeweilige untere und obere Part die verbleibenden 50 %. Sowohl die Interquartilsabstände als auch die Gesamtspannen zwischen minimalem und maximalem Wert sind weitgehend identisch
490
Manuel C. Völkle und Edgar Erdfelder
12
Häufigkeit des Betens
●
67
Männer Frauen
6358 ● 54
10
8
6
4
2
Protestantisch
Römisch−katholisch
Keine Religionszugeh.
Religionszugehörigkeit
Abb. 4: Boxplot der Häufigkeit des Betens getrennt nach den sechs Zellen der mehrfaktoriellen ANOVA. für die sechs Zellen und bestätigen damit das Ergebnis des Levene-Tests. Gleichzeitig zeigt sich jedoch eine Ausnahme, nämlich die deutlich eingeschränktere Bandbreite der Häufigkeit des Betens in der Gruppe der Männer ohne Religionszugehörigkeit. Hier sind es nur wenige Ausreißer (definiert über den 1,5-fachen Interquartilsabstand), die für die insgesamt ähnliche Streuungsbreite verantwortlich sind. Würde man diese vier Werte von der Analyse ausschließen, würde der Levene-Test mit einem signifikanten F -Wert von F (5, 140) = 8,861 auch inferenzstatistisch eine Verletzung der Varianzhomogenität indizieren. Die Voraussetzung der Unabhängigkeit der Fehler lässt sich ohne konkreten Verdacht, warum selbige verletzt sein sollte, nur schwer überprüfen, da es theoretisch unendlich viele Möglichkeiten gibt, warum Fehler korreliert sein können. Wie bereits erwähnt, ist dies vor allem dann naheliegend, wenn ein und dieselbe Person wiederholt gemessen wurde (Messwiederholungsdesigns) oder wenn weitere Gruppierungsvariablen vorliegen, die nicht in Form von Faktoren in der ANOVA bereits berücksichtigt wurden (z. B. Ostversus Westdeutschland, Bundesländer, oder die Zugehörigkeit zu unterschiedlichen Klassen oder Schulen). In unserem artifiziellen Beispiel erscheint dies jedoch eher unplausibel. Die letzte Annahme von gleichen Regressionsgewichten in jeder Gruppe betrifft nur die Kovarianzanalyse und ist gleichbedeutend mit keiner Faktor-Kovariate-Interaktion. Wie im Abschnitt 2 kurz skizziert, ist die explizite Aufnahme einer solchen Interaktion im ALM kein Problem, womit auch die Annahme an sich hinfällig würde. Im Zweifelsfall empfiehlt es sich also einfach, die Interaktion im Rahmen des ALM explizit auf ihre Signifikanz hin zu überprüfen. Im Rahmen der klassischen ANCOVA wurden ebenfalls eine Reihe an Tests auf Gleichheit der Regressionsgewichte vorgeschlagen, welche jedoch nicht kritikfrei blieben (siehe z. B. Elashoff 1969). Auf diese soll im Rahmen dieses Kapitels jedoch nicht näher eingegangen werden.
19 Varianz- und Kovarianzanalyse
491
3.6 Teststärke Wie groß ist die Wahrscheinlichkeit einen existierenden Populationseffekt auch tatsächlich zu entdecken? SPSS berichtet uns automatisch die „observed power“ des jeweiligen Tests. Dabei handelt es sich um eine retrospektive Poweranalyse, das heißt die Power wird auf Basis der beobachteten Stichprobenstatistiken nachträglich geschätzt. Hiermit sind mehrere Probleme verbunden (Erdfelder et al. 2010). Besser ist die Berechnung der Power vor der eigentlichen Untersuchung, was allerdings eine konkrete Angabe bezüglich der Höhe des zu erwartenden Populationseffekts erfordert. Dies ist nicht immer leicht, doch bietet die existierende Literatur, Metaanalysen oder Prätests oft hinreichend präzise Informationen über die vernünftigerweise zu erwartende Effektgröße. Alternativ können auch Experten befragt werden oder man orientiert sich an den Cohen’schen Faustregeln bezüglich kleiner, mittlerer und großer Effekte. Hätten wir a priori genau den später in der Stichprobe beobachteten partiellen Effekt der Religionszugehörigkeit auf die Häufigkeit des Betens in der mehrfaktoriellen ANOVA 2 für die Population vermutet (ηReligion = 0,071), so hätten wir beispielsweise mit Hilfe von GPower 3.1 (Faul et al. 2009) berechnen können, dass bereits eine Stichprobengröße von N = 130 Personen ausreichend gewesen wäre, einen solchen Populationseffekt mit einer Wahrscheinlichkeit von 0,80 zu entdecken (α = 0,05). Die Berechnungen der Power für alle anderen Effekte überlassen wir an dieser Stelle als kleine Übungsaufgabe dem Leser.
4 Häufige Fehler – eine Checkliste Eine erschöpfende Behandlung der Varianz- und Kovarianzanalyse in nur einem Kapitel ist leider nicht möglich. Wir haben uns daher auf die gängigsten Formen der AN(C)OVA beschränkt und versucht, den Leser für mögliche Probleme zu sensibilisieren sowie Möglichkeiten aufgezeigt, mit diesen umzugehen. Für ein tiefergehendes Verständnis empfehlen wir die am Ende des Kapitels genannten Arbeiten. Dies betrifft insbesondere Verletzungen der besprochenen Annahmen sowie die nicht behandelten Spezialfälle der ANOVA (z. B. geplant unvollständige Versuchspläne). Die folgende Checkliste soll dabei helfen, sich die wichtigsten Gesichtspunkte bei Planung, Durchführung, Interpretation und Präsentation der AN(C)OVA ins Gedächtnis zu rufen und auf diese Weise häufig gemachte Fehler zu vermeiden. Auch dient sie als Lernkontrolle, denn alle 11 Punkte wurden im Laufe des Kapitels angesprochen und es wurden Wege aufgezeigt – oder zumindest auf weiterführende Literatur verwiesen – wie mit diesen Problemen umgegangen werden kann. 1. Ist das Ziel der Analyse ein Vergleich von Gruppenmittelwerten einer Variablen? D. h. handelt es sich um eine einzige kontinuierliche AV und ggf. multiple kategoriale UVn? 2. Wurden ursprünglich kontinuierliche UVn zum Zwecke der ANOVA in künstliche Kategorien unterteilt (z. B. Mediansplit)? In diesem Fall ist die lineare Regression (Kapitel 24 in diesem Handbuch) oder eine Analyse im Rahmen des ALM (Abschnitt 2) fast immer das bessere Verfahren.
492
Manuel C. Völkle und Edgar Erdfelder
3. Sollen potentielle Störeffekte einer kontinuierlichen Kovariate vor der eigentlichen Varianzanalyse kontrolliert werden? 4. Sind die Fehler in jeder Zelle normalverteilt? 5. Ist die Varianz der Fehler in jeder Zelle gleich? 6. Sind die Fehler statistisch unabhängig? 7. Handelt es sich um eine orthogonale oder nicht-orthogonale ANOVA? 8. Sind im Falle der Kovarianzanalyse die Regressionsgewichte für die Regression der AV auf die Kovariate(n) in jeder Gruppe gleich groß? 9. Wurde eine Teststärkeanalyse durchgeführt? 10. Werden für jeden durchgeführten Test standardisierte Effektstärken berichtet? 11. Werden die Ergebnisse adäquat präsentiert? Sind die Achsenabschnitte bei Graphiken sinnvoll gewählt und werden Standardfehler oder Konfidenzintervalle zur besseren Einschätzung eines Effekts berichtet?
5 Literaturempfehlungen Die AN(C)OVA gehört zu den ältesten aber nach wie vor am häufigsten eingesetzten Methoden in den Sozialwissenschaften. Entsprechend gibt es mittlerweile eine unüberschaubare Vielzahl an Arbeiten zu diesem Thema von teilweise recht unterschiedlicher Qualität. Dem Leser, der die englischsprachige Literatur nicht scheut, möchten wir vor allem das Lehrbuch Statistics von Hays (1994) ans Herz legen, welches die theoretischen Grundlagen der AN(C)OVA ausführlich und verständlich behandelt. Für eine etwas anwendungsorientiertere und thematisch weiter gefasste Einführung in das Allgemeine Lineare Modell empfehlen wir die neueste Auflage von Cohen et al. (2003). Für ausführlichere Informationen zu der im Abschnitt 1.1 eingeführten allgemeinen Teststatistik und der damit einhergehenden Modellvergleichenden Betrachtungsweise empfehlen wir Maxwell & Delaney (2000). Für den deutschen Sprachraum sei abschließend das weitverbreitete und wohlbekannte Lehrbuch Statistik für Human- und Sozialwissenschaftler von Bortz (2005) genannt.
Literaturverzeichnis APA (2009). Publication Manual of the American Psychological Association. Washington: American Psychological Association, 6. Auflage. Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler. Heidelberg: Springer Medizin Verlag, 6. Auflage. Cohen, J. (1983). The Cost of Dichotomiation. Applied Psychological Measurement, 7, 249–253. Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences. Hillsdale: Erlbaum. Cohen, J. (1992). A Power Primer. Psychological Bulletin, 112, 155–159. Cohen, J., Cohen, P., West, S., & Aiken, L. S. (2003). Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences. Mahwah: Lawrence Erlbaum, 3. Auflage.
19 Varianz- und Kovarianzanalyse
493
Elashoff, J. D. (1969). Analysis of Covariance: A Delicate Instrument. American Educational Research Journal, 6, 383–401. Erdfelder, E., Faul, F., Buchner, A., & Cüpper, L. (2010). Effektgröße und Teststärke. In H. Holling & B. Schmitz (Hg.), Handbuch der Psychologischen Methoden und Evaluation. Göttingen: Hogrefe. Erdfelder, E., Rietz, C., & Rudinger, G. (1996). Methoden der Entwicklungspsychologie. In E. Erdfelder, R. Mausfeld, T. Meiser, & G. Rudinger (Hg.), Handbuch Quantitative Methoden (S. 539–550). Weinheim: Psychologie Verlags Union. Faul, F., Erdfelder, E., Buchner, A., & Lang, A. G. (2009). Statistical Power Analyses Using G*Power 3.1: Tests for Correlation and Regression Analyses. Behavior Research Methods, 41, 1149–1160. Hays, W. L. (1994). Statistics. Orlando: Harcourt Brace, 5. Auflage. Mason, K. O., Mason, W. M., Winsborough, H. H., & Poole, W. K. (1973). Some Methodological Issues in Cohort Analysis of Archival Data. American Sociological Review, 38, 242–258. Maxwell, S. E., Camp, C. J., & Avery, R. D. (1981). Measures of Strength of Association: A Comparative Examination. Journal of Applied Psychology, 66, 525–534. Maxwell, S. E. & Delaney, H. D. (2000). Designing Experiments and Analyzing Data: A Model Comparison Perspective. Mahwah: Lawrence Erlbaum Associates. Olejnik, S. & Algina, J. (2003). Generalized Eta and Omega Squared Statistics: Measures of Effect Size for Some Common Research Designs. Psychological Methods, 8, 434–447. Sahai, H. & Ageel, M. I. (2000). The Analysis of Variance, Fixed, Random, and Mixed Models. Boston: Birkhauser. Steiger, J. H. (2004). Beyond the F Test: Effect Size Confidence Intervals and Tests of Close Fit in the Analysis of Variance and Contrast Analysis. Psychological Methods, 9, 164–182. Tabachnick, B. G. & Fidell, L. S. (2001). Using Multivariate Statistics. Needham Heights: Allyn and Bacon, 4. Auflage. Voelkle, M. C., Ackerman, P. L., & Wittmann, W. W. (2007). Effect Sizes and F-Ratios < 1.0: Sense or Nonsense? Methodology, 3, 35–46. Wilkinson, L. & APA (1999). Statistical Methods in Psychology Journals: Guidelines and Explanations. American Psychologist, 54, 594–604.
20 Diskriminanzanalyse Reinhold Decker, Silvia Rašković und Kathrin Brunsiek Universität Bielefeld
Zusammenfassung. Die Beantwortung gesellschaftlicher, politischer, wirtschaftlicher oder psychologischer Fragen erfordert oftmals die gezielte Strukturierung komplexer Zusammenhänge sowie die Identifikation entscheidungs- oder planungsrelevanter Faktoren. Hierbei kann es sich z. B. um Analysen handeln, bei denen der Wert einer nominal skalierten (kategorialen), abhängigen Variable mittels verschiedener metrisch skalierter, unabhängiger Variablen erklärt oder prognostiziert werden soll. Die Bestimmung und Erklärung der Zugehörigkeit eines Untersuchungsobjekts zu einer von zwei oder mehreren Kategorien bzw. Gruppen ist z. B. bei der Entwicklung zielgruppenspezifischer Maßnahmen (etwa im Marketing oder in der Drogenaufklärung) von Bedeutung. Analyseziel ist hier die Identifikation der wesentlichen Unterschiede zwischen den Untersuchungsobjekten, Personen oder Organisationen, anhand geeigneter Merkmalsvariablen. Ein mögliches Instrument zur Bewältigung dieser Aufgabe ist die Diskriminanzanalyse. Ihre methodischen Grundlagen sowie ihr diagnostischer oder prognostischer Einsatz in den Sozialwissenschaften sind Gegenstand des vorliegenden Kapitels. Zunächst erfolgt eine Beschreibung der grundsätzlichen Zielsetzung und Anwendungsmöglichkeiten der Diskriminanzanalyse sowie der damit verbundenen methodischen Voraussetzungen. Des Weiteren wird ein Überblick über verschiedene Arten der Diskriminanzanalyse gegeben. Die sich anschließenden Ausführungen zur Vorgehensweise bei der Durchführung einer solchen Analyse bilden die substanzielle Basis für die mathematisch-statistischen Grundlagen der Diskriminanzanalyse. Hierzu zählen insbesondere die Bestimmung und Beurteilung von Diskriminanzfunktionen sowie der Einsatz alternativer Klassifikationskonzepte. Die praktische Anwendung der Methodik wird anhand eines kleinen Fallbeispiels auf Basis des kumulierten ALLBUS-Datensatzes veranschaulicht. Das Kapitel schließt nach einer kurzen Diskussion von Problemen und Fehlern, die bei der Anwendung und Interpretation einer Diskriminanzanalyse auftreten können, mit einigen Literaturempfehlungen.
1 Einführung in das Verfahren 1.1 Zielsetzung und Anwendungsmöglichkeiten Die Diskriminanzanalyse ist ein multivariates Verfahren, mit dem sich die bekannte Zugehörigkeit von Objekten (z. B. Personen, Organisationen oder Gegenständen) zu Gruppen (z. B. Populationen, Schichten oder Klassen) untersuchen lässt. Die gegebene Gruppenzugehörigkeit der Objekte wird dabei anhand von zwei oder mehreren charakteristischen, metrischen Merkmalsvariablen (z. B. soziodemographische, psychographische oder sonstige spezifische Merkmale) beschrieben. Existieren Objekte, S. 495–523 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_20, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
496
Reinhold Decker, Silvia Rašković und Kathrin Brunsiek
deren Gruppenzugehörigkeit unbekannt ist, so kann eine Prognose der Zugehörigkeit auf Basis der zugehörigen Merkmalsausprägungen vorgenommen werden. Für die betreffende Untersuchung werden die Merkmalsvariablen in einer mathematischen Funktion derart kombiniert, dass der ermittelte Funktionswert eine Aussage über die Gruppenzugehörigkeit der Objekte ermöglicht. In der traditionellen Betrachtung der Diskriminanzanalyse werden zwei Analyseansätze, der diagnostische und der prognostische, unterschieden (siehe Klecka 1980, S. 9). Beiden Ansätzen ist gemein, dass die in der Analyse verwendeten Merkmale eine Bedeutung für die bekannten bzw. zu prognostizierenden Gruppenzugehörigkeiten besitzen. – Diagnostischer Ansatz Der diagnostische Ansatz fokussiert auf die Erklärung des Status Quo bekannter Gruppenzugehörigkeiten. Hierzu werden die betrachteten Gruppen auf Basis der als relevant erachteten Merkmalsvariablen hinsichtlich ihrer signifikanten Unterschiede untersucht, die Bedeutung der einzelnen Charakteristika der Objekte für die Separation ermittelt und die Diskriminanzfunktion bestimmt. – Prognostischer Ansatz Bei dem prognostischen Ansatz hingegen steht die Klassifikation von Objekten mit unbekannter Gruppenzugehörigkeit, d. h. die prädiktive Fähigkeit der Diskriminanzanalyse, im Vordergrund. Die Klassifikation neuer Objekte erfolgt unter Rückgriff auf die individuellen Ausprägungen der Merkmalsvariablen und die zuvor ermittelte Diskriminanzfunktion derart, dass das betrachtete Objekt derjenigen Gruppe zugeordnet wird, bei der die Wahrscheinlichkeit der Gruppenzugehörigkeit am größten ist. Die Diskriminanzanalyse geht im Wesentlichen auf Ronald A. Fisher zurück (siehe Fisher 1936). Dieser verknüpfte bestimmte Merkmalsausprägungen von Iris-Pflanzen in einer linearen Funktion, sodass eine Aussage über die vorliegende Gattung ermöglicht wurde. In den folgenden Jahrzehnten wurden verschiedene, alternative Formen der Diskriminanzanalyse vorgeschlagen, wie etwa die quadratische oder die logistische Diskriminanzanalyse. Bis heute werden immer wieder neue Formen der Diskriminanzanalyse in die Diskussion eingebracht bzw. bestehende Formen weiterentwickelt. Der traditionelle, lineare Ansatz ist allerdings auch heute noch weit verbreitet, was vor allem auf seine gute Performance und sein relativ einfaches mathematisches Gerüst zurückzuführen sein dürfte. In den Sozialwissenschaften kommt die Diskriminanzanalyse in den verschiedensten Bereichen zur Anwendung. So wird sie beispielsweise im Marketing für die Kundensegmentierung eingesetzt, um Käufer alternativer Marken oder Produkte zu unterscheiden. Dabei können Käufermerkmale, wie etwa das Einkommen und das Alter, herangezogen werden, um Unterschiede zwischen den Käufern der betrachteten Marken festzustellen. Anschließend können Personen, die bis jetzt keine der untersuchten Marken gekauft haben, auf Basis ihrer Merkmalsausprägungen als potenzielle Käufer einer der Marken klassifiziert werden. Ähnlich kann auch bei einer Prognose des Wahlverhaltens in der Politik vorgegangen werden. Anhand von mehreren Merkmalen der Wähler, wie etwa ihrem sozialen Status oder ihren Einstellungen bezüglich bestimmter politischer Themen, wird dabei versucht, den Ausgang einer Wahl vorherzusagen. Aber auch in
20 Diskriminanzanalyse
497
der Kriminalistik und der Arbeitsmarktforschung kommt die Diskriminanzanalyse zur Anwendung. Hier werden beispielsweise jene Merkmale von Personen gesucht und ausgewertet, die die größte Bedeutung für die Zugehörigkeit zu einer bestimmten Personengruppe, wie etwa Kreditbetrüger oder Arbeitslose, haben. Unabhängig vom jeweiligen Anwendungsgebiet der Analyse lassen sich die folgenden drei, in der Praxis auch in Kombination auftretenden Zielsetzungen formulieren: 1. Untersuchung gegebener Gruppen auf ihre Verschiedenheit bezüglich objektspezifisch charakteristischer Merkmalsvariablen 2. Klassifikation neuer Objekte in eine der bekannten Gruppen 3. Reduktion der Dimension eines Analyseproblems durch Identifikation derjenigen Merkmale, die die größte Bedeutsamkeit für die Erklärung bzw. Prognose der Gruppenzugehörigkeit besitzen 1.2 Problemstellung und Prämissen Das Kernproblem der traditionellen Diskriminanzanalyse besteht darin, Unterschiede zwischen zwei oder mehreren a priori definierten Ausprägungen (Werten) einer als nominal skaliert angenommenen Gruppierungsvariablen auf eine lineare Kombination von zwei oder mehreren diskriminierenden, metrisch skalierten Merkmalsvariablen zurückzuführen. Dies setzt voraus, dass die zu untersuchende Grundgesamtheit in zwei oder mehr disjunkte Teilmengen bzw. Gruppen zerlegbar ist. Demnach gehört jedes Objekt genau einer dieser Gruppen an. Weiterhin muss für jedes Objekt und jede betrachtete Merkmalsvariable genau eine Ausprägung vorliegen. Die erfolgreiche Durchführung einer Diskriminanzanalyse setzt für jede Gruppe die Existenz einer Stichprobe ausreichenden Umfangs voraus. Die Gruppenstichproben bilden zusammen die der Untersuchung zugrunde liegende Gesamtstichprobe, wobei für jedes Objekt sowohl dessen Gruppenzugehörigkeit als auch die Ausprägungen der einzelnen Merkmalsvariablen bekannt sein müssen. Je nach Anzahl der betrachteten Gruppen handelt es sich bei der abhängigen Variable um eine dichotome (Zwei-Gruppen-Fall) oder eine polytome (Mehr-GruppenFall) Größe. Durch eine geeignete Kategorisierung können auch metrisch skalierte Gruppierungsvariablen für das Verfahren nutzbar gemacht werden. Von der Anzahl der betrachteten Gruppen ist auch die Anzahl der möglichen Diskriminanzfunktionen abhängig. Werden lediglich zwei Gruppen betrachtet, so wird nur eine Diskriminanzfunktion ermittelt. Werden jedoch mehr als zwei Gruppen untersucht, so können auch mehrere Funktionen bestimmt werden. Um das prinzipielle Vorgehen zu verdeutlichen, wird in diesem Kapitel der Zwei-Gruppen-Fall näher betrachtet. An den Stellen, an denen sich für den Mehr-Gruppen-Fall Unterschiede ergeben, wird hierauf eingegangen. Die erwähnte lineare Kombination der Merkmalsvariablen wird als kanonische oder lineare Diskriminanzfunktion bezeichnet. In dieser Funktion werden die Ausprägungen der Merkmalsvariablen pro untersuchtem Objekt in gewichteter Form aufsummiert und ein individueller Funktionswert ermittelt. Die Einflussstärke der einzelnen Merkmalsvariablen kommt dabei durch die Gewichte bzw. Parameter, die sogenannten Diskriminanzkoeffizienten, zum Ausdruck. Diese sind in der Weise zu
498
Reinhold Decker, Silvia Rašković und Kathrin Brunsiek
Merkmal 1 Diskriminanzachse A AA A AAB A A BB B B BBB
Merkmal 2
Abb. 1: Grafische Darstellung der Separation der Gruppen ermitteln, dass mit Hilfe der resultierenden Diskriminanzfunktion eine bestmögliche Trennung der Gruppen erreicht wird. Die Separation der Gruppen erfolgt dabei über die Ähnlichkeit der Funktionswerte, der sogenannten Diskriminanzwerte. Die Diskriminanzwerte der jeweiligen Gruppenmitglieder sollen demzufolge möglichst ähnlich sein und sich von den Werten der anderen Gruppen unterscheiden. An dieser Stelle sei auch auf die unterschiedliche Bedeutung der Begriffe „diskriminierende Variable“ und „Diskriminanzvariable“ hingewiesen. Die betrachteten Merkmalsvariablen werden auch als diskriminierende Variable bezeichnet, während der ermittelte Funktionswert Diskriminanzvariable heißt. Das der Diskriminanzanalyse zugrunde liegende Prinzip lässt sich auch geometrisch veranschaulichen. Dabei kann sich die Betrachtung entweder auf den Merkmalsraum oder den Diskriminanzraum beziehen. Der Merkmalsraum wird durch die betrachteten Merkmalsvariablen aufgespannt. Jede Merkmalsvariable definiert eine Achse des Raumes, in welchem jedes Objekt eine Position einnimmt, die durch die individuellen Merkmalsausprägungen festgelegt ist. Die Diskriminanzfunktion lässt sich im zweidimensionalen Merkmalsraum als Diskriminanzgerade (siehe Abbildung 1) und für höher dimensionierte Räume als Diskriminanzebene wiedergeben (siehe hierzu auch Klecka 1980, S. 16). Die durch die Diskriminanzfunktion erzeugte Gerade wird auch als Diskriminanzachse bezeichnet, deren Steigung durch das Verhältnis der entsprechenden Diskriminanzkoeffizienten definiert ist. Für eine geometrische Separation der Gruppen wird jedes Objekt über seinen Diskriminanzwert auf der Diskriminanzachse abgetragen. Anschließend wird der Mittelwert für jede der Gruppen bestimmt. Die einzelnen Objekte werden dann jener Gruppe zugeordnet, zu deren Mittelwert sie die geringste Distanz aufweisen. Sollen mehr als zwei Gruppen untersucht werden, so kann mehr als eine Diskriminanzfunktion bestimmt werden (für eine ausführliche Darstellung der Vorgehensweise sei auf Unterabschnitt 2.1, S. 507 ff. verwiesen). Dann kann die geometrische Betrachtung der Diskriminanzanalyse auch im sogenannten Diskriminanzraum erfolgen. Dieser wird durch die orthogonal zueinander stehenden Diskriminanzfunktionen erzeugt. Jedes Objekt ist hier als die Kombination seiner jeweiligen Diskriminanzwerte darstellbar. Der Merkmalsraum besitzt somit immer eine höhere Dimensionalität als der Diskriminanzraum. Die Diskriminanzanalyse, deren Durchführung gleichzeitig den
20 Diskriminanzanalyse
499
Diskriminanzraum erzeugt, kann deshalb auch als eine Transformation der Ausgangsdaten in einen niedriger dimensionierten Raum aufgefasst werden (siehe Morrison 1969, S. 156). Die traditionelle oder kanonische Diskriminanzanalyse ist somit durch folgende Basisannahmen gekennzeichnet (siehe Klecka 1980, S. 11): –
– – –
–
Die zu untersuchende Grundgesamtheit ist in mindestens zwei disjunkte Gruppen unterteilbar, die jeweils aus mindestens zwei Objekten bestehen. Für jede dieser Gruppen liegt eine Stichprobe vor. Die diskriminierenden Variablen sind bei gegebener Gruppenzugehörigkeit multivariat normalverteilt. Die Anzahl der diskriminierenden Variablen beträgt mindestens zwei, maximal aber den um zwei reduzierten Gesamtstichprobenumfang. Die diskriminierenden Variablen sind metrisch, da ansonsten die der Analyse zugrunde liegenden mathematischen Operationen unzulässig sind. Weiterhin darf keine von ihnen als lineare Kombination anderer, verwendeter Variablen darstellbar sein (Ausschluss von Multikollinearität). Zur Vereinfachung der Extraktion linearer Diskriminanzfunktionen müssen die Kovarianzmatrizen innerhalb jeder Gruppe approximativ gleich sein (Homogenität der Kovarianzmatrizen).
Darüber hinaus sollte auch darauf geachtet werden, dass die Stichprobe keine Ausreißer enthält und dass in berechtigter Weise eine lineare Wirkungsbeziehung zwischen den diskriminierenden Merkmalsvariablen und der Diskriminanzvariable unterstellt werden kann. 1.3 Arten der Diskriminanzanalyse und ihre Abgrenzung gegenüber anderen multivariaten Verfahren Ausgehend von der Umsetzung der oben genannten Annahmen können sich verschiedene Arten der Diskriminanzanalyse ergeben. Hinsichtlich der Anzahl der zu untersuchenden Gruppen lässt sich die einfache von der multiplen Diskriminanzanalyse unterscheiden. Auch wenn grundsätzlich ein metrisches Skalenniveau der unabhängigen Variablen gefordert ist, so existieren doch auch nicht-metrische Varianten. Neben einer multivariaten Normalverteilung kann auch Verteilungsfreiheit angenommen werden. Eine Unterteilung in parametrische und nicht-parametrische Verfahren ist somit ebenfalls möglich. In Abhängigkeit vom zugrunde liegenden mathematischen Ansatz kann bei den parametrischen Verfahren noch zwischen der linearen und nicht-linearen (z. B. quadratischen oder logistischen) Diskriminanzanalyse unterschieden werden. So unterscheidet sich beispielsweise die quadratische von der linearen Diskriminanzanalyse durch das Fehlen der Forderung nach identischen Kovarianzmatrizen und dem Einsatz quadratischer Diskriminanzfunktionen. Im Vergleich zur linearen Diskriminanzanalyse gilt die quadratische als universeller einsetzbar, allerdings verursacht sie einen annähernd doppelt so großen Rechenaufwand und führt im Falle kleiner Stichprobenumfänge nicht zwangsläufig zu besseren Ergebnissen als die lineare. Neben den hier aufgelisteten Unterscheidungsmerkmalen existieren noch einige weitere, für deren Erläuterung z. B. auf (Fahrmeir et al. 1996, S. 357 ff.) verwiesen werden kann.
500
Reinhold Decker, Silvia Rašković und Kathrin Brunsiek
Ein alternatives Vorgehen zur Durchführung einer Diskriminanzanalyse basiert auf der Minimierung von Fehlklassifikationsraten bzw. -wahrscheinlichkeiten. Dabei werden die (bedingten) Wahrscheinlichkeiten der Gruppenzugehörigkeit der Objekte als Basis für die mathematischen Berechnungen herangezogen. Da dieser Ansatz aus Platzgründen bei den weiteren Ausführungen unberücksichtigt bleibt, wird der interessierte Leser auf Hastie et al. (2009, S. 106 ff.) verwiesen. Eine Reihe von neueren Varianten der Diskriminanzanalyse geht u. a. auf die modernen Anwendungsgebiete der Diskriminanzanalyse, etwa in der Bildanalyse, dem Data Mining oder der medizinischen Forschung, zurück. Diese sind oftmals auf eine spezielle Ausgangssituation, wie etwa den Fall einer den Stichprobenumfang überschreitenden Anzahl an Merkmalsvariablen, ausgelegt und sollen mehr Flexibilität (bezüglich der Basisannahmen der verbreiteten diskrimianzanalytischen Methoden) ermöglichen. Neben den angesprochenen parametrischen Verfahren existieren auch einige leistungsfähige nicht-parametrische Verfahren, wie etwa Kerndichteschätzung, Neuronale Netze, Support Vector Machines und Nearest-Neighbor-Methoden. Auch hier existieren wieder spezifische Untervarianten, die eine Anpassung (oder Relaxierung) der Basisannahmen an die aktuelle Aufgabenstellung vornehmen bzw. Prinzipien der nicht-parametrischen Verfahren in die Methodik der linearen Diskriminanzanalyse mit einbeziehen. An dieser Stelle sei stellvertretend die Kern-Fisher-Diskriminanzanalyse nach Mika et al. (1999) genannt. Genau wie die Varianz- und Regressionsanalyse (siehe hierzu Kapitel 19 und 24 in diesem Handbuch) dient auch die Diskriminanzanalyse der Durchführung von Dependenzanalysen, d. h. es wird eine Unterteilung der verwendeten Variablen in abhängige und unabhängige Größen vorgenommen. Diskriminanz- und Varianzanalyse untersuchen im Grunde genommen aber konträre Fragestellungen. Erstere versteht die nominale Gruppenzugehörigkeit als abhängige Variable, die durch die metrischen, unabhängigen Merkmalsvariablen erklärt wird. Die Varianzanalyse hingegen betrachtet die Gruppenzugehörigkeit als unabhängige Einflussvariable auf die metrisch skalierte abhängige Merkmalsvariable. Deutliche Gemeinsamkeiten mit der Diskriminanzanalyse lassen sich insbesondere bei der (multiplen) Regressionsanalyse feststellen. Anders als die Regressionsanalyse fordert die Diskriminanzanalyse jedoch ein nominales Skalenniveau der abhängigen Variablen und normalverteilte unabhängige Merkmalsvariablen. Noch ausgeprägter sind die Ähnlichkeiten in Bezug auf die logistische Regression. Mit ihrer Hilfe lassen sich Wahrscheinlichkeiten für die Gruppenzugehörigkeit eines Objekts berechnen. Vorteile der logistischen Regression gegenüber der linearen Diskriminanzanalyse liegen in der Möglichkeit, auch nicht-metrische Merkmalsvariablen berücksichtigen zu können, und in ihrer robusten Schätzung. Mit der binären logistischen Regression kann jedoch nur der Zwei-Gruppen-Fall untersucht werden. Sollen mehr als zwei Gruppen betrachtet werden, so muss auf die multinominale logistische Regression zurückgegriffen werden, die allerdings einen deutlich höheren Rechenaufwand erfordert. Ferner ist das primäre Ziel einer Regressionsanalyse mit kategorialen abhängigen Variablen die Schätzung der Effekte von erklärenden Variablen auf die Zugehörigkeit zu einer Gruppe und nicht, wie bei der Diskriminanzanalyse, die Klassifikation in eine der gegebenen Gruppen.
20 Diskriminanzanalyse
501
Bei einer regressionsanalytischen Verwendung können sich auch solche Variablen als signifikant erweisen, die eine geringe Diskriminanzfähigkeit besitzen, weil sie zu hohen Fehlklassifikationswahrscheinlichkeiten führen. Die Diskriminanzanalyse zählt zu den konfirmatorischen (strukturprüfenden) Verfahren, geht also, im Gegensatz zu der explorativ angelegten Clusteranalyse (siehe hierzu auch Kapitel 21 in diesem Handbuch) von a priori definierten Gruppenzugehörigkeiten der Objekte aus. Beide Verfahren können sich insoweit sehr gut ergänzen, als die mittels Diskriminanzanalyse zu untersuchenden Gruppen das Ergebnis einer vorgeschalteten Clusteranalyse sein können. Dabei ist allerdings zu beachten, dass die Verwendung ein und derselben Stichprobe für beide Analysen zu einer Überschätzung der Ergebnisgüte führt. Um dies zu verhindern, muss die vorliegende Stichprobe in eine Trainings- und eine Teststichprobe unterteilt werden, wobei die Trainingsstichprobe der Gruppenbildung mittels Clusteranalyse und die Teststichprobe der Klassifikation mittels Diskriminanzanalyse zugrunde gelegt wird. 1.4 Vorgehensweise Zu Beginn einer Diskriminanzanalyse muss das Untersuchungsdesign spezifiziert werden. Dies beinhaltet die Festlegung der Zielsetzung und der zu untersuchenden Gruppen sowie die Überprüfung der Gültigkeit der zugrunde liegenden Prämissen. Im Anschluss erfolgt die Bestimmung der Diskriminanzfunktion und des Diskriminanzkriteriums, welches für die Überprüfung der Trennfähigkeit der Funktion zwischen den Gruppen eingesetzt wird. Liegen mehr als zwei Gruppen vor, so können auch mehrere Diskriminanzfunktionen aus den Daten extrahiert werden. Bei ausreichender Güte lassen sich die gewonnenen Funktionen dazu verwenden, die Gruppenzugehörigkeit neuer Objekte zu prognostizieren bzw. die bekannten Gruppenzugehörigkeiten näher zu charakterisieren. Nachfolgend wird in exemplarischer Weise das Vorgehen bei der Durchführung einer Diskriminanzanalyse für den linearen Fall ausführlicher erläutert. Festlegung des Untersuchungsdesigns In der Regel beginnt die Diskriminanzanalyse mit der Festlegung des genauen Untersuchungsdesigns. Hierzu muss zunächst eine Konkretisierung der zugrunde liegenden Zielsetzung erfolgen. Im Anschluss wird unter Einhaltung der in Abschnitt 1.2 beschriebenen Prämissen festgelegt, wie viele Gruppen unterschieden und welche Objekte welchen Ausprägungen der abhängigen Gruppierungsvariablen zugewiesen werden sollen. Um die Wahrscheinlichkeit einer Verletzung der Basisannahmen von vornherein zu minimieren, sollte die Anzahl der Gruppen nicht zu hoch und die Gruppenstärken nicht zu verschieden, jedoch hinreichend groß ausfallen. Die Definition der Gruppen kann sich entweder aus dem Untersuchungskontext ergeben (etwa der Zugehörigkeit von Konsumenten zu bestimmten Marktsegmenten) oder das Resultat einer vorausgegangenen Clusteranalyse sein (bei entsprechender Unterteilung der Gesamtstichprobe in eine Trainings- und eine Teststichprobe). Die Festlegung der Untersuchungsgruppen kann eine mitunter schwierige Aufgabe darstellen, die bis zur Erzielung einer ausreichenden Ergebnisgüte im Verlauf einer Diskriminanzanalyse möglicherweise wiederholt gelöst werden muss. Frenzen & Krafft (2008, S. 647)
502
Reinhold Decker, Silvia Rašković und Kathrin Brunsiek
empfehlen eine Stichprobengröße von mindestens 20 Beobachtungen pro Gruppe und mindestens fünf, besser jedoch 20 Beobachtungen pro unabhängiger Variable. Ist der Stichprobenumfang innerhalb der Gruppen zu gering, so können – falls es der Analysekontext zulässt – mehrere ähnliche Gruppen zu einer Gruppe zusammengefasst werden. Sobald die für die Analyse heranzuziehenden Stichproben vorliegen, sollte überprüft werden, ob die Basisannahmen der linearen Diskriminanzanalyse erfüllt sind. Diese Überprüfung ist insoweit dringend zu empfehlen, als die multivariate Normalverteilung der Merkmalsvariablen und die Homogenität der Kovarianzmatrizen sowie das Nichtvorliegen von Multikollinearität in erheblichem Maße die Qualität der Schätzung der Diskriminanzfunktion und die Validität der erzielten Ergebnisse beeinflussen kann (siehe Hair et al. 2009, S. 345 ff.). Die Normalverteilungsannahme lässt sich entweder auf grafischem Wege (z. B. Histogramm mit Normalverteilungskurve oder Normal Propability Plot) oder mit Hilfe statistischer Tests (z. B. Kolmogorov-Smirnov-Test oder Shapiro-Wilks-Test) überprüfen (siehe Hair et al. 2009, S. 72 ff.). Im Falle der multivariaten Normalverteilung kann mit Hilfe des Mardia-Tests nachgewiesen werden, ob alle Daten normalverteilt um ihre jeweiligen Gruppenzentroide streuen (siehe auch Mardia 1974, 1970). Zur Überprüfung der Gleichheit der Kovarianzmatrizen der unabhängigen Variablen über die Gruppen hinweg kann der Box-M-Test herangezogen werden, der auch in einigen Statistikprogrammen hinterlegt ist. Der Test gilt allerdings als fehleranfällig, falls keine Normalverteilung vorliegt. Zudem reagiert er sensibel auf die Stichprobengröße, was mitunter zu einer nicht gerechtfertigten Ablehnung der Nullhypothese (Homogenität der Kovarianzmatrizen) führen kann (siehe Hair et al. 2009, S. 355). Multikollinearität ist ein in der Praxis häufig auftretendes und immer wieder unterschätztes Problem, dessen zuverlässiger Nachweis allerdings anhand verschiedener, z. B. in Schneider (2007, S. 183 ff.) ausführlich erläuterter Verfahren erfolgen kann. Extraktion der Diskriminanzfunktion(en) Die auf Basis der vorliegenden Daten zu schätzende Diskriminanzfunktion dient der optimalen Trennung der in der Grundgesamtheit identifizierten Gruppen sowie der Bestimmung der Diskriminierungsfähigkeit der Merkmalsvariablen. Letztere werden dazu linear in Form der sogenannten kanonischen Diskriminanzfunktion miteinander kombiniert. Die Auswahl der in die Modellierung einzubeziehenden Merkmalsvariablen basiert auf sachlogischen oder theoretischen Abwägungen, wobei die tatsächliche Eignung im Anschluss an die Extraktion zu überprüfen ist. Die den Einfluss der Merkmalsvariablen erfassenden Diskriminanzkoeffizienten werden auf Basis der Ausprägungen der Merkmale in den Stichproben geschätzt. Setzt man im Anschluss die Merkmalsausprägungen der einzelnen Objekte in die Diskriminanzfunktion ein, so erhält man die zugehörigen metrischen Diskriminanzwerte. Die einzelnen Gruppen lassen sich dann durch ihren mittleren Diskriminanzwert, auch Gruppenzentroid genannt, charakterisieren. Mit Hilfe des gewogenen Mittels der Gruppenzentroide kann der Gesamtmittelwert bzw. Gesamtzentroid über alle Gruppen berechnet werden. Bei der Extraktion der Diskriminanzfunktion sollen die Diskriminanzkoeffizienten derart bestimmt werden, dass die resultierenden Diskriminanzwerte eine bestmögliche
20 Diskriminanzanalyse
503
Diskriminierung zwischen den Gruppen erlauben, die Gruppenunterschiede also möglichst deutlich herausgearbeitet werden. Daher wird ein Kriterium benötigt, das die Unterschiedlichkeit der Gruppen in adäquater Weise zu quantifizieren erlaubt. Grundlage hierfür sind die Distanzen der Gruppenzentroide. Je stärker sich die Zentroide unterscheiden, desto unterschiedlicher sind auch die Gruppen. Das bedeutet, dass die Unterschiede zwischen den Mitgliedern einer Gruppe, resp. die Varianzen innerhalb der Gruppen, möglichst gering und gleichzeitig die Unterschiede zu den Mitgliedern der anderen Gruppen, resp. die Varianz zwischen den Gruppen, möglichst groß sein sollten. Trotzdem kann es natürlich zu Überlappungen zwischen den Gruppen kommen, d. h. die Wertebereiche der einzelnen Gruppen überschneiden sich, was eine zuverlässige Zuordnung erschwert. Fisher hat deshalb die Maximierung des Verhältnisses von erklärter (Streuung zwischen den Gruppen) zu nicht erklärter Streuung (Streuung innerhalb der Gruppen) als Zielkriterium für die Extraktion der Diskriminanzfunktion vorgeschlagen. Bei diesem als Diskriminanzkriterium bezeichneten Maß wird die erklärte Streuung durch die quadrierten Abweichungen der Gruppenzentroide vom Gesamtmittel zum Ausdruck gebracht. Bei unterschiedlichen Umfängen der Gruppenstichproben erfolgt eine Gewichtung mit den jeweiligen Stichprobengrößen. Analog wird die nicht erklärte Streuung durch die quadrierten Abweichungen der Objekte einer Gruppe von ihrem Zentroid quantifiziert. Das resultierende Maximierungsproblem kann in ein Eigenwertproblem (siehe Abschnitt 2, S. 507 ff.) überführt und auf diese Weise gelöst werden. Der Eigenvektor des größten Eigenwerts enthält dann die gesuchten Diskriminanzkoeffizienten. Liegen der Untersuchung mehr als zwei Gruppen zugrunde (Mehr-Gruppen-Fall), so reicht eine Diskriminanzfunktion alleine nicht aus, da diese lediglich die Trennung von zwei Gruppen erlaubt. Hieraus resultiert, dass die Anzahl möglicher Diskriminanzfunktionen durch die Anzahl der vorhandenen Gruppen verringert um Eins begrenzt ist, vorausgesetzt, die Funktionsanzahl übersteigt nicht die Zahl der betrachteten Merkmalsvariablen. Analytisch kann dies über die Maximierung des Diskriminanzkriteriums erklärt werden. Liegen mehr als zwei Gruppen vor, so existieren auch immer mehrere von Null verschiedene Eigenwerte. Im Anschluss müssen die Eigenwerte in eine absteigende Reihenfolge gebracht werden. Jener Eigenvektor, der dem größten Eigenwert zugeordnet ist, liefert dann die Koeffizienten der ersten Diskriminanzfunktion, der dem nächstkleinern Eigenwert zugeordnete Eigenvektor jene der zweiten Diskriminanzfunktion und so weiter. Jede der auf diese Weise ermittelten Funktionen erklärt einen Teil der noch verbleibenden Reststreuung. Der prozentuale Anteil der Gesamtstreuung, der durch die einzelnen Diskriminanzfunktionen erklärt wird, nimmt allerdings relativ schnell stark ab, sodass oftmals schon die Ermittlung von zwei oder drei Funktionen ausreicht, um einen Großteil der Streuung zu erklären. Zur Bewertung der relativen Wichtigkeit der einzelnen Funktionen kann der entsprechende Eigenwertanteil herangezogen werden. Empirische Untersuchungen haben gezeigt, dass häufig schon zwei Diskriminanzfunktionen ausreichen, um eine adäquate Trennung der Gruppen zu erzielen (siehe Cooley & Lohnes 1971, S. 244 und Tatsuoka 1988, S. 280). Hierbei ist zu beachten, dass die so ermittelten Funktionen linear unabhängig, nicht jedoch zwingend orthogonal sind.
504
Reinhold Decker, Silvia Rašković und Kathrin Brunsiek
Die Maximierung des obigen Diskriminanzkriteriums bewirkt allerdings keine Generierung eindeutig identifizierter Diskriminanzkoeffizienten, sondern spezifiziert lediglich ihr Verhältnis zueinander. Für die exakte Bestimmung der Diskriminanzkoeffizienten ist deshalb eine Normierung derselben erforderlich. Mit Hilfe der normierten Diskriminanzkoeffizienten können inhaltliche Aussagen über den Einfluss der einzelnen Merkmalsvariablen auf die Diskriminanzwerte getroffen werden. Allerdings können sich die normierten Koeffizienten als verzerrt bzw. nicht vergleichbar erweisen, falls die für die Schätzung verwendeten Merkmalsvariablen unterschiedliche Skalen und somit auch unterschiedliche Standardabweichungen besitzen. Um dennoch eine Beurteilung des relativen Einflusses der Merkmalsvariablen auf die Diskriminanzwerte zu ermöglichen, können die Koeffizienten noch zusätzlich standardisiert werden. Evaluation der Diskriminanzfunktion(en) Die Güte einer Diskriminanzfunktion kommt vor allem durch die Deutlichkeit, mit der sich die Gruppen anhand der resultierenden Diskriminanzwerte unterscheiden lassen, zum Ausdruck. Als Grundlage für die Quantifizierung der Separationsfähigkeit dient entweder die Prüfung der Klassifikation, bei der ein Vergleich zwischen der tatsächlichen und der auf Basis der Diskriminanzwerte geschätzten Gruppenzugehörigkeit vorgenommen wird, oder die Prüfung der Diskriminanz, bei der auf das Diskriminanzkriterium zurückgegriffen wird. Beide Verfahren sind inhaltlich ähnlich und liefern vergleichbare Ergebnisse (siehe Backhaus et al. 2008, S. 201). a) Prüfung der Klassifikation: Um die Güte der Zuordnung der betrachteten Objekte zu den unterschiedlichen Gruppen zu überprüfen, kann die Trefferquote herangezogen werden. Diese entspricht dem prozentualen Anteil der mittels Diskriminanzfunktion korrekt zugeordneten Objekte. Die Beurteilung der Qualität einer Diskriminanzfunktion allein anhand der Trefferquote ist jedoch nicht sehr aussagekräftig. Erst der Vergleich der mittels Diskriminanzanalyse erzielten Trefferquote mit der Trefferquote einer zufälligen Klassifikation ermöglicht eine qualifizierte Beurteilung. Nur wenn die ermittelte Trefferquote höher als die bei zufälliger Zuweisung ist, war der Einsatz der Diskriminanzanalyse von Nutzen. Für den Vergleich werden hauptsächlich drei Kriterien eingesetzt, denen gemein ist, dass sie die (geschätzten) A-priori-Wahrscheinlichkeiten der Gruppen verwenden (siehe Morrison 1969, S. 158). Einen kompakten Überblick über diese Kriterien („Chance Criteria“) bietet Tabelle 1. Die Wahl des zu verwendenden Kriteriums ist von der Zielsetzung der Untersuchung abhängig. Ist insbesondere die größte Gruppe von Bedeutung, d. h. sollen lediglich (oder primär) die Mitglieder der größten Gruppe identifiziert werden, so ist das Maximum-Kriterium anzuwenden, bei dem alle untersuchten Objekte der größten Gruppe zugeordnet werden. Ziel ist dabei die Maximierung der Anzahl der korrekten Klassifikationen bzgl. der größten Gruppe. Besteht die Zielsetzung hingegen in der möglichst guten Klassifikation der Mitglieder von mehr als einer, sich größenmäßig deutlich unterscheidender Gruppen, so ist das Proportional-Kriterium vorzuziehen, da dieses die relative Gruppenstärke mit in die Bewertung der Trefferquote einbezieht. Können die Gruppenstärken in der Grundgesamtheit als annähernd gleich angesehen werden, so bietet es sich an, auf das Gleichverteilungskriterium zurückzugreifen.
20 Diskriminanzanalyse
505
Tab. 1: Chance Criteria nach Morrison (1969)
a
Formel :
Gleichverteilungskriterium
MaximumKriterium
ProportionalKriterium
(„Random Chance Criterion“)
(„Maximum Chance Criterion“)
(„Proportional Chance Criterion“)
Cmax = max (πg )
Cprop =
Crandom =
1 G
1≤g≤G
= Prinzip:
a
Annahme eines gleich häufigen Auftretens der Gruppen in der Grundgesamtheit
G
πg2
g=1
Igmax I
Klassifikation jedes Objekts als Mitglied der größten Gruppe der Stichprobe
Berücksichtigung der relativen Gruppenstärke als Maß für die Gruppenzugehörigkeit
Notation: g = Gruppenindex, G = Anzahl der Gruppen, I = Gesamtstichprobenumfang, Ig = Gruppenstichprobenumfang, Igmax = Stichprobenumfang der größten Gruppe, πg = (geschätzte) A-priori-Wahrscheinlichkeit der Gruppe g
Unabhängig vom eingesetzten Kriterium ist zu beachten, dass die Verwendung ein und derselben Stichprobe sowohl für die Ermittlung der Diskriminanzfunktion als auch für die des Gütekriteriums zu einer Überschätzung der Trefferquote führen kann. Deshalb sollte nach Möglichkeit eine Kreuzvalidierung durchgeführt werden, bei der die Gesamtstichprobe in eine Trainings- und eine Teststichprobe unterteilt wird. Je mehr solcher Splittungen (und entsprechende Funktionsschätzungen) vorgenommen werden, umso zuverlässiger sind die Ergebnisse der Kreuzvalidierung. Alternativ zur Anwendung der oben genannten Kriterien können auch der Press’s-Q-Test oder der Hosmer-Lemeshow-Test zur Prüfung der Klassifikation durchgeführt werden (siehe Hair et al. 2009, S. 368). b) Prüfung der Diskriminanz: Das zur Ermittlung der Diskriminanzfunktion herangezogene Diskriminanzkriterium Γ ermöglicht eine Ergebnisvalidierung auf Basis des Eigenwerts. Als Gütemaße für die Trennfähigkeit einer Diskriminanzfunktion können alternativ entweder der kanonische Korrelationskoeffizient c oder Wilks’ Lambda Λ herangezogen werden. Da sich Wilks’ Lambda in eine probabilistische Größe umwandeln lässt und somit Wahrscheinlichkeitsaussagen über die Verschiedenheit der untersuchten Gruppen sowie einen Signifikanztest der Diskriminanzfunktion ermöglicht, ist es in der Praxis weit verbreitet. Darüber hinaus findet es auch in der multivariaten Varianzanalyse (MANOVA) zur Prüfung von Gruppenunterschieden Anwendung. Werden im Mehr-Gruppen-Fall mehrere Diskriminanzfunktionen bestimmt, so erfolgt die Prüfung der Trennfähigkeit derselben nicht sukzessiv, sondern simultan mit Hilfe des multivariaten Wilks’ Lambda. Mit Wilks’ Lambda für die residuelle Diskriminanz kann nach Ermittlung der ersten k Diskriminanzfunktionen überprüft werden, ob die restlichen K − k Funktionen für eine Unterscheidung der Gruppen überhaupt noch erforderlich sind.
506
Reinhold Decker, Silvia Rašković und Kathrin Brunsiek
Für die Überprüfung der Signifikanz der Unterschiedlichkeit der Gruppen können noch weitere Teststatistiken herangezogen werden. Hierzu zählen u. a. Bartlett’s V (Summe der quadrierten kanonischen Korrelationskoeffizienten), Hotelling-Lawley’s Spurkriterium (Summe aller Eigenwerte) oder Roy’s größter Eigenwert (quadrierter kanonischer Korrelationskoeffizient des größten Eigenwerts). Für weitere Einzelheiten zu diesen Kriterien sei auf Tatsuoka (1988, S. 285 ff.) verwiesen. Merkmalsselektion und Klassifikation neuer Objekte Im vorangegangenen Unterabschnitt wurde die diskriminatorische Relevanz der einzelnen Merkmalsvariablen für die Separation der Gruppen betrachtet. Die univariate Prüfung lässt jedoch mögliche Interdependenzen zwischen den Merkmalsvariablen unberücksichtigt. Beispielsweise kann ein bestimmtes Merkmal lediglich in Verbindung mit einer anderen Merkmalsvariablen eine diskriminatorische Bedeutung besitzen. Alleine betrachtet leistet es hingegen keinen relevanten Beitrag zur Separation der Gruppen oder zur Klassifikation neuer Objekte. Aus diesem Grund ist eine multivariate Prüfung sinnvoll. Hierzu werden die Diskriminanzkoeffizienten betrachtet. Die Aussagekraft dieser Größen kann allerdings aufgrund von Skalierungseffekten beeinträchtigt sein, weshalb sie zunächst durch Multiplikation mit ihren Standardabweichungen standardisiert werden sollten. Die diskriminatorische Bedeutung der einzelnen Merkmalsvariablen wird hierbei über die Höhe des Absolutbetrags der standardisierten Koeffizienten zum Ausdruck gebracht (siehe Abschnitt 2, S. 511). Im Mehr-Gruppen-Fall existieren für jede Merkmalsvariable aufgrund der einzelnen Diskriminanzfunktionen unterschiedliche Diskriminanzkoeffizienten. Um in diesem Fall die diskriminantorische Relevanz der einzelnen Variablen zu ermitteln, müssen die entsprechenden Koeffizienten, gewichtet mit ihren Eigenwertanteilen, summiert und zum sogenannten mittleren Diskriminanzkoeffizienten zusammengefasst werden (siehe Backhaus et al. 2008, S. 208). Alternativ zur vergleichsweise aufwendigen Betrachtung der standardisierten Koeffizienten für die Selektion der relevanten Merkmalsvariablen kann auch auf die Prüfkriterien der Diskriminanz zurückgegriffen werden. Gerade bei den neueren Anwendungsgebieten der Diskriminanzanalyse ist die Anzahl der möglichen Merkmalsvariablen oftmals sehr hoch. In diesem Fall erscheint eine sukzessive Ermittlung der Diskriminanzkoeffizienten sinnvoll, um auf diese Weise nur die in diskriminatorischer Hinsicht signifikanten Variablen in die Funktion mit aufzunehmen. Da im Falle einer sehr großen Anzahl an Merkmalsvariablen nur selten auch alle Variablen einen signifikanten Beitrag zur Identifikation und Separation der Gruppen liefern, interessieren natürlich auch nur jene Variablen, die für die Zielerreichung tatsächlich Relevanz besitzen. Um diese Variablen zu identifizieren, ist eine systematische, ergebnisorientierte Herangehensweise zu empfehlen. Ein solches Vorgehen stellt die sogenannte schrittweise Diskriminanzanalyse dar. Hierbei können grundsätzlich zwei Ansätze unterschieden werden, nämlich die Vorwärtsauswahl und die Rückwärtselimination. Die Vorwärtsauswahl startet mit lediglich einer Merkmalsvariablen. Bei jedem Iterationsschritt wird nun jene Variable in die Funktion mit aufgenommen, die den höchsten zusätzlichen Diskriminanzbeitrag leistet. Im Gegensatz dazu beginnt die Rückwärtselimination mit der Aufnahme aller Variablen in die
20 Diskriminanzanalyse
507
Diskriminanzfunktion. Nach und nach werden dann all jene Variablen eliminiert, die das verwendete Prüfkriterium nicht erfüllen. Auch die Kombination beider Vorgehensweisen ist möglich. Grundsätzlich ist aber zu beachten, dass beim schrittweisen Vorgehen mögliche Interaktionen zwischen den Merkmalsvariablen unberücksichtigt bleiben. Anstelle der Betrachtung der standardisierten Koeffizienten oder der Durchführung einer schrittweisen Diskriminanzanalyse können auch die Strukturkoeffizienten betrachtet werden, welche weniger anfällig für potenzielle Multikollinearitäten sind. Diese entsprechen der linearen Korrelation zwischen den unabhängigen Variablen und der Diskriminanzfunktion. Die Klassifikation neuer Objekte entspricht dem in Unterabschnitt 1.1 angesprochenen prognostischen Analyseansatz. Die Ermittlung der Gruppenzugehörigkeit neuer Objekte erfolgt anhand der Ausprägungen ihrer Merkmalsvariablen. Dabei kann zwischen drei alternativen Klassifikationskonzepten gewählt werden, dem Distanzkonzept, dem Wahrscheinlichkeitskonzept und dem Konzept der Klassifikationsfunktionen nach Fisher. Beim Distanzkonzept wird auf die bereits bekannten Gruppenzentroide zurückgegriffen. Ein neues Objekt mit unbekannter Gruppenzugehörigkeit wird hiernach derjenigen Gruppe zugewiesen, zu deren Zentroid die geringste Distanz besteht. Den Betrachtungen können entweder euklidische Distanzen oder Mahalanobis-Distanzen zugrunde gelegt werden. Die Streuungen innerhalb der Gruppen müssen hierbei approximativ gleich sein. Beim Wahrscheinlichkeitskonzept betrachtet man die Klassifikation eines Objekts als statistisches Entscheidungsproblem. Es basiert auf A-posteriori-Wahrscheinlichkeiten, die auch als Klassifikationswahrscheinlichkeiten bezeichnet und unter Zuhilfenahme des Bayes-Theorems ermittelt werden. Ein Objekt wird hierbei jener Gruppe zugeordnet, für die das betreffende Objekt die maximale A-posteriori-Wahrscheinlichkeit aufweist. Das Wahrscheinlichkeitskonzept ist das am flexibelsten einsetzbare Konzept zur Klassifikation, da es sich z. B. durch die Aufnahme der Kosten einer Fehlklassifikation in anwendungsorientierter Weise erweitern lässt. Beim Konzept der Klassifikationsfunktionen nach Fisher wird für jede Gruppe eine eigene Klassifikationsfunktion bestimmt, die sich aus einem Interzept und den gewichteten Merkmalsvariablen zusammensetzt. Ein Objekt wird derjenigen Gruppe zugeordnet, deren Funktionswert maximal ist. Falls im Vorfeld der Analyse bekannt, können auch die A-priori-Wahrscheinlichkeiten der Gruppen bzw. individuelle A-prioriWahrscheinlichkeiten der Objekte in den Klassifikationsfunktionen Berücksichtigung finden (siehe Backhaus et al. 2008, S. 209 ff.).
2 Mathematisch-statistische Grundlagen 2.1 Ermittlung der Diskriminanzfunktion(en) Um das Instrumentarium der Diskriminanzanalyse anwenden zu können, muss eine aus G ≥ 2 disjunkten Teilstichproben vom Umfang Ig ≥ 2 (mit Gruppenindex g =
508
Reinhold Decker, Silvia Rašković und Kathrin Brunsiek
1, . . . , G) bestehende Gesamtstichprobe vom Gesamtumfang I vorliegen. Des Weiteren muss für jedes Objekt in den Stichproben neben der wahren Gruppenzugehörigkeit auch ein Spaltenvektor xi = (xi1 , . . . , xij , . . . , xiJ ) von individuellen Ausprägungen der J betrachteten metrischen Merkmalsvariablen gegeben sein. Für die Anzahl der diskriminierenden Variablen sollte 2 ≤ J ≤ I − 2 gelten. Soll eine klassische lineare Diskriminanzanalyse durchgeführt werden, was hier unterstellt wird, so weist die kanonische Diskriminanzfunktion die folgende allgemeine Form auf: y = ν1 x1 + ν2 x2 + . . . + νJ xJ ,
(1)
wobei x1 , . . . , xJ die betrachteten Merkmalsvariablen und ν1 , . . . , νJ die zugehörigen Diskriminanzkoeffizienten bezeichnen. Die lineare Kombination der Werte liefert den Diskriminanzwert y. In Vektorschreibweise lässt sich Gleichung (1) wie folgt zusammenfassen: y = ν x (2) Dabei repräsentiert ν den Spaltenvektor der unbekannten und noch zu bestimmenden Diskriminanzkoeffizienten. Bei Durchführung einer Diskriminanzanalyse wird für jedes Objekt i (mit i = 1, . . . , Ig ) der Gruppe g unter Verwendung obiger Gleichung der zugehörige metrische Diskriminanzwert ygi bestimmt. Hieraus kann dann für jede Gruppe der Gruppenzentroid Ig 1 y¯g = ygi ∀ g = 1, . . . , G (3) Ig i=1 und der Gesamtzentroid über alle Gruppen 1 1 ygi = Ig y¯g I g=1 i=1 I g=1 G
y¯ =
Ig
G
(4)
G ermittelt werden (mit I = g=1 Ig ). Zur Schätzung der unbekannten Diskriminanzkoeffizienten muss das Diskriminanzkriterium Γ maximiert werden. Hierbei wird auf das Prinzip der Streuungszerlegung, welches auch in der Varianz- und Regressionsanalyse zur Anwendung kommt, zurückgegriffen. Es gilt: Γ =
erklärte Streuung SSB (y) = SSW (y) nicht erklärte Streuung
Dabei beschreibt SSB (y) =
G
Ig (¯ yg − y¯)2
→ max!
(5)
(6)
g=1
als Summe der quadrierten Abweichungen der Gruppenzentroide vom Gesamtmittel die Streuung zwischen den Gruppen (SSB : „Sum of Squares Between“) und
20 Diskriminanzanalyse
SSW (y) =
Ig G
(ygi − y¯g )2
509
(7)
g=1 i=1
als Summe der quadrierten Abweichungen der Einzelbeobachtungen von den jeweiligen Gruppenzentroiden die Streuung innerhalb der Gruppen (SSW : „Sum of Squares Within“). Die Gruppen sind bestmöglich voneinander getrennt, wenn die Streuung zwischen den Gruppen möglichst hoch und die Streuung innerhalb der Gruppen gleichzeitig möglichst gering ausfällt. Die Diskriminanzfunktion ist also derart zu bestimmen, dass der Unterschied zwischen den Gruppenzentroiden y¯g der Diskriminanzwerte maximal wird. Gesucht ist somit der Maximalwert γ des Diskriminanzkriteriums Γ . Dies ist z. B. durch die Überführung obiger Maximierungsaufgabe in ein Eigenwertproblem zu erreichen, indem als notwendige Bedingung für einen Extremwert die erste Ableitung des Diskriminanzkriteriums gebildet und gleich Null gesetzt wird. Die Berechnung erfolgt unter Zuhilfenahme einer (J × J )-Matrix B der Streuung der J Merkmalsvariablen zwischen den Gruppen und der vereinten (J × J)-Matrix W der Streuung innerhalb der Gruppen. Die beiden Matrizen setzen sich aus den Elementen Bjj =
G
Ig (¯ xjg − x ¯j )(¯ xj g − x ¯j )
∀ j,j = 1, . . . , J
(8)
g=1
und Wjj
Ig G = (xjgi − x ¯jg )(xj gi − x ¯j g )
∀ j,j = 1, . . . , J
(9)
g=1 i=1
zusammen, wobei sich der Mittelwert von Merkmal j in Gruppe g durch x ¯jg =
Ig 1 xjgi Ig i=1
∀ j = 1, . . . ,J;
g = 1, . . . , G
(10)
und der Gesamtmittelwert bezüglich des Merkmals j durch 1 x ¯j = xjgi I g=1 G
Ig
∀ j = 1, . . . , J
(11)
i=1
berechnet. B bzw. W sind Varianz-Kovarianz-Matrizen und werden auch „Sum of Squares and Cross Products (SSCP) Matrices“ (siehe Tatsuoka 1988, S. 17 f.) genannt. Die Summe der beiden Matrizen ergibt die Matrix der Gesamtstreuung der Daten. Auf den Hauptdiagonalen dieser Matrizen (j = j ), befinden sich jeweils die Streuungen zwischen bzw. innerhalb der Gruppen. Die restlichen Elemente (j = j ), stellen die jeweiligen Kreuzprodukte zwischen bzw. innerhalb der Gruppen dar. Multipliziert man die Matrizen B und W jeweils von links mit dem Vektor der unbekannten Diskriminanzkoeffizienten ν und von rechts mit ν, so erhält man die Streuung zwischen bzw. innerhalb der Gruppen in quadratischer Form (siehe Decker & Temme 2000, S. 304). Somit kann das Diskriminanzkriterium aus Gleichung (5) wie folgt in Matrixschreibweise dargestellt werden:
510
Reinhold Decker, Silvia Rašković und Kathrin Brunsiek
Γ =
ν Bν SSB (y) = SSW (y) ν Wν
→ max!
(12)
Um das Optimierungsproblem aus Gleichung (12) zu lösen, muss die partielle Ableitung von Γ nach ν bestimmt und diese gleich dem Nullvektor gesetzt werden: 2 [(Bν)(ν Wν) − (ν Bν)(Wν)] ∂Γ = =0 ∂ν (ν Wν)2
(13)
Werden anschließend Zähler und Nenner durch ν Wν geteilt, so resuliert unter gleichzeitiger Berücksichtigung der Gleichung (12) die vereinfachte Beziehung: 2 [Bν − γWν] =0 ν Wν
⇔
(B − γW)ν = 0
(14)
Unter der Annahme, dass die Matrix W regulär ist, d. h. vollen Rang Rg(W) = J besitzt, und somit invertierbar ist, kann obige Gleichung zu (W−1 B − γE)ν = 0
(15)
mit E als der Einheitsmatrix umformuliert werden. Die Lösung von Gleichung (15) repräsentiert ein klassisches Eigenwertproblem, wobei der Eigenvektor ν des größten sich hieraus ergebenden Eigenwerts γ die Diskriminanzkoeffizienten für die erste kanonische Diskriminanzfunktion enthält. Die nicht-triviale Lösung des homogenen linearen Gleichungssystems lässt sich aus det(W−1 B − γE) = 0
(16)
mit Hilfe des charakteristischen Polynoms berechnen, dessen Nullstellen den Eigenwerten von W−1 B − γE entsprechen. Die zu den möglichen Werten von γ gehörigen Eigenvektoren ν von W−1 B sind die Lösungen des homogenen linearen Gleichungssystems und können durch Einsetzen der Werte für γ in Gleichung (15) bestimmt werden. Der größte Eigenwert bzw. die Summe der k größten Eigenwerte spezifiziert den Anteil der erklärten Streuung. Die Anzahl der positiven Eigenwerte der Matrix W−1 B ist von ihrem Rang abhängig und mit Hilfe der Beziehung Rg(W−1 B) = min {G − 1,J} bestimmbar. Hieraus resultiert, dass im Zwei-Gruppen-Fall (G = 2) nur ein positiver Eigenwert γ gefunden und somit auch nur ein Eigenvektor ν ermittelt werden kann. Somit ist für diesen Fall auch lediglich eine Diskriminanzfunktion ermittelbar. Weiterhin bedeutet dies, dass sich im Mehr-Gruppen-Fall (G > 2) insgesamt K = min {(G − 1),J} > 1 positive Eigenwerte berechnen lassen. Um Verwechslungen zu vermeiden, werden die einzelnen Eigenwerte γk sowie die zugehörigen Eigenvektoren ν k und die daraus generierten nicht-normierten Diskriminanzfunktionen yk jeweils durch den Index k = 1, . . . , K voneinander unterschieden. Sortiert man die Eigenwerte ihrer Größe nach absteigend (d. h. γ1 > . . . > γK > 0), so spiegelt diese Reihenfolge auch den Stellenwert wider, den die hieraus abgeleiteten K Diskriminanzfunktionen bei der Trennung der Gruppen besitzen.
20 Diskriminanzanalyse
511
Um jedoch inhaltliche Aussagen über den Einfluss der Merkmalsvariablen auf die Separation der Gruppen treffen zu können, muss im nächsten Schritt eine Normierung der Diskriminanzfunktion vorgenommen werden. Diese kann unter Verwendung der vereinten Innergruppen-Varianz erfolgen. Für die normierten Diskriminanzkoeffizienten b = (b1 , . . . , bJ ) gilt:
SSW (y) b=ν I −G
− 12
ν Wν =ν I −G
− 12 (17)
Eingesetzt in die Ausgangsgleichung liefert dies die normierte Diskriminanzfunktion: y norm = b0 + b1 x1 + . . . + bJ xJ
(18)
Die für eine Normierung erforderliche Nullpunktverschiebung erfolgt dabei über das J Interzept, für welches b0 = − j=1 bj x ¯j gilt. Wenn darüber hinaus der Mittelwert der normierten Diskriminanzwerte gleich Null (¯ y norm = 0) und die vereinte Innergruppen(y norm ) Varianz der normierten Diskriminanzwerte gleich Eins ( SSWI−G = 1) ist, so liegen die Diskriminanzwerte sogar in standardisierter Form vor. Hierdurch werden mögliche Verzerrungen aufgrund von auf unterschiedlichen Skalen gemessenen Merkmalsvariablen berücksichtigt, was eine aussagekräftigere Interpretation der Diskriminanzfunktion bzw. einen relativen Vergleich der Merkmalsvariablen bezüglich ihres Beitrags zur Gruppentrennung ermöglicht. Erreicht wird diese Standardisierung durch Multiplikation der einzelnen normierten Diskriminanzkoeffizienten bj jeder ermittelten 3 Diskriminanzfunktion mit Wjj /(I − G). 2.2 Prüfkriterien der Diskriminanz Für die Überprüfung der Diskriminanzfähigkeit mittels kanonischem Korrelationskoeffizienten c wird auf den ermittelten Eigenwert γ zurückgegriffen. Es gilt: γ SSB erklärte Streuung = (19) c= = 1+γ SSB + SSW Gesamtstreuung Der kanonische Korrelationskoeffizient bringt also den Anteil der erklärten Streuung an der Gesamtstreuung zum Ausdruck, wodurch sein Wertebereich auf das Intervall von Null bis Eins beschränkt ist. Je näher der Wert bei Eins liegt, desto besser ist die erzielte Diskriminanz. Im Mehr-Gruppen-Fall kann mit Hilfe des jeweiligen Eigenwerts γk für jede der K ermittelten Diskriminanzfunktionen yk ein kanonischer Korrelationskoeffizient ck bestimmt werden: γk ck = ∀ k = 1, . . . , K (20) 1 + γk Alternativ zum kanonischen Korrelationskoeffizienten kann zur Überprüfung der Diskriminanz auch Wilks’ Lambda Λ Verwendung finden. Es gilt:
512
Reinhold Decker, Silvia Rašković und Kathrin Brunsiek
Λ=
1 nicht erklärte Streuung SSW = = 1+γ SSB + SSW Gesamtstreuung
(21)
Im Gegensatz zur kanonischen Korrelation ist Wilks’ Lambda aber ein inverses Gütemaß, d. h. kleine Werte von Λ ∈ [0,1] stehen für eine hohe Trennkraft der ermittelten Diskriminanzfunktion und umgekehrt. Sollen über die Verschiedenheit der Gruppen Wahrscheinlichkeitsaussagen getroffen werden, so kann Wilks’ Lambda in eine probabilistische Größe, die auch als Bartlett’s V bezeichnet wird, überführt werden. Diese stellt dann den Ausgangspunkt für eine Überprüfung der statistischen Signifikanz der Diskrimianzfunktion dar. Es gilt (siehe Cooley & Lohnes 1971, S. 40 und Klecka 1980, S. 249): J +G V =− I− − 1 ln Λ (22) 2 Obige Teststatistik ist approximativ χ2 -verteilt mit J ·(G−1) Freiheitsgraden. Zwischen dem kanonischen Korrelationskoeffizienten c und Wilks’ Lambda Λ besteht die einfache Beziehung: c2 + Λ = 1, weshalb die Ermittlung und Interpretation einer der beiden Kenngrößen ausreicht. Im Mehr-Gruppen-Fall muss für die Überprüfung der Diskriminanz anstelle des univariaten Wilks’ Lambda dessen multivariates Pendant herangezogen werden, mit: Λ=
K $ k=1
1 1 + γk
(23)
Oftmals sind für eine adäquate Trennung der Gruppen gar nicht alle K möglichen Diskriminanzfunktionen von Interesse. In diesem Fall kann nach Bestimmung der ersten q Funktionen über das sogenannte Wilks’ Lambda für die residuelle Varianz Λq geprüft werden, ob die restlichen (K − q) Funktionen einen signifikanten Beitrag zur Unterscheidung der Gruppen leisten. Die Rechenvorschrift hierfür lautet: K $
Λq =
k=q+1
1 1 + γk
∀ q = 0,1, . . . , K − 1
Die zugehörige multivariate Bartlett Teststatistik (siehe Bartlett 1947) J +G − 1 ln Λq Vq = − I − 2
(24)
(25)
folgt einer U-Verteilung Uα (J,G − 1,I − G), die sich durch eine χ2 -Verteilung mit (J − q) · (G − q − 1) Freiheitsgraden approximieren lässt. 2.3 Klassifikationskonzepte Wird mit der Diskriminanzanalyse ein prognostischer Ansatz verfolgt, bzw. soll der analytische Ansatz um die Prognose von Gruppenzugehörigkeiten ergänzt werden, so muss neben dem Kalibrierungsdatensatz noch ein zweiter Datensatz mit neuen
20 Diskriminanzanalyse
513
Objekten (d. h. solchen, die nicht Gegenstand der Schätzung/Kalibrierung der Diskriminanzfunktion waren) vorliegen. Sind für die neuen Objekte die individuellen Vektoren xi der Merkmalsausprägungen bekannt, so können die Zugehörigkeiten der Objekte zu den einzelnen Gruppen auf Basis eines der drei bereits in Unterabschnitt 1.4 diskutierten Konzepte prognostiziert werden. Die mathematischen Grundlagen hierfür werden im Folgenden näher beschrieben. Distanzkonzept Für die Klassifikation von Objekten mit unbekannter Gruppenzugehörigkeit auf Basis des Distanzkonzepts müssen zunächst die Distanzen zwischen den Diskriminanzwerten yi und den Gruppenzentroiden y¯g bestimmt werden. Hierbei kann auf die quadrierten 2 Distanzen Dgi zurückgegriffen werden: 2 Dgi = (yi − y¯g )2
∀ g = 1, . . . , G;
i = 1, . . . , I
(26)
Erweitert man diesen Ansatz auf den Mehr-Gruppen-Fall, so resultieren als zu verwendende Distanzmaße die euklidischen Distanzen, für die gilt: 2 Dgi =
K
(yki − y¯kg )2
∀ g = 1, . . . , G;
i = 1, . . . , I
(27)
k=1
Soll die Klassifikation neuer Objekte hingegen ohne den Zwischenschritt der Bestimmung der individuellen Diskriminanzwerte erfolgen, so lässt sich dies durch die 2 Verwendung der quadrierten Mahalanobis-Distanzen Mgi bewerkstelligen: 2 ¯ g ) Σ−1 (xi − x ¯g ) = (xi − x Mgi
∀ g = 1, . . . , G;
i = 1, . . . , I
(28)
mit Σ als der vereinten Innergruppen-Kovarianzmatrix der Merkmalsvariablen xi . Die Mahalanobis-Distanz erlaubt im Gegensatz zur euklidischen Distanz unterschiedliche Maßeinheiten und Standardabweichungen der Merkmalsvariablen. Im Mehr-Gruppen-Fall sollten alle extrahierten Diskriminanzfunktionen in die Bestimmung der Distanzen einfließen, um auf diese Weise die gesamte Erklärungskraft zu erfassen. Falls tatsächlich alle K Funktionen Berücksichtigung finden, so kommen die Klassifikationen auf Basis der euklidischen Distanz und jene auf Basis der Mahalanobis-Distanz zu identischen Ergebnissen (siehe Tatsuoka 1988, S. 232 ff.). Werden hingegen nur die signifikanten Funktionen berücksichtigt, so kann dies den Rechenaufwand mitunter erheblich reduzieren. Die Vertretbarkeit des damit einhergehenden Informationsverlusts muss allerdings von Fall zu Fall geprüft werden. Als ein geeignetes Hilfsmittel für die Beurteilung des Informationsgehalts kann beispielsweise die Entropie herangezogen werden (siehe Yildiz & Alpaydin 2005, S. 330). Weiterhin bietet diese Beschränkung den Vorteil, dass der Einfluss von Zufallsfehlern in den Merkmalsvariablen minimiert wird, da weniger Diskriminanzkoeffizienten geschätzt werden müssen. Insgesamt ist zu beachten, dass die vorgestellten Distanzkonzepte auf der Annahme approximativ gleicher Streuungen innerhalb der Gruppen basieren. Verletzungen dieser Annahme können mit deutlichen Einbußen bei der Prognosegüte einhergehen.
514
Reinhold Decker, Silvia Rašković und Kathrin Brunsiek
Wahrscheinlichkeitskonzept Soll ein (neues) Objekt i auf Basis des Wahrscheinlichkeitskonzepts klassifiziert werden, so muss zunächst dessen Klassifikationswahrscheinlichkeit ermittelt werden. Diese entspricht der mittels Bayes-Theorem berechenbaren A-posteriori-Wahrscheinlichkeit P (g|yi ) der Zugehörigkeit zu Gruppe g und kann unter Rückgriff auf die A-prioriWahrscheinlichkeit P (g) und die bedingte Wahrscheinlichkeit P (yi |g) ermittelt werden. Für die Wahrscheinlichkeit der Zugehörigkeit von Objekt i mit Diskriminanzwert yi zu Gruppe g gilt: P (yi |g)P (g) P (g|yi ) = G h=1 P (yi |h)P (h)
∀ g = 1, . . . , G;
i = 1, . . . , I
(29)
Die Größe P (yi |g) gibt hierbei an, mit welcher Wahrscheinlichkeit sich für ein Objekt i ein Diskriminanzwert yi ergibt, falls es zur Gruppe g gehört, und kann z. B. aus der entsprechenden reziproken quadrierten (euklidischen) Distanz gemäß P (yi |g) = 2 exp(−1/2 Dgi ) berechnet werden. Sind die A-priori-Wahrscheinlichkeiten P (g) zu Beginn der Analyse unbekannt, so können sie aus der Stärke der jeweiligen Gruppe in der Gesamtstichprobe gemäß P (g) = πg =
Ig I
∀g
mit
G
P (g) = 1
(30)
g=1
geschätzt werden. Voraussetzung für eine angemessene Güte der Schätzung der A-prioriWahrscheinlichkeiten mit Hilfe der relativen Gruppenstärken ist die Repräsentativität der zugrunde liegenden Teilstichproben in Bezug auf die Grundgesamtheit. Sind die A-priori-Wahrscheinlichkeiten für alle Gruppen identisch, so liefert das Wahrscheinlichkeitskonzept das gleiche Ergebnis wie das Distanzkonzept. Konzept der Klassifikationsfunktionen nach Fisher Soll die Klassifikation neuer Objekte ohne die vorherige Extraktion von Diskriminanzfunktionen erfolgen, so kann auf die Klassifikationsfunktionen nach Fisher zurückgegriffen werden. Hierzu wird für jede Gruppe eine eigene Klassifikationsfunktion FgF isher = u0g + u1g x1 + u2g x2 + . . . + uJg xJ
∀ g = 1, . . . , G
(31)
aufgestellt. Die Koeffizienten ujg repräsentieren dabei die um die InnergruppenJ −1 Kovarianzen korrigierten Gruppenzentroide (I − G) j =1 Wjj ¯j g (siehe Backhaus x et al. 2008, S. 239). Für das Interzept gilt darüber hinaus: 1 ujg x ¯jg + ln(P (g)) 2 j=1 J
u0g = −
mit
x ¯jg =
Ig 1 xjgi Ig i=1
∀ j,g
(32)
und xjgi als dem Wert der j-ten Merkmalsvariable von Objekt i bezüglich Gruppe g in der Kalibrierungsstichprobe.
20 Diskriminanzanalyse
515
Anhand der Merkmalsausprägungen des neu zu klassifizierenden Objekts wird für jede Gruppe der zugehörige Funktionswert bestimmt und das Objekt sodann derjenigen Gruppe zugewiesen, die den größten Funktionswert aufweist. Das Konzept der Klassifikationsfunktionen nach Fisher besitzt allerdings den Nachteil, dass die Klassifikation nur bei approximativ gleichen Streuungen innerhalb der Gruppen zu einem adäquaten Ergebnis führt.
3 Anwendungsbeispiel Um die Anwendung der linearen Diskriminanzanalyse anhand eines realen Fallbeispiels zu veranschaulichen, wird auf Daten aus dem kumulierten Datensatz 1980 – 2006 der „Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften“ (ALLBUS) für das Jahr 2004 zurückgegriffen. Gegenstand der nachfolgenden Untersuchung ist die Beantwortung der Frage, inwieweit sich die Einschätzung der Befragten bezüglich ihres gegenwärtigen Gesundheitszustandes von der der anderen Probanden unterscheidet. Hierzu wird der erhobene Gesundheitszustand der Befragten (Variable V381) als nominal skalierte Gruppierungsvariable gewählt. Die zugehörige Frage lautet (siehe Terwey et al. 2007, S. 341): „Wie würden Sie Ihren Gesundheitszustand beschreiben?“ Als mögliche Antwort auf diese Frage konnten die Befragten zwischen den Antwortkategorien „sehr gut“, „gut“, „zufriedenstellend“, „weniger gut“ und „schlecht“ wählen. Um wesentliche Aspekte der Diskriminanzanalyse in geeigneter Weise herausstellen zu können, wird die Liste der Antwortmöglichkeiten durch die Zusammenfassung der ersten beiden und der letzten beiden Kategorien auf die drei Kategorien „gut“, „zufriedenstellend“ und „schlecht“ (3-Gruppen-Fall) verdichtet. Als diskriminierende Merkmalsvariablen dienen die drei metrisch skalierten Variablen Alter des Befragten (V484), Nettoeinkommen des Befragten (V631) und Fernsehgesamtdauer pro Tag in Minuten (V383). Nachfolgend werden diese der Einfachheit halber mit Alter, Einkommen und TV-Konsum bezeichnet. Ausgewählt wurden sie aufgrund ihres mutmaßlichen Zusammenhangs mit dem Gesundheitszustand: Mit zunehmendem Alter kommt es im Allgemeinen zu einer Verschlechterung des Gesundheitszustandes. Ein eher schlechter allgemeiner Gesundheitszustand kann aber auch die Folge mangelnder Bewegung resp. sportlicher Freizeitaktivitäten infolge eines erhöhten TV-Konsums sein. Andererseits können sich die mit einem steigenden Einkommen verbundenen finanziellen Möglichkeiten positiv auf die Gesundheit auswirken und so, in Summe, mit einer Verbesserung des Gesundheitszustandes einhergehen. Im Gegensatz zu den „Besserverdienenden“, die darüber hinaus oft auch weniger gesundheitsgefährdende oder den Körper belastende Arbeiten verrichten, können sich Personen mit niedrigerem Einkommen eine umfassende Gesundheitsvorsorge aus Kostengründen vielfach erst gar nicht leisten und fühlen sich deshalb häufiger schlecht. Die zu untersuchende Fragestellung lässt sich damit wie folgt präzisieren: –
Haben das Alter und die finanzielle Situation einer Person sowie die Zeit, die sie vor dem Fernseher verbringt, einen signifikanten Einfluss auf den wahrgenommenen Gesundheitszustand?
516
Reinhold Decker, Silvia Rašković und Kathrin Brunsiek
Tab. 2: Stichprobenstruktur und Gruppenstatistiken Gruppe
Merkmalsvariablen
Gruppe 1 gut (I1 = 1339) Gruppe 2 zufriedenstellend (I2 = 658) Gruppe 3 schlecht (I3 = 349) Gesamt (I = 2346)
– – –
Mittelwerte
Standardabweichungen
Alter Einkommen TV-Konsum Alter Einkommen TV-Konsum Alter Einkommen TV-Konsum
42,59 1351,31 154,70 55,08 1236,74 181,39 60,48 1007,69 221,69
15,141 985,877 118,403 16,022 893,050 117,063 15,743 760,272 173,919
Alter Einkommen TV-Konsum
48,76 1268,06 172,15
17,115 937,080 129,963
Wie groß sind die Unterschiede zwischen den drei auf Basis des empfundenen Gesundheitszustands gebildeten Gruppen? Welchen individuellen Beitrag leisten die gewählten Merkmalsvariablen Alter, Einkommen und TV-Konsum zur Gruppentrennung? Ist das unterstellte lineare Modell zur Trennung der Gruppen geeignet und erlaubt es somit die Prognose des Gesundheitszustands von bislang nicht betrachteten Personen?
In die mittels der Statistiksoftware SPSS durchgeführte Analyse konnten nach Umkodierung der Gruppierungsvariablen insgesamt I = 2346 Fälle eingehen. Tabelle 2 gibt einen Eindruck vom Profil der Gesamtstichprobe und der Struktur der betrachteten Gruppen. Es ist ersichtlich, dass sich die Gruppengrößen Ig erheblich unterscheiden. Jene, die ihren Gesundheitszustand als gut bezeichnen, überwiegen mit 1339 Personen deutlich. Die zweite Gruppe („zufriedenstellend“) ist mit 658 Personen nur ungefähr halb so groß wie die erste und etwa doppelt so groß wie die dritte („schlecht“). Im Vergleich zur Gesamtstichprobe sind zwischen den Gruppen teilweise markante Mittelwertunterschiede erkennbar. Diese spiegeln die oben skizzierten Tendenzen im Hinblick auf die Beeinflussung des gesundheitlichen Wohlbefindens wider. Ein Test auf Gleichheit der Gruppenmittelwerte weist bzgl. aller drei Merkmale auf hoch signifikante Unterschiede hin. Die beobachteten Unterschiede zwischen den Gruppen scheinen somit nicht zufälliger Natur zu sein. Ob diese Unterschiede aber tatsächlich ausreichen, um die Gruppen eindeutig voneinander zu trennen, bleibt noch zu prüfen. Die Anwendung des Instrumentariums der Diskriminanzanalyse liefert 2 = min{3 − 1,3} kanonische Diskriminanzfunktionen, deren Kenngrößen in Tabelle 3 zusammengefasst sind. Der für die erste Diskriminanzfunktion vorliegende größte Eigenwert beträgt γ1 = 0,261 und geht mit einem Anteil von 98,2 % an der erklärten Varianz einher. Die zweite Diskriminanzfunktion leistet mit 1,8 % im Vergleich dazu nur einen sehr geringen Beitrag zur Varianzerklärung, sollte aufgrund ihrer Signifikanz allerdings durchaus im
20 Diskriminanzanalyse
517
Tab. 3: Charakteristika der kanonischen Diskriminanzfunktionen Funktion Eigenwert Erklärte Kanonische Wilks’ ChiFreiheits- Signifikanz Varianz Korrelation Lambda Quadrat grade 1 2
0,261 0,005
98,2 % 1,8 %
0,455 0,069
0,793 0,995
554,327 11,092
6 2
0,000 0,004
Auge behalten werden. Im Folgenden wird deshalb hauptsächlich auf die Ergebnisse und Interpretation der ersten Funktion eingegangen. Für die Trennung der Gruppen werden, mit Blick auf die zu erzielende Separationsgüte, beide Funktionen herangezogen. Einen ersten Hinweis auf die Güte der Diskriminanz der ersten 3 Funktion liefert der kanonische Korrelationskoeffizient mit einem Wert von c1 = 0,261/(1+0,261) = 0,455. Dies entspricht einem Anteil der erklärten Streuung an der Gesamtstreuung der Diskriminanzwerte von nur 20,7 % und deutet auf eine eher mäßige Trennkraft der Diskriminanzfunktion hin (der korrespondierende Wert für Wilks’ Lambda beträgt Λ = 1/(1+0,261) = 0,793). Das gewählte Modell scheint somit zwar noch Verbesserungspotenzial zu besitzen, weist aber dennoch bereits eine durchaus akzeptable Erklärungskraft auf. Die nahe liegende Hinzunahme weiterer diskriminierender Variablen zur Verbesserung des Modells blieb im vorliegenden Fall ohne nennenswerte Verbesserung. Gleichzeitig führte eine Überprüfung der Diskriminanzfunktion auf Signifikanz mittels Bartlett’s V zu einer signifikanten Ablehnung der Nullhypothese gleich großer Gruppenmittel. Dies unterstreicht die grundsätzliche Eignung des Modells mit drei Merkmalsvariablen für die vorliegende Fragestellung. Prinzipiell kann es aber auch bei nachgewiesener Signifikanz zu Problemen bei der Zuordnung neuer Objekte kommen, wenn die Unterschiede zwischen den Gruppenmittelwerten nur sehr gering ausfallen. Der Stellenwert der einzelnen Merkmalsvariablen im Hinblick auf die Trennung der Gruppen lässt sich zum einen anhand der standardisierten und somit um Skaleneffekte bereinigten kanonischen Diskriminanzkoeffizienten (siehe Tabelle 4) und zum anderen anhand der Koeffizienten der von Multikollinearität zwischen den unabhängigen Variablen befreiten Strukturmatrix (siehe Tabelle 5) ablesen. Hierbei gibt die Höhe des Absolutbetrages des Koeffizienten die Wichtigkeit der betreffenden Merkmalsvariable und das Vorzeichen die Richtung ihres Einflusses an, wobei für die Interpretation die Richtung der den Variablen zugrunde liegenden Skalen entscheidend ist. Beide Tabellen signalisieren im vorliegenden Fall bezüglich der ersten Funktion, dass die Variable Alter (x1 ) den höchsten Erklärungsbeitrag leistet, gefolgt von Einkommen (x2 ) und TV-Konsum (x3 ) mit einem jeweils deutlich geringen Beitrag. Im Gegensatz zum Merkmal Einkommen, das erwartungsgemäß einen positiven Einfluss hat, wirken sich die Merkmale Alter und TV-Konsum negativ aus (Orientierung der Skala: gut → zufriedenstellend → schlecht). Je höher das Einkommen desto besser das gesundheitliche Wohlbefinden und je höher das Alter bzw. der TV-Konsum desto schlechter der empfundene Gesundheitszustand. Bei der zweiten Diskriminanzfunktion liefert der TV-Konsum den größten Erklärungbeitrag, diesmal jedoch mit negativem Vorzeichen, d. h. höherer TV-Konsum geht mit einem besseren Gesundheitszustand einher. Die
518
Reinhold Decker, Silvia Rašković und Kathrin Brunsiek
Tab. 4: Standardisierte kanonische Diskriminanzkoeffizienten Funktion
Alter
1 2
0,924 0,403
Einkommen −0,286 0,533
TV-Konsum 0,228 −0,700
Tab. 5: Strukturmatrix Funktion
Alter
1 2
0,923 0,377
Einkommen −0,237 0,644
TV-Konsum 0,350 −0,720
positiven Vorzeichen bei den Merkmalen Alter und Einkommen deuten darauf hin, dass mit zunehmendem Alter und Einkommen die Einschätzung des Gesundheitszustandes sinkt. Unter Rückgriff auf die normierten kanonischen Diskriminanzkoeffizienten hat die erste Diskriminanzfunktion die folgende Gestalt: y norm = −2,8251 + 0,0597x1 − 0,0003x2 + 0,0018x3 Für die vorliegende Datengrundlage führt dies zu folgenden Gruppenzentroiden: y¯1 = −0,425 (für Gruppe 1), y¯2 = 0,404 (für Gruppe 2) und y¯3 = 0,868 (für Gruppe 3). Die aus der Gruppenstärke resultierende A-priori-Wahrscheinlichkeit für den Gesundheitszustand gut beträgt π1 = 57,1 %, jene für das Urteil zufriedenstellend π2 = 28,0 % und die für das Urteil schlecht π3 = 14,9 %. Da es sich um Gruppen mit stark unterschiedlichen Stichprobenumfängen handelt, wird zur Beurteilung der Güte der ermittelten Diskriminanzfunktion das Proportional-Kriterium herangezogen, mit: Cprop =
3
πg2 = 0,5712 + 0,2802 + 0,1492 = 0,4266
g=1
Dies bedeutet, dass bei einer zufälligen Zuordnung zu den Gruppen auf Basis der relativen Gruppenstärke eine Trefferquote von 42,66 % zu erzielen ist. Ginge es hingegen vornehmlich darum, die Personen mit gutem Gesundheitszustand (Gruppe 1) richtig zuzuordnen, so würde das Maximum-Kriterium greifen. Die zufällige Trefferquote würde dann Cmax = max (0,571; 0,280; 0,149) = 57,1 % 1≤g≤3
betragen. Die Ergebnisse einer methodengestützten Klassifikation sind der Tabelle 6 zu entnehmen. Diese Art von Kreuztabellierung, in der die Häufigkeiten der korrekt bzw. falsch zugeordneten Objekte jeder Gruppe zusammengefasst sind, wird auch Klassifikationsmatrix genannt. Die Anzahl bzw. der Anteil der richtig zugeordneten Fälle pro Gruppe befindet sich auf der Hauptdiagnonalen der Klassifikationsmatrix,
20 Diskriminanzanalyse
519
Tab. 6: Erzielte Klassifikationsergebnisse
Tatsächliche Gruppenzugehörigkeit
Vorhergesagte Gruppenzugehörigkeit
gut zufriedenstellend schlecht Gesamt
gut
zufriedenstellend
schlecht
Gesamt
1159 (86,6 %) 380 (57,8 %) 157 (45,0 %)
163 (12,2 %) 245 (37,2 %) 143 (41,0 %)
17 (1,3 %) 33 (5,0 %) 49 (14,0 %)
1339
1696
551
99
658 349 2346
während sich die Fehlklassifikationen außerhalb der Hauptdiagonale wiederfinden. Die im vorliegenden Fall erzielte Trefferquote beträgt 61,9 % und ist damit um 19,24 Prozentpunkte höher als der entsprechende Wert des Proportional-Kriteriums. Dies bedeutet eine relative Verbesserung um 45,1 %. Die Verwendung der ermittelten Diskriminanzfunktionen zur Bestimmung der Gruppenzugehörigkeit ist somit klar einer zufälligen Zuordnung der Objekte vorzuziehen. Würde man die Berechnungen mit den ursprünglichen fünf anstatt mit drei Gruppen durchführen, so stünde einer Trefferquote von 47,8 % ein Cprop -Wert von 29,57 % gegenüber. Ohne den aus obiger Umkodierung resultierenden Informationsverlust käme es durch die Anwendung der Diskriminanzanalyse sogar zu einer relativen Verbesserung um 61,7 % im Vergleich zur zufälligen Gruppenzuweisung. Die gewählten Merkmalsvariablen können also ganz offensichtlich deutlich zur Unterscheidung und Erklärung der Gruppenzugehörigkeit beitragen. Versucht man nun z. B. anhand der ersten ermittelten Diskriminanzfunktion die unbekannte Gruppenzugehörigkeit einer 35-jährigen Person mit einem Einkommen von 1500 Euro und einem täglichen Fernsehkonsum von 120 Minuten zu bestimmen, so ergibt sich folgender Diskriminanzwert: y = −2,8251 + 0,0597 · 35 − 0,0003 · 1500 + 0,0018 · 120 = −0,9696 Da der ermittelte Wert links vom Gruppenzentroiden (¯ y1 = −0,425) der ersten Gruppe liegt, kann die Person gemäß Distanzkonzept als Mitglied der ersten Gruppe klassifiziert werden.
4 Häufige Fehler Bei der Durchführung einer Diskriminanzanalyse kann es wie bei jedem komplexeren Analyseverfahren an verschiedenen Stellen zu Problemen oder Ergebnisverzerrungen kommen. Einige kritische Punkte sind der nachfolgenden Auflistung zu entnehmen: –
Grundsätzlich gilt, dass die Anwendung einer Diskriminanzanalyse auf „schlechte“ resp. ungeeignete Daten zwangsläufig auch zu schlechten Analyseergebnissen führt.
520
–
– –
–
–
–
–
–
Reinhold Decker, Silvia Rašković und Kathrin Brunsiek
Ein häufiges Problem bei diskriminanzanalytischen Untersuchungen ist die Verletzung der Basisannahmen. Eine nicht gegebene multivariate Normalverteilung der unabhängigen Variablen sowie eine nicht ausreichende Homogenität der Kovarianzen können insbesondere dann Schwierigkeiten bereiten, wenn nur ein geringer Gesamtstichprobenumfang vorliegt. Auch das Vorliegen von Multikollinearität kann Probleme bei der Schätzung der Koeffizienten aufwerfen. Bei Abweichungen von der Normalverteilung empfiehlt sich eine Logarithmierung der Variablenwerte. Um die Inhomogenität der Kovarianzmatrizen aufgrund stark unterschiedlicher Skalierungen der Merkmalsausprägungen zu reduzieren, bietet sich die Standardisierung der Merkmalsvariablen an. Zahlreiche empirische Studien haben aber auch gezeigt, dass die wenigstens näherungsweise Erfüllung der Annahmen die Diskriminanzanalyse zu einem einfach anzuwendenden und effektiven Verfahren zur Lösung von Klassifikationsproblemen werden lässt. Falls der zu analysierende Datensatz zahlreiche Ausreißer enthält, so kann dies mit einer Verletzung der Normalverteilungsannahme einhergehen. Ist die Anzahl der zu untersuchenden Merkmalsvariablen sehr groß, so ist die lineare Diskriminanzanalyse in ihrer klassischen Form nur noch dann sinnvoll einsetzbar, wenn auch eine ausreichend große Stichprobe vorliegt. Bei einer Kreuzvalidierung ist darauf zu achten, dass die Trainings- und Teststichproben nicht zu kleine Umfänge aufweisen. Außerdem wird die Güte der Diskriminanzfunktion zwangsläufig überschätzt, wenn für Kalibrierung und Validierung der Diskriminanzfunktion(en) die gleiche Stichprobe zum Einsatz kommt. Sowohl in der Kalibrierungs- als auch in der Validierungsstichprobe können bezüglich der Ausprägungen der Merkmalsvariablen der Objekte fehlende Werte auftreten. Eine Möglichkeit, diesem Problem zu begegnen, besteht in der Imputation der fehlenden Ausprägungen, z. B. in Form der Gesamt- oder Gruppenmittelwerte des betreffenden Merkmals. Fehlt in der Kalibrierungsstichprobe bei einem Objekt indes die Gruppenzugehörigkeit, so muss es aus der Stichprobe entfernt werden. Beim Einsatz iterativer Verfahren zur Spezifikation der Diskriminanzfunktion(en) (schrittweise Diskriminanzanalyse) ist zu beachten, dass Interaktionseffekte, die zu einer Über- oder Unterschätzung der Diskriminanzkoeffizienten führen können, möglicherweise unberücksichtigt bleiben. Von einer Nutzung der Diskriminanzanalyse als Instrument zur Überprüfung der Adäquanz einer als Ergebnis einer Clusteranalyse ermittelten Gruppierung muss abgeraten werden, da es sich bei derartigen „diskriminanzanalytischen Validierungen“ auf Basis identischer Stichproben um keine wirklich objektiven Prüfungen handelt und somit eine nachträgliche Ablehnung der Gruppierung eher unwahrscheinlich ist. Gruppenzugehörigkeiten, die aus einer vorgeschalteten Clusteranalyse stammen, können in der Diskriminanzanalyse nur dann sinnvoll verwendet werden, wenn wie bei der Kreuzvalidierung jeweils unterschiedliche Stichproben zum Einsatz kamen. Probleme können sich auch dann ergeben, wenn in einer oder mehreren Gruppen z. B. eine große Anzahl fehlender Werte bei den Merkmalsvariablen, hochgradig korrelierte Variablen und/oder solche mit gegen Null gehender Standardabweichung vorliegen. Auch extreme Unterschiede in den Stichprobenumfängen der
20 Diskriminanzanalyse
521
betrachteten Gruppen oder ein hoher Anteil an Ausreißern können die Qualität der Analyseergebnisse nachhaltig beeinträchtigen. Gerade die Probleme im Zusammenhang mit Verletzungen der Basisannahmen waren in den letzten Jahren Anlass für die Entwicklung alternativer Methoden der Diskriminanzanalyse, z. B. auf Basis von Support Vector Machines oder künstlichen Neuronalen Netzen. Der Vollständigkeit halber sei noch angemerkt, dass gerade die logistische Regression als geeignete Alternative zur linearen Diskriminanzanalyse anzusehen ist, da sie sich auf ähnliche Untersuchungsgegenstände anwenden lässt und sowohl als Diagnose- als auch als Prognoseinstrument genutzt werden kann. Im Falle der Notwendigkeit der Einbeziehung nicht-metrischer resp. nominal skalierter Merkmalsvariablen sollte im Interesse der Robustheit der Schätzergebnisse im Zwei-Gruppen-Fall die logistische Regression der linearen Diskriminanzanalyse vorgezogen werden. Eine vergleichende Betrachtung der beiden Verfahren findet sich z. B. bei Frenzen & Krafft (2008, S. 646 f.).
5 Literaturempfehlungen Neben den bereits zitierten Quellen lassen sich noch weitere Empfehlungen für eine Vertiefung der behandelten Thematik geben: Für einen leicht verständlichen, anwendungsorientierten Überblick zur Durchführung einer Diskriminanzanalyse bietet sich die Lektüre von Hair et al. (2009) an. Eine gute Einführung in die mathematischen Grundlagen der Diskriminanzanalyse auf Basis des Wahrscheinlichkeitskonzepts ist in Fahrmeir et al. (1996) zu finden. Zudem werden dort zahlreiche Varianten und Sonderformen der Diskriminanzanalyse, beispielsweise mit Blick auf deren Anwendung auf nicht-metrisch skalierte Merkmalsvariablen oder Verletzungen anderer Annahmen, eingehend diskutiert. Die Werke von Seber (1984) und Hastie et al. (2009) sind insbesondere aufgrund der ausführlichen mathematisch-statistischen Darstellung der Diskriminanzanalyse zu empfehlen. Empfehlenswert erscheint auch die flankierende Lektüre des didaktisch gut aufbereiteten Diskriminanzanalysekapitels im Buch von Handl (2002). Für die computergestützte Durchführung einer Diskriminanzanalyse mit Hilfe der Statistikpakete SPSS, SAS oder STATA sei auf die aktuellen Versionen der entsprechenden Benutzerhandbücher verwiesen. Eine gute Beschreibung entsprechender Analysen mittels SPSS anhand von Beispielen, die sich leicht nachrechnen lassen, bieten Brosius (2006), Janssen & Laatz (2007) und Bühl (2008). Abschließend sei noch angemerkt, dass mit dem Statistikpaket R mittlerweile auch eine kostenlose und dennoch sehr leistungsfähige Alternative zur Durchführung von Diskriminanzanalysen existiert. Die Software lässt sich vom Internetportal www.r-project.org herunterladen, wo sich auch entsprechende Benutzerhandbücher finden.
522
Reinhold Decker, Silvia Rašković und Kathrin Brunsiek
Literaturverzeichnis Backhaus, K., Erichson, B., Plinke, W., & Weiber, R. (2008). Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Berlin: Springer, 12. Auflage. Bartlett, M. S. (1947). Multivariate Analysis. Journal of the Royal Statistical Society, 9, 176–197. Brosius, F. (2006). SPSS 14. Heidelberg: Mitp-Verlag. Bühl, A. (2008). SPSS 16: Einführung in die moderne Datenanalyse. München: Pearson Studium, 11. Auflage. Cooley, W. W. & Lohnes, P. R. (1971). Multivariate Data Analysis. New York: John Wiley & Sons, Inc. Decker, R. & Temme, T. (2000). Diskriminanzanalyse. In A. Herrmann & C. Homburg (Hg.), Handbuch Marktforschung. Methoden - Anwendungen - Praxisbeispiele (S. 295–335). Wiesbaden: Gabler, 2. Auflage. Fahrmeir, L., Häußler, W., & Tutz, G. (1996). Diskriminanzanalyse. In A. Hamerle & G. Tutz (Hg.), Multivariate statistische Verfahren (S. 357–435). Berlin: de Gruyter, 2. Auflage. Fisher, R. A. (1936). The Use of Multiple Measurements in Taxonomic Problems. Anals of Eugenics, 7, 179–188. Frenzen, H. & Krafft, M. (2008). Logistische Regression und Diskriminanzanalyse. In A. Herrmann, C. Homburg, & M. Klarmann (Hg.), Handbuch Marktforschung. Methoden Anwendungen - Praxisbeispiele (S. 607–649). Wiesbaden: Gabler, 3. Auflage. Hair, J. F., Black, W. C., Babin, B. J., & Anderson, P. E. (2009). Multivariate Data Analysis - A Global Perspective. Upper Saddle River: Pearson, 7. Auflage. Handl, A. (2002). Multivariate Analysemethoden. Theorie und Praxis multivariater Verfahren unter besonderer Berücksichtigung von S-PLUS. Berlin: Springer. Hastie, T., Tibshirrani, R., & Friedman, J. (2009). The Elements of Statistical Learning. Data Mining, Inference, and Prediction. New York: Springer, 2. Auflage. Janssen, J. & Laatz, W. (2007). Statistische Datenanalyse mit SPSS für Windows. Eine anwendungsorientierte Einführung in das Basissystem und das Modul Exakte Tests. Berlin: Springer, 6. Auflage. Klecka, W. R. (1980). Discriminant Analysis, Band 07-019 von Quantitative Applications in the Social Sciences. Beverly Hills: Sage Publications. Mardia, K. V. (1970). Measures of Multivariate Skewness an Kurtosis with Applications. Biometrika, 57, 519–530. Mardia, K. V. (1974). Applications of Some Measures of Multivariate Skewness and Kurtosis for Testing Normality and Robustness Studies. Sankhya: Indian Journal of Statistics, 36, 115–128. Mika, S., Rätsch, G., Weston, J., Schölkopf, B., & Müller, K.-R. (1999). Fisher Discriminant Analysis with Kernels. In Neural Networks for Signal Processing IX. Proceedings of the 1999 IEEE Signal Processing Society Workshop (S. 41–48). Madison: Institute of Electrical & Electronics Engineers. Morrison, D. (1969). On the Interpretation of Discriminant Analysis. Journal of Marketing Research, 6 (2), 156–163.
20 Diskriminanzanalyse
523
Schneider, H. (2007). Nachweis und Behandlung von Multikollinearität. In Methodik der empirischen Forschung (S. 183–198). Wiesbaden: Gabler, 2. Auflage. Seber, G. (1984). Multiple Observations. New York: Wiley. Tatsuoka, M. M. (1988). Multivariate Analysis - Techniques for Educational and Psychological Research. New York: Macmilllan Publishing Company, 2. Auflage. Terwey, M., Bens, A., & Baltzer, S. (2007). Datenhandbuch ALLBUS 1980 - 2006. Köln: GESIS. Yildiz, O. T. & Alpaydin, E. (2005). Linear Discriminant Trees. International Journal of Pattern Recognition, 19, 323–353.
21 Clusteranalyse Michael Wiedenbeck und Cornelia Züll GESIS – Leibniz-Institut für Sozialwissenschaften, Mannheim
Zusammenfassung. Clusteranalyse ist ein Verfahren der numerischen Klassifikation für den Fall, dass die Klassen noch nicht (vollständig) bekannt sind und aus Daten erst konstruiert werden müssen. Das Fehlen eines generellen Daten- oder statistischen Modells als formales Gerüst für die Konstruktion von Klassifikationen führt zu einer inzwischen kaum mehr überschaubaren Anzahl von Verfahren zur Entdeckung einer Clusterstruktur. Der Erfolg der Anwendung hängt von der „richtigen“ Kombination von Daten und Verfahren ab, die aber – außer bei Simulationsdaten – genau so wenig bekannt ist wie die Clusterstruktur selbst. Im Folgenden behandeln wir zwei Verfahrensklassen, die dem Anwender seit langem in allen großen Statistikpaketen zur Verfügung stehen: agglomerative hierarchische Verfahren und K-Means. Erstere setzen die Wahl von geeigneten numerischen Differenzmaßen und deren Erweiterung auf Aggregate von Einzelbeobachtungen voraus. Sukzessiv werden Einzelbeobachtungen zu Gruppen, und Gruppen zu größeren Gruppen bis zum Erreichen der Gesamtstichprobe zusammengefasst. Die Anzahl möglicher Cluster muss aus der Abfolge der Differenzmaße nach einem „Ellenbogenkriterium“ erschlossen werden. Bei K-Means wird die Anzahl der Cluster vorausgesetzt. Partitionen der Stichprobe werden nach einem Heterogenitätsindex bewertet, der die Homogenität der Cluster und ihre Differenz voneinander misst, und eine Startpartition durch einen Austauschalgorithmus in eine Konfiguration überführt, die dem Minimaldistanzkriterium genügt. Unter allen Partitionen mit dieser Eigenschaft befindet sich diejenige mit minimaler Heterogenität. Abschließend stellen wir das TwoStepVerfahren (SPSS) dar, das eine Verallgemeinerung der agglomerativ-hierarchischen Verfahren zur Verarbeitung extrem großer Stichprobenumfänge ist.
1 Einführung in das Verfahren Clusteranalyse ist ein Verfahren der Mustererkennung (pattern recognition). Ziel ist die Konstruktion von Typologien anhand von Stichproben von multivariaten Beobachtungen. Der Ansatz der Clusteranalyse setzt voraus, dass diese Stichprobe eine bestimmte Gruppenstruktur aufweist. Diese Struktur ermöglicht, dass sich die Stichprobe in eine Anzahl von Substichproben, so genannte Cluster, aufteilen lässt, deren Einheiten innerhalb der Cluster deutlich größere Ähnlichkeit untereinander besitzen als zwischen verschiedenen Clustern. Ist diese Clustereigenschaft von Substichproben noch ungeklärt, so sprechen wir von Aggregaten. Die hier dargestellten Verfahren verwenden keine statistischen Modelle. Mit Ausnahme von sehr speziellen nicht-parametrischen Tests stehen daher auch keine statistischen Tests für die Prüfung von Hypothesen zu den Clusterstrukturen zur Verfügung. S. 525–552 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_21, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
526
Michael Wiedenbeck und Cornelia Züll
Basis der Verfahren sind numerische Maße für die paarweise Ähnlichkeit oder Differenz der multivariaten Profile der Einheiten. Auf dieser Grundlage werden die Einheiten in verschiedene Gruppen sortiert, die der o. g. Vorstellung maximaler Homogenität innerhalb der Gruppen und maximaler Heterogenität zwischen den Gruppen entsprechen sollen. Oder, bei einem anderen modus operandi, es werden bereits bestehende Gruppen sukzessiv durch Umsortierung einzelner Einheiten zu optimalen Partitionen verändert. Die Sortierung der Einheiten wird durch Clusteralgorithmen geleistet, die in großer Vielfalt und Differenziertheit entwickelt wurden, und die zu durchaus unterschiedlichen Resultaten bei ein und derselbe Stichprobe führen. Zu einer Systematik der Algorithmen siehe Theodoridis & Koutroumbas (2003, S. 431 ff.). In den üblichen Statistik-Paketen findet sich davon nur eine relativ kleine Anzahl von Verfahren, über deren Parameter der Anwender allerdings vorab eine Reihe von Entscheidungen treffen muss. Sind alle Variablen quantitativ und ist die genaue oder ungefähre Anzahl der Cluster einer gesuchten Struktur bekannt, dann ist mit dem K-Means Verfahrens eine direkte Optimierung der Binnenhomogenität und der Zwischenheterogenität im obigen Sinne möglich, wenn man den Algorithmus mit einer plausiblen Partition starten kann. Gibt es aber zur Clusteranzahl keinerlei Informationen, so sind diese aus dem Clusterverfahren selbst abzuleiten. Dies geschieht mit den hierarchisch-agglomerativen Verfahren, bei denen – beginnend mit den einelementigen Aggregaten – sehr viele, sehr kleine (und sehr homogene) überschneidungsfreie Aggregate gebildet werden, die dann zu größeren, möglichst homogenen überschneidungsfreien Aggregaten zusammengefasst werden. Die Heterogenität dieser Aggregate wächst mit ihrem Umfang, bis sie bei der Vereinigung zu einem einzigen Aggregat, der Ausgangsstichprobe, maximal wird. Numerisch wird die wachsende Heterogenität in einer Folge von Kennwerten (Fusionswerte) ausgedrückt, an deren Verlauf sich nach einem „Ellenbogen“-Kriterium – ähnlich wie in der Faktorenanalyse oder in der MDS – eine Clusterzahl bzw. ein Intervall für die Clusteranzahl ablesen lässt (vgl. auch die Kapitel 15 und 17 in diesem Handbuch). Ist ein geeignetes Differenzmaß gewählt, so laufen sowohl die Algorithmen der hierarchisch-agglomerativen Verfahren als auch K-Means bis zur vollständigen Sortierung aller Fälle durch. Dies führt entweder zur vollständigen Konstruktion einer hierarchischen Folge von Partitionen oder zu einer „optimalen“ Partition mit vorgegebener Anzahl von Substichproben. Die Clusteranalyse bietet a priori keine formelle Regel für die Wahl der „richtigen“ Clusterzahl. Scheinbare Ausnahmen sind einige heuristisch motivierte Regeln, die sich in Simulationen bewährt haben. Siehe hierzu z. B. Everitt et al. (2001, S.77/103). Die Bestimmung der Clusteranzahl mit Hilfe der vom Algorithmus berechneten Kennwerte obliegt dem Anwender wie auch die Interpretation der in den gewählten Clustern zusammengefassten Einheiten als Variationen inhaltlich sinnvoller Typen. 1.1 Was ist Clusteranalyse und was sind überhaupt Cluster? Clusteranalyse von Daten ist der systematische Versuch, Substichproben von untereinander ähnlichen Beobachtungen in einer Stichprobe zu finden, wobei sich diese
21 Clusteranalyse
527
Substichproben als Gruppen möglichst deutlich voneinander unterscheiden sollen. Die Gruppen, auch Cluster genannt, sind also nach einem ersten Verständnis durch Homogenität der Beobachtungen innerhalb einer Gruppe und Heterogenität der Beobachtungen zwischen unterschiedlichen Gruppen charakterisiert. Für Clusteranalysen liegen in der Regel Stichproben von Beobachtungseinheiten mit einem einheitlichen Satz von Variablen vor. Die Daten, für die wir uns in dieser Darstellung interessieren, haben also die Form einer Rechtecksmatrix, in der die Zeilen die Beobachtungseinheiten und die Spalten die Variablen repräsentieren. Für Clusteranalysen spielt der Prozess, mit dem die Stichproben generiert werden, (zunächst) eine nachgeordnete Rolle. Hier stehen vielmehr Methoden und Algorithmen zur Sortierung von Beobachtungseinheiten im Vordergrund, die die Einheiten nach Maßgabe ihrer multivariaten Profile gegenseitig zuordnen, sukzessiv zu Gruppen zusammenfassen oder Gruppen von Einheiten in Untergruppen aufspalten, neue Gruppen durch Umordnung von Einheiten definieren etc. Clusteranalyse ist also eine Klasse von Verfahren für die Exploration, Deskription und Sortierung von Daten mit dem Ziel, Gruppenstrukturen im obigen Sinne zu finden.1 Die hier betrachteten Algorithmen liefern als Resultate Partitionen oder Hierarchien von Partitionen zusammen mit Parametern der einzelnen Schritte der Algorithmen. Dem Anwender obliegt dann die Beurteilung, ob diese Resultate zusammen mit einer substantiellen Theorie zur Identifizierung von Clustern sinnvoll sind. 1.2 Clusterstrukturen Im Idealfall (für die hier betrachteten Verfahren) zerfällt eine Stichprobe in eine Anzahl von homogenen Clustern, die sich voneinander klar unterscheiden. Es ist aber auch denkbar, dass es eine oder mehrere Gruppen von Beobachtungen gibt, die sich untereinander und vom Rest der Stichprobe deutlich unterscheiden und daher als Cluster anzusehen sind, ohne dass der Rest selbst eine Clusterstruktur besitzt. Eine andere Variante wäre beispielsweise, wenn sich (ein oder mehrere) Cluster in Subcluster aufspalten lassen, d. h. wenn ein Cluster homogen ist verglichen mit der Menge aller Beobachtungen außerhalb seiner selbst, als Substichprobe aber eine Substruktur von Clustern besitzt. Diese verschiedenen Konfigurationen bezeichnen wir als Clusterstrukturen. Es geht bei der Clusteranalyse nicht allein um das Auffinden einzelner Cluster, sondern auch um die Bestimmung von Clusterstrukturen auf unterschiedlichen Ebenen, also beispielsweise der Bestimmung von Subclustern eines Clusters. 1.3 Algorithmen Clusteranalyse ist ein Verfahren zur Entdeckung unbekannter Clusterstrukturen. Damit unterscheidet es sich grundsätzlich von Verfahren, bei denen die Gruppenzugehörigkeit 1
Inzwischen werden auch bestimmte Verfahren der statistischen Modellierung dem Gebiet der Clusteranalyse zugerechnet, die wir an dieser Stelle jedoch nicht diskutieren. Einen breiten Überblick über die unterschiedlichen Formen der Clusteranalyse gibt Bacher (1996).
528
Michael Wiedenbeck und Cornelia Züll
der Beobachtungen bekannt ist wie z. B. bei der Diskriminanzanalyse (vgl. Kapitel 20 in diesem Handbuch).2 Bei den hier dargestellten Verfahren werden Algorithmen zur Sortierung einzelner Beobachtungen angewendet, die entweder durch sukzessives Zusammenfassen von Einzelbeobachtungen ein hierarchisches System von Substichproben konstruieren (agglomerative Verfahren) oder durch schrittweise Verbesserung von Partitionen, also überschneidungsfreien Zerlegungen der gegebenen Stichprobe, zu einer in einem bestimmten Sinn optimalen Partition gelangen („K-Means“). Eine bestimmte Clusterstruktur wird im Allgemeinen nicht gleichmäßig gut von unterschiedlichen Algorithmen identifiziert. Umgekehrt setzt die Anwendung der Clusteranalyse nicht voraus, dass es in einer Stichprobe überhaupt so etwas wie eine Clusterstruktur gibt. In einzelnen Fällen lässt sich vielleicht begründen, ob ein bestimmtes Verfahren angemessen oder vielleicht sogar das einzig sinnvolle Verfahren für die Identifizierung einer bestimmten Clusterstruktur ist. Aber man kann bei der Wahl eines Verfahrens nicht auf Hilfsmittel wie Spezifikationstests oder andere auf einer Verteilungstheorie basierte Tests zurückgreifen. Clusteranalyse ist – zumindest im Sinn der hier betrachteten Verfahren – lediglich eine Klasse von Algorithmen zur Sortierung der Einzelbeobachtungen nach unterschiedlichen Kriterien, die in Form von Verfahrensparametern vom Anwender festzulegen sind. Alternative Parameter lassen sich nur mit Intuition und substanzwissenschaftlichen Überlegungen unter Beachtung vorläufiger Resultate, nicht aber nach (inferenz)statistischen Regeln auswählen. 1.4 Variablenräume Die Clusteranalyse fasst einzelne Beobachtungen als geometrische Punkte in einem mehrdimensionalen Variablenraum auf und beschreibt ihre gegenseitige Lage durch Distanzen. Die Auswahl der Variablen haben wir bisher stillschweigend vorausgesetzt. Diese Wahl ist aber zu Beginn der Analyse vom Anwender zu treffen. Rein technisch gesehen ist Clusteranalyse praktisch für jeden Satz von Variablen möglich, wobei eventuell alphanumerische Variablen numerisch codiert und nominal skalierte numerische Variablen in Indikatorvariablen („dummy-Variablen“) transformiert werden müssen. Die technische Anwendbarkeit garantiert jedoch nicht, dass für jede Wahl von Variablen eine Struktur mit ausgeprägten und sinnvoll interpretierbaren Clustern existiert. Es kann etwa bei gegebenen Daten für einen Satz von Variablen eine bestimmte Clusterstruktur bestehen, in einem anderen Variablenraum dagegen eine andere bzw. eine Struktur ohne ausgeprägte Cluster. Das ist bei verschiedenen Variablensätzen aus unterschiedlichen inhaltlichen Bereichen nicht sonderlich überraschend. Es kann aber auch bei unterschiedlichen Variablen des gleichen inhaltlichen Bereichs auftreten. Die Bestimmung von Clustern erfordert also eine „glückliche“ oder eine mit theoretischen Argumenten gut begründete Wahl der Variablen. Manchmal ist auch das Ausprobieren unterschiedlicher sinnvoller Sätze von Variablen erforderlich, um einer Clusterstruktur auf die Spur zu kommen. 2
Gelegentlich wird Clusteranalyse daher auch als ein Verfahren des „unobserved learning“, also der Mustererkennung ohne Vorgabe von Mustern, bezeichnet.
21 Clusteranalyse
529
In bestimmten Situationen sind Clusterstrukturen allerdings auch mit viel Geschick nicht mit den hier vorgestellten Methoden zu identifizieren, weil jedes ihre Cluster sowohl durch spezifische Beobachtungen als auch durch spezifische Variablen definiert ist. Verfahren zur Identifizierung derartiger Strukturen werden unter dem Begriff „Bimodale Clusteranalyse“ zusammengefasst (siehe hier z. B. Eckes 1991). Sie sind nicht Teil der hier vorgestellten Verfahren. Diese setzen dagegen implizit voraus, dass alle Variablen in gleicher Weise für die Cluster von Bedeutung sind. 1.5 Agglomerative Verfahren Ähnlichkeitsmaß, Distanz und Index Agglomerative Verfahren setzen numerische Maße der Ähnlichkeit oder Unähnlichkeit3 zwischen Paaren von Einzelbeobachtungen als Vergleichskriterien voraus. Andere Verfahren bauen auf einem Index auf (siehe dazu Kaufmann & Pape 1984, S. 403 ff.), d. h. einer Maßzahl für die globale Heterogenität einer Partition. Im Fall von Unähnlichkeitsoder Distanzmaßen arbeitet der Algorithmus nach dem folgenden Schema: Ausgehend von der feinsten Zerlegung der gegebenen Stichprobe in das System von einelementigen Teilmengen werden zunächst alle Einheiten paarweise miteinander verglichen, d. h. jedes Paar von Einheiten wird mit dem gewählten Distanzmaß bewertet. Anschließend werden die Paare ihrerseits verglichen und das Paar mit dem kleinsten Wert zu einer neuen Aggregat-Einheit bestehend aus zwei Einheiten zusammengefasst. In der ursprünglichen Partition werden also zwei Einheiten eliminiert und durch ein zweielementiges Aggregat ersetzt. Anschließend wird das Verfahren der Zusammenfassung von Einheiten bzw. Aggregaten analog fortgesetzt, wobei allerdings eine Definition für die Distanz zwischen einer Einheit und einem Aggregat bzw. zwischen zwei Aggregaten vorher festgelegt sein muss. Die sukzessive Agglomeration setzt also Maße a) für die Distanz zwischen Einzelbeobachtungen und b) zwischen Aggregaten (von Einzelbeobachtungen) bzw. zwischen Aggregaten und Einzelbeobachtungen voraus. Der Anwender muss vor der Analyse eine Wahl zwischen verschiedenen Alternativen für beide Arten von Distanzen treffen. Es gibt a priori keine formalen oder numerischen Kriterien für gute oder sogar optimale Entscheidungen. Allerdings hängen die durch die Agglomeration konstruierten Systeme von Aggregaten teilweise extrem stark von den genannten Maßen ab. Ist eine Wahl sowohl für die Distanz von Einzelbeobachtungen als auch für die Distanz zwischen Aggregaten getroffen, so wird in jedem Schritt des Verfahrens eine Partition durch Zusammenfassung von zwei Aggregaten der vorangehenden Partition zu einem neuen Aggregat erzeugt. Dazu wird die Matrix der Distanzen zwischen den Aggregaten der jeweils zuletzt konstruierten Partition berechnet und anschließend aus dem Paar der Aggregate ein neues Aggregat gebildet, die sich nach Maßgabe der gewählten Kriterien am ähnlichsten sind. Die Anzahl der Aggregate wird also um 3
Wir diskutieren im Folgenden der Einfachheit halber nur Unähnlichkeitsmaße und sprechen hier auch von Distanzen. Ähnlichkeitsmaße können in Unähnlichkeitsmaße durch antitone Funktionen transformiert werden.
530
Michael Wiedenbeck und Cornelia Züll
eins vermindert und der Algorithmus mit einer Neuberechnung der Ähnlichkeitmatrix fortgesetzt. Das durch Agglomeration konstruierte System von Aggregaten ist ein hierarchisches System von Substichproben, d. h. zwei beliebige Substichproben sind entweder disjunkt, oder eine von den Substichproben ist in der anderen enthalten. Ziel der Clusteranalyse ist es nun, aus diesem System ein Subsystem von Aggregaten, nämliche eine Partition auszuwählen, die möglichst gut der eingangs beschriebenen Forderung nach möglichst großer Homogenität der Einzelbeobachtungen innerhalb der Aggregate und möglichst großer Heterogenität zwischen den Aggregaten entspricht. Aggregate einer Partition, die diesen Anforderungen hinreichend gut genügt, werden als Cluster bezeichnet. Bei Verfahren, die auf einem Index aufbauen, d. h. einer Maßzahl für die globale Heterogenität einer Partition, wie beispielsweise beim Ward-Verfahren, verfährt der Algorithmus analog: Es werden sukzessiv Einzelbeobachtungen paarweise zu einem Aggregat und weiter Aggregate paarweise zu einem noch größeren Aggregat vereinigt, sodass auch hier eine Hierarchie von immer „gröberen“ Partitionen konstruiert wird. Aus einer bereits erzeugten Partition wird diejenige Partition durch Vereinigung zweier Aggregate gebildet, bei der nach Maßgabe des Index der geringste Heterogenitätszuwachs auftritt. Fusionswerte und Dendrogramme Die Entscheidung für die oben genannte Clusterlösung wird bei agglomerativen Verfahren mit Hilfe des Verlaufs der so genannten Fusionswerte getroffen. Unter einem Fusionswert versteht man die Distanz zwischen denjenigen Aggregaten, die bei einem Schritt des Algorithmus zusammengefasst werden. Für die meisten agglomerativen Verfahren ist die Folge der Fusionswerte monoton wachsend. Man spricht dann von der Monotonieeigenschaft des jeweiligen Verfahrens, die intuitiv der Vorstellung entspricht, dass bei der Agglomeration zunehmend heterogenere Aggregate gebildet werden. Stellen wir uns etwa den Idealfall einer Anzahl von Clustern vor, die einerseits sehr homogen sind, bei denen also innerhalb der Cluster die paarweisen Distanzen zwischen den Einzelbeobachtungen sehr klein sind, andererseits aber die paarweisen Distanzen zwischen Beobachtungen oberhalb eines relativ großen Schwellenwerts liegen. Dann wird bei allen üblichen Verfahren die Folge der Fusionswerte zunächst im Bereich „kleiner“ Werte verbleiben (auch wenn die Fusionswerte keine einfachen Funktionen von paarweisen Distanzen sind), und zwar im Verlauf des Algorithmus solange, bis die durch die Cluster definierte Partition durch den Algorithmus selbst generiert wird. Im nächsten Schritt muss dann ein bestimmtes Paar von Aggregaten zu einem neuen Aggregat vereinigt werden. Wegen der großen paarweisen Distanzen zwischen Beobachtungen in verschiedenen Clustern ist dann auch (in diesem Idealfall) das Minimum aller Distanzen zwischen den Clustern groß (verglichen mit den vorangehenden Fusionswerten). Mit anderen Worten: Die als Kurve aufgetragene Folge der Fusionswerte macht an der Stelle, an der nach der Aggregation von Einzelbeobachtungen und Aggregaten innerhalb von Clustern zum ersten Mal zwei Cluster zusammengefasst werden, einen „Sprung“. Man wird also hoffen, dass sich in der Fusionswertekurve der durchgeführten Agglomeration ein derartiger Sprung zeigt: die Aggregate unmittelbar vor dem „Sprung“
21 Clusteranalyse
531
werden dann als Cluster identifiziert.4 Zugleich bedeutet ein solches Bild, dass die Stichprobe vollständig in eine Anzahl von Clustern zerfällt. Die Folge der Fusionswerte ist auch Teil der Information des so genannten Dendrogramms. Dabei handelt es sich um eine Graphik in Form eines „Baums“, von der sich ablesen lässt, welche Einzelbeobachtungen oder Aggregate bei der sukzessiven Agglomeration in welcher Reihenfolge und gemäß welchen Fusionswerten zusammengefasst werden (siehe Abbildung 2 auf Seite 544). Auch im Dendrogramm lässt sich gegebenenfalls der oben angesprochene „Sprung“ in der Folge der Fusionswerte feststellen. Die dadurch entstehende Lücke („gap“) im Dendrogramm lässt eine einfache Identifizierung der Aggregate zu, die unmittelbar vor dem Sprung gebildet wurden, und die als Cluster interpretierbar sind. Neben der Identifizierung der Clusterlösung „nach Augenmaß“ gibt es auch einige formale Kriterien, die jedoch nur in wenigen Programmen realisiert sind. Dazu gehören z. B. die in Stata implementieren Stop-Regeln (Everitt et al. 2001, S. 103) oder die Entscheidungsregel in TwoStep. Da im Dendrogamm – im Prinzip – die gesamte Hierarchie der Partitionen ablesbar ist, lassen sich auch andere als die Clusterstrukturen erkennen, die sich wie oben beschrieben als Partition darstellen lassen, etwa wenn ein Cluster oder allgemeiner ein Aggregat eine Clustersubstruktur aufweist. Beispielsweise erkennt man in Abbildung 2 (S. 544), dass das ganz unten gelegene Cluster 3 in zwei Subcluster von annähernd gleicher Heterogenität zerfällt. 1.6 Wahl der Metriken und Agglomerationsverfahren Die Durchführung einer Clusteranalyse erfordert neben der Auswahl eines Datensatzes zwei Entscheidungen: Wahl eines Abstands- bzw. eines Ähnlichkeitsmaßes zum Vergleich einzelner Beobachtungen sowie einer Definition für den Abstand bzw. die Ähnlichkeit zweier disjunkter Aggregate von Beobachtungen. Von beiden Entscheidungen kann das Resultat der Analyse, also die Konstruktion der Hierarchie der Aggregate, und damit auch die Identifizierbarkeit von Clustern sehr stark abhängen. Leider bietet die hierarchisch-agglomerative Clusteranalyse in diesem möglicherweise entscheidenden Punkt zwar eine mitunter verwirrende Fülle von Alternativen, aber keine wirkliche Entscheidungshilfe. Dazu kommt, dass bei jeder Wahl von Abstandsmaß und Agglomerationsverfahren „etwas herauskommt“, d. h. es wird eine Hierarchie von Aggregaten konstruiert und zusammen mit der Folge der Fusionswerte zur Verfügung gestellt. Zeigt das Dendrogramm eine Lücke in den Fusionswerten zwischen Aggregaten, die vor und nach einer bestimmten Stufe des Algorithmus gebildet werden, bzw. weist der Fusionswerteverlauf an dieser Stufe einen „Sprung“ nach oben auf, dann scheint für den Anwender alles in Ordnung zu sein. Er kann die Partition an der Sprungstelle als Clusterlösung wählen und sich an die Interpretation machen. Er wird in der Regel aber keinen Zusammenhang zwischen seiner Wahl des Abstands und dem Agglomerationsverfahren und dem Auftreten einer Sprungstelle – oder deren 4
Dieser Idealfall trifft bei „realen“ Daten überwiegend nicht zu. Man wird dann die Aggregate in den Bereichen der Agglomerationsschritte betrachten, für die die Fusionswertekurve eine „beschleunigte“ Steigung zeigt, sich also deutlich nach oben krümmt (siehe Abbildung 1).
532
Michael Wiedenbeck und Cornelia Züll
Fehlen – im Fusionswerteverlauf herstellen können. Er kann natürlich verschiedene Wahlen treffen, was zu empfehlen ist, und dann unterschiedliche Lösungen sowohl hinsichtlich der Anzahl und der Zusammensetzung der Cluster als auch ihrer Homogenität vergleichen. Das Ausmaß von Übereinstimmungen zwischen zwei Lösungen kann deskriptiv durch Kreuztabellen darstellt werden. In ähnlicher Weise können auch variablenspezifische Varianzen als Indikatoren der Heterogenität zwischen unterschiedlichen Lösungen verglichen werden. Die generelle Frage, für welche Art von Daten welches Abstandsmaß und welches Agglomerationsverfahren zu wählen ist, ist bisher nicht beantwortet worden. Theoretische Untersuchungen als auch Monte-Carlo-Studien haben nicht zu schlüssigen Regeln geführt (vgl. Everitt et al. 2001, S. 52 ff., 56 ff. und 89). Als positive Standardempfehlungen kann man die Wahl von Single Linkage – wegen der Eigenschaft der Kettenbildung – insbesondere für die Ausreißeranalyse empfehlen. Für die Analyse von Clustern lässt sich Single Linkage nur verwenden, wenn es nicht auf eine generelle Homogenität der Cluster ankommt, sondern, wie etwa in manchen sozialen Netzwerken, auf die Zugehörigkeit zum Cluster infolge indirekter, über eine Kette vermittelter Beziehungen zu entfernter liegenden Einheiten. Eine weitere Standardregel, die offenbar bereits weithin beachtet wird, ist die Präferenz für Incremental Sum of Squares (Ward) als Agglomerationsverfahren. Die Beliebtheit scheint an der polarisierenden Eigenschaft der quadrierten euklidischen Metrik zu liegen, die benachbarte Beobachtungen mit Abständen < 1 noch näher zusammenrücken lässt und Beobachtungen mit Abständen > 1 noch weiter voneinander entfernt. Weiter wird mit der Summe der quadrierten euklidischen Abstände ein Gesamtmaß für die Heterogenität einer ganzen Partition verwendet. Werden Ausreißer vorher eliminiert, so scheint dieses Verfahren im allgemeinen zu plausiblen Aufteilungen der Stichprobe in homogene Cluster zu gelangen, die durch K-Means, das das gleiche Heterogenitätsmaß verwendet, weiter verbessert werden können. Weniger kritisch ist aus unserer Sicht die Wahl des Abstandsmaßes, da die meisten Metriken topologisch äquivalent sind, wenn es sich nicht gerade um Ultra-Metriken handelt (siehe 2.1). Dennoch können die Unterschiede zu unterschiedlichen Hierarchien führen, da die Rangordnung von Abständen für verschiedene Metriken unterschiedlich ist. In derartigen Situationen könnte man z. B. die Robustheit einer Wahl durch Anwendung anderer Metriken in weiteren Analysen und durch den Vergleich der Resultate prüfen. 1.7 K-Means (Clusterzentrenanalyse) Die Grundidee der agglomerativen Verfahren ist die sukzessive Zusammenfassung der einander ähnlichsten Beobachtungseinheiten. Einmal zu Aggregaten zusammengefasste Einheiten werden im Verlauf der Agglomeration nicht mehr in verschiedene Aggregate umsortiert, sondern als ganze in nachfolgenden Schritten zu größeren Aggregaten vereinigt. Dadurch wird das oben beschriebene hierarchische System von Aggregaten erzeugt, die eine sich vergröbernde Folge von Partitionen der Stichprobe bilden.
21 Clusteranalyse
533
K-Means optimiert dagegen eine gegebene Partition durch eine Folge von Umsortierungen von Einzelbeobachtungen von einem Aggregat in ein anderes. Die Anzahl der Aggregate bleibt unverändert. Optimalitätskriterium ist ein Maß für die Heterogenität von Aggregaten und für Partitionen, nämlich die Summe der quadrierten Abstände der Einzelbeobachtungen (Euclidean Sum of Squares, ESS) von den multivariaten Mittelpunkten der Aggregate, zu denen sie jeweils gehören. Dieses Maß ist ein so genannter Index. Je kleiner dieser Index ist, desto homogener sind die Aggregate und desto besser lassen sie sich als Cluster interpretieren. Gesucht ist daher die Partition mit dem kleinsten Index, gegeben die Anzahl der Aggregate. Der Algorithmus von K-Means sucht nun aber nicht unter der extrem großen Anzahl aller Partitionen mit einer vorgegebenen Anzahl von Aggregaten nach der Partition mit dem kleinsten Index-Wert – dieses Optimierungsproblem ist tatsächlich zu komplex –, sondern beginnend mit einer Startpartition nach einer Partition mit der „Minimum Distanz Eigenschaft“ (MDE). Diese Eigenschaft besagt, dass der Abstand jeder Einzelbeobachtung zum Mittelwert des Aggregats, dem sie angehört, kleiner (oder höchstens gleich) ist als die Abstände zu den Mittelwerten der übrigen Aggregate. Es kann gezeigt werden, dass die MDE eine notwendige Bedingung für eine Partition mit einem minimalen Wert des Index ist. Erfüllt eine Beobachtung die Bedingung der MDE nicht, dann wird sie in das Aggregat desjenigen Mittelwerts sortiert, dem sie am nächsten liegt. Nach der Umsortierung stimmen die Mittelwerte der Startpartition nicht mehr mit denen der neu konstruierten Partition überein. Mit neu berechneten Mittelwerten werden die Daten dann erneut geprüft und umsortiert. Das Verfahren endet, wenn keine Umsortierungen mehr erforderlich sind. Die zuletzt konstruierte Partition besitzt dann die MDE. Nun kann es aber mehr als eine Partition mit der MDE geben. Wenn dies zutrifft, dann konvergiert der obige Algorithmus gegen eine Partition, die sowohl von der Startpartition als auch von der Reihenfolge der im Datenfile angeordneten Beobachtungen abhängt. Um also sicher zu gehen, dass K-Means eine indexminimale Lösung erzeugt hat, muss man die Reihenfolge der Beobachtungen und die Startpartition variieren und die nach erneuter Anwendung von K-Means ermittelten Indexwerte vergleichen. Für K-Means gibt es noch die folgenden technischen Varianten: 1. Beim „running means“ werden neue Aggregatmittelwerte nicht erst nach einem vollständigen Durchlauf durch die Daten, sondern bereits nach jeder Umsortierung für die beiden betroffenen Aggregate berechnet. Dadurch wird das Verfahren etwas schneller, was nach unserer Erfahrung aber nicht besonders entscheidend ist. 2. Die Startpartition kann in Form von – frei konstruierten – Beobachtungen als artifizielle Clustermittelpunkte vorgegeben werden. Dies erleichtert die Suche nach unterschiedlichen MDE-Partitionen (die Implementierung von Startmittelwerten in SPSS ist beschrieben in Wiedenbeck & Züll 2001). Mit dem Programm ClustanGraphics (http://www.clustan.com) und dem Modul „FocalPoint“ können diese Versuchsrechnungen in großer Anzahl bequem durchführt und hinsichtlich der unterschiedlichen Ergebnisse verglichen werden.
534
Michael Wiedenbeck und Cornelia Züll
Für K-Means werden häufig zwei Voraussetzungen angegeben: Erstens die Anzahl der Cluster muss von vornherein bekannt sein, und zweitens alle Variablen sind quantitativ. Letzteres heißt, dass zwischen den Einzelbeobachtungen die euklidische Distanz als Abstandsmaß definiert werden kann. Die erste Voraussetzung kann allerdings abgeschwächt werden. Wenn eine exakte Zahl an Clustern nicht vorgegeben werden kann, dann sollte man das Verfahren für unterschiedliche Vorgaben durchführen, beginnend mit einer minimalen und endend mit einer maximalen Clusterzahl. Für jede Lösung sollte man dann die Werte des Kriteriums (wenn es mehrere MDE-Partitionen gibt, deren Minimum) vergleichen, am besten durch Anlage eines Line-Plots. Auch wenn die Vorgabe nicht mit der wahren Clusterzahl übereinstimmt, konvergiert K-Means zu einer Partition mit der MDE. Die Werte des Kriteriums steigen mit fallender Clusterzahl, und zwar sprunghaft für die Clusterzahl, bei der zum ersten Mal zwei deutlich unterscheidbare Cluster auftreten. Die Anzahl vor der Sprungstelle ist dann ein plausibler Wert für die Clusterzahl, und die zugehörige Partition kann weiter daraufhin untersucht werden, ob sie auch inhaltlich eine Typologie repräsentiert. Wenn die Clusterzahl unbekannt ist, dann kann man auch vorab agglomerative Clusteranalysen berechnen, daraus Lösungen bestimmen, und diese Lösungen, die im Allgemeinen die MDE nicht besitzen, als Startlösungen von K-Means einsetzen und optimieren, bzw. dies auf ganze Bereiche von agglomerativ gewonnenen Partitionen mit aufeinander folgenden Werten von Clusterzahlen anwenden. Für agglomerative Lösungen nach dem Ward-Verfahren ist diese Vorgehensweise eine geradezu natürliche Ergänzung, da der Index bei Ward und das Kriterium von K-Means übereinstimmen. 1.8 TwoStep-Clusteranalyse Abschließend stellen wir ein neueres agglomerativ-hierarchisches Verfahren, das TwoStep-Verfahren, vor, das in SPSS seit der Version 11.5 zur Verfügung steht. Die Hersteller nehmen in Anspruch, damit einige wichtige Probleme der angewandten Clusteranalyse in neuer Weise behandeln zu können. In der folgenden Darstellung lehnen wir uns stark an Bacher et al. (2004) an. Mit dem TwoStep-Verfahren sind extrem große Datensätze analysierbar, d. h. z. B. Datensätze mit einer Anzahl von Einzelbeobachtungen in der Größenordnung 105 . Mit dieser Kapazität wird die TwoStep-Clusteranalyse zu einem Verfahren, das für data mining eingesetzt werden kann. Diese Leistungsfähigkeit wird durch ein vorgeschaltetes Präclusterverfahren ermöglicht. In einer zweiten Stufe wird aus den Präclustern der ersten Stufe in einem hierarchisch-agglomerativen Verfahren ein hierarchisches Mengensystem von Präclustern gebildet, das auch eine Hierarchie der Ausgangsstichprobe ist. Bei extrem großen Stichprobenumfängen sind Dendrogramme schlicht nicht mehr darstellbar und können somit auch keine Informationen bzgl. der Anzahl von Clustern liefern. Deswegen wird im SPSS-Modul TwoStep die Clusteranzahl geschätzt. Sie kann allerdings auch vorgegeben werden. TwoStep sieht zwei Optionen für die Bestimmung der Distanzen von Einzelbeobachtungen und Aggregaten vor: Sind sämtliche Variablen kontinuierlich, d. h. intervall-
21 Clusteranalyse
535
skaliert, dann kann die Distanz sowohl durch die euklidische Metrik als auch durch einen Index definiert werden, der entsprechend der Log-Likelihood unter einem bestimmten Verteilungsmodell gebildet wird. Enthalten die Clustervariablen auch kategoriale Variablen (oder bestehen sie ausschließlich aus kategorialen Variablen), dann ist nur das indexbasierte Abstandsmaß möglich.
2 Mathematisch-statistische Grundlagen Die folgenden Abschnitte ergänzen die bisherige Beschreibung in einigen formalen Details, diskutieren die mathematischen Eigenschaften einzelner Verfahren und einige mögliche Konsequenzen für ihre Anwendung. 2.1 Hierarchisch-agglomerative Verfahren Ähnlichkeitsmaße und Distanzen Eine Clusteranalyse setzt die Definition von numerischen Ähnlichkeitsmaßen bzw. Distanzen zwischen den Beobachtungen der zu analysierenden Gesamtheit voraus. In der Mehrzahl der Analysen werden als Distanzmaße so genannte Metriken verwendet. Eine Metrik ist eine reelle Funktion d auf dem kartesischen Produkt S × S einer Menge S von Objekten (Beobachtungen) mit den folgenden Eigenschaften: d(i,j) = d(j,i) ≥ 0 für alle i,j ∈ S d(i,i) = 0 für alle i ∈ S d(i,j) ≤ d(i,k) + d(k,j) für alle i,j,k ∈ S
(1a) (1b) (1c)
In Worten: Der Abstand von i nach j ist gleich dem Abstand von j nach i und nicht negativ. Der Abstand jedes Objekts zu sich selbst ist gleich 0, und der direkte Weg von i nach j ist kürzer als der Umweg über k. Diese Bedingungen erfüllt z. B. die euklidische Metrik, die für multivariate Beobachtungen an Einheiten i ∈ S mit kontinuierlichen Einzelvariablen xip ,i ∈ S, p = 1, . . . ,P wie folgt definiert ist: P dEuklid (i,j) = (xip − xjp )2 (2) p=1
Die euklidische Metrik ist die Metrik, die für drei Variablen der anschaulichen Distanz im dreidimensionalen Raum entspricht. Die Möglichkeiten von Distanzdefinitionen zwischen multivariaten Beobachtungen mit kontinuierlichen Variablen sind damit noch längst nicht ausgeschöpft. Die Menge möglicher – und in den üblichen Softwarepaketen implementierten – Metriken ist (im mathematische Sinne) unendlich groß. Weitere Beispiele findet man in Bacher (1996), Kaufman & Rousseeuw (2005) und Everitt et al. (2001).
536
Michael Wiedenbeck und Cornelia Züll
Tab. 1: Anzahl der 0/1-Kombinationen bei zwei Beobachtungen Beobachtung i
Beobachtung j Summe
1 0
Summe
1
0
a c
b d
a+b c+d
a+c
b+d
a+b+c+d
Eine genauere vergleichende Diskussion der Eigenschaften der verschiedenen Metriken würde den Rahmen dieser Darstellung sprengen. Allerdings gilt für alle gebräuchlichen Metriken d die Ungleichung kd dEuklid ≤ d ≤ Kd dEuklid
(3)
für geeignete Konstanten kd , Kd ≥ 0. Die Abschätzung bedeutet eine gewisse Robustheit der Clusterverfahren gegenüber der Wahl von d (so dass für quantitative Variable nichts gegen die Wahl der euklidischen Metrik spricht): Das Verhältnis d/dEuklid wird nach unten durch kd und nach oben durch Kd beschränkt, „sehr kleine“ d-Abstände bedeuten auch „sehr kleine“ dEuklid -Abstände. Analoges gilt für „sehr große“ Abstände bezüglich d und dEuklid . Die Rangordnung zweier d-Abstände muss aber nicht notwendig die gleiche für die entsprechenden dEuklid -Abstände sein: Aus d(xi ,xj ) ≤ d(xk ,xi ) folgt nicht notwendig dEuklid (xi ,xj ) ≤ dEuklid (xk ,xl ) und umgekehrt. Deswegen können sich die Ergebnisse einer Clusterung bei unterschiedlichen Metriken durchaus unterscheiden, es sei denn, es liegen sehr homogene Cluster vor, die zudem sehr stark voneinander separiert sind. Wegen der polarisierenden Eigenschaft (siehe oben) wird anstelle der euklidischen Metrik mitunter auch ihr quadrierter Wert als Abstandsmaß verwendet, obwohl dieses Maß keine Metrik ist. Eine genauere Überlegung wird erforderlich, wenn die Variablen diskret sind. Handelt es sich um ordinal-skalierte Variablen, so kann man ihre Ausprägungen durch die zugehörigen Rangstatistiken ersetzen und dann wie kontinuierliche Variable behandeln. Kategoriale Variable müssen in mehrere binäre Variable (mit den Ausprägungen 1 für das Vorliegen einer Kategorie und sonst 0) umgewandelt werden, wenn Metriken zur Abstandsbestimmung herangezogen werden sollen. Bei multivariaten Beobachtungen mit kategorialen Variablen sind auch eine Reihe von Ähnlichkeitsmaßen gebräuchlich, die auf der Auszählung von Übereinstimmungen zweier Beobachtungen in den verschiedenen Variablen beruhen. Betrachten wir als Beispiel ein Set von binären Variablen. Dann lassen sich die Übereinstimmungen und Nicht-Übereinstimmungen wie in Tabelle 1 dargestellt zusammenfassen. Der einfache Übereinstimmungskoeffizient sij = (a+d)/(a+b+c+d) setzt die Anzahl der Übereinstimmungen ins Verhältnis zu allen Kombinationen, die bei zwei Beobachtungen auftreten. Dies führt allerdings zu einer fälschlichen Anrechnung der 0-0-Kombinationen als Indikatoren der Ähnlichkeit, wenn die binären Variablen die Ersetzungen von mehrstufigen kategorialen Variablen sind, und die Mehrzahl der 0-0-Kombinationen
21 Clusteranalyse
537
nur das gemeinsame Nichtzutreffen eines Merkmals bei beiden Beobachtungen bedeutet. In diesen Fällen ist ein angemessenes Ähnlichkeitsmaß der Jaccard-Koeffizient sij = a/(a+b+c), bei dem nur die Übereinstimmungen in der „1“ ins Verhältnis zu allen anderen Kombinationen ohne die 0-0-Kombinationen gesetzt werden. Für eine ausführliche Darstellung der Ähnlichkeitsmaße sei auf Kaufman & Rousseeuw (2005) und Everitt et al. (2001) verwiesen. Sollen in der Analyse sowohl kontinuierliche als auch diskrete Variablen als Clustervariablen verwendet werden, dann kann ein gemeinsames Distanzmaß oder ein gemeinsames Ähnlichkeitsmaß als eine gewichtete oder ungewichtete Summe aus den Maßen (Ähnlichkeit oder Distanz) der beiden Variablengruppen gebildet werden. Hier wird als Ähnlichkeitsmaß z. B. der Gower-Index verwendet (siehe Everitt et al. 2001, S. 43). Es ist dabei eine offene Frage, mit welchen relativen Gewichten für die beiden Gruppen die Summe gebildet werden sollte. Gewichtung und Standardisierung von Variablen Variablen mit unterschiedlichen Varianzen können die Konstruktion von Aggregaten teilweise sehr unterschiedlich beeinflussen. In manchen Fällen kann dies erwünscht sein, vielfach wird man aber bei Clusteranalysen einen größeren Einfluss einiger Variablen gegenüber anderen ausschließen wollen. Die Variablen sollten daher zu Beginn einer Clusteranalyse standardisiert werden. Zwei der häufigsten Möglichkeiten sind die z-Transformation, also die Angleichung aller Varianzen auf 1, und die Angleichung der Wertebereiche. Diese Transformationen haben die Form von Gewichten. Gewichte können allgemein zur Verstärkung oder Minderung des Einflusses von Variablen verwendet werden. Die Clusteranalyse liefert keine Anhaltspunkte für Gewichtungen. Erweiterung der Abstandsmaße auf Abstände zwischen Aggregaten Mit dem ersten Schritt der Agglomeration sind Aggregate erzeugt worden, die zusammen mit den Einzelbeobachtungen weiter sortiert werden müssen. Dadurch wird für die Distanzmatrix die Neuberechung aller Abstände zwischen Einzelbeobachtungen und Aggregaten sowie auch im weiteren Verlauf der Aggregation zwischen Aggregaten notwendig. Für die Definition der neuen Aggregatabstände gibt es unterschiedliche Optionen: Single Linkage (Nearest Neighbor): Der Abstand zwischen zwei Aggregaten wird als das Minimum aller Abstände zwischen zwei Beobachtungen aus je einem der Aggregate definiert. Dieser Abstand ist also die Länge der kürzesten Verbindung zwischen den Aggregaten. Die Aggregate können daher einen beträchtlichen Durchmesser erreichen, wenn sie als eine Kette von benachbarten Beobachtungen aufgebaut werden. Das Verfahren ist daher für die Identifizierung derartiger Cluster geeignet. Complete Linkage (Furthest Neighbor): Hier wird als Aggregatabstand die größte Distanz zwischen zwei Beobachtungen aus je einem der beiden Aggregate definiert. Zwar wird damit die Kettenbildung wie bei Single Linkage vermieden, dafür besteht aber das Risiko, dass Teile von zwei Clustern zu einem Aggregat zusammengefasst
538
Michael Wiedenbeck und Cornelia Züll
werden, der Algorithmus also „natürliche“ Cluster spaltet. Die Anwendung ist daher zweckmäßig, wenn man Cluster mit kleinen Durchmessern erwartet. Between-Groups Linkage: Der Abstand ist gleich dem Mittelwert aller Distanzen von Inter-Cluster-Paaren von Beobachtungen. Dieses Kriterium stellt einen Kompromiss zwischen Single Linkage und Complete Linkage dar. Seine Verwendung unterstützt im Gegensatz zu den beiden vorhergehenden Verfahren im Prozess der Agglomeration eher die Homogenität bei der Bildung von Aggregaten. Within-Groups Linkage: Die Definition ist ähnlich zu der von „Between-Groups Linkage“. Für den Mittelwert zwischen Paaren von Beobachtungen werden aber neben den Inter-Cluster-Paaren auch Intra-Cluster-Paare herangezogen. Die mit diesem Kriterium konstruierten Aggregate weisen tendenziell eine noch höhere Homogenität auf als bei Between-Groups Linkage. Ward: Dieses Verfahren ist indexbasiert. Der Wert des Index für eine Partition ist gleich der Summe der quadrierten euklidischen Abstände der Beobachtungen von den (multiG mg P variaten) Mittelwerten der Aggregate g = 1, . . . , G : g=1 i=1 ¯p,g )2 . p=1 (xip,g − x Der Abstand zweier disjunkter Aggregate ist dann gleich der Differenz aus dem Index für die Partition, bei der beide Aggregate vereinigt sind, und dem Index für die ursprüngliche Partition. Das Ward-Kriterium führt im Vergleich zu anderen Fusionskriterien tendenziell zur Konstruktion von Aggregaten, deren Umfänge ausgeglichener sind. Dendrogramm und Ultrametrik Die hierarchisch-agglomerative Clusteranalyse beginnt mit einer Matrix von Distanzen zwischen Paaren von Einzelbeobachtungen oder im Falle indexbasierter Verfahren, wie dem Ward-Verfahren, mit den (eventuell standardisierten oder anderweitig transformierten) Daten der Analysestichprobe. Als Ergebnis liefert sie ein Dendrogramm, also die Folge von Fusionswerten zusammen mit der zugehörigen Hierarchie von Partitionen. Das Resultat besitzt für die oben genannten Aggregatabstände eine bemerkenswerte mathematische Eigenschaft: Es definiert für jede Matrix von Distanzen eine weitere Metrik. Für zwei Einzelbeobachtungen ist der Wert dieser Metrik gleich dem Fusionswert, mit dem die beiden Einzelbeobachtungen in einem Aggregat zusammengeführt werden. Die durch den Algorithmus erzeugte Metrik ist eine Ultrametrik. Es gilt für sie die so genannte verschärfte Dreiecksungleichung, d. h. in einem System aus drei Beobachtungen ist nicht nur die Summe der Weglängen eines Umwegs über den dritten Fall größer als die direkte Weglänge, sondern bereits mindestens einer der beiden Teilwege des Umwegs ist länger als der direkte Weg. Damit ergibt sich aus Formel (1c): d(i,j) ≤ max{d(i,k),d(k,j)} für alle i,j,k ∈ S
(4)
Wegen dieser eigentümlichen Geometrie sind die ursprünglichen Distanzen und die der Ultrametrik notwendigerweise unterschiedlich. Man könnte auch sagen, dass durch die Agglomeration die ursprüngliche geometrische Anordnung verzerrt wird (siehe dazu Everitt et al. 2001, S. 74 ff.).
21 Clusteranalyse
539
Auch bei Ward findet eine bestimmte Verzerrung statt, auch wenn die zugehörige Ultrametrik in der Literatur als „raumerhaltend“ eingestuft wird. Diese Verzerrung wirkt sich etwa so aus, dass in einem Aggregat einer mit Ward konstruierten Partition eine Einzelbeobachtung einen kleineren Abstand zum Mittelwert eines anderen Clusters als zu dem des eigenen haben kann. 2.2 K-Means Das Kriterium (Index) für K-Means ist die Summe der quadrierten euklidischen Abstände (Euclidean Sum of Squares) der einzelnen Beobachtungen vom jeweiligen Aggregatmittelwert: ESS =
mg P G (xip,g − x ¯p,g )2
(5)
g=1 i=1 p=1
Es stimmt mit dem Heterogenitätsindex des Ward-Verfahrens überein. 2.3 TwoStep-Verfahren Wie oben ausgeführt, basiert die Clusterung nach dem TwoStep-Verfahren auf zwei getrennten Verfahrensstufen. Für eine ausführlichere Darstellung siehe Bacher et al. (2004). Die beiden Stufen der Clusterung Step 1 – Präclusterung: In der ersten Stufe des Verfahrens werden die Daten durch eine Prozedur in eine Baumstruktur transformiert, bei der den Knoten der verschiedenen Ebenen bestimmte Statistiken zugeordnet sind (cluster features). Man spricht deshalb von einem cluster feature tree (CFT). Eine detaillierte Beschreibung findet sich in Zhang et al. (1996) und in Chiu et al. (2001). Beim CFT handelt es sich um eine Art Reparametrisierung der Daten unter Berücksichtigung der Ähnlichkeitsverhältnisse zwischen den einzelnen Beobachtungen. Die Endknoten (leaf nodes) repräsentieren die Präcluster, d. h. homogene Cluster von relativ kleinem Umfang. Step 2 – Agglomeration: In der zweiten Stufe, der Agglomerationsphase, bilden die durch die Endknoten repräsentierten Präcluster die kleinsten Einheiten. Gegenüber dem Umfang der ursprünglichen Stichprobe der einzelnen Beobachtungseinheiten ist die Stichprobe der Präcluster wesentlich kleiner. Mit Hilfe der cluster features lassen sich die Aggregatabstände zwischen den Präclustern unter beiden Optionen, Log-Likelihood oder euklidische Metrik, so berechnen als würde die Berechnung auf den Einzelbeobachtungen fußen. Die Agglomeration folgt dann einem Schema einer indexbasierten Fusion wie z. B. das Ward-Verfahren. Die Log-Likelihood-Option verwendet die folgende Formel für den Index ξi des Aggregats i:5 5
Genau genommen handelt es sich bei ξ um einen Index mit negativem Vorzeichen.
540
Michael Wiedenbeck und Cornelia Züll
⎛ ⎞ p q mk 1 2 log(ˆ σij ξi = −ni ⎝ +σ ˆj2 ) − π ˆikl log(ˆ πikl )⎠ 2 j=1
(6)
k=1 l=1
Hierbei sind p die Anzahl der kontinuierlichen und q die Anzahl der diskreten Variablen; 2 ni ist der Umfang des Aggregats i, σ ˆij die geschätzte Varianz der kontinuierlichen Variablen j innerhalb des Aggregats i, σ ˆj2 die geschätzte Varianz von j in der gesamten Stichprobe, π ˆikl die relative Häufigkeit der Kategorie l der Variablen k im Aggregat i und mk die Anzahl der Ausprägungen der Variablen k. Der Abstand zweier Aggregate i und s ist dann definiert als d(i,s) = ξi∪s − ξi − ξs .
(7)
Zur Interpretation des Index beachte man, Log-Likelihood von unabhängig q dass mdie k multinomial-verteilten Variablen, −ni k=1 l=1 π ˆikl log(ˆ πikl ), gleich der Entropie der gemeinsamen Verteilung kategorialer Variablen ist, wenn diese stochastisch unabhängig voneinander sind. Wären außerdem die kontinuierlichen Variablen normal p 2 und unabhängig voneinander verteilt, so wäre −ni j=1 1/2 log σ ˆij die Log-Likelihood ihrer gemeinsamen Verteilung unter der Voraussetzung, dass alle Mittelwerte gleich 0 sind. Mit anderen Worten: Würde in den Ausdrücken für ξi , ξs und ξi∪s auf den Term σ ˆj2 verzichtet, dann wäre d(i,s) = ξi + ξs − ξi∪s genau die Verminderung der Log-Likelihood für die gesamte Stichprobe, wenn die Aggregate i und s vereinigt würden (die obigen Unabhängigkeitsannahmen vorausgesetzt). In der gegebenen Form, und da die Unabhängigkeitsvoraussetzungen im allgemeinen nicht gelten, kann ξi allerdings nur als ein deskriptives Maß für die Streuung der gemeinsamen Verteilung der kontinuierlichen und kategorialen Variablen gelten; d(i,s) ist dann gleich dem Zuwachs dieses speziellen Streuungsmaßes bei Vereinigung der Aggregate i und s.6 Als weiteres Argument für die Verwendung der Log-Likelihood wird auch auf die Robustheit des Verfahrens gegenüber der Verletzung der Unabhängigkeitsvoraussetzungen verwiesen (siehe Norusis 2009, S. 361 ff.). Anzahl der Cluster Die Clusteranzahl wird in TwoStep nach einer Entscheidungsregel bestimmt, die sich sowohl auf die Sequenz der Verhältnisse des BIC (Bayes Informationskriterium von Schwarz)7 zwischen aufeinander folgenden Clusteranzahlen als auch auf die Verhältnisse zwischen den Distanzmaßen bezieht. 6
7
Es ist daher auch nicht sinnvoll, die Verteilung der Clustervariablen auf die Unabhängigkeitseigenschaften zu testen, da es letztlich nur auf den deskriptiven Aspekt des Streuungsmaßes ankommt. Das BIC-Kriterium (Bayes Information Criterion) ist ein Kriterium zur Auswahl eines von mehreren parametrischen Modellen, die für die Analyse eines Datensatzes in Frage kommen. Die Formel lautet: BIC = −2l + ν ln(n). Hier ist ν gleich der Anzahl der Parameter des für die Formulierung des Index angenommenen Modells, n der Stichprobenumfang und l gleich dem Wert der Log-Likelihood, berechnet für die Maximum-Likelihood-Schätzungen der Parameter. Sind für einen Datensatz zwei unterschiedliche Modelle geschätzt worden, so ist dasjenige mit dem kleineren BIC vorzuziehen.
21 Clusteranalyse
541
Daneben ist aber auch die Vorgabe der Clusteranzahl durch den Anwender möglich. Für Details siehe Bacher et al. (2004). Tabellen und Graphiken zur Beschreibung der Cluster Neben deskriptiven Darstellungen der Verteilungen der Clustervariablen in Tabellen, die in dieser oder ähnlicher Form auch bei anderen Verfahren ausgegeben werden, sind bei TwoStep verschiedene Typen von Graphiken für die abschließende Beurteilung und Interpretation einer gewählten Lösung nützlich. Die erste Graphik, die gezeigt wird, bewertet die „Qualität“ der Clusterlösung mit einem Umrissmaß bezüglich Kohäsion und Separation. Dabei handelt es sich um den Silhouetten Koeffizienten von Rousseeuw (vgl. Kaufman & Rousseeuw 2005, S. 83 ff.). Je größer der zwischen −1 und 1 liegende Koeffizient ist, desto größer ist die Kohäsion und Separation der betrachteten Clusterstruktur. Wobei man von einer Clusterstruktur erst ab Werten > 0,25 spricht. Kaufman & Rousseeuw (2005, S. 88) geben in ihrer Monographie eine Tabelle mit Schwellenwerten für die Bewertung der Clusterstruktur an. Neben einer tabellarischen Darstellung der Cluster und der sie beschreibenden Variablen, kann für jede Variable die Verteilung in jedem der Cluster im Vergleich zur Verteilung im Datensatz insgesamt angezeigt werden (siehe Abbildung 8). Zudem ermöglicht SPSS den Aufruf weiterer Graphiken zu Clustervergleichen, mit Maßen für die Wichtigkeit einzelner Variablen für die Clusterbildung.
3 Beispiel 3.1 Daten- und Variablenauswahl Im folgenden Beispiel gehen wir der Frage nach, ob es in der Bevölkerung in Bezug auf das Fernsehinteresse verschiedene Typen gibt. Wir erwarten unterschiedliche Interessengruppen bei der Auswahl von Fernsehsendungen. Die Datenbasis bildet der kumulierte ALLBUS. Wir beschränken unsere Analysen auf das Jahr 2004. Dort wurden Fragen zum Interesse an bestimmten Arten von Fernsehsendungen gestellt: „Ich habe hier Kärtchen, auf denen verschiedene Fernsehsendungen stehen. Bitte sagen Sie mir jeweils, wie stark Sie sich für solche Sendungen interessieren.“ Gefragt wurde dabei nach „Fernsehshows und Quizsendungen“, „Sportsendungen“, „Spielfilmen“, „Nachrichten“, „politischen Magazinen“, „Kunst- und Kultursendungen“, „Heimatfilmen“, „Krimis“, „Actionfilmen“ und „Unterhaltungsserien“. Die daraus resultierenden Variablen (V385 bis V394) bilden die Basis für unsere Analyse der Interessenstypen. Die Variablen sind codiert als 1 (sehr stark), 2 (stark), 3 (mittel), 4 (wenig), 5 (überhaupt nicht), 0 (TNZ) und 9 (KA). Die beiden letzteren sind als fehlende Werte deklariert. Nach der Festlegung auf diese Variablen müssen bezüglich der Daten einige Voraussetzungen überprüft werden. Ein Problem, das bei jeder Clusteranalyse zu berücksichtigen ist, ist die Frage von fehlenden Werten. Die hierarchischen Verfahren erlauben in der Regel keine fehlenden Werte, da Abstände zwischen einem gültigen und einem fehlenden Wert nicht berechnet werden können. Dies führt dazu, dass sowohl
542
Michael Wiedenbeck und Cornelia Züll
Tab. 2: Fusionswerte der letzten Agglomerationsstufen Agglomeratsstufe 2885 2886 2887 2888 2889 2890 2891 2892 2893 2894 2895 2896 2897 2898 2899 2900 2901
Fusionswerte 21250,154 21564,726 21892,266 22238,568 22599,350 22991,084 23433,203 23878,892 24398,892 24969,969 25576,683 26315,209 27198,526 28459,961 30576,011 33629,062 37342,111
SPSS wie auch STATA die jeweilige Beobachtung vollständig ausschließen. Hier ist zu entscheiden, ob dieser Ausschluss akzeptabel für die weitere Analyse ist oder ob diese fehlenden Werte in irgendeiner Form ersetzt werden müssen (z. B. durch einen gültigen Wert oberhalb bzw. unterhalb des Wertebereichs der Variablen oder durch Imputation). Die für unsere Analyse verwendeten Allbus-Variablen enthalten in 44 Beobachtungen fehlende Werte: 41 Befragte sehen überhaupt nicht fern. Sie spielen daher bei der Frage nach Typen des Fernsehinteresses keine Rolle und können von der folgenden Analyse ausgeschlossen werden. Drei Befragte haben die Antwort auf alle Fragen nach dem Fernsehinteresse und auch alle weiteren Antworten des Fragebogens verweigert. Nur drei Befragte haben zu einzelnen Sendungen keine Antwort gegeben. Wir haben daher alle Befragten mit fehlenden Werten in den entsprechenden Fragen von der hierarchischen Clusteranalyse ohne Konsequenzen für das Ergebnis ausgeschlossen. Für die Analyse ist der Stichprobenumfang 2902 Beobachtungen. Eine weitere Frage, die bei der Vorbereitung der Variablen für die Analyse gestellt werden muss, betrifft das Skalenniveau, das bei der Wahl des Ähnlichkeitsmaßes eine Rolle spielt. Wir machen von der üblichen Option Gebrauch, ordinale Variablenausprägungen durch Ihre Ränge zu ersetzen und dann als intervallskaliert zu behandeln. Ein Standardisieren der Variablen ist nicht notwendig, da alle Variablen mit derselben Skala erfasst wurden. 3.2 Analyse Da wir keine (fundierte theoretische) Kenntnis über die Zahl der zu erwartenden Typen haben, führen wir im ersten Schritt eine hierarchische Clusteranalyse durch.
21 Clusteranalyse
543
40000
Fusionswerte
35000
30000
25000
2885 2886 2887 2888 2889 2890 2891 2892 2893 2894 2895 2896 2897 2898 2899 2900 2901
20000
Agglomerationsstufe
Abb. 1: Line-Plot der Fusionswertekurve Als Clustermethode verwenden wir Ward und als Ähnlichkeitsmaß die quadrierte euklidische Distanz. Einen ersten Eindruck der Clusterstruktur liefert ein Blick auf die Agglomerationsdaten. In Tabelle 2 sind die Fusionswerte der letzten Agglomerationsstufen zusammengestellt. Auf den letzten Stufen kann man in der Tabelle einen verstärkten Anstieg der Werte erkennen, das heißt hier ist eine Clusterlösung zu verorten. In der Darstellung der Fusionswerte in einem Line-Plot wird dieser Anstieg deutlicher visualisiert (Abbildung 1). Auf Grund dieser Darstellung wird man eine 3oder 4-Clusterlösung favorisieren. Da die Dendrogramme in SPSS bei größeren Fallzahlen nicht lesbar sind, zeigen wird neben dem SPSS-Output auch das mit ClustanGraphics erstellte Dendrogramm. In ClustanGraphics kann das Dendrogramm auf die letzten Stufen der Agglomeration verkürzt werden, wie es auch in Stata möglich ist. Das Ergebnis der Analyse der Interessengruppen ist in Abbildung 2 dargestellt. Das Dendrogramm legt die Interpretation von drei Typen nahe. Zur Illustration werden zusätzlich zum Dendrogramm die Differenzen der Clustermittelpunkte vom Gesamtmittelwert der verschiedenen Variablen in den Clustern als Line-Plot dargestellt (Abbildung 3). Eine hierarchische Clusteranalyse liefert häufig Lösungen auf verschiedenen Hierarchiestufen. In unserem Beispiel wäre auch die Interpretation einer 4-er Lösung denkbar: Das mittlere Cluster mit einem relativ hohen Fusionswert würde dabei in zwei Subcluster zerfallen. Im Folgenden werden wir aber zunächst die 3-Clusterlösung behandeln. Die drei Cluster können wie folgt beschrieben werden: Cluster 1 (789 Beobachtungen) kann als Gruppe der „politisch und kulturell Interessierten“ beschrieben werden. In dieser Gruppe besteht wenig Interesse an allen anderen Sendungen. Cluster 2 (1266 Beobachtungen) ist die Gruppe der „vielseitig Interessierten“. Besonderes Interesse gilt
544
Michael Wiedenbeck und Cornelia Züll
9
110
211
312
413
514
615
716
Abb. 2: Dendrogramm der Ward-Clusteranalyse
& &( &'
!
"
#$
%
Abb. 3: Line-Plot der Differenzen der Clustermittelwerte vom Gesamtmittelwert
21 Clusteranalyse
545
dabei den Heimatfilmen, Shows und Quiz und den Unterhaltungsserien. Actionfilme werden jedoch nicht angesehen. Die Personen in Cluster 3 (847 Beobachtungen) lieben „Spannung“: in erster Linie Actionfilme, aber auch Krimis und Spielfilme. 3.3 Verbesserung der Clusterlösung Nach dieser ersten Datenexploration soll im nächsten Schritt versucht werden, die Clusterlösung von Abschnitt 3.2 zu optimieren. Dazu gibt es verschiedene Möglichkeiten. Variablenauswahl Durch Vergleich von Analyseresultaten mit alternativen Variablensätzen haben wir festgestellt, dass der oben beschriebene Variablensatz für die Interpretation der Clusterlösung gut geeignet ist. Eliminieren von „Ausreißern“ Bei der Anwendung des Ward-Verfahrens spielen so genannte Ausreißer, d. h. Beobachtungen mit Extremwerten, eine große Rolle. Sie können die Konstruktion einzelner Cluster stark beeinflussen. Tendenziell werden bei Ward Ausreißer zusammen mit den ihnen am nächsten gelegenen Beobachtungen einem Cluster zugeordnet. Dadurch kann insbesondere der Mittelpunkt eines Clusters stark in Richtung der Ausreißer verschoben sein. Es empfiehlt sich daher, die Daten auf solche Problemfälle hin zu untersuchen. Die Clusteranalyse ermöglicht dies mit der Option „Nearest Neighbor“ (Single Linkage). Ausreißer sind diejenigen Beobachtungen, die wegen ihrer Extremwerte oder ihrer Wertekombination von allen anderen Beobachtungen einen auffallend großen Abstand besitzen. Da Single Linkage den Abstand zweier Aggregate als den minimalen Abstand zwischen zwei Beobachtungen der Aggregate definiert, werden Ausreißer erst gegen Ende der Agglomeration bereits konstruierten Aggregaten zugefügt und können so im Dendrogramm identifiziert werden. Wir entscheiden uns für einen Schnitt bei der 2850-ten Stufe mit einem Fusionswert von 6,00. Inklusive dieser Stufe sind 52 Aggregate konstruiert worden, von denen 51 Aggregate bei nachfolgenden Fusionen zu größeren Fusionswerten mit anderen Aggregaten vereinigt werden. Wenn man nun diese 51 Aggregate mit 54 Beobachtungen eliminiert, so verbleiben in der Stichprobe nur die Beobachtungen, die einen „Nachbarn“ in dieser Stichprobe besitzen, dessen Distanz den Fusionswert 6,00 nicht überschreitet. Die eliminierten Beobachtungen haben dagegen in der reduzierten Stichprobe keinen Nachbarn in einem Abstand unterhalb dieses Schwellenwerts, wenngleich es durchaus vorkommen kann (siehe Abbildung 4), dass in der Stichprobe der 54 eliminierten Beobachtungen ein Nachbar in einem Abstand unterhalb des Schwellenwerts existiert. Betrachtet man die Charakteristika der 54 als Ausreißer identifizierten Beobachtungen, wird man keine besondere inhaltliche Orientierung dieser Gruppe feststellen. Es fällt aber auf, dass sie deutlich mehr Antworten in den Extrembereichen der Variablen haben, d. h. bei den Werten 1 (stark interessiert) und/oder 5 (überhaupt nicht interessiert).
546
Michael Wiedenbeck und Cornelia Züll
0,85 0,68 0,78 0,88 0,98 1,08 1,18 1,28 1,38 1,48 1,58
Abb. 4: Dendrogramm der Single Linkage-Lösung 9
77
145
213
281
349
417
485
553
621
689
Abb. 5: Clusterlösung nach dem Entfernen der Ausreißer Die weitere Analyse wird nun mit 2848 Beobachtungen wiederholt. Nun ergibt sich ein anderes Bild als bei der Lösung mit der vollständigen Stichprobe: Es lässt sich an Hand des Dendrogramms eine 4-Clusterlösung identifizieren, die wir an dieser Stelle nicht weiter darstellen, da sie weiter optimiert wird. Optimierung der Lösung durch eine K-Means-Analyse Die neue Lösung ohne die vorher ausgeschlossenen Ausreißer kann nun durch ein K-Means-Verfahren weiter optimiert werden. Ausgehend von den vier identifizierten Clustermittelpunkten werden die Daten neu ihrem am nächsten liegenden Clustermittelpunkt zugeordnet (basierend auf der Optimierung des ESS). Die durch das K-Means-Verfahren bereinigte Lösung ist in Abbildung 5 dargestellt. Die neu gebildeten Cluster können wie folgt beschrieben werden (vergleiche Abbildung 6):
21 Clusteranalyse
547
Cluster 1 Cluster 2 Cluster 3 Cluster 4
1,5
Differenzen
1,0 0,5 0,0 -0,5
Kunst & Kultur
Pol. Magazine
Nachrichten
Spielfilme
Sport
Actionfilme
Krimis
Heimatfilme
Show & Quiz
Unterhaltungsserien
-1,0
Abb. 6: Differenzen vom Mittelwert nach der K-Means-Analyse Cluster 1 entspricht dem Cluster 1 der „politisch und kulturell Interessierten“ der ersten Clusterlösung mit nun 763 Beobachtungen. Cluster 2 kann beschrieben werden als die Gruppe, die sich besonders für „Heimatfilme, Shows und Quiz und Unterhaltungsserien“ interessiert (613 Beobachtungen): Spielfilme werden leicht überdurchschnittlich angesehen, Sport und politische Magazine interessieren wenig. Cluster 3 (688 Beobachtungen) entspricht Cluster 3 der ersten Lösung und kann wieder als Cluster der „Spannung-Liebenden“ beschrieben werden: Actionfilme, Krimis und Spielfilme stehen im Zentrum des Interesses. Heimatfilme, Politik und Kultur interessieren eher wenig. In Cluster 4 (784 Beobachtungen) sind die „Vielseitig Interessierten“. Das Hauptinteresse liegt bei Sportsendungen, aber auch in allen anderen Bereichen sind sie eher überdurchschnittlich interessiert. Wenn man die Lösung mit der vorhergehenden (unbereinigten) 3-Cluster vergleicht, fällt auf, dass das Cluster 2 der ersten Lösung „vielseitig Interessierte“ nun in zwei Cluster zerfällt (Cluster 2 und 4, vgl. Tabelle 3). Gleichzeitig werden 162 Beobachtungen aus dem alten Cluster 3 in das neue Cluster 4 übernommen. D. h., dass das Cluster der „vielseitig Interessierten“ nun klarer aufgeteilt wird in die „Heimatfilme-, Shows- und Quiz- und den UnterhaltungsserienInteressierten“ und die „Sport-Interessierten“. Diese Aufteilung des Clusters 2 der ersten Clusterlösung hatte schon das erste Dendrogramm (Abbildung 2) als eine Option angezeigt. 3.4 Überprüfen der Clusterlösung Zur Überprüfung der Clusterlösung stehen nur wenige technische Hilfsmittel zur Verfügung. Es gibt insbesondere keine festen Kenngrößen oder Fitmaße, die die Güte der Lösung angeben. Der Permutationstest in ClustanGraphics unterstützt zwar den Anwender bei der Beurteilung des Fusionswerteverlaufs und der Bestimmung einer Clusterzahl, aber letztendlich bleibt dem Anwender nur sein theoretisches Wissen über mögliche Clusterstrukturen, mit dem er die Ergebnisse validieren kann. K-Means in
548
Michael Wiedenbeck und Cornelia Züll
Tab. 3: Vergleich der ersten (unbereinigten) mit der bereinigten Lösung 3-Cluster-Lösung
4-Cluster-Lösung (Ausreißer-bereinigt) nach K-Means
1
2
3
Gesamt
1 2 3 4
608 22 76 74
122 532 42 548
33 59 570 162
763 613 688 784
Gesamt
780
1244
824
2848
SPSS ermöglicht die Ausgabe des Abstandes eines Falles vom Mittelpunkt des Clusters. Diese Angabe kann dabei helfen festzustellen, wie sich die Beobachtungen um den jeweiligen Clustermittelpunkt verteilen. Einen Eindruck über die Stabilität der Lösung vermittelt ein Vergleich der hierarchischen Clusterlösung mit der K-Means-Lösung: Verändern sich die Lösungen grundsätzlich oder werden nur einzelne Beobachtungen verschoben? Eine andere Möglichkeit bietet eine Überprüfung der Stabilität einer gewählten Lösung. Dazu werden die Daten in mehrere zufällige Stichproben zerlegt. Werden bei der Clusteranalyse der verschiedenen Teilstichproben jeweils ähnliche Clusterstrukturen identifiziert? 3.5 TwoStep-Clusteranalyse Das oben gezeigte Beispiel einer Clusteranalyse wird nun mit dem neben der hierarchischen Clusteranalyse und dem K-Means-Verfahren in SPSS angebotenen TwoStepVerfahren durchgeführt. Wir verwenden unsere Variablen auch in diesem Beispiel als intervallskalierte Variablen. Obwohl die Zahl der Beobachtungen (2902) für dieses Verfahren eher klein ist, soll der Einsatz des Verfahrens an diesem Beispiel demonstriert werden. Beobachtungen mit fehlenden Werten auf einzelnen Variablen werden von TwoStep – wie in der hierarchischen Clusteranalyse auch - immer automatisch eliminiert. Im Gegensatz zu den oben vorgestellten Verfahren, wird bei der TwoStep-Analyse die Zahl der Cluster durch das BIC-Maß automatisch bestimmt. In unserem Beispiel wird eine 4-Clusterlösung ermittelt. Die 4-Clusterlösung kann mit Hilfe eines Line-Plots der Abweichungen der Mittelwerte der Variablen vom jeweiligen Gesamtmittelwert beschrieben werden (Abbildung 7): – Cluster 1 (484 Beobachtungen) kann als „Desinteressierte“ beschrieben werden, die aber bei ihrem Interesse an Heimatfilmen und Unterhaltungsserien im Durchschnitt liegen. – Cluster 2 (715 Beobachtungen) enthält die „breit Interessierten“. Sie interessieren sich für alle untersuchten Sendungen überdurchschnittlich. Besonders auffallend ist ihr Interesse an Heimatfilmen und Shows und Quizsendungen. Bei Actionfilmen liegen sie dagegen eher im Durchschnitt.
21 Clusteranalyse
549
Cluster 1 Cluster 2 Cluster 3 Cluster 4
1,5
Differenzen
1,0 0,5 0,0 -0,5
Kunst & Kultur -
Pol. Magazine -
Nachrichten -
Spielfilme -
Sport -
Actionfilme -
Krimis -
Heimatfilme -
Show & Quiz -
Unterhaltungs- . serien -
-1,0
Abb. 7: Distanzen der Mittelwerte vom Gesamtmittelwert –
–
Cluster 3 (947 Beobachtungen) kann als Cluster der „Informationssuchenden“ beschrieben werden. Nachrichten, politische Magazine und Kunst- und Kultursendungen stehen im Mittelpunkt des Interesses. Bei Sportsendungen liegen sie im Durchschnitt. Alle anderen Sendungen interessieren unterdurchschnittlich wenig. Cluster 4 (756 Beobachtungen) enthält alle Beobachtungen der „Spannung Liebenden“ mit sehr großem Interesse an Actionfilmen. Daneben stehen Krimis, Spielfilme und Sportsendungen im Mittelpunkt des Interesses. Das Interesse an allen anderen Sendungen ist eher unterdurchschnittlich. Auffällig ist das große Desinteresse an Politik und Kultur.
Die TwoStep-Analyse in SPSS bietet Graphiken zur besseren Beurteilung der Clusterlösungen. Da TwoStep ein relativ neues Verfahren in SPSS ist, ist diese Prozedur und die Darstellung ihrer Resultate im Output immer noch im Umbruch. Der folgenden Beschreibung wird SPSS Version 18 zu Grunde gelegt. Die gesamte Ausgabe in dieser Version wird – im Gegensatz zu der sonst in SPSS üblichen Darstellung im SPSS Viewer – in einem sogenannten „Modell Viewer“, d. h. einer speziellen Hypertextstruktur, abgebildet. So kann der Nutzer seine Clusteranalyse durch verschiedene Visualisierungen überprüfen. Beispielsweise zeigt Abbildung 8 die Verteilung der Variablen „Interesse an Actionfilmen“ in Cluster 4 („Spannung Liebende“) und der Gesamtstichprobe. Man sieht deutlich, dass die Mehrheit der Befragten insgesamt zu den Kategorien 4 und 5 („wenig“ und „überhaupt nicht“) tendiert. Dagegen liegt das Interesse an Actionfilmen im Cluster 4 deutlich höher (Kategorie 2 „stark“ und 3 „mittel“). Vergleicht man die Lösung der (bereinigten) K-Means-Clusteranalyse mit der Lösung der TwoStep-Clusteranalyse, fällt auf, dass sich die Cluster 3 der TwoStep-Lösung („Informationssuchende“) und Cluster 1 der K-Means-Lösung von der Clusterbeschreibung
550
Michael Wiedenbeck und Cornelia Züll
Häufigkeit
Insgesamt Spannung Liebende
Fernsehinteresse: Actionfilme
Abb. 8: Verteilung der Variablen „Interesse an Actionfilmen“ in Cluster 4 und den Daten insgesamt Tab. 4: Vergleich der 4-Clusterlösungen aus K-Means mit der TwoStep-Lösung TwoStep-Clusteranalyse
K-Means basierend auf 4-Cl-Lösung ohne Outlier
1
2
3
4
Gesamt
1 2 3 4
213 177 79 1
13 421 5 263
531 2 13 395
6 13 591 125
763 613 688 784
Gesamt
470
702
941
735
2848
her sehr ähnlich sind. Auch ein hoher Anteil der Beobachtungen wird entsprechend gleich zugeordnet (siehe Tabelle 4). Entsprechendes gilt auch für die Cluster 2 der beiden Lösungen. Der Schwerpunkt des Interesses liegt jeweils auf den Heimatfilmen, Shows und Quiz und Unterhaltungsserien. Das Cluster der Spannungsliebenden ist ebenfalls in beiden Lösungen zu identifizieren. Dagegen unterscheiden sich Cluster 4 der K-Means-Lösung deutlich von Cluster 2 der TwoStep-Lösung (vielseitig Interessierte vs. Desinteressierte). Entsprechend heterogen ist auch die Zellverteilung beim Vergleich der beiden Lösungen.
4 Häufige Fehler Von speziellen „Kunstfehlern“ in der Anwendung der Clusteranalyse lässt sich kaum sprechen, da Clusteranalyse – zumindest bei den hier behandelten Formen – weder ein inferenzstatistisches noch ein datentheoretisches Modell verwendet. Sie ist tatsächlich
21 Clusteranalyse
551
nicht viel mehr als eine Sammlung von bestimmten Sortieralgorithmen. Nehmen wir einmal an, dass der Anwender ein einigermaßen sinnvolles Ähnlichkeits- oder Differenzmaß gewählt hat. Dann besteht sein häufigster Fehler vielleicht darin, nicht genügend Skepsis hinsichtlich der Annahme zu hegen, dass in der Stichprobe für den ausgewählten Datensatz tatsächlich eine Clusterstruktur in der Form vorliegt, wie sie von den oben genannten Algorithmen identifiziert werden: als Partition der Stichprobe. Das Dendrogramm bzw. der Fusionswerteverlauf weisen zwar in einer aktuellen Analyse keinen „Sprung“ auf und legen graphisch keine Clusterlösung nahe, dennoch wird dann das Dendrogramm häufig überinterpretiert, um in jedem Fall eine Lösung vorzuweisen. Ein anderer Fehler ist es, wenn die Exploration der Daten vorschnell abgebrochen wird. Wenn sich bei einer Parameterwahl keine klaren Hinweise auf eine Lösung zeigen, so heißt das zunächst nur, dass sich für die gewählten Variablen und Parameter keine Clusterstruktur identifizieren lässt. Dann könnte es sinnvoll sein, diese Randbedingungen zu variieren. Sind die gewählten Variablen tatsächlich geeignet für eine Typologie? Fehlen vielleicht entscheidende Variablen? Oder enthalten die Analysevariablen überflüssige Variablen (masking variables), deren Beitrag im Differenzmaß die Systematik der Variablen verschleiert, die die Cluster tatsächlich konstituieren? Den Antworten auf diese Fragen kommt man u.U. nur durch mehrere Versuche auf die Spur, bei denen unterschiedliche Variablensätze analysiert werden. Jede solche versuchsweise Analyse muss natürlich auch mit dem Versuch einer inhaltlichen Validierung abgeschlossen werden, bei der durch Line-Plots die inhaltliche Bedeutung der Cluster und die Bedeutung der Variablen für die Clusterbildung veranschaulicht werden sollte. Zudem kann man die Optionen für die Distanzmaße variieren. Hilfreich ist es auch, die störenden Einflüsse extremer Profile („Ausreißer“) zu eliminieren (siehe dazu 3.3). Aus einer Vielzahl von vollständig durchgeführten Analysen ergibt sich dann möglicherweise eine numerisch tragfähige und inhaltlich sinnvolle Typologie. Schließlich werden in der Clusteranalyse häufig auch Zufallscluster substanziell interpretiert. Die Hypothese, dass in einer gegebenen Stichprobe, bei gegebenen Parametern kein Cluster vorliegt, kann mit dem oben genannten Permutationstest von Wishart (2003) getestet werden. Allerdings ist für bestimmte Clusterstrukturen die Power des Tests gering. In diesen Fällen ist aber das Vorliegen von Clustern im Allgemeinen bereits durch einen charakteristischen Verlauf der Fusionswertekurve indiziert.
5 Literaturempfehlungen Die Monographie von Everitt et al. (2001) scheint uns hinsichtlich der Stoffauswahl, des systematischen und didaktisch gelungenen Aufbaus und der Beispiele sehr gut geeignet für einen ersten umfassenden Überblick. Der Leser wird mit nahezu allen Arten von Verfahren – und auch verwandten Ansätzen wie z. B. Multidimensionaler Skalierung – in Theorie und Beispielen bekannt gemacht, ohne mit Varianten und technischen Details zu sehr belastet zu werden. Die einzige umfassende Monographie über Clusteranalyse in deutscher Sprache ist das Buch von Bacher (1996). In dieser Monographie sind nahezu alle Verfahrensklassen der Clusteranalyse vertreten, sei es dass es sich um Sortieralgorithmen handelt oder um Anwendung der fuzzy set-Theorie
552
Michael Wiedenbeck und Cornelia Züll
oder auch um verteilungstheoretische Verfahren wie etwa latent class. Die theoretischen Ausführungen sind reichhaltig mit Anwendungsbeispielen illustriert. Das Buch ist daher gut als Nachschlagewerk und Referenz verwendbar. Die Dokumentation des statistischen Hintergrunds des TwoStep-Verfahrens ist unbefriedigend. Bacher et al. (2004) versuchen in ihrem Papier eine kritische Würdigung des TwoStep-Verfahrens, die erstens die zu starken Vereinfachungen des SoftwareHerstellers und zweitens die sehr speziellen theoretischen Darstellungen in den Grundlagenartikeln der Entwickler vermeidet. Leider kann auch in diesem Papier, das uns als einziges dieser Art bekannt ist, der Informationsbedarf des Anwenders nur partiell befriedigt werden.
Literaturverzeichnis Bacher, J. (1996). Clusteranalyse. Anwendungsorientierte Einführung. München: Oldenbourg. Bacher, J., Wenzig, K., & Vogler, M. (2004). SPSS TwoStep Cluster - A First Evaluation. Arbeits- und Diskussionspapiere 2004-2, Universität Erlangen-Nürnberg, Lehrstuhl für Soziologie. Letzter Zugriff 29.03.2010: http://www.soziologie.wiso.uni-erlangen.de/ publikationen/a-u-d-papiere/a_04-02.pdf. Chiu, T., Fang, D., Chen, J., Wang, Y., & Jeris, C. (2001). A Robust and Scalable Clustering Algorithm for Mixed Type Attributes in Large Database Environment. In Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (S. 263–268). New York: ACM. Eckes, T. (1991). Bimodale Clusteranalyse: Methoden zur Klassifikation von Elementen zweier Mengen. Zeitschrift für experimentelle und angewandte Psychologie, 38, 201–225. Everitt, B. S., Landau, S., & Leese, M. (2001). Cluster Analysis. London: Arnold. Kaufman, L. & Rousseeuw, P. J. (2005). Finding Groups in Data. New York: Wiley. Kaufmann, H. & Pape, H. (1984). Clusteranalyse. In L. Fahrmeir & A. Hamerle (Hg.), Multivariate statistische Verfahren. Berlin: de Gruyter. Norusis, M. (2009). SPSS 16.0 Statistical Procedures Companion. Upper Saddle River: Prentice. Theodoridis, S. & Koutroumbas, K. (2003). Pattern Recognition. Amsterdam: Academic Press, 2. Auflage. Wiedenbeck, M. & Züll, C. (2001). Klassifikation mit Clusteranalyse: Grundlegende Techniken hierarchischer und K-means-Verfahren. ZUMA How-to Reihe 2001, Nr. 10. Letzter Zugriff 29.03.2010: http://www.gesis.org/forschung-lehre/gesis-publikationen/ gesis-reihen/how-to/. Wishart, D. (2003). ClustanGraphics Primer. A Guide to Cluster Analysis. Edinburgh: Clustan Limited. Zhang, T., Ramakrishnon, R., & Livny, M. (1996). BIRCH: An Efficient Data Clustering Method for Very Large Databases. In H. V. Jagadish & I. S. Mumick (Hg.), Proceedings of the ACM SIGMOD Conference on Management of Data (S. 103–114). New York: ACM.
22 Analyse latenter Klassen Johann Bacher und Jeroen K. Vermunt a b
Johannes Kepler Universität Linz Tilburg University
Zusammenfassung. Die Analyse latenter Klassen ist ein multivariates Verfahren zum Auffinden latenter Klassen. Es wird angenommen, dass den Daten hinsichtlich ausgewählter Merkmale Yk – den so genannten Klassifikationsmerkmalen, Indikatoren oder Klassifikationsvariablen – eine bestimmte Anzahl J von unbekannten latenten Klassen j (j = 1, . . . , J ) zugrunde liegt. Jede latente Klasse j ist mit einem Anteil von πj in der Stichprobe bzw. Grundgesamtheit vertreten und durch bestimmte Verteilungsparameter ΔYjk (z. B. Anteils- oder Mittelwerte) in den Klassifikationsmerkmalen Yk bzw. im allgemeinen Fall durch unterschiedliche Parameter (funktionale Zusammenhänge, Verteilungsparameter usw.) gekennzeichnet. Jede Person bzw. jedes Objekt i (i = 1, . . . , n) gehört mit einer bestimmten Wahrscheinlichkeit πj|i einer latenten Klasse j (j = 1, . . . , J ) an. Beim Auffinden von latenten Klassen bzw. beim Lösen einer Klassifikationsaufgabe sind folgende Fragestellungen zu beantworten: (1.) Wie viele latente Klassen J lassen sich auf Basis der ausgewählten Klassifikationsmerkmale Yk auffinden? (2.) Durch welche Verteilungsparameter ΔYjk in den Klassifikationsmerkmalen sind die latenten Klassen gekennzeichnet? Wie groß sind die Anteilswerte πj der gefundenen latenten Klassen in der Stichprobe bzw. in der Grundgesamtheit? (3.) Lassen sich die latenten Klassen inhaltlich sinnvoll interpretieren? (4.) Sind die gefundenen latenten Klassen stabil und valide? Die Lösung dieser Klassifikationsaufgabe mittels Analyse latenter Klassen wird für ein Beispiel aus der Sozialstrukturanalyse verdeutlicht. Als Statistikprogramm wird LatentGOLD eingesetzt, das eine breite Palette von Modellen enthält. Besonderer Wert wird auf die Erfordernisse der praktischen Anwendung gelegt. Ausführlich diskutiert werden daher Probleme der Bestimmung der Zahl der latenten Klassen und die Validierung der Ergebnisse.
1 Einführung in das Verfahren Die Analyse latenter Klassen (latent class analysis, LCA) ist ein Verfahren der empirischen Klassifikation oder Typologie. Es wird angenommen, dass den Daten hinsichtlich ausgewählter Merkmale Yk – den so genannten Klassifikationsmerkmalen, Indikatoren oder Klassifikationsvariablen – eine bestimmte Anzahl J von unbekannten latenten Klassen j (j = 1, . . . , J) zugrunde liegt. Jede latente Klasse j ist mit einem Anteil von πj in der Stichprobe bzw. Grundgesamtheit vertreten und durch bestimmte Verteilungsparameter ΔYjk (z. B. Anteils- oder Mittelwerte) in den Klassifikationsmerkmalen Yk gekennzeichnet. Jede Person bzw. jedes Objekt i (i = 1, . . . , n) gehört mit einer bestimmten Wahrscheinlichkeit πj|i einer latenten Klasse j (j = 1, . . . , J) an. S. 553–574 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_22, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
554
Johann Bacher und Jeroen K. Vermunt
Beim Auffinden von latenten Klassen bzw. beim Lösen einer Klassifikationsaufgabe allgemein sind folgende Fragestellungen zu beantworten: 1. Wie viele latente Klassen J lassen sich auf Basis der ausgewählten Klassifikationsmerkmale Yk auffinden? 2. Durch welche Verteilungsparameter ΔYjk in den Klassifikationsmerkmalen sind die latenten Klassen gekennzeichnet? Wie groß sind die Anteilswerte πj der gefundenen latenten Klassen in der Stichprobe bzw. in der Grundgesamtheit? 3. Lassen sich die latenten Klassen inhaltlich sinnvoll interpretieren? 4. Sind die gefundenen latenten Klassen stabil und valide? Betrachten wir zur Verdeutlichung dieser Aufgabenstellung ein Beispiel: Auf der Basis des kumulierten ALLBUS wird der Frage nachgegangen, ob in Deutschland im Jahr 2006 abgrenzbare soziale Schichten bestehen. Dazu werden als Klassifikationsmerkmale die Bildung, der Beruf und das Nettoeinkommen der Befragten ausgewählt. Mit Hilfe der LCA soll nun untersucht werden, ob und gegebenenfalls wie viele latente Klassen den Daten zugrunde liegen (Frage 1), durch welche Verteilungskennwerte diese gekennzeichnet sind und wie groß die Klassenanteilswerte sind (Frage 2), ob sich die latenten Klassen inhaltlich sinnvoll als soziale Schichten interpretieren lassen (Frage 3) und ob die gefundenen sozialen Schichten valide und stabil sind (Frage 4). Die LCA ist nur ein statistisches Hilfsmittel zum Auffinden einer empirischen Typologie bzw. Klassifikation. Erforderlich sind inhaltliche Entscheidungen, wie die Auswahl der Klassifikationsvariablen, die Auswahl eines geeigneten Verfahrens, die inhaltliche Interpretation und die Spezifikation von Stabilitäts- und Validitätskriterien. Diese inhaltlichen Entscheidungen muss der Anwender bzw. die Anwenderin treffen. Kein Computerprogramm kann dies leisten. Die LCA weist Parallelitäten zur Clusteranalyse (Bacher 1996, sowie Kapitel 21 in diesem Handbuch) auf. Die Clusteranalyse ist wie die LCA ein Verfahren der empirischen Klassifikation bzw. Typologie und kann daher wie die LCA zur Lösung einer Klassifikationsaufgabe eingesetzt werden. Gesucht werden J Cluster bzw. J latente Klassen. Die Zahl der Cluster bzw. latenten Klassen ist i. d. R. unbekannt und soll empirisch ermittelt werden. Die Cluster bzw. latenten Klassen sind durch bestimmte Verteilungsparameter in den Klassifikationsmerkmalen gekennzeichnet. Im Unterschied zur Clusteranalyse trifft die LCA aber bestimmte Verteilungsannahmen bezüglich der Klassifikationsmerkmale innerhalb jeder latenten Klasse (siehe dazu später). Die LCA wird daher auch als modellbasiertes Klassifikationsverfahren bzw. als modellbasierte Clusteranalyse (Fraley & Raftery 2002) bezeichnet. Als solche ist sie ein Submodell von Mischverteilungsmodellen (mixture models, vgl. z. B. Vermunt 2010; Vermunt & Magidson 2005b,a).1 Die Verteilungsannahmen haben den Vorteil, dass zur Bestimmung der Zahl der latenten Klassen formal besser abgesicherte Maßzahlen verfügbar sind als bei der Clusteranalyse, wo die Bestimmung der Clusterzahl ein nach wie vor weitgehend ungelöstes Problem ist. Umgekehrt bietet die Clusteranalyse mehr Anwendungsmöglichkeiten 1
Eine systematische Abhandlung von Mischverteilungsmodellen auf der Basis der BayesStatistik bietet Frühwirth-Schnatter (2006).
22 Analyse latenter Klassen
555
an. So können beispielsweise mit agglomerativ hierarchischen Verfahren (Bacher 1996, S. 141–302; sowie Kapitel 21 im vorliegenden Handbuch) auch kleinere Datensätze von 20 oder weniger Fällen untersucht werden. Ein weiterer Unterschied zur Clusteranalyse besteht darin, dass bei der LCA jede Person mit einer bestimmten Wahrscheinlichkeit den latenten Klassen zugeordnet wird. Bei der Clusteranalyse erfolgt die Zuordnung dagegen deterministisch: Jede Person gehört mit einer Wahrscheinlichkeit von 1 einem Cluster an. Die LCA kann daher auch als probabilistisches Clusteranalyseverfahren (Bacher 1996, S. 353–408) bezeichnet werden. In der Forschungspraxis werden sowohl die LCA als auch die Clusteranalyse häufig – wie im obigen Beispiel – explorativ eingesetzt. Es wird vermutet, dass hinsichtlich bestimmter Merkmale J latente Klassen bzw. Cluster vorliegen könnten. Weitere Annahmen werden nicht getroffen. Diese ex-post Vorgehensweise führt mitunter zu unbefriedigenden Ergebnissen, woraus vorschnell der unzulässige Schluss gezogen wird, dass die Clusteranalyse oder die LCA ungeeignete Verfahren seien. Die nicht zufriedenstellenden Ergebnisse können aber auch andere Ursachen haben, so z. B. können die ausgewählten Variablen zur Typenbildung unbrauchbar sein. Wünschenswert wäre, dass bei der Entwicklung einer Typologie ein deduktives, stärker konfirmatorisches Vorgehen gewählt wird. Mögliche Typen und sie kennzeichnende Merkmalen sollten a-priori vor der Datenerhebung analog zur Hypothesenbildung – z. B. auf der Basis einer vorausgehenden qualitativen Studie – formuliert werden. Daran anschließend sollten die Klassifikationsmerkmale operationalisiert und empirisch erhoben werden. Bei der Datenanalyse schließlich sollte dann im Idealfall konfirmatorisch vorgegangen werden.
2 Mathematisch-statistische Grundlagen 2.1 Modellansatz Nachfolgend soll der Modellansatz der LCA für den allgemeinen Fall gemischter Merkmale dargestellt werden. Y1 soll ordinalskaliert sein, Y2 nominalskaliert und Y3 quantitativ-kontinuierlich.2 Zur Beantwortung der ersten Fragestellung nach der Zahl der latenten Klassen wird die LCA mehrfach mit einer variierenden Klassenzahl von J = 1 bis J = Jmax durchgerechnet. Bei gegebener Klassenzahl J (z. B. J = 4) wird von folgendem Modell ausgegangen: –
2
Die Merkmale sind innerhalb jeder latenten Klasse j voneinander unabhängig. D. h. es gilt: π(Y1 ,Y2 , . . . , YK |j) = π(Yi |j)·π(Y2 |j)·. . .·π(YI |j), wobei π(Y1 ,Y2 , . . . , YK |j) die gemeinsame Verteilung der Merkmale innerhalb der latenten Klasse j ist. Diese Ursprünglich wurde die LCA von Lazarsfeld & Henry (1968) für dichotom Variable (klassische LCA) und für quantitative Variable (latente Profilanalyse) entwickelt. Ein Modell für nominale Variablen mit mehr als zwei Ausprägungen hat Goodman (1974) vorgeschlagen.
556
Johann Bacher und Jeroen K. Vermunt
Annahme wird als Annahme der lokalen Unabhängigkeit bezeichnet. In unserem Beispiel gilt also: π(Y1 ,Y2 ,Y3 |j) = π(Y1 |j) · π(Y2 |j) · π(Y3 |j). Inhaltlich besagt die Annahme, dass der Zusammenhang der drei Schichtungsmerkmale durch die latenten Klassen vollständig aufgeklärt werden kann. – Für jedes Merkmal wird innerhalb der latenten Klasse eine bestimmte Verteilung angenommen, die vom Messniveau abhängt. Für nominale Merkmale wird eine Multinomialverteilung angenommen, für ordinale Merkmale eine Binomialverteilung oder eine Multinomialverteilung mit Restriktionen (siehe dazu später) und für quantitativ-kontinuierliche Merkmale eine Normalverteilung. Folglich erhält man π(yik = r|j) = πkr |j
(1)
für nominalskalierte Variable, π(yik = r|j) = πkr |j =
mk r
für ordinalskalierte Variable und π(yik |j) =
1 √ σjk 2 · π
r · (1 − πk|j )mk −r · πk|j
e0,5·(yik −μk|j )
2
2 /σk|j
(2)
(3)
für quantitativ-kontinuierliche Variablen. 2.2 Parameterschätzung 2 Die Parameter(einschließlich der Anteilswerte) Δ = (πkr |j , πk|j , μk|j , σk|j ,πj ) werden i. d. R. mittels der Maximum-Likelihood-Methode geschätzt. Dazu wird die gemeinsame Verteilung f (yi1 ,yi2 , . . . , yiK |Δ) der Klassifikationsmerkmale über alle Klassen hinweg für eine Person i bzw. allgemein für einen Antwortvektor i spezifiziert. Die Parameter werden so geschätzt, dass die auf der Grundlage der Modellparameter Δ berechnete Verteilungsfunktion bestmöglich die empirische Verteilung abbildet. Die Likelihood-Funktion lautet
L=
n $
f (yi1 ,yi2 , . . . , yiK |Δ) → max .
(4)
i=1
Eine geschlossene Lösung für diese Maximierungsaufgabe existiert nicht. Die Parameter werden daher iterativ über die Log-Likelihood-Funktion LL = ln(L) =
n
lnf (yi1 ,yi2 , . . . , yiK |Δ) → max
(5)
i=1
mittels EM-Algorithmus geschätzt. Der EM-Algorithmus greift auf die Tatsache zurück, dass die unbekannten Parameter leicht geschätzt werden können, wenn die Klassenzuordnungswahrscheinlichkeiten πj|i bekannt sind. Diese sind aber unbekannt. Daher wird der Iterationsschritt t+1 in zwei Teile zerlegt. Im E-Schritt werden aufgrund
22 Analyse latenter Klassen
557
der bisher berechneten Parameter die Klassenzuordnungswahrscheinlichkeiten mit Hilfe des Bayes-Theorems berechnet: (t+1)
πj|i
(t)
(t)
(t)
(t)
πi|j (Δ(t) ) · πj
= J k=1
πi|k (Δ(t) ) · πk (Δ(t) )
.
(6) (t+1)
Die Datenmatrix wird um die Zuordnungswahrscheinlichkeiten πj|i erweitert. Sie können als Gewichte für die J Klassen interpretiert werden. Im M-Schritt werden dann die Gewichte (Zuordnungswahrscheinlichkeiten) als gegeben angenommen und die Modellparameter auf der Basis der erweiterten Daten berechnet. Für μk|j beispielsweise ergibt sich folgender Schätzwert: n (t+1) μk|j
=
(t+1) · yik i=1 πj|i n (t+1) i=1 πj|i
.
(7)
Die Schätzung ist also denkbar einfach. Der Parameter μk|j ist der mit der Zuordnungswahrscheinlichkeit gewichtete Mittelwert. Diese beiden Schritte werden so lange wiederholt, bis Konvergenz erreicht ist, d. h. bis sich der Wert der Log-LikelihoodFunktion nicht oder nur mehr geringfügig ändert. Auf der Basis der berechneten Log-Likelihood-Funktion lassen sich Kriterien zur Bestimmung der Clusterzahl berechnen. Am häufigsten eingesetzt werden heute die so genannten Informationsmaße. Häufig verwendete Informationsmaße (Vermunt & Magidson 2005b, S. 61) sind: BIC = −2 · LL + ln(n) · npar AIC = −2 · LL + 2 · npar CAIC = −2 · LL + [ln(n) + 1] · npar
Informationsmaß nach Schwarz Informationsmaß nach Akaike Informationsmaß nach Bozdogan
(8) (9) (10)
Der Wert der Log-Likelihood-Funktion wird mit −2 multipliziert. Die Multiplikation bewirkt, dass der Wert positiv wird. Ein kleinerer Wert von −2 · LL drückt eine bessere Modellanpassung aus. Die Informationsmaße tragen der Tatsache Rechnung, dass für eine größere Klassenzahl automatisch eine bessere Modellanpassung erzielt wird. Daher findet eine Bereinigung („Bestrafung“) mit der Zahl der Modellparameter npar statt. Beim Informationsmaß von Akaike wird 2 · npar als „Bestrafungsterm“ verwendet, bei den beiden anderen Informationsmaßen fließt neben der Zahl der Parameter die Zahl der Fälle ein. Der AIC tendiert zu einer Überschätzung der Modellanpassung und der Klassenzahl. BIC und CAIC führen zu Modellen mit einer geringeren Klassenzahl. In einer neuen Evaluationsstudie berichten Fonseca & Cardoso (2007), dass das Informationsmaß AIC3 bei nominalen Merkmalen die bekannten Cluster am besten wiederentdeckt. Bei quantitativ-kontinuierlichen Variablen schneidet BIC am besten ab. Bei gemischten Merkmalen erweist sich das Informationsmaß ICL − BIC (integrated classification likelihood criterion) als am besten geeignet. AIC3 (Vermunt & Magidson 2005b, S. 61) ist definiert als
558
Johann Bacher und Jeroen K. Vermunt
AIC3 = −2 · LL + 3 · npar
(11)
und unterscheidet sich von AIC dadurch, dass als Bestrafung nicht der Term 2 · npar sondern 3 · npar verwendet wird. ICL − BIC ist definiert als ICL − BIC = BIC + 2EN (S) .
(12)
Als zusätzlicher Bestrafungstermin wird die Entropie der Klassenzuordnungswahrn J scheinlichkeiten der Objekte EN (S) = − i=1 j=1 πj|i ln(πj|i ) berücksichtigt. Von einer Zahl möglicher Klassenlösungen ist formal jene am besten geeignet, wo das Informationsmaß ein Minimum erreicht. Dabei können alle verwendeten Kriterien übereinstimmen oder voneinander abweichen. Im letzteren Fall empfiehlt es sich, alle formal zulässigen Lösungen weiter zu betrachten. 2.3 Computerprogramme Zur praktischen Durchführung stehen unterschiedliche Programme zur Verfügung. Nachfolgend wird das Statistikprogramm LatentGOLD (Vermunt & Magidson 2005a,b) eingesetzt. LatentGOLD nimmt eine Reparametrisierung der nominal- und ordinalskalierten Klassifikationsvariablen über eine logistische Regression vor: exp(ηkr |j ) π(yik = r|j) = K k=1 exp(ηkr |j )
(13)
mit ηkr |j = βk0r + βk1r |j . Um dem ordinalen Messniveau Rechnung zu tragen, werden die Regressionskoeffizi1 enten βk1r |j reskaliert mit βk1r |j = βk|j · (kr − 1). Diese Reparametrisierung über die logistische Funktion hat u. a. den Vorteil, dass zusätzlich noch Kovariaten in die Analyse einbezogen werden können (Vermunt & Magidson 2005a). Neben den drei behandelten Variablentypen (nominalskaliert, ordinalskaliert und quantitativ-kontinuierlich) gibt es mit Zählvariablen (count variables) einen weiteren Variablentypus. Zählvariable sind ganzzahlige quantitative Variable größer/gleich 0, wie z. B. die Zahl der Kinder, die Zahl der kritischen Lebensereignisse oder die Zahl devianter Handlungen einer Person. Zählvariablen können in LatentGOLD durch eine Poission- oder Binomialverteilung („binomial count“) modelliert werden. Die beiden Verteilungen können auch zur Analyse ordinaler Variablen eingesetzt werden, wobei die Skalierung mit 0 beginnen muss. In Gleichung (2) wurde die Modellierung mittels der Binomialverteilung für Zählvariable („binomial count“) gewählt. Neben der LCA können mit LatentGOLD weitere Mischverteilungsmodelle geschätzt werden. Tabelle 1 gibt eine Übersicht über die in LatentGOLD enthaltenen Modelle. Es steht auch eine Syntaxsprache zur Verfügung (Vermunt et al. 2008). Damit können noch allgemeinere Modelle geschätzt werden, indem die Modelle der Tabelle 1 kombiniert werden. Die Syntaxversion enthält auch LC-Modelle für Längsschnittdaten (hidden or latent Markov models; Vermunt et al. 2008) sowie LC-Modelle für Mehrebenenanalyse (multilevel LC models; Vermunt 2003). LatentGOLD enthält somit
22 Analyse latenter Klassen
559
Tab. 1: Analysemodelle von LatentGOLD Modell bzw. Submodelle
Messniveau der manifesten Variablen
latente Variable
LC Cluster (LCA) Submodelle: klassische LCA latenten Profilanalyse IRT-Modelle (z. B. Proctor)
beliebige
latente Klassen: eine nominalskalierte Variable
LC Factor Submodelle: Item-Response-Modelle LC Regression Submodelle: multiple Regression Wachstumsmodelle Mehrebenenmodelle
dichotom quantitativ dichotom beliebig dichotom beliebig, aber derselbe Variablentypus quantitativ Messwiederholungen
latente Faktoren: eine oder mehrere ordinalskalierte Variable latente Klassen: eine nominalskalierte Variable mit unterschiedlichen funktionalen Zusammenhängen
zahlreiche Modelle, die auch von Programmen zu Strukturgleichungsmodellen (siehe Kapitel 29 in diesem Handbuch) angeboten werden. So z. B. entsprechen die LC-Modell für Längsschnittdaten dem GGMM (General Growth Mixture Modeling) von Mplus. Zur Vermeidung von lokalen Minima rechnet LatentGOLD mit unterschiedlichen Startkonfigurationen. Eine Konvergenz in Richtung von Rändern (Wahrscheinlichkeiten von 0 oder 1) wird durch den Einsatz von Bayes-Schätztechniken vermieden. Komplexe Stichprobenpläne werden berücksichtigt. Des Weiteren verfügt LatentGOLD zur Modellbeurteilung über Bootstrap- und Scoring-Techniken, letztere mit der Möglichkeit der Verwendung der Schätzergebnisse für andere Daten. Implementiert sind auch multiple-Imputations- und Monte-Carlo-Simulationstechniken. SPSS bietet kein LCA-Modul an. Mit der Prozedur TWOSTEP-Clustering steht ein modellbasiertes Clusteranalyseverfahren zur Verfügung. Im Unterschied zur LCA ist TWOSTEP ein hierarchisches Verfahren. Eine Klassifikation mit J-Clustern entsteht durch Verschmelzung von zwei Clustern aus der Klassifikation mit (J + 1)-Clustern. Eine Modellierung von ordinalen Variablen ist ebenfalls nicht möglich. Die Fälle werden deterministisch den Klassen zu geordnet. In STATA steht das Zusatzmodul GLLAMM (www.gllamm.org) zur Verfügung, mit dem sich ebenfalls eine LCA rechnen lässt. Der Modellansatz ist ähnlich dem LCRegressionsmodul von LatentGOLD. Auch Mplus (http://www.statmodel.com/) enthält LC-Modelle, verfügt aber im Unterschied zu LatentGOLD über keine menügesteuerte SPSS-Schnittstelle, dafür aber über eine Schnittstelle zu STATA (Stata2mplus; http://www.ats.ucla.edu/stat/stata/faq/stata2mplus.htm).
560
Johann Bacher und Jeroen K. Vermunt
Tab. 2: Verteilungskennwerte der untersuchten Merkmale v493 Allgemeiner Schulabschluss (Y1 ) 1 2 3 4 5
Ohne Abschluss Volks-,Hauptschule Mittlere Reife Fachhochschulreife Hochschulreife
Gesamt v515 Jetzige Berufliche Stellung (Y2 ) 1 2 3 4 5 6
Landwirt Akadem. freier Beruf Sonst. Selbstaendige Beamter, Richter, Soldat Angestellter Arbeiter
Gesamt
Häufigkeit
Gültige Prozente
10 339 573 87 287
0,77 26,16 44,21 6,71 22,15
1296
100,00
Häufigkeit
Gültige Prozente
11 17 130 88 657 393
0,85 1,31 10,03 6,79 50,69 30,32
1296
100,00
v631 Nettoeinkommen(Y3 ) Mittelwert Median Standardabweichung Variationskoeffizient Perzentil
25 75
1574,4 1400,0 916,7 58,2 % 1000,0 1875,0
3 Ein Beispiel 3.1 Daten Zur Veranschaulichung des allgemeinen Modells für gemischte Merkmale werden im kumulierten Allbus folgende Variable ausgewählt: Y1 = abgeschlossene schulische Bildung (V493), Y2 = berufliche Tätigkeit (V515) und Y3 = Nettoeinkommen (V631). Die Analyse wird auf das Jahr 2006 eingeschränkt. Tabelle 2 gibt die Verteilungskennwerte für jene Befragten wieder, die valide Werte in allen drei Variablen haben. Es soll nun untersucht werden, ob latente Klassen vorliegen. 3.2 Zahl der latenten Klassen Zur Bestimmung der Zahl latenter Klassen wird eine Unter- und Obergrenze definiert. Als Untergrenze sollte immer die Zahl 1 gewählt werden, damit untersucht werden kann, ob überhaupt latente Klassen vorliegen. Die Obergrenze sollte so gewählt werden, dass die für die Daten geeigneten Klassenzahlen kleiner sind. Wird die Obergrenze zu klein gewählt, ist ein weiterer Rechendurchgang mit einer höheren Obergrenze
22 Analyse latenter Klassen
561
Tab. 3: Modellkennzahlen für unterschiedliche Klassenzahlen J
n
npar
1 2 3 4 5 6 7 8 9 10 11 12
1296 1296 1296 1296 1296 1296 1296 1296 1296 1296 1296 1296
11 20 29 38 47 56 65 74 83 92 101 110
LL −13893,81 −13448,62 −13386,26 −13331,19 −13312,11 −13295,88 −13273,25 −13257,01 −13255,85 −13252,34 −13248,04 −13244,29
BIC
AIC
CAIC
AIC3
27866,47 27040,58 26980,35 26934,73 26961,08 26993,11 27012,36 27044,38 27106,56 27164,05 27219,96 27276,95
27809,63 26937,24 26830,51 26738,38 26718,23 26703,76 26676,50 26662,02 26677,70 26688,68 26698,09 26708,58
27877,47 27060,58 27009,35 26972,73 27008,08 27049,11 27077,36 27118,38 27189,56 27256,05 27320,96 27386,95
27820,62 26957,24 26859,52 26776,38 26765,22 26759,76 26741,50 26736,02 26760,70 26780,68 26799,08 26818,58
erforderlich. Für das Beispiel wurde als Obergrenze 12 gewählt. Die Ergebnisse der Modellschätzung fasst Tabelle 3 zusammen. LL ist der Wert der Log-Likelihood-Funktion. Für die 1-Klassenlösung hat sie einen Wert von −13. 893,81, für die 2-Klassenlösung wird eine Verbesserung auf einen Wert von −13. 448,62 erzielt. (Ein Wert näher bei Null bedeutet eine bessere Modellanpassung). Die Zahl der Parameter für die 1-Klassenlösung ist gleich 11. Durch die in LatentGOLD gewählte Reparametrisierung berechnet sich die Parameterzahl npar wie folgt: npar = npar0 + (nparnom + nparord + nparquant + 1) · (J − 1)
(14)
mit npar0 nparnom nparord nparquant J
Zahl Zahl Zahl Zahl Zahl
der der der der der
Regressionskonstanten für Nullmodell Parameter für die nominalen Variablen in jeder Klasse Parameter für die ordinalen Variablen in jeder Klasse Parameter für die quantitativen Variablen in jeder Klasse Klassen.
Liegen ordinale Variablen vor, berücksichtigt LatentGold in der 1-Klassen-Lösung die ordinalen Restriktionen nicht bei der Zahl der Regressionskonstanten npar0 . Die Zahl ist daher npar0 =
nom k=1
(mk − 1) +
ord
(mk − 1) + 2 · quant ,
(15)
k=1
mit mk Zahl der Ausprägungen der nominalen / ordinalen Variablen k. nom ist die Zahl der nominalen Variablen, ord ist die Zahl der ordinalen Variablen und quant ist die Zahl der quantitativ-kontinuierlichen Variablen. Die anderen Größen sind wie folgt definiert:
562
Johann Bacher und Jeroen K. Vermunt
nparnom =
nom
(mk − 1)
(16)
k=1
nparord = ord nparquant = 2 · quant .
(17) (18)
2 Bei quantitativ-kontinuierlichen Variablen werden klassenabhängige Varianzen σk|j angenommen. Für die 1-Klassenlösung ergibt sich in unserem Beispiel eine Zahl von zu schätzenden Parametern von
npar = npar0 = (6 − 1) + (5 − 1) + 2 · 1 = 11 ,
(19)
da die nominale Variable Beruf 6 und die ordinale Variable Bildung 5 Ausprägungen haben und nur eine quantitative Variable vorliegt. Das Informationsmaß AIC von Akaike hat für die 1-Klassenlösung einen Wert von AIC = −2 · −13. 893,18 + 2 · 11 = 27. 809,63. BIC ist gleich BIC = −2 · −13. 893,18 + ln(1296) · 11 = 27. 866,47. Die anderen Informationsmaße lassen sich analog unter Verwendung der entsprechenden Formeln aus der Tabelle 3 berechnen. Für die 2-Klassenlösung beträgt die Parameterzahl npar = 11 + ((6 − 1) + 1 + 2 · 1 + 1) · (2 − 1) = 11 + 9 = 20 ,
(20)
da npar0 gleich 11 ist, eine nominale Variable mit 6 Ausprägungen, nur eine ordinale und eine quantitativ-kontinuierliche Variable vorliegen und J gleich 2 ist. Das Informationsmaß AIC von Akaike ist daher gleich AIC = −2 · −13.448,62+2 · 20 =26.937,24. Für BIC wird ein Wert von BIC = −2 · −13.448,62+ln(1296) · 20 = 27.040,58 ermittelt. Die anderen Maßzaheln lassen sich analog berechnen. AIC und AIC3 erreichen ein Minimum bei 8 Klassen, BIC und CAIC bei 4 Klassen.3 Die Festlegung der maximalen Klassenzahl auf 12 war somit ausreichend. Wäre dagegen zu Beginn eine Obergrenze von kleiner/gleich 8 Klassen spezifiziert worden, wären weitere Berechnungen mit einer höheren Klassenzahl erforderlich, bis min(AIC) bzw. min(AIC3) kleiner der gewählten Obergrenze ist. Von formalen Gesichtspunkten aus erscheint zunächst eine 4- oder 8-Klassenlösung brauchbar. Gefragt werden kann aber auch, ob überhaupt eine Klassenstruktur vorliegt. Zur Beantwortung dieser Frage kann die prozentuelle Verbesserung gegenüber der 1-Klassenlösung, die als Nullmodell betrachtet wird, berechnet werden. Sie ist definiert als: P V 0J =
3
(−2 · LL1 ) − (−2 · LLJ ) . (−2 · LL1 )
(21)
Das Informationsmaß ICL − BIC wurde nicht in die Analyse aufgenommen, da noch wenig Erfahrungswissen vorliegt und es in den Standardprogrammen noch nicht enthalten ist.
22 Analyse latenter Klassen
563
Tab. 4: Weitere Modellkennzahlen für unterschiedliche Klassenzahlen J
npar
1 2 3 4 5 6 7 8 9 10 11 12
11 20 29 38 47 56 65 74 83 92 101 110
LL −13893,81 −13448,62 −13386,26 −13331,19 −13312,11 −13295,88 −13273,25 −13257,01 −13255,85 −13252,34 −13248,04 −13244,29
-2LL
PV0
PV1
LR-Diff
27787,63 26897,24 26772,51 26662,38 26624,23 26591,76 26546,50 26514,02 26511,70 26504,68 26496,09 26488,58
3,20 3,65 4,05 4,19 4,30 4,47 4,58 4,59 4,62 4,65 4,67
3,20 0,46 0,41 0,14 0,12 0,17 0,12 0,01 0,03 0,03 0,03
890,39 124,73 110,13 38,15 32,47 45,26 32,48 2,32 7,02 8,59 7,51
P V 0J ist ein PRE-Maß, wobei der mit dem Faktor −2 multiplizierte Wert der LogLikelihhood-Funktion als Basisdevianz dient. In dem Beispiel ergibt sich für die 4-Klassenlösung (siehe Tabelle 4) eine prozentuelle Verbesserung von P V 04 = 4,05 %. Für die 8-Klassenlösung steigt dieser Wert auf P V 08 = 4,58 %. Analog zu P V 0J kann die prozentuelle Verbesserung gegenüber der vorausgehenden Lösung berechnet werden mit: P V 1J =
(−2 · LLJ−1 ) − (−2 · LLJ ) . −2 · LLJ−1
(22)
Mit dieser Maßzahl haben wir für die Bestimmung der Klassenzahl gute Erfahrungen gemacht. Aus der Tabelle 4 ist ersichtlich, dass P V 1J mehrmals absinkt und dann konstant bleibt. Ein erstes Absinken ist nach 2 Klassen zu beobachten, ein weiteres nach 4 Klassen und ein erneuter Abfall bei 8 Klassen. P V 1J rechtfertigt somit die auf der Basis der Informationsmaße ausgewählten 4- und 8-Klassenlösungen, zusätzlich weist es die 2-Klassenlösung als formal geeignet aus. In der Tabelle 4 wurde zusätzlich die LR-Differenz mit LR = (−2 · LLJ−1 ) − (−2 · LLJ )
(23)
berechnet. Es zeigt sich, dass die Differenz nach 2, 4 und 8 Klassen deutlich abnimmt. Also auch dies ein Hinweis auf die drei möglichen Lösungen. Mitunter wird für die LR-Differenz eine χ2 -Test mit df = nparJ − nparJ−1 Freiheitsgraden durchgeführt. Dies ist nicht zulässig, da die LR-Differenz asymptotisch keine χ2 -Verteilung bestitzt (McLachlan & Peel 2000, S. 185–193). Ein Signifikanztest kann aber mit der in LatentGOLD enthaltenen Bootstrap-Technik (Vermunt 2010; Vermunt & Magidson 2005b) realisiert werden, bei der eine Schätzung für wiederholte Stichprobenziehungen aus den Daten durchgeführt wird. Verfügbar sind die in McLachlan & Peel (2000) dargestellten Techniken (McLachlan & Peel 2000, S. 192–202). Das Verfahren ist sehr zeitintensiv. Daher wurden nur folgende Vergleiche durchgeführt: 2- versus 1-Klassenlösung, 4-
564
Johann Bacher und Jeroen K. Vermunt
versus 2-Klassenlösung, 8- versus 4-Klassenlösung und 9- versus 8-Klassenlösung. Mit Ausnahme des letzten Vergleichs (9- versus 8-Klassenlösung) waren alle Paarvergleiche signifikant. Dies spricht für die 8-Klassenlösung. Sie ist besser als die vorausgehenden Lösungen, während die nachfolgende Lösung keine Verbesserung mehr bringt. Zusammenfassend kommen aus formalen Gesichtspunkten folgende Lösungen in Betracht: –
– –
–
1-Klassenlösung, da alle prozentuellen Verbesserungen gegenüber der 1-Klassenlösung Werte unter 5 % annehmen. Diese Schwelle wurde zuvor von den Autoren festgelegt. 2-Klassenlösung, da die nachfolgenden Lösungen im Vergleich zu den vorausgehenden Lösungen deutlich geringere prozentuelle Verbesserungen erbringen. 4-Klassenlösung, da BIC und CAIC ein Minimum erreichen und die nachfolgenden Lösungen im Vergleich zu den vorausgehenden Lösungen deutlich geringere prozentuelle Verbesserungen erbringen. 8-Klassenlösung, da AIC und AIC3 ein Minimum erreichen und die nachfolgenden Lösungen im Vergleich zu den vorausgehenden Lösungen deutlich geringere prozentuelle Verbesserungen erbringen. Die 8-Klassenlösung verbessert zudem die formal in Betracht kommenden 1-, 2- und 4-Klassenlösungen signifikant, während die 9-Klassenlösung keine signifikante Verbesserung aufweist.
Für welche Lösungen man sich entscheidet, hängt von den weiteren Analyseergebnissen ab. Die Maßzahlen zur Bestimmung der Klassenzahl stellen nur formale Entscheidungshilfen dar. Eine empirische Klassifikation sollte weitere Anforderungen erfüllen, die erst in den nächsten Analyseschritten geprüft werden können. Diese Anforderungen sind: Eine Klassenlösung sollte inhaltlich interpretierbar, stabil und valide sein.4 3.3 Lokale Unabhängigkeit In die LCA fließt die Annahme der lokalen Unabhängigkeit ein. Eine Verletzung der Annahme kann in einer Überschätzung der Klassenzahl bzw. bei korrekter Schätzung der Klassenzahl in verzerrten Parameterschätzungen resultieren (Reboussin et al. 2008). Daher sollte immer geprüft werden, ob die Annahme der lokalen Unabhängigkeit erfüllt ist. LatentGOLD berechnet dazu Modifikationsindizes für die paarweisen Residuen.5 Diese sollten Werte kleiner 3,84 haben (Vermunt & Magidson 2005a, S. 157). In unserem Beispiel ist diese Forderung für die 2-Klassenlösung nicht erfüllt (siehe Tabelle 5). Für das Variablenpaar (V493, V515) tritt ein Modifikationsindex von 17,4406 auf. 4
Weitere formale Kriterien, die an eine Klassifikation mitunter gestellt werden, sind: Sie sollte überschaubar, aber gleichzeitig ausreichend differenziert sein, die Klassen sollten gut getrennt sein und die latenten Klassen sollten eine gewisse Mindestgröße aufweisen. 5 Technisch ausgedrückt, werden Residuen berechnet, die der Lagrange-Multiplikationsmethode entsprechen (Vermunt & Magidson 2005b, S. 73). Weitere Möglichkeiten der Prüfung der lokalen Unabhängigkeit werden in Uebersax (2000) und Reboussin et al. (2008) beschrieben.
22 Analyse latenter Klassen
565
Tab. 5: Modifikationsindizes für paarweise Residuen 2-Klassenlösung Indicators
v493
v493 (allgemeiner Schulabschluss) – v515 (derzeitige berufliche Stellung) 17,4406 v631 (Nettoeinkommen) 0,0042
v515
4-Klassenlösung
8-Klassenlösung
v493
v515
v493
v515
– 1,4841
– 0,0435 0
– 0,3169
– – 2,2157 3,6059 3,9404
Bei der 4-Klassenlösung ist die Forderung beinahe erfüllt. Der Indexwert von 3,9494 liegt nur knapp über dem Schwellenwert von 3,84. Die 8-Klassenlösung erfüllt die Forderung perfekt. Dies ist nicht überraschend. Durch eine Erhöhung der Klassenzahl wird „automatisch“ eine bessere Anpassung an die lokale Unabhängigkeit erreicht, so dass insgesamt ein Kompromiss zwischen einer überschaubaren Klassenzahl und der Annahme der lokalen Unabhängigkeit zu finden ist. Bei Verletzung der Annahme der lokalen Unabhängigkeit sind zwei Strategien denkbar: Die Erhöhung der Klassenzahl oder vergleichbar zu korrelierten Messfehlern in Strukturgleichungsmodellen (siehe Kapitel 29 in diesem Handbuch) die Modellierung von lokalen Abhängigkeiten (Vermunt & Magidson 2005b; Reboussin et al. 2008; Uebersax 2000). Bei der Modellierung von lokalen Abhängigkeit ist zu bedenken, dass dadurch – wiederum vergleichbar zu den latenten Strukturgleichungsmodellen – die Identifikation eines Modells verloren gehen kann. 3.4 Inhaltliche Interpretierbarkeit Zur Prüfung der inhaltlichen Interpretation eignen sich die Klassenprofile (Output prob mean in LatentGOLD; siehe Tabelle 6). Die Klassenprofile können auch graphisch dargestellt werden. Bei ordinalen und nominalen Klassenvariablen werden als Klassenprofile die bedingten Anteilswerte πkr|j je latenter Klasse ausgegeben, bei quantitativen Variablen die Mittelwerte μk|j je latenter Klasse, für die latenten Klassen die Anteilswerte πj . Die Werte der Tabelle 6 sind wie folgt zu lesen: – Das Cluster 1 hat einen Anteil von 50,6 %, das Cluster 2 von 25,01 % usw. – Die (bedingte) Wahrscheinlichkeit für den Bildungsabschluss „Ohne Abschluss“ in der latenten Klasse 1 ist gleich 0,23 %. Die (bedingte) Wahrscheinlichkeit für Bildungsabschluss „Volks-, Hauptschule“ gleich 22,45 %, usw. – Die Werte für den Beruf sind analog zu den Bildungsabschlüssen zu interpretieren. Die Wahrscheinlichkeit, dass in der ersten Klasse der Beruf „Landwirt“ auftritt, ist gleich 0 %, usw. – Der Wert von 1161 in der Variablen V631 (Nettoeinkommen) bedeutet schließlich, dass das durchschnittliche Nettoeinkommen in der ersten Klasse gleich 1161 € ist. Die Tabellenwerte der Tabelle 6 haben folgende Eigenschaften: –
Die Summe der Klassenwahrscheinlichkeiten ist gleich 1 (0,506 + 0,2501 + 0,2232 + 0,0207 = 1,0).
566
Johann Bacher und Jeroen K. Vermunt
Tab. 6: Profile der 4-Klassenlösung Cluster1
Cluster2
Cluster3
Cluster4
Cluster Size
0,5060
0,2501
0,2232
0,0207
V493 Ohne Abschluss Volks-, Hauptschule Mittlere Reife Fachhochschulreife Hochschulreife Mittelwert
0,0023 0,2245 0,5695 0,0719 0,1318 3,1064
0,0001 0,0367 0,2787 0,1055 0,5709 4,2266
0,0291 0,6156 0,3420 0,0095 0,0038 2,3432
0,0003 0,0678 0,3833 0,1079 0,4406 3,9206
V515 Landwirt Akadem. freier Beruf Sonst. Selbstaendige Beamter, Richter, Soldat Angestellter Arbeiter
0 0 0,0827 0,0002 0,7087 0,2084
0 0,0463 0,1254 0,2644 0,5519 0,0120
0,038 0 0,0759 0,0003 0,0136 0,8722
0,0001 0,0739 0,4907 0,0782 0,3529 0,0042
V631 Mittelwert(μk|j ) SD (σk|j ) Variationskoeffizient VK
–
1161 426 36,7 %
2245 796 35,5 %
1428 578 40,5 %
5188 1444 27,8 %
Die Spaltensumme für nominale und ordinale Merkmale je latenter Klassen ist 1. Es gilt also z. B. 0,0023 + 0,2245 + · · · + 0,1318 = 1.
Bei der Interpretation einer latenten Klasse sollte man sich auf jene Werte konzentrieren, in denen sie sich von den anderen latenten Klassen unterscheidet. Anwendung dieses Prinzips ergibt folgendes Bild: Für die latente Klasse 1 ist eine mittlere Schulbildung und der Beruf eines Angestellten oder Arbeiters charakteristisch. Das durchschnittliche Nettoeinkommen liegt bei Euro 1. 161,-. – Für die latente Klasse 2 ist eine höhere Bildung, der Beruf des Angestellten oder Beamten und ein durchschnittliches Nettoeinkommen von Euro 2. 245,- charakteristisch. – Für die latente Klasse 3 ist ein niedriger Schulabschluss, der Beruf des Arbeiters und eine durchschnittliches Nettoeinkommen von Euro 1. 428,- charakteristisch. – Für die latente Klasse 4 ist eine sehr hohen Nettoverdienst, eine mittlere oder höhere Bildung und die Berufe Selbständige, Freiberufler oder Angestellte charakteristisch.
–
Bei quantitativ-kontinuierlichen Variablen sollte man zusätzlich die Klassenvarianzen bzw. Klassenstandardabweichungen beachten, da sie Auskunft über die Homogenität der Klassen in der untersuchten quantitativ-kontinuierlichen Variablen geben. Daher wurden in Tabelle 6 auch die Standardabweichungen eingetragen. Sie können dem
22 Analyse latenter Klassen
567
Output Parameters entnommen werden. Die Standardabweichungen nehmen mit den Mittelwerten zu. Zum Vergleich der Klassen und zur besseren Interpretation wurde daher auch der Variationskoeffizient mit V K = 100 · σk|j/μk|j berechnet. Der Variationskoeffizient beträgt 27,8 % bis 40,5 % des jeweiligen Mittelwertes. Die Homogenität der Klassen ist also relativ ähnlich. Eine Klasse mit einem besonders hohen oder niedrigen Wert ist nicht feststellbar. Die Werte liegen deutlich unter dem Gesamtvariationskoffizienten von 58,2 %. Das Ziel der Bildung homogener Klassen wird somit erreicht, auch wenn die Werte natürlich kleiner sein könnten. Schwellenwerte zur Beurteilung der Homogenität gibt es leider nicht. Die latente Klasse 1 könnte als Schicht der einfachen Angestellten und Arbeiter bezeichnet werden, die zweite latente Klasse als Schicht der mittleren Angestellten und Beamten, die dritte als Arbeiterschicht und die vierte als Schicht der leitenden Angestellten, Selbständigen und Freiberufler. Die 4-Klassenlösung ist somit inhaltlich gut interpretierbar. Damit ist ein weiteres Kriterium für eine brauchbare Klassifikation erfüllt. Auch die beiden anderen formal geeigneten Klassenlösungen (2-Klassenlösung und 8-Klassenlösung) sind inhaltlich gut interpretierbar. Bei der 2-Klassenlösung lässt sich eine latente Klasse als Unter- und Mittelschicht bezeichnen, die andere als Oberschicht. Der Nachteil dieser Lösung ist, dass sie ein zu grobes Bild vermittelt, also zu wenig differenziert. Zusätzlich ist die Annahme der lokalen Unabhängigkeit nicht erfüllt. Auch die 8-Klassenlösung ist inhaltlich gut interpretierbar. Allerdings hat sie den Nachteil, dass zwei sehr kleine latente Klassen entstehen, die Lösung als möglicherweise zu fein differenziert und daher auch nicht stabil ist (siehe dazu unten). Die bisherigen Befunde vermitteln ein leichtes Plus für die 4-Klassenlösung vermitteln. 3.5 Stabilität Nach der inhaltlichen Interpretation muss die Stabilität und Validität einer Klassenlösung untersucht werden. Mit der Stabilität einer Klassenlösung ist gemeint, dass geringfügige Änderungen in den Daten oder im gewählten Modell nur geringfügige Änderungen in den Ergebnissen auslösen. So z. B. sollte sich die Klassenlösung nicht ändern, wenn einige Fälle oder unbedeutende (irrelevante) Merkmale, in denen sich die Klassen nicht unterscheiden, eliminiert oder hinzugenommen werden oder wenn die Modellspezifikationen geändert werden. Schwellenwerte dafür, was mit geringfügigen Änderungen gemeint ist, sind leider nicht vorhanden.6 In der Literatur wird zur Untersuchung der Stabilität häufig ein Split-Half-Design empfohlen. Der Datensatz wird zufällig in zwei Hälften geteilt. Für jede Hälfte wird eine LCA durchgeführt. Anschließend wird untersucht, ob die beiden Ergebnisse übereinstimmen. Zur Beurteilung der Ähnlichkeit der berechneten Ergebnisse kann beispielsweise Catells Koeffizient der Profilähnlichkeit (Bacher 1996, S. 226) eingesetzt werden. Analysiert wird mit dieser Methode die Stabilität gegenüber Änderungen der Daten. Tabelle 7 zeigt einige weitere Prüfmöglichkeiten auf. Zu unterscheiden ist die Stabilität bezüglich der gewählten Modellspezifikation und die Stabilität bezüglich der untersuchten Daten. Die Stabilität kann anhand folgender Kriterien geprüft werden: 6
Hinweise auf die Stabilität vermitteln auch die in nächsten Abschnitt behandelten Validitätsindizes.
568
Johann Bacher und Jeroen K. Vermunt
Tab. 7: Möglichkeiten der Stabilitätsprüfung Stabilität gegenüber Modellspezifikation Modellparameter Startwerte Konvergenzkriterium Stabilität gegenüber Datenmodifikationen Elimination von Fällen Hinzunahme von irrelevanten Variablen Wegnahme von irrelevanten Variablen
z. B. Binomialverteilung für ordinale Variable statt Multinomialverteilung mit Restriktionen z. B. Erhöhung der Zahl der Startwerte z. B. strengere Definition der Konvergenzkriterien z. B. zufälliger Ausschluss von 10 % der Fälle z. B. normalverteilte Zufallsvariable(n) als Klassifikationsmerkmale einbeziehen z. B. erneute Analyse ohne Variable, welche die Klassen nicht trennen
–
Reproduktion der Klassenzahl. Bei einer stabilen Lösung sollten die Informationskriterien zu identischen Klassenlösungen führen. – Reproduktion der Klassenprofile. Bei einer stabilen Lösung sollten die Klassenprofile der ausgewählten Klassenlösung(en) weitgehend übereinstimmen. Dies ist formal das schwächste, aber inhaltlich das wichtigste Kriterium. Zur Berechnung der Ähnlichkeit von Profilen kann der bereits genannte Koeffizient der Profilähnlichkeit von Catell genutzt werden.
Für unser Beispiel wurden unterschiedliche Stabilitätstests durchgeführt. Geprüft wurde z. B. die Stabilität bzgl. der Startwerte und der Konvergenzkriterien. Für die Stabilität bzgl. der Daten wurden mehrere Tests gerechnet. So z. B. wurden drei Substichproben gezogen. Jede Substichprobe enthielt 90 % der ursprünglichen Fälle. Untersucht wurde, ob der BIC durchgehend zu einer 4-Klassenlösung führt. Dies ist nicht der Fall. Nur bei einer Substichprobe erreicht der BIC für die 4Klassenlösung ein Minimum, bei den anderen beiden untersuchten Substichproben wird die 2-Klassenlösung als die beste ausgewiesen. Allerdings liegen die BIC-Werte der 2- und 4-Klassenlösungen nahe beieinander. Betrachtet man die 4-Klassenlösungen, so stimmen die Klassenprofile sehr gut überein. Das inhaltlich wichtige Kriterium der Reproduktion der Klassenprofile ist somit erfüllt. Der Einfluss von irrelevanten Variablen wurde dadurch untersucht, dass eine standardnormalverteilte Zufallsvariable als weitere Klassifikationsvariable hinzugenommen wurde. Dies führt zu keiner Änderung der Ergebnisse. Der BIC und der CAIC erreichen ihr Minimum bei 4 Klassen, der AIC und der AIC3 bei 8 Klassen. Die Klassenprofile stimmen ebenfalls überein. Irrelevante Variable haben somit keinen Einfluss. Vermutliche Ursache für diesen erfreulichen Befund ist, dass irrelevante Variablen die Ergebnisse einer LCA weniger stark beeinflussen als bei anderen Clusterverfahren, insbesondere bei hierarchischen Verfahren (Bacher et al. 2004; Bacher 1996). Die umgekehrte Prüfung, ob das Streichen einer irrelevanten Variablen, zu Änderungen führt, kann im vorliegenden Beispiel nicht durchgeführt werden, da alle drei Klassifikationsmerkmale zur Trennung der Cluster beitragen. Zur Beurteilung der Relevanz von Variablen berechnet LatentGOLD für jede Variable eine Wald-Statistik
22 Analyse latenter Klassen
569
und ein R2 . Als relevant können Variablen mit einem signifikanten Wert in der WaldStatistik oder mit einem R2 über einem bestimmten Schwellenwert betrachtet werden. Bei der Anwendung dieser Regel ist Vorsicht angebracht. Bei einer großen Stichprobe ist die Wald-Statistik immer signifikant, auch wenn die Variable irrelevant ist. Bei einer kleinen oder mittleren Stichprobe kann die Wald-Statistik das Signifikanzniveau verfehlen. Auch R2 kann klein sein, obwohl die Variable für eine bestimmte latente Klasse relevant ist. Dies ist beispielsweise dann der Fall, wenn die latente Klasse nur einen geringen Anteil hat. 3.6 Formale Validitätsprüfung durch Validitätsindizes In den letzten Jahren wurde für die Clusteranalyse eine Vielzahl von Validitätsmaßzahlen entwickelt. Diese geben an, wie gut eine empirische Klassifikation die Vorstellungen einer guten Klassifikation erfüllt (z. B. Omran et al. 2007). Untersucht wird somit die formale Gültigkeit. Die Maßzahlen werden auch zur Bestimmung der Clusterzahl eingesetzt. Für die LCA sind diese nur bedingt geeignet, da sie ein Distanzmaß und spezifische Gewichtungen bei Nichtvergleichbarkeit der Variablen erfordern. Besser geeignet für die LCA sind Maßzahlen, die für die Fuzzy-Clusteranalyse, entwickelt wurden, wie die Partions-Indizes von Dunn und Backer (Bacher 1996, S. 371–375). Diese beiden Indizes messen, wie gut die Cluster getrennt sind. Dies ist dann der Fall, wenn alle Objekte eindeutig einem Cluster zugeordnet werden können. Von einem ähnlichen Konzept gehen die in LatentGOLD enthaltenen R2 -Maßzahlen (Vermunt & Magidson 2005a,b) aus. Für das Beispiel werden die in Tabelle 8 angeführten Werte berechnet. E ist die Zahl der Klassifikationsfehler. E = 0, wenn alle Objekte eindeutig mit einer Wahrscheinlichkeit von 1 nur einer latenten Klasse zugeordnet werden. Die R2 -Maße haben den Wert 1, wenn die Objekte eindeutig nur einer latenten Klasse angehören. Sie sind als PRE-Maße konstruiert und geben an, wie gut die untersuchte Klassenlösung die Klassifikation der Fälle gegenüber einer (zufälligen) Zuordnung bei ausschließlicher Kenntnis der Klassenanteilswerte verbessert. Verwendet werden unterschiedliche Konzepte der Fehlerberechnung. In unserem Beispiel nimmt bei der 2-Klassenlösung der Klassifikationsfehler einen Wert von 8,4 % an (siehe Tabelle 8). Bei 4 Klassen steigt er auf 17,0 %, bei 8 Klassen auf 26,7 %. D. h., dass die 4 und 8 Klassen weniger gut getrennt sind. Dies ist „automatisch“ der Fall, da bei mehr Klassen rein zufällig mehr Überlappungen auftreten. Bei den R2 -Maßen wird dieses „Defekt“ korrigiert. Für die 2- und 4- Klassenlösungen werden in etwa gleich gute R2 -Werte erzielt, für die 8-Klassenlösung – mit Ausnahme des entropie-basierten Maßes – deutlich schlechtere. Diese Befunde sprechen gegen die 8-Klassenlösung. 3.7 Kriterienbezogene Validitätsprüfung Durchgeführt werden sollte auf jeden Fall eine kriterienbezogene Validitätsprüfung. Bei dieser werden Hypothesen über Zusammenhänge der latenten Klassen mit anderen Variablen formuliert und empirisch geprüft. Für unser Beispiel können folgende Hypothesen aufgestellt werden:
570
Johann Bacher und Jeroen K. Vermunt
Tab. 8: Klassifikationsfehler und R2 -Statistiken Classification statistics
2 Klassen
4 Klassen
8 Klassen
Classification errors (E) Reduction of errors (λ) Entropy R2 Standard R2
0,0843 0,6861 0,6587 0,6956
0,1699 0,6561 0,6456 0,6236
0,2665 0,5549 0,6127 0,5109
Hypothese 1: In den latenten Klassen der Arbeiter und jener der leitenden Angestellten/Selbständigen/Freiberufler gibt es mehr Männer als in den anderen Klassen. Hypothese 2: Besonders viele Frauen befinden in der latenten Klasse der einfachen Angestellten und Arbeiter. Hypothese 3: In der latenten Klasse der leitenden Angestellten/Selbständigen/ Freiberufler befinden sich mehr Personen mit protestantischem Glaubensbekenntnis. Hypothese 4: In der latenten Klasse der leitenden Angestellten/Selbständigen/ Freiberufler gibt es eine stärkere Präferenz für eine liberale Partei (Hypothese 4 a) und für eine liberale Politik (Hypothese 4 b). Hypothese 5: In der latenten Klasse der Arbeiter besteht eine Präferenz für die SPD (Hypohtese 5 a) und für sozialdemokratische Politik (Hypothese 5 b). Für die empirische Prüfung bestehen in LatentGOLD zwei Möglichkeiten: (1.) Die Klassenzugehörigkeit und die Klassenzugehörigkeitswahrscheinlichkeiten werden abgespeichert und an den ursprünglichen Datensatz als neue Variablen angefügt. Zur Hypothesenprüfung können dann die üblichen statistischen Verfahren angewandt werden. Gerechnet werden kann entweder mit der modalen Klassenzugehörigkeit oder mit den Klassenzugehörigkeitswahrscheinlichkeiten. (2.) Die Kriterienvariablen werden als inaktive (deskriptive) Kovariaten in die Analyse mit LatentGOLD einbezogen. Wir empfehlen die erste Option. Bei ihr stehen mehr statistische Verfahren zur Verfügung. Zudem können inaktive Variablen wegen fehlender Werte in LatentGOLD die Fallzahl reduzieren und die ursprünglichen Ergebnisse ändern. Die Ergebnisse der Validitätsprüfung fasst Tabelle 9 zusammen. Wiedergegeben sind die Ergebnisse von Berechnungen mit den Klassenzuordnungswahrscheinlichkeiten. Weitgehend ähnliche Ergebnisse erzielt man, wenn mit der modalen Klasse gerechnet wird. Als Indikator für eine liberale Einstellung wurde das Inglehart-Item der Zustimmung zur freien Meinungsäußerung verwendet, als Indikator für eine sozialdemokratische Einstellung die Zustimmung zur Inflationsbekämpfung. Andere Items sind leider im kumulierten Allbus für das Jahr 2006 nicht verfügbar. Für die Hypothesenprüfung wurde ein Schwellenwert von 5 % für das Fehlerniveau festgelegt. 4 der 7 Hypothesen werden bestätigt. Lässt man tendenzielle Zusammenhänge mit p < 0,100 gelten, werden
22 Analyse latenter Klassen
571
Tab. 9: Ergebnisse der kriterienbezogenen Validitätsprüfung Hypothese Operationalisierung 1 2 3 4a 4b 5a 5b
Frauenanteil in LC3 + LC4 < LC1 + LC2 Frauenanteil in LC1 > LC2+LC3+LC4 Protestanten in LC4 > LC1+LC2+LC3 FDP-Präferenz in LC4 > LC1+LC2+LC3 Zustimmung zur freien Meinungsäußerung in LC4 > LC1+LC2+LC3 SPD-Präferenz in LC3 > LC1+LC2+LC4 Zustimmung zur Inflationsbekämpfung in LC3 > LC1+LC2+LC4
Anteilswerte
Teststatistik 2
p
21,8 % vs. 52,2 %
χ =89,3
0,000
60,8 % vs. 28,4 %
χ2 =137,4
0,000
29,6 % vs. 30,8 %
χ2 =0,02
0,901
29,2 % vs. 11,7 %
χ2 =6,7
0,009
65,4 % vs. 46,2 %
χ2 =3,7
0,053
27,6 % vs. 25,8 %
χ2 =0,3
0,576
46,8 % vs. 31,6 %
χ2 =22,3
0,000
5 der 7 Hypothesen bestätigt. Abgelehnt wird die aus Max Webers Protestantismusthese abgeleitete Hypothese 3, der zur Folge in der latenten Klasse 4 der Selbständigen, Freiberufler und leitenden Angestellten der Anteil von Protestanten höher ist. Auch die Hypothese 5 a, der zur Folge in der latenten Klasse 3 der Arbeiter eine stärkere SPD-Präferenz besteht, wird falsifiziert. Die zur Validierung aufgestellten Hypothesen werden somit nicht durchgehend bestätigt. Welcher inhaltliche Schluss daraus gezogen wird, hängt von der Bedeutung der Hypothesen ab. Werden die Hypothesen 3 und 5 a als zentral und empirisch gut bewährt erachtet, ist die Validierung gescheitert. Andernfalls wird man die Validierungsprüfung als erfolgreich betrachten. Neben einer kriterienbezogenen Validitätsprüfung kann auch eine Expertenvalidierung durchgeführt wird. Die gewonnene Klassenlösung wird Experten und Expertinnen vorgelegt und von diesen bewertet. In unserem Beispiel könnten die Klassenlösungen Fachkollegen und -kolleginnen der Sozialstrukturanalyse vorgelegt werden.
4 Häufige Fehler Häufige Fehler ergeben sich unmittelbar aus der bisherigen Darstellung: –
–
Die LCA wird primär explorativ eingesetzt. Unbefriedigende Ergebnisse werden dann dahingehend interpretiert, dass die LCA ein ungeeignetes Verfahren ist. Dies ist ein unzulässiger Schluss. Wünschenswert wäre – wie bereits in der Einleitung erwähnt – ein stärker konfirmatorisches Vorgehen. Wegen des explorativen Verständnisses wird eine große Zahl von Klassifikationsmerkmale in die LCA einbezogen. Die LCA ist zwar relativ robust gegenüber irrelevanten Variablen. Allerdings besteht bei vielen Variablen die Gefahr, dass die
572
–
–
–
–
Johann Bacher und Jeroen K. Vermunt
Annahme der lokalen Unabhängigkeit nicht erfüllt ist. Wir empfehlen daher mehr Sorgfalt bei der Auswahl der Variablen. Wenn möglich und inhaltlich gerechtfertigt, sollten Faktorwerte an Stelle von Einzelitems in die Analyse einbezogen werden. Bei der Bestimmung der Klassenzahl wird zu „automatisch“ vorgegangen und nur jene Lösung mit dem kleinsten BIC (oder AIC) ausgewählt. Dies ist problematisch, da sich die Werte eines Informationsmaßes für eine Reihe von Klassenlösungen oft nur geringfügig unterscheiden. Zudem gibt es nicht nur ein Informationsmaß, sondern eine Vielzahl von Informationsmaßen. Wir empfehlen daher die Verwendung mehrerer Informationsmaße und mehrerer formal zulässiger Lösungen für weitere Analysen. Die Annahme der lokalen Unabhängigkeit wird nicht geprüft. Eine Verletzung kann dazu führen, dass eine größere Klassenzahl als tatsächlich vorhanden ausgewählt wird oder verzerrte Schätzungen der Modellparameter bei korrekter Klassenzahl berechnet werden. Wir empfehlen daher die Überprüfung der lokalen Unabhängigkeit. Ist die Annahme verletzt, können die Klassenzahl erhöht oder lokale Abhängigkeiten modelliert werden. Zu achten ist dabei darauf, dass die Identifikation nicht verloren geht. Für eine gefundene Klassenlösung wird weder die Stabilität noch die Validität untersucht. Dadurch besteht die Gefahr, dass eine instabile oder invalide Lösung inhaltlich interpretiert wird. Sowohl die Stabilität als auch die Validität sollte mit den dargestellten Methoden immer geprüft werden. Die Brauchbarkeit alternativer Verfahren wird nicht analysiert. Sofern inhaltlich und formal sinnvoll, sollte geprüft werden, ob auch andere statistische Modelle geeignet sind und ob sie eine bessere Abbildung der Daten ermöglichen als die LCA.
5 Alternativen Die LCA ist ein statistisches Modell, das den Daten zugrunde liegen kann. Nach Möglichkeit sollte untersucht werden, ob nicht andere Modelle zur Abbildung der Daten bessere Ergebnisse erzielen. In unserem Beispiel könnte gefragt werden, ob nicht ein faktoranalytisches Modell mit einem Faktor, der sich als sozio-ökonomischer Status interpretieren lässt, besser geeignet ist.7 Diese Frage kann direkt mit LatentGOLD beantwortet werden. Neben der LCA enthält LatentGOLD ein faktoranalytisches Modell, mit dem sich Variablen beliebigen Messniveaus analysieren lassen. Die gebildeten latenten Faktoren haben streng genommen ordinales Messniveau, können aber forschungspraktisch als quantitativ betrachtet werden. Alternativ könnte eine Korrespondenzanalyse (siehe Kapitel 16 in diesem Handbuch) gerechnet werden. Dafür müsste aber das Nettoeinkommen zu Gruppen zusammengefasst werden. Daher wurde direkt LatentGOLD eingesetzt. Aus den Ergebnissen der Tabelle 10 ist zu entnehmen, dass unter den einfaktoriellen Modellen (erkennbar an der Ziffer „1“ vor dem Begriff 7
Auf folgenden Unterschied sei hingewiesen: Die Faktorenanalyse ist ein variablenorientiertes Verfahren, die LCA eine personen- bzw. fallorientiertes.
22 Analyse latenter Klassen
573
Tab. 10: Vergleich von Faktoren- und Klassenlösungen LL 1-DFactor(2) 1-DFactor(3) 1-DFactor(4) 1-DFactor(5) 1-DFactor(6) 1-DFactor(7) 1-DFactor(8) 1-Cluster 2-Cluster 3-Cluster 4-Cluster 5-Cluster 6-Cluster 7-Cluster 8-Cluster
−13633,4496 −13537,1175 −13493,4929 −13484,6666 −13478,2665 −13475,6199 −13478,4965 −13893,8139 −13448,6209 −13386,2567 −13331,1889 −13311,4253 −13299,7459 −13285,3027 −13279,0617
BIC(LL)
Npar
Class.Err.
27403,0728 27217,5758 27137,4937 27127,0080 27121,3748 27123,2487 27136,1689 27866,4652 27040,5826 26980,3576 26934,7253 26959,7013 27000,8460 27036,4628 27088,4843
19 20 21 22 23 24 25 11 20 29 38 47 56 65 74
0,0251 0,0295 0,0380 0,0655 0,0795 0,1098 0,0794 0 0,0843 0,1612 0,1699 0,1804 0,1886 0,2248 0,2447
„DFactor“) sechs Ausprägungen („1-DFactor(6)“) mit einem BIC von 27.121,3748 die beste Modellanpassung erzielen. Dieser Wert ist schlechter als jener für die 4Klassenlösung (BIC = 26.934,7253). Allerdings sind die Unterschiede nicht gravierend. Der Faktor lässt sich sehr gut als sozio-ökonomischer Status interpretieren. Gegen das faktoranalytische Modell spricht aber, dass die Annahme der lokalen Unabhängigkeit sehr stark verletzt ist und für die paarweisen Residuen der Variablen V493 und V515 ein Modifikationsindex von 37,7879 ermittelt wird. Dies spricht für die 4-Klassenlösung, bei der die Annahme der lokalen Unabhängigkeit relativ gut erfüllt ist. Für die faktoranalytischen Ergebnisse lässt sich dagegen anführen, dass eine ordinalskalierte latente Variable vorliegen würde, die forschungspraktisch wie eine quantitative behandelt werden kann. Auf einen Aspekt der Tabelle 10 sei noch hingewiesen. Für die Faktorenanalyse werden geringere Klassifikationsfehler berechnet. Dies ist dadurch bedingt, dass die Ausprägungsgruppen (Cluster) bei der Faktorenanalyse besser getrennt sind. Diese bessere Trennung entspricht aber nicht der Datenkonstellation und resultiert in schlechteren Log-Likelihoodwerten und Informationsmaßen.
6 Literaturempfehlungen Einen sehr guten Überblick über unterschiedliche LC-Modelle gibt Vermunt (2010). Unterschiedliche Anwendungsaspekte werden in Hagenaars & McCutcheon (2002) sowie in Vermunt (2003) und Vermunt et al. (2008) behandelt. Anwendungsbeispiele finden sich im Handbuch zu LatentGOLD (Vermunt & Magidson 2005a), das von der Hompegage heruntergeladen werden kann. Eine Darstellung der Rechenschritte anhand von konkreten Beispiele aus der Forschung kann in Bacher (1996) nachgelesen werden. Alle Berechnungsformeln werden ausführlich und gut nachvollziehbar behandelt in
574
Johann Bacher und Jeroen K. Vermunt
Vermunt & Magidson (2005b). Nach wie vor sehr informativ und leicht lesbar ist die Einführung von Lazarsfeld & Henry (1968).
Literaturverzeichnis Bacher, J. (1996). Clusteranalyse. Anwendungsorientierte Einführung. München: Oldenbourg. Bacher, J., Wenzig, K., & Vogler, M. (2004). SPSS TwoStep Cluster - A First Evaluation. Arbeits- und Diskussionspapiere 2004-2, Universität Erlangen-Nürnberg, Lehrstuhl für Soziologie. Letzter Zugriff 29.03.2010: http://www.soziologie.wiso.uni-erlangen.de/ publikationen/a-u-d-papiere/a_04-02.pdf. Fonseca, J. R. S. & Cardoso, M. G. M. S. (2007). Mixture-Model Cluster Analysis Using Information Theoretical Criteria. Intelligent Data Analysis, 11, 155–173. Fraley, C. & Raftery, A. (2002). Model-Based Clustering, Discriminant Analysis, and Density Estimation. Journal of the American Statistical Association, 97, 611–631. Frühwirth-Schnatter, S. (2006). Finite Mixture and Markov Switching Models. New York: Springer-Verlag. Goodman, L. A. (1974). The Analysis of Systems of Qualitative Variables when Some of the Variables are Unobservable. Part i: A Modified Latent Structure Approach. American Journal of Sociology, 79, 1179–1259. Hagenaars, J. A. & McCutcheon, A. (2002). Applied Latent Class Analysis. Cambridge: Cambridge University Press. Lazarsfeld, P. F. & Henry, N. W. (1968). Latent Structure Analysis. Boston: Houghton Mifflin. McLachlan, G. & Peel, D. (2000). Finite Mixture Models. New York: John Wiley. Omran, M. G. H., Engelbrecht, A. P., & Salman, A. (2007). An Overview of Clustering Methods. Intelligent Data Analysis, 11, 583–605. Reboussin, B. A., Edward, H. I., & Wolfson, M. (2008). Locally Dependent Latent Class Models with Covariates: An Application to Under-Age Drinking in the USA. Journal of Royal Statistical Society, 171, 877–897. Uebersax, J. (2000). A Practical Guide to Local Dependence in Latent Class Models. Letzter Zugriff 29.03.2010: http://www.john-uebersax.com/stat/condep.htm. Vermunt, J. K. (2003). Multilevel Latent Class Models. Sociological Methodology, 33, 213–239. Vermunt, J. K. (2010). Latent Class Models. In E. Baker, P. Peterson, & B. McGaw (Hg.), International Encyclopedia of Education, Band 7 (S. 238–244). Oxford: Elsevier, 3. Auflage. Vermunt, J. K. & Magidson, J. (2005a). Latent GOLD 4.0: User’s Guide. Letzter Zugriff 29.03.2010: http://www.statisticalinnovations.com. Vermunt, J. K. & Magidson, J. (2005b). Technical Guide for Latent GOLD 4.0: Basic and Advanced. Letzter Zugriff 29.03.2010: http://www.statisticalinnovations.com. Vermunt, J. K., Tran, B., & Magidson, J. (2008). Latent Class Models in Longitudinal Research. In S. Menard (Hg.), Handbook of Longitudinal Research: Design, Measurement, and Analysis (S. 373–385). Burlington: Elsevier.
23 Netzwerkanalyse Hans J. Hummell und Wolfgang Sodeur Universität Duisburg-Essen
Zusammenfassung. Die Netzwerkanalyse befasst sich mit der systematischen Anordnung der Beziehungen zwischen den Einheiten in einer Population. Angestrebt werden u. a. Aussagen über verschiedene Aspekte der Beziehungsstruktur in der gesamten Population, über die Abgrenzung von Teilgruppen aufgrund der Beziehungen innerhalb bzw. zwischen den Teilgruppen und vor allem über die strukturelle Einbettung einzelner Einheiten in das sie umgebende Beziehungsnetz. Die Struktur sozialer Beziehungsnetze ist einerseits das Ergebnis sozialer Prozesse und nimmt andererseits Einfluss auf ihren weiteren Verlauf. Beziehungsstrukturen sind somit integraler Bestandteil sozialer Institutionen und Prozesse. Keinesfalls sollten sie als Spezialitäten und gesondert von anderen Analysen behandelt werden. Entsprechend werden wir die Konzepte der Netzwerkanalyse als Messkonzepte für „strukturelle“ Eigenschaften auf den verschiedenen Ebenen eines Beziehungsnetzes einführen. Mit dem Ziel einer Integration von „Strukturanalysen“ in die herkömmlichen Strategien einer theoriegeleiteten Umfrageforschung und verwandter „individualistischer“ Ansätze werden wir uns im Folgenden jedoch auf Akteure und deren soziale Beziehungen als Erklärungsgegenstand konzentrieren. Auf eine Darstellung strikt „strukturalistischer“ Ansätze wird daher in diesem Zusammenhang verzichtet; gleichwohl sollten unsere Ausführungen für eine „Mikrofundierung“ solcher „Strukturanalysen“ hilfreich sein. In der von uns hier eingenommenen Sicht bestehen die Ergebnisse der Netzwerkanalyse also aus neuen Merkmalen, die z. B. die soziale Umgebung von Akteuren oder die interne und externe Beziehungsstruktur u. a. von Teilgruppen, denen die Akteure angehören, beschreiben. Diese Merkmale gehen anschließend genau wie andere Merkmale in die multivariate Analyse ein.
1 Einführung Die Netzwerkanalyse befasst sich mit der systematischen Anordnung der Beziehungen („Struktur“) zwischen den Einheiten in einer Population. Angestrebt werden u. a. Aussagen über verschiedene Aspekte der Beziehungsstruktur in der gesamten Population, über die Abgrenzung von Teilgruppen aufgrund der Beziehungen innerhalb bzw. zwischen den Teilgruppen und vor allem über die strukturelle Einbettung einzelner Einheiten in das sie umgebende Beziehungsnetz. Andererseits sind die grundlegenden empirischen Daten meist dyadisch-relationaler Art, indem sie sich auf die paarweisen Beziehungen zwischen den Einheiten wie z. B. zwischen Personen beziehen. Mit den Personen, den Paaren von Personen, u. U. umfassenderen Teilgruppen aus drei, vier oder mehr Personen bis hinauf zum gesamten Beziehungsnetz sind in der Netzwerkanalyse deshalb fast immer mehrere Ebenen S. 575–603 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_23, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
576
Hans J. Hummell und Wolfgang Sodeur
beteiligt. Eine sinnvolle Anwendung der Netzwerkanalyse verlangt daher sorgfältig geklärte Vorstellungen – –
über die angestrebte(n) Ebene(n) der Aussage(n), über den Weg der Daten von der Erhebung auf einer „unteren Ebene“ von z. B. Paarbeziehungen über die Ableitung von Struktureigenschaften in Teilgruppen oder im Gesamtnetzwerk bis zur Zuordnung dieser „kollektiven“ Eigenschaften als Umgebungseigenschaften an die eingebetteten individuellen Einheiten und – über die Bedeutungsverschiebungen, die solche Daten bei der u. U. mehrfachen Ableitung kollektiver Eigenschaften auf „höheren Ebenen“ und ihrer anschließenden Zuweisung als „kontextuelle“ Eigenschaften auf der „individuellen Ebene“ erfahren.
Zwar treten die genannten Probleme bei Netzwerkanalysen gehäuft auf, sind aber nicht deren Spezialität. Paul F. Lazarsfeld und Herbert Menzel (1961) haben mit ihrem Aufsatz „On the Relation between Individual and Collective Properties“ vor allem unter Bezug zur Umfrageforschung auf diese Probleme aufmerksam gemacht (s. a. Hummell & Sodeur 1992, 1997). Daten über die paarweisen Verbindungen z. B. zwischen Personen werden zumindest aus der Sicht jeweils einer dieser beiden Personen erhoben. Ob die Teildaten unterschiedlicher Berichtspersonen zu einem Gesamtnetz zusammengefügt werden können, hängt vor allem davon ab, ob sich die „Zielpersonen“ aller berichteten, paarweisen Verbindungen über verschiedene Berichtspersonen hinweg identifizieren lassen. Berichten also die Personen A und B jeweils über die Beziehung zu einer Person „C“, so muss eindeutig festzustellen sein, ob es sich bei den jeweils mit „C“ benannten Zielpersonen um dieselbe Person oder um verschiedene Personen handelt. Selbst in Vollerhebungen überschaubarer Populationen wie z. B. Schulklassen ist eine entsprechende Identifikation der Zielpersonen nur möglich, wenn auf die Anonymisierung der Erhebungsdaten zunächst verzichtet wird. In Bevölkerungsumfragen auf der Basis von Stichproben gilt dagegen in aller Regel eine strikte Anonymisierung. Außerdem würde die Identifikation aller nicht zur Stichprobe gehörenden Zielpersonen – d. h. von Zielpersonen aus der gesamten, über die Stichprobe weit hinausgehenden Population – auch aus anderen Gründen kaum gelingen. Die befragten Personen können über die mit ihnen direkt verbundenen Zielpersonen hinaus allenfalls Auskunft geben über die Verbindungen ihrer Zielpersonen untereinander. Ohne die Identifikation der jeweiligen Zielpersonen bleiben die Beziehungsaussagen der Befragten deshalb voneinander isoliert. Man spricht von „Ego-zentrierten Netzen“ oder unter Bezug auf die Weite der von den Beziehungsaussagen beschriebenen Umgebungen der Befragten auch von „1-Schritt-Umgebungen“ (und allenfalls „2-Schritt-Umgebungen“). Das schließt aber keineswegs sinnvolle Vergleiche zwischen den Umgebungen unterschiedlicher Befragter aus, z. B. hinsichtlich der Dichte (Zahl) oder der Art der bestehenden Verbindungen1 . Andere, auf Mehr-Schritt-Umgebungen bezogene Konzepte der Netzwerkanalyse können hier dagegen meist nicht benutzt werden. 1
Konzentriert man sich ausschließlich auf das Netz der Verbindungen unter den von der Berichtsperson genannten Personen (ohne Berichtsperson und ihre Verbindungen), spricht man auch von ihrer „first order zone“.
23 Netzwerkanalyse
577
In diesem Zusammenhang sei eine besondere Form scheinbar „Ego-zentrierter“ Netze erwähnt, die (bei etwas anderer Interpretation) auch in der allgemeinen Umfrageforschung häufiger vorkommt. Es handelt sich dabei um „bipartite“ Netze bzw. Graphen. Während bisher stets Einheiten gleicher Art (z. B. Personen oder Organisationen) gemeint waren, beschreiben bipartite Graphen die Beziehungen zwischen je zwei Einheiten unterschiedlicher Art2 , z. B. die Mitgliedschaften („Affiliationen“) von Personen in Aufsichtsräten bestimmter Unternehmen. Aus der gemeinsamen Mitgliedschaft verschiedener Personen in einem oder mehreren Aufsichtsräten werden dann indirekt unterschiedlich enge Beziehungen zwischen diesen Personen abgeleitet. Oder je nach Zahl gemeinsamer Mitglieder der Aufsichtsräte zweier Unternehmen wird auf eine unterschiedlich enge Koordination der Strategien zwischen beiden Unternehmen geschlossen (vgl. u. a. Stokman et al. 1985). Auf prinzipiell gleiche Weise (aber weniger offensichtlich) können auch Daten aus Umfragen über genutzte Massenmedien, präferierte Parteien, selbst über akzeptierte Werte als Daten über bipartite Beziehungsnetze aufgefasst werden. Während solche Daten nach der „normalen“ Interpretation als „monadische“ Eigenschaften der befragten Personen gelten, werden sie im Kontext bipartiter Graphen relational als Beziehungen zwischen der jeweils befragten Person (Ego) und dem genannten Medium, der Organisation, dem akzeptierten Wert etc. gedeutet. Ähnlich dem Beispiel zu Verbindungen zwischen Aufsichtsratmitgliedern und Unternehmen werden anschließend, auch hier aufgrund der zunächst erhobenen Beziehungen, im bipartiten Graphen Aussagen über unterschiedlich starke Verbindungen zwischen den befragten Personen auf der einen oder zwischen den von ihnen genannten Medien, Organisationen, Werten etc. auf der anderen Seite abgeleitet.3 In vielen Darstellungen zur Netzwerkanalyse entsteht der Eindruck, dass es sich um ein relativ eigenständiges und abgeschlossenes Gebiet handelt. Demgegenüber versuchen wir hier wie in früheren Darstellungen (Hummell & Sodeur 1992, 1997) der Befürchtung von Franz U. Pappi entgegenzuwirken, dass sich die Analyse sozialer Netzwerke zu einem eigenen Forschungsgebiet entwickeln könnte, „das mit den Schwerpunkten der heute praktizierten Sozialforschung nicht viele Gemeinsamkeiten hat“ (1987, S. 25). Entsprechend werden wir die Konzepte der Netzwerkanalyse als Messkonzepte für strukturelle Eigenschaften auf den verschiedenen Ebenen eines Beziehungsnetzes einführen. Dazu gehört vor allem eine genaue Darstellung der Wege, die dyadisch-relationale Daten von der Erhebung als Verbindungen zwischen individuellen Einheiten über die Zusammenfassung zu Strukturdaten auf höheren Ebenen und – wenn Aussagen über Einheiten auf individueller Ebene angestrebt werden – der anschließenden kontextuellen Zuordnung zu den Einheiten auf unteren Ebenen nehmen können. Zum Abschluss dieser Einführung soll der über die Ebenen auf- und absteigende Datentransfer nun ausführlicher anhand des schon genannten Lazarsfeld-Menzel-Schemas (1961, hier kurz LMS genannt) erläutert werden. Hier kommt es uns darauf an, die Ähnlichkeiten und vor allem Unterschiede zu beschreiben, die im Prozess des Datentransfers 2 3
Weshalb man sie oft auch als „2-mode networks“ bezeichnet. Eine derartige Deutung setzt natürlich eine entsprechende inhaltliche Begründung voraus.
578
Hans J. Hummell und Wolfgang Sodeur
zwischen Ebenen bei den überwiegend monadischen Daten der Umfrageforschung auf der einen und den dyadisch-relationalen Daten der Netzwerkforschung auf der anderen Seite auftreten. Das LMS beschreibt primäre (empirisch erhobene) und sekundär daraus abgeleitete Daten. Auf der Ebene einzelner Elemente bzw. Einheiten, die in diesem Zusammenhang immer als zu bestimmten „Kollektiven“ zusammengefasst gedacht werden, unterscheidet das LMS zwischen folgenden „properties of members“ oder „individual properties“ (ebd., S. 431 ff.): – (m1) absoluten Merkmalen, die das Element direkt betreffen; – (m2) relationalen Merkmalen, die Beziehungen des Elements zu anderen Elementen betreffen; – (m3) komparativen Merkmalen, die absolute oder relationale Eigenschaften des Elements im Vergleich zur Verteilung des Merkmals in der umgebenden Population („Kollektiv“, s. u., c1-c2) betreffen, und – (m4) kontextuellen Merkmalen, die Eigenschaften der umgebenden Population oder der sonstigen Umwelt (siehe unten, c1-c3) betreffen und dem jeweiligen Element zugeordnet werden. Auf der Ebene von Kollektiven („collective properties“, ebd., S. 426 ff.) wird unterschieden zwischen –
– –
(c1) analytischen Merkmalen, die aus den absoluten Eigenschaften (m1) aller einzelnen Mitglieder des Kollektivs durch Berechnung z. B. von Mittelwerten oder anderen Verteilungsmaßen erzeugt werden; (c2) strukturellen Merkmalen, die aus den Beziehungen (m2) aller Mitglieder zu einzelnen oder zu allen anderen Mitgliedern des Kollektivs erzeugt werden, und (c3) globalen Merkmalen, die das Kollektiv als Ganzes betreffen.
Unter Bezug auf den oben skizzierten Datentransfer zwischen verschiedenen Ebenen und die hier im Mittelpunkt stehende Netzwerkanalyse erläutern wir die Kategorien des LMS nun näher. Zunächst zu den primär erhobenen Daten (m1), (m2) und (c3): Die absoluten Merkmale (m1) betreffen unmittelbar das „individuelle Element“. Bei Personen fällt darunter z. B. der Beruf. In der Umfrageforschung würde man dazu auch Merkmale wie „regelmäßig gelesene Tageszeitungen“ (als monadische Eigenschaft der befragten Person, s.o.) zählen. Unter den hier verfolgten Gesichtspunkten wäre ein solches Merkmal dagegen eher als relationales Merkmal, d. h. als Beziehung zwischen Elementen aus zwei Populationen unterschiedlicher Art (Personen und Medien) zu interpretieren. Relationale Merkmale (m2) betreffen (in leichter Abweichung vom LMS) die Beziehungen jeweils zweier „individueller Elemente“ untereinander. Damit sind bereits Kollektive beschrieben, wenn auch nur sehr kleine aus jeweils zwei Elementen (Paare, „Dyaden“). Wichtig ist bei unserer Sichtweise, dass durch relationale Merkmale nicht das einzelne Element (in seiner Beziehung zu anderen, so die vereinfachende Deutung im LMS), sondern die Beziehung innerhalb der Dyade beschrieben wird. Globale Merkmale (c3) betreffen das Kollektiv als Ganzes. Ein Kollektiv kann die Zusammenfassung „individueller Elemente“ auf einer höheren Ebene, aber auch die
23 Netzwerkanalyse
579
Zusammenfassung bereits früher gebildeter Kollektive oder allgemein die Zusammenfassung von Elementen auf „darunter liegenden Ebenen“ sein. Globale Merkmale eines Kollektivs beziehen sich immer insgesamt auf genau dieses Kollektiv, d. h. ohne Bezug auf Eigenschaften von Einheiten „unterhalb“ oder „oberhalb“ der jeweiligen KollektivEbene. Betrachtet man z. B. die Ebenen-Hierarchie von Schülern, Schulklassen und Schulen, so bildet die Jahrgangsstufe ein globales Merkmal einer Klasse, die Lage der Schule (z. B. innerstädtisch, ländlich) ein globales Merkmal der Schule usf. Nun zu den sekundären oder abgeleiteten Merkmalen (c1), (c2), (m3) und (m4) des LMS: Analytische Merkmale von Kollektiven (c1) werden aus den absoluten Eigenschaften (m1) aller einzelnen Mitglieder des Kollektivs durch einfache Aggregation wie Summenbildung oder die Berechnung von Mittelwerten oder anderen Verteilungsmaßen erzeugt. Sie sollen also eine Eigenschaft des Kollektivs beschreiben, werden aber indirekt abgeleitet aus Eigenschaften der Elemente, z. B. der Anteil von Katholiken an einer regionalen Bevölkerung (Kollektiv). Durch ebenfalls einfache Aggregation lassen sich auch Kollektiv-Merkmale aus einigen relationalen Merkmalen (m2) ableiten. Wir behandeln solche Merkmale deshalb (in Abweichung vom LMS) ebenfalls wie analytische Merkmale. So kann man etwa die „Dichte der Beziehung“ in einem Kollektiv durch die Zahl der darin vorkommenden paarweisen Verbindungen (im Verhältnis zur Zahl der möglichen Verbindungen) beschreiben. Im ursprünglichen LMS werden alle Kollektiv-Merkmale auf der Basis von relationalen Merkmalen (m2) als strukturelle Merkmale (c2) bezeichnet. Wir verengen den Begriff der strukturellen Merkmale aber auf solche Eigenschaften von Kollektiven, bei deren Ableitung die Anordnung der zugrundeliegenden Verbindungen (relationale Merkmale m2) berücksichtigt wurde. Beispiele dafür sind – Art und Ausmaß der Verbundenheit des Beziehungsnetzes im Kollektiv: Dabei spielt die Anordnung der Verbindungen insofern eine Rolle, als es auf die Verknüpfung der einzelnen, paarweisen Verbindungen ankommt und dadurch Verbindungen zwischen je zwei Elementen des Kollektivs über ein, zwei oder mehr Verbindungsschritte entstehen; – Ausmaß der Hierarchisierung im Beziehungsnetz des Kollektivs: Hier kommt die Anordnung der Verbindungen dadurch ins Spiel, dass sich hierarchische Strukturen als gleichgerichtete Ketten oder Bäume der einzelnen, paarweisen Verbindungen darstellen. Nur unter solchen (wir nennen sie „strukturellen“) Bedingungen unterscheidet sich die Ableitung von Kollektiv-Merkmalen (c2) aus den empirisch erhobenen relationalen Merkmalen (m2) von ihrer einfachen Aggregation zu analytischen Merkmalen (c1). Für die beiden noch ausstehenden Kategorien des LMS, (m3) und (m4), gilt gleichermaßen, dass damit Merkmale von „Kollektiven höherer Ebene“ beschrieben werden, die als Kontext-Eigenschaften der zum Kollektiv gehörenden Elemente, das sind nun „Kollektive niedrigerer Ebene“ oder „individuelle Elemente“, gedeutet werden. Es handelt sich also immer um die Zuordnung von Eigenschaften von einer höheren an eine darunter liegende Ebene. Bei kontextuellen Merkmalen (m4) in der von Lazarsfeld/Menzel ursprünglich intendierten Form werden die Kontext-Eigenschaften (im LMS: c1-c3, in unserer verengten Fassung nur c1 und c3) den darunter liegenden
580
Hans J. Hummell und Wolfgang Sodeur
Einheiten „undifferenziert“ zugeordnet. Das Kontext-Merkmal (m4) gilt damit einheitlich für alle zugehörenden Einheiten des Kollektivs. Alle Befragten aus dem Land X erhalten z. B. dieses globale Merkmal (c3) als nun individuelles Kontext-Merkmal (m4) zugewiesen. Gleiches gilt für das analytische Merkmal (c1) einer Region mit z. B. dem Katholiken-Anteil von x v.H., und zwar unabhängig von der jeweiligen Religionszugehörigkeit der betreffenden Person. Auch das von uns oben beschriebene Maß für die Dichte einer Beziehung im Netz würde entsprechend allen Mitgliedern dieses Kollektivs als kontextuelles Merkmal (m4) einheitlich zugewiesen, ebenfalls unabhängig davon, ob die jeweilige Person mitten im Zentrum eines insgesamt dichten Netzes steht oder isoliert am Rande. Die offenkundigen Beschränkungen dieser Art kontextueller Merkmale (m4) führten Lazarsfeld/Menzel zur Definition einer weiteren Form von „Kontext-Merkmalen“, bei der eine absolute oder relationale Eigenschaft des individuellen Elements im Vergleich zur Verteilung des Merkmals im umgebenden Kollektiv beschrieben wird. Sie nennen solche kombinierten Eigenschaften „komparative Merkmale“ (m3). Damit kann nun z. B. zwischen Katholiken in mehrheitlich katholischen und mehrheitlich protestantischen Kontexten unterschieden werden. Auf gleiche Weise kann ein kontextuelles Merkmal wie die genannte Dichte des Netzes insgesamt differenziert werden nach der (lokalen) „Dichte“ der individuellen Anbindung einer Person an dieses Netz, beschrieben durch die Zahl (den sog. „Grad“; siehe unten) ihrer persönlichen Verbindungen. Tatsächlich wird die Differenzierung kontextueller Eigenschaften in der Netzwerkanalyse (noch) sehr viel weiter getrieben als im Fall der komparativen Merkmale. Wenn man das oben beschriebene Beispiel hierarchischer Strukturen (strukturelles Merkmal (c2)) aufgreift, so erhält im Prinzip jede einzelne Person aufgrund ihrer jeweiligen Stellung in dieser hierarchischen Struktur eine individuell bestimmte (strukturelle) Umgebungseigenschaft zugeordnet. Entsprechend widmet sich ein sehr großer Teil der Literatur zur Netzwerkanalyse solchen Beschreibungen der jeweils individuellen Stellung von Akteuren („Position“) im sie umgebenden Beziehungsnetz. Nach Ableitung der strukturellen Eigenschaften auf der Ebene von Kollektiven und/oder der Charakterisierung der Struktur im jeweils umgebenden („bedeutsamen“) Teil des Beziehungsnetzes enden nach unserer Auffassung die Besonderheiten der Netzwerkanalyse. Ihre Ergebnisse gehen genau wie alle anderen entweder direkt erhobenen oder daraus indirekt abgeleiteten Merkmale in eine gemeinsame, meist multivariate Mehrebenen-Analyse ein.
2 Darstellung der Verfahren In diesem Abschnitt behandeln wir nach der Definition einiger grundlegender Begriffe zunächst (2.1) elementare Strukturformen in kleinen Beziehungsnetzen mit nur zwei bzw. drei individuellen Einheiten. An solch kleinen Aggregaten (meist Teile größerer Netze) lässt sich gut demonstrieren, wie unterschiedliche Eigenschaften der Netzstruktur aus den ursprünglichen Daten abgeleitet werden. In diesen einfachen Fällen wird auch deutlich, welche Möglichkeiten der weiteren Verwendung für die abgeleiteten Merkmale bestehen. In den anschließenden Abschnitten behandeln wir dann kurz
23 Netzwerkanalyse
581
einige der in der Netzwerkanalyse benutzten Konzepte zur Strukturbeschreibung. Zunächst geht es um (2.2) Formen der strukturellen Einbettung individueller Einheiten in das sie umgebende Beziehungsnetz sowie z. T. daraus abgeleitete Strukturmaße für das Gesamtnetz und schließlich um (2.3) verschiedene Arten der Gliederung eines Beziehungsnetzes in relativ eng bzw. stark verbundene Teilnetze. In allen drei Fällen stellen wir die Kriterien zur Auswahl bestimmter Verfahren der Diskussion voran. Die Entscheidung über die jeweils angemessenen Auswahlkriterien, über das damit gewählte Verfahren zur Netzwerkanalyse und damit in gewissem Umfang auch über das Ergebnis der Analyse muss neben methodischen vor allem inhaltlich-theoretische Gesichtspunkte berücksichtigen. In allen Fällen besteht das Ergebnis der hier präsentierten Form der Netzwerkanalyse aus neu gebildeten Merkmalen, die sich auf Einheiten der jeweils inhaltlich angemessenen Ebene beziehen sollten. Die Netzwerkanalyse erfüllt damit die Funktion der Messung von Struktureigenschaften und stellt eine (eingeschränkte) Messtheorie dar. Die Einschränkung beruht in fast allen Fällen auf dem mangelnden „Überschuss an Daten“. Es werden zwar Strukturmerkmale abgeleitet, es bleiben aber keine Informationen zur Prüfung der Verträglichkeit von Messtheorie und Daten übrig. Eine Rechtfertigung der Messung kann sich erst später und nur indirekt im Rahmen der Verwendung der Strukturmerkmale in komplexeren Aussagen zeigen. 2.1 Konzepte zur Beschreibung der Netzstruktur in Dyaden und Triaden Die individuellen Einheiten von Beziehungsnetzen werden formal als „Knoten“ (i, j, k. . . ) bezeichnet. In den Sozialwissenschaften sind dies in der Regel Personen als die handelnden Akteure. Je nach inhaltlichem Interesse können jedoch auch kollektive Akteure wie z. B. Paare von Personen oder sogar ganze Organisationen als „Knoten“ in diesem Sinne definiert werden.4 Schließlich kann es sich um „Kollektive einer mittleren Ebene“ handeln, die vorher z. B. als Teilnetze aufgrund ihrer internen Verbundenheit (siehe unten, Abschnitt 2.3) oder aufgrund „strukturgleicher Einbettung“ im Netz abgegrenzt wurden (siehe unten, Abschnitt 2.2, „Positionen“). Die Verbindungen zwischen den Knoten werden „Kanten“ genannt. Die Kanten können ungerichtet (i − j, z. B. die Personen i und j kennen sich) oder gerichtet (i → j, z. B. i informiert j) sein. In beiden Fällen kann die Kante zumindest zwei Zustände einnehmen: Entweder existiert die Kante (1) oder drückt einen positiven Wert (+) wie „Anerkennung“ aus oder sie existiert nicht (0) bzw. kennzeichnet eine negative Verbindung wie „Ablehnung“ (−). In manchen Fällen werden Kanten zusätzlich und differenziert „bewertet“, z. B. Person i leiht j entweder nichts (Wert 0) oder einen bestimmten Betrag (z. B. 500 €). Wie eingangs betont befasst sich die Netzwerkanalyse mit der Anordnung von Kanten (ihrer Struktur) in Dyaden (2 Knoten), Triaden (3 Knoten), Quadrupeln (4 Knoten) usf. bis hin zum gesamten Beziehungsnetz (n Knoten). Mit der Größe der (Teil-)Netze wächst die Komplexität der möglichen Anordnungen von Kanten. 4
Abgesehen von den eingangs im Zusammenhang mit bipartiten Graphen erwähnten inhaltlichen Spezialfällen wie Medien, Werte etc.
582
Hans J. Hummell und Wolfgang Sodeur
Dyaden Sehr einfach zu überschauen sind noch Dyaden: Die Möglichkeiten zur Anordnung der Kanten sind hier eng begrenzt: Bei ungerichteten („symmetrischen“) Beziehungen besteht eine Verbindung (1 bzw. +) oder sie besteht nicht (0 bzw. −). Bei gerichteten Beziehungen gibt es 4 Möglichkeiten: Keine Verbindung in beiden Richtungen (0 0 bzw. − −), eine Verbindung entweder nur in der einen Richtung (1 0 bzw. + − bzw. →), nur in der anderen Richtung (0 1 bzw. − + bzw. ←) oder gleichzeitig in beiden Richtungen (1 1 bzw. + + bzw. ↔). Wenn man die beiden Knoten der Dyade nicht benennt (d. h. sie nicht durch identifizierende Namen unterscheidet), gibt es im gerichteten Fall drei strukturell unterschiedliche Typen von Dyaden, die sich lediglich in der Zahl der vorhandenen gerichteten Kanten (0,1,2) unterscheiden. Die Anordnung der Kanten in Dyaden wird über die Beschreibung dieser Einheiten hinaus auch zur Kennzeichnung der Struktur von Teilnetzen auf höheren Ebenen bis hinauf zum Gesamtnetz benutzt. Dazu ist die u. U. mehrfache Bildung abgeleiteter Merkmale aus den ursprünglichen empirischen Informationen über einzelne Kanten erforderlich. Ein Beispiel: Die Zahl aller Verbindungen eines Knoten heißt sein „Grad“ (engl. „degree“), im gerichteten Fall „Innen-“ bzw. „Außengrad“ je nachdem, ob es sich um eingehende oder ausgehende Verbindungen handelt. Sie sind ein Maß „lokaler Dichte“. Im Fall ungerichteter oder ausgehender Verbindungen spricht man auch von „Zentralität“, genauer von „degree centrality“, da es noch weitere Zentralitätskonzepte gibt (siehe unten, Abschnitt 2.2). Falls die Kanten positiv im Sinne von Wertschätzung oder Freundschaft gedeutet werden können, wird die Zahl der eingehenden Kanten eines Knotens (sein Innengrad) auch als sein „Prestige“ (genauer „degree prestige“, da es noch weitere Prestigekonzepte gibt) bezeichnet.5 Bildet man die Summe aller von allen Knoten ausgehenden gerichteten Kanten und bezieht diese auf die Gesamtzahl aller im Netz möglichen gerichteten Kanten, so spricht man von der „Dichte“ des Netzes insgesamt. Bei der Ableitung dieser Netzwerk-Dichte handelt es sich unmittelbar um ein analytisches Kollektivmerkmal (c1), das durch Aggregation über alle Kanten im Beziehungsnetz ermittelt wurde; im Beispiel des Prestige hingegen wurden für jeden einzelnen Knoten Aggregationen nur über alle „seine“ Kanten vorgenommen und die Ergebnisse in einem zweiten Schritt den jeweiligen Knoten als Kontextmerkmal (m4) zugeordnet, nämlich Prestige in einem bestimmten Kontext, der durch das gesamte Beziehungsnetz gebildet wird. Auf ähnliche Weise könnte das Prestige von Personen innerhalb enger gefasster Kontexte ermittelt werden, z. B. innerhalb von Teilnetzen. Mit einer erneuten Aggregation kann nun z. B. die Verteilung des Kontextmerkmals Prestige im gesamten Netz ermittelt werden, die Aufschluss gibt über die interne Differenzierung bzw. „Hierarchie“ unter den Mitgliedern des Beziehungsnetzes. Bei anderer Interpretation der gerichteten Kanten als potentiellen Übertragungsschritten im Kommunikationsprozess kann aus der Verteilung der Zahl eingehender Kanten (im Sinne des LMS ein Kollektivmerkmal (c1) 2. Grades) indirekt auch auf die „Verbundenheit“ (siehe unten, Abschnitt 2.3) des Beziehungsnetzes geschlossen werden (vgl. z. B. „scale free networks“, Watts 2004). Bei der Nutzung solcher abgeleiteter 5
Entprechend wäre die Zahl der von einem Knoten ausgehenden gerichteten Kanten (sein Außengrad) ein Maß für sein „Aktivitäts-“ oder „Kontaktvolumen“ o. ä.
23 Netzwerkanalyse
583
Merkmale darf jedoch (trotz ihrer häufigen Bewährung) nicht vergessen werden, dass oft der Geltungsbereich der ursprünglichen Daten überschritten wird. Im vorliegenden Fall liegen mit den Informationen über die einzelnen Kanten direkt nur Daten über die 1-Schritt-Verbindungen vor, nach der Ableitung des Kollektivmerkmals 2. Grades wird jedoch eine Aussage über Verbindungen im gesamten Netz getroffen. Triaden Triaden bestehen aus jeweils 3 Knoten und den zwischen ihnen vorhandenen ungerichteten bzw. gerichteten Kanten. Bei ungerichteten Beziehungen gibt es in einer Triade 3 unterscheidbare ungeordnete Paare von Knoten, zwischen denen jeweils eine Verbindung vorhanden sein kann oder nicht, und entsprechend 23 = 8 mögliche Anordnungen von Kanten. Wenn man die drei Knoten nicht benennt, sich also auf die Struktur der Kanten konzentriert, sind einige dieser 8 Anordnungen strukturgleich. Es bleiben dann noch 4 strukturell unterscheidbare Typen von Triaden, die sich wieder nur durch die Zahl der vorhandenen (ungerichteten) Kanten (0, 1, 2, 3) unterscheiden. Etwas komplizierter wird es bei gerichteten Kanten. Bei 3 Knoten gibt es insgesamt 6 unterscheidbare geordnete Paare von Knoten, zwischen denen jeweils eine Verbindung möglich ist. Die 26 = 64 möglichen Anordnungen gerichteter Kanten bilden – wieder bei unbenannten Knoten – 16 strukturell unterscheidbare Typen von Triaden, die zusammen mit der auf James A. Davis, Paul Holland und Samuel Leinhardt (z. B. Holland & Leinhardt 1975) zurückgehenden M-A-N-Notation in Abbildung 1 auf Seite 584 dargestellt sind. Diese 16 Struktur-Typen sind einmal vertikal nach der Zahl der bestehenden Verbindungen und horizontal nach „transitiven“ und „intransitiven“ Triaden geordnet, wobei in der oberen Hälfte der linken Spalte die Triaden aufgeführt sind, die nur in einem weiteren („leeren“) Sinne transitiv sind, in der unteren Hälfte hingegen die im strengen Sinne transitiven (vgl. dazu Hummell & Sodeur 1987b). Die 3 Ziffern unterhalb der Struktur-Typen kennzeichnen die Zahl der Verbindungen, getrennt nach M(utual), A(symmetric) und N(ull). Beispielsweise steht links oben in der Abbildung der Struktur-Typ 003 mit 0 gegenseitigen (mutual), 0 einseitigen (asymmetric) und 3 abwesenden (null) Verbindungen. In einigen Fällen sind die Struktur-Typen auf diese Weise noch nicht eindeutig zu unterscheiden. Zusätzlich wird dann ein Buchstabe angefügt: U(p) für aufwärts bzw. weg von der „symmetrischen“ Verbindung (unabhängig davon, ob Mutual oder Null); D(own) für abwärts bzw. hin zur symmetrischen Verbindung; T(ransitive) für eine Strukturform, bei der eine gerichtete Verbindung zwischen 2 Knoten über 2 Schritte durch eine direkte Verbindung in derselben Richtung zwischen diesen beiden Knoten ergänzt wird; schließlich C(yclic) für eine Anordnung der Kanten in der Triade, bei der Verbindungen nur in einer Richtung („zyklisch“) vorkommen, d. h. entweder als Weg über 2 Schritte (021C) oder über 3 Schritte, wobei der Ausgangspunkt wieder erreicht wird (030C). Die häufige Beachtung von Triaden in der Literatur ist auf die Zusammenhänge zwischen der Struktur der Kanten in den Triaden und der Struktur des gesamten Beziehungsnetzes zurückzuführen. Vor allem aus der Abwesenheit bestimmter Anordnungen der Kanten innerhalb der Triaden wird dabei auf Struktur-Eigenschaften des Netzes geschlossen wie seine Gliederung in „Cliquen“, deren hierarchische Ordnung oder (in
584
Hans J. Hummell und Wolfgang Sodeur Transitive Triaden
Intransitive Triaden
003
012
021U
021D
102
030T
120U
120D
021C
030C
111D
120C
201
111U
210
300
Abb. 1: 16 strukturell unterscheidbare Typen von Triaden in der M-A-N-Notation (z. B. Holland & Leinhardt 1975) Extremfällen) die Polarisierung des Netzes in nur zwei antagonistische „Cliquen“. Dazu wird gezählt, wie sich die insgesamt n · (n − 1) · (n − 2)/6 Triaden eines Netzwerks aus n Knoten auf die 16 Struktur-Typen verteilen („Triaden-Zensus“). Vom Ergebnis des Triaden-Zensus lassen sich dann größere oder geringere Näherungen der Struktur des gesamten Beziehungsnetzes an bestimmte Idealtypen ableiten (vgl. dazu Hummell & Sodeur 1987b). Triadische Umgebungen einzelner Knoten In der Literatur werden die oben diskutierten Struktur-Eigenschaften von Triaden nicht selten auch zur Beschreibung individueller Kontexte genutzt. Dieses ist meist keine empfehlenswerte Verwendung: Denn damit werden kontextuelle Merkmale einheitlich allen Mitgliedern des Kollektivs zugeordnet, auch wenn es für deren differentielle Beschreibung gute Gründe gibt. Die Abbildung der 16 Struktur-Typen in Abbildung 1 zeigt, dass viele der Triaden-Typen ihre Knoten auf recht unterschiedliche Weise einbetten. Als Beispiel soll hier nur der Struktur-Typ 021C dienen (oberste Triade in rechter Spalte). Deutet man die gerichteten Kanten als hierarchische Ordnungen, so steht jeweils einer der drei Knoten oben, in der Mitte und unten. Derselbe Struktur-Typ
23 Netzwerkanalyse
585
beschreibt also für die 3 zugehörenden Knoten denkbar unterschiedliche Umgebungen. Für die Beschreibung triadischer Umgebungen der einzelnen Knoten im Beziehungsnetz stellen die 16 Struktur-Typen deshalb eine zu starke Abstraktion dar. Die 16 Typen wurden aus den ursprünglich 26 = 64 unterschiedlichen Anordnungen unter dem Gesichtspunkt gebildet, dass man auf die namentliche Identifizierbarkeit aller 3 Knoten verzichtet bzw. sie als „strukturell austauschbar“ erklärt. Will man nun aber triadische Umgebungen „aus der Sicht der einzelnen Knoten“ beschreiben, so sind nicht alle 3 Knoten untereinander austauschbar: Einer dieser Knoten steht jeweils „im Fokus“ und die beiden anderen bilden seinen sozialen Kontext. Strukturell austauschbar sind nur jeweils jene beiden Knoten, welche seine Umgebung repräsentieren. Sucht man unter solchen Voraussetzungen unter den insgesamt 64 unterschiedlichen Anordnungen der jeweils 6 möglichen Verbindungen einer Triade wieder nach unterscheidbaren Struktur-Typen, so ergeben sich 36 unterschiedliche „triadische Positions-Typen“, die eine Person innerhalb einer Triade einnehmen kann (vgl. dazu Hummell & Sodeur 1987a). Diese 36 strukturell unterscheidbaren Typen der Einbettung einer Person in ihre triadischen Umgebungen sind in Abbildung 2 auf Seite 586 dargestellt und folgen einer gegenüber dem Original späteren und wesentlich verbesserten Darstellung von Burt (1990). Entsprechend dem Vorgehen beim Triaden-Zensus kann hier ein Positionen-Zensus gebildet werden. Triadische Positionen jedes einzelnen von n Knoten im Netz werden durch die Menge aller triadischen Umgebungen definiert, die aus jeweils 2 der übrigen Knoten im Netz bestehen. Untereinander sind die beiden „Umgebungs-Knoten“ strukturell nicht unterscheidbar und können ohne Folgen für die Struktur der Umgebung „ihre Plätze tauschen“. Für jeden der n Knoten wird entsprechend gezählt, wie sich seine (n − 1) · (n − 2)/2 triadischen Umgebungen auf die 36 triadischen Positions-Typen aus Abbildung 2 verteilen. Dieser Zensus kann anschließend zur Ableitung zahlreicher Varianten von Positionsbeschreibungen verwandt werden (vgl. dazu Hummell & Sodeur 1987a; Trappmann et al. 2010). Positionen in der eben beschriebenen Form charakterisieren also Akteure aufgrund ihrer (triadischen) Umgebungen. Damit werden Merkmale abgeleitet, mit deren Hilfe andere Eigenschaften oder Handlungen der Akteure „erklärt“ werden können. Soweit solche Handlungen jedoch auf Veränderungen im Beziehungsnetz gerichtet sind, vor allem den Auf- oder Abbau gerichteter Kanten betreffen, stehen (gerichtete) Kanten im Mittelpunkt des Interesses. Ein Akteur i entscheidet über die von ihm „kontrollierten“ Teile des Beziehungsnetzes, und das ist meist eine der von ihm ausgehenden, gerichteten Kanten (i → j). Besteht diese Beziehung zum Zeitpunkt t1 noch nicht, geht es bei der Entscheidung um einen möglichen Aufbau der gerichteten Beziehung zu j, sonst um einen möglichen Abbau. Soweit von der strukturellen Einbettung im Netz ein Einfluss auf solche Entscheidungen erwartet wird, muss das Explanandum sowohl den Akteur i umfassen wie auch den „Gegenstand seiner Entscheidung“ (i → j), also die Beziehung zu j. Aufgrund der bisherigen Diskussion müsste deutlich geworden sein, dass die Positions-Typen mit ihrer Konzentration allein auf den jeweiligen Knoten i (und ohne die Beziehung zu j) keinen geeigneten Kontext beschreiben. Beschränkt man sich wiederum auf triadische Umgebungen, so ist der Kontext der „Entscheidungskante“ i → j durch einen jeweils dritten (von den insgesamt verbleibenden n − 2) Knoten
586
Hans J. Hummell und Wolfgang Sodeur Beziehung zwischen den beiden anderen Personen A1 und A2 Egos Beziehung mit anderen Personen (Alteri A1, A2)
zweiseitige Verbindung zwischen A1 und A2
keine Verbindung zwischen A1 und A2 A1
Keine
ausgehende zu A1 (oder A2)
01.
A1
11.
Ego
A2
A2
A1
A1
A1
02. Ego
12. Ego
03. Ego
eingehende von A1 und A2
14.
A1
A1
A1
06. Ego
Kette A
A1
A1
A1
09. Ego
A2
A2
A1
35. Ego A2
A2
A1
30. Ego A2
A1
A1
A1
20. Ego
A2
34. Ego
29. Ego A2
A1
10. Ego
A1 Ego
A2
A1
A2
Kette C
28. Ego A2
19. Ego
A2
oder A2
A1
Kette B
A1
A1
27. Ego
18. Ego
A2
A2
A2
A2
Ego
33. Ego
A2
08. Ego
A1
A1
A1
17. Ego
A2
oder
26. Ego A2
A1
07. Ego
Ego
A2
A1
16. Ego A2
zweiseitige mit A1 und A2
25. Ego A2
A1
32.
Ego A2
A1
zweiseitige mit A1 (oder A2)
A2
A1
24.
15. Ego
Ego
A2
A2
A2
A1
oder
A2
05. Ego
A2
A1
A1 Ego
A2
A1
31. Ego
23. Ego A2
A1 Ego
Ego
A2
A1
13. Ego A2
04.
22. Ego A2
A1
oder
Ego
A2
A1
eingehende von A1 (oder A2)
A1
21.
Ego
A2
ausgehende zu A1 und A2
einseitige Verbindung zwischen A1 und A2
A1
36. Ego A2
A2
Abb. 2: 36 strukturell unterscheidbare Typen der Einbettung von Ego in seine triadischen Umgebungen („triadische Positions-Typen“); Reihenfolge, Bezeichnung und Nummerierung nach Burt (1990), urspr. Hummell & Sodeur (1987a)
23 Netzwerkanalyse
587
k und seine Beziehungen zu i und j gekennzeichnet (siehe unten, Abschnitt 3 sowie Hummell & Sodeur 2010). 2.2 „Positionen“: Die Klassierung von Knoten aufgrund ähnlicher Muster ihrer strukturellen Einbettung Knoten können durch eine Vielzahl „struktureller“ Eigenschaften charakterisiert werden. Falls mehrere Knoten jeweils die gleiche Kombination solcher Eigenschaften aufweisen, sind sie strukturell nicht unterscheidbar bzw. „äquivalent“. Aus inhaltlichen Gründen wird man oft auch Knoten als näherungsweise äquivalent betrachten wollen, wenn sie strukturell nur genügend „ähnlich“ sind. Von strukturell äquivalenten bzw. hinreichend ähnlichen Knoten sagt man, dass sie die gleiche (strukturell definierte) „Position“ innehaben oder dass sie „positionsgleich“ sind. Entsprechend ihren Positionswerten können Knoten zu Äquivalenzklassen zusammengefasst („aggregiert “; „kondensiert“) und mit ihrer jeweiligen Äquivalenzklasse identifiziert werden. Nach „Reduktion“ der Knoten auf ihre Äquivalenzklassen (man spricht hier oft auch von „Blöcken“) sind dann auf dieser höheren Aggregationsebene die Beziehungen zwischen den Blöcken zu untersuchen. Die Analyse der (in Form von „BlockImage-Matrizen“ oder „reduzierter“ Graphen dargestellten) Beziehungen zwischen den Blöcken nennt man „Rollenanalyse“ (White et al. 1976). Bei der Analyse von „Positionen“ und „Rollen“ werden also Akteure gesucht, die auf gleiche oder ähnliche Weise in das Beziehungsnetz eingebettet sind. Neben ihrer Aggregation zu „Blöcken“ geschehen solche Ordnungen der Akteure nach ihren Positions-Zugehörigkeiten fast immer zu Vergleichszwecken: Unterschiedliche Positionswerte der Akteure werden allein oder in Kombination mit anderen Merkmalen der Akteure entweder zur Erklärung einzelner Eigenschaften oder Handlungen herangezogen oder es wird umgekehrt versucht, die Positions-Zugehörigkeit der Akteure zu erklären (u. a. Wasserman & Faust 1994; Trappmann et al. 2010). Wie auch bei anderen Entscheidungsprozessen dieser Art muss vor einer vergleichenden Analyse von Positionen geklärt werden, welche Aspekte einer Einbettung von Akteuren in die Beziehungsstruktur ihrer Umgebung für die Beschreibung der Positionen bedeutsam sein sollen. Am Anfang steht dabei die Entscheidung, welche inhaltlich definierte(n) Beziehung(en) der Positionsinhaber (z. B. Freundschaft, Kontakthäufigkeit, Anweisungsbefugnis, Informationspflicht) im Mittelpunkt stehen sollen. Nach der Wahl einer inhaltlich bestimmten Beziehung wie zum Beispiel dem Informationsaustausch wird man unterschiedlich differenziert vorgehen können und entweder nur die Existenz von Austauschverbindungen beachten, zusätzlich nach der Richtung (A → B, A ← B, A ↔ B) des Informationsflusses unterscheiden oder sogar die Intensität der Informationsflüsse in den verschiedenen Richtungen berücksichtigen wollen. Manchmal wird es auf die Identifikation von Verbindungen zu bestimmten „konkreten“ (d. h. namentlich identifizierbaren) Personen ankommen: Haben also die hinsichtlich ihrer Position zu vergleichenden Akteure gleiche Verbindungen zu „denselben“ Personen? In anderen Fällen mag es genügen, die Übereinstimmung der Verbindungen zu irgendwie „gleichartigen“ Personen festzustellen. Im letztgenannten Fall sieht man
588
Hans J. Hummell und Wolfgang Sodeur
Personen als „gleichartig“ an, wenn sie sich in „gleichen oder ähnlichen“ Positionen befinden. Dann ist wiederum festzulegen, unter welchen Bedingungen Positionen als „gleich oder ähnlich“ angesehen werden. Schließlich mögen nur die unmittelbaren (direkten) Verbindungen der Akteure bedeutsam sein, in anderen Fällen auch die Einbettung dieser Verbindungen in ein weiteres Umfeld, das die indirekten Verbindungen der Akteure in 2, 3 oder mehr Schritten umfasst.6 Einige der genannten Gesichtspunkte gelten auch außerhalb der Netzwerkanalyse auf gleiche Weise, einige sind sinngemäß leicht übertragbar. So ist es plausibel, dass indirekte Verbindungen einer Person über 1, 2, 3 . . . Zwischenstationen irgendwann an Bedeutung verlieren müssen, sowohl aufgrund mangelnder Sichtbarkeit der indirekten Verbindungen über viele Zwischenstationen als auch aufgrund des vermutlich nur geringen Einflusses „entfernter“ Akteure. Es muss also unter inhaltlichen Gesichtspunkten entschieden werden, in welcher Weite – gemessen an der Schrittzahl über mögliche Zwischenstationen – eine Beziehungs-Umgebung als bedeutsam erscheint. Ausführlicher müssen wir uns nun mit dem Gesichtspunkt der (strukturellen) „Gleichartigkeit“ (im Sinne von Äquivalenz oder – abgeschwächt – Ähnlichkeit als „näherungsweiser“ Äquivalenz) von Akteuren befassen, zumal sie bei der Entwicklung von wie auch der nachträglichen Entscheidung für verschiedene Verfahren der Positionsanalyse eine große Rolle spielen bzw. gespielt haben. 1. Unter „strukturellen“ Gesichtspunkten7 wird man zunächst fragen, inwieweit Akteure im Hinblick auf die interessierende inhaltliche Beziehung gleiche Verbindungen zu „denselben“ Personen haben. Demnach würden z. B. zwei Akteure A und B „strukturell“ als umso ähnlicher eingestuft und dementsprechend gleichen oder ähnlichen Positionen zugeordnet, je größer z. B. der Anteil gemeinsamer Freunde an der Zahl der Freunde ist, die beide Akteure insgesamt haben. Es ist offensichtlich, dass ein solches Konzept zur Ermittlung von Positionen nur auf Beziehungen von Akteuren in derselben Population von Kontaktpersonen anwendbar ist. Einige besonders häufig genutzte Verfahren der Positionsermittlung folgen den eben genannten Gesichtspunkten: Alle möglichen Paare von je zwei Akteuren i und j (i, j = 1,2 . . . n) im Netz werden hinsichtlich ihrer z. B. gerichteten, ausgehenden wie eingehenden Kanten zu bzw. von allen anderen Akteuren beschrieben. In einer Population von z. B. n Personen entsteht so eine (n · 2n)-Matrix, im Falle von n = 10 also mit 10 Zeilen (Profile der 10 Akteure) und 20 Spalten, von denen die ersten 10 Spalten die ausgehenden und die letzten 10 Spalten die eingehenden Verbindungen kennzeichnen, jeweils mit den Werten 0 (nicht vorhanden) und 1 (vorhanden) bzw. mit einem anderen Wert ( = 0) für die Stärke der Verbindung. Zu klären ist dabei zusätzlich, wie mit den evtl. vorhandenen direkten Verbindungen 6
7
Natürlich können für die „Gleichartigkeit“ von Personen auch andere bedeutsame Merkmale herangezogen werden wie z. B. die monadischen Merkmale Alter, Geschlecht, Bildung usf. In der Netzwerkanalyse hat sich der Begriff der „strukturellen Äquivalenz“ bzw. Ähnlichkeit in der im folgenden erläuterten Weise eingebürgert und ist nicht zu verwechseln mit dem von uns verwandten Strukturbegriff im Sinne der Anordnung von Kanten im Netz.
23 Netzwerkanalyse
589
von i nach j und von j nach i zu verfahren ist sowie ggf. mit Verbindungen der Akteure zu sich selbst (i,i) bzw. (j,j). Die anschließende Ordnung der Knoten nach ihren Positions-Zugehörigkeiten erfolgt entweder mit den auch außerhalb der Netzwerkanalyse üblichen KlassifikationsVerfahren oder mit einem Verfahren („CONCOR“, Breiger et al. 1975), das speziell in der Netzwerkanalyse entwickelt und häufig benutzt wurde. Zu Einzelheiten verweisen wir auf die einschlägige Literatur (z. B. Wasserman & Faust 1994; Trappmann et al. 2010). Die Ergebnisse dieser Ordnung werden entweder zur Kennzeichnung der (positionalen) Einbettung der Einheiten oder zur Klassifikation der Einheiten mit ähnlicher Beziehungsstruktur innerhalb und außerhalb dieser Klassen genutzt (vgl. „Rollenanalyse“). 2. Die eben genannten Verfahren zur Ermittlung der sogenannten „strukturellen Äquivalenz“ bzw. Ähnlichkeit eignen sich nur zum Positionsvergleich von Knoten in derselben Population. Für Vergleiche zwischen verschiedenen Populationen muss eine stärker generalisierte Beschreibung gefordert werden. Damit ist von einigen Details des eben genannten Vergleichs abzusehen. An die Stelle der Forderung nach gleichen Beziehungen zu denselben Personen tritt dann die Forderung nach gleichen Beziehungen zu nur noch gleichartigen Personen. Es gibt viele Gesichtspunkte, unter denen verschiedene Personen als „gleichartig“ gelten können. Von einem bei der Analyse von Positionen häufig gewählten Gesichtspunkt aus werden Personen dann als gleichartig betrachtet, wenn sie ihrerseits auf gleiche Weise mit gleichartigen Personen verbunden sind; und letztere wiederum sind dann gleichartig, wenn sie auf gleiche Weise mit gleichartigen Personen verbunden sind usf. Am einfachsten wird dieser neue, mit der „automorphen Äquivalenz“ bzw. (abgeschwächt) Ähnlichkeit verbundene Gesichtpunkt verständlich, wenn man sich zur Vereinfachung auf die 1-Schritt-Umgebungen der Akteure beschränkt: Die Äquivalenzforderung „gleiche Verbindungen mit gleichartigen Personen“ verengt sich nun darauf, dass es nur noch auf die Zahl der betreffenden Verbindungen der Akteure ankommt. Die Kontaktpersonen „am anderen Ende der Verbindungen“ gelten per definitionem immer als gleichartig, weil ihre möglicherweise unterschiedlichen Beziehungen vom Standpunkt der betrachteten Akteure 2-Schritt-Beziehungen sind, die als unbedeutsam eingestuft werden und damit auch keine beachtenswerten Unterschiede erzeugen können. Zwei Akteure mit jeweils genau der gleichen Zahl a) asymmetrisch ausgehender, b) asymmetrisch eingehender c) symmetrisch ein- und ausgehender Kanten und damit auch d) der gleichen Zahl von Personen, mit denen sie nicht verbunden sind, gelten also unter dieser Sichtweise als „äquivalent“, und zwar unabhängig davon, zu welchen konkreten anderen Personen sie Verbindungen haben. Entsprechend kann man auch die 2- oder 3- oder Mehr-Schritt-Umgebung der Akteure für wichtig erachten. Eine sinnvolle Auswahlentscheidung muss auf inhaltlicher Basis getroffen werden. Als Positionsmerkmale in 1-Schritt-Umgebungen ist vor allem das in Abschnitt 2.1 genannte Merkmal „Prestige“ zu erwähnen: Es ist durch die Zahl aller bei einem Knoten eingehenden Kanten gebildet (seinem Innengrad, weshalb man auch von „degree prestige“ spricht), falls die eingehenden Verbindungen positiv zu interpretieren sind. Dieses Merkmal folgt dem Gesichtspunkt der automorphen
590
Hans J. Hummell und Wolfgang Sodeur
Äquivalenz, da es bei seiner Ableitung nicht darauf ankommt, von welchen Knoten diese Kanten ausgehen, sondern nur auf deren Zahl. Wir erinnern, dass ohne Bezug auf eine positive Deutung der Kanten man auch von „Zentralität“ spricht (engl. „degree centrality“) und damit im gerichteten Fall in der Regel die Zahl der ausgehenden Kanten (den Außengrad) meint. Positionen in 2-Schritt-Umgebungen werden in der Literatur nur relativ selten genannt. Beispiele dafür sind auf der Grundlage des oben (Abschnitt 2.1) beschriebenen Positionen-Zensus abzuleiten: Ohne inhaltliche Vorgaben bilden die Häufigkeiten des Auftretens aller 36 Positions-Typen für jeden einzelnen Knoten einen Merkmals-Vektor, der seine (2-Schritt-) Umgebungen hinsichtlich aller möglichen Strukturaspekte beschreibt. Mit Hilfe üblicher Klassifikationsverfahren werden die Knoten dann nach der relativen Ähnlichkeit ihrer Vektoren klassiert (vgl. Trappmann et al. 2010, Kap. 4.2 und 4.8 ). Besser ist u. E. die Vorgabe inhaltlicher Gesichtspunkte durch Auswahl geeigneter Positions-Typen, die im Untersuchungs-Zusammenhang als bedeutsam erscheinen. So beschreiben in Abbildung 2 auf Seite 586 z. B. die Positions-Typen 7, 8, 9, 10 Positionen, in denen die Positionsinhaber („Ego“, in jedem der 36 Graphen jeweils links) zwischen zwei anderen Knoten in ihrer Umgebung „vermitteln“ können, da diese keine direkte Verbindung untereinander haben, sondern nur indirekt über Ego verbunden sind. Diese „Makler-Positionen“ können z. B. mit Gegenpositionen verglichen werden, bei denen Ego mangels direkter eigener Verbindungen abhängig ist von der Vermittlung anderer Knoten; hierzu gehören vor allem die Positions-Typen 12, 14, 16. Die restlichen Positions-Typen können entweder weiter differenziert oder gemeinsam einer Restkategorie zugeordnet werden. Da aufgrund des Positionen-Zensus alle (n − 1) · (n − 2)/2 Umgebungen jedes Knotens auf die 36 Positions-Typen verteilt werden, müssen nun nur noch die Häufigkeiten der (im obigen Beispiel 3) Makler-Kategorien zusammengezählt und dem jeweiligen Knoten als Kontext-Merkmal zugeordnet werden. Im Sinne der genannten Kriterien ist dies ein Kontext-Merkmal auf der Basis von 2-Schritt-Umgebungen, das den Gesichtspunkten automorpher Äquivalenz folgt. Für 3- und Mehr-Schritt-Umgebungen sind verschiedene Konzepte zur Positionsbeschreibung entwickelt worden. Wir erwähnen hier nur zwei weitere Zentralitätskonzepte, die entweder die unterschiedliche „Nähe“ der Akteure zu allen anderen Akteuren im Netz betonen („closeness centrality“)8 oder die „strategische Stellung“ von Akteuren (z. B. als „Makler“) auf den einzigen oder kürzesten Wegen zwischen anderen Akteuren („betweenness centrality“, vgl. u. a. Wasserman & Faust 1994; Trappmann et al. 2010, siehe auch unten, Abschnitt 3). Die hier zur Kennzeichnung der Position einzelner Knoten beschriebenen Maße werden indirekt auch zur Beschreibung von Eigenschaften ganzer Netzwerke herangezogen, indem aus den Daten dieser Einheiten durch Aggregation analytische Merkmale des Kollektivs gebildet werden (etwa Mittelwerte, Streuungen
8
In gerichteten Netzen sind wiederum zwei Unterfälle von „closeness centrality“ zu unterscheiden (siehe unten, Abschnitte 3.3 und 3.4)
23 Netzwerkanalyse
591
etc.). Statt z. B. von der Zentralität einzelner Knoten spricht man dann von der „Zentralisierung“ des gesamten Netzes. 3. Die mit dem Gesichtspunkt der „automorphen Äquivalenz“ bzw. Ähnlichkeit eingeführte Abstraktion von den jeweils namentlich identifizierbaren Kontaktpersonen eines Positionsinhabers reicht häufig noch nicht aus, um die inhaltlichen Vorstellungen über gleiche bzw. ähnliche Strukturaspekte von Positionen angemessen zu berücksichtigen. Vergleichen wir die Positionen zweier Akteure anhand der Zahl ihrer Kontakte in 1-Schritt-Umgebungen und nehmen wir an, dass die beiden Akteure sehr unterschiedlich großen Beziehungsnetzen von z. B. n1 = 10 und n2 = 100 Knoten angehören. Die absolute Zahl ihrer Kontakte lässt sich unter dieser Bedingung nicht mehr direkt vergleichen, aber auch relative Häufigkeiten wären angesichts beschränkter Kontakt-Kapazitäten kaum vergleichbar. Eine (noch) weitergehende Abstraktion bei der Beschreibung von Positionen bedeutet im vorliegenden Fall, dass es bei der Unterscheidung zwischen Positionen auch auf die Zahl der Verbindungen bestimmter Art zu gleichartigen Akteuren nicht mehr ankommen darf, sondern nur noch auf deren Existenz oder Nicht-Existenz: Ein Vergleich der Positionen zweier Akteure beschränkt sich nun also auf die Frage, ob bestimmte Strukturaspekte bei beiden (mindestens einmal) vorkommen oder nicht („gleiche“ Form der Einbettung), oder ob bestimmte Strukturaspekte bei dem einen nicht und bei dem anderen (mindestens einmal) vorkommen („verschiedene“ Form der Einbettung). Konzepte zur Beschreibung dieser Form von Äquivalenz werden in der Netzwerkanalyse als „reguläre Äquivalenz“ bezeichnet. Nach dieser weitergehender Abstraktion sind zwei Akteure äquivalent und gehören damit der gleichen Position an, wenn jeder wichtige Aspekt der beachteten Struktur für beide Akteure entweder gleichermaßen zutrifft oder gleichermaßen nicht zutrifft. Hinsichtlich der früher genannten vier Strukturaspekte direkter Verbindungen zwischen Akteuren in 1-Schritt-Umgebungen ist das wieder sehr einfach: Zwei Akteure nehmen gleiche Positionen ein, wenn sie (unabhängig von der jeweiligen Häufigkeit) hinsichtlich der Existenz oder Nichtexistenz a) asymmetrisch ausgehender, b) asymmetrisch eingehender, c) symmetrisch ein- und ausgehender und d) nicht vorhandener Kanten übereinstimmen. Zur weitergehenden Information über die Konzepte zur Beschreibung „regulärer Äquivalenz“ bzw. (abgeschwächt) Ähnlichkeit verweisen wir wieder auf die Literatur (vgl. u. a. Wasserman & Faust 1994; Trappmann et al. 2010). 2.3 Teilgruppen: Die Identifikation von Teilnetzen intern eng bzw. stark verbundener Knoten In der bisherigen Diskussion kamen vor allem die „extremen Enden“ der AnalyseEbenen zur Sprache, nämlich die einzelnen Knoten und Kanten auf der einen und die gesamte Population bzw. das gesamte Beziehungsnetz auf der anderen Seite. Unter eher formalen Gesichtspunkten traten mit Dyaden und Triaden auch bereits Zwischenebenen hinzu. Einheiten auf Zwischenebenen spielen im Alltagsleben wie in der Analyse der dort ablaufenden Prozesse eine große Rolle. In der öffentlichen Verwaltung
592
Hans J. Hummell und Wolfgang Sodeur
oder in gewerblichen Unternehmen liefert z. B. die hierarchische Organisation in Arbeitsgruppen, Abteilungen, Geschäftsbereiche etc. Ansatzpunkte für eine „extern“ bestimmte Gliederung von Beziehungsnetzen, die auf ihre Übereinstimmung oder auch nur Verträglichkeit mit der tatsächlichen Struktur der Verbindungen überprüft werden kann. Schließlich kann eine Gliederung des Beziehungsnetzes in einer Population auch anhand „interner“ Bedingungen ermittelt werden. Ein möglicher Gesichtspunkt dafür wurde bereits in einem früheren Abschnitt bei der Ermittlung der „Positionen“ genannt: Personen mit gleichem (oder ähnlichem) Beziehungsmuster nehmen dieselbe Position ein und werden zu einer Klasse (in CONCOR auch „Block“ genannt) zusammengefasst. Die internen wie externen Verbindungen der Positionsinhaber werden dann im Rahmen einer „Rollenanalyse“ untersucht (White et al. 1976). Nach ähnlichen Gesichtspunkten werden in diesem Kapitel aufgrund der Struktur des Beziehungsnetzes Teilgruppen mit relativ starker innerer Verbundenheit und relativ deutlicher äußerer Abgrenzung erzeugt.9 Die „relative“ Verbundenheit bzw. Abgrenzung wird dabei durch spezielle Regeln spezifiziert. Im Folgenden beschreiben wir kurz einige unterschiedliche Regeln für die Bestimmung von Teilgruppen und beschränken uns dabei zunächst auf ungerichtete bzw. symmetrische Beziehungen zwischen den Einheiten. Danach modifizieren wir diese Konzepte zur Verwendung auch mit gerichteten Beziehungen. Teilgruppen können einmal durch die besondere Nähe der Einheiten zueinander, zum anderen durch außergewöhnlich viele direkte Verbindungen unter ihren Mitgliedern bestimmt werden. Beide Gesichtspunkte können gleichzeitig oder einzeln sowie in unterschiedlich strenger Form als Kriterien für die gesuchten Teilgruppen dienen. Cliquen und Clans In der Alltagssprache bezeichnen „Cliquen“ Teilgruppen, deren Mitglieder auf irgendeine Weise „eng verbunden“ sind. In der Netzwerkanalyse dagegen gibt es entsprechend den genannten Kriterien (a) der Nähe der Mitglieder und (b) der großen Zahl direkter Verbindungen unter ihnen unterschiedliche Definitionen für Teilgruppen. Darunter sind 1-Cliquen (meist nur kurz „Cliquen“ genannt in Abgrenzung von 2-, 3-, allgemein n-Cliquen) die am strengsten definierte Art von Teilgruppen. „Clique“ nennt man jede Teilgruppe maximaler Größe in einem Beziehungsnetz, in der jedes Mitglied mit jedem anderen direkt verbunden ist. Im Hinblick auf die Kriterien „Nähe“ und „Zahl direkter Verbindungen“ gilt also für (1-)Cliquen: Jedes Mitglied der Clique ist in nur einem Schritt mit jedem anderen verbunden, es fehlt also keine einzige seiner möglichen direkten Verbindungen mit den anderen. „Maximale Größe“ der Teilgruppe bedeutet: Es gibt keine weitere Person im Netz, die der Teilgruppe ohne Verlust der betreffenden (hier: Cliquen-) Eigenschaft hinzugefügt werden könnte. Zur exakten Darstellung dieser und der folgenden Teilgruppen-Definitionen verweisen wir auf einschlägige Lehrbücher (z. B. Wasserman & Faust 1994; Trappmann et al. 2010). 9
Anschaulich auch als „Zonen relativer Verdichtung“ beschreibbar.
23 Netzwerkanalyse
593
Mit den sogenannten n-Cliquen (n > 1) werden die für 1-Cliquen gesetzten Bedingungen gelockert. Die immer noch vollständige Verbundenheit zwischen allen Mitgliedern einer n-Clique muss nun nur noch über maximal n Schritte gesichert sein. In einer 2-Clique ist also jedes Mitglied von jedem anderen maximal 2 Schritte entfernt. Bei nur indirekter Erreichbarkeit ist also die „Vermittlung“ durch eine weitere Person nötig. Dabei ist es möglich, dass eine solche Mittelsperson selbst nicht zur 2-Clique gehört. Betrachtet man deshalb 2-Cliquen (oder allgemein n-Cliquen mit n > 1), so kann es vorkommen, dass einzelne Mitglieder der n-Cliquen untereinander nicht über Cliquen-Mitglieder, sondern lediglich über externe Personen verbunden sind. Diese unerwünschte Eigenschaft wird durch die strengere Regel für Clans beseitigt. Im „n-Clan“ (n > 1) müssen alle Mitglieder füreinander im Teilnetzwerk unter den Clanmitgliedern durch Verbindungen in maximal n Schritten erreichbar sein. Während also 1-Clans immer identisch sind mit 1-Cliquen, sind n-Clans (mit n > 1) strenger definiert als n-Cliquen mit demselben n. Wenn sowohl die Nähe der Teilgruppenmitglieder als auch die Zahl ihrer direkten Verbindungen in der Teilgruppe gleichermaßen bedeutsam sind, ist das Konzept der (1-)Clique zu wählen. Falls dies zu streng ist und die Nähe als vorrangig erscheint, ist das Konzept des 2-Clans oder allgemein des n-Clans (mit möglichst kleinem n) angebracht. k-Plexe und k-Cores Gegenüber den Konzepten von n-Clique und n-Clan, die über den Wert von n bestimmte minimale Nähen unter den Teilgruppenmitgliedern sicherstellen, betonen die Konzepte der k-Plexe und k-Cores, dass die Akteure zu möglichst vielen anderen Teilgruppenmitgliedern direkte Verbindungen aufweisen. Im ersten Fall wird die Maximalzahl „erlaubter“ fehlender direkter Verbindungen und im zweiten die Minimalzahl geforderter vorhandener direkter Verbindungen festgelegt. Im Begriff der „k-Plexe“ kennzeichnet k die Zahl der maximal abwesenden direkten Verbindungen einer Person zu den Mitgliedern der Teilgruppe. Die Verbindung einer Person zu sich selbst wird dabei ebenfalls als abwesend unterstellt, so dass z. B. in einem 2-Plex jedes der Mitglieder mit höchstens einem der jeweils anderen Mitglieder der Teilgruppe keine direkte Verbindung haben darf (vgl. Wasserman & Faust 1994, Kap. 7.4). Beim „k-Core“ wird verlangt, dass jeder Akteur der Teilgruppe mit mindestens k anderen Mitgliedern der Teilgruppe direkt verbunden ist. Wie bei Cliquen und Clans gilt auch hier, dass die entsprechenden k-Plexe bzw. k-Cores von maximaler Größe sein müssen.10 Zusammenhangs-Komponenten Ein weiteres Konzept der Teilgruppenanalyse mit nochmals abgeschwächten Anforderungen ist das der (Zusammenhangs-)Komponente. Hier wird der Gesichtspunkt 10
Allerdings ist zu erwähnen, dass bei diesen Definitionen nicht sichergestellt ist, dass sich die Mitglieder von k-Plexen oder von k-Cores auch immer wechselseitig erreichen können; k-Plexe bzw. k-Cores können aus mehr als einer Zusammenhangs-Komponente bestehen.
594
Hans J. Hummell und Wolfgang Sodeur
der dichten Bindung aller Mitglieder an die Teilgruppe (durch eine hohe Zahl direkter Verbindungen) zurückgestellt zugunsten der Betonung einer sehr schwachen Form von Nähe, nämlich der bloßen „Erreichbarkeit“ bzw. „Verbundenheit“.11 Eine Komponente ist eine (wiederum maximale) Teilgruppe mit der Eigenschaft, dass alle Mitglieder paarweise untereinander jeweils direkt oder indirekt über beliebig viele (!) Zwischenschritte erreichbar (verbunden) sein müssen. Während (mit Ausnahme der k-Cores) alle vorher behandelten Arten von Teilgruppen auch „einander überlappende“ Teilgruppen bilden können, bei denen einzelne Mitglieder mehr als einer der Teilgruppen (d. h. n-Cliquen, n-Clans, k-Plexen) angehören können, sind Komponenten immer scharf voneinander getrennt, d. h. haben jeweils eine exklusive Mitgliedschaft. Modifikation der Teilgruppenkonzepte für gerichtete Beziehungen Alle besprochenen Teilgruppenkonzepte wurden bislang nur auf ungerichtete bzw. symmetrische Beziehungen bezogen. Abschließend sollen Modifikationen nachgetragen werden, die auch die Möglichkeit gerichteter Beziehungen einschließen. Wiederum ordnen wir die modifizierenden Konzepte nach der Strenge der mit ihnen verbundenen Anforderungen. Zu einer ausführlicheren Behandlung der Modifikationen verweisen wir auf die spezielle Literatur (z. B. Wasserman & Faust 1994; Trappmann et al. 2010). Als strengste Form der Verbundenheit bzw. Erreichbarkeit gilt die „rekursive Verbundenheit“. Zwei Personen A und B heißen im Sinne des jeweiligen Teilgruppenkonzepts „rekursiv verbunden“, wenn sie in beiden Richtungen und bei indirekten Verbindungen über dieselben Mittelspersonen miteinander verbunden sind. Auch „starke Verbundenheit“ erfordert, dass sich zwei beliebige Mitglieder A und B der Teilgruppe des entsprechenden Konzepts in beiden Richtungen (in höchstens n Schritten) erreichen können. Schwächer als bei rekursiver Verbundenheit müssen die beiden Pfade von A nach B und von B nach A jedoch nicht über dieselben Mittelspersonen verlaufen. Für eine „unilaterale Verbundenheit“ wird zur gemeinsamen Mitgliedschaft nur noch die mindestens einseitige Erreichbarkeit zwischen zwei beliebigen Personen gefordert, und bei „schwacher Verbundenheit“ müssen die paarweisen gerichteten Verbindungen nicht einmal notwendig in dieselbe Richtung zeigen. Maximale Teilnetze, bei denen sich alle Knoten paarweise in beiden Richtungen erreichen können, heißen „starke Komponenten“; ist nur paarweise schwache Verbundenheit gegeben, heißen sie „schwache Komponenten“.
3 Ein Beispiel 3.1 Daten In diesem Abschnitt beschreiben wir die Erstellung eines Datensatzes mit Merkmalen zur Kennzeichnung von Struktureigenschaften von Beziehungsnetzen. Als Beispiel dient ein in der Netzwerkanalyse häufig genutzter Datensatz von Theodore M. Newcomb 11
Bei Beschränkung auf maximal n Schritte spricht man auch von „n-Verbundenheit“.
23 Netzwerkanalyse
595
Tab. 1: Rangordnung ihrer Kollegen durch 17 Studenten in der Woche mit lfd. Nr. 1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
0 8 13 13 14 7 15 9 6 2 12 15 1 14 16 8 9
7 0 10 1 10 13 4 8 16 16 7 11 15 5 9 11 15
12 16 0 15 11 11 11 16 8 9 4 2 16 8 4 15 10
11 1 7 0 7 3 3 7 14 14 8 6 7 6 8 3 2
10 11 8 14 0 15 16 10 13 11 6 5 4 13 1 13 4
4 12 11 4 16 0 8 1 11 4 14 14 2 9 13 16 11
13 2 9 3 12 10 0 14 4 3 9 7 12 2 11 14 5
14 14 15 16 4 2 6 0 15 10 16 13 14 16 12 12 12
15 10 6 12 5 4 9 11 0 7 3 10 13 1 6 1 3
16 13 5 7 6 16 10 3 7 0 13 4 8 3 2 9 7
3 15 2 6 2 14 5 2 1 15 0 3 6 12 3 2 8
9 6 1 9 3 5 2 5 2 8 2 0 11 7 5 6 1
1 7 16 8 13 1 14 4 9 12 10 16 0 15 10 10 6
5 9 12 11 15 12 12 15 5 13 15 8 10 0 15 7 16
8 5 4 10 8 9 13 12 12 1 11 9 3 4 0 5 14
6 3 14 5 9 8 7 13 10 6 5 12 9 11 14 0 13
2 4 3 2 1 6 1 6 3 5 1 1 5 10 7 4 0
(1961; vgl. auch Nordlie 1958) über die Entstehung von Freundschaftsbeziehungen unter Studienanfängern während der ersten 16 Wochen ihres Studiums. In zwei aufeinanderfolgenden Jahren wählte T.M. Newcomb aus einer Schar von Bewerbern jeweils 17 einander bis dahin unbekannte männliche Studenten aus („Newcomb Fraternities“), die in einem eigens für dieses Projekt angemieteten Haus mietfrei wohnen durften, dafür jedoch 4 bis 5 Stunden pro Woche für Befragungen und Diskussionen zur Verfügung stehen mussten (Einzelheiten u. a. in Trappmann et al. 2010, Kap. 1.2). In diesem Beispiel wird der Datensatz des 2. Jahres genutzt. Ursprünglich wurde eine Vielzahl unterschiedlicher Daten über Einstellungen und Einschätzungen von Einstellungen anderer erhoben, von denen aber (zumindest allgemein zugänglich) nur noch die wöchentlichen, gegenseitigen Einschätzungen der Studenten hinsichtlich ihrer „favorableness“ verfügbar sind. Für 15 von 16 Wochen liegt von jedem der 17 Studenten eine vollständige Rangfolge der jeweils übrigen 16 von ihm bewerteten Studenten vor. Die Wochen, für die Daten existieren, sind bei T.M. Newcomb und P. Nordlie nummeriert von null bis acht und von zehn bis fünfzehn. Für Woche neun existieren aufgrund von Ferien keine Daten. Wir kennzeichnen die Wochen mit ihrer laufenden Nummer (1–15). Die Tabelle 1 enthält die berichteten Rangplätze der 1.Woche. Dieser Datensatz wurde bereits vielfach mit unterschiedlicher Zielsetzung ausgewertet, teilweise in der Form wie in Tabelle 1, teilweise nach Rekodierung der Rangplätze. Bei der Rekodierung wird je nach Zielsetzung meist eine feste Anzahl der ersten Rangplätze (z. B. 1–5) als „Beliebtheitswahlen“ oder der letzten Rangplätze (z. B. 14–16) als „Ablehnungen“ gewertet. Die ersten 5 Beliebtheitswahlen sind in Form einer
596
Hans J. Hummell und Wolfgang Sodeur
Tab. 2: Präferenzwahlen (5 erste Rangplätze) in der Form „von an1 an2 an3 an4 an5“ („linked list“) von
an . . .
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
6 4 10 2 8 4 2 6 7 1 3 3 1 2 3 4 4
11 7 11 6 9 8 4 10 11 6 9 5 5 7 5 9 5
13 15 12 7 11 9 11 11 12 7 12 10 6 9 10 11 7
14 16 15 16 12 12 12 12 14 15 16 11 15 10 11 15 9
17 17 17 17 17 13 17 13 17 17 17 17 17 15 12 17 12
Liste (mit den ID-Nummern der Gewählten) in Tabelle 2 wiedergegeben. Alternativ ist diese Information auch in einer „binären Matrix“ darstellbar.12 Unabhängig von der Darstellungsform werden jeweils Informationen zu jedem der n = 17 Akteure beschrieben. Wenn aufgrund der Netzwerkanalyse weitere Eigenschaften der 17 Akteure abgeleitet werden, so wird der „Eigenschafts-Vektor“ (hier Zeile der Matrix oder der Liste) länger, die Grundstruktur des Datensatzes mit 17 „Aussage-Einheiten“ bleibt jedoch gleich. Im folgenden Abschnitt werden wir als Objekte der Analyse jedoch nicht Akteure, sondern gerichtete Kanten aus jeweils zwei Akteuren (i → j) und ihre Entwicklung über 15 Wochen als Aussage-Einheiten wählen. Dazu muss ein Datensatz erstellt werden, der für jede der nunmehr n · (n − 1) = 272 Aussage-Einheiten (gerichtete Kanten als „Fälle“) eine Zeile mit allen Eigenschaften enthält, die zur Analyse der Entwicklung dieser Kante benötigt werden. Im Beispiel sind dies aufgrund der primär erhobenen Beliebtheits-Daten für die vom Akteur 1 (Zeile 1, Tabelle 1) potentiell ausgehenden (n − 1) = 16 Verbindungen 5 gerichtete Kanten (01,06), (01,11), (01,13), (01,14), (01,17) mit dem Wert 1 und weitere 11 von ihm ausgehende Kanten mit dem Wert 0. 3.2 Zielsetzungen Ziel dieses Beispiels ist es, die Entwicklung von Präferenz-Wahlen zu analysieren, welche die 17 Studenten der Newcomb Fraternity (2. Jahr) in den wöchentlichen 12
Zu Einzelheiten des Datensatzes, früherer Auswertungen sowie Verweisen auf Bezugsquellen des Programms UCINET im Internet verweisen wir auf Trappmann et al. (2010, Kap. 1.2)
23 Netzwerkanalyse
597
Befragungen über ihre Kollegen abgaben. Wir nennen diese auf eine „Zielperson“ j gerichtete Wahl die „Entscheidungskante“ i → j des „Entscheidungsträgers“ i. Formal handelt es sich bei der Entwicklung einer jeden Präferenz-Wahl um die fortdauernde Abwesenheit (0,0), den Aufbau (0,1), die fortdauernde Anwesenheit (1,1) oder den Abbau (1,0) einer gerichteten Kante zwischen zwei Zeitpunkten t1 und t2 . Diese Entwicklung soll (teilweise) durch die Struktur der Beziehungen in der Umgebung der Entscheidungskante zum jeweils früheren Zeitpunkt t1 erklärt werden. Als Struktureigenschaften des umgebenden Beziehungsnetzes, die potentiell zur Erklärung der „eingebetteten“ gerichteten Kante dienen können, wurden ausgewählt:13 (vgl. u. a. Hummell & Sodeur 1997) 1. eine offensichtliche Präferenz i ← j der Zielperson j für den Entscheidungsträger i in der ersten der beiden Wochen; 2. eine besondere Stellung der Zielperson j (als „signifikanter Anderer“) im Beziehungsnetz unter den 17 Studenten in der ersten der beiden Wochen, gemessen mit einem Prestige- und drei weiteren Zentralitätsmaßen von j im Netz; 3. eine besondere Einbindung sowohl des Entscheidungsträgers i als auch der Zielperson j in Teilgruppen (hier 2-Clans) in Form gemeinsamer Mitgliedschaften, und zwar wiederum in der ersten von jeweils zwei Wochen. 3.3 Erstellung des Datensatzes Alle genannten Strukturmerkmale eines Beziehungsnetzes lassen sich aus den primär erhobenen Daten (vgl. Tabelle 1) mit Hilfe allgemein verfügbarer Spezialprogramme zur Netzwerkanalyse ableiten, z. B. mit UCINET (Borgatti et al. 2006, 1994). Die verfügbaren Programme stellen aber immer noch vorwiegend „Insel-Lösungen“ mit jeweils eigenen Auswertungsroutinen dar. Sie unterstützen die hier erhobene Forderung nach stärkerer Integration der Netzwerkanalyse in den allgemeinen „Methoden-Kanon“ nur unvollkommen: Die auf unterschiedlichen Ebenen des Netzwerks ermittelten Strukturmerkmale können nicht beliebig zusammengeführt und zur externen Auswertung ausgegeben werden. Im konkreten Fall werden für jede der n(n − 1) = 272 Entscheidungskanten i → j benötigt: a) Eigenschaften der jeweiligen gerichteten Kante j → i, welche der zu erklärenden Entscheidungskante i → j „gegenläufig“ ist (hier handelt es sich um Ergebnisse der Netzwerkanalyse für insgesamt n(n − 1) = 272 gerichtete Kanten); b) verschiedene Positionsmerkmale der jeweiligen Zielperson j der gerichteten Kante i → j (Ergebnis der Netzwerkanalyse als Kontext-Eigenschaften der jeweiligen Zielpersonen j, also für insgesamt n = 17 Knoten); c) die Kontext-Eigenschaft der gemeinsamen Teilgruppen-Zugehörigkeit von Entscheider i und Zielperson j (Ergebnisse der Netzwerkanalyse für insgesamt n(n − 1)/2 = 136 Paare von Knoten). 13
Unklar ist, welche dieser Strukturaspekte den Akteuren i auch bewusst sind; denn die Daten stammen überwiegend von den jeweils anderen n − 1 Befragten.
598
Hans J. Hummell und Wolfgang Sodeur
Als Lösung dieser eher technischen Probleme können die Ergebnisse der Netzwerkanalyse mit z. B. UCINET IV „von Hand“ in einem Texteditor auf der gewünschten Ebene zusammengestellt werden. Einfacher und eleganter geht es mit Datenbanken oder mit speziellen Textverarbeitungs-Programmen.14 An dieser Stelle begnügen wir uns mit einer kurzen Beschreibung des bereits erstellten Datensatzes. Als Beispiel (siehe Tabelle 3) beschränken wir uns auf die Darstellung der vom Akteur 1 potentiell ausgehenden 16 Kanten in den Wochen 1–2. Für alle n = 17 Akteure der Newcomb Fraternity umfasst der Datensatz n(n−1) = 272, für alle 14 Wochenübergänge (1–2, 2-3. . . 14–15) zusammen 272 · 14 = 3808 „Fälle“. Als „zu erklärende Variable“ gilt hier die Variable V 5, die Veränderung der Entscheidungskante i → j zwischen jeweils 2 aufeinanderfolgenden Wochen (s.o., 3.2). Mangels anderer Daten aus der ursprünglichen Erhebung wird mit den Daten aus Tabelle 3 nur die Erklärung aufgrund einiger Strukturmerkmale (siehe Tabelle 3, V 6-V 11) des Beziehungsnetzes vorbereitet, die sich auf die jeweils erste der beiden Wochen beziehen, zwischen denen die zu erklärende Veränderung (−1 oder +1) im Zustand einer Entscheidungskante i → j stattfand oder der alte Zustand unverändert erhalten blieb (0). Hier enden, wie bereits mehrfach betont, die Besonderheiten der Netzwerkanalyse. Der erzeugte Datensatz wird im Prinzip genau so behandelt wie jeder andere Datensatz mit monadischen Informationen. Der nun ermöglichte Zugang zum erweiterten Instrumentarium statistischer Analyse erleichtert vor allem die Lösung „besonderer“ Analyseprobleme. Im vorliegenden Fall liegen „besondere“ Probleme in einigen, z.T. bereits genannten Eigenschaften des Datensatzes: (a) Die sogenannten „unabhängigen“ Variablen gehen auf dieselbe Datenbasis zurück wie die zu erklärende Variable, nämlich auf die jeweils 5 Präferenz-Wahlen jedes der 17 Studenten in insgesamt 15 Wochen. (b) Die „unabhängigen“ Variablen beziehen sich auf Einheiten unterschiedlicher Ebenen (s.o.), die aus denselben „Mikrodaten“ erzeugt wurden; auch ihnen liegen also pro Woche keine 272 voneinander unabhängigen Informationen zugrunde. (c) Die 14 Übergänge zwischen je zwei aufeinanderfolgenden aus den insgesamt 15 berichteten Wochen sind weder unabhängig voneinander noch kann begründet angenommen werden, dass die „Übergänge“ des Auf- und Abbaus gerichteter Kanten über die 15 Wochen denselben Prozessregeln folgen (d. h. sich „stationär“ verhalten). Die Analyse des erzeugten Mehrebenen-Datensatzes über Zeit muss deshalb auf spezielle Verfahren zurückgreifen, wie sie in diesem Handbuch u. a. in den Kapiteln 28, 36 und 40 behandelt werden. An dieser Stelle und im Rahmen der Netzwerkanalyse würde es zu weit führen, diesen Weiterungen nachzugehen. Wir beschränken uns deshalb abschließend auf einige beschreibende Korrelationen zwischen den Übergängen der Entscheidungskante i → j zwischen jeweils zwei Wochen auf der einen und den abgeleiteten Merkmalen ihrer strukturellen Umgebung im Beziehungsnetz auf der anderen Seite.
14
Programme und weitere Verweise unter http://www.uni-duisburg-essen.de/sodeur/ sna.
23 Netzwerkanalyse
599
Tab. 3: Entscheidungskanten und Eigenschaften ihrer strukturellen Umgebungen (Auszug aus dem vollständigen Datensatz) V1
V2
V3
V4
V5
V6
V7
V8
V9
V10
V11
0102 0103 0104 0105 0106 0107 0108 0109 0110 0111 0112 0113 0114 0115 0116 0117
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
0 0 0 0 1 0 0 0 0 1 0 1 1 0 0 1
0 0 0 0 0 0 0 1 0 0 1 1 1 0 1 0
0 0 0 0 −1 0 0 1 0 −1 1 0 0 0 1 −1
0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0
0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0
3 3 5 4 5 6 2 6 5 9 9 3 2 6 3 12
31 31 31 30 27 31 29 32 28 33 30 29 29 31 30 30
36 30 28 28 29 26 37 26 28 23 23 41 37 28 31 20
4,37 3,28 19,40 13,53 21,61 12,11 6,12 15,63 30,11 17,97 19,96 7,23 7,26 17,46 5,46 28,18
Anmerkungen: V1 ID-Nr. i → j (hier nur: ‚0102‘. . . ‚0117‘) V2 Wochenübergang 1–2, 2–3, 3–4...14–15 (hier nur 1–2 (= 1)) V3 Status der gerichteten Kante i → j (ausgehend von i nach j) zum Zeitpunkt t1 des jeweiligen Wochenübergangs (1: vorhanden; 0: nicht vorhanden). Ebene: gerichtete Kante V4 Status der gerichteten Kante i → j zum Zeitpunkt t2 des jeweiligen Wochenübergangs. Ebene: gerichtete Kante V5 Veränderung der gerichteten Kante i → j zwischen den Zeitpunkten t1 –t2 des jeweiligen Wochenübergangs (0: keine Änderung; −1: Abbau; 1: Aufbau). Ebene: gerichtete Kante V6 Status der gerichteten Kante i ← j (eingehend bei i von j) zum Zeitpunkt t1 des jeweiligen Wochenübergangs. Ebene: gerichtete Kante i → j, Kontextmerkmal der Dyade i,j V7 „clan“: Zahl gemeinsamer Mitgliedschaften von i und j in 2-Clans zum Zeitpunkt t1 (bei Vorliegen einer der ersten fünf Präferenzwahlen in beiden Richtungen). Ebene: gerichtete Kante i → j, Kontextmerkmal aus dem Gesamtnetz und seiner Gliederung in 2-Clans V8 „inDegree“: Prestige von j, d. h. Zahl eingehender Kanten bei Knoten j (in i → j) zum Zeitpunkt t1 . Ebene: Knoten j, Kontextmerkmal aus dem Gesamtnetz V9 „outClose“: Closeness Centrality von j (in i → j) aufgrund ausgehender Kanten von j zum Zeitpunkt t1 . Ebene: Knoten j, Kontextmerkmal aus dem Gesamtnetz V10 „inClose“: Closeness Centrality von j (in i → j) aufgrund eingehender Kanten von j zum Zeitpunkt t1 . Ebene: Knoten j, Kontextmerkmal aus dem Gesamtnetz V11 „Between“: Betweenness Centrality von j (in i → j) zum Zeitpunkt t1 . Ebene: Knoten j, Kontextmerkmal aus dem Gesamtnetz
600
Hans J. Hummell und Wolfgang Sodeur
Tab. 4: Korrelationen zwischen der Entwicklung der Entscheidungskante i → j im Zeitraum t1 –t2 (V5) und verschiedenen Merkmalen der umgebenden Netzstruktur (V6–V11) (a) Alle 14 Wochenübergänge, nur Entscheidungskanten mit t1 (ij) = 0: Aufbau möglich Woche t1 :
V06 i←j
V07 i,j: clan
V08 j: inDegree
V09 j: outClose
V10 j: inClose
V11 j: Between
V05 t1 –t2 : i → j
0,054
0,116
0,167
0,012
−0,109
0,070
N = 2618 (b) Alle 14 Wochenübergänge, nur Entscheidungskanten mit t1 (ij) = 1: Abbau möglich Woche t1 :
V06 i←j
V07 i,j: clan
V08 j: inDegree
V09 j: outClose
V10 j: inClose
V11 j: Between
V05 t1 –t2 : i → j
0,189
0,165
0,109
0,075
−0,053
0,024
N = 1190
3.4 Einige Zusammenhänge zwischen der Entwicklung der Entscheidungskanten und Eigenschaften ihrer strukturellen Umgebung In diesem Abschnitt versuchen wir, unter Einsatz nur einfacher Mittel (bivariate Korrelationen) zwei Fragen zu klären, die zur Vorbereitung einer multivariaten MehrebenenAnalyse dienen können. Ausgangspunkt ist der oben beschriebene Datensatz (vgl. den Auszug in Tabelle 3) zur Entwicklung der 272 „Entscheidungskanten“ i → j im Zeitverlauf über die 14 Wochenübergänge. Können Aufbau und Abbau gerichteter Präferenzwahlen unter den 17 Studenten der Newcomb Fraternity gemeinsam analysiert werden oder folgen die beiden Entwicklungen unterschiedlichen Prozessregeln? Aufgrund unserer Vorentscheidung für die ersten 5 Präferenzwahlen der 17 Studenten gibt es in jeder Woche 17 · 5 = 85 vorhandene (Wert 1) und 272 − 85 = 187 nicht vorhandene (Wert 0) Entscheidungskanten. In allen Anfangswochen der 14 Übergänge zusammen gibt es entsprechend 14 · 85 = 1190 vorhandene Entscheidungskanten mit dem Wert t1 (1); diese Kanten können bis zur jeweils folgenden Woche t2 entweder bestehen bleiben (1,1) oder abgebaut werden (1,0). Komplementär dazu haben alle übrigen 14 · 187 = 2618 Entscheidungskanten jeweils den Anfangswert t1 (0) und können bis zur Folgewoche eventuell aufgebaut werden ((0,1) versus (0,0)). In den Tabellen 4 a-b werden die bivariaten Korrelationen zwischen – verschiedenen „erklärenden“ Kontextmerkmalen zum Zeitpunkt t1 und – der Entwicklung der Entscheidungskante i → j im Zeitraum t1 -t2 getrennt für die beiden Untergruppen mit (a) 2618 Entscheidungskanten mit dem Anfangswert 0 (potentieller Aufbau) und (b) 1190 Entscheidungskanten mit dem
23 Netzwerkanalyse
601
Tab. 5: Korrelationen zwischen dem Prestige („inDegree“) der Zielperson und dem fortdauerndem Fehlen (0,0) bzw. Aufbau (0,1) der Entscheidungskante i → j im Wochenübergang (separarat für alle Wochenpaare) 1–2
2–3
3–4
4–5
5–6
6–7
7–8
8–9
9–10 10–11 11–12 12–13 13–14 14–15
0,119 0,128 0,084 0,211 0,201 0,170 0,137 0,234 0,176 0,089 0,220 0,127 0,156 0,314 N = 187 (je Wochenübergang)
Anfangswert 1 (potentieller Abbau) dargestellt. Es zeigen sich deutliche Unterschiede zwischen den Fallgruppen (a) und (b): Ein potentieller Aufbau der Entscheidungskante im Zeitablauf sollte deshalb gesondert vom potentiellen Abbau untersucht werden. Können alle 14 Wochenübergänge gemeinsam unter der Annahme eines stationären Prozesses analysiert werden? Wir untersuchen diese Frage (vgl. Tabelle 5) beispielhaft nur unter der Bedingung einer zum Zeitpunkt t1 nicht existierenden Entscheidungskante und anhand der Korrelationen zwischen nur einem der „erklärenden“ Kontextmerkmale V 8 (Prestige) und der „abhängigen“ Variablen V 5 (fortdauernde Abwesenheit (0,0) oder Aufbau (0,1)). Die Entwicklung der Entscheidungskante korreliert mit dem ausgewählten Kontextmerkmal zumindest in der Richtung weitgehend einheitlich über alle 14 Wochenübergänge, obwohl die Fallzahlen bei getrennter Auswertung pro Übergang (jeweils 272 − 85 = 187 Fälle mit Anfangswert „0“) nur gering sind. Die Annahme eines stationären Prozesses kann damit (für diesen bivariaten Zusammenhang) ohne große Bedenken aufrechterhalten werden. Soweit ähnliche Bedingungen auch für andere Zusammenhänge gelten, könnte der potentielle Aufbau der Entscheidungskante also mit einem relativ großen Datensatz (N = 2618 Fälle mit Anfangswert 0) und nur einem, d. h. aus allen 14 Übergängen kombinierten fiktiven Übergang untersucht werden.
4 Literaturempfehlungen Als deutschsprachige Einführung sei Jansen (2006) genannt. Überblicke und Gesamtdarstellungen bieten Degenne & Forsé (1999), Knoke & Yang (2007), Scott (2000) und Stegbauer (2008). Für software-orientierte Einführungen sei auf Hanneman & Riddle (2005), Nooy et al. (2005) sowie Trappmann et al. (2010) verwiesen. Die Geschichte der Netzwerkanalyse beleuchtet Freeman (2005). Als Standardwerk der sozialwissenschaftlichen Netzwerkanalyse kann noch immer Wasserman & Faust (1994) gelten.15
15
Weitere Informationen zur Analyse sozialer Netzwerke sind auf den Webseiten der Autoren zu finden: http://www.uni-duisburg-essen.de/hummell/sna und http://www. uni-duisburg-essen.de/sodeur/sna
602
Hans J. Hummell und Wolfgang Sodeur
Literaturverzeichnis Borgatti, S. P., Everett, M. G., & Freeman, L. C. (1994). UCINET, Version IV. Columbia: Analytic Technologies. Borgatti, S. P., Everett, M. G., & Freeman, L. C. (2006). UCINET 6 for Windows. Harvard: Analytic Technologies. Breiger, R. L., Boorman, S. A., & Arabie, P. (1975). An Algorithm for Clustering Relational Data with Applications to Social Network Analysis and Comparison with Multidimensional Scaling. Journal of Mathematical Psychology, 12, 328–383. Burt, R. S. (1990). Detecting Role Equivalence. Social Networks, 12, 83–97. Degenne, A. & Forsé, M. (1999). Introducing Social Networks. London: Sage. Freeman, L. C. (2005). The Development of Social Network Analysis. A Study in the Sociology of Science. Vancouver: Empirical Press. Hanneman, R. A. & Riddle, M. (2005). Introduction to Social Network Methods (published in digital form at "http://faculty.ucr.edu/ hanneman/"). Riverside: University of California. Holland, P. W. & Leinhardt, S. (1975). Local Structure in Social Networks. Sociological Methodology, 1976, 1–45. Hummell, H. J. & Sodeur, W. (1987a). Strukturbeschreibung von Positionen in sozialen Beziehungsnetzen. In F. U. Pappi (Hg.), Methoden der Netzwerkanalyse (S. 177–202). München: Oldenbourg. Hummell, H. J. & Sodeur, W. (1987b). Triaden- und Triplettzensus als Mittel der Strukturbeschreibung. In F. U. Pappi (Hg.), Methoden der Netzwerkanalyse (S. 129–161). München: Oldenbourg. Hummell, H. J. & Sodeur, W. (1992). Multivariate Analyse von Struktureigenschaften auf mehreren Ebenen. Netzwerkanalyse als "meßtheoretisches" Konzept. In H. J. Andreß (Hg.), Theorie, Daten, Methoden. Neuere Modelle und Verfahrensweisen in den Sozialwissenschaften (S. 269–294). München: Oldenbourg. Hummell, H. J. & Sodeur, W. (1997). Structural Analysis of Social Networks with Respect to Different Levels of Aggregation. Mathématiques, Informatique et Sciences Humaines, 35, 37–60. Hummell, H. J. & Sodeur, W. (2010). Dyaden und Triaden. In C. Stegbauer & R. Häußling (Hg.), Handbuch der Netzwerkforschung. Wiesbaden: VS Verlag für Sozialwissenschaften. Jansen, D. (2006). Einführung in die Netzwerkanalyse: Grundlagen, Methoden, Forschungsbeispiele. Wiesbaden: VS Verlag für Sozialwissenschaften, 3. Auflage. Knoke, D. & Yang, S. (2007). Social Network Analysis. Newbury Park: Sage, 2. Auflage. Lazarsfeld, P. F. & Menzel, H. (1961). On the Relation between Individual and Collective Properties. In A. Etzioni (Hg.), Complex Organizations (S. 422–440). New York: Holt, Rinehart, and Winston. Newcomb, T. M. (1961). The Acquaintance Process. New York: Holt, Rinehart, and Winston. Nooy, W. de, Mrvar, A., & Batagelj, V. (2005). Exploratory Social Network Analysis with Pajek. Cambridge: Cambridge University Press. Nordlie, P. (1958). A Longitudinal Study of Interpersonal Attraction in a Natural Group Setting. Ann Arbor: University of Michigan: Unpublished Ph.D. Dissertation.
23 Netzwerkanalyse
603
Pappi, F. U. (1987). Die Netzwerkanalyse aus soziologischer Perspektive. In F. U. Pappi (Hg.), Methoden der Netzwerkanalyse. (S. 11–37). München: Oldenbourg. Scott, J. P. (2000). Network Analysis: A Handbook. Newbury Park: Sage. Stegbauer, C., Hg. (2008). Netzwerkanalyse und Netzwerktheorie: Ein neues Paradigma in den Sozialwissenschaften. Wiesbaden: VS Verlag für Sozialwissenschaften. Stokman, F. N., Ziegler, R., & Scott, J. (1985). Networks of Corporate Power. Cambridge: Polity Press. Trappmann, M., Hummell, H. J., & Sodeur, W. (2010). Strukturanalyse Sozialer Netzwerke. Wiesbaden: VS Verlag für Sozialwissenschaften, 2. Auflage. Wasserman, S. & Faust, K. (1994). Social Network Analysis: Methods and Applications. New York: Cambridge University Press. Watts, D. J. (2004). The "new" Science of Networks. Annual Review of Sociology, 30, 243–270. White, H. C., Boorman, S. A., & Breiger, R. L. (1976). Social Structure from Multiple Networks. I. Blockmodels of Roles and Positions. American Journal of Sociology, 81, 730–780.
Teil V
Regressionsverfahren für Querschnittsdaten
24 Lineare Regressionsanalyse Christof Wolf und Henning Best a b
GESIS – Leibniz-Institut für Sozialwissenschaften und Universität Mannheim Universität Mannheim
Zusammenfassung. Die Regressionsanalyse ist ein Verfahren zur Schätzung des Einflusses einer oder mehrerer Merkmale auf eine abhängige Variable. Der große Vorteil der Regressionsanalyse ist, dass sie den Einfluss eines einzelnen Merkmals auf eine abhängige Variable unter Konstanthaltung der anderen Einflussgrößen schätzt. Bei der linearen Regression werden nur lineare bzw. linearisierbare Einflussbeziehungen auf metrisch abhängige Variablen erfasst. Auf der Grundlage eines Beispiels führt dieser Beitrag zunächst das Grundprinzip der linearen Regression ein. Im zweiten Abschnitt werden die mathematisch-statistischen Grundlagen des Verfahrens genauer beschrieben. Ausführlich dargestellt werden das Modell der linearen Regression, die Methode der kleinsten Quadrate, die Bestimmung der Modellgüte, die statistische Absicherung der Modellergebnisse und ihre Interpretation. Es folgt die Diskussion eines ausführlichen Beispiels, anhand dessen die wichtigsten Analysestrategien und Prinzipien der Regressionsanalyse erläutert werden. Abschließend geben wir Hinweise zu den typischen Fehlern, die bei der Anwendung des Verfahrens gemacht werden können, und empfehlen weiterführende Literatur.
1 Einführung Regressionsanalytische Verfahren gehören heute in den Sozialwissenschaften zu den am häufigsten verwendeten Auswertungsverfahren. Allen regressionsanalytischen Verfahren ist gemeinsam, dass mit ihnen überprüft werden kann, inwieweit ein interessierendes Merkmal auf andere Merkmale „zurückgeführt“ werden kann. Hier wird denn auch der lateinische Ursprung der Bezeichnung „Regressions“-analyse deutlich, die sich von regredi (zurückgehen) oder regressio (die Rückkehr) ableitet. Typische Fragestellungen, bei der die Regressionsanalyse eingesetzt werden könnte, lauten: Wie stark ist der Einfluss der Berufserfahrung auf das Einkommen? Welche Faktoren beeinflussen die Lebenszufriedenheit? Hat eine Zunahme des Umweltwissens eine Veränderung des Umweltverhaltens zur Folge? Das Merkmal, welches jeweils erklärt werden soll, wird auch als abhängige Variable bezeichnet; in den genannten Beispielen wären dies das Einkommen, die Lebenszufriedenheit und das Umweltverhalten. Die erklärenden Merkmale werden dementsprechend als unabhängige Variablen oder als Prädiktoren bezeichnet. Dabei ist die Einteilung in unabhängige und abhängige Variablen immer im Zusammenhang mit einer konkreten Fragestellung zu sehen. Bei anderen Fragestellungen kann die Zuordnung anders erfolgen. So ist das Umweltwissen im oben genannten Beispiel eine unabhängige Variable, S. 607–638 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_24, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
608
Christof Wolf und Henning Best
deren Einfluss auf das Umweltverhalten untersucht wird. In einem weiteren Schritt könnte untersucht werden, von welchen Faktoren das Umweltwissen seinerseits abhängt. Die abhängige Variable wäre dann das Umweltwissen. Je nach Skalenniveau der abhängigen Variablen kommen unterschiedliche Varianten der Regressionsanalyse in Frage. Für binäre abhängige Variablen kann die logistische Regressionsanalyse verwendet werden (vgl. Kapitel 31 in diesem Handbuch), für nominalskalierte Merkmale mit mehr als zwei Ausprägungen und für ordinalskalierte Merkmale stehen verallgemeinerte Varianten der logistischen Regressionsanalyse zur Verfügung (vgl. Kapitel 32 in diesem Handbuch). Für Zähldaten wird dagegen oft auf die Poissonregression zurückgegriffen (vgl. Kapitel 33 in diesem Handbuch). In diesem Kapitel werden die Grundlagen der linearen Regressionsanalyse dargestellt, die zur Voraussetzung hat, dass die abhängige Variable metrisch skaliert ist. Zunächst sollen die Grundzüge der linearen Regressionsanalyse am Beispiel eines Modells zur Untersuchung des Einkommens abhängig Beschäftigter dargestellt werden. Eine ausführliche Beschreibung des Erklärungsmodells und der verwendeten Merkmale erfolgt in Abschnitt 3 dieses Kapitels. Die erste zu untersuchende Hypothese sei, dass das Einkommen mit zunehmender Berufserfahrung steigt. Das Einkommen ist die abhängige Variable, das Merkmal, das mit Hilfe des statistischen Modells untersucht werden soll. Die Berufserfahrung ist die unabhängige Variable, also das Merkmal, dessen Einfluss auf das Einkommen hier geprüft wird. Mathematisch lässt sich dies in der Gleichung Einkommen = f (Berufserfahrung) audrücken. Diese Schreibweise bringt zum Ausdruck, dass wir davon ausgehen, das Einkommen sei eine Funktion der Berufserfahrung. Dabei bleibt zunächst offen, welcher Art diese Funktion ist. Wird vermutet, dass das Einkommen mit jedem Berufsjahr um einen konstanten Betrag ansteigt, kann dies mit der Funktion Einkommen = β0 + β1 Berufserfahrung + Fehlerterm zum Ausdruck beschrieben werden. Neben den Variablen Einkommen und Berufserfahrung enthält diese Gleichung zwei sog. Regressionskoeffizienten oder Parameter, β0 und β1 . Außerdem taucht noch eine als „Fehlerterm“ bezeichnete Größe auf. Diese bringt die Vermutung zum Ausdruck, dass es sich bei dem Zusammenhang zwischen Berufserfahrung und Einkommen nicht um eine deterministische (perfekte) funktionale Beziehung handelt. Vielmehr werden auch andere Faktoren das Einkommen beeinflussen, einige von ihnen systematisch, andere werden zu einer zufälligen Schwankung des Einkommens beitragen. In eine mathematische Notation überführt, lautet unser Modell (1) y = β0 + β1 x + ε . Gleichung (1) gibt das Grundmodell der bivariaten Regressionsanalyse wieder. Wenn wir den Fehlerterm ε auf beiden Seiten dieser Gleichung subtrahieren, ergibt sich y − ε = yˆ = β0 + β1 x ,
(2)
24 Lineare Regressionsanalyse
609
wobei mit yˆ (y-Dach) die auf Basis der x-Werte geschätzten y-Werte bezeichnet werden. Wie Gleichung (2) zeigt, stehen x und die auf Basis von x geschätzten Werte yˆ in einer linearen Beziehung zueinander, das heißt, alle Wertepaare (x,ˆ y ), die Gleichung (2) erfüllen, liegen auf einer Geraden. Betrachten wir nun die Regressionskoeffizienten β0 und β1 genauer. In dem Modell, das durch Gleichung (1) spezifiziert wird, wird davon ausgegangen, dass die Berufserfahrung sich auf das Einkommen auswirkt, und zwar derart, dass sich das Einkommen um β1 Einheiten verändert, wenn die Berufserfahrung um eine Einheit, z. B. ein Jahr, steigt. Daher wird der Koeffizient β1 auch als Steigungskoeffizient bezeichnet. Der Regressionskoeffizient β0 gibt den so genannten y-Achsenabschnitt an, also den Wert, bei dem die Regressionsgerade die y-Achse schneidet. In dem von uns gewählten Beispiel entspricht β0 dem geschätzten Einkommen von Personen ohne Berufserfahrung, genauer: von Personen, bei denen das Merkmal Berufserfahrung den Wert null annimmt. Nachdem für eine gegebene Fragestellung ein entsprechendes Regressionsmodell spezifiziert wurde, besteht der nächste Schritt darin, dieses Modell anhand empirischer Daten zu schätzen. Wir haben eine entsprechende Analyse auf Basis des ALLBUS 2006 durchgeführt. Als abhängige Variable verwenden wir das persönliche monatliche Nettoeinkommen in Euro, als unabhängige Variable die Berufserfahrung in Jahren.1 Schätzt man mit Hilfe dieser Merkmale das in Gleichung (1) wiedergegebene Modell, erhält man für die Gruppe der abhängig Beschäftigten in Vollzeit folgendes Resultat: # Nettoeinkommen = 1371 + 18,4 · Berufserfahrung . Der Achsenabschnitt (β0 ) beträgt also 1371 €, der Steigungskoeffizient (β1 ) für die Berufserfahrung 18,4 €. Demnach verdienen Berufsanfänger, d. h. Beschäftigte ohne Berufserfahrung, durchschnittlich 1371 €. Obwohl sich unsere Vermutung, dass das Einkommen mit zunehmender Berufserfahrung ansteigt, bestätigt (der Steigungskoeffizient ist positiv), erscheint die mit jedem Berufsjahr durchschnittlich erfolgende Steigerung um 18,4 € gemessen am durchschnittlichen „Anfangsgehalt“, als gering. Im Vergleich zu einem Berufsanfänger verdient ein Beschäftigter mit 45 Berufsjahren im Durchschnitt „nur“ 828 € mehr. Eine konkretere Vorstellung über die Art des untersuchten Zusammenhangs vermittelt Abbildung 1. Die Abweichungen zwischen den beobachteten Werten (die Punkte im Streudiagramm) und den vorhergesagten Werten auf der Regressionsgeraden sind relativ groß. Das Ausmaß dieser Abweichungen lässt sich numerisch mit dem Koeffizienten R2 bestimmen. Diese Maßzahl gibt an, welcher Anteil der beobachteten Varianz – also der Einkommensunterschiede – durch das Regressionsmodell reproduziert werden kann (eine genauere Erläuterung dieser Maßzahl findet sich im nächsten Abschnitt). In unserem Anwendungsbeispiel kann die Berufserfahrung lediglich 5,8 Prozent der Varianz in den Einkommen abhängig Beschäftigter statistisch erklären (R2 = 0,058). Der Zusammenhang zwischen Berufserfahrung und Einkommen ist demnach nur verhältnismäßig schwach ausgeprägt. Oder anders ausgedrückt: für andere Faktoren, die bisher nicht berücksichtigt wurden – die Ausbildung, das Geschlecht, die berufliche 1
Genauere Angaben zur Operationalisierung geben wir im Abschnitt 3 dieses Beitrags.
610
Christof Wolf und Henning Best
)*
)
ݕො ൌ ͳ͵ͳ ͳͺǡͶ ݔ
ܴ; ൌ ͲǡͲͷͺ
Abb. 1: Streudiagramm mit Regressionsgerade Position usw. –, bleiben 94 % der Varianz zu erklären. Allerdings ist die Bewertung der Modellgüte, wie alle Bewertungen, normativ und nur im Hinblick auf einen Bezugspunkt sinnvoll möglich. Ein solcher Bezugspunkt könnte beispielsweise ein anderes Modell für dieselbe abhängige Variable oder das Ergebnis für dasselbe Modell aus früheren Erhebungen sein. Die Verwendung solch empirischer Bezugspunkte erscheint uns angemessener als vorgegebene Daumenregeln, nach denen R2 -Werte bis zu einer gewissen Größe als schwach, dann als mittel und schließlich als stark gelten können. In jedem Fall kann die Bewertung der Modellgüte nur in Relation zur untersuchten Fragestellung beantwortet werden. Wie erläutert, gibt der Anteil erklärter Varianz Auskunft über die Güte des untersuchten Modells. Eine davon unabhängige Frage betrifft die Stärke des untersuchten Einflusses. Diese wird durch den Steigungskoeffizienten ausgedrückt. In unserem Beispiel beträgt die Steigung und damit die Effektstärke 18,4 € je Berufsjahr, d. h. 184 € in 10 Berufsjahren. Um zu beurteilen, ob es sich dabei um einen großen oder kleinen Effekt handelt, hilft noch einmal ein Blick auf Abbildung 1. Relativ zur Skala, auf der das Einkommen beobachtet wird, fällt die jährliche Steigerung von 18,4 € klein aus, die Steigung der Regressionsgeraden ist eher gering. Wie bei allen statistischen Verfahren kann die inhaltliche Interpretation der Regressionsanalyse jedoch nicht allein auf statistischen Kriterien beruhen. Diese muss vielmehr vor dem Hintergrund theoretischer Annahmen und dem Wissen um relevante Randbedingungen geschehen. Soweit haben wir als unabhängiges Merkmal eine metrische Variable verwendet. Die Regressionsanalyse bietet jedoch auch die Möglichkeit, kategoriale Prädiktoren zu analysieren. Um dies deutlich zu machen, wollen wir untersuchen, ob sich das Einkommen von Männern und Frauen unterscheidet. Auf Basis des ALLBUS 2006 ergibt sich für alle Vollzeit abhängig Beschäftigten ein durchschnittliches monatliches Nettoeinkommen von 1755 €. Allerdings unterscheidet sich das Einkommen von Män-
24 Lineare Regressionsanalyse 8000
Einkommen in Euro
Einkommen in Euro
8000
611
6000
4000
2000
6000
4000
2000
0
0 Frauen
Männer
(a) Mittelwerte
Frauen
Männer
(b) Regressionsgerade
Abb. 2: Einkommensverteilung nach Geschlecht nern und Frauen stark: Frauen kommen monatlich auf 1445 €, während Männer 1913 € verdienen, also 468 € mehr. Grafisch ist die Verteilung der Einkommen für Männer und Frauen in Abbildung 2 a dargestellt.2 Hier zeigt sich deutlich, dass Einkommen oberhalb 2000 € bei Frauen viel seltener sind als bei Männern. Wie können nun qualitative Merkmale, wie das Geschlecht, in die Regressionsanalyse aufgenommen werden? Dies geschieht unter Verwendung so genannter DummyVariablen, also Stellvertreter. Im Fall eines binären qualitativen Merkmals, wie dem Geschlecht, verkodet man in der Dummy-Variablen eine der beiden Kategorien mit null, die andere mit eins. Die mit null kodierte Kategorie wird auch als Referenzkategorie bezeichnet. Für die Regressionsgleichung ergibt sich yˆ = β0 + β1 DG ,
(3)
wobei DG die Dummy-Variable für Geschlecht ist und hier für Frauen mit null und für Männer mit eins kodiert wurde. Um zu verstehen, was diese Gleichung bedeutet, ist es hilfreich, sie in zwei separate Gleichungen zu schreiben, je eine für die beiden Zustände der Dummy-Variable. Für Frauen (DG = 0) reduziert sich die Regressionsgleichung zu yˆF = β0 , während für Männer (DG = 1) yˆM = β0 + β1 gilt. Der Achsenabschnitt β0 entspricht dem erwarteten durchschnittlichen Einkommen der Frauen und der Koeffizient β1 entspricht der Differenz zwischen dem Erwartungswert des Einkommens für Männer und Frauen. Die Vorhersagewerte yˆ für jede 2
Die horizontale Streuung der Punkte innerhalb der beiden Gruppen hat inhaltlich keine Bedeutung und dient lediglich dazu, die Form der Verteilung besser deutlich machen zu können.
612
Christof Wolf und Henning Best
Kategorie der Dummy-Variablen ergeben sich in der bivariaten Regression aus dem Mittelwert der jeweiligen Kategorie. Dies wird auch in Abbildung 2 b deutlich: Die Regressionsgerade verbindet die Mittelwerte der beiden untersuchten Gruppen. Bisher haben wir nur Regressionsanalysen mit jeweils einer unabhängigen Variablen betrachtet. Man spricht in diesem Zusammenhang auch von bivariater Regressionsanalyse. Der große Nutzen aller Regressionsverfahren besteht nun aber darin, dass mehr als eine unabhängige Variable gleichzeitig in ein entsprechendes Modell aufgenommen werden kann. Die Effekte aller unabhängigen Variablen werden dann gleichzeitig geschätzt, jeweils unter Kontrolle aller anderen unabhängigen Variablen. Im Gegensatz zu bivariater spricht man dann von multipler Regressionsanalyse. Der nächste Schritt der Analyse könnte z. B. darin bestehen, die beiden oben diskutierten bivariaten Modelle zu einem Modell der multiplen Regression zusammenzufassen. Dieses Modell enthielte die beiden unabhängigen Variablen Berufserfahrung und Geschlecht. Formal ändert sich an der Regressionsgleichung nur, dass eine weitere Variable rechts vom Gleichheitszeichen steht, also: Einkommen = β0 + β1 Berufserfahrung + β2 Geschlecht + Fehlerterm bzw. y = β0 + β1 x1 + β2 DG + ε .
(4)
Dieses Modell ermittelt den Einfluss der Berufserfahrung unter Berücksichtigung des Geschlechts. Einen solchen „korrigierten“ Effekt bezeichnet man auch als partiellen Effekt. Gleichzeitig schätzt das Modell, wie der geschlechtsspezifische Einkommensunterschied wäre, wenn Männer und Frauen dieselbe Berufserfahrung hätten. In diesem multiplen Regressionsmodell entspricht der Achsenabschnitt dem bedingten Erwartungswert der Referenzkategorie – hier also dem zu erwartenden Durchschnittseinkommen von Frauen, wenn diese dieselbe Berufserfahrung hätten wie Männer – und der Koeffizient der mit eins kodierten Kategorie(n) entspricht der Differenz der bedingten Erwartungswerte zwischen dieser Kategorie und der Referenzkategorie – in unserem Beispiel also der erwarteten Einkommensdifferenz zwischen Männern und Frauen bei gleicher Berufserfahrung. Auf der Basis dieses Modells könnte zum Beispiel ermittelt werden, ob Männer nur deshalb so viel mehr verdienen als Frauen, weil sie über mehr Berufserfahrung verfügen (siehe dazu Abschnitt 3). Bevor wir mit diesem Beispiel weiter fortfahren, soll im nächsten Abschnitt zunächst systematisch in die mathematisch-statistischen Grundlagen der multiplen Regressionsanalyse eingeführt werden.
2 Mathematisch-statistische Grundlagen 2.1 Das allgemeine Modell Wie bereits zu Anfang dieses Aufsatzes erwähnt, ist die Regressionsanalyse ein statistisches Verfahren, mit welchem der Einfluss eines oder mehrerer Merkmale auf ein anderes Merkmal untersucht werden kann. Mathematisch lässt sich dies als
24 Lineare Regressionsanalyse
y = f (x1 ,x2 , . . . , xk ) + ε
613
(5)
formulieren. Die Formel macht deutlich, dass wir nicht von einer deterministischen Beziehung zwischen xj und y ausgehen. Stattdessen wird eine statistische Beziehung unterstellt, bei der die unabhängigen Variablen die abhängige Variable nur mehr oder weniger gut „voraussagen“ oder „erklären“ können und in jedem Fall ein „Rest“ bleibt, der hier mit dem Symbol ε bezeichnet wird. Diese Größe wird auch Fehlerterm, Residuum oder Störgröße genannt. Die unterschiedlichen Ansätze der Regressionsanalyse, wie sie auch im vorliegenden Band dargestellt werden (siehe die folgenden Kapitel in diesem Handbuch), unterscheiden sich danach, welches Skalenniveau die abhängige Variable y hat. Je nachdem, welches Skalenniveau für die abhängige Variable angenommen wird, wird sich die Wahl der Funktion f (·), also der unterstellte funktionale Zusammenhang zwischen unabhängigen und abhängigen Variablen unterscheiden. In diesem Kapitel stellen wir die lineare Regressionsanalyse vor. Dies bedeutet, dass die Funktion, die die abhängige Variable mit den unabhängigen Variablen verknüpft, linear, genauer: in den Parametern linear sein muss. Die entsprechende Gleichung lautet folglich yi = β0 + β1 xi1 + β2 xi2 + · · · + βk xik + ε =
k
βj xij + ε
j=0
mit x·0 = 1 oder in Matrixnotation y = Xβ + ε bzw.
⎡
⎤ ⎡ y1 1 ⎢ y2 ⎥ ⎢1 ⎢ ⎥ ⎢ ⎢ .. ⎥ = ⎢ .. ⎣ . ⎦ ⎣. yn
x11 x21 .. .
··· ··· .. .
(6)
⎤⎡ ⎤ ⎡ ⎤ x1k β0 ε1 ⎢β1 ⎥ ⎢ ε2 ⎥ x2k ⎥ ⎥⎢ ⎥ ⎢ ⎥ .. ⎥ ⎢ .. ⎥ + ⎢ .. ⎥ . . ⎦⎣ . ⎦ ⎣ . ⎦
1 xn1 · · · xnk
βk
εn
Wie Gleichung (6) zeigt, ist y über eine lineare Funktion mit den xj verbunden. Die Koeffizienten βj werden als Regressionskoeffizienten bezeichnet; β0 auch als Achsenabschnitt (englisch: intercept) und die übrigen βj als Steigung (englisch: slope). Bei Xβ ˆ. handelt es sich um die auf Basis des Modells vorhergesagten y-Werte y 2.2 Die Identifikation der Regressionskoeffizienten Das zentrale Problem jeder Regressionsanalyse besteht darin, Schätzer für die Regressionskoeffizienten βj , die Parameter des Regressionsmodells, so zu bestimmen, dass die vom Modell geschätzten Werte yˆ den beobachteten Werten y möglichst gut entsprechen. Zur Lösung dieser Aufgabe existieren verschiedene Verfahren. Im Folgenden stellen wir die Methoden der kleinsten Quadrate vor, bei der es sich um das Standardverfahren für die lineare Regression handelt. Alternativ könnte auch das in Kapitel 10 dieses Handbuchs beschriebene Schätzverfahren der Maximum-Likelihood-Methode
614
Christof Wolf und Henning Best
verwendet werden. Betrachten wir noch einmal Gleichung (6), die Basisgleichung der multiplen linearen Regression, y = Xβ + ε . Wie bereits erwähnt, sollen die βj so bestimmt werden, dass die vom Modell geschätzten yˆ-Werte möglichst gut mit den beobachteten Werten y übereinstimmen. Anders ausgedrückt, die Differenzen zwischen beobachteten und vorhergesagten Werten y − yˆ = ε, die Residuen, sollen möglichst klein sein. Daher scheint es zunächst naheliegend, die Regressionskoeffizienten so zu bestimmen, dass die, über alle Beobachtungseinheiten aufsummierten Residuen, also ε, minimiert werden. Dieser Ansatz führt jedoch nicht zum gewünschten Ergebnis, da beliebig viele Mengen βj existieren, bei denen die Summe der Residuen gleich null ist. Dies ist für alle diejenigen Mengen βj der Fall, bei denen die vorhergesagten Werte durch den Schwerpunkt der beobachteten Verteilung, also durch den Punkt (¯ y ,¯ x1 ,¯ x2 , . . . , x ¯k ) gehen. Auf der Suche nach alternativen Verfahren entdeckten Carl F. Gauß (1795) und Adrien-Marie Legendre (1806) unabhängig voneinander, dass nicht die Summe der Residuen, sondern die Summe der quadrierten Residuen minimiert werden muss. Dieses Verfahren trägt daher den Namen Methode der kleinsten Quadrate (english: method of least squares, im Zusammenhang mit der linearen Regression meist auch ordinary least squares bzw. OLS genannt). Formal lautet die Minimierungsbedingung min
n
ε2i = min
n
i=1
i=1
(yi − yˆi )2 = min
n
(yi − (β0 + β1 xi1 + · · · + βk xik ))2 ,
(7)
i=1
und die Schätzer für die Regressionskoeffizienten βj lassen sich durch partielle Ableitung von Gleichung (7) nach βj bestimmen. Dies resultiert in einem Gleichungssystem bei dem die Nullstelle das Minimum anzeigt.3 Exemplarisch sei die Vorgehensweise zunächst für die partielle Ableitung nach β1 etwas ausführlicher dargestellt. Bei der Ableitung von Gleichung (7) nach β1 muss die Kettenregel – innere Ableitungmal äußere Ableitung – angewandt werden. Die äußere Ableitung von (·)2 ist 2 (·). Die innere Ableitung von (y − xβ) nach β1 beträgt −xi1 . Multipliziert man nun innere und äußere Ableitung und setzt das Ergebnis gleich null, ergibt sich 2
n
−xi1 (yi − β0 − β1 xi1 − β2 xi2 − · · · − βk xik ) = 0
i=1
bzw. −2
n
xi1 (yi − β0 − β1 xi1 − β2 xi2 − · · · − βk xik ) = 0 .
(8)
i=1
Dieser Ausdruck lässt sich schließlich noch vereinfachen, indem beide Seiten der Gleichung durch −2 geteilt werden. Es ergibt sich somit 3
Im Allgemeinen kann es sich bei den Nullstellen von Ableitungen um beide Formen von Extremwerten handeln, ein Minimum oder Maximum. Gleichung (7) beschreibt eine nach oben geöffnete Parabel, die nur über einen Extremwert, ein Minimum, verfügt.
24 Lineare Regressionsanalyse n
xi1 (yi − β0 − β1 xi1 − β2 xi2 − · · · − βk xik ) = 0 .
615
(9)
i=1
Bildet man die partiellen Ableitungen nach allen zu bestimmenden Parametern βj und setzt diese gleich null, so ergibt sich das folgende Gleichungssystem (vgl. Wooldridge 2009, S. 800 f.): n
(yi − β0 − β1 xi1 − β2 xi2 − · · · − βk xik ) = 0
i=1 n
xi1 (yi − β0 − β1 xi1 − β2 xi2 − · · · − βk xik ) = 0 (10)
i=1
.. . n
xik (yi − β0 − β1 xi1 − β2 xi2 − · · · − βk xik ) = 0 .
i=1
Die erste Gleichung ergibt sich aus der partiellen ersten Ableitung nach β0 , die zweite aus der partiellen Ableitung nach β1 usw. In Matrixnotation lässt sich dieses Gleichungssystem auch als X (y − Xβ) = 0 (11) schreiben. Ausmultiplizieren und Umstellen ergibt (X X)β = X y .
(12)
Unter der Annahme, dass (X X) vollen Rang hat, können wir beide Seiten von links mit der Inversen dieser Matrix, nämlich mit (X X)−1 , multiplizieren und erhalten β = (X X)−1 X y .
(13)
Diese Formel liefert die Schätzer für die Regressionskoeffizienten nach der Methode der kleinsten Quadrate. Der Vektor β = (X X)−1 X y löst also das Ausgangsproblem und minimiert die Summe der quadrierten Residuen (y − yˆ)2 = ε2 . 2.3 Annahmen der Kleinst-Quadrat-Methode Die im letzten Abschnitt beschriebene Methode der kleinsten Quadrate ist an das Vorliegen bestimmter Voraussetzungen geknüpft (vgl. z. B. Berry 1993; Wooldridge 2009). Sind diese verletzt, sind die gewonnen Schätzer nicht mehr optimal. Zu den wichtigsten Voraussetzungen gehört: –
Die Variablen müssen metrisches Skalenniveau aufweisen, die unabhängigen Variablen dürfen auch als Dummy-Variablen kodierte kategoriale Merkmale enthalten.
616
–
– –
– – –
Christof Wolf und Henning Best
Die Daten müssen aus einer Zufallsstichprobe der interessierenden Population stammen. Dies gilt zumindest dann, wenn inferenzstatistische Schlüsse gezogen werden sollen (vgl. dazu Abschnitt 2.5). Soll lediglich das vorhandene Datenmaterial anhand eines Regressionsmodells beschrieben werden, ist diese Voraussetzung irrelevant. Die unabhängigen Variablen müssen ohne Messfehler gemessen sein. Ferner muss gelten, dass keine der unabhängigen Variablen sich als Linearkombination aus anderen unabhängigen Variablen bilden lässt und es sich bei keiner der unabhängigen Variaben um eine Kostante handelt. D. h. die Matrix X muss vollen Rang haben; es darf keine perfekte Multikollinearität vorliegen. Die Residuen müssen normalverteilt sein. Die Varianz der Residuen muss für jeden Wert der unabhängigen Variablen identisch sein; d. h. Var(ε|x) = const; es muss also Homoskedastizität bestehen. Der Erwartungswert der Residuen muss für jede Kombination der unabhängigen Variablen null sein; d. h. E(ε|x) = 0. Dies ist gleichbedeutend mit der Annahme, dass keine der unabhängigen Variablen mit dem Fehlerterm korreliert ist. In der ökonometrischen Literatur wird auch von strikter Exogenität gesprochen. Diese Voraussetzung bedingt auch, dass das Modell richtig spezifiziert sein muss. Es muss also einerseits alle bedeutsamen unabhängigen Variablen enthalten und darf keine für die Erklärung der abhängigen Variablen irrelevanten unabhängigen Variablen enthalten. Andererseits muss das Modell die richtige Parametrisierung aufweisen; die Prädiktoren müssen also in der gewählten Operationalisierung in einer linearen Beziehung zur untersuchten Variablen stehen.
Gelten diese Bedingungen, sind die nach der Methode der kleinsten Quadrate geschätzten Regressionskoeffizienten unverzerrt und weisen den kleinstmöglichen Standardfehler auf; sie sind also BLUE: best linear unbiased estimators. Im konkreten Fall einer empirischen Analyse werden die genannten Annahmen meist nur mehr oder weniger gut erfüllt sein. Dies hat zur Folge, dass die Schätzer für die Regressionskoeffizienten und/oder ihre Standardfehler vom Ideal eines effizienten und unverzerrten Schätzers abweichen. Um die Qualität von Regressionsanalysen einschätzen zu können, ist es wichtig zu wissen, welche Folgen die Verletzung der Annahmen hat. Multikollinearität, Heteroskadastizität und nicht normalverteilte Residuen haben zur Folge, dass die Schätzer für die Standardfehler verzerrt sind. Verzerrte Standardfehler führen ihrerseits zu fehlerhaften Signifikanztests und fehlerhaften Konfidenzintervallen. Die Schätzer für die Regressionskoeffizienten dagegen bleiben von diesen Verletzungen der Annahmen unberührt, d. h. sie sind weiterhin unverzerrt. Einen deutlich größeren Einfluss auf die Ergebnisse hat jedoch die Verletzung der verbleibenden Annahmen. Eine falsche Spezifikation des Modells führt zu verzerrten Schätzern für die Regressionskoeffizienten und die Standardfehler. Um verständlich zu machen, warum das so ist, betrachten wir folgenden Fall. Das wahre Modell sei y = β0 + β1 x1 + β2 x2 + · · · + βk xk + βm xm + ε . Nehmen wir jetzt an, ein Forscher wüßte nicht, dass xm ein relevanter Einflussfaktor ist und spezifiziert daher das Modell
24 Lineare Regressionsanalyse
617
y = β0 + β1 x1 + β2 x2 + · · · + βk xk + ε∗ , in dem xm fehlt. Die Residuen des analysierten Modells entsprechen dann dem Fehlerterm des wahren Modells zuzüglich der, mit dem Regressionskoeffizienten gewichteten, nicht inkludierten Variablen xm ; also: ε∗ = βm xm + ε. Ist xm mit mindestens einer der anderen unabhängigen Variablen x1 bis xk korreliert – und das wird nahezu immer der Fall sein – sind die Residuen im analysierten Modell mit den unabhängigen Variablen korreliert. Warum dies so ist, wird aus Gleichung (13) deutlich. Die Korrelation zwischen den unabhängigen Variablen hat einen Einfluss auf die Berechnung der Regressionskoeffizienten. Entsprechend führt eine Berechnung dieser Koeffizienten unter Ausschluss von Merkmalen, die sowohl mit der abhängigen Variablen als auch mit den unabhängigen Variablen korreliert sind, zu verzerrten Schätzungen – dem sog. omitted variable bias. Die einzige Möglichkeit, der Gefahr fehlspezifizierter Modelle zu begegnen, besteht in einer sorgfältigen theoretischen Fundierung der Modelle und einer adäquaten Operationalisierung der theoretischen Begriffe (vgl. für ein entsprechendes Beispiel etwa Best 2009). Ein weiteres, weitverbreitetes Problem sind Messfehler in den unabhängigen Variablen. Einerlei, ob es sich um zufällige oder systematische Messfehler handelt, führen nicht vollständig reliabel gemessene Variablen zu verzerrten Schätzungen der Regressionskoeffizienten und ihrer Standardfehler (Cohen et al. 2003, S. 119).4 Hier hilft nur, die Messungen durch bessere Erhebungsinstrumente und die Verwendung geeigneter Skalierungsverfahren zu verbessern. Liegen für die interessierenden Merkmale jeweils mehrere Indikatoren vor, bietet sich der Einsatz von Strukturgleichungsmodellen an, die entsprechende Messfehler in der Modellierung explizit berücksichtigen (vgl. Kapitel 29 in diesem Handbuch). Damit soll dieser kurze Abschnitt zu den Anwendungsvoraussetzungen der linearen Regression beendet werden. Eine ausführlichere Diskussion dieser Annahmen sowie der Verfahren zu ihrer Überprüfung bietet Kapitel 25 in diesem Handbuch. 2.4 Die Bestimmung der Modellgüte Nach der Methode der kleinsten Quadrate lassen sich für jede beliebige Kombination aus abhängiger und unabhängigen Variablen Schätzer für βj gewinnen, die für die jeweils betrachtete Menge von Variablen die kleinste Summe der quadrierten Fehler liefert, also die bestmögliche Anpassung von beobachteten und erwarteten Werten gewährleistet. „Bestmögliche“ Anpassung bedeutet jedoch nicht, dass jedes Regressionsmodell denselben Grad an Anpassung an die Daten aufweist. In manchen Fällen wird die Anpassung höher sein, in anderen geringer. Für jedes Regressionsmodell, das bestimmt wurde, stellt sich daher die Frage, wie gut seine Anpassung an die Daten ist. Die Antwort auf diese Frage wird davon abhängen, wie groß die Diskrepanz zwischen unter dem Modell erwarteten Werten (ˆ y ) und den beobachteten Werten (y) ist. Das Modell ist umso besser, je besser es die beobachteten Unterschiede der 4
Man könnte annehmen, dass zufällige Messfehler der unabhängigen Variablen zu einer Unterschätzung der Regressionskoeffizienten führen. Dies ist jedoch leider nicht immer der Fall (Cohen et al. 2003).
618
Christof Wolf und Henning Best
Untersuchungseinheiten in Bezug auf y reproduzieren kann. Zur Operationalisierung dieser Vorstellung greift man auf die Varianz der abhängigen Variablen zurück: je höher der Anteil dieser Varianz ist, den das Modell „erklären“ kann, desto besser ist es. Diese Vorstellung wird in der Maßzahl (ˆ y − y¯)2 SSR Erklärte Streuung 2 = = (14) R = Gesamte Streuung SST (y − y¯)2 zum Ausdruck gebracht.5 Hierbei steht SSR für die durch die Regression erklärte Streuung (sum of squares due to regression) und SST für die Gesamtstreuung der Variablen (sum of squares total). Die Maßzahl R2 kann zwischen 0 und 1 variieren und wird als Anteil erklärter Varianz, teils auch als Determinationskoeffizient oder Bestimmtheitsmaß bezeichnet. Je höher ihr Wert, desto größer der Anteil, der durch das Regressionsmodell erklärten Varianz, d. h. desto besser die Anpassung des Modells an die Daten. Die Verwendung von R2 ist nicht ganz unumstritten (vgl. zusammenfassend Urban & Mayerl 2006, S. 59 ff. und 109 ff.). Ein Problem besteht darin, dass diese Maßzahl mit jeder zusätzlich in das Modell aufgenommenen Variablen steigt, auch wenn die zusätzliche Variable nicht wesentlich zur Verbesserung des Modells beiträgt. Aus diesem Grunde können Modelle mit unterschiedlich vielen unabhängigen Variablen auch nicht zuverlässig über R2 miteinander verglichen werden. Ein weiteres Problem von R2 ist, dass sein Erwartungswert auch, wenn kein Zusammenhang zwischen xj und y besteht, nicht null ist. Eine Lösung dieser beiden Probleme stellt die Verwendung des sog. korrigierten R2 (englisch: adjusted R2 ) dar. Diese Maßzahl ist als 2 Rkorr =1−
n−1 (1 − R2 ) n−k−1
(15)
definiert. Während R2 bei der Hinzunahme weiterer Variablen nur steigen kann, kann 2 Rkorr auch kleiner werden, wenn die zusätzliche Variable das Modell nicht verbessert. 2 Somit bestraft Rkorr die Hinzunahme „irrelevanter“ Variablen. Sind die abhängige und 2 die unabhängigen Variablen insgesamt nicht miteinander korreliert, kann Rkorr sogar negativ werden. 2 Ein weiteres Problem von R2 , das auch für Rkorr gilt, besteht darin, dass es nicht nur von der erklärten Varianz der abhängigen Variablen abhängt, sondern auch von der Varianz der Prädiktoren. Damit ist ein Vergleich von Regressionsmodellen aus verschiedenen Populationen, in denen sich diese Faktoren in verschiedenem Ausmaß unterscheiden, problematisch. Daher sollten entsprechende Vergleiche mit Vorsicht erfolgen und auch die Unterschiede in den Varianzen und Regressionskoeffizienten berücksichtigen. Unseres Erachtens bleiben diese Maßzahlen trotz der genannten Schwierigkeiten nützliche Werkzeuge zur Beschreibung eines Regressionsmodells. Ins2 besondere Rkorr kann unseres Erachtens bei der Entscheidung zwischen verschiedenen Modellen für dieselbe abhängige Variable nützlich sein. Ungeachtet der genannten Schwierigkeiten muss bei der Interpretation von R2 bzw. 2 Rkorr zudem berücksichtigt werden, dass die lineare Regression nur lineare Zusammenhänge abbilden kann und diese Maßzahlen folglich nur die Stärke des linearen 5
In der bivariaten Regression entspricht R2 der quadrierten Korrelation zwischen x und y.
24 Lineare Regressionsanalyse
619
Zusammenhangs zwischen y und den xj widerspiegeln. Ist der lineare Zusammenhang klein oder gar gleich null, kann dennoch ein anderer, nichtlinearer Zusammenhang zwischen den analysierten Merkmalen bestehen. Dies lässt sich z. B. mit grafischen Verfahren klären (vgl. Kapitel 34 in diesem Handbuch). Liegt ein nichtlinearer Zusammenhang vor, kann dieser unter Umständen dennoch im Rahmen der linearen Regression modelliert werden, indem eine alternative Parametrisierung für die beteiligten Variablen gewählt wird (siehe Kapitel 26 in diesem Handbuch). 2.5 Die statistische Absicherung der Regressionsergebnisse In der Regel werden die Koeffizienten einer Regressionsanalyse auf der Basis von Stichprobendaten geschätzt. In dieser Situation stellt sich die Frage, ob die entsprechenden Ergebnisse auch für die Grundgesamtheit gelten, aus der die Stichprobe stammt. Handelt es sich bei der Stichprobe um eine Zufallsstichprobe, kann diese Frage mithilfe der Inferenzstatistik beantwortet werden. Die im Folgenden vorgestellten Verfahren gehen von der vereinfachenden Annahme aus, dass die Daten aus einer einfachen Zufallsstichprobe stammen. Entsprechende Aussagen lassen sich im Prinzip mit denselben Verfahren auch für Daten aus mehrstufigen und/oder geschichteten Zufallsstichproben gewinnen, allerdings sind die entsprechenden Formeln komplizierter. Daher sei für diesen Fall auf die einschlägige Literatur verwiesen (z. B. Bacher 2009; Lee & Forthofer 2006). Werden die Regressionskoeffizienten auf der Basis von Stichprobendaten geschätzt, wird dies meist durch das Hinzufügen eines Zirkumflex gekennzeichnet. Das Grundmodell der Regressionsgleichung wird dann zu yi = βˆ0 + βˆ1 xi1 + βˆ2 xi2 + · · · + βˆk xik + εi =
k
βˆj xij + εi
j=0
oder in Matrixnotation ˆ+ ε. y = Xβ
(6’)
Entsprechend wird aus Gleichung (13) zur Bestimmung der Regressionskoeffizienten ˆ = (X X)−1 X y . β
(13’)
Liegen die Schätzungen βˆj vor, stellt sich die Frage, ob die Ergebnisse der Regressionsanalyse mit hinreichender Sicherheit Aussagen über die Grundgesamtheit erlauben. Es muss also untersucht werden, ob die Effekte der unabhängigen Variablen auf das abhängige Merkmal statistisch signifikant sind. Dazu dient der folgende statistische Test, mit dem geprüft werden kann, ob ein Regressionskoeffizient statistisch signifikant von einem gegebenen Wert a abweicht. Die entsprechenden zweiseitigen statistischen Hypothesen6 zu diesem Test lauten 6
Eine ausführliche Einführung in die Logik des statistischen Testens bietet Kapitel 8 in diesem Handbuch.
620
Christof Wolf und Henning Best
H0 : βj = a H1 : βj =
a und können anhand der statistischen Prüfgröße tβˆj =
βˆj − a sβˆj
(16)
getestet werden.7 Unter den üblichen OLS-Annahmen folgt diese Prüfgröße einer tVerteilung mit n−k −1 Freiheitsgraden. Bei einer hinreichend großen Stichprobengröße sind die βˆj normalverteilt und die präsentierte Prüfgröße geht in eine Standardnormalverteilung über. Auf Basis dieser Prüfgröße lassen sich nun beliebige statistische Hypothesen über die Differenz von βˆj und dem interessierenden Wert a prüfen. In der gängigen Standardsoftware wird typischerweise der zweiseitige Test für a = 0 ausgegeben. Das entsprechende Hypothesenpaar lautet dann entsprechend H0 : βj = 0
0. H1 : βj = Die untersuchte Frage lautet also, ob der auf der Basis von Stichprobendaten geschätzte Wert βˆj mit einer gegebenen Sicherheit in der Grundgesamt von 0 verschieden ist. Es wird demnach gefragt, ob davon ausgegangen werden kann, dass das Merkmal xj auch in der Grundgesamtheit einen Einfluss auf das untersuchte abhängige Merkmal hat. Über das Ausmaß der Sicherheit, mit dem eine solche Aussage getroffen werden kann, entscheidet das Signifikanzniveau, welches typischerweise bei einer Irrtumswahrscheinlichkeit von 0,01 oder 0,05 festgelegt wird. Neben den Hypothesen zum Vergleich eines Regressionskoeffizienten mit einem Referenzwert lassen sich auch Hypothesen über die Gleichheit bzw. Ungleichheit zweier Regressionskoeffizienten desselben Modells prüfen. Nehmen wir an, in einem Modell würde der Einfluss der Lebensweise und der Einfluss der genetischen Disposition auf die Lebenserwartung untersucht. Eine naheliegende Frage ist dann, ob der Einfluss der genetischen Disposition (β1 ) auf die Lebenserwartung größer ist als der Einfluss der Lebensweise (β2 ). Die einseitigen Hypothesen lauten: H 0 : β 1 ≤ β2 H1 : β 1 > β 2 . Die entsprechende Testgröße ist wiederum t-verteilt und hat die Form 7
Der Standardfehler der βˆj ergibt sich aus
n
sβˆj =
i=1 n
(yi − yˆi )2 / (n − k − 1)
i=1
(xij − x ¯j )2 1 − Rj2
,
wobei Rj2 für den Anteil erklärter Varianz von xj steht, der durch die anderen unabhängigen Variablen aufgeklärt wird (vgl. Wooldridge 2009, S. 89).
24 Lineare Regressionsanalyse
t=
βˆ1 − βˆ2 s2βˆ + s2βˆ − 2sβˆ1 βˆ2 1
,
621
(17)
2
wobei sβˆ1 βˆ2 die Kovarianz zwischen den Schätzern für βˆ1 und βˆ2 bezeichnet. Schätzer für die Varianzen und Kovarianz der Regressionskoeffizienten werden von gängigen Statistikprogrammen bereitgestellt.8 Es können jedoch nicht nur einzelne Koeffizienten, sondern auch das gesamte Modell auf seine Erklärungskraft hin überprüft werden. Die entsprechenden statistischen Hypothesen lauten in diesem Fall H0 : β1 = β2 = · · · = βk = 0 H1 : βj =
0 für mindestens ein j .
(18)
Dieser Test erinnert an den globalen Test bei der Varianzanalyse (vgl. Kapitel 19 in diesem Handbuch) und wie dort ist die Prüfgröße auch hier F -verteilt, wobei sich F als SSR/k M SR (ˆ y − y¯)2 /k = = (19) F = (y − yˆ)2 /(n − k − 1) SSE/(n − k − 1) M SE ergibt.9 Im Zähler der Prüfgrüße steht die mittlere durch die Regression erklärte Streuung MSR (mean square regression). Im Nenner steht die mittlere nicht erklärte Streuung MSE (mean square error). Eine alternative Definition derselben Prüfgröße lautet R2 /(k − 1) F = . (1 − R2 )/(n − k − 1) Liegt der empirisch ermittelte Wert der Prüfgröße über einem zuvor festgelegten kritischen F -Wert mit df1 = k − 1 und df2 = n − k − 1, dann wird H0 verworfen. In manchen Fällen wird das Interesse weniger einem globalen Test für alle Koeffizienten eines Modells gelten als vielmehr dem Vergleich zweier verschiedener Modelle. Gehen wir von einem Regressionsmodell mit k unabhängigen Variablen xj aus. Eine Frage könnte sein, ob eine Untermenge von d, d < k, dieser Variablen einen Beitrag zur Erklärung der abhängigen Variablen leistet. Zur Vereinfachung der Notation soll angenommen werden, dass die d interessierenden Variablen in der Regressionsgleichung die ersten sind. Die beiden Modelle können dann wie folgt geschrieben werden: Modell 1: y = βˆ0 + βˆ1 x1 + βˆ2 x2 + · · · + βˆd xd + βˆd+1 xd+1 + · · · + βˆk xk + ε Modell 2: y = βˆ0 + βˆd+1 xd+1 + · · · + βˆk xk + ε . 8
9
Beispielsweise in SPSS, indem auf dem Unterkommando /STATISTICS der Regressionsprozedur das Schlüsselwort BCOV angegeben wird. Hier und im Folgenden steht SSR (sum of squares due to regression) für die durch die Regression erklärte Streuung (ˆ y − y¯)2 ; SSE (sum of squared errors) steht für die nicht 2 erklärte Streuung (y − yˆ) . M SR und M SE sind entsprechend die mittlere erklärte Streuung bzw. die mittlere nicht erklärte Streuung. Zu dieser Schreibweise vgl. auch den Exkurs zu mittleren Quadratsummen in Kapitel 19 in diesem Handbuch.
622
Christof Wolf und Henning Best
Modell 2 ist in Modell 1 geschachtelt (englisch: nested), weil das Modell an derselben Stichprobe untersucht wird und die in ihm enthaltenen Parameter βˆd+1 , . . . , βˆk eine Untermenge der in Modell 1 enthaltenen Parameter ist. Weil die Koeffizienten βˆ1 bis βˆd in Modell 2 auf null gesetzt sind, wird dieses Modell auch als restriktives, Modell 1 als nicht oder weniger restriktives Modell bezeichnet. Die Vermutung, dass die ersten d Koeffizienten ohne Bedeutung für y sind, lässt sich in die statistische Hypothesen H0 : β1 = β2 = · · · = βd = 0 H1 : βj =
0 für mindestens ein j ≤ d
(20)
übersetzen. Die Prüfgröße zur Beurteilung dieser Nullhypothese ist wiederum F -verteilt und lautet (y − yˆr )2 − (y − yˆnr )2 /d (SSEr − SSEnr )/d M SEr − M SEnr . F = = = 2 (y − yˆnr ) /(n − k − 1) SSEnr /(n − k − 1) M SEnr (21) Die Kenngrößen des restriktiven Modells, hier Modell 2, sind mit r bezeichnet, die des weniger restriktiven Modells mit nr. Die Beurteilung der Hypothesen erfolgt wieder, indem der empirisch ermittelte F -Wert mit einem dem gewählten Signifikanzniveau entsprechenden kritischen F -Wert mit df1 = d und df2 = n − k − 1 verglichen wird. Der in Gleichung (21) genannte Test ist besonders nützlich, wenn geprüft werden soll, ob eine kategoriale Variable – z. B. der Familienstand –, die durch mehrere Dummy-Variablen repräsentiert wird, einen statistisch signifikanten Einfluss auf die abhängige Variable hat. Der in Gleichung (16) aufgeführte t-Test hilft in diesem Fall nicht weiter, weil er nur die Überprüfung jeweils eines Regressionskoeffizienten erlaubt. Im Falle einer kategorialen Variablen mit m Kategorien liegen jedoch m − 1 Regressionskoeffizienten vor und damit muss der in Gleichung (21) wiedergegebene Test verwendet werden. Die entsprechenden Modelle lauten Modell 1: y = βˆ0 + βˆ1 x1 + · · · + βˆk xk + βˆD1 D1 + βˆD2 D2 + · · · + βˆDm−1 Dm−1 + ε Modell 2: y = βˆ0 + βˆ1 x1 + · · · + βˆk xk + ε . Wiederum ist Modell 2 in Modell 1 geschachtelt, Modell 2 ist damit restriktiver als Modell 1. Als statistische Hypothesen ergeben sich nun H0 : βD1 = βD2 = · · · = βDm−1 = 0 H1 : βDj = 0 für mindestens ein Dj . Nach Wahl des Signifikanzniveaus wird man nun die beiden Modelle schätzen, für beide die Summe der quartierten Fehler (SSE) ermitteln und damit die empirische Prüfgröße nach Gleichung (21) berechnen. Ein anderer Testfall liegt vor, wenn es um die Frage geht, ob ein gegebenes Regressionsmodell in zwei verschiedenen Populationen zu unterschiedlichen Ergebnissen führt. Nehmen wir an, es soll geprüft werden, ob eine bestimmte Einkommensgleichung gleichermaßen für Männer und Frauen, für Deutschland und England oder für Daten
24 Lineare Regressionsanalyse
623
aus einem Jahr t0 und einem Jahr t1 gilt. Wir haben es jeweils mit zwei Modellen folgender Form zu tun: Modell 1: y1 = βˆ10 + βˆ11 x1 + βˆ12 x2 + · · · + βˆ1k xk + ε Modell 2: y1 = βˆ20 + βˆ21 x1 + βˆ22 x2 + · · · + βˆ2k xk + ε . Jedes Modell enthält dieselben Variablen, die jedoch aus unterschiedlichen, voneinander unabhängigen Stichproben stammen. Der Effekt von x1 in der ersten Stichprobe wird entsprechend mit β11 bezeichnet, der Effekt derselben Variablen in der zweiten Gruppe mit β21 usw. Die interessierenden Hypothesen lauten entsprechend H0 : β1j = β2j für alle j = 1, . . . , k H1 : β1j = β2j für mindestens ein j . Da die Modelle in unterschiedlichen Stichproben geschätzt werden, sind sie nicht geschachtelt und daher kann der unter Gleichung (21) angegebene Test nicht verwendet werden. Für diesen Fall steht der sog. Chow-Test zur Verfügung. Bei diesem Test handelt es sich wiederum um eine F -verteilte Größe, die als F =
(SSEp − (SSE1 + SSE2 )) /(k + 1) (SSE1 + SSE2 )/ (n − 2(k + 1))
(22)
definiert ist. Bei SSE handelt es sich abermals um die Summe der quadrierten Fehler. Wie die Indizes anzeigen, müssen die SSE-Werte aus drei verschiedenen Regressionen verwendet werden: SSEp stammt aus einer gemeinsamen (gepoolten) Regression, SSE1 stammt aus einer Regression in der ersten Gruppe und SSE2 aus einer Regression in der zweiten Gruppe. Zur Feststellung statistischer Signifikanz wird das Resultat der Prüfgröße wiederum mit dem entsprechenden kritischen F -Wert mit df1 = k + 1 und df2 = n − 2(k + 1) verglichen. 2.6 Die Interpretation der Regressionskoeffizienten Ist das Regressionsmodell statistisch abgesichert, stellt sich immer noch die Frage nach der inhaltlichen Bedeutung und der substanziellen Signifikanz der Ergebnisse. Betrachten wir zunächst die unstandardisierten Regressionskoeffizienten βj , die auch als Effektgrößen oder Effektstärken bezeichnet werden (zum Problem standardisierter Koeffizienten vgl. den nächsten Abschnitt). Die häufig verwendete Interpretation der Regressionskoeffizienten, nach der eine Erhöhung von xj um eine Einheit zu einer Veränderung von y um βj Einheiten führt, ist streng genommen in den meisten Fällen falsch. Insbesondere wenn Daten aus einer Querschnittserhebung verwendet werden, ist eine derartige Interpretation, bei der es sich um eine Vorhersage handelt, nicht zulässig (für die Panelregression vgl. Kapitel 36 in diesem Handbuch). Richtig ist vielmehr, dass sich der Erwartungswert von y bei Analyseeinheiten, deren Wert für xj um eine Einheit größer ist als bei anderen Analyseeinheiten, um βj Einheiten unterscheidet. Nehmen wir an, wir hätten ein einfaches lineares Regressionsmodell, um zu untersuchen, welchen Einfluss die Körpergröße auf das Körpergewicht hat. Wenn wir
624
Christof Wolf und Henning Best
Körpergewicht in Kilogramm und Körpergröße in Zentimeter gemessen haben, bedeutet ein Steigungskoeffizient von 0,7, dass von zwei Personen, deren Körpergröße sich um einen Zentimeter unterscheidet, die größere im Durchschnitt 700 Gramm mehr wiegt. Bei dieser Aussage handelt es sich um eine Schätzung, genauer eine Punktschätzung auf Basis von Stichprobendaten, die mit Unsicherheit behaftet ist. Es ist daher ratsam, auch die Konfidenzintervalle der Regressionskoeffizienten zu analysieren (eine Einführung in Konfidenzintervalle liefert Kapitel 8 in diesem Handbuch). Nehmen wir an, das 95 %-Konfidenzintervall für den Effekt der Körpergröße auf das Gewicht hätte die Grenzen [0,55 ; 0,85]. Dann könnten wir mit einer Wahrscheinlichkeit von 95 % davon ausgehen, dass das Intervall von 550 bis 850 Gramm den wahren Gewichtsunterschied, der mit einem Größenunterschied von einem Zentimeter einhergeht, einschließt. Die Interpretation der Regressionskoeffizienten für mit den Werten 0 und 1 kodierte Dummy-Variablen folgt derselben Logik. Nehmen wir an, wir hätten im soeben genannten Modell für das Körpergewicht auch das Geschlecht aufgenommen und zwar mit der Kodierung 0 für weiblich und 1 für männlich. Ein Regressionskoeffizient von 6,0 würde bedeuten, dass Männer durchschnittlich sechs Kilogramm mehr wiegen als Frauen und zwar bei gleicher Größe. Gerade die letzte Aussage verweist auf eine große Stärke der Regressionsanalyse sowie multivariater Verfahren im Allgemeinen. In der Regressionsanalyse wird der Effekt einer Variablen unter Konstanthaltung aller anderen Variablen im Modell geschätzt. Da es in den Sozialwissenschaften häufig nicht möglich ist, Daten unter experimentellen Bedingungen zu generieren, die konstante Bedingungen garantieren würden, ist es umso wichtiger, dass das „Konstanthalten“ von „Störfaktoren“ ex post durch die Datenanalyse erfolgt. Dadurch erklärt sich die große Attraktivität und Bedeutung multivariater Verfahren im Allgemeinen und Verfahren der Regressionsanalyse im Besonderen (vgl. auch Kapitel 2 in diesem Handbuch). Die Interpretation der Regressionskoeffizienten wird oftmals durch eine veränderte Skalierung der unabhängigen Variablen erleichtert. Nehmen wir an, in einem Modell zur Erklärung der Lebenserwartung in Jahren finden wir einen Effekt des Einkommens in Euro von 0,0001. Die Lebenserwartung steigt also um 0,0001 Jahre je zusätzlich verdientem Euro. Wird das Einkommen dagegen in 10.000 € gemessen, verändert sich der Koeffizient zu 1; ein Wert, der besser interpretier- und besser kommunizierbar ist: die Lebenserwartung von Personen, deren Einkommen sich um 10.000 € unterscheidet, wird sich durchschnittlich um 1 Jahr unterscheiden. Bisher haben wir lediglich die Steigungskoeffizienten betrachtet und den Achsenabschnitt β0 vernachlässigt. Dieser gibt den Erwartungswert von y für den Fall an, dass alle xj null sind. In den meisten Analysen handelt es sich dabei um einen unter inhaltlichen Gesichtspunkten vollkommen uninteressanten, oftmals auch unsinnigen Wert. Nehmen wir noch einmal als Beispiel das Modell zur Erklärung des Körpergewichts in Kilogramm mit den Prädiktoren Körpergröße in Zentimetern und Geschlecht in der oben genannten Kodierung. Nehmen wir ferner an, die Daten stammen von Erwachsenen und der Wertebereich der Körpergröße betrage in der Stichprobe 150 bis 200 cm. Das Ergebnis der Analyse sei # Körpergewicht = −50 + 0,7 · Körpergröße + 6 · Mann .
24 Lineare Regressionsanalyse
625
Gemäß dieser Gleichung sollte eine Null Zentimeter große Frau −50 kg wiegen. Dieser Wert ist aus mehreren Gründen unsinnig. Erstens gibt es eine solche Frau nicht; zweitens, selbst wenn es eine solche Frau gäbe, in unseren Daten haben wir sie nicht beobachtet. Die kleinste in unseren Daten vorhandene Person ist 150 cm groß. Daher sollten auf Basis dieser Untersuchung keine Aussagen über Personen gemacht werden, die kleiner als 150 cm sind. Doch zurück zum Achsenabschnitt. Dieser kann sinnvoll interpretiert werden, wenn die Variablen vor der Analyse zentriert werden. Die Zentrierung erfolgt meist auf den Mittelwert. Es kann jedoch sinnvoll sein auf andere Werte, die die Interpretation des Achsenabschnitts verbessern, zu zentrieren. Nehmen wir an, von der Körpergröße würde die durchschnittliche Größe der Frauen – 166 cm – abgezogen. Mit der entsprechend reskalierten Variable ergäbe sich dann # Körpergewicht = 66 + 0,7 · KörpergrößeC + 6 · Mann als Regressionsgleichung. Jetzt wäre der Achsenabschnitt zu interpretieren als Erwartungswert des Gewichts von Frauen durchschnittlicher Körpergröße; eine durchaus interessante Information, die sinnvoll interpretiert werden kann. 2.7 Standardisierte Regressionskoeffizienten und ihre Probleme Die bisher zur Interpretation herangezogenen Koeffizienten geben Auskunft über die absolute Größe von Effekten. Ein typisches Problem sozialwissenschaftlicher Anwendungen der linearen Regression besteht jedoch darin, dass die Einheiten der verwendeten Merkmale oft beliebig und zudem von Merkmal zu Merkmal verschieden sind. Um dennoch etwas über die relative Bedeutung der verschiedenen Merkmale sagen zu können, werden diese oft „standardisiert“, also auf eine „gemeinsame“ Skala gebracht. Dies geschieht typischerweise, indem der Steigungskoeffizient mit der Standardabweichung der unabhängigen Variablen multipliziert und durch die Standardabweichung der abhängigen Variablen dividiert wird: σx Bj∗ = βj j . (23) σy Die standardisierten Koeffizienten geben an, um welchen Teil einer Standardabweichung sich der Erwartungswert von y unterscheidet, wenn zwei Einheiten verglichen werden, die auf der unabhängigen Variablen eine Standardabweichung auseinander liegen. Die Standardisierung erfolgt somit, indem die untersuchten Merkmale jeweils auf ihre Standardabweichung als neue, gemeinsame Einheit bezogen werden. In den Sozialwissenschaften ist es gängige Praxis, die standardisierten Koeffizienten, häufig ausschließlich diese, zu berichten und zu interpretieren. Dabei wird davon ausgegangen, dass der relative Einfluss eines Prädiktors auf die untersuchte abhängige Variable um so größer ist, je höher der Betrag ihres standardisierten Regressionskoeffizienten ist. Die Verwendung standardisierter Regressionskoeffizienten wurde aus verschiedenen Gründen kritisiert (vgl. Bring 1994; Urban & Mayerl 2006, S. 103 ff.). So wurde darauf hingewiesen, dass in die Bj∗ zwei Konzepte eingehen: die Effektstärke und die Streuung der Variablen. Diese Sachverhalte sollten jedoch besser getrennt untersucht und interpretiert werden. Eine weitere Kritik lautet, dass die standardisierten Koeffizienten von
626
Christof Wolf und Henning Best
den Eigenschaften der jeweiligen Stichprobe abhängen, also von den jeweils beobachteten Standardabweichungen der unabhängigen und abhängigen Variablen sowie der Beziehung zwischen unabhängiger und abhängiger Variable. Häufig wird sich jedoch die Standardabweichung eines Merkmals zwischen zwei Stichproben unterscheiden. So könnte beispielsweise die Streuung der Einkommen von männlichen und weiblichen Beschäftigten verschieden sein. Entsprechend können die standardisierten Koeffizienten eines in zwei verschiedenen Populationen geschätzten Modells nicht ohne weiteres miteinander verglichen werden. Doch auch der Vergleich der standardisierten Koeffizienten innerhalb eines Modells kann problematisch sein. Dies soll anhand des nachfolgenden Beispiels verdeutlicht werden (vgl. Bring 1994, S. 211). Nehmen wir an, # Einkommen = β0 + β1 Berufserfahrung + β2 Ausbildungsjahre sei das uns interessierende Modell. β1 gibt dabei den Effekt der Berufserfahrung auf das Einkommen unter Konstanthaltung der Ausbildungsdauer wieder. Der standardisierte Effekt für die Berufserfahrung berechnet sich wie oben angegeben, indem β1 mit der Standardabweichung der Berufserfahrung σx1 multipliziert wird. Diese Vorgehensweise ist laut Bring (1994) inkonsistent, weil sich β1 auf einen konditionalen Sachverhalt (unter Konstanthaltung von xj ) bezieht, während σx1 ein Parameter der gesamten Population ist. Das Problem besteht demnach darin, dass sich der Steigungskoeffizient und die Standardabweichung, die beide in die Berechnung der standardisierten Koeffizienten eingehen, auf unterschiedliche Populationen beziehen. Als Ausweg schlägt Bring vor, statt der einfachen Standardabweichung die partielle Standardabweichung, also letztlich die über die Gruppen der anderen unabhängigen Variablen hinweg gemittelte Standardabweichung von xj zu verwenden. Eine weitere Kritik lautet, dass die standardisierten Regressionskoeffizienten nicht notwendigerweise den Beitrag der unabhängigen Variablen zur erklärten Varianz widerspiegeln. Die Interpretation der standardisierten Koeffizienten, nach der das Merkmal mit dem betragsmäßig höchsten Koeffizienten am stärksten zur erklärten Varianz beiträgt, das Merkmal mit dem betragsmäßig nächst höchsten Koeffizienten den zweitgrößten Beitrag zur erklärten Varianz leistet etc., ist nicht immer richtig. Die standardisierten Koeffizienten reflektieren nicht notwendigerweise, welches Merkmal am meisten zu R2 beiträgt. Dies gilt nur für den Fall, dass die unabhängigen Variablen unkorreliert sind. Dann entspricht R2 der Summe der quadrierten Korrelationskoeffizienten zwischen jeweils einer unabhängigen und der abhängigen Variablen. Da in diesem Fall die Korrelation dem standardisierten Regressionskoeffizient entspricht, entspricht R2 der Summe der quadrierten standardisierten Regressionskoeffizienten. Bei unkorrelierten unabhängigen Variablen lässt sich R2 also eindeutig und vollständig in die Beiträge der einzelnen unabhängigen Variablen zerlegen.10 Die Variable mit dem größten Einfluss ist dann diejenige, welche am meisten zu R2 beiträgt. Oder anders ausgedrückt: wird die Variable mit dem größten standardisierten Koeffizienten aus der 10
Ein Sachverhalt, der in der Forschung praktisch nie vorkommt. Im Übrigen bräuchte man in dieser Situation ohnehin keine multivariaten Modelle. Die relative Einflussstärke eines Merkmals kann dann auch durch eine bivariate Analyse ermittelt werden.
24 Lineare Regressionsanalyse
627
Gleichung ausgeschlossen, sinkt R2 mehr als beim Ausschluss jeder anderen Variablen. Für den üblicherweise vorliegenden Fall korrelierter Prädiktoren ist die Zerlegung der erklärten Varianz komplizierter, dann gilt 2
R =
p
Bj∗2
+2
j=1
p−1
p
Bj∗ Bk∗ ρjk
(24)
j=1 k=j+1
mit Bj∗ , Bk∗ als standardisierte Regressionskoeffizienten und ρjk als Korrelation zwischen xj und xk (vgl. Grömping 2007, S. 140). Bring (1994) hat vorgeschlagen, die relative Bedeutung der einzelnen Prädiktoren durch das Produkt der Korrelation zwischen unabhängiger und abhängiger Variablen mit dem entsprechenden (unstandardisierten) Regressionskoeffizienten zu erfassen. Diese Maßzahl hat den Vorteil, dass sie sich über alle unabhängigen Variablen hinweg zu R2 aufsummiert. Es gilt also R2 =
k
βj ρjy .
(25)
j=1
Die relative Bedeutung einer Variablen würde also durch das Produkt des unstandardisierten Koeffizienten βj mit der Korrelation ρjy bestimmt werden. Das Problem dieses einfachen Maßes ist allerdings, dass es negativ wird, wenn βj und ρjy unterschiedliche Vorzeichen haben. Mittlerweile liegt eine Reihe von Vorschlägen zu alternativen Maßzahlen vor, die die Beschränkungen und Probleme der standardisierten Koeffizienten zu vermeiden suchen und die relative Bedeutung von Merkmalen konsistent messen sollen. In einem neueren Beitrag vergleichen Chao et al. (2008) sechs Ansätze zur Bestimmung der relativen Bedeutung von unabhängigen Variablen. Zunächst untersuchen sie, ob die vorgeschlagenen Koeffizienten folgende Kriterien erfüllen: (a) die Koeffizienten der relativen Bedeutung sollen sich zu R2 summieren, (b) keiner dieser Koeffizienten soll negativ sein, (c) das Ergebnis muss unabhängig von der Reihenfolge sein, in der die unabhängigen Variablen ins Modell aufgenommen werden. Nur zwei der sechs untersuchten Maßzahlen erfüllen diese drei Kriterien: die Vorschläge von Budescu (1993) und Johnson (2000). Da die Berechnung des ersteren rechnerisch sehr aufwändig ist und die Übereinstimmung mit dem Vorschlag von Johnson groß zu sein scheint, empfehlen Chao et al. (2008) die Verwendung des letztgenannten Ansatzes. Im folgenden Absatz werden wir diesen Ansatz kurz beschreiben. Gehen wir von einem Modell mit k Prädiktoren aus, dann beruht Johnsons Vorschlag darauf, aus diesen Merkmalen k orthogonale, also unkorrelierte, Hauptkomponenten zm zu extrahieren und diese so zu rotieren, dass die Summe der quadrierten Abweichungen zwischen den Beobachtungswerten xij und den Faktorscores zim minimiert wird. Mit den extrahierten Faktoren wird nun eine Regressionsanalyse auf die interessierende abhängige Variable gerechnet. Da die Faktoren orthogonal sind, entspricht die Summe der entsprechend standardisierten Regressionskoeffizienten Bz∗m dem Anteil der erklärten Varianz R2 . Nun muss noch die Bedeutung der ursprünglichen unabhängigen Variablen xj bestimmt werden. Diese werden nach
628
Christof Wolf und Henning Best
Bx† j =
k
λjm Bz∗m
m=1
berechnet. λjm bezeichnet hierbei die Korrelationen bzw. Ladungen zwischen xj und zm . Eine leicht verfügbare Alternative kann aus dem Beitrag von Bring (1994) abgeleitet werden. Wie er zeigt, kann die relative Bedeutung der einzelnen unabhängigen Variablen aus den t-Werten des üblicherweise verwendeten zweiseitigen Tests der Steigungskoeffizienten abgelesen werden. Da diese Prüfgröße auch als 2 2 R1,2,3,..., k − R2,3,..., k (26) t1 = 2 (1 − R1,2,3,..., k )/(n − k − 1) geschrieben werden kann, ist sie eine direkte Funktion des Zuwachses an R2 , der durch die Aufnahme der interessierenden Variable in das Modell entsteht (Bring 1994, S. 213). Folglich gibt ein Vergleich der t-Werte innerhalb desselben Modells ceteris paribus auch Auskunft über die relative Einflussstärke der unabhängigen Variablen. Dem interessierten Nutzer bieten sich also verschiedene Alternativen zur Bestimmung der relativen Einflussstärke. Standardisierte B ∗ -Koeffizienten sind leicht verfügbar, aber unter Umständen problematisch. Die von Johnson vorgeschlagene Variante ist zwar weniger problematisch, aber nicht immer verfügbar. Unsere Empfehlung lautet daher, neben standardisierten unbedingt auch unstandardisierte Koeffizienten zu berichten, und eine Interpretation der relativen Einflusstärke nicht allein auf B ∗ -Koeffizienten zu stützen. Vielmehr sollten zusätzlich die t-Werte berücksichtigt werden.
3 Ein Beispiel Nachdem wir die wichtigsten mathematisch-statistischen Grundlagen der linearen Regression vorgestellt haben, soll die Anwendung des Verfahrens nun an einem Beispiel diskutiert werden. Dabei werden wir untersuchen, von welchen Faktoren die Höhe des Erwerbseinkommens von abhängig Beschäftigten abhängt. Als empirische Grundlage dient uns der ALLBUS 2006. Nach der Humankapitaltheorie sollte das Einkommen vor allem von der Bildung und der Berufserfahrung abhängen. Darüber hinaus wissen wir aus vielen Arbeiten, dass Männer noch immer mehr verdienen als Frauen. Hinzu kommt, dass das Lohnniveau in den alten Bundesländern nach wie vor über demjenigen der neuen Bundesländer liegt. Aus diesen Überlegungen ergibt sich das zu schätzende Regressionsmodell # Einkommen = f (Bildung, Berufserfahrung, Geschlecht, Ost/West) . 3.1 Zur Operationalisierung Bei der Variablen „Einkommen“ handelt es sich um das persönliche monatliche Nettoeinkommen in Euro. Diese Angabe ist aus mindestens zwei Gründen für die hier
24 Lineare Regressionsanalyse
629
verfolgte Fragestellung nicht optimal. Erstens handelt es sich bei diesem „Einkommen“ nicht ausschließlich um Erwerbseinkommen, sondern um das gesamte persönliche Einkommen in Vollzeit tätiger abhängig Beschäftigter, also abzüglich Steuern und Sozialversicherungsbeiträgen, aber inklusive Sozialleistungen, Kapitaleinkünften, privater Transfers etc. In der untersuchten Gruppe sollte allerdings der ganz überwiegende Teil des Einkommens aus Erwerbsarbeit stammen. Zweitens beziehen sich die Aussagen der Humankapitaltheorie auf den Brutto(stunden)lohn und nicht auf den Nettolohn, der auch von anderen Faktoren, insbesondere der familiären Situation, abhängt. Aus diesem Grund werden wir in den folgenden Modellen die Anzahl der Kinder im Haushalt, den Status verheiratet versus nicht verheiratet sowie einen Interaktionseffekt zwischen dem Status verheiratet und dem Geschlecht kontrollieren (zu Interaktionseffekten siehe ausführlich Kapitel 26). Diese Faktoren kennzeichnen wesentliche, nicht direkt mit der Einkommenshöhe in Verbindung stehende Elemente der deutschen Einkommenssteuer. Die Investitionen in Bildung werden hier operationalisiert durch eine Kombination aus dem höchsten Abschluss einer allgemeinbildenden Schule und dem höchsten beruflichen Abschluss. Die resultierende Bildungsvariable hat fünf Ausprägungen: (1) höchstens Hauptschulabschluss mit Lehre (29 %); (2) mindestens Mittlere Reife mit einer Lehre oder einem Fachschulabschluss (44 %); (3) Techniker oder Meister (7 %); (4) Fachhochschulabschluss (7 %); (5) Hochschulabschluss (13 %). Die zweite Komponente des Humankapitals, die Berufserfahrung, wird im ALLBUS – wie in den meisten Studien – nicht direkt gemessen. Für Männer wurde dieses Merkmal aus dem Alter abzüglich der in Ausbildung verbrachten Zeiten und abzüglich der ersten sechs Lebensjahre berechnet. Für Frauen wurde von dieser Zahl noch einmal jeweils drei Jahre für jedes Kind abgezogen. Die Berufserfahrung wird hier in Dekaden gemessen und um ihren Mittelwert zentriert. Die Merkmale „Geschlecht“ und „alte vs. neue Bundesländer“ werden als Dummy-Variablen in die Analyse eingeführt. Sie sind so kodiert, dass die ausgewiesenen Effekte für Männer bzw. Personen in Westdeutschland gelten. 3.2 Ergebnisse Modell 1 in Tabelle 1 enthält die bisher vorgestellten Merkmale. Die beiden Indikatoren des Humankapitals zeigen die erwarteten Ergebnisse. Je höher der erreichte Ausbildungsabschluss und je umfangreicher die Berufserfahrung, umso höher ist das erwartbare Einkommen. Vollzeit Erwerbstätige, die höchstens einen Hauptschulabschluss mit Lehre aufweisen, verdienen 339 € weniger als Erwerbstätige mit Mittlerer Reife und Lehre bzw. Fachschulausbildung, 415 € weniger als Techniker und Meister, 889 € weniger als Fachschulabsolventen und sogar 1362 € weniger als Erwerbstätige mit Hochschulabschluss. Unabhängig vom Qualifikationsniveau führt die Berufserfahrung in zehn Jahren zu einer durchschnittlich zu erwartenden Einkommenserhöhung von 139 €. Allerdings postuliert die Humankapitaltheorie, dass das Einkommen nicht linear mit der Berufserfahrung steigt. Vielmehr wird ein abnehmender Grenzertrag zunehmender Erfahrung erwartet. Diese Vorstellung kann in unsere Analyse einfließen, indem wir die Berufserfahrung auch quadriert in die Analyse aufnehmen (siehe dazu auch Kapitel 26). Die Analyse bleibt dennoch eine lineare Regressionsanalyse, weil
630
Christof Wolf und Henning Best
sie nach wie vor linear in ihren Parametern ist. Der entsprechende Ausschnitt aus der Regressionsgleichung lautet folglich 2 # Einkommen = · · · βˆ3 Bildung + βˆ4 Erfahrung + βˆ5 (Erfahrung) · · · .
Wie eine entsprechende Analyse zeigt (nicht abgedruckt), hat der quadrierte Term zwar das erwartete negative Vorzeichen, d. h. die erfahrungsbedingten Einkommenszuwächse werden mit steigender Erfahrung kleiner. Allerdings ist dieser Effekt mit lediglich 8 € in der ersten Dekade, 16 € in der zweiten Dekade, 72 € in der dritten Dekade schwach und auch unter statistischen Gesichtspunkten bedeutungslos. Daher werden wir diesen Term nicht weiter berücksichtigen. Bei der verwendeten Kodierung der Merkmale gibt die Regressionskonstante von 635 € den monatlichen zu erwartenden Nettoverdienst einer in Ostdeutschland abhängig beschäftigten, nicht verheirateten Frau wieder, die keine Kinder im Haushalt hat, höchstens über einen Hauptschulabschluss mit Lehre verfügt und eine durchschnittliche Berufserfahrung11 von 20,8 Jahren hat. Für ihre Kollegin im Westen wird aufgrund des Modells ein um 557 € höherer Durchschnittsverdienst, also fast das Doppelte, erwartet. Vergleicht man den Verdienst von Männern und Frauen zeigen sich hier ebenfalls beträchtliche Differenzen: Unverheiratete Männer verdienen durchschnittlich 199 € mehr als entsprechende Frauen. Bei Verheirateten beträgt die Differenz sogar 529 €. Um zu verstehen, wie sich diese Angaben berechnen, sei kurz auf den entsprechenden Ausschnitt aus der Regressionsgleichung eingegangen (alle Angaben aus Modell 1 in Tabelle 1): # Einkommen = · · · 199 · Mann − 90 · verheiratet + 330 · Mann · verheiratet · · · Für das Geschlecht und den Familienstand berücksichtigen wir je einen Haupteffekt und zusätzlich den Interaktionseffekt der beiden Merkmale. Unverheiratete Frauen stellen unseren Bezugspunkt, unsere Referenzkategorie, dar. Ein unverheirateter Mann verdient 199 € mehr als eine unverheiratete Frau. Eine verheiratete Frau verdient 90 € weniger als eine unverheiratete Frau. Ein verheirateter Mann verdient durchschnittlich 330 € mehr als ein unverheirateter Mann und 529 € (=199+330) mehr als eine unverheiratete Frau. Im Vergleich zu einer verheirateten Frau verdient ein verheirateter Mann sogar 619 € (529+90) mehr. All diese Angaben sind bedingte Erwartungen für das durchschnittliche Einkommen der genannten Personengruppen bei ansonsten gleichen Merkmalen, hier also gleicher Bildung und gleicher Berufserfahrung. Weil die Bildung und die Berufserfahrung im Modell bereits kontrolliert sind, sind die Unterschiede zwischen West- und Ostdeutschland, aber auch die Geschlechterdifferenz besonders eklatant. In Bezug auf die Einkommensunterschiede zwischen Ost und West könnte man allerdings argumentieren, dass die in der DDR erworbenen Ausbildungsabschlüsse sowie die dort gemachte Berufserfahrung im wiedervereinigten Deutschlands nicht ebenso produktiv sind wie das entsprechende westdeutsche Humankapital.12 11
12
Wie oben erläutert, ist das Merkmal Berufserfahrung in den hier präsentierten Analysen um seinen Mittelwert zentriert. Auf der Basis von Analysen, die sich nur auf Personen beschränken, die 1990 höchstens 18 Jahre alt waren, ihre Bildung und Berufserfahrung also nach der Wiedervereinigung erwor-
24 Lineare Regressionsanalyse
631
Tab. 1: Regressionsanalysen des Einkommens Modell 1
Konstante Westen Männlich verheiratet Mann × verheiratet Kinder Bildung (Ref. HS, Lehre) MR, Lehre Techn./Meister FH Uni Berufserfahrung Berufsprestige Deutsch R2 2 Rkorr
Modell 2 ∗
βˆ
sβˆ
B
635 557 199 −90 330 65
80 53 66 73 90 24
0,27 0,11 −0,05 0,19 0,08
339 415 889 1362 139
52 90 90 70 22
0,20 0,12 0,26 0,54 0,18
0,46 0,45
βˆ
sβˆ
7,91 10,50 3,02 −1,24 3,66 2,70
740 513 215 −84 349 73
114 52 64 71 87 23
6,58 4,60 9,83 19,53 6,43
210 228 569 895 125 71 72
53 91 97 91 21 10 78
t
B∗
t
6,51 0,25 9,82 0,12 3,36 −0,05 −1,18 0,21 4,00 0,09 3,13 0,13 0,07 0,17 0,36 0,16 0,25 0,02
3,98 2,51 5,86 9,82 5,95 7,48 0,93
0,49 0,49
Datenbasis: ALLBUS 2006; gewichtet mit Ost-West Transformationsgewicht (n=907). Nur ganztags Erwerbstätige mit abhängiger Beschäftigung.
Ein Merkmal, welches in der Einkommensgleichung von Modell 1 noch nicht berücksichtigt wird, aber nach soziologischen Theorien eine Rolle spielen sollte, ist der ausgeübte Beruf. Nach den soziologischen Theorien des Statuserwerbs hat die Bildung zunächst einen Einfluss auf den Status des ausgeübten Berufs und dieser wiederum beeinflusst das Einkommen (vgl. Blau & Duncan 1967). Daher wurde in Modell 2 zusätzlich das Berufsprestige aufgenommen.13 Dieses Merkmal hat den erwarteten starken Effekt auf das Einkommen. Zwischen Berufen, die 10 Punkte auf der Prestigeskala auseinander liegen, wird ein durchschnittlicher, bedingter Einkommensunterschied von 71 € erwartet. Bei einer Spannweite des Berufsprestiges von 166,8 (=186,8-20,0) Punkten, ergibt sich eine bedingte Einkommensdifferenz zwischen Personen mit dem höchsten und Personen mit dem niedrigsten Berufsprestige von 1193 € (= 71 · (186,8−20,0)/10). Wie wirkt sich die Aufnahme des Berufsprestiges auf den Einfluss der anderen Merkmale aus? Wie ein Vergleich des Bildungseffekts in Modell 2
13
ben haben, zeigt sich jedoch nach wie vor ein großer Einkommensunterschied zwischen den beiden Landesteilen. Da die jungen Ostdeutschen bereits das Bildungssystem des wiedervereinigten Deutschland durchlaufen haben, kann das angeführte Humankapitalargument nicht zur Begründung von Einkommensdifferenzen bemüht werden. Das Berufsprestige wurde hier nach der Magnitude-Prestigeskala von Wegener (1988) gemessen, eine im ALLBUS bereits vorhandene Variable. Die ursprüngliche Skala, die von 20 bis 186,8 Punkten reicht, wurde für die in Tabelle 1 präsentierte Analyse zentriert und durch 10 dividiert.
632
Christof Wolf und Henning Best
mit dem in Modell 1 zeigt, verringern sich die Einkommensunterschiede zwischen den Bildungsgruppen, wenn das Berufsprestige kontrolliert wird. Das bedeutet, dass es sich bei einem Teil des in Modell 1 ausgewiesenen Bildungseffekts auf das Einkommen um einen indirekten Effekt handelt. Die Einflussstärke der anderen unabhängigen Variablen bleibt dagegen im Wesentlichen unverändert. Eine weitere Variable, die mit dem Einkommen in Verbindung stehen könnte, ist die Nationalität. Häufig wird die Vermutung geäußert, dass Ausländer auf dem Arbeitsmarkt diskriminiert werden und weniger verdienen als Deutsche. Die in Modell 2 von Tabelle 1 wiedergegebene Analyse stützt diese Hypothese nicht. Die Nettoeinkommen von Deutschen und Ausländern unterscheiden sich nicht signifikant. Zwar liegt der Erwartungswert für das Nettoeinkommen der Deutschen bei gleicher familialer Situation, gleicher Bildung, gleicher Berufserfahrung etc. um 72 € höher bei Ausländern. Mit einem Standardfehler von 78 € ist dieser Effekt jedoch sehr weit von jeglicher statistischer Signifikanz entfernt. Dies deckt sich mit früheren Ergebnissen, die ebenfalls keinen Einkommensnachteil (ethnic penalty) von Ausländern ermitteln konnten (Diekmann et al. 1993). Welches der untersuchten Merkmale hat den stärksten Einfluss auf das Einkommen? Nach den standardisierten Koeffizienten zu urteilen, ist es das Vorhandensein eines Universitätsabschlusses, gefolgt vom Wohnen in Westdeutschland und dem Berufsprestige, die mit einem Koeffizient von jeweils 0,25 gleichauf sind. Dieser Vergleich ist jedoch irreführend und zwar unabhängig von den in Abschnitt 2.7 beschriebenen Problemen der standardisierten Koeffizienten. Die Effektstärke einer kategorialen Variablen, die durch mehrere Dummy-Variablen repräsentiert wird, kann nicht an den einzelnen standardisierten Effekten abgelesen werden. Auch die t-Werte geben keine Auskunft über die statistische Bedeutung des (mehrstufig kategorialen) Merkmals als Ganzes. Um festzustellen, ob ein solches Merkmal einen statistisch signifikanten Einfluss auf die untersuchte abhängige Variable hat und wie stark dieser Einfluss ist, muss ein Modell, in dem die entsprechenden Dummies enthalten sind, mit einem Modell verglichen werden, in dem die Dummies nicht enthalten sind. Entfernt man die vier Bildungs-Dummies aus Modell 2 (Tabelle 1), dann sinkt die erklärte Varianz um über sieben Prozentpunkte; eine sowohl unter substanziellen als auch unter statistischen Gesichtspunkten signifikante Verringerung. Zum Vergleich: Wird die Region aus dem Modell entfernt, sinkt die erklärte Varianz um fünf Punkte, beim Berufsprestige um drei Punkte und bei der Berufserfahrung um zwei Punkte. Einen Vergleich mit dem Geschlecht können wir hier leider nicht vornehmen, da aus den obengenannten Gründen auch ein Interaktionsterm zwischen Geschlecht und Familienstand im Modell enthalten ist. Werden alle drei steuerlich relevanten Merkmale ausgeschlossen – Geschlecht, Familienstand, Kinder –, dann verringert sich das R2 um acht Punkte. Unter den analysierten Merkmalen sind demnach die Bildung und die Region des Wohnorts die bedeutsamsten Determinanten des Einkommens in Deutschland. Die Einkommensvariable ist in der Regel rechtsschief verteilt, da verhältnismäßig viele Personen wenig, wenige Personen hingegen sehr viel verdienen. Das Einkommen ist also nicht normalverteilt. Dies hat meist zur Folge, dass auch die Residuen nicht normalverteilt sind und damit eine Anwendungsvoraussetzung der Kleinst-Quadrat-Methode nicht gegeben ist. Diese Annahmeverletzung kann zu verzerrten Standardfehlern und
24 Lineare Regressionsanalyse
633
Tab. 2: Regressionsanalysen des Einkommens, metrische versus logarithmierte Einkommensvariable Modell 1: Einkommen in Euro
Konstante Westen Männlich verheiratet Mann × verheiratet Kinder Bildung (Ref. HS, Lehre) MR, Lehre Meister FH Uni Berufserfahrung Berufsprestige R2 2 Rkorr
B∗
βˆ
sβˆ
814 507 214 −86 347 72
81 52 64 71 87 23
0,24 0,12 −0,05 0,20 0,08
212 236 573 897 126 72
53 91 97 91 21 9
0,13 0,07 0,17 0,36 0,17 0,25
0,49 0,49
Modell 2: Logarithmus des Einkommens t
βˆ
10,01 6,81 9,78 0,32 3,35 0,11 −1,22 −0,07 3,98 0,21 3,07 0,04 4,03 2,60 5,90 9,85 6,02 7,62
0,16 0,20 0,33 0,45 0,08 0,03
sβˆ
B∗
0,044 0,028 0,29 0,035 0,12 0,038 −0,08 0,047 0,23 0,013 0,09 0,028 0,049 0,052 0,049 0,011 0,005
0,17 0,11 0,18 0,34 0,20 0,22
t 155,25 11,52 3,29 −1,88 4,41 3,12 5,51 4,17 6,39 9,26 7,28 6,49
0,49 0,48
Datenbasis: ALLBUS 2006; gewichtet mit Ost-West Transformationsgewicht (Fallzahl 907). Nur ganztags Erwerbstätige mit abhängiger Beschäftigung.
damit zu falschen Schlüssen aus Signifikanztests führen. Eine Lösung dieser Problematik kann in der Transformation der abhängigen Variablen bestehen. Im Falle von rechtsschiefen Merkmalen, wie dem Einkommen, führt das Logarithmieren oftmals zu einer angemesseneren Verteilung. Aus diesem Grund verwendet man bei Einkommensanalysen standardmäßig das logarithmierte Einkommen. Ein solches Modell wurde daher auch hier gerechnet und soll nun mit den bisher erzielten Ergebnissen verglichen werden (vgl. Tabelle 2). Beide Modelle beinhalten dieselben unabhängigen Variablen, und zwar solche, die nach den bisher durchgeführten Analysen einen statistisch bedeutsamen Beitrag zur Erklärung des Einkommens liefern (vgl. Tabelle 1 auf Seite 631). In Modell 1 wurde als abhängige Variable wieder das Nettoeinkommen in Euro verwendet. In Modell 2 dient der natürliche Logarithmus des Nettoeinkommens als abhängige Variable. Um die ausgewiesenen Effekte interpretieren zu können, muss die Exponentialfunktion angewandt werden. Damit ergibt sich # Einkommen = e(β0 +β1 x1 +β2 x2 +···+βk xk ) = eβ0 eβ1 x1 eβ2 x2 · · · eβk xk als zu schätzende Regressionsgleichung. Eine Erhöhung von x1 um eine Einheit führt in diesem Modell zu einer Veränderung des Einkommens um den Faktor β1 . Da für Exponenten c ≤ 0,2 gilt, dass ec ≈ 1+c, werden Regressionskoeffizienten mit einer logarithmierten abhängigen Variablen häufig als prozentuale Veränderungen interpretiert.
634
Christof Wolf und Henning Best 5,0
Abweichung von Normal
Abweichung von Normal
5,0
2,5
0,0
-2,5
2,5
0,0
-2,5 -4
-2
0
2
4
6
Beobachteter Wert
(a) Einkommen in Euro
8
-6
-4
-2
0
2
4
Beobachteter Wert
(b) logarithmiertes Einkommen
Abb. 3: Trendbereinigte Q-Q-Plots der standardisierten Residuen Dies ist gerade in ökonomischen Analysen für das Einkommen sehr beliebt. Nehmen wir beispielweise den Effekt der Berufserfahrung in Höhe von 0,08 (vgl. Tabelle 2, Modell 2). Da e0,08 = 1,08 ist, kann dieser Effekt dahingehend interpretiert werden, dass Erwerbstätige mit zehn Jahren mehr Berufserfahrung als andere Erwerbstätige ein um durchschnittlich 8 % höheres Einkommen aufweisen. Ist der Regressionskoeffizient deutlich größer als 0,2, dann kann das Ergebnis von eβ nicht direkt an β abgelesen werden. Nehmen wir beispielsweise die Effekte für einen Fachhochschul- (0,33) oder Universitätsabschluss (0,45). Für den Fachhochschulabschluss ergibt sich e0,33 = 1,45 – und eben nicht nicht 1,33. Hinsichtlich des Universitätsabschlusses lautet das Ergebnis e0,45 = 1,57 (also deutlich höher als 1,45). Allgemein gilt: Je größer c ist, desto stärker weicht die tatsächliche prozentuale Veränderung von diesem Wert ab. Im Großen und Ganzen führen beide Analysen zum selben Ergebnis. Beide belegen die großen Einkommensunterschiede zwischen West- und Ostdeutschland, die Einkommensdifferenz zwischen Männern und Frauen, den starken Bildungseffekt und die Effekte von Berufserfahrung und Berufsprestige. Zudem erklären beide Modelle denselben Anteil an Einkommensvarianz. Betrachtet man hingegen die Standardfehler, kann festgestellt werden, dass das Modell mit logarithmierter abhängiger Variable relativ zu den Effektstärken meist kleiner sind. Zusammengenommen ergibt sich in dieser Beispielanalyse kein großer Vorteil aus der Verwendung des logarithmierten Einkommens. Dies kann jedoch in anderen (vor allem kleineren) Stichproben und insbesondere bei einer anderen Operationalisierung des Einkommens anders sein. Im Gegensatz zu den meisten ökonomischen Einkommensanalysen untersuchen wir hier nicht das Brutto-, sondern das Nettoeinkommen. Letzteres ist aufgrund der abgezogenen Einkommenssteuer und dem hinzu gezählten Transfereinkommen deutlich weniger rechtsschief verteilt als das Bruttoeinkommen. Eine Transformation ist deshalb in diesem Fall weniger „nötig“. Eine Analyse der Feh-
24 Lineare Regressionsanalyse
635
lerterme der beiden in Tabelle 2 dargestellten Modelle macht dies deutlich. Abbildung 3 bietet trendbereinigte Q-Q-Plots der standardisierten Residuen aus beiden Modellen. Diese Plots zeigen, wie stark die Residuen von einer Normalverteilung abweichen. Bei einer perfekt normalverteilten Variablen lägen alle Punkte auf der eingezeichneten horizontalen Linie. Abweichungen von dieser Linie nach unten oder oben zeigen entsprechende Abweichungen von der Normalverteilung an (vgl. ausführlich dazu die Kapitel 5 und 25 in diesem Handbuch). Wie sich aus Abbildung 3 ersehen lässt, weichen die beiden Verteilungen in unterschiedlicher Form von der Normalverteilung ab. Beim nicht transformierten Einkommen treten die Abweichungen vor allem im Bereich hoher Einkommen auf; beim logarithmierten Einkommen finden sich die Abweichungen dagegen am unteren Ende der Einkommensverteilung. Das Logarithmieren behebt demnach das Problem bei den hohen Einkommen (die Rechtsschiefe), führt jedoch zu einer größeren Abweichung bei den geringen Einkommen. Insgesamt sind die Abweichungen in beiden Fällen jedoch verhältnismäßig gering.
4 Häufige Fehler Wie bei allen statistischen Verfahren kann eine sachlich angemessene Interpretation von Ergebnissen der linearen Regression nur erfolgen, wenn die mathematisch-statistischen Grundlagen und Annahmen sowie die grundlegende Funktionsweise des Verfahrens in seinen Grundzügen verstanden wurden. Eine dieser Grundannahmen ist, dass die untersuchten Prädiktoren in einem linearen Zusammenhang mit der abhängigen Variablen stehen. Diese Annahme sollte in jedem einzelnen Fall überprüft werden. Dies kann auf mindestens zweierlei Weise erfolgen. Einerseits kann die unabhängige Variable in mehrere Gruppen unterteilt werden, die dann als Dummy-Variablen in das Regressionsmodell aufgenommen werden können. Anhand der Regressionskoeffizienten lässt sich leicht ablesen, ob die Linearitätsannahme gerechtfertigt ist. Andererseits kann die fragliche unabhängige Variable in einem Streudiagramm gegen die abhängige Variable geplottet und die Regressionsgerade mit einer nichtparametrischen lokal gewichteten Regressionskurve (LOWESS) verglichen werden (siehe Kapitel 25 in diesem Handbuch). Gelangt man zu dem Schluss, dass Nichtlinearität vorliegt, kann dem oftmals durch die Berücksichtigung von Polynomen Rechnung getragen werden (vgl. Kapitel 26 in diesem Handbuch). Die Verwendung von Polynomen, am häufigsten quadrierte Terme, führt jedoch potenziell zu einer weiteren Schwierigkeit, dem Problem hoher Multikollinearität. Mit diesem Begriff wird die multiple Korrelation zwischen den Prädiktoren bezeichnet. Ist diese zu hoch, führt dies zur Verzerrung der Standardfehler der Regressionskoeffizienten. Gerade in kleineren Stichproben ist es dann schwer, signifikante Ergebnisse zu identifizieren. Die Höhe der Multikollinearität lässt sich an der sog. Toleranz bzw. dem Varianzinflationsfaktor ablesen (vgl. Gleichungen (23) und (24) in Kapitel 25, S. 655). Häufig kann das Problem verringert werden, wenn die Polynome auf Basis von um den Mittelwert zentrierten Merkmalen berechnet werden. Dies gilt im Übrigen auch für (andere) Interaktionseffekte.
636
Christof Wolf und Henning Best
Nicht spezifisch für die Regressionsanalyse, aber deshalb nicht weniger wichtig, ist die sorgfältige Berechnung und Prüfung aller an der Analyse beteiligten Variablen. Sind die Verteilungen plausibel? Ist der Anteil fehlender Werte nachvollziehbar? Insbesondere der Umgang mit letzteren sollte bei der Regressionsanalyse gut bedacht sein. Die Statistikprogramme, mit denen entsprechende Analysen durchgeführt werden, haben alle eine bestimmte Voreinstellung, wie sie mit Fällen umgehen, die fehlende Werte aufweisen. Diese Voreinstellung ist meistens der Ausschluss aller Fälle mit mindestens einem fehlenden Wert (listwise deletion). Dies kann dazu führen, dass sich die Fallzahl deutlich reduziert. Daher sollte immer überprüft werden, auf welcher Basis die eigentliche Analyse durchgeführt wird. Hat sich die Stichprobe aufgrund fehlender Werte zu sehr verringert, muss über alternative Wege im Umgang mit fehlenden Werten nachgedacht werden (vgl. Kapitel 6 in diesem Handbuch). Ein weiteres generelles Problem besteht in der Verwechslung von statistischer und inhaltlicher Bedeutsamkeit. Ist ein bestimmter Regressionskoeffizient statistisch „signifikant“, sagt das noch nichts über die inhaltliche Bedeutung dieses Effekts aus. Auf Basis einer sehr großen Stichprobe legen bereits sehr kleine Effekte den Schluss nahe, dass der Effekt in der Grundgesamtheit von null verschieden ist. Damit wird der Effekt selbst jedoch nicht größer. Umgekehrt kann ein Koeffizient aus einer kleinen Stichprobe das Kriterium der statistischen Signifikanz zwar knapp verfehlen, aufgrund seiner Größe dennoch als ein bedeutsamer Effekt interpretiert werden. Statistische Signifikanz und inhaltliche Bedeutung sind demnach zwei verschiedene Dinge, die nicht miteinander verwechselt werden sollten. Ein letzter hier zu nennender Komplex betrifft die Gefahr einer grundlegenden Fehlinterpretation der Ergebnisse von Querschnittsregressionen. Erstens sollte immer bedacht werden, dass sich die Koeffizienten letztlich immer auf Gruppenunterschiede oder, genauer, Unterschiede in bedingten Erwartungswerten beziehen. Für zwei Personen, die sich in Bezug auf die unabhängige Variable um eine Einheit unterscheiden, beträgt die Differenz in den bedingten Erwartungswerten der abhängigen Variablen β Einheiten. Die Formulierung „bedingte Erwartungswerte“ bezieht sich dabei darauf, dass die Regressionskoeffizienten unter Konstanthaltung der anderen berücksichtigten Merkmale verglichen werden. Die Aussage über die Differenz der Erwartungswerte gilt also ceteris paribus – unter sonst gleichen Umständen. Da diese Interpretation sprachlich recht umständlich ist, wird häufig – auch in diesem Beitrag – eine elegantere, aber unpräzise Formulierung gewählt: „β gibt an, um wie viele Einheiten sich die abhängige Variable verändert, wenn die unabhängige Variable um eine Einheit steigt.“ Diese Aussage verweist sprachlich auf eine Prognose, die jedoch auf Basis von Querschnittsregressionen nur unter bestimmten Voraussetzungen möglich ist.14 Ein zweites Problem betrifft die kausale Interpretation von Regressionsergebnissen. Ob dies möglich ist, hängt nicht vom Analyseverfahren, hier also der Regression, sondern wesentlich davon ab, ob die entsprechenden Voraussetzungen für die Beobachtung eines kausalen Effektes gegeben sind. Zu diesen Voraussetzungen gehört insbesondere, dass die vermeintliche Ursache der Wirkung vorausgeht und dass alle relevanten Störgrößen 14
Vorhersagen sind zwar auf Basis von Regressionsanalysen prinzipiell möglich, setzen aber einer Erweiterung des Verfahrens voraus (vgl. Cohen et al. 2003, S. 95 ff.).
24 Lineare Regressionsanalyse
637
kontrolliert werden. Diese Voraussetzungen werden am ehesten unter experimentellen Bedingungen erfüllt (vgl. ausführlich die Kapitel 2, 35 und 36 in diesem Handbuch).
5 Literaturhinweise Das Verfahren der linearen Regressionsanalyse wird in nahezu jedem Lehrbuch zur Statistik behandelt. Darüber hinaus gibt es unzählige monographische Darstellungen dieses Verfahrens. Einen guten Einstieg bieten die Bücher von Urban & Mayerl (2006) sowie Gelman & Hill (2007). Eine leicht verständliche Einführung in die Voraussetzungen der linearen Regression und ihre Bedeutung liefert Berry (1993). Wer einen kürzeren Überblicksartikel zum Verfahren sucht, dem sei der Beitrag von Stolzenberg (2004) empfohlen. Eine didaktisch hervorragende und mathematisch präzise Darstellung bietet Wooldridge (2009), vertiefende Ausführungen findet man bei Wooldridge (2002). Ein Aspekt, auf den wir nicht eingehen konnten, betrifft die spezifischen Probleme der Regressionsanalyse bei kleinen Stichproben. Dieser Thematik widmet sich Jann (2009).
Literaturverzeichnis Bacher, J. (2009). Analyse komplexer Stichproben. In M. Weichbold, J. Bacher, & C. Wolf (Hg.), Umfrageforschung. Herausforderungen und Grenzen, Band 9 (S. 253–274). Wiesbaden: VS Verlag für Sozialwissenschaften. Berry, W. D. (1993). Understanding Regression Assumptions, Band 07-092 von Quantitative Applications in the Social Sciences. Newbury Park: Sage. Best, H. (2009). Organic Farming as a Rational Choice. Empirical Investigations in Environmental Decision Making. Rationality and Society, 21, 197–224. Blau, P. M. & Duncan, O. D. (1967). The American Occupational Structure. New York: Wiley. Bring, J. (1994). How to Standardize Regression Coefficients. The American Statistician, 48, 209–213. Budescu, D. V. (1993). Dominance Analysis: A New Approach to the Problem of Relative Importance of Predictors in Multiple Regression. Psychological Bulletin, 114, 542–551. Chao, Y.-C. E., Zhao, Y., Kupper, L. L., & Nylander-French, L. A. (2008). Quantifying the relative importance of predictors in multiple linear regression analyses for public health studies. Journal of Occupational and Environmental Hygiene, 5, 519–529. Cohen, J., Cohen, P., West, S., & Aiken, L. S. (2003). Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences. Mahwah: Lawrence Erlbaum, 3. Auflage. Diekmann, A., Engelhardt, H., & Hartmann, P. (1993). Einkommensungleichheit in der Bundesrepublik Deutschland: Diskriminierung von Frauen und Ausländern? Mitteilungen aus der Arbeitsmarkt- und Berufsforschung, 3/93, 386–398. Gelman, A. & Hill, J. (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge: Cambridge University Press.
638
Christof Wolf und Henning Best
Grömping, U. (2007). Estimators of Relative Importance in Linear Regression Based on Variance Decomposition. The American Statistican, 61, 139–147. Jann, B. (2009). Diagnostik von Regressionsschätzungen bei kleinen Stichproben (mit einem Exkurs zu logistischer Regression). In P. Kriwy & C. Gross (Hg.), Klein aber fein! Quantitative empirische Sozialforschung mit kleinen Fallzahlen (S. 93–126). Wiesbaden: VS Verlag für Sozialwissenschaften. Johnson, J. W. (2000). A Heuristic Method for Estimating the Relative Weight of Predictor Variables in Multiple Regression. Multivariate Behavioral Research, 35, 1–19. Lee, E. S. & Forthofer, R. N. (2006). Analyzing Complex Survey Data, Band 07-071 von Quantitative Applications in the Social Sciences. Thousand Oaks: Sage, 2. Auflage. Stolzenberg, R. M. (2004). Multiple Regression Analysis. In M. Hardy & A. Bryman (Hg.), Handbook of data analysis (S. 165–208). London: Sage Publications. Urban, D. & Mayerl, J. (2006). Regressionsanalyse: Theorie, Technik und Anwendung. Wiesbaden: VS Verlag für Sozialwissenschaften, 2. Auflage. Wegener, B. (1988). Die Magnitude-Prestigeskala (MPS) - Theorie, Konstruktion und die Prestigescores für berufliche Tätigkeiten. In B. Wegener (Hg.), Kritik des Prestige (S. 221–244). Opladen: Westdeutscher Verlag. Wooldridge, J. M. (2002). Econometric Analysis of Cross Section and Panel Data. Cambridge: MIT Press. Wooldridge, J. M. (2009). Introductory Econometrics. A Modern Approach. o.O.: SouthWestern, 4. Auflage.
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik Dieter Ohr Freie Universität Berlin
Zusammenfassung. Zwei Aspekte des linearen Regressionsmodells werden in diesem Beitrag behandelt: Erstens sind dies die Annahmen, die dem linearen Regressionsmodell zugrundeliegen, darunter die Linearitätsannahme, die Annahme, dass keine perfekte Multikollinearität vorliegt oder die Annahme streuungsgleicher Störgrößen. Vor allem soll es darum gehen, ein inhaltliches Verständnis sämtlicher Annahmen zu vermitteln, indem erläutert wird, welche Ideen jeweils hinter den Annahmen stehen, warum man die Annahmen treffen muss und auch, welche Konsequenzen mit einer Verletzung der Annahmen verbunden sind. Zweitens werden Instrumente der Regressionsdiagnostik vorgestellt. Dazu zählen zum einen Instrumente, mit deren Hilfe auf der Grundlage von Stichprobendaten geprüft werden kann, ob und inwieweit die Annahmen des linearen Regressionsmodells erfüllt sind. Zum anderen werden Instrumente behandelt, die geeignet sind, um sogenannte einflussreiche Untersuchungseinheiten zu identifizieren. Solche Untersuchungseinheiten können die Regressionsschätzungen, etwa die Regressionskoeffizienten, unter Umständen erheblich mitbestimmen. Am Beispiel der ostdeutschen Stichprobe des ALLBUS (2006) wird gezeigt, wie sich die Diagnoseinstrumente anwenden und interpretieren lassen.
1 Einführung In diesem Beitrag werden zum einen die Annahmen des linearen Regressionsmodells behandelt und ihre Bedeutung für die Qualität der Regressionsergebnisse erklärt. Zum anderen werden Instrumente der Regressionsdiagnostik vorgeführt, mit deren Hilfe sich Verletzungen der Annahmen sowie sogenannte einflussreiche Untersuchungseinheiten identifizieren lassen. In Abschnitt 1 werden die Grundlagen des linearen Regressionsmodells beschrieben, die zum Verständnis der Regressionsannahmen wesentlich sind (1.1), ebenso wird ein erster, nicht-technischer Einblick in die Regressionsdiagnostik vermittelt (1.2). In Abschnitt 2 werden die Annahmen des linearen Regressionmodells vorgestellt und erläutert (2.1) und die Instrumente der Regressionsdiagnostik besprochen (2.2). Wie Regressionsdiagnostik praktisch aussehen kann, wird in Abschnitt 3 am Beispiel des ALLBUS 2006 gezeigt. Schließlich werden Empfehlungen zur Durchführung der Regressionsdiagnostik formuliert (4) sowie einige Hinweise für ein vertiefendes Literaturstudium gegeben (5).
S. 639–675 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_25, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
640
Dieter Ohr
1.1 Lineares Regressionsmodell: Systematischer Teil, Störgrößen und Residuen Wenn wir in diesem Beitrag von den Annahmen des linearen Regressionsmodells sprechen, dann beziehen sich diese auf die Regressionsfunktion der Grundgesamtheit, also auf eine Regressionsbeziehung, die wir nicht beobachten können: Yi = β0 + β1 X1i + β2 X2i + · · · + βk−1 Xk−1i + εi
(1)
Die abhängige Y -Variable wird im multiplen linearen Regressionsmodell mit k − 1 unabhängigen X-Variablen erklärt. In den Regressionskoeffizienten βj schlagen sich die Effekte der X-Variablen nieder; hinzu kommt eine Regressionskonstante β0 . Koeffizienten und X-Variablen bilden den systematischen Teil der Regressionsfunktion. Er spiegelt die theoretischen Vorstellungen des Anwenders wider, welche Erklärungsgrößen für wichtig erachtet werden, auch, in welcher funktionalen Beziehung man diese Erklärungsgrößen zur Y -Variablen sieht (die nicht notwendigerweise linear sein muss; vgl. dazu 2.1). Dem gegenüber steht mit εi der in der ökonometrischen Literatur meist als Störgröße (angelsächsisch: disturbance term) bezeichnete unsystematische Teil der Regressionsfunktion: (2) εi = Yi − Yˆi Die Störgrößen εi sind die Differenzen zwischen den Y -Werten und den vorhergesagten Y -Werten (Yˆi ) der Regressionsfunktion der Grundgesamtheit. Für ein Verständnis der Regressionsannahmen ist es wichtig zu klären, was sich hinter dieser Störgröße verbirgt (vgl. Berry 1993, S. 6–11).1 Zu diesem Zweck ist es sinnvoll, ein „wahres“ Regressionsmodell der Grundgesamtheit 2 als Ausgangspunkt zu nehmen: In diesem Modell wird Yi erklärt mit sämtlichen dafür benötigten Variablen. Dies werden in der Regel mehr als die k − 1 X-Variablen sein. Hinzu mag noch eine „intrinsische“ Zufallskomponente Ri kommen, die dafür stehen könnte, dass jedes Regressionsmodell, besonders wenn es menschliches Handeln erklären will, einen letzten, nicht aufklärbaren Zufallsrest beinhaltet. Bis auf diesen kleinen Rest Ri handelt es sich bei dieser Modellvorstellung also um ein deterministisches Erklärungsmodell. In dieses Modell finden auch jene Variablen Eingang, die in der Regressionsfunktion der Grundgesamtheit (Gleichung (1)) nicht berücksichtigt werden, sei es, weil sie nicht gemessen werden konnten, sei es, weil jede für sich nur einen kleinen und unbedeutenden Erklärungsbeitrag leisten würde. Diese Variablen werden hier mit Z bezeichnet: Yi = β0 + (β1 X1i + β2 X2i + · · · + βk−1 Xk−1i ) + (δ1 Z1i + δ2 Z2i + · · · + δm Zmi ) + Ri (3) 1
2
„Nothing is more critical to an understanding of the „substantive meaning“ of regression assumptions than an appreciation of the meaning of the disturbance term“ (Berry 1993, S. 6). Die Frage, ob es ein „wahres“ Regressionsmodell geben könne, hat fast philosophisches Kaliber und wird durchaus unterschiedlich beantwortet. Wenn man bedenkt, dass sich Regressionsmodelle formulieren lassen, die Erklärungsvariablen von sehr unterschiedlicher konzeptueller Distanz zur abhängigen Y -Variablen enthalten können, dann scheint es fraglich, ob es genau ein wahres Modell geben kann (vgl. dazu Berry 1993, S. 6–11).
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
641
Formuliert wird aber tatsächlich nur Modell (1) mit den insgesamt k − 1 X-Variablen. Damit lässt sich die Störgröße εi der Regressionsfunktion der Grundgesamtheit wie folgt darstellen: εi = δ1 Z1i + δ2 Z2i + · · · + δm Zmi + Ri (4) Aus dieser Sicht wird die Störgröße als summarische Größe verstanden, die die Einflüsse all jener Variablen erfasst, welche die abhängige Variable beeinflussen und nicht in das Regressionsmodell einbezogen wurden, und die – so die grundlegende Annahme – jeweils für sich betrachtet nur kleine, unbedeutende Effekte ausüben.3 Dazu kommt die intrinsische Zufallskomponente Ri . Alle weiter unten behandelten Annahmen, die die Störgröße εi betreffen, fußen auf diesem Verständnis. Und diese Annahmen werden nur insoweit erfüllt sein können, als dieses Verständnis bei einem konkreten Regressionsmodell auch angemessen ist. Wenn wir im Folgenden die Annahmen des linearen Regressionsmodells beleuchten und eine Reihe von Diagnoseinstrumenten vorstellen, ist es wichtig, stets streng zu unterscheiden zwischen der unbekannten und nicht beobachtbaren Regressionsfunktion der Grundgesamtheit (1) und der Schätzgleichung für die Stichprobe, die in Gleichung (5) wiedergegeben ist: Yi = βˆ0 + βˆ1 X1i + βˆ2 X2i + · · · + βˆk−1 Xk−1i + ei
(5)
Mit den Regressionskoeffizienten der Stichprobe, den βˆj , werden die Koeffizienten βj der Regressionsfunktion der Grundgesamtheit geschätzt. Die Stichprobenresiduen ei stellen die Abweichungen der beobachteten Y -Werte aus der Stichprobe von den Vorhersagewerten der Y -Variablen dar, die auf der Stichprobenregressionsfunktion (5) beruhen: (6) ei = yi − yˆi Sämtliche Annahmen zur Störgröße beziehen sich auf die Regressionsfunktion der Grundgesamtheit (1), müssen aber – notwendigerweise – mit Stichprobendaten, also auf Grundlage der Regressionsfunktion der Stichprobe (5), geprüft werden. Dabei wird man bestrebt sein, auf der Basis der Stichprobenresiduen ei Rückschlüsse auf die Störgrößen εi zu ziehen. Doch ist die Entsprechung der Stichprobenresiduen ei und der Störgrößen εi keineswegs perfekt, so dass die darauf aufbauenden diagnostischen Verfahren unvermeidlich mit oft mehrdeutigen Interpretationen verbunden sein werden: Zum einen stellen erstere nur eine Auswahl dar, zum anderen unterscheiden sich 3
Wichtig ist dabei, dass es sich bei nicht berücksichtigten Determinanten von Y um Variablen handelt, die keine bedeutsamen Effekte ausüben: „. . . the interpretation of the disturbance as accounting for a large number of individually insignificant and independent factors usually called chance. This interpretation rules out the frequently made assertion that the disturbance includes all systematic explanatory variables that have been omitted from the deterministic part of the regression equation because of nonmeasurability, ignorance, or convenience“ (Kmenta 1997, S. 209). Denn werden Determinanten von Y mit bedeutsamen Effekten nicht einbezogen, kann dies dazu führen, dass ein Großteil der in diesem Kapitel vorgestellten Annahmen verletzt ist. Insofern sind Annahmenverletzungen im linearen Regressionsmodell meist ein Indiz für ein nicht vollständig formuliertes Erklärungsmodell.
642
Dieter Ohr
Residuen und Störgrößen auch konzeptuell voneinander (vgl. dazu 2.2). Eine Grundregel bei der Inspektion der Stichprobenresiduen ei wird darin bestehen, auf systematische Muster zu achten. Im Lichte des grundlegenden Verständnisses der Störgrößen εi sollten diese keine Systematik beinhalten, da alle systematischen Erwägungen im Idealfall in die Formulierung des Regressionsmodells eingeflossen sind. Wenn und insoweit nun die Stichprobenresiduen ei die Störgrößen εi , wenn auch eingeschränkt, reflektieren, dann sollten etwaige systematische Muster der Störgrößen auch in den Stichprobenresiduen aufscheinen. Wenn wir in Abschnitt 2 die Annahmen des linearen Regressionsmodells vorstellen (2.1), dann bezieht sich ein Teil dieser Annahmen auf die Störgrößen, ein anderer Teil auf die X-Variablen und die Y -Variable. Es wird sich dabei zeigen, dass sich die Regressionsannahmen unterschiedlich gut überprüfen lassen: Einige der Annahmen können einfach und direkt anhand der Stichprobendaten geprüft werden, andere nur mittelbar und mit einem gewissen Analyseaufwand. Wieder andere Annahmen lassen sich nur schwer oder überhaupt nicht prüfen. Für die Interpretation von Regressionsergebnissen besonders in den Sozialwissenschaften spielen zwei Annahmen eine wichtige Rolle, die nicht zu den eigentlichen Regressionsannahmen zählen und die zudem in empirischen Anwendungen nur selten explizit erwähnt werden: In der Mehrzahl der Regressionsanalysen in den Sozialwissenschaften werden querschnittlich gewonnene Daten verwendet, gleichzeitig aber häufig in einem längsschnittlichen Sinn interpretiert. So wird man bei der Regression des Jahreseinkommens von Personen auf den Grad ihrer Schulbildung in der Regel so interpretieren, dass mit jeder Einheit, um der die Schulbildung einer Person steigt, sich auch (im Mittel) das Jahreseinkommen um den Betrag des Regressionskoeffizienten erhöht. Strenggenommen hat man freilich nur „querschnittliche Zuwächse“ gewonnen, indem unterschiedliche Personen miteinander verglichen wurden. Von diesen querschnittlichen „Veränderungen“ kann man aber nicht ohne weiteres auf die in den meisten Fällen wohl theoretisch interessanteren längsschnittlichen Veränderungen schließen. Eigentlich möchte man wissen, ob die Investition in Bildung sich bei ein und derselben Person in einem höheren Einkommen niederschlägt. Ein solcher Schluss von querschnittlichen Unterschieden auf Veränderungen auch im Längsschnitt ist jedoch nur möglich, wenn zwei Annahmen erfüllt sind: Zum einen muss der Mechanismus, der die Y -Variable erklärt, über die (querschnittlichen) Untersuchungseinheiten hinweg konstant („crossunit invariance“), zum anderen muss die modellierte Beziehung über die Zeit hinweg stabil sein („cross-time invariance“) (Berry 1993, S. 23). Nur wenn beide Annahmen plausibel begründet werden können, ist die gängige Praxis, querschnittliche Ergebnisse auch längsschnittlich zu interpretieren, gerechtfertigt. 1.2 Regressionsdiagnostik: ein erster Einblick Unter den Begriff der Regressionsdiagnostik wird Unterschiedliches gefasst: In einem engeren Sinn wird unter „Regression Diagnostics“ eine Reihe von Diagnoseinstrumenten subsumiert, die zum einen die Identifikation sogenannter einflussreicher Untersuchungseinheiten erlauben und die zum anderen die detaillierte Analyse von Multikollinearität
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
643
zum Ziel haben (vgl. Brachinger 1990a,b). In einem weiteren Sinn, und so wird Diagnostik in diesem Beitrag verstanden, kann man darunter jede Analyse verstehen, die der Prüfung und Absicherung der Regressionsergebnisse, der Regressionskoeffizienten, der statistischen Tests etc., gewidmet ist. Instrumente der „Regression Diagnostics“ sind damit ein Teil der Diagnostik im weiteren Sinn. Auf zwei Aspekte der Regressionsdiagnostik wird in diesem Beitrag der Blick gerichtet (siehe Abschnitt 2.2): Erstens geht es um Diagnostik, die die grundlegenden Annahmen des linearen Regressionsmodells betrifft, etwa die Annahme der Linearität.4 Zweitens werden diagnostische Instrumente besprochen, mit deren Hilfe einzelne Untersuchungseinheiten in den Daten aufgefunden werden, die einen besonders großen Einfluss auf die Regressionslösung nehmen. Solche einflussreichen Beobachtungen können wie folgt definiert werden: „An influential observation is one which, either individually or together with several other observations, has a demonstrably larger impact on the calculated values of various estimates (coefficients, standard errors, t-values, etc.) than is the case for most of the other observations“ (Belsley et al. 1980, S. 11). Dass Regressionsdiagnostik kein Glasperlenspiel darstellt, welches man getrost einem kleinen Expertenkreis überlassen kann, sollen, einführend, die vier berühmten Beispiele Anscombes (1973) veranschaulichen. Anscombe hat seine Beispiele so konstruiert, dass diese identische Kernergebnisse hervorbringen: Die Regressionsgleichung lautet jeweils Yˆi = 3 + 0,5Xi , der geschätzte Standardfehler für die Steigung der Regressionsgeraden beträgt stets 0,118, und das Bestimmtheitsmaß R2 hat in allen vier Fällen den Wert 0,667 (Anscombe 1973, S. 19). Der t-Wert beträgt 0,5/0,118 = 4,24, so dass sich der lineare Effekt der X-Variablen auch statistisch absichern lässt. Nicht wenige Anwender würden sich wohl mit einem solchen Ergebnis zufrieden geben und einen beeindruckenden, zudem statistisch abgesicherten Effekt der X-Variablen berichten. Dass und warum dies höchst riskant ist, zeigen die vier Beispiele Anscombes, wenn man sie graphisch darstellt (vgl. Abbildung 1). Fall (a) stellt den Idealfall dar. Das lineare Modell passt sehr gut, die Fehlerstreuung um die Regressionsgerade ist eher klein und ohne ein erkennbares systematisches Muster. Auch finden sich keine Ausreißerwerte bei der X- oder der Y -Variablen. Bei Fall (b) ist offensichtlich die Annahme einer linearen Beziehung nicht angemessen. Bei Fall (c) gibt es eine Beobachtung, die einen relativ großen Wert bei der X-Variablen hat, besonders aber bei der Y -Variablen einen Ausreißerwert darstellt und im Ergebnis die Regressionsgerade nach oben zieht, so dass die übrigen Untersuchungseinheiten nur eingeschränkt durch die Gerade repräsentiert werden. Schließlich ist bei Fall (d) allein die Untersuchungseinheit mit dem X-Wert 19 dafür verantwortlich, dass überhaupt eine Regressionsbeziehung berechnet werden kann, denn ohne diese Beobachtung hätten alle Untersuchungseinheiten den Wert 8 und damit eine Varianz von null. Sowohl bei Fall (c) als auch bei Fall (d) ist es jeweils nur eine Untersuchungseinheit, die einen ganz erheblichen Einfluss auf die Regressionsgerade ausübt. Eine erste Gemeinsamkeit dieser beiden einflussreichen Beobachtungen liegt darin, dass sie Ausprägungen bei der X-Variablen haben, die weit von deren Mittelwert entfernt liegen. Gerade darin 4
Diese Annahmen werden in Abschnitt 2.1 vorgestellt und erläutert.
644
Dieter Ohr
(a)
(b)
(c)
(d)
Abb. 1: Die Anscombe-Beispiele zur Regressionsdiagnostik liegt die (potenzielle) Hebelwirkung (alternativ: Leverage-Effekt) dieser Beobachtungen: Durch die große Entfernung von den anderen Beobachtungen sind sie in der Lage, die Regressionsgerade in ihre Richtung zu bewegen. Eine zweite Gemeinsamkeit besteht darin, dass auch die Y -Ausprägung sich vom Gros der Beobachtungen deutlich unterscheidet. Beide Eigenschaften zusammen führen dazu, dass die betreffende Beobachtung bei Fall (c) und bei Fall (d) die Regressionsschätzung in hohem Maß bestimmt. Die wichtigste Lehre, die man aus den Anscombe-Beispielen ziehen sollte, ist sicherlich die, dass es ohne eine zumindest grobe Regressionsdiagnostik nicht geht! In jedem Fall sollte man seine Daten in der Form einfacher Graphiken inspizieren (zu avancierten graphischen Methoden der Analyse und Diagnostik vgl. Kapitel 34 in diesem Handbuch). Auch scheint es sinnvoll, den Begriff der statistischen Absicherung, der gemeinhin statistische Tests von Regressionskoeffizienten oder deren Konfidenzintervalle umfasst, um die Prüfung der wichtigsten Annahmen wie um die Diagnose einflussreicher Beobachtungen zu erweitern. In den Anscombe-Beispielen lassen sich bereits einige Aspekte der Regressionsdiagnostik erkennen, die im folgenden Abschnitt im Detail erläutert wird: Informationen zu den Annahmen des Regressionsmodells liefert zum Beispiel die Graphik zu Fall (b), die eine nichtlineare Beziehung anzeigt. Ähnliches gilt für die Graphik zu Fall (d), in der offenbar wird, dass die X-Variable, ohne den extremen Datenpunkt, keine
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
645
Varianz aufweist. Auch veranschaulichen die Fälle (c) und (d) sehr gut, was man unter einflussreichen Untersuchungseinheiten verstehen kann.
2 Mathematisch-statistische Grundlagen 2.1 Annahmen der linearen Regressionsanalyse In diesem Abschnitt geht es darum, die Annahmen des Regressionsmodells vorzustellen, ihre Bedeutung zu erläutern und die möglichen Auswirkungen einer Verletzung dieser Annahmen zu beleuchten. Da für einzelne der nachfolgend besprochenen Annahmen und Instrumente die Matrixschreibweise gebraucht wird, sei hier das Regressionsmodell auch in Matrixform dargestellt. Die (multiple) Regressionsfunktion der Grundgesamtheit lautet dann wie folgt: y = Xβ + ε
(7)
Dabei ist y ein n × 1-Spaltenvektor, X eine n × k-Matrix (n Untersuchungseinheiten und k unabhängige Variablen; die erste Spalte enthält ausschließlich Einsen, die weiteren k − 1 Spalten enthalten die „echten“ X-Variablen), β ist ein k × 1-Spaltenvektor, der die „wahren“ Regressionskoeffizienten der Grundgesamtheit (einschließlich der Regressionskonstanten) ausweist. Entsprechend lautet die Regressionsfunktion der Stichprobe: ˆ+e y = Xβ (8) Nach dem Kleinst-Quadrat-Verfahren ergibt sich die folgende Schätzformel für die Regressionskoeffizienten: ˆ = (X X)−1 X y β (9) Wenden wir uns nun den Annahmen zu, die dem linearen Regressionsmodell zugrundeliegen (für Übersichten vgl. Berry 1993, S. 12; Gujarati 1995, S. 285; Kmenta 1997, S. 392 ff.). Die erste Annahme betrifft die funktionale Form der Beziehung zwischen den X-Variablen und der Y -Variablen. Danach ist die Beziehung zwischen Y und den unabhängigen Variablen linear (A1). Gemeint ist damit, dass die Beziehung linear in den Parametern, also in den Regressionskoeffizienten, ist. Mit Bezug auf die Variablen kann die Beziehung dagegen auch nichtlinear sein. Solche Nichtlinearitäten lassen sich durch Transformation der Y -Variablen und/oder der X-Variablen berücksichtigen. Auch können nicht-additive Einflüsse von X-Variablen – der Effekt einer X-Variable unterscheidet sich je nach Ausprägung einer anderen oder mehrerer X-Variablen – auf einfache Weise mittels Produktvariablen einbezogen werden (vgl. dazu Kapitel 24 und 26 in diesem Handbuch). Die fünf Annahmen (A2) bis (A6) beziehen sich auf Messniveau und Messqualität der einbezogenen Variablen sowie auf das Maß an Information, das die Daten beinhalten. In Annahme (A2) wird gefordert, dass die X-Variablen metrisches Messniveau haben oder als dichotome Indikatorvariablen (Dummy-Variablen) in die Regressionsgleichung einbezogen werden. Insoweit ist bei der Auswahl der X-Variablen eine große Flexibilität möglich, da auch kategoriale Variablen einfach und problemlos in der Form von
646
Dieter Ohr
Indikatorvariablen berücksichtigt werden können. Des Weiteren soll die zu erklärende Y -Variable metrisch, kontinuierlich und in ihrem Wertebereich nicht beschränkt sein (A2). In der Praxis der sozialwissenschaftlichen Datenanalyse, besonders bei mittels Umfragen erhobenen Individualdaten, wird man nicht viele Variablen finden, die kontinuierlich und in ihrem Wertebereich nicht beschränkt sind.5 Eine metrische Variable wird aber umso mehr dem formulierten Ideal entsprechen, je größer die Anzahl der Ausprägungen ist (Berry 1993, S. 47). Was „groß genug“ in der datenanalytischen Praxis heißen soll, ist schwer an einem bestimmten Wert festzumachen. Vermutlich ist eine als intervallskaliert verstandene Einstellungsvariable mit fünf Ausprägungen zu weit von dem Ideal einer metrischen und kontinuierlichen Y -Variablen entfernt. Mit Annahme (A3) wird unterstellt, dass die Variablen des Regressionsmodells, abhängige wie die unabhängigen, ohne Messfehler sind (A3). Diese Annahme besagt, dass sämtliche Variablen sowohl ohne systematische als auch ohne zufällige Fehler gemessen werden. Messfehler in den Variablen nehmen auf unterschiedliche Weise Einfluss auf Regressionsergebnisse. Dabei werden systematische Messfehler stets zu verzerrten Schätzungen führen, freilich nicht in jedem Fall auch bei den Regressionseffekten der X-Variablen. Auch zufällige Messfehler in den X-Variablen können Verzerrungen der Regressionsschätzungen nach sich ziehen. Im einfachsten Fall mit nur einer X-Variablen bewirken zufällige Messfehler in der X-Variablen eine Unterschätzung gegenüber dem wahren Regressionseffekt (vgl. zu den verschiedenen Möglichkeiten ausführlich Berry 1993, S. 49–60).6 Zufällige Messfehler allein in der Y -Variablen verzerren die Schätzung der Regressionskoeffizienten nicht, erhöhen aber die Varianz der Störgröße (Kmenta 1997, S. 348). Nach der vierten Annahme muss jede X-Variable eine Varianz größer als null aufweisen (A4). Dass diese Annahme unverzichtbar ist, sieht man sofort an der Schätzformel für die Steigung der Regressionsgeraden bei einer linearen Regression mit nur einer X-Variablen: COVxy βˆ1 = (10) VarianzX Da die Varianz der X-Variablen im Nenner des Ausdrucks steht, kann die Steigung der Regressionsgeraden nur dann bestimmt werden, wenn die Varianz größer als null ist. Ist die Varianz einer X-Variablen zwar nicht null, aber doch sehr klein, so kann diese Variable zwar in die Regressionsgleichung einbezogen werden, die Schätzung wird allerdings mit großer Unsicherheit erfolgen und sich in einem großen Standardfehler niederschlagen. Denn eine zu kleine Streuung einer X-Variablen bedeutet, dass die Stichprobe zuwenig an Information über die Verteilung der Variablen enthält. Des Weiteren muss nach Annahme (A5) im Falle einer multiplen Regressionsanalyse mit zwei oder mehr unabhängigen Variablen gelten, dass es unter den X-Variablen keine 5
6
Dass man in den Standardlehrbüchern der Ökonometrie nicht viel zu Messniveau, Wertebereich etc. der Y -Variablen findet, dürfte wohl mit der speziellen Datensituation bei den meisten Anwendungen in der Ökonomie zusammenhängen, wo in der Regel mit Variablen gearbeitet werden kann, die dem Ideal metrischer und kontinuierlicher Variablen sehr nahe kommen. Cook & Weisberg (1982, S. 6) fordern für Messfehler in den X-Variablen, dass diese relativ zur Variation der Störgröße klein sein sollen.
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
647
perfekten linearen Abhängigkeiten gibt (A5). Perfekte Kollinearität würde beispielsweise dann vorliegen, wenn in einer Querschnittsstudie sowohl das Geburtsjahr einer Person als auch das Lebensalter als X-Variablen in die Regressionsgleichung aufgenommen würden. Da sich das Lebensalter für jede Untersuchungseinheit als Differenz aus dem Erhebungsjahr und dem Geburtsjahr ergibt, sind Geburtsjahr und Alter linear abhängig. Perfekte Kollinearität läge auch dann vor, wenn man eine kategoriale Variable mit, zum Beispiel, fünf Ausprägungen in fünf 0-1-kodierte Dummy-Variablen überführte und diese sämtlich in die Regressionsgleichung einbezöge. Vier der fünf Dummy-Variablen enthalten bereits die vollständige Information der kategorialen Ausgangsvariablen, so dass die fünfte Dummy-Variable linear abhängig von den anderen vier ist. Beide Beispiele sollten illustrieren, dass perfekte Kollinearität in der Praxis eigentlich nur dann auftreten kann, wenn der Anwender das Regressionsmodell falsch spezifiziert hat. Lässt man derartige Spezifikationsfehler außer acht, so werden in der praktischen Datenanalyse perfekte lineare Abhängigkeiten kaum auftreten. Wenn dennoch vom Multikollinearitätsproblem die Rede ist, sind damit sehr enge Abhängigkeiten unter den X-Variablen gemeint, die auch als stochastische lineare Abhängigkeiten bezeichnet werden. Multikollinearität als stochastische lineare Abhängigkeit stellt keine Verletzung von Annahme (A5) dar, kann sich aber ganz erheblich auf die Kleinst-QuadratSchätzungen auswirken – in der Regel wird die Präzision der Schätzung darunter leiden. Hohe Kollinearität ist darin dem Problem kleiner Varianzen der X-Variablen sehr ähnlich, denn sie bedeutet, dass mindestens eine der X-Variablen nur noch wenig Variation aufweist, nachdem man für die anderen X-Variablen kontrolliert hat. Mit der sechsten Annahme wird verlangt, dass die Anzahl der Untersuchungseinheiten mindestens so groß ist wie die Zahl der zu schätzenden Koeffizienten (A6). Hinter dieser Annahme steckt die Intuition, dass man nicht mehr an Information aus den Daten gewinnen kann (=Anzahl zu schätzender Koeffizienten), als in den Daten enthalten ist (=Anzahl der Untersuchungseinheiten). So werden bei einer Regressionsanalyse mit vier X-Variablen zusammen mit der Regressionskonstanten insgesamt fünf Regressionskoeffizienten geschätzt, was nur geschehen kann, wenn der Analyse mindestens fünf Untersuchungseinheiten zugrundeliegen. In den allermeisten Fällen, bei üblichen Stichprobengrößen von 1000 bis 2000, wird Annahme (A6) völlig unproblematisch sein. Allenfalls kann es bei Analysen in sehr kleinen Teilgruppen oder Analysen mit aggregierten Daten auf der Ebene von Ländern erforderlich sein, sich auf ein sparsames Regressionsmodell mit nur wenigen zu schätzenden Regressionskoeffizienten zu beschränken. Alle drei Annahmen (A4), (A5) und (A6) werden durch die Rangbedingung impliziert, die besagt, dass die X-Matrix der unabhängigen Variablen vollen Spaltenrang haben muss.7 Bei k Spalten, k − 1 echten unabhängigen Variablen und einer Einserspalte für die Regressionskonstante, muss demnach der Spaltenrang k betragen. Damit die Rangbedingung erfüllt ist, muss jede der X-Variablen eine von null verschiedene Varianz haben (A4), darf es keine perfekte lineare Abhängigkeit unter den X-Variablen geben (A5) und muss zuletzt die Anzahl der Untersuchungseinheiten n mindestens k 7
Wenn die X-Matrix nicht den vollen Spaltenrang hätte, dann würde dies ebenso für das Matrixprodukt X X in (9) gelten, das dann nicht mehr invertiert werden könnte.
648
Dieter Ohr
betragen (A6). Die drei Annahmen haben zum einen gemeinsam, dass dann, wenn sie nicht erfüllt sind, eine Regressionsschätzung überhaupt nicht möglich ist. Zum anderen sind sie sich darin ähnlich und bilden insofern eine Einheit, als durch sie beleuchtet wird, wieviel an Information die Daten enthalten. Wenn nun die X-Variablen eine kleine Varianz haben, wenn sehr hohe Multikollinearität vorherrscht und/oder wenn die Regressionsanalyse nur auf wenigen Beobachtungen beruht, dann ist eine Regressionsschätzung zwar möglich, die Daten enthalten aber nicht genügend Information, um zu verlässlichen Schätzungen gelangen zu können. Die letzten fünf Annahmen (A7) bis (A11) beziehen sich schließlich auf die nicht beobachtbaren Störgrößen εi der Regressionsfunktion der Grundgesamtheit. Was genau ist gemeint, wenn von der Verteilung der Störgrößen εi die Rede ist? Im Fall von nur einer unabhängigen X-Variablen sind dies die Verteilungen der Störgrößen bei jedem der auftretenden X-Werte. Bei einer multiplen Regression mit mehreren X-Variablen geht es entsprechend um die Verteilung der Störgröße bei jeder Kombination der Werte aller X-Variablen. Allgemein spricht man von konditionalen Verteilungen der Störgrößen. Nach Annahme (A7) soll die Störgröße εi einen Mittelwert von null besitzen, das heißt, Abweichungen von der „wahren“ Regressionsgeraden nach oben und nach unten sollen sich ausgleichen (A7): E(εi |Xi ) = 0, für alle Untersuchungseinheiten i = 1, . . . , n
(11)
Gäbe es dagegen im Mittel positive Abweichungen von der Regressionsfunktion der Grundgesamtheit (oder negative Abweichungen), so wiese dies auf ein verbliebenes systematisches Element in den Störgrößen hin. Welche Auswirkungen eine Verletzung dieser Annahme hat, hängt vor allem davon ab, ob es sich bei allen Beobachtungen um eine konstante Abweichung von der Null handelt oder aber um eine, die zwischen den Beobachtungen variiert. Im ersten Fall würde die Regressionskonstante β0 um diesen Betrag verzerrt geschätzt; im zweiten Fall, der problematischer wäre, könnte sich hinter der variierenden Abweichung eine nicht berücksichtigte Erklärungsvariable verbergen, so dass dann eine verzerrte Schätzung der Effekte für die X-Variablen in der Gleichung eintreten könnte (vgl. hierzu Kmenta 1997, S. 267–269). Weiterhin sollen die εi , so Annahme (A8), die gleiche Streuung besitzen. Diese Annahme wird unter den Begriff der Homoskedastizität gefasst (A8): Var(εi |Xi ) = σ 2 , für alle Untersuchungseinheiten i = 1, . . . , n
(12)
Ist die Annahme nicht erfüllt, unterscheiden sich die Varianzen der Störgrößen also, so spricht man von heteroskedastischen Störgrößen.8 Bei heteroskedastischen Störgrößen 8
Bei querschnittlichen Daten ist die Annahme häufig aus inhaltlicher Perspektive nicht sehr plausibel. Wenn man etwa die Höhe der Konsumausgaben von Haushalten unter anderem mit ihrem Haushaltseinkommen erklären will, so werden Haushalte mit sehr niedrigem Einkommen nur einen kleinen Spielraum haben, während dieser für Haushalte mit hohem Einkommen weit größer ist. Entsprechend wird die Varianz der Störgröße bei den Haushalten mit hohem Einkommen größer sein, so dass die Annahme der Homoskedastizität verletzt ist.
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
649
sind die Kleinst-Quadrat-Schätzfunktionen nach wie vor unverzerrt, allerdings nicht mehr effizient, das heißt, unter den unverzerrten Schätzfunktionen ist die Varianz der Kleinst-Quadrat-Koeffizienten nicht länger die kleinste (Kmenta 1997, S. 272). Man kann dies dadurch erklären, dass bei der Minimierung nach dem Kleinst-QuadratVerfahren jede quadrierte Störgröße das gleiche Gewicht erhält. Dies ist solange sinnvoll und angemessen, als die Störgrößen auch tatsächlich die gleiche Streuung aufweisen. Gilt dies nicht, so werden diejenigen Störgrößen mit einer größeren Varianz ungenauere Informationen über die Regressionsgerade liefern (ebd.). Zudem werden bei heteroskedastischen Störgrößen die Standardfehler für die Regressionskoeffizienten verzerrt geschätzt. Damit gelten auch die gängigen Konfidenzintervalle und Signifikanztests nicht (vgl. dazu Kmenta 1997, S. 276 ff.). Nach Annahme (A9) sollen die Störgrößen nicht untereinander korreliert sein (keine Autokorrelation): Cov(εi |Xi ,εj |Xj ) = 0, (i = j), für alle Untersuchungseinheiten i,j = 1, . . . , n (13) Besonders bei Zeitreihenanalysen stellt sich das Problem der Autokorrelation, dann nämlich, wenn man plausiblerweise annimmt, dass die nichtberücksichtigten Einflussgrößen, in der obigen Notation also die Z-Variablen, über die Zeit hinweg ähnliche Ausprägungen aufweisen. Eine andere Datenkonstellation, bei der Autokorrelation vorkommen kann, ist die Gruppierung von Untersuchungseinheiten nach räumlichen Kontexten, die sich stark voneinander unterscheiden. In beiden Fällen wäre das oben formulierte grundlegende Verständnis der Störgröße εi nicht gegeben, da diese jeweils ein systematisches, nicht modelliertes Moment beinhalten würde. Ist Annahme (A9) nicht erfüllt, so ist dies mit den gleichen Auswirkungen verbunden wie bei einer Verletzung der Annahme der Streuungsgleichheit. Für jede Wertekombination der X-Variablen gilt nach Annahme (A10), dass die Störgröße εi einer Normalverteilung folgt (A10). Auch die Normalverteilungsannahme beruht auf der Interpretation der Störgröße aus Gleichung (4) als summarische Größe, die alle für sich gesehen kleinen Einflüsse auf die Y -Variable erfasst. Kleine positive und kleine negative Einflüsse auf die Y -Variable sollten sich deshalb ausgleichen, kleine Abweichungen – nach oben oder unten – von der wahren Regressionsfunktion sind deshalb am wahrscheinlichsten, große Abweichungen eher unwahrscheinlich. Die Normalverteilung bildet eine solche Verteilung ab.9 Betrachtet man die Normalverteilungsannahme zusammen mit (A7) – die Störgröße ist im Mittel null – und (A8) – die Störgrößen haben alle die gleiche Streuung –, so ergibt sich, dass die Störgrößen εi alle identisch verteilt sind: εi |Xi ∼ N (0; σ 2 ), für alle Untersuchungseinheiten i = 1, . . . , n
(14)
Wenn das Regressionsmodell korrekt spezifiziert wurde, wenn also besonders die relevanten X-Variablen einbezogen wurden, dann ist die Annahme normalverteilter 9
Auch wenn man in der Praxis – realistischerweise – von stochastischen X-Variablen ausgeht, wird im linearen Regressionsmodell keinesfalls angenommen, dass auch die X-Variablen normalverteilt sind. Diese werden vielmehr in vielen Fällen diskreter Natur sein und nur wenige Ausprägungen haben (Fox 1984, S. 62).
650
Dieter Ohr
Abb. 2: Die Annahmen zur Verteilung der Störgrößen Störgrößen häufig eine plausible Annahme. Doch selbst wenn sie nicht erfüllt sein sollte, folgen – zumindest bei nicht allzu kleinen Fallzahlen – die Stichprobenverteilungen der Regressionskoeffizienten näherungsweise dennoch einer Normalverteilung. Statistische Tests und Konfidenzintervallschätzungen für die Regressionskoeffizienten sind daher bei nicht allzu kleinen Fallzahlen in guter Näherung gültig, so dass die Annahme der Normalverteilung nur im Falle sehr kleiner Fallzahlen unverzichtbar ist. Die Normalverteilungsannahme ist somit, wie Schnell (1994, S. 221) zu Recht anmerkt, aus dieser Sicht eine der eher weniger wichtigeren unter den Regressionsannahmen, die aber gleichwohl zu den am häufigsten getesteten Annahmen gehören dürfte. Dennoch ist sie keineswegs irrelevant, denn gravierende Abweichungen von der Normalverteilung – besonders in der Form von „heavy tails“ (Fox 1984, S. 174) – wirken sich negativ auf die Effizienz der Kleinst-Quadrat-Schätzungen aus. Abbildung 2 stellt die drei Annahmen A7, A8 und A10 für die Regressionsfunktion der Grundgesamtheit und den Fall der linearen Einfachregression mit einer X-Variablen dar. Für jede Kombination der X-Werte (in Abbildung 2 für jeden Wert von X1 ) wird also unterstellt, dass die Störgrößen mit Mittelwert null und gleicher Varianz einer Normalverteilung folgen. Nach der elften und letzten Annahme sollen die Störgröße εi und die X-Variablen unkorreliert sein (A11): Cov(Xji ,εi ) = 0, für alle Variablen Xj
(15)
Annahme (A11) zählt zu den wichtigsten der Regressionsannahmen, da sich in ihr auswirkt, ob eine Modellspezifikation gelungen ist. Dabei steht auch diese Annahme wieder in einer engen Beziehung zum Verständnis der Störgröße εi als einer Sammelgröße für sich jeweils unbedeutender Erklärungsgrößen der Y -Variablen. Denn eine Korrelation zwischen X-Variablen und Störgröße könnte darauf gründen, dass bei der Spezifikation der Regressionsgleichung eine für Y relevante Erklärungsvariable vergessen wurde, die gleichzeitig mit den in der Gleichung berücksichtigten X-Variablen korreliert (zu ande-
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
651
ren Möglichkeiten vgl. Berry 1993, S. 27–41). Im Ergebnis wären die Regressionseffekte der betroffenen X-Variablen verzerrt. Eine direkte Überprüfung dieser Annahme ist im Allgemeinen nicht möglich, da die nach dem Kleinst-Quadrat-Verfahren bestimmten Stichprobenresiduen ei qua Verfahren nicht mit den X-Variablen der Regressionsgleichung korreliert sind.10 Umso wichtiger ist es deshalb, dass die Formulierung eines Erklärungsmodells nach theoretischen Vorgaben erfolgt, um das Risiko „übersehener“ Erklärungsvariablen möglichst klein zu halten. Wenn in der bisherigen Darstellung elf Annahmen unterschieden wurden, so sei darauf hingewiesen, dass nicht jede dieser Annahmen in den Übersichten auftaucht, die in einschlägigen Lehrbüchern zu finden sind.11 Auch wird nicht jede Annahme gleich ausführlich behandelt. Das Hauptaugenmerk liegt dabei in den meisten Darstellungen auf den Annahmen zur Störgröße εi , unter diesen wiederum auf den Annahmen, die dem Gauss-Markov-Theorem zugrundeliegen. Dieses Theorem besagt, dass dann, wenn die drei Annahmen (A7), (A8) und (A9) zur Störgröße εi erfüllt sind – alle εi haben einen Mittelwert von null (A7); alle εi haben die gleiche Streuung (A8); keine Autokorrelation der εi (A9) (vgl. Fox 1984, S. 42 f.) –, die Kleinst-Quadrat-Schätzfunktionen die sogenannte BLUE-Eigenschaft besitzen (best linear unbiased efficient). Das heißt, unter den linearen, unverzerrten Schätzfunktionen weisen die Kleinst-Quadrat-Schätzer die kleinste Varianz auf. Die BLUE-Eigenschaft bedeutet allerdings nicht, dass man mit einem konkreten Datensatz auch präzise Regressionsergebnisse erzielen wird. Denn auch wenn die drei Annahmen (A7), (A8) und (A9) perfekt erfüllt wären, können die Regressionskoeffizienten dennoch in einem hohen Maße unzuverlässig sein, sei es, weil die Varianzen der X-Variablen sehr klein sind, sei es, weil hohe Multikollinearität vorherrscht oder weil die Daten mit gravierenden Messfehlern behaftet sind. Einige der weiteren Annahmen mögen als selbstverständlich erscheinen, etwa (A4) (Varianz der X-Variablen nicht null) und (A6) (n ≥ k), so dass sie in der Literatur nicht eigens erwähnt werden, obwohl ohne sie eine Regressionsschätzung gar nicht möglich wäre. Auch wird oft nicht erwähnt, dass es sich bei der Y -Variablen um eine metrische und (im Idealfall) kontinuierliche Variable handeln muss. Impliziert ist diese Annahme aber in jedem Fall.12
10
11
12
Bei längsschnittlichen Daten, etwa bei Paneldaten, ist eine Verletzung von Annahme (A11) zumindest bei über die Zeit konstanten X-Variablen unschädlich (vgl. dazu Kapitel 36 in diesem Handbuch). Wie für die inferenzstatistische Absicherung allgemein, so muss auch für das Regressionsmodell unterstellt werden, dass die Stichprobe auf einer Wahrscheinlichkeitsauswahl beruht. Wenn etwa nach Annahme (A8) die Varianz der Störgröße den Wert σ 2 annehmen soll, so ist dies gleichbedeutend damit, dass auch die (konditionale) Varianz der Y -Variablen, bei gegebenen Werten der X-Variablen, σ 2 beträgt (vgl. etwa Gujarati 1995, S. 63). Die Berechnung einer Varianz setzt aber metrisches Messniveau voraus. Ähnlich kann man argumentieren, wenn es darum geht, dass die Y -Variable (im Idealfall) kontinuierlich ist. So impliziert die Normalverteilungsannahme (A10), dass es sich um eine kontinuierliche Verteilung handelt, die dann wiederum für die konditionale Verteilung der Y -Variablen gilt (vgl. Gujarati 1995, S. 106).
652
Dieter Ohr
2.2 Grundlagen und Instrumente der Regressionsdiagnostik Stichprobenresiduen und „Leverage“-Werte als Bausteine der Regressionsdiagnostik Ein zentraler Baustein der Regressionsdiagnostik sind die Residuen auf der Grundlage des geschätzten Regressionsmodells der Stichprobe (Gleichung (5)). Es mag naheliegend erscheinen, für die Zwecke der Diagnostik unmittelbar die Stichprobenresiduen ei zu verwenden. Dies ist aber deswegen nicht zu empfehlen, da die ei im Allgemeinen nicht homoskedastisch sind, selbst wenn die Annahme gleicher Varianz für die Störgrößen (A8) erfüllt ist (vgl. Cook & Weisberg 1982, S. 15 ff. oder Fox 1984, S. 164):13 Var(ei ) = σ 2 (1 − hi )
(16)
In dieser Beziehung ist ausgedrückt, dass die Varianz der Stichprobenresiduen zum einen von der Varianz der Störgröße, σ 2 , abhängt, zum anderen aber auch vom Prädiktionswert hi . Je größer dieser Wert, desto kleiner wird, ceteris paribus, die Varianz des Stichprobenresiduums ausfallen.14 Im Falle der Einfachregression mit nur einer unabhängigen Variablen drücken die Prädiktionswerte aus, wie weit der X-Wert einer Untersuchungseinheit – im Verhältnis zur Gesamtvariation von X – vom Mittelwert der X-Variablen entfernt ist (Fox 1984, S. 162): hi =
1 ¯)2 (xi − x + n n (xj − x ¯)2
(17)
j=1
Analog zeigt auch in der multiplen Regression mit mehreren X-Variablen der Prädiktionswert einer Untersuchungseinheit an, ob es sich – nun im mehrdimensionalen Raum der X-Variablen – um einen Ausreißerwert handelt (Chatterjee & Hadi 2006, S. 100). Neben den Stichprobenresiduen ei sind auch die Prädiktionswerte hi ein wichtiger Baustein der Regressionsdiagnostik. Denn wie man Gleichung (16) entnehmen kann, können große hi -Werte einen beträchtlichen Einfluss einzelner Untersuchungseinheiten auf die Regressionsfunktion anzeigen. Atypische X-Werte, die sich in großen hi -Werten ausdrücken, können Lage und Steigung der Regressionsfunktion merklich verändern, wie dies in Fall (c) der Anscombe-Beispiele sichtbar wurde. Diese Hebelwirkung setzt 13
14
Der Begriff der Varianz eines Stichprobenresiduums ei mag überraschen, da man unter ei in der Regel einen konstanten Wert für die i-te Untersuchungseinheit versteht. Varianz von ei meint aber die Streuung über eine sehr große Zahl von Stichproben hinweg, wenn für jede dieser Stichproben das Stichprobenregressionsmodell (Gleichung (5)) geschätzt und für jede Untersuchungseinheit das Residuum berechnet würde. Sämtliche Prädiktionswerte werden in der Prädiktionsmatrix H ausgewiesen. Chatterjee & Hadi (1988, S. 9) sprechen von der „prediction matrix“, da mit Hilfe dieser Matrix die vorhergesagten Werte der Y -Variablen erzeugt werden. Häufig gebraucht wird auch der Begriff der „Hat“-Matrix, da den Y -Werten unter Verwendung dieser Matrix der „Hat“ aufgesetzt wird, der die Vorhersagewerte symbolisiert. Die Prädiktionsmatrix H stellt die Beziehung her zwischen den vorhergesagten und den beobachteten Y -Werten. Ausgehend vom Regressionsmodell der Stichprobe und der Formel für die Kleinst-Quadrat-Schätzung gilt (vgl. im ˆ = X[(X X)−1 X y] = X(X X)−1 X y = Hy . Folgenden Weisberg 2005, S. 168): y ˆ = Xβ
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
653
freilich nur dann tatsächlich ein, wenn auch bei der Y -Variablen atypische Werte vorliegen (Fox 1991, S. 21 f.). Ist dies nicht der Fall, können sich große hi -Werte auch in der Weise auswirken, dass sich Regressionskoeffizienten nicht oder kaum verändern und gleichzeitig die Präzision ihrer Schätzung sogar erhöht. Da die Varianz der Stichprobenresiduen im Allgemeinen nicht konstant ist, wird man in der Regressionsdiagnostik, etwa bei der Prüfung der Homoskedastizitätsannahme, diesen Einfluss gerade ausschalten wollen und die ei auf geeignete Weise standardisieren. Man erhält standardisierte Residuen, indem jedes Stichprobenresiduum durch seine (geschätzte) Standardabweichung dividiert wird (vgl. etwa Belsley et al. 1980, S. 19; Cook & Weisberg 1982, S. 18): esi =
e √ i σ ˆ 1 − hi
(18)
Dabei wird die Standardabweichung der Störgröße wie folgt geschätzt (n: Zahl der Untersuchungseinheiten, k: Zahl der zu schätzenden Regressionskoeffizienten): n 2 ei σ ˆ = i=1 (19) n−k Die nach Gleichung (18) standardisierten Residuen haben freilich den Nachteil, dass Zähler und Nenner des Ausdrucks nicht unabhängig sind (Fox 1991, S. 25). Diese Unabhängigkeit ist bei den studentisierten Residuen gegeben: Bei dieser Form der Relativierung der Residuen wird die Regressionsgleichung nochmals unter Ausschluss der i-ten Beobachtung berechnet und auf dieser Grundlage σ mittels σ ˆ (i) neu geschätzt (vgl. etwa Belsley et al. 1980, S. 20; Cook & Weisberg 1982, S. 20):15 e∗si =
e √i σ ˆ (i) 1 − hi
(20)
Diagnostik zu den Annahmen des klassischen linearen Regressionsmodells Von den elf besprochenen Regressionsannahmen wird im Folgenden für vier gezeigt, wie man diese mit Stichprobendaten prüfen kann: die Linearitätsannahme (A1), die Annahme nicht perfekter und/oder nicht zu hoher Kollinearität (A5) und zwei der Annahmen zur Störgröße εi , nämlich die Annahme der Homoskedastizität (A8) und die Normalverteilungsannahme (A10). Die anderen Annahmen werden hier, mit unterschiedlicher Begründung, nicht aus diagnostischer Perspektive behandelt: Welches Messniveau die Regressionsvariablen (A2) haben, kann der Anwender über die Variablenauswahl und Modellspezifikation entscheiden. Erfüllen die Variablen nicht die 15
Bei der Berechnung der studentisierten Residuen wird der Streichungsansatz angewendet. Dabei untersucht man, inwieweit sich die Ergebnisse einer Regression ändern, wenn man eine Untersuchungseinheit oder mehrere streicht und die Regressionsschätzung (nochmals) ohne diese durchführt (Brachinger 1990a, S. 195). In der Notation wird dies durch (i) angezeigt, wenn die i-te Untersuchungseinheit nicht in die jeweilige Berechnung eingegangen ist.
654
Dieter Ohr
diesbezüglichen Anforderungen, ist etwa die Y -Variable kategorial, so stehen geeignete alternative Analyseverfahren wie die logistische Regressionsanalyse zur Verfügung. Die Diagnose von Messfehlern (A3) ist ein Aspekt von Validitäts- und Reliabilitätsanalysen. Welche Bedeutung zum Beispiel zufälligen Messfehlern zukommt, lässt sich im Rahmen von Messmodellen mit Strukturgleichungsmodellen ermitteln. Durch einfache Inspektion der Daten können die beiden Annahmen (A4) (Varianz der X-Variablen nicht null) und (A6) (n ≥ k) überprüft werden. Annahme (A7) (die Störgröße hat einen Mittelwert von null) betrifft primär die Schätzung der Regressionskonstanten β0 , die in den meisten Regressionsmodellen nur eine untergeordnete Bedeutung hat. Annahme (A9) (keine Autokorrelation der Störgrößen) ist fast immer ein Problem bei Zeitreihenanalysen, kann aber auch bei querschnittlichen Daten auftreten, wenn die Untersuchungseinheiten etwa in räumlicher Hinsicht geklumpt sind. Für diese beiden Konstellationen gibt es mit den Methoden der Zeitreihenanalyse einerseits und den Methoden des Hierarchischen Linearen Modells andererseits ein großes Arsenal an geeigneten Lösungen sowohl für die Diagnostik als auch für den Umgang damit, so dass Autokorrelation an dieser Stelle nicht behandelt wird (vgl. dazu Kapitel 28 und Kapitel 40 in diesem Handbuch; vgl. auch Gujarati 1995, S. 400–451). Ob Annahme (A11) (Störgröße und X-Variablen sind unkorreliert) erfüllt ist, ist ganz wesentlich eine Frage der korrekten und vollständigen Modellspezifikation. Die Annahme selbst kann im Allgemeinen nicht direkt mittels der Stichprobenresiduen geprüft werden (vgl. 2.1). Aus der Vielzahl der Diagnoseverfahren, die mittlerweile verfügbar sind, kann nur eine Auswahl vorgestellt werden. Dabei wird grundsätzlich der graphisch gestützten Diagnose der Vorrang vor statistischen Tests gegeben, da man aus ihr mehr über den Charakter eines etwaigen Problems lernen kann und damit eher als bei formalen Tests Hinweise darauf erhält, wie die Modellspezifikation verbessert werden kann (zu Tests auf Normalverteilung vgl. Fox 1984, S. 175). Beginnen wir mit der Annahme der Linearität (A1) und ihrer Überprüfung. Nichtlinearitäten können im linearen Regressionsmodell Eingang finden, sofern sie über Transformationen der Y -Variablen oder der X-Variablen modellierbar sind. Aber auch diese unproblematische Form der Nichtlinearität muss erst identifiziert werden. Im Falle der Einfachregression mit nur einer X-Variablen ist bereits ein Streudiagramm für Y -Variable und X-Variable wie bei den Anscombe-Beispielen völlig ausreichend, um Abweichungen von der Linearität zu erkennen. Bei einer multiplen Regression wäre dies nicht mehr angemessen, denn dort ist es die um die Einflüsse der anderen X-Variablen bereinigte Y -Variable, für die die Linearitätsannahme gelten soll. Sogenannte Partial-Residual-Plots sind ein geeignetes diagnostisches Instrument (vgl. etwa Fox 1991, S. 54–58 oder Schnell 1994, S. 235–239),16 um Nichtlinearitäten im multiplen Modell zu entdecken. Da eine eventuelle Variablentransformation an der betreffenden X-Variablen ansetzen würde (und nicht an der um die anderen X-Variablen bereinigten X-Variablen), betrachtet man eine Graphik mit den sogenannten partiellen Residuen und der ausgewählten X-Variablen. Die partiellen Residuen ermittelt man wie folgt: 16
Chatterjee & Hadi (2006, S. 110) schlagen alternativ den Begriff der „Residual plus component plots“ vor.
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
655
In einem ersten Schritt werden die Stichprobenresiduen des kompletten multiplen Regressionsmodells geschätzt, das hier vier X-Variablen einschließt (21). In einem zweiten Schritt addiert man den linearen Beitrag der betreffenden X-Variablen, hier ist dies die X1 -Variable, wieder zu den Residuen hinzu (22). Einzelheiten können Fox (1991, S. 56) oder Schnell (1994, S. 238) entnommen werden: ei (X1 ,X2 ,X3 ,X4 ) = Yi − (βˆ0 + βˆ1 X1i + βˆ2 X2i + βˆ3 X3i + βˆ4 X4i )
(21)
ei ((X1 ,X2 ,X3 ,X4 ) + X1 ) = ei (X1 ,X2 ,X3 ,X4 ) + βˆ1 X1i
(22)
Wie identifiziert man, ob in den Daten ein Kollinearitätsproblem (A5) vorliegt? In dem einfachsten Fall einer multiplen Regression mit zwei X-Variablen ist die PearsonKorrelation zwischen den beiden X-Variablen ein geeignetes Maß: Perfekte Kollinearität, und damit eine Verletzung von (A5), würde durch eine Korrelation von +1 oder −1 angezeigt, sehr hohe stochastische Kollinearitäten durch Werte nahe +1 bzw. −1. Hat man mehr als zwei X-Variablen, so genügen Pearson-Korrelationen unter den X-Variablen allerdings nicht mehr. Zwar würden perfekte Kollinearitäten nach wie vor durch Korrelationen von +1 oder −1 sichtbar, ebenso hohe stochastische Kollinearität durch Korrelationen nahe eins. Doch kann ein Multikollinearitätsproblem auch dann bestehen, wenn sämtliche Beziehungen unter den X-Variablen nur mäßig stark wären, dann nämlich, wenn eine der X-Variablen in einer (stochastischen) linearen Abhängigkeit zu zwei oder mehr der restlichen X-Variablen stünde. In diesem Fall kann man sich damit behelfen, unter den X-Variablen Hilfsregressionen zu berechnen, wobei jede der X-Variablen in einer dieser Hilfsregressionen die abhängige Variable bildet, die restlichen X-Variablen die unabhängigen. Sehr hohe Werte des Bestimmtheitsmaßes R2 bei diesen Hilfsregressionen würden ein Kollinearitätsproblem anzeigen. Aus den Bestimmtheitsmaßen der Hilfsregressionen lassen sich die Toleranzindizes bilden: Tolj = 1 − Rj2 , für alle Variablen Xj
(23)
Der Toleranzindex gibt den Anteil an der Varianz der Variablen Xj an, der nicht von den übrigen X-Variablen erklärt wird. Je kleiner also der Toleranzwert, desto enger ist der Zusammenhang zwischen der Variablen Xj und den anderen X-Variablen, und desto höher ist der Grad der Multikollinearität. Nimmt man den Kehrwert, so erhält man den sogenannten Varianzinflationsfaktor : VIFj =
1 , für alle Variablen Xj 1 − Rj2
(24)
Ein Varianzinflationsfaktor gibt an, um welchen Faktor sich die (geschätzte) Varianz eines Regressionskoeffizienten im Vergleich zu vollkommener Abwesenheit von Multikollinearität erhöht. Will man wissen, um welchen Faktor sich die Standardfehler, die von den meisten Statistikprogrammen ausgewiesen werden, im Vergleich zu einem Zustand vollkommen unkorrelierter X-Variablen3verändern, so zieht man die Quadratwurzel des Varianzinflationsfaktors heran, also 1/(1−Rj2 ). Toleranzindizes oder Varianzinflationsfaktoren sind völlig ausreichend, wenn man feststellen will, ob
656
Dieter Ohr
eine bestimmte X-Variable von Kollinearität betroffen ist und lediglich der Grad des Problems abgeschätzt werden soll. Mit dem Ansatz der „Collinearity Diagnostics“ (vgl. dazu Belsley et al. 1980; Brachinger 1990b) kann darüber hinaus die Struktur von Multikollinearität aufgedeckt und erkannt werden, welche der X-Variablen im Einzelnen in eine kollineare Beziehung involviert sind. Die Grundlage bildet die Hauptachsentransformation der Matrix X mittels einer quadratischen, orthogonalen Matrix T in eine Matrix P, deren Spalten paarweise unabhängig sind. Das Matrixprodukt P P ist eine Diagonalmatrix mit den Eigenwerten ϕ1 ≥ · · · ≥ ϕk von X X als Hauptdiagonalelementen. Die Eigenwerte sind Maße für die Variabilität der Spaltenvektoren von P. Wenn ein Eigenwert ϕj nahe null ist, wird die Streuung der Pj sehr klein sein und damit auf eine annähernde Linearkombination der X-Variablen, also auf Multikollinearität, hinweisen. Der einem kleinen Eigenwert zugeordnete Eigenvektor tj liefert Hinweise auf die besonders betroffenen X-Variablen: Diese entsprechen den größten Komponenten von tj . Indem nun die beschriebene Eigenwertanalyse auf die Varianzen der Regressionskoeffizienten bezogen wird, können die Ursachen für deren mögliche Inflationierung im Detail studiert werden, wohingegen Maße wie die Varianzinflationsfaktoren nur das Ergebnis anzeigen. Wird X X ersetzt durch TP PT , so kann die Varianz-KovarianzMatrix S wie folgt geschrieben werden (Belsley et al. 1980, S. 106): S =σ 2 (X X)
−1
= σ 2 (TP PT )
−1
=σ 2 T(P P)
T = σ 2
−1
−1
= σ 2 [(T )
−1
(P P)
k tj tj j=1
T−1 ] (25)
ϕj
Damit folgt für die Varianz des l-ten Regressionskoeffizienten βˆl : Var(βˆl ) = σ 2
k t2lj t2 t2 t2 = σ 2 ( l1 + l2 + · · · + lk ) ϕ ϕ1 ϕ2 ϕk j=1 j
(26)
Zwei Aspekte von Multikollinearität beeinflussen demnach die Koeffizientenvarianz: Wenn die X-Variablen in hohem Maße kollinear sind, wird mindestens ein Eigenwert 2 sehr klein ausfallen und damit das Verhältnis tlj/ϕj und letztlich die Koeffizientenvarianz vergrößern. Doch hängt die Präzision der Regressionsschätzungen auch von den t2lj ab (l für den Koeffizienten βˆl , j für den Eigenwert ϕj ): Ein kleiner Eigenwert ϕj kann durch einen kleinen Wert t2lj ausgeglichen werden. Kollinearität, angezeigt durch einen kleinen Eigenwert, impliziert also keineswegs, dass die Präzision leiden muss. Beide Größen, die t2lj und die Eigenwerte, bilden wichtige Bausteine für die Kollinearitätsanalyse: Gleichung (26) zeigt, wie die Varianz des l-ten Koeffizienten βˆl in j = 1, . . . k Summanden zerlegt wird, dazu multipliziert mit der Varianz der Störgröße. Wenn der j-te Summand für die Varianz von βˆl bezeichnet wird mit: φlj = so führt die Summierung über alle j zu:
t2lj , ϕj
(27)
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
φl =
k
φlj , für alle l = 1, . . . , k
657
(28)
j=1
Damit kann der j-t-l-te Varianzanteil wie folgt definiert werden (Belsley et al. 1980, S. 106 f.): φlj πjl = , für alle l,j = 1, . . . , k (29) φl Varianzanteile πjl (Eigenwert ϕj und Regressionskoeffizient βˆl )17 signalisieren zweierlei: Erstens zeigen große Werte der πjl bei zwei oder mehr Koeffizienten, die einem bestimmten sehr kleinen Eigenwert zugeordnet sind, welche der X-Variablen in eine stochastische Linearbeziehung verwickelt sind. Zweitens indizieren große πjl , dass die vorliegende Kollinearität Probleme verursacht und die Präzision, mit der die betroffenen Koeffizienten geschätzt werden, maßgeblich beeinträchtigt sein wird (Belsley et al. 1980, S. 106). Dabei fragt es sich, ebenso wie bei der Inspektion von Toleranzwerten und Varianzinflationsfaktoren, bis zu welchem Schwellenwert Kollinearität noch als tolerierbar gilt und ab wann man eine stochastische Linearbeziehung als zu eng qualifizieren sollte. Belsley et al. schlagen dazu Konditionsindizes ηj vor, die sich berechnen lassen, indem der größte Eigenwert auf die jeweils anderen Eigenwerte bezogen wird (1980, S. 104; Fox 1984, S. 148): ϕmax , für alle j = 1, . . . , k (30) ηj = ϕj Problematisch seien Konditionsindizes, die einen Wert von 30 übersteigen. Bei den Varianzanteilen πjl werden Werte über 0,5 als hoch gewertet (Belsley et al. 1980, S. 112). Für die Prüfung der Homoskedastizitätsannahme (A8) ist es hilfreich, wenn Vermutungen über die möglichen Ursachen von Heteroskedastizität vorliegen (Gujarati 1995, S. 355–359). Eine erfolgreiche Diagnose wird umso leichter fallen, je genauere Vorstellungen man über die möglichen Ursachen hat. Ideal wäre eine inhaltliche Erklärung, die sich in eine verbesserte Modellspezifikation umsetzen ließe. So könnten Residuen, die klar sichtbar unterschiedlich stark streuen, als Hinweis darauf gewertet werden, dass eine wichtige erklärende Variable vergessen wurde. Wenn die Varianz der Störgröße εi unterschiedliche Werte annimmt, dann geschieht dies häufig in der Weise, dass sich die Varianz systematisch mit einer oder mehreren X-Variablen ändert (Fox 1991, S. 49). Diagnostisch kann man dem Rechnung tragen, indem auf der Horizontalen eines Streudiagramms die Werte einer X-Variablen abgetragen werden; auf der Vertikalen würden die Stichprobenresiduen dargestellt. Alternativ zu den X-Variablen zieht man die Vorhersagewerte der Y -Variablen heran – als Sammelgröße für die diesbezüglichen Einflüsse der X-Variablen (Abbildung 3). Geeigneter als die herkömmlichen Residuen 17
Die Notation bei der Darstellung der „Collinearity Diagnostics“ weicht von der ansonsten in diesem Beitrag verwendeten Notation für die X-Variablen und die Regressionskoeffizienten ab, indem diese hier – die Konstante eingeschlossen – von 1 bis k gezählt werden.
658
Dieter Ohr
Studentisierte Residuen
1,0
0,5
0,0
-0,5
-1,0 0
5
10
15
20
Vorhergesagte Y-Werte
Abb. 3: Graphische Prüfung der Homoskedastizitätsannahme sind für beide Varianten der graphischen Diagnose die standardisierten oder studentisierten Residuen, da bei beiden für die heteroskedastische Eigenschaft der Residuen korrigiert ist (vgl. 2.2; Gleichungen (18) und (20)). Abbildung 3 zeigt ein idealtypisches Muster, bei dem sich die (studentisierten) Residuen fächerförmig mit größer werdenden Vorhersagewerten für Y ausbreiten. Neben der graphischen Darstellung der Residuen existiert eine Reihe statistischer Tests auf heteroskedastische Störgrößen, so etwa der Goldfeld-Quandt-Test (vgl. Kmenta 1997, S. 292 ff.) oder der White-Test (für eine Vielzahl formaler Tests der Homoskedastizitätsannahme vgl. Gujarati 1995, S. 368–389). Ein einfach durchzuführender Test wurde von Glejser vorgeschlagen (vgl. Gujarati 1995, S. 371 f.): Dieser Test soll hier deskriptiv angewendet und interpretiert werden, um die Muster der Residuen im Detail zu untersuchen. Man regrediert dabei den Betrag der Residuen auf die X-Variablen des Regressionsmodells, wobei auch Transformationen der X-Variablen denkbar sind, sofern spezielle nichtlineare Muster unterschiedlicher Streuung der Störgrößen vermutet werden. Letztlich bedeutet eine solche Anwendung eine Verallgemeinerung des in Abbildung 3 dargestellten graphischen Vorgehens. Auch bei diesem diagnostischen Vorgehen ist es wieder sinnvoll, standardisierte oder studentisierte Residuen zu verwenden. Um die Normalverteilungsannahme (A10) zu prüfen, soll ebenfalls das Augenmerk auf die graphische Diagnose gelegt werden, obgleich mehrere statistische Tests verfügbar sind, so etwa der Kolmogorov-Smirnov-Test (K-S-Test). Graphisch kann man Abweichungen von der Normalverteilungsannahme mit einem Normal-ProbabilityPlot der Stichprobenresiduen identifizieren (vgl. Fox 1984, S. 174–177, 1991, S. 40–44; Chatterjee & Hadi 1988, S. 84 ff.). Dabei werden auf der Horizontalen die Residuen abgetragen, auf der Vertikalen die bei Normalverteilung erwarteten Werte. Abweichungen der Residuen von der Normalverteilung zeigen sich in Form von Nichtlinearitäten, annähernd normalverteilte Residuen als lineares Muster. Eine solche Graphik hat gegenüber den formalen Tests den Vorteil, dass Ausreißer erkennbar werden (Schnell
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
659
1994, S. 233). Auch bei Prüfung der Normalverteilungsannahme ist zu empfehlen, mit den standardisierten oder studentisierten Residuen zu arbeiten. Diagnostik zu potenziell einflussreichen Untersuchungseinheiten Wenn von einflussreichen Beobachtungen die Rede ist, so kann man zwei Aspekte unterscheiden: Erstens mag man fragen, worauf sich dieser Einfluss bezieht: „Influence on what?“ (Chatterjee & Hadi 1988, S. 95). Häufig werden dies einzelne Regressionskoeffizienten sein, so dass die Diagnostik sich dann darauf richten würde, welche der Untersuchungseinheiten einen nennenswerten Einfluss auf die Schätzungen bestimmter Regressionskoeffizienten nehmen. Zweitens fragt es sich, wovon es abhängt, dass eine Untersuchungseinheit zu einer einflussreichen wird. Zwei Bestimmungsgrößen entscheiden darüber, welchen Einfluss eine Untersuchungseinheit auf die Schätzung eines Regressionskoeffizienten ausübt, zum einen die Leverage- oder Hebelwirkung des Prädiktionswerts hi , zum anderen die Ausreißereigenschaft, die man – bei gegebenen Ausprägungen der X-Variablen – am Wert der Y -Variablen festmacht. Wichtig für die Einflussdiagnose ist, dass beide Bestimmungsgrößen die Regressionsschätzung multiplikativ beeinflussen (Fox 1991, S. 21): Ein hoher Hebelwert ohne die Ausreißereigenschaft bei der Y -Variablen wird die Schätzung eines Regressionskoeffizienten nicht negativ beeinflussen, umgekehrt wird allein die Ausreißereigenschaft (bei der Y -Variablen) ebenfalls ohne merkliche Auswirkungen bleiben. Des Weiteren gilt grundsätzlich, dass die Wirkung einflussreicher Beobachtungen – und damit die Notwendigkeit entsprechender Diagnostik – umso größer ist, je weniger Untersuchungseinheiten in die Regressionsanalyse eingehen (vgl. dazu Fox 1991, S. 33; zur Einflussdiagnostik bei kleinen Stichproben Jann 2006). Kommen wir zuerst zum Einfluss einzelner Untersuchungseinheiten auf den Kern des Regressionsmodells,18 die Regressionskoeffizienten. Wenn man diesen Einfluss mit Hilfe des Streichungsansatzes untersucht, nimmt man die Änderung in den Blick, die sich für den Regressionskoeffizienten der unabhängigen Variablen Xj (bzw. die Regressionskonstante βˆ0 ) ergibt, wenn man zunächst das Regressionsmodell mit sämtlichen Untersuchungseinheiten schätzt und sodann die Schätzung wiederholt, wenn die i-te Untersuchungseinheit gelöscht wird (vgl. Fox 1991, S. 29): dij = βˆj − βˆj(i) , für i = 1, . . . , n; j = 0,1, . . . , k − 1
(31)
Dabei steht βˆj(i) für die Kleinst-Quadrat-Schätzung von βj , nachdem die i-te Untersuchungseinheit gestrichen wurde. Da die (unstandardisierten) Regressionskoeffizienten von der Maßeinheit abhängen, gilt dies ebenso für deren Differenz. Will man die Maßeinheit ausschalten, so bietet es sich an, die dij mit Hilfe des (geschätzten) Standardfehlers 18
Alle in diesem Abschnitt behandelten Einflussmaße heben auf den Einfluss einzelner Untersuchungseinheiten ab. Denkbar wäre auch, dass ein Set mehrerer Untersuchungseinheiten simultan Einfluss nimmt. Diagnostisch lassen sich solche Sets von Beobachtungen mittels sogenannter Partial-Regression-Plots erfassen (vgl. Fox 1991, S. 34–38). In PartialRegression-Plots werden die Y -Variable und eine der X-Variablen in einem Streudiagramm dargestellt, wobei aus beiden Variablen jeweils alle anderen X-Variablen auspartialisiert worden sind.
660
Dieter Ohr
(SE) des Regressionskoeffizienten βˆj zu standardisieren (indem die Regressionsanalyse, auf der die Berechnung des Standardfehlers beruht, unter Ausschluss der i-ten Untersuchungseinheit ermittelt wurde) (vgl. Fox 1991, S. 29): d∗ij =
dij SE(i) (βˆj )
, für i=1,. . . , n; j=0,1,. . . , k-1
(32)
Als ein gewisser Nachteil der dij -Werte (bzw. der d∗ij -Werte als standardisierte Version)19 wird in der Literatur ihre große Anzahl angeführt (etwa Fox 1991, S. 29). In der Tat gibt es bei n Untersuchungseinheiten und k Regressionskoeffizienten (die Regressionskonstante eingeschlossen) insgesamt n · k Werte. Ob dies tatsächlich als Nachteil zu werten ist, hängt freilich nicht zuletzt vom Erkenntnisinteresse ab, das der Regressionsanalyse zugrundeliegt. Wenn man beispielsweise die Regressionseffekte zweier bestimmter X-Variablen vor allem im Blick hat und sie gegen mögliche Auswirkungen einflussreicher Beobachtungen absichern will, wird man größten Wert auf eine differenzierte Diagnostik legen. In diesem Fall wäre ein globales Einflussmaß – wie das unten zu behandelnde Cooks D – wenig hilfreich. Ein zweites denkbares Kriterium für den Einfluss einzelner Beobachtungen sind die Vorhersagewerte der Y -Variablen. Auch hier wird, analog zu den Regressionskoeffizienten, der Streichungsansatz angewendet, indem die Veränderung im Vorhersagewert von Y bei Streichung der i-ten Untersuchungseinheit und nochmaliger Regressionsschätzung ermittelt wird (Belsley et al. 1980, S. 15): ˆ − β(i)], ˆ für i = 1, . . . , n DFFITi = yˆi − yˆi (i) = xi [β
(33)
Will man wiederum, analog zum Vorgehen bei den Regressionskoeffizienten, die Maßeinheit ausschalten, kann man die Differenz anhand der (geschätzten) Standardabweichung der Vorhersagewerte relativieren (Belsley et al. 1980, S. 15): DFFITSi =
ˆ − β(i)] ˆ xi [ β √ , für i = 1, . . . , n σ ˆ (i) hi
(34)
Man kann das Einflussmaß DFFITSi auch anders darstellen, so dass die beiden Komponenten des Einflusses klar ersichtlich werden (Belsley et al. 1980, S. 15; Fox 1991, S. 30): ei hi hi ∗ √ DFFITSi = esi = · , für i = 1, . . . , n (35) 1 − hi 1 − hi σ ˆ (i) 1 − hi Die standardisierten Veränderungen in den Vorhersagewerten der Y -Variablen hängen demnach von den (studentisierten) Residuen einerseits und den Leverage-Werten 19
Bei Belsley et al. (1980, S. 13) werden die dij als DFBETA-Werte bezeichnet, die standardisierten d∗ij als DFBETAS-Werte. Im Statistikprogramm SPSS (Version 17.0) werden die DFBETA-Werte ebenfalls mit DFBETA benannt und bei der Prozedur „Lineare Regression“ mit diesem Kennwort aufgerufen; die standardisierten Werte DFBETAS werden hingegen mit SDBETA bezeichnet.
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
661
andererseits ab. In ähnlicher Weise konstruiert ist ein globales Einflussmaß für sämtliche Regressionskoeffizienten, das Maß Cooks D (vgl. Fox 1984, S. 168): Di =
e2si hi , für i = 1, . . . , n · k 1 − hi
(36)
Die beiden Maße DFFITSi und Di haben jeweils unterschiedliche Ausgangspunkte: Während DFFITSi an der (standardisierten) Veränderung in den Vorhersagewerten der Y -Variablen ansetzt, geht es bei Di primär um eine summarische Abschätzung für die Veränderung der Regressionskoeffizienten. Beide Maße sind auch insoweit unterschiedlich spezifisch, als nur Di ausschließlich den Einfluss einer Beobachtung auf die Regressionskoeffizienten erfasst (vgl. Chatterjee & Hadi 1988, S. 125; Brachinger 1990a, S. 208 f.). Dennoch erkennt man leicht, dass die Bauweise beider Maße sehr ähnlich ist: Auch Cooks D wird zum einen umso größere Werte annehmen, je stärker die Ausreißereigenschaft einer Beobachtung, die hier durch das (standardisierte) Residuum esi repäsentiert wird; zum anderen wird Cooks D umso größer, je stärker die durch die Leverage-Werte hi erfasste Hebeleigenschaft vorliegt. Auch ist der Einfluss beider Komponenten abermals multiplikativ (Fox 1984, S. 168). Insoweit nimmt es nicht wunder, dass beide Maße im Regelfall zu recht ähnlichen Diagnoseergebnissen gelangen werden (Fox 1991, S. 30). Neben diesen Einflussmaßen sind weitere Maße entwickelt worden, etwa solche, die den Einfluss einzelner Untersuchungseinheiten auf die Präzision der Schätzung messen (Belsley et al. 1980, S. 22 ff.). Auch für diese Maße lässt sich zeigen, dass sie von den beiden zentralen Bausteinen der Einflussdiagnostik abhängen, nämlich von den Leverage-Werten und den Residuen (vgl. Belsley et al. 1980, S. 22; Fox 1991, S. 31 f.; Jann 2006, S. 437 f.). Für alle der hier vorgestellten Maße sind kritische Werte (cutoffs) vorgeschlagen worden (für eine tabellarische Zusammenstellung derartiger Cutoffs vgl. Jann 2006, S. 439), die es erlauben sollen, einflussreiche Beobachtungen einfach und nach Maßgabe klarer Regeln zu identifizieren. Solche kritischen Werte können absolut festgelegt sein oder aber relativ konzipiert, indem sie die Eigenschaft der meisten dieser Maße berücksichtigen, mit größer werdendem n kleiner zu werden, so die Leverage-Werte hi oder Globalmaße wie Cooks D: Einzelne Beobachtungen, seien sie noch so extrem, richten eben bei wachsendem n immer weniger Schaden an! Für die Leverage-Werte empfehlen Chatterjee und Hadi wohl nicht zuletzt vor diesem Hintergrund: „The suggested cut-off points . . . should not be used mechanically“ (1988, S. 101). Diese Empfehlung wird man gewiss auch auf die anderen Einflussmaße verallgemeinern können. Schließlich kann man für jede beliebige Maßzahl diejenigen fünf Prozent der Beobachtungen mit den größten Ausprägungen herausgreifen. Ob diese Beobachtungen deswegen als problematisch zu werten sind, scheint sehr fraglich. Man wird also gut daran tun, sich bei der Diagnose nicht sklavisch an diesen Grenzen zu orientieren, sondern in ihnen ein Hilfsmittel zu sehen, das die graphisch gestützte Diagnose begleiten kann.
662
Dieter Ohr
3 Regressionsdiagnostik am Beispiel 3.1 Datengrundlage und Regressionsmodell Datengrundlage für das Beispiel, an dem eine Auswahl der in diesem Beitrag behandelten Diagnoseinstrumente erläutert wird, ist der kumulierte ALLBUS. Verwendet wird die ostdeutsche Stichprobe des Jahres 2006. Die (zu erklärende) Y -Variable ist der Ausländeranteil in den neuen Bundesländern in der Einschätzung der ostdeutschen Befragten (ausant_o). Diese abhängige Variable soll in einem multiplen Regressionsmodell mit vier X-Variablen erklärt werden: mit dem Lebensalter in Jahren (alter), dem Bildungsabschluss (educ), dem Politikinteresse (polint) und zuletzt dem tatsächlichen Ausländeranteil (aus_anteil) als kontextuellem Merkmal auf der Ebene der Landkreise. Dabei sollen die drei Individualvariablen Indikatoren für die Kompetenz sein, diesen Anteil korrekt zu schätzen – und ihn nicht deutlich zu überschätzen. Es wird erwartet, dass der – tatsächlich sehr niedrige – Ausländeranteil umso höher eingeschätzt wird, je jünger die Befragten, je niedriger ihr Bildungsabschluss und je geringer das Politikinteresse ist.20 Umgekehrt sollte der tatsächliche Ausländeranteil je Kreis in einer positiven Beziehung zur subjektiven Einschätzung des Ausländeranteils stehen. Bevor man mit der Regressionsschätzung beginnt, sollten in jedem Fall zu allererst die univariaten Verteilungen aller Variablen inspiziert werden, die in die Regressionsanalyse eingehen. Denn auf grobe Datenfehler, falsche Kodierungen etc. kann man bereits durch diese einfache Datenprüfung aufmerksam werden. Im Anhang ist dazu eine kleine Tabelle (Tabelle 3) wiedergegeben. Geschätzt wurde das Regressionsmodell für 998 Befragte; es ergeben sich die in Tabelle 1 wiedergegebenen Schätzwerte.21 Rund elf Prozent der Varianz des wahrgenommenen Ausländeranteils werden durch die vier X-Variablen erklärt, alle vier Prädiktoren haben das erwartete Vorzeichen, sämtliche Regressionskoeffizienten sind Tab. 1: Lineares Regressionsmodell für den subjektiv eingeschätzten Ausländeranteil β4j Konstante alter educ polint aus_anteil
20
29,008 −0,204 −2,315 −1,185 0,719
Standardfehler β4j 1,697 0,024 0,383 0,378 0,269
t 17,097 −8,675 −6,041 −3,135 2,672
sig.
Tol.
VIF
0,000 0,000 0,000 0,002 0,008
0,867 0,816 0,904 0,988
1,153 1,226 1,106 1,012
In Ostdeutschland ist der Ausländeranteil sehr niedrig. So betrug der maximale Ausländeranteil in einem ostdeutschen Flächenland, in Brandenburg, 2,6 Prozent (Stichtag: 31.12.2007) (http://www.statistik-portal.de/Statistik-Portal/de_jb01_jahrtab2. asp). Die subjektiven Einschätzungen der ostdeutschen Befragten liegen in der Regel weit darüber (vgl. Tabelle 3 im Anhang). 21 Sämtliche Analysen zur Regressionsdiagnostik wurden mit dem Statistikprogramm SPSS (Version 17.0) gerechnet (vgl. die Webseite des Handbuchs zur Befehls-Syntax).
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
663
Partielles Residuum (Alter)
75
50
25
0
-25
0
20
40
60
80
100
Alter in Jahren
Abb. 4: Partielle Residuen und die X-Variable Alter statistisch abgesichert. Die beiden letzten Spalten in Tabelle 1 enthalten Toleranzindizes (Tol.) und Varianzinflationsfaktoren (VIF). 3.2 Regressionsdiagnostik zu den Annahmen des linearen Regressionsmodells am Beispiel Zuerst soll, exemplarisch, für das Merkmal Alter geprüft werden, ob die Linearitätsannahme angemessen ist. Dazu wurden die partiellen Residuen ermittelt, indem der lineare Effekt des Alters zu den Residuen des kompletten Regressionsmodells für den geschätzten Ausländeranteil addiert wurde (vgl. 2.2, Gleichungen (21) und (22)). Abbildung 4 zeigt den resultierenden Partial-Residual-Plot für die X-Variable Alter22 . Die eingezeichnete LOWESS-Funktion23 zeigt eine fallende Beziehung und lässt nur kleinere Abweichungen von einer linearen Beziehung erkennen. Auch die Verteilung der Punkte gibt keine Hinweise auf Nichtlinearität. Insoweit ist die Linearitätsannahme für das Merkmal Alter angemessen, und es spricht nichts dafür, an der funktionalen Beziehung etwas zu ändern. Gleichzeitig ergeben sich in Abbildung 4 deutliche Hinweise darauf, dass die Residuen unterschiedlich stark streuen, wobei diese Streuung mit zunehmendem Alter eines Befragten abnimmt. 22
23
Zu Möglichkeiten der graphischen Darstellung von Streudiagrammen bei sehr vielen Datenpunkten vgl. Schnell (1994, S. 93–97) Die Abkürzung LOWESS steht für locally weighted scatterplot smoother. LOWESSFunktionen ermöglichen es, funktionale Beziehungen mit unterschiedlicher Glättung zu schätzen. Je kleiner der Anteil der Beobachtungen, die für einen bestimmten Datenpunkt einbezogen werden, desto stärker repräsentiert die LOWESS-Funktion auch kleinere Unregelmäßigkeiten in den Daten; umgekehrt ähnelt die Glättungskurve bei großen Anteilen immer mehr einer Geraden (vgl. dazu Schnell 1994, S. 109–113).
664
Dieter Ohr
Ein sinnvoller Beginn der Prüfung auf Kollinearität in den Daten ist die Berechnung von Toleranzindizes und Varianzinflationsfaktoren (vgl. 2.2, Gleichungen (23) und (24)). Diese Maße sind leicht zu berechnen und einfach zu interpretieren (vgl. Tabelle 1). Sowohl die durchgängig hohen Werte der Toleranzindizes (Tol.) als auch die Werte der Varianzinflationsfaktoren (VIF), die nur wenig größer als eins werden und damit als multiplikativer Faktor die Varianz der Regressionskoeffizienten nur geringfügig vergrößern, belegen eindeutig, dass Multikollinearität für das exemplarische Regressionsmodell keine Gefahr darstellt.24 Insofern könnte man an dieser Stelle die Kollinearitätsdiagnostik beenden. Wie aber könnte die Struktur von Kollinearität unter den X-Variablen aufgedeckt werden, wenn die Toleranzwerte sehr klein und die Varianzinflationsfaktoren folglich sehr groß wären? Belsley et al. (1980, S. 112) haben zwei Bedingungen für ihre Kollinearitätsdiagnostik formuliert (vgl. 2.2, Gleichungen (25) bis (30)): Ein Konditionsindex muss größer als 30 sein, und gleichzeitig müssen bei mindestens zwei der X-Variablen (bzw. der Koeffizienten) die Varianzanteile größer als 0,5 werden. In Tabelle 2 sind die Varianzanteile πjl und Konditionsindizes ηj zusammen mit den Eigenwerten für das Anwendungsbeispiel dargestellt (vgl. Belsley et al. 1980, S. 126; Brachinger 1990b, S. 284). Im Lichte des Befundes in Tabelle 1 ist nun freilich nicht zu erwarten, dass diese Bedingungen erfüllt sein werden. Dem entsprechend bewegt sich keiner der Konditionsindizes in der Nähe des Schwellenwertes von 30. Wäre diese Schwelle aber deutlich überschritten, so würde man zusätzlich die korrespondierenden Varianzanteile in der betreffenden Zeile inspizieren. X-Variablen mit sehr großen Varianzanteilen wären dann in eine stochastische Linearbeziehung involviert. In eine solche Beziehung könnte auch die Regressionskonstante verwickelt und folglich von den Auswirkungen von Kollinearität auf die Präzision der Schätzung betroffen sein. Neben der Eigenschaft, die Struktur von Kollinearität herausarbeiten zu könnten, dürfte im Einbeziehen auch der Regressionskonstanten in die Kollinearitätsanalyse ein weiterer Vorzug der „Collinearity Diagnostics“ gegenüber den einfacheren Kollinearitätsmaßen liegen.25 Hat man ein gravierendes Kollinearitätsproblem identifiziert, so gibt es dafür leider keine einfachen und gleichzeitig adäquaten Lösungen, handelt es sich doch um ein Problem ungenügender Information in den Daten (vgl. 2.1). Keinesfalls sollten theoretisch relevante X-Variablen aus dem Modell entfernt werden, da man mit einer solchen „Lösung“ des Kollinearitätsproblems Gefahr läuft, das Modell fehlzuspezifizieren und darüber eine Korrelation von Störgröße und verbliebenen X-Variablen hervorzurufen (Verletzung von A11) (zu einer Übersicht über Möglichkeiten des Umgangs mit Multikollinearität vgl. Fox 1991, S. 13–21). Immerhin kann man mit Hilfe der Vari24
25
Hohe Multikollinearität kommt bei Individualdaten wie etwa bei Befragungsdaten nur sehr selten vor. Anders ist dies bei Aggregatdaten, zumal bei längsschnittlichen Aggregatdaten. Belsley et al. (1980, S. 98) empfehlen, die Kollinearitätsdiagnose unter Einbeziehung einer Regressionskonstanten durchzuführen und die Daten nicht zu zentrieren, sofern eine Regressionskonstante aus inhaltlicher Sicht zum Regressionsmodell gehört. Allerdings sei darauf hingewiesen, dass gerade dieser Punkt kontrovers diskutiert wird (zu einer kritischen Sicht vgl. Fox 1991, S. 80).
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
665
Tab. 2: Eigenwerte, Konditionsindizes und Varianzanteile in der Kollinearitätsdiagnostik Varianzanteile πjl Dimension Eigenwert ϕj Konditionsindex ηj Konstante alter educ polint aus_anteil 1 2 3 4 5
4,335 0,289 0,203 0,141 0,032
1,000 3,876 4,622 5,537 11,607
0,00 0,00 0,01 0,03 0,96
0,00 0,01 0,20 0,04 0,74
0,01 0,04 0,40 0,17 0,39
0,01 0,06 0,00 0,93 0,00
0,01 0,92 0,02 0,02 0,03
anzinflationsfaktoren abschätzen, wie sehr durch Multikollinearität die Präzision der Schätzungen beeinträchtigt wird. Kommen wir zur Prüfung der Homoskedastizitätsannahme (A8). Die am häufigsten vorkommende Variante von Streuungsungleichheit dürfte darin bestehen, dass sich die Streuung der Störgröße mit einer oder mehreren der X-Variablen systematisch verändert (Fox 1991, S. 49). In genau diese Richtung wies auch das Muster in Abbildung 4. Es liegt also nahe, die Diagnostik mit einer Graphik zu beginnen, in der die vorhergesagten Y -Werte, als Sammelgröße für die vermutete Beziehung mit einer oder mehreren X-Variablen, zusammen mit den Residuen dargestellt werden. Da die herkömmlichen Kleinst-Quadrat-Residuen ei auch dann heteroskedastisch sind, wenn die Störgrößen gleiche Streuung aufweisen, empfiehlt es sich, mit den standardisierten oder besser noch mit den studentisierten Residuen zu arbeiten.26 Besonders aussagekräftig wird eine solche Graphik, wenn man den Betrag der (studentisierten) Residuen verwendet (Fox 1991, S. 52). Abbildung 5 stellt beide Größen für das multiple Regressionsmodell zum subjektiv eingeschätzten Ausländeranteil dar. Abbildung 5 zeigt eine klare Tendenz zu größerer Streuung der absoluten studentisierten Residuen bei größer werdenden Vorhersagewerten für den geschätzten Ausländeranteil. Dass eine solche Tendenz besteht, wird auch durch die eingezeichnete LOWESS-Kurve verdeutlicht. Insoweit spricht das Muster in Abbildung 5 für ein Heteroskedastizitätsproblem. Wie soll man mit diesem Befund umgehen? In vielen Fällen lässt sich das Problem ungleicher Streuung der Störgrößen zumindest mindern, wenn man die Y -Variable geeignet transformiert. Dabei gilt als Regel, dass eine sich mit den 26
Die verschiedenen standardisierten Residuen werden oft sehr uneinheitlich bezeichnet, so dass dringend anzuraten ist, bei Verwendung eines Statistikprogramms jeweils zu prüfen, welche Standardisierung sich hinter einer Bezeichnung verbirgt. So gebrauchen etwa Cook & Weisberg (1982, S. 18 ff.) die Bezeichnungen „internally studentized residuals“ für die „standardisierten Residuen“ und „externally studentized residuals“ für die „studentisierten Residuen“. Im Statistikprogramm SPSS (Version 17.0), das für die exemplarische Regressionsdiagnostik in diesem Abschnitt verwendet wird, werden die Residuen esi als „studentisierte Residuen“ bezeichnet (studentized residual, SRESID), die Residuen e∗si als „studentisierte, ausgeschlossene Residuen“ (studentized deleted residual, SDRESID) (Jann 2006, S. 433; vgl. auch Cohen et al. 2003 für hilfreiche Zuordnungen von diagnostischen Maßzahlen und deren Umsetzungen in verschiedenen Statistikpaketen).
666
Dieter Ohr
Studentisierte Residuen (Betrag)
7 6 5 4 3 2 1 0 0
5
10
15
20
25
Vorhergesagte Y-Werte
Abb. 5: Studentisierte Residuen (Betrag) und vorhergesagte Y -Werte vorhergesagten Y -Werten verbreiternde Verteilung der Residuen durch Transformation der Y -Variablen etwa mittels einer logarithmischen Transformation in vielen Fällen erfolgreich korrigieren lässt (vgl. zu Transformationen Fox 1984, S. 194–201; Fox 1991, S. 46–52). Abbildung 6 zeigt die resultierende Graphik, nachdem die Y -Variable logarithmisch transformiert wurde (natürlicher Logarithmus). Zwar hat die eingezeichnete LOWESS-Kurve nach wie vor eine etwas ansteigende Tendenz, doch scheint die Stabilisierung der Fehlerstreuung einigermaßen gelungen. Das Verfahren von Glejser, deskriptiv eingesetzt, weist in die gleiche Richtung: Relevante Effekte der X-Variablen auf die absoluten (studentisierten) Residuen sind als Indizien für vorhandene Heteroskedastizität zu werten. Rund zehn Prozent der Varianz der absoluten Residuen werden durch die vier X-Variablen erklärt, wenn die untransformierte Y -Variable die abhängige Variable des Ausgangsmodells bildet. Bis auf das Politikinteresse haben alle X-Variablen relevante und signifikante Effekte, so dass auch aus dieser Perspektive die Homoskedastizitätsannahme nicht erfüllt ist. Wird das Glejser-Verfahren auf die Residuen angewendet, die dem Modell mit der logarithmisch transformierten Y -Variablen entstammen, so sinkt die erklärte Varianz auf rund ein Prozent, nur noch Alter und Bildung haben signifikante Effekte, die zudem merklich kleiner geworden sind. Damit zeigt das Diagnoseverfahren nach Glejser zwar nach wie vor an, dass eine leichte Tendenz zu heteroskedastischen Störgrößen zu bestehen scheint, das Problem hat sich aber sichtlich verringert. Wie man letztlich mit einer teilweisen Verletzung der Homoskedastizitätsannahme verfährt, sollte zum einen entscheidend vom Grad des Problems abhängen: So ist die Verwendung eines anderen Schätzverfahrens oder auch die Korrektur der Standardfehler dann sinnvoll und geboten, wenn die Annahme in einer gravierenden Weise verletzt ist. Bei einer nur eher schwachen Präsenz des Problems – Fox setzt als eine Grenze
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
667
Studentisierte Residuen (Betrag)
3,0 2,5 2,0 1,5 1,0 0,5 0,0 1,0
1,5
2,0
2,5
3,0
3,5
Vorhergesagte Y-Werte
Abb. 6: Studentisierte Residuen (Betrag) und vorhergesagte Y -Werte (bei logarithmisch transformierter Y -Variable) den Faktor drei, um den sich die Varianz der beobachteten Residuen vergrößert (1991, S. 52) – dürften sich solche Maßnahmen noch nicht lohnen. In unserem Beispiel sind wir weit von diesem Faktor entfernt, so dass es gerechtfertigt ist, weiterhin mit der KleinstQuadrat-Schätzung zu arbeiten, nachdem die Y -Variable logarithmisch transformiert worden ist. Zum anderen sollte der Umgang mit heteroskedastischen Störgrößen auch davon abhängen, ob sich eine inhaltliche Lösung anbietet, etwa die Spezifikation eines nicht-additiven anstelle eines additiven Modells (vgl. dazu Kapitel 26 in diesem Handbuch). Ist dies möglich, so hat man in zweierlei Hinsicht einen wichtigen Ertrag erzielt, indem sowohl die Annahmenverletzung beseitigt als auch das Erklärungsmodell substantiell verbessert worden ist. Für die Prüfung der Normalverteilungsannahme (A10) wurde ein Normal-Probability-Plot für die studentisierten Residuen des Modells zur Erklärung des geschätzten Ausländeranteils (ohne Transformation der Y -Variablen) erstellt (Abbildung 7). Eine solche Graphik hat gegenüber einem statistischen Test den Vorteil, dass, zusätzlich zur Prüfung der Normalitätsannahme, auch Ausreißerwerte sichtbar werden. Die Graphik zeigt recht deutliche Abweichungen der studentisierten Residuen vor allem im unteren und im oberen Wertebereich der Residuen. Auch der K-S-Test – abermals unter Verwendung der studentisierten Residuen – ist hochsignifikant und weist auf eine klare und statistisch abgesicherte Abweichung von der Normalverteilung hin.27 Transformationen der Y -Variablen können neben einem varianzstabilisierenden Effekt auch die Gestalt der Residuenverteilung beeinflussen (Fox 1991, S. 53), so dass die logarithmische Transformation des wahrgenommenen Ausländeranteils möglicherweise 27
Normal-Probability-Plot und K-S-Test finden sich in SPSS bei dem Befehl EXAMINE VARIABLES, also außerhalb der Regressionsprozedur. Man erzeugt die Residuen innerhalb der Regressionsprozedur und übergibt die Residuenvariable dann dem Befehl EXAMINE.
668
Dieter Ohr
Erwarteter Normalwert
7
5
3
1
-1
-3 -3
-1
1
3
5
7
Studentisierte Residuen
Abb. 7: Normal-Probability-Plot der studentisierten Residuen auch zu einem anderen Ergebnis der Prüfung auf Normalverteilung führt. Nach logarithmischer Transformation erkennt man in der Tat eine Verteilung der Residuen, die der einer Normalverteilung ziemlich gut entspricht (Abbildung 8). Berechnet man zusätzlich den K-S-Test, so liefert dieser ein Signifikanzniveau, das nun bei rund zwei Prozent liegt, so dass der Test nur noch zum Signifikanzniveau von fünf Prozent eine signifikante Abweichung von der Normalverteilung anzeigt. In diesem Fall hatte also die logarithmische Transformation der Y -Variablen den doppelten Effekt einer Varianzstabilisierung einerseits und einer Annäherung der Residuen an eine Normalverteilung andererseits. 3.3 Regressionsdiagnostik zu einflussreichen Beobachtungen am Beispiel Zwei Größen spielen in den meisten der behandelten Einflussmaße, die nach dem Streichungsverfahren arbeiten, eine Rolle: zum einen sind dies die standardisierten Residuen esi oder die studentisierten Residuen e∗si (vgl. 2.2, Gleichungen (18) und (20)), zum anderen die Hebelwerte hi (vgl. 2.2). Es ist deshalb sinnvoll, die Einflussdiagnostik mit einer Graphik zu beginnen, die beide Größen darstellt (Abbildung 9).28 Einflussreiche Beobachtungen sind dann daran zu erkennen, dass sie bei beiden Maßen hohe Werte aufweisen, bei den Leverage-Werten und bei den Residuen (Fox 1991, S. 30). Welche der studentisierten Residuen aus dem Rahmen fallen, kann mit Hilfe der t-Verteilung ermittelt werden (Fox 1991, S. 25 f.).29 Legt man die t-Verteilung zugrunde, 28
29
Die Analysen zur Einflussdiagnostik in Abschnitt 3.3 basieren auf dem Regressionsmodell mit logarithmisch transformierter Y -Variablen. Streng genommen muss dafür die Normalverteilungsannahme (A10) erfüllt sein (Cook & Weisberg 1982, S. 20).
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
669
Erwarteter Normalwert
4,0
2,0
0,0
-2,0
-4,0 -4,0
-2,0
0,0
2,0
4,0
Studentisierte Residuen
Abb. 8: Normal-Probability-Plot der studentisierten Residuen (Y -Variable logarithmisch transformiert) so würden bei Anwendung der Regel |e∗si | > 2 rund fünf Prozent der Residuen als große Abweichungen identifiziert. Damit hat man ein pragmatisches Kriterium für Ausreißerwerte bei den Residuen, und die beiden waagrechten Linien, die in Abbildung 9 bei −2 und +2 eingezeichnet sind, markieren die Grenzen. Bei den Hebelwerten sehen Belsley et al. (1980, S. 17) Werte der hi > 2k/n als beachtenswert, wobei der Mittelwert der hi k/n beträgt. Im Beispiel läge diese Grenze bei hi = 2k/n = 2 · 5/998 = 0,01; das Statistikprogramm SPSS berechnet aber anstelle der „rohen“ Hebelwerte zentrierte Werte h∗i , die sich über h∗i = hi − n1 aus den „rohen“ Werten ermitteln lassen (Cohen et al. 2003, S. 396). Der Mittelwert der h∗i beträgt im Beispiel 0,004, die entsprechend anzuwendende Grenze für die zentrierten Hebelwerte liegt bei 0,008; bei diesem Wert ist in der Abbildung eine senkrechte Linie eingezeichnet. Insgesamt vier Beobachtungen in den beiden Rechtecken rechts oben und rechts unten würden demnach als einflussreiche Beobachtungen identifiziert: Freilich erkennt man auch, dass es sich, gemessen vor allem an dem Schwellenwert für die Residuen, sicherlich nicht um extreme Ausreißerwerte handelt. Gravierende Probleme mit einflussreichen Beobachtungen scheint es im Lichte von Abbildung 9 damit nicht zu geben. Im Zentrum eines linearen Regressionsmodells stehen sicherlich die Schätzungen für die Regressionskoeffizienten. Vor allem dann, wenn einzelne der X-Variablen etwa im Rahmen einer Theorie besonders wichtig sind, wird man bei der Einflussdiagnostik bestrebt sein, die Effekte genau dieser Variablen abzusichern. Abbildung 10 stellt, exemplarisch, die dij -Werte (DFBETA-Werte) für den Effekt des Politikinteresses in einem Streudiagramm mit den Hebelwerten dar (vgl. 2.2, Gleichung (31)).30 Da sich 30
Die gemeinsame Darstellung zusammen mit den Hebelwerten ist dann entbehrlich, wenn man nur an der Verteilung der DFBETA-Werte interessiert ist und nicht zusätzlich Hinweise
670
Dieter Ohr 3
Studentisierte Residuen
2 1 0 -1 -2 -3 -4 0,000
0,005
0,010
0,015
0,020
0,025
Zentrierte Hebelwerte
Abb. 9: Studentisierte Residuen und Hebelwerte (Leverage values) die dij -Werte auf die Maßeinheit des (unstandardisierten) Regressionskoeffizienten beziehen, muss man diese Veränderungen des Koeffizienten bei Streichung der i-ten Beobachtung daran bemessen, welche Größenordnung der Koeffizient selbst annimmt. Im kompletten multiplen Regressionsmodell hat das Politikinteresse – bei logarithmisch transformierter Y -Variable – einen unstandardisierten Regressionskoeffizienten von −0,124. Abbildung 10 zeigt, dass sämtliche Untersuchungseinheiten bei Streichung eine Veränderung des Koeffizienten von in der Regel deutlich unter 0,005 bewirken. Nur wenige Fälle kommen diesem Wert nahe. Für den Effekt des Politikinteresses würde sich also bei Berücksichtigung einflussreicher Beobachtungen ein Wert zwischen −0,129 und −0,119 ergeben. Substantiell spielen folglich einflussreiche Beobachtungen keine Rolle für den Effekt des Politikinteresses auf die Wahrnehmung des Ausländeranteils. Zuletzt zeigt Abbildung 11 die Werte für das Maß Cooks D, abermals zusammen mit den Hebelwerten. Cooks D liefert eine globale Einschätzung des Einflusses einzelner Beobachtungen auf sämtliche Regressionskoeffizienten. Eingezeichnet ist eine waagrechte Linie in Höhe eines kritischen Werts (vgl. dazu Fox 1991, S. 34) von Di > 4/(n − k) = 4/(998 − 5) = 0,004. Nähme man die eingezeichnete Grenze zum Nennwert, so wäre eine relativ große Zahl der Untersuchungseinheiten als einflussreich im Hinblick auf sämtliche Koeffizienten einzustufen. Eine solche Schlussfolgerung wäre allerdings aus mehreren Gründen nicht sehr plausibel: Erstens ergab die bisherige Einflussdiagnostik kaum Indizien für gravierende Probleme mit einflussreichen Beobachtungen. Zweitens sind die Grenzen ihrerseits mit Augenmaß zu behandeln, will man nicht Gefahr laufen, vor allem bei großen Fallzahlen Probleme zu identifizieren, wo tatsächlich keine bestehen. Drittens liegt das Gros der Beobachtungen sehr knapp über der eingezeichneten Linie. Allenfalls könnte man daran denken, sich die rund auf mögliche Leverage-Effekte gewinnen will. Man könnte dann etwa die DFBETA-Werte gegen die Fallnummer der Untersuchungseinheiten abtragen.
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
671
DFBETA Politikinteresse
0,0050
0,0025
0,0000
-0,0025
-0,0050
0,000
0,005
0,010
0,015
0,020
0,025
Zentrierte Hebelwerte
Abb. 10: dij -Werte (DFBETA) für den Effekt des Politikinteresses und Hebelwerte 0,0300 0,0250
Cooks D
0,0200 0,0150 0,0100 0,0050 0,0000 0,000
0,005
0,010
0,015
0,020
0,025
Zentrierte Hebelwerte
Abb. 11: Cooks Distanzwerte und Hebelwerte zehn Beobachtungen genauer anzusehen, die relativ deutlich aus dem Gesamtmuster herausgehoben sind. Wie sollte man mit Beobachtungen umgehen, die sich tatsächlich als einflussreiche erweisen? Handelt es sich nicht um Datenfehler – was unbedingt geprüft werden sollte –, so wäre eine inhaltliche Erklärung für die betreffenden Beobachtungen, die in ein modifiziertes Regressionsmodell etwa mit zusätzlichen X-Variablen münden könnte, sicherlich die beste Lösung. Ist dies nicht möglich, so dürfte in der Abwägung eine Schätzung ohne die einflussreichen Beobachtungen immer noch besser sein als eine
672
Dieter Ohr
Schätzung mit sämtlichen Beobachtungen, bei der das Ausreißerproblem ignoriert würde (zum Umgang mit einflussreichen Beobachtungen, unter anderem sogenannten robusten Schätzungen vgl. Fox 1991, S. 39 f.).
4 Regressionsdiagnostik: Umfang, Probleme und Empfehlungen Am Beginn jeder Regressionsanalyse, noch bevor man die Regressionsschätzungen vornimmt, sollte die gründliche Inspektion der univariaten Verteilungen sämtlicher Variablen stehen, die in die Analyse eingehen. Datenfehler und fehlerhafte (oder im Sinne der eigenen Vorstellungen nicht optimale) Kodierungen wird man häufig schon mit diesen einfachen Prüfverfahren entdecken. Erst danach sollte man sich der Modellschätzung und den Instrumenten der Regressionsdiagnose zuwenden. Regressionsdiagnostik sollte Teil einer gründlichen Analyse der Daten sein, in ähnlicher Weise wie dies für die statistische Absicherung mit Signifikanztests oder mit Konfidenzintervallen gilt. Die Entwicklung bei den Statistikprogrammen in den letzten Jahren hat dies sehr erleichtert: Jedes der in diesem Beitrag besprochenen Verfahren lässt sich ohne Aufwand anwenden. Zudem muss Regressionsdiagnostik auch nicht mit einer Vielzahl von Verfahren verbunden sein (Fox 1991, S. 75 f.), die vom eigentlichen Zweck der Analyse, nämlich ein theoretisch gut begründetes und empirisch angemessenes Regressionsmodell zu finden, ablenken könnten. Es sollte vielmehr ausreichen, bei querschnittlichen Daten die Regressionsannahmen zu untersuchen, für die in Abschnitt 3.2 Instrumente vorgestellt wurden:31 Prüfen würde man die Linearitätsannahme mit Partial-Residual-Plots, Multikollinearität würde (zumindest) mit Toleranzindizes und Varianzinflationsfaktoren diagnostiziert, und schließlich würde die Homoskedastizitäts- und die Normalverteilungsannahme für die Störgrößen vor allem mit graphischen Mitteln analysiert. Auch bei der Diagnose einflussreicher Beobachtungen kann man sich auf ausgewählte Verfahren beschränken: Zum einen haben einflussreiche Beobachtungen bei großen Fallzahlen nicht die Bedeutung, die ihnen bei kleinem n zukommt. Zum anderen hat sich gezeigt, dass es besonders zwei Größen sind, die zentral für die allermeisten Einflussmaße sind: die (standardisierten oder die studentisierten) Stichprobenresiduen und die Hebelwerte. Vor diesem Hintergrund muss im Rahmen einer sorgfältigen Einflussdiagnostik nicht jede einzelne Maßzahl berechnet und interpretiert werden. In jedem Fall sollte ein Streudiagramm mit den Hebelwerten und den studentisierten Residuen erstellt und analysiert werden. Es enthält einen großen Teil der Informationen zu möglichen Effekten einflussreicher Beobachtungen (Fox 1991, S. 75). Nicht ersetzen kann Regressionsdiagnostik eine theoretisch angeleitete, sorgfältige Modellspezifikation, allein deshalb nicht, weil Diagnose in vielen Fällen unsicher bleiben wird und/oder nur sehr indirekt erfolgen kann. Besonders klar zeigt sich dies an der Regressionsannahme, wonach zwischen den X-Variablen und der Störgröße keine Korrelation bestehen darf: Direkt lässt sich die Annahme nicht prüfen, und es ist vor 31
Bei querschnittlichen Daten mit Klumpung, etwa in räumlicher Hinsicht, sollte zusätzlich die Autokorrelationsannahme geprüft werden.
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
673
allem die vollständige und korrekte Modellspezifikation, die darüber entscheidet, ob sie erfüllt ist. Bei der praktischen Durchführung von Regressionsdiagnostik stellt sich regelmäßig das Problem, ab welcher Größenordnung eine schwerwiegende Verletzung einer Regressionsannahme vorliegt oder eine bestimmte Untersuchungseinheit als einflussreich identifiziert wird. Dabei scheint mir ein vorsichtiger Umgang mit kritischen Werten (cut-off values) geboten. Viele der in der Literatur empfohlenen Grenzwerte sind nicht sehr gut begründet. So ist etwa ein Toleranzindex, der kleiner als 0,1 ausfällt, keineswegs ein sicheres Zeichen dafür, dass Multikollinearität in den Daten zu hoch ist, noch weniger dafür, dass die Auswirkungen auch substantiell bedeutsam sind. Ähnliches gilt für die Vielzahl an kritischen Werten für Einflussmaße. Beobachtungen, die über einem Grenzwert liegen, sind nicht deshalb schon problematisch für die Regressionsschätzungen. Grenzwerte sollten daher nicht als Entscheidungsregeln verstanden werden. Besser wäre es, sie – sofern möglich – als Hilfsmittel für graphisch gestützte Diagnosen heranzuziehen und dabei auch das Muster sämtlicher Beobachtungen zu berücksichtigen. Gerade mit Blick auf das Ziel einer verbesserten Modellspezifikation, in die auch theoretisch-inhaltliche Überlegungen einfließen, scheinen mir, des Weiteren, graphisch gestützte Diagnoseverfahren den formalen Tests überlegen, da sie weit mehr Hinweise auf den Charakter und die möglichen Ursachen eines Problems geben. Idealerweise können Diagnoseergebnisse dem Anwender neue Einsichten in das spezifizierte Modell und die Daten vermitteln, so dass am Ende der Datenanalyse ein besser begründetes Regressionsmodell steht. Zuletzt fragt es sich, wie man mit den Ergebnissen der Regressionsdiagnostik umgehen soll. Wieviel man im Lichte regressionsdiagnostischer Befunde an seinem Regressionsmodell ändert – etwa die Transformation einzelner Variablen oder den Einsatz alternativer Schätzverfahren –, lässt sich allgemein nur schwer festlegen. Sicherlich wird man diese Entscheidung von der Schwere des jeweiligen Problems abhängig machen. Zwei extreme Vorgehensweisen sollte man in jedem Fall besser vermeiden: ein rein „deduktives“ Vorgehen der Modellschätzung, das auf Daten- und Modellprobleme keine Rücksicht nimmt, ebenso wie die Strategie des „overfitting“ (vgl. Fox 1991, S. 39 f.), bei der jeder noch so schwache diagnostische Befund in eine neue Modellvariante umgesetzt wird.
5 Literaturempfehlungen Zwei leicht zugängliche und sehr gut erläuterte Zusammenstellungen der Regressionsannahmen finden sich bei Berry (1993) und Gujarati (1995), wobei Berry als kurze Monographie ausschließlich den Regressionsannahmen gewidmet ist und besonderen Wert auf die inhaltliche Bedeutung der Annahmen legt; Gujarati enthält als Lehrbuch zu ökonometrischen Methoden zudem eine ausführliche Übersicht und Besprechung diagnostischer Tests zu den einzelnen Annahmen. Eine hervorragende Darstellung zur Regressionsdiagnostik sowohl hinsichtlich der Regressionsannahmen als auch der Analyse einflussreicher Beobachtungen bietet die Monographie von Fox (1991). Als
674
Dieter Ohr
Ergänzung und Vertiefung zur Diagnostik ist die Monographie von Belsley et al. (1980) in zweierlei Hinsicht lohnend: Erstens wird darin eine gründliche Darstellung avancierter Methoden zur Diagnose von Multikollinearität gegeben, zweitens wird eine Reihe von Maßzahlen zur Diagnose einflussreicher Beobachtungen eingeführt und diskutiert. Speziell zur Diagnostik potenziell einflussreicher Beobachtungen bei kleinen Fallzahlen gibt der Beitrag von Jann (2006) eine sehr gute und anschauliche Orientierung. Für die praktische Diagnostik auf graphischer Basis findet sich in Schnell (1994) eine Vielzahl sehr nützlicher Hinweise. Als sehr hilfreich für die praktische Arbeit dürfte sich auch die Monographie von Cohen et al. (2003) erweisen, in der, unter anderem, im Detail aufgezeigt wird, welche der Maßzahlen der Regressionsdiagnostik in welchem Statistikpaket in welcher Form umgesetzt sind.
Anhang
Tab. 3: Univariate Kennwerte zu den Regressionsvariablen
ausant_o alter educ polint aus_anteil
n
min.
max.
Arithm. Mittel
Standardabw.
998 998 998 998 998
1 18 0 0 1
90 91 4 4 7
13,04 49,00 2,15 2,01 1,94
12,30 16,83 1,06 1,03 1,38
Hinweis: Der tatsächliche Ausländeranteil (aus_anteil) auf der Ebene der Landkreise liegt als gruppierte Variable vor. So entspricht die Ausprägung 2 einem Wertebereich von „2 Prozent bis unter 4 Prozent“, die maximale Ausprägung 7 einem Wertebereich von „12 Prozent bis unter 14 Prozent“.
Literaturverzeichnis Anscombe, F. J. (1973). Graphs in Statistical Analysis. The American Statistician, 27, 17–21. Belsley, D. A., Kuh, E., & Welsch, R. E. (1980). Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. New York: John Wiley & Sons. Berry, W. D. (1993). Understanding Regression Assumptions, Band 07-092 von Quantitative Applications in the Social Sciences. Newbury Park: Sage. Brachinger, H. W. (1990a). Identifikation einflußreicher Daten. Ein Überblick über die Regression Diagnostics (Teil I). Allgemeines Statistisches Archiv, 74, 188–212. Brachinger, H. W. (1990b). Identifikation stochastischer linearer Abhängigkeiten. Ein Überblick über die Regression Diagnostics (Teil II). Allgemeines Statistisches Archiv, 74, 269–292. Chatterjee, S. & Hadi, A. S. (1988). Sensitivity Analysis in Linear Regression. New York: John Wiley & Sons.
25 Lineare Regression: Modellannahmen und Regressionsdiagnostik
675
Chatterjee, S. & Hadi, A. S. (2006). Regression Analysis by Example. Hoboken: John Wiley & Sons, 4. Auflage. Cohen, J., Cohen, P., West, S., & Aiken, L. S. (2003). Applied Multiple Regression/Correlation Analysis for the Behavioral Sciences. Mahwah: Lawrence Erlbaum, 3. Auflage. Cook, D. R. & Weisberg, S. (1982). Residuals and Influence in Regression. London: Chapman & Hall. Fox, J. (1984). Linear Statistical Models and Related Methods. With Applications to Social Research. New York: John Wiley & Sons. Fox, J. (1991). Regression Diagnostics, Band 07-079 von Quantitative Applications in the Social Sciences. Newbury Park: Sage. Gujarati, D. N. (1995). Basic Econometrics. New York: McGraw-Hill, 3. Auflage. Jann, B. (2006). Diagnostik von Regressionsschätzungen bei kleinen Stichproben. In A. Diekmann (Hg.), Methoden der Sozialforschung (S. 421–452). Wiesbaden: VS Verlag für Sozialwissenschaften. Kmenta, J. (1997). Elements of Econometrics. Ann Arbor: The University of Michigan Press, 2. Auflage. Schnell, R. (1994). Graphisch gestützte Datenanalyse. München: Oldenbourg. Weisberg, S. (2005). Applied Linear Regression. Hoboken: John Wiley & Sons, 3. Auflage.
26 Nicht-Linearität und Nicht-Additivität in der multiplen Regression: Interaktionseffekte, Polynome und Splines Henning Lohmann Deutsches Institut für Wirtschaftsforschung, Berlin Zusammenfassung. Sozialwissenschaftliche Fragestellungen betreffen häufig nicht-additive und nicht-lineare Zusammenhänge. In diesem Kapitel werden Möglichkeiten vorgestellt, entsprechende Zusammenhänge im Rahmen der multiplen Regression zu modellieren. Zunächst wird die Verwendung von Interaktionseffekten zur Spezifikation nicht-additiver Zusammenhänge erläutert. Dabei wird auch darauf eingegangen, inwieweit sich die Verwendung von Interaktionseffekten mit Dummyvariablen zur getrennten Betrachtung zweier Gruppen eignet. Dann werden unterschiedliche Möglichkeiten, Nicht-Linearitäten in der multiplen Regression zu berücksichtigen, erörtert. Dabei wird zunächst die Verwendung von quadrierten Termen behandelt, bevor allgemeiner auf die polynomische Regression eingegangen wird. Eine Alternative stellt die Spline Regression dar, die in einem weiterem Schritt erläutert wird. Eine Diskussion gängiger Tests auf Nicht-Linearität und das Vorliegen von Gruppenunterschieden schließt die einführende Darstellung ab. Das Vorgehen und die Interpretation der Ergebnisse werden ausführlich anhand von empirischen Beispielen erläutert.
1 Einführung Dieses Kapitel behandelt Möglichkeiten der Modellierung von nicht-additiven und nichtlinearen Zusammenhängen im Rahmen der multiplen Regression. In ihrer einfachsten Form liegen der multiplen Regression die Annahmen der Linearität und der Additivität zugrunde (vgl. Kapitel 24 und 25 in diesem Handbuch). Von einem linearen Effekt einer Variable x auf eine Variable y spricht man, wenn die Stärke des Effekts unabhängig von dem Wert der Variable x ist. Mit einem additiven Effekt ist gemeint, dass der Effekt einer Variable x1 auf eine Variable y unabhängig von dem Effekt weiterer Variablen xk ist. Viele sozialwissenschaftliche Fragestellungen betreffen jedoch Zusammenhänge, die entweder nicht-linear oder nicht-additiv sind. Dies soll einführend anhand von drei Beispielen kurz erläutert werden. Ein erstes Beispiel für die Nicht-Additivität von zwei Effekten ist der Zusammenhang zwischen den kontinuierlichen Variablen Berufserfahrung, Bildungsjahre und Erwerbseinkommen. Je nach Bildungsniveau steigt das Erwerbseinkommen mit zunehmender Berufserfahrung in unterschiedlicher Weise an. Es besteht eine Interaktion zwischen Bildung und Berufserfahrung. Wird diese Interaktion nicht berücksichtigt, wird der Einfluss der Berufserfahrung für bestimmte Bildungsniveaus über- für andere unterschätzt. Ein zweites Beispiel ist der Einfluss von Geschlecht und Berufserfahrung auf das Erwerbseinkommen. Eine einfache Annahme ist, dass aufgrund von häufigeren Erwerbsunterbrechungen, der Einfluss der S. 677–706 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_26, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
678
Henning Lohmann
Berufserfahrung auf das Erwerbseinkommen von Frauen geringer ist. Hier besteht eine Interaktion zwischen Geschlecht und Berufserfahrung. Das Beispiel unterscheidet sich von dem vorherigen dadurch, dass „Geschlecht“ eine Dummyvariable ist und somit nur zwei Personengruppen voneinander unterscheidet. Eine Möglichkeit, den geschlechtsspezifisch unterschiedlichen Einfluss des Alters auf das Erwerbseinkommen zu untersuchen, ist in diesem Fall daher, beide Gruppen getrennt voneinander zu betrachten. Eine zweite ist es, die Interaktion zwischen Geschlecht und Alter in einem gemeinsamen Modell mit zu berücksichtigen. Ein Beispiel für einen nicht-linearen Zusammenhang ist der Einfluss des Alters auf Einstellungen. Einstellungen sind häufig nicht konstant, sondern verändern sich mit zunehmendem Alter, wobei die Veränderung nicht unbedingt gleichmäßig erfolgt, sondern in einzelnen Lebensabschnitten unterschiedlich verläuft. Der Einfluss des Alters kann sich abschwächen oder auch umkehren und ist somit nicht-linear. Wird dies ignoriert, wird ein verzerrter Alterseffekt geschätzt (oder kein Effekt, wenn sich gegenläufige Effekte aufheben). Das Kapitel ist wie folgt aufgebaut. In Abschnitt 2 werden Möglichkeiten zum Umgang mit Nicht-Additivität und Nicht-Linearität allgemein dargestellt. Zunächst wird die Verwendung von Interaktionseffekten erläutert. Dabei wird auch darauf eingegangen wird, inwieweit sich die Verwendung von Interaktionseffekten mit Dummyvariablen zur Betrachtung zweier Gruppen eignet. Dann werden unterschiedliche Möglichkeiten, Nicht-Linearitäten in der multiplen Regression zu berücksichtigen, erörtert. Dabei wird zunächst die Verwendung von quadrierten Termen als ein einfacher Fall der polynomischen Regression behandelt. Eine Alternative stellt die Spline Regression dar, die in einem zweiten Schritt erläutert wird. In Abschnitt 3 werden einfache Testverfahren (Chow-Test, RESET) zur Feststellung von Gruppenunterschieden und Nicht-Linearitäten dargestellt. Abschnitt 4 ist einem Anwendungsbeispiel zu Interaktionseffekten gewidmet. In Abschnitt 5 wird anhand eines Beispiels die Verwendung von Polynomen und Splines näher erläutert. Eine Darstellung typischer Anwendungsprobleme und Literaturempfehlungen schließen das Kapitel ab (Abschnitte 6 und 7). Prinzipiell ist das Kapitel so angelegt, dass die Darstellung der Anwendungsbeispiele auch verständlich sein sollte, wenn die ausführliche Lektüre der Abschnitte 2 und 3 übersprungen wird.
2 Interaktionseffekte, Polynome und Splines 2.1 Nicht-Additivität: Interaktionseffekte Wie in Abschnitt 1 erläutert spricht man von Nicht-Additivität, wenn der Einfluss einer Variablen x1 auf eine Variable y durch eine Variable x2 beeinflusst wird. Es besteht eine Interaktion zwischen beiden Variablen.1 Der Zusammenhang zwischen x1 und y wird durch eine Variable x2 „moderiert“. Man spricht daher auch von einer 1
In diesem Kapitel wird allein die Verwendung und Interpretation von Interaktionseffekten in linearen Regressionsmodellen dargestellt. Das Vorgehen ist jedoch auch auf andere Modelle übertragbar. Teilweise ist die Interpretation jedoch komplizierter (vgl. beispielsweise Jaccard (2001) zur Interpretation von Interaktionseffekten in der logistischen Regression).
26 Interaktionseffekte, Polynome und Splines
679
Moderatorvariable. Im Fall des bereits angesprochenen Beispiels zum bildungsspezifischen Einfluss der Berufserfahrung auf das Erwerbseinkommen ist Bildung die Moderatorvariable. Allerdings lässt sich der Zusammenhang auch andersherum betrachten. So könnte man auch argumentieren, dass der Einfluss der Bildung von der Berufserfahrung abhängt. In diesem Fall wäre Berufserfahrung die Moderatorvariable. Hinsichtlich der Schätzergebnisse führen beide Spezifikationen zu ein und demselben Ergebnis. Es ist also allein eine inhaltliche Frage, ob die eine Variable den Einfluss einer anderen Variablen verändert oder ob der Zusammenhang andersherum betrachtet wird. Die Feststellung einer Verletzung der Annahme der Varianzhomogenität der Residuen kann ein Hinweis auf die fehlende Berücksichtung einer relevanten Interaktion sein (siehe auch das Beispiel weiter unten in diesem Abschnitt).2 Jedoch ist es in konkreten Anwendungen häufig nicht möglich, allein aufgrund einer Residuenanalyse auf eine fehlende Interaktion zu schließen. Üblicherweise ist die Spezifikation von Interaktionen daher theoretisch motiviert oder folgt den Ergebnissen früherer Studien. Zunächst werden Interaktionen zwischen zwei kontinuierlichen Variablen betrachtet. Durch Multiplikation der beiden Variablen, zwischen denen eine Interaktion angenommen wird, wird eine neue Variable gebildet. Das Produkt der beiden Variablen x1 · x2 , der Interaktionsterm, wird wie eine zusätzliche Variable behandelt. Unter Berücksichtigung des Interaktionsterms ergibt sich für ein Modell mit zwei unabhängigen Variablen die folgende Regressionsgleichung: y = b0 + b1 · x1 + b2 · x2 + b3 · (x1 · x2 ) + e
(1)
Durch Umformung wird die Veränderung des Effekts von x1 auf y direkt sichtbar: y = b0 + (b1 + b3 · x2 ) · x1 + b2 · x2 + e
(2)
Zusätzlich zu dem Effekt, der durch den Regressionskoeffizienten b1 ausgedrückt wird, wird der Effekt durch das Produkt von b3 · x2 bestimmt. Je nachdem ob b3 positiv oder negativ ist, wird der Einfluss von x1 mit einem steigenden Wert von x2 verstärkt oder abgeschwächt. Hier wird deutlich, dass x2 den Einfluss von x1 moderiert. Für jeden Wert von x2 besteht ein anderer Zusammenhang zwischen x1 und y. Dies bedeutet auch, dass die Regressionskoeffizienten b1 und b2 anders zu interpretieren sind. Der Koeffizient b1 beschreibt nur unter der Bedingung x2 = 0 den Zusammenhang zwischen x1 und y (analog dazu: b2 beschreibt nur dann den Zusammenhang zwischen x2 und y, falls x1 = 0). Entsprechend gelten Tests auf die statistische Signifikanz von b1 bzw. b2 auch nur für den Fall, dass die jeweils andere Variable den Wert null aufweist. Ein signifikanter Koeffizient bedeutet also nicht, dass generell ein Einfluss besteht, sondern nur für einen beschränkten Teil der Untersuchungspopulation. Es handelt sich um einen bedingten oder konditionalen Regressionskoeffizienten. Häufig wird trotzdem von einem Haupteffekt und einem Interaktionseffekt gesprochen. Der Haupteffekt ist aber anders zu interpretieren als in einem Modell ohne Interaktionseffekte. Im 2
Die Annahme ist verletzt, wenn die Streuung der Residuen mit den Werten der unabhängigen Variablen variiert (vgl. auch Kapitel 25 in diesem Handbuch).
680
Henning Lohmann
Folgenden wird deswegen nicht von Haupteffekten, sondern von konditionalen Effekten gesprochen. Ein besonderes Problem tritt auf, wenn x2 nicht den Wert 0 annehmen kann. Dann ist b1 nicht sinnvoll interpretierbar. Eine Möglichkeit dieses Problem zu umgehen ist, mittelwertzentrierte Variablen zur Bildung von Interaktionseffekten zu verwenden (vgl. ausführlich Aiken & West 1991), da davon auszugehen ist, dass der Stichprobenmittelwert sinnvoll zu interpretieren ist. In einem ersten Schritt werden die beiden Variablen x1 und x2 mittelwertzentriert (x1 = x1 − x ¯1 ,x2 = x2 − x ¯2 ). Die transformierten Variablen werden zur Bildung des Interaktionsterms verwendet (x3 = x1 · x2 ). Im Regressionsmodell wird dann dieser Interaktionsterm zusammen mit den transformierten Variablen x1 und x2 verwendet.3 Durch die Zentrierung wird auch das Problem der Multikollinearität, das häufig bei der Verwendung von Interaktionseffekten auftritt, in fast allen Fällen verringert (vgl. Cronbach 1987).4 Auch dichotome Variablen können zur Bildung von Interaktionseffekten verwendet werden. Im Folgenden wird die Interaktion zwischen einer Variablen mit zwei Ausprägungen und einer kontinuierlichen Variable betrachtet. Grundsätzlich ist das Vorgehen auch auf andere Variablen mit mehr als zwei Ausprägungen übertragbar (vgl. z. B. Jaccard & Turrisi 2003, S. 57 ff.). Die Verwendung von Interaktionseffekten mit Variablen mit zwei Ausprägungen ist besonders häufig, da sie sich eignen, den unterschiedlichen Einfluss einer Variable x1 auf y für zwei verschiedene Gruppen zu modellieren (z. B. Frauen und Männer, Ost- und Westdeutsche). Üblicherweise werden Variablen mit den Ausprägungen 0 und 1 verwendet. In der folgenden Gleichung ist x2 eine Dummyvariable: y = b0 + b1 · x1 + b2 · x2 + b3 · (x1 · x2 ) + e
(3)
Hat x2 den Wert 0, vereinfacht sich die Gleichung. Übrig bleiben nur die Regressionskonstante und die Koeffizienten der interessierenden Variablen x1 . Für die Untersuchungseinheiten der Gruppe, die in der Variable x2 den Wert 0 aufweisen, spielt der Interaktionsterm also keine Rolle. b0 und b1 sind zur Bestimmung der Schätzwerte ausreichend: y = b0 + b1 · x1 + e, für x2 = 0 (4) Durch Umformung lässt sich auch das Ergebnis für die Untersuchungseinheiten der zweiten Gruppe (x2 = 1) anschaulich darstellen: y = (b0 + b2 ) + (b1 + b3 ) ·x1 + e, für x2 = 1 5 67 8 5 67 8 b0
b1
(5)
b0 + b2 ist als Regressionskonstante für die Untersuchungseinheiten mit x2 = 1 zu interpretieren. Der Regressionskoeffizient für x1 ist b1 + b3 . Die Verwendung von Interaktionseffekten führt zu denselben Ergebnissen wie die Schätzung getrennter 3
4
Eine Zentrierung der abhängigen Variable ist nicht notwendig und auch nicht üblich, zumindest wenn die Skalierung der abhängigen Variable erhalten bleiben soll. Dieses Vorgehen eignet sich nur für die Schätzung unstandardisierter Regressionskoeffizienten (vgl. aber Aiken & West 1991, S. 40 ff. für eine Möglichkeit, entsprechende standardisierte Regressionskoeffizienten zu schätzen).
26 Interaktionseffekte, Polynome und Splines
681
Modelle für beide Gruppen. Während das Modell für Personen mit x2 = 0 exakt dem in Gleichung (4) entspricht, ergeben sich für Personen mit x2 = 1 die Regressionskoeffizienten b0 , b1 und b2 . Wenn keine Niveauunterschiede und keine Unterschiede im Einfluss der betrachteten Variablen zwischen beiden Gruppen bestehen gilt b0 = b0 und b1 = b1 . Da im gemeinsamen Modell die Koeffizienten der Dummyvariablen und der entsprechenden Interaktionsterme die Differenz zwischen den jeweiligen Koeffizienten abbilden, ist – im Gegensatz zum Vorgehen über zwei getrennte Modelle – ein Test der Unterschiede der einzelnen Koeffizienten zwischen beiden Gruppen durchführbar. Auch in einem Modell mit mehreren interessierenden Variablen ist dieses Vorgehen möglich. Der Fall mit zwei interessierenden Variablen ist in Gleichung (6) dargestellt. y = b0 + b1 · x1 + b2 · x2 + b3 · x3 + b4 · (x1 · x3 ) + b5 · (x2 · x3 ) + e
(6)
Falls x3 = 0 vereinfacht sich die Gleichung. Übrig bleiben die Koeffizienten b0 , b1 und b2 . Wie im vorherigen Beispiel mit zwei Variablen lassen sich durch Umstellung die Koeffizienten für den Fall x3 = 1 verdeutlichen: b0 = b0 + b3 , b1 = b1 + b4 , b2 = b2 + b5 . Ein Anwendungsbeispiel folgt in Abschnitt 4. 2.2 Nichtberücksichtigung von Interaktionen als Fehlspezifikation Die fehlende Spezifikation eines Interaktionsterms führt, wie die Auslassung anderer unabhängiger Variablen, zur Verletzung der Annahme der Varianzhomogenität der Residuen. Dies soll an einem Beispiel verdeutlicht werden. In Abbildung 1 ist auf Basis simulierter Daten der Zusammenhang zwischen Bildung (in Jahren), Motivation und dem Erwerbseinkommen dargestellt. Sowohl Bildung als auch die Motivation wirken positiv auf das Einkommen. Zusätzlich besteht ein positiver Interaktionseffekt zwischen Bildung und Motivation. Mit zunehmender Motivation wird der positive Bildungseffekt verstärkt. In Abbildung 1 a ist das Schätzergebnis eines Modells ohne Interaktionseffekt dargestellt. Die positive Steigung der Geraden gibt den Bildungseffekt wieder. Für alle Ausprägungen der Variable „Motivation“ ist eine Gerade dargestellt. Die Effekte von Bildung und Motivation sind additiv. Unabhängig vom Wert der jeweils anderen Variablen bewirkt eine Veränderung der unabhängigen Variablen um eine Einheit eine bestimmte Veränderung der abhängigen Variablen. Daher liegen die Schätzergebnisse auf parallelen Geraden, die jeweils den gleichen Abstand voneinander aufweisen. Allerdings verlaufen die Schätzgeraden nur im mittleren Bereich der Bildungsverteilung im Bereich der beobachteten Werte. Das Einkommen von Personen mit höherer Bildung wird unterschätzt. Das Einkommen von Personen mit geringer Bildung wird überschätzt. Die Abbildung 1 b zeigt das dazugehörige Streudiagramm der Residuen. Die Streuung der Residuen variiert systematisch mit der Bildung. Die Annahme der Varianzhomogenität der Residuen ist verletzt. In Abbildung 1 c ist dagegen das Schätzergebnis eines Modells mit einer Interaktion zwischen Motivation und Bildung dargestellt. Je nach Motivation ist der Effekt der Bildung auf das Einkommen unterschiedlich. Die Schätzwerte liegen nicht mehr wie zuvor auf parallelen Geraden. Jede Gerade weist eine unterschiedliche Steigung auf, da der Einfluss der Bildung je nach Motivation unterschiedlich ist. Es gibt keine systematische Über- oder Unterschätzung
Henning Lohmann
-2000
0
Einkommen 0
Einkommen 4000 8000
2000
12000
682
8
10
12 14 Bildung (in Jahren)
16
8
18
12 14 Bildung (in Jahren)
16
18
(b) ohne Interaktionseffekt (Residuen)
0
-2000
Einkommen 0
Einkommen 4000 8000
2000
12000
(a) ohne Interaktionseffekt (beobachtete Werte und Schätzwerte)
10
8
10
12 14 Bildung (in Jahren)
16
18
(c) mit Interaktionseffekt (beobachtete Werte und Schätzwerte)
8
10
12 14 Bildung (in Jahren)
16
18
(d) mit Interaktionseffekt (Residuen)
Abb. 1: Modell ohne und mit Interaktionseffekt (Beispiel) des Einkommens. Aufgrund der geänderten Modellspezifikation ist die Streuung der Residuen insgesamt geringer. Vor allem variiert die Streuung der Residuen nicht mehr systematisch mit der Bildung (Abbildung 1 d). 2.3 Nicht-Linearität: Polynome und Splines Während die Verwendung von Interaktionstermen eine Standardlösung zur Modellierung von nicht-additiven Zusammenhängen darstellt, sind die Möglichkeiten zur Modellierung von nicht-linearen Zusammenhängen vielfältiger. In diesem Kapitel werden mit der Verwendung von Polynomen (im einfachsten Fall quadrierte Effekte) und Splines zwei Möglichkeiten vorgestellt. Bei der Bildung von Polynomen handelt es sich um eine einfache Transformation der unabhängigen Variablen. Häufig werden auch andere Funktionen zur Transformation der unabhängigen Variablen verwendet, auf die
683
(a) U-förmiger Zusammenhang
26 Interaktionseffekte, Polynome und Splines
(b) S-förmiger Zusammenhang
Abb. 2: Nicht-Lineare Zusammenhänge (Beispiele) hier jedoch nicht eingegangen wird (z. B. Logarithmierung, vgl. einführend Wooldridge 2003, S. 187 ff.). Das Problem der Ignorierung von Nicht-Linearitäten ist in Abbildung 2 anhand von zwei Beispielen schematisch dargestellt. In Abbildung 2 a ist ein deutlicher Zusammenhang zwischen zwei Variablen x und y zu sehen. Allerdings ist der Zusammenhang U-förmig. Mit steigendem x nimmt y zunächst bis zu einem Minimalwert ab, nimmt danach aber genauso wieder zu. Neben den beobachteten Werten ist auch die Schätzgerade einer linearen Regression eingezeichnet. Da sich die Ab- und Zunahme von y im Verlauf von x gegenseitig aufheben, weist das lineare Modell keinen Zusammenhang zwischen beiden Variablen aus. Der Regressionskoeffizient ist gleich null. Die Regressionsgerade verläuft waagerecht. Abbildung 2 b zeigt zusätzlich einen sich mehrfach ändernden Zusammenhang zwischen x und y. Zunächst steigt y mit x stark an, bleibt dann annähernd konstant, um mit höheren x wieder zuzunehmen. Die lineare Schätzgerade zeigt einen durchgängig positiven Zusammenhang an. Die Abweichungen der Schätzgerade variieren jedoch systematisch mit den Werten der unabhängigen Variable.5 Die Tatsache, dass sich y im mittleren Wertebereich von x kaum verändert, wird ignoriert. 2.4 Polynome Die in den beiden Beispielen dargestellten nicht-linearen Zusammenhänge lassen sich durch eine einfache Transformation der unabhängigen Variable in ein lineares Modell überführen. Wie in Abschnitt 1 definiert spricht man von einem linearen Effekt, wenn die Stärke des Effekts unabhängig von dem Wert der Variable x ist. Im Fall des 5
Auf die Darstellung der Residuen wurde in diesen Beispielen verzichtet. Eine solche Darstellung würde verdeutlichen, dass der Verlauf der Residuen regelmäßig und nicht zufällig ist.
684
Henning Lohmann
U-förmigen Zusammenhangs in Abbildung 2 a ist die Quadrierung der Variable x eine geeignete Transformation (x = x2 ). Anders ausgedrückt handelt es sich um die Potenz von x mit einem Exponenten von 2 oder einem Polynom zweiter Ordnung (entsprechend der lineare Fall: x = x1 , Polynom erster Ordnung). Die Stärke des Effekts von x auf y ist über den gesamten Wertebereich konstant. Im Fall des umkehrt S-förmigen Zusammenhangs (Abbildung 2 b) kann ein Polynom dritter Ordnung zur Linearisierung des Zusammenhangs verwendet werden. Ein Polynom vierter Ordnung eignet sich zur Modellierung eines U-förmigen Zusammenhangs, bei dem die Veränderung im Bereich der mittleren Werte von x gering ist (die Kurve steigt nicht so schnell wieder an wie bei einem Polynom zweiter Ordnung). In empirischen Anwendungsfällen wird man reine U-förmige oder andere gleichförmige nicht-lineare Zusammenhänge kaum finden. Polynome werden daher üblicherweise zusammen mit einem linearen Term in ein Modell eingeführt, um Abweichungen von linearen Zusammenhängen deutlich zu machen. Der einfachste Fall ist in Gleichung (7) dargestellt: (7) y = b0 + b1 · x + b2 · x2 + e Zusätzlich zu dem linearen Term enthält die Gleichung einen quadrierten Term. In Abbildung 3 sind Beispiele für entsprechende Funktionen dargestellt. Der Koeffizient b1 ist in den Beispielen immer gleich fünf. Für b2 sind dagegen vier verschiedene Werte dargestellt (-2, -0,2, 0,2, 2). Je nach Größe und Richtung von b2 ergeben sich sehr unterschiedliche Verläufe. Nur im Fall b2 = 2 ist ein U-förmiger Verlauf zu sehen. Für b2 = −2 ergibt sich ein umgekehrt U-förmiger Verlauf. Für b2 = 0,2 oder b2 = −0,2 ist die Krümmung dagegen so schwach, dass innerhalb des hier der dargestellten Wertebereichs, der (umgekehrt) U-förmige Verlauf nicht auszumachen ist. Ein von null verschiedener quadrierter Term weist also nicht unbedingt auf eine Umkehrung eines Zusammenhangs hin, sondern häufig nur auf die Verstärkung oder Abschwächung eines Einflusses im Verlauf des Wertebereichs. Dies gilt insbesondere dann, wenn die interessierende Variable auf positive oder negative Werte beschränkt ist. Trotzdem ist auch bei ausschließlich positiven oder negativen Werte der unabhängigen Variable eine Umkehrung des Zusammenhangs möglich, nämlich dann, wenn die Koeffizienten des linearen Terms und des quadrierten Terms in unterschiedliche Richtungen weisen (nicht in Abbildung 3 dargestellt). Über die Aufnahme eines quadrierten Terms lässt sich also eine Vielzahl von unterschiedlichen Verläufen abbilden, allerdings nur solche, in denen sich der Zusammenhang zwischen x und y maximal einmal umkehrt. Außerdem bieten Modelle mit einem quadrierten Term die Möglichkeit, die Linearitätsannahme zu überprüfen. Ist der entsprechende Koeffizient b2 ungleich null, liegt ein nicht-linearer Zusammenhang zwischen x und y vor. Die Teststatistik von b2 entspricht daher einem einfachen Test auf Nicht-Linearität. Im Fall eines linearen Zusammenhangs ist b2 nicht signifikant von null verschieden. Allerdings ist der Umkehrschluss nicht zulässig. Nicht immer wenn b2 gleich null ist liegt ein linearen Zusammenhang vor. Es kann sich auch um einen nicht-linearen Zusammenhang handeln, der nicht durch ein Polynom zweiter Ordnung abgebildet werden kann. Um komplexere Verläufe abzubilden werden daher auch Polynome höherer Ordnung mit in das Modell aufgenommen. So zeigt sich die Nicht-Linearität des Beispiels in Abbildung 2 b erst
685
26 Interaktionseffekte, Polynome und Splines
+,- + .+,-.+
Abb. 3: Regressionsmodelle mit quadratiertem Term bei Verwendung eines Polynoms dritter Ordnung. Die folgende Regressionsgleichung enthält Polynome bis zur vierten Ordnung: y = b0 + b1 · x + b2 · x2 + b3 · x3 + b4 · x4 + e
(8)
In diesem Kapitel werden aus zwei Gründen Polynome bis zur vierten Ordnung verwendet. Erstens ist eine entsprechende Modellierung für das Anwendungsbeispiel in Abschnitt 5 angemessen. Zweitens verwendet auch der in Abschnitt 3 dargestellte Test auf Nicht-Linearität (RESET) Polynome bis zur vierten Ordnung. Prinzipiell wäre aber auch die Verwendung höherer Polynome möglich. Für sich gleichmäßig verändernde Zusammenhänge ist die Modellierung über einen quadrierten Term aber bereits häufig ausreichend. Außerdem nimmt mit dem Hinzufügen von weiteren Polynomen höherer Ordnung das Problem der Multikollinearität zu. Wie im Fall von Interaktionseffekten lässt sich diesem Problem mit der Verwendung von mittelwertzentrierten Variablen begegnen. Ein weiteres, häufig bei der Verwendung von Polynomen auftretendes Problem ist, dass die Anpassung am Rand des Wertebereichs ungenügend ist, da ein kurvilinearer Verlauf einfach fortgeschrieben wird. Zudem produziert die Verwendung von Polynomen oft lokale Minima oder Maxima (ausgeprägte „Hügel“ oder „Täler“ im Kurvenverlauf, vgl. Magee 1998). Auf diese Probleme wird anhand des Anwendungsbeispiels in Abschnitt 4 nochmals eingegangen. 2.5 Splines Eine Alternative, die diese Probleme nicht aufweist, ist die Verwendung von sogenannten Splines (vgl. Harrell 2001, S. 18 ff.; Ruppert et al. 2003, S. 57 ff.).6 Die grundlegende 6
Das Wort hat unterschiedliche Bedeutungen. Hier bezieht es sich flexible Kurvenlineale, wie sie beispielsweise für die Zeichnung von Funktionen verwendet wurden.
Henning Lohmann
(a) Dummys & Interaktionen
686
(b) Lineare Splines
Abb. 4: Regression mit Dummyvariablen und linearen Splines (Beispiel) Idee dabei ist, dass für einzelne Wertebereiche einer unabhängigen Variable unterschiedliche Steigungskoeffizienten geschätzt werden. Prinzipiell ist dies auch durch eine Spezifikation über Dummyvariablen und Interaktionseffekte möglich (vgl. Marsh & Cormier 2001, S. 7 f.). Unterteilt man beispielsweise eine unabhängige Variable in drei Kategorien (niedrig, mittel, hoch) und fügt entsprechende Dummyvariablen in ein Modell ein, lässt sich darüber ein nicht-linearer Einfluss darstellen. Ein entsprechendes Beispiel ist in Abbildung 4 dargestellt (Grafik links, waagerechte gestrichelte Linien). Allerdings sind die Schätzwerte innerhalb der Kategorien konstant und unterscheiden sich nur zwischen den Kategorien. Es ergibt sich ein gestufter Verlauf der Schätzwerte. Über Interaktionen der Dummy-Variablen mit der linearen Variable lässt sich ein flexiblerer Verlauf modellieren (Grafik links, durchgezogene Linien). Dies entspricht einer getrennten Schätzung der drei Gruppen (vgl. Abschnitt 2.1). Aber auch bei Verwendung von Interaktionseffekten können „Sprünge“ in den Schätzwerten an den Grenzen der Kategorien auftreten. Beispielsweise beträgt der Schätzwert etwa 60, wenn die unabhängige Variable den Wert −5 aufweist. Bei einem Wert von −4,99 beträgt die Vorhersage dagegen etwa −200. Im Fall einer kontinuierliche Variable – die Kategorisierung wurde ja nur vorgenommen, um den nicht-linearen Verlauf zu modellieren – sind solche Sprünge inhaltlich nur schwer zu begründen. Im Gegensatz zur Dummy-Regression ermöglicht die Verwendung von Splines, eine durchgehende Regressionslinie zu schätzen. Abbildung 4 (rechte Grafik) zeigt eine einfache Modellierung über Splines. Wie in der Modellierung mit Dummyvariablen wird angenommen, dass sich die Stärke des Einflusses von x auf y über den Wertebereich von x zweimal verändert. Die Punkte, an denen Veränderungen angenommen bzw. zugelassen werden, werden in der Splineregression als Knotenpunkte (knots) bezeichnet.
26 Interaktionseffekte, Polynome und Splines
687
Hier wurden die Werte −5 und +5 als Knotenpunkte gewählt. Der Wertebereich der unabhängigen Variablen ist somit in drei Abschnitte unterteilt. Für jeden dieser Abschnitte wird ein eigener Regressionskoeffizient geschätzt. Im hier dargestellten einfachsten Anwendungsfall wird davon ausgegangen, dass der Effekt innerhalb der einzelnen Abschnitte der unabhängigen Variablen linear ist. Nur für den gesamten Wertebereich der unabhängigen Variablen wird ein nicht-linearer Zusammenhang angenommen. Daher spricht man von linearen Splines oder bezeichnet den Ansatz auch als piecewise linear regression. Prinzipiell können bei ausreichender Fallzahl Spline-Regressionen mit einer beliebig hohen Anzahl von Knoten spezifiziert werden. Im einfachsten Fall sind die Anzahl und die Lage der Knotenpunkte bekannt. Ein Regressionsmodell mit drei Knotenpunkten k1 , k2 und k3 ist definiert durch: y = b0 + b1 · x + b2 · (x − k1 )+ + b3 · (x − k2 )+ + b4 · (x − k3 )+ + e mit
9 u falls u > 0 (u)+ = 0 falls u ≤ 0
(9)
Bei (u)+ = 0 fallen die entsprechende Terme in der Gleichung weg. Entsprechend kann die Gleichung für die jeweiligen Wertebereiche von x vereinfacht werden: ⎧ b0 + b 1 · x + e ⎪ ⎪ ⎨ y=
b0 + b1 · x + b2 · (x − k1 ) + e
⎪ b + b1 · x + b2 · (x − k1 ) + b3 · (x − k2 ) + e ⎪ ⎩0
b0 + b1 · x + b2 · (x − k1 ) + b3 · (x − k2 ) + b4 · (x − k3 ) + e
falls falls falls falls
x ≤ k1 k1 < x ≤ k2 k2 < x ≤ k3 k3 < x
(10)
Für jeden der vier durch die Knoten abgegrenzten Wertebereiche von x wird also eine unterschiedliche Steigung zugelassen. Ist mindestens einer der Koeffizienten b2 , b3 oder b4 signifikant von null verschieden ist der Zusammenhang zwischen x und y nicht-linear. Obwohl mit linearen Splines eine Vielzahl von Zusammenhängen modelliert werden kann, werden auch Polynome höherer Ordnung zur Bildung der Splines verwendet. Dadurch verlaufen Regressionslinien an den Knotenpunkten runder und es können auch Nicht-Linearitäten zwischen Knoten approximiert werden (vgl. Harrell 2001, S. 19 ff.). Üblich ist die Verwendung von Polynomen dritter Ordnung (kubische Splines). Wie in Modellen mit Polynomen ist jedoch auch bei kubischen Splines die Anpassung am oberen und unteren Ende des Wertebereichs der unabhängigen Variable häufig problematisch. Eine Lösung für dieses Problem stellen natürliche Splines dar (natural splines, auch restricted cubic splines). Der Unterschied zu kubischen Splines besteht darin, dass vor dem ersten und nach dem letzten Knotenpunkt ein linearer Verlauf angenommen wird. Natürliche Splines haben daher den zusätzlichen Vorteil, dass für den Verlauf vor dem ersten und nach dem letzten Knoten keine zusätzlichen Parameter geschätzt werden müssen. Für eine Modellierung mit m Knoten k1 , . . . , km sind also m − 1 Parameter ausreichend und nicht m + 1 wie im Fall linearer Splines. Die Regressionsgleichung mit natürlichen Splines ist wie folgt definiert:
688
Henning Lohmann
y = b0 + b1 · x1 + b2 · x2 + · · · + bm−1 · xm−1 + e
(11)
mit x1 = x und für j = 1, . . . , m − 2 xj+1 = (x − km )3+ − (x − km−1 )3+ ·
(km − kj ) (km−1 − kj ) + (x − km )3+ · . (km − km−1 ) (km − km−1 )
Zur besseren Interpretierbarkeit der Ergebnisse eignet sich eine Standardisierung der kubischen Terme, bei der sie durch das Quadrat der Differenz von km − k1 geteilt werden (Harrell 2001, S. 23). Ohne die Standardisierung sind die Koeffizienten der linearen und kubischen Terme aufgrund der unterschiedlichen Einheiten von x nicht direkt vergleichbar.7 Die bisherige Darstellung setzte voraus, dass sowohl die Anzahl als auch die Lage der Knoten – aufgrund theoretischer Überlegungen oder vorheriger Ergebnisse – bekannt sind. Marsh & Cormier (2001) diskutieren unterschiedliche analytische Verfahren, die Lage der Knotenpunkte (bei bekannter Anzahl), aber auch die Lage und die Anzahl der Knotenpunkte zu bestimmen. Prinzipiell ist es möglich, die Lage der Knotenpunkte zusammen mit den übrigen Parametern zu schätzen (beispielsweise über non-linear least squares). Jedoch sind insbesondere bei mehr als einem Knotenpunkt die Ergebnisse häufig sehr instabil, sodass dieses Vorgehen nur selten eine zufriedenstellende Lösung verspricht.8 Sind weder die Anzahl noch die Lage der Knotenpunkte bekannt, wird ein Verfahren vorgeschlagen, das auf der schrittweisen Regression (stepwise regression) beruht. Zunächst wird die unabhängige Variable in möglichst kleine Unterabschnitte eingeteilt. Für jeden dieser Unterabschnitte wird ein linearer Spline gebildet. Im Fall einer Variablen mit einem Wertebereich von eins bis 100 könnte man beispielsweise entsprechend viele Splines bilden. In einem schrittweisen Vorgehen wird die abhängige Variable dann auf alle Splines regressiert. Dabei werden die signifikanten Splines identifiziert, also die Abschnitte, in denen sich die Steigung der Regressionslinie signifikant gegenüber dem vorherigen Verlauf verändert. Dieses Vorgehen weist jedoch sämtliche Probleme der schrittweisen Regression auf. Grundsätzlich wird kritisiert, dass die Spezifikation allein auf Basis der Daten und nicht auf Basis vorheriger Hypothesen erfolgt. Die Teststatistik, die zur Auswahl der Splines verwendet wird, setzt aber eine Überprüfung von Hypothesen voraus (vgl. zu diesen und anderen Kritikpunkten Harrell 2001, S. 56 ff.). Es gibt aber auch praktische Probleme. Je nach gewählter Vorgehensweise – beispielsweise Ausschluss oder Hinzunahme von Variablen (forward bzw. backward selection) – unterscheiden sich die Ergebnisse teilweise deutlich.9 7
Diese Standardisierung wird auch in Software-Routinen zur Bildung natürlicher Splines verwendet (so beispielsweise in der Routine mkspline in Stata, vgl. StataCorp 2007, S. 289). Es handelt sich hierbei um eine Standardisierung der Splines einer Variablen und ist nicht mit der üblichen Standardisierung von Variablen zu verwechseln („z-Transformation“). 8 Eine Möglichkeit die Schätzung zu vereinfachen ist, die Parameter einer Schätzung mit „von Hand“ bestimmten Knotenpunkten als Startwerte vorzugeben. Allerdings sind die endgültigen Ergebnisse sehr von der Güte der Startwerte abhängig. 9 Ein weiterer Ansatz ist die sogenannte „penalized spline regression“ (vgl. Ruppert et al. 2003, S. 65 ff., 112 ff.). Für die Schätzung müssen zwar zunächst Knotenpunkte bestimmt werden. Üblich ist es, eine relativ hohe Anzahl von Knoten in gleichmäßigen Abständen
26 Interaktionseffekte, Polynome und Splines
689
Tab. 1: Quantile zur Festlegung von Knotenpunkten bei natürlichen Splines k 3 4 5 6 7
Quantile
0,05 0,025
0,05 0,23 0,1833
0,1 0,05 0,275 0,41 0,3417
0,5 0,35 0,5 0,59 0,5
0,9 0,65 0,725 0,77 0,6583
0,95 0,95 0,95 0,8167
0,975
Quelle: Harrell (2001, S. 23).
Neben automatisierten Verfahren haben sich in der Praxis „Faustregeln“ zur Anzahl und Lage der Knotenpunkte etabliert. Für die meisten Anwendungen ist eine geringe Anzahl von Knotenpunkten ausreichend.10 Beispielsweise nennt Stone (1986, S. 313) fünf Knotenpunkte als Referenzwert. Eine höhere Anzahl von Knoten wird häufig zu einer besseren Anpassung an die Daten führen. Allerdings besteht die Gefahr, dass geringfügige, vermutlich zufällige Veränderungen die Funktion bestimmen. Bei einer zu geringen Anzahl von Knoten werden dagegen substantielle Veränderungen im Verlauf ignoriert. Für die Lage der Knotenpunkte wird häufig – kann man die Lage nicht theoretisch bestimmen – auf die Verteilung der unabhängigen Variablen zurückgegriffen. Ein Ansatz ist, gleichmäßige Abstände zu wählen, z. B. anhand von Quartilsgrenzen. Im Fall von natürlichen Splines werden dagegen die äußeren Knoten relativ nah am Minimal- und Maximalwert der unabhängigen Variablen und nur die mittleren Knoten in gleichmäßigen Abständen platziert. Harrell (2001, S. 23) nennt geeignete Positionen für die Knotenpunkte bei natürlichen Splines, wobei er nach der Anzahl der Knotenpunkte unterscheidet (vgl. Tabelle 1). Die Lage der äußeren Knoten folgt der Überlegung, dass sie nicht in einem Wertebereich platziert sind, in dem sich der Einfluss der unabhängigen Variablen noch stark verändert. Falls dies doch der Fall sein sollte, ist die Anpassung an den Rändern wie im Fall von Polynomen häufig nicht zufriedenstellend, da extreme Verläufe fortgeschrieben werden. In den Anwendungsbeispielen in Abschnitt 5 werden die Ergebnisse von Modellen mit jeweils unterschiedlicher Anzahl und Lage der Knotenpunkte gegenübergestellt.
3 Tests auf Gruppenunterschiede und Nicht-Linearität Sowohl zur Überprüfung, ob Unterschiede zwischen Gruppen bestehen, die die Spezifikation von Interaktionseffekten erfordern, als auch zur Feststellung von NichtLinearität haben sich einfache Testverfahren etabliert, die hier kurz angesprochen
10
festzulegen. Die dazugehörigen Splines werden je nach ihrer Anpassung gewichtet, wobei das Gewicht gegen null streben kann, was im Extremfall der Auslassung eines Knotenpunktes entspricht. Vor allem wenn Splines für die Modellierung von Zeitreihen oder zur Glättung von Streudiagrammen verwendet werden, liegt die Anzahl der Knoten jedoch häufig höher.
690
Henning Lohmann
werden sollen, obwohl für die meisten Fragen die Betrachtung der Teststatistik der einzelnen Interaktionsterme bzw. Polynome mindestens ebenso geeignet ist. Für die Frage nach Gruppenunterschieden findet sich in Ökonometrielehrbüchern üblicherweise ein Verweis auf den Chow-Test (vgl. Wooldridge 2003, S. 239). Allerdings wird ein ähnliches Vorgehen – häufig ohne einen spezifischen Namen – auch in sozialwissenschaftlichen Lehrbüchern diskutiert (vgl. Kühnel & Krebs 2002, S. 568). Ein Test auf Nicht-Linearität, der auf der Verwendung von Polynomen basiert, ist der von Ramsey (1969) vorgeschlagene RESE-Test (RESET, regression specification error test, vgl. Wooldridge 2003, S. 292 ff.). Der Chow-Test ist ein F-Test, bei dem ein Modell, das nur Haupteffekte enthält mit einem Modell mit einer gruppenspezifischen Dummyvariable und Interaktionseffekten der Dummyvariable mit allen übrigen unabhängigen Variablen verglichen wird, im Fall mit zwei interessierenden Variablen also: Modell 1: yˆ = ˆb0 + ˆb1 · x1 + ˆb2 · x2 Modell 2: yˆ = ˆb0 + ˆb1 · x1 + ˆb2 · x2 + ˆb3 · (x1 · x2 )
(12) (13)
Die Teststatistik ist definiert als: F =
(SS1 −SS2 )/j SS2/(n−k−j−1)
(14)
mit k=Anzahl Variablen in Modell 1, j=Anzahl zusätzlicher Variablen in Modell 2, SS1 und SS2 = Summe der quadrierten Residuen in Modell 1 und 2. Der Chow-Test entspricht dem Test der folgenden Nullhypothese: H0 : β3 = β4 = β5 = 0. Ist der berechnete F-Wert größer als der kritische Wert des 95-ProzentQuantils der F-Verteilung ist bei Annahme einer Irrtumswahrscheinlichkeit von 5 Prozent die Nullhypothese abzulehnen. Es besteht dann ein signifikanter Unterschied zwischen beiden Gruppen in mindestens einem der Regressionskoeffizienten. Der Test ist sehr restriktiv, da eine Ablehnung der Nullhypothese erfolgt, wenn einer von allen getesteten Koeffizienten ungleich null ist. Dies kann auch die Dummyvariable sein, die auf Niveauunterschiede verweist. Wenn allein Gruppenunterschiede im Einfluss der interessierenden unabhängigen Variablen von Interesse sind, ist es angemessener ein Modell mit Dummyvariable mit dem vollstägen Modell mit Interaktionen zu vergleichen oder die Koeffizienten der Interaktionseffekte einzeln zu testen (was der für die jeweiligen Koeffizienten ausgegebenen Teststatistik entspricht). Auch der RESE-Test, über den sich das Auftreten von Nicht-Linearitäten überprüfen lässt, ist ein F-Test. Der RESE-Test basiert auf der Idee, ein einfaches lineares Modell mit einem Modell mit Polynomen bis zur vierten Ordnung zu vergleichen:11 Modell 1: yˆ = ˆb0 + ˆb1 · x1 Modell 2: yˆ = ˆb0 + ˆb1 · x + ˆb2 · x2 + ˆb3 · x3 + ˆb4 · x4 11
(15) (16)
Neben dem hier dargestellten Test gibt es eine Variante bei der Polynome der Schätzergebnisse als Prädiktoren verwendet werden (vgl. Wooldridge 2003, S. 239). In gängigen Statistikprogrammpaketen sind üblicherweise beide Varianten als Routinen verfügbar. Die Schätzung entsprechender Modelle (wie hier in der beispielhaften Betrachtung) ist bei Verwendung dieser Routinen nicht notwendig.
26 Interaktionseffekte, Polynome und Splines
691
Ist der Unterschied zwischen den Modellen signifikant, liegen Nicht-Linearitäten vor. Der RESE-Test entspricht dem Test der Nullhypothese: H0 : β2 = β3 = β4 = 0. Der RESE-Test erlaubt keine Rückschlüsse auf die korrekte Spezifikation des Zusammenhangs. Eine Ablehnung der getesteten Hypothese verweist nur darauf, dass ein Zusammenhang nicht linear ist. Die Nicht-Ablehnung bedeutet streng genommen allerdings nicht, dass ein linearer Zusammenhang vorliegt. Es bedeutet nur, dass kein Zusammenhang vorliegt, der mit Polynomen bis zur vierten Ordnung erfasst werden kann. In allgemeiner Perspektive sind die Ignorierung von Interaktionen und von Nicht-Linearität Formen der Fehlspezifikation von Modellen, sodass grundsätzlich alle Strategien zur Aufdeckung von Fehlspezifikationen verwendet werden können und nicht allein die hier vorgestellten spezifischen Tests.
4 Anwendungsbeispiel I: Interaktionseffekte In diesem Beispiel wird die Frage betrachtet, ob sich eine Person politisch als rechts oder links einstuft. Verwendet wird eine 10-stufige Links-Rechts-Skala. Niedrige Werte verweisen auf linke, hohe Werte auf rechte Einstellungen. Für das Beispiel werden Daten des kumulierten ALLBUS 1992 verwendet. Betrachtet werden Personen in Ost- und Westdeutschland im Alter zwischen 30 und 70 Jahren. In einem ersten Schritt wird untersucht, ob das Alter und die Bildung (in Jahren) einen Einfluss auf die Links-Rechts-Einstufung haben. In einem zweiten Schritt werden Unterschiede zwischen Ost- und Westdeutschland analysiert. Tabelle 2 zeigt die Ergebnisse einer Reihe von Regressionsmodellen. Modell 1 enthält nur Haupteffekte für Bildung und Alter. Alter hat einen positiven Einfluss, d. h. mit zunehmendem Alter steigt das Vorkommen rechter Einstellungen an. Bildung weist einen negativen Einfluss auf. Es ist aber anzunehmen, dass das Ausmaß der Veränderung politischer Einstellungen mit dem Alter je nach Bildungsniveau unterschiedlich ist. Anders ausgedrückt: es wird eine Interaktion zwischen Alter und Bildung angenommen. Es ergibt sich folgende Schätzgleichung (vgl. Abschnitt 2, Gleichung (1)): yˆ = ˆb0 + ˆb1 · alter + ˆb2 · bildung + ˆb3 · (alter · bildung) In Modell 2 ist ein entsprechender Interaktionsterm enthalten. Der Koeffizient ist positiv. Die Einstellungsunterschiede zwischen jungen und älteren Personen sind bei höherer Bildung stärker ausgeprägt. Dies soll anhand der Berechnung von beispielhaften Schätzwerten verdeutlicht werden. Für eine 30-jährige Person mit 8 Bildungsjahren ergibt sich durch Einsetzen der Werte und der geschätzten Koeffizienten: Durch Einsetzen der geschätzten Koeffizienten und der ausgewählter Alters- und Bildungsjahre ergibt sich: 5,484
(= 7,224 − 0,022 · 30 − 0,225 · 8 + 0,003 · 30 · 8)
Weitere Schätzwerte zeigen die gegenläufigen Effekte des Alters und der Bildung: 5,564 (70 und 8 Jahre), 4,134 (30 und 18 Jahre), und 5,414 (70 und 18 Jahre). Niedrige
692
Henning Lohmann
Tab. 2: OLS-Regression mit Interaktionseffekt (unstandardisierte Koeffizienten und Standardfehler) nicht zentriert M1
M2 ∗
Alter (in Jahren)
0,008 (0,004) −0,085∗∗∗ (0,015)
Bildung (in Jahren) Alter*Bildung
5,824∗∗∗ (0,264)
Konstante 2 R
0,024 7389,7 2254
quadr. Residuen
n
zentriert −0,022 (0,014) −0,225∗∗∗ (0,062) 0,003∗ (0,001) 7,224∗∗∗ (0,649)
0,026 7370,0 2254
M2z 0,009∗ (0,004) −0,079∗∗∗ (0,016) 0,003∗ (0,001) 5,401∗∗∗ (0,043) 0,026 7370,0 2254
Anmerkungen: Personen in Deutschland im Alter von 30 bis 70 Jahren. Quelle: ALLBUS 1992 (gewichtet). †
: p ≤ 0,1; ∗ : p ≤ 0,05;
∗∗
: p ≤ 0,01;
∗∗∗
: p ≤ 0,001
Bildung und höheres Alter haben jeweils einen positiven Einfluss. Bei geringer Bildung ist jedoch kaum ein Einfluss des Alters festzustellen. Bei höherer Bildung ist der Einfluss dagegen deutlich vorhanden. Modell 2 weist dagegen einen negativen (nicht-signifikanten) Einfluss des Alters und einen stark negativen Einfluss der Bildung aus. Wie ist dies zu interpretieren? Durch die Aufnahme des Interaktionseffekts in das Modell verändert sich die Interpretation der Effekte für Alter und Bildung. Die Koeffizienten gelten nur für Personen, die in der jeweils anderen Variablen den Wert null aufweisen. Alter hat also einen negativen Einfluss, wenn eine Person über keine formale Bildung verfügt (null Bildungsjahre). Der deutliche negative Bildungseffekt gilt für Personen, die null Jahre alt sind. Für Personen in höherem Alter bzw. mit höherer Bildung ist der Interaktionseffekt mit zu berücksichtigen. In diesem Beispiel – und so auch in anderen Fällen – ist die Interpretation der konditionalen Effekte kaum sinnvoll möglich, da sie sich auf Personen beziehen, die nicht Teil der Untersuchungsgruppe sind (null Bildungsjahre, null Altersjahre). Dieses Problem wird gelöst, wenn man den Interaktionsterm auf Basis von mittelwertzentrierten Variablen bildet. Die Koeffizienten des entsprechenden Modells 2z lassen sich sinnvoll interpretieren. Der Alterseffekt für Personen mit durchschnittlicher Bildung beträgt +0,009. Der Bildungseffekt für Personen in durchschnittlichem Alter beträgt −0,079. Der Koeffizient des Interaktionseffekts ist unverändert. Die Modellkonstante gilt für Personen in durchschnittlichem Alter mit durchschnittlicher Bildung. Im Gegensatz zu Modell 2 ist in Modell 2z auch der Alterseffekt signifikant. Der geschätzte Effekt bezieht sich nicht mehr auf den Fall „Bildung gleich null“, sondern gilt für den Bildungsmittelwert. Es handelt sich daher um einen substantiell anderen Effekt. Zusätzlich ist die Korrelation zwischen dem Interaktionseffekt und den übrigen Variablen bei einer Mittelwertzentrierung
26 Interaktionseffekte, Polynome und Splines
693
i. d. R. geringer.12 Multikollinearität ist daher kein Problem. Trotz der geänderten Koeffizienten und Signifikanzniveaus unterscheiden sich die Schätzwerte der Modelle nicht voneinander, was durch Einsetzen der Koeffizienten von Modell 2z in die obige Beispielrechnung leicht zu überprüfen ist. Allerdings müssen dann statt der Alterswerte die entsprechenden Abweichungen des Alters vom Mittelwert – also die zentrierten Alterswerte – verwendet werden. Da die Koeffizienten nicht bis zur letzten Kommastelle dargestellt sind, treten allerdings leichte Rundungsfehler auf, sodass die Werte nicht exakt übereinstimmen. Ost- und Westdeutschland wurden bisher in dem Beispiel nicht getrennt voneinander betrachtet. Es ist jedoch anzunehmen, dass sich politische Einstellungen in Ost- und Westdeutschland unterscheiden bzw. 1992 – also in dem Jahr, aus dem die Daten stammen – unterschieden haben. Wie in Abschnitt 2 (Gleichung (3)-(6)) dargestellt können Interaktionseffekte mit einer kategorialen Variablen auch genutzt werden, um Unterschiede zwischen zwei (oder mehreren) Gruppen im Einfluss interessierender Variablen zu betrachten. Eine Möglichkeit ist es für jede Gruppe ein getrenntes Modell zu schätzen. Die entsprechenden Ergebnisse sind in Tabelle 3 dargestellt. Wie zuvor wurden die Alters- und Bildungsvariablen zentriert. Es zeigt sich, dass der zuvor beobachtete positive Alterseffekt nur in Westdeutschland zu finden ist. In Ostdeutschland ist der entsprechende Koeffizient negativ und nicht signifikant. In beiden Regionen gibt es wie im gemeinsamen Modell einen negativen Bildungseffekt, der in Ostdeutschland etwas schwächer ist. Die deutlich niedrigere Modellkonstante in Ostdeutschland deutet darauf hin, dass sich Ostdeutsche durchschnittlich als stärker „links“ einschätzen als Westdeutsche. Auf Basis der Ergebnisse kann allerdings nicht beurteilt werden, ob die Unterschiede zwischen Ost- und Westdeutschland signifikant sind. Die Teststatistik weist jeweils aus, ob ein Koeffizient von null verschieden ist. Nur wenn signifikante Koeffizienten in Ost- und Westdeutschland ein unterschiedliches Vorzeichen haben, kann aus den getrennten Modellen auf signifikante Ost/WestUnterschiede geschlossen werden. Dies ist hier aber nicht der Fall. Der Alterseffekt in Ostdeutschland ist nicht signifikant von null verschieden. Die Bildungseffekte sind jeweils negativ. Gibt es trotzdem einen signifikanten regionalen Unterschied in der Stärke des Effekts? Dieselbe Frage lässt sich für die Unterschiede in der Modellkonstante formulieren. Diese offenen Fragen lassen sich auf Basis eines gemeinsamen Modells beantworten, in dem eine Dummyvariable für Ostdeutschland und Interaktionseffekte mit sämtlichen unabhängigen Variablen mit dieser Dummyvariable enthalten sind (Modell 1). Die entsprechende Schätzgleichung ist (vgl. Abschnitt 2, Gleichung (6)): yˆ = ˆb0 + ˆb1 · alterz + ˆb2 · bildungz + ˆb3 · ost + bˆ4 · (alterz · ost) + ˆb5 · (bildungz · ost) Es ist wieder zu berücksichtigen, dass sich die Interpretation der Alters- und Bildungseffekte aufgrund der Interaktionseffekte verändern. Die Koeffizienten gelten für Personen, die in der Variable „Ost“ eine null aufweisen (also Westdeutsche). Dasselbe gilt für die 12
Die Korrelation der Altersvariable mit dem Interaktionseffekt auf Basis mittelwertzentrierter Alters- und Bildungsvariablen ist deutlich geringer als mit nicht-zentrierten Variablen (r = −0,01 gegenüber r = 0,52).
694
Henning Lohmann
Tab. 3: OLS-Regression mit Interaktionseffekt, Ost- und Westdeutschland (unstandardisierte Koeffizienten und Standardfehler) getrennte Modelle M1 (West) ∗∗
Alter (in Jahren)
0,012 (0,004) −0,085∗∗∗ (0,018)
Bildung (in Jahren)
M1 (Ost) −0,009 (0,006) −0,065∗ (0,027)
Ost- und Westdeutschland M1
M2 ∗∗
0,012 (0,004) −0,085∗∗∗ (0,018)
Alter*Bildung −0,701∗∗∗ (0,082) −0,021∗∗ (0,007) 0,020 (0,032)
Ost (Ref.: West) Alter*Ost Bildung*Ost Alter*Bildung*Ost 5,514∗∗∗ (0,049)
Konstante 2 R
0,028 4819,6 1481
quadr. Residuen
n
4,813∗∗∗ (0,066) 0,012 2272,2 773
5,514∗∗∗ (0,049) 0,050 7192,4 2254
0,013∗∗ (0,004) −0,074∗∗∗ (0,019) 0,004∗∗ (0,002) −0,745∗∗∗ (0,085) −0,022∗∗ (0,007) 0,009 (0,033) −0,005 (0,003) 5,551∗∗∗ (0,051) 0,054 7161,5 2254
Anmerkungen: Personen in Deutschland im Alter von 30 bis 70 Jahren. Quelle: ALLBUS 1992 (gewichtet). †
: p ≤ 0,1; ∗ : p ≤ 0,05;
∗∗
: p ≤ 0,01;
∗∗∗
: p ≤ 0,001
Modellkonstante. Die Summe des konditionalen Effekts und des jeweiligen Interaktionseffekts entspricht der des Modells für Ostdeutschland (0,012 + (−0,021)) = −0,009 und (−0,085 + 0,020 = −0,065). Die Interaktionseffekte bilden also die Differenz der Effektstärke zwischen Ost- und Westdeutschland ab. Daher kann die Teststatistik der Interaktionseffekte als Test auf Unterschiede in der Effektstärke zwischen Ostund Westdeutschland verwendet werden. Die Dummyvariable „Ost“ zeigt zudem eine signifikante Differenz im Niveau der Links-Rechts-Einstufung an. Im Gegensatz zu dem Vorgehen getrennte Modelle zu schätzen, lässt sich auf Basis der bislang dargestellten Ergebnisse jedoch nicht direkt feststellen, ob es in Ostdeutschland signifikante Altersund Bildungseffekte gibt, da sich die Interaktionseffekte allein auf die Unterschiede zwischen Ost- und Westdeutschland beziehen. Es ist trotzdem nicht notwendig ein zusätzliches Modell zu schätzen, da der Test der Summe des konditionalen und des Interaktionseffektes der Teststatistik der Koeffizienten eines getrennten Modells für Ostdeutschland entspricht:
26 Interaktionseffekte, Polynome und Splines
695
H0 : β1 + β4 = 0 H0 : β2 + β5 = 0 H0 : β0 + β3 = 0 Es ist also möglich, in einem Modell mit Interaktionseffekten mit einer Dummyvariablen den Einfluss von Variablen in zwei unterschiedlichen Gruppen zu betrachten und zusätzlich zu testen, ob es signifikante Unterschiede zwischen beiden Gruppen gibt. Letzteres ist nicht möglich, wenn getrennte Modelle geschätzt werden. Wie in Abschnitt 3 angesprochen, können Gruppenunterschiede anhand der Teststatistik einzelner Interaktionseffekte überprüft werden oder im Rahmen eines Test der Unterschiede insgesamt. Auf Basis der in den Regressionstabellen für die einzelnen Modelle jeweils ausgewiesenen Summe der quadrierten Residuen lässt sich die entsprechende Statistik berechnen. Für einen Vergleich von Modell 1 (Tabelle 2) mit dem Modell 1 für Ost- und Westdeutschland in Tabelle 3 ergibt sich: F =
(7389,7−7192,4)/3 7192,4/(2254−2−3−1)
= 20,56
Der berechnete F-Wert ist größer als der kritische Wert des 95-Prozent-Quantils der F-Verteilung. Bei Annahme einer Irrtumswahrscheinlichkeit von 5 Prozent ist die Nullhypothese abzulehnen. Es besteht also ein signifikanter Unterschied zwischen Ostund Westdeutschland in mindestens einem der Regressionskoeffizienten. In dem Beispiel zu Unterschieden zwischen Ost- und Westdeutschland wurde bislang nicht der in den Modellen in Tabelle 2 spezifizierte Interaktionseffekt zwischen Alter und Bildung berücksichtigt. In Modell 2 (Tabelle 3) wird dieser Effekt hinzugefügt. Um auch überprüfen zu können, ob sich der Interaktionseffekt zwischen Ost- und Westdeutschland unterscheidet, wurde zusätzlich noch der Term Alter · Bildung · Ost – also eine Interaktion zwischen drei Variablen – berücksichtigt. Prinzipiell wären auch Interaktionen zwischen mehr als drei Variablen möglich. Allerdings stößt man bei der Interpretierbarkeit entsprechender Modelle schnell an Grenzen. Bereits bei Modell 2 mit drei Interaktionen zwischen zwei Variablen (Alter · Bildung, Alter · Ost, Bildung · Ost) und der zusätzlichen dreifachen Interaktion ist die Interpretation nicht trivial. Die Ergebnisse werden daher etwas genauer betrachtet. Wie zuvor gelten die konditionalen Effekte des Alters und der Bildung für diejenige Gruppe, die in den beiden für Interaktionseffekte verwendeten Variablen den Wert null aufweisen. Im Fall von Alter und Bildung ist dies aufgrund der Zentrierung jeweils der Mittelwert. Der Wert null in der Variable „Ost“ steht für Personen in Westdeutschland. Der Alterseffekt von 0,013 gilt also für Personen mit durchschnittlicher Bildung in Westdeutschland, der Bildungseffekt von −0,074 für Westdeutsche in durchschnittlichem Alter. Die entsprechenden Effekte für Ostdeutsche ergeben sich aus der Summe der konditionalen Effekte und der Interaktionseffekte mit der Variable „Ost“. Der Alterseffekt für Ostdeutsche mit durchschnittlicher Bildung beträgt also 0,013 + (−0,022). Der Bildungseffekt für Ostdeutsche in durchschnittlichem Alter beträgt −0,074 + 0,009. Es bleibt der Interaktionseffekt Alter · Bildung und die dreifache Interaktion Alter · Bildung · Ost. Wie zuvor gilt der erste Effekt für Westdeutsche (0,004). Die dreifache Interaktion bildet die Differenz in dem Interaktionseffekt zwischen West- und Ostdeutschland ab
Henning Lohmann
23456789:;675< 1 101
101
/
/01
1 /
/01
23456789:;675<
6;
6
West
6
696
=
/= 1= >= <;8 @A34@: 84
?=
3<B4C@D=@E
=
/= 1= >= <;8 @A34@: 84
?=
3<B4C@DF@E@
Abb. 5: Zusammenhang zwischen Links-Rechts-Einstufung, Alter, Bildung und Region (Ost/West) (0,004 + (−0,005)). Ein wie im vorherigen Beispiel durchgeführter Test ergibt, dass die Summe der beiden Effekte nicht signifikant von null verschieden ist. Während in Westdeutschland der Alterseffekt für Personen mit höherer Bildung stärker ausgeprägt ist (positive Interaktion), gibt es in Ostdeutschland für Personen unterschiedlicher Bildung keine Unterschiede im Einfluss des Alters (keine Interaktion). Dies wird auch in der grafischen Darstellung ausgewählter Ergebnisse des Modells deutlich (Abbildung 5). Die Abbildung zeigt Schätzwerte nach Alter, Bildung und Region (Ost/West). Betrachtet werden zwei unterschiedliche Bildungsniveaus: Personen mit 10 und 18 Bildungsjahren. 10 Bildungsjahre entsprechen dem durchschnittlichen Bildungsniveau. Der Wert der zentrierten Variablen beträgt also für die beiden ausgewählten Bildungsgruppen 0 und 8 Jahre. Für die inhaltliche Interpretation werden jedoch weiterhin die nicht-zentrierten Werte verwendet. Die Schätzgeraden für Personen mit 10 Bildungsjahren sind als durchgezogene Linien dargestellt. Das durchschnittliche Alter von 47,9 Jahren ist durch eine zusätzliche Linie markiert. Die Modellkonstante gibt die durchschnittliche Links-Rechts-Einstufung für Personen mit durchschnittlicher Bildung und durchschnittlichem Alter in Westdeutschland an und entspricht daher in der Abbildung dem Schnittpunkt der Altershilfslinie mit der oberen Schätzgerade. Der Schnittpunkt beider Geraden markiert auch für Ostdeutschland die Konstante, die sich aus der (West-)regressionskonstante und der Dummyvariablen „Ost“ zusammensetzt. Der Einfluss der Bildung ist sowohl in Ost- wie auch in Westdeutschland feststellbar. In beiden Regionen verläuft die Schätzgerade für Personen mit geringerer Bildung auf höherem Niveau (Einstellungen „eher rechts“). Deutlich wird aber vor allem der regionsspezifische Alterseffekt. In Westdeutschland nehmen rechte Einstellungen mit
26 Interaktionseffekte, Polynome und Splines
697
höherem Alter zu, in Ostdeutschland gehen sie dagegen leicht zurück (der Effekt ist allerdings nicht signifikant). Sehr markant ist der Unterschied hinsichtlich der Interaktion zwischen Alter und Bildung. In Westdeutschland weisen Personen mit 18 Bildungsjahren einen weitaus stärkeren Alterseffekt auf. In Ostdeutschland sind – dem nicht-signifikanten Interaktionseffekt entsprechend – auch in der grafischen Darstellung kaum Unterschiede zwischen den Bildungsniveaus festzustellen. Gerade im Fall von Dreifachinteraktionen oder Interaktionen höheren Grades kann eine grafische Darstellung die Interpretation deutlich vereinfachen.
5 Anwendungsbeispiel II: Polynome und Slopes In diesem Beispiel wird der Einfluss des Alters auf die Wichtigkeit des Lebensbereichs „Beruf und Arbeit“ untersucht.13 Wie im vorherigen Beispiel dient der ALLBUS als Datengrundlage. Die Untersuchungsgruppe umfasst Personen im Alter von 20 bis 85 Jahren in Westdeutschland im Jahr 1998. Es wird angenommen, dass sich die Wichtigkeit von „Beruf und Arbeit“ im Verlauf des Lebens mehrfach verändert. Es wird erwartet, dass die Wichtigkeit vom Berufseinstieg bis zur Etablierung am Arbeitsmarkt zunimmt, während sie danach wieder zurückgeht und andere Lebensbereiche an Bedeutung gewinnen. Insbesondere mit dem Ausstieg aus dem Erwerbsleben ist ein deutlicher Rückgang der Wichtigkeit von „Beruf und Arbeit“ anzunehmen. Aufgrund dieser Überlegungen wird angenommen, dass kein linearer Zusammenhang zwischen Alter und der Wichtigkeit von „Beruf und Arbeit“ besteht. Neben theoretischen Überlegungen kann auch eine visuelle Prüfung der Linearitätsannahme hilfreich sein. In Abbildung 6 ist der Zusammenhang zwischen Alter und der Wichtigkeit von „Beruf und Arbeit“ in einem Streudiagramm dargestellt. Die Größe der Kreise entspricht der Häufigkeit einer Beobachtung. Aufgrund der großen Fallzahl wären in einem einfachen Streudiagramm kaum Unterschiede zu erkennen. In dem gewichteten Streudiagramm wird deutlich, dass jüngere Personen häufiger als ältere „Beruf und Arbeit“ eine hohe Wichtigkeit zumessen. Nennungen, dass „Beruf und Arbeit“ unwichtig sind, treten etwa ab dem 60. Lebensjahr gehäuft auf. Zusätzlich sind bedingte Mittelwerte dargestellt (nach Alter, für jedes Jahr). Außerdem ist das Ergebnis einer Lowess-Glättung eingezeichnet (Cleveland 1979). Die Kurve beruht auf einer Vielzahl von Regressionen, denen jeweils nur ein Teil des Wertebereichs der unabhängigen Variablen zugrunde liegt. Die Schätzergebnisse der einzelnen Regressionsergebnisse werden dann zu einer Kurve verbunden. Sowohl der Verlauf der bedingten Mittelwerte als auch die Lowess-Kurve zeigen die Nicht-Linearität des Zusammenhangs deutlich. In einem ersten Schritt wird trotzdem ein lineares Modell geschätzt, um einen Vergleichsmaßstab für andere Ansätze zu erhalten. Das Ergebnis der Schätzung ist in Tabelle 4 dargestellt (Modell 1). Das Modell verweist auf einen signifikanten Einfluss des Alters. Mit jedem Jahr nimmt die Wichtigkeit von „Beruf und Arbeit“ um 0,04 Punkte auf der siebenstufigen Skala ab. 10 Prozent der Varianz der abhängigen Variablen werden durch das Alter erklärt. Die Gegenüberstellung des Schätzergebnisses 13
Im Beispiel wird nur ein bivariater Zusammenhang betrachtet. Ein analoges Vorgehen ist aber auch in multivariaten Anwendungen möglich.
(
'
Henning Lohmann
G*HI!J
698
(
!K
JG L# MN
JI#
Abb. 6: Zusammenhang zwischen Wichtigkeit von „Beruf und Arbeit“ und Alter (Beispiel 2) mit den bedingten Mittelwerten zeigt aber deutlich die Fehlspezifikation des Modells (Abbildung 7). In den Altersgruppen bis etwa 50 und über 65 Jahren überschätzt das Modell die Wichtigkeit von „Beruf und Arbeit“, während die Schätzwerte für die mittlere Altersgruppe im Durchschnitt zu niedrig sind. Wie in Abschnitt 2 angesprochen sind quadrierte Terme und Polynome höherer Ordnung eine Möglichkeit einen nicht-linearen Zusammenhang zwischen zwei Variablen zu linearisieren. In den folgenden Modellen werden daher entsprechende Terme in das Modell aufgenommen. In einem ersten Schritt wird ein Modell geschätzt, in dem ein quadrierter Term enthalten ist. Im ersten Fall ist der lineare Effekt positiv, während der quadrierte Effekt deutlich kleiner und negativ ist. Die Effektstärke der nicht-standardisierten Koeffizienten ist jedoch nicht vergleichbar, da sich die Einheiten der beiden Variablen unterscheiden (Alter und quadriertes Alter/10). Der kombinierte Effekt ist anhand einiger Beispielwerte leicht zu verdeutlichen. Die Schätzwerte betragen je nach Alter: 202 20 Jahre: 5,6 = 4,087 + 0,101 · 20 − 0,014 · 10 352 35 Jahre: 5,9 = 4,087 + 0,101 · 35 − 0,014 · 10 452 45 Jahre: 5,8 = 4,087 + 0,101 · 45 − 0,014 · 10 602 60 Jahre: 5,1 = 4,087 + 0,101 · 60 − 0,014 · 10
26 Interaktionseffekte, Polynome und Splines
699
Tab. 4: OLS-Regression mit Polynomen (unstandardisierte Koeffizienten und Standardfehler) nicht zentriert
Alter: in Jahren
zentriert
M1
M2
M2z
M3
−0,038∗∗∗ (0,003)
0,101∗∗∗ (0,015) −0,014∗∗∗ (0,002)
−0,036∗∗∗ (0,003) −0,014∗∗∗ (0,002)
−0,037∗∗∗ (0,006) −0,014∗∗∗ (0,002) 0,002 (0,010)
7,145∗∗∗ (0,126)
4,087∗∗∗ (0,340)
7,388∗∗∗ (0,133)
7,445∗∗∗ (0,284)
in Jahren2 /10 in Jahren3 /1000 in Jahren4 /10000 Konstante 2
R
quadr. Residuen
n
0,100 7354,4 2127
0,137 7052,4 2127
0,137 7052,4 2127
0,137 7052,2 2127
M4 −0,024∗∗∗ (0,006) −0,040∗∗∗ (0,005) −0,032∗∗ (0,010) 0,033∗∗∗ (0,005) 7,078∗∗∗ (0,272) 0,153 6919,2 2127
Anmerkungen: Personen in Westdeutschland im Alter von 20 bis 85 Jahren. Quelle: ALLBUS 1998 (gewichtet). †
: p ≤ 0,1; ∗ : p ≤ 0,05;
∗∗
: p ≤ 0,01;
∗∗∗
: p ≤ 0,001
Zunächst dominiert der positive lineare Effekt und die Wichtigkeit von „Beruf und Arbeit“ nimmt zu. Aufgrund der Quadrierung der Altersvariable gewinnt der entsprechende negative Koeffizient mit zunehmendem Alter stärker an Bedeutung. Dadurch kehrt sich der Einfluss auf die Einschätzung der Wichtigkeit von „Beruf und Arbeit“ im Alter zwischen 35 und 45 Jahren um. Der Punkt, an dem sich der Alterseffekt umkehrt, ist analytisch eindeutig zu bestimmen. Der Extremwert liegt an dem Punkt, an dem die erste Ableitung der Schätzgleichung null ergibt, also: alter · 0,014 = 0 10 0,101 ⇐⇒ alter = · 10 = 36 Jahre (2 · 0,014)
0,101 − 2 ·
Während die Wichtigkeit also zunächst zunimmt, geht sie ab dem Alter von etwa 36 Jahren wieder zurück.14 Auch die Schätzwerte des Modells mit einem quadrierten Term sind in Abbildung 7 dargestellt. In der Darstellung zeigt sich auch die Verbesserung der Modellanpassung gegenüber dem linearen Modell. Das Modell erklärt 13,7 Prozent der Varianz der abhängigen Variablen. 14
Bei der Berechnung ist zu berücksichtigen, dass für die Schätzung des quadrierten Terms die Altersvariable durch zehn geteilt wurde, um die Anzahl der Nachkommastellen zu verringern.
(
'
Henning Lohmann
G*HI!J
700
(
!K
JI# (OIPI
OI OII
Abb. 7: Polynome – Schätzwerte von Regressionsmodellen und bedingte Mittelwerte (Beispiel 2) Um das Problem der Multikollinearität zu verringern, werden die Terme nochmals auf Basis der mittelwertzentrierten Altersvariable berechnet.15 Die Schätzwerte sind in beiden Fällen identisch. Aufgrund der Zentrierung ist das Modell etwas weniger intuitiv zu interpretieren. Deutete in Modell 2 der positive lineare und der negative quadrierte Effekt auf eine Abschwächung und ggf. Umkehrung eines zunächst positiven Effekts hin, sind nun beide Effekte negativ. Die Vorhersage entspricht aber dem des vorherigen Modells wie an einem Beispiel schnell deutlich wird. Die geschätzte Wichtigkeit für 2 eine 35-jährige Person beträgt ebenfalls 5,9 (= 7,388 − 0,035 · 35 − 0,014 · (35−¯x) /10 mit x ¯ = 48). Dass trotz zweier negativer Koeffizienten zunächst ein positiver Einfluss des Alters vorhergesagt wird, liegt daran, dass aufgrund der Zentrierung auch negative „Alterswerte“ vorkommen. In den Schätzergebnissen gibt es also keine Unterschiede zu dem Modell ohne Mittelwertzentrierung. Das verringerte Problem der Multikollinearität zeigt sich darin, dass der Standardfehler des linearen Regressionskoeffizienten für das Alter um gut das fünffache kleiner ist. In diesem Beispiel hat dies allerdings keinen Einfluss auf die Schlussfolgerungen, die aus den Ergebnissen gezogen werden können, da beide Koeffizienten auch bei Annahme einer sehr geringen Irrtumswahrscheinlichkeit signifikant sind. Sowohl die eingangs diskutierten, inhaltlichen Überlegungen als auch die grafische Darstellung des Zusammenhangs deuten darauf hin, dass die Anpassung des Modells verbessert werden könnte. Insbesondere für die Altersgruppe bis etwa 50 Jahren zeigt die Darstellung Abweichungen zwischen den bedingten Mittelwerten und den Schätzwerten. Außerdem erscheint das Alter, ab dem die Wichtigkeit von „Beruf und 15
Die Korrelation der Altersvariable mit der quadrierten Variablen auf Basis des mittelwertzentrierten Alters ist deutlich geringer als mit nichtzentrierter quadrierten Variable (r = 0,12 gegenüber r = 0,99).
26 Interaktionseffekte, Polynome und Splines
701
Arbeit“ zurückgeht, sehr niedrig. Um einen flexibleren Verlauf der Schätzergebnisse zu ermöglichen, werden im nächsten Schritt Polynome höherer Ordnung in das Modell mit aufgenommen. Da sich mit einer zunehmenden Anzahl von Termen das Problem der Multikollinearität verschärft, werden die Polynome auf Basis der zentrierten Altersvariable gebildet. Die Schätzergebnisse zeigen, dass das Modell mit dem Polynom dritter Ordnung keine höhere Erklärungsleistung aufweist als das vorherige Modell. Dies wird auch daran deutlich, dass der hinzugekommene Term nicht signifikant ist. Wie Modell 4 zeigt bedeutet dies jedoch nicht, dass das Hinzufügen weiterer Polynome keinerlei Verbesserung der Modellanpassung verspricht. Die Polynome dritter und vierter Ordnung sind signifikant. Die Erklärungsleistung steigt gegenüber dem Modell mit quadriertem Term nochmals an (R2 = 0,153). Insgesamt beschreibt die Schätzkurve die bedingten Mittelwerte deutlich besser (Abbildung 7). Eine auffällige Abweichung stellt jedoch das deutliche Ansteigen der Schätzwerte am oberen Ende der Altersverteilung dar. Auch ist fraglich, ob die Vorhersage, dass das Maximum der Wichtigkeit von „Beruf und Arbeit“ im Alter von 20 Jahren – also am unteren Ende der Altersverteilung – liegt, inhaltlich nachvollziehbar ist. Plausibler ist, dass sich hier die weiter oben diskutierten Probleme einer geeigneten Modellanpassung über Polynome an den Rändern der unabhängigen Variablen zeigen. Das Modell mit Polynomen bis zur vierten Ordnung lässt sich für einen Test auf Nicht-Linearität nutzen (RESET, vgl. Abschnitt 3). Hierzu wird unter Verwendung der Summe der quadrierten Abweichungsquadrate der Modelle 1 und 4 (Tabelle 4) ein F-Test gerechnet. Für einen Vergleich der beiden Modelle ergibt sich ein F-Wert, der auf signifikante Unterschiede zwischen den Modellen hinweist, sodass von die Annahme eines linearen Zusammenhangs abzulehnen ist: F =
(7354,4−6919,2)/3 6919,2/(2127−1−3−1)
= 44,49
Wie in Abschnitt 2 dargestellt ist die Modellierung von Nicht-Linearitäten über Splines eine Alternative zur Verwendung von Polynomen. Der Verwendung von Splines basiert grundsätzlich auf der Annahme, dass unterschiedliche Wertebereiche einer unabhängigen Variable – abgegrenzt durch Knoten – unterschiedliche Steigungskoeffizienten aufweisen. Für die einfachste Form der Modellierung über lineare Splines wird davon ausgegangen, dass die Anzahl und die Lage der Knoten bekannt sind. Entsprechend der Überlegungen zu Beginn des Abschnitts gehen wir davon aus, dass die Wichtigkeit von „Beruf und Arbeit“ bis zu einem mittleren Alter ansteigt und dann zurückgeht, wobei der Rückgang bis zur Verrentung besonders stark ist. Es werden daher zwei Knotenpunkte im Alter von 50 und 65 Jahren definiert.16 Die Schätzgleichung ist wie folgt definiert (vgl. Gleichung (9) in Abschnitt 2):
16
In diesem Beispiel können die entsprechenden Variablen ohne weiteres „per Hand“ gebildet werden. Bei komplexeren Modellierungen ist es hilfreich die Routinen zu verwenden, die in den meisten Statistikprogrammpaketen zur Verfügung stehen. Für die Beispiele in diesem Kapitel wurde die Stata-Routine mkspline verwendet, über die sowohl lineare als auch natürliche Splines gebildet werden können.
702
Henning Lohmann
yˆ = ˆb0 + ˆb1 x + ˆb2 (x − 50)+ + ˆb3 (x − 65)+ mit 9 u falls u > 0 (u)+ = 0 falls u ≤ 0 Die Schätzergebnisse sind in Tabelle 5 dargestellt. Die drei Regressionskoeffizienten beschreiben den Einfluss des Alters bis zum ersten Knotenpunkt (bis 50 Jahre), zwischen den beiden Knotenpunkten (50 bis 65 Jahre) und oberhalb des zweiten Knotenpunkts (65 Jahre und älter). Das Modell sagt voraus, dass bis zum Alter von 50 Jahren die Wichtigkeit von „Beruf und Arbeit“ pro Jahr um 0,015 Punkte auf der siebenstufigen Skala zunimmt. Danach bis zum Alter von 65 Jahren wird ein deutlicher Rückgang der Wichtigkeit vorhergesagt (−0,114 Punkte pro Jahr). Dieser Rückgang setzt sich in höherem Alter fort, allerdings in abgeschwächter Form (−0,060 Punkte pro Jahr). Das Modell erklärt 15,2 Prozent der Varianz der abhängigen Variablen und erreicht somit dieselbe Erklärungsleistung wie das Modell mit Polynomen erster, zweiter, dritter und vierter Ordnung. Im Gegensatz zum Polynommodell lassen sich die Regressionskoeffizienten auf sehr einfache Art und Weise interpretieren. Auch ist es möglich, die Anzahl und Lage der Knotenpunkte entsprechend vorheriger theoretischer Überlegungen zu bestimmen. Zusätzlich ist in Tabelle 5 ein Modell mit einem zusätzlichen Knotenpunkt bei 30 Jahren in der Tabelle aufgeführt (Modell 2). In diesem Modell zeigt sich ein Rückgang der Wichtigkeit von „Beruf und Arbeit“ in den ersten zehn Altersjahren, der bereits in dem letzten Polynommodell zu sehen war. Natürliche Splines kombinieren die Eigenschaften von linearen Splines und von Polynomen (vgl. Abschnitt 2, Gleichung (11)). An den Rändern der Verteilung der unabhängigen Variablen – vor dem ersten und nach dem letzten Knotenpunkt – wird ein linearer Verlauf der Schätzergebnisse angenommen. Zwischen den Knotenpunkten werden kubische Verläufe geschätzt. So können auch Nicht-Linearitäten zwischen Knotenpunkten berücksichtigt werden. Vor allem ändert sich der Einfluss der Variablen an den Knotenpunkten weniger abrupt. Der Verlauf der Schätzkurve ist insgesamt glatter. Für die Lage der Knotenpunkte haben sich – wie bereits dargestellt Standardwerte etabliert, die sich allein an der Verteilung der unabhängigen Variable orientieren (vgl. Tabelle 1), sodass allein die Anzahl der Knoten festgelegt werden muss. In Tabelle 5 sind die Schätzergebnisse von Modellen mit drei, vier und fünf Knotenpunkten dargestellt. Nur das Modell mit fünf Knotenpunkten erreicht eine Modellanpassung wie die vorherigen Modelle. Der Verlauf der Schätzwerte des Modells mit drei Knotenpunkten (Modell 3) ist dem Ergebnis des Modells mit einem Polynom zweiter Ordnung sehr ähnlich. Die ungeeignete Modellierung über vier Knotenpunkte zeigt sich in Modell 4 bereits darüber, dass zwei der drei Koeffizienten nicht signifikant sind. Abbildung 8 zeigt das Ergebnis des Modells mit fünf Knotenpunkten im Vergleich zum Modell mit linearen Splines (zwei Knotenpunkte). Beide Modelle sagen einen Maximalwert der Wichtigkeit von „Beruf und Arbeit“ in einem höheren Alter voraus (47 bzw. 50 Jahre). Der Verlauf der Schätzkurven oberhalb dieses Maximalwerts ist sehr ähnlich. Der Verlauf im unteren Altersbereich weicht dagegen voneinander ab. Ob jedoch die flexiblere Modellierung mit natürlichen Splines und einem zusätzlichen Knotenpunkt auch inhaltlich begründbar ist, ist kaum zu entscheiden. Die Erklärungs-
26 Interaktionseffekte, Polynome und Splines
703
Tab. 5: OLS-Regression mit Splines (unstandardisierte Koeffizienten und Standardfehler) lineare Splines
Alter: Spline 1 Spline 2 Spline 3
M1
M2
M3
M4
0,015∗∗ (0,005) −0,114∗∗∗ (0,011) −0,060∗∗∗ (0,017)
−0,055∗∗ (0,020) 0,034∗∗∗ (0,008) −0,125∗∗∗ (0,012) −0,057∗∗∗ (0,017) 7,141∗∗∗ (0,535)
0,020∗∗∗ (0,006) −0,084∗∗∗ (0,008)
0,019 (0,011) −0,085∗ (0,040) 0,050 (0,106)
Spline 4 5,275∗∗∗ (0,190)
Konstante 2
R
quadr. Residuen
n
natürliche Splines
0,152 6931,0 2127
0,156 6894,6 2127
6,147∗∗∗ (0,093) 0,143 6999,7 2127
6,143∗∗∗ (0,205) 0,141 7016,5 2127
M5 −0,044∗∗ (0,014) 0,491∗∗∗ (0,101) −1,738∗∗∗ (0,296) 2,354∗∗∗ (0,389) 4,742∗∗∗ (0,297) 0,156 6895,8 2127
Anmerkungen: Personen in Westdeutschland im Alter von 20 bis 85 Jahren. M1: Spline 1: 0–< 50, Spline 2: 50–< 65, Spline 3: 65+; M2: Spline 1: 0–< 30, Spline 2; 30–< 50, Spline 3: 50–< 65, Spline 4: 65+; M3–M5: 3, 4 bzw. 5 Knoten, Lage entsprechend Tabelle 1. Quelle: ALLBUS 1998 (gewichtet). : p ≤ 0,1; ∗ : p ≤ 0,05;
∗∗
: p ≤ 0,01;
∗∗∗
: p ≤ 0,001
G*HI!J ( '
†
(
!K
JI# Q
(
Abb. 8: Lineare und natürliche Splines – Schätzwerte von Regressionsmodellen und bedingte Mittelwerte (Beispiel 2)
704
Henning Lohmann
leistung beider Modelle unterscheidet sich nur geringfügig (bei einem Unterschied von einem Freiheitsgrad). Im Gegensatz zum vergleichbaren Modell mit Polynomen bis zur vierten Ordnung ist der Verlauf des Modells mit natürlichen Splines an den Rändern weniger extrem. Der Wert für Personen im Alter von 20 Jahren stellt nun nicht das absolute Maximum dar. Auch steigt der Verlauf der Kurve am oberen Rand der Altersverteilung nicht unerwartet an. In diesem Anwendungsbeispiel erscheinen die über den Spline-Ansatz gewonnenen Schätzergebnisse überzeugender.
6 Häufige Fehler In diesem Abschnitt werden Anwendungsprobleme und häufige Fehler kurz abschließend dargestellt. Die Spezifikation von Interaktionstermen ist technisch einfach. Allerdings besteht häufig hohe Multikollinearität zwischen den Ausgangsvariablen und dem Interaktionsterm, die zu ineffizienten Schätzern führt. Eine Lösung ist die Mittelwertzentrierung der Ausgangsvariablen. Ein grundsätzliches Problem stellt die korrekte Interpretation von Modellen mit Interaktionseffekten dar. Durch die Aufnahme eines Interaktionsterms in ein Modell verändert sich die Interpretation der Koeffizienten der beiden Ausgangsvariablen x1 und x2 . Anstelle eines Haupteffekts wird ein konditionaler Effekt geschätzt. Der Koeffizient von x1 beschreibt nur unter der Bedingung x2 = 0 den Zusammenhang zwischen x1 und y und kann nicht wie der Haupteffekt in einem Modell ohne Interaktionsterm interpretiert werden. Ein weiteres Problem tritt auf, wenn der Wert null einer Variablen nicht in der Stichprobe vorkommt. Dann ist der konditionale Effekt überhaupt nicht sinnvoll zu interpretieren. Auch hier hilft es die Ausgangsvariablen zu zentrieren, da der Wert null einer zentrierten Variablen dem Stichprobenmittelwert entspricht, der inhaltlich interpretierbar ist. Zu berücksichtigen ist jedoch, dass dieses Vorgehen nicht ohne Weiteres auf standardisierte Koeffizienten zu übertragen ist (vgl. ausführlich Aiken & West 1991, S. 40 ff.). Allgemein ist anzumerken, dass die Interpretation komplexer Interaktionen durch graphische Darstellungen bzw. der Berechnung beispielhafter Schätzwerte häufig deutlich vereinfacht wird. Polynome sind eine einfache Möglichkeit, die Nicht-Linearität eines Zusammenhangs in einem Modell zu berücksichtigen. Allerdings ist zu berücksichtigen, dass Polynome höheren Ordnung mit der linearen Ausgangsvariable häufig stark korreliert sind. Wie im Fall von Interaktionstermen lässt sich diesem Problem durch eine Mittelwertzentrierung der Variablen begegnen. Die daraus resultierende Verschiebung der Skalierung ist bei der Interpretation zu berücksichtigen. Im Fall von komplexen Polynommodellen mit mehreren Termen ist die Interpretation der Koeffizienten ohne eine graphische Darstellung kaum möglich. Auch ist eine theoretische Begründung für die Aufnahme entsprechender – über einen quadrierten Effekt hinausgehenden – Terme häufig nicht gegeben. In diesem Kapitel wurden Polynome daher vor allem als Möglichkeit vorgestellt, die Verletzung der Nichtlinearitätsannahme zu testen. Dabei sei aber nochmals darauf hingewiesen, dass das Vorliegen eines nicht-signifkanten quadrierten Terms bzw. die Nicht-Ablehnung beim RESET nicht immer bedeutet, dass ein Zusammenhang tatsächlich linear ist. Es kann auch bedeuten, dass ein nicht-linearer Zusammenhang vorliegt, der nicht über die verwendeten Polynome abgebildet werden kann.
26 Interaktionseffekte, Polynome und Splines
705
Die Verwendung von Splines bietet sich besonders an, wenn aus vorherigen theoretischen Überlegungen die Anzahl und die Lage von Knotenpunkten bestimmt werden kann. Ohne entsprechende Vorüberlegungen können Splines auch für eine flexible Modellierung nicht-linearer Zusammenhänge verwendet werden. Die in diesem Kapitel diskutierten „Faustregeln“ zur Anzahl und Lage der Knoten sind sicherlich für viele Anwendungen angemessen. Allerdings bleibt immer zu berücksichtigen, dass die Anzahl bzw. die Lage der Knoten die Schätzergebnisse deutlich verändern kann, wenn zu wenige oder zu viele Knotenpunkte gewählt werden. Gerade für die Glättung von Streudiagrammen gibt es daher eine Reihe von „automatischen“ Verfahren zur Bestimmung der Knotenpunkte, auf die hier allerdings nicht ausführlich eingegangen werden konnte (vgl. aber Ruppert et al. 2003). Die daraus resultierenden komplexen Modellierungen sind inhaltlich häufig nur schwer zu begründen. Entsprechende Verfahren und auch die in Abschnitt 3 dargestellten Testverfahren können daher allenfalls Hinweise auf das Vorliegen von nicht-linearen oder nicht-additiven Zusammenhängen liefern und ersetzen keine theoretischen Überlegungen zur Form eines Zusammenhangs bzw. zum Vorliegen von Unterschieden zwischen Gruppen. 7 Literaturempfehlungen Interaktionseffekte, Polynome und Splines sind weitverbreitete Möglichkeiten der Spezifikation von Regressionsmodellen. Verweise und auch ausführlichere Darstellungen finden sich daher in vielen Einführungen in die Regressionsanalyse, die hier nicht besonders hervorgehoben werden müssen. Aiken & West (1991) bieten eine vertiefende Diskussion der Spezifikation und Interpretation von Interaktionseffekten. Insbesondere werden Aspekte der Zentrierung und Standardisierung von Koeffizienten ausführlich beschrieben. Es findet sich auch eine Darstellung der Spezifikation und Interpretation von einfachen Polynomen, wobei auch Interaktionen mit Polynomen berücksichtigt werden. Sehr anschauliche Darstellungen zu Interaktionseffekten in linearen und logistischen Regressionsmodellen bieten auch Jaccard & Turrisi (2003) bzw. Jaccard (2001). Eine sehr umfangreiche, weiterführende Diskussion der Probleme der Modellspezifikation findet sich bei Harrell (2001). Die hier behandelten Verfahren nehmen nur einen kleineren Teil des Buches ein, diese werden dafür aber in einem breiteren Zusammenhang diskutiert. Eine vertiefende Darstellung unterschiedlicher Modellierungsansätze mit Splines findet sich – neben vielen anderen Themen – bei Ruppert et al. (2003), die über die dieses Handbuchkapitel deutlich hinausgeht. Literaturverzeichnis Aiken, L. S. & West, S. G. (1991). Testing and Interpreting Interactions. Thousand Oaks: Sage. Cleveland, W. S. (1979). Robust Locally Weighted Regression and Smoothing Scatterplots. Journal of the American Statistical Association, 74, 829–836. Cronbach, L. (1987). Statistical Tests for Moderator Variables: Flaws in Analysis Recently Proposed. Psychological Bulletin, 102, 414–417.
706
Henning Lohmann
Harrell, F. E. (2001). Regression Modelling Strategies. New York: Springer. Jaccard, J. (2001). Interaction Effects in Logistic Regression. Thousand Oaks: Sage. Jaccard, J. & Turrisi, R. (2003). Interaction Effects in Multiple Regression. Thousand Oaks: Sage. Kühnel, S.-M. & Krebs, D. (2002). Statistik für die Sozialwissenschaften. Reinbek: Rowohlt. Magee, M. (1998). Nonlocal Behavior in Polynomial Regressions. The American Statistician, 52, 20–22. Marsh, L. C. & Cormier, D. R. (2001). Spline Regression Models. Thousand Oaks: Sage. Ramsey, J. B. (1969). Tests for Specific Errors in Classical Linear Least-Squares Analysis. Journal of the Royal Statistical Society Association, Series B, 71, 350–371. Ruppert, D., Wand, M. P., & Carroll, R. J. (2003). Semiparametric Regression. Cambridge: Cambridge University Press. StataCorp (2007). Stata Statistical Software: Release 10 (Reference I-P). College Station: StataCorp. Stone, C. J. (1986). Comment: Generalized Additive Models. Statistical Science, 1, 312–314. Wooldridge, J. M. (2003). Introductory Econometrics: A Modern Approach. Mason: Thomson.
27 Robuste Regression Ben Jann Universität Bern
Zusammenfassung. Die Kleinste-Quadrate-Regression gehört zu den in der sozialwissenschaftlichen Forschung am häufigsten eingesetzten statistischen Verfahren, ist aber leider in verschiedener Hinsicht als nicht „robust“ zu bezeichnen. So können Regressionsergebnisse beispielsweise ganz entscheidend von nur einigen wenigen extremen Datenpunkten („Ausreißern“) abhängen. Weiterhin ist die vorteilhafte statistische Effizienz, die die Popularität der Kleinste-Quadrate-Regression mitbegründet, nur unter restriktiven Annahmen über die Verteilung des Fehlerterms erfüllt. Robuste Regressionsverfahren, die weniger durch Ausreißer beeinflusst werden und auch unter alternativen Fehlerverteilungen günstige Eigenschaften aufweisen, sind verfügbar, werden aber in der angewandten Forschung bislang eher selten eingesetzt. Zwar hat das Bewusstsein zugenommen, dass Modellannahmen und die „Robustheit“ von Regressionsergebnissen geprüft werden sollten, die eingesetzten diagnostischen Mittel beschränken sich aber meistens auf klassische Methoden der Residuenanalyse. Die robuste Regression geht hier einen etwas anderen Weg, indem Modelle geschätzt werden, die von Natur aus gewisse Robustheitskriterien erfüllen. Diese robusten Ergebnisse können dann zu diagnostischen Zwecken mit den Ergebnissen herkömmlicher Verfahren verglichen werden, und so zu einem besseren Verständnis der durch die Daten abgebildeten Prozesse beitragen. Das vorliegende Kapitel soll eine Einführung in die Methoden der robusten Regression geben. Zentrale Konzepte der robusten Statistik werden erläutert und verschiedene robuste Regressionsverfahren wie zum Beispiel die M- und die MM-Schätzung vorgestellt. Die Anwendung der besprochenen Methoden wird an einem Beispiel mit Daten aus dem ALLBUS 2006 illustriert.
1 Einführung in das Verfahren Das Arbeitspferd der sozialwissenschaftlichen Statistik ist ohne Zweifel das lineare Regressionsmodell mit Kleinste-Quadrate-Schätzung, also die so genannte OLSRegression. Die Gründe dafür liegen auf der Hand: Das Verfahren besticht durch seine Einfachheit auf formaler und praktischer Ebene, ist also einfach zu interpretieren und implementieren und ist auch didaktisch günstig, da eine OLS-Lösung für kleine Datensätze problemlos übungshalber per Hand berechnet werden kann. Weiterhin besitzt die Kleinste-Quadrate-Schätzung unter der Bedingung, dass der Fehlerterm einer Normalverteilung mit konstanter Varianz folgt, optimale statistische Eigenschaften; der OLS-Schätzer ist dann bekanntlich der effizienteste unverzerrte Schätzer (BUE; best unbiased estimator), besitzt also die geringste Variabilität von Stichprobe zu Stichprobe (siehe Kapitel 10 und 24 in diesem Handbuch). S. 707–740 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_27, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
708
Ben Jann
Dass die Kleinste-Quadrate-Regression ein sehr nützliches Verfahren ist, steht außer Frage. Etwas in Vergessenheit gerät allerdings manchmal, dass die viel versprechenden theoretischen Eigenschaften der Kleinste-Quadrate-Regression nur unter bestimmten, recht restriktiven Annahmen gelten, und es unter Umständen auch bei relativ geringfügigen Verteilungsabweichungen um statistische Effizienz und eventuell Erwartungstreue nicht mehr so gut bestellt sein kann.1 Insbesondere bei Fehlerverteilungen mit „dicken Enden“, das heißt, wenn Extremwerte überproportional häufig vorkommen (Fat-TailsVerteilungen, beispielsweise die t-Verteilung mit geringer Anzahl Freiheitsgrade), kann die Effizienz der Kleinste-Quadrate-Regression sehr schnell abnehmen. Weiterhin kann die OLS-Regression zu verzerrten und wenig aussagekräftigen Ergebnissen führen, wenn die Verteilung der Daten aufgrund von fehlerhaften Messungen oder – allgemeiner – aufgrund eines sekundären Prozesses „kontaminiert“ ist. Effizienz unter alternativen Fehlerverteilungen Gehen wir vorerst davon aus, dass keine Kontaminierung vorliegt und die Daten einem mehr oder weniger einheitlichen Prozess folgen, der durch ein Regressionsmodell sinnvoll beschrieben werden kann. Wieso kann unter dieser Bedingung eine geringe Effizienz des Kleinste-Quadrate-Schätzers ein Problem sein? Im Durchschnitt über viele Stichproben wären die OLS-Ergebnisse zwar unverzerrt, effizientere Schätzer sind aber vorzuziehen, da die statistische Präzision eines Schätzers einen direkten Einfluss auf die Aussagekraft der Ergebnisse hat. Beispielsweise hängt die Güte eines Signifikanztests, also das Potenzial des Tests, einen vorliegenden Zusammenhang tatsächlich zu identifizieren, entscheidend von der Effizienz des verwendeten Schätzers ab. Im Kontext von Fehlerverteilungen mit „dicken Enden“ lässt sich das Effizienzargument aber auch wie folgt motivieren: Obwohl der OLS-Schätzer im Schnitt unverzerrt ist, besteht für eine einzelne Stichprobe – und in der Praxis liegt ja meistens auch nur eine Stichprobe vor – eine gute Chance, dass per Zufall einige Extremwerte vorliegen, die die Ergebnisse in die eine oder andere Richtung verzerren. Robuste Regressionsmethoden, die weniger sensitiv sind bezüglich solcher Ausreißer, werden in diesem Fall in der Regel sinnvollere Schätzwerte liefern, die näher am „wahren“ Wert der zu schätzenden Größe liegen. Abbildung 1 zeigt zwei Beispiele für Daten, die gemäß dem Modell Y = β1 + β2 X + e 1
Wenn die Normalverteilungsannahme fallen gelassen wird, hat der OLS-Schätzer BLUEEigenschaft (best linear unbiased estimator). Die Beschränkung auf lineare Schätzer ist aber verglichen mit der Normalverteilungsannahme nur marginal weniger restriktiv. Die BUE-Eigenschaft des OLS-Schätzers erstaunt übrigens wenig, wenn man bedenkt, dass Carl Friedrich Gauß die Normalverteilung zur Rechtfertigung des arithmetischen Mittels (das bekanntlich dem OLS-Schätzer für den univariaten Fall entspricht) als optimalen Schätzer für den Erwartungswert hergeleitet hat. Die Normalverteilung ergibt sich also als diejenige Verteilung, bei dem das Kleinste-Quadrate-Verfahren zum besten Schätzer für den Lageparameter führt (zu den Hintergründen siehe Huber 1972).
27 Robuste Regression 20
2
15
0
10
−2
Y
709
Y 5
−4
0
−6
−8
−5 0
2
4
6
8
10
0
2
X OLS
4
6
8
10
X M
MM
OLS
M
MM
Abb. 1: Streudiagramme mit Ausreißern und verschiedenen Regressionsschätzern mit β1 = β2 = 0 generiert wurden (die „wahre“ Regressionsgerade entspricht also einer Horizontalen bei Null), wobei e einer t-Verteilung mit zwei Freiheitsgraden folgt. Eingezeichnet ist jeweils eine Regressionsschätzung mit der Kleinste-Quadrate-Methode (OLS) sowie zwei robuste Schätzer (M und MM). Man erkennt, wie die OLS-Gerade durch die Ausreißer beeinflusst wird und in beiden Beispielen einen positiven Zusammenhang zwischen X und Y suggeriert, während die beiden robusten Schätzer relativ stabil sind und kaum auf die vorliegenden Extremwerte reagieren. Robuste Methoden beinhalten also sozusagen einen Absicherungsmechanismus gegenüber Extremkonstellationen, die aufgrund der Stichprobenziehung beziehungsweise aufgrund eines stochastischen Daten generierenden Prozesses zufällig zustande kommen können. Als diagnostisches Nebenprodukt geben robuste Methoden Aufschluss darüber, ob vorliegende Daten einer Extremkonstellation entsprechen oder nicht, denn nur in ersterem Fall sollten sich die Ergebnisse von OLS-Regression und robusten Methoden substanziell unterscheiden. Verzerrung durch Kontaminierung Nehmen wir nun an, dass eine „Kontaminierung“ vorliegt, die Daten also mehrheitlich einem wohldefinierten Modell folgen, ein Teil der Beobachtungen aber aus einer anderen Verteilung stammt. Beispielsweise könnten bei der Datenerhebung für einige Beobachtungen Codierfehler aufgetreten sein. Ein berühmt-berüchtigtes Beispiel aus der Literatur sind die vier Beobachtungen mit Wert 88 für die monatliche Koitusfrequenz in der Studie von Jasso (1985) zum Zusammenhang zwischen Ehedauer und
710
Ben Jann
Koitusfrequenz, bei denen es sich nach Meinung von Kahn & Udry (1986) um fehlcodierte fehlende Werte handelte (der Code für fehlende Werte war 99). Kontaminierung kann allgemein so verstanden werden, dass die beobachteten Daten einer Mischung von Ergebnissen von zwei oder mehr unterschiedlichen Prozessen entsprechen. Im Falle von Codierfehlern gibt es einerseits den eigentlichen Prozess, für den wir uns interessieren (etwa den Zusammenhang zwischen Ehedauer und Koitusfrequenz). Dieser ist aber durch einen zweiten Prozess überlagert (Fehlcodierung durch Interviewer), der zu Daten führt, die einer anderen Verteilung folgen und grundlegend anders zu interpretieren sind. Die OLS-Regression wird in solchen Situationen keinen der beteiligten Prozesse adäquat beschreiben und somit nur wenig Aussagekraft besitzen. Sofern jedoch die Daten durch einen der Prozesse dominiert werden (also einer der Prozesse für mehr als 50 % der Beobachtungsdaten verantwortlich ist) und die Prozesse zu grundsätzlich unterscheidbaren Datenstrukturen führen, sind statistische Verfahren denkbar, die diesen Hauptprozess in den Daten identifizieren. Genau hier setzt die robuste Regression an. Ein Ziel robuster Regressionsverfahren ist also, Schätzwerte zu liefern, die resistent sind gegenüber dem Vorliegen einer partiellen Kontaminierung der Daten. Robuste Methoden sollen den grundlegenden Zusammenhang in den Daten auch dann noch korrekt identifizieren, wenn beispielsweise ein Teil der Daten grob fehlerhaft ist. Ein illustratives Beispiel stammt aus der Astronomie: Abbildung 2 zeigt das Hertzsprung-Russell-Diagramm mit 47 Sternen des Sternenhaufens CYG OB1 (Daten aus Rousseeuw & Leroy 1987, S. 27–28).2 Abgetragen ist die logarithmierte Lichtintensität der Sterne gegen die logarithmierte Effektivtemperatur (in umgekehrter Orientierung). Eingezeichnet sind weiterhin eine OLS-Regressionsgerade, ein robuster Schätzer mit tiefem Bruchpunkt (M) und ein robuster Schätzer mit hohem Bruchpunkt (MM). Die Ergebnisse des OLS-Schätzers und des robusten Schätzers mit tiefem Bruchpunkt sind fast identisch und werden offensichtlich stark durch die Gruppe von vier Sternen in der rechten oberen Ecke des Diagramms beeinflusst. Der robuste Schätzer mit hohem Bruchpunkt hingegen beschreibt den Trend im Hauptteil der Daten und ignoriert die vier Ausreißer weitestgehend. Zumindest einem der beiden verwendeten robusten Schätzer gelingt es also, den Hauptprozess zu identifizieren (was mit dem „Bruchpunkt“ des Schätzers zu tun hat; mehr dazu weiter unten). Auch unter der Perspektive möglicher Kontaminierung oder der Mischung von Daten generierenden Prozessen sind die interessanten Fälle wiederum diejenigen, in denen sich die Kleinste-Quadrate-Regression und die robusten Schätzer widersprechen. Weichen die robusten Ergebnisse stark von den Resultaten der OLS-Regression ab, dann ist das ein Hinweis, dass die Daten nicht vollständig durch ein einheitliches Modell beschrieben werden können und ein Teil der Daten in starkem Kontrast zum Haupttrend steht. Anhand der Residuen können die abweichenden Datenpunkte identifiziert und beispielsweise einer separaten Analyse unterzogen werden. Insgesamt sollte die robuste Regression so zu einem besseren Verständnis der Daten beitragen. Bei den vier Ausreißern in Abbildung 2 handelt es sich übrigens nicht um Messfehler. Es 2
Ähnliche Datenkonstellationen wären auch im Kontext sozialwissenschaftlicher Fragestellungen denkbar.
27 Robuste Regression
711
6.5
logarithmierte Lichtintensität
6.0
5.5
5.0
4.5
4.0 OLS M MM
3.5 4.6
4.4
4.2
4.0
3.8
3.6
3.4
logarithmierte Temperatur
Abb. 2: Hertzsprung-Russell-Diagramm des Sternenhaufens CYG OB1 mit verschiedenen Regressionsschätzern liegen vielmehr zwei Arten von Sternen vor, Hauptreihensterne (Zwerge) und Riesen. Das heißt, die Daten stammen aus zwei unterschiedlichen Populationen. Konzeption von Robustheit Zusammenfassend lässt sich festhalten, dass robuste Regressionsschätzer erstens auch im Falle nicht-normalverteilter Fehler eine gute Effizienz aufweisen und zweitens resistent gegen ein gewisses Maß an Datenkontaminierung sein sollen. Der Anteil an Kontaminierung, den ein Schätzer maximal verkraften kann, wird dabei als der Bruchpunkt (breakdown point) bezeichnet. Beide Aspekte können mit Hilfe der von Huber (1964) geprägten Sichtweise formalisiert werden, dass beobachtbare Daten einer Mischverteilung Fε = (1 − ε)Fθ + εG
(1)
folgen, wobei Fθ die Verteilung gemäß dem postulierten Modell darstellt (in Abhängigkeit eines Parametervektors θ), G eine beliebige andere Verteilung ist und ε einem das Mischverhältnis bestimmenden Wert zwischen 0 und 1 entspricht. In Einklang mit den Annahmen der klassischen Regression könnte Fθ beispielsweise eine Verteilung gemäß dem linearen Modell Y = β1 + β2 X + e (2) repräsentieren mit e als einem unabhängig identisch normalverteilten Zufallsterm und einer gegebenen Verteilung für X. Die Verteilung der Daten entspricht jedoch nicht exakt diesem Modell, sondern ist durch eine unspezifizierte andere Verteilung G „verunreinigt“.
712
Ben Jann
Der Anspruch der robusten Regression ist nun, auch dann korrekte und zuverlässige Ergebnisse zu Fθ zu liefern, wenn das Modell leicht fehlspezifiziert ist, also wenn ε > 0. Robuste Methoden sind, in den Worten von Heritier et al. (2009, S. 7), „. . . a set of statistical tools for correct estimation and inference about Fθ when the data-generating process is Fε , not only when ε = 0, as with classical methods, but also for relatively small ε and any G. As a by-product, data not fitting Fθ exactly can be easily identified, and the model can possibly be changed and refitted“ (Hervorhebung im Original). Um von diagnostischem Nutzen zu sein, sollten robuste Schätzer zudem im Falle von ε = 0 mit den klassischen Methoden konkurrieren können. Insbesondere sollten robuste Schätzer eine gute „gaußsche Effizienz“ aufweisen, das heißt, im Idealfall normalverteilter Fehler im Vergleich zum Kleinste-Quadrate-Schätzer eine hohe relative Effizienz erreichen.3 Robuste Regressionsschätzer erster Generation Wie könnte man nun einen robusten Regressionsschätzer konstruieren, so dass er diese Kriterien erfüllt? Da es unter anderem darum geht, den Einfluss von Ausreißern zu begrenzen, ist ein nahe liegender Gedanke, einfach auf beiden Seiten der Verteilung zum Beispiel die extremsten 10 % der Daten zu eliminieren und mit den verbleibenden zentralen 80 % der Daten eine herkömmliche Analyse durchzuführen (10 %-Trimmung). Ein verwandtes Verfahren ist die Winsorisierung, bei der die Extremwerte nicht eliminiert, sondern durch das 10 %- bzw. 90 %-Quantil der Verteilung ersetzt werden. Wieso wäre eine solche Trimmung oder Winsorisierung jedoch kein besonders gutes Schätzverfahren? Unabhängig davon, wie die Verteilung der Daten tatsächlich aussieht, wird immer ein fixer Anteil der Beobachtungen ausgeschlossen oder winsorisiert, was sich negativ auf die Effizienz des Schätzers auswirkt. Sinnvoller wäre eine flexiblere Regel, die sich den Daten anpasst und nur die „wirklichen“ Extremwerte ausschließt oder winsorisiert. Eine Klasse von robusten Schätzern, die auch auf dem Prinzip der geringen Gewichtung oder gar Eliminierung von Extremwerten beruhen, jedoch die nötige Flexibilität zur Erreichung einer guten Effizient aufweisen, umfasst die so genannten M-Schätzer. Betrachten wir wiederum ein einfaches Regressionsmodell Y = β1 + β2 X + e
(3)
mit Y als der abhängigen Variable, X als einer unabhängigen (erklärenden) Variable und e als einem Zufallsfehler. Der OLS-Schätzer für die Regressionsparameter β1 und β2 beruht bekanntlich auf der Minimierung der Summe der quadrierten Residuen. Gegeben eine Stichprobe von Daten (Yi ,Xi ), i = 1, . . . ,n, wird durch den OLS-Schätzer (βˆ1 ,βˆ2 ) also der Ausdruck 3
Mit „robusten Standardfehlern“ hat die robuste Regression übrigens nur am Rande zu tun. Mit dem Begriff sind Standardfehler gemeint, die so geschätzt werden, dass sie auch bei nicht-konstanter Fehlerverteilung (das heißt, bei Vorliegen von Heteroskedastizität) konsistent sind (siehe White 1980). Um Fehlschlüsse zu vermeiden, sollte die Verwendung robuster Standardfehler in der Praxis in jedem Fall in Betracht gezogen werden, bei der klassischen wie auch bei der robusten Regression.
27 Robuste Regression n
(ri )2
713
(4)
i=1
minimiert, wobei die Residuen definiert sind als die Abweichungen der Beobachtungsdaten von der geschätzten Regressionsgerade, also ri = Yi − (βˆ1 + βˆ2 Xi ),
i = 1, . . . , n .
(5)
Durch die Quadrierung wird großen Abweichungen ein verhältnismäßig starkes Gewicht beigemessen. M-Schätzer beruhen nun auf der Idee, eine Funktion zur Bewertung der Residuen zu verwenden, die weniger schnell anwächst als die Quadratfunktion. Konkret minimiert ein M-Schätzer den Ausdruck n ρ(ri /ˆ σe ) , (6) i=1
wobei σ ˆe ein Schätzer für die Streuung des Fehlerterms ist, der zur Standardisierung der Residuen dient. Die Funktion ρ ist sinnvollerweise symmetrisch (negative und positive Abweichungen werden gleich behandelt) und wächst, wie gesagt, weniger schnell an als die Quadratfunktion. Eine häufig verwendete Funktion nach Huber (1964) verhält sich bis zu einem bestimmten Schwellenwert wie die Quadratfunktion und verläuft danach linear. In einem zentralen Bereich werden die Residuen also behandelt wie bei der OLS-Regression, große Abweichungen erhalten jedoch weniger Gewicht. Tatsächlich entspricht der Huber-M-Schätzer formal gerade der oben angesprochenen Winsorisierung, nur dass nicht ein fixer Anteil der Residuen winsorisiert wird, sondern sich der Anteil erst aus der spezifischen Verteilung der Residuen und dem gewählten Schwellenwert ergibt: Winsorisiert werden nur diejenigen Datenpunkte, deren standardisierte absolute Residuen den Schwellenwert übersteigen. Die Wahl des Schwellenwerts hat einen Einfluss auf die Robustheit des Schätzers und die relative Effizienz im Vergleich zur OLS-Regression im Falle normalverteilter Fehler. Ein Schwellenwert (Tuning-Konstante) von 1,35, der mit einer gaußschen Effizienz von 95 % einhergeht (und für den M-Schätzer in den Abbildungen 1 und 2 verwendet wurde), wird in der Regel als guter Kompromiss angesehen. Mit diesem Wert werden Residuen winsorisiert, deren absoluter Wert das 1,35-Fache der Residualstreuung übersteigt. Bei normalverteilten Residuen entspricht das einem Anteil von 17,7 Prozent. Der Huber-M-Schätzer gehört zur Klasse monotoner M-Schätzer, die den Vorteil haben, dass für die Minimierung von Ausdruck (6) eine eindeutige Lösung existiert. In der Literatur werden jedoch auch nicht-monotone M-Schätzer vorgeschlagen, bei denen Extremwerte noch weniger Gewicht erhalten und unter Umständen sogar ganz ausgeblendet werden. Ein prominenter Vertreter eines solchen als redescending („wieder absinkend“) bezeichneten Schätzers ist der Bisquare-Schätzer, der in Abschnitt 2.3 genauer vorgestellt wird. Mit dem Bisquare-M-Schätzer scheint sich ein etwas besserer Kompromiss zwischen Robustheit und gaußscher Effizienz zu erreichen als mit dem Huber-M-Schätzer, so dass er von manchen Autoren bevorzugt wird (Maronna et al. 2006, S. 64 f.). Bei der Berechnung tritt allerdings das Problem auf, dass die Zielfunktion (6) lokale Minima aufweisen kann. Empfohlen wird deshalb, den Bisquare-M-Schätzer
714
Ben Jann
nur ausgehend von einem anderen robusten Schätzer (zum Beispiel einer MedianRegression oder einem Huber-M-Schätzer) zu verwenden. Wie steht es nun aber um die Robustheit von M-Regressionsschätzern? Die frühe Literatur der robusten Statistik, so auch die wegweisende Arbeit von Huber (1964), beschäftigte sich ausgiebig mit der Schätzung von Lageparametern (das heißt, der Schätzung des Mittelwerts bzw. eines Regressionsmodells, das nur die Konstante enthält). In dieser Situation lässt sich zeigen, dass die M-Schätzung sehr gute Eigenschaften aufweist und einen Bruchpunkt von 0,5 erreicht, sofern für die Bestimmung der Residualstreuung ebenfalls ein Schätzer mit Bruchpunkt 0,5 verwendet wird (ein einfaches entsprechendes Streuungsmaß ist der Median der absoluten Abweichungen vom Median). Ein Bruchpunkt von 50 Prozent bedeutet, dass der Schätzer resistent ist gegen eine Kontaminierung von bis zu 50 Prozent der Daten. Das heißt, der Schätzer bleibt auf einen endlichen Wertebereich begrenzt, auch wenn bis zu 50 Prozent der Daten willkürlich verändert werden. Das bedeutet zwar nicht, dass die Datenmanipulation bzw. Kontaminierung keinen Einfluss auf den Schätzer hätte. Der Einfluss ist jedoch begrenzt, so dass der Schätzer nicht völlig beliebige Werte annehmen kann. Leider lässt sich diese günstige Eigenschaft nicht auf M-Regressionsschätzer verallgemeinern. Der Einfluss, den ein Datenpunkt auf die Schätzergebnisse nehmen kann, hängt bei einem Regressionsmodell nicht nur davon ab, ob es sich um einen Ausreißer bezüglich der abhängigen Variablen Y handelt, sondern auch, inwieweit der Datenpunkt einen Extremwert bezüglich der erklärenden Variablen X darstellt. Die ρ-Funktion eines M-Schätzers hält jedoch nur ersteres unter Kontrolle. Sobald also Extremwerte bezüglich X möglich sind (so genannte Leverage-Punkte), ist es mit den vorteilhaften Eigenschaften eines M-Schätzers vorbei und der Bruchpunkt geht gegen Null. Durch willkürliche Manipulation von nur einem Datenpunkt lassen sich dann ähnlich wie bei der Kleinste-Quadrate-Regression beliebige Schätzergebnisse erzeugen. M-Regressionsschätzer werden deshalb nur sehr begrenzt empfohlen, zum Beispiel für Situationen, in denen es sich es sich bei den Kovariaten um 0/1-Variablen eines fixen faktoriellen Designs handelt. Robuste Regressionsschätzer zweiter Generation In den meisten sozialwissenschaftlichen Untersuchungen sind die Kovariaten als Zufallsvariablen zu verstehen, die unter Umständen sehr unterschiedliche Werte annehmen können. Wie erläutert, weisen M-Regressionsschätzer erster Generation unter dieser Bedingung einen Bruchpunkt von Null auf und sind somit als nicht besonders robust zu bezeichnen. Eine Strategie zur Konstruktion robusterer Schätzer kann sein, einen M-Schätzer durch Einführung von Gewichten, die Beobachtungen mit Extremwerten im X-Design penalisieren und so deren Einfluss begrenzen, zu erweitern. Dies führt zu den so genannten GM- oder Bounded-Influence-Schätzern, auf die an dieser Stelle jedoch nicht näher eingegangen werden soll (siehe Seite 727 für eine kurze Abhandlung). Ein zweiter Ansatz versucht, robuste Regressionsschätzer direkt mit Blick auf einen möglichst hohen Bruchpunkt zu formulieren (High-Breakdown-Schätzer). Die Frage der statistischen Effizienz ist dabei vorerst untergeordnet. Ein früher Vorschlag ist
27 Robuste Regression
715
der LMS-Schätzer (least median of squares) von Rousseeuw (1984), der den Median der quadrierten Residuen minimiert und einen Bruchpunkt von näherungsweise 50 Prozent aufweist. Ein eng verwandter Schätzer mit einem vergleichbaren Bruchpunkt ist der LTS-Schätzer (least trimmed squares), bei dem die Summe der gut 50 Prozent kleinsten quadrierten Residuen minimiert wird. Beide Schätzer kann man sich so vorstellen, dass diejenigen 50 Prozent der Daten ausfindig gemacht werden, die am deutlichsten einer Struktur im Sinne des Regressionsmodells entsprechen. Die restlichen 50 Prozent der Daten können dann mehr oder weniger beliebige Werte annehmen, ohne dass sich am Ergebnis der Schätzung viel ändert, was den hohen Bruchpunkt erklärt. Diese Sichtweise macht aber auch unmittelbar klar, dass die beiden Schätzer in der Regel eine schlechte Effizienz aufweisen: Die Schätzer beziehen quasi immer nur die Hälfte der Daten mit ein, auch wenn keine Ausreißer oder sonstige Unregelmäßigkeiten vorkommen. Ähnlich wie der OLS-Schätzer minimieren der LMS- und LTS-Schätzer beide ein Maß der Residualstreuung, nur dass es sich um ein robustes Streuungsmaß handelt. Um bei gleichem Bruchpunkt eine höhere gaußsche Effizienz zu erreichen, kann man nun ein alternatives robustes Streuungsmaß verwenden, bei dem Datenpunkte anders als beim LMS- oder LTS-Schätzer nur dann ein geringes Gewicht erhalten oder ignoriert werden, wenn es sich tatsächlich um Extremwerte handelt. Die beim OLS-Schätzer verwendete Varianz der Residuen entspricht bekanntlich dem Durchschnitt der quadrierten Residuen. Eine nahe liegende Idee zur Konstruktion eines effizienten robusten Streuungsmaßes ist, zur Bemessung der Beiträge der einzelnen Residuen wiederum eine ρ-Funktion zu verwenden, die weniger schnell anwächst als die Quadratfunktion. Ein Regressionsschätzer, der auf der Minimierung eines solchen M-Schätzers der Skala der Residuen beruht, wird als S-Schätzer bezeichnet. Im Falle der Verwendung einer Bisquare-ρ-Funktion mit geeigneter Tuning-Konstante besitzt der S-Schätzer einen Bruchpunkt von 50 Prozent und erreicht eine deutlich höhere gaußsche Effizienz als der LMS- oder LTS-Schätzer, die mit knapp 30 Prozent jedoch immer noch recht bescheiden ausfällt.4 Regressionsschätzer, die ein substantielles Maß an Kontaminierung verkraften (das heißt, die einen hohen Bruchpunkt haben), sind also möglich. Die bisher genannten Verfahren haben aber den entscheidenden praktischen Nachteil, dass sie in der Standardsituation mit normalverteilten Fehlern im Vergleich zur OLS-Regression eine sehr geringe statistische Präzision aufweisen. Dies bedeutet zum Beispiel, dass Hypothesentests auf Grundlage dieser Modelle eine sehr schlechte Güte haben können. Eine Lösung des Effizienzproblems liegt nun darin, einen dieser ineffizienten HighBreakdown-Schätzer mit einem nachfolgenden robusten Schätzer erster Generation zu kombinieren. Der wichtigste Vertreter dieses zweistufigen Ansatzes ist der so genannte MM-Schätzer von Yohai (1987). Beim MM-Schätzer wird zuerst ein S-Schätzer mit hohem Bruchpunkt berechnet, der Startwerte für die Regressionsparameter sowie einen 4
Je nach Bruchpunkt kann der S-Schätzer auch durchaus höhere Effizienzwerte erreichen. Bruchpunkt und Effizienz sind hier direkt miteinander verknüpft; je höher der Bruchpunkt, desto tiefer die gaußsche Effizienz und umgekehrt. Mit einem Bruchpunkt von 25 Prozent erreicht der Bisquare-S-Schätzer beispielsweise eine akzeptable gaußsche Effizienz von gut 75 Prozent (vgl. Tabelle 2 in Abschnitt 2.4).
716
Ben Jann
robusten Schätzwert für die Fehlervarianz liefert. Im zweiten Schritt wird dann ausgehend von den Startwerten ein Bisquare-M-Schätzer berechnet (unter Konstanthaltung der Fehlervarianz). Es kann gezeigt werden, dass sich bei diesem Verfahren der hohe Bruchpunkt aus dem ersten Schritt auf den nachfolgenden Bisquare-M-Schätzer überträgt, gleichzeitig kann jedoch durch geeignete Wahl der Bisquare-Tuning-Konstante im zweiten Schritt eine hohe Effizienz erreicht werden (zum Beispiel 85 % bei k = 3,44 oder 95 % bei k = 4,69; vgl. Tabelle 1 in Abschnitt 2.3). Der MM-Schätzer vereint somit die positiven Eigenschaften des S- und des M-Schätzers. Der hohe Bruchpunkt kann beibehalten werden, weil im zweiten Schritt ein absinkender (redescending) M-Schätzer verwendet wird, der weit vom Modell entfernte Punkte unter Umständen mit Gewicht Null belegt. Wenn also Extremwerte vorliegen, wird diesen gleich zu Beginn des zweiten Schritts die Möglichkeit entzogen, einen Einfluss auf den Schätzer auszuüben, und der Schätzer verbleibt in der Region des anfänglichen S-Schätzers. Wenn hingegen keine Ausreißer vorhanden sind, nähert sich der Schätzer der OLS-Lösung an. Robuste Regression und Regressionsdiagnostik Aufgrund des hohen Bruchpunktes und der guten gaußschen Effizient ist der MMSchätzer für viele Situationen als robuster Standardschätzer zu empfehlen. Ein robuster Schätzer ist dabei aber nicht unbedingt als Ersatz für Kleinste-Quadrate-Regression und klassische Regressionsdiagnostik zu sehen, sondern eher als Komplement. So entfalten robuste Verfahren ihr Potenzial vor allem auch in diagnostischer Weise. Klassische Regressionsverfahren führen zwar in vielen Situationen zu sinnvollen Ergebnissen, ein Vergleich zu robusten Resultaten ist aber in jeden Fall zu empfehlen. Bevor aufgrund der Ergebnisse von klassischen Verfahren weitreichende Schlussfolgerungen gezogen werden, sollte geprüft werden, inwieweit sich diese Schlussfolgerungen als „robust“ erweisen, inwieweit man also mit Schätzern, die auf weniger restriktiven Annahmen fußen und weniger durch Ausreißer und atypische Datenkonstellationen beeinflusst werden, zu den gleichen Schlussfolgerungen gelangt. Falls klassische Verfahren und robuste Regression deutlich divergieren oder sich gar widersprechen, können die robusten Ergebnisse unmittelbar zu einem besseren Verständnis der Daten beitragen. Quasi als Nebenprodukt der robusten Schätzung sind Daten, die nicht zum Modell passen, einfach identifizierbar, was Aufschluss über Fehlspezifikationen, Ausreißer und mögliche alternative Daten generierende Prozesse geben kann. Gegenüber der klassischen Regressionsdiagnostik zur Identifikation einflussreicher Datenpunkte (siehe Jann 2006, sowie Kapitel 25 in diesem Handbuch) haben robuste Methoden dabei unter anderem den Vorteil, dass sich ähnliche Ausreißer nicht gegenseitig maskieren können. Robuste Verfahren sind aber auch kein Allheilmittel und können beispielsweise kein Ersatz für diagnostische Methoden sein, die sich mit der Prüfung struktureller Fehlspezifikationen (fehlende Kovariaten, falsche funktionale Zusammenhangsformen, fehlende Interaktionsterme) beschäftigen.
27 Robuste Regression
717
2 Mathematisch-statistische Grundlagen Im Folgenden werden wir etwas genauer auf die Details der angesprochenen robusten Schätzer eingehen. Zuerst wird der Kleinste-Quadrate-Schätzer kurz dargestellt, worauf die Erläuterung von einigen zentralen Konzepten der robusten Statistik folgt. Danach werden wir die verschiedenen robusten Schätzer besprechen. 2.1 Der Kleinste-Quadrate-Schätzer Der Ausgangspunkt der folgenden Betrachtungen ist das lineare Regressionsmodell Y = β1 X1 + · · · + βp Xp + e ,
(7)
wobei Y die abhängige Variable symbolisiert, die durch einen Zufallsterm e und durch die Regressoren (unabhängige Variablen) X1 bis Xp mit den zugehörigen Regressionsgewichten bzw. Koeffizienten β1 bis βp bestimmt wird. Einer der Regressoren wird üblicherweise auf eins gesetzt, so dass das Modell einen „Achsenabschnitt“ enthält. Sei Xp diese Konstante, dann entspricht βp dem Erwartungswert von Y , wenn alle anderen Regressoren gleich null sind. Die Parameter β1 bis βp−1 entsprechen den Partialeffekten dieser Kovariaten auf den Erwartungswert von Y . Sei x ein Vektor der Regressoren (inklusive Konstante) und β ein Vektor der p Regressionskoeffizienten, also x = [X1 , . . . ,Xp ] mit Xp = 1 und β = [β1 , . . . ,βp ] , dann lässt sich das lineare Regressionsmodell verkürzt notieren als Y = x β + e
(8)
(ein hochgestelltes T steht für „transponiert“). Gegeben eine Stichprobe von n Realisierungen Yi und xi , i = 1, . . . ,n, werden die Regressionsparameter β normalerweise mit Hilfe der Methode der kleinsten Quadrate ˆLS , der Kleinste-Quadrate-Schätzer für β, wird dabei so gewählt, dass die geschätzt. β ˆ i = Yi − x β ˆ ein Minimum annimmt, also Summe der quadrierten Residuen r(β) i ˆLS = arg min β ˆ β
n i=1
ˆ 2i = arg min r(β) ˆ β
n
ˆ2 (Yi − x i β) .
(9)
i=1
ˆLS kann (9) abgeleitet und auf Null gesetzt werden, was zum Zur Bestimmung von β folgenden System von p Gleichungen führt (die so genannten Normalgleichungen): n ˆ (Yi − x i β)X1i = 0 i=1 n n ˆ i=1 (Yi − xi β)X2i = 0 ˆ β)x (Yi − x = 0 bzw. (10) i .. i . i=1 n ˆ i=1 (Yi − xi β)Xpi = 0 . ˆ erhält man den Kleinste-QuadrateDurch Auflösung des Gleichungssystems nach β Schätzer, der sich in Matrizenschreibweise präsentiert als ˆLS = (X X)−1 X y β (11) mit y = [Y1 , . . . ,Yn ] als dem Vektor der Werte der abhängigen Variablen und X = [x1 , . . . ,xn ] als der (n × p)-Matrize der Werte der Kovariaten (inklusive Konstante).
718
Ben Jann
2.2 Grundlegende Konzepte zur Bewertung robuster Schätzer Bevor die robusten Regressionsschätzer vorgestellt werden, sind einige Begrifflichkeiten bezüglich statistischer Eigenschaften von Schätzern zu klären. Der Kleinste-QuadrateSchätzer ist nur eine von vielen möglichen Methoden zur Bestimmung der Koeffizienten einer Regressionsgleichung. Es werden also Bewertungskriterien benötigt, um die verschiedenen Ansätze zur Lösung eines Schätzproblems vergleichen und einen optimalen Schätzer bestimmen zu können. Die klassischen diesbezüglichen Kriterien sind Erwartungstreue oder Konsistenz und Effizienz. Da die Ergebnisse zu diesen Merkmalen in der Regel nur unter restriktiven Annahmen gelten, kommen bei der Bewertung von robusten Schätzern einige weitere Kriterien hinzu wie die relative Effizienz unter alternativen Fehlerverteilungen sowie die Einflussfunktion, der Bruchpunkt und die maximale Verzerrung bei Kontaminierung der Daten. Erwartungstreue, Konsistenz und Effizienz Sei θ der zu schätzende Populationsparameter und θˆn ein Schätzer aufgrund von Daten mit Stichprobenumfang n. Schätzer θˆn wird als erwartungstreu (bzw. nicht systematisch verzerrt) bezeichnet, wenn für alle n Bias(θˆn ) = E(θˆn ) − θ = 0
(12)
gilt, wobei E den Erwartungswert symbolisiert. Ein Schätzer ist also erwartungstreu, wenn er im Durchschnitt über viele Stichproben die richtige Antwort gibt. Erwartungstreue wird nicht immer strikt gefordert, da es Schätzer gibt, die in kleinen Stichproben verzerrt sind, aber trotzdem gute Eigenschaften aufweisen. Ein Schätzer sollte aber zumindest konsistent sein. Konsistenz ist gegeben, wenn ein Schätzer mit steigendem Stichprobenumfang den zu schätzenden Populationsparameter immer besser wiedergibt, das heißt, wenn lim Pr(|θˆn − θ| > ε) = 0
n→∞
(13)
gilt, wobei ε einer beliebig kleinen positiven Konstante entspricht. Die Formel besagt, dass die Wahrscheinlichkeit, einen um mehr als einen beliebig kleinen positiven Betrag vom wahren Parameter abweichenden Schätzwert zu erhalten, mit steigendem Stichprobenumfang gegen Null strebt. Mit dem Kriterium der Effizienz ist gemeint, dass ein Schätzer eine möglichst geringe Varianz aufweisen, das heißt, über mehrere Stichproben möglichst wenig variieren sollte. Formal ist die Varianz eines Schätzers gegeben als Var(θˆn ) = E[(θˆn − E(θˆn ))2 ] .
(14)
Stehen zwei konsistente Schätzer zur Verfügung, wird man den Schätzer mit geringerer Varianz bevorzugen, da man in einer konkreten Anwendung mit diesem Schätzer in der Regel näher am wahren Parameterwert liegen wird und die statistischen Aussagen, die sich auf Grundlage des Schätzers treffen lassen, eine höhere Güte erreichen.
27 Robuste Regression
719
Insgesamt ist man also an Schätzern interessiert, die von Stichprobe zu Stichprobe möglichst wenig variieren und im Durchschnitt möglichst gut den „wahren“ Wert der zu schätzenden Größe wiedergeben. Zur theoretischen Bestimmung von Varianz und Bias eines Schätzers sind jedoch spezifische Verteilungsannahmen bezüglich der Daten notwendig. So kann zum Beispiel gezeigt werden, dass die Kleinste-QuadrateRegression optimale Eigenschaften besitzt, wenn der Fehlerterm des Regressionsmodells unabhängig identisch normalverteilt ist. Die Annahmen orientieren sich dabei aber an theoretischen Idealen, die in der Praxis nie exakt erfüllt sind. Eine wichtige Frage ist deshalb, wie sich die Eigenschaften eines Schätzers unter alternativen Bedingungen präsentieren. Relative Effizienz An robuste Schätzer wird der Anspruch gestellt, dass sie anders als die KleinsteQuadrate-Methode über einen breiten Bereich plausibler Fehlerverteilungen, insbesondere Verteilungen mit stark besetzten Extrembereichen, möglichst effizient sind. Robuste Schätzer werden deshalb nicht so definiert, dass sie nur für eine ganz bestimmte Verteilung optimale Eigenschaften aufweisen. Das Ziel sind vielmehr Schätzer, die nicht zu stark von Annahmen über die Form der Fehlerverteilung abhängen und auch bei Verteilungen, die nicht den Standardannahmen entsprechen, gute Resultate erzielen. Als Konzept zur Bewertung von robusten Schätzern wird deshalb die relative (asymptotische) Effizienz im Vergleich zum besten Schätzer in einer jeweiligen Situation herangezogen. Unter allgemeinen Bedingungen besitzt der Maximum-Likelihood-Schätzer (ML) für eine bestimmte Fehlerverteilung die beste Effizienz unter allen konsistenten Schätzern (vorausgesetzt, die Fehlerverteilung trifft zu; siehe Kapitel 10 in diesem Handbuch). Ein robuster Schätzer soll also für möglichst viele realistische Fehlerverteilungen im Vergleich zum jeweiligen ML-Schätzer möglichst gut abschneiden.5 Eine hilfreiche Maßzahl ist dabei die relative Effizienz (Varianz des ML-Schätzers geteilt durch die Varianz des robusten Schätzers), die als der Anteil der Stichprobe interpretiert werden kann, den der ML-Schätzer benötigt, um gleich präzise Resultate zu liefern wie der robuste Schätzer bei vollem Stichprobenumfang. Ein besonderes Augenmerk gilt dabei der relativen Effizienz bei unabhängig und identisch normalverteilten Fehlern, die wir als „gaußsche“ Effizienz bezeichnen wollen. In dieser Situation entspricht der OLS-Schätzer dem ML-Schätzer. Um mit der KleinsteQuadrate-Regression konkurrieren zu können, sollten robuste Schätzer eine nicht zu geringe gaußsche Effizienz erreichen. Ein Wert von 95 Prozent wird häufig als erstrebenswert angesehen, wobei aber auch ein tieferer Wert von beispielsweise 85 Prozent sinnvoll sein kann (eine höhere gaußsche Effizienz geht in der Regel mit einer größeren maximalen Verzerrung einher; vgl. unten).
5
Zu Ergebnissen von Simulationsstudien für verschiedene Fehlerverteilungen siehe zum Beispiel Wu (1985).
720
Ben Jann
Einfluss-Funktion, Bruchpunkt und maximale Verzerrung Robuste Schätzer sollen nicht nur effizient sein, sondern auch dann zuverlässige Ergebnisse liefern, wenn die Daten nicht genau dem postulierten Modell folgen und zum Beispiel durch fehlerhafte Daten „verunreinigt“ sind. Es stellt sich also die Frage, inwieweit ein Schätzer robust ist gegen eine Kontaminierung der Daten. Drei Konzepte in diesem Zusammenhang sind die Einflussfunktion, der Bruchpunkt und die maximale Verzerrung. Die Einflussfunktion (influence function) operationalisiert Robustheit in einem lokalen Sinne und misst die Veränderung des Schätzers, wenn an einem bestimmten ˆ ) der Grenzwert Punkt ein marginal kleiner Anteil Daten hinzugefügt wird. Sei θ(F eines Schätzers, den man anhand einer unendlich großen Stichprobe aus Verteilung F erhalten würde. Die Einflussfunktion ist dann definiert als IF(z0 ,F ) = lim ε↓0
ˆ ) ˆ ε,z ) − θ(F θ(F 0 ε
(15)
mit Fε,z0 als einer Verteilung, die an Punkt z0 = (y0 ,x 0 ) mit Wahrscheinlichkeitsmasse ε verunreinigt ist. Man kann sich das so vorstellen, dass man in einer sehr großen Stichprobe einen einzelnen Datenpunkt (y0 ,x 0 ) hinzufügt und dann die Veränderung der Schätzers misst, die dadurch verursacht wird. Der Verlauf von IF, wenn (y0 ,x 0 ) variiert wird, gibt Aufschluss über die Sensitivität eines Schätzers auf kleine Veränderungen in den Daten. Bei der Kleinste-QuadrateRegression hängt IF unter anderem direkt vom Residuum ˆ r0 = y0 − x 0 β(F )
(16)
ab. Wenn wir also bei fixem x0 den Wert von y0 gegen unendlich streben lassen, strebt auch IF gegen unendlich. Die Einflussfunktion ist somit unbegrenzt und der OLS-Schätzer kann durch eine marginale Veränderung der Daten beliebig beeinflusst werden. Ein robuster Schätzer sollte folglich auf jeden Fall eine begrenzte Einflussfunktion besitzen. Offen bleibt dabei allerdings, inwieweit ein Schätzer auch gegen ein substanzielleres Ausmaß an Kontaminierung robust ist. Ein Konzept zur Operationalisierung von Robustheit in diesem globalen Sinne ist der Bruchpunkt (breakdown point). Gegeben sei wiederum das Verteilungsmodell Fε = (1 − ε)F + εG
(17)
aus Abschnitt 1. Die Daten folgen also einer Mischverteilung aus Verteilung F gemäß dem postulierten Modell und einer beliebigen anderen Verteilung G. Der (asymptotische) Bruchpunkt ε∗ eines Schätzers θˆ ist nun definiert als der größte Wert für ε, ˆ ε ) als Funktion von G begrenzt bleibt. Der Bruchpunkt beziffert also bei dem θ(F den maximalen Anteil an Kontaminierung, der durch den Schätzer verkraftet wird. Wenn ε den Bruchpunkt übersteigt, lässt sich der Schätzer durch Wahl von G beliebig manipulieren.
27 Robuste Regression
721
Aufgrund der unbegrenzten Einflussfunktion besitzt die OLS-Regression einen Bruchpunkt von Null. Robuste Schätzer hingegen sollten einen positiven Bruchpunkt aufweisen, der im Idealfall den sinnvollen Maximalwert von 0,5 erreicht. Das heißt, man ist interessiert an Schätzern, die sich an den Eigenschaften der Mehrheit der Datenpunkte orientieren und gegenüber Unregelmäßigkeiten im Rest der Daten robust sind. Auch ein geringerer Bruchpunkt von beispielsweise 25 % kann jedoch unter Umständen ausreichend sein (zu einer Kritik an Schätzern mit hohem Bruchpunkt siehe Stefanski 1991). Ein hoher Bruchpunkt bedeutet nicht, dass ein Schätzer nicht durch eine Kontaminierung der Daten beeinflusst würde. Garantiert wird lediglich, dass die Verzerrung begrenzt ist (gegeben der Anteil an Kontaminierung überschreitet nicht den Bruchpunkt). Schätzer mit gleichem Bruchpunkt können sich bezüglich der Höhe dieser maximalen Verzerrung unterscheiden und man wird in der Regel einen Schätzer mit möglichst geringer maximaler Verzerrung bevorzugen. Zusammenfassung Robuste Regressionsschätzer sollen eine begrenzte Einflussfunktion, einen substanziellen Bruchpunkt, und eine möglichst kleine maximale Verzerrung (bei Einhaltung des Bruchpunkts) aufweisen. Zudem sollen die Schätzer eine gute gaußsche Effizienz und eine gute relative Effizienz im Allgemeinen besitzen.6 Wichtig zu erkennen ist allerdings, dass ein Zielkonflikt besteht zwischen Effizienz und Verzerrung: Eine Erhöhung der relativen Effizienz geht einher mit einer Erhöhung der maximalen Verzerrung. Im Extremfall einer relativen Effizienz von 100 Prozent ist die maximale Verzerrung unbegrenzt. Dies verdeutlicht, dass es kaum Sinn macht, robuste Schätzer mit zu hoher gaußscher Effizienz von beispielsweise mehr als 95 Prozent zu verwenden. 2.3 M-Schätzer Eine wichtige Klasse von robusten Schätzern sind die so genannten M-Schätzer, die von Huber (1964) im Kontext der Schätzung des Lageparameters einer Verteilung eingeführt wurden, sich aber einfach auf Regressionsmodelle verallgemeinern lassen (Huber 1973). Die Bezeichnung M-Schätzer rührt daher, dass der Ansatz als Generalisierung des Maximum-Likelihood-Prinzips angesehen werden kann. Die Verteilung der Fehler in Regressionsmodell (8) lässt sich allgemein formulieren als 1 Y − x β e ∼ f0 , (18) σ σ wobei f0 eine standardisierte Dichtefunktion ist (wie zum Beispiel die Standardnormalverteilungsdichte) und σ der Streuung der Fehler entspricht. Die Likelihood-Funktion ist dann gegeben als 6
Selbstverständlich sollten robuste Regressionsschätzer noch einige weitere Kriterien erfüllen, die üblicherweise von Regressionsschätzern gefordert werden, wie zum Beispiel Konsistenz (siehe oben), asymptotische Normalität (um die Herleitung von Konfidenzintervallen und Tests zu vereinfachen) und Äquivarianz (so dass eine lineare Transformation der Daten die inhaltliche Interpretation der Ergebnisse nicht verändert).
722
Ben Jann
n $ 1 Yi − x i β f0 . L(β,σ) = σ σ i=1
(19)
Der Maximum-Likelihood-Schätzer maximiert L (bzw. dessen Logarithmus), was der Minimierung von n Yi − x i β + n ln σ (20) ρ0 σ i=1
mit ρ0 = − ln f0 gleich kommt. In Anlehnung an (20) werden nun M-Schätzer allgemein definiert als n ˆ Y β − x i M i ˆ = arg min ρ β σ ˆ β i=1
(21)
mit einer geeigneten Zielfunktion ρ (objective function). Nahe liegende Minimalanforderungen sind dabei, dass ρ positiv und symmetrisch ist und mit zunehmendem Betrag des Arguments nicht kleiner wird, also ρ(z) = ρ(−z) ≥ 0 und ρ(z1 ) ≥ ρ(z2 ), falls |z1 | > |z2 |. ˆ Angenommen σ sei bekannt, kann das Minimum von (21) durch Ableiten nach β und Nullsetzen gefunden werden. Das heißt, der M-Schätzer ist gegeben als Lösung des Gleichungssystems n ˆ Yi − x i β xi = 0 ψ (22) σ i=1
mit ψ als der Ableitung von ρ, also ψ = ρ . Wenn ρ differenzierbar und konvex ist, besteht eine eindeutige Lösung. Bei der Definition von ρ bzw. ψ orientiert man sich weniger an Annahmen über die Dichtefunktion der Fehlerverteilung, sondern mehr an den Eigenschaften der resultierenden Schätzer bezüglich Robustheit und Effizienz. Wie man an den Ausführungen in Abschnitt 2.1 erkennt, ist der Kleinste-Quadrate-Schätzer als Spezialfall mit ρ(z) = 1/2z 2 bzw. ψ(z) = z in der Klasse der M-Schätzer enthalten.7 Die Zielfunktion des Kleinste-Quadrate-Schätzers hat den Nachteil, dass sie mit zunehmendem Betrag von z überproportional ansteigt, und somit großen Abweichungen vom Regressionsmodell ein starkes Gewicht verleiht. Robuste Varianten von ρ sollten somit weniger schnell wachsen als die Zielfunktion der Kleinste-Quadrate-Methode. Ein Spezialfall, der diese Anforderung erfüllt, ist die Zielfunktion ρ(z) = |z|, die linear mit dem Betrag von z steigt. Ein M-Schätzer mit dieser Zielfunktion entspricht der Median-Regression (beziehungsweise der 50 %Quantilsregression; siehe Koenker 2005; Hao & Naiman 2007) und ist auch unter dem Namen L1 -Schätzer (im Gegensatz zur Kleinste-Quadrate-Regression mit L2 Norm) sowie LAV- (least absolute values) oder LAD-Schätzer (least absolute deviations) bekannt. Der LAV-Schätzer hat gute Eigenschaften bezüglich Robustheit und kann bei Vorliegen extremer Y -Werte eine deutlich bessere Effizienz erreichen als der 7
Beziehungsweise ρ(z) = z 2 und ψ(z) = 2z (eine multiplikative Konstante spielt keine Rolle).
27 Robuste Regression
723
Tab. 1: Tuning-Konstante und Effizienz des Huber- und Bisquare-M-Schätzers Gaußsche Effizienz
70 %
75 %
80 %
85 %
90 %
95 %
Huber k Bisquare k
0,19 2,70
0,35 2,90
0,53 3,14
0,73 3,44
0,98 3,88
1,35 4,69
Kleinste-Quadrate-Schätzer.8 Ein Nachteil des LAV-Schätzers ist allerdings, dass er bei Normalverteilung der Fehler relativ ineffizient ist (63,7 % gaußsche Effizienz). Weiterhin hat der LAV-Schätzer die mathematisch ungünstige Eigenschaft, dass die Zielfunktion nicht stetig differenzierbar ist. Eine Zielfunktion, die einen Kompromiss zwischen dem Kleinste-Quadrate-Schätzer und dem LAV-Schätzer darstellt, ist die Huber-Funktion mit ⎧ 9 ⎪ falls z > k ⎨k 1 2 z falls |z| ≤ k H H 2 (23) ρ (z) = und ψ (z) = z falls |z| ≤ k ⎪ k|z| − 12 k 2 falls |z| > k ⎩ −k falls z < −k . In einem zentralen Bereich von ±k verhält sich die Huber-Funktion wie die KleinsteQuadrate-Zielfunktion, außerhalb dieses Bereichs ist sie jedoch linear und somit äquivalent zur LAV-Zielfunktion. Dies wird in Abbildung 3 veranschaulicht, die ρ und ψ für verschiedene Schätzer darstellt. Parameter k ist die so genannte Tuning-Konstante, mit der der Punkt des Übergangs vom Kleinste-Quadrate-Kriterium zum LAV-Kriterium eingestellt werden kann. Mit k gegen unendlich gleicht sich ρH der Zielfunktion des Kleinste-Quadrate-Schätzers an, bei k gegen null erhält man den LAV-Schätzer. Durch die Wahl der Konstante k kann die Huber-Funktion also zwischen den zwei Polen variiert werden. Die Wahl von k hat dabei einen zentralen Einfluss auf die gaußsche Effizienz des Huber-M-Schätzers (siehe Tabelle 1). Beispielsweise wird mit k = 1,35 eine Effizienz von 95 % erreicht, was in der Praxis ein häufig angestrebter Standardwert ist. Zu bedenken ist allerdings, dass mit zunehmender Effizienz auch die Robustheit des Schätzers abnimmt (das heißt, je größer k ist, desto mehr Gewicht erhalten Y -Ausreißer mit großen Residuen), was sich auf das Ausmaß der maximalen Verzerrung des Schätzers durch kontaminierte Daten auswirkt. Es kann deshalb auch sinnvoll sein, mit einer etwas geringeren Effizienz von zum Beispiel 85 % zu arbeiten (k = 0,73). Man kann nun noch einen Schritt weiter gehen und eine Zielfunktion verwenden, die großen Abweichungen noch weniger Gewicht verleiht als die LAV- oder HuberZielfunktion. Eine solche Funktion wächst ab einem bestimmten absoluten Wert von z mit abnehmender Steigung, die Funktion nimmt also für große absolute z-Werte weniger stark zu als die in diesem Bereich lineare LAV- oder Huber-Funktion. Ein Schätzer, der auf einer solchen Zielfunktion beruht, kann unter Umständen noch 8
Der LAV-Schätzer entspricht dem Maximum-Likelihood-Schätzer, wenn für die Fehler eine Laplace- bzw. doppelte Exponentialverteilung (siehe zum Beispiel Wu 1985; Evans et al. 2000, S. 117 ff.) angenommen wird. Extremwerte kommen bei der doppelten Exponentialverteilung sehr viel häufiger vor als bei der Normalverteilung.
724
Ben Jann Kleinste-Quadrate-Schätzer
ρ(z)
5
4
4
2
3
ψ(z) 0
2
−2
1 0
−4 −3
−2
−1
0
1
2
3
−3
−2
−1
z
0
1
2
3
1
2
3
1
2
3
1
2
3
z
LAV-Schätzer 3
1 .5
2
ρ(z)
ψ(z) 1
0 −.5
0
−1 −3
−2
−1
0
1
2
3
−3
−2
−1
z
0
z
Huber-M-Schätzer 2
3
1
ρ(z)
2
ψ(z) 0
1
−1
0
−2 −3
−2
−1
0
1
2
3
−3
−2
−1
z
0
z
Bisquare-M-Schätzer 1
1 .8
.5
ρ(z) .6
ψ(z)
0
.4 −.5
.2 0
−1 −3
−2
−1
0
z
1
2
3
−3
−2
−1
0
z
Abb. 3: Zielfunktion und deren Ableitung für verschiedene Schätzer
27 Robuste Regression
725
bessere Eigenschaften bezüglich Robustheit und Effizienz aufweisen. Man spricht dann von einem „wieder absinkenden“ (redescending) M-Schätzer, da ψ(z) mit zunehmendem absoluten Wert von z wieder gegen null zurück geht. Eine populäre entsprechende Zielfunktion ist die Bisquare- oder Biweight-Funktion nach Beaton & Tukey (1974): 9 2 k 2 3 1 − 1 − (z/k) falls |z| ≤ k (24) ρB (z) = 62 k falls |z| > k 6 und
9 2 z 1 − (z/k)2 ψ (z) = 0 B
falls |z| ≤ k falls |z| > k .
(25)
An der Darstellung der Bisquare-Funktion in Abbildung 3 erkennt man, dass die Funktion nach oben begrenzt ist und für große absolute z-Werte Bereiche mit Steigung Null erreicht. Große Abweichungen werden also faktisch vollständig ignoriert. Die Tuning-Konstante k bestimmt dabei wiederum die Balance zwischen gaußscher Effizienz und Robustheit. Bei großem k wird eine gute Effizienz erreicht (zum Beispiel 95 % mit k = 4,69; siehe Tabelle 1), die Begrenzung der Zielfunktion erfolgt aber relativ spät, so dass fehlerhafte Daten zu einer verhältnismäßig starken Verzerrung des Schätzers führen können. Bei kleinerem k nimmt der maximale Bias, aber auch die Effizienz, ab. Absinkende M-Schätzer haben gute robuste Eigenschaften, sollten aber aus technischen Gründen nur mit einem anderen robusten Schätzer als Startwert verwendet werden (siehe unten). Für weitere Zielfunktionen und deren Eigenschaften siehe zum Beispiel Wu (1985). Berechnung von M-Schätzern Zur Berechnung eines M-Schätzers kann am einfachsten der IRWLS-Algorithmus (iteratively reweighted least squares), also ein iteriertes gewichtetes Kleinste-QuadrateVerfahren verwendet werden.9 Angenommen der Streuungsparameter σ sei bekannt, lässt sich das Gleichungssystem (22), dessen Lösung der M-Schätzer ist, mit Hilfe der Gewichte ˆ ˆ Yi − x Yi − x i β i β wi = ψ (26) σ σ umformulieren zu
n
ˆ wi (Yi − x i β)xi = 0
(27)
i=1
(genau genommen noch multipliziert mit Faktor σ, was aber auf die Lösung keinen ˆ in (27) einem gewöhnlichen Einfluss hat). Wären die Gewichte wi bekannt, entspräche β gewichteten Kleinste-Quadrate-Schätzer, dessen Lösung in Matrizenschreibweise als 9
Für den Spezialfall der Quantilsregression (LAV-Zielfunktion) werden andere Algorithmen benötigt, die hier nicht näher besprochen werden sollen, aber in den meisten gängigen Statistikprogrammen zur Verfügung stehen.
726
Ben Jann
ˆWLS = (X WX)−1 X Wy β
(28)
gegeben ist mit X = [x1 , . . . ,xn ] und y = [Y1 , . . . ,Yn ] sowie W als Diagonalmatrix der Gewichte w1 , . . . ,wn .10 ˆ und somit unbekannt. Eine Lösung Die Gewichte wi sind jedoch eine Funktion von β ˆ und wi bietet das iterierte gewichtete für diese gegenseitige Abhängigkeit zwischen β ˆ und wi jeweils wechselseitig bestimmt werden. Kleinste-Quadrate-Verfahren, bei dem β In der Praxis beinhaltet der Algorithmus die folgenden Schritte: ˆ(0) als Startwert für den Algorithmus 1. Bestimmung eines anfänglichen Schätzers β (zum Beispiel der Kleinste-Quadrate-Schätzer oder, falls verfügbar, der LAVSchätzer). (t) 2. Für jede Iteration t = 1, . . . : Berechnung der Gewichte wi durch Einsetzen von ˆ(t−1) in (26). β ˆ(t) durch Einsetzen von w(t) in (27) bzw. (28). 3. Berechnung des Parametervektors β i Schritte 2 und 3 werden so lange wiederholt bis sich der Schätzer nicht mehr verändert (das heißt, bis die Veränderung ein bestimmtes Konvergenzkriterium unterschreitet). Für monotone M-Schätzer hat die Wahl des Startwerts keinen Einfluss auf das Endresultat, da (22) eine eindeutige Lösung besitzt (die Anzahl notwendiger Iterationen kann sich aber je nach Startwert unterscheiden). Anders verhält es sich bei absinkenden M-Schätzern: Da (21) lokale Minima haben kann, gibt es mehrere Lösungen für (22) ˆ(0) ab, zu welchem lokalen Minimum der IRWLSund es hängt vom anfänglichen β (0) ˆ Algorithmus konvergiert. β sollte also selbst auch schon ein robuster Schätzer sein. Zum Beispiel kann zuerst ein Huber-M-Schätzer ermittelt und dann in einem zweiten Schritt die Lösung durch die Anwendung des Bisquare-M-Schätzers verfeinert werden. Bislang wurde angenommen, dass der Skalenparameter σ bekannt sei. Das ist natürlich in der Praxis nicht der Fall und auch σ muss geschätzt werden. Um die Einflussfunktion begrenzt zu halten, sollte der Schätzer für σ robust sein. Ein sehr robustes und einfach zu berechnendes Streuungsmaß ist der normalisierte Median der absoluten Residuen MED(|r1 |, . . . ,|rn |) (29) σ ˆ MADN = 0,6745 (die Normalisierung ist so gewählt, dass σ ˆ MADN bei normalverteilten Residuen der Standardabweichung entspricht; 0,6745 entspricht dem 0,75-Quantil der Standardnormalverteilung). Häufig wird in der Praxis im ersten Schritt des IRWLS-Algorithmus σ ˆ MADN aufgrund der Residuen des LAV-Schätzers berechnet und dann konstant gehalten (Verfahren mit vorausgehender Skalenberechnung). Eine Alternative kann auch sein, σ ˆ MADN in jedem Schritt aufgrund der Residuen des aktuellen Parametervektors neu zu berechnen (simultane Schätzung von Regressions- und Skalenparameter). Weiterhin kann anstatt σ ˆ MADN ein M-Skalenschätzer verwendet werden (siehe zum 10
Der WLS-Schätzer kann auch durch Anwendung des OLS-Verfahrens auf transformierte √ √ Daten wi Yi und wi xi bestimmt werden (man beachte, dass auch die Konstante zu transformieren ist).
27 Robuste Regression
727
Beispiel Huber 1981, S. 179 ff.; Maronna et al. 2006, S. 103). Die Wahl der genauen Vorgehensweise sollte sich normalerweise nicht substanziell auf die Regressionsergebnisse auswirken, wobei aber Ansätze mit vorausgehender Skalenberechnung als geringfügig robuster anzusehen sind. Bruchpunkt von M-Schätzern Wie ist es nun um den Bruchpunkt von M-Regressionsschätzern bestellt? Die Einflussfunktion (IF) eines M-Schätzers hängt unter anderem von ψ(r0 /σ) ab (siehe etwa Maronna et al. 2006, S. 123). Beim Huber- wie auch beim Bisquare-M-Schätzer ist ψ begrenzt (Abbildung 3), was den Einfluss von Y -Ausreißern unter Kontrolle hält (sofern σ konstant ist bzw. robust geschätzt wird). Im Falle eines Modells mit Kovariaten ist IF aber zudem eine direkte Funktion von x0 . Falls X-Ausreißer mit hoher Leverage möglich sind, fällt der Bruchpunkt von M-Schätzern somit auf Null (dies gilt auch für den LAV-Schätzer) und es ist im Vergleich zur Kleinste-Quadrate-Regression nicht viel gewonnen. Bounded-Influence-Schätzer Da M-Schätzer bei Vorliegen von Leverage-Punkten einen tiefen Bruchpunkt aufweisen, wurden als Erweiterung so genannte GM-Schätzer oder Bounded-Influence-Schätzer vorgeschlagen. Es handelt sich um generalisierte M-Schätzer, bei denen der Einfluss extremer X-Werte mit Gewichten begrenzt wird. Zwei gebräuchliche Formen des GM-Schätzers sind gegeben als die Lösungen von n 3 ˆ Yi − x i β 1 − hi ψ (30) xi = 0 σ i=1 und
n 3 1 − hi ψ i=1
ˆ Yi − x i β √ 1 − hi σ
xi = 0 ,
(31)
wobei hi der Leverage von Datenpunkt i entspricht (hi ist ein Maß für die Distanz eines Punktes vom Mittelwertsvektor der X-Variablen; siehe Kapitel 25 in diesem Handbuch). Ausreißern bezüglich X wird also beizukommen versucht, indem die entsprechenden Datenpunkte mit einem geringen Gewicht versehen werden. Die erste Form leidet unter einem relativ großen Effizienzverlust, da auch der Einfluss von „guten“ LeveragePunkten, die sich positiv auf die Präzision einer Schätzung auswirken, vermindert wird. Dieser Effizienzverlust wird bei der zweiten Form zumindest teilweise aufgefangen. GM-Schätzer auf Grundlage von Leverage-Werten sind nun leider auch nicht besonders resistent, da man bereits durch die gezielte Veränderung von nur zwei Datenpunkten die Leverage beliebig manipulieren kann. Es gibt zwar weitere Vorschläge für GM-Schätzer, die auf robusten Versionen der Leverage beruhen (siehe zum Beispiel Krasker & Welsch 1982; Hampel et al. 1986, S. 315 ff.), generell kann aber gezeigt werden, dass der Bruchpunkt von GM-Schätzern mit zunehmender Anzahl an Parametern relativ schnell abnimmt. Insgesamt erscheinen GM-Schätzer somit als wenig praxistauglich (Maronna et al. 2006, S. 147 ff.).
728
Ben Jann
2.4 High-Breakdown-Schätzer Ein anderer Ansatz wird mit den High-Breakdown-Schätzern verfolgt, bei denen ein hoher Bruchpunkt von Anfang an per Design gewährleistet wird. LMS- und LTS-Schätzer Zwei frühe Beispiele sind der LMS- (least median of squares) und der LTS-Schätzer (least trimmed squares) (Rousseeuw 1984; Rousseeuw & Leroy 1987; Rousseeuw & Hubert 1997). Der LMS-Schätzer minimiert den Median der quadrierten Residuen, also ˆ 21 , . . . ,r(β) ˆ 2n ) ˆLMS = arg min MED(r(β) (32) β ˆ β
ˆ i = Yi − x β. ˆ Es lässt sich zeigen, dass der Bruchpunkt des LMS-Schätzers mit r(β) i näherungsweise 50 % entspricht. Im Falle einer Einfachregression, also einer Regression mit nur einer unabhängigen Variable (plus Konstante), hat der LMS-Schätzer eine anschauliche Interpretation: Es handelt sich um die Steigung eines Streifens, der so durch die Punktewolke gelegt wird, dass er die Hälfte der Datenpunkte abdeckt und gleichzeitig eine minimale vertikale Breite (also Breite in Richtung von Y ) aufweist. Der LMS-Schätzer beschreibt also sozusagen den Trend in denjenigen 50 Prozent der Daten, in denen sich ein Trend am klarsten erkennen lässt. Der LTS-Schätzer folgt einer ähnlichen Idee, berücksichtigt aber zusätzlich, wie die Residuen innerhalb des betrachteten Streifens verteilt sind. Minimiert wird beim LTSˆ2 , Schätzer die Varianz der (rund) 50 Prozent kleinsten Residuen. Symbolisiere r(β) (i) i = 1, . . . ,n, die der Größe nach geordneten quadrierten Residuen. Der LTS-Schätzer ist dann definiert als h ˆLTS = arg min ˆ2 β r(β) (33) (i) ˆ β
i=1
und erreicht mit h = n/2 + 1 den gleichen Bruchpunkt von knapp 50 Prozent wie der LMS-Schätzer.11 Die LMS- und LTS-Schätzer sind aufgrund ihrer konzeptionellen Einfachheit sehr ansprechend. Ein Nachteil ist allerdings, dass beide Schätzer eine schlechte gaußsche Effizienz aufweisen (0 % bzw. 7 %).12 Der hohe Bruchpunkt wird also durch einen extremen Effizienzverlust im Falle normalverteilter Fehler erkauft. Weiterhin sind die Schätzer nicht ganz einfach zu berechnen. Die Optimierungsfunktion weist für beide Schätzer lokale Minima auf und ist besonders beim LMS-Schätzer sehr unstetig. Bei der Implementation der Schätzer geht man deshalb in der Regel so vor, dass man per Zufall p Datenpunkte zieht und die Regressionsfunktion bestimmt, 11
12
x entspricht der größten ganzen Zahl kleiner oder gleich x (Runden gegen minus unendlich). Der LMS-Schätzer konvergiert nur mit n−1/3 anstatt n−1/2 , was bei asymptotischer Betrachtung zu einer relativen Effizienz von Null führt. In endlichen Stichproben ist der Wert zwar größer, mit steigendem Stichprobenumfang verschlechtern sich die Verhältnisse aber zunehmend zu Ungunsten des LMS-Schätzers.
27 Robuste Regression
729
die genau durch diese p Punkte läuft. Dieser Prozess wird eine gewisse Anzahl Mal wiederholt und diejenige Lösung als Schätzer berichtet, bei der das LMS- bzw. LTSKriterium minimal ausfällt. Man beachte, dass es sich nur um eine approximative Lösung handelt und dass man bei Wiederholung des Verfahrens mit einem anderen Startwert für den Zufallsgenerator unter Umständen eine leicht andere Lösung erhält. Obwohl die schätztechnischen Probleme überwindbar sind (siehe auch Rousseeuw & Van Driessen 2002), sind der LMS- und LTS-Schätzer in der Praxis aufgrund ihrer schlechten Effizienz in der Regel nicht zu empfehlen. Die beiden Schätzer verdeutlichen aber, dass Regressionsschätzer mit hohem Bruchpunkt durchaus möglich sind. S-Schätzer Der Kleinste-Quadrate-Schätzer minimiert bekanntlich die Varianz der Residuen. Eine Idee zur Konstruktion von robusten Schätzern, die sich an dieser Sichtweise anlehnt, ist ˆ so zu wählen, dass ein robustes Maß der Residualstreuung minimiert wird (Rousseeuw β & Yohai 1984; Rousseeuw & Leroy 1987). Man definiere also einen Schätzer als ˆS = arg min σ ˆ β ˆ (r(β)) ˆ β
(34)
mit σ ˆ (r) als einem robusten Maß der Streuung von r.13 Für σ ˆ kann ein M-Schätzer der Skala, σ ˆ M , verwendet werden, der als Lösung von n ˆ Yi − x 1 i β =δ (35) ρ n−p σ ˆ i=1
gegeben ist mit δ als einer geeigneten Konstante, um Konsistenz mit der Standardabweichung im Fall von normalverteilten Residuen zu gewährleisten. Beim S-Schätzer ˆ gesucht, bei dem σ wird also derjenige Wert für β ˆ M gemäß (35) ein Minimum annimmt. In der Praxis verwendet man für ρ meistens die Bisquare-Funktion (24), für die sich zeigen lässt, dass in Abhängigkeit der Tuning-Konstante k ein hoher Bruchpunkt erreicht wird. Bei k = 1,55 beträgt der asymptotische Bruchpunkt beispielsweise 50 Prozent. Die gaußsche Effizienz ist dann mit knapp 30 Prozent zwar relativ gering, liegt aber deutlich über den Werten für den LMS- oder LTS-Schätzer. Tabelle 2 gibt eine Übersicht über Bruchpunkt und Effizienz des S-Schätzers für weitere k-Werte. Man beachte, dass bei einem Bruchpunkt von 25 Prozent, was in manchen Anwendungen vielleicht bereits als ausreichend gelten kann, eine ganz passable Effizienz von 76 Prozent erreicht wird. Ähnlich wie beim LMS- und LTS-Schätzer ist die Berechnung des S-Schätzers nicht ganz einfach, da lokale Minima vorliegen können. Die Bestimmung der Koeffizienten ˆ die mit Hilfe von zufälligen Sets erfolgt deshalb auch hier anhand von Kandidaten für β, von p Beobachtungen gewonnen werden. Das Optimierungskriterium des S-Schätzers ist allerdings relativ glatt, was bedeutende rechnerische Effizienzgewinne durch lokale 13
Auch der LMS- und LTS-Schätzer lassen sich als solche Schätzer verstehen mit dem Median der quadrierten Residuen bzw. der Varianz der kleinsten h Residuen als Streuungsmaß.
730
Ben Jann
Tab. 2: Tuning-Konstante, Bruchpunkt und gaußsche Effizienz des S-Schätzers Tuning-Konstante k Bruchpunkt (Prozent) Effizienz (Prozent)
1,55 50,0 28,7
1,76 45,0 37,0
1,99 40,0 46,2
2,25 35,0 56,0
2,56 30,0 66,1
2,94 25,0 75,9
3,42 20,0 84,7
4,10 15,0 91,7
5,18 10,0 96,6
Verbesserung der Kandidaten ermöglicht. Ein entsprechender Algorithmus wurde von Salibian-Barrera & Yohai (2006) vorgeschlagen und scheint sich in der Praxis zu bewähren.14 MM-Schätzer Auch der S-Schätzer ist noch nicht wirklich befriedigend, da die Effizienz bei hohem Bruchpunkt zu gering ausfällt. Yohai (1987; siehe auch Yohai et al. 1991) zeigt jedoch, wie sich durch Kombination eines S-Schätzer mit einem absinkenden M-Schätzer eine hohe relative Effizienz bei gleichzeitig hohem Bruchpunkt erreichen lässt. Der vorgeschlagene kombinierte Schätzer wird als MM-Schätzer bezeichnet und beinhaltet die folgenden Schritte: ˆ(0) mit hohem Bruchpunkt aber mögli1. Berechnung eines anfänglichen Schätzers β cherweise geringer Effizienz. In der Praxis wird ein S-Schätzer mit Bruchpunkt 50 % verwendet (28,7 % gaußsche Effizienz). ˆ(0) ) = 2. Robuste Schätzung des Skalenparameters σ ˆ aufgrund der Residuen ri (β ˆ(0) Yi − xi β . Der naheliegendste entsprechende Schätzer ist der M-Skalenschätzer, der im Rahmen der Optimierung des S-Schätzers anfällt. ˆMM als Lösung eines absinkenden 3. Berechnung des MM-Regressionsschätzers β (redescending) M-Schätzers (üblicherweise der Bisquare-Schätzer) mit Startwert ˆ(0) aus Schritt 1 und fixem Skalenparameter σ β ˆ aus Schritt 2. Durch Verwendung eines absinkenden M-Schätzers mit robuster, im Voraus festgelegter Skala kann der hohe Bruchpunkt aus Schritt 1 beibehalten werden. Gleichzeitig wird aber die für M-Schätzer übliche, hohe Effizienz erreicht. Mit einem S-Schätzer mit k S = 1,55 (vgl. Tabelle 2) im ersten Schritt und einem Bisquare-M-Schätzer mit k M = 4,69 im zweiten Schritt (vgl. Tabelle 1) kann so ein Schätzer mit 95 % relativer Effizienz und 50 % Bruchpunkt realisiert werden. Wie bereits mehrfach angesprochen, steigt bei hoher Effizienz allerdings die maximal mögliche Verzerrung des Schätzers durch kontaminierte Daten. Als guten Kompromiss empfehlen Maronna et al. (2006) deshalb die Verwendung eines MM-Schätzers mit 85 % relativer Effizienz (was durch Wahl von k M = 3,44 für den Bisquare-M-Schätzer im dritten Schritt erreicht wird; vgl. Tabelle 1). Insgesamt hat der MM-Schätzer sehr gute Eigenschaften und erweist sich als gute Wahl für einen robusten Standardschätzer. Für die angewandte Forschung kann der rechenaufwändige erste Schritt (das heißt die Bestimmung des S-Schätzers) ein 14
Vergleiche auch Ruppert (1992) für einen älteren, etwas weniger effizienten Vorschlag.
27 Robuste Regression
731
Schwachpunkt sein, ein modifizierter Algorithmus für große Datensätze ist jedoch verfügbar (vgl. Salibian-Barrera & Yohai 2006).15 Weiterhin ist der MM-Schätzer asymptotisch normalverteilt, was die Bestimmung von Konfidenzintervallen erleichtert, und Croux et al. (2003) bieten einfach zu berechnende, approximative Formeln für die Standardfehler. Es handelt sich dabei um robuste Standardfehler, die auch bei Vorliegen von Ausreißern und heteroskedastischer oder asymmetrischer Fehlerverteilung konsistent sind.16
3 Ein Beispiel Die Anwendung der besprochenen Verfahren soll nun anhand eines Beispiels illustriert werden. Ich verwende dazu die ALLBUS-Daten aus dem Jahr 2006 und schränke die Stichprobe ein auf ganztags erwerbstätige Personen aus den neuen Bundesländern. Ziel ist die Analyse des Zusammenhangs zwischen Berufsprestige (gemessen anhand der Magnitude-Prestigeskala) und dem erzielten Nettostundenlohn (berechnet aus dem monatlichen Nettoeinkommen geteilt durch viermal die wöchentlichen Arbeitsstunden). Konkret sollen die Stundenlöhne als lineare Funktion des Prestiges und einiger weiterer Variablen wie Beschäftigung im öffentlichen Dienst, Alter (mit parabolischem Effekt) und Geschlecht dargestellt werden. Die verwendete Regressionsgleichung mag sehr reduziert erscheinen, sollte aber zu Illustrationszwecken genügen. Spalte 1 in Tabelle 3 zeigt die Ergebnisse der Kleinste-Quadrate-Schätzung (OLS). Das Berufsprestige ist den Ergebnissen nach deutlich lohnwirksam. Der erwartete Stundenlohn steigt pro 10 Punkte auf der Magnitude-Skala um gut 50 Cent (die Prestigevariable wurde aus Darstellungsgründen durch 10 geteilt). Das 95 %-Konfidenzintervall des Prestigeeffekts (± 1,96 Standardfehler) beläuft sich auf 29 bis 80 Cent. Wie „robust“ sind diese Ergebnisse? Zur Beantwortung dieser Frage enthalten die Spalten 2 bis 4 in Tabelle 3 eine Reihe alternativer Schätzungen mit robusten Methoden: eine Median-Regression (LAV), einen Huber-M-Schätzer mit 95 % Normalverteilungseffizienz (M95) und einen MM-Schätzer mit 50 % Bruchpunkt und 85 % Normalverteilungseffizienz (MM85). Die Median-Regression und der Huber-M-Schätzer wurden als zwei populäre Vertreter robuster Modelle erster Generation gewählt. Beide Modelle sind robust gegenüber Ausreißern in Richtung der abhängigen Variablen (Y Ausreißer) und weisen bei Verletzung der Annahme der Normalverteilung der Residuen eine bessere statistische Effizienz auf als die OLS-Regression. Die Median-Regression ist vor allem auch darum interessant, weil sie sich einfach auf andere Quantile verallgemeinern lässt (so wird die Quantilsregression zum Beispiel in der Ungleichheitsforschung 15
16
Ein weiteres Problem mit dem Algorithmus zur Berechnung des S-Schätzers tritt auf, wenn das Modell viele kategoriale Variablen enthält (die mit Hilfe von Dummy-Variablen in die Regressionsgleichung aufgenommen werden). Die Wahrscheinlichkeit, kollineare Sets zu ziehen, kann in diesem Fall sehr groß werden, was den notwendigen Rechenaufwand stark erhöht. Ein Lösungsansatz wird von Maronna & Yohai (2000) präsentiert. In Croux et al. (2003) findet man auch analoge Formeln für robuste Standardfehler für M-Schätzer, die den Formeln nach klassischem Ansatz (vgl. Huber 1981, S. 172 ff.; Street et al. 1988) vorzuziehen sind.
732
Ben Jann
zur Beschreibung und Kontrolle von Kovariateneinflüssen auf ganze Verteilungen eingesetzt; siehe etwa Buchinsky 1998), hat aber den Nachteil, dass sie, wie bereits erläutert, eine gaußsche Effizienz von nur 64 % aufweist.17 Steht kein effizienterer M-Schätzer zur Verfügung, kann die Median-Regression zwar eine gute Alternative sein, in der Regel wird man aber einen weniger großen Effizienzverlust in Kauf nehmen wollen. Wir folgen hier der gängigen Praxis und verwenden einen Huber-M-Schätzer mit 95 % Normalverteilungseffizienz (k = 1,35; mit konstantem Skalenparameter σ ˆ MADN aufgrund der Residuen der Median-Regression). Man beachte, dass der Huber-M-Schätzer bei Reduktion der Effizienz (k → 0) gegen die Median-Regression konvergiert. Bei Erhöhung der Effizienz (k → ∞) strebt der Huber-M-Schätzer gegen die OLS-Lösung. Der MM-Schätzer wurde als derzeit wohl praxistauglichster robuster Schätzer zweiter Generation ausgewählt, der Empfehlung von Maronna et al. (2006, S. 144) folgend mit einem Bruchpunkt von 50 % (k S = 1,55) und einer Effizienz von 85 % (k M = 3,44). Wie unterscheiden sich nun die Resultate der robusten Schätzer von den KleinsteQuadrate-Ergebnissen? Beim LAV- wie auch beim Huber-M-Schätzer (Spalten 2 und 3 in Tabelle 3) fällt der Prestigeeffekt etwas geringer aus und liegt bei nur noch knapp 40 Cent pro 10 Magnitude-Skalenpunkte (mit einem 95 %-Konfidenzintervall von zirka 20 bis 55 Cent). Dies lässt vermuten, dass der Koeffizient in der OLS-Regression aufgrund einiger einflussreicher Datenpunkte überschätzt wird. Weitere Zweifel an der Aussagekraft der OLS-Lösung lassen auch die Ergebnisse des MM-Schätzers aufkommen (Spalte 4 in Tabelle 3), nach denen der Prestigeeffekt nur gerade 21 Cent pro 10 Punkte auf der Magnitude-Skala beträgt (95 %-Konfidenzintervall: 8 bis 35 Cent). Der Prestigeeffekt ist zwar auch beim MM-Schätzer noch signifikant größer als Null, fällt aber doch sehr viel kleiner aus als bei der OLS-Regression und liegt sogar außerhalb des OLS-Konfidenzintervalls. Dass der Effekt in der MM-Schätzung auch im Vergleich zum LAV- und Huber-M-Schätzer nochmals deutlich abnimmt, weist auf das Vorliegen von Ausreißern mit hoher Leverage hin (das heißt Datenpunkte, die bezüglich Y und X extreme Werte aufweisen), die den OLS-Schätzer und etwas weniger stark auch die beiden robusten Schätzer erster Generation beeinflussen. Um eine bessere Vorstellung der Gründe für die Differenzen zwischen den Schätzern zu erhalten, empfiehlt es sich, die Daten mit graphischen Mitteln genauer zu veranschaulichen. Im Kontext von Regressionsmodellen erweisen sich hierzu partielle Residuenplots (Component-Plus-Residual-Plots) als hilfreich, mit denen sich die partiellen Zusammenhänge für die einzelnen Kovariaten unter Kontrolle der anderen Variablen abbilden lassen (vgl. Jann 2006, S. 426 ff.). Es werden dabei die so genannten partiellen Residuen, das heißt, die Residuen zuzüglich des Beitrags des betrachteten Regressors zum linearen Prädiktor (also rˆi + βˆj Xij ), gegen die Werte des Regressors abgetragen und die entsprechende Regressionsgerade eingezeichnet. Abbildung 4 17
Die Median-Regression hat den zusätzlichen Nachteil, dass sich bei der analytischen Schätzung von robusten Standardfehlern (das heißt Standardfehlern, die auch bei Verletzung der Annahme konstanter Fehlervarianz konsistent sind) gewisse Komplikationen ergeben, weshalb wir die Standardfehler im Beispiel mittels Bootstrap-Methode berechnen (siehe Kapitel 9 in diesem Handbuch). Bei den anderen Modellen in Tabelle 3 gelangt man mit dem Bootstrap-Verfahren zu vergleichbaren Ergebnissen wie mit den verwendeten analytischen Schätzformeln.
27 Robuste Regression
733
Tab. 3: Regressionsmodelle zur Erklärung des Stundenlohns OLSa Magnitude-Prestige (MPS) / 10 Öffentlicher Dienst Alter − 18 (Alter − 18)2 / 100 Geschlecht: Weiblich Konstante Skalenparameter †
: p ≤ 0,1; ∗ : p ≤ 0,05;
∗∗
: p ≤ 0,01;
∗∗∗
LAVb
M95c
MM85d
0,544∗∗∗ (0,130) 1,432∗∗∗ (0,413) 0,309∗∗∗ (0,049) −0,635∗∗∗ (0,113) −1,571∗∗∗ (0,399) 1,757∗ (0,778)
0,378∗∗∗ (0,094) 1,975∗∗∗ (0,411) 0,236∗∗ (0,075) −0,479∗∗ (0,158) −1,030∗∗ (0,375) 2,557∗∗ (0,878)
0,366∗∗∗ (0,088) 1,494∗∗∗ (0,318) 0,275∗∗∗ (0,047) −0,552∗∗∗ (0,109) −1,177∗∗∗ (0,290) 2,521∗∗∗ (0,651)
0,214∗∗ (0,070) 1,733∗∗∗ (0,313) 0,236∗∗∗ (0,052) −0,458∗∗∗ (0,117) −0,872∗∗ (0,280) 3,228∗∗∗ (0,627)
3,482
2,517
2,517
2,521
: p ≤ 0,001
Quelle: Allbus 2006, neue Bundesländer, nur Vollzeiterwerbstätige, N = 393. Robuste Standardfehler in Klammern (LAV: Bootstrap-Standardfehler) a b c d
Kleinste-Quadrate-Schätzer LAV-Schätzer Huber-M-Schätzer mit 95 % Normalverteilungseffizienz MM-Schätzer mit 50 % Bruchpunkt und 85 % Normalverteilungseffizienz
zeigt die partiellen Residuenplots für das Berufsprestige in den vier Modellen. Man erkennt deutliche Ausreißer nach oben, die mit zunehmendem Berufsprestige stärker werden und so die Steigung der OLS-Regressionsgerade insbesondere im Vergleich zum MM-Schätzer deutlich anzuheben vermögen. Weiterhin ist ersichtlich, dass auch die Median-Regression und der Huber-M-Schätzer bei einer solchen Datenkonstellation nur begrenzt robust sind. Wie erläutert, ist also der Prestigeeffekt der OLS-Schätzung wenig vertrauenswürdig. Das heißt, die robusten Methoden geben Anlass zur Annahme, dass der Zusammenhang deutlich schwächer ist, als es gemäß den OLS-Regressionsergebnissen zu vermuten wäre. Betrachten wir nun noch kurz die anderen Koeffizienten unseres Modells in Tabelle 3. Für die Beschäftigung im öffentlichen Dienst erhalten wir einen relativ stabilen Schätzer, aber es gibt gewisse Anzeichen, dass die Altersabhängigkeit der Stundenlöhne und der Geschlechtseffekt in der OLS-Regression ebenfalls etwas zu hoch ausfallen. Man könnte nun für diese beiden Variablen wie oben eine genauere Analyse vornehmen, worauf wir hier aber aus Platzgründen verzichten. Es bleibt anzumerken, dass die beiden M-Schätzer (LAV und M95) insgesamt zu recht vergleichbaren Ergebnissen führen, der Huber-M-Schätzer aber für die meisten Koeffizienten etwas tiefere Standardfehler aufweist als die Median-Regression, was die bessere Effizienz des Huber-M-Schätzers illustriert.
734
Ben Jann
Partielle Residuen (Stundenlohn)
40
OLS
LAV
M95
MM85
30
20
10
0
2
5
8
11 14 17
2
5
8
11 14 17
2
5
8
11 14 17
2
5
8
11 14 17
Magnitude-Prestige (MPS) / 10
Abb. 4: Partielle Residuenplots zum Zusammenhang zwischen Berufsprestige und Stundenlohn Unterschiedliche Resultate zwischen der Kleinste-Quadrate-Regression und den robusten Verfahren können darauf hinweisen, dass das verwendete Modell grundlegend fehlspezifiziert ist. Im vorliegenden Fall ist beispielsweise fraglich, ob sich ein lineares additives Modell überhaupt zur Beschreibung von Stundenlöhnen eignet. Stundenlöhne weisen bekanntlich einen einseitig begrenzten Wertebereich auf (keine negativen Werte) und sind rechtsschief verteilt. Man könnte folglich argumentieren, dass sich die Daten mit einem Modell mit relativen (also multiplikativen anstatt additiven) Effekten zutreffender abbilden lassen sollten. Ein solches multiplikatives Modell erhält man durch Logarithmierung der abhängigen Variablen, da additive Effekte auf den logarithmierten Stundenlohn multiplikativen Effekten auf den (nicht-logarithmierten) Stundenlohn entsprechen (siehe Kapitel 26 in diesem Handbuch). Tabelle 4 zeigt die Schätzergebnisse für das entsprechend respezifizierte Modell. In der Tat sind die Resultate für den Prestigeeffekt nun sehr viel stabiler. Mit allen vier Schätzern ergibt sich ein Prestigeeffekt von zirka 5 Prozent Lohnzuwachs pro 10 Skalenpunkte.18 Wie man an den partiellen Residuenplots in Abbildung 5 erkennen kann, gibt es zwar auch in dieser Modellspezifikation deutliche Ausreißer (diesmal nach unten), sie wirken sich aber aufgrund geringerer Leverage kaum auf die Steigung des Prestigeeffekts aus. Die robusteren Ergebnisse bezüglich des Prestigeeffekts sprechen klar für die Verwendung der transformierten Spezifikation mit den logarithmierten Stundenlöhnen; auch die Effekte für den öffentlichen Dienst und das Geschlecht sind in dieser Spezifikation
18
ˆ − 1) · 100, also beispielsweise für den PrestigeDer Prozenteffekt berechnet sich als (exp(β) effekt in der OLS-Regression als (exp(0. 051) − 1) · 100 = 5,2.
Partielle Residuen (logarithmierter Stundenlohn)
27 Robuste Regression OLS
2
LAV
M95
735
MM85
1
0
−1
−2
−3 2
5
8
11 14 17
2
5
8
11 14 17
2
5
8
11 14 17
2
5
8
11 14 17
Magnitude-Prestige (MPS) / 10
Abb. 5: Partielle Residuenplots zum Zusammenhang zwischen Berufsprestige und logarithmiertem Stundenlohn Tab. 4: Regressionsmodelle zur Erklärung des logarithmierten Stundenlohns OLSa Magnitude-Prestige (MPS) / 10 Öffentlicher Dienst Alter − 18 (Alter − 18)2 / 100 Geschlecht: Weiblich Konstante Skalenparameter †
: p ≤ 0,1; ∗ : p ≤ 0,05;
∗∗
: p ≤ 0,01;
∗∗∗
LAVb
M95c
0,051∗∗∗ (0,010) 0,242∗∗∗ (0,048) 0,062∗∗∗ (0,011) −0,129∗∗∗ (0,027) −0,166∗∗∗ (0,048) 1,044∗∗∗ (0,126)
0,047∗∗∗ (0,013) 0,239∗∗∗ (0,048) 0,046∗∗ (0,015) −0,093∗∗ (0,031) 0,104 (0,053) 1,173∗∗∗ (0,183)
0,049∗∗∗ (0,010) 0,205∗∗∗ (0,043) 0,046∗∗∗ (0,010) −0,091∗∗∗ (0,020) −0,160∗∗∗ (0,042) 1,200∗∗∗ (0,124)
0,046∗∗∗ (0,011) 0,188∗∗∗ (0,042) 0,031∗∗ (0,011) −0,060∗∗ (0,022) −0,147∗∗∗ (0,043) 1,378∗∗∗ (0,142)
0,460
0,391
0,391
0,371
: p ≤ 0,001
Quelle: Allbus 2006, neue Bundesländer, nur Vollzeiterwerbstätige, N = 393. Robuste Standardfehler in Klammern (LAV: Bootstrap-Standardfehler) a b c d
MM85d
Kleinste-Quadrate-Schätzer LAV-Schätzer Huber-M-Schätzer mit 95 % Normalverteilungseffizienz MM-Schätzer mit 50 % Bruchpunkt und 85 % Normalverteilungseffizienz
Ben Jann Partielle Residuen (logarithmierter Stundenlohn)
736
OLS
LAV
M95
MM85
2
1
0
−1
−2
−3 18 25 35 45 55 65 18 25 35 45 55 65 18 25 35 45 55 65 18 25 35 45 55 65
Alter
Abb. 6: Partielle Residuenplots zum Zusammenhang zwischen Alter und logarithmiertem Stundenlohn relativ stabil.19 Beim Vergleich der Schätzwerte für den Effekt des Alters fällt jedoch auf, dass die robusten Schätzer, wiederum insbesondere der MM-Schätzer, deutlich von der OLS-Regression abweichen: Das Lohnprofil über das Alter ist gemäß der robusten Schätzung deutlich flacher. Der Alterseffekt wird hier mit einer parabolischen Funktion modelliert, so dass zwei Parameter bei der Interpretation berücksichtigt werden müssen. Da der Haupteffekt positiv und der Effekt des quadrierten Terms negativ ist, handelt es sich um einen umgekehrt u-förmigen Zusammenhang. Das heißt, der (logarithmierte) Stundenlohn steigt mit zunehmendem Alter zuerst an, wobei aber der negative Effekt des quadrierten Terms immer wichtiger wird, so dass sich das Lohnwachstum nach und nach verlangsamt und ab einem bestimmten Punkt sogar eine rückläufige Entwicklung eintritt. Aus Gründen der einfacheren Interpretation wurden von der Altersvariable 18 Jahre abgezogen (die jüngste Person in der Stichprobe ist 18 Jahre alt). Der Haupteffekt gibt also den erwarteten jährlichen Lohnzuwachs zu Beginn der beruflichen Laufbahn mit 18 Jahren wieder. Gemäß der OLS-Regression beträgt dieser anfängliche Effekt gut 6 Prozent (95 %-Konfidenzintervall: 4 bis 9 Prozent). Gemäß dem MM-Schätzer sind es jedoch nur gerade 3 Prozent (95 %-Konfidenzintervall: 1 bis 5 Prozent). Der flachere Verlauf des Lohnprofils bei den robusten Modellen lässt sich auch gut in den partiellen Residuenplots in Abbildung 6 erkennen. Die Plots geben zudem Aufschluss über den Grund für die starke Krümmung des Effekts bei der Kleinste-Quadrate-Schätzung: In der rechten unteren Ecke (hohes Alter/tiefer Lohn) gibt es zwei Leverage-Ausreißer, die die Kurve stark nach unten ziehen. Es wäre zu prüfen, inwieweit es sich bei den beiden Punkten vielleicht um fehlerhafte Daten handelt. 19
Bei einer Entscheidung zwischen den beiden Modellen wären natürlich auch noch andere Kriterien wie etwa die Modellgüte zu berücksichtigen. Zu Maßen für die Modellwahl im Kontext robuster Regression siehe zum Beispiel Ronchetti (1985).
27 Robuste Regression
737
Das Beispiel verdeutlicht den Nutzen der robusten Regression. Insbesondere der MM-Schätzer scheint aufgrund seiner sehr robusten Eigenschaften problematische Datenkonstellationen, die die Aussagekraft der Resultate klassischer Regressionsverfahren in Frage stellen, erfolgreich identifizieren zu können. Der Prestige-Effekt in der additiven Modellspezifikation erwies sich aufgrund von über den Verlauf der Prestige-Variable zunehmenden positiven Ausreißern als wenig stabil. Bessere Resultate wurden mit einem respezifizierten, multiplikativen Modell erreicht. In diesem Modell zeigte sich jedoch der Alterseffekt als wenig verlässlich. Schwachpunkte eines Regressionsmodells zum Beispiel aufgrund einer problematischen Spezifikation oder aufgrund einflussreicher Ausreißer lassen sich mit robusten Methoden also einfach diagnostizieren.
4 Literaturempfehlungen Eines der aktuellsten Werke zur robusten Statistik stammt von Maronna et al. (2006). Weitere wichtige Grundlagenwerke sind Huber (1981) und Hampel et al. (1986), auf etwas einfacherem Niveau Staudte & Sheather (1990) und mit einem Fokus auf High-Breakdown-Schätzer Rousseeuw & Leroy (1987). Eine frühe Sammlung von Schätzalgorithmen findet sich in Marazzi et al. (1993). Eine Einführung in die robuste Statistik, die sich stark an der Statistiksoftware R orientiert, liefert Wilcox (2005). Die genannten Werke haben in erster Linie Statistiker als Zielpublikum und setzen gute mathematisch-statistische Vorkenntnisse voraus. Eine für praxisorientierte Sozialforscher zugänglichere Einführung und aktuelle Übersicht zur robusten Regression wird durch Andersen (2008) bereitgestellt. Einen einfachen Einstieg können ferner einige Einführungs- und Übersichtstexte wie beispielsweise Berk (1990), Western (1995), Wu (1985) und Fox (2008, Kap. 19) oder etwas anspruchsvoller auch Li (1985) liefern, wobei diese Texte vor allem M- und zum Teil Bounded-Influence-Schätzer behandeln, High-Breakdown-Schätzer jedoch nur am Rande ansprechen. Im vorliegenden Beitrag wurde nur auf das robuste Pendant zur Kleinste-QuadrateRegression eingegangen. Erweiterungen für andere Verfahren existieren und werden in den oben genannten Werken zum Teil behandelt. In Maronna et al. (2006) finden sich beispielsweise Ausführungen zu robusten Methoden für die logistische Regression bzw. für generalisierte lineare Modelle (GLM), für Zeitreihenanalyse und für die Hauptkomponentenanalyse (PCA). Eine gute Referenz für robuste Ansätze im Kontext von GLM, gemischten linearen Modellen, Paneldaten und Ereignisanalyse ist zudem Heritier et al. (2009). Ein Hindernis für die Anwendung von robusten Methoden kann sein, dass diese bislang noch nicht in allen gängigen Statistikprogrammen genügend unterstützt werden. In SPSS sucht man zurzeit beispielsweise noch vergebens nach robusten Regressionsmethoden und auch die offizielle Distribution von Stata unterstützt nur die Quantilsregression und eine etwas spezielle Variante eines M-Schätzers (Befehle qreg und rreg). Implementationen des MM-Schätzers wurden jedoch kürzlich von Verardi & Croux (2009) und Jann (2010) verfügbar gemacht. Gute Unterstützung für
738
Ben Jann
robuste Regression bietet SAS (Prozedur robustreg). Den breitesten und aktuellsten Funktionsumfang findet man jedoch in R (unter anderem das Paket robustbase). Literaturverzeichnis Andersen, R. (2008). Modern Methods for Robust Regression. Thousand Oaks: Sage. Beaton, A. E. & Tukey, J. W. (1974). The Fitting of Power Series, Meaning Polynomials, Illustrated on Band-Spectoscopic Data. Technometrics, 16, 147–185. Berk, R. A. (1990). A Primer on Robust Regression. In J. Fox & J. S. Long (Hg.), Modern Methods of Data Analysis (S. 292–324). Newbury Park: Sage. Buchinsky, M. (1998). The Dynamics of Changes in the Female Wage Distribution in the USA: A Quantile Regression Approach. Journal of Applied Econometrics, 13, 1–30. Croux, C., Dhaene, G., & Hoorelbeke, D. (2003). Robust Standard Errors for Robust Estimators. Center for Economic Studies Discussions Paper Series (DPS) 03.16. Letzter Zugriff 30.05.2010: http://www.econ.kuleuven.be/eng/ew/discussionpapers/Dps03/Dps0316. pdf. Evans, M., Hastings, N., & Peacock, B. (2000). Statistical Distributions. New York: Wiley, 3. Auflage. Fox, J. (2008). Applied Regression Analysis and Generalized Linear Models. Thousand Oaks: Sage, 2. Auflage. Hampel, F. R., Ronchetti, E. M., Rousseeuw, P. J., & Stahel, W. A. (1986). Robust Statistics. The Approach Based on Influence Functions. New York: John Wiley & Sons. Hao, L. & Naiman, D. Q. (2007). Quantile Regression. Thousand Oaks: Sage. Heritier, S., Cantoni, E., Copt, S., & Victoria-Feser, M.-P. (2009). Robust Statistics in Biostatistics. West Sussey: Wiley. Huber, P. J. (1964). Robust Estimation of a Location Parameter. The Annals of Mathematical Statistics, 35, 73–101. Huber, P. J. (1972). The 1972 Wald Lecture. Robust statistics: A Review. The Annals of Mathematical Statistics, 43, 1041–1067. Huber, P. J. (1973). Robust Regression: Asymptotics, Conjectures and Monte Carlo. The Annals of Mathematical Statistics, 1, 799–821. Huber, P. J. (1981). Robust Statistics. New York: Wiley. Jann, B. (2006). Diagnostik von Regressionsschätzungen bei kleinen Stichproben. In A. Diekmann (Hg.), Methoden der Sozialforschung (S. 421–452). Wiesbaden: VS Verlag für Sozialwissenschaften. Jann, B. (2010). Robreg: Stata Module for Robust Regression Estimators. Statistical Software Components S457114, Boston College Department of Economics. Letzter Zugriff 29.03.2010: http://ideas.repec.org/c/boc/bocode/s457114.html. Jasso, G. (1985). Marital Coital Frequency and the Passage of Time: Estimating the Separate Effects of Spouses’ Ages and Marital Duration, Birth and Marriage Cohorts, and Period Influences. American Sociological Review, 50, 224–241. Kahn, J. R. & Udry, J. R. (1986). Marital Coital Frequency: Unnoticed Outliers and Unspecified Interactions Lead to Erroneous Conclusions. American Sociological Review, 51, 734–737.
27 Robuste Regression
739
Koenker, R. (2005). Quantile Regression. New York: Cambridge University Press. Krasker, W. S. & Welsch, R. E. (1982). Efficient Bounded-Influence Regression Estimation. Journal of American Statistical Association, 77, 595–604. Li, G. (1985). Robust Regression. In D. C. Hoaglin, F. Mosteller, & J. W. Tukey (Hg.), Exploring Data Tables, Trends, and Shapes (S. 281–343). New York: John Wiley & Sons. Marazzi, A., Joss, J., & Randriamiharisoa, A. (1993). Algorithms, Routines, and S Functions for Robust Statistics. Pacific Grove: Wadsworth & Brooks/Cole. Maronna, R. A., Martin, D. R., & Yohai, V. J. (2006). Robust Statistics. Theory and Methods. Chichester: Wiley. Maronna, R. A. & Yohai, V. J. (2000). Robust Regression with Both Continuous and Categorical Predictors. Journal of Statistical Planning and Inference, 89, 197–214. Ronchetti, E. M. (1985). Robust Model Selection in Regression. Statistics & Probability Letters, 3, 21–23. Rousseeuw, P. J. (1984). Least Median of Squares Regression. Journal of the American Statistical Association, 79, 871–880. Rousseeuw, P. J. & Hubert, M. (1997). Recent Developments in PROGRESS. In Y. Dodge (Hg.), L1-Statistical Procedures and Related Topics, Lecture Notes – Monograph Series, Band 31 (S. 201–214). Hayward: Institute of Mathematical Statistics. Rousseeuw, P. J. & Leroy, A. M. (1987). Robust Regression and Outlier Detection. New York: John Wiley & Sons. Rousseeuw, P. J. & Van Driessen, K. (2002). Computing LTS Regression for Large Data Sets. Estadistica, 54, 163–190. Rousseeuw, P. J. & Yohai, V. (1984). Robust Regression by Means of S-Estimators. In J. Franke, W. Hardle, & D. Martin (Hg.), Robust and Nonlinear Time Series Analysis. Lecture Notes in Statistics, Band 26 (S. 256–272). Berlin: Springer. Ruppert, D. (1992). Computing S Estimators for Regression and Multivariate Location/ Dispersion. Journal of Computational and Graphical Statistics, 1, 253–270. Salibian-Barrera, M. & Yohai, V. J. (2006). A Fast Algorithm for S-Regression Estimates. Journal of Computational and Graphical Statistics, 15, 414–427. Staudte, R. G. & Sheather, S. J. (1990). Robust Estimation and Testing. New York: John Wiley & Sons. Stefanski, L. A. (1991). A Note on High-Breakdown Estimators. Statistics & Probability Letters, 11, 353–358. Street, J. O., Carroll, R. J., & Ruppert, D. (1988). A Note on Computing Robust Regression Estimates via Iteratively Reweighted Least Squares. The American Statistician, 42, 152–154. Verardi, V. & Croux, C. (2009). Robust Regression in Stata. The Stata Journal, 9, 439–453. Western, B. (1995). Concepts and Suggestions for Robust Regression Analysis. American Journal of Political Science, 39, 786–817. White, H. (1980). A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticity. Econometrica, 48, 817–838. Wilcox, R. R. (2005). Introduction to Robust Estimation and Hypothesis Testing. New York: Elsevier Academic Press, 2. Auflage.
740
Ben Jann
Wu, L. L. (1985). Robust M-Estimation of Location and Regression. Sociological Methodology, 15, 316–388. Yohai, V. J. (1987). High Breakdown-Point and High Efficiency Robust Estimates for Regression. The Annals of Statistics, 152, 642–656. Yohai, V. J., Stahel, W. A., & Zamar, R. H. (1991). A Procedure for Robust Estimation and Inference in Linear Regression. In W. A. Stahel & S. Weisberg (Hg.), Directions in Robust Statistics and Diagnostics, Band II (S. 365–374). New York: Springer.
28 Mehrebenenanalyse mit Querschnittsdaten Wolfgang Langer Martin-Luther-Universität Halle-Wittenberg und Universität Luxembourg
Zusammenfassung. Das seit den frühen 90er Jahren zur Verfügung stehende Mehrebenenmodell dient zur Analyse der Kontextabhängigkeit metrischer Kriteriumsvariablen, wobei es von geklumpten Substichproben ausgeht. So bilden beispielsweise Schüler die Mikro- und ihre Schulen die zugehörigen Makro- oder Kontexteinheit. In Analogie zur Varianzanalyse (ANOVA) untersucht die Mehrebenenanalyse im ersten Schritt, welcher Varianzanteil der Kriteriumsvariablen Y durch die Kontextzugehörigkeit der Befragten erklärbar ist. Im zweiten Schritt schätzt sie die Effekte der Individualmerkmale unter Kontrolle der Kontextzugehörigkeit der Befragten. Dies entspricht dem Vorgehen der klassischen Kovarianzanalyse (ANCOVA). Im dritten Schritt ermittelt sie, ob der Effekt der Individualvariablen systematisch zwischen den Kontexteinheiten variiert. Dies entspricht dem Vorgehen der Kovarianzanalyse mit kontextspezifischen Interaktionseffekten. Unterscheiden sich die Kontexteinheiten hinsichtlich ihrer Mittelwerte von Y systematisch, so erklärt sie im vierten Schritt die Niveauunterschiede zwischen den Makroeinheiten durch die erhobenen Kontextmerkmale. Im fünften Schritt erfolgt dies mit der Variation des Effekts der Individualvariablen zwischen den Kontexteinheiten. Im Vergleich zu den genannten Verfahren bietet die Mehrebenenanalyse folgende Vorteile. Sie ist im Hinblick auf die Anzahl der zu schätzenden Parameter sehr sparsam und kann deshalb eine sehr große Anzahl von Kontexteinheiten berücksichtigen. Zweitens schätzt sie gleichzeitig die unverzerrten Regressionsparameter der Population sowie ihre kontextspezifischen Effekte. Drittens erklärt sie die Variation der Kriteriumsvariablen sowohl innerhalb als auch zwischen den Kontexteinheiten durch die erhobenen Individualund Kontextvariablen.
1 Einführung in das Verfahren Die Grundlagen der Mehrebenenanalyse für hierarchische Datenstrukturen entwickelten Boyd & Iversen (1979) bereits Ende der 70er Jahre. Seit den späten 80er Jahren haben Vertreter verschiedener Fachdisziplinen die Schätzprobleme gelöst und Programme für den Einsatz des Mehrebenenmodells in der praktischen Datenanalyse entwickelt (siehe Bryk et al. 1989; Busing et al. 1994; Hedeker & Gibbons 1996; Longford 1993). In den beteiligten Fachdisziplinen firmiert das Mehrebenenmodell unter verschiedenen Bezeichnungen wie Hierarchisch-Lineares-, Varianzkomponenten- oder Mixed Modell. Dies führte auch dazu, dass zwei verschiedene Notationsformen für die zentralen Gleichungen des Mehrebenenmodells existieren (siehe Abschnitt 2.1). Das multiple lineare Regressionsmodell schätzt auf der Basis einer einfachen Zufallsstichprobe die Parameter der Grundgesamtheit, wobei es annimmt, dass die S. 741–774 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_28, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
742
Wolfgang Langer
Abb. 1: Struktur der Makro-Mikro-Beziehungen im Zweiebenenmodell Vorhersagefehler der Normalverteilung folgen und seriell unabhängig sind (siehe Kapitel 25 in diesem Handbuch). Im Hinblick auf den geschätzten kausalen Effekt einer Variablen unterstellt es implizit, dass er für alle betrachteten Kontexteinheiten identisch ist. Die deutsche PISA 2006-Studie hat nachgewiesen, dass Mädchen in Mathematik eine halbe Kompetenzstufe schlechter abschneiden als Jungen. Das Regressionsmodell nimmt an, dass diese Leistungsdifferenz nicht nur für die Grundgesamtheit, sondern auch für die einzelnen Schulen gilt. Um Homogenitätsannahmen dieser Art zu prüfen, untersucht die angewandte Sozialforschung auf der Basis geklumpter Stichproben das Verhalten oder die Einstellung von Befragten in vorgegebenen Kontexteinheiten wie beispielsweise von Schülern in ihren Schulen, von Angestellten in ihren Unternehmen oder von Einwohnern in ihren Gemeinden. Hierbei bilden erstere die Mikro- oder Ebene-1-Einheiten und letztere die sie umfassenden Makro- oder Ebene-2-Einheiten. Die Mehrebenenanalyse verfolgt fünf Ziele, die sie in aufeinander folgenden Arbeitsschritten realisiert. Erstens untersucht sie die Kontextabhängigkeit der Kriteriumsvariablen. Im Sinne der klassischen Varianzanalyse ermittelt sie zunächst, welcher Varianzanteil der Kriteriumsvariablen durch die Kontextzugehörigkeit des Befragten gebunden wird. Im vorgestellten Beispiel schätzt sie, welcher Varianzanteil der Mathematikleisung durch die Schulzugehörigkeit der Befragten erklärbar ist. Ist dieser Varianzanteil signifikant größer als Null, so untersucht sie zweitens den kausalen Effekt des exogenen Individualmerkmals für die Population, wobei sie die Kontextzugehörigkeit des Befragten explizit kontrolliert. Drittens prüft sie, in welchem Ausmaß der betrachtete kausale Effekt eines Individualmerkmals zwischen den Kontexteinheiten variiert. Das heißt, in welchem Ausmaß die Leistungsdifferenz der Mädchen zwischen den untersuchten Schulen streut. Ist diese Effektvariation nicht signifikant von Null verschieden, so bedürfen zumindest die Niveauunterschiede der Mathematikleisung zwischen den Schulen eines vierten Analyseschritts. In ihm erklärt die Mehrebenenanalyse die Niveauunterschiede der Kriteriumsvariablen zwischen den Kontexteinheiten mit Hilfe der erhobenen Merkmale der Ebene-2-Einheiten. Sie prüft, ob sich die Niveauunterschiede der Mathematikleistung zwischen den Schulen beispielsweise durch die Unterschiede ihrer Ausländer- und Unterschichtanteile vorhersagen lassen. Fünftens verfolgt die Mehrebenenanalyse das Ziel, die Variation der betrachteten Kausalbeziehung zwischen den Kontexteinheiten ebenfalls mit Hilfe der erhobenen Merkmale der Kontexteinheiten zu erklären. Im Beispiel gilt ihr Augenmerk der Erklärung der Variation der geschlechtsspezifischen Leistungsunterschiede zwischen den Schulen durch die erhobenen Kontextmerkmale.
28 Mehrebenenanalyse mit Querschnittsdaten
743
Im Hinblick auf die Kausalstruktur geht die Mehrebenenanalyse davon aus, dass die Effekte der Individual- und Kontextmerkmale linear sind und sich addieren. Die Nichtlinearität eines Effekts lässt sich nur im Rahmen des linear-additiven Modells realisieren, indem beispielsweise für eine unterstellte Parabelform zusätzlich ein quadratischer Term für die exogene Variable eingeführt wird. Bei den betrachteten Makro-Mikro-Beziehungen unterscheiden Snijders & Bosker (1999, S. 11) in der Abbildung 1 zwischen der alleinigen Wirkung des exogenen Kontextmerkmals Z auf Y , einer unabhängig vom exogenen Personenmerkmal X erfolgenden Wirkung von Z auf Y sowie der Moderation der Wirkung des exogenen Personenmerkmals X auf Y durch das Kontextmerkmal Z. Letzteres stellt die eigentliche Wechselwirkung zwischen dem exogenen Individual- und Kontextmerkmal dar und wird im Englischen als cross-level interaction bezeichnet. Hinsichtlich der Messung geht die Mehrebenenanalyse von den folgenden drei Annahmen aus. Erstens erfolgt die Erhebung aller Variablen messfehlerfrei. Eine Trennung von Mess- und Vorhersagefehlern wie im LISREL-Ansatz ist im Mehrebenenmodell nicht möglich (siehe Kapitel 29 in diesem Handbuch). Zweitens fordert es für die Kriteriumsvariable das Messniveau mindestens einer Intervallskala. Drittens berücksichtigt es auf der Mikro- oder Makroebene nominale exogene Variablen mit k Ausprägungen in Form von k − 1 Dummyvariablen mit Null-Eins-Kodierung oder zentrierten Effekten mit Plus-Eins-Minus-Eins-Kodierung. Für die Planung einer eigenen Mehrebenenanalyse benötigt der Forscher den in Abbildung 2 dargestellten Ablaufplan, der die sequentiellen Arbeitsschritte und ihre zugehörigen Modellklassen umfasst. Im Falle einer Exit-Option empfiehlt es sich, aufgrund der hierarchischen Datenstruktur alternativ ein robustes Regressionsmodell mit dem Huber-White-Sandwich-Schätzer der Standardfehler zu verwenden, wie es in Stata implentiert ist1 (siehe Kapitel 27 in diesem Handbuch). Um die einzelnen Analyseschritte der Mehrebenenanalyse zu veranschaulichen, erfolgt ihre Darstellung anhand eines empirischen Beispiels. Es basiert auf einem 260 Schüler in zehn Schulen umfassenden Teildatensatzes der amerikanischen National Education Longitudinal Study (NELS) aus dem Jahre 1988. Ihre Forscher untersuchen auf der Mikroebene, ob der sozioökonomische Status der Eltern die Mathematikleistungen ihrer Kinder in der achten Klasse beeinflusst. Des Weiteren nehmen sie auf der Makroebene an, dass Privatschulen ein deutlich höheres Leistungsniveau als öffentliche Schulen erzielen. Schließlich erwarten sie, dass sich Schulen in privater und öffentlicher Trägerschaft im Hinblick auf ihren Binneneffekt der sozialen Ungleichheit deutlich unterscheiden. Den sozio-ökonomischen Status (SES) operationalisieren sie anhand der Indikatoren des jeweils höchsten Bildungsabschlusses, der Einkommensgruppe sowie der beruflichen Position beider Elternteile. Mit Hilfe der Hauptkomponentenanalyse fassen sie diese drei Indikatoren zu einer z-standardisierten Skala zusammen, die über einen Mittelwert von Null und eine Standardabweichung von Eins verfügt. Zur Veranschaulichung der vorgestellten Forschungshypothesen und ihrer adäquaten Umsetzung im Rahmen der Mehrebenenanalyse dient das Pfadmodell in Abbildung 3. Auf der Mikroebene schätzt es zunächst im Rahmen der Binnen-Kontext-Regression, 1
Siehe Huber (1981); White (1980)
744
Wolfgang Langer !J H IRJN*ST NIUI V O, I
)*NX ST- V&&- "
Ja
)R
Nein (!J H INQIW XJ NIUI V I
'!J H IY# R XSI*RN INIUI
V UI I β Z β*Z
Ja )R
X S β Z-
Nein !J X *R IY XJN IV O I
X S β*Z-
Ja )R
Nein !J X*R IY XJN I I O
Abb. 2: Die fünf Arbeitsschritte der Mehrebenenanalyse
28 Mehrebenenanalyse mit Querschnittsdaten Z.j: Privater vs. öffentlicher Träger
Ebene 2: Schulkontext j
Ebene 1: Schüler i in Schule j
745
Yij: Mathematiktest
Regressionskonstante:
β0j β1j
Xij: SES
Abb. 3: Mehrebenenmodell der NELS 1988-Studie im Englischen als within-context regression bezeichnet, für jede Schule ein eigenes Regressionsmodell, um die kontextspezifische Regressionskonstante (β0j ) und Steigung des sozio-ökonomischen Status (β1j ) zu ermitteln. Auf Makroebene erklärt das Mehrebenenmodell die Variation dieser kontextspezifischen Parameter zwischen den Schulen durch das Kontextmerkmal Privater vs. Öffentlicher Schulträger im Rahmen seiner Zwischen-Kontext-Regression. Letztere wird im Englischen als between-context regression bezeichnet. Für die Umsetzung dieses Mehrebenenmodells benötigt der Forscher die bereits vorgestellten fünf Arbeitsschritte, deren Ergebnisse jeweils in graphischer Form präsentiert werden. Die zugehörigen Formeln der einzelnen Modellklassen werden in Abschnitt 2.1 ausführlich vorgestellt. Im ersten Arbeitsschritt hat der Forscher die Kontextabhängigkeit seiner Kriteriumsvariablen zu bestimmen. In Analogie zur klassischen Varianzanalyse und zur Regressionsanalyse mit k − 1 Kontextdummyvariablen ermittelt er den Varianzanteil der Mathematiktestergebnisse, der durch die Schulzugehörigkeit der Schüler maximal erklärbar ist. Hierzu verwendet er das Random-Intercept-Only-Modell (R-I-O-M), das in Abschnitt 2.1 dargestellt wird. Mit Hilfe seiner Varianzkomponenten, im Englischen random effects genannt, schätzt es die Summen der Abweichungsquadrate zwischen und innerhalb der Schulen. Der Schulkontext erklärt rd. 30 % der Varianz der Testergebnisse, was eindeutig ihre Kontextabhängigkeit belegt. In Abbildung 4 markiert die dicke schwarze Linie den als fixed effect geschätzten Gesamtmittelwert von 49 Punkten, während die dünnen Linien jeweils die als random effect geschätzten Schulmittelwerte darstellen. Im zweiten Arbeitschritt schätzt der Forscher das Random-Intercept-Modell (R-I-M), welches in Analogie zum ANCOVA-Modell der Varianzanalyse die Leistungsunterschiede der Schulen unter Kontrolle des sozio-ökonomischen Status ihrer Schüler ermittelt. Hierfür hätte der Forscher sein bisheriges Regressionsmodell mit den neun Schuldummyvariablen um den sozioökonomischen Status als Kovariate zu erweitern. Im Mehrebenenansatz schätzt das R-I-M den Effekt des sozio-ökonomischen Status als Populationsparameter oder fixed effect, während es gleichzeitig die kontextspezifi-
Wolfgang Langer
65 60 55 50 45 40 35 30
Geschätzter Mathematiktestwert
70
746
-2
-1
0
1
2
Sozio-ökonomischer-Status
65 60 55 50 45 40 35 30
Geschätzter Mathematiktestwert
70
Abb. 4: Geschätzte Gesamt- und Schulmittelwerte des R-I-O-M
-2
-1
0
1
2
Sozio-ökonomischer-Status
Abb. 5: Geschätzte Regressionsgeraden des R-I-M schen Regressionskonstanten als random effect ermittelt. In Abbildung 5 führen diese kontextspezifischen Konstanten jeweils zu einer Parallelverschiebung der Regressionsgeraden, die dem partiellen Kontexteffekt entspricht. Das R-I-M schätzt neben diesen kontextspezifischen auch die Regressionskonstante der Population, die den Verlauf der dicken schwarzen Geraden festlegt. Für die Referenzgruppe mit einem durchschnittlichen sozioökonomischen Status von Null erwartete der Forscher ein Testergebnis von rd. 50 Punkten. Pro Zunahme des sozio-ökonomischen Status um Eins – in diesem Fall eine Standardabweichung – verbessert sich das Testergebnis im Durchschnitt um rd. 5 Punkte. In Abbildung 5 reduzieren sich im Vergleich zu Abbildung 4 die Niveauunterschiede der Schulen deutlich, aber sie sind weiterhin statistisch signifikant, wie der zugehörige Likelihood-Ratio-χ2 -Test belegt.
'
747
'
X *#
28 Mehrebenenanalyse mit Querschnittsdaten
(
(
\*
Abb. 6: Geschätzte Regressionsgeraden des R-I-R-S-M Im dritten Arbeitschritt prüft der Forscher, ob der Effekt der sozialen Ungleichheit zwischen den zehn untersuchten Schulen variiert. Hierfür spezifiziert er das RandomIntercept-Random-Slope-Modell (R-I-R-S-M), welches als weitere Varianzkomponente diejenige des sozio-ökonomischen Status enthält. Hierdurch schätzt das R-I-R-S-M neben den Varianzen der kontextspezifischen Regressionskonstanten und Steigungskoeffizienten deren Kovarianz zwischen den Kontexteinheiten. Um dies im Rahmen des klassische Regressionsmodell zu realisieren, hat der Forscher sein bisheriges Modell um neun schulspezifische Interaktionseffekte zu erweitern. Letztere bildet er durch die Multiplikation der neun Schuldummyvariablen mit dem Schülermerkmal sozioökonomischer Status (SES). In Abbildung 6 ist deutlich zu erkennen, dass sich die zehn Schulen hinsichtlich ihrer Regressionskonstanten unterscheiden. Ihr Y -Achsenabschnitt entspricht jeweils dem Schnittpunkt ihrer dünnen Regressionsgeraden mit der Senkrechten durch den Nullpunkt von SES. Sie erfasst den Erwartungswert des Testergebnisses ihrer Schüler mit einem SES-Wert von Null, der dem durchschnittlichen sozio-ökonomischen Hintergrund entspricht. Eine genaue Betrachtungen der schulspezifischen Regressionsgeraden ergibt, dass sie sich hinsichtlich der Größe ihrer Steigung und ihres Vorzeichens deutlich unterscheiden. In zwei Schulen führt eine Erhöhung des SES nicht zu besseren, sondern zu schlechteren Testergebnissen, während bei den restlichen acht Schulen deutlich die Stärke ihres positiven SES-Anstiegs variiert. Für die Durchschnittsschüler der Grundgesamtheit schätzt das R-I-R-S-M einen Erwartungswert von 51 Punkten. Pro Zunahme des sozio-ökonomischen Status um Eins verbessert sich das Testergebnis um rd. 5 Punkte. In Abbildung 6 entspricht diesem Befund die dicke schwarze Linie. Im vierten Arbeitsschritt fragt sich der Forscher, ob das erhobene Kontextmerkmal geeignet ist, die in Abbildung 6 erkennbaren Leistungsunterschiede der Durchschnittsschüler zwischen den Schulen zu erklären. Hierbei nimmt er zunächst im Sinne von Snijders & Bosker an, dass die exogenen Individual- und das Kontextmerkmale unabhängig voneinander ihre Wirkung auf das Testergebnis entfalten. Im Rahmen der Zwischen-Kontext-Regression fungieren die kontextspezifischen Regressionskonstan-
S]N
^]N
'
X *#
Wolfgang Langer
'
748
(
(
\*
S]N
'
^]N
'
X *#
Abb. 7: Geschätzte Regressionsgeraden des I-as-O-M (fixed effects)
(
(
\*
Abb. 8: Geschätzte Regressionsgeraden des I-S-as-O-M (fixed effects) ten als Kriteriumsvariable, deren Varianz zwischen den Ebene-2-Einheiten durch die exogenen Kontextmerkmale gebunden wird. Diese im Englischen als Intercept-asOutcome-Modell (I-as-O-M) bezeichnete Variante liegt Abbildung 7 zugrunde, wobei das Kontextmerkmal Privater vs. Öffentlicher Schulträger zur Erklärung der Niveauunterschiede der Schulen herangezogen wird. Für die SES-Durchschnittsschüler der öffentlichen Schulen erwartet der Forscher ein Testergebnis von rd. 49 Punkten. Auf den Privatschulen erzielen diese Schüler im Durchschnitt einen um rd. 15 Punkte höheren Testwert. Für die Schüler beider Schulträger erhöht sich gleichermaßen das Testergebnis um etwa 4 Punkte pro Zunahme des sozio-ökonomischen Status um eine Standardabweichung. Im fünften Arbeitsschritt verfolgt der Forscher das Ziel, nicht nur die sich in Abbildung 5 abzeichnenden Leistungsunterschiede der Durchschnittsschüler, sondern
28 Mehrebenenanalyse mit Querschnittsdaten
749
auch den schulspezifischen Effekt des sozio-ökonomischen Status durch das Kontextmerkmal Privater vs. Öffentlicher Schulträger zu erklären. Hierbei nimmt er explizit an, dass das Kontextmerkmal Schulträger den Effekt des sozio-ökonomischen Status im Sinne einer Wechselwirkung zwischen den Ebenen moderiert. Im Rahmen der Zwischen-Kontext-Regression fungieren die kontextspezifischen Steigungskoeffizienten β1j als Kriteriumsvariable, deren Varianz zwischen den Ebene-2-Einheiten durch das Kontextmerkmal erklärt wird. Im Englischen wird diese Variante als Slope-as-OutcomeModell (S-as-O-M) bezeichnet. Beinhaltet die Zwischen-Kontext-Regression die beiden Varianten des I-as-O-M und des S-as-O-M, so handelt es sich in der Terminologie von Kreft (1996) um ein vollständiges Random-Coefficient-Modell (R-C-M). Für die Durchschnittsschüler der öffentlichen Schulen schätzt das Mehrebenenmodell ein Testergebnis von 50 Punkten. Besuchen sie hingegen private Schulen, so erhöht sich Testergebnis um durchschnittlich 14 Punkte, wie in Abbildung 7 am Schnittpunkt ihrer Regressionsgeraden mit der Senkrechten durch den Nullpunkt des sozio-ökonomischen Status erkennbar ist. Richtet sich das Augenmerk auf den Effekt der sozialen Ungleichheit innerhalb der öffentlichen und privaten Schulen, so zeichnet sich eine negative Wechselwirkung zwischen den Ebenen ab. Während in den öffentlichen Schulen eine Erhöhung des sozio-ökonomischen Status der Eltern um eine Einheit zu einer Verbesserung des Testergebnisses um 5 Punkte führt, sinkt das Testergebnis in den Privatschulen um rd. 1 Punkt, wie sich an ihren beiden gegenläufigen Regressionsgeraden in Abbildung 8 deutlich abzeichnet. Im Vergleich zur klassischen Regression bieten die vorgestellten Modelltypen des Mehrebenenansatzes folgende Vorteile. Erstens sind sie hinsichtlich der zu schätzenden Parameteranzahl äußerst sparsam. Ob die Schätzung auf zehn oder tausend Schulen beruht, ändert beim R-I-O-M nichts an der Anzahl von drei benötigten Parametern. Hingegen benötigt das klassische Regressionsmodell für die Schätzung des ANOVAModells mit 1000 Schulen eine Konstante und 999 Steigungskoeffizienten. Bei den R-Iund R-I-R-S-Modellen bleibt die Anzahl von vier bzw. sechs zu ermittelnden Parametern ebenfalls unverändert. Zweitens schätzt das Mehrebenenmodell die Populationsund kontextspezifischen Regressionskoeffizienten unter ausdrücklicher Berücksichtigung der hierarchischen Datenstruktur. Hierbei kontrolliert es die unterschiedlichen Größen der Substichproben sowie die unterschiedliche Präzision der Binnen-KontextRegressionen. Drittens schätzt es unverzerrt die Standardfehler der Populationsschätzer sowie die korrekte Anzahl der Freiheitsgrade von Kontextmerkmalen für den T-Test, wodurch es statistische Fehlschlüsse vermeidet. Viertens ermöglicht es das Mehrebenenmodell, sowohl die Haupteffekte der Personen- und Kontextmerkmale als auch deren Wechselwirkung zwischen Ebenen zu identifizieren.
2 Mathematisch-statistische Grundlagen Um die Mehrebenenanalyse sinnvoll einzusetzen, benötigt der Anwender ein Auswertungsdesign, das neben umfangreichen explorativen Analysen auf der Mikro- und Makroebene die sequentielle Entwicklung und Schätzung von fünf Modellklassen umfasst. Steht dem Anwender kein aus der einschlägigen Literatur abgeleitetes Mehr-
750
Wolfgang Langer
ebenenmodell zur Verfügung, so hat er im Rahmen von explorativen Analysen zunächst auf der Mikroebene zu ermitteln, welche exogenen Ebene-1-Merkmale zur Vorhersage der Kriteriumsvariablen geeignet sind. Anschließend identifiziert er die relevanten Ebene-2-Merkmale für die Vorhersage der Kontextmittelwerte der Kriteriumsvariablen mit Hilfe ökologischer Regressionsanalysen. Gelingt dies für beide Ebenen, so beginnt die Entwicklung der fünf Modellklassen der Mehrebenenanalyse, die jeweils aufeinander aufbauen. Der folgende Abschnitt stellt die einzelnen Klassen der Random-InterceptOnly-, Random-Intercept-, Random-Intercept-Random-Slope-, Intercept-as-Outcomeund Slope-as-Outcome-Modelle vor und erörtet ihre jeweilige Funktion für das integrierte Auswertungsdesign. Da sich an der Entwicklung des Mehrebenenmodells eine Vielzahl von Methodikern verschiedener Fachrichtung beteiligten, existieren unterschiedliche Notationen. Diese Darstellung verwendet diejenige von Raudenbush & Bryk (2002), die ihren Ansatz als Hierarchisch-Lineares Modell (HLM) bezeichnen. Sie unterscheiden ausdrücklich zwischen der Binnen- und Zwischen-Kontext-Regression. Die zentralen Gleichungen beider werden in der Eingleichungsform des Mixed Modells sowie als separate Strukturgleichungen präsentiert. Spezialprogramme wie HLM oder MLwiN spezifizieren das Mehrebenenmodell in der Strukturgleichungsform, während Stata und SPSS die Eingleichungsform der Biostatistik verwenden. Für die Klassen des Hierarchisch-Linearen Modells gelten übergreifend die folgenden Annahmen zu den Residuen der ersten und zweiten Ebene. Erstens sind die Residuen der ersten Ebene normalverteilt, wobei ihre Varianz für alle Einheiten der zweiten Ebene identisch ist. D. .h., die Residuen der ersten Ebene sind homoskedastisch. Zweitens gilt die Normalverteilungsannahme ebenfalls für die Residuen der zweiten Ebene. Der Erwartungswert der zugehörigen Residuen ist Null und entspricht somit dem zugehörigen Populationsschätzer. Die Residuen der zweiten Ebene verfügen über eine gemeinsame Kovarianzmatrix, deren Hauptdiagonale die zugehörigen Varianzen enthält. Ihre Kovarianz erfasst die Nebendiagonale. Raudenbush & Bryk (2002, S. 27) haben für diese spezifische Matrix den Großbuchstaben T eingeführt. Drittens gehen Sie von der Annahme aus, dass die Residuen zwischen den Ebenen nicht miteinander korrelieren dürfen. Für die Schätzung der Populations- und kontextspezifischen Parameter verwenden die Statistikprogramme unterschiedliche Verfahren und Algorithmen. Spezialprogramme wie MLwiN und HLM sowie die Mixed-Regression-Module von SPSS und Stata bieten unterschiedliche Varianten der Maximum-Likelihood-Schätzung an: die Full-Information- (FIML) und die Restricted-Maximum-Likelihood-Methode (REML). Erstere enthält in ihrer Likelihoodfunktion sowohl die festen Regressionsparameter als auch die Varianzkomponenten der Fehlerterme. Bei letzterer beinhaltet sie nur die Varianzkomponenten, aber nicht die Populationsparameter. Sie ermittelt die festen Effekte daher mit Hilfe der Verallgemeinerten-Kleinste-Quadrate-Schätzung (GLS) und setzt sie als bekannte Parameter bei der Schätzung der Varianzkomponenten voraus.
28 Mehrebenenanalyse mit Querschnittsdaten
751
2.1 Die Modellklassen der Mehrebenenanalyse Das Random-Intercept-Only-Modell (R-I-O-M) Im ersten Arbeitsschritt schätzt der Forscher das Random-Intercept-Only-Modell. Hierbei handelt es sich um das einfachste und sparsamste Modell der Mehrebenenanalyse. Seine Hauptfunktion besteht darin, die Kontextabhängigkeit der Kriteriumsvariablen zu bestimmen und das Maximum der Residualvarianz der Binnen-Kontext-Regression zu ermitteln. Dieses Maximum dient später als Vergleichsmaßstab für die Bestimmung der Modellanpassung der Binnenregression. Das R-I-O-M enthält als Populationsschätzer oder fixed-effect nur die Regressionskonstante γ00 und nimmt an, dass sie zwischen den Kontexteinheiten variiert.2 Wie im einfachen Regressionsmodell erfasst die Regressionskonstante β0j den Mittelwert der abhängigen Variablen für den Kontext j. Ihr Residuum u0j wiederum misst die Abweichung des Kontextmittelwerts vom Gesamtmittelwert der Kriteriumsvariablen, während das Residuum der BinnenKontext-Regression rij die Abweichung des Messwerts von Yij des Befragten i im Kontext j von seinem geschätzten Kontextmittelwert erfasst. Seine Spezifikation erfolgt in der Eingleichungsform der Biostatistik, wie sie auch Stata verwendet: Yij = γ00 + u0j + rij .
(1)
Das R-I-O-M zerlegt die Variation der Kriteriumsvariablen Y in ihre zwei Bestandteile, ihre Variation innerhalb der Gruppen als Abweichung des Messwerts des Falls i von seinem Gruppenmittelwert und ihre Variation zwischen den Gruppen als Abweichung des geschätzten Gruppenmittelwerts vom Gesamtmittelwert. Über seine Varianzkomponenten schätzt das R-I-O-M sowohl die Summe der Abweichungsquadrate der Residuen der Binnenregression (σr2ij ) als auch die Summe der Abweichungsquadrate zwischen den Gruppen (σu2 0j ). Dies entspricht exakt dem Vorgehen der klassischen Varianzund Regressionsanalyse. Als Maß zur Bestimmung des Varianzanteils, der durch die Gruppenbildung, genauer gesagt die Kontextzugehörigkeit „erklärt“ wird, verwendet die Mehrebenenanalyse den Intra-Class-Correlation-Koeffizienten ρ. Als Maß der proportionalen Fehlerreduktion ist er analog zum η 2 -Maß der Varianzanalyse und zum Determinationskoeffizient R2 aufgebaut und setzt die geschätzte Variation zwischen den Gruppen ins Verhältnis zur Gesamtvariation: ρ=
σu2 0j σu2 0j + σr2ij
= [0; 1] .
(2)
Der Koeffizient ρ der Intraklassenkorrelation gibt im R-I-O-M an, welchen Varianzanteil der Kriteriumsvariablen die Kontextzugehörigkeit des Befragten maximal erklärt oder bindet. Analog zum F-Test der Varianzanalyse prüft der Likelihood-Ratio-χ2 -Test, ob die geschätzte Variation zwischen den Gruppen (σu2 0j ) signifikant größer als Null ist und somit für die Grundgesamtheit der Kontexteinheiten gilt. Hierfür schätzt er 2
Die γ-Koeffizienten haben zwei Indizes, wobei der erste die Koeffizientennummer der BinnenKontext-Regression und der zweite die exogene Variable der Zwischen-Kontext-Regression bezeichnet.
752
Wolfgang Langer
zusätzlich ein kontextunabhängiges Nullmodell, welches nur die Populationsparameter enthält. Anschließend berechnet er die Prüfgröße als Differenz der Devianzen von Null- und Alternativmodell. Hierbei ergibt sich die Devianz aus der Multiplikation der Log-Likelihood des jeweiligen Modells mit dem Wert minus Zwei. Die Differenz der Devianzen beider Modelle ist approximativ χ2 -verteilt. Die zugehörigen Freiheitsgrade ergeben sich aus der Differenz der geschätzten fixed und random effects von Alternativund Nullmodell. Trägt die Kontextzugehörigkeit weder im Sinne praktischer noch statistischer Signifikanz zur Varianzaufklärung der Kriteriumsvariablen bei, so erübrigt sich die Weiterentwicklung des Mehrebenenmodells. Das Random-Intercept-Modell (R-I-M) Im zweiten Arbeitsschritt schätzt der Forscher das Random-Intercept-Modell, welches alle für die Vorhersage der Kriteriumsvariablen relevanten exogenen Ebene-1-Variablen enthalten sollte. Es schätzt ihre Effekte im Rahmen der Binnenregression unter der Annahme, dass sie nicht zwischen den Kontexten variieren. Daher handelt es sich bei ihnen um Populationsschätzer. Um den Clustereffekt der hierarchischen Datenstruktur bei ihrer Schätzung zu kontrollieren, enthält es als Varianzkomponenten diejenige der kontextspezifischen Regressionskonstanten (σu2 0j ) sowie diejenige der Residuen der Binnenregression (σr2ij ) . Im Rahmen der Zwischen-Kontext-Regression schätzt die Regressionskonstante γ00 den um den Clustereffekt bereinigten Erwartungswert der Kriteriumsvariablen für die Referenzgruppe. Sie besteht aus denjenigen Befragten, deren exogene Merkmale jeweils den Wert Null aufweisen. Sollte der Nullpunkt einer metrischen Ebene-1-Variablen nicht sinnvoll zu interpretieren sein, so empfiehlt es sich, sie zu zentrieren (siehe Abschnitt 2.3). Die Steigung γ10 schätzt den kausalen Effekt des Personenmerkmals X in der Population: Yij = γ00 + γ10 Xij + u0j + rij .
(3)
Random-Intercept-Random-Slope-Modell (R-I-R-S-M) Im dritten Arbeitsschritt schätzt der Forscher das Random-Intercept-Random-SlopeModell (R-I-R-S-M). Seine Funktion besteht darin, zu ermitteln, ob die Effekte der exogenen Ebene-1-Variablen der Binnen-Kontext-Regression systematisch zwischen den untersuchen Kontexteinheiten variieren. Ist dies der Fall, so sind diese Effekte erstens kontextabhängig und zweitens durch die erhobenen exogenen Merkmale der Makroeinheit potentiell erklärbar. Mit Hilfe seiner Varianzkomponenten schätzt das R-I-R-S-M sowohl die Varianz der Effekte der exogenen Ebene-1-Variablen als auch deren Kovarianz zwischen den Kontexteinheiten. Hierfür erhält es ein eigenes Residuum u1j , dass die Abweichung der kontextspezifischen Steigung β1j von der korrespondieren Populationssteigung γ10 erfasst. Analog hierzu ermittelt das Residuum der kontextspezifischen Regressionskonstanten u0j ihre Abweichung von der Konstanten der Populationsschätzung γ00 : Yij = γ00 + γ10 Xij + u1j Xij + u0j + rij .
(4)
28 Mehrebenenanalyse mit Querschnittsdaten
753
Die Interpretation der geschätzten Kovarianz der Effekte zwischen den Kontexteinheiten σ (u0j u1j ) vereinfacht sich für den Anwender erheblich, wenn er anstatt ihrer die entsprechende Korrelation der Effekte betrachtet. Er erhält sie, indem er ihre geschätzte Kovarianz durch das Produkt ihrer beiden Standardabweichungen teilt. Hierbei sollte er sich aber stets vor Augen führen, dass es sich hierbei um die Kovarianz der kontextspezifischen Effekte handelt, die als gemeinsame Kreuzproduktabweichung von den korrespondierenden Populationsschätzern ermittelt wird und durch die Summe der Kontexteinheiten J minus Eins geteilt wird. Daher hängt die inhaltliche Interpretation des Vorzeichens der geschätzten Korrelation stets von der Konkordanz oder Diskordanz der Vorzeichen der entsprechenden Populationsschätzer ab. Sind beide positiv oder beide negativ, so entspricht eine positive Korrelation einer Gleichgerichtetheit der kontextabhängigen Effekte. Haben beide Populationsschätzer aber gegenläufige Vorzeichen, so belegt eine positive Korrelation die Gegenläufigkeit der kontextspezifischen Konstanten und Steigungen. Verfügen beide Populationsschätzer hingegen über dasselbe Vorzeichen, so weist eine negative Korrelation jeweils auf die Umkehrung der kontextspezifischen Effekte hin. Haben aber beide Populationsschätzer entgegensetzte Vorzeichen, so indiziert in diesem Fall eine negative Korrelation der kontextspezifischen Konstanten und Steigung ihre gleiche Ausrichtung bei ihrer Variation zwischen den Kontexteinheiten. Um die dargestellte Kovarianz der kontextspezifischen Effekte auf ihre statistische Signifikanz zu prüfen, eignet sich der bereits vorgestellte Likelihood-Ratio-χ2 -Test. Die im R-I-R-S-M geschätzten Varianzen der kontextspezifischen Effekte der Ebene-1Variablen dienen im eigentlichen Intercept-as-Outcome- und Slope-as-Outcome-Modell als Vergleichsmaßstab für die Modellanpassung der jeweiligen Zwischen-KontextRegression. Das Intercept-as-Outcome-Modell (I-as-O-M) Im vierten Arbeitsschritt schätzt der Forscher das Intercept-as-Outcome-Modell. Variieren die Effekte der exogenen Personenvariablen im R-I-R-S-M nicht systematisch zwischen den Kontexteinheiten, sondern nur die Regressionskonstanten, so eignet sich das Intercept-as-Outcome-Modell (I-as-O-M) zur Erklärung der Niveauunterschiede zwischen den Kontexteinheiten. Da die Regressionskonstanten jeweils den Erwartungswert der Kriteriumsvariablen für die Referenzgruppe erfassen, erklärt das I-as-O-M deren Variation zwischen den Kontexten durch das Kontextmerkmal Z. Das Intercept-as-Outcome-Modell unterstellt, dass die Effekte der exogenen Kontext- und Personenvariablen unabhängig voneinander sind und sich in ihrer Wirkung auf die Kriteriumsvariable addieren: Yij = γ00 + γ01 Z.j + γ10 Xij + u0j + rij .
(5)
Der Populationsschätzer γ00 erfasst als Regressionskonstante im I-as-O-M den Erwartungswert der Kriteriumsvariablen für die Referenzgruppe im Referenzkontext, der durch den Nullwert des Kontextmerkmals Z inhaltlich charakterisiert wird. Sollte sich der Nullpunkt einer metrischen Kontextmerkmals nicht sinnvoll interpretieren lassen, so empfiehlt es sich, dieses Merkmal ebenfalls zu zentrieren (siehe Abschnitt 2.3).
754
Wolfgang Langer
Die Steigung der γ01 beschreibt den unabhängigen Effekt des Kontextmerkmals Z im folgenden Sinne: Um wie viel nimmt der Erwartungswert der Referenzgruppe ab oder zu, wenn das Kontextmerkmal Z um eine Einheit ansteigt. Der Populationsschätzer γ10 erfasst den kausalen Effekt der Ebene-1-Variablen X. Er gibt an, um wie viel die Kriteriumsvariable im Durchschnitt zu- oder abnimmt, wenn das Individualmerkmal sich um Eins erhöht. Die Residuen u0j der zweiten Ebene erfassen nunmehr denjenigen Teil der Abweichung der kontextspezifischen Regressionskonstanten, den das exogene Kontextmerkmal Z nicht erklärt. Das Random-Coefficient-Modell (R-C-M) Im fünften Arbeitsschritt erweitert der Forscher sein bisheriges I-as-O-M zum vollständigen Random-Coefficient-Modell, indem er zusätzlich das Slope-as-Outcome-Modell (S-as-O-M) einführt. Dies ist aber nur dann sinnvoll, wenn im R-I-R-S-M der Effekt der exogenen Personenvariablen β1j ebenfalls systematisch zwischen den Kontexteinheiten variiert. Dieses S-as-O-M erklärt nun die Variation des kontextspezifischen Effekts des Personenmerkmales X durch das exogene Kontextmerkmal Z. Es unterstellt hierbei, dass die exogenen Kontextvariable Z die Wirkung der Personenvariablen X im Kontext j moderiert. Somit entfalten beide nicht mehr unabhängig voneinander ihre Wirkung auf die Kriteriumsvariable, sondern es liegt eine Wechselwirkung der Merkmale X und Z vor, die im Englischen auch als cross-level interaction bezeichnet wird. Um ihre Interpretation zu erleichtern, empfiehlt es sich, sie als getrennte Intercept- und Slope-as-Outcome-Modelle zu formulieren. In der Zwischen-Kontext-Regression der zweiten Ebene ist das Intercept-as-Outcome-Modell definiert als β0j = γ00 + γ01 Z.j + u0j
(6)
und das Slope-as-Outcome-Modell als β1j = γ10 + γ11 Z.j + u1j .
(7)
Auf der ersten Ebene wird eine Binnen-Kontext-Regression durchgeführt: Yij = β0j + β1j Xij + rij .
(8)
Diese getrennte Spezifikation dient lediglich der Übersichtlichkeit. Selbstverständlich kann das R-C-M auch in einer Gleichung ausgedrückt werden. Setzt man (6) und (7) in (8) ein, ergibt sich die Eingleichungsform des Mixed Modells: Yij = γ00 + γ01 Z.j + γ10 Xij + γ11 Z.j Xij + u1j Xij + u0j + rij .
(9)
Der Populationsschätzer γ00 erfasst als Regressionskonstante im I-as-O-M den Erwartungswert der Kriteriumsvariablen für die Referenzgruppe im Referenzkontext. Letzterer wird aus inhaltlicher Sicht erneut durch den Nullwert des Kontextmerkmals Z definiert. Der Populationsschätzer γ01 gibt an, um wie viel der Erwartungswert der Referenzgruppe im Durchschnitt steigt oder fällt, wenn das Kontextmerkmal Z genau um Eins zunimmt. Im I-as-O-M erfasst der Populationsschätzer γ10 den
28 Mehrebenenanalyse mit Querschnittsdaten
755
Erwartungswert für den Effekt des Ebene-1-Merkmals X im Referenzkontext und dient als Referenzeffekt von X. Hingegen erfasst der Populationsschätzer γ11 die Wechselwirkung zwischen dem Ebene-1-Merkmal X und dem Ebene-2-Merkmal Z. Er gibt Auskunft darüber, wie stark der Effekt von X auf Y durch Z moderiert wird. Um wie viel nimmt der Effekt des Individualmerkmals X auf Y ab oder zu, wenn das Kontextmerkmal Z um Eins ansteigt. Im I-as-O-M erfasst das Residuum u0j den Teil der kontextspezifischen Regressionskonstanten β0j , der nicht durch das Kontextmerkmal Z erklärt wird. Analog hierzu bildet das Residuum u1j denjenigen Teil der kontextspezifischen Steigung β1j ab, der nicht durch das Kontextmerkmal Z gebunden wird. In der Eingleichungsnotation des Mixed Modells zeigt sich in Formel (9), dass dieses Residuum direkt abhängig ist von den Messwerten des Merkmals X. Deshalb ist das Mehrebenenmodell im Hinblick auf die Residuen der kontextabhängigen Steigungen per Definition heteroskedastisch. Der Schätzer rij erfasst die gemeinsame Residualvariation der Binnen-Kontext-Regression. 2.2 Beurteilung der Anpassung des Mehrebenenmodells Die Anpassung des Mehrebenenmodells ist zunächst separat für die Binnen-Kontextsowie die Zwischen-Kontext-Regression zu bestimmen. Anschließend werden Maße zur Beurteilung der Gesamtanpassung des Modells vorgestellt. Ausgehend von der Logik der proportionalen Fehlerreduktion entwickelten Raudenbush & Bryk (2002, S. 74) für die Bestimmung der Modellanpassung der BinnenKontext-Regression das folgende Ebene-1-PRE-R2 , welches für das R-I-M und alle höheren Modelle die durch die einbezogenen exogenen Personenvariablen bewirkte Fehlerreduktion ermittelt. Als Vergleichsmaßstab oder Fehlermenge E1 dient die im RI-O-M geschätzte maximale Residualvariation (σr2ij RIOM), wobei die Residualvarianz des R-I-M (σr2ij RIM) die Fehlermenge E2 bildet. Sie berechnen die Differenz der Residualvariationen von R-I-O-M und R-I-M und setzen letztere ins Verhältnis zu derjenigen des R-I-O-M. Hierdurch ermitteln sie die durch die exogenen Personenmerkmale erzielte Varianzaufklärung der Kriteriumsvariablen im Bereich der Binnen-Kontext-Regression. Ihr Ebene-1-PRE-R2 ist approximativ auf den Wertbereich [0; 1] beschränkt. Negative Werte weisen auf eine schwerwiegende Fehlspezifikation der Binnen-Kontext-Regression hin.
B&R-Ebene-1-PRE-R2 =
σr2 (RIOM) − σr2ij (RIM) E1 − E 2 ≈ [0; 1] = ij E1 σr2ij (RIOM)
(10)
Die Frage, ob diese Fehlerreduktion auch für die Grundgesamtheit gilt, lässt sich mit Hilfe des partiellen Likelihood-Ratio-χ2 -Tests beantworten. Vorausgesetzt, dass R-I-M und R-I-O-M mit dem Full-Information-Maximum-Likelihood-Verfahren geschätzt werden, ist die Differenz ihre Devianzen ebenfalls χ2 -verteilt, wobei die Anzahl der Freiheitsgrade der Anzahl der exogenen Personenmerkmale der Binnen-Kontext-Regression entspricht. Die zugehörige Nullhypothese behauptet, dass die Effekte der im R-I-M zusätzlich enthaltenen exogenen Variablen in der Grundgesamtheit Null sind. Im Falle,
756
Wolfgang Langer
dass die geschätzte Irrtumswahrscheinlichkeit höchstens fünf Prozent betragen sollte, ist die zugehörige Nullhypothese zu werfen, ansonsten beizubehalten. Raudenbush & Bryk (2002, S. 85) verallgemeinern ihr PRE-R2 für alle kontextabhängigen Regressionskoeffizienten der zweiten Ebene. Daher eignet es sich für die Varianzzerlegung sowohl der kontextspezifischen Regressionskonstanten β0j als auch des Steigungskoeffizienten β1j der Binnen-Kontext-Regression. Es ermittelt das Ausmaß der durch die Einbeziehung der exogenen Kontextmerkmale erzielten Fehlerreduktion. Als Vergleichsmaßstab dient die im R-I-R-S-M frei geschätzte Zwischen-KontextVarianz des betrachteten Regressionskoeffizienten βkj im Sinne der Fehlermenge E1 . Die zugehörige Fehlermenge E2 bestimmen sie über die im Intercept- oder Slopeas-Outcome-Modell geschätzte Residualvarianz des betrachteten Koeffizienten. Sie bilden erneut die Differenz beider Fehlermengen und setzen sie ins Verhältnis zur Fehlermenge E1 . Dieses Ebene-2-PRE-R2 ist in der Regel auf den Wertebereich von Null bis Eins begrenzt und nimmt nur in Ausnahmefällen negative Werte an, wie Kreft & De Leeuw (1998) und Snijders & Bosker (1999) übereinstimmend gezeigt haben. Negative Werte des Bryk & Raudenbush-PRE-R2 s zeigen, dass der entsprechende Teil der Zwischen-Kontext-Regression fehlspezifiziert ist. Dies weist zumeist daraufhin, dass das entsprechende Intercept- oder Slope-as-Outcome-Modell entweder keine bedeutsamen Prädiktoren auf der Makroebene enthält oder deren Multikollinearität so hoch ist, dass es zu einer verzerrten Schätzung kommt:
B&R-Ebene-2-PRE-R2 =
σu2 (RIRS) − σu2 kj (ISasOM) E1 − E2 = kj ≈ [0; 1] . E1 σu2 kj (RIRS)
(11)
Für die Beurteilung des Gesamtmodells stehen die von McFadden und Maddala entwickelten Anpassungsmaße zur Verfügung. Beide gehen von einem kontextunabhängigen Nullmodell aus, dass nur die Regressionskonstante als Populationsschätzer enthält. Des Weiteren setzen sie voraus, dass das Alternativmodell ebenfalls mit Full-InformationMaximum-Likelihood geschätzt wird. Beide sind auf den Wertebereich von Null bis Eins begrenzt. Das von McFadden (1978) vorgeschlagene Pseudo-R2 beruht ebenfalls auf dem Prinzip der proportionalen Fehlerreduktion, wobei es die Devianz oder LogLikelihood des Alternativmodells ins Verhältnis setzt zu derjenigen des Nullmodells. Es gibt Auskunft über die durch die einbezogenen exogenen Ebene-1- und Ebene-2Variablen erzielte proportionale Reduktion der Fehlersumme. Für die Interpretation seines Bestimmtheitsmaßes formultiert McFadden (1978, S. 307) als Daumenregel, dass ein Pseudo-R2 zwischen 0,2 und 0,4 einer exzellenten Modellanpassung entspricht: McFadden-Pseudo-R2 = 1 −
DevianzMA DevianzM0
=1−
log LMA log LM0
= [0; 1] .
(12)
Für die Beurteilung der Gesamtmodellanpassung im Sinne der praktischen Signifikanz eignet sich das von Maddala (1986, S. 39) entwickelte Maximum-Likelihood-R2 besser als dasjenige von McFadden, da es im Gegensatz zu letzterem deutlich realistischere Werte annimmt. Für das Maddala-ML-R2 haben Long & Freese (2006, S. 10) die
28 Mehrebenenanalyse mit Querschnittsdaten
757
folgende Umformung auf der Basis der Likelihood-Ratio-χ2 -Prüfgröße vorgeschlagen, die seine Berechnung im Vergleich zur Likelihood (L)-basierten Version deutlich vereinfacht:
Maddala −
2 RML
2 L(M0 ) nij =1− L(MA ) −(−2(log LM0 − log LMA )) = 1 − exp nij + , −Likelihood-Ratio-χ2MA = 1 − exp = [0; 1] . nij
(13)
Die für die Berechnung beider Bestimmtheitsmaße benötigte Log-Likelihood (log L) des kontextunabhängigen Nullmodells erhält der Anwender, wenn er mit Hilfe des xtmixed-Befehls von Stata das R-I-O-M schätzt.3 2.3 Zentrierung metrischer Prädiktoren und ihre Bedeutung für die Interpretation Da bei der Mehrebenenanalyse alle Effekte der exogenen Ebene-1- und Ebene-2Variablen als Abweichung vom Erwartungswert der jeweiligen Regressionskonstanten geschätzt werden, spielt die Zentrierung metrischer Merkmale eine wichtige Rolle. Mit ihrer Hilfe definiert der Anwender die Referenzgruppe der Binnen-KontextRegression, gegen deren Erwartungswert die Effekte der exogenen Ebene-1-Variablen als Abweichung getestet werden. Mit ihrer Hilfe legt er ebenfalls im Rahmen der Zwischen-Kontext-Regression den Referenzkontext fest, gegen dessen Erwartungswert für den zugehörigen Effekt der Binnenregression βkj die Effekte der exogenen Ebene-2Variablen als Abweichung ermittelt werden. Hierfür steht die Zentrierung am Gesamtoder Gruppenmittelwert zur Verfügung. Grand-Mean-Zentrierung Der Schwerpunkt der Betrachtung liegt zunächst auf Zentrierung am Gesamtmittelwert, im Englischen grand-mean centering genannt. Hierbei wird vom Messwert der exogenen ¯ .. ) abgezogen. Diese lineare TransforEbene-1-Variablen X ihr Gesamtmittelwert (X mation verändert nicht die Varianz des betrachteten Personenmerkmals, sondern sie verschiebt nur den Schwerpunkt der Verteilung in den Nullpunkt der grand-meanzentrierten Variablen. Daher beeinflusst sie auch nicht die Schätzung der Steigung β1j . Analog hierzu erfolgt die Zentrierung der metrischen exogenen Ebene-2-Variablen Z, wobei von ihren Messwerten der Mittelwert der Kontexteinheiten (Z¯. ) abzuziehen ist. Diese Vorgehensweise verankert die Schätzung des Mehrebenenmodells an der durchschnittlichen Referenzgruppe im Durchschnittskontext. Die Regressionskonstante β0j 3
Die zugehörige Log-Likelihood dieses kontextunabhängigen Nullmodells speichert Stata intern im e(ll_c)-Container. Seinen Inhalt liest der Anwender mit dem ereturn-listBefehl aus.
758
Wolfgang Langer
der Binnen-Kontext-Regression erfasst nunmehr den Erwartungswert der allgemeinen Durchschnittsgruppe von X im Kontext j. Betrachtet man das Regressionsmodell in der Mehrgleichungsform, gilt für die erste Ebene ¯ .. ) + rij , Yij = β0j + β1j (Xij − X
(14)
wobei sich die Erwartungswerte durch ¯ .. ) = 0) = E(Y.j |Xij = X ¯ .. ) und β0j = E(Y.j |(Xij − X β1j = E(ΔY.j |ΔXij = +1) ergeben. Durch die zusätzliche Zentrierung der exogenen Ebene-2-Variablen Z an ihrem Mittelwert der Kontexteinheiten, ändert sich die Interpretation der Regressionskonstanten γ00 des I-as-O-M derart. Sie erfasst jetzt den Erwartungswert der Kriteriumsvariablen Y der allgemeinen Durchschnittsgruppe von X im Referenzkontext, der durch den Mittelwert der Kontextvariablen Z gekennzeichnet wird – der so genannte Durchschnittskontext. Damit gilt für den Intercept, dass β0j = γ00 + γ01 (Z.j − Z¯. ) + u0j ,
(15)
und für die Erwartungswerte ¯ .. ∧ Z.j = Z¯. ) und γ00 = E(β0j |(Z.j − Z¯. ) = 0) = E(Y.j |Xij = X γ01 = E(Δβ0j |ΔZ.j = +1) . Durch die zusätzliche Zentrierung der exogenen Ebene-2 Variablen Z an ihrem Mittelwert der Kontexteinheiten ändert sich die Interpretation der Regressionskonstanten γ10 des S-as-O-M ebenfalls. Sie erfasst nunmehr den Erwartungswert des Effekts der exogenen Ebene-1-Variablen X im Referenzkontext, der durch den Mittelwert der Kontextvariablen Z gekennzeichnet wird – den Referenzeffekt von X im Durchschnittskontext. Der Slope ist folglich β1j = γ10 + γ11 (Z.j − Z¯. ) + u0j
(16)
mit den zugehörigen Erwartungswerten ¯ .. ) = +1 ∧ Z.j = Z¯. ) und γ10 = E(β1j |(Z.j − Z¯. ) = 0) = E(ΔY.j |Δ(Xij − X γ11 = E(Δβ1j |ΔZ.j = +1) . Group-Mean-Zentrierung Die in der Literatur als Alternative diskutierte Zentrierung am Gruppenmittelwert ist nur für die Binnen-Kontext-Regression zulässig. Hierbei erfolgt die Zentrierung der ¯ .j ). Sie metrischen Ebene-1-Variablen X an ihrem jeweiligen Kontextmittelwerte (X verankert die Schätzung am jeweiligen Kontext- oder Gruppenmittelwert, wodurch die Regressionskonstante β0j den Erwartungswert für Y jeweils am Mittelwert von X im
28 Mehrebenenanalyse mit Querschnittsdaten
759
Kontexts j erfasst. Hingegen ändert sich die Interpretation der kontextspezifischen Steigung β1j nicht. Sie erfasst den unverzerrten Binnenkontexteffekt der Level-1Variablen X. Dies ist selbst dann der Fall, wenn das Modell im Bereich der ZwischenKontext-Regression fehlspezifiziert ist (siehe Ditton 1998, S. 94). Betrachtet man auch hier die Zweigleichungsform des Mehrebenenmodells, ergibt sich auf der ersten Ebene ¯ .j ) + rij Yij = β0j + β1j (Xij − X
(17)
mit Erwartungswerten ¯ .j ) = 0) = E(Y.j |Xij = X ¯ .j ) und β0j = E(Y.j |(Xij − X β1j = E(ΔY.j |ΔXij = +1) . Um den kontextuellen Effekts der Variablen X zu erhalten, muss die Zwischen-Kontext¯ .j ) als exogene Ebene-2-Variable enthalRegression den Kontextmittelwert von X (X ten. Hierdurch lassen sich beispielsweise der Individual- und der Kontexteffekt des sozio-ökonomischen Status (SES) in Bezug auf das Leistungsvermögen der Schülers vollständig voneinander trennen. Ersterer misst bezogen auf den Durchschnittsschüler der Schule j die mit einem Anstieg des SES um Eins erwartete Verbesserung des Testergebnisses, während letzterer den Effekt der sozialen Segregation zwischen den Schulen erfasst. Um sinnvolle Erwartungswerte für ihre Populationsschätzer γ01 und γ10 zu erhalten, empfiehlt es sich, den Kontextmittelwert von X am Mittelwert der ¯ zu zentrieren. So erhält man für den Intercept Kontextmittelwerte (X) ¯ )+u ¯ .j − X β0j = γ00 + γ01 (X . 0j
(18)
β1j = γ10 .
(19)
und für den Slope Die Erwartungswerte sind damit als ¯ ) = 0) = E(Y |X = X ¯ ), ¯ .j − X γ00 = E(β0j |(X . .j ij . ¯ ¯ γ = E(Δβ |Δ(X − X ) = +1) und 01
γ10
0j
.j
.
¯ .j ) = +1) = E(ΔY.j |Δ(Xij − X
spezifiziert. Die Group-Mean-Zentrierung beeinflusst die Populationsschätzer der ZwischenKontext-Regression vor allem im Bereich des Intercept-as-Outcome-Modells. Seine Regressionskonstante γ00 erfasst den Erwartungswert für die Kriteriumsvariable Y am Mittelwert der Kontextmittelwerte von X. Der Populationsschätzer γ01 erfasst als reiner Kontexteffekt, um wie viel der Erwartungswert dieser speziellen Referenzgruppe zu- oder abnimmt, wenn der Kontextmittelwert von X um Eins ansteigt. Hingegen ermittelt der feste Koefffizient γ10 den reinen Individualeffekt von X. Er gibt an, um wie viel sich Y im Kontext j ändert, wenn die Ebene-1-Variable X um eine Einheit zunimmt. Raudenbush & Bryk (2002, S. 139 ff.) definieren den kompositionellen Effekt (βc ) einer Variablen X als Differenz ihrer Kontext- (βb ) und Individualeffekte (βw ).
760
Wolfgang Langer
Ist diese Differenz signifikant von Null verschieden, so übt das Merkmal X in seiner aggregierten Form einen eigenständigen Effekt auf die Kriteriumsvariable aus. Im vorgestellten Beispiel entspricht dies einem unabhängigen Effekt der sozialen Segregation zwischen den Schulen, der über denjenigen der sozialen Unterschiede innerhalb der Schulen hinausgeht. Dieser kompositionelle Effekt lässt sich direkt schätzen, wenn anstatt der Group-Mean- die Grand-Mean-Zentrierung der Variablen X in Formel (17) verwendet wird. Der Populationsschätzer γ01 in Formel (18) ermittelt dann direkt den kompositionellen Effekt von X und ermöglicht hierdurch seinen direkten Signifikanztest. Aus inhaltlicher Sicht prüft der Test dann, ob die soziale Segregation zwischen den Schulen einen eigenständigen Kontexteffekt auf das Leistungsniveau der Schüler ausübt. Kreft et al. (1995) zeigen, dass Mehrebenenmodelle mit ursprünglicher Metrik und Grand-Mean-zentrierten Variablen äquivalent zu einander sind. Das heißt, ihre festen Effekte sind bis auf die Konstante identisch und ihre Varianzkomponenten ineinander überführbar. Hingegen ist dies bei Mehrebenenmodellen mit Group-Mean-Zentrierung nicht der Fall. Daher empfehlen sie, anstatt blind auf die eine oder andere Zentrierungsform zu vertrauen, sich von inhaltlichen Entscheidungen leiten zu lassen. Gilt es aus inhaltlicher Sicht einen kontextuellen Effekts zu identifizieren, so gewährleistet ihres Erachtens nur die Group-Mean-Zentrierung seine klare Trennung vom Individualeffekt, wenn der Gruppenmittelwert als Ebene-2-Prädiktor verwendet wird. Liegt hingegen das Forschungsinteresse auf der Identifikation von Individualeffekten, so adjustiert nur die Grand-Mean-Zentrierung sie im Sinne des ANCOVA-Modells. Aus technischer Sicht haben beide Arten der Zentrierung drei entscheidende Vorteile. Erstens beseitigen sie die Multikollinearität zwischen Individual- und aus ihnen aggregierten Kontextvariablen. Zweitens reduzieren sie im R-I-R-S-M deutlich die Kovarianz zwischen der kontextspezifischen Konstanten und Steigung. Drittens beschleunigen sie die iterative Schätzung der Modellparameter, da sie direkt vom Schwerpunkt der multivariaten Verteilung ausgehen. 2.4 Standardisierung der kontextspezifischen und Populationsschätzer Komplexere Mehrebenenmodelle enthalten sowohl bei der Binnenkontext- als auch der Zwischen-Kontext-Regression zumeist mehr als zwei exogenen Ebene-1- und Ebene2-Variablen. Ist ihr Messniveau metrisch, so stellt sich stets die Frage nach der Vergleichbarkeit ihrer Effekte, da sie oftmals unterschiedliche Maßeinheiten haben. Die kontextspezifischen und die Populationsschätzer des Mehrebenenmodells schätzen aber nur die zu erwartende durchschnittliche Änderung der Kriteriumsvariablen, wenn die entsprechende exogene Variable um eine Maßeinheit ansteigt. Das Problem der Vergleichbarkeit thematisieren zwar eine Reihe von Autoren, ohne aber selbst konkrete Lösungsvorschläge anzubieten. Einen Ausweg aus diesem Dilemma eröffnen Long & Freese (2006, S. 96) mit ihren Arbeiten zur semi- und vollständigen Standardisierung partieller Steigungskoeffizienten. Da das Mehrebenenmodell die Steigungskoeffizienten der Binnen-Kontext-Regression nur indirekt über deren Varianzkomponenten schätzt, entziehen sie sich einer nachträglichen Standardisierung. Sie muss daher vor der Schätzung erfolgen. Daher hat der Anwender die entsprechende Ebene-1-Variable anhand ihres Grand-Mean und ihrer Standardabweichung der für die Schätzung
28 Mehrebenenanalyse mit Querschnittsdaten
761
verwendeten Stichprobe zu z-standardisieren. Hierdurch ändert sich die Interpretation der Koeffizienten im Sinne ihrer Erwartungswerte. Die Binnen-Kontext-Regression ist nun spezifiziert als ¯ .. Xij − X Yij = β0j + β1j + rij , (20) sX.. wobei für die Erwartungswerte gilt, dass ¯ .. Xij − X ¯ .. ) und = 0) = E(Y.j |Xij = X sX.. = E(ΔY.j |ΔXij = +1sx.. ) .
β0j = E(Y.j | β1j
Die kontextspezifische Regressionskonstante β0j erfasst weiterhin den Erwartungswert der Kriteriumsvariablen im Kontext j für die allgemeine Durchschnittsgruppe. Hingegen bezieht sich die durch den Steigungskoeffizienten β1j geschätzte Änderung der Kriteriumsvariablen auf eine Zunahme des exogenen Ebene-1-Variablen X um eine ganze Standardabweichung. Der zugehörige t-Test prüft nun, ob die Zunahme um eine Standardabweichung zu einer signifikanten Änderung der Kriteriumsvariablen in der Grundgesamtheit führt. Durch diese direkte Semistandardisierung lassen sich die Effekte metrischer Merkmale direkt miteinander vergleichen, da sie sich auf dieselbe relative Einheitsänderung beziehen. Für Dummyvariablen aber verbietet sich diese Form der Standardisierung, da sie bezogen auf die Kriteriumsvariable den Gruppenunterschied beispielsweise zwischen Frauen und Männern direkt schätzen. Die Konstante ist folglich Z.j − Z¯. β0j = γ00 + γ01 + u0j (21) sZ. mit den Erwartungswerten ¯ .. Z.j − Z¯. Xij − X = 0) = E(Y.j | = 0 ∧ Z.j = Z¯. ) sZ. sX.. ¯ .. ∧ Z.j = Z¯. ) und = E(Y.j |Xij = X Z.j − Z¯. = E(Δβ0j |Δ = +1) = E(Δβ0j |ΔZ.j = +1sZ. ) . sZ.
γ00 = E(β0j |
γ01
Für den Vergleich der Populationsschätzer metrischer Kontextvariablen bietet sich die Semistandardisierung ebenfalls an, um deren Effektstärken miteinander zu vergleichen. Hierbei ist aber zu beachten, dass die Z-Transformation dieser Kontextmerkmale am Grand-Mean der Makroeinheiten (Z¯. ) und deren Standardabweichung (sZ. ) zu erfolgen hat. Hierdurch ändern sich die Interpretation der γ-Koeffizienten des I-asO-M folgendermaßen. Während die Konstante γ00 der Zwischen-Kontext-Regression weiterhin den Erwartungswert der Kriteriumsvariablen der Durchschnittsgruppe im Durchschnittskontext erfasst, schätzt die Steigung γ01 die erwartete Änderung der Kriteriumsvariablen, die durch die Zunahme des Kontextmerkmals Z um eine Standardabweichung bewirkt wird. Folglich ergibt sich der Slope als
762
Wolfgang Langer
β1j = γ10 + γ11
Z.j − Z¯. + u1j . sZ.
(22)
Die zugehörigen Erwartungswerte sind ¯ .. Z.j − Z¯. Xij − X = 0) = E(ΔY.j |Δ = +1 ∧ Z.j = Z¯. ) und sZ. sX.. Z.j − Z¯. = E(Δβ1j |Δ = +1) = E(Δβ1j |ΔZ.j = +1sZ. ) . sZ.
γ10 = E(β1j | γ11
Im S-as-O-M erfasst die Regressionskonstante γ10 jetzt den Referenzeffekt der zstandardisierten Ebene-1-Variablen X im Durchschnittskontext, der durch die Mittelwerte der metrischen Kontextvariablen charakterisiert wird. Er gibt an, um wie viel sich die Kriteriumsvariablen ändern, wenn das exogene Ebene-1-Merkmal X um 1 Standardabweichung im Referenzkontext zunimmt. Hingegen erfasst die zugehörige Regressionskonstante γ11 die Wechselwirkung der z-standardisierten Individual- und Kontextmerkmale. Um wie viel nimmt der standardisierte Effekte des exogenen Individualmerkmals X zu oder ab, wenn das standardisierte Kontextmerkmal Z um eine Standardabweichung steigt. Hierdurch lassen die Effekte metrischer Kontextmerkmale miteinander vergleichen, da sie sich auf den gemeinsamen Maßstab der Standardabweichung beziehen. Ihre t-Tests prüfen, ob der standardisierte Effekt des Kontextmerkmals Z signifikant von Null verschieden ist und somit für die Grundgesamtheit gilt. Hingegen messen die γ-Koeffizienten von Dummyvariablen auf der Kontextebene den jeweiligen Gruppenunterschied im Hinblick auf die Kriteriumsvariable und entziehen sich daher einer Standardisierung. Da es sich bei der Hierarchisch-Linearen Regression um ein linear-additives Modell handelt, gilt die Proportionalitätsannahme auch für die Effekte der exogenen Kontextmerkmale. Daher ist eine nachträgliche Semistandardisierung ihrer zugehörigen Steigungskoeffizienten der Zwischen-Kontext-Regression erlaubt, bei der letztere mit der Standardabweichung des entsprechenden Kontextmerkmals (sZ. ) multipliziert werden. Dies ist aber nur dann zulässig, wenn die Schätzung des Mehrebenenmodells zuvor mit dem z-standardisierten Individual- und dem GrandMean-zentrierten Kontextmerkmal erfolgt ist. Daher sollte der Anwender grundsätzlich metrische Individualmerkmale z-standardisieren, wenn ihre Maßeinheiten nur eine arbiträre Bedeutung haben. 2.5 Besonderheiten des Erhebungsdesigns Hinsichtlich der Stichprobenziehung stellt die Mehrebenenanalyse zwei Forderungen. Erstens sollte es sich bei der Auswahl der Erhebungseinheiten auf der zweiten Ebene um eine einfache oder stratifizierte Zufallsauswahl handeln. Auf der untergeordneten ersten Ebene sind entweder alle Personen zu befragen, oder es ist ebenfalls eine Zufallstichprobe aus diesem Personenkreis zu ziehen. Zweitens schlägt Kreft (1996) vor, lieber mehr Kontexteinheiten und dafür weniger Personen innerhalb dieser zu erheben. Für Schuluntersuchungen formulierte Kreft ihre 30/30-Daumenregel. Sie besagt, dass für eine verlässliche Schätzung mindestens 30 Schulklassen mit jeweils
28 Mehrebenenanalyse mit Querschnittsdaten
763
30 Schülern erforderlich sind, wobei die Klassen selbst nach dem Zufallsprinzip auszuwählen seien. Maas & Hox (2004, S. 135) formulieren auf der Basis ihrer eigenen Monte-Carlo-Simulationsstudien ihre Daumenregel der für die Mehrebenenanalyse benötigte Anzahl von Kontexteinheiten. Liegt das Augenmerk allein auf den Parametern der Populationsschätzung, so genügen bereits 10 Kontexteinheiten, um eine stabile Schätzung zu realisieren. Für die Berechnung der Konfidenzintervalle der Populationsschätzer empfehlen sie ausdrücklich das Bootstrap-Verfahrens nach Efron & Tibshirani (1993), da deren Approximation an die Normalverteilung nicht gewährleistet ist. Liegt das Interesse allein auf den kontextuellen Effekten, so sind mindestens 30 Gruppen erforderlich. Für eine korrekte Schätzung der Standardfehler werden ihres Erachtens mindestens 50 Kontexteinheiten benötigt.
3 Ein Beispiel – Die deutsche PISA 2006 Studie Die Internationale PISA-Studie testete im Jahre 2006 weltweit die Kompetenzen 15-jähriger Schüler in den Bereichen Naturwissenschaften, Mathematik sowie Lesen, wobei die Forscher ihre Fähigkeitsskalen auf einen Mittelwert von 500 und eine Standardabweichung von 100 für die OECD-Staaten normierten. In Deutschland setzten sie ein zweistufiges Stichprobendesign um. Auf der ersten Stufe zogen sie repräsentativ für die Verteilung der 15-jährigen Schüler auf die Bundesländer und Schulformen eine stratifizierte Stichprobe von n.j = 225 Schulen. Auf der zweiten Stufe erfolgte in den allgemein- und berufsbildenden Schulen jeweils eine Zufallsauswahl von 25 bzw. 30 Schülern, wobei sie insgesamt nij = 4891 15-jährige einem zweistündigen Leistungstest unterzogen. Die Studie ist repräsentativ für die Grundgesamtheit der 903.512 Schüler dieser Altersgruppe im Jahre 2006. Dieses Erhebungsdesign generiert eine hierarchische Datenstruktur, wobei der Schüler i die Ebene-1- und die Schule j die Ebene-2-Einheit bilden. Zur Vorhersage des Testwerts in Mathematik (mathes) verwendet das in Abbildung 9 präsentierte Zweiebenenmodell die folgenden exogenen Schüler- und Schulvariablen. Auf der Schülerebene enthält es den Economic, Social & Cultural Status (escs) des Schülers, sein Geschlecht (dgirls), seinen Migrationshintergrund (dikidnat) sowie seine Klassenstufe (gradec9). Beim ESCS-Index handelt es sich um eine Hauptkomponentenskala, die als Indikatoren den sozio-ökonomischen Index der Eltern, ihren höchsten Bildungsabschluss in Schuljahren sowie die Haushaltsausstattung als Wohlstandsindikator verwendet. OECD-weit ist sie auf einen Mittelwert von Null und eine Standardabweichung von Eins normiert, wobei Deutschland mit einem Grand-Mean von 0,31 deutlich über dem OECD-Durchschnitt liegt. Um die Schätzung am nationalen Durchschnitt zu verankern, ist die Grand-Mean-Zentrierung (GMZ) von ESCS (c_escs) erforderlich. Die Geschlechtervariable dgirls misst als Dummyvariable direkt die Leistungsdifferenz zwischen Mädchen und Jungen. Der Migrationshintergrund (dikidnat) vergleicht als Dummyvariable den Leistungsstand von ausländischen Schülern der ersten und zweiten Zuwanderergeneration mit demjenigen ihren deutschen Mitschüler. Die Klassenstufenvariable (gradec9) wird an der Regelklasse Neun zentriert und misst den durchschnittlichen Leistungszuwachs pro Schuljahr. Hierbei entspricht
764
Wolfgang Langer
eine Zunahme von rd. 62 Punkten einer Verbesserung um eine ganze Kompetenzstufe. Die Referenzgruppe setzt sich aus deutschen Jungen der neunten Klasse mit durchschnittlichem sozio-ökonomischen Hintergrund zusammen. Auf der zweiten Ebene enthält das Mehrebenenmodell als exogene Schulvariablen die Schulform sowie die soziale und ethnische Segregation zwischen den Schulen. Letztere werden über den Schulmittelwert des Economic, Social & Cultural Status sowie den Prozentsatz von Schüler mit Migrationshintergrund operationalisiert und am Grand-Mean der Schulen zentriert. Beim Referenzkontext handelt es sich um eine Realschule mit einem durchschnittlichem Ausländeranteil von 15,71 % sowie einem ESCS-Schulmittelwert von 0,25. Die Entwicklung des in Abbildung 9 dargestellten Zweiebenenmodells erfolgt in fünf aufeinander aufbauenden Analyseschritten. Im ersten Schritt wird ein RandomIntercept-Only-Modell (R-I-O-M) geschätzt, um die Bedeutung des Schulkontextes für die Vorhersage des Testergebnisses in Mathematik zu ermitteln. Das RandomIntercept-Modell (R-I-M) ermittelt im zweiten Schritt die Populationsschätzer der vorgestellten exogenen Schülervariablen, wobei es den Clustereffekt kontrolliert. Im dritten Schritt prüft das Random-Intercept-Random-Slope-Modell (R-I-R-S-M), ob die geschätzten Testwerte der Referenzgruppe sowie die Testdifferenz zwischen Migranten und deutschen Jugendlichen systematisch zwischen den Schulen variieren. Im ersten Analyseschritt schätzt das R-I-O-M für die untersuchten Schulen einen Grand-Mean γ00 von 500,21 Punkten im Mathematiktest, der signifikant von Null verschieden ist. Gemäß der Intra-Class-Correlation ρ beträgt die durch den Schul I " M, VM HM H GISU
)J( *RZ
)& )!MY )&]VVM MY
U* U
_
_ Z )J Q Z
)& MY
_(
TZ * *
_'Z
NISKI
I !NISI*I
_
U*I
Abb. 9: Zweiebenenmodell zur Vorhersage der Mathematikkompetenz (PISA 2006)
28 Mehrebenenanalyse mit Querschnittsdaten
765
Tab. 1: Geschätzte Fixed- und Random-Effects der Random-Intercept-Only-, Random-Intercept und Random-Intercept-Random-Slope-Modelle (Standardfehler in Klammern)
Populationsschätzer: Konstante
R-I-O-M
R-I-M
R-I-R-S-M
500,207∗∗∗ (5,273)
513,976∗∗∗ (4,487) 8,623∗∗∗ (0,952) −31,062∗∗∗ (1,532) −18,080∗∗∗ (2,403) 38,059∗∗∗ (1,223)
513,966∗∗∗ (4,513) 8,607∗∗∗ (0,953) −31,139∗∗∗ (1,531) −18,225∗∗∗ (2,638) 38,055∗∗∗ (1,223)
c_escs dgirls dikidnat gradec9 Varianzkomponenten: Varianz der Konstanten
6072,464 (593,521)
4238,954 (419,241)
3279,759 (70,445)
2408,817 (51,767)
Varianz der Steigungen Kovarianz Konstante-Steigung Korrelation Konstante-Steigung Ebene-1-Residuen
4289,04 (428,806) 182,54 (182,543) −161,14 (175,043) −0,182 2390,12 (52,225)
t-Test zweiseitig: ∗∗∗ : p ≤ 0,01; ∗∗ : p ≤ 0,05; ∗ : p ≤ 0,10 n (Schulen) = 225; n (Schüler) = 4563
kontext maximal zu erzieltende Varianzaufklärung rd. 65 % und belegt eindeutig die Abhängigkeit der Testergebnisse vom Schulkontext. Wie dem L.R.χ2 -Test der Varianzkomponenten zu entnehmen ist, gilt die erzielte Varianzaufklärung für die Grundgesamtheit der 15-jährigen Schüler im Erhebungsjahr 2006. Im zweiten Analyseschritt schätzt das R-I-M für die Referenzgruppe der deutschen Durchschnittsjungen in der neunten Klasse einen Mathematikscore von 513,98 Punkten. Eine Erhöhung des ESCS um eine Standardabweichung führt zu einer signifikanten Verbesserung des Testergebnisses um 8,62 Punkte. Im Durchschnitt erzielen Mädchen ein um 31,06 Punkte schlechteres Testergebnis als ihre männlichen Mitschüler. Diesem signifikanten Geschlechterunterschied entspricht eine halbe Kompetenzstufe des Leistungstests. Im Vergleich zu Deutschen realisieren Schüler mit Migrationshintergrund ein um 18,08 Punkte signifikant schlechteres Testergebnis. Im Durchschnitt verbessert sich das Testergebnis pro Klassenstufe um 38,06 Punkte. Dieser signifikante Lerneffekt liegt deutlich über einer halben Kompetenzstufe. Mit Hilfe des Bryk & Raudenbush-Ebene-1-PRE-R2 lässt sich die durch die exogenen Schülermerkmale erzielte Varianzaufklärung der Binnen-Kontext-Regression
766
Wolfgang Langer
Tab. 2: Angaben zur Modellanpassung R-I-O-M LogL M0 LogL MA Wald-χ2 -Test der Populationsschätzer F.G. p L.R.-χ2 -Test der Varianzkomponenten F.G. p Gesamt: Maddala-ML-R2 McFadden-Pseudo-R2 Intra-Class-Correlation Partiell: B & R-Level-1-PRE-R2
−27187,09 −25350,78 − − − 3672,62 1 0,00
R-I-M −24641,08 1665,29 4 0,00 2905,27 1 0,00
R-I-R-S-M −24639,08 1638,66 4 0,00 2909,28 3 0,00
0,5529 0,0675 0,6493
0,6724 0,0936 −
0,6727 0,0937 −
0,0000
0,2656
0,2713
bestimmen. Die vier verwendeten Schülermerkmale erklären rd. 27 % der Leistungsunterschiede innerhalb der untersuchten Schulen. Gemäß dem Wald-χ2 -Test für die Populationsschätzer gilt dieses Ergebnis für die Grundgesamtheit. Die geschätzte Varianzkomponente der Regressionskonstanten zeigt mit einem Wert von 4.238,95, dass die Testergebnisse der Referenzgruppe systematisch zwischen den Schulen variieren, wie der zugehörige Likelihood-Ratio-χ2 -Test in Tabelle 2 für die Grundgesamtheit belegt. Die Gesamtvarianzaufklärung beträgt gemäß dem Maddala-ML-R2 rund 67 %. Im dritten Analyseschritt prüft das R-I-R-S-M zusätzlich, ob der geschätzte Testunterschied zwischen Migranten und Deutschen systematisch zwischen den 225 Schulen variiert. Seine Populationsschätzer der Schülermerkmale weichen nur geringfügig von denjenigen des R-I-M ab und gelten ebenfalls für die Grundgesamtheit. Die Variation der geschätzten Testunterschiede von Schülern mit Migrationshintergrund erfasst die Varianzkomponente der Steigung mit einem Wert von 182,54. Die geschätzte Korrelation der kontextspezifischen Konstanten β0j und Steigung β3j zwischen den Kontexteinheiten beträgt −0,18. Sie besagt, dass je höher der Erwartungswert der Referenzgruppe ist, desto größer ist der negative Testunterschied zwischen den Migranten und ihren deutschen Mitschülern. Für die Darstellung der Variation der kontextspezifischen Schätzer eignet sich besonders das Fehlerbalkendiagramm der geschätzten Residuen u0j und u3j der zweiten Ebene, im Englischen als empirical-bayes-residuals plot (EB-Residual Plot) bezeichnet. Hierfür werden beide im Hinblick auf ihre Größe sortiert und mit ihrem 95 %-Konfidenzintervall gezeichnet. Die Nulllinie der Y-Achse entspricht jeweils dem korrespondierende Populationsschätzer. In Abbildung 10 entspricht sie dem erwarteten Testergebnis der Referenzgruppe und in Abbildung 11 der für die Population geschätzten Testdifferenz der Migranten. In Abbildung 10 zeigt deutlich, wie sehr das erwartete Testergebnis der Referenzgruppe zwischen den Schulen variiert. Die geschätzte Abweichung der Kontextmittelwerte
767
100 0 -100 -200
Random-Effect u0j
200
28 Mehrebenenanalyse mit Querschnittsdaten
Geschätzte Abweichung der Referenzgruppe in Schule j 0
50
100
150
200
Rangplatz
0 -20
Random-Effect u3j
20
40
Abb. 10: EB-Residual Plot des Testergebnis der Referenzgruppe
-40
Geschätzte Abweichung der Testdifferenz in Schule j
0
50
100
150
200
Rangplatz
Abb. 11: EB-Residual Plot der Testdifferenz der Migranten der Referenzgruppe schwankt zwischen −218,08 und +138,38 Punkten um ihren Populationsschätzer von 519,93 Punkten. Hingegen streut die Abweichung der kontextspezifischen Testdifferenz der Migranten lediglich zwischen −18,34 und +14,96 um ihren Populationsschätzer von −18,22 Punkten, wie sich deutlich in Abbildung 11 abzeichnet. Die exogenen Personenvariablen einschließlich ihrer kontextspezifischen Schätzer erklären rd. 27,13 % der Binnenvarianz der Testergebnisse. Die geschätzte Aufklärung der Gesamtvarianz verbessert sich geringfügig auf 67,27 %. Das integrierte Random-Coefficient-Modell (R-C-M) erklärt in seinem Interceptas-Outcome-Teil die Variation der kontextspezifischen Erwartungswerte der Referenzgruppe (β0j ) sowie in seinem Slope-as-Outcome-Teil die Variation der geschätzten Testunterschiede der Migrantenschüler (β3j ).
768
Wolfgang Langer
Die geschätzte Aufklärung der Gesamtvarianz des R-C-M verbessert sich im Vergleich zum R-I-R-S-M auf 69,90 % (siehe Tabelle 5). Um die Anpassung des Intercept-asOutcome- und des Slope-as-Outcome-Modells zu bestimmen, benötigt der Anwender jeweils ein separates Bryk & Raudenbush-Ebene-2-PRE-R2 . Die einbezogenen Kontextmerkmale erklären rd. 82,0 % der Variation des geschätzten Testergebnisses der Referenzgruppe zwischen den Schulen. Bei der geschätzten Testdifferenz der Schüler mit Migrationshintergrund binden sie rund 61 % ihrer Variation zwischen den Schulen. Hingegen erklären die einbezogenen Schülermerkmale rund 27 % der Testunterschiede innerhalb der Schulen. Tabelle 3 fasst die geschätzten Populationsschätzer, Tabelle 4 die zugehörigen Varianzkomponenten sowie Tabelle 5 die Angaben zur Modellanpassung zusammen. Im Intercept-as-Outcome-Modell dient eine Realschule mit einem durchschnittlichem Ausländeranteil von 15,71 % sowie einem ESCS-Schulmittelwert von 0,25 als Referenzkontext. Die Referenzgruppe der deutschen Durchschnittsjungen erzielt in der neunten Klasse ein Testergebnis von 518,93 Punkten. Schüler mit Migrationshintergrund erzielen ein um 10,34 Punkte signifikant niedrigeres Testergebnis als ihre deutschen Mitschüler (dikidnat). Unabhängig vom konkreten Schulkontext erzielen Mädchen ein um 31,61 Punkte signifikant niedrigeren Testwert als ihre männlichen Mitschüler (dgirls). Pro absolvierter Klassenstufe steigt der geschätzte Lerneffekt signifikant um rund 37 Punkte an (gradec9). Besucht die Referenzgruppe hingegen die Sonderschule, so sinkt ihr Testergebnis signifikant um 88,39 Punkte, was fast anderthalb Kompetenzstufen entspricht (dsonder). Auf der Hauptschule sinkt ihr Testwert signifikant um rund 49 Punkte (dhaupt). Hingegen erzielen sie als Gymnasiasten ein um rund 52 Punkte signifikant höheres Testergebnis (dgym). Auf der Gesamtschule sinkt ihr Testscore signifikant um 36,12 Punkte (digs), während er dies in Schulen mit integrierter Haupt- und Realschulstufe nur um 17,56 Punkte tut (dmbg). Auf der privaten Waldorfschule realisiert die Referenzgruppe ein um 48,13 Punkte signifikant schlechteres Testergebnis (dwaldorf). Die Betrachtung der Effekte der sozialen und ethnischen Segregation zwischen den Schulen basiert auf den semistandardisierten Kontexteffekten. Nimmt der Schulmittelwert des ESCS um eine Standardabweichung der Schulen (sZ. = 0,52) zu (smescs), so erhöht sich das Testergebnis der Referenzgruppe signifikant um 16,94 Punkte. Hingegen sinkt es tendenziell um 4,93 Punkte, wenn der Ausländeranteil um eine Standardabweichung der Schulen (sZ. = 17,86) steigt (pctimmig). Das Slope-as-Outcome-Modell erklärt die Variation der geschätzten Testdifferenz der Migrantenschüler zwischen den Schulen durch die bereits vorgestellten Schulmerkmale. Als Referenzeffekt dient die für die Realschule des Referenzkontexts absolute Testdifferenz von 10,34 Punkten (dikidnat). Auf der Sonderschule vergrößert sich diese Testdifferenz tendenziell um weitere 24,96 Punkte. Hingegen erhöht sie sich auf der Hauptschule lediglich um 1,33 Punkte. In Schulen mit integrierter Haupt- und Realschulstufe steigt sie tendenziell um 23,59 Punkte. Hingegen nimmt die Testdifferenz signifikant auf der Berufschule um 36,35 Punkte zu, während sie auf der Waldorfschule ebenfalls signifikant um 87,59 Punkte ansteigt. Nimmt der ESCS-Mittelwert der Schule um eine Standardabweichung zu, so erhöht sich die Testdifferenz der Migrantenschüler zwar um durchschnittlich 6,21 Punkte, ohne aber die Signifikanzgrenze zu erreichen.
28 Mehrebenenanalyse mit Querschnittsdaten
769
Tab. 3: Populationsschätzer der Intercept-as-Outcome- und Slope-as-Outcome-Modelle im vollständigen RC-Modell (Standardfehler in Klammern) I-as-O-M Populationsschätzer: Konstante c_escs dgirls
S-as-O-M
518,926∗∗∗ (4,228) 7,630∗∗∗ (0,956) −31,606∗∗∗ (1,522) dikidnat
gradec9 Schulformen: dsonder dhaupt dgym digs dmbg dberuf dwaldorf smesc(GMZ)
pctimmig(GMZ)
37,109∗∗∗ (1,219) −88,388∗∗∗ (12,102) −48,905∗∗∗ (7,432) 51,790∗∗∗ (6,765) −36,125∗∗∗ (8,390) −17,557∗∗ (8,577) −16,959 (12,720) −48,126∗∗ (21,933) 32,584∗∗∗ (8,031) 16,944a −0,276∗ (0,149) −4,929a
Interaktionseffekte: dikidnat X dsonder dikidnat X dhaupt dikidnat X dgym dikidnat X digs dikidnat X dmbg dikidnat X dberuf dikidnat X dwaldorf dikidnat X smecs (GMZ)
dikidnat X pctimmig (GMZ)
t-Test zweiseitig: ∗∗∗ : p ≤ 0,01; ∗∗ : p ≤ 0,05; ∗ : p ≤ 0,10 n (Schulen) = 225; n (Schüler) = 4563 a
An sz. semi-standardisierte γ-Koeffizienten
−10,343∗∗∗ (4,681)
−24,961∗ (14,376) −1,332 (7,617) −5,531 (8,282) −0,405 (9,399) −23,590∗ (14,330) −36,353∗∗ (15,076) −87,590∗∗ (37,815) −11,939 (9,278) −6,208a −0,299∗ (0,166) −5,340a
770
Wolfgang Langer
Tab. 4: Geschätzte Varianzkomponenten des RC-Modells (Standardfehler in Klammern) Varianzkomponenten: Varianz der Konstanten Varianz der Steigungen Kovarianz Konstante-Steigung Korrelation Konstante-Steigung Ebene-1-Residuen
771,864 (88,668) 71,913 (97,934) −96,755 (76,291) −0,411 2388,756 (52,125)
Tab. 5: Modellanpassung des RC-Modells LogL MA Wald- χ2 -Test der Populationsschätzer F.G. p L.R.-χ2 -Test der Varianzkomponenten F.G. p Global: Maddala-ML-R2 McFadden-Pseudo-R2 Partiell: B & R-Ebene-2-PRE-R2 Konstante B & R-Ebene-2-PRE-R2 Steigung dikidnat B & R-Ebene-1-PRE-R2
−24447,802 2964,29 22 0,00 748,31 3 0,00 0,6990 0,1008 0,8200 0,6060 0,2717
Steigt der Ausländeranteil der Schule um eine Standardabweichung, so nimmt die geschätzte Testdifferenz tendenziell um 5,34 Punkte zu. Diese inhaltlichen Ergebnisse belegen anschaulich die Existenz von bedeutsamen Wechselwirkungen zwischen den exogenen Schüler- und Schulmerkmalen. Sie zeigen für das deutsche Schulsystem folgendes. Erstens prägt die Schulform am stärksten das Leistungsvermögen der Schüler, wobei dies ebenfalls für die Testunterschiede der Migrantenschüler gilt. Zweitens beeinflusst die soziale Segregation zwischen den Schulen die Schülerleistung viel stärker als die sozialen Unterschiede innerhalb des Klassenverbands. Drittens übt die ethnische Segregation keinen eigenständigen Effekt auf die Schülerleistung aus, wenn Schulform und soziale Segregation kontrolliert werden. Diese Befunde belegen eindeutig die Leistungsfähigkeit der Mehrebenenanalyse für die angewandte Bildungsforschung.
28 Mehrebenenanalyse mit Querschnittsdaten
771
4 Häufige Fehler Bei der praktischen Anwendung der Mehrebenenanalyse lassen sich zwei Fehlerarten identifizieren. Zum einem gehören hierzu konzeptionelle Fehler beim Erhebungs- und Auswertungsdesign. Zum anderen führen Fehler bei der technischen Umsetzung dazu, dass der iterative Lösungsalgorithmus nicht konvergiert bzw. verzerrte Schätzer ermittelt. Fehler konzeptioneller Art resultieren zumeist aus einer unzureichenden Beschäftigung mit dem Gegenstandsbereich der Analyse. Oftmals identifizieren Anwender nicht korrekt die für das Handeln ihrer Befragten relevante zweite oder dritte Ebene und wundern sich dann, dass die von ihnen gewählte Kontexteinheit keinen Effekt auf die Kriteriumsvariable ausübt. Familien, Peer Groups, Nachbarschaften oder Schulklassen sind wichtige Institutionen der Sozialisation, die dem einzelnen Befragten sowohl Integration als auch Orientierung bieten. Hingegen verfügen Gemeindegrößenklassen als Kategorien der Sozialstatistik über keinerlei Integrationsfunktion. Sie eignen sich höchstens als exogenen Merkmale der 2. Ebene aber nicht selbst als Kontexteinheiten der Mehrebenenanalyse. Des Weiteren führt das Fehlen eines theoriegeleiteten Modells für die Binnen- und Zwischen-Kontext-Regression oftmals dazu, dass die Datenanalyse nach dem „garbage-in-garbage-out“-Prinzip verfährt. Dies ist aber keine Schwäche des Mehrebenenmodells, sondern allein der konzeptionellen Schwäche des Anwenders geschuldet. Aus technischer Sicht ereignen sich die meisten Fehler bei der Zentrierung der exogenen Variablen sowie der Bildung der für die Interaktionseffekte benötigten Hilfsvariablen. Beides hat der Forscher mit Stata oder SPSS eigenhändig durchzuführen. Hingegen nehmen Spezialprogramme wie HLM oder MLwiN dem Forscher diese Schritte ab, so dass sie zumindest technische Fehler vermeiden. Inhaltliche Fehler wie beispielweise das Vergessen der Zentrierung exogenen metrischer Merkmale oder die Zentrierung von Dummyvariablen wie Geschlecht hat der Anwender aber weiterhin selbst zu verantworten. Ersteres führt dazu, dass die Schätzung an einer „Geistergruppe im Geisterkontext“ verankert wird, während letzteres den Geschlechterunterschied verzerrt ermittelt. Die Verwendung von Anteilswerten als exogene Kontextmerkmale überschätzt den Effekt der entsprechenden Makrovariablen, da die Zunahme um eine Einheit außerhalb ihres definierten Wertebereichs liegt. Daher empfiehlt es sich in diesem Falle, anstatt des Anteilswert den Prozentsatz zu verwenden. Hierbei ermittelt der zugehörige γ-Koeffizient die durch die Zunahme um ein Prozent bewirkte Änderung der Kriteriumsvariablen. Besondere Aufmerksamkeit erfordern die fehlenden Werte von exogenen Ebene-1- und Ebene-2-Merkmalen. Bei exogenen Kontextmerkmalen führen sie dazu, dass die entsprechenden Kontexteinheiten bei der Schätzung des Mehrebenenmodells vollständig gestrichen werden und sich die Anzahl der Makroeinheiten sehr schnell reduziert. Bei den exogenen Ebene-1-Merkmalen führt die Klumpung ihrer fehlenden Angaben in Kontexteinheiten ebenfalls zu deren Verlust. Beispielsweise gibt es in Berufsschulen keine Klassenstufen, so dass sie bei der Schätzung des Lernfortschritts in Mathematik vollständig ausgeschlossen werden. Führt der Forscher trotzdem eine Dummyvariable für diese Schulform in die Modellgleichung ein, so konvergiert der iterative Lösungsalgorithmus nicht. Dies gilt ebenfalls für exogene
772
Wolfgang Langer
Variablen, die in einzelnen Kontexten keine Varianz aufweisen. In reinen Jungen- oder Mädchenschulen variiert das Geschlecht der Schüler nicht, so dass der „Gendereffekt“ nicht kontextabhängig schätzbar ist. Er kann nur als exogenes Schulmerkmal im Sinne einer Differenzierung zwischen Jungen-, Mädchen- und koedukativen Schulen Berücksichtigung finden. Bei der Bestimmung der Effektstärke exogener metrischer Variablen auf der Basis ihrer geschätzten γ-Koeffizienten vergleichen Anwender oft „Äpfel mit Birnen“. Da sie zumeist auf unterschiedlichen Maßeinheiten beruhen, ist ein Vergleich nur auf der Basis ihrer semistandardisierten Koeffizienten möglich. In diesem Fall beziehen sie sich auf dieselbe Metrik im Sinne einer Änderung um eine Standardabweichung. Bei einer metrischen Ebene-1-Variablen muss die Z-Standardisierung aber vor der Schätzung des Mehrebenenmodells erfolgen, da ihr Steigungskoeffizienten im S-as-O-M als Kriteriumsvariable fungiert. Bei der Durchführung hierarchischer Vergleiche zwischen den einzelnen Modelltypen vergessen Anwender häufig, dass der Likelihood-Ratio-χ2 -Test nur dann zulässig ist, wenn die beiden zu vergleichenden Modelle auf derselben Stichprobe beruhen und jeweils mit Full-Information-Maximum-Likelihood geschätzt worden sind. Nur in diesem Fall prüft der Test, ob die durch das umfassendere Modell erzielte Reduzierung der Devianz signifikant größer als Null ist. Des Weiteren sollte sich der Anwender stets vor Augen führen, dass der Signifikanztest eines Populationsschätzers keine Aussagen über seine Effektstärke zulässt. Er prüft lediglich, ob der Stichprobenbefund auf die Grundgesamtheit verallgemeinert werden darf. Seine Anwendung ist für Kontextmerkmale aber nur dann erlaubt, wenn es sich bei den Einheiten der zweiten Ebene um eine Zufallsauswahl aus der zugehörigen Grundgesamtheit handelt. Ein Forscher untersucht beispielsweise anhand der dreißig OECD-Staaten der PISA-2006-Studie, ob auf der Staatenebene eingliedrige Schulsysteme bessere Testergebnisse in Mathematik erzielen als mehrgliedrige. Da es sich bei den OECD-Staaten um die Grundgesamtheit handelt, ist ein t-Test für den Populationsschätzer der zugehörigen Dummyvariablen nicht zulässig. Bei den 27 Partnerländern der PISA-2006-Studie handelt es sich ebenfalls um keine Zufallsstichprobe, sondern um eine reine Selbstselektion. Daher erübrigt sich ebenfalls die Anwendung des t-Tests. Die Modellanpassung der Binnen- und Zwischen-Kontext-Regression sollte im Sinne der praktischen Signifikanz mit den von Bryk & Raudenbush vorgeschlagenen PRE-R2 -Maßen bestimmt und dokumentiert werden.
5 Literaturempfehlungen Aufbauend auf den Arbeiten von Boyd & Iversen (1979) haben Kreft & De Leeuw (1998), Snijders & Bosker (1999), Goldstein (1999) sowie Raudenbush & Bryk (2002) in englischer Sprache sehr informative Einführungen in die Methodik der Mehrebenenanalyse geschrieben. Die letzten drei Autorengruppen decken ebenfalls das Gebiet der Hierarchisch-Verallgemeinerten-Linearen Modelle (HGLM) ab. Sie erlauben es, Logitmodelle für binäre, nominale oder ordinale Kriteriumsvariablen im Mehrebenenansatz zu schätzen. Rabe-Hesketh & Skrondal (2008) führen detailliert in die Schätzung dieser
28 Mehrebenenanalyse mit Querschnittsdaten
773
Modelltypen mit Stata ein, wobei sie ebenfalls Mehrebenenmodelle für Zählvariablen und Verweildauern vorstellen. Hierfür haben Skrondal & Rabe-Hesketh (2004) ihren statistischen Ansatz der Generalized-Linear-Latent-and-Mixed Models entwickelt, dessen Stata-ado-files sie unter der url www.gllamm.org dem interessierten Anwender zur Verfügung stellen. du Toit & du Toit (2008) sowie Heck & Thomas (2009) behandeln ausführlich konfirmatorische Faktoren- und Pfadmodelle im Mehrebenenansatz. Draper (2008) führt detailliert in die bayesianische Schätzung von Mehrebenenmodellen mit Hilfe des Markow-Chain-Monte-Carlo (MCMC)- und des Gibbs-Sampling-Verfahrens ein. Der Spezifikation und Schätzung nichthierarchischer Mehrebenenmodelle widmen sich Rasbash & Browne (2008). Die Anwendung von Resampling-Techniken wie Bootstrap- oder Jackknife-Verfahren stellen van der Leeden et al. (2008) ausführlich vor. Deutschsprachige Einführungen in die Grundlagen der Mehrebenenanalyse haben Ditton (1998) und Langer (2004) verfasst.
Literaturverzeichnis Boyd, L. H. & Iversen, G. R. (1979). Contextual Analysis: Concepts and Statistical Techniques. Belmont: Wadsworth. Bryk, A. S., Raudenbush, S. W., Seltzer, M., & Congdon, R. T. (1989). An Introduction to HLM: Computer Program and User’s Guide. Chicago: Scientific Software International Inc. Busing, F. M. T. A., Meijer, E., & van der Leeden, R. (1994). MLA. Software for MultiLevel Analysis of Data with Two Levels. User’s Guide for Version 1.0b (Computer Software). Leiden: Department of Psychometrics and Research Methodology, Leiden University. Ditton, H. (1998). Mehrebenenanalyse. Grundlagen und Anwendungen des Hierarchisch Linearen Modells. Weinheim: Juventa. Draper, D. (2008). Bayesian Multilevel Analysis and MCMC. In J. de Leeuw & E. Meijer (Hg.), Handbook of Multilevel Analysis (S. 77–139). New York: Springer. du Toit, S. & du Toit, M. (2008). Multilevel Structural Equation Modeling. In J. De Leeuw & E. Meijer (Hg.), Handbook of Multilevel Analysis (S. 435–478). New York: Springer. Efron, B. & Tibshirani, R. (1993). An Introduction to the Bootstrap. New York: Chapman & Hall. Goldstein, H. (1999). Multilevel Statistical Models. London: University of London, Institute of Education, 3. Auflage. Heck, H. H. & Thomas, S. L. (2009). An Introduction to Multilevel Modeling Techniques. New York: Routledge, 2. Auflage. Hedeker, D. & Gibbons, R. D. (1996). MIXREG: A Computer Program for Mixed-Effects Regression Analysis with Autocorrelated Errors. Computer Methods and Programs in Biomedicine, 49, 229–252. Huber, P. J. (1981). Robust Statistics. New York: Wiley. Kreft, I. (1996). Are Multilevel Techniques Necessary? An Overview, Including Simulation Studies. London: Institute of Education, Multilevel Models Project, University of London. Kreft, I. & De Leeuw, J. (1998). Introducing Multilevel Modeling. Newbury Park: Sage.
774
Wolfgang Langer
Kreft, I. G. G., de Leew, J., & Aiken, L. S. (1995). The Effects of Different Forms of Centering in Hierarchical Linear Models. Multivariate Behavioral Research, 30, 1–21. Langer, W. (2004). Mehrebenenanalyse. Eine Einführung für Forschung und Praxis. Wiesbaden: VS Verlag für Sozialwissenschaften. Long, J. S. & Freese, J. (2006). Regression Models for Categorical Dependent Variables Using Stata. College Station: Stata Press. Longford, N. T. (1993). Random Coefficient Models. New York: Oxford University Press. Maas, C. J. M. & Hox, J. J. (2004). Robustness Issues in Multilevel Regression Analysis. Statistica Neerlandica, 58, 127–137. Maddala, G. S. (1986). Limited-Dependent and Qualitative Variables in Econometrics. Cambridge: Cambridge University Press. McFadden, D. (1978). Quantitative Methods for Analysing Travel Behavior of Individuals: Some Recent Developments. In D. Hensher & P. Stopher (Hg.), Behavioral Travel Modelling (S. 279–318). London: Croom Helm. Rabe-Hesketh, S. & Skrondal, A. (2008). Multilevel and Longitudinal Modeling Using Stata. College Station: Stata Press, 2. Auflage. Rasbash, J. & Browne, W. J. (2008). Non-Hierarchical Multilevel Models. In J. De Leeuw & E. Meijer (Hg.), Handbook of Multilevel Analysis (S. 301–334). New York: Springer. Raudenbush, S. W. & Bryk, A. S. (2002). Hierarchical Linear Models: Applications and Data Analysis Methods. Newbury Park: Sage, 2. Auflage. Skrondal, A. & Rabe-Hesketh, S. (2004). Generalized Latent Variable Modeling: Multilevel, Longitudinal and Structural Equation Models. Boca Raton: Chapman & Hall / CRC. Snijders, T. A. B. & Bosker, R. J. (1999). Multilevel Analysis. An Introduction to Basic and Advanced Multilevel Modeling. London: Sage. van der Leeden, R., Meijer, E., & Busing, F. M. T. A. (2008). Resampling Multilevel Models. In J. De Leeuw & E. Meijer (Hg.), Handbook of Multilevel Analysis (S. 401–433). New York: Springer. White, H. (1980). A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticity. Econometrica, 48, 817–838.
29 Strukturgleichungsmodelle Jost Reinecke und Andreas Pöge Universität Bielefeld
Zusammenfassung. Dieser Beitrag führt in die Technik der Strukturgleichungsmodelle ein. Mit Hilfe dieser Modelle können theoretisch hergeleitete Kausalzusammenhänge zwischen (latenten) Variablen anhand von empirischen Daten überprüft werden. Zunächst werden nach einer allgemeinen Einführung die zentralen Begrifflichkeiten geklärt und der Ausgangspunkt der Strukturgleichungsmodelle mit der Pfadanalyse als Verknüpfung mehrerer multipler Regressionsmodelle vorgestellt. Darauf folgt die Unterscheidung zwischen Struktur- und Messebene und damit korrespondierend zwischen latenten und manifesten Variablen. Es wird gezeigt, wie mit Hilfe der konfirmatorischen Faktorenanalyse mehrere Messmodelle simultan geprüft werden können. Daraufhin wird das allgemeine Strukturgleichungsmodell mit latenten Variablen als Verbindung zwischen Pfadanalyse und konfirmatorischer Faktorenanalyse herausgearbeitet und die mathematisch-statistischen Grundlagen erörtert. Abgeschlossen wird der Beitrag mit einem Beispiel, welches ein Strukturgleichungsmodell zur Erklärung von fremdenfeindlichen Einstellungen durch soziale Schicht, vermittelt über Anomia und Kontakthäufigkeit mit Ausländern auf Grundlage der ALLBUS-Daten schrittweise entwickelt und diskutiert.
1 Einführung in das Verfahren Die Verfahren, die eine statistische Modellbildung voraussetzen und unter dem Begriff Strukturgleichungsmodelle1 gefasst werden, ermöglichen strengere Tests formalisierter Hypothesen als andere und meist auch verbreitetere Techniken der multivariaten Datenanalyse, wie die Faktorenanalyse oder Varianzanalyse. Strukturgleichungsmodelle sind insbesondere in den Wissenschaftsbereichen zu verzeichnen, die größere Datenmengen innerhalb quasi-experimenteller oder nicht-experimenteller Designs produzieren. Diese Modelle erlauben es, mehrere Hypothesen gleichzeitig in einer Analyse zu überprüfen. Im Unterschied zu Regressions- und Pfadmodellen (siehe Abschnitt 1.1) kann auch eine Differenzierung zwischen Mess- und Strukturebene vorgenommen werden (siehe Abschnitte 1.2 und 1.3), wobei dann die Überprüfung substanzieller Hypothesen auf der Strukturebene stattfindet (siehe Abschnitt 1.4). Auch wenn hier die Verwendung von Variablen unter der Annahme eines metrischen Skalenniveaus im Vordergrund steht, können prinzipiell Strukturgleichungsmodelle auch mit nominalen und ordinalen 1
Die Analyse von Strukturgleichungsmodellen wird auch als Kovarianzstrukturanalyse bezeichnet. In der zumeist angelsächsischen Lehrbuchliteratur sind auch Bezeichnungen wie Latent Variable Models (Loehlin 2004) üblich.
S. 775–804 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_29, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
776
Jost Reinecke und Andreas Pöge
X1 H
H
H
H
p31
p21
?
p32
X2
HH j X3 * p3e
p2e
eX 3
eX 2
Abb. 1: Pfadmodell mit drei gemessenen Variablen Variablen berechnet werden (siehe die entsprechenden Hinweise in Abschnitt 1.5). Umfassende Einführungen in die Arbeit mit Strukturgleichungsmodellen bieten Bollen (1989), Kaplan (2009), Kline (2005), Loehlin (2004), Reinecke (2005) sowie Schumacker & Lomax (2004). Neben dem „Klassiker“ LISREL (Jöreskog & Sörbom 2004) existieren die Programme AMOS (Arbuckle 2008), EQS (Bentler & Wu 2002), Mplus (Muthén & Muthén 2006) und Mx (Neale et al. 2003). Wegen der weiten Verbreitung der sogenannten LISREL-Notation wird diese ab Abschnitt 1.2 verwendet. Eine Übersicht über die Variablen-, Parameter- und Matrizenbezeichnungen ist im Anhang zu finden. 1.1 Ausgangspunkt: Regressions- und Pfadmodell Inhaltliche Spezifikationen von Beziehungen zwischen unbhängigen und abhängigen Variablen, wie sie aus der multiplen Regressionsanalyse (vgl. Kapitel 24 in diesem Handbuch) bekannt sind, stellen die einfachsten Modellierungsmöglichkeiten mit Strukturgleichungen dar. Werden mehrere Regressionsmodelle miteinander verbunden, dann wird diese Art der Modellierung als Pfadanalyse bezeichnet (Opp & Schmidt 1976). Diese weitergehende Modellierung ist erstmals von dem Genetiker Wright (1934) vorgenommen worden, der auch die Allgemeingültigkeit der Zerlegung von Produkt-Moment-Korrelationen in Regressionskoeffizienten (Pfadkoeffizienten) über das Basistheorem der Pfadanalyse nachweisen konnte (vgl. Kenny 1979, S. 28). Für ein Strukturgleichungsmodell mit einer unabhängigen, gemessenen Variablen x1 und zwei abhängigen, gemessenen Variablen x2 und x3 kann das Theorem leicht erläutert werden (vgl. Abbildung 1). Für jede abhängige Variable im Modell wird eine Strukturgleichung spezifiziert: x2 = p21 x1 + p2e ex2
(1)
x3 = p31 x1 + p32 x2 + p3e ex3
(2)
Die Pfadkoeffizienten p21 , p31 und p32 geben die Stärke der Beziehungen zwischen den drei Variablen wieder und werden aus den empirischen Informationen (Korrelationskoeffizienten) mittels einfacher Substitution der Gleichungsterme ermittelt. Die Pfadkoeffizienten p2e und p3e stehen für den Einfluss der Residuen ex2 und ex3 auf die jeweiligen abhängigen Variablen und werden aus den nicht erklärten Varianzanteilen berechnet (hier nicht weiter erläutert, siehe ausführlich Reinecke 2005, S. 46 f.):
29 Strukturgleichungsmodelle
777
r21 = p21
(3)
r31 = p31 + p21 p32
(4)
r32 = p32 + p21 p31
(5)
Aus den Gleichungen (4) und (5) wird ersichtlich, dass die Korrelationen r31 und r32 nicht nur durch die direkten Effekte der Variablen x1 auf die Variable x3 (p31 ) bzw. der Variablen x2 auf die Variable x3 bestimmt werden, sondern auch durch die indirekten Effekte. Diese indirekten Effekte werden aus den jeweiligen Produkten der Pfadkoeffizienten p21 und p32 bzw. p21 und p31 gebildet. Im Modell wird angenommen, dass die Beziehungen zwischen den Variablen linear sind und die Residualgrößen nicht mit der unabhängigen Variablen korrelieren. Da ausschließlich gemessene Variablen im Modell enthalten sind, wird auch kein Messmodell und damit auch nicht die Messqualität der Variablen geprüft. 1.2 Das Messmodell: Die Diffenzierung zwischen manifesten und latenten Variablen Die Annahme der fehlerfreien Messung und die statistische Kontrolle von unsystematisch auftretenden Messfehlern (random measurement errors) wird in Strukturgleichungsmodellen erst durch die Differenzierung zwischen einer sogenannten Messebene und einer Strukturebene und der damit einhergehenden Unterscheidung von manifesten (gemessenen) und latenten (nicht gemessenen) Variablen möglich. In diesem Zusammenhang wird auch die Bezeichnung multiple Indikatorenmodelle verwendet (vgl. Blalock 1968). Vier Schritte sind zur Spezifikation eines Messmodells durchzuführen (vgl. Bollen 1989, S. 180). Zunächst ist das theoretische Konzept zu definieren, wozu in erster Linie die Festlegung der Dimensionalität gehört. Danach wird für jede Dimension eine latente Variable formuliert. Drittens werden manifeste Variablen für die latenten so ausgewählt, dass viertens durch Messgleichungen formal eine eindeutige Zuordnung zwischen manifesten und latenten Variablen vorgenommen werden kann. Zur Verdeutlichung wird ein einfaktorielles Messmodell mit drei Variablen konzeptualisiert (vgl. Abbildung 2). Diesem Modell liegen folgende Messgleichungen zugrunde: x1 = λ11 ξ1 + δ1 x2 = λ21 ξ1 + δ2 (6) x3 = λ31 ξ1 + δ3 ξ1 repräsentiert die latente Variable, x1 , x2 und x3 sind die manifesten Variablen. λ11 , λ21 und λ31 sind Regressionskoeffizienten, die das Ausmaß der Korrespondenz zwischen ξ1 und x1 , x2 sowie x3 anzeigen; δ1 , δ2 und δ3 sind die jeweiligen Messfehleranteile für die manifesten Variablen.2 Für die Messgleichungen gelten die üblichen Annahmen der Regressionsanalyse: Die Messfehler haben einen Erwartungswert von null (E(δj ) = 0 für alle j = 1,2,3), die latente Variable und die Messfehler kovariieren nicht miteinander (σξ1 ,δj = 0 für alle j = 1,2,3). 2
In der faktorenanalytischen Terminologie ist ξ1 der Faktor, λ11 , λ21 und λ31 sind die Faktorenladungen.
778
Jost Reinecke und Andreas Pöge
1
x1
δ1
-
x2
δ2
PP q P
x3
δ3
λ11
'$ ξ1 PP PP &% PP
λ21
λ31 PP P
Abb. 2: Messmodell mit drei manifesten Variablen Die empirische Kovarianzmatrix S des Messmodells enthält sechs Elemente, drei Varianzen und drei Kovarianzen: ⎛ 2 ⎞ σx 1 ⎠ S = ⎝ σx2 ,x1 σx22 (7) σx3 ,x1 σx3 ,x2 σx23 Drei Faktorenladungen, drei Messfehler und die Varianz der latenten Variablen (bezeichnet mit φ11 ) sind aus den empirischen Informationen zu schätzen. Da aber nur sechs Informationen in der Kovarianzmatrix S enthalten sind, wird die Varianz der latenten Variablen auf den Wert 1,0 fixiert.3 Jedes Element der Kovarianzmatrix kann jetzt in die korrespondierenden Parameter zerlegt werden, so dass nur noch sechs unbekannte Parameter (drei Faktorenladungen und drei Messfehler) übrig bleiben: σx21 = λ211 + σδ21 σx22 = λ221 + σδ22 σx23 = λ231 + σδ23 σx2 ,x1 = λ11 λ21 σx2 ,x3 = λ21 λ31
(8)
σx1 ,x3 = λ11 λ31 Die Kovarianzmatrix Σ enthält dann als Funktion der Parameter die geschätzten Varianzen und Kovarianzen: ⎛ 2 ⎞ ⎛ 2 ⎞ λ11 + σδ21 σ ˆx1 ⎠ = ⎝ λ11 λ21 λ221 + σδ2 ⎠ ˆx2 ,x1 σ ˆx22 Σ = ⎝σ (9) 2 2 2 2 σ ˆx3 ,x1 σ ˆx3 ,x2 σ ˆx3 λ11 λ31 λ21 λ31 λ31 + σδ3 Wenn die empirischen Varianzen und Kovarianzen in S den geschätzten Varianzen und Kovarianzen in Σ gegenübergestellt werden (S − Σ), dann lässt sich beurteilen, ob die 3
Wird alternativ eine Faktorenladung fixiert (z. B. λ11 = 1,0), wird das Gleichungssystem ebenfalls lösbar. In diesem Fall erhält die latente Variable ξ1 die gleiche Skalierung wie die gemessene Variable x1 .
29 Strukturgleichungsmodelle
779
Modellierung mit den empirischen Daten übereinstimmt. Je größer die Differenzen in der Residualkovarianzmatrix S − Σ sind, desto eher wird das Modell von den Daten widerlegt. Das Gleichungssystem in (8) verdeutlicht auch, dass die Anzahl der unbekannten Parameter mindestens gleich der Anzahl der bekannten Parameter sein muss, damit das Modell gerade identifiziert ist. Liegen mehr empirische Informationen in der Kovarianzmatrix S vor, als Parameter zu schätzen sind, ist das Modell überidentifiziert. Diese positive Differenz wird auch als Freiheitsgrade (degrees of freedom) des Modells bezeichnet. Entsprechend ist das Modell nicht identifiziert, wenn mehr Parameter zu schätzen sind als empirische Informationen vorliegen (zu den Identifikationsbedingungen siehe auch Reinecke 2005, S. 105). 1.3 Die konfirmatorische Faktorenanalyse: Die simultane Prüfung mehrerer Messmodelle Die Spezifikation des konfirmatorischen Faktorenmodells ist gleichzeitig eine Verallgemeinerung der Gleichungen für Messmodelle für mehr als eine latente Variable (vgl. Gleichung (6); Bollen 1989, S. 233): x = Λx ξ + δ
(10)
Eine alternative Terminologie ist ebenfalls gebräuchlich, die weiter unten beim allgemeinen Strukturgleichungsmodell benötigt wird:4 y = Λy η +
(11)
x und y sind die manifesten, ξ und η die latenten Variablen (Faktoren). Die Beziehungen zwischen den latenten und manifesten Variablen werden durch die Koeffizientenmatrizen Λx bzw. Λy ausgedrückt, die auch als Faktorenladungsmatrizen bezeichnet werden. δ und sind die Vektoren der Messfehler von x bzw. y. Da die Gleichungen (10) und (11) Regressionsgleichungen sind, gelten wie beim Messfehlermodell die üblichen Annahmen: Die Messfehler haben einen Erwartungswert von null (E(δ) = E() = 0) und die Faktoren korrelieren nicht mit den Messfehlern (E(ξδ ) = E(η ) = 0). Abbildung 3 zeigt ein konfirmatorisches Faktorenmodell mit zwei latenten Variablen ξ1 und ξ2 , die beide über die Korrelation φ21 miteinander verbunden sind. Die manifesten Variablen x1 , x2 und x3 sind der latenten Variablen ξ1 zugeordnet, die manifesten Variablen x4 , x5 und x6 der latenten Variablen ξ2 . Es existieren keine Beziehungen zwischen x1 , x2 und x3 und der latenten Variablen ξ2 sowie keine Beziehungen zwischen x4 , x5 und x6 und der latenten Variablen ξ1 . Diese Restriktionen sind dann mit den Daten vereinbar, wenn die empirischen Zusammenhänge innerhalb von x1 , x2 und x3 und innerhalb von x4 , x5 und x6 größer sind als die Zusammenhänge zwischen den manifesten Variablen unterschiedlicher latenter Variablen (beispielsweise zwischen x1 und x4 ). 4
Zu beachten ist hierbei, dass nach dem verallgemeinerten Modell von Bentler & Weeks (1980) und Graff & Schmidt (1982) kein formaler Unterschied zwischen den Modellgleichungen (10) und (11) existiert.
780
Jost Reinecke und Andreas Pöge λ11
1
'$ λ 21 ξ1 P PP PP λ31 &% PP PP 6 q P
x1
δ1
x2
δ2
x3
δ3
x4
δ4
x5
δ5
x6
δ6
φ21 λ42
1
? '$ λ 52 ξ2 P PP PP λ62 &% PP PP q P
Abb. 3: Konfirmatorisches Faktorenmodell mit zwei latenten Variablen Auf Basis der allgemeinen Messgleichung (10) kann das beschriebene konfirmatorische Faktorenmodell (vgl. Abbildung 3) auch formal spezifiziert werden (vgl. Bollen 1989, S. 234):5 ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ x1 λ11 0 δ1 ⎜ x2 ⎟ ⎜ λ21 0 ⎟ ⎜ δ2 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ x3 ⎟ ⎜ λ31 0 ⎟ ⎜ δ3 ⎟ ξ1 ⎜ ⎟=⎜ ⎟ ⎜ ⎟ (12) ⎜ x4 ⎟ ⎜ 0 λ42 ⎟ · ξ2 + ⎜ δ4 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎝ x5 ⎠ ⎝ 0 λ52 ⎠ ⎝ δ5 ⎠ x6 0 λ62 δ6 Es gelten die Annahmen, dass latente Variablen und Messfehler nicht kovariieren (σξ1 ,δj = 0 für alle j = 1, . . . ,6) und die Erwartungswerte der Messfehler null sind (E(δj ) = 0 für alle j = 1, . . . ,6). Die Matrix Λx mit den Parametern λ (Faktorenladungen) enthält die Zuordnung der manifesten Variablen x1 bis x6 zu den latenten Variablen ξ1 und ξ2 . Die Nullen in den Spalten der Matrix Λx weisen darauf hin, dass die manifesten Variablen jeweils nur einer latenten Variablen zugeordnet sind und daher nur jeweils eine Faktorenladung geschätzt wird. Neben den Faktorenladungen in der Matrix Λx sind die Varianzen und Kovarianzen der latenten Variablen (φ11 , φ21 und φ22 ) und sechs Messfehlervarianzen (θδ1 bis θδ6 ) zu ermitteln. Da mehr empirische Informationen in der Kovarianzmatrix vorliegen (21 Varianzen und Kovarianzen), ist das konfirmatorische Faktorenmodell mit df = 8 Freiheitsgraden überidentifiziert. Trotz ausreichender Freiheitsgrade müssen zur Berechnung des Modells die Varianzen φ11 und φ22 (oder alternativ jeweils eine Ladung λ) jeweils auf den Wert 1,0 fixiert werden (zu den Identifikationsbedingungen 5
Die jeweils erste Ziffer im Suffix ist die laufende Nummer der manifesten Variablen x, die jeweils zweite Ziffer ist die laufende Nummer der latenten Variablen ξ.
29 Strukturgleichungsmodelle
781
vgl. Reinecke 2005, S. 105). Überidentifizierte Modelle können im Unterschied zu gerade identifizierten Modellen (wie die vorher diskutierten Pfad- und Messmodelle) nicht mehr eindeutig gelöst werden. Daher erfolgt die Schätzung der Parameter über die Minimierung von Diskrepanzfunktionen, auf die in Abschnitt 2 näher eingegangen wird. 1.4 Das allgemeine Strukturgleichungsmodell In den vorhergehenden Abschnitten sind Spezialfälle des allgemeinen Strukturgleichungsmodells vorgestellt worden. Die Pfadanalyse modelliert Beziehungen zwischen unabhängigen und abhängigen manifesten Variablen und erweitert damit das klassische Regressionsmodell. Durch Einführung von Messmodellen und deren Erweiterung zur konfirmatorischen Faktorenanalyse wird zwischen manifesten und latenten Variablen differenziert und die Kontrolle von Messfehlern ermöglicht. Das allgemeine Strukturgleichungsmodell mit latenten Variablen verbindet die Pfadanalyse mit der konfirmatorischen Faktorenanalyse, wobei Struktur- und Messmodell einer simultanen Prüfung unterzogen werden. Das Strukturmodell hat folgende Form: η = Bη + Γ ξ + ζ
(13)
η ist der Vektor der abhängigen latenten Variablen, ξ der Vektor der unabhängigen latenten Variablen. In der Matrix B werden die Beziehungen der abhängigen latenten Variablen untereinander spezifiziert, in der Matrix Γ die Beziehungen zwischen unabhängigen und abhängigen latenten Variablen. Vektor ζ bezeichnet die Residuen der abhängigen latenten Variablen, die annahmegemäß einen Erwartungswert von null haben (E(ζ) = 0). Die Residualvarianzen σ ζ werden in der Matrix Ψ spezifiziert. Die Varianzen und Kovarianzen der unabhängigen latenten Variablen ξ werden in der Matrix Φ angegeben. Neben der Strukturebene ist das Messmodell gemäß den Gleichungen (10) und (11) (siehe Abschnitt 1.3) zu spezifizieren (vgl. auch Bollen 1989, S. 320). Abbildung 4 zeigt ein einfaches Strukturgleichungsmodell mit einer latenten unabhängigen Variablen ξ1 und einer latenten abhängigen Variablen η1 , die durch den Strukturkoeffizienten γ11 miteinander verbunden sind. Die manifesten Variablen x1 , x2 und x3 sind der latenten Variablen ξ1 zugeordnet, die manifesten Variablen y1 , y2 und y3 der latenten Variablen η1 . Der wesentliche Unterschied zum konfirmatorischen Faktorenmodell in Abbildung 3 besteht darin, dass die Beziehung zwischen den beiden latenten Variablen nicht bloß korrelativer Art ist, sondern über den Strukturkoeffizienten γ11 eine genaue Spezifikation der Richtung des Einflusses von unabhängiger auf die abhängige Variable erfolgt. Den allgemeinen Struktur- und Messgleichungen folgend, lässt sich das Modell aus Abbildung 4 formal spezifizieren: η1 = γ11 ξ1 + ζ1 ⎛ ⎞ ⎛ ⎞ x1 λx11 δ1 ⎝ x2 ⎠ = ⎝ λx21 ⎠ · ξ1 + ⎝ δ2 ⎠ x3 λx31 δ3 ⎛
⎞
(14) (15)
782
Jost Reinecke und Andreas Pöge
λx11
1
'$ λx21 ξ1 PP PP &% PPP λx31 PP PP q
x1
δ1
x2
δ2
x3
δ3
y1
1
y2
2
y3
3
γ11 λy11
ζ1
-
1
? '$ λy21 η1 PP PP &% PPP λy31 PP PP q
Abb. 4: Strukturgleichungsmodell mit zwei latenten Variablen ⎛
⎞ ⎛ ⎞ ⎛ ⎞ y1 λy11 1 ⎝ y2 ⎠ = ⎝ λy21 ⎠ · η1 + ⎝ 2 ⎠ y3 λy31 3
(16)
Es gelten auch hier die unter Gleichung (12) getroffenen Annahmen. Die Spalten der Matrizen Λx und Λy korrespondieren mit den latenten Variablen ξ1 bzw. η1 . Die Parameter in den Matrizen zeigen an, welche manifeste Variable zur Messung der jeweiligen latenten Variable herangezogen wird. Der Vektor δ enthält die Messfehler für die manifesten Variablen x, der Vektor die Messfehler für die manifesten Variablen y. Auf der latenten Ebene wird neben dem Einfluss von ξ1 auf η1 auch die Residualgröße der abhängigen, latenten Variablen bestimmt (ζ1 ). Um die Parameter des allgemeinen Strukturgleichungsmodells zu identifizieren, wird in beiden Matrizen Λx und Λy jeweils eine Faktorenladung λ auf den Wert 1,0 fixiert. Da im Vergleich zum konfirmatorischen Faktorenmodell die dort geschätzte Kovarianz φ21 durch den Strukturkoeffizienten γ11 ersetzt wird, sind auch hier insgesamt 13 Parameter zu schätzen und daher das Modell mit df = 8 Freiheitsgraden überidentifiziert. Die Schätzung der Parameter erfolgt durch Minimierung von Diskrepanzfunktionen (in der Regel die Maximum-Likelihood(ML)-Diskrepanzfunktion, siehe im einzelnen Abschnitt 2 sowie Kapitel 10 in diesem Handbuch), die es erlauben, eine Modellprüfung vorzunehmen. Die Kriterien zur Prüfung von Strukturgleichungsmodellen werden in den verschiedenen Lehrbüchern relativ umfangreich behandelt. Hier wird deshalb nur auf die wichtigsten Aspekte eingegangen. Drei Situationen der Modellprüfung können unterschieden werden (Reinecke 2005, S. 115): Eine streng konfirmatorische Prüfung des Modells ohne Modellmodifikation, eine schrittweise, hypothesengeleitete Modellprüfung mit Modellmodifikation und eine Gegenüberstellung alternativer oder konkurrierender
29 Strukturgleichungsmodelle
783
Modelle. Die zweite und dritte Situation tritt bei Strukturgleichungsmodellen relativ häufig auf. Hierbei spielen statistische Kriterien, die sowohl eine Modellevaluation, einen Modellvergleich als auch die Modellsparsamkeit berücksichtigen, eine große Rolle. Modellevaluation Aus dem Minimum der Diskrepanzfunktion kann ein Likelihood-χ2 -Wert ermittelt werden, der testet, mit welcher Wahrscheinlichkeit ein aus der Stichprobe geschätztes Modell in der Grundgesamtheit zu den Daten passt. Geprüft wird die Nullhypothese H0 : Σ = Σ(Θ).6 Da Σ als Populationskovarianzmatrix unbekannt ist, wird die Stichprobenkovarianzmatrix S als Schätzung für Σ verwendet und die Differenz S − Σ(Θ) geprüft (vgl. Bollen 1989, S. 257). Der χ2 -Wert ist umso kleiner, je geringer die Differenz S − Σ(Θ) ist. Wenn der χ2 -Wert einen vorher definierten kritischen Wert überschreitet, dann ist die Nullhypothese widerlegt. Die Verwendung des χ2 -Wertes als Teststatistik kann aber zu falschen Schlussfolgerungen führen, da mehrere Voraussetzungen vorliegen müssen, die mit empirisch gewonnenen Daten (beispielsweise Umfragedaten) kaum erfüllt werden können. Hierzu gehört die Multinormalverteilung der manifesten Variablen, eine hinreichende Größe der Stichprobe und die Exaktheit der Nullhypothese (vgl. Bollen 1989, S. 266). Eine Multinormalverteilung setzt voraus, dass die Schiefe und Kurtosis jeder Variablen gleich null sind. Verschiedene Simulationsstudien (z. B. Hoogland & Boomsma 1998) haben gezeigt, dass extrem schief verteilte Variablen zu überschätzten χ2 -Werten führen, die Standardfehler verzerrt werden, aber die Parameterschätzungen weit weniger betroffen sind. Wenn allerdings die Schiefe und Kurtosis der Daten über die sogenannte asymptotische Varianz-/Kovarianzmatrix (siehe hierzu ausführlich Abschnitt 2.2) mit in die Modellschätzung berücksichtigt werden können, sind auch entsprechend korrigierte χ2 -Statistiken berechenbar (beispielsweise die Satorra-Bentler scaled chi-square statistic und die Satorra chi-square statistic, vgl. Satorra & Bentler 1988; Satorra 1993). Desweiteren ist die χ2 -Statistik bei kleinen Stichproben (in der Regel bei N < 100) nur sehr eingeschränkt verwendbar, da dann die Nullhypothese überproportional zurückgewiesen wird (zu den Details, vgl. Reinecke 2005, S. 118). Die Annahme der Nullhypothese (Σ = Σ(Θ)) unterstellt die unrealistische Annahme, dass keine Differenz zwischen der Populationskovarianzmatrix und der geschätzten Stichprobenkovarianzmatrix besteht. Ein moderateres Ziel wäre es zu prüfen, ob die Differenz zwischen S und Σ vernachlässigbar ist. Da die χ2 -Statistik mit steigendem N größer wird, steigt auch die Wahrscheinlichkeit, eine falsche Nullhypothese zurückzuweisen (vgl. Bollen 1989, S. 268). So führen selbst kleinere Differenzen zwischen S und Σ immer zu hohen χ2 -Werten und damit zu einer Modellwiderlegung. Eine Reihe von Goodness-of-Fit-Indizes sind in den letzten Jahrzehnten entwickelt worden, die von der Exaktheit der Nullhypothese abweichen und einen näherungsweisen Modellfit zu erreichen versuchen. Der bekannteste dieser Fit-Indizes ist der Root Mean Square Error of Approximation (RMSEA, vgl. Browne & Cudeck 1993, S. 144). Der 6
Mit Θ wird der Parametervektor des zu prüfenden Modells bezeichnet, siehe im einzelnen Abschnitt 2. Zur Berechnung des χ2 -Wertes siehe Reinecke (2005, S. 116) und die dort angegebenen Hinweise.
784
Jost Reinecke und Andreas Pöge
RMSEA zeigt die Diskrepanz zwischen Populationskovarianzmatrix und der am besten angepassten Matrix zur Populationskovarianzmatrix an und testet die null hypothesis of close fit: H0 = RM SEA ≤ 0,05. Demnach wird diese Nullhypothese nur dann nicht zurückgewiesen, wenn die untere Grenze des Vertrauensintervalls des RMSEA kleiner als 0,05 ist (vgl. Browne & Cudeck 1993, S. 146). Werte des RMSEA, die größer als 0,08 sind, werden als große, Werte zwischen 0,05 und 0,08 als mittlere und Werte kleiner als 0,05 als kleine Diskrepanz interpretiert. ˆ erlaubt eine sehr detaillierte ModellbeurDie Evaluation der Residualmatrix S − Σ teilung. Bei perfekter Modellanpassung ist diese Residualmatrix null. Ein positiver Wert in dieser Matrix bedeutet, dass das zu beurteilende Modell die entsprechende Kovarianz zwischen zwei Variablen unterschätzt, während ein negativer Wert auf eine Überschätzung hinweist. Größere positive wie negative Werte weisen auf Fehlspezifikationen im Modell hin. Eine zusammenfassende Statistik dieser Abweichungen wird durch den Root Mean Square Residual (RMR, vgl. Reinecke 2005, S. 122) angegeben. Die unterschiedlichen Skalierungen der gemessenen Variablen können die Größen in der Residualmatrix aber beeinflussen. Soweit die Variablen nicht standardisiert sind, können die Größen der Abweichungen in der Residualmatrix auch auf unterschiedliche Skalierungsbreiten zurückzuführen sein. Um diese zusätzliche Variation auszuschließen und die Abweichungen vergleichbar zu machen, werden normalisierte Residuen (normalized residuals) verwendet (vgl. Reinecke 2005, S. 123). Die größten Werte bei den normalisierten Residuen weisen auf entsprechende Fehlspezifikationen im Modell hin. Modellvergleich Sollen zwei Modellvarianten, deren Modellaufbau (Anzahl latenter und manifester Variablen) gleich, deren Anzahl zu schätzender Parameter aber unterschiedlich ist, miteinander verglichen werden, ist dafür der Likelihood-Ratio(LR)-Test (auch als χ2 Differenzentest bezeichnet) geeignet (vgl. Bollen 1989, S. 292). Hierzu wird die einfache Differenz der beiden χ2 -Werte gebildet und geprüft, ob mit der parallel zu berechnenden Differenz der Freiheitsgrade eine signifikante Veränderung zu verzeichnen ist. Stehen die beiden Modellvarianten in einem geschachtelten (hierarchischen) Verhältnis zueinander (nested models), dann folgt die Differenz der beiden χ2 -Werte wiederum einer χ2 Verteilung. Wenn beispielsweise ein nicht signifikanter Parameter auf null fixiert wird, dann wird diese Restriktion nur eine unwesentliche Differenz zwischen den beiden χ2 -Werten (bei Differenz von einem Freiheitsgrad zwischen unrestringiertem und restringiertem Modell) ergeben. Das restriktivere Modell ist dann zu akzeptieren. Neben dem LR-Test existieren weitere Möglichkeiten, mit denen geprüft werden kann, ob Parameter ergänzt werden müssen, um die Modellanpassung zu verbessern, oder ob Parameter eingespart werden können, um den Informationsgehalt des Modells zu erhöhen. Entscheidungshilfen für diese Strategien der Modellverbesserung liefern der Lagrange-Multiplier(LM)-Test und der Wald(W)-Test. Der Lagrange-Multiplier(LM)-Test (Modifikations-Index) evaluiert den statistischen Effekt, wenn zusätzliche Parameter in dem Strukturgleichungsmodell spezifiziert werden. Je größer der Wert des LM-Test ist, desto stärker fällt die Modellverbesserung aus. Wird der betreffende Parameter freigesetzt, dann sinkt der Wert der χ2 -Statistik
29 Strukturgleichungsmodelle
785
um genau die Größe des LM-Tests auf der Basis der restriktiveren Modellvariante. Der Test kann wiederholt von Modellvariante zu Modellvariante eingesetzt werden, wobei die Freisetzung jeweils nur eines Parameters pro Modellprüfung empfohlen wird. Die Freisetzung von Parametern sollte ausschließlich nach inhaltlichen Gesichtspunkten erfolgen. Der Wald(W)-Test prüft im Unterschied zum LM-Test die Möglichkeit, Parameter im Strukturgleichungsmodell einzusparen, um zu einem sparsameren Modell zu gelangen. Je größer der Wert des W-Test ist, desto stärker fällt die Modellverbesserung aus. Wird der betreffende Parameter restringiert, dann sinkt der Wert der χ2 -Statistik um genau die Größe des W-Tests auf der Basis der weniger restriktiveren Modellvariante.7 Weitere Goodness-of-Fit-Indizes, die sich für den Modellvergleich eignen, setzen den modellspezifischen χ2 -Wert mit der Modellbedingung ins Verhältnis, bei der die manifesten Variablen statistisch unabhängig voneinander sind. Dieses sogenannte independence model bzw. null model kann aber auch jede andere Modellspezifikation sein, die als Basis für den Modellvergleich dienen soll (vgl. Kaplan 2009, S. 111). Vorausgesetzt wird wie beim LR-Test ein hierarchisches Verhältnis zwischen dem Basismodell und der zu prüfenden Modelle, das heißt die Differenzen zwischen den Modellen basieren ausschließlich auf Differenzen durch Verlust und Gewinn von Freiheitsgraden. Die Indizes streben eine Normierung der χ2 -Differenzen an, so dass durch den Modellvergleich bestimmt werden kann, ob ein Modell sich nur wenig vom Basismodell unterscheidet (mit einem Indexwert nahe null) oder eine entscheidende Modellverbesserung zu verzeichnen ist (mit einem Indexwert nahe eins). Zu diesen Indizes gehören verschiedene Varianten des Normed Fit Index (NFI, NFI2), der Tucker-Lewis-Index (TLI) und der Comparative Fit Index (CFI).8 Modellsparsamkeit Modellsparsamkeit wird dadurch erreicht, dass eine gute Modellanpassung durch eine möglichst geringe Anzahl zu schätzender Parameter erreicht wird. Der Parsimony Normed Fit Index (PNFI) hat den Vorteil, dass mit ihm der Modellvergleich und die Sparsamkeit der Modellierung gleichzeitig geprüft werden kann (vgl. Kaplan 2009, S. 112).9 Ein sparsam spezifiziertes Modell zeichnet sich dadurch aus, dass ein guter Modellfit mit wenigen Parametern und einer hohen Anzahl von Freiheitsgraden erreicht wird. Steht die sparsame Modellierung und der Modellvergleich bei nicht hierarchisch zueinander stehenden Modellvarianten im Vordergrund, kann das Akaike Information Criterion (AIC), das Consistent Akaike Information Criterion (CAIC) oder das Bayesian Information Criterion (BIC) herangezogen werden. Der AIC setzt die χ2 Statistik mit den zu schätzenden Parametern des Modells so in Beziehung, dass die Modellkomplexität wie ein Bestrafungsterm (penalty term) wirkt (vgl. Akaike 1987). Der von Bozdogan (1987) entwickelte CAIC und der von Schwarz (1978) entwickelte 7 8
9
Der W-Test ist nur im Programm EQS implementiert (vgl. Bentler & Wu 2002, S. 227). In der Literatur existieren teilweise unterschiedliche Bezeichnungen für diese Indizes, vgl. hierzu die Übersicht von Reinecke (2005, S. 126 f.). Auch hier existieren andere Bezeichnungen, z. B. Parsimony Fit Index (PFI).
786
Jost Reinecke und Andreas Pöge
BIC berücksichtigen neben der Parameteranzahl auch die Stichprobengröße. Werden mehrere Modellvarianten berechnet, so wird die mit dem kleinsten AIC, CAIC oder BIC gewählt. 1.5 Spezielle Modellvarianten Eine Reihe von speziellen Modellvarianten können im Rahmen der Modellierung mit Strukturgleichungen genannt werden. Hierzu gehören Modelle für mehrere Gruppen (multiple Gruppenvergleiche), Längsschnittmodelle, Modelle mit Interaktionstermen und die Behandlung fehlender Werte. Modelle für mehrere Gruppen (Multiple Gruppenvergleiche) Mit multiplen Gruppenvergleichen kann die Invarianz von Mess- und Strukturmodellen über zwei oder mehrere Kovarianzmatrizen getestet werden (vgl. Sörbom 1982). Werden die Mittelswertinformationen der manifesten Variablen hinzugenommen, dann ist auch ein Test auf Mittelwertsdifferenzen der latenten Variablen möglich (siehe entsprechend die Ausführungen in Reinecke (2005, S. 64, 65 f., 151 f., 238 f.). Längsschnittmodelle Stabilität und Veränderung von latenten und manifesten Variablen können durch Längsschnittinformationen (Paneldaten) untersucht werden. Mit Hilfe von autoregressiven Strukturgleichungsmodellen (Markov-Modellen) ist eine Differenzierung nach Stabilität und Veränderung der latenten Variablen einerseits und nach unsystematischen Messfehlern in den manifesten Variablen andererseits möglich (vgl. Engel & Reinecke 1994). Zeitverzögerte und autoregressive Effekte können in den Markov-Modellen differenziert werden. Die Stabilität des Messmodells lässt sich durch geeignete Restriktionen überprüfen (vgl. ausführlich Reinecke 2005, S. 262 f.). Für die Analyse von Entwicklungsprozessen über die Zeit werden Strukturgleichungsmodelle benötigt, die nicht nur individuelle Entwicklungsparameter berücksichtigen, sondern auch die Variation dieser Entwicklungen in der Untersuchungspopulation aufzeigen. Hierzu werden neben der Kovarianzmatrix die Mittelwertsinformationen der manifesten Variablen herangezogen, um interindividuelle und intraindividuelle Entwicklungstendenzen zu modellieren. Diese Modelle werden als Wachstumsmodelle bezeichnet (vgl. Reinecke 2005, S. 304 f.). Modelle mit Interaktionstermen Kenny & Judd (1984) gehörten zu den ersten, die die Modellierung von latenten Interaktionsvariablen in Strukturgleichungsmodellen vorgeschlagen haben. Die Modellspezifikation erfordert aber nicht-lineare Restriktionen, die nicht in jedem Programm formuliert werden können. Eine Zusammenstellung der wichtigsten Entwicklungen auf dem Gebiet der latenten Interaktionsmodelle zeigen die Beiträge in Schumacker & Marcoulides (1998). Technische und inhaltliche Unterschiede zwischen dem multiplen Gruppenvergleich und latenten Interaktionsmodellen diskutieren Reinecke (1999, 2002).
29 Strukturgleichungsmodelle
787
Die Behandlung fehlender Werte In jüngster Zeit sind Verfahren entwickelt worden, die eine ML-Schätzung der Kovarianzmatrix unter Berücksichtigung fehlender Werte vornehmen (Full Information Maximum Likelihood). Diese Matrix wird dann als Datenbasis für das zu untersuchende Strukturgleichungsmodell verwendet. Erfreulicherweise stehen die verschiedenen Techniken mittlerweile in den meisten Programmen zur Verfügung. Weitere Techniken sind eher modellunabhängig und sind als datenbasierte Verfahren zur Behandlung fehlender Werte bekannt geworden. Hierzu zählt die ursprünglich von Rubin (1987) entwickelte Technik der mehrfachen Ersetzung fehlender Werte, die als multiple imputation bezeichnet wird (vgl. die Ausführungen in Reinecke 2005, S. 283 f.).
2 Mathematisch-statistische Grundlagen 2.1 Ableitung der Elemente der Kovarianzmatrix Σ In Abschnitt 1 ist verdeutlicht worden, dass die geschätzte Kovarianzmatrix Σ eine Funktion der Parameter des jeweiligen Strukturgleichungsmodells ist (zu den Bezeichnungen der Parametermatrizen siehe den Anhang). Diese Parameter werden im Parametervektor Θ zusammengefasst. Σ(Θ) lässt sich in vier Teile zerlegen, in denen die Varianzen der manifesten Variablen x und y, die jeweiligen Kovarianzen von x und y untereinander und die jeweiligen Kovarianzen zwischen x und y enthalten sind: Σ yy (Θ) Σ yx (Θ) Σ(Θ) = (17) Σ xy (Θ) Σ xx (Θ) Σ(Θ) entspricht hierbei dem Erwartungswert der Produkte yy , yx , xy xx .10 Im folgenden werden die vier Elemente der Matrix Σ(Θ), beginnend mit dem linken oberen Quadranten, getrennt hergeleitet (vgl. Bollen 1989, S. 324): Σ yy (Θ) = E(yy ) = E[(Λy η + )(η Λy + )] = Λy E(ηη )Λy + Θ
(18)
Der Term E(ηη ) kann durch Substitution mit Gleichung (13) weiter zerlegt werden. Die Substitution erfolgt durch η = (I − B)−1 (Γ ξ + ζ) (vgl. Bollen 1989, S. 324). So wird erkennbar, dass die Kovarianz der y-Indikatoren in eine komplexe Funktion der einzelnen Parametermatrizen zerlegt werden kann:
Σ yy (Θ) = Λy (I − B)−1 (Γ ΦΓ + Ψ )[(I − B)−1 ) Λy + Θ
(19)
Der rechte obere Quadrant der Matrix Σ(Θ) enthält die Kovarianzen der y- und xVariablen (vgl. Bollen 1989, S. 325): 10
Durch ein hochgestelltes wird die jeweilige Transponierte einer Matrix bezeichnet. Verwendet man die Zeilen einer p × q-Matrix A als Spalten einer q × p-Matrix A , dann ist A die zu A transponierte Matrix.
788
Jost Reinecke und Andreas Pöge
Σ yx (Θ) = E(yx ) = E[(Λy η + )(ξ Λx + δ )] = Λy E(ηξ )Λx
(20)
Wird wiederum durch η = (I − B)−1 (Γ ξ + ζ) substituiert, dann erhält man:
Σ yx (Θ) = Λy (I − B)−1 Γ ΦΛx
(21)
Der linke untere Quadrant der Matrix Σ(Θ) ist die Transponierte von Σ yx (Θ):
Σ xy (Θ) = Λx ΦΓ [(I − B)−1 ] Λy
(22)
Als letztes sind die Kovarianzen der x-Variablen (Σ xx ) abzuleiten, die für das Messmodell (vgl. Abschnitt 1.2) und die konfirmatorische Faktorenanalyse (vgl. Abschnitt 1.3) benötigt werden (vgl. Bollen 1989, S. 236): Σ(Θ) = E(xx ) = E[(λx ξ + δ)(λx ξ + δ )] = λx E(ξξ )λx + Θ δ = λx Φλx + Θ δ
(23)
Wenn Gleichungen (19), (21), (22) und (23) in Gleichung (17) eingesetzt werden, erhält man die geschätzte Varianz-/Kovarianzmatrix Σ als Funktion des Parametervektors Θ: Σ yy (Θ) Σ yx (Θ) Σ(Θ) = (24) Σ xy (Θ) Σ xx (Θ) , + Λy (I − B)−1 (Γ ΦΓ + Ψ )[(I − B)−1 ] Λy + Θ Λy (I − B)−1 Γ ΦΛx = Λx ΦΓ [(I − B)−1 ] Λy Λx ΦΛx + Θ δ Die Schätzung der einzelnen Parameter in den Matrizen der Gleichung (24) erfolgt über die Minimierung der Diskrepanz zwischen empirischer Kovarianzmatrix S und geschätzter Kovarianzmatrix Σ. 2.2 Schätzung der Parameter Für überidentifizierte Modelle existieren keine analytisch eindeutigen Lösungen, so dass eine Minimierung der Diskrepanz zwischen S und Σ(Θ) iterativ über eine Funktion erfolgen muss. Folgende zwei Eigenschaften muss diese sogenannte Diskrepanzfunktion aufweisen: 1. Der Funktionswert ist nur dann gleich null, wenn S = Σ(Θ) oder größer null, wenn S − Σ > 0 ist. 2. Die Funktion ist zweifach differenzierbar, das heißt erste und zweite Ableitungen sind berechenbar.
29 Strukturgleichungsmodelle
789
Die Maximum-Likelihood(ML)-Diskrepanzfunktion wird standardmäßig zur Schätzung der Parameter in Strukturgleichungsmodellen eingesetzt. Die ML-Funktion strebt die Minimierung des Funktionswertes und damit auch die Minimierung der Differenz zwischen S und Σ(Θ) an (vgl. Bollen 1989, S. 107): FML = log Σ(Θ) + tr(SΣ −1 (Θ)) − log S − (p + q)
(25)
S ist die Determinante der empirischen Kovarianzmatrix, während Σ(Θ) die Determinante der modellimplizierten Kovarianzmatrix ist. Mit tr(·) wird die Spur (trace) einer Matrix bezeichnet.11 Damit die ML-Funktion geschätzt werden kann, müssen die Determinanten S und Σ(Θ) ungleich 0 sein. Andernfalls sind die entsprechenden Matrizen singulär und können nicht invertiert werden. Eine Berechnung von Σ −1 (Θ) wäre dann nicht möglich. Die Anzahl der gemessenen Variablen x und y und damit die Größe der empirischen Kovarianzmatrix wird durch die Laufindizes p und q angegeben. Wenn die empirische und die modellimplizierte Kovarianzmatrix exakt übereinstimmen (S = Σ(Θ)), dann ist der Funktionswert der Gleichung (25) null. Die angenommene Modellstruktur kann die empirischen Daten exakt vorhersagen. Bei überidentifizierten Modellen erreicht der Funktionswert dann sein Minimum, wenn alle ersten Ableitungen der Elemente des Parametervektors Θ null sind und die Matrix der zweiten Ableitungen berechnet werden kann (für ein numerisches Beispiel, vgl. Appendix 4c in Bollen 1989, S. 136 f.). Aus den zweiten Ableitungen der ML-Funktion werden die Standardfehler der Parameter berechnet. Eine der wesentlichen Vorteile der mit der ML-Funktion geschätzten Parameter sind ihre asymptotische Konsistenz und ihre Effizienz. Diese Eigenschaften sind insbesondere bei großen Stichproben gewährleistet. Je größer die Stichprobe ist, desto eher ist gewährleistet, dass die Parameter normalverteilt sind. Das Verhältnis zwischen den geschätzten Parametern und ihren Standardfehlern folgt dann näherungsweise einer zVerteilung (vgl. Reinecke 2005, S. 122). Eine Reihe von weiteren Diskrepanzfunktionen stehen in den verschiedenen Programmen zur Verfügung. Hierzu gehören die Unweighted-Least-Square(ULS)-Funktion, die Generalized-Least-Square(GLS)-Funktion sowie die Weighted-Least-Square(WLS)Funktion.12 Die ULS-Funktion strebt die Minimierung der Quadratsummen jedes Elementes in der Residualmatrix S − Σ(Θ) an (vgl. Bollen 1989, S. 111): FULS =
1 tr[S − Σ(Θ)]2 2
(26)
Parameter, die über die ULS-Funktion geschätzt werden, haben den Vorteil, dass sie ohne die strenge Multinormalverteilungsannahme auskommen und trotzdem konsistente 11
12
Eine Determinante ungleich null zeigt an, dass alle Zeilen und Spalten der Matrix linear unabhängig sind. Damit ist die Matrix nicht singulär und kann invertiert werden. Die Spur einer Matrix ist die Summe ihrer Diagonalelemente. Die Differenzierung der Diskrepanzfunktionen orientiert sich an den Möglichkeiten des Programms LISREL. Die meisten Varianten dieser Funktionen zur Schätzung der Parameter bietet das Program Mplus.
790
Jost Reinecke und Andreas Pöge
Schätzer sind. Allerdings wird im Vergleich zur ML-Funktion nicht der effizienteste Schätzer erreicht. Wenn die Skalierung der manifesten Variablen verändert wird, können sich die Werte der Parameter ändern. Die ULS-Schätzer sind demnach nicht skaleninvariant. Daher wird im allgemeinen empfohlen, Modelle mit der ULS-Funktion nur auf der Basis einer Korrelationsmatrix zu schätzen. In der Regel wird auf die ULSFunktion zurückgegriffen, wenn die Stichprobe sehr klein ist und Parametermatrizen mit der ML-Funktion nicht invertiert werden können. Inferenzstatistische Tests sollten entsprechend vorsichtig interpretiert werden, da hierfür Verteilungsannahmen getroffen werden müssen. Die ULS-Funktion nimmt an, dass alle Elemente der Matrix S − Σ(Θ) die gleichen Streuungen aufweisen. Um diese Annahme fallen lassen zu können, kann die ULSFunktion durch eine Gewichtungsmatrix verallgemeinert werden. Diese Funktion ist als GLS-Funktion bekannt geworden (vgl. Bollen 1989, S. 113): FGLS =
1 tr[(S − Σ(Θ))W−1 ]2 2
(27)
Die Gewichtungsmatrix W wird meistens so gewählt, dass sie sich aus der Inversen der empirischen Kovarianzmatrix zusammensetzt (W−1 = S−1 ). GLS-Schätzer sind wie ML-Schätzer skaleninvariant. Skalentransformationen haben damit keine Auswirkungen auf die Größe der geschätzten Parameter. Parameterschätzungen, Standardfehler, z-Werte und die χ2 -Statistik werden oft durch extrem schief verteilte bzw. mit hohen Kurtosiswerten versehenen Daten verzerrt sein. Die Weighted-Least-Square(WLS)-Diskrepanzfunktion (vgl. Browne 1984) kann einen asymptotisch effizienten Parametervektor Θ auch ohne Verteilungsannahmen mit einer entsprechenden Teststatistik schätzen. Informationen über die Schiefe und Kurtosis der Daten werden über eine Gewichtungsmatrix (W) bei der Berechnung der Parameter berücksichtigt. Die WLS-Diskrepanzfunktion lautet (vgl. Bollen 1989, S. 425): FWLS = [s − σ(Θ)] W−1 [s − σ(Θ)] (28) mit s als Vektor der (p + q) · (p + q + 1)/2 Elemente der empirischen Kovarianzmatrix S und σ(Θ) als Vektor der korrespondierenden Elemente der modellimplizierten Kovarianzmatrix Σ(Θ).13 Die Gewichtungsmatrix W−1 hat die Größe (p + q) · (p + q + 1)/2 × (p + q) · (p + q + 1)/2 und enthält die höheren Momente der multivariaten Verteilungen der Elemente von S. Für Gleichung (28) wird die Kovarianzmatrix der Varianzen und Kovarianzen der gemessenen Variablen als optimale Gewichtungsmatrix eingesetzt. Diese Matrix wird als asymptotische Varianz-/Kovarianzmatrix bezeichnet. Die asymptotische Kovarianz zwischen den empirischen Kovarianzen sij und sgh wird im Allgemeinen folgendermaßen berechnet (vgl. Bollen 1989, S. 426):14 13
14
Die ML-, ULS, und GLS-Diskrepanzfunktionen sind Spezialfälle der Gleichung (28), wenn ˆ −1 (bei ML), W−1 = I (bei ULS) oder W−1 = S−1 (bei GLS) ist (vgl. Bollen W−1 = Σ 1989, S. 429). Da die asymptotische Kovarianzmatrix eine Verdopplung der Elemente (p + q) · (p + q + 1) darstellt, werden zur Verdeutlichung vier Indizes i, j, g und h verwendet.
29 Strukturgleichungsmodelle
ACOV (sij ,sgh ) = N −1 (σijgh − σij σgh )
791
(29)
mit σijgh als viertes Moment und σij bzw. σgh als Populationskovarianzen. Die Schätzung für das vierte Moment σijgh lautet (vgl. Browne 1982, S. 82): σ ˆijgh
N 1 = (xit − x ¯i )(xjt − x ¯j )(xgt − x ¯g )(xht − x ¯h ) N t=1
(30)
Die Schätzungen für die Populationskovarianzen σij und σgh lauten: N σ ˆij = N1 t=1 (xit − x ¯i )(xjt − x ¯j ) N ¯g )(xht − x ¯h ) σ ˆgh = N1 t=1 (xgt − x
(31)
Die WLS-Funktion berücksichtigt bei der Modellschätzung die Informationen aus den Verteilungen der Variablen über die asymptotische Varianz-/Kovarianzmatrix und nutzt daher alle Informationen über die Datenstruktur optimal aus. Eine Korrelationsmatrix S kann zur Modellprüfung verwendet werden, wenn die asymptotische Kovarianz der Korrelationen rij und rgh für die Gewichtungsmatrix W−1 eingesetzt wird. Nicht zu vernachlässigende Nachteile sind die von der Größe des Modells abhängige Stichprobengröße und die damit verbundene stabile Schätzung der asymptotischen Varianz-/Kovarianzmatrix. Bei großen Modellen steigt die Größe dieser Matrix überproportional an. Bei nur 10 manifesten Variablen wird eine Zeilen- bzw. Spaltenlänge von (10 · 10 + 1)/2 = 55 erreicht. Die für die WLS-Funktion zu invertierende Gewichtungsmatrix W beinhaltet dann 55 × 55 = 3080 asymptotische Varianzen und Kovarianzen.
3 Ein Beispiel In diesem Abschnitt soll ein Beispiel für ein überschaubares Strukturgleichungsmodell vorgestellt werden. Hierzu werden wir anhand einer inhaltlichen Fragestellung ein Modell schrittweise entwickeln und diskutieren. In diesem Abschnitt wird als Software das Programmpaket LISREL/PRELIS 8.80 verwendet (Jöreskog & Sörbom 1993a,b, 2004). Als inhaltliche Fragestellung wollen wir uns mit dem Einfluss der sozialen Schicht auf fremdenfeindliche (xenophobe) Einstellungen beschäftigen. Wir gehen hierbei davon aus, dass soziale Schicht nicht nur direkt, sondern auch vermittelt über 1) Anomie bzw. Anomia und 2) der Kontaktintensität mit Ausländern wirkt. In diesem Zusammenhang lässt sich gesellschaftliche Anomie15 bzw. auf individueller Ebene Anomia16 als Ursache 15
16
Der ursprüngliche Begriff der Anomie bei Durkheim (1983) als strukturell bedingter Mangel an Regulation wurde von Merton auf die Analyse von Kriminalität übertragen und modifiziert (Merton 1938). Er bezeichnet mit Anomie einen gesellschaftlichen Spannungszustand, der auftritt, wenn kulturell vorgegebene Ziele nicht oder nur schwer mit legitimen Mitteln zu erreichen sind. Sie äußert sich in Gefühlen der Orientierungslosigkeit und Handlungsunsicherheit.
792
Jost Reinecke und Andreas Pöge Anomia −
+ −
Schicht +
Fremdf −
Kontakte
Abb. 5: Strukturmodell von abwertenden Einstellungen gegenüber fremden Gruppen in allen diesbezüglichen Studien nachweisen. Dies gilt, wie neueste Forschungsergebnisse zeigen, in besonderem Maße auch für Anomia als Ursache für Ausländerfeindlichkeit (vgl. Hüpping 2006). Wir können also für unser Modell annehmen, dass anomische Einstellungen ursächlich für fremdenfeindliche Einstellungen sind und demnach einen positiven Effekt haben. Als zweiten Einflussfaktor in Bezug auf xenophobe Einstellungen wollen wir in unserem Modell die Kontaktintensität mit Fremden untersuchen und damit die sogenannte Kontakthypothese überprüfen (vgl. Allport 1954). Sie besagt, dass der Kontakt zwischen Mitgliedern verschiedener ethnischer Gruppen zum Aufbrechen von Stereotypen und Abbau von Vorurteilen zwischen diesen führt. Diese Hypothese ist nicht unkritisch diskutiert und untersucht worden – sie leistet gleichwohl nach wie vor einen wichtigen Beitrag zur Vorurteilsforschung (siehe Reinders 2004, S. 104). Für unser Beispiel gehen wir davon aus, dass je intensivere Kontakte zu Ausländern bestehen, desto weniger fremdenfeindliche Einstellungen vorherrschen. Wir nehmen also an, dass die Kontaktintensität einen negativen Einfluss aufweist. Soziale Schicht wird gleichsam „hinter“ diesen beiden Mediatorvariablen stehend als Ursache für gesellschaftliche Anomie (Anomia) und Kontaktintensität mit Ausländern angesehen. Wir nehmen an, dass eine höhere Schicht Ursache für wenig anomische Einstellungen, jedoch für höhere Kontaktintensität mit Fremden ist. Da nicht davon auszugehen ist, dass der gesamte Einfluss der sozialen Schicht vermittelt über die beiden genannten Konstrukte wirkt, soll auch ein direkter Einfluss auf fremdenfeindliche Einstellungen zugelassen werden. Zusammengefasst vermuten wir also einen – –
direkten Effekt von sozialer Schicht auf fremdenfeindliche Einstellungen, indirekten Effekt von sozialer Schicht auf fremdenfeindliche Einstellungen, der über anomische Einstellungen vermittelt wird, – indirekten Effekt von sozialer Schicht auf fremdenfeindliche Einstellungen, der über Kontaktintensität mit Ausländern vermittelt wird.
Fügt man nun die einzelnen Hypothesen in einem Modell zusammen, so ergibt sich das in Abbildung 5 dargestellte Strukturmodell mit den angenommenen Kausalzusammenhängen, die hier – entsprechend der üblichen Konventionen – in ihrer Richtung mit Pfeilen und in ihrer Wirkungsweise mit Plus- bzw. Minuszeichen verdeutlicht werden.
29 Strukturgleichungsmodelle
793
3.1 Messung der latenten Konstrukte Um die Logik der Messung latenter Konstrukte zu verdeutlichen, sollen hier exemplarisch die Überlegungen vorgestellt werden, die zur Messung der fremdenfeindlichen Einstellungen angestellt werden müssen: Zunächst einmal stellt sich die Frage, was genau eine „fremdenfeindliche Grundeinstellung“ ist und wie man diese messen kann. Wir gehen davon aus, dass eine allgemeine Einstellung bzw. Grundhaltung bei jedem Menschen in irgendeiner Art und Weise vorhanden ist. Es griffe allerdings vermutlich viel zu kurz, versuchte man in einer Erhebung diese Grundhaltung nur über eine einzige Frage zu erfassen.17 Viel genauer wäre die Messung von Fremdenfeindlichkeit über mehrere Items, die unterschiedliche Aspekte von Fremdenfeindlichkeit abdecken können. Wir denken uns daher Fremdenfeindlichkeit als sogenanntes latentes Konstrukt, was bedeutet, dass es eben nicht direkt messbar aber gleichwohl bei jeder Person vorhanden ist. Stellt man nun verschiedene Fragen zu dem Thema, müsste jeder Befragte aufgrund seiner (latenten) Grundeinstellung ein bestimmtes Antwortverhalten bei den einzelnen Fragen zeigen. Wir sagen, dass man das latente Konstrukt Fremdenfeindlichkeit indirekt über verschiedene Einzelfragen – sogenannte Indikatoren –, die inhaltlich zusammenhängen und direkt messbar sind, erheben kann. Andersherum kann somit das latente Konstrukt als Ursache für die tatsächlichen Merkmalsausprägungen der Indikatorvariablen angesehen werden. Die Überlegungen entsprechen damit denjenigen, die bei einer (Hauptachsen-)Faktorenanalyse angestellt werden. 3.2 Messmodell der latenten endogenen Variablen Im ALLBUS 2006 ist eine von der ALLBUS-Arbeitsgruppe entwickelte, eindimensionale Fremdenfeindlichkeits-Skala mit vier Fragen enthalten.18 Aus Gründen der Messqualität werden hier nur drei Variablen zur Messung des Konstruktes „Fremdenfeindlichkeit“ verwendet (v218, v219 und v220). Da fremdenfeindliche Einstellungen in unserem Beispiel erklärt werden sollen, kann das oben eingeführte latente Konstrukt „Fremdenfeindlichkeit“ als eine latente abhängige oder endogene Variable bezeichnet werden. In Abbildung 6 ist die Messung als Pfadmodell dargestellt, einmal in allgemeiner Form und einmal in der LISREL-Notation. 3.3 Messmodell der latenten exogenen Variablen Als grundlegende unabhängige bzw. exogene Variable soll in unserem Modell, wie oben dargelegt, soziale Schicht verwendet werden. Sie wird – stark vereinfacht – über 17
Eine solche Frage müsste ungefähr lauten: „Geben Sie bitte ihre Fremdenfeindlichkeit auf einer Skala von eins bis zehn an.“ 18 Die Fragen mit je siebenstufigen Antwort- bzw. Zustimmungsmöglichkeiten („stimme überhaupt nicht zu“ bis „stimme voll und ganz zu“) lauten: „Die in Deutschland lebenden Ausländer sollten ihren Lebensstil ein bißchen besser an den der Deutschen anpassen“ (v217), „Wenn Arbeitsplätze knapp werden, sollte man die in Deutschland lebenden Ausländer in ihre Heimat zurückschicken“ (v218), „Man sollte den in Deutschland lebenden Ausländern jede politische Betätigung in Deutschland untersagen“ (v219), „Die in Deutschland lebenden Ausländer sollten sich ihre Ehepartner unter ihren eigenen Landsleuten auswählen“ (v220).
794
Jost Reinecke und Andreas Pöge
λ11 η1
λ21 λ31
ε1
Y1 Y2
λ11 Fremdf
λ21 λ31
ε3
Y3 (a) LISREL-Notation
v218
ε1
v219
ε2
v220
ε3
(b) mit Variablennamen
Abb. 6: Messmodell der latenten endogenen Variablen (Fremdenfeindlichkeit)
δ1
X1
δ2
X2
λ11 λ21
ξ1
δ1
v111
δ2
v493
δ3
v523
λ31 δ2
X3 (a) LISREL-Notation
λ11 λ21
Schicht
λ31
(b) mit Variablennamen
Abb. 7: Messmodell der latenten exogenen Variablen (soziale Schicht) drei Indikatorvariablen erhoben: subjektive Selbsteinschätzung der sozialen Schicht, Schulbildung und Berufsprestige.19 Abbildung 7 verdeutlicht das Messmodell. 3.4 Überprüfung der Messmodelle Um die Messmodelle der latenten endogenen und der latenten exogenen Variablen zu überprüfen, setzen wir das Verfahren der konfirmatorischen Faktorenanalyse ein. Hierbei werden im Gegensatz zur exploratorischen Faktorenanalyse die Beziehungen zwischen Indikatorvariablen und latentem Konstrukt im Vorhinein festgelegt und das Modell, so wie vom Anwender spezifiziert, geschätzt. Die Modellprüfung kann dann anhand einer Vielzahl von Parametern erfolgen. Da wir an dieser Stelle noch keine 19
Die Fragen lauten: „Es wird heute viel über die verschiedenen Bevölkerungsschichten gesprochen. Welcher Schicht rechnen sie sich selber eher zu“; Antwortmöglichkeiten: „Unterschicht“, „Arbeiterschicht“, „Mittelschicht“, „obere Mittelschicht“, „Oberschicht“ (v111). „Welchen allgemeinbildenden Schulabschluß haben Sie?“; Antworten: „Schule beendet ohne Abschluß“, „Volks-, Hauptschulabschluß“, „Realschulabschluß/Mittlere Reife“, „Fachhochschulreife“, „Hochschulreife“ (v493). Die eingesetzte Magnitude-Prestigeskala (v523) geht auf eine alternative Messung des Sozialprestiges von Bernd Wegener zurück. Ausgangsbasis ist die Berufsprestige-Einschätzung durch Befragte ohne Vorgabe einer Kategorienliste (vgl. Wegener 1985).
29 Strukturgleichungsmodelle
δ1
X1
δ2
X2
φ21
λ11 λ21
λ42 ξ1
ξ2
λ31 δ3
λ52 λ62
X3
795
X4
δ4
X5
δ5
X6
δ6
v218
.51
v219
.59
v220
.68
(a) Struktur in LISREL-Notation
.67
v111
.45
v493
.47
v523
−.40
.57 .74
.70 Schicht
Fremdf
.73
.64 .57
χ2 = 28.37, df = 8, RMSEA = .027, P-Value for Test of Close Fit (RMSEA < .05) = 1.00
(b) Lösung mit ML-Schätzung
Abb. 8: Konfirmatorische Faktorenanalyse der endogenen und exogenen Konstrukte „Schicht“ und „Fremdenfeindlichkeit“ Kausalzusammenhänge auf der latenten Ebene unterstellen, wird eine Korrelation zwischen den latenten Konstrukten „Fremdenfeindlichkeit“ und „Schicht“ zugelassen (φ11 ).20 Für die Modellschätzung verwenden wir an dieser Stelle die Maximum-Likelihood(ML)-Diskrepanzfunktion. Die Überprüfung des Modells kann mit Hilfe der auf der Webseite des Handbuchs nachlesbaren LISREL-Syntax erfolgen; das Ergebnis ist in Abbildung 8 dargestellt. Es ist zu erkennen, dass die Faktorladungen (λ) in ihren Beträgen bei beiden Konstrukten mit Werten zwischen 0,57 und 0,74 zufriedenstellend bis gut liegen. Alle Parameter des Modells sind hochsignifikant21 – bei der hohen Fallzahl war dies allerdings auch nicht anders zu erwarten. Das Modell passt gut zu den Daten, denn der RMSEA, der die Diskrepanz zwischen Populations- und empirischer Kovarianzmatrix pro Freiheitsgrad misst, liegt unter dem kritischen Wert von 0,05. Dies wird im Modell auch durch den inferenzstatistischen Test of Close Fit bestätigt.22 Die Korrelation 20
21
22
Aus technischen Gründen wird hierbei die im Gesamtmodell später eigentlich abhängige Variable „Fremdf“ bzw. η1 als unabhängige Variable ξ2 behandelt. Die t-Werte der einzelnen Parameter sind nicht dargestellt, der vom Betrag her kleinste Wert liegt hier allerdings bei 18,56. Die inferenzstatistische Absicherung des Modells ist jedoch mit Vorsicht zu betrachten, da die Annahme der ML-Schätzung einer multivariaten Normalverteilung aufgrund der
796
Jost Reinecke und Andreas Pöge
zwischen den latenten Variablen zeigt mit einem Wert von −0,40 einen mittleren negativen Zusammenhang.23 3.5 Intervenierende Variablen Wie oben angeführt, sollen in unser Modell „Anomia“ und „Kontaktintensität mit Ausländern“ als vermittelnde Größen aufgenommen werden. Im ALLBUS sind vier Anomia-Items enthalten, die ursprünglich von Srole (1956) entwickelt und erstmals eingesetzt wurden.24 Da die Items eindimensional und dichotom sind, werden sie in diesem Beispiel als Summenindex (ano_ind) zu einer manifesten Variablen zusammengefasst und als Messung für das latente Konstrukt „Anomia“ verwendet. Die Fehlervarianz der manifesten Variablen wird auf null und dementsprechend die Faktorladung auf eins fixiert. Übertragen gesprochen simulieren wir so eine perfekte Messung von „Anomia“ über den Summenindex „ano_ind“. In dem hier zugrundeliegenden Datensatz sind wiederum vier dichotome Items enthalten, die Kontakte zu Ausländern erfassen.25 Sie werden ebenfalls als Summenindex (kont_ind) zusammengefasst und direkt auf der latenten Ebene eingeführt. Analog zur Vorgehensweise bei „Anomia“ wird auch hier die Fehlervarianz des Summenindex auf null und die Faktorladung auf eins fixiert. 3.6 Strukturgleichungsmodell Die Überprüfung unseres Gesamtmodells kann mit Hilfe der auf der Webseite des Handbuchs dargestellten LISREL-Syntax erfolgen. Für die Parameterschätzung wird wiederum das ML-Verfahren eingesetzt. Da wir keine inhaltlich gerichtete Hypothese zwischen „Kontakte“ und „Anomia“ annehmen, wird hier eine Korrelation zugelassen. Im Ergebnis erhalten wir die in Abbildung 9 dargestellten Effektstärken. Sie zeigen alle die vermuteten Richtungen und können als inhaltliche Bestätigung der aufgestellten Schiefe der Item-Verteilungen strenggenommen nicht erfüllt sind. Hier bieten sich alternative Schätzverfahren an, die im Weiteren noch angesprochen werden. 23 An dieser Stelle hätte bei inhaltlicher Fundierung direkt ein Kausaleffekt zwischen sozialer Schicht und fremdenfeindlichen Einstellungen getestet werden können, der in der Höhe der Korrelation entspricht. 24 Die vier dichotomen Anomiafragen mit den Antwortalternativen „Bin derselben Meinung“ und „Bin anderer Meinung“ lauten: „Egal, was manche Leute sagen: Die Situation der einfachen Leute wird nicht besser, sondern schlechter“ (v439), „So wie die Zukunft aussieht, kann man es kaum noch verantworten, Kinder auf die Welt zu bringen“ (v440), „Die meisten Politiker interessieren sich in Wirklichkeit gar nicht für die Probleme der einfachen Leute“ (v441), „Die meisten Leute kümmern sich in Wirklichkeit gar nicht darum, was mit ihren Mitmenschen geschieht“ (v442). 25 Die dichotomen Fragen mit den Antwortmöglichkeiten „Ja“ und „Nein“ lauten: „Haben Sie persönlich Kontakte zu in Deutschland lebenden Ausländern, und zwar . . . “ „. . . in Ihrer eigenen Familie oder näheren Verwandtschaft?“ (v221), „. . . an Ihrem Arbeitsplatz?“ (v222), „. . . in Ihrer Nachbarschaft?“ (v223), „. . . in Ihrem sonstigen Freundes- oder Bekanntenkreis?“ (v224).
29 Strukturgleichungsmodelle
1.00
ano_ind
797
.00
Anomia .67
v111
.46
v493
.47
v523
−.43
.58 .73
.14
.71
−.30
Schicht
Fremdf
.73
.63
v218
.50
v219
.61
v220
.67
.57 .15
−.26 Kontakte 1.00
kont_ind
.00
χ2 = 46.89, df = 16, RMSEA = .024, P-Value for Test of Close Fit (RMSEA < .05) = 1.00
(a) Effekte und Messfehler (manifeste Ebene) .82
Anomia −.43 1.00
.14
−.09
−.30
Schicht .15
Fremdf
.75
−.26 Kontakte
.98
χ2 = 46.89, df = 16, RMSEA = .024, P-Value for Test of Close Fit (RMSEA < .05) = 1.00
(b) Effekte und Residuen (latente Ebene)
Abb. 9: Strukturgleichungsmodell (ML-Schätzung) Hypothesen gelten. Alle geschätzten Parameter sind wiederum hochsignifikant und auch die Modellanpassungsgüte ist sehr gut. Insofern können wir das Modell und somit die aufgestellten Hypothesen annehmen. Die Varianzaufklärung unserer zentralen Größe, der fremdenfeindlichen Einstellungen, liegt mit 25 % auf einem relativ hohen Niveau (siehe Tabelle 1). Im Einzelnen kann aus inhaltlicher Sicht interpretiert werden, dass soziale Schicht eine Ursache für Kontaktintensität mit Ausländern ist, die wiederum einen negativen Einfluss auf fremdenfeindliche Einstellungen aufweist. Je höher die Kontaktintensität ausfällt, desto geringer sind xenophobe Einstellungen. Soziale Schicht zeigt darüber hinaus einen negativen Einfluss auf anomische Einstellungen, die einen positiven Effekt auf Fremdenfeindlichkeit haben. Je höher die Schicht, desto niedriger fallen die anomischen Einstellungen aus. Der bekannte Effekt, dass anomische Einstellungen Ursache für Fremdenfeindlichkeit sind, lässt sich auch hier bestätigen. Neben diesen
798
Jost Reinecke und Andreas Pöge
Tab. 1: Erklärte Varianz der latenten Konstrukte (ML-Schätzung) erklärte Varianz (R2 ) Kontakte Anomia Fremdf
0,02 0,18 0,25
Tab. 2: Effekte der unabhängigen latenten Variablen „Schicht“ auf die übrigen latenten Konstrukte Effekte direkt Anomia Kontakte Fremdf
−0,43 0,15 −0,30
indirekt — — −0,10
total −0,43 0,15 −0,40
indirekten Effekten der sozialen Schicht weist diese auch einen direkten Effekt auf Fremdenfeindlichkeit auf. Dieser Effekt ist sogar der stärkste Effekt im Hinblick auf die Fremdenfeindlichkeit. Wenn eine Effektzerlegung vorgenommen wird, dann zeigt sich eine nicht unbeträchtliche indirekte Wirkung der sozialen Schicht auf die Fremdenfeindlichkeit, vermittelt über die Anomia und die Kontakte (−0,10), der den Gesamteffekt entsprechend erhöht. Der sogenannte totale Effekt (als Summe des direkten Effekts und der indirekten Effekte) liegt bei −0,40 (siehe Tabelle 2; zu den Details der Effektzerlegung vgl. Reinecke 2005, S. 234 f.). Da durch die Verletzung der Multinormalverteilungsannahme bei der StandardML-Schätzung verzerrte Ergebnisse zu erwarten sind, kann ein alternatives Verfahren angewendet werden. Es bietet sich hierbei die Weighted-Least-Square(WLS)-Diskrepanzfunktion an, die praktisch keine Annahmen bezüglich der Schiefe und Kurtosis der Variablen voraussetzt. Die WLS-Funktion berücksichtigt bei der Modellschätzung die höheren Momente durch die separat mit (vgl. Jöreskog & Sörbom 1993b) zu erstellende Gewichtungsmatrix – der asymptotischen Varianz-/Kovarianzmatrix. Die korrigierten Parameterschätzungen, die Standardfehler und die χ2 -Statistik unterscheiden sich aber nur sehr geringfügig von den Werten aus der ML-Lösung, so dass hier auf eine Diskussion der Unterschiede verzichtet werden kann.
4 Häufige Fehler Kausalität und Linearität Besondere Attraktivität genießen Strukturgleichungsmodelle unter anderem aufgrund der Tatsache, dass sich mit ihnen Kausalzusammenhänge überprüfen lassen. In diesem Zusammenhang müssen allerdings einige Umstände bedacht werden.
29 Strukturgleichungsmodelle
799
Als Grundlage für die gesamten Modellschätzungen dienen die ungerichteten Korrelationen zwischen den einzelnen (manifesten) Variablen. Die Richtung der zu überprüfenden Kausalzusammenhänge muss daher vom Anwender a priori durch inhaltliche bzw. theoretische Überlegungen vorgegeben werden. Es ist mit Hilfe der Strukturgleichungsmodelle „nur“ möglich, nachzuweisen, ob ein vorher spezifiziertes Modell zu den Daten passt. Nur mit Hilfe der inhaltlichen Hypothesen können dann die formulierten Kausalzusammenhänge auch angenommen bzw. auf sie geschlossen werden. Es ist dabei nicht ausgeschlossen, dass ein alternatives Modell ebenso zu den Daten passt. In unserem Beispiel wäre es problemlos möglich, beispielsweise einen Kausalzusammenhang zwischen Anomia und Kontaktintensität zu formulieren – und zwar sowohl in die eine, wie auch die andere Richtung. Das Modell würde genauso gut zu den Daten passen wie das vorgestellte. Da hierfür allerdings eine plausible inhaltliche Begründung fehlt, sollte solch ein Pfad nicht spezifiziert werden. Die Arbeitsweise ist also streng konfirmatorisch in dem Sinne, dass vorher aufgestellte inhaltliche Hypothesen überprüft werden. Zwar ist es technisch möglich, Strukturgleichungsmodelle auch exploratorisch und damit theoriegenerierend einzusetzen, dies ist wissenschaftstheoretisch aus den oben genannten Gründen jedoch höchst problematisch und sollte unbedingt vermieden werden. Für die Überprüfung von Kausalzusammenhängen gilt grundsätzlich, dass eine Ursache zeitlich vor der Wirkung liegen muss. Diese Annahme stellt somit besondere Anforderungen an die verwendeten Daten. Idealerweise kann man daher mit Strukturgleichungsmodellen Längsschnittdaten analysieren. Da in der Praxis häufig keine Längsschnitt- sondern Querschnittsdaten vorliegen, sollte die Anwenderin bzw. der Anwender genau prüfen, ob unter diesem zeitlichen Gesichtspunkt Annahmen über Kausalzusammenhänge überhaupt sinnvoll sein können. Ein weiterer Punkt ist die strenge Annahme der Linearität der unterstellten Beziehungen. Diese Annahme betrifft die gesamten statistischen Grundlagen unter anderem für die Verfahren der Faktoren-, linearen Regressionanalyse und eben auch der Strukturgleichungsmodelle. Stellen lineare Gleichungssysteme keine adäquate Form dar, die unterstellten Zusammenhänge abzubilden, können die Verfahren nicht angewendet werden. Es wäre insofern ein Fehler, die genannten Analysemethoden in Fällen anzunehmen, in denen die Beziehungen durch andere mathematische Modelle beschrieben werden müssen (beispielsweise durch die logistische Funktion). Interpretation des Modellfits und der geschätzten Parameter Die zur Verfügung stehenden EDV-Programme legen nahe, dass die Anpassungsgüte eines Strukturgleichungsmodells ausschließlich nach den Fit-Indizes zu beurteilen ist (insbesondere wenn auf graphische Optionen zurückgegriffen wird). Details, die der Abweichungsmatrix S−Σ (residuals) zu entnehmen sind und die auf Fehlspezifikationen im Modell hinweisen, werden häufig außer Acht gelassen. Modellmodifikationen ausschließlich auf Grund statistischer Tests vorzunehmen (LMTest, Wald-Test) widerspricht dem hypothesentestenden, konfirmatorischen Charakter von Strukturgleichungsmodellen. Oft wird die Anpassungsgüte des Modells durch Empfehlungen des LM-Tests verbessert, ohne dass dafür eine inhaltliche Rechtfertigung besteht.
800
Jost Reinecke und Andreas Pöge
Die geschätzten Parameter basieren in der Regel auf der Analyse einer Kovarianzmatrix und sind deswegen unstandardisiert. Die inhaltliche Interpretation sollte mit standardisierten Parametern erfolgen. Oft wird übersehen, dass die Programme zwischen einer Standardisierung auf der manifesten und der latenten Ebene differenzieren. Die vollstandardisierte Lösung (in LISREL completely standardized solution genannt) sollte in der Regel verwendet werden. Wenn bei multiplen Gruppenvergleichen Differenzen zwischen den Gruppen interpretiert werden, sollte dies auf der Basis unstandardisierter Parameter geschehen, da die Varianzen der manifesten Variablen sich in den Gruppen in der Regel unterscheiden. Standardisierte Parameter berücksichtigen die Differenzen in den Varianzen nicht. Direkte, indirekte und totale Effekte Bei komplexeren Strukturgleichungsmodellen wird die Interpretation der indirekten vermittelnden Effekte oft vernachlässigt. Hier ergeben sich interessante inhaltliche Interpretationen, die aus der graphischen Darstellung des Strukturgleichungsmodells nicht direkt erkennbar sind. In der Regel muss die sogenannte Effektzerlegung in den Programmoptionen extra angefordert werden (bei LISREL in den options durch EF).
5 Literaturempfehlungen Es gibt mehrere gute einführende Lehrbücher zu Strukturgleichungsmodellen. Insbesondere in den neuen Auflagen werden Beipiele für die gängigen Programme wie AMOS, EQS, LISREL und Mplus diskutiert. Inputfiles werden in den Büchern abgedruckt, teilweise auf Webpages zum Download mit dem Datenmaterial zur Verfügung gestellt oder auf beiliegenden CDs mitgeliefert. Hervorzuheben sind hier die englischsprachigen Werke von Schumacker & Lomax (2004) und Kline (2005). Eine auf Deutsch verfasste Einführung bietet Reinecke (2005). Für den mit Matrizenrechnung vertrauten und mehr statistisch orientierten Leser kann auf die Werke von Bollen (1989) und Mulaik (2009) verwiesen werden. Letzteres beinhaltet neben den mathematischen Grundlagen für Strukturgleichungsmodelle auch ein sehr gutes wissenschaftstheoretisches Kapitel über Kausalität (vgl. auch Kapitel 2 in diesem Handbuch).
29 Strukturgleichungsmodelle
801
Anhang
Tab. 3: Die Variablenbezeichnungen Zeichen
Aussprache
Bedeutung
ξ η x y ζ δ
Ksi Eta
exogene latente Variable endogene latente Variable manifeste Variable der latenten Variablen ξ manifeste Variable der latenten Variablen η Residuen der latenten Variablen η Messfehler der manifesten Variablen x Messfehler der manifesten Variablen y
Zeta Delta Epsilon
Tab. 4: Die Matrizen des Messmodells Zeichen
Aussprache
Bedeutung
Λx Λy Θδ Θ
Lambdax Lambday Theta-delta Theta-epsilon
(p × n) Faktorenladungen der x-Variablen (q × m) Faktorenladungen der y-Variablen (p × p) Messfehlervarianzen und -kovarianzen der x-Variablen (q × q) Messfehlervarianzen und -kovarianzen der y-Variablen
Tab. 5: Die Parameter des Messmodells Zeichen
Aussprache
Bedeutung
λx λy θδ θ τx τy
lambdax lambday theta-delta theta-epsilon taux tauy
Element der Matrix Λx (Faktorenladung) Element der Matrix Λy (Faktorenladung) Element der Matrix Θδ (Messfehler) Element der Matrix Θ (Messfehler) Mittelwerte der manifesten Variablen x Mittelwerte der manifesten Variablen y
802
Jost Reinecke und Andreas Pöge
Tab. 6: Die Matrizen des Strukturmodells Zeichen
Aussprache
Bedeutung
Γ B Φ Ψ
Gamma Beta Phi Psi
(m × n) Strukturkoeffizienten zwischen ξ- und η-Variablen (m × m) Strukturkoeffizienten zwischen den η- Variablen (n × n) Varianzen und Kovarianzen zwischen den ξ-Variablen (m × m) Residualvarianzen und -kovarianzen zwischen η-Variablen
Tab. 7: Die Parameter des Strukturmodells Zeichen
Aussprache
Bedeutung
γ β φ ψ κ α
gamma beta phi psi kappa alpha
Element der Matrix Γ (Strukturkoeffizient) Element der Matrix B (Strukturkoeffizient) Element der Matrix Φ (Varianz/Kovarianz) Element der Matrix Ψ (Varianz/Kovarianz) Mittelwerte der latenten Variablen ξ Mittelwerte der latenten Variablen η
Literaturverzeichnis Akaike, H. (1987). Factor Analysis and the AIC. Psychometrika, 52, 317–332. Allport, G. W. (1954). The Nature of Prejudice. Cambridge: Addison-Wesley. Arbuckle, J. L. (2008). Amos 17 User’s Guide. Chicago: SPSS Inc. Bentler, P. M. & Weeks, D. G. (1980). Linear Structural Equations with Latent Variables. Psychometrika, 45, 289–307. Bentler, P. M. & Wu, E. J. C. (2002). EQS 6 for Windows User’s Guide. Encino: Multivariate Software. Blalock, H. M. (1968). Multiple Indicators and the Causal Approach to Measurement Error. American Journal of Sociology, 75, 264–272. Bollen, K. A. (1989). Structural Equations with Latent Variables. New York: Wiley. Bozdogan, H. (1987). Model Selection and Akaike’s Information Criteria (AIC): The General Theory and its Analytical Extensions. Psychometrika, 52, 345–370. Browne, M. W. (1982). Covariance Structures. In D. M. Hawkins (Hg.), Topics in Applied Multivariate Analysis (S. 72–141). Cambridge: Cambridge University Press. Browne, M. W. (1984). Asymptotically Distribution-Free Methods for the Analysis of Covariance Structures. British Journal of Mathematical and Statistical Psychology, 37, 62–83. Browne, M. W. & Cudeck, R. (1993). Alternative Ways of Assessing Model Fit. In K. A. Bollen & J. S. Long (Hg.), Testing Structural Equation Models (S. 136–162). Newbury Park: Sage.
29 Strukturgleichungsmodelle
803
Durkheim, E. (1983). Der Selbstmord. Frankfurt/M.: Suhrkamp. Engel, U. & Reinecke, J. (1994). Panelanalyse: Grundlagen - Techniken - Beispiele. Berlin: DeGruyter. Graff, J. & Schmidt, P. (1982). A General Model for Decomposition of Effects. In K. G. Jöreskog & H. Wold (Hg.), Systems under Indirect Observation: Causality, Structure and Prediction (S. 131–148). Amsterdam: North Holland. Hoogland, J. J. & Boomsma, A. (1998). Robustness Studies in Covariance Structure Modeling: An Overview and a Meta-Analysis. Sociological Methods & Research, 26, 329–367. Hüpping, S. (2006). Anomia. Unsicher in der Orientierung, sicher in der Abwertung. In W. Heitmeyer (Hg.), Deutsche Zustände (S. 86–101). Frankfurt/M.: Suhrkamp. Jöreskog, K. G. & Sörbom, D. (1993a). LISREL 8: Structural Equation Modeling With the SIMPLIS Command Language. Hillsdale: Lawrence Erlbaum Associates. Jöreskog, K. G. & Sörbom, D. (1993b). PRELIS2 - User’s Reference Guide. Chicago: Scientific Software International, Inc. Jöreskog, K. G. & Sörbom, D. (2004). LISREL 8.7 for Windows (Computer software). Lincolnwood: Scientific Software International, Inc. Kaplan, D. (2009). Structural Equation Modeling: Foundations and Extensions. Thousand Oaks: Sage, 2. Auflage. Kenny, D. A. (1979). Correlation and Causality. New York: Wiley. Kenny, D. A. & Judd, C. M. (1984). Estimating the Nonlinear and Interactive Effects of Latent Variables. Psychological Bulletin, 96, 201–210. Kline, R. B. (2005). Principles and Practice of Structural Equation Modeling. New York: Guilford Press, 2. Auflage. Loehlin, J. C. (2004). Latent Variable Models. An Introduction to Factor, Path, and Structural Equation Analysis. Mahwah: Lawrence Erlbaum. Merton, R. (1938). Social Structure and Anomie. American Sociological Review, 3, 672–682. Mulaik, S. A. (2009). Linear Causal Modeling with Structural Equations. Boca Raton: Chapman & Hall/CRC. Muthén, L. & Muthén, B. O. (2006). Mplus User’s Guide. Los Angeles: Muthén & Muthén, 5. Auflage. Neale, M. C., Boker, S. M., Xie, G., & Maes, H. H. (2003). Mx: Statistical Modeling. Richmond: Department of Psychiatry, 6. Auflage. Opp, K. D. & Schmidt, P. (1976). Einführung in die Mehrvariablenanalyse. Reinbek: Rowohlt. Reinders, H. (2004). Allports Erben. Was leistet noch die Kontakthypothese? In D. Hoffmann & H. Merkens (Hg.), Jugendsoziologische Sozialisationstheorie. Impulse für die Jugendforschung (S. 91–108). Weinheim: Juventa. Reinecke, J. (1999). Interaktionseffekte in Strukturgleichungsmodellen mit der Theorie des geplanten Verhaltens: Multiple Gruppenvergleiche und Produktterme mit latenten Variablen. ZUMA-Nachrichten, 45, 88–114. Reinecke, J. (2002). Nonlinear Structural Equation Models with the Theory of Planned Behavior: Comparison of Multiple Group and Latent Product Term Analyses. Quality and Quantity, 36, 93–112.
804
Jost Reinecke und Andreas Pöge
Reinecke, J. (2005). Strukturgleichungsmodelle in den Sozialwissenschaften. München: Oldenbourg Verlag. Rubin, D. B. (1987). Multiple Imputation for Nonresponse in Surveys. New York: John Wiley & Sons. Satorra, A. (1993). Multi-Sample Analysis of Moment Structures: Asymptotic Validity of Inferences Based on Second-Order Moments. In K. Haagen, D. J. Bartholomew, & M. Deistler (Hg.), Statistical Modeling and Latent Variables (S. 283–298). Amsterdam: Elsevier. Satorra, A. & Bentler, P. M. (1988). Scaling Corrections for Chi-Square Statistics in Covariance Structure Analysis. In Proceedings of the Business and Economic Statistics Section of the American Statistical Association (S. 308–313). Alexandria: American Statistical Association. Schumacker, R. E. & Lomax, R. G. (2004). A Beginner’s Guide to Structural Equation Modeling. Mahwah: Lawrence Erlbaum, 2. Auflage. Schumacker, R. E. & Marcoulides, G. A. (1998). Interaction and Nonlinear Effects in Structural Equation Modeling. Mahwah: Lawrence Erlbaum. Schwarz, G. (1978). Estimating the Dimension of a Model. Annals of Statistics, 6, 461–464. Sörbom, D. (1982). Structural Equation Models with Structured Means. In K. G. Jöreskog & H. Wold (Hg.), Systems under Indirect Observations (S. 183–195). Amsterdam: North Holland. Srole, L. (1956). Social Integration and Certain Corollaries: An Exploratory Study. American Social Review, 21, 709–716. Wegener, B. (1985). Gibt es Sozialprestige? Zeitschrift für Soziologie, 14, 209–235. Wright, S. (1934). The Method of Path Coefficients. Annals of Mathematical Statistics, 5, 161–215.
30 Regression mit unbekannten Subpopulationen Petra Stein Universität Duisburg-Essen
Zusammenfassung. Bei der Analyse multivariater Daten in der sozialwissenschaftlichen Forschung werden in der Regel zwei unterschiedliche Typen von statistischen Analysetechniken verwendet. Der erste Typ umfasst Verfahren, die auf der Tradition der Regressionsanalyse gründen. Unter Anwendung dieser Verfahren werden strukturelle Beziehungen zwischen Variablen in statistischen Modellen spezifiziert und anhand empirischer Daten überprüft. Der zweite Typ umfasst Verfahren, die in der Tradtition der Klassifikationsverfahren stehen. Ziel dieser Verfahren ist die Zusammenfassung einer Menge von Objekten zu Gruppen derart, dass die Gruppen bezüglich der einbezogenen Merkmale in sich möglichst homogen und untereinander möglichst heterogen sind. In der empirischen Sozialforschung ist es zwar üblich, diese beiden Typen von Verfahren in getrennten Analysen zu verwenden, aus statistischen Gründen ist es jedoch sinnvoll, diese beiden Typen von Verfahren in einem gemeinsamen Ansatz zu verbinden. In diesem Beitrag wird ein statistisches Analyseverfahren vorgestellt, das eine Synthese zwischen den beiden Typen statistischer Analyseverfahren herstellt. Unter Verwendung des Analyseinstruments kann eine heterogene Population aufgrund der unterschiedlichen Beziehungsstrukturen in homogene Subpopulationen zerlegt werden.
1 Einführung in das Verfahren Ein grundsätzliches Problem in der empirischen Sozialforschung ist das Problem der unbeobachteten Heterogenität. Dieses Problem besagt, dass der Forscher bei der Datenanalyse, unter Anwendung in der empirischen Sozialforschung üblicher statistischer Verfahren, wie beispielsweise der Regressionsanalyse, grundsätzlich mit dem Problem konfrontiert ist, dass auf der Ebene der Gesamtpopulation Strukturen in unbekannten Subpopulationen verdeckt werden. Die Existenz dieser unbeobachteten Heterogenität kann dazu führen, dass Analyseergebnisse stark verzerrt werden. So können sich beispielsweise bei der Regressionsanalyse positive Effekte in einer Subpopulation und negative Effekte in einer anderen Subpopulation gegenseitig aufheben. Dieses Problem kann an einem einfachen Beispiel illustriert werden: Angenommen wir führen für Männer und Frauen simultan eine Regressionsanalyse von Anzahl der wöchentlichen Arbeitszeit auf Einkommen durch. Dann könnte es sein, dass bei Männern ein hoher positiver Regressionskoeffizient geschätzt wurde, bei Frauen hingegen nur ein niedriger positiver Regressionskoeffizient. Auf der Ebene der Gesamtpopulation würden die Koeffizienten für die Männer unterschätzt und für die Frauen überschätzt. Ist das Kriterium, das die Heterogenität erzeugt, bekannt (so wie in diesem Beispiel S. 805–825 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_30, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
806
Petra Stein
das Kriterium Geschlecht), so ist die Schätzung der Regressionskoeffizienten für die bekannten Gruppen unproblematisch. Ist das Kriterium, das die Heterogenität erzeugt, nicht bekannt, besteht die Gefahr, dass die Regressionskoeffizienten verzerrt geschätzt werden. Gewöhnlich werden zur Behandlung unbeobachteter Heterogenität clusteranalytische Verfahren eingesetzt, mit denen die unbekannten Subpopulationen extrahiert werden. In einem weiteren Analyseschritt wird für jede Subpopulation getrennt das der jeweiligen Fragestellung entsprechende statistische Verfahren, wie beispielsweise die Regressionsanalyse, eingesetzt. Bei der Analyse komplexerer Zusammenhänge unter Verwendung von Mittelwert- und Kovarianzstrukturmodellen (im deutschen Sprachgebrauch auch häufig als Strukturgleichungsmodelle bezeichnet; siehe auch Kapitel 29 in diesem Handbuch) werden für jede Subpopulation ein Mittelwert- und Kovarianzstrukturmodell spezifiziert und unter Verwendung der Multiplen-Gruppen-Option, die in Programmen zur Analyse von Mittelwert- und Kovarianzstrukurmodellen wie LISREL implementiert sind, getrennt analysiert und Hypothesen über die Gleichheit von Strukturen in den einzelnen Subpopulationen getestet. Eine derart sequenzielle Vorgehensweise ist jedoch mit einer Reihe von statistischen und forschungstechnischen Nachteilen verbunden. Sie betreffen zum einen die Anwendung der Clusteranalyse und zum anderen die Anwendung der Multiplen-Gruppen-Option in heterogenen Populationen, bei denen das Kriterium, das die Heterogenität erzeugt, unbekannt ist. Nachteile bei der Anwendung der Clusteranalye sind erstens die Bestimmung der Anzahl der Cluster. Da es keinen formalen Test auf die Anzahl der Cluster gibt, kann die angemessene Clusterzahl nur auf explorativem Weg ermittelt werden. Der zweite Nachteil ist die Berechnung von statistischen Kennzahlen für die einzelnen Cluster: Werden Verteilungskennzahlen wie Erwartungswerte und Varianzen nach erfolgter Klassifikation aus den Daten der einzelnen Cluster geschätzt, kann es auf Grund möglicher Fehlklassifikationen (die umso häufiger auftreten, je schlechter die Cluster voneinander getrennt sind) zu inkonsistenten Schätzungen dieser Kennzahlen kommen; diese Schätzungen führen bei nachfolgenden Analysen zu fehlerhaften Schätzungen. Der dritte Nachteil liegt darin, dass bei der Bestimmung der Cluster keine Konditionierung auf erklärende Variablen vorgenommen werden kann. Erst nach erfolgter Klassifikation können die extrahierten Cluster mit Variablen, die als Prädiktoren für die Zugehörigkeit zu einem Cluster fungieren, unter Verwendung der Diskriminanzoder Regressionsanalyse in Beziehung gesetzt werden. Viertens ist die Clusteranalyse ein exploratives Verfahren, das keine Schätzung der asymptotischen Kovarianzmatrix der Kennzahlen eines Clusters liefert. Die Anwendung der Multiplen-Gruppen-Option in Populationen mit unbeobachteter Heterogenität ist fehlerhaft, da eine zentrale Annahme der Multiplen-Gruppen-Option, dass die Stichproben voneinander statistisch unabhängig sind, nicht erfüllt ist. Wie Arminger et al. (1999) zeigen, ist die Kovarianzmatrix des Parametervektors, der die zu schätzenden Parameter enthält, nicht blockdiagonal. Die Verwendung der MultiplenGruppen-Option im Falle der unbeobachteten Heterogenität liefert im Allgemeinen weder konsistente Parameterschätzer noch konsistente Schätzer der asymptotischen Kovarianzmatrix der Parameter und damit falsche Standardfehler sowie falsche Teststatistiken.
30 Regression mit unbekannten Subpopulationen
807
Ausgehend von diesen zentralen methodischen Problemen werden zur Verbesserung der Analysetechniken von Stein (1997) und Arminger et al. (1999) ein statistisches Verfahren entwickelt, das als finite Mischungen konditionaler Mittelwert- und Kovarianzstrukturmodelle bezeichnet wird. Es handelt sich dabei um eine Synthese von zwei Modellklassen: Die statistischen Verfahren zur Identifikation von homogenen Subpopulationen werden mit Ursache-Wirkungsmodellen für bekannte Subpopulationen verbunden. Mit der Entwicklung dieses Verfahrens wird der empirischen Sozialforschung ein Analyseinstrument zur Verfügung gestellt, was es ermöglicht, eine Population mit unbeobachteter Heterogenität in homogene Subpopulationen konditional auf erklärende Variablen zu zerlegen und komplexe Modelle über einseitige und wechselseitige Beziehungen von Variablen zu spezifizieren und zu überprüfen. Das Modell ist in seiner Breite in dem Computerprogramm MECOSA 3 implementiert, Submodelle sind in MPLUS integriert. Dieser Ansatz kann zum einen als Alternative zu den herkömmlichen Clustertechniken verwendet werden. Der Vorteil gegenüber herkömmlichen Clusterverfahren besteht erstens darin, dass bei der Extraktion unbekannter Gruppen erklärende Variablen berücksichtigt werden können, da die finiten Mischungen auf vorgegebene Variablen konditioniert werden können. Zweitens können zur Beschreibung der Unterschiede zwischen den Subpopulationen nicht nur die Mittelwerte, sondern auch die Kovarianzmatrizen der untersuchten Variablen verwendet werden. Dies ermöglicht auf einer deskriptiven Ebene, die Beziehung zwischen den Variablen darzustellen. Drittens können Hypothesen über komplexe Wechselbeziehungen zwischen einzelnen (latenten oder manifesten) Variablen mit Mittelwert- und Kovarianzstrukturmodellen für jede Subpopulation spezifiziert und überprüft werden, indem die bedingten Mittelwerte und Kovarianzen entsprechend parametrisiert werden. Viertens lässt sich eine Signifikanz für die Anzahl der Subpopulationen angeben. Zum anderen ist das Verfahren eine Alternative zur herkömmlichen Anwendung statistischer Verfahren wie Regressionsanalyse, Faktorenanalyse und Mittelwert- und Kovarianzanalyse, weil es ermöglicht, vorhandene Unterschiede in den Strukturen in unbekannten Subpopulationen, die auf der Ebene der Gesamtdaten verdeckt sind, zu ermitteln.
2 Mathematisch-statistische Grundlagen Finite Mischungen sind in der sozialwissenschaftlichen Datenanalyse hauptsächlich als Klassifikationsverfahren in Form der latenten Klassenanalyse für dichotome und qualitative abhängige Variablen bekannt. Im Unterschied zur latenten Klassenanalyse wird in dem hier vorgestellen Modell von einer finiten Mischung metrischer Variablen ausgegangen. Es wird angenommen, dass jedes Stichprobenelement mit einer bestimmten Wahrscheinlichkeit aus einer Subpopulation stammt, die eine spezielle Verteilung der Zufallsvariablen aufweist. Die Aufgabe besteht darin, die Subpopulationen zu identifizieren und die Parameter der einzelnen Verteilungen zu schätzen. Da dies erst durch spezielle Annahmen über diese Verteilung möglich ist, wird bei finiten Mischungen von der Standardannahme ausgegangen, dass die Stichprobenwerte innerhalb jeder Komponente der Mischung einer Normalverteilung folgen. Im Folgenden
808
Petra Stein
wird in Abschnitt 2.1 das Modell sukzessiv entwickelt. Daran anschließend werden in Abschnitt 2.2 drei Möglichkeiten zur Schätzung des Verfahrens vorgestellt. Abschnitt 2.3 diskutiert die Möglichkeiten, die Anzahl der unbekannten Subpopulationen zu testen, und Abschnitt 2.4 stellt verschiedene Anpassungsindizes als Prüfgröße für die Übereinstimmung zwischen Daten und Modell dar. 2.1 Spezifikation Zum besseren Verständnis der hier entwickelten Modelle wird mit der Darstellung der finiten Mischung von univariaten Zufallsvariablen mit zwei Komponenten begonnen. Ein einfaches Beispiel hierfür ist die Verteilung des monatlichen Einkommens in einer Population von Arbeitnehmern. Eine Stichprobe aus dieser Population umfasst sowohl Frauen als auch Männer, deren durchschnittliche Einkommenshöhe bekanntlich unterschiedlich ist. Daher ist die betrachtete Verteilung des Einkommens in der Stichprobe eine Mischung aus der Einkommensverteilung der Frauen und der Einkommensverteilung der Männer. Falls das Geschlecht von jedem Individuum erhoben wird, ist die Schätzung des Mittelwertes und der Varianz des Einkommens für Frauen und Männer trivial. Sind jedoch keine Angaben zum Geschlecht vorhanden, ist die Schätzung der Mittelwerte und der Varianzen des Einkommens für die beiden Geschlechter schwierig. In diesem Fall hat die Dichtefunktion des Einkommens die Form f (yi ) = π1 f1 (yi ) + π2 f2 (yi ) ,
(1)
wobei π1 die Wahrscheinlichkeit angibt, dass ein Mitglied der Population eine Frau ist und π2 die Wahrscheinlichkeit angibt, dass ein Mitglied der Population ein Mann ist. f1 ist die konditionale Dichte des Einkommens von Frauen und f2 die der Männer. Die Dichtefunktion des Einkommens ist demnach zusammengesetzt aus zwei konditionalen Dichtefunktionen f1 und f2 und den Anteilen π1 und π2 , die als mischende Wahrscheinlichkeit bezeichnet werden. f (yi ) wird als Mischungsdichte bezeichnet (Everitt & Hand 1981). Das Einkommen hat einen für jede Komponente der Mischverteilung spezifischen Erwartungswert, nämlich μ1 für die Frauen und μ2 für die Männer, sowie die Varianz σ12 für Frauen und σ22 für Männer. Nimmt man zusätzlich an, dass das Einkommen innerhalb jeder Komponente normalverteilt ist mit f1 = φ(yi ; μ1 ,σ12 ) und f2 = φ(yi ; μ2 ,σ22 ), dann ist die Dichtefunktion der Mischung gegeben als f (yi ) = π1 φ(yi ; μ1 ,σ12 ) + π2 φ(yi ; μ2 ,σ22 )
(2)
mit der Restriktion π2 = 1−π1 , da es sich hierbei um Anteilswerte handelt. φ(yi ; μ1 ,σ12 ) ist die Dichte einer normalverteilten Zufallsvariablen yi mit den Parametern μ1 (Erwartungswert) und σ12 (Varianz). Liegen die Daten nicht für jede Komponente k = 1,2 getrennt vor, sondern nur für die gesamte Mischung, dann müssen sowohl die mischende Wahrscheinlichkeit π1 als auch der Parametervektor (μ1 ,μ2 ,σ12 ,σ22 ) für die konditionalen Dichten von Einkommen geschätzt werden.
30 Regression mit unbekannten Subpopulationen
809
Dieses Beispiel der Aufteilung des Einkommens auf zwei unbekannte Komponenten lässt sich unmittelbar auf K unbekannte Komponenten erweitern. Dies ist für jede einzelne Variable eine Verallgemeinerung der univariaten Zwei-KomponentenMischverteilung zu einer univariaten K-Komponenten-Mischverteilung mit der Dichte f (yi ) =
K
πl φ(yi ; μk ,σk2 ) ,
(3)
k=1
K wobei πk > 0 und k=1 πk = 1 ist. Liegen K Komponenten vor, ist π > 0, k = 1, . . . ,K, da sich sonst die Zahl der Komponenten verkleinert. Da die πk , k = 1, . . . ,K als Anteile der Population anzusehen sind, muss die Summe der Wahrscheinlichkeiten der einzelnen Komponenten den Wert 1 ergeben. Die Parameter πk geben die Wahrscheinlichkeiten an, dass ein Mitglied i der Population der k-ten Komponente entstammt, μk ist der Erwartungswert der k-ten Komponente und σk2 die Varianz der k-ten Komponente. In diesem Fall sind die mischenden Wahrscheinlichkeiten πk , k = 1, . . . ,K − 1 und der Parametervektor (μ1 , . . . ,μk ,σ12 , . . . ,σk2 ) zu schätzen. Die Zwei-Komponenten-Mischverteilung lässt sich ohne weiteres auch auf mehr als eine Variable verallgemeinern. In diesem Fall ist die Dichtefunktion multivariat und bezieht sich auf einen Vektor von Zufallsvariablen. Die Verteilungsparameter sind bekanntermaßen im multivariaten Fall nicht mehr einzelne Erwartungswerte und Varianzen, sondern Mittelwertvektoren und Kovarianzmatrizen. Das Modell ist formal durch die Dichtefunktion f (yi ) = π1 φ(yi ; μ1 ,Σ) + π2 φ(yi ; μ2 ,Σ)
(4)
definiert, wobei π1 und π2 wiederum die Wahrscheinlichkeiten der beiden Komponenten mit der Nebenbedingung π1 + π2 = 1 sind und φ(yi ; μ1 ,Σ) die Dichte einer multivariat normalverteilten Zufallsvariable mit dem Erwartungswert μ1 und der Kovarianzmatrix Σ ist. Bei einer Zufallsstichprobe vom Umfang n aus einer Mischung von zwei multivariaten Normalverteilungen liegt das statistische Problem vor, den Erwartungswert jeder Komponentenverteilung μk , k = 1,2 und die gemeinsame Kovarianzmatrix Σ sowie die mischende Wahrscheinlichkeit π1 zu schätzen. Gibt man die restriktive Annahme gleicher Kovarianzmatrizen auf und geht von zwei auf K Komponenten über, erhält man als Mischverteilung eine Dichte, deren Komponenten multivariat normalverteilt sind mit unterschiedlichen Mittelwertvektoren μk und Kovarianzmatrizen Σk . Dies ist die Verallgemeinerung der Zwei-KomponentenMischverteilung zu einer K-Komponenten-Mischung mit ungleichen Kovarianzmatrizen (Titterington et al. 1985, S. 83): f (yi ) =
K
πk φ(yi ; μk ,Σk ) .
(5)
k=1
In diesem Fall sind die mischenden Wahrscheinlichkeiten πk , k = 1, . . . ,K − 1 und der Parametervektor der einzelnen Elemente aus (μ1 , . . . ,μk ,Σ1 , . . . ,Σk ) zu schätzen.
810
Petra Stein
Die bisher aufgezeigten Beispiele für Mischverteilungen, in denen die Variablen innerhalb jeder Komponente multivariat normalverteilt sind mit unterschiedlichen Mittelwertvektoren μk und Kovarianzmatrizen Σk , können erweitert werden, indem der Erwartungswert und die Kovarianzmatrix innerhalb jeder Komponente der Mischverteilung unter Verwendung genereller Mittelwert- und Kovarianzstrukturen parametrisiert werden. Ein Beispiel hierfür sind Mischungen von Strukturgleichungsmodellen, wie sie von Jedidi et al. (1997) behandelt werden. Ein weiteres Beispiel hierfür sind Mischungen von konfirmatorischen faktorenanalytischen Modellen. Die allgemeine Formulierung der Normalverteilungsdichte φ(yi ; μk ,Σk ) wird dabei durch ein faktorenanalytisches Modell für die Mittelwert- und Kovarianzmatrix in jeder Komponente spezifiziert (Yung 1997): (k) (k) yi |k = νk + Λk ηi + i , (6) wobei νk der Vektor der Regressionskonstanten für die p-dimensionale Variable yi und Λk die p × m Matrix der Faktorenladungen mit m < p ist. Der Erwartungswert (k) (k) (k) der Faktorwerte ηi ist E(ηi ) = τk , V (ηi ) = Φk ist die Kovarianzmatrix der (k) (k) (k) Faktoren, der Erwartungswert der Messfehler i ist E(i ) = 0, V (i ) = Θk ist die (k) (k) Kovarianzmatrix der Fehler. Es wird angenommen, dass i und ηi unkorreliert sind. (k) (k) Für die Faktorwerte ηi und die Fehler i wird eine multivariate Normalverteilung angenommen. Dann sind die Werte der Zufallsvariablen yi in jeder Komponente normalverteilt mit dem Erwartungswert E(yi |k) = μik = νk + Λk τk
(7)
und der Kovarianzmatrix
V (yi |k) = Σk = Λk Φk Λk + Θk .
(8)
Bisher wurden ausschließlich Beispiele für das unkonditionale Modell mit der Dichte f (yi ) der vektoriellen Zufallsvariablen yi betrachtet. Das Modell für unkonditionale Mischungen beruht auf der Annahme, dass alle Variablen in jeder Komponente der Mischverteilung multivariat normalverteilt sind. Bei der Modellierung inhaltlicher Fragestellungen ist im Allgemeinen davon auszugehen, dass bestimmte Variablen als abhängige, unabhängige oder sowohl als abhängige als auch unabhängige Variablen fungieren. In diesem Fall impliziert die Annahme der multivariaten Normalverteilung, dass sowohl die Kriteriumsvariablen als auch die Prädiktorvariablen in den einzelnen Komponenten der Mischverteilung gemeinsam normalverteilt sind. Diese Annahme erweist sich jedoch für soziologische Fragestellungen als unrealistisch, da typische Prädiktorvariablen wie Geschlecht, Alter und Beruf nicht normalverteilt sind. Stein (1997) und Arminger et al. (1999) erweitern daher die traditionelle Analyse von Mischverteilungen, so dass es möglich ist, qualitative Regressoren in Form von Dummyvariablen und nicht normalverteilten metrischen Regressoren einzubeziehen. Sie analysieren Mischungen von multivariaten Normalverteilungen, bei denen der Erwartungswert für jede Komponente der Mischverteilung linear von Regressoren abhängt, die selbst nicht normalverteilt sein müssen. Dies geschieht, indem der Erwartungswert jeder Komponente der Mischverteilung μik als ein Regressionsmodell
30 Regression mit unbekannten Subpopulationen
μik = γk + Πk xi
811
(9)
spezifiziert wird. Hier bezeichnet γk die Regressionskonstante und Πk den Vektor der Regressionskoeffizienten. Diese Vorgehensweise hat neben dem Vorteil der Einbeziehung von Regressoren zwei weitere Vorzüge. Erstens wird die Möglichkeit geschaffen, die in den Regressoren enthaltene Information explizit in das Mischverteilungsmodell aufzunehmen, was zum Beispiel in der Clusteranalyse nicht möglich ist. Zweitens wird die restriktive Annahme der unkonditionalen Normalverteilung der abhängigen Variablen ersetzt durch die wesentlich schwächere Annahme der konditionalen Normalverteilung. Dies ist völlig analog zum Übergang von der Annahme der univariaten Normalverteilung einer Zufallsvariablen zur Annahme der Normalverteilung des Fehlers in einer multiplen Regression. Die Analyse von univariat normalverteilten Mischungen, bei denen der Erwartungswert für jede Komponente linear von Regressoren xi abhängt, die nicht notwendigerweise einer Normalverteilung unterliegen müssen, basiert auf dem Ansatz über Mischungen von konditionalen univariaten Normalverteilungen von DeSarbo & Cron (1988). Dieses Modell wurde von Jones & McLachlan (1992) auf ein multivariates Regressionsmodell verallgemeinert: f (yi |xi ,k) =
K
πk φ(yi ; γk + Πk xi ,Σk ) .
(10)
k=1
Wenn wir den Erwartungswert von x mit μx und die Kovarianzmatrix mit V (x) = Φ bezeichnen, dann ist yi gegeben xi und k normalverteilt mit E(yi |xi ,k) = μik = γk + Πk xi ,
V (yi |xi ,k) = Σk .
(11)
Der gemeinsame unkonditionale Erwartungswert von yi gegeben k und xi und die Kovarianzmatrix sind yi |k γk + Πk μx E = (12) μx xi und
V
yi |k xi
=
Πk ΦΠk + Σk Πk Φ ΦΠk Φ
.
(13)
Die Verallgemeinerung des univariaten Regressionsmodells für Mischungen auf multivariate Regressionsmodelle kann zusätzlich dadurch erweitert werden, dass der bedingte Erwartungswert und die bedingte Kovarianzmatrix innerhalb jeder Komponente der Mischverteilung unter der Verwendung genereller Mittelwert- und Kovarianzstrukturen parametrisiert werden. Diese Parametrisierung ist dann erforderlich, wenn z. B. Pfadmodelle, simultane Gleichungssysteme oder faktorenanalytische Modelle innerhalb der einzelnen Komponenten geschätzt werden sollen. Das multivariate Regressionsmodell kann z. B. als konditionales Strukturgleichungsmodell parametrisiert werden, das für jede Komponente eine eigene spezifische Struktur aufweist. Als ein Beispiel hierfür entwickelt Stein (1997) ein Modell, das aus einem
812
Petra Stein
komponentenspezifischen Strukturgleichungsmodell für den latenten Variablen-Vektor ηi (k) (k) ηi |(xi ,k) = Bk ηi + Γk xi + ξi , k = 1, . . . ,K mit ξi ∼ N (0,Ψk ) (14) besteht. Es wird angenommen, dass der Erwartungswert der latenten Variablen ηi den Wert 0 annimmt. Die Matrix Bk ist die komponentenspezifische Matrix der Regressionskoeffizienten von ηi auf sich selbst. Die Matrix (I −Bk ) wird als invertierbar angenommen. Die Regressionsmatrizen Bk und Γk bilden zusammen die strukturelle Form des Gleichungssystems für ηi . Diese Spezifikation impliziert, dass ηi |(xi ,k) multivariat normalverteilt ist mit dem konditionalen Erwartungswert E(ηi |xi ,k) = (I − Bk )−1 Γk xi
(15)
und der konditionalen Kovarianzmatrix
V (ηi |xi ,k) = (I − Bk )−1 Ψk (I − Bk )−1 .
(16)
Ein komponentenspezifisches faktorenanalytisches Messmodell für yi ist (k)
yi = νk + Λk ηi (k)
(k)
+ i
,
(17)
(k)
(k)
(k)
wobei ηi = ηi gegeben xi und k ist, i ∼ N (0,Θk ), ηi und i sind unkorreliert. Dann ist yi gegeben xi und k multivariat normalverteilt mit dem konditionalen Erwartungswert E(yi |xi ,k) = νk + Λk (I − Bk )−1 Γk xi = γk + Πk xi ,
(18)
wobei γk = νk und Πk = Λk (I − Bk )−1 Γk ist. Die konditionale Kovarianzmatrix ist
V (yi |xi ,k) = Λk (I − Bk )−1 Ψk (I − Bk )−1 Λk + Θk = Σk .
(19)
Stein (1997) und Arminger et al. (1999) fügen die bisher vorgestellten Erweiterungen in Form eines allgemeinen parametrischen Modells für Mischungen von konditional normalverteilten Zufallsvariablen zusammen. Formal ist das Modell definiert als: f (yi |xi ) = π1 φ(yi ; μi1 ,Σ1 ) + π2 φ(yi ; μi2 ,Σ2 ) + . . . + πK φ(yi ; μiK ,ΣK ) .
(20)
Es sei yi ∼ p × 1 ein Vektor von kontinuierlichen abhängigen Zufallsvariablen und xi ∼ q × 1 ein Vektor von Regressoren, der sowohl quantitative als auch qualitative Variablen in Form von Dummyvariablen enthält. Die Zufallsvariable C ∈ 1,2, . . . ,K indiziert die Komponente der Mischung. Die Anzahl der Komponenten K ist in der Regel unbekannt. Die Stichprobenpunkte (yi ,xi ), i = 1, . . . ,n werden als identisch und unabhängig verteilt angenommen mit der Dichte h(yi ,xi ) = f (yi |xi ) · g(xi ), wobei f (yi |xi ) = π1 f1 (yi |xi ) + π2 f2 (yi |xi ) + . . . + πK fK (yi |xi )
(21)
die konditionale Dichte von yi gegeben xi und g(xi ) die marginale Dichte von xi ist. Die Parameter πk sind die Wahrscheinlichkeiten einer finiten mischenden Verteilung,
30 Regression mit unbekannten Subpopulationen
813
K
wobei πk ≥ 0 und k=1 πk = 1 ist. πk gibt die Wahrscheinlichkeit an, dass yi gegeben xi der Komponente Ck entstammt. Die Wahrscheinlichkeiten πk lassen sich als relative Größe der Komponente Ck oder als Anteile der heterogenen Grundgesamtheiten an der Gesamtpopulation interpretieren. Wir nehmen an, dass die abhängigen Variablen yi gegeben die unabhängigen Variablen xi in jeder Komponente der Mischverteilung multivariat normalverteilt sind mit einem Erwartungswert μik und einer Kovarianzmatrix Σk , die spezifisch für jede Komponente k = 1, . . . ,K der Mischung sind, so dass gilt: f (yi |xi ) = π1 φ(yi ; μi1 ,Σ1 ) + π2 φ(yi ; μi2 ,Σ2 ) + . . . + πK φ(yi ; μiK ,ΣK ) .
(22)
Der konditionale Mittelwert E(yi |xi ,C = k) = μik wird als multivariates Regressionsmodell (23) μik = γk + Πk xi spezifiziert, wobei γk den p × 1 Vektor der Regressionskonstanten und Πk eine p × q Matrix der Regressionskoeffizienten, die für jede Komponente k spezifiziert werden, bezeichnet. Σk ist die Kovarianzmatrix der Fehler der multivariaten Regression. Die Regressionsgewichte γk , Πk und die Kovarianzmatrix Σk werden durch einen d-dimensionalen Vektor ϑ ∈ Θ ⊂ Rd parametrisiert, der eine spezifische Struktur für γk , Πk und Σk angibt. Daher werden diese Modelle als konditionale Mittelwertund Kovarianzstrukturmodelle für jede Komponente der Mischung bezeichnet. Man beachte, dass sich über diesen Vektor ϑ auch lineare und nicht-lineare Restriktionen in den Parametern von Spezialmodellen formulieren lassen. Typische Beispiele für lineare Restriktionen sind Gleichheitsrestriktionen, typische Beispiele für nichtlineare Restriktionen sind Ordnungsrestriktionen der Form β1 ≥ β2 für Regressionskoeffizienten in einem linearen Regressionsmodell oder Intervallrestriktionen für Parameter, die häufig mit der logistischen Funktion dargestellt werden. Über die marginale Dichte g(xi ) wird keine spezifische Annahme getroffen. Zusammenfassend kann das hier entwickelte allgemeine Modell als eine finite Mischung von konditionalen multivariaten Normalverteilungen aufgefasst werden. Die Dichte von yi gegeben xi ist daher f (yi |xi ) = π1 φ(yi ; μi1 (ϑ),Σ1 (ϑ)) + π2 φ(yi ; μi2 (ϑ),Σ2 (ϑ)) + · · · + πK φ(yi ; μiK (ϑ),ΣK (ϑ)) . (24)
2.2 Schätzung In konditionalen multivariat normalverteilten Mischungen mit parametrischer Struktur sind die mischenden Wahrscheinlichkeiten πk , k = 1, . . . ,K − 1, die Parameter des multivariaten Regressionsmodells für den bedingten Erwartungswert jeder Komponente der Mischverteilung γk , Πk sowie die Kovarianzmatrix Σk und der Parametervektor ϑ, der die Parameter der reduzierten Form γk , Πk und Σk jeder Komponentenverteilung strukturiert, zu schätzen.
814
Petra Stein
Zur Schätzung der Parameter schlagen Arminger et al. (1999) drei alternative Schätzstrategien vor. Es handelt sich dabei erstens um ein zweistufiges Schätzverfahren, welches eine Kombination aus EM-Algorithmus1 und Minimum-Distanz-Schätzung darstellt. Zweitens handelt es sich um einen direkten EM-Algorithmus und drittens um einen Gradienten EM-Algorithmus. Bei den zuletzt genannten Algorithmen handelt es sich um einstufige Schätzverfahren, in denen gleichzeitig die Parameter des multivariaten Regressionsmodells und die Strukturparameter geschätzt werden. Die Schätzalgorithmen sind in dem Computerprogramm MECOSA 3 implementiert. Technische Einzelheiten zu den Schätzverfahren sowie Ergebnisse von Simulationsstudien, die die Anwendbarkeit der drei Algorithmen demonstrieren, lassen sich in Arminger et al. (1999) finden. In der ersten Stufe der ersten Schätzstrategie werden die mischenden Wahrscheinlichkeiten πk , die Anzahl der Elemente in den einzelnen Komponenten, die konditionalen Erwartungswerte μik als lineare Regressionsfunktionen der erklärenden Variablen (γk , Πk sowie die Kovarianzmatrix Σk ) ohne Berücksichtigung der durch ϑ aufgeprägten parametrischen Struktur (z. B. in Form eines Strukturgleichungsmodells) geschätzt. Dies erfolgt unter Verwendung eines EM-Algorithmus für Regressionsmodelle, der von Jones & McLachlan (1992) entwickelt wurde. Nach der Schätzung der Parameter wird in einer zweiten Stufe die asymptotische Kovarianzmatrix Ω dieser unrestringierten Parameterschätzer geschätzt. Diese asymptotische Kovarianzmatrix ist zum einen zur Berechnung der Teststatistiken und Konfidenzintervalle erforderlich, zum anderen zur Schätzung der Strukturparameter ϑ in der zweiten Stufe der Schätzung unter Verwendung der Minimum-Distanz-Schätzung. Die zweite Schätzstrategie ist die Verallgemeinerung des von Jedidi et al. (1997) für unkonditionale Mischungen von Strukturgleichungsmodellen entwickelten direkten EM-Algorithmus, mit dem sowohl die Parameter des Mischverteilungsmodells als auch die Parameter des Mittelwert- und Kovarianzstrukturmodells in einer Stufe geschätzt werden. Dies geschieht in der gleichen Weise wie in der ersten Stufe des zweistufigen Schätzverfahrens mit dem Unterschied, dass die Maximierung in dem M-Schritt des EM-Algorithmus unter Berücksichtigung der in ϑ enthaltenen Strukturparameter und nicht der Parameter der ersten Stufe γk , Πk und Σk gebildet wird. Als dritte Schätzstrategie ist der Gradienten EM-Algorithmus von Becker et al. (1997) zu nennen. Dieser Algorithmus wird in der gleichen Weise wie der direkte EM-Algorithmus durchgeführt mit dem Unterschied, dass die Iteration innerhalb des M-Schrittes des EM-Algorithmus nicht bis zur Konvergenz erfolgt, sondern bereits nach der ersten Iteration zum E-Schritt zurückkehrt. Der Vorteil des Gradienten EM-Algorithmus gegenüber dem direkten EM-Algorithmus ist die schnellere Durchführbarkeit. 1
Das Grundprinzip des Expectation-Maximization-Algorithmus (EM-Algorithmus) besteht aus zwei Schritten: Im ersten Schritt (E-Schritt) werden die a posteriori Wahrscheinlichkeiten aufgrund der geschätzten Parameter für die mischenden Wahrscheinlichkeiten, Regressionskonstante, Regressionsgewichte und Kovarianzmatrix der Fehler berechnet. Dabei werden die geschätzten Parameter als bekannt vorausgesetzt. Im zweiten Schritt (M-Schritt) werden die Parameter aufgrund der a posteriori Schätzwerte geschätzt. Dabei werden die a posteriori Wahrscheinlichkeiten als gegeben vorausgesetzt.
30 Regression mit unbekannten Subpopulationen
815
Die Entscheidung über die Bevorzugung der ein- oder zweistufigen Schätzstrategie ist von der jeweiligen Problemstellung abhängig. In der Regel ist die Spezifikation von Mittelwert- und Kovarianzstrukturmodellen von unbekannten Subpopulationen komplizierter als bei Subpopulationen, die von vornherein bekannt sind. In diesen Fällen eignet sich das zweistufige Verfahren, da der Forscher zunächst die unrestringierten Parameterschätzer der ersten Stufe γk , Πk und Σk des Schätzverfahrens inspizieren kann, um einen Einblick in die Struktur der bis dahin noch unbekannten Komponenten zu erhalten. Dies ermöglicht ihm, Hypothesen über Beziehungen der Variablen in den einzelnen Komponenten zu formulieren. Ein weiterer Vorteil, der für die Verwendung des zweistufigen Verfahrens spricht, ist die schnellere Berechnung der Parameterschätzer, da im M-Schritt des EM-Algorithmus nur die gewichtete Regressionsanalyse und keine iterative Prozedur eingeht. Darüber hinaus ist als zusätzlicher Vorteil die einfache Implementation eines Testverfahrens zu nennen, mit dem die Anzahl der Komponenten getestet werden kann. Der Vorteil der einstufigen Schätzverfahren liegt darin, dass die Anpassung des Strukturgleichungsmodells durch Zuweisung von Objekten zu anderen Gruppen verbessert werden kann. Dies ist bei der Zwei-Stufen-Prozedur nicht möglich, da die Gruppierung festgelegt ist, nachdem die Klassifikation von Objekten in der ersten Stufe unter Verwendung des unstrukturierten Modells vorgenommen wurde. Ein weiterer Vorteil des einstufigen Schätzverfahrens ist die direkte Schätzung der in ϑ enthaltenen Strukturparameter ohne Berechnung der asymptotischen Kovarianzmatrix der Parameter der ersten Stufe des zweistufigen Verfahrens. Aus diesen Gründen eignet sich das Verfahren immer dann, wenn eine Klassifikation der Subpopulationen aufgrund vorgegebener Mittelwert- und Kovarianzstrukturmodelle vorgenommen werden soll. Die Modelle können jedoch nur formuliert werden, wenn die Anzahl der Komponenten bekannt ist. 2.3 Test auf die Anzahl der Komponenten Im Regelfall ist die Anzahl der Komponenten nicht a priori durch theoretische Annahmen festgelegt, sondern wird gemeinsam mit den mischenden Wahrscheinlichkeiten geschätzt. Daher ist die Anzahl der Komponenten mit einem statistischen Testverfahren zu überprüfen. Als Test auf die Anzahl der Komponenten in einer finiten Mischung multivariater Normalverteilungen wird üblicherweise der Likelihood-Ratio-Test verwendet. Die Anwendung der Likelihood-Ratio-Test-Statistik in Mischverteilungen bringt erhebliche Probleme mit sich, weil die Likelihood-Ratio-Test-Statistik unter der Nullhypothese nicht einer zentralen χ2 -Verteilung mit der Anzahl von Freiheitsgraden, die sich aus der Differenz der Anzahl der Parameter in den beiden Hypothesen ergibt, folgt. Zur Lösung des Problems schlagen Aitkin et al. (1981) die Verwendung des Bootstrap-Ansatzes vor, mit dessen Hilfe die Verteilung der Likelihood-Ratio-TestStatistik geschätzt werden kann.2 Stein (1997) sowie Arminger et al. (1999) verwenden 2
Die Bootstrap-Technik verfolgt das Ziel, eine Vorstellung über die Variabilität einer Zufallsgröße (in der Regel einer Stichprobenfunktion zur Schätzung eines interessierenden Parameters) unter Verwendung der Informationen der Stichprobe zu erhalten. Die Bootstrap-
816
Petra Stein
zur Überprüfung der Anzahl der Komponenten den parametrischen Bootstrap, mit dem sie eine Schätzung der Verteilung der Likelihood-Ratio-Test-Statistik unter der jeweiligen Nullhypothese entwickeln. 2.4 Anpassungsindizes Genau wie in der herkömmlichen Mittelwert- und Kovarianzstrukturanalyse wird auch im Fall der Mischverteilungen als Prüfgröße für die Übereinstimmung zwischen Daten und Modell das minimierte Distanzmaß verwendet, das den unter dem Modell berechneten Mittelwertvektor bzw. der Kovarianzmatrix mit den aus den Daten berechneten empirischen Mittelwertvektor bzw. der Kovarianzmatrix vergleicht. Dieses Distanzmaß entspricht der in der herkömmlichen Kovarianzstrukturanalyse berechneten χ2 - Statistik und ist unter der Nullhypothese der Übereinstimmung der geschätzten Strukturparameter des Mittelwert- und Kovarianzstrukturmodells und den Parametern des konditionalen Mischverteilungsmodells ohne Restriktionen wiederum zentral χ2 verteilt. Der Unterschied besteht darin, dass im Fall der Mischverteilungen sowohl die konditionale Spezifikation als auch die Komponenten der Mischverteilung zu berücksichtigen sind. Zusätzlich werden zur Beurteilung der Anpassungsgüte die inkrementellen Anpassungsindizes NFI (normed fit index), NNFI (nonnormed fit index) und der CFI (comparative fit index) sowie der RMSEA (root mean square error of approximation) adaptiert und weiterentwickelt. Zu den technischen Einzelheiten siehe Stein (1997).
3 Ein Beispiel Zur Illustration des Verfahrens sowie der Schätzprozeduren wird das Modell exemplarisch zur Spezifikation und Überprüfung komplexer Wirkungszusammenhänge zwischen horizontalen sowie vertikalen Merkmalen der sozialen Lage und ästhetischen Geschmackspräferenzen sowie Freizeitverhalten unter Berücksichtigung der unbeobachteten Heterogenität angewendet. Dabei wird der Frage nachgegangen, ob die Bevölkerung konditional auf soziale Lagemerkmale in heterogene Lebensstilgruppierungen zerfällt. Als Datengrundlage wird der ALLBUS 1998 verwendet. In die Analyse werden 3221 Personen einbezogen. Als explanatorische Variablen werden folgende Merkmale ausgewählt: Geschlecht (mit den Ausprägungen 0 für männlich und 1 für weiblich); Alter, skaliert in 10-Jahres-Stufen; Ost/West (mit den Ausprägungen 0 für Wohnsitz in den alten Bundesländern und 1 für Wohnsitz in den neuen Bundesländern); Schulbildung (codiert als Dummy-Variable mit den Ausprägungen 0 für kein Abitur oder Fachhochschulreife und 1 für Abitur bzw. Fachhochschulreife). Methode kann sowohl nicht-parametrisch als auch parametrisch verwendet werden. In der nicht-parametrischen Bootstrap-Methode wird die Variation der Stichprobenfunktion untersucht, indem s Bootstrap-Replikationen aus der vorhandenen Stichprobe mit Zurücklegen gezogen werden und dann aus jeder Replikation die Stichprobenfunktion berechnet wird. In der parametrischen Bootstrap-Methode werden die s Bootstrap-Replikationen als Stichproben aus den parametrischen Annahmen eines bestimmten Modells generiert.
30 Regression mit unbekannten Subpopulationen
817
Die abhängigen Variablen sind die folgenden Lebensstilvariablen: Freizeitaktivitäten: Bücher lesen (V17); Kunst, musische Tätigkeiten (V35); Klassische Konzerte, Theater etc. (V40); Besuch von Sportveranstaltungen (V38); Mit dem Computer beschäftigen (V21); Internet, Online-Dienste nutzen (V22); Einfach nichts tun, faulenzen (V24); Basteln, Reperaturen (V36); Beteiligung in Politik (V32); Ehrenamtliche Tätigkeiten (V33); Kirchgang (V34). Die Variablen werden auf einer fünfstufigen Skala mit den Ausprägungen 1 „täglich“ bis 5 „nie“ erhoben. Musikpräferenzen: Klassische Musik hören (V44); Jazz-Musik hören (V45); Volksmusik hören (V41); Deutsche Schlagermusik hören (V42); Pop- und Rockmusik hören (V43) mit den Ausprägungen 1 „sehr gern“ bis 5 „ungern“. Fernsehinteresse: Shows, Quiz (V53); Heimatfilme (V59); Unterhaltungsserien (V62); Spielfilme (V55); Kriminalfilme (V60); Actionfilme (V61); Sportsendungen (V54); Nachrichten (V56); Politische Magazine (V57) und Interesse an Zeitung: Sport (V70); Politik (V67) und Wirtschaft (V68) mit den Ausprägungen 1 „sehr stark“ bis 5 „überhaupt nicht“. Die Variablen wurden auf der Basis einer konfirmatorischen Faktorenanalyse mit orthogonaler Rotation ausgewählt. Zur Beantwortung der Frage, ob die Stichprobe bezüglich der Struktur der Beziehungen zwischen den Merkmalen der sozialen Lage und den Lebensstilindikatoren in mindestens zwei Subpopulationen unterteilt ist, die als Lebensstilgruppierungen identifiziert werden können, wird eine Analyse in Form finiter Mischungen konditionaler Mittelwert- und Kovarianzstrukturmodelle durchgeführt, mit deren Hilfe folgende Aufgaben gelöst werden: (a) Extraktion der Gruppierungen, die Schätzung und das Testen der Anzahl der Komponenten zur Identifikation der verschiedenen Subpopulationen. (b) Schätzung des Anteils der einzelnen Komponenten an der gesamten Verteilung zur Berechnung der Stichprobengröße innerhalb der Komponenten. (c) Schätzung der Regressionskonstanten, Regressionskoeffizienten und der Kovarianzmatrix der Residuen sowie die unkonditionalen Mittelwerte zur inhaltlichen Charakterisierung der extrahierten Subpopulationen und zur Gewinnung eines ersten Einblicks in die Struktur der Beziehungen zwischen den einbezogenen Variablen innerhalb der Subpopulationen. (d) Schätzung der Parameter der konditionalen Mittelwert- und Kovarianzstrukturmodelle zur Analyse der Beziehungen zwischen den Merkmalen der sozialen Lage und den Lebensstilkonstrukten. Die notwendigen Berechnungen erfolgen mit dem Programm MECOSA 3. Da zunächst noch keine Vorstellung über die Subpopulationen und die Struktur der in die Analyse einbezogenen Variablen innerhalb der Subpoulationen besteht, wird das zweistufige Schätzverfahren – bestehend aus EM-Algorithmus und Minimum-DistanzSchätzung – als Schätzstrategie gewählt. Im Folgenden werden die Ergebnisse der ersten Stufe erläutert. Unter Verwendung des ad hoc-Tests zur Überprüfung der Anzahl der Komponenten kann von drei Subpopulationen ausgegangen werden, da das implizite Testniveau α = 0,999 des Tests H0 : K = 3 gegen H1 : K = 4 den kritischen Wert von 0,05 übersteigt. Die Ergebnisse des ad hoc-Tests, wie die Log-Likelihood-Funktion, die Likelihood-Ratio-Test-Statistik, die Anzahl der Freiheitsgrade und das Testniveau werden in Tabelle 1 dargestellt. Die mischenden Wahrscheinlichkeiten werden als π1 = 0,338, π2 = 0,402 und π3 = 0,259 geschätzt. Die erste Subpopulation enthält damit 1089, die zweite 1089 und die dritte Komponente 837 Personen. Zur inhaltlichen Charakterisierung der drei Sub-
818
Petra Stein
Tab. 1: Log-Likelihood-Funktionen und Likelihood-Ratio-Statistiken Anzahl K der Komponenten
Log-LikelihoodFunktion
1 2 3 4
−131447,448 −126484,673 −125098,796 −124760,587
Likelihood-RatioStatistiken
df
α
9925,551 2771,752 676,418
1160 1740 2320
0,000 0,000 0,999
populationen werden in einem ersten Schritt die Subpopulationen durch Unterschiede und Ähnlichkeiten in den in die Analyse einbezogenen Variablen beschrieben. Zu diesem Zweck werden die unkonditionalen Mittelwerte der Variablen in den einzelnen Subpopulationen verwendet. In Abbildung 1 werden die Mittelwerte der Indikatoren zur Messung der alltagsästhetischen Geschmackspräferenzen und bevorzugten Freizeitaktivitäten dargestellt. Aufgrund des Mittelwertvergleichs aller in die Analyse einbezogener abhängigen Variablen können die drei Subpopulationen folgendermaßen inhaltlich charakterisiert werden: Der erste Typus (33,8 %) ist gekennzeichnet durch Personen, die ein starkes Interesse an hochkulturellen Aktivitäten aufweisen. Die erste Gruppe zeigt in allen Indikatoren, die hochkulturelle Präferenzen messen, wie Besuch von klassischen Konzerten und Theater, Kunst und musische Tätigkeiten, klassische Musik hören, die niedrigsten Werte. Der Unterschied zu der dritten Subpopulation ist jedoch nicht so stark. Die einzige Differenz zu der dritten Gruppe ist ihr größeres Interesse an Computeraktivitäten. Personen in der ersten Subpopulation haben darüber hinaus ein höheres Interesse an politischer Beteiligung, politischen Magazinen und ehrenamtlichen Tätigkeiten. Die zweite Komponente (40,2 %) ist durch ihr starkes Interesse an der Trivialkultur, wie das Hören von Volksmusik und das Sehen von Heimatfilmen, cha-
5
4
3
2 1. Komponente 2. Komponente 3 Komponente 3.
Abb. 1: Mittelwertprofile der Lebensstile in den Komponenten
V34
V33
V32
V36
V24
V22
V21
V68
V67
V57
V56
V70
V54
V38
V61
V60
V55
V43
V62
V59
V53
V42
V41
V58
V45
V44
V40
V35
V17
1
30 Regression mit unbekannten Subpopulationen
819
Tab. 2: Unterschiede in den soziodemographischen Variablen zwischen den Komponenten Komponente
Weiblich
Abitur
Alter in Jahren
Ost
1. Komponente 2. Komponente 3. Komponente
46,19 % 59,38 % 54,48 %
33,06 % 6,87 % 23,78 %
29,8 % 39,8 % 29,9 %
26,54 % 34,83 % 32,97 %
rakterisiert. Personen, die der zweiten Komponente angehören, zeigen weder Interesse an Hochkultur noch an Pop-Musik. Darüber hinaus ist das Interesse an politischen und ökonomischen Inhalten in Zeitungen nur sehr gering. Die zweite Gruppe weist die höchsten Werte in den Indikatoren zur Messung der Computeraktivitäten auf, welches auf ein starkes diesbezügliches Desinteresse hinweist. Die dritte Komponente (26,0 %) ist charakterisiert durch ihr Interesse an Hochkultur. Die Werte, die sie in den Indikatoren zeigen, sind ähnlich derer der ersten Subpopulation. Die dritte Gruppe lässt sich ebenfalls durch ihr Desinteresse an der Trivialkultur charakterisieren. Darüber hinaus zeigt die dritte Komponente die höchsten Werte in den Variablen politische Beteiligung, ehrenamtliche Tätigkeit und Kirchgang. Die hohen Werte zeigen, dass diese Interessen nicht stark ausgeprägt sind. Für die weitere Analyse werden zur sinnvollen Interpretation und besseren Verständlichkeit der Ergebnisse die Variablen umgepolt, so dass ein stark ausgeprägtes Interesse mit dem höchsten Wert „5“ und kein Interesse mit dem niedrigsten Wert „0“ kodiert ist. Die Mittelwerte der in die Analyse eingegangenen unabhängigen Variablen innerhalb der Subpopulationen sind in Tabelle 2 aufgeführt. Ein Vergleich der Werte der unabhängigen Variablen in den drei Komponenten zeigt, dass die Unterschiede in allen soziodemographischen Merkmalen sehr groß ist. Die erste Komponente ist charakterisiert durch einen relativ hohen Anteil an Personen mit Abitur, durch wesentlich jüngere Personen im Vergleich zur zweiten Komponente, durch den geringsten Anteil von Frauen und dem geringsten Anteil an Personen, die ihren Wohnsitz in den neuen Bundesländern haben. Die zweite Komponente ist charakterisiert durch den geringsten Anteil an Personen mit Abitur, durchschnittlich älteren Personen als die anderen Komponenten, den höchsten Anteil an Frauen und den höchsten Anteil an Personen, die ihren Wohnsitz in den neuen Ländern haben. Personen in der dritten Komponente sind durchschnittlich jünger als Personen in der zweiten Gruppe und die Proportion von Personen, die in den neuen Ländern wohnen, ist höher als in der ersten Gruppe und niedriger als in der dritten Gruppe. Neben den oben erläuterten Ergebnissen werden in der ersten Stufe des zweistufigen Schätzverfahrens auch die Parameterschätzer für die Regressionskonstante, die Regressionskoeffizienten und die Kovarianzen der Residuen für jede Subpopulation ausgegeben. Diese gewähren einen Einblick in die Struktur der Beziehungen zwischen den einbezogenen Variablen innerhalb der Subpopulationen und helfen bei der Spezifikation von Hypothesen über die Beziehungen zwischen den Lebensstilindikatoren und den Merkmalen der sozialen Lage. Da die Lebensstilvariablen als Indikatoren für einzelne Lebensstildimensionen fungieren und somit latente Variablen involviert sind,
820
Petra Stein θ
v17
θ
v40
θ
v44
θ
v45
θ
v58
θ
v35
θ
v21
θ
v22
θ
v32
θ
v33
θ
v34
θ
v56
θ
v57
θ
v67
θ
v68
1
1 Hochkultur
Trivialkultur
1 Do-it yourself
1 Computer
1
1 Aktive Partizipation
Spannungsschemata
1
v41
θ
v42
θ
v53
θ
v59
θ
v62
θ
v24
θ
v36
θ
v43
θ
v55
θ
v60
θ
v61
θ
v38
θ
v54
θ
v70
θ
1 Politisches Interesse
Sport
Abb. 2: Messmodell für die latenten Variablen werden die Beziehungen in Form konditionaler Mittelwert- und Kovarianzstrukturmodelle spezifiziert und in der zweiten Stufe des Schätzverfahrens unter Verwendung der Minimum-Distanz-Methode geschätzt. Es wurde zunächst ein Ausgangsmodell spezifiziert, in dem sowohl das Messmodell als auch das Regressionsmodell in allen drei Komponenten dieselbe Struktur aufweisen. In allen Komponenten konnte dieselbe Messstruktur gefunden werden. In Abbildung 2 ist das Messmodell aufgeführt. Das Messmodell enthält acht Lebensstildimensionen, die in den Elipsen dargestellt werden sowie die Zuordnung der einzelnen Lebensstilindikatoren zu den latenten Variablen. Die Indikatoren sind in den Rechtecken angeordnet. Die Fehler befinden sich in den Kreisen. Die Parameterschätzungen für die Messmodelle der Lebensstildimensionen werden in Tabelle 3 dargestellt. Die Tabelle zeigt die geschätzten Faktorladungen für die drei Subpopulationen. Die Indikatoren V17, V21, V32, V56, V41, V24, V43 und V38 werden als Referenzitems für die latenten Variablen verwendet. Die Faktorladungen werden entsprechend auf den Wert 1 restringiert. Ein Vergleich der Faktorladungen zwischen den einzelnen Komponenten zeigt, dass die Faktorladungen sehr unterschiedlich sind, teilweise sogar mit unterschiedlichen Vorzeichen. Dies ist ein Hinweis darauf, dass
30 Regression mit unbekannten Subpopulationen
821
Tab. 3: Faktorladungen für die Messmodelle
Hochkultur v17 v35 v40 v44 v45 v58 Spannungsschemata v43 v55 v60 v61 Trivialkultur v41 v42 v53 v59 v62 Do-it-yourself v24 v36 Sport v38 v54 v70 Politisches Interesse v56 v57 v67 v68 Computer v21 v22 Aktive Partizipation v32 v33 v34
1. Subpopulation
2. Subpopulation
3. Subpopulation
1,000 0,096 0,185 1,628 1,851 2,209
1,000 0,081 0,271 0,302 2,311 0,808
1,000 0,477 −0,810 −1,880 3,319 0,601
1,000 0,182 0,663 0,408
1,000 0,053 0,582 0,349
1,000 0,184 0,465 0,714
1,000 0,855 0,185 0,864 0,158
1,000 0,299 −0,047 1,431 −0,167
1,000 2,362 2,872 1,743 3,869
1,000 −0,805
1,000 −0,611
1,000 −0,957
1,000 2,437 2,348
1,000 6,597 4,566
1,000 −3,535 −3,662
1,000 1,706 3,067 2,643
1,000 2,011 3,093 2,848
1,000 1,607 2,792 2,726
1,000 0,409
1,000 −0,587
1,000 0,185
1,000 1,645 2,432
1,000 −0,004 −0,026
1,000 0,806 0,155
z. T. die Konnotationen der einzelnen Faktoren in den einzelnen Subpopulationen sehr unterschiedlich sind. Im Folgenden werden die Ergebnisse der Strukturmodelle für jede Komponente graphisch dargestellt. Die Pfeile stellen die signifikanten Effekte der explanatorischen Variablen auf die abhängigen Variablen dar. Die explanatorischen Variablen werden in allen drei Gruppen aufgeführt, auch wenn in einer Gruppe keine signifikanten Effekte
822
Petra Stein
Sport 0,36 Geschlecht Hochkultur 0,17 0,15
Schulbildung
Politisches Interesse
0,15 0,47
0,48
Trivialkultur
0,23
Computer
0,50
Aktive Partizipation
Alter
Spannungsschemata
Ost/West 0,39
Do-it yourself
Abb. 3: Signifikante Effekte in der ersten Subpopulation (ausgedrückt durch das Nichtvorhandensein eines Pfeils) vorhanden sind. Abbildung 3 zeigt das Modell mit den Parameterschätzungen für die erste Komponente. In der ersten Subpopulation variiert die Lebensstildimension „Sport“ signifikant nur mit Geschlecht. Männer zeigen demnach ein höheres Interesse an Sportereignissen, Sportartikel in der Zeitung und Sportsendungen im Fernsehen als Frauen. Ebenfalls lassen sich signifikante Effekte von Geschlecht auf politisches Interesse feststellen, wonach Männer stärker politisch interessiert sind als Frauen. Die latente Variable „Trivialkultur“ zeigt einen negativen Effekt von Geschlecht und Schulbildung und einen positiven Effekt von Alter. Demnach zeigen ältere Leute, Frauen und Personen mit niedrigerem Schulabschluss ein stärkeres Interesse an dieser Kulturform. Die latente Variable „Computer“ zeigt einen negativen Effekt von Alter und einen positiven Effekt von Bildung. Jüngere Personen und Personen mit Abitur haben ein höheres Interesse, sich mit dem Computer zu beschäftigen. Die latente Variable „Spannungsschemata“ variiert signifikant nur mit Alter. Ältere Personen haben weniger Interesse an Kriminalfilmen, Actionfilmen und Spielfilmen. Der Regressionskoeffizient von Ost/West auf Do-it-yourself ist negativ, was darauf hinweist, dass Personen mit Wohnsitz in den neuen Bundesländern weniger Interesse am Nichtstun und ein stärkeres Interesse am Handwerken haben. (Diese Interpretation ergibt sich aufgrund der negativen Faktorladung). Abbildung 4 zeigt das Modell und die geschätzten Parameter für die zweite Subpopulation. In dieser Gruppe variiert der Faktor „Do-it-yourself“ signifikant nur mit Schulbildung. Wie in der ersten Gruppe zeigt die latente Variable „Trivialkultur“ eine negative Abhängigkeit von Schulbildung und eine positive Abhängigkeit von Alter.
30 Regression mit unbekannten Subpopulationen Sport 0,23 Geschlecht Hochkultur 0,12 Politisches Interesse Schulbildung
0,16 Trivialkultur 0,23 Computer
Alter 0,45
0,78 Aktive Partizipation
Spannungsschemata
Ost/West
Do-it yourself
Abb. 4: Signifikante Effekte in der zweiten Subpopulation
Sport
Geschlecht Hochkultur
Politisches Interesse Schulbildung Trivialkultur 0,21 Computer Alter 0,43
Aktive Partizipation
0,21 Ost/West
Spannungsschemata
0,27 0,38
Do-it yourself
Abb. 5: Signifikante Effekte in der dritten Subpopulation
823
824
Petra Stein
Personen mit Abitur und jüngere Personen interessieren sich weniger für diese Art Kultur als Personen mit geringerer Schulbildung und ältere Personen. Auch besteht Ähnlichkeit mit der ersten Subpopulation bezüglich der Beziehung zwischen der latenten Variablen „Spannungsschemata“ und Alter. Ältere Personen zeigen weniger Interesse an Kriminalfilmen, Actionfilmen und Spielfilmen. Ähnlich zur ersten Subpopulation ist auch der signifikante Effekt von Geschlecht auf politisches Interesse. Männer zeigen offensichtlich auch ein höheres politisches Interesse als Frauen, der Koeffizient ist jedoch nicht sehr hoch. Die Regressionskoeffizienten der soziodemographischen Merkmale auf die Lebensstildimensionen für die dritte Subpopulation sind in Abbildung 5 aufgeführt. Die Beziehungen zwischen den Faktoren und den manifesten Variablen unterscheidet sich sehr stark von den beiden anderen Subpopulationen. Im Unterschied zu den beiden vorherigen Gruppen lassen sich signifikante Effekte von Geschlecht, Alter und Ost/West auf „Do-it-yourself“ finden. Die latente Variable „Spannungsschemata“ zeigt eine negative Abhängigkeit von Alter und eine positive Abhängigkeit von Ost/West. Wie in den anderen Subpopulationen zeigen ältere Personen weniger Interesse an Kriminalfilmen, Actionfilmen und Spielfilmen. Zusätzlich zeigen Personen mit Wohnsitz in den neuen Bundesländern mehr Interesse an Filmen als Personen mit einem Wohnsitz in den alten Bundesländern.
4 Häufige Fehler Fehler, die bei der Anwendung des Verfahrens immer wieder auftauchen, sind erstens die Überfrachtung des Modells mit zu vielen unabhängigen Variablen. Dieses Problem ist insbesondere bei Anfängern sehr verbreitet und betrifft die Anwendung regressionsanalyischer Verfahren im Allgemeinen. Jedoch verstärkt sich das Problem in der Anwendung des hier vorgestellten Verfahrens, da die Parameter nicht nur für eine Population, sondern jeweils für alle extrahierten Subpopulationen geschätzt werden. Der zweite Fehler liegt in der Verwendung nicht metrischer Variablen seitens der abhängigen Variablen. Nur Variablen, die auf einer fünfstufigen Skala (viel besser siebenstufig und höher) gemessen wurden, können als abhängige Variablen in dem Modell verwendet werden. Eine Skala mit nur vier Stufen ist nicht ausreichend. Die Variable kann jedoch durch zufällige Störung der Werte auf ein metrisches Niveau gehoben werden.
5 Literaturempfehlungen Zur leichteren Einführung in die Problematik der unbeobachteten Heterogenität und das Modell der finiten Mischung ist Everitt & Hand (1981) geeignet. McLachlan & Peel (2000), McLachlan & Basford (1988) sowie Titterington et al. (1985) geben einen guten Überblick über Mischverteilungsmodelle. Weitere Entwicklungen der Mischverteilungen bezüglich der Einbeziehung von normalverteilten und nicht normalverteilten Regressoren lassen sich in DeSarbo & Cron (1988), Stein (1997, 2006) und Arminger
30 Regression mit unbekannten Subpopulationen
825
et al. (1999) finden. Eine Erweiterung in Hinblick auf die Einbindung von Mittelwertund Kovarianzstrukturmodellen lassen sich in Yung (1997) und Jedidi et al. (1997) finden. Weitere Entwicklungen bezüglich der konditionalen Mischverteilungen mit parametrischer Struktur der bedingten Momente lassen sich in Stein (1997) sowie Arminger et al. (1999) finden. Beispiele für die Anwendung in der sozialwissenschaftlichen Forschung geben Arminger & Stein (1997), Stein (2000), Stein & Kelleter (2002) sowie Stein (2006).
Literaturverzeichnis Aitkin, M., Anderson, D., & Hinde, J. (1981). Statistical Modelling of Data on Teaching Styles. Journal of the Royal Statistical Society, A 144, 419–461. Arminger, G. & Stein, P. (1997). Finite Mixtures of Covariance Structure Models with Regressors. Sociological Methods Research, 26, 148–182. Arminger, G., Stein, P., & Wittenberg, J. (1999). Mixtures of Conditional Mean and Covariance Structure Models. Psychometrika, 64, 475–494. Becker, M. P., Yang, I., & Lange, K. (1997). EM Algorithms without Missing Data. Statistical Methods in Medical Research, 6, 37–53. DeSarbo, W. S. & Cron, W. L. (1988). A Maximum Likelihood Methodology for Clusterwise Linear Regression. Journal of Classification, 5, 249–282. Everitt, B. S. & Hand, D. J. (1981). Finite Mixture Distributions. London: Chapman & Hall. Jedidi, K., Jagpal, H. S., & DeSarbo, W. S. (1997). Finite Mixture Structural Equation Models for Response-Based Segmentation and Unobserved Heterogenity. Marketing Science, 16, 39–59. Jones, P. N. & McLachlan, G. J. (1992). Fitting Finite Mixture Models in a Regression Context. Australian Journal of Statistics, 43, 233–440. McLachlan, G. & Peel, D. (2000). Finite Mixture Models. New York: John Wiley. McLachlan, G. J. & Basford, K. E. (1988). Mixture Models. New York: Marcel Dekker. Stein, P. (1997). Konstruktion und sozialwissenschaftliche Anwendung finiter Mischungen von Kovarianzstrukturmodellen. Köln: Josef Eul. Stein, P. (2000). Modelle zur Aufdeckung unbeobachteter Heterogenität bei der Erklärung von Lebenszufriedenheit. Zeitschrift für Soziologie, 29, 138–159. Stein, P. (2006). Mixture of Covariance Structure Models to Infinity Different Types of Live Style. Methodology, 2, 99–112. Stein, P. & Kelleter, K. (2002). Mediennutzung und politische Partizipation. Eine Analyse finiter Mischungen konditionaler LISREL-Modelle zur Identifikation heterogener Subpopulationen. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 54, 281–303. Titterington, D. M., Smith, A. F. M., & Makov, U. E. (1985). Statistical Analysis of Finite Mixture Distributions. Chichester: Wiley. Yung, Y. F. (1997). Finite Mixtures in Confirmatory Factor-Analysis Models. Psychometrika, 62, 297–330.
31 Logistische Regression Henning Best und Christof Wolf a b
Universität Mannheim GESIS – Leibniz-Institut für Sozialwissenschaften und Universität Mannheim
Zusammenfassung. Die logistische Regression ist ein multivariates Analyseverfahren zur Analyse von dichotomen abhängigen Variablen, d. h. binären Variablen mit zwei Ausprägungen. Aus einer linearen Modellierung der logarithmierten Odds (Logits) des Auftretens von x = 1 ergibt sich eine nichtlineare Modellierung der Wahrscheinlichkeiten. Wir werden sehen, dass diese Nichtlinearität zwar einerseits notwendig und sinnvoll ist, andererseits aber auch zu substanziellen Unterschieden in der Interpretation im Vergleich zu OLS-Regressionsverfahren führt. Im vorliegenden Beitrag wird zunächst eine Einführung in die Logik des Verfahrens gegeben und die Interpretation der Ergebnisse vorgestellt. In einem zweiten Schritt werden grundlegende mathematische Eigenschaften der logistischen Regression dargestellt und fortgeschrittene Erweiterungen diskutiert (Standardisierung, Effekte auf die Wahrscheinlichkeiten, Interaktionen). Die Anwendung der logistischen Regression wird daraufhin am Beispiel der Bildungsvererbung praktisch dargestellt. Im letzten Abschnitt wird auf häufige Fehler, insbesondere in der Interpretation, hingewiesen (Odds-Ratios, Nichtlinearität, Interaktionen).
1 Einführung in das Verfahren In der sozialwissenschaftlichen Forschung werden häufig Tatbestände untersucht, die in dichotomen Variablen1 abgebildet werden. Typische Untersuchungsgegenstände sind etwa Entscheidungen oder daraus resultierende Zustände. So untersuchen beispielsweise Hubert & Wolf (2007) mit logistischen Regressionen die Determinanten der Teilnahme an beruflicher Weiterbildung, und Best (2008) analysiert die Entscheidung von Landwirten, ihren Betrieb auf ökologische Landwirtschaft umzustellen. Gängige Untersuchungsgegenstände sind z. B. auch Arbeitslosigkeit oder der (Hoch-)Schulabschluss. Eine dichotome Variable ist dadurch gekennzeichnet, dass sie nur zwei Zustände annehmen kann. Wie bei den meisten regressionsbasierten Verfahren ist es sinnvoll, wenn die Variable 0/1-codiert ist. Nehmen wir an, die Variable soll bezeichnen, ob eine Person Abitur hat oder nicht, so würde man sinnvollerweise „Abitur“ mit „1“ und „kein Abitur“ mit „0“ codieren (also „Abitur ja/nein“).
1
Dichotome Variablen sind Variablen mit zwei Ausprägungen. Als alternative Bezeichnung wird häufig auch „binäre Variable“ verwendet.
S. 827–854 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_31, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
Henning Best und Christof Wolf
0
.2
P(Abitur) .4 .6
.8
1
828
20
40 60 Berufsprestige Vater (Treiman) LPM
80
Beobachtungen
Abb. 1: Lineares Wahrscheinlichkeitsmodell 1.1 Das lineare Wahrscheinlichkeitsmodell Eine recht einfache Möglichkeit, die Determinanten der Hochschulreife multivariat zu untersuchen, wäre es, eine OLS-Regression mit der Variable „Abitur ja/nein“ zu schätzen. Die geschätzte abhängige Variable yˆ ist zwar nicht mehr dichotom, sondern metrisch, kann jedoch mit der Variable „Abitur ja/nein“ in Bezug gesetzt werden, indem man sie als Wahrscheinlichkeit interpretiert, dass der Befragte Abitur hat. Entsprechend wird angenommen, dass die unabhängigen Variablen die Auftrittswahrscheinlichkeit P (y = 1) = yˆ linear beeinflussen: P (y = 1) = β0 + β1 x1 + β2 x2 + · · · + βk xk + ε .
(1)
Aufgrund der Interpretation von yˆ als Auftrittswahrscheinlichkeit und der linearen Modellierung wird dieses Verfahren als „linares Wahrscheinlichkeitsmodell“ (LPM, linear probability model) bezeichnet. Schätzt man beispielsweise mit dem ALLBUS2 die Wahrscheinlichkeit, dass ein Befragter Abitur hat anhand des beruflichen Prestiges des Vaters, ergibt sich die in Abbildung 1 gezeigte Regressionsgerade.3 Wie man sieht, steigt nach diesem Modell die Wahrscheinlichkeit, das Abitur zu erwerben mit dem Berufsprestige des Vaters an. Allerdings führt die Anwendung des LPM auch zu einer Reihe von ernstzunehmenden Problemen (siehe z. B. Menard 1995, S. 1–11 für eine ausführlichere Diskussion): –
2 3
Für bestimmte Ausprägungen von x können Werte geschätzt werden, die außerhalb des definierten Wertebereichs der Wahrscheinlichkeiten liegen (0 ≤ P (y = 1) ≤ 1). Im vorliegenden Beispiel wird etwa eine negative Wahrscheinlichkeit für TreimanPrestigewerte unter 25 Punkten vorhergesagt. Kumulation 1980–2006, nur über 21-Jährige, Westdeutschland. Wir verwenden hier die Skala von Treiman (1977).
31 Logistische Regression
829
–
Da die beobachtete abhängige Variable nur Werte von 0 und 1 annehmen kann, ist die Varianz des Fehlerterms bei linearer Modellierung abhängig von der jeweiligen Ausprägung der unabhängigen Variablen (Heteroskedastizität). Dies wiederum führt zu einer ineffizienten OLS-Schätzung und verzerrten Standardfehlern. – Für gegebene Werte der unabhängigen Variablen können die Residuen nur zwei Werte annehmen, so dass die Normalverteilungsannahme der Residuen verletzt wird. – Die funktionale Form des LPM, also die lineare Parametrisierung, ist insbesondere in den Randbereichen nicht angemessen. Es ist anzunehmen, dass sich die Wahrscheinlichkeiten den Extremwerten 0 und 1 nicht linear, sondern allmählich annähern (siehe auch Abbildung 2 auf Seite 831 und die folgenden Ausführungen).
Zwar gibt es eine einfache Erweiterung des LPM, um das Über- und Unterschreiten des Wertebereichs zu verhindern (eine Spline-Funktion mit P (y = 1) = 0 für yˆ ≤ 0 und P (y = 1) = 1 für yˆ ≥ 1), eine solche Trunkierung der Regressionsgleichung ist jedoch nicht optimal. Dies gilt insbesondere, da die anderen Probleme der linearen Modellierung und OLS-Schätzung nicht behoben werden. 1.2 Die logistische Regression Wenige Transformationen und ein Wechsel auf Maximum-Likelihood-Schätzung erlauben es, die zwangsläufige Verletzung der statistischen Grundannahmen von OLS zu vermeiden und gleichzeitig eine funktionale Form zu finden, die besser an die Modellierung von Wahrscheinlichkeiten angepasst ist. Auch in der logistischen Regression wird als abhängige Variable nicht die beobachtete dichotome Variable modelliert, sondern die unbeobachteten Auftrittswahrscheinlichkeiten. Zwei einfache Umformungen führen jedoch zu einer Variable, die im Gegensatz zu Wahrscheinlichkeiten einen Wertebereich von −∞ bis +∞ aufweist. Wir werden sehen, dass die Umformungen gleichzeitig zu einer funktionalen Form führen, die Wahrscheinlichkeitsverläufe sinnvoll darstellen kann. Odds statt Wahrscheinlichkeiten: Um den Wertebereich der abhängigen Variablen auf +∞ auszudehnen, werden statt Wahrscheinlichkeiten Odds betrachtet. Odds werden häufig für Gewinnquoten z. B. bei Pferdewetten verwendet und sind als O=
P 1−P
(2)
definiert, stehen also für das Verhältnis der Eintrittswahrscheinlichkeit zur Gegenwahrscheinlichkeit. Einer Wahrscheinlichkeit von 10 % entsprechen demnach Odds von 10/90 = 0,11, 50 % sind 50/50 = 1 und 90 % ergeben Odds von 90/10 = 9. Odds sind zwischen 0 und +∞ definiert, wobei gilt, dass die Odds sich +∞ annähern, wenn die Wahrscheinlichkeit sich 100 % nähert. Somit ist die Obergrenze des ursprünglichen Wertebereiches beseitigt. Hieraus folgt gleichzeitig, dass die Transformation nicht linear ist (z. B. P = 99 → O = 99; P = 99,9 → O = 999).
830
Henning Best und Christof Wolf
Logits statt Odds: Um auch die feste Untergrenze zu beseitigen, werden in der logistischen Regression die Odds logarithmiert. Man erhält die so genannten Logits: Logit = ln O = ln
P . 1−P
(3)
Die Logarithmusfunktion hat die Eigenschaft, dass ihre Nullstelle bei 1 liegt, so dass Werte kleiner 1 durch Logarithmieren negativ, Werte größer 1 positiv werden.4 Das heißt, Odds zwischen 0 und 1 – also Wahrscheinlichkeiten unter 0,5 – werden auf den Wertebereich −∞ bis unter 0 der Logit-Skala abgebildet. Odds zwischen 1 und +∞ hingegen – also Wahrscheinlichkeiten zwischen 0,5 und 1 – werden auf den Wertebereich zwischen 0 und +∞ transformiert. Wenn man bedenkt, dass einer Wahrscheinlichkeit von 0,5 Odds von 1 entsprechen, ist diese Eigenschaft durchaus wünschenswert. Damit ist auch die Untergrenze des ursprünglichen Wertebereiches beseitigt. Die logistische Regression verwendet nun die logarithmierten Odds von P (y = 1|x), also die Logits, als abhängige Variable. Die Logits werden mit einer einfachen linearen Funktion modelliert, so dass die rechte Seite der Regressionsgleichung Logit = ln
P = β0 + β1 x1 + β2 x2 + · · · + βk xk 1−P
(4)
auf den ersten Blick identisch mit der des linearen Wahrscheinlichkeitsmodells ist. Der wesentliche Unterschied ist jedoch, dass die lineare Modellierung sich nicht – wie im LPM – auf Wahrscheinlichkeiten, sondern auf Logits bezieht. Möchte man sehen, wie Wahrscheinlichkeiten in der logistischen Regression modelliert werden, muss Gleichung (4) nach P aufgelöst werden (umstellen und entlogarithmieren): P (y = 1) =
eLogit eβ0 +β1 x1 +β2 x2 +···+βk xk = . β +β x +β x +···+β x k k 1+e 0 1 1 2 2 1 + eLogit
(5)
Die Basisgleichung der logistischen Regression ist somit linear in Bezug auf die Logits, aber nichtlinear in Bezug auf die Wahrscheinlichkeiten. Dies mag zwar zunächst unpraktisch erscheinen, ist aber notwendig um erstens – wie beschrieben – Probleme mit der Ober- und Untergrenze des Wertebereichs zu vermeiden und zweitens eine adäquate Abbildung des Wahrscheinlichkeitsverlaufs zu ermöglichen. Um dies zu demonstrieren, stellt Abbildung 2 die Regressionsgerade des linearen Wahrscheinlichkeitsmodells und die nichtlineare Modellierung der Wahrscheinlichkeit im logistischen Regressionsmodell einander gegenüber. Als Referenz dient jeweils eine nichtparametrische Regressionskurve (Lowess), die an die relative Häufigkeit des Abiturs und das Prestige der Väter angepasst wurde. Hierfür wurde für jeden Prestigewert der Väter die relative Häufigkeit, dass Söhne Abitur haben, im kumulierten ALLBUS berechnet. Man sieht, dass beide Modellierungen (logistisch und linear) relativ gut geeignet sind, um die erwarteten Wahrscheinlichkeiten in der Mitte des Wertebereichs von x abzubilden. An den Rändern hingegen (im vorliegenden Beispiel insbesondere am unteren Rand) ist das LPM nicht mehr zu einer angemessenen Abbildung des Wahrscheinlichkeitsverlaufs in der Lage. Die logistische Kurve hingegen approximiert die allmähliche Annährung der Wahrscheinlichkeiten an null bzw. eins sehr gut. 4
Der Logarithmus ist nur für Werte größer null definiert.
31 Logistische Regression
(a) Lineares Wahrscheinlichkeitsmodell
831
(b) Logistisches Regressionsmodell
Abb. 2: Relative Häufigkeit des Abiturs nach Prestige des Vaters 1.3 Interpretation der Koeffizienten Aus der in Gleichung (4) dargestellten Formulierung der logistischen Regression ergibt sich, dass sich die Regressionskoeffizienten grundsätzlich auf die logarithmierten Odds bzw. Logits beziehen. In Bezug auf die Logits verläuft die Interpretation jedoch analog zur OLS-Regression (siehe auch Kapitel 24 in diesem Handbuch): Die Regressionskonstante β0 ist der y-Achsenabschnitt und gibt an, wie hoch der Logit ist, wenn alle unabhängigen Variablen den Wert null annehmen. Die Steigung der Geraden wird durch die Regressionskoeffizienten βi dargestellt, so dass sich die logarithmierten Odds um βi Einheiten verändern, wenn xi um eine Einheit steigt (unter Konstanthaltung der jeweils anderen unabhängigen Variablen). Entsprechend steht ein negativer βKoeffizient für einen negativen Zusammenhang zwischen der unabhängigen Variablen und den Logits (fallende Regressionsgerade, je größer x, desto kleiner die Logits), ein positiver Koeffizient für einen positiven Zusammenhang (steigende Regressionsgerade, je größer x, desto größer die Logits). Bei allen augenscheinlichen Parallelen zur OLSRegression ist jedoch unbedingt zu beachten, dass logarithmierte Odds inhaltlich nicht interpretierbar sind, da eine nichtlineare Verknüpfung zu den Wahrscheinlichkeiten besteht (man erinnere sich: P = O/1+O). Hieraus folgt, dass auch die β-Koeffizienten der logistischen Regression inhaltlich kaum sinnvoll zu interpretieren sind. Lediglich eine Angabe der Richtung des Zusammenhangs ist möglich, da die Verknüpfung zwischen Logits und Wahrscheinlichkeiten trotz ihrer Nichtlinearität vorzeichenwahrend ist, also ein monotoner Zusammenhang zwischen Logits und Wahrscheinlichkeiten besteht. Aufgrund dieser Schwierigkeiten wird vielfach vorgeschlagen, statt der β-Koeffizienten die entlogarithmierte Variante eβ zu verwenden (sog. „Effektkoeffizienten“ oder „Odds-Ratios“). In der Tat ergibt sich aus einer Entlogarithmierung der Regressionsgleichung (4) eine Modellierung der Odds: P
O = eLogit = eln 1−P = eβ0 +β1 x1 +β2 x2 +···+βk xk = eβ0 · eβ1 x1 · eβ2 x2 · (· · · ) · eβk xk . (6)
832
Henning Best und Christof Wolf
Tab. 1: Logits, Odds, Wahrscheinlichkeiten und ihre Veränderung nach Prestige Prestige 20 30 40 50 60 70
L
ΔL
O
OR
P
ΔP
−2,8484 −2,0776 −1,3068 −0,5360 0,2348 1,0056
+0,7708 +0,7708 +0,7708 +0,7708 +0,7708
0,0579 0,1252 0,2707 0,5851 1,2647 2,7335
×2,1615 ×2,1615 ×2,1615 ×2,1615 ×2,1615
0,0548 0,1113 0,2130 0,3691 0,5584 0,7322
+0,0565 +0,1017 +0,1561 +0,1893 +0,1737
Wie man sieht, wird durch die Entlogarithmierung aus dem ehemals linear-additiven Modell ein multiplikatives Modell. Folglich sind eβ -Koeffizienten grundlegend anders zu interpretieren als β-Koeffizienten: Erstens beziehen sie sich nicht mehr auf Veränderungen der Logits, sondern eben auf Odds. Zweitens geben sie eine faktorielle, d. h. multiplikative Veränderung an („factor change“). So bedeutet eβi = 2 beispielsweise, dass sich die Odds für y = 1 verdoppeln (Multiplikation mit 2), wenn sich xi um eine Einheit erhöht; entsprechend steht eβi = 0,33 für eine Verringerung der Odds um 2/3 bei einem Ansteigen von xi um eine Einheit (Multiplikation mit 0,33). Ein eβ < 1 zeigt demnach einen negativen Zusammenhang an, eβ > 1 steht für eine positive Beziehung der beiden Variablen, und der neutrale Wert ist 1 (kein Zusammenhang). Aufgrund der multiplikativen Verknüpfung geben die Koeffizienten gleichzeitig das Verhältnis an, in dem die Odds vor und nach einer Veränderung von x um eine Einheit zueinander stehen, sie können als „Odds-Ratios“ (OR) interpretiert werden. Die eβ -Koeffizienten bieten damit eine scheinbar einfache und anschauliche Interpretation, insbesondere bei Verwendung von Dummies als unabhängige Variablen. Beliebt sind hierbei Interpretationen in der Art „die Chancen [manchmal auch: die Odds], Abitur zu haben, sind bei Männern 1,5-mal höher als bei Frauen“. Zwar ist eine solche Interpretation formal korrekt, inhaltlich jedoch nur wenig sinnvoll, da die Gefahr besteht, dass diese Aussage falsch interpretiert wird. Odds sind Wahrscheinlichkeitsverhältnisse und Odds-Ratios entsprechend sogar Verhältnisse von Wahrscheinlichkeitsverhältnissen. Werden in diesem Beispiel Odds-Ratios als Verhältnis PMänner/PFrauen , also als sog. relatives Risiko, fehlinterpretiert (und das ist mithin die naheliegendste inhaltliche Interpretation), werden Effekte zwar in ihrer Richtung korrekt beurteilt, in ihrer Stärke aber generell überschätzt. Eine OR von 1,5 bedeutet eben nicht, dass Männer eine 1,5-mal höhere Wahrscheinlichkeit aufweisen, das Abitur zu erwerben als Frauen. Vielmehr ist – abhängig von der Basiswahrscheinlichkeit – jedes relative Risiko zwischen 1 und 1,5 möglich. Wir raten daher von der Verwendung von eβ -Koeffizienten bzw. Odds-Ratios ab. Eine über die Effekt-Richtung hinausgehende Interpretation ist allein auf der Basis des Koffizienten nicht möglich, wird aber häufig impliziert. Soll der Zusammenhang zwischen zwei Variablen auf Basis einer logistischen Regression über Vorzeichen und Signifikanz hinaus interpretiert werden, ist es anzuraten, vorhergesagte Wahrscheinlichkeiten zu berechnen (siehe Gleichung (5)). Der nichtlineare Wahrscheinlichkeitsverlauf kann dann für ausgewählte Konstellationen der
31 Logistische Regression Wahrscheinlichkeiten
Odds
Logits 2
3,0
1
2,5
0,8 0,6
2,0
0
1,5
-1
833
0,4
1,0
-2
0,5
-3
0,0
20
30
40
50
60
Berufsprestige des Vaters
70
02 0,2 0,0 20
30
40
50
60
Berufsprestige des Vaters
70
20
30
40
50
60
70
Berufsprestige des Vaters
Abb. 3: Logits, Odds und Wahrscheinlichkeiten unabhängigen Variablen z. B. anhand eines Conditional-Effect-Plot interpretiert werden (siehe hierzu Abschnitt 3, hilfreich ist auch Kapitel 34 in diesem Handbuch). Wir möchten an dieser Stelle das Verhältnis von Logits, Odds und Wahrscheinlichkeiten an einem einfachen Beispiel veranschaulichen. Dafür gehen wir von dem bereits aus Abbildung 2 bekannten Modell aus, in dem der Erwerb des Abiturs in Abhängigkeit vom Berufsprestige des Vaters untersucht wird. Für dieses Modell wurde auf Basis des kumulierten ALLBUS 1980–2006 die Gleichung # Logit(Abitur) = −4,3900 + 0,07708 Prestige geschätzt. Am Vorzeichen des Steigungskoeffizienten erkennen wir, dass das Prestige des Vaters sich positiv auf die Wahrscheinlichkeit für den Erwerb des Abiturs beim Kind auswirkt. Es ist auch klar, dass die Logits für Abitur mit jeweils 10 Prestigeeinheiten um 0,77 Einheiten ansteigen. Was das für die Wahrscheinlichkeiten heißt, ist zunächst jedoch nicht klar. Dazu müssen die Logits mit Hilfe von Gleichung (5) in Wahrscheinlichkeiten umgerechnet werden. Exemplarisch ist dies in Tabelle 1 geschehen. Eine grafische Darstellung des Zusammenhangs zwischen dem Prestige des Vaters und den Logits, Odds bzw. Wahrscheinlichkeiten der Kinder, das Abitur zu erreichen, findet sich in Abbildung 3. Demnach kommt man auf Basis des Modells für 20 Prestigepunkte zur Erwartung eines Logit von −2,85 oder einer Wahrscheinlichkeit von 0,05. Bei einem Berufsprestige von 40 Punkten wird ein Logit von −1,31 geschätzt, was einer Wahrscheinlichkeit von 0,21 entspricht. Und bei 70 Prestigepunkten schließlich wird ein Logit von 1 und entsprechend eine Wahrscheinlichkeit von 0,73 vorhergesagt. Die Tabelle enthält auch die Angaben zu den entsprechenden Odds, die gewissermaßen als Zwischenschritte berechnet wurden. Unter Kindern von Vätern mit einem Berufsprestige von 20 Punkten kommen auf 100 Kinder ohne Abitur lediglich sechs Kinder mit Abitur (O = 0,06).5 Bei Kindern, deren Väter es auf 70 Prestigepunkte bringen, kommen auf 100 Kinder ohne Abitur bereits 273 Kinder mit Abitur (O = 2,73). Schließlich wird aus der Tabelle auch deutlich, dass sich die Logits linear verändern. Das bedeutet, dass bei Zunahme der unabhängigen Variablen um eine Einheit sich die Logits jeweils um einen konstanten Betrag verändern – hier +0,77 Einheiten pro 10 Prestigepunkte. Die Odds hingegen verändern sich jeweils um einen konstanten Faktor. Im Beispiel steigen die Odds alle 10 Prestigepunkte um mehr als das Doppelte, genauer um den Faktor 5
Man beachte, dass es nicht heißt „haben von 100 Kindern sechs Kinder kein Abitur“. Diese Formulierung würde eine Wahrscheinlichkeit beschreiben.
834
Henning Best und Christof Wolf
e10∗0,077 = 2,16. Die Veränderung der Wahrscheinlichkeiten schließlich folgt keiner einfachen Regel. Zunächst nimmt die Wahrscheinlichkeit beschleunigt zu, dann geht die Zunahme jedoch wieder zurück (+0,06; +0,10; +0,16; +0,19; +0,17).
2 Mathematisch-statistische Grundlagen In diesem Abschnitt demonstrieren wir zunächst die formale Herleitung der logistischen Regression unter der Annahme latenter Variablen und zeigen Bezüge zu Probit-Modellen. Sodann wird kurz die (Maximum-Likelihood)-Schätzung eines Logitmodells vorgestellt und Eigenschaften der Logitkoeffizienten werden diskutiert (Standardisierung, Interaktionen). Zum Abschluss werden Gütemaße und statistische Inferenz diskutiert. 2.1 Herleitung als nichtlineares Modell mit latenter abhängiger Variable Alternativ zu der oben geschilderten Herleitung über logarithmierte Odds kann die logistischen Regression auch über die Annahme einer nicht beobachteten, also latenten abhängigen Variable hergeleitet werden. Das Latente-Variable-Modell hat den Vorteil, einfache Bezüge zu anderen Verfahren zu ermöglichen (insbesondere der Probit-Regression) und die Grundannahmen der logistischen Regression systematischer aufzuzeigen. Logit-Regression Grundlegend für die logistische Regression ist die Annahme, dass eine latente, d. h. unbeobachtete, Variable y ∗ existiert, die dazu führt, dass Personen Zustände annehmen oder Entscheidungen treffen, deren Auftreten empirisch beobachtet werden kann (als dichotome Variable y).6 Die beobachtete Variable y wird eins, wenn y ∗ einen bestimmten Schwellenwert τ überschreitet, der in der logistischen Regression arbiträr als τ = 0 festgelegt wird. Die latente Variable y ∗ kann wiederum linear modelliert werden:7 y ∗ = x β + ε . (7) Ist die Verteilung der Fehler bekannt, kann die Wahrscheinlichkeit von y = 1 berechnet werden (vgl. z. B. Long 1997, S. 44 f. oder Wooldridge 2002, S. 457). Es gilt, dass P (y = 1|x) = P (y∗ > τ ) = P (y ∗ > 0) .
(8)
Setzt man entsprechend Gleichung (7) y ∗ = x β + ε ein, ergibt sich P (y = 1|x) = P (x β + ε > 0) , 6
7
(9)
Bei Entscheidungen könnte eine solche latente Variable beispielsweise der subjektiv erwartete Nutzen der Handlungsalternative sein. Aus Gründen der Übersichtlichkeit wird in diesem Abschnitt Vektornotation verwendet. x β ist hierbei gleichbedeutend mit β0 + β1 x1 + β2 x2 + · · · + βk xk .
31 Logistische Regression
835
also nichts anderes als die formalisierte Annahme, dass die Wahrscheinlichkeit von y = 1 der Wahrscheinlichkeit entspricht, dass die Schätzwerte der Regressionsgleichung größer als der Schwellenwert τ = 0 sind. Ein einfaches Umstellen der Ungleichung auf der rechten Seite führt zu P (y = 1|x) = P (ε > −x β) .
(10)
Die rechte Seite der Gleichung steht nun für die Wahrscheinlichkeit, dass die Fehler ε größer als ein bestimmter Wert sind (hier: −x β). Oben wurde darauf verwiesen, dass die Verteilung der Fehler bekannt sein muss. Nimmt man an, dass die Fehler ε eine stetige, um den Nullpunkt symmetrische Verteilung aufweisen, gilt, dass P (ε > −a) = P (ε ≤ +a). D. h., die Fläche unter der Wahrscheinlichkeitsdichtefunktion rechts eines negativen Werts a ist identisch mit der Fläche links des entsprechenden positiven Werts (eine einfache Folge der Symmetrie). Damit kann auf der rechten Seite der Gleichung das Vorzeichen von −x β geändert werden, so dass P (y = 1|x) = P (ε ≤ x β) .
(11)
Der rechte Teil der Gleichung, P (ε ≤ x β), beschreibt nun die Wahrscheinlichkeit, dass ε kleiner oder gleich ein bestimmter Wert ist. Exakt diese Wahrscheinlichkeit wird von einer kumulativen Verteilungsfunktion (CDF) beschrieben. Bezeichnet man diese Verteilungsfunktion als G(·) kann man die Gleichung als P (ε ≤ x β) = G(x β)
(12)
schreiben. Dies wiederum bedeutet, dass P (y = 1|x) = G(x β) .
(13)
Es muss also die genaue Form der Funktion G(·) bekannt sein, und diese ist – wie in Gleichung (12) beschrieben – nichts anderes als die Verteilung der Fehler ε. Im Gegensatz zum OLS-Modell können diese jedoch empirisch nicht beobachtet werden (bei unbeobachtetem y ∗ ist auch der Fehlerterm ε = y ∗ − y4∗ nicht beobachtbar). Daher sind Annahmen über Verteilung, Standardabweichung und Erwartungswert der Schätzfehler notwendig. Im Rahmen der logistischen Regression wird angenommen, dass a) die Fehler (Residuen) einer logistischen Verteilung folgen, sie b) eine Standardabweichung √ von σε|x = π/ 3 haben und c) ihr bedingter Erwartungswert E(ε|x) = 0 ist. Aus diesen drei Annahmen folgt, dass ex β . (14) G(x β) = 1 + ex β Der etwas ungewöhnlich erscheinende Wert der Standardabweichung wurde hierbei so gewählt, dass Gleichung (14) eine möglichst einfache Form annimmt. Setzt man nun Gleichung (14) in Gleichung (13) ein, ergibt sich die schon aus Abschnitt 1.2 bekannte Basisgleichung der logistischen Regression:
P (y = 1|x) =
ex β . 1 + ex β
(15)
836
Henning Best und Christof Wolf
Zur Identifikation der logistischen Regression sind damit eine Reihe von Annahmen und Festlegungen notwendig: Erstens über den Schwellenwert τ , bei dessen Überschreiten y = 1 beobachtet wird, zweitens über die Verteilung der Residuen, drittens die Residualvarianz und viertens ihren Erwartungswert. Werden die Annahmen wie oben beschrieben getroffen, führt dies zum Modell der logistischen Regression. Probit-Regression Trifft man andere Annahmen über die Verteilung der Residuen, ergibt sich gleichzeitig auch eine andere Modellierung der Wahrscheinlichkeit P (y = 1). Wird angenommen, dass die Residuen standardnormalverteilt sind (d. h. σε|x = 1 und E(ε|x) = 0) ergibt sich analog zu der oben dargestellten Herleitung das Probit-Modell. Aufgrund der Verteilungsannahme gilt hier, dass 1 G(a) = √ 2π
a
e−
z2 2
dz .
(16)
−∞
Da die Verteilungsfunktion der Standardnormalverteilung sich in ihrem Verlauf nur geringfügig von der CDF einer logistischen Verteilung mit σ = 1 unterscheidet, führen Logit- und Probit-Modelle zu nahezu identischen Schätzergebnissen in Bezug auf die Wahrscheinlichkeit von y = 1. Die Koeffizienten des linearen Logit- oder ProbitModells sind jedoch skalenabhängig und werden daher von der Standardabweichung der jeweiligen Verteilung mit bestimmt. Die Koeffizienten können jedoch näherungsweise ineinander umgerechnet werden. Da die Standardabweichung der Residuen in der √ logistischen Regression mit σε = π/ 3 festgesetzt wurde, gilt, dass βLogit ≈ √π3 βProbit = 1,81βProbit . Long (1997, S. 48) bezieht die Unterschiede im funktionalen Verlauf der beiden Verteilungsfunktionen mit in die Berechnung ein und schätzt ein Verhältnis der Koeffizienten von ungefähr 1,7. 2.2 Schätzung Wie in allen Regressionsverfahren wird auch in der logistischen Regression angestrebt, Werte für die Regressionskoeffizienten β zu finden, mit denen sich die beobachteten Daten möglichst gut reproduzieren lassen. Aufgrund von Eigenschaften der logistischen Regression (insbesondere Heteroskedastizität und Nicht-Linarität in Bezug auf die Wahrscheinlichkeiten) führt die Methode der kleinsten Quadrate (OLS) jedoch zu ineffizienten Schätzungen. Es wird daher auf eine Maximum-Likelihood-Schätzung zurückgegriffen (vgl. Kapitel 10 in diesem Handbuch für eine genauere Darstellung). Die Anpassung der Regressionsgeraden an die empirischen Daten ist in der logistischen Regression dann besonders gut, wenn für Fälle, bei denen empirisch yi = 1 beobachtet wird, eine möglichst hohe Wahrscheinlichkeit P(y=1|x) vorhergesagt wird (nahe eins). Bei Fällen, die empirisch yi = 0 aufweisen, sollte die vorhergesagte Wahrscheinlichkeit P (y = 1|x) hingegen möglichst gering sein (nahe null). Die letzte Bedingung ist äquivalent zu der Forderung, dass 1−P (y = 1|x) möglichst hoch sein soll. x β Da die vorhergesagte Wahrscheinlichkeit als P (y = 1|x) = e /1+ex β berechnet wird,
31 Logistische Regression
837
können die beiden genannten Bedingungen für einen einzelnen Fall in der folgenden Gleichung kombiniert werden, so dass sich f (yi ) = P (yi = 1)yi (1 − P (yi = 1))1−yi bzw.
f (yi |xi ; β) =
exi β 1 + ex i β
yi
exi β 1− 1 + ex i β
(17)
1−yi (18)
ergibt. Da y nur die Werte null und eins annehmen kann, ist aufgrund der Potenzierung mit yi bzw. 1 − yi jeweils nur ein Teil der Formel interessant: bei yi = 1 die erste Hälfte des rechten Terms, bei yi = 0 die zweite Hälfte. Die Funktion kann Werte zwischen null und eins annehmen, wobei höhere Werte auf eine bessere Anpassung verweisen. Im Maximum-Likelihood-Verfahren wird angenommen, dass (β|xi ; yi ) = f (yi |xi ; β). Folglich berechnet sich die Likelihood eines einzelnen Falls analog zu Gleichung (18) als yi 1−yi exi β exi β . (19) 1− (β|xi ; yi ) = 1 + exi β 1 + exi β Selbstverständlich kann jedoch nicht nur ein einzelner Fall der Stichprobe betrachtet werden, sondern die Schätzung der Regressionskoeffizienten muss auf Basis aller Fälle erfolgen. Hierfür wird das Produkt der sog. „Likelihoods“ über alle Fälle betrachtet, so dass y n 1−y n $ $ exi β exi β (20) 1− L(β|y; X) = 1 + ex i β 1 + ex i β i=1 i=1 die zu maximierende Likelihood-Funktion darstellt. Auch diese Funktion folgt der oben geschilderten Logik. Um die Maximierung zu vereinfachen, wird üblicherweise nicht die Likelihood-Funktion als solches verwendet, sondern ihre logarithmierte Variante, die Log-Likelihood: n n exi β exi β y ln (1 − y) ln 1 − ln L(β|y; X) = + . (21) 1 + ex i β 1 + ex i β i=1 i=1 Durch das Logarithmieren werden z. B. die Produkte in Summen transformiert, die Stelle, an der die Funktion ihr Maximum erreicht, jedoch nicht beeinflusst. Die eigentliche Maximierung erfolgt in einem iterativen Verfahren, bei dem für β generische Startwerte verwendet werden – beispielsweise die (ineffizienten) Ergebnisse einer OLS-Schätzung. Es sollte unbedingt beachtet werden, dass für ML-Schätzungen größere Stichproben benötigt werden als für OLS-Schätzungen. Zwar gibt es keine belastbaren Mindestgrößen, Long (1997, S. 54) empfiehlt jedoch ein Minimum von 100 Fällen und 10 Fällen pro Parameter. 2.3 Vergleich von Koeffizienten und unbeobachtete Heterogenität Die grundlegende Interpretation der Regressionskoeffizienten wurde bereits in Abschnitt 1.3 diskutiert. Dort wurde argumentiert, dass die β-Koeffizienten im logistischen
838
Henning Best und Christof Wolf
Regressionsmodell lediglich in Hinblick auf ihr Vorzeichen interpretiert werden sollten. Für eine detaillierte Interpretation wurde auf grafische Darstellungen vorhergesagter Wahrscheinlichkeiten verwiesen. Es kann allerdings durchaus von Interesse sein, zu prüfen, wie sich Regressionskoeffizienten beim schrittweisen Aufbau von Modellen verändern; in der OLS-Regression können hierdurch Schlussfolgerungen auf Drittvariableneffekte gezogen werden. In der logistischen Regression wird diese Interpretation durch die Tatsache erschwert, dass erstens die Varianz von y ∗ unbekannt ist, und zweitens die Fehlervarianz als 2 konstant angenommen wird (σε2 = π /3). Die unbeobachtete Varianz wird aus dem Regressionsmodell geschätzt und ist somit von der Erklärungskraft des Modells bzw. vom Ausmaß unbeobachteter Heterogenität abhängig. Die Varianz erhöht sich, wenn das Modell besser an die Daten angepasst ist. Hieraus folgt, dass sich die (geschätzte) Varianz der latenten abhängigen Variablen y ∗ verändert, wenn zusätzliche erklärende Variablen in das Regressionsmodell aufgenommen werden (oder sich, in anderen Worten, die unbeobachtete Heterogenität verringert). Folglich beziehen sich auch die β-Koeffizienten zweier genesteter Modelle8 auf unterschiedlich skalierte abhängige Variablen und können in ihrer Größe nicht sinnvoll verglichen werden. Es ist unklar, ob eine eventuelle Veränderung der Koeffizienten auf Veränderungen von y ∗ oder auf Interkorrelationen der unabhängigen Variablen zurückgehen. In OLS-Regressionen wirkt sich unbeobachtete Heterogenität (also letztlich eine Fehlspezifikation des Modells) nur dann auf die Regressionskoeffizienten aus, wenn die unbeobachteten Variablen mit den im Modell enthaltenen Unabhängigen korreliert sind. Folglich ist das Problem in der logistischen Regression deutlich ausgeprägter, da unbeobachtete Heterogenität die Koeffizienten verzerren kann, selbst wenn die unabhängigen Variablen unkorreliert sind. Um dennoch Koeffizienten zu erhalten, die zwischen zwei (genesteten) Modellen verglichen werden können, stehen zwei recht einfache Möglichkeiten zur Verfügung: Erstens können vollstandardisierte bzw. y ∗ -standardisierte Koeffizienten berechnet werden, bei denen die artifizielle Veränderung der Varianz von y ∗ durch Standardisierung weitgehend ausgeglichen wird. Zweitens ist es möglich, den durchschnittlichen marginalen Effekt (average marginal effect, AME) der unabhängigen Variablen zu berechnen. AME gibt einen durchschnittlichen Effekt auf die Wahrscheinlichkeiten an und ist nicht von (unkorrelierter) unbeobachteter Heterogenität betroffen. Standardisierte Koeffizienten Der vollstandardisierte Koeffizient β s ist definiert als βjs = βj
σxj , σy ∗
(22)
wobei σy∗ aus den Daten geschätzt werden muss. Dies ist jedoch einfach möglich, da 8
Zwei Modelle sind genested (verschachtelt), wenn Modell 1 eine Untermenge von Modell 2 ist. Mit anderen Worten baut Modell 2 auf Modell 1 auf und erweitert es um zusätzliche Parameter.
31 Logistische Regression
ˆσ ˆ + σ2 . ˆ 2x β σ ˆy2∗ = β ε
839
(23)
Bei Verwendung von nominalskalierten unabhängigen Variablen kann es sinnvoll sein, statt der Vollstandardisierung lediglich eine Teilstandardisierung an y ∗ vorzunehmen. (β sy∗ = β/σy∗ ) Stellt das Statistikpaket keine Routine zur Berechnung der standardisierten Koeffizienten bzw. der latenten Varianz zur Verfügung, kann letztere leicht aus der 2 Summe der Varianz der vorhergesagten Werte plus π /3 errechnet werden. Prinzipiell können – wie in der OLS-Regression – vollstandardisierte Koeffizienten als relative Einflussstärke der unabhängigen Variable interpretiert werden.9 Hinzu kommt, dass der Koeffizient durch unbeobachtete Heterogenität nur geringfügig verzerrt wird, also besser zwischen Modellen verglichen werden kann als unstandardisierte Koeffizienten. Die Standardisierung gleicht die beschriebene Verzerrung jedoch nicht vollständig aus.10 Durchschnittliche marginale Effekte Eine Alternative zu standardisierten Koeffizienten ist (im Hinblick auf den Vergleich zwischen Modellen) die Berechnung von Effekten auf die Wahrscheinlichkeit, so genannten marginalen Effekten. Der average marginal effect (AME) versucht hierbei, den durchschnittlichen Einfluss der unabhängigen Variable auf die Wahrscheinlichkeit des Auftretens P (y = 1|x) in einer einzigen Kennziffer auszudrücken. Die Darstellung von Effekten auf die Wahrscheinlichkeit P (y = 1|x) in einer einzelnen Kennziffer ist in der logistischen Regression jedoch problematisch, da es sich um ein nichtlineares Modell handelt, in dem der Effekt einer Variablen – d. h. die Steigung der Wahrscheinlichkeitskurve – nicht konstant ist. Dies wird deutlich wenn man die Basisgleichung der logistischen Regression (Gleichung (15) auf Seite 835) partiell ableitet. Man erhält ∂P (y = 1|x) = g(x β)βj , ∂xj
(24)
wobei g(x β) die Dichtefunktion der logistischen Verteilung ist. Somit ist der Effekt auf die Wahrscheinlichkeiten nicht nur abhängig vom Regressionskoeffizienten βj , sondern zusätzlich von der Ausprägung aller Variablen und ihrem Effekt (x β in Gleichung (24)). Mit anderen Worten variiert der marginale Effekt von xj erstens mit der Ausprägung von xj selbst und zweitens mit den Ausprägungen der anderen unabhängigen Variablen. Der AME gibt nun den Effekt von xj auf einem durchschnittlichen Niveau an; der Durchschnitt kann jedoch auf zwei Arten spezifiziert werden: Entweder man berechnet 9
10
Wie wir in Kapitel 24 zeigen, ist diese Interpretation jedoch in beiden Verfahren, OLS wie logistischer Regression, nicht unproblematisch. Bei der logistischen Regression muss zudem beachtet werden, dass sich der Einfluss auf die latente abhängige Variable bzw. die logarithmierten Odds bezieht. In Monte-Carlo-Simulationen der Autoren ergaben sich Veränderungen der standardisierten Koeffizienten um weniger als 20 %, verglichen einer Variation in den unstandardisierten Koeffizienten von 175 %.
840
Henning Best und Christof Wolf
den Durchschnittseffekt als Mittelwert der marginalen Effekte über alle Beobachtungen oder als marginalen Effekt am Mittelwert aller Variablen. Die zweite Variante wird auch als „marginal effect at the mean“ (MEM ) bezeichnet und ist nicht identisch mit dem average marginal effect: x β)βj , MEM j = g(¯ während
(25)
N
g(xi β) (26) βj . N Es lässt sich zeigen (z. B. Wooldridge 2002, S. 470 ff.), dass der durchschnittliche marginale Effekt (AME) nicht von unkorrelierter unbeobachteter Heterogenität verzerrt wird. Insofern ist der AME geeignet, um Koeffizienten schrittweise aufgebauter Modelle miteinander zu vergleichen. Es ist zu beachten, dass der MEM diese Eigenschaft nicht besitzt, vielmehr verändert er sich, wenn in ein Logitmodell weitere unkorrelierte Prädiktoren aufgenommen werden. Insofern ist MEM für den Vergleich zwischen Modellen nicht geeignet.11 Neben der Robustheit gegenüber unbeobachteter Heterogenität haben average marginal effects den Vorteil, eine intuitive Interpretation zu ermöglichen: eben als durchschnittlicher Effekt auf die Wahrscheinlichkeit. Insofern steigt die Wahrscheinlichkeit von y = 1 durchschnittlich um AME Punkte, wenn xj um eine Einheit steigt. Selbstverständlich ist dies nur ein Durchschnittseffekt, der den nichtlinearen Verlauf der Wahrscheinlichkeitskurve ignoriert. Dennoch sind AME den in der Sozialwissenschaft zu Unrecht sehr beliebten Odds Ratios in mehrfacher Hinsicht überlegen (Robustheit, Interpretierbarkeit, Additivität). AME j =
i=1
2.4 Interaktionseffekte Da die logistische Regression, wie in Abschnitt 1.3 ausführlich diskutiert, in Bezug auf die Wahrscheinlichkeiten nicht linear und nicht additiv ist, ergeben sich in der Anwendung und Interpretation von Interaktionseffekten eine Reihe von wichtigen Unterschieden zur OLS-Regression. So folgt aus der Nicht-Additivität, dass der Effekt einer unabhängigen Variable auf die Wahrscheinlichkeit P (y = 1|x) vom Niveau der anderen Variablen abhängen kann. Genau dies ist jedoch die Aussage von Interaktionshypothesen: Der Effekt einer Variable x1 auf y hängt vom Niveau einer zweiten Variable x2 ab. Mit anderen Worten werden in der logistischen Regression bis zu einem gewissen Ausmaß implizit modellinhärente Interaktionseffekte (bzw. bedingte Effekte) auf die Wahrscheinlichkeit modelliert, selbst wenn sie nicht explizit spezifiziert werden. Diese modellinhärenten Interaktionseffekte führen prinzipiell zu einer geringeren Sensibilität der Logit-Modelle für explizit spezifizierte (variablenspezifische) Interaktionseffekte. Man sollte daher unbedingt visuell auf Basis der vorhergesagten Wahrscheinlichkeiten 11
Wird auf Angaben zu marginalen Effekten zurückgegriffen, die von einem Statistikpaket automatisch berechnet werden, ist daher unbedingt zu prüfen, ob AME oder MEM ausgegeben werden (in Stata berechnen beispielsweise sowohl mfx als auch prchange den MEM ; AME wird lediglich durch das ado margeff zur Verfügung gestellt).
31 Logistische Regression
841
prüfen, wie die Wahrscheinlichkeiten sich in Abhängigkeit von x1 und x2 verändern (siehe Abschnitt 3 oder ausführlicher Kapitel 34 in diesem Handbuch). Aufgrund der Nicht-Linearität der Logit-Modelle gilt das Gesagte ebenso für quadratische Terme und Polynome höherer Ordnung. Sieht man von diesem Problem zunächst einmal ab, werden Interaktionseffekte (und auch explizite Polynome) genau wie in der OLS-Regression spezifiziert. Metrische Variablen werden zentriert, um die Multikollinearität zu verringern, und es wird ein multiplikativer Term x1 x2 gebildet. Dieser Term wird in ein hierarchisch wohldefiniertes Modell aufgenommen (d. h. ein Modell, das neben dem multiplikativen Term auch die entsprechenden Haupteffekte enthält): y ∗ = a + β1 x1 + β2 x2 + β12 x1 x2 + ε .
(27)
Einfaches Ausklammern von x2 zeigt, dass der Effekt von x2 nunmehr von x1 abhängig ist: Er verändert sich um β12 Einheiten, wenn x2 um eine Einheit steigt. β12 ist der Interaktionseffekt. β2 hingegen ist ein konditionaler Effekt, der die Steigung der Geraden unter der Bedingung x1 = 0 beschreibt: y ∗ = a + β1 x1 + (β2 + β12 x1 )x2 + ε .
(28)
Selbstverständlich lässt sich die Umformung auch für x1 vornehmen, die oben skizzierte Interpretation gilt entsprechend. Vergleicht man ein Modell mit und ohne multiplikativen Termen, lässt sich anhand der Veränderung verschiedener Anpassungsmaße beurteilen, ob sich das Modell verbessert hat (z. B. AIC, siehe Abschnitt 2.6). Ein Wald- bzw. Likelihood-Ratio-Test gibt Auskunft über die statistische Signifikanz (Abschnitt 2.5). Es ist jedoch wichtig, sich bewusst zu machen, dass die oben geschilderten Interpretationsmöglichkeiten und auch der Signifikanztest ausschließlich in Bezug auf die latente abhängige Variable y ∗ bzw. die logarithmierten Odds gültig sind. Aufgrund von Nicht-Additivität und Nicht-Linearität in der logistischen Regression kann eine Interaktion in Bezug auf die Wahrscheinlichkeiten unter bestimmten Voraussetzungen statistische Signifikanz verlieren und sogar ihr Vorzeichen wechseln. Sozialwissenschaftliche Hypothesen beziehen sich jedoch in aller Regel auf die Wahrscheinlichkeiten und nicht auf logarithmierte Odds oder latente Variablen (für eine formalisierte Darstellung des Problems siehe Ai & Norton 2003 oder Huang & Shields 2000). Was tun? Wir schlagen vor, die Einwände ernst zu nehmen, aber pragmatisch damit umzugehen. Erstens sollte, wenn eine Interaktion vermutet wird, immer anhand eines LR-Tests und eines Vergleichs von AIC oder BIC geprüft werden, ob und inwieweit sich der Modellfit durch Aufnahme eines multipilkativen Terms verbessert (siehe Abschnitt 2.6). Ist dies nicht der Fall, sollte ein Conditional-Effect-Plot erzeugt werden (vorhergesagte Wahrscheinlichkeiten des Modells ohne multiplikativen Term), um zu prüfen, ob die Regressionskurven gleichartig verlaufen. Verbessert sich hingegen der Modellfit, ist von einer substanziellen Interaktion auszugehen. Hier sollte die Interaktion mit mehreren Conditional-Effect-Plots geprüft werden, bei dem die Kovariaten mindestens auf einem niedrigen, einem mittlerem und einem hohen Niveau konstant gehalten werden (z. B. x ¯i und x ¯i ± 1 Standardabweichung). Ein „niedriges Niveau“ ergibt sich hierbei, wenn bei Variablen mit positivem Effekt ein niedriger Wert eingesetzt wird
842
Henning Best und Christof Wolf
(z. B. x ¯i − σ), bei Variablen mit negativem Effekt dagegen ein hoher Wert (z. B. x ¯i + σ). Ceteris paribus sollte natürlich für das „hohe Niveau“ verfahren werden. Hierdurch kann abgeschätzt werden, wie variabel bzw. wie stabil die Interaktion ist und welche Richtung sie annimmt. 2.5 Statistische Inferenz Der Signifikanztest für Koeffizienten, die aus einer Stichprobe geschätzt wurden (βˆj ), folgt dem aus der OLS-Regression bekannten Muster (siehe Kapitel 24 in diesem Handbuch). Die Stichprobenkoeffizienten können als Realisierungen einer Zufallsvariable aufgefasst werden, die asymptotisch normalverteilt ist mit E(βˆj ) = βj . Bezeichnet man den Standardfehler als se(βˆj )12 , ergibt sich die Prüfgröße z als zj =
βˆj − βH0 . se(βˆj )
(29)
Der Test eignet sich zur Prüfung von Hypothesen der Form H0 : βj = βH0 und folglich auch für einen klassischen Signifikanztest mit H0 : βj = 0. Der z-Wert kann in diesem Fall einfach als Koeffizient dividiert durch Standardfehler berechnet werden. Sollen komplexere Hypothesen überprüft werden, ist der oben dargestellte Signifikanztest einzelner Koeffizienten mitunter nicht ausreichend. Dies ist beispielsweise der Fall, wenn ein Konstrukt durch mehrere Variablen erfasst wird, etwa bei multinominalen unabhängigen Variablen (z. B. Familienstand). Eine andere Anwendung wäre ein Test auf Gleichheit zweier Regressionskoefizienten. Hierfür stehen in der logistischen Regression drei Verfahren zur Verfügung: Likelihood-Ratio-Test, Wald-Test und Lagrange Multiplier Test (vgl. Kapitel 10 in diesem Handbuch). Beispielhaft wird an dieser Stelle der Likelihood-Ratio-Test (LR-Test) dargestellt. Dieser Test ist geeignet, um zwei genestete Modelle miteinander zu vergleichen, also Modelle, in denen die geschätzten Parameter des einen Modells eine echte Teilmenge der Parameter des anderen Modells sind. Der LR-Test beantwortet die Frage, ob die Hinzunahme bestimmter Parameter in ein Modell zu einer statistisch signifikanten Verbesserung des Modells beiträgt. Konkret prüft der Test, ob die Likelihood des unrestringierten Modells mit mehr Parametern deutlich über der Likelihood des restriktiven Modells liegt (das restriktivste Modell ist ein Nullmodell). Der LR-Test zum Vergleich zweier Modelle ist als LR = −2 ln
LR = −2(ln LR − ln LU ) LU
(30)
definiert. Dabei steht LU für den Wert der Likelihood-Funktion des Modells ohne Restriktionen, also mehr Parametern. Entsprechend bezeichnet LR den Wert der Likelihood-Funktion des restringierten Modells ohne bzw. mit weniger Parametern. 12
Die Formel zur Schätzung der asymptotischen Standardfehler ist recht kompliziert und eine Darstellung erscheint an dieser Stelle nur wenig hilfreich. Der interessierte Leser sei auf Wooldridge (2002, S. 460 f.) verwiesen.
31 Logistische Regression
843
Unter der Nullhypothese, dass sich die beiden Modelle nicht unterscheiden, folgt LR einer χ2 -Verteilung mit dfLR = dfU − dfR . Die Freiheitsgrade entsprechen also der Anzahl der Parameter, die das weniger restriktive Modell gegenüber dem stärker restriktiven Modell mehr enthält. Der Test ist, wie bereits erwähnt, nur gültig, wenn die verglichenen Modelle genestet sind und wenn die Analyse auf Basis derselben Stichprobe bzw. denselben Einheiten durchgeführt wird. 2.6 Goodness of fit und Modellvergleich Zwar kann man mit den oben diskutierten Tests überprüfen, ob eine Modellverbesserung statistisch signifikant ist (also auch für die Grundgesamtheit als gültig angenommen werden kann). In den meisten Fällen ist jedoch auch eine Maßzahl zur Beschreibung der Anpassungsgüte des Modells erwünscht. In OLS-Regressionen dient hierzu R2 , das als das Verhältnis der erklärten Varianz zur Gesamtvarianz der abhängigen Variable definiert ist. In der logistischen Regression ist die abhängige Variable latent und lediglich über einen Schwellenwert mit der beobachteten dichotomen Variable verknüpft, so dass kein einfaches Maß der erklärten Varianz existiert. Basierend auf der (Log-)Likelihood der Modelle wurden jedoch eine Reihe von Maßzahlen vorgeschlagen, die eine Interpretation analog zu R2 anstreben. Diese so genannten Pseudo-R2 -Koeffizienten variieren idealerweise zwischen Null und Eins, wobei ein Wert von Null ein Regressionsmodell beschreibt, das keine Erklärungskraft besitzt. Wie bereits in Abschnitt 2.2 beschrieben, ist die Likelihood-Funktion eines Regressionsmodells die Basis der ML-Schätzung (siehe Gleichung (18)). Die logarithmierte Likelihood (LL oder ln L, siehe Gleichung (21)) ist immer negativ und umso kleiner im Betrag, je besser das Modell an die Daten angepasst ist. Insofern kann bereits die von vielen Statistikprogrammen angegebene −2LL als ein Indikator für den Modellfit angesehen werden (je kleiner, desto besser), der allerdings – wie auch der F -Wert in der OLS-Regression – fallzahlabhängig ist. McFadden (1973) schlägt vor, die LogLikelihood eines Nullmodells (ohne erklärende Variablen) analog zur Gesamtstreuung in R2 und die Log-Likelihood des spezifizierten Modells analog zur erklärten Streuung zu interpretieren. Entsprechend berechnet sich McFaddens Pseudo-R2 als 2 RMF =1−
ln L(Mspez ) , ln L(M0 )
(31)
wobei M0 das Basis-Modell ohne erklärende Variablen bezeichnet, Mspez das spezifi2 zierte Modell. RMF ist recht weit verbreitet (und wird z. B. in Stata standardmäßig berechnet), hat allerdings den Nachteil, nie den Wert 1 erreichen zu können. Eine Alternative stellt das von Cox & Snell (1989) vorgeschlagene Pseudo-R2 dar, das anhand der Fallzahl N eine Korrektur vornimmt: N2 L(M0 ) 2 . (32) RCS = 1 − L(Mspez ) 2 Allerdings kann auch RCS den Wert 1 nicht erreichen. Nach einem Vorschlag von Cragg & Uhler (1970) wird die Maßzahl so normiert, dass sie auch den Wert 1 erreichen kann. In den meisten Anwendungen wird die hieraus resultierende Pseudo-R2 -Variante
844
Henning Best und Christof Wolf 2 RNK =
2 2 RCS RCS = 2 2 max(RCS ) 1 − L(M0 ) N
(33)
als Nagelkerke-R2 bezeichnet. Das Nagelkerke-R2 wird beispielsweise von SPSS ausge2 geben. RNK liefert immer größere Werte als andere Pseudo-R2 -Varianten. Generell sollte Pseudo-R2 mit Vorsicht interpretiert werden, da sich die Likelihood-basierten Maßzahlen erstens nicht auf die erklärte Varianz beziehen (wie in der OLS-Regression) und sich zweitens kein verbindliches Standardmaß herauskristallisiert hat. Die diskutierten Anpassungsmaße leiden zudem unter dem Problem, dass sie prinzipiell größere Werte annehmen, je mehr erklärende Variablen im Modell enthalten sind. Letztlich ist es jedoch wünschenswert, ein Modell zu verwenden, das nicht nur möglichst gut an die Daten angepasst, sondern gleichzeitig auch möglichst sparsam spezifiziert ist. In OLS-Regressionen wird teilweise das korrigierte R2 verwendet, um dieser Tatsache gerecht zu werden. Für logistische Modelle (und andere ML-basierte Verfahren) steht das „Akaike Informationskriterium“ (AIC ) und das „Bayessche Informationskriterium“ (BIC ) zur Verfügung. AIC und BIC erlauben es auch, Modelle miteinander zu vergleichen, die nicht genestet sind. AIC (siehe Akaike 1973) ist eine Likelihood-basierte Maßzahl, bei der eine zusätzliche Parametrisierung des Modells bestraft wird. Der Koeffizient wird berechnet als (34) AIC = −2 ln L(Mspez ) + 2(k + 1) , wobei k die Zahl der unabhängigen Variablen bezeichnet. Der AIC kann theoretisch von 0 bis +∞ variieren, wobei niedrigere Werte auf ein geeigneteres Modell hindeuten. Auch BIC (Raftery 1995) wird über die Likelihood der Modelle berechnet, baut logisch jedoch auf einem bayesianischen Modellvergleich auf. Bei dieser Maßzahl wird eine zusätzliche Parametrisierung tendenziell stärker bestraft als bei AIC. BIC kann beispielsweise als (35) BIC = −2 ln L(Mspez ) + ln N (k + 1) berechnet werden. Auch hier bezeichnet N die Fallzahl, k die Zahl der unabhängigen Variablen und Mspez das spezifizierte Modell. Kleinere BIC -Werte deuten auf einen auf einen besseren Fit hin.
3 Ein Beispiel Im Folgenden wollen wir die Verwendung der logistischen Regression am Beispiel einer Analyse der Bildungsvererbung in Westdeutschland darstellen. Hierfür wird untersucht, welche Herkunftsfaktoren die Wahrscheinlichkeit bestimmen, dass eine Person das (Fach-)Abitur erwirbt. Als Datengrundlage dient der kumulierte ALLBUS (1980–2006), betrachtet werden Personen im Alter von mindestens 21 Jahren mit Wohnort in Westdeutschland. Als abhängige Variable wird eine dichotome Variable mit 1=„Abitur“ und 0=„kein Abitur“ verwendet, so dass eine logistische Regression das angemessene Analyseverfahren ist. Die bisherige Forschung zeigt, dass es in Deutschland starke Effekte der sozialen Herkunft auf die Bildungschancen gibt (siehe z. B. Becker & Lauterbach 2008 für
31 Logistische Regression
845
eine Übersicht). Zu beachten ist außerdem, dass die Bildungschancen mit dem Geschlecht variieren, der Geschlechtseffekt sich in den letzten Jahren und Jahrzehnten allerdings deutlich abgeschwächt hat. Schließlich ist zu beachten, dass sich im Zuge gesellschaftlicher Modernisierungsprozesse, insbesondere der „Bildungsexpansion“, die Bildungschancen generell verbessert haben. Es ist außerdem zu prüfen, inwiefern die Bildungsexpansion Herkunftseffekte verringert hat. Als unabhängige Variablen verwenden wir daher das Alter, Geburtsjahr und Geschlecht der Befragten sowie den Schulabschluss beider Eltern und das Berufsprestige des Vaters (Treiman-Prestige). Die gleichzeitige Verwendung von Alter und Geburtsjahr ist möglich, da im kumulierten ALLBUS wiederholte Befragungen über mehr als zwei Jahrzehnte vorliegen. Damit ist es möglich, Kohorten- von Alterseffekten zu trennen (wenn auch vermengt mit Periodeneffekten). Zur Analyse der Determinanten des Abiturerwerbs schätzen wir eine Reihe von logistischen Regressionen (siehe Tabelle 2). Für alle Modelle sind standardisierte und unstandardisierte Logit-Koeffizienten sowie der Standardfehler angegeben, Modell 1 weist beispielhaft zusätzlich durchschnittliche marginale Effekte aus (AME). Modell 1 enthält lediglich Angaben zum Befragten. Das Pseudo-R2 der Modells liegt bei 0,06 (McFadden) bzw. 0,09 (Nagelkerke). Die Variablen „Geburtsjahr“ und „Alter“ prüfen Alters- und Kohorteneffekte auf die Bildungschancen. Der signifikant positive Koeffizient des Geburtsjahres zeigt an, dass die Wahrscheinlichkeit der Hochschulreife in späteren Geburtskohorten höher ist als in früheren. Mit einem standardisierten Koeffizienten von 0,26 ist der Effekt moderat stark. Am durchschnittlichen marginalen Effekt kann man erkennen, dass sich die Wahrscheinlichkeit eines durchschnittlichen Befragten, das Abitur zu erwerben, im Mittel pro Dekade um 5 Prozentpunkte erhöht. Der Alterseffekt ist negativ und nur auf dem 5 %-Niveau signifikant, was bei der hier verwendeten Stichprobe von über 20. 000 nicht viel bedeutet. Mit einem um zehn Jahre höheren Alter verringert sich die Wahrscheinlichkeit des Abiturerwerbs im Durchschnitt um einen Prozentpunkt (zu erkennen am AME). Der sehr niedrige standardisierte Koeffizient zeigt, dass der Effekt substanziell nicht bedeutsam ist (ein Alterseffekt wäre theoretisch auch nicht zu erwarten gewesen). Wir möchten nun den Einfluss des Geschlechts auf die Bildungschancen genauer diskutieren. Man sieht, dass der Dummy „Mann“ einen positiven β-Koeffizienten aufweist, der statistisch signifikant ist. Dies bedeutet, dass Männer im Mittel mit einer höheren Wahrscheinlichkeit das Abitur erwerben als Frauen. Die absolute Größe (βj = 0,44) hat jedoch keine inhaltliche Bedeutung, sondern bezieht sich auf die Veränderung der latenten abhängigen Variable y ∗ , deren Skala nicht bekannt ist.13 Eine 13
Es ist in dieser Situation zwar verführerisch, aber kontraproduktiv, einen entlogarithmierten „Effekt“-Koeffizienten anzugeben und zu interpretieren, die „Chancen (Odds) eines Mannes, das Abitur zu erwerben, seien 1,55-mal höher als die einer Frau“. Odds – und insbesondere Odds-Ratios – sind weniger intuitiv als es erscheint und bieten nach unserer Ansicht keinerlei Vorteile gegenüber den Logits. Ihre Verwendung erhöht jedoch das Risiko, dass der Koeffizient vom Leser als Effekt auf die Wahrscheinlichkeiten fehlinterpretiert wird. Die Wahrscheinlichkeit von Männern, Abitur zu erwerben, steht jedoch gerade nicht im Verhältnis 1,55 zu der von Frauen. Vielmehr lässt sich aus vorhergesagten Wahrscheinlichkeiten des Modells 1 berechnen, dass Männer, die 1950 geboren wurden, eine 1,40-mal
846
Henning Best und Christof Wolf
intuitive Interpretation erlaubt jedoch der durchschnittliche marginale Effekt, der mit einem Wert von 0,08 anzeigt, dass Männer im Durchschnitt unserer Stichprobe eine um 8 Prozentpunkte höhere Wahrscheinlichkeit des Abiturerwerbs haben als Frauen. Es ist jedoch zu beachten, das Logit-Modelle in Bezug auf die Wahrscheinlichkeiten nichtlinear sind und der Effekt einer Variable von den Ausprägungen der anderen Unabhängigen abhängig ist. Der AME umgeht diese Eigenschaft logistischer Modelle, indem er einen Durchschnittseffekt angibt. Hiermit ist selbstverständlich ein Informationsverlust verbunden. Detaillierte Interpretationen der Ergebnisse machen es erforderlich, vorhergesagte Wahrscheinlichkeiten zu berechnen und den Wahrscheinlichkeitsverlauf in ConditionalEffect-Plots darzustellen (zu graphischen Darstellungen von Regressionsergebnissen vgl. auch Kapitel 34 in diesem Handbuch). Abbildung 4 a zeigt daher den in Modell 1 berechneten Effekt der Geburtskohorte auf die Wahrscheinlichkeit, das Abitur zu erwerben getrennt für Männer und Frauen. Man kann erkennen, dass erstens der Verlauf der Bildungsexpansion nicht linear war, sondern sich die Bildungschancen für spätere Kohorten stärker verbessert haben als für frühere.14 Die Wahrscheinlichkeitskurve der Männer liegt über der der Frauen, was auf die erwarteten Diskriminierungsprozesse verweist. Man sieht zudem, dass die Kurven für Männer und Frauen nicht den gleichen Verlauf nehmen, obwohl in Modell 1 keine explizite Interaktion der Variablen spezifiziert wurde. Es ist jedoch sehr überraschend, dass die Wahrscheinlichkeit bei Männern stärker ansteigt als bei Frauen, Modell 1 also anzeigt, dass sich die Diskriminierung von Frauen verstärkt hätte – ein Ergebnis in klarem Widerspruch zu allen bisherigen Befunden. Ausgehend von publizierten Forschungsergebnissen ist vielmehr anzunehmen, dass Frauen überproportional von der Bildungsexpansion profitiert haben, die früher sehr deutliche Bildungsdiskriminierung sich also abgeschwächt hat bzw. mittlerweile überwunden wurde. Modell 2 beinhaltet daher einen multiplikativen Term zwischen den beiden Variablen. Die Interaktion ist negativ und hochsignifikant, was darauf hindeutet, dass die geringen Bildungschancen von Frauen – wie erwartet – sich im Zeitverlauf verbessert haben. Zwar hat sich das Pseudo-R2 des Modells nicht (bzw. nur auf der dritten Nachkommastelle) verändert, der im Vergleich zu Modell 1 niedrige AIC zeigt jedoch, dass das Modell besser an die Daten angepasst ist und die verbesserte Anpassung eine komplexere Parametrisierung rechtfertigt. Die vorhergesagten Wahrscheinlichkeiten sind in Abbildung 4 b dargestellt. Man sieht, dass die explizite Aufnahme des Interaktionseffektes wichtig war und sich die Wahrscheinlichkeitskurven deutlich von der Prognose aus Modell 1 unterscheiden. Modell 2 zeigt, dass zwar beide Geschlechter von der Bildungsexpansion profitiert haben, die Bildungschancen von Frauen jedoch viel stärker als die von Männern gestiegen sind. Waren in früheren Generationen die
14
höhere Wahrscheinlichkeit aufweisen, und bei Geburtsjahr 1970 wird ein Verhältnis von 1,33 geschätzt. Der AME zeigt, dass diese Wahrscheinlichkeitsverhältnisse im Durchschnitt einem Unterschied von 8 Prozentpunkten entsprechen. Nochmal: Diese Nicht-Linearität ist nicht in einer einzigen Zahl darzustellen und zeigt, dass sorgfältige Interpretationen ohne die Betrachtung der vorhergesagten Wahrscheinlichkeiten nicht möglich sind. Da die Kurven jedoch streng monoton sind, erlauben die Koeffizienten zumindest eine Aussage über die Richtung der Effekte.
31 Logistische Regression
847
Tab. 2: Ergebnisse der logistischen Regression zum Abiturerwerb Modell 1 β (se) Befragter Mann Geburtsjahr (in 10 J.) Alter (in 10 J.)
β
s
Modell 2 AME
0,44 0,11∗∗∗ 0,08 (0,03) 0,28 0,26∗∗∗ 0,05 (0,02) −0,06 −0,05∗ −0,01 (0,02)
Mann*Geburtsjahr
β (se)
0,54 0,14∗∗∗ (0,03) 0,37 0,38∗∗∗ (0,03) −0,06 −0,05∗ (0,02) −0,15 −0,09∗∗∗ (0,02)
Vater Treiman-Prestige
Hauptschule Mittlere Reife Mutter Kein/anderer Abschl. Hauptschule Mittlere Reife −1,48 (0,02)
−1,54 (0,03)
Pseudo-R2 (NK) 0,09 0,09 Pseudo-R2 (MF) 0,06 0,06 −2LL 24746,34 24687,50 AIC 1,05 1,04 N 23641 23641 Referenzkategorien: Frau, Vater Abitur, Mutter Abitur Alter, Prestige und Geburtsjahr zentriert †
: p ≤ 0,1; ∗ : p ≤ 0,05;
∗∗
β (se)
βs
0,67 0,15∗∗∗ (0,04) 0,39 0,30∗∗∗ (0,03) −0,01 −0,01 (0,03) −0,20 −0,11∗∗∗ (0,02) 0,04 0,20∗∗∗ (0,00) −0,98 −0,08∗∗∗ (0,13) −1,32 −0,26∗∗∗ (0,06) −0,42 −0,06∗∗∗ (0,07)
Kein/anderer Abschl.
Konstante
β
Modell 3 s
: p ≤ 0,01;
∗∗∗
: p ≤ 0,001
−1,65 −0,17∗∗∗ (0,14) −1,24 −0,23∗∗∗ (0,09) −0,42 −0,06∗∗∗ (0,09) 0,36 (0,09) 0,35 0,24 19927,99 0,84 23641
.5
Henning Best und Christof Wolf
P(Abitur) .2 .3 0
0
.1
.1
P(Abitur) .2 .3
.4
.4
.5
848
1900
1920
1940 Geburtsjahr Mann
1960
1980
Frau
(a) ohne multiplikativen Term (Mod. 1)
1900
1920
1940 Geburtsjahr Mann
1960
1980
Frau
(b) mit multiplikativem Term (Mod. 2)
Abb. 4: Vorhergesagte Wahrscheinlichkeit, Abitur zu erwerben (nach Geburtskohorte und Geschlecht) geschlechtstypischen Bildungschancen noch sehr ungleich, weisen Männer und Frauen, die seit Mitte der 1970er Jahre geboren wurden, nun im Wesentlichen die gleiche Wahrscheinlichkeit auf, das Abitur zu erwerben. Dieses Beispiel macht deutlich, dass es auch in der logistischen Regression notwendig sein kann, Interaktionsterme zu verwenden, um Effekte korrekt zu modellieren und eine Fehlspezifikation zu vermeiden. Andererseits bedeutet ein nicht-signifikanter Interaktionseffekt in nichtlinearen Modellen nicht notwendig, dass die Effekte auf die Wahrscheinlichkeit unabhängig von der Ausprägung der anderen unabhängigen Variablen sind. Im Gegenteil hängen die Effekte immer von anderen Variablen ab, wie man durch eine partielle Ableitung der Regressionsgleichung nachprüfen kann (siehe Gleichung (24) auf Seite 839). Daher sollte der Verlauf der Kurven mit Conditional-Effect-Plots analysiert werden.15 Um Herkunftseffekte zu untersuchen, also zu prüfen, wie und in welchem Ausmaß die Bildungschancen in Deutschland von der sozialen Lage der Eltern beeinflusst sind, werden in Modell 3 Variablen für das Berufsprestige des Vaters und den Schulabschluss beider Elternteile aufgenommen.16 Die Modellanpassung verbessert sich im Vergleich zu Modell 2 deutlich, und das Pseudo-R2 steigt auf 0,24 (McFadden) bzw. 0,35 (Nagelkerke). Da die Schulbildung mit Dummy-Variablen erfasst wurde, 15
16
Die Berechnung von durchschnittlichen marginalen Effekten ist in Modellen, die Interaktionseffekte beinhalten, nur bedingt sinnvoll, da der Interaktionseffekt auf die Wahrscheinlichkeiten nicht nur durch den Koeffizienten des multiplikativen Terms bestimmt wird (siehe hierzu auch die Ausführungen in Abschnitt 2.4 sowie Ai & Norton 2003). In einer stärker inhaltlich motivierten Analyse wäre es sinnvoll, die Bildungsabschlüsse von Vater und Mutter getrennt voneinander in das Modell aufzunehmen, um ihre relative Stärke beurteilen zu können. Aus Platzgründen können die entsprechenden Regressionsmodelle an dieser Stelle nicht dargestellt werden. Entsprechende Berechnungen zeigen, dass die Effekte ähnlich stark sind: Unter Kontrolle des Berufsprestiges des Vates zeigen sich keine Unterschiede, ohne Kontrolle ist die Bildung des Vaters etwas wichtiger als die der Mutter. Die Schulbildung wiederum hat eine höhere Erklärungskraft als das Berufprestige.
849
0
.2
P(Abitur) .4
.6
.8
31 Logistische Regression
20
40 60 Berufsprestige Vater (Treiman) 1935
1955
80 1975
Abb. 5: Prestige nach Geburtskohorte I beziehen sich die Koeffizenten (und ihre Signifikanz) auf den Unterschied zur jeweiligen Referenzkategorie. Der negative Koeffizient für Mittlere Reife des Vaters bedeutet, dass die Wahrscheinlichkeit, Abitur zu erwerben, bei Kindern von Vätern mit Mittlerer Reife geringer ist, als wenn der Vater selbst Abitur hat. Gleiches gilt für einen Hauptschulabschluss des Vaters; der betragsmäßig größere Koeffizient zeigt jedoch, dass der Unterschied größer ist.17 Die Effekte der Bildung der Mutter sind – wie die des Vaters – alle signifikant und weisen ebenso ein negatives Vorzeichen auf. Somit sind die Bildungschancen der Kinder geringer, wenn die Mutter eine niedrige Schulbildung hat (auf eine detailliertere Interpretation wird an dieser Stelle aus Platzgründen verzichtet). Auch unter Kontrolle der elterlichen Schulbildung ist noch ein deutlicher Einfluss des Berufsprestiges des Vaters zu erkennen. Der Koeffizient ist statistisch hochsignifikant und positiv, so dass die Bildungschancen der Kinder mit dem Prestige des Vaters ansteigen. Der standardisierte Koeffizient von 0,20 verweist auf einen substanziellen Zusammenhang. Wir wollen den Effekt der Herkunft im Folgenden etwas detaillierter betrachten und insbesondere untersuchen, wie sich der Einfluss des Elternhauses auf die Schulbildung der Kinder im Laufe der Zeit gewandelt hat. Hierfür betrachten wir zunächst vorhergesagte Wahrscheinlichkeiten des Abiturerwerbs in Abhängigkeit vom Berufsprestige des Vaters getrennt für drei Geburtskohorten (siehe Abbildung 5). Zunächst sieht man auch in dieser Abbildung an den vertikal verschobenen Kurven, dass sich die Bildungschancen in Deutschland mit der Zeit verbessert haben. Zudem ist deutlich zu erkennen, wie die Wahrscheinlichkeit, Abitur zu erwerben, mit dem Berufsprestige des Vaters ansteigt. Der Kurvenverlauf ist jedoch für die drei Geburtskohorten unterschiedlich. In der ältesten Kohorte erhöht sich die Steigung der Kurve 17
Diese Codierung erlaubt jedoch keine Aussage darüber, ob der Unterschied zwischen Mittlerer Reife des Vaters und Hauptschulabschluss des Vaters statistisch signifikant ist. Soll eine solche Aussage getroffen werden, muss Hauptschule oder Mittlere Reife als Referenzkategorie gewählt werden.
.6 P(Abitur) .4 .2 0
0
.2
P(Abitur) .4
.6
.8
Henning Best und Christof Wolf
.8
850
20
40 60 Berufsprestige Vater (Treiman) 1935
1955
80
1975
(a) mit multiplikativem Term
20
40 60 Berufsprestige Vater (Treiman) 1930−39
1950−59
80 1970−79
(b) getrennte Modelle
Abb. 6: Prestige nach Geburtskohorte II mit zunehmendem Prestige; die Kurve steigt zunächst flach an und wird im weiteren Verlauf steiler. In der jüngsten Kohorte hingegen ist die Steigung zunächst stärker, die Kurve nähert sich jedoch einem linearen Verlauf an. Um die Unterschiede zwischen den Kohorten genauer beurteilen zu können, ist es sinnvoll, entweder Interaktionsterme in das Modell aufzunehmen oder getrennte Modelle zu schätzen. Getrennte Modelle haben den Vorteil, übersichtlicher zu sein, geben allerdings keine Auskunft über die statistische Signifikanz eventueller Unterschiede. Tabelle 3 stellt daher getrennte Modelle für die Geburtskohorten 1930–1939, 1950–1969 und 1970–1979 sowie ein Gesamtmodell mit Interaktionseffekten dar.18 Beim Vergleich der Modelle für die drei Geburtskohorten ist es besonders interessant, sich die Anpassungsgüte anzuschauen (Pseudo-R2 ).19 Man sieht, dass die Erklärungskraft des Modells für die Kohorte der in den 1930ern Geborenen sehr hoch ist, und in den beiden jüngeren Kohorten um etwa 10 Punkte darunter liegt. Zwei wichtige Punkte sind jedoch zu bemerken: Erstens kam es zwischen den beiden jüngeren Kohorten nicht zu einer weiteren Abschwächung des Herkunftseffektes, und zweitens ist auch in der jüngsten Geburtskohorte die Erklärungskraft des Modells mit einem Pseudo-R2 von 0,18 (MF) bzw. 0,28 (NK) besorgniserregend hoch. Das deutsche Schulsystem scheint seit den 1960er-Jahren nicht viel durchlässiger geworden zu sein.20 Das Ge18
Da es sich nicht um genestete Modelle handelt, kann der LR-Test hier nicht zum Vergleich der Modelle herangezogen werden. Stattdessen berichten wir AIC, dessen Interpretation hier zu denselben Schlussfolgerungen wie die Interpretation der Pseudo-R2 führt. 19 Wie in Abschnitt 2.3 ausgeführt, können die Regressionskoeffizienten über Modelle hinweg nicht sinnvoll verglichen werden. 20 Um zu prüfen, in wie weit die Veränderungen des R2 am Geschlechts- oder Herkunftseffekt liegen, haben wir zusätzlich Modelle geschätzt, in die keine Befragten-Variablen (Geschlecht, Alter) eingehen. Die Modelle haben Anpassungsgüten nach Mc-Fadden von 0,26 (30er), 0,16 (50er) und 0,18 (70er). Folglich ist der Einfluss des Elternhauses auf die Bildungschancen zwar zunächst gesunken (Vergleich der Kohorte 1930er/1950er), daraufhin jedoch wieder leicht angestiegen (Vergleich der Kohorten 1950er/1970er).
31 Logistische Regression
851
Tab. 3: Getrennte Modelle nach Geburtskohorten 1930–39 β (se) Befragter Mann Alter (in 10 J.) Vater Treiman-Prestige Kein/anderer Abschl. Hauptschule Mittlere Reife Mutter Kein/anderer Abschl. Hauptschule Mittlere Reife
1950–59 β (se)
1970–79 β (se)
1,01∗∗∗ (0,13) 0,04 (0,08)
0,66∗∗∗ (0,07) −0,11∗ (0,05)
−0,08 (0,11) −0,11 (0,14)
0,69∗∗∗ (0,04) −0,02 (0,03)
0,05∗∗∗ (0,01) −0,75† (0,41) −1,80∗∗∗ (0,21) −0,25 (0,21)
0,03∗∗∗ (0,00) −1,09∗∗∗ (0,28) −1,22∗∗∗ (0,14) −0,25† (0,15)
0,03∗∗∗ (0,01) −1,15∗∗ (0,39) −1,10∗∗∗ (0,20) −0,65∗∗ (0,21)
0,04∗∗∗ (0,00) −0,98∗∗∗ (0,13) −1,30∗∗∗ (0,06) −0,41∗∗∗ (0,07)
−1,87∗∗∗ (0,45) −1,18∗∗∗ (0,29) −0,59∗ (0,29)
−2,09∗∗∗ (0,29) −1,81∗∗∗ (0,21) −1,01∗∗∗ (0,22)
−1,84∗∗∗ (0,39) −1,42∗∗∗ (0,25) −0,75∗∗ (0,26)
−1,67∗∗∗ (0,14) −1,25∗∗∗ (0,09) −0,44∗∗∗ (0,09)
1,26∗∗∗ (0,38)
0,44∗∗∗ (0,09) −0,22∗∗∗ (0,02) −0,01∗∗∗ (0,00) 0,32∗∗∗ (0,09)
Interaktionen etc. Geburtsjahr (in 10 J.) Mann*Geburtsjahr Prestige*Geburtsjahr −0,25 (0,29)
Konstante Pseudo-R2 (NK) Pseudo-R2 (MF) AIC N
0,37 0,28 0,59 3226
1,13∗∗∗ (0,22) 0,27 0,18 0,97 4887
Referenzkategorien: Frau, Vater Abitur, Mutter Abitur Alter, Prestige und Geburtsjahr zentriert †
: p ≤ 0,1; ∗ : p ≤ 0,05;
∗∗
: p ≤ 0,01;
∗∗∗
: p ≤ 0,001
0,28 0,18 1,11 1666
Gesamt β (se)
0,35 0,24 0,84 23641
852
Henning Best und Christof Wolf
samtmodell weist einen statistisch signifikanten, negativen Interaktionseffekt zwischen Kohorte und Prestige auf. Aufgrund der Nicht-Linearität des Modells ist es jedoch auch hier sinnvoll, vorhergesagte Wahrscheinlichkeiten zu berechnen. Abbildung 6 a zeigt daher die Vorhersagen aus dem Interaktionsmodell, und 6 b stellt die Ergebnisse der getrennten Modellschätzungen zusammen. Vergleicht man Abbildungen 5, 6 a und 6 b, sieht man, dass sich der Verlauf der Kurven zwischen den Abbildungen nur geringfügig unterscheidet. In allen Abbildungen wird der Wahrscheinlichkeitsverlauf in der ältesten Kohorte zunehmend steiler; in der jüngsten Kohorte hingegen ist die Kurve zwar auch deutlich steigend, verläuft aber nahezu linear. Insofern ist in diesem Fall die substanzielle Interpretation identisch mit den Ergebnissen des einfacheren Modells 3 (siehe Tab. 2 und Abbildung 5). Dies spiegelt die Tatsache wider, dass die logistische Regression als nichtlineares Modell interdependente Effekte in einem gewissen Umfang auch ohne explizite Parametrisierung modelliert.
4 Häufige Fehler Prinzipiell ist die logistische Regression ein recht einfach anzuwendendes Analyseverfahren. Probleme in der Anwendung bzw. der Interpretation der Ergebnisse resultieren meist daraus, dass die Gemeinsamkeiten mit der linearen (OLS)-Regression überschätzt werden. Erstens muss immer berücksichtigt werden, dass die logistische Regression lediglich in Bezug auf die Logits linear-additiv parametrisiert ist. In Bezug auf die Wahrscheinlichkeiten beschreiben Logit-Modelle nichtlineare Effekte, die nicht in einem einzelnen Koeffizienten ausgedrückt werden können. Daher besteht das Risiko einer Fehlinterpretation, wenn lineare Beziehungen zwischen den unabhängigen Variablen und der Wahrscheinlichkeit P (y = 1) angenommen und die β-Koeffizienten blauäugig wie in der OLS-Regression interpretiert werden. Gleichzeitig besteht das Risiko, dass die Ergebnisse nur zu oberflächlich interpretiert werden, wenn lediglich die Richtung des Zusammenhangs angegeben wird. Um beides zu vermeiden, plädieren wir für die routinemäßige Berechnung von Conditional-Effect-Plots, bei denen die vorhergesagten Wahrscheinlichkeiten für bestimmte Ausprägungen einer unabhängigen Variablen gegen eine andere unabhängige Variable geplottet werden. Eine Alternative hierzu ist die Berechnung von average marginal effects, die den durchschnittlichen additiven Effekt auf die Wahrscheinlichkeit von y = 1 angeben. Allerdings geht mit der Verwendung von AMEs ein Informationsverlust einher, da sie die Nichtlinearität der Beziehung nicht wiedergeben können. Die Verwendung von entlogarithmierten Koeffizienten (Odds-Ratios) halten wir für keine geeignete Alternative zu β-Koeffizienten, da auch Odds-Ratios in der Interpretation extrem komplex sind. Es ist zu beachten, dass a) Odds nichtlinear mit Wahrscheinlichkeiten verknüpft sind, und daher b) ein gegebenes Odds-Ratio bei unterschiedlichen Basiswahrscheinichkeiten für völlig unterschiedliche Wahrscheinlichkeitsverhältnisse stehen kann. Da zudem praktisch niemand ein Alltagsverständnis von Odds hat (geschweige denn von Odds-Ratios), ist zu befürchten, dass sie beim Lesen implizit als Wahrscheinlichkeitsverhältnisse (bzw. als „so etwas ähnliches“) aufgefasst werden. Teilweise geschieht dies sogar explizit.
31 Logistische Regression
853
Beispielsweise werden in einem Aufsatz, der 2008 in der KZfSS erschienen ist, die Ergebnisse der Logitmodelle wie folgt interpretiert: „So sinken mit jeder Zunahme auf der in fünf Stufen erhobenen Bildungsskala die Teilnahmewahrscheinlichkeit, die odds der Spielteilnahme um das 0,8-fache, d. h. jeweils um durchschnittlich 20 Prozent“ [Hervorhebung HB/CW, Fehler im Original]. Selbstverständlich ist die Interpretation nicht korrekt. Fehlinterpretationen dieser Art können jedoch leicht vermieden werden, indem auf die Verwendung von Odds-Ratios verzichtet wird. Ein zweites mögliches Problem stellen Interaktionseffekte dar. Zwar ist die Vorgehensweise (und auch die Interpretation) in Bezug auf die Logits analog zur linearen Regression durchzuführen, aber sozialwissenschaftliche Hypothesen beziehen sich in aller Regel auf Wahrscheinlichkeiten, nicht auf Logits. In Bezug auf die Wahrscheinlichkeiten kann der Effekt einer Variable x1 jedoch zu einem gewissen Ausmaß auch ohne Spezifikation eines multiplikativen Terms vom Niveau einer anderen Variable x2 abhängen. Logistische Regressionen sind erstens weniger sensibel bei der Identifikation von Interaktionseffekten, und zweitens komplexer in der Interpretation als dies bei OLS-Regressionen der Fall ist. Es wurde vorgeschlagen, auch hier auf Conditional-Effect-Plots zurückzugreifen. Eng verbunden mit diesen beiden Punkten ist, drittens, eine Besonderheit beim Vergleich von Koeffizienten zwischen Modellen. Da die Varianz der (latenten) abhängigen Variablen unbekannt ist und die Residualvarianz in der logistischen Regression als konstant angenommen wird, verändert sich mit der Aufnahme weiterer Variablen in ein Modell nicht nur die erklärte Varianz, sondern auch die Gesamtvarianz der latenten abhängigen Variablen. Es verändert sich also die Skala der abhängigen Variablen, so dass eine Veränderung der β-Koeffizienten nicht notwendigerweise auf die Kontrolle eines Drittvariableneffektes zurückgeführt werden kann. Sollen Koeffizienten beim schrittweisen Modellaufbau verglichen werden, empfiehlt sich daher die Verwendung der robusteren standardisierten Logitkoeffizienten oder der durchschnittlichen marginalen Effekte (AME). Viertens ist zu beachten, dass die in der logistischen Regression verwendeten PseudoR2 -Koeffizienten auf Veränderungen der Likelihood eines Modells basieren und sich nicht – wie in der OLS-Regression – als Maß der erklärten Varianz interpretieren lassen. Zudem gibt es eine Vielzahl verschiedener Varianten von Pseudo-R2 , die in ihrer Größe nicht miteinander vergleichbar sind.
5 Literaturempfehlungen Die nach Ansicht der Autoren beste Monographie zur logistischen Regression ist das englischsprachige Lehrbuch von Long (1997). Eine stärker anwendungsorientierte Einführung (für Stata) findet sich bei Long & Freese (2006). Auch Wooldridge (2002) ist eine hervorragende Darstellung, die jedoch stark formalisiert ist und daher nicht für den Einstieg empfohlen werden kann. Hierfür eignet sich die Einführung von Menard (1995). Auf dem deutschsprachigen Markt ist das Angebot an geeigneten Darstellungen deutlich geringer. Gut verständlich sind die Ausführungen von Andreß et al. (1997), tiefer gehende Diskussionen finden sich bei Tutz (2000).
854
Henning Best und Christof Wolf
Literaturverzeichnis Ai, C. & Norton, E. C. (2003). Interaction Terms in Logit and Probit Models. Economics Letters, 80, 123–129. Akaike, H. (1973). Information Theory and an Extension of the Maximum Likelihood Principle. In B. N. Petrov & B. F. Csaki (Hg.), Second International Symposium on Information Theory (S. 267–281). Budapest: Academiai Kiado. Andreß, H.-J., Hagenaars, J. A., & Kühnel, S. (1997). Analyse von Tabellen und kategorialen Daten. Log-lineare Modelle, latente Klassenanalyse, logistische Regression und GSK-Ansatz. Berlin: Springer. Becker, R. & Lauterbach, W., Hg. (2008). Bildung als Privileg. Wiesbaden: VS Verlag für Sozialwissenschaften. Best, H. (2008). Die Umstellung auf ökologische Landwirtschaft. Empirische Analysen zur Low-Cost-Hypothese des Umweltverhaltens. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 60, 314–338. Cox, D. R. & Snell, E. J. (1989). The Analysis of Binary Data. London: Chapman & Hall. Cragg, J. G. & Uhler, R. (1970). The Demand for Automobiles. Canadian Journal of Economics, 3, 386–406. Huang, C. & Shields, T. G. (2000). Interpretation of Interaction Effects in Logit and Probit Analyses. American Politics Research, 28, 80–95. Hubert, T. & Wolf, C. (2007). Determinanten der beruflichen Weiterbildung Erwerbstätiger. Empirische Analysen auf der Basis des Mikrozensus 2003. Zeitschrift für Soziologie, 36, 473–493. Long, J. S. (1997). Regression Models for Categorical and Limited Dependent Variables. Thousand Oaks: Sage. Long, J. S. & Freese, J. (2006). Regression Models for Categorical Dependent Variables Using Stata. College Station: Stata Press. McFadden, D. (1973). Conditional Logit Analysis of Qualitative Choice Behaviour. In P. Zarembka (Hg.), Frontiers in Econometrics (S. 105–142). New York: Academic Press. Menard, S. (1995). Applied Logistic Regression, Band 07-106 von Quantitative Applications in the Social Sciences. Thousand Oaks: Sage. Raftery, A. E. (1995). Bayesian Model Selection in Social Research. Sociological Methodolgy, 25, 111–163. Treiman, D. J. (1977). Occupational Prestige in Comparative Perspective. New York: Academic Press. Tutz, G. (2000). Die Analyse kategorialer Daten - eine anwendungsorientierte Einführung in Logit-Modellierung und kategoriale Regression. München: Oldenbourg Verlag. Wooldridge, J. M. (2002). Econometric Analysis of Cross Section and Panel Data. Cambridge: MIT Press.
32 Multinomiale und ordinale Regression Steffen M. Kühnel und Dagmar Krebs a b
Georg-August-Universität Göttingen Justus-Liebig-Universität Gießen
Zusammenfassung. Das multiple Regressionsmodell verlangt metrisches Messniveau bei der abhängigen Variablen. Bei nominal- oder ordinalskalierten abhängigen Variablen können logistische Regressionsmodelle für kategoriale abhängige Variablen angewendet werden. In diesen Modellen werden die Realisierungswahrscheinlichkeiten der Ausprägungen der abhängigen Variablen als Funktionen der erklärenden Variablen dargestellt, wobei bei nominalskalierten abhängigen Variablen mit K Ausprägungen eine erklärende Variable mit bis zu K − 1 Regresssionskoeffizienten auf die abhängige Variable wirken kann. Die Nichtlinearität und Multidimensionalität der Regressionsfunktion erschwert die Interpretation eines kategorialen Logitmodells auf der Ebene der Realisierungswahrscheinlichkeiten. Aus diesem Grunde werden bei Logitmodellen oft multiplikative Veränderungen der Wahrscheinlichkeitsverhältnisse zweier Ausprägungen (Odds) betrachtet. Bei ordinalen abhängigen Variablen ist es auch möglich, die beobachtete Variable als ungenaue Messung einer unbeobachteten metrischen Variablen aufzufassen. Ein ordinales Logitmodell kann dann als Regressionsmodell für eine unbeobachtete metrische abhängige Variable interpretiert werden. Neben der Spezifikation und Interpretation der Logitmodelle werden Voraussetzungen für die Schätzung der Modellparameter, Hypothesentests bei Logitmodellen und Anwendungsprobleme diskutiert. In einem empirischen Beispiel wird untersucht, wie die Bildungsabschlüsse von Eltern die ihrer Kinder beeinflussen.
1 Einführung in das Verfahren Im multiplen Regressionsmodell werden die bedingten Mittelwerte einer metrischen abhängigen Variablen als lineare Funktionen der Ausprägungen erklärender Variablen, der Prädiktoren, dargestellt (siehe Kapitel 24 in diesem Handbuch). Bei nominalskalierten Variablen sind Mittelwerte jedoch keine sinnvollen Kennwerte, da verschiedenen Ausprägungen zwar unterschiedliche, aber beliebige Zahlenwerte zugeordnet werden können und daher Abstände (Differenzen) zwischen zwei Zahlen keine empirische Information enthalten. Eine Ausnahme sind dichotome Variablen. Werden den beiden Ausprägungen die Zahlen 0 und 1 zugeordnet, dann gibt der Mittelwert einer so codierten Variablen den Anteil bzw. die Wahrscheinlichkeit an, mit der die mit der Zahl 1 codierte Ausprägung realisiert wird. Die bedingten Mittelwerte von 0/1-codierten abhängigen Variablen lassen sich daher als Regressionsfunktionen von erklärenden Variablen darstellen.
S. 855–886 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_32, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
856
Steffen M. Kühnel und Dagmar Krebs
1.1 Von der binären zur multinomialen logistischen Regression Die Anwendung linearer Regressionsmodelle bei 0/1-codierten abhängigen Variable ist gleichwohl problematisch, da das lineare Regressionsmodell nicht sicherstellen kann, dass die Vorhersagewerte stets im Wertebereich zwischen 0 und 1 liegen. Zudem sind die Residualvarianzen notwendigerweise heteroskedastisch, variieren also mit den Vorhersagewerten. Diese Probleme stellen sich nicht bei der Anwendung der (binären) logistischen Regression. In der logistischen Regression wird der bedingte Mittelwert der 0/1-codierten abhängigen Variablen als Wahrscheinlichkeit interpretiert, mit der in einer Stichprobe die mit 1 codierte Ausprägung in einer Zufallsstichprobe realisiert wird. Die bedingten Wahrscheinlichkeiten werden über die logistische Verteilungsfunktion mit einer linearen Gleichung der erklärenden Variablen verknüpft, was zu einer sförmigen Beziehung zwischen der erklärenden Variablen und den Wahrscheinlichkeiten der abhängigen Variablen führt. Die (geschätzten) Wahrscheinlichkeiten liegen dann bei beliebigen Werten der erklärenden Variablen stets zwischen 0 und 1 (siehe Kapitel 31 in diesem Handbuch). Bei einer nominalskalierten Variablen mit mehr als zwei Ausprägungen könnte man auf die Idee kommen, für jede Ausprägung der Variablen eine eigene 0/1-codierte Variable zu bilden und diese in logistischen Regressionsmodellen als Funktionen der erklärende Variablen zu betrachten. Wenn der Einfachheit halber davon ausgegangen wird, dass nur eine erklärende Variable X die Realisierungswahrscheinlichkeiten der Ausprägungen Y = 1,2, . . . , K der abhängigen Variablen Y beeinflusst, würden nach dieser Idee also K logistische Regressionsgleichungen geschätzt: P r(Y = k) =
exp(β0k + β1k X) für k = 1,2, . . . , K 1 + exp(β0k + β1k X)
(1)
In der Gleichung steht exp(. . .) für die Exponentialfunktion1 y = ex ≈ 2,718x und β0k und β1k für die Regressionskonstante bzw. das Regressionsgewicht der k-ten Regressionsgleichung.2 Was bei diesem Vorgehen nicht berücksichtigt wird, ist die notwendigerweise negative Beziehung zwischen den dichotomen abhängigen Variablen, die dadurch zustande kommt, dass sich die Summe der Realisierungswahrscheinlichkeiten bei jeder Ausprägungskombination der erklärenden Variablen zu 1 aufsummieren muss. Im Modell der multinomialen logistischen Regression wird dieser Tatsache Rechnung getragen. Da bereits K − 1 Regressionsfunktionen alle Informationen enthalten, werden auch nur K − 1 Modellgleichungen formuliert. Außerdem enthält die Summe im Nenner jeder Gleichung neben der Zahl 1 und ihrem Zähler zusätzlich die Zähler der übrigen
1
2
Die Exponentialfunktion wird auch als Antilogarithmusfunktion bezeichnet, da eln(X) = X und ln(eX ) = X. Die Regressionskoeffizienten sind doppelt indiziert, wobei in unserer Notation der erste Index für die Konstante(β0k ) bzw. die Nummer der erklärenden Variablen (β1k für X1 , β2k für X2 , . . . ) steht und der zweite Index für die Ausprägung Y = k der abhängigen Variablen, deren Realisierungswahrscheinlichkeit modelliert wird.
32 Multinomiale und ordinale Regression
857
Regressionsfunktionen. Die Modellgleichung für die Realisierungswahrscheinlichkeiten der Ausprägungen Y = 1,2, . . . , K − 1 lautet dann:3 P r(Y = k) =
exp(β0k + β1k X) 1 + exp(β01 + β11 X) + exp(β02 + β12 X) + . . . + exp(β0,K−1 + β1,K−1 X) (2)
Die Realisierungswahrscheinlichkeit der K-ten Ausprägung, für die keine eigene Regressionsgleichung spezifiziert wird, berechnet sich als Eins minus der Summe der Wahrscheinlichkeiten der übrigen Ausprägungen. Diese Ausprägung wird als Referenzkategorie bezeichnet. In der Modellgleichung oben ist die letzte (K-te) Ausprägung die Referenzkategorie. Da die Zahlenwerte bei nominalskalierten Variablen keine Bedeutung haben, ist es formal beliebig, welche Ausprägung als Referenzkategorie gewählt wird. 1.2 Wahrscheinlichkeiten, Odds und Logits Um die Logik des Zusammenhangs zwischen abhängiger Variable und erklärenden Variablen in der multinomialen logistischen Regression zu verdeutlichen, soll zunächst von einem Beispiel ausgegangen werden, bei dem die Realisierungswahrscheinlichkeiten der drei Ausprägungen 1,2, und 3 einer abhängige Variablen Y durch eine metrische erklärende Variable mit dem Wertebereich von −3 bis +3 bestimmt wird. Wenn die letzte Ausprägung (Y = 3) Referenzkategorie ist und die Regressionskoeffizienten die Werte β01 = 0, β11 = 1,5, β02 = 0,5 und β12 = 0,5 aufweisen, ergeben sich folgende Modellgleichungen: P r(Y = 1) = und P r(Y = 2) =
1+
e0+1,5X + e0,5+0,5X
e0+1,5X
e0,5+0,5X 1 + e0+1,5X + e0,5+0,5X
Die Wahrscheinlichkeit der dritten Ausprägung ist dann: e0+1,5X e0,5+0,5X − 1 + e0+1,5X + e0,5+0,5X 1 + e0+1,5X + e0,5+0,5X 1 = 1 + e0+1,5X + e0,5+0,5X
P r(Y = 3) = 1 −
Abbildung 1 zeigt die Realisierungswahrscheinlichkeiten der drei Ausprägungen im Wertebereich der erklärenden Variablen X. Die Realisierungswahrscheinlichkeiten der ersten Ausprägung der abhängigen Variablen steigen mit steigenden Werten der erklärenden Variablen an. Die Wahrscheinlichkeiten der zweiten Ausprägung steigen 3
Wie in der multiplen Regression erfolgt die Einbeziehung weiterer erklärender Variablen durch eine Erweiterung der Summe (in der Exponentialfunktion) um Produkte aus jeweils einem Regressionsgewicht und einer erklärenden Variablen.
858
Steffen M. Kühnel und Dagmar Krebs 1.0 0.9 0.8 Y=3
07 0.7 0.6 0.5
Y=2
0.4 0.3 0.2 0.1
Y=1
0.0 3 3
2 2
1 1
0
1
2
3
Abb. 1: Beispiel für die Realisierungswahrscheinlichkeiten eines multinomialen logistischen Regressionsmodells erst an und fallen anschließend wieder. Die Realisierungswahrscheinlichkeiten der dritten Ausprägung sinken mit steigenden Werten der erklärenden Variablen. Da keine der Kurven linear ist, ist es im Unterschied zu einem linearen Regressionsmodell nicht möglich, durch eine Zahl auszudrücken, mit welchen Veränderungen bei den Realisierungswahrscheinlichkeiten zu rechnen ist, wenn die erklärende Variable um eine Einheit ansteigt. Es ist nicht einmal möglich, zu sagen, dass mit steigenden Werten der erklärenden Variablen die Realisierungswahrscheinlichkeiten einer Ausprägung immer ansteigen oder immer abfallen. Es ist daher in logistischen Regressionsmodellen mit mehr als zwei Ausprägungen der abhängigen Variablen meist nicht sinnvoll, von positiven oder negativen Effekten einer erklärenden Variablen auf die Realisierungswahrscheinlichkeiten zu sprechen.4 Aufgrund dieser Eigenart wird die Darstellung des Zusammenhangs analog zu Abbildung 1 gerne grafisch als Kurvenverlauf dargestellt. Wenn – anders als im Beispiel – das multinomiale logistische Regressionsmodell mehrere erklärende Variablen aufweist, stellt sich allerdings die Frage, bei welchen Ausprägungskombinationen der übrigen erklärenden Variablen eine solche Grafik, die dann auch als „conditional effect plot“ bezeichnet wird, berechnet werden soll. Eine Möglichkeit besteht darin, die Regressionskurve einer erklärenden Variablen darzustellen, wenn die übrigen Variablen ihren jeweiligen Mittelwert oder Median aufweisen. Zu beachten ist hier allerdings, dass die Funktionsverläufe bei anderen Ausprägungskombinationen der übrigen Variablen auch deutlich anders ausfallen können.5 Die Unübersichtlichkeit des Zusammenhangs zwischen den erklärenden Variablen und den Realisierungswahrscheinlichkeiten der abhängigen Variablen löst sich auf, wenn zwei Realisierungswahrscheinlichkeiten durcheinander geteilt werden. Es ergibt 4
5
Ob eine solche Aussage sinnvoll ist, hängt u. a. vom Wertebereich der abhängigen Variablen ab. Wären im Beispiel nur negative Werte bis −1 möglich, würden die Ausprägungen 1 und 2 ansteigen und die Ausprägung 3 sinken. Für eine umfassende Diskussion siehe Kapitel 34 in diesem Handbuch.
32 Multinomiale und ordinale Regression 10.0
859
Pr(Y=1) Pr(Y=3)
9.0 8.0 7.0 6.0 5.0 40 4.0 3.0 2.0
Pr(Y=2) Pr(Y=3)
1.0
Pr(Y=1) ( ) Pr(Y=2)
0.0 3 3
2 2
1 1
0
1
2
3
Abb. 2: Wahrscheinlichkeitsverhältnisse (Odds) im Beispiel zur multinomialen logistischen Regression sich dann nämlich eine Funktion, die eine eindeutige Richtung von Zusammenhängen erlaubt. Wenn für das Beispiel die Wahrscheinlichkeitsverhältnisse der Ausprägungen Y = 1 durch Y = 3, Y = 2 durch Y = 3 und Y = 1 durch Y = 2 berechnet werden, ergeben sich folgende Gleichungen: e0+1,5X 0+1,5X + e0,5+0,5X P r(Y = 1) = e0+1,5X = 1+e 1 P r(Y = 3) 1 + e0+1,5X + e0,5+0,5X e0,5+0,5X 0+1,5X + e0,5+0,5X P r(Y = 2) = 1+e = e0,5+0,5X 1 P r(Y = 3) 1 + e0+1,5X + e0,5+0,5X und
e0+1,5X 0+1,5X + e0,5+0,5X P r(Y = 1) e0+1,5X = 1 + e 0,5+0,5X = 0,5+0,5X = e−0,5+1,0X P r(Y = 2) e e 0+1,5X 0,5+0,5X 1+e +e Anstelle der etwas unhandlichen Bezeichnung Wahrscheinlichkeitsverhältnis wird meist der englische Begriff Odds verwendet. Die Odds der ersten Ausprägung zur Referenzkategorie ergeben sich aus dem Zähler der Gleichung für die Realisierungswahrscheinlichkeit der ersten Kategorie und analog die Odds der zweiten Ausprägung zur Referenzkategorie als Zähler der Gleichung für die zweite Ausprägung. Die Odds der ersten zur zweiten Ausprägung berechnen sich über den Quotienten der Zähler der ersten Gleichung geteilt durch den Zähler der zweiten Gleichung. In Abbildung 2 sind die Kurven der drei Odds als Funktion der erklärenden Variablen dargestellt. Alle drei Kurven sind monoton steigend. Generell gilt in der multinomialen logistischen Regression, dass die Darstellung der Odds als Funktion einer erklärenden
860
Steffen M. Kühnel und Dagmar Krebs
Variablen stets monoton ansteigen, parallel zur waagerechten Achse verlaufen oder monoton fallen. Inhaltlich ist es daher sinnvoll, in der multinomialen logistischen Regression bezogen auf Odds von einer positiven Beziehung, keiner Beziehung oder einer negativen Beziehung zu sprechen. Werden die Wahrscheinlichkeitsverhältnisse (Odds) logarithmiert, ergibt sich auf der rechten Seite jeder Gleichung jeweils eine lineare Gleichung der Prädiktoren: P r(Y = 1) = 0,0 + 1,5X P r(Y = 3) P r(Y = 2) = 0,5 + 0,5X ln P r(Y = 3) P r(Y = 1) ln = −0,5 + 1,0X P r(Y = 2)
ln
Die logarithmierten Odds werden als Log-Odds oder Logits bezeichnet. Bezogen auf die Logits ist die multinomiale logistische Regression ein lineares Modell. Die Logitgleichungen im Beispiel besagen, dass die drei Logits von Y = 1 zu Y = 3, von Y = 2 zu Y = 3 und von Y = 1 zu Y = 2 jeweils linear ansteigen, wobei der Anstieg in der ersten Logitgleichung am größten und in der zweiten Logitgleichung am geringsten ist. Mit Hilfe der Logitgleichungen ist nachvollziehbar, warum in Abbildung 1 die Wahrscheinlichkeiten der zweiten Ausprägung Y = 2 erst ansteigen und dann wieder fallen, obwohl das Regressionsgewicht β12 = 0,5 positiv ist. Das positive Regressionsgewicht weist darauf hin, dass die Logits der zweiten Kategorie Y = 2 relativ zur Referenzkategorie Y = 3 mit zunehmenden Werten von X stets ansteigen. Noch stärker steigen allerdings die Logits der ersten Kategorie Y = 1 mit dem Regressionsgewicht β11 = 1,5 zur Referenzkategorie an. Dies führt dazu, dass mit steigenden Werten von X auch die Logits von Y = 1 zu Y = 2 mit einem Gewicht von 1,0 (= β11 − β12 = 1,5 − 0,5) ansteigen bzw. umgekehrt die Logits von Y = 2 zu Y = 1 sinken. Aufgrund der relativ hohen Wahrscheinlichkeit der Referenzkategorie Y = 3 am linken Rand der Verteilung von X können zunächst sowohl die Wahrscheinlichkeiten von Y = 2 wie die von Y = 1 bei sinkenden Wahrscheinlichkeiten von Y = 3 ansteigen. Da die Wahrscheinlichkeit von Y = 1 aber schneller ansteigt als die von Y = 2 und die Summe aller Wahrscheinlichkeiten Eins ist, müssen die Wahrscheinlichkeiten von Y = 2 bei größeren Werten von X dann wieder sinken, verlaufen insgesamt also nichtmonoton. Die Interpretationsschwierigkeiten der multinomialen Regression durch den aus Regressionskoeffizienten nicht direkt ersichtlichen Zusammenhang zwischen erklärenden Variablen und Realisierungswahrscheinlichkeiten der abhängigen Variablen gibt es bezogen auf die Logits und Odds nicht. Hier besteht eine positive, negative oder gar keine Beziehung. Logits, also logarithmierte Wahrscheinlichkeitsverhältnisse, sind allerdings Einheiten, die nur sehr indirekt auf die beobachtbare Wirklichkeit bezogen sind und die entsprechend schwer hinsichtlich ihrer empirischen Konsequenzen zu interpretieren sind. Leichter gelingt dies mit den Odds. So wird auch im Alltag etwa davon gesprochen, dass die Chancen des Erfolgs zum Misserfolg z. B. 3 zu 1 stehen, der Erfolg also dreimal so wahrscheinlich erscheint wie der Misserfolg. Wenn Odds den
32 Multinomiale und ordinale Regression
861
Wert 3,0 aufweisen, ist entsprechend mit dreimal so vielen Fällen bei der Ausprägung im Zähler der Odds zu rechen wie bei der Ausprägung im Nenner. Im multinomialen Modell mit mehreren Ausprägungen der abhängigen Variablen besteht eine weitere Schwierigkeit der Interpretation von Odds darin, dass aus der Betrachtung eines Wahrscheinlichkeitsverhältnisses keine Wahrscheinlichkeiten abgeleitet werden können. Wenn etwa im Beispiel der multinomialen logistischen Regression das Wahrscheinlichkeitsverhältnis der Ausprägung Y = 1 zu Y = 3 den Wert 3 aufweist, dann bedeutet dies zwar, dass mit dreimal so vielen Fällen mit der Ausprägung Y = 1 statt mit der Ausprägung Y = 3 zu rechnen ist, aber nicht, dass die Wahrscheinlichkeit von Y = 3 dann 25 % beträgt und die von Y = 1 entsprechend 75 % (= 3 · 25 %). Wenn nämlich die Wahrscheinlichkeit von Y = 3 nur 1 % betrüge, hätte Y = 1 auch nur eine Wahrscheinlichkeit von 3 %, wäre also ebenfalls eher unwahrscheinlich. Wenn wir bei der Interpretation der logistischen Regression die Betrachtung von Odds empfehlen, so deshalb, weil Odds im Unterschied zu Logits eine direkte empirische Häufigkeitsdeutung erlauben und weil im Unterschied zu den Realisierungswahrscheinlichkeiten gleiche Änderungen einer abhängigen Variablen im gesamten Wertebereich dieser Variablen die Wahrscheinlichkeitsverhältnisse stets um den gleichen Faktor verändern. Durch die Betrachtung der Veränderungen von Odds ergibt sich also trotz der Nichtlinearität der funktionalen Beziehung eine einheitliche Interpretation von Veränderungen einer erklärenden Variablen. Zu beachten ist allerdings, dass Odds einen multiplikativer Zusammenhang modellieren und keinen additiven wie die Logits. Inhaltlich bedeutet dies, dass Veränderungsfaktoren betrachtet werden und keine additiven Zuwächse. Ein Faktor von 1 steht dann für keine Veränderung, ein Faktor größer 1 für einen Anstieg bzw. positiven Effekt und ein Faktor kleiner 1 für einen Rückgang oder negativen Effekt. Durch Vergleiche der Kehrwerte können positive und negative Effekte verglichen werden. So entspricht dem negativen Effekt bei einem Veränderungsfaktor von 0,5 (= 1/2) ein gleich großer positiver Effekt bei einem Veränderungsfaktor 2,0. 1.3 Modellschätzung und statistische Tests Bei der Analyse asymmetrischer Zusammenhänge zwischen einer abhängigen Variablen und einer oder mehreren erklärenden Variablen interessieren in der Regel drei Fragen: 1. Besteht überhaupt ein Zusammenhang zwischen der abhängigen Variablen und den erklärenden Variablen? 2. Wenn ja, wie stark ist der Zusammenhang? 3. Wenn mehrere erklärende Variablen betrachtet werden, wie stark sind die relativen Effekte der einzelnen erklärenden Variablen? Bei der multinomialen logistischen Regression ist bei der Beantwortung dieser Fragen zu berücksichtigen, dass eine erklärende Variable nicht über ein einziges Regressionsgewicht, sondern über mehrere Gewichte auf die abhängige Variable einwirkt. Ausgangspunkt sind, wie bei der linearen Regression, die in einer Stichprobe geschätzten Regressionskoeffizienten des logistischen Regressionsmodells. Im Unterschied zur
862
Steffen M. Kühnel und Dagmar Krebs
Kleinstquadratschätzung des linearen Regressionsmodells werden logistische Regressionsmodelle üblicherweise mittels der Maximum-Likelihood-Methode geschätzt (siehe Kapitel 10 in diesem Handbuch). Die mit ML geschätzten Regressionskoeffizienten weisen Werte auf, bei denen die Auftretenswahrscheinlichkeiten der in der Stichprobe tatsächlich beobachteten Realisierungen maximal sind. Wenn sich diese Wahrscheinlichkeiten tatsächlich durch die Gleichungen der multinomialen Regression beschreiben lassen, dann sind die geschätzten Koeffizienten bei einer einfachen Zufallsauswahl konsistent, asymptotisch erwartungstreu und asymptotisch normalverteilt.6 Besteht ein Zusammenhang? Zunächst ist zu klären, ob die erklärenden Variablen überhaupt mit der abhängigen Variablen zusammenhängen. In der multinomialen logistischen Regression ist das der Fall, wenn mindestens ein Regressionsgewicht (und nicht nur die Regressionskonstanten) in mindestens einer Logit-Gleichung von Null verschieden ist. In der Regel ergeben sich in einer Stichprobe aufgrund des Vorhandenseins von Zufallsschwankungen selbst dann geschätzte Regressionsgewichte ungleich Null, wenn die Populationswerte tatsächlich alle Null sind. Die Frage, ob ein Zusammenhang besteht, wird daher über einen statistischen Test beantwortet. Die Nullhypothese postuliert, dass sämtliche Regressionsgewichte in der Population Null sind. Die Alternativhypothese besagt entsprechend, dass mindestens ein Regressionsgewicht ungleich Null ist. Für den Test stehen unterschiedliche Teststatistiken zur Verfügung. In der Regel wird ein Likelihood-Quotienten-Test (LR-Test) angewendet. Der LR-Test entspricht dem F-Test im linearen Regressionsmodell. Analog zum F-Test auf Veränderung des Determinationskoeffizienten bei Berücksichtigung weiterer Prädiktoren kann der LRTest auch verwendet werden, um den Einfluss einer spezifischen erklärenden Variablen bzw. einer Teilmenge von erklärenden Variablen zu testen. Die Nullhypothese behauptet dann, dass alle Regressionsgewichte der zu testenden erklärenden Variablen bzw. der zu testenden Teilmenge der erklärenden Variablen Null sind. Wie stark ist ein Zusammenhang? Wenn mit den Werten mindestens einer der erklärenden Variablen die Realisierungswahrscheinlichkeiten der Ausprägungen der abhängigen Variablen variieren, stellt sich die Frage nach der Stärke des Zusammenhangs. Im linearen Modell wird diese in der Regel als Erklärungskraft bezeichnete Zusammenhangsstärke meist über den Determinationskoeffizienten gemessen. Der Determinationskoeffizient erfasst den auf die Variation der erklärenden Variablen zurückführbaren Anteil der Variation der abhängigen Variablen. Da bei nominalskalierten Variablen keine Variation bzw. Varianz definiert ist, kann als analoges Maß die relative Devianzreduktion herangezogen werden. Die Devianz ist proportional zum Wert der negativen Loglikelihoodfunktion, die bei der ML-Schätzung minimiert wird. Aufgrund der formalen Ähnlichkeit zum Determinationskoeffizienten R2 wird die Devianzreduktion auch als Pseudo-R2 bezeichnet. Da in der Praxis die relative Devianzreduktion aber oft sehr kleine Werte unter 0,1 oder gar 0,01 aufweist, werden alternative 6
Zu diesen Eigenschaften von Schätzern siehe Kapitel 8 in diesem Handbuch.
32 Multinomiale und ordinale Regression
863
Maße vorgeschlagen, die zu größeren Werten führen. Zur eindeutigen Kennzeichnung wird die relative Devianzreduktion auch als McFaddens Pseudo-R2 bezeichnet. Programme wie die Prozedur NOMREG in SPSS berechnen zusätzlich das Pseudo-R2 nach Cox und Snell und das Pseudo-R2 nach Nagelkerke. Das Maß von Nagelkerke weist den größten Wert auf. Aufgrund dieser Eigenschaft wird in Publikationen oft Nagelkerkes Pseudo-R2 berichtet. Wie stark sind die relativen Effekte der erklärenden Variablen? Wenn die abhängige Variable durch mehr als eine erklärende Variable beeinflusst wird, stellt sich die Frage nach der relativen Erklärungskraft der einzelnen Prädiktoren. Die Besonderheit der multinomialen logistischen Regression ist dabei, dass eine erklärende Variable über mehrere Regressionsgewichte die abhängige Variable beeinflusst. Wird zunächst nur eine Regressionsfunktion betrachtet, also die relativen Effekte der erklärenden Variablen auf spezielle Odds, dann ist das Vorgehen analog zur linearen Regression. Mit einem statistischen Test wird zunächst geprüft, ob das Regressionsgewicht in der Population ungleich Null ist. Nur wenn dies der Fall ist, ist es sinnvoll, die Effektstärke relativ zu einer anderen erklärenden Variablen zu betrachten. In der linearen Regression wird die Signifikanz eines einzelnen Regressionskoeffizienten meist über einen T-Test geprüft. Die Teststatistik ist der Quotient aus dem Regressionskoeffizienten und seinem geschätzten Standardfehler. Bei der ML-Schätzung eines logistischen Regressionsmodells kann die gleiche Statistik berechnet werden, die hier allerdings bei zutreffender Nullhypothese nicht t-verteilt ist, sondern asymptotisch standardnormalverteilt. In Statistikprogrammen wird teilweise auch das Quadrat dieser Teststatistik berechnet, das bei gültiger Nullhypothese mit einem Freiheitsgrad asymptotisch chiquadratverteilt ist. Der Test wird dann als Wald-Test bezeichnet. Für den Vergleich der relativen Stärke des Zusammenhangs werden im linearen Regressionsmodell standardisierte Regressionsgewichte berechnet, die sich ergeben, wenn abhängige und unabhängige Variablen standardisiert sind. Analog lassen sich teilstandardisierte Effekte in der multinomialen Regression berechnen, wenn die erklärenden Variablen standardisiert werden. Da die abhängige Variable nominalskaliert ist, kann sie nicht standardisiert werden, so dass keine vollstandardisierten Koeffizienten berechnet werden können. Die teilstandardisierten Regressionsgewichte geben an, wie sich die Logits ändern, wenn die erklärende Variable um eine Standardabweichung ansteigt. Bezogen auf die Odds geben diese Effekte an, um welchen Faktor sich die Odds ändern. Wenn sx für die Standardabweichung einer erklärenden Variablen Xj steht, ergibt sich das teilstandardisierte Regressionsgewicht der erklärenden Variablen Xj für die Regressionsgleichung von Y = k aus dem unstandardisierten Koeffizienten nach: βˆjk,stand. = βˆjk · sX und exp(βˆjk,stand. ) = exp(βˆjk · sX ) (3) Schwieriger wird der Vergleich zwischen erklärenden Variablen, wenn die Gesamteffekte erklärender Variablen auf alle Odds bzw. Logits betrachtet werden sollen. Einen signifikanten Einfluss hat eine erklärende Variable, wenn die Nullhypothese abgelehnt wird, dass alle mit der Variablen assoziierten Regressionsgewichte Null sind. Geprüft
864
Steffen M. Kühnel und Dagmar Krebs
werden kann die Hypothese mit einem LR-Test, wobei das Modell ohne die betrachtete erklärende Variable dem vollständigen Modell gegenüber gestellt wird. Um den relativen Gesamteffekt von zwei erklärenden Variablen zu vergleichen, kann der Anstieg bei Pseudo-R2 berechnet werden, der sich ergibt, wenn die jeweils betrachtete erklärende Variable zusätzlich in das Regressionsmodell aufgenommen wird. Formal sind die so berechneten Koeffizienten semi-partielle Zusammenhangsmaße, bei denen der Effekt der übrigen erklärenden Variablen auf die abhängige Variable, aber nicht auf die betrachtete erklärende Variable kontrolliert wird. Um eine etwas genauere Abschätzung des relativen Einflusses der erklärenden Variablen vorzunehmen, haben Jagodzinski & Kühnel (1990) vorgeschlagen, zusätzlich die bivariaten Werte von Pseudo-R2 zu vergleichen. Sie argumentieren, dass das bivariate Pseudo-R2 einen Zusammenhang eher überschätzt und der Zuwachs an Pseudo-R2 den Zusammenhang eher unterschätzt. Beide Werte zusammen geben dann eine untere und obere Grenze für den relativen Einfluss einer erklärenden Variablen auf die abhängige Variable an. 1.4 Logistische Regression bei einer ordinalen abhängigen Variablen Eine Variable ist ordinal, wenn sich Realisierungen der Variablen nicht nur als gleich oder ungleich klassifizieren lassen, sondern sich die Ausprägungen der Variablen zusätzlich in eine theoretisch begründete Reihenfolge bringen lassen. Diese zusätzliche Information lässt sich nutzen, um Je-desto-Hypothesen zwischen abhängiger Variable und unabhängiger Variable aufzustellen und empirisch zu prüfen. Im Kontext logistischer Regressionsmodelle lassen sich dabei zwei Strategien unterscheiden. Die einfachste Strategie ist es, ein multinomiales logistisches Regressionsmodell zu verwenden. Bei einer positiven Je-desto-Beziehung mit einer erklärenden Variablen muss dann für die geschätzten Regressionsgewichte gelten, dass bei einem Anstieg der erklärenden Variablen um eine Einheit die Odds und die Logits um so größer sind, je größer der Rangabstand zwischen den ordinalen Kategorien der abhängigen Variablen ist. Bei der zweiten Strategie wird die ordinale Ranginformation der abhängigen Variablen bereits bei der statistischen Modellspezifikation benutzt. Anstelle von K − 1 Regressionsgewichten βkj für eine erklärende Variable Xj wird dann nur ein einziges Regressionsgewicht βj spezifiziert, dass die Richtung und Stärke der Beziehung erfassen soll. Logistische Regressionsmodelle für abhängige ordinale Variablen unterscheiden sich darin, wie die erklärenden Variablen die Logits bzw. Odds der abhängigen Variablen beeinflussen. Am häufigsten wird das Modell der kumulierten Logits (cumulative logit model) verwendet, da dieses Modell – wie in Abschnitt 1.5 gezeigt wird – zwei unterschiedliche Sichtweisen auf Ordinalität erlaubt. In diesem Modell wird der Wertebereich der K Kategorien der abhängigen Variablen in K −1 Dichotomien zerlegt und es wird für jede dieser Dichotomien jeweils ein binäres Logitmodell geschätzt. Wie im multinomialen Logitmodell werden bei K Ausprägungen wiederum insgesamt K − 1 Gleichungen formuliert. Allerdings können hier nur die Regressionskonstanten α1 , α2 , . . . , αK−1 variieren, während die Regressionsgewichte βj der erklärenden Variablen Xj bei jeder Dichotomisierung die gleichen Werte aufweisen. Wenn zur Vereinfachung wieder nur von einer einzigen erklärenden Variablen X mit einem Regressionsgewicht β ausgegangen wird, ergibt sich somit:
32 Multinomiale und ordinale Regression
exp(α1 + βX) 1 + exp(α1 + βX) exp(α2 + βX) P r(Y > 2) = 1 + exp(α2 + βX) ...
865
P r(Y > 1) =
P r(Y > K − 1) =
(4)
exp(αK−1 + βX) 1 + exp(αK−1 + βX)
Das Modell der kumulierten Logits postuliert also, dass der Effekt eines Anstiegs einer erklärenden Variablen Xj um +1 Einheit den gleichen Effekt hat, unabhängig davon, ob die abhängige Variable zwischen der ersten und zweiten Kategorie dichotomisiert wird, zwischen der zweiten und der dritten Kategorie, . . . oder zwischen den Kategorien K − 1 und K. Aus den K − 1 binären Regressionsgleichungen lassen sich die Realisierungswahrscheinlichkeiten jeder Kategorie von Y berechnen. Die Wahrscheinlichkeit der ersten (kleinsten) Ausprägung ergibt sich aus der ersten Regressionsgleichung: P r(Y = 1) = 1 − P r(Y > 1) =
1 1 + exp(α1 + βX)
(5)
Die Wahrscheinlichkeiten der mittleren Kategorien Y = k mit k = 2, 3, K −1 berechnen sich aus den Differenzen von jeweils zwei aufeinanderfolgenden Regressionsgleichungen: P r(Y = k) = P r(Y > k − 1) − P r(Y > k) =
exp(αk + βX) exp(αk−1 + βX) − 1 + exp(αk−1 + βX) 1 + exp(αk + βX)
(6)
für k = 2,3, . . . , K − 1. Die Gleichung für die höchste Kategorie ist durch die letzte Regressionsgleichung gegeben: P r(Y = K) = P r(Y > K − 1) =
exp(αK−1 + βX) 1 + exp(αK−1 + βX)
(7)
Abbildung 3 a zeigt die Realisierungswahrscheinlichkeiten der Dichotomisierungen des Wertebereichs der abhängigen Variablen, Abbildung 3 b die Realisierungswahrscheinlichkeiten der einzelnen Kategorien des ordinalen Logitmodells bei einer abhängigen Variablen Y mit drei Kategorien und einer erklärenden Variablen X. Die beiden Regressionskonstanten betragen in diesem Beispiel α1 = 1 und α2 = 0; das Regressionsgewicht beträgt β = 0,5. Die Regressionskurven der Dichotomisierungen der Ausgangsvariablen sind stets monoton. Bei einem positiven Zusammenhang muss die Kurve für die Wahrscheinlichkeit von Y = 1 abfallen und die übrigen Kurven für Y > 1, Y > 2, . . . ansteigen, wobei gelten muss, dass die Kurven für Y > k oberhalb der Kurven für Y > k + 1 verlaufen. Bei einem negativen Zusammenhang würde der Verlauf umgekehrt sein: die Kurve für die unterste Kategorie würde ansteigen, während die der übrigen Kurven abfallen würden. Besteht kein monotoner Zusammenhang laufen alle Kurven parallel zur waagerechten Achse. Werden die Kurven für
866
Steffen M. Kühnel und Dagmar Krebs 1.0 1 0 0.9 0.8 07 0.7 0.6 0.5 04 0.4 0.3 0.2 0.1 0.0
Pr(Y>1)
Pr(Y>2)=Pr(Y=3)
Pr(Yd1)=Pr(Y=1)
3
2
1
0
1
2
(a) Realisierungswahrscheinlichkeiten der Dichotomisierungen
3
1.0 1 0 0.9 0.8 07 0.7 0.6 0.5 04 0.4 0.3 0.2 01 0.1 0.0
Pr(Y=3)
Pr(Y=1)
Pr(Y=2)
3
2
1
0
1
2
3
(b) Realisierungswahrscheinlichkeiten der einzelnen Kategorien
Abb. 3: Beispiele zum Modell der kumulierten Logits die Wahrscheinlichkeiten der einzelnen Kategorien dargestellt (Abbildung 3 b), dann sind die Kurvenverläufe für die mittleren Kategorien (hier für Y = 2) wie bei der multinomialen Regression nichtmonoton. 1.5 Interpretation des Modells der kumulierten Logits als vorgelagertes Schwellenwertmodell in einer linearen Regression Bei der Interpretation einer ordinalen Variablen lassen sich zwei Sichtweisen des ordinalen Messniveaus unterscheiden. Zum einen kann ordinales Messniveau so verstanden werden, dass die Ausprägungen einer ordinalen Variablen zwar eine Rangfolge bilden, es aber weder möglich noch sinnvoll ist, Abstände zwischen den Ausprägungen zu definieren. Zum anderen kann Ordinalität aber auch als eine ungenaue Messung einer eigentlich metrischen Größe verstanden werden: Abstände zwischen den Ausprägungen existieren dann zwar, sie sind aber unbekannt. Das Modell der kumulierten Logits lässt sich innerhalb beider Sichtweisen interpretieren. Die erste Sichtweise entspricht der Darstellung im vorigen Abschnitt, wo Ordinalität so operationalisiert wurde, dass die Logits bzw. Odds umso größer sind, je weiter die Kategorien auseinander liegen. Bei der zweiten Sichtweise wird davon ausgegangen, dass eine eigentlich interessierende abhängige Variable Y ∗ metrisches Messniveau aufweist. Beobachtbar ist aber nur eine kategoriale Variable Y , die mit Y ∗ über ein Schwellenwertmodell verbunden ist. Wenn Y ∗ kleiner ist als ein erster Schwellenwert τ1 , dann wird die unterste Kategorie von Y beobachtet. Erreicht oder übersteigt Y ∗ den ersten Schwellenwert, ist aber kleiner als der zweite Schwellenwert τ2 , dann wird die zweite Kategorie beobachtet. Analog ergeben sich die Beobachtungen der übrigen Kategorien. Allgemein gilt somit:
32 Multinomiale und ordinale Regression
P r(Y = 1) = P r(Y ∗ < τ1 ); P r(Y = 2) = P r(τ1 ≤ Y ∗ < τ2 ); ...
867
(8)
P r(Y = K) = P r(τK−1 ≤ Y ∗ ) Bei dieser Sichtweise interessiert der Zusammenhang zwischen der unbeobachteten metrischen Variablen Y ∗ und den erklärenden Variablen und nicht der Zusammenhang zwischen der beobachteten ordinalen Variablen Y und den erklärenden Variablen. Wird etwa ein linear-additiver Zusammenhang vermutet, gilt bei einer erklärenden Variablen X: Y ∗ = β0 + β1 X + ε (9) Ziel der Modellschätzung ist dann, die Regressionskoeffizienten des linearen Modells mit der unbeobachteten abhängigen Variablen Y ∗ zu schätzen. Dazu ist es notwendig, neben den Regressionskoeffizienten auch die Schwellenwerte τk zu schätzen. Aus dem Schwellenwertmodell und der linearen Regressionsfunktion von Y ∗ folgt, dass die beobachtete ordinale Variable Y größer oder gleich einem Schwellenwert τk ist, also Y ≥ Yk beobachtet wird, wenn gilt: β0 + β1 X + ε ≥ τk bzw. (β0 − τk ) + β1 X ≥ −ε
(10)
Um die Regressionskoeffizienten und die Schwellenwerte zu schätzen, muss für die Residualvariable ε eine Wahrscheinlichkeitsverteilung angenommen werden. Wenn für die Residuen eine logistische Dichteverteilung unterstellt wird,7 dann berechnet sich die Wahrscheinlichkeit, dass Y ≥ Yk beobachtet wird nach: P r(Y ≥ k) = P r((β0 − τk ) + β1 X ≥ −ε) =1−
eε e(β0 −τk )+β1 X e−ε = = −ε ε 1+e 1+e 1 + e(β0 −τk )+β1 X
(11)
Für die Wahrscheinlichkeit von Yk gilt dann: P r(Y = k) = P r(Y ≥ k) − P r(Y ≥ k + 1) =
e(β0 −τk )+β1 X e(β0 −τk+1 )+β1 X − 1 + e(β0 −τk )+β1 X 1 + e(β0 −τk+1 )+β1 X
(12)
Diese Gleichung ist formal identisch mit der Gleichung des Modells der kumulierten Logits. Inhaltlich bedeutet das, dass die Regressionsgewichte des ordinalen Logitmodells auch als Regressionsgewichte einer linearen Regression auf eine latente metrische Variable Y ∗ interpretiert werden können, die über ein Schwellenwertmodell mit der beobachteten ordinalen Indikatorvariablen Y verbunden ist. Bei der Interpretation ist zu beachten, dass sich weder Nullpunkt noch Einheit der latenten Variablen Y ∗ unabhängig von den Schwellenwerten identifizieren lassen. Es ist daher sinnvoll, bei dieser zweiten Sichtweise nur die standardisierten Regressionsgewichte zu interpretieren. 7
Wird alternativ angenommen, dass die Residuen normalverteilt sind, ergibt sich anstelle des ordinalen Logitmodells das ordinale Probitmodell.
868
Steffen M. Kühnel und Dagmar Krebs
2 Mathematisch-Statistische Grundlagen 2.1 Schätzung Die Schätzung der Regressionskoeffizienten erfolgt bei logistischen Regressionsmodellen mit der ML-Methode. Die Likelihoodfunktion ist hier die Betrachtung der Realisierungswahrscheinlichkeiten der Ausprägungen von Y gegeben die Werte der erklärenden Variablen als Funktion der Regressionskoeffizienten. Bei einer Stichprobe von n identisch verteilten und statistisch unabhängigen Realisierungen ergibt sich die Likelihoodfunktion als: ˆ = L(β)
n $ K $
(P r(Yi = k|xi ))δki
(13)
i=1 k=1
In Gleichung (13) steht P r(Yi = k|xi ) für die Wahrscheinlichkeit der Realisierung der Ausprägung Y = k des Falles i in der Stichprobe von insgesamt n Fällen, gegeben die Werte der Prädiktoren bei diesem Fall. Das Dach über dem Vektor der Regressionskoˆ weist darauf hin, dass es sich um Schätzer der Populationswerte handelt. effizienten β δki steht für die Realisierung einer 0/1-codierten Indikatorvariablen δk , die den Wert 1 annimmt, wenn beim i-ten Fall die k-te Kategorie von Y realisiert wird, und sonst 0. Im multinomialen Logitmodell werden für die Realisierungswahrscheinlichkeiten die Modellgleichungen der multinomialen Regression eingesetzt: P r(Yi = k|xi ) =
ˆ ) exp(xi β k für k = 1,2, . . . , K − 1 ˆ ) 1 + exp(xi β k (14)
bzw. P r(Yi = K|xi ) =
1 ˆ ) 1 + exp(xi β k
Die Regressionskoeffizienten sind in einem Spaltenvektor, die Realisierungen der Prädiktoren des Falles i in einem Zeilenvektor zusammengefasst, was durch einen hochgestellten Schrägstrich symbolisiert wird. Um die Regressionskonstanten β0k zu berücksichtigen, enthält das erste Element des Vektors x die Zahl 1. Im ordinalen Modell der kumulierten Logits lauten die Modellgleichungen: P r(Yi = 1|xi ) = P r(Yi = k|xi ) =
1 ; ˆ ) 1 + exp(α ˆ 1 + xi β k ˆ ) exp(αk−1 + x β
k ˆ ) xi β k
i
1 + exp(α ˆ k−1 +
−
ˆ ) exp(ˆ αk + xi β k ˆ ) 1 + exp(α ˆ k + xi β k
(15)
für k = 2,3, . . . , K − 1 und ˆ ) exp(ˆ αk−1 + xi β k P r(Yi = K|xi ) = ˆ ) 1 + exp(α ˆ k−1 + xi β k Da die Regressionskonstanten explizit formuliert sind, enthält der Vektor der Prädiktoren für den Fall i hier nicht die Zahl 1 als erstes Element sondern die erste erklärende Variable X1 .
32 Multinomiale und ordinale Regression
869
Die Likelihoodfunktion in Gleichung (13) ist in der Regel global konkav. Es gibt dann nur ein einziges Maximum, das mittels einer iterativen Funktion berechnet werden kann. Anstelle der Maximierung wird die negative logaritmierte Likelihoodfunktion − ln L minimiert. Programme zur ML-Schätzung berechnen meist auch die Matrix der zweiten partiellen Ableitungen der negativen Log-Likelihoodfunktion, die als Informationsmatrix bezeichnet wird. Die Inverse der Informationsmatrix ergibt an der Stelle des Maximums der Likelihoodfunktion eine konsistente Schätzung der Varianz-Kovarianzmatrix der Schätzer. 2.2 Statistische Inferenz Wie bei ML-Schätzungen üblich, können LR-Tests, Wald-Tests und Lagrange-Multiplier (LM)- bzw. Score-Tests zur Hypothesenprüfung herangezogen werden, wenn die Nullhypothese mit einem restriktiven Modell M0 korrespondiert und die Alternativhypothese mit einem weniger restriktiven Modell M1 . Die Tests setzten also voraus, dass zwei Modelle gegeneinander getestet werden, wobei das restriktivere Modell ein Spezialfall des weniger restriktiven ist. Das restriktivere Modell ist dann in das weniger restriktive hierarchisch geschachtelt (engl: nested). Die LR-Teststatistik L2 ergibt sich als Differenz zwischen der zweifachen negativen Log-Likelihoodfunktion des weniger restriktiven Modells und dem entsprechenden Wert des restriktiveren Modells.8 Wenn L(M0 ) die maximierte Likelihoodfunktion des restriktiven Modells bezeichnet und L(M1 ) die entsprechende Funktion für das weniger restriktive Modell gilt also: L2 = −2 · ln L(M0 ) − −2 · ln L(M1 ) : χ2df =k
(16)
Ist die Nullhypothese richtig, ist die Teststatistik L2 mit df = k Freiheitsgraden chiquadratverteilt, wobei k die Zahl der zusätzlichen Restriktionen des Modells M0 gegenüber dem Modell M1 ist. Ist die Nullhypothese falsch, ist L2 nichtzentral chiquadratverteilt. Da der Erwartungswert der nichtzentralen Chiquadratverteilung größer ist als der der zentralen Chiquadratverteilung, wird die Nullhypothese mit einer Irrtumswahrscheinlichkeit α abgelehnt, wenn L2 größer oder gleich dem (1 − α)-Quantil der (zentralen) Chiquadratverteilung mit k Freiheitsgraden ist. Ausgangspunkt des Wald-Tests sind die geschätzten Regressionskoeffizienten des liberaleren Modells M1 . Die Wald-Testatistik nutzt die Eigenschaft der asymptotischen Normalverteilung von Schätzern, dass ihre quadratische Form asymptotisch chiquadratverteilt ist: ˆ − β ) · Σ ˆ −β ) ˆ −1 W 2 = (β ˆβ ˆ · (β H0 H0 β
(17)
Der Vektor β H0 gibt die postulierten Erwartungswerte der Regressionskoeffizienten ˆ −1 an, wenn die Restriktionen der Nullhypothese zutreffen. Σ ˆ ˆ ist die Inverse der ββ
8
In den meisten Anwendungsfällen unterscheidet sich das weniger restriktive Modell M1 vom restriktiveren M0 dadurch, dass M1 zusätzliche Prädiktoren enthält. Bei der Berechnung der Teststatistik ist dann darauf zu achten, dass die Modellschätzungen beider Modelle auf der gleichen Zahl von Fällen erfolgt und nicht etwa bei fallweisem Ausschluss ungültiger Werte das liberalere Modell auf weniger Fällen basiert.
870
Steffen M. Kühnel und Dagmar Krebs
geschätzten Varianz-Kovarianz-Matrix der Schätzer. Berücksichtigt werden nur die k Regressionskoeffizienten, für die in H0 Restriktionen postuliert werden. Bei gültiger Nullhypothese ist die Teststatistik wie beim LR-Test zentral, bei falscher Nullhypothese nichtzentral, chiquadratverteilt, wobei die Zahl der Freiheitsgrade gleich der Zahl der Restriktionen ist. Anstelle der Regressionskoeffizienten können auch Linearkombinationen (Kontraste) von Regressionskoeffizienten getestet werden, wobei dann anstelle der geschätzten Varianz-Kovarianz-Matrix der Regressionskoeffizienten die der Kontraste verwendet wird. Beim LM- oder Score-Test wird zunächst ein restriktives Modell M0 geschätzt. Die Teststatistik entspricht formal einem Wald-Test für die ersten partiellen Ableitungen der restringierten Modellparameter, wenn die Restriktionen aufgehoben werden. Bei gültiger Nullhypothese sollten diese ersten Ableitungen nicht signifikant von Null verschieden sein. Bei Zutreffen der Nullhypothese ist auch diese Teststatistik zentral, ansonsten nichtzentral chiquadratverteilt. Wie in der multiplen Regression können die Tests für eine schrittweise Modellierung verwendet werden, wobei der Wald-Test zum Ausschluss von erklärenden Variablen und der LM-Test zum Einschluss verwendet wird. Da beim LR-Test M0 und M1 berechnet werden, kann er für Einschluss wie Ausschluss genutzt werden. Da schrittweise Modellierung ein mehrfaches Testen am gleichen Datensatz ist, sind die Irrtumswahrscheinlichkeiten nicht korrekt. Die Teststatistiken sind daher eher als Hinweise zu interpretieren denn als strenge Tests. 2.3 Modellanpassung Die LR-Teststatistik bildet auch die Grundlage für die Berechnung verschiedener Pseudo-R2 -Maße. M0 ist dabei das Konstantenmodell, das keine erklärende Variable enthält, M1 das Modell mit erklärenden Variablen. Die Maße berechnen sich nach: − ln L(M1 ) L2 = − ln L(M0 ) −2 · ln L(M0 ) −L2 2 RCox & Snell = 1 − exp n −L2/n) 1 − exp( 2 = RNagelkerke 1 − exp(2 · ln L(M0 )/n) 2 =1− RMcFadden
(18)
Für ordinale Modelle kann alternativ auch der Determinationskoeffizient nach McKelvey & Zavoina (1975) berechnet werden: J J βˆi βˆj s(Xi ,Xj ) 2 RMcKelvey & Zavoina =
i=1 j=1 J J βˆi βˆj s(Xi ,Xj ) + i=1 j=1
(19) π2 3
Sollen zweit nicht hierarchisch geschachtelte Modelle hinsichtlich ihrer Anpassungsgüte miteinander verglichen werden, wird meist ein informationstheoretisches Maß eingesetzt (vgl. Andreß et al. 1997, S. 286):
32 Multinomiale und ordinale Regression
871
AIC = −2 ln L + 2 · Parameterzahl
(20)
BIC = −2 ln L + ln n · Parameterzahl
(21)
2.4 Weiterführendes zu Regressionskoeffizienten Standardisierte Koeffizienten im ordinalen Regressionsmodell Da bei der Interpretation des ordinalen Regressionsmodells der kumulierten Logits die eigentlich interessierende Variable Y ∗ unbeobachtet ist, ist ohne zusätzliche Restriktionen weder Mittelwert noch Varianz dieser Variablen identifiziert.9 . Bei der Interpretation des ordinalen Logitmodells als Schwellenwertmodell sollten die Koeffizienten daher standardisiert werden. Dazu wird die Standardabweichung bzw. Varianz der latenten abhängigen Variablen Y ∗ benötigt. Diese ergibt sich aus der Varianz der Vorhersagewerte plus der Residualvarianz. Aus der (nicht überprüfbaren) Annahme, dass die Residualvariable logistisch verteilt ist, folgt für die Residualvarianz, dass diese 2 gleich π /3 ist. Die geschätzte Varianz von Y ∗ ist daher: σ ˆ 2 (Y ∗ ) =
J J
π2 βˆi βˆj s(Xi ,Xj ) + 3 i=1 j=1
(22)
Die Berechnung der standardisieren Regressionskoeffizienten erfolgt dann wie in der linearen Regression, in dem ein unstandardisiertes Regressionsgewicht durch die Standardabweichung der abhängigen Variablen dividiert und mit der Standardabweichung des Prädiktors multipliziert wird. βˆj,standardisiert = βˆj
s(Xj ) J J βˆi βˆj s(Xi ,Xj ) + i=1 j=1
(23) π2 3
In den Gleichungen (22) und (23) steht s(Xj ) für die Standardabweichung des Prädiktors Xj und s(Xi ,Xj ) für die Kovarianz zwischen den beiden Variablen bzw. die Varianz, wenn i = j. Umrechnen der Referenzkategorie im multinomialen Regressionsmodell Im multinomialen Logitmodell (14) ist als Referenzkategorie die höchste Ausprägung K gewählt worden. Referenzkategorie ist die Ausprägung von Y , für die keine eigene Gleichung geschätzt wird. Die Schätzungen lassen sich leicht auf eine beliebige andere Referenzkategorie umrechnen. Interessieren anstelle der Logits bzw. Odds der Ausprägungen Y = k zu Y = K die Logits oder Odds von Y = k zu Y = i, so berechnen sich die Regressionsgewichte für die Logits bzw. Odds dieser neuen Referenz nach: 9
Dies korrespondiert mit der Eigenschaft einer ordinalen Variablen, dass für sie weder Mittelwert (bzw. Erwartungswert) noch Varianz definiert sind.
872
Steffen M. Kühnel und Dagmar Krebs
P r(Y = k|x) ln P r(Y = i|x)
ln = ln
P r(Y =k|x) P r(Y =K|x)
P r(Y =i|x) P r(Y =k|x)
ˆ −β ˆ =β k i
(24)
Die geschätzten Standardfehler für eine erklärende Variable Xj ergeben sich dann nach: ˆ 2 (βˆjk ) + σ ˆ 2 (βˆji ) − 2ˆ σ (βˆjk ,βˆji ) (25) σ ˆ (βˆjk − βˆji ) = σ In der Gleichung steht σ ˆ (. . .) für den geschätzten Standardfehler der Statistik in der ˆ 2 (. . .) für die geschätzte Schätzervarianz, also den quadrierten StandardKlammer, σ fehler und σ ˆ (. . . , . . .) für die geschätzte Kovarianz zwischen zwei Schätzern.
3 Anwendungsbeispiel Als empirisches Beispiel soll im Folgenden untersucht werden, in wieweit der Bildungsabschluss einer Person durch die Bildungsabschlüsse der Eltern determiniert wird. Als Datenbasis wird der ALLBUS verwendet. Der Bildungsabschluss der Befragten und ihrer Väter wurde seit 1980 in jedem ALLBUS erhoben, der Bildungsabschluss der Mutter ab 1984. Die folgenden Analysen beschränken sich daher auf die Jahre 1984 bis 2008. Da die Daten aus den neuen Bundesländern erst seit 1991 vorliegen und mit deutlichen Unterschieden zwischen Befragten zu rechnen ist, die in der alten Bundesrepublik oder der DDR zur Schule gingen, beschränken wird uns auf die Teilpopulationen aus den alten Bundesländern. Bei den Bildungsabschlüssen der befragten Personen unterscheiden wir zwischen kein Schulabschluss (Code 1), Hauptschulabschluss (Code 2), mittlere Reife (Code 3), Abitur oder Fachhochschulreife (Code 4) und abgeschlossenem Studium an einer Fachhochschule oder Universität (Code 5). Für Vater und Mutter der Befragten liegen Informationen über einen Fachhochschul- oder Universitätsabschluss nur für die Erhebungen 2000, 2002 und 2008 vor. Wir berücksichtigen bei den beiden erklärenden Variablen daher nur deren höchsten Schulabschluss ohne ein mögliches Studium. Alle nachfolgenden Analysen basieren auf 30402 Fällen, bei denen die Befragten ihren Bildungsabschluss und die Bildungsabschlüsse beider Eltern genannt haben. 3.1 Einfluss der Bildungsabschlüsse von Vater und Mutter auf die Bildung der Befragten in der multinomialen logistischen Regression Die beim Befragten fünf bzw. bei Vater und Mutter vier berücksichtigen Bildungsabschlüsse lassen sich hinsichtlich ihrer Wertschätzung in eine Rangordnung bringen von kein Abschluss als unterste Rangstufe und Hochschulabschluss als oberste Rangstufe. Die Bildung hat bei dieser Sicht ordinales Messniveau.10 Theoretisch erwarten wir positive Effekte der Bildung beider Elternteile auf die Bildung der Befragten: Je höher der Bildungsabschluss von Vater und/oder Mutter, desto höher sollte tendenziell auch der 10
Metrisches Messniveau läge vor, wenn zusätzlich die Abstände zwischen den Bildungsabschlüssen theoretisch sinnvoll interpretierbar wären.
32 Multinomiale und ordinale Regression
873
Tab. 1: Codierung der Bildungsabschlüsse der Eltern über Designvariablen Höchster Schulabschluss Vater
Mutter
VHa VmR VHr
MHa MmR MHr
Kein Abschluss
Hauptschulabschluss (Ha)
Mittlere Reife (mR)
Hochschulreife (Hr)
0 0 0
1 0 0
1 1 0
1 1 1
Bildungsabschluss eines Befragten sein. In einem ersten Analyseschritt soll dies mittels einer multinomialen logistischen Regression geprüft werden. Die abhängige Variable „Bildung der Befragten“ (Y ) wird dabei als eine nominalskalierte Variable behandelt. Wenn als Referenzkategorie der geringste Bildungsabschluss (Y = 1) gewählt wird, müssen die Regressionsgewichte bei einem positiven Zusammenhang in der Modellgleichung für den Realschulabschluss (Y = 3) größer sein als beim Hauptschulabschluss (Y = 2), bei der Hochschulreife (Y = 4) größer als beim Realschulabschluss (Y = 3) und beim Hochschulabschluss (Y = 5) größer als bei der Hochschulreife (Y = 4). Ordinales Messniveau haben auch die beiden erklärenden Variablen „Schulbildung des Vaters“ (X1 ) und „Schulbildung der Mutter“ (X2 ). Wie die multiple Regression unterstellt auch das Modell der multinomialen (und der ordinalen) logistischen Regression für die erklärenden Variablen metrisches Messniveau. Falls die Ordinalität einer erklärenden Variablen ignoriert wird und die Variable somit wie eine metrische behandelt wird, werden die Differenzen zwischen den Ausprägungen als inhaltlich bedeutsam betrachtet. Bei der Codierung mit den Zahlen 1 bis 4 für die Bildungsabschlüsse wird dann unterstellt, dass zwei benachbarte Bildungsabschlüsse jeweils den gleichen Abstand aufweisen. Soll auf diese Annahme verzichtet werden, muss das Merkmal über Design-Variablen in das Modell aufgenommen werden. Wir bilden daher für die jeweils vier möglichen Bildungsabschlüsse von Vater und Mutter eines Befragten drei 0/1-codierte Dummy-Variablen (siehe Tabelle 1). Hierfür wählen wir eine Codierung, die sich von der üblichen Referenzwertcodierung unterscheidet. Um die Rangstufung abzubilden, wird die niedrigste Kategorie (ohne Abschluss) in allen drei Dummies mit 0 codiert. Wenn ein Elternteil mindestens Hauptschulabschluss hat, wird die Dummy-Variable für Hauptschulabschluss von Vater bzw. Mutter (VHa bzw. MHa) auf 1 gesetzt. Hat ein Elternteil mindestens mittlere Reife, wird die jeweilige Dummy-Variable für mittlere Reife (VmR, MmR) auf 1 gesetzt und hat ein Elternteil Hochschulreife, wird die jeweilige Dummy-Variable für Hochschulfeife (VHr, MHr) auf 1 gesetzt. Die Regressionsgewichte der Dummy-Variablen geben dann die Veränderung im Vergleich zur jeweils niedrigeren Kategorie an (Hr zu mR, mR zu Ha, Ha zu kein Abschluss). Eine metrische Interpretation mit gleichem Abstand zwischen den Bildungsabschlüssen würde dann bedeuten, dass sich die Regressionsgewichte der jeweils drei Dummy-Variablen nicht signifikant unterscheiden. In Tabelle 2 sind die Ergebnisse der mit der SPSS-Prozedur NOMREG geschätzten multinomialen logistischen Regression wiedergegeben. Um die Monotonie des Zusammenhangs zu überprüfen, sind die Koeffizienten so angeordnet, dass jeweils die vier
874
Steffen M. Kühnel und Dagmar Krebs
Tab. 2: Einfluss der Bildung der Eltern auf die Bildung der Befragten im multinomialen logistischen Regressionsmodell (Ref: kein Abschluss) Prädiktor Konstante: Hauptschulabschluss (Y=2 zu Y=1) Mittlere Reife (Y=3 zu Y=1) Hochschulreife (Y=4 zu Y=1) Hochschulabschluss (Y=5 zu Y=1) Vater: ≥ Hauptschulabschluss (VHa) Hauptschulabschluss (Y=2 zu Y=1) Mittlere Reife (Y=3 zu Y=1) Hochschulreife (Y=4 zu Y=1) Hochschulabschluss (Y=5 zu Y=1) Vater: ≥ mittlere Reife (VmR) Hauptschulabschluss (Y=2 zu Y=1) Mittlere Reife (Y=3 zu Y=1) Hochschulreife (Y=4 zu Y=1) Hochschulabschluss (Y=5 zu Y=1) Vater: ≥ Hochschulreife (VHr) Hauptschulabschluss (Y=2 zu Y=1) Mittlere Reife (Y=3 zu Y=1) Hochschulreife (Y=4 zu Y=1) Hochschulabschluss (Y=5 zu Y=1) Mutter: ≥ Hauptschulabschluss (MHa) Hauptschulabschluss (Y=2 zu Y=1) Mittlere Reife (Y=3 zu Y=1) Hochschulreife (Y=4 zu Y=1) Hochschulabschluss (Y=5 zu Y=1) Mutter: ≥ mittlere Reife (MmR) Hauptschulabschluss (Y=2 zu Y=1) Mittlere Reife (Y=3 zu Y=1) Hochschulreife (Y=4 zu Y=1) Hochschulabschluss (Y=5 zu Y=1) Mutter: ≥ Hochschulreife (MHr) Hauptschulabschluss (Y=2 zu Y=1) Mittlere Reife (Y=3 zu Y=1) Hochschulreife (Y=4 zu Y=1) Hochschulabschluss (Y=5 zu Y=1)
L2df =4
βˆ
S.E.
760,9 0,618 0,683 −1,558 −2,035
0,079 0,104 0,140 0,167
1,372 1,384 0,998 1,541
0,145 0,165 0,197 0,216
−0,033 1,295 1,755 1,762
0,259 0,258 0,260 0,260
0,001 0,085 0,690 0,907
0,425 0,422 0,422 0,422
1,893 2,186 2,220 2,280
0,138 0,152 0,183 0,184
−0,780 0,599 1,085 0,951
0,252 0,250 0,251 0,251
−0,020 −0,087 0,549 0,557
0,570 0,561 0,560 0,560
180,2
1175,0
209,0
203,0
955,1
76,8
n = 30402, −2 ln L = 68907,096, L2 : 9748,751, df = 24, Prob < 0,001, R2 : McFadden = 0,124, Cox & Snell = 0,274; Nagelkerke = 0,297 Daten: ALLBUS 1984 - 2008 (nur alte Bundesländer)
Prob < 0,001 < 0,001 < 0,001 < 0,001 < 0,001 < 0,001 < 0,001 < 0,001 < 0,001 < 0,001 < 0,001 0,987 < 0,001 < 0,001 < 0,001 < 0,001 0,998 0,841 0,102 0,032 < 0,001 < 0,001 < 0,001 < 0,001 < 0,001 < 0,001 0,002 0,016 < 0,001 < 0,001 < 0,001 0,972 0,876 0,327 0,320
ˆ exp(β) 1,855 0,505 0,211 0,131 3,945 3,992 2,713 4,671 0,967 3,650 5,786 5,824 1,001 1,088 1,993 2,476 6,642 6,606 9,208 9,780 0,459 1,820 2,960 2,588 0,980 0,916 1,732 1,745
32 Multinomiale und ordinale Regression
875
Regressionskoeffizienten eines Prädiktors in den vier Modellgleichungen für die Odds bzw. Logits untereinander stehen. Betrachtet man zunächst die geschätzten Koeffizienten, so steigen die Regressionsgewichte der Dummy-Variablen in der Regel bei größerem Abstand zur Referenzkategorie an. Für zwei Koeffizienten gilt dies nicht. So ist das Regressionsgewicht der Dummy-Variablen VHa für Väter mit mindestens Hauptschulabschluss bei den Logits Hochschulreife zu kein Abschluss (Y = 4 zu Y = 1) mit einem Wert von 0,998 kleiner als bei den Logits mittlere Reife zu kein Abschluss (Y = 3 zu Y = 1) mit einem Wert von 1,384. Außerdem ist der Koeffizient der Dummy-Variablen MHr für Mütter mit Hochschulreife bei den Logits von mittlere Reife zu kein Abschluss (Y = 3 zu Y = 1) mit −0,087 kleiner als bei den Logits von Hauptschulabschluss zu kein Abschluss mit −0,020 (Y = 2 zu Y = 1). Um zu prüfen, ob die Differenz zweier Regressionskoeffizienten signifikant von Null verschieden ist, kann ein Z-Test der Differenz der jeweiligen Koeffizienten durchgeführt werden (s. o. Gleichung (25)). Die Schätzervarianzen (quadrierten Standardfehler) der geschätzten Werte der beiden Regressionsgewichte von VHa, die gegen einen monotonen Zusammenhang sprechen, betragen 0,039 beim Regressionsgewicht von 0,998 und 0,027 beim Regressionsgewicht von 1,384. Die geschätzte Kovarianz zwischen den Schätzern beträgt 0,019.11 Die Teststatistik beträgt dann: Z=
βˆ13 − βˆ12 σ ˆ 2 (βˆ13 ) + σ ˆ 2 (βˆ12 ) − 2ˆ σ (βˆ13 ,βˆ12 )
= √
0,998 − 1,384 = 2,31 0,039 + 0,027 − 2 · 0,019
Aufgrund der hohen Fallzahl von n = 30402 Fällen wird eine Irrtumswahrscheinlichkeit von 1 % gewählt. Bei einem zweiseitigen Test betragen die kritischen Werte dann ±2,576. Bei dieser Irrtumswahrscheinlichkeit kann die Nullhypothese, dass die Koeffizienten gleich sind, nicht abgelehnt werden.12 Der formale Test der beiden anderen Koeffizienten erübrigt sich, da beide Regressionsgewichte nicht signifikant von Null verschieden sind und daher ein Signifikanztest der Differenz der beiden Koeffizienten bei gleichen Vorzeichen zu keinem anderen Ergebnis kommen kann. Wenn die Beziehung zwischen der Bildung der beiden Elternteile und der Bildung der Befragten nicht strikt monoton positiv ist, so kann doch von einer tendenziell monoton steigenden Beziehung ausgegangen werden. Betrachtet man die Werte der Koeffizienten der jeweils drei Dummy-Variablen für die Bildung des Vaters bzw. der Mutter in den Modellgleichungen, so sind die Werte deutlich verschieden. Bezogen auf die Logits Hauptschulabschluss zu kein Abschluss (Y = 2 zu Y = 1) weisen z. B. die Regressionsgewichte der Bildung des Vaters die Werte 1,372, −0,033 und 0,001 auf. Die letzten beiden Koeffizienten sind nicht signifikant von Null verschieden. Wenn der Vater also statt mindestens Hauptschulabschluss mindestens mittlere Reife oder Hochschulreife hat, erhöht dies nicht signifikant die Chance, dass ein Befragter mindestens Hauptschulabschluss statt keinen Abschluss 11
12
Die Varianzen und Kovarianzen der Schätzer sind in Tabelle 2 nicht ausgewiesen. In Programmen zur Schätzung von Logitmodellen müssen sie meist explizit angefordert werden. Bei einer Irrtumswahrscheinlichkeit von 5 % wäre die Differenz der beiden Koeffizienten dagegen signifikant.
876
Steffen M. Kühnel und Dagmar Krebs
aufweist. Formal lässt sich die Gleichheit der Koeffizienten testen, wenn in einem zweiten Logitmodell statt der Dummy-Variablen für die Bildungsabschlüsse der Elternteile die beiden ursprünglichen Bildungsvariablen mit den Codes 1,2,3 und 4 als erklärende Variablen geschätzt werden. Bei nun nur noch 8 statt 24 geschätzten Regressionsgewichten beträgt −2 ln L 69707,550 und die LR-Teststatistik für die 8 Koeffizienten L2 = 8948,296. Da die Fallzahl gleich ist und das zweite Modell ein Spezialfall des ersten Modells ist,13 können die beiden Modelle mit einem LR-Test gegeneinander getestet werden. Die Teststatistik beträgt hier: L2 = 69707,550 − 68907,096 = 9748,751 − 8948,296 = 800,454 Da insgesamt 16 (= 24 − 8) Gleichheitsrestriktionen getestet werden, hat die Chiquadratverteilung der Teststatistik 16 Freiheitsgrade. Bei einer Irrtumswahrscheinlichkeit von 1 % beträgt der kritische Wert 32,0. Die Teststatistik ist deutlich größer, was zur Ablehnung der Nullhypothese führt. Es kann also nicht davon ausgegangen werden, dass die Bildungsabschlüsse der Eltern mit gleichen Abständen linear die Logits der Bildung der Befragten beeinflussen. Welche Aussagen trifft nun das Modell für den Zusammenhang der Bildungsschlüsse? Zunächst wird deutlich, dass ein Hauptschulabschluss oder ein höherer Abschluss bei Vater oder Mutter die Chancen eines höheren Bildungsabschlusses deutlich erhöht. Bei der Mutter zeigen sich dabei größere Effekte: die Odds von Hauptschulabschluss zu keinen Abschluss steigen um den Faktor 6,6 (= exp(1,893) s. letzte Spalte in Tabelle 2), wenn die Mutter Hauptschulabschluss hat. Um nur einen geringfügig höheren Wert steigen die Odds der Befragten von mittlerer Reife zu keinen Abschluss. Auf 9,2 und 9,8 steigen die Odds von Hochschulreife bzw. Hochschulabschluss zu keinem Abschluss. Hat der Vater mindestens Hauptschulabschluss steigen die Odds um den Faktor 3,9 bis 4,7. Nur bei den Odds Hochschulreife zu keinen Abschluss beträgt der Anstieg lediglich 2,7. Hat der Vater mindestens mittlere Reife, erhöhen sich die Odds der Befragten von mittlerer Reife zu keinem Abschluss zusätzlich um den Faktor 3,7 und von Hochschulreife bzw. Hochschulabschluss zu keinem Abschluss um den Faktor 5,7 bzw. 5,8. Die Odds von Hauptschulabschluss zu keinem Abschluss werden dagegen nicht weiter erhöht (exp(−0,033) = 0. 967). Hat die Mutter mindestens mittlere Reife, sind die zusätzlichen Effekte deutlich geringer. Die Odds von Hauptschulabschluss zu keinem Abschluss sinken sogar um den Faktor 0,459, halbieren sich also beinahe. Dies bedeutet nicht, dass die mittlere Reife der Mutter einen negativen Effekt auf diese Odds hat, da ja gleichzeitig der positive Effekt von mindestens Hauptschulabschluss von 6,642 vorliegt. Zusammen ergibt sich ein multiplikativer Effekt von 6,642 · 0,459 = 3,049. Hat die Mutter also mindestens mittlere Reife ist bei Kontrolle der Bildung des Vaters damit zu rechnen, dass dreimal so viele Befragte Hauptschulabschluss wie keinen Abschluss haben.14 Die Odds von mittlerer Reife zu keinem Abschluss steigen zusätzlich um den 13
14
Die Summe der drei Designvariablen für den Bildungsabschluss des Vaters bzw. der Mutter plus Eins ergibt die Codes der ursprünglichen Bildungsvariablen. Das Beispiel zeigt, dass die Interpretation der Effekte leicht zu Fehldeutungen führen kann, wenn eine erklärende Variable, wie im Beispiel, über mehrere Prädiktoren (Designvariablen)
32 Multinomiale und ordinale Regression
877
Faktor 1,8 und die von Hochschulreife und Hochschulabschluss zu keinen Abschluss zusätzlich um die Faktoren 3,0 und 2,6. Hat der Vater Hochschulreife erhöhen sich nur die Odds der Befragten von Hochschulreife und von Hochschulabschluss zu keinem Abschluss zusätzlich um den Faktor 2 bzw. 2,5, wobei nur der zweite Effekt bei einer Irrtumswahrscheinlichkeit von 5 % signifikant ist. Hat die Mutter Hochschulreife erhöhen sich ebenfalls nur diese beiden Odds zusätzlich um den Faktor 1,7. Obwohl die Dummy-Variable für den Hochschulabschluss der Mutter bei einer Irrtumswahrscheinlichkeit von 5 % gar keine signifikanten Regressionsgewichte und die für den Hochschulabschluss des Vaters nur einen signifikantes Gewicht aufweist, weist ein LR-Test darauf hin, dass beide Prädiktoren insgesamt dennoch bei einer Irrtumswahrscheinlichkeit von 1 % signifikant sind. Wird nämlich der entsprechende Prädiktor aus dem Modell ausgeschlossen, erhöht sich −2 ln L um 209,0 bei der Hochschulreife des Vaters und bei der Hochschulreife der Mutter um 76,8, wobei sich die Zahl der Regressionsgewichte jeweils um 4 reduziert. Ursache für dieses auf den ersten Blick irritierende Ergebnis ist die Wahl der Referenzkategorie „kein Abschluss“, die mit nur 2 % der Fälle relativ schwach besetzt ist. Bei einer anderen Referenzkategorie kann es durchaus signifikante Regressionsgewichte geben. Versucht man das Ergebnis der doch erheblichen Zahl von Regressionsgewichten zusammenfassend zu beschreiben, so bestätigen sich alles in allem die erwarteten positiven Bildungseffekte beider Elternteile auf die Bildung der Befragten. Das Muster der Effekte lässt sich darüber hinausgehend auch im Sinne der klassischen Studie von Boudon (1974) interpretieren, nach der Eltern (und vor allem Väter) danach streben, dass ihre Kinder in erster Linie den eigenen Status zu halten versuchen. So erhöht die mittlerer Reife eines Elternteils erst die Odds ab mittlerer Reife zusätzlich und entsprechend die Hochschulreife eines Elternteils erst die Odds ab Hochschulreife. In Abbildung 4 sind die auf der Basis der Regressionskoeffizienten geschätzten Realisierungswahrscheinlichkeiten der fünf Ausprägungen der abhängigen Variablen als „conditional effect plots“ der Bildung des Vaters bei Kontrolle der Bildung der Mutter wiedergegeben (für nähere Angaben zu CI-Plots siehe Kapitel 34 in diesem Handbuch). Da die erklärenden Variablen ausschließlich 0/1-codierte Dummyvariablen sind, erscheint es uns nicht sehr sinnvoll, Bildungseffekte von Vater bzw. Mutter für fiktive mittlere Ausprägungskombinationen des jeweils anderen Elternteils zu berechnen.15 Die Abbildungen 4 a und b zeigen recht deutlich, wie mit steigender Bildung des Vaters die Wahrscheinlichkeiten höherer Abschlüsse der Befragten steigen. Sichtbar wird hier auch, dass bei einem Hauptschulabschluss des Vaters ein Hauptschulabschluss eines Befragten am wahrscheinlichsten ist und bei mittlerer Reife des Vaters auch mittlere Reife eines Befragten. Bei den beiden unteren Grafiken sind die Effekte weniger deutlich, da durch die Effekte einer höheren Bildung der Mutter die Bildungseffekte des Vaters bezogen auf Wahrscheinlichkeiten nicht so stark ausfallen.
15
in das Modell eingeht. Eine korrekte Interpretation setzt voraus, dass die Codierung der Designvariablen klar ist. Technisch ist dies allerdings sehr leicht möglich, in dem die geschätzten Wahrscheinlichkeiten berechnet werden, wenn die Dummy-Variablen für den Vater bzw. die Mutter jeweils ihren Stichprobenmittelwert aufweisen. Das Ergebnis wären conditional effect plots, die für empirisch unmögliche Ausprägungskombinationen stünden.
878
Steffen M. Kühnel und Dagmar Krebs 1,0
1,0
ohne Abschluss
0,8
u +
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0,0
H Hauptschulabschluss t h l b hl Mittlere Reife Hochschulreife Hochschulabschluss
0,0
keinen
Haupts. Haupts
M. M Reife
Abitur
keinen
Schulabschluss des Vaters
Haupts.
M. Reife
Abitur
Schulabschluss des Vaters
(a) Mutter: ohne Abschluss
(b) Mutter: Hauptschulabschluss
1,0
1,0
0,8
0,8
0,6
0,6
0,4
0,4
0,2
0,2
0,0
0,0 keinen
Haupts.
M. Reife
Schulabschluss des Vaters
(c) Mutter: Mittlere Reife
Abitur
keinen
Haupts.
M. Reife
Abitur
Schulabschluss des Vaters
(d) Mutter: Hochschulreife
Abb. 4: Grafische Darstellung der Effekte auf die Realisierungswahrscheinlichkeiten Bei der Untersuchung des Zusammenhangs zwischen der Bildung der Eltern auf die Bildung der Befragten stellt sich auch die Frage, ob die Bildung der Mutter oder eher die Bildung des Vaters einen stärkeren Einfluss auf die Bildung der Nachkommen hat. Betrachtet man dazu die Regressionskoeffizienten, so sind diese am größten, wenn die Mutter mindestens Hauptschulabschluss hat. Auf der anderen Seite sind die Werte der LR-Statistik der Dummy-Variablen, die die Bildung des Vaters erfassen, größer als die der Mutter. Da die Bildungseffekte jedes Elternteils über insgesamt 12 Regressionsgewichte modelliert werden, ist es sinnvoll, über die Veränderung in Pseudo-R2 die relative Einflussstärke der beiden erklärenden Variablen zu vergleichen. Tabelle 3 zeigt dazu die Ergebnisse von insgesamt drei Modellen. Neben dem Modell aus Tabelle 2 sind die Ergebnisse für zwei weitere Modelle zusammengefasst, die neben den Regressionskonstanten nur jeweils die Regressionsgewichte der drei DummyVariablen für die Bildung des Vaters bzw. der Mutter aufweisen. Der Vergleich der dritten und vierten Spalte zeigt, dass der Zusammenhang zwischen der Bildung der Befragten und der ihrer Väter höher ist als der zwischen ihrer Bildung und der ihrer Mütter. Da nur insgesamt drei Modelle verglichen werden, ist auch der Zuwachs an
32 Multinomiale und ordinale Regression
879
Tab. 3: Minimierungsfunktion, LR-Teststatistiken und Pseudo-R2 für 3 multinomiale Logitmodelle Gesamtmodell nur Bildung des Vaters nur Bildung der Mutter -2 Loglikelihood 68907,096 LR-Test Modell; df 9848,751; 24 12,4 % R2McFadden R2Cox&Snell 27,4 % 29,7 % R2Nagelkerke Reduktion R2Nagelkerke gegenüber Gesamtmodell –
70471,571 8184,276; 12 10,4 % 23,6 % 25,5 %
71562,898 7092,946; 12 9,0 % 20,8 % 22,5 %
4,2
7,2
Pseudo-R2 bei den Vätern höher. Die Erklärungskraft gemessen in Nagelkerkes Maß steigt bei der zusätzlichen Einbeziehung der Väter um 7,2 Prozent an und bei der zusätzlichen Einbeziehung der Mütter um 4,2 Prozent.16 3.2 Bildungsabschluss im ordinalen Logitmodell Da das multinomiale Logitmodell im wesentlichen den erwarteten positiven Effekt der Bildung beider Elternteile auf die Bildung der Befragten bestätigt, scheint es sinnvoll, anstelle des multinomialen Logitmodells ein ordinales Logitmodell zu schätzen. Dies erleichtert auch die Interpretation, reduziert sich doch die Zahl der Regressionsgewichte auf ein Viertel derjenigen des multinomialen Modells. In Tabelle 4 sind die Ergebnisse der Schätzung wiedergegeben. Die Berechnung der Koeffizienten erfolgte in SPSS mit der Prozedur PLUM. Genau umgekehrt zur Darstellung der Gleichungen für das Modell der kumulierten Logits werden die vier Regressionskonstanten größer und nicht kleiner. Tatsächlich wird in SPSS bei der Modellschätzung eine andere Parametrisierung verwendet. Die SPSSProzedur schätzt folgende Modellgleichungen: J P r(Y ≤ k|x) =α ˆk − (26) ln βˆj Xj für k = 1,2, . . . , K − 1 P r(Y > k|x) j=1 Gegenüber den in Abschnitt 1.3 vorgestellten Modellgleichungen sind also Zähler und Nenner bei den Logits bzw. Odds vertauscht, was zu umgekehrten Vorzeichen führt. Damit aber bei einem positiven Effekt auch ein positives Regressionsgewicht resultiert, werden in den Modellgleichungen die Regressionsgewichte mit −1 multipliziert. 16
Es ist nicht widersprüchlich, dass der Zuwachs an Pseudo-R2 bei den Vätern höher ausfällt als bei den Müttern, obwohl die Regressionsgewichte der Mütter tendenziell größer sind. Die Pseudo-R2 -Maße berücksichtigen wie standardisierte Koeffizienten die Streuung der Variablen, während die unstandardisierten Gewichte den Übergang von der Ausprägung 0 zur Ausprägung 1 einer Dummy-Variablen erfassen, unabhängig davon, wie stark die Ausprägungen besetzt sind.
880
Steffen M. Kühnel und Dagmar Krebs
Tab. 4: Einfluss der Bildung der Eltern auf die Bildung der Befragten im Modell der kumulativen Logits. Prädiktor α1 α2 α3 α4 Vater: ≥ Hauptschulabschluss Vater: ≥ mittlere Reife Vater: ≥ Hochschulreife Bildung Vater insgesamt Mutter: ≥ Hauptschulabschluss Mutter: ≥ mittlere Reife Mutter: ≥ Hochschulreife Bildung Mutter insgesamt
βˆ
S.E.
Prob.
ˆ exp(β)
−2,212 2,037 3,404 4,365 0,759 1,263 0,486
0,078 0,076 0,077 0,078 0,090 0,038 0,046
< 0,001 < 0,001 < 0,001 < 0,001 < 0,001 < 0,001 < 0,001
0,109 7,668 30,084 78,649 2,136 3,537 1,625
0,830 0,969 0,260
0,073 0,038 0,058
< 0,001 < 0,011 < 0,001
2,294 2,635 1,297
βˆstd
0,0676 0,2546 0,0758 0,3251 0,0889 0,1768 0,0276 0,2203
n = 30402, −2 ln L = 70325,420, Chiquadrat: 8330,427, df= 6, Prob < 0,001, R2 : McFadden = 0,106, Cox & Snell = 0,240; Nagelkerke = 0,259; McKelvey & Zavoina = 0,244. Daten: ALLBUS 1984–2008 (nur alte Bundesländer)
Die SPSS-Ausgabe gibt die Regressionskoeffizienten wieder, deren Standardfehler und die Ergebnisse eines Wald-Tests der Nullhypothese, dass der jeweilige Koeffizient in der Population Null ist. Sowohl die Effekte der Bildung des Vaters wie die der Mutter sind bei einer Irrtumswahrscheinlichkeit kleiner 0,001 signifikant. Die Vorzeichen sämtlicher Regressionsgewichte sind positiv, was auf positive Effekte hinweist: Hat der Vater mindestens Hauptschulabschluss statt keinen Abschluss, so erhöhen sich die Odds, dass ein Befragter eine höhere statt einer niedrigeren Bildung aufweist mit einem Faktor 2,136 um gut das Doppelte. Hat der Vater mindestens mittlere Reife aufzuweisen, erhöhen sich die Odds zusätzlich um den Faktor 3,537. Hat der Vater Hochschulreife, erhöhen sich die Odds um weitere 62,5 % (1,625). Mindestens Hauptschulabschluss der Mutter erhöht die Odds um den Faktor 2,294, mindestens mittlere Reife zusätzlich um den Faktor 2,635 und Hochschulreife um weitere 30 % (1,297). In der SPSS-Ausgabe werden die Regressionskonstanten als Schwellenwerte (thresholds) bezeichnet, was auf die Möglichkeit hinweist, Ordinalität im Sinne einer linearen Regression auf eine unbeobachtete metrische Variable zu interpretieren. Bei der Interpretation als Schwellenwertmodell können die Differenzen der Regressionskonstanten als Abstände zwischen den Schwellenwerten interpretiert werden. Die geschätzten Werte lassen den Schluss zu, dass die Distanz zwischen der ersten Kategorie (kein Abschluss) und der zweiten Kategorie (Hauptschulabschluss) deutlich höher ist, als zwischen den übrigen Kategorien. Bei dieser Sichtweise lassen sich die Regressionsgewichte der Logitgleichungen wie in der linearen Regression als unstandardisierte Regressionskoeffizienten interpretieren. Da aber die Skalierung (Nullpunkt und Messeinheit) nicht identifiziert ist, sind
32 Multinomiale und ordinale Regression
881
Vergleiche der unstandardisierten Regressionsgewichte bei verschiedenen Schätzgleichungen nicht sinnvoll. Es ist jedoch möglich, die standardisierten Regressionsgewichte (auf Basis der latenten metrischen Variablen) zu berechnen (Gleichung (23)). Die letzte Spalte der Tabelle enthält diese Werte. Da alle erklärenden Variablen dichotome Dummy-Variablen sind, ist die Betrachtung der standardisierten Effekte hier im Unterschied zu Prädiktoren mit mehr als zwei Ausprägungen weniger hilfreich. Da die Dummy-Variablen gleich skaliert sind, ist jedoch ein Vergleich der unstandardisierten Regressionsgewichte sinnvoll, solange man sich innerhalb einer einzigen Modellschätzung bewegt. Auch bei der Interpretation eines ordinalen Logitmodells als Schwellenwertmodell stellt sich die Frage, ob der Bildungseinfluss des Vaters oder derjenige der Mutter größer ist. Im Prinzip kann diese Frage wie im multinomialen Logitmodell über den Zuwachs an Pseudo-R2 beantwortet werden. Es ist im ordinalen Logit-Modell aber auch möglich, direkt standardisierte Koeffizienten zu vergleichen. Da im Anwendungsbeispiel die Bildung der beiden Elternteile wie eine nominalskalierte Variable über drei DummyVariablen wirkt, ist ein kleiner Trick notwendig, um ein gemeinsames standardisiertes Gewicht zu schätzen. Dazu werden die drei Dummy-Variablen für Bildung von Vater bzw. Mutter mittels der geschätzten unstandardisierten Regressionsgewichte zu jeweils einem additiven Index zusammengefasst:17 BildungsindexVater = 0,759144 · VHa + 1,263362 · VmR + 0,485582 · VHr BildungsindexMutter = 0,830466 · MHa + 0,968705 · MmR + 0,260181 · MHr Anschließend wird das Regressionsmodell ein zweites Mal geschätzt, nun aber mit den beiden Indizes als erklärenden Variablen anstelle der ursprünglichen DummyVariablen. Bei der Schätzung sind dann die unstandardisierten Regressionsgewichte notwendigerweise Eins. Das Modell ist beobachtungsäquivalent zum ursprünglichen Modell, was bedeutet, dass die vorhergesagten Wahrscheinlichkeiten der abhängigen Variablen und damit auch der Wert −2 ln L (bis auf Rundungsfehler) identisch sind. Die in der letzten Spalte von Tabelle 4 angegebenen standardisierten Regressionsgewichte in den Zeilen „Bildung Vater insgesamt“ bzw. „Bildung Mutter insgesamt“ sind die standardisierten Regressionsgewichte der beiden Indexvariablen. Der höhere Wert von 0,325 für den Vater verglichen mit 0,220 für die Mutter weist darauf hin, dass, wie im multinomialen Logitmodell, der Bildungseffekt des Vaters höher ist. Auch die Interpretation des Schwellenwertmodells weist auf einen recht deutlichen positiven Effekt der Bildung der Eltern auf die Bildung der Befragten hin. Insgesamt lässt sich auf der Ebene der latenten Bildungsvariablen der Befragten mit einem R2 nach McKelvey & Zavoina von 24,4 % ein knappes Viertel der Varianz erklären. Die Werte für Pseudo-R2 sind primär bei der alternativen Interpretation von Ordinalität als Rangordnung ohne definierbare Abstände sinnvoll. Die Devianzreduktion beträgt 10,6 %; die Pseudo-R2 -Werte von Cox und Snell und von Nagelkerke betragen 24,0 % und 25,9 %. 17
Hierbei sollte die Rechengenauigkeit möglichst hoch sein. Anstelle der drei in Tabelle 4 wiedergegebenen Nachkommastellen der Regressionsgewichte werden in den Indizes sechs Nachkommastellen benutzt.
882
Steffen M. Kühnel und Dagmar Krebs
Sowohl das multinomiale Logitmodell wie das ordinale Logitmodell weisen darauf hin, dass die Bildung der Eltern im Sinne von Je-desto-Zusammenhängen positiv auf die Bildung der Kinder wirkt. Es stellt sich die Frage, ob eher das multinomiale Logitmodell oder das ordinale Modell der kumulierten Logits angewendet werden sollte. Da die beiden Modelle nicht in dem Sinne hierarchisch ineinander geschachtelt sind, dass das ordinale Modell ein Spezialfall des multinomialen Modells ist, bei dem zusätzliche Restriktionen über die Parameter spezifiziert sind, können die beiden Modelle nicht mit einem LR-Test gegeneinander getestet werden. Als Alternative werden daher die informationstheoretischen Maße (Gleichungen (20) und (21)) verwendet. Bei der multinomialen logistischen Regression der Bildung eines Befragten auf die Bildung von Mutter und Vater ist der Wert der zweifachen negativen Loglikelihoodfunktion 68907,096. Da mit den Regressionskonstanten insgesamt 28 Regressionskoeffizienten geschätzt werden, ergibt sich für Akaikes Informationskriterium ein Wert von AIC = 69963,096 (= 68907,096 + 2 · 28). Wird die Fallzahl von 30402 Fällen berücksichtigt, ergibt sich der Wert BIC = 69196,119 = (68907,096 + ln(30402) · 28). Das ordinale Modell der kumulierten Logits hat nur 10 Regressionskoeffizienten. Die Minimierungsfunktion −2 ln L beträgt 70325,420. Damit ergeben sich für die Informationskriterien die Werte AIC = 70345,420 (= 70325,420 + 2 · 10) und BIC = 70428,643 (= 70325,420 + ln(30402) · 10). Da das Modell vorgezogen wird, bei dem die Informationskriterien möglichst kleine Werte annehmen, sprechen die Statistiken für das multinomiale Modell. Dennoch bevorzugen wir im vorliegenden Fall das ordinale Logitmodell. Begründen lässt sich dies zum einen damit, dass das ordinale Modell deutlich einfacher zu interpretieren ist, weil es nur ein Regressionsgewicht für jeden Prädiktor aufweist und zudem die Analyse des multinomialen Logitmodells auf positive ordinale Effekte der Bildung der Eltern auf die Bildung der Kinder hinweist. Die Bevorzugung des multinomialen vor dem ordinalen Logitmodell bei den Informationskriterien kann zudem Folge der sehr hohen Fallzahlen sein, wodurch bereits relativ kleine Abweichungen zwischen den beobachteten relativen Häufigkeiten und den geschätzten Wahrscheinlichkeiten zu sehr großen Werten bei den Informationskriterien führen, was zu relativen Vorteilen für komplexe Modelle mit vielen Parametern führt.
4 Häufige Fehler Bei logistischen Regressionen kategorialer abhängiger Variablen können die gleichen Probleme und Anwendungsfehler auftreten wie bei den üblichen Regressionen auf metrische abhängige Variablen. Darüber hinaus gibt es einige Besonderheiten, die zu Anwendungsproblemen oder -fehlern führen können. Die Bedeutung der Referenzkategorie Die Auswahl der Referenzkategorie ist nur im ordinalen Logitmodell (fast) nicht beliebig, da hier entweder die kleinste oder größte Ausprägung Referenzkategorie ist. Im multinomialen Logitmodell kann dagegen jede Ausprägung als Referenzkategorie
32 Multinomiale und ordinale Regression
883
spezifiziert werden. Da sich die geschätzten Regressionskoeffizienten im linearen Logitmodell auf die Logits der betrachteten Kategorie zur Referenzkategorie beziehen, führt ein Wechsel der Referenzkategorien zu jeweils verschiedenen Werten für die geschätzten Regressionskoeffizienten und deren Standardfehler. Formal-statistisch ist dies unerheblich, da über die oben vorgestellten Gleichungen alle Odds ineinander umgerechnet werden können. In der Praxis kann es aber zu Fehldeutungen führen, wenn etwa sämtliche Regressionsgewichte einer erklärenden Variablen nicht signifikant sind, und daraus fälschlicherweise geschlossen wird, dass diese Variable keinen Einfluss auf die abhängige Variable hat. Ein Beispiel ist die fehlende Signifikanz der Regressionsgewichte der Dummy-Variable für die Hochschulreife der Mutter im multinomialen Logitmodell in Abschnitt 3.1 (Tabelle 2). Erst ein LR- oder Wald-Test kann zeigen, ob ein Prädiktor mit der abhängigen Variablen zusammenhängt. In der Regel ist es sinnvoll, die Kategorie der abhängigen Variablen als Referenzkategorie zu wählen, zu denen die anderen Kategorien nach theoretischen Gesichtspunkten die größten Kontraste bilden. Bei der Analyse der Wahl von Parteien wäre dies vermutlich eine Partei am linken oder rechten Rand des Parteienspektrums. Zu beachten ist aber auch die relative Häufigkeit der Randverteilung der Referenzkategorie. Wenn die Referenzkategorie bei schiefen Verteilungen der abhängigen Variablen eine eher seltene Ausprägung ist, sind die Standardfehler der Regressionskoeffizienten tendenziell größer. Es kann in dieser Situation daher sinnvoll sein, eine andere Kategorie zu wählen. Im Beispiel der Wahl einer Partei wäre es so wenig sinnvoll, eine rechtsextreme Partei als Referenzkategorie zu wählen, da sich in Umfragen in der Bundesrepublik kaum Personen finden, die angeben, eine solche Partei wählen zu wollen oder gewählt zu haben. Welche Ausprägung auch immer als Referenzkategorie gewählt wird: in jedem Fall sollten die Effekte eines Prädiktors nicht nur allein anhand der Koeffizienten und ihrer Standardfehler, sondern zusätzlich über einen Test der Variablen insgesamt überprüft werden. Multikollienarität und Separierbarkeitsprobleme Wie in allen Regressionsmodellen gilt auch für Logitmodelle, dass die Prädiktoren nicht so hoch miteinander korrelieren dürfen, dass ein Prädiktor eine Linearkombination der übrigen Prädiktoren ist. In solchen Fällen perfekter Multikollienarität sind die Regressionskoeffizienten nicht identifiziert, da die Schätzung nicht zu einer eindeutigen Lösung führt. Wie in der linearen Regression gilt auch bei Logitmodellen, dass die Standardfehler steigen, je höher die Multikollinearität unter den Prädiktoren ist. In der multinomialen logistischen Regression kann es neben der Multikollinearität ein weiteres Datenproblem geben, das dazu führt, dass keine eindeutige Lösung existiert. Dies ist dann der Fall, wenn Merkmalskombinationen der erklärenden Variablen auftreten, bei der die Realisierungswahrscheinlichkeiten von Ausprägungen der abhängigen Variablen 0 oder 1 sind und nicht nur sehr nahe 0 oder 1. Dieses Problem tritt vor allem bei nominalskalierten erklärenden Variablen auf, wenn eine Kategorie dieser Variablen den Wertebereich der abhängigen Variablen einengt. Kennzeichen eines solchen Separierbarkeitsproblems ist, dass ein Regressionsgewicht extrem hohe positive oder negative Werte aufweist, gleichzeitig aber auch dessen Standardfehler sehr groß
884
Steffen M. Kühnel und Dagmar Krebs
ist, so dass der Koeffizient nicht signifikant ist. Lösen lässt sich dieses Problem durch Nullsetzen des Regressionsgewichts bzw. durch Bildung von Subgruppen, in denen die Zahl der Ausprägungen der abhängigen Variablen variiert. Die Unabhängigkeit von irrelevanten Alternativen Im Kontext logistischer Regressionsmodelle wird bisweilen auf ein Problem hingewiesen, das für diese Modellklasse spezifisch ist: die Annahme der Unabhängigkeit von irrelevanten Alternativen. Dahinter steht die Konsequenz aus den Regressionsgleichungen eines Logitmodells, dass sich die Odds bzw. Logits zweier Ausprägungen der abhängigen Variablen ausschließlich durch die Modellgleichungen für diese beiden Kategorien beschreiben lassen. Modellgleichungen für andere Ausprägungen sind irrelevant. Dies kann dann zu einem Problem führen, wenn sich bestimme Kategorien ähnlicher sind als andere und dies nicht durch explizite Spezifikation von Prädiktoren, die diese Ähnlichkeit erfassen, berücksichtigt wird. Dieses Problem tritt aber eher bei spezifischen multinomialen Logitmodellen auf, den konditionalen Logitmodellen (vgl. Andreß et al. 1997, Kap. 5.3.2). Wenn alle relevanten Prädiktoren in alle Modellgleichungen aufgenommen sind, stellt sich dieses Problem nicht. Allerdings kann es dann zu – im ersten Moment – unplausibel erscheinenden Werten für Regressionsgewichte kommen (für ein Beispiel vgl. Andreß et al. 1997, S. 420 ff.). Wenn es nicht möglich ist, alle relevanten Prädiktoren zu erfassen, die zu variierender Ähnlichkeit zwischen den Kategorien der abhängigen Variablen führen, kann als Alternative ein sogenanntes geschachteltes Logitmodel (nested logit model) spezifiziert und geschätzt werden. Interpretation der unstandardisierten Regressionsgewichte bei der Schwellenwertinterpretation im ordinalen Logitmodell Wir haben bereits mehrfach erwähnt, dass bei der Interpretation des ordinalen Logitmodells als Schwellenwertmodell weder der Mittelwert noch die Varianz der eigentlich interessierenden, aber unbeobachteten Variable Y ∗ unabhängig von den Schwellenwerten identifiziert ist. Da nach Gleichung (10) die geschätzten Regressionskonstanten im Logitmodell die Differenzen der Schwellenwerte von der Regressionskonstanten im linearen Modell für Y ∗ erfassen, kann eine Verschiebung des Nullpunkts der abhängigen Variablen durch eine entsprechende Verschiebung der Schwellenwerte kompensiert werden, so dass die gleichen Regressionskonstanten geschätzt werden. Die Varianz von Y ∗ berechnet sich entsprechend Gleichung (22) als Summe aus der Varianz der Vorhersagewerte (Varianz der Regressionsfunktion) plus der Residualvarianz. Die 2 Residualvarianz ist aber in allen Modellen eine vorgegebene feste Größe (= π /3). Eine Änderung der Messeinheit von Y ∗ würde dessen Varianz verändern, aber nicht den Determinationskoeffizienten R2 . Also würde sich auch die Varianz der Residualvariablen verändern. Durch die Fixierung der Residualvarianz auf einen festen Wert ist dies nicht möglich. Inhaltlich bedeutet das, dass die Skalierung der abhängigen Variablen im Schwellenwertmodell immer so erfolgt, dass die Residualvarianz gleich ist, unabhängig davon, wie hoch der Determinationskoeffiizient ist. Ändert sich die Erklärungskraft durch Veränderungen der Varianz einer erklärenden Variablen oder durch Hinein- bzw.
32 Multinomiale und ordinale Regression
885
Herausnehmen einer erklärenden Variablen, bewirkt dies immer eine Reskalierung von Y ∗. Für die praktische Anwendung bedeutet dies, dass auch die unstandardisierten Regressionsgewichte im Unterschied zur üblichen linearen Regression nur relativ zu den übrigen Gewichten innerhalb einer Regressionsgleichung interpretiert werden können.18 Wenn also z. B. eine zusätzliche Variable Xj in ein ordinales Logitmodell aufgenommen wird und sich dadurch das unstandardisierte Regressionsgewicht βj einer bereits zuvor im Modell spezifizierten Variablen Xj ändert, kann diese Veränderung nicht wie in der multiplen Regression so interpretiert werden, dass sich der Effekt auf Y ∗ erhöht bzw. verringert haben muss. Auch können die unstandadisierten Regressionsgewichte gleicher erklärender Variablen bei Schätzungen eines Modells in unterschiedlichen Stichproben (etwa beim Gruppenvergleich) nicht verglichen werden. Möglich ist in dieser Situation stets der Vergleich der standardisierten Regressionsgewichte. Allerdings sollte dabei klar sein, dass deren Werte von den Varianzen der Modellvariablen abhängen und etwa eine Erhöhung der Streuung einer erklärenden Variablen zu einer Erhöhung des standardisierten Koeffizienten führt, auch wenn der Kausalmechanismus vollkommen unverändert bleibt. „Implizite“ Interaktionseffekte Da Logitmodelle nichtlineare Modelle sind, ist die Konsequenz der Änderung des Werts einer erklärenden Variablen auf die abhängige Variable nicht konstant, sondern vom jeweiligen Ausgangswert abhängig. Genau aus diesem Grund kommt es auch zu den bereits anfangs erwähnten scheinbar paradoxen Effekten, dass ein Anstieg eines Prädiktors um eine Einheit die Realisierungswahrscheinlichkeit einer Ausprägung einer mehrkategorialen abhängigen Variablen steigern aber auch senken kann. Enthält ein Logitmodell mehrere erklärende Variablen, führt das gleiche Phänomen dazu, dass der Zusammenhang einer erklärenden Variablen auf die Realisierungswahrscheinlichkeiten der Ausprägungen der abhängigen Variablen davon abhängt, wie die Werte der übrigen erklärenden Variablen sind. Da üblicherweise dann von Interaktion zweier erklärender Variablen gesprochen wird, wenn die Effekte einer erklärenden Variablen mit den Ausprägungen einer anderen erklärenden Variable variieren, ergibt sich somit eine Art „impliziter“ Interaktionseffekt in Logitmodellen mit mehreren erklärenden Variablen. Diese Bezeichnung ist insofern nicht wirklich informativ, als sie eine rein formale Eigenschaft der nichtlinearen Modellierung ist. Interaktion in diesem Sinne gibt es dann nämlich bei allen nichtlinearen Modellen. Wir halten es daher für sinnvoller, nur dann von Interaktionseffekten zu sprechen, wenn bei Betrachtung des Effekts einer erklärenden Variablen die Werte der Regressionskoeffizienten in einer Modellgleichung nicht unabhängig von den Ausprägungen einer anderen Variablen sind. Bei Logitmodellen liegt somit erst dann ein Interaktionseffekt vor, wenn Produkte von Prädiktoren gebildet werden. 18
Dies gilt nicht für die Interpretation eines ordinalen Logitmodells auf der Ebene der Logits oder Odds.
886
Steffen M. Kühnel und Dagmar Krebs
Fehlspezifikation und das Problem der kausalen Interpretation von Regressionsgewichten In der multiplen Regression gilt, dass sich bei Unkorreliertheit eines Prädiktors mit den übrigen erklärenden Variablen die Regressionsgewichte nicht ändern, wenn der unkorrelierte Prädiktor in die Regressionsgleichung aufgenommen oder entfernt wird. Diese Eigenschaft haben logistische Modelle nicht. Selbst wenn eine erklärende Variable statistisch unabhängig von anderen erklärenden Variablen ist, führt ihre Einbeziehung bzw. ihr Ausschluss zu einer Änderung der Regressionskoeffizienten. Dies ist Folge des bereits erwähnten „impliziten“ Interaktionseffekts: Der Einfluss jeder erklärenden Variablen auf die Realisierungswahrscheinlichkeiten der Ausprägungen der abhängigen Variablen hängt von den Ausprägungen der übrigen erklärenden Variablen ab. Wenn eine Variable W , die die Realisierungswahrscheinlichkeiten der abhängigen Variablen Y beeinflusst, nicht in ein Logitmodell aufgenommen wird, dann aggregieren sich im Unterschied zum linearen Modell auch bei Unabhängigkeit von W von den übrigen erklärenden Prädiktoren X1 , X2 , . . . die konditionalen Effekte β1 , β2 , . . . nicht zu den Regressionsgewichten des Modells mit allen erklärenden Variablen. Im Sinne einer kausalen Interpretation der Regressionsgleichungen bedeutet dies, dass die Sicht von Regressionsgewichten als Kausaleffekte nur sinnvoll ist, wenn tatsächlich alle Variablen spezifiziert sind, die die abhängige Variable beeinflussen.
5 Literaturempfehlungen Das Lehrbuch von Long (1997) gibt eine umfassende Darstellung von Logitmodellen. Ausführliche statistische Hintergründe zu Logitmodellen bietet Greene (2007). Eine ausführliche, aber leider schon ältere deutschsprachige Einführung findet sich in Andreß et al. (1997).
Literaturverzeichnis Andreß, H.-J., Hagenaars, J. A., & Kühnel, S. (1997). Analyse von Tabellen und kategorialen Daten. Log-lineare Modelle, latente Klassenanalyse, logistische Regression und GSK-Ansatz. Berlin: Springer. Boudon, R. (1974). Education, Opportunity and Social Inequality: Changing Prospects in Western Society. New York: Wiley. Greene, W. H. (2007). Econometric Analysis. Upper Saddle River: Prentice-Hall. Jagodzinski, W. & Kühnel, S. (1990). Zur Schätzung der relativen Effekte von IssueOrientierungen, Kandidatenpräferenz und langfristiger Parteibindung auf die Wahlabsicht. In K. Schmitt (Hg.), Wahlen, Parteieliten, politische Einstellungen (S. 5–64). Frankfurt/Main: P. Lang. Long, J. S. (1997). Regression Models for Categorical and Limited Dependent Variables. Thousand Oaks: Sage. McKelvey, R. & Zavoina, W. (1975). A Statistical Model for the Analysis of Ordinal Level Dependent Variables. Journal of Mathematical Sociology, 4, 103–120.
33 Regression für Zählvariablen Gerhard Tutz Ludwig-Maximilians-Universität München
Zusammenfassung. Zählvariablen stellen einen wichtigen Datentyp in sozialwissenschaftlichen Studien dar. Sie werden immer dann betrachtet, wenn die Häufigkeit eines interessierenden Ereignisses erhoben wird. Im Rahmen einer regressionsanalytischen Modellierung, bei der die Häufigkeit des interessierenden Ereignisses als abhängige Variable auftritt, empfiehlt es sich, die diskrete Natur dieses Responses explizit zu modellieren, da die unreflektierte Anwendung des klassischen Regressionsmodells mit normalverteiltem Fehler zu Artefakten führen kann. Als Verteilungsmodelle für den Response kommen insbesondere die Poissonverteilung und die negative Binomialverteilung in Frage. Regressionsmodelle für diese Verteilungstypen werden dargestellt und Inferenztechniken skizziert. Die Regressionsmodelle lassen sich als generalisierte Regressionsmodelle (GLMs) bzw. als deren Erweiterungen verstehen. Wie für parametrische Regressionsmodelle üblich, lassen sich Verteilungskomponente, d. h. die Festlegung auf einen Verteilungstyp, und strukturelle Komponente unterscheiden. Die strukturelle Komponente bestimmt, wie die erklärenden Variablen mit dem Erwartungswert der abhängigen Variablen verknüpft sind. Für Zählmodelle empfiehlt sich die Anwendung einer Transformationsfunktion, die den Wertebereich der Zählvariable berücksichtigt. Es wird kurz auf die Behandlung erklärender Variablen verschiedenen Typs eingegangen. Während metrische Einflussgrößen direkt oder in Form von potenzierten Werten eingehen können, ist für nominale Einflussgrößen eine Kodierung in Dummyvariablen notwendig. Es werden auch kurz Erweiterungsmöglichkeiten angesprochen, die eine flexiblere nonparametrische Struktur zulassen.
1 Einführung in das Verfahren Das klassische lineare Regressionsmodell setzt insbesondere eine stetige, metrisch skalierte Zielvariable voraus. In vielen regressionsanalytischen Untersuchungen ist die Zielvariable jedoch diskret und repräsentiert, wie oft ein bestimmtes Ereignis aufgetreten ist. Derartige Variablen werden als Zählvariablen bezeichnet. Einfache Beispiele sind die Anzahl der Arztbesuche in gesundheitsökonomischen Studien, die Anzahl krimineller Delikte bei der Untersuchung krimineller Karrieren oder die Anzahl der Urlaube als Wohlstandsindikator. Das Untersuchungsziel besteht darin, die Häufigkeit des Auftretens durch Einflussgrößen zu erklären. Die Einflussgrößen selbst können sowohl metrisch als auch nominal skaliert sein. Die Anwendung des klassischen Regressionsmodells auf Zähldaten ist äußerst problematisch. Zählvariablen wie die Anzahl der Arztbesuche können nur die Werte S. 887–904 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_33, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
888
Gerhard Tutz
0,1,2, . . . annehmen. Die Variable ist also diskret und sicher nicht normalverteilt, wie im klassischen Regressionsmodell gefordert. Dies gilt insbesondere wenn die Anzahlen nicht zu hoch sind. Für Zählvariablen mit großen Werten (größer als 30) kann die Normalverteilung hingegen eine zulässige Approximation darstellen. Für kleinere Anzahlen muss man sich überlegen, welcher Verteilung die Anzahlen folgen könnten. Das führt im Folgenden zur Betrachtung von speziellen Verteilungen wie der Poissonverteilung und der negativen Poissonverteilung. Zum weiteren ist es notwendig festzulegen, wie die Einflussgrößen auf die Anzahlen wirken. Ein schlicht linearer Zusammenhang wie im klassischen Regressionsmodell berücksichtigt nicht, dass Anzahlen nur positive Werte annehmen können. Im Folgenden werden daher Alternativen dargestellt, die eine flexiblere Kopplung zwischen abhängiger und unabhängigen Variablen zulassen. 1.1 Poisson und negative Binomialverteilung Die klassische Verteilung für Zählvariablen ist die Poissonverteilung, die häufig auch als die Verteilung der seltenen Ereignisse bezeichnet wird. Als Zählverteilung hat sie als mögliche Werte die ganzen Zahlen einschliesslich der Null, d. h. die Variable Y kann die Werte 0,1,2, . . . annehmen. Die Wahrscheinlichkeitsdichte ist bestimmt durch f (y) = P (Y = y) =
λy −λ e y!
für
y ∈ {0,1,2, . . . } .
(1)
Die Verteilung besitzt nur einen Parameter λ, der dem Erwartungswert der Zufallsvariable entspricht, d. h. E(Y ) = λ. Der Parameter charakterisiert damit, mit wievielen Ereignissen im Mittel zu rechnen ist. Eine Besonderheit der Poissonverteilung ist die sogenannte Equidispersion, die besagt, dass Erwartungswert und Varianz identisch sind, E(Y ) = var(Y ) = λ. Eine Verknüpfung von Erwartungswert und Varianz ist naheliegend. Wenn nur wenige Ereignisse zu erwarten sind, kann die Variabilität auch nicht sehr hoch sein, wenn der Erwartungswert große Werte annimmt, ist auch mit mehr Fluktuation um diesen zu rechnen. Die Poissonverteilung fordert allerdings sogar die Identität von Erwartungswert und Varianz. Die Poissonverteilung lässt sich auf verschiedene Art und Weise gewinnen. Insbesondere lässt sie sich als Grenzfall der Binomialverteilung darstellen. Zählt man bei n unabhängigen Versuchen mit den Möglichkeiten „Treffer“ „Nicht-Treffer“ die Anzahl der Treffer, erhält man bekanntlich eine Binomialverteilung. Erhöht man nun die Anzahl der Versuche bei entsprechen kleinerer Trefferwahrscheinlichkeit ergibt sich als Grenzfall die Poissonverteilung. Als Verteilung, die durch einen Parameter festgelegt ist, ist die Poissonverteilung für viele Anwendungen zu wenig flexibel. In vielen Fällen ist insbesondere die Equidispersionseigenschaft verletzt, man findet eine größere Varabilität als durch das Verteilungsmodell festgelegt. Das Phänomen wird als Überdispersion (overdispersion) bezeichnet. Der weit seltenere Fall zu kleiner Variabilität wird auch Unterdispersion genannt. Liegt eine von der Poissonverteilung abweichende Variabilität vor, lässt sich das Verteilungsmodell durch einen zusätzlichen Dispersionsparameter zum QuasiPoisson-Modell erweitern. Der Dispersionsparameter ist dann separat zu schätzen.
33 Regression für Zählvariablen
889
Ein prinzipiell flexibleres Modell ist das Modell der negativen Binomialverteilung. Diese ist bestimmt durch die Wahrscheinlichkeitsfunktion y ν ν Γ (y + ν) μ f (y) = ,y = 0,1, . . . Γ (y + 1)Γ (ν) μ + ν μ+ν wobei nun zwei Parameter2ν,μ > 0 die Verteilung bestimmen. Γ bezeichnet dabei die ∞ Gamma-Funktion Γ (ν) = 0 tν−1 e−t dt. Man erhält für Erwartungswert und Varianz E(Y ) = μ,
var(Y ) = μ +
μ2 . ν
Durch den zweiten Parameter ist jetzt eine flexiblere Modellierung der Varianz möglich. Für kleines ν wird die Varianz deutlich größer als bei der Poissonverteilung, für großes ν erhält man als Grenzfall (ν → ∞) die Poissonverteilung. 1.2 Regressionsmodellierung Regressionsmodelle zielen insbesondere darauf ab, die Variation einer abhängigen Variable durch Einflussgrößen zu erklären. Bei der Modellierung lassen sich zwei Komponenten unterscheiden. Die Strukturkomponente spezifiziert, in welcher Form die unabhängigen Variablen auf die abhängige Variable wirken, während die Verteilungskomponente festlegt, welche Verteilung die abhängige Variable besitzt. Beide Komponenten haben bei Zähldaten eine andere Form als in der klassischen Regression mit normalverteilten abhängigen Größen. Im Folgenden werden die beiden Komponenten nacheinander behandelt. Strukturkomponente In der Regressionsanalyse nimmt man an, dass der Erwartungswert der abhängigen Variable durch die Werte der unabhängigen Variablen oder Einflussgrößen bestimmt wird. Im einfachsten linearen Modell wird angenommen, dass der (bedingte) Erwartungswert μ = E(Y |x1 , . . . ,xp ) bei gegebenen Kovariablen x1 , . . . ,xp die lineare Form μ = β0 + x1 β1 + · · · + xp βp besitzt. Die Veränderung der Einflussgrößen verändert damit den Erwartungswert der abhängigen Variable und die Parameter sind einfach interpretierbar als lineare Wirkung auf den Erwartungswert. Für Zählvariablen ist das einfache lineare Modell nur bedingt geeignet. Es berücksichtigt insbesondere nicht, dass der Erwartungswert einer Zählvariablen nicht negativ sein kann, da alle möglichen Ausprägungen entweder Null oder positiv sind. Ein Regressionsmodell für Zähldaten modelliert daher die zu erwartende Häufigkeit μ = E(Y |x1 , . . . ,xp ) bei gegebenen Kovariablen bzw. erklärenden Variablen x1 , . . . ,xp in der Form μ = h(β0 + x1 β1 + · · · + xp βp ) ,
890
Gerhard Tutz
wobei h eine bekannte Transformationsfunktion ist. Sie hat insbesondere den Zweck, die aus der linearen Regression vertraute Linearkombination von Einflussgrößen so zu transformieren, dass der Erwartungswert der abhängigen Variable im zulässigen Bereich liegt. Es empfiehlt sich, Transformationsfunktionen zu wählen, die sichern, dass μ > 0 gilt. Das bei weitem am häufigsten angewandte Modell ist das loglineare Modell μ = exp(β0 + x1 β1 + · · · + xp βp ) , das auf der Exponential-Transformation beruht. Eine äquivalente Formulierung, aus der sich auch der Name ableitet, ist log(μ) = β0 + x1 β1 + · · · + xp βp . Die Linearkombination wirkt also nicht wie im linearen Modell direkt auf den Erwartungswert, sondern auf den logarithmierten Erwartungswert. Daraus ergibt sich eine vom linearen Modell abweichende Interpretation der Parameter. Aus der Darstellung μ = eβ0 (eβ1 )x1 . . . (eβp )xp , ist ersichtlich, dass die Erhöhung der j-ten Variable um eine Einheit zu xj +1 den Erwartungswert μ = eβ0 (eβ1 )x1 . . . (eβj )xj +1 . . . (eβp )xp liefert und damit den Erwartungswert um den Faktor eβj verändert. Der (transformierte) Parameterwert eβj entspricht somit der multiplikativen Wirkung auf den Erwartungswert, wenn sich die j-te Variable um eine Einheit erhöht. Ist βj = 0, liegt keine Wirkung auf den Erwartungswert der auftretenden Häufigkeit vor, ist βj > 0, erhöht sich der Erwartungswert, da eβj > 1 gilt. Wenn βj < 0 ist, erhält man als Faktor eβj < 1 und damit reduzierende Wirkung. Die Parameter reflektieren somit die multiplikative Wirkung auf den Erwartungswert der abhängigen Variable. Es sei angemerkt, dass diese einfache Interpretation der Parameter nur für das loglineare Modell gilt. Für andere Transformationsfunktionen muss man die Form von h explizit in der Interpretation benutzen. Als einfaches Beispiel sei die Abhängigkeit der Anzahl insolventer Firmen in Berlin in Abhängigkeit von der Zeit betrachtet. Das betrachtete loglineare Modell hat die Form log(μ) = β0 + Zeit β1 , wobei Zeit die Werte 1 bis 36 (für Januar 1994 bis Dezember 1969) annimmt. Die Parameterschätzung unter der Annahme einer Poissonverteilung ergab βˆ0 = 4,24, βˆ = 0,0097. Damit erhöht sich mit jedem Monat die logarithmierte Anzahl zu erwartender Insolvenzen um 0,0097. Viel anschaulicher ist jedoch die damit verbundene ˆ multiplikative Erhöhung der Insolvenzen um den Faktor eβ = 1,01, mit jedem Monat steigt die Anzahl der Insolvenzen um etwa ein Prozent. Strukturkomponente: lineare und nichtlineare Prädiktoren Das betrachtete Regressionsmodell besitzt einen linearen Term, auch wenn dieser erst nach Transformation den Erwartungswert bestimmt. Die Form dieses linearen Terms war bisher sehr allgemein gehalten, die konkrete Form hängt von der Art der
33 Regression für Zählvariablen
891
erklärenden Variablen ab. Man kann die Spezifikation des linearen Prädiktors als den zweiten Teil der Strukturkomponente betrachten. Im einfachsten Fall ist eine Einflussgröße xj metrisch skaliert, beispielsweise wenn das Alter als Einflussgröße in die Analyse eingeht. Im linearen Prädiktor findet sich dann der Term xj βj , der den Einfluss der Variable spezifiziert. Hat man jedoch den Verdacht, dass Alter nicht nur linear wirkt, lassen sich in den linearen Term auch quadratische und höhere Potenzen einschließen. Der lineare Prädiktor zur Variable xj besitzt dann die Form (2) xj βj1 + x2j βj2 + · · · + xm j βjm . Aus der einen Variablen xj werden damit m Komponenten des linearen Terms. Ob alle diese notwendig sind, lässt sich durch Signifikanztests untersuchen. Insbesondere wenn Einflussgrößen kategorial sind, muss man sich überlegen, wie diese Größe in den linearen Prädiktor aufgenommen werden sollen. Eine einfache Form benutzt die 0-1 oder Dummy-Kodierung. Ein einfaches Beispiel ist die Nationalität als Einflussgröße. Besitze die Nationalität N die möglichen Werte 1, . . . ,k. Im linearen Term wäre eine Komponente der Form N β schierer Unsinn, da Nationalität nur Nominalskalenniveau aufweist. Man kodiert daher die Variable durch Dummy-Variablen der Form 9 1 wenn N = j xN (j) = 0 sonst und nimmt k − 1 dieser Dummy-Variablen in den Prädiktor auf in der Form β0 + xN (1) βN (1) + . . . + xN (k−1) βP (k−1) .
(3)
Im vorliegenden Fall wurde die Dummy-Variable xN (k) weggelassen. Die Interpretation der Parameter bezieht sich daher immer auf die Kategorie k, die sog. Referenzkategorie. Wenn N = k vorliegt, ist der Beitrag im linearen Prädiktor β0 , liegt die Kategorie N = j (j < k) vor, ist der Beitrag β0 + βj . Der Wert βj entspricht somit der additiven Veränderung im Verhältnis zur Kategorie k. Prinzipiell kann jede Kategorie eines mehrkategorialen Merkmals die Rolle der Referenzkategorie übernehmen, man muss nur die entsprechende Dummy-Variable weglassen. Alle k Dummy-Variablen und den Achsenabschnitt (β0 ) aufzunehmen würde dazu führen, dass die Parameter nicht mehr eindeutig und damit nicht identifizierbar wären. Die Entwicklung statistischer Methoden des letzten Jahrzehnts ermöglicht es, den Prädiktor viel allgemeiner zu halten. Anstatt eines linearen Terms lässt sich ein flexibler additiver Prädiktor verwenden. Der Einfachheit halber seien nur metrisch skalierte Einflussgrößen betrachtet. Man verwendet dann die Strukturierung μ = h(η), wobei nicht der lineare Prädiktor η = β0 + x1 β1 + · · · + xp βp verwendet wird, sondern der additive Prädiktor η = β0 + m(1) (x1 ) + · · · + m(p) (xp ) . Dabei sind die Funktionen m(1) , . . . ,m(p) nicht spezifiziert, d. h. die Daten selbst bestimmen, welche Form der Einfluss der erklärenden Variablen auf die abhängige Variable hat. Dieses verallgemeinerte additive Modell lässt damit insbesondere nichtlineare Einflussmodellierung zu. Lineare Prädiktoren sind natürlich als Spezialfall
892
Gerhard Tutz
enthalten, nämlich wenn m(j) (xj ) von der einfachen Form xj βj ist. Während man innerhalb des linearen Ansatzes polynomiale Terme von der Art (2) einführen muss, um einen nichtlinearen Einfluss der Variable selbst zu modellieren, wird innerhalb des additiven Modells die funktionale Form datengesteuert bestimmt, ohne dass man sich auf polynomiale Strukturen beschränken muss. Verteilungskomponente In der klassischen Regression wird angenommen, das die Verteilung der abhängigen Variable, gegeben die Einflussgrößen, normalverteilt ist. Für Zählvariablen, die große Werte annehmen und einigermaßen symmetrisch verteilt sind, lässt sich das Normalverteilungsmodell durchaus als Approximation benutzen. Ist aber mit wenigen Ausprägungen zu rechnen, wenn beispielsweise die Anzahl der Kinder in Abhängigkeit von sozio-ökonomischen Größen modelliert wird, ist die Normalverteilung als stetige Verteilung deplatziert und wird nur zu Artefakten führen. In derartigen Fällen sollte eine diskrete Verteilung, die als mögliche Werte die Zahlen 0,1,2, . . . besitzt, verwendet werden. Klassische Annahmen sind – – –
Poissonverteilung Poissonverteilung mit Dispersionsparameter Negative Binomialverteilung
Die Gültigkeit der Aussagen hängt naturgemäß von der Adäquatheit der gewählten Verteilung ab. Die Poissonverteilung wird häufig verwendet, hat aber in der einfachsten Form den Nachteil, dass sie durch einen einzigen Parameter bestimmt ist und daher wenig flexibel. Man sollte in Anwendungen zumindest das Poissonmodell mit Dispersionsparameter wählen, um den Daten gerecht zu werden. Das einfache Poissonmodell ist darin als Spezialfall enthalten, nämlich wenn der Dispersionsparameter den Wert Eins annimmt. Eine geschlossene allgemeinere Form liefert die negative Binomialverteilung, die ebenso das Poissonmodell als Grenzfall enthält. Inferenz Einer der wichtigsten Gesichtspunkte bei der Anwendung von Regressionsmodellen ist die Evaluation der Einflussgrößen. Man möchte herausfinden, welche Einflussgrößen tatsächlich wirksam sind, welche vernachlässigbar. Im Rahmen parametrischer Modelle lässt sich die Wirksamkeit von Einflussgrößen mit Hilfe von Signifikanztests untersuchen. Programmpakete liefern die Signifikanz einzelner Parameter in Form von approximativ normalverteilten Testgrößen (z-value) bzw. in Form von p-Werten (p-values). Die angegebenen p-Werte stellen das deskriptive Signifikanzniveau dar. Ist der Wert kleiner als 0,05, kann man davon ausgehen, dass der Parameter (zum Signifikanzniveau α = 0,05) signifikant ist. Die zugehörige Variable ist also innerhalb des Regressionsmodells nicht vernachlässigbar.
33 Regression für Zählvariablen
893
2 Mathematisch-statistische Grundlagen Seien die unabhängigen Beobachtungen in der Form (yi ,xi1 , . . . ,xip ), i = 1, . . . ,n, gegeben, wobei yi ∈ {0,1,2, . . . } die abhängige Zählvariable und xi1 , . . . ,xip die zugehörigen p Einflussgrößen bezeichnet. Die Strukturkomponente des Modells sei von der Form μi = h(β0 + xi1 β1 + · · · + xip βp ) = h(x i β) , wobei μi = E(yi |x) den bedingten Erwartungswert bezeichnet, x i = (1,xi1 , . . . ,xip ) die Einflussgrößen als Vektor zusammenfasst und β = (β0 ,β1 , . . . ,βp ) der Vektor der Parameter ist. Der konstante Term β0 ist der Einfachheit halber mit in den Parametervektor aufgenommen, und der Vektor xi enthält entsprechend als erste Komponente eine 1. 2.1 Poissonmodell Maximum-Likelihood-Schätzung Betrachtet sei als erstes das Poissonmodell, d. h. man nimmt an, dass die Beobachtung yi einer Poissonverteilung mit Parameter (Erwartungswert) μi folgt. Ein geeignetes Prinzip zur Gewinnung von Parameterschätzungen ist die Maximum-Likelihood-(ML-) Schätzung. Das Kleinste-Quadrate-Prinzip, das in der Normalverteilungsregression üblicherweise angewendet wird, ist hier inadäquat, da es die Fehlerverteilung nicht in der richtigen Form berücksichtigt. Die ML-Schätzung hingegen benutzt explizit die spezifizierte Verteilungsform, im vorliegenden Fall die Poissonverteilung. Die Likelihood für die Beobachtungen ist wegen der Unabhängigkeit der Beobachtungen als Produkt gegeben in der Form L(β) = f (y1 ) . . . f (yn ) =
μy11 −μ1 μyn . . . n e−μn . e y1 ! yn !
Die einfachere Größe für die Maximierung ist die sog. Log-Likelihood l(β) = log L(β), die sich ergibt als l(β) = =
n i=1 n
yi log(μi ) − μi − log(yi !) yi log(h(x i β)) − h(xi β) − log(yi !) .
i=1
Das übliche Verfahren, ein Maximum zu finden, besteht darin die Log-Likelihood abzuleiten und Null zu setzen. Die Ableitung nach den Komponenten von β liefert die Score-Funktion s(β) = ∂l(β)/∂β, die sich ergibt als s(β) =
n i=1
xi
h (x i β) (yi − h(x i β)) , h(xi β)
894
Gerhard Tutz
wobei h (·) die Ableitung der Funktion h(·) bezeichnet. Der Maximum Likelihoodˆ = 0. Für die Link-Funktion des Schätzer ist eine Lösung des Gleichungssystems s(β) loglinearen Modells (h(·) = exp(·)) erhält man die einfachere Form s(β) =
n
xi (yi − exp(x i β)) .
i=1
ˆ = 0 ist dann bestimmt durch Das Gleichungssystem s(β) n
ˆ xij (yi − exp(x i β)),j = 0, . . . , p .
i=1
Das sind insgesamt p + 1 Gleichungen, für jeden Parameter also eine Gleichung, die es zu lösen gilt. Anders als in der linearen Regression lässt sich die Lösung nicht explizit angeben, sondern muss iterativ bestimmt werden. Dies erfolgt mit geeigneten Algorithmen. Für die Bestimmung des Schätzfehlers ist es wichtig, die Verteilung des MLSchätzers zu kennen. Unter Regularitätsbedingungen ist der Schätzer asymptotisch (für großen Stichprobenumfang n) normalverteilt und konsistent, etwas formaler ˆ (a) β ∼ N(β,F (β)−1 ). Dabei ist insbesondere die Kovarianzmatrix des Schätzers von Interesse, da sie in der Diagonale die quadrierten Standardfehler der Parameterschätzung enthält. Diese Matrix ist gegeben als die Inverse der sog. Fisher-Matrix oder Informationsmatrix F (β), die gegeben ist durch F (β) = E
−∂ 2 l(β) ∂β∂β
=
n i=1
xi x i
2 h (x i β) . h(xi β)
(4)
Für das loglineare Modell erhält man wieder eine einfachere Form, nämlich F (β) =
n
xi x i exp(xi β) .
i=1
Parameter-Tests Bei der Untersuchung der Relevanz von Einflussgrößen ist es oft günstig, die allgemeine lineare Hypothese zu Grunde zu legen. Man testet dabei das Hypothesenpaar aus Nullund Alternativhypothese H0 : Cβ = ξ
H1 : Cβ = ξ ,
wobei C eine fest spezifizierte Matrix und ξ ein fest spezifizierter Vektor ist. Im einfachsten Fall ist C eine Matrix, die nur aus einer Zeile besteht, und darin nur eine Eins und sonst Nullen enthalten sind. Die Matrix C = (0, . . . ,1, . . . ,0), in der die Eins so platziert ist, dass sie den j-ten Parameter auswählt, führt zusammen mit dem (sehr kurzen) Vektor ξ = (0) zu dem Hypothesenpaar
33 Regression für Zählvariablen
H0 : βj = 0
895
H1 : βj = 0 .
Damit überprüft man, ob der j-te Koeffizient von Null verschieden ist. Für geeignete Spezifikation von C und ξ erhält man die Overall-Hypothese H0 : β1 = . . . βp = 0
H1 : Für ein j
gilt βj = 0 .
Die Nullhypothese formuliert hier, dass keine der Einflussgrößen von Null verschieden ist. Man prüft daher simultan, ob die betrachteten Einflussgrößen einen Erklärungswert besitzen. Kann die Nullhypothese nicht verworfen werden, besitzen alle unabhängigen Variablen keine nachweisbare signifikante Wirkung und das Regressionsmodell hat keinen Erklärungswert. Als Teststatistiken stehen drei Teststatistiken zur Verfügung: – der Likelihood-Quotienten-Test, – der Wald-Test, – der Score-Test. Alle Teststatistiken sind für großen Stichprobenumfang äquivalent. Im Folgenden werden wir uns auf den Likelihood-Quotienten-Test und den Wald-Test beschränken. Der Likelihood-Quotienten Test vergleicht zwei Modelle miteinander, einmal das ˜ Modell mit der Einschränkung Cβ = ξ, das die geschätzten Werte μ ˜i = h(x i β) liefert, ˆ und das Modell ohne diese Einschränkung, das die geschätzten Werte μ ˆi = h(x i β) liefert. Der Vergleich erfolgt als Differenz der angepassten Werte der Log-Likelihood und hat die Form μ ˜i ˜ |M ) = 2 yi log( ) + (ˆ μi − μ ˜i ) . D(M μ ˆi i ˜ |M ) tendenziell kleine Werte annimmt, wenn die Man sieht unmittelbar, dass D(M Nullhypothese wahr ist, da sich dann der Fit des restriktiveren Modells μ ˜ i nur wenig von der ML-Schätzung des uneingeschränkten Modells μ ˆi unterscheiden wird. Die Nullhypothese wird abgelehnt, wenn die Statistik zu große Werte annimmt. Als Maß für große Werte gilt natürlich die Verteilung unter der Nullhypothese. Man erhält dann asymptotisch eine χ2 -Verteilung, deren Freiheitsgrade sich als der Rang der Test-Matrix C ergeben. Im einfachsten Fall, wenn nur ein Koeffizient getestet wird, erhält man als Freiheitsgrad den Wert 1. Generell entsprechen die Freiheitsgrade der Anzahl der Parameter, die durch die Einschränkung Cβ = ξ verlorengehen. Die Nullhypothese wird somit abgelehnt, wenn das (1 − α)-Quantil der entsprechenden χ2 -Verteilung überschritten wird. Eine weitere Motivation für die Teststatistik als Differenz von Anpassungsmassen wird später noch gegeben. Eine Alternative zum Likelihood-Quotienten-Test ist der Wald-Test, der die Form ˆ − ξ) (CF −1 (β)C ˆ )−1 (C β ˆ − ξ) w = (C β ˆ benutzt. besitzt. Er ist besonders einfach zu berechnen, da er nur die ML-Schätzung β Es ist daher nicht notwendig, das Modell mit und ohne Einschränkung zu schätzen. Er findet daher auch in den meisten Programmpaketen Verwendung, um die Signifikanz
896
Gerhard Tutz
einzelner Parameter zu evaluieren. Für die einfache Hypothese H0 : βj = 0 reduziert er sich zu βˆj2 w= , sˆ(βˆj )2 wobei sˆ(βˆj ) den geschätzten Standardfehler von βˆj darstellt. Prinzipiell besitzt der Wald-Test dieselbe asymptotische Verteilung wie der Likelihood-Quotienten-Test. In diesem Fall ergibt sich also eine χ2 -Verteilung mit einem Freiheitsgrad. Da die Wurzel aus der χ2 -Verteilung mit einem Freiheitsgrad eine Standardnormalverteilung besitzt, lässt sich auch der Normalverteilungstest z=
βˆj sˆ(βˆj )
anwenden. Man lehnt die Nullhypothese ab, wenn z sehr große oder sehr kleine Werte annimmt, genauer, wenn der Betrag von |z| größer als das (1 − α/2)-Quantil der Standardnormalverteilung ist. Das Poissonmodell ist ein Spezialfall des generalisierten linearen Modells und besitzt daher die gut untersuchten Eigenschaften dieser Modellklasse. Devianz und Anpassungstests Die Anpassung des Modells lässt sich überprüfen durch die Devianz yi {yi log D=2 + [(ˆ μi − yi )]} . μ ˆi i Die Devianz misst die Diskrepanz zwischen Daten und gefitteten Werten. Sie entspricht dem Likelihood-Quotienten-Test, der das Modell der Poissonregression mit dem perfekten Fit (der dem sog. saturierten Modell entspricht) vergleicht. In der oben ˜ |M ), eingeführten Terminologie des Likelihood-Quotienten-Test erhält man D = D(M ˜ wobei M dem Poissonmodell und M dem saturierten Modell mit μ ˆi = yi entspricht. Gelegentlich findet man die Teststatistik ohne den letzen Term in eckigen Klammern. Dieser ist in der Tat vernachlässigbar, wenn das Modell einen konstanten Term β0 enthält. Eine alternative Anpassungsteststatistik ist die Pearson-Statistik χ2P =
N (yi − μ ˆ i )2 i=1
μ ˆi
.
Beide Statistiken besitzen unter Regularitätsbedingungen für μi → ∞ asymptotisch eine χ2 -Verteilung, D,χ2P ∼ χ2 (n − p) , wobei p die Anzahl der geschätzten Parameter (inklusive konstanter Term) bezeichnet. Zu beachten ist, dass der Stichprobenumfang fest ist und nicht wächst. Wenn die einzelnen Erwartungswerte μi klein sind, beispielsweise wenn alle Beobachtungen kleinere
33 Regression für Zählvariablen
897
Werte als 10 aufweisen (vergleiche das Anwendungsbeispiel) ist die Anpassungsstatistik nicht aussagekräftig. Aussagekräftige Anpassungsmaße erhält man im Regelfall nur wenn alle Einflussgrößen kategorial sind. Dann lassen sich die Zähldaten in einer Kontingenztafel mit einigermaßen hohen Zellbesetzungen darstellen. 2.2 Quasi-Poissonmodell Eine einfache Erweiterung des Poissonmodells ergibt sich durch Einführung eines Dispersionsparameters. Man legt wie vorher die Strukturannahme μi = h(x i β) , zu Grunde, nimmt aber nicht länger eine Poissonverteilung für die abhängige Variable an. Die Annahme ist vielmehr dahingehend abgeschwächt, dass man nur annimmt, dass die Varianz bestimmt ist durch var(yi ) = φμi = φh(x i β) , wobei φ ein unbekannter und damit zu schätzender Dispersionsparameter ist. Der Begriff Dispersionsparameter bezieht sich darauf, dass durch diesen Parameter die Varianz oder Dispersion verändert wird. Für φ = 1 entspricht die Varianz der der Poissonverteilung, für φ > 1 ist die Varianz größer (Überdispersion), für φ < 1 ist die Varianz kleiner als bei einer Poissonverteilung. Ein einfacher Schätzer für den Dispersionsparameter ist n 1 (yi − μ ˆ i )2 φˆ = , n − p i=1 μ ˆi wobei p wieder die Anzahl der geschätzten Parameter des Modells bezeichnet. Der Ansatz lässt sich als Quasi-Poissonmodell verstehen, da die Varianz in Analogie zu der einer Poissonverteilung spezifiziert ist. Zur Parameterschätzung löst man die Maximum-Likelihhood Gleichungen des Poissonmodells: Die Lösungen sind allerdings nicht als Maximum-Likelihood-Schätzer zu interpretieren, da keine Poissonverteilung angenommen wird. Sie sind nun Quasi-Likelihood-Schätzungen. Es lässt sich eine Quasi-Likelihood formulieren, die zu eben diesen Schätzgleichungen führen. Der wesentliche Unterschied besteht darin, dass die Standardfehler den Faktor φˆ enthalten. ˆs(βˆj ) bestimmt, wobei sˆ(βˆj ) den geschätzen Der Standardfehler ist somit durch φˆ Standardfehler des Poissonmodells bezeichnet. Entsprechend lässt sich wieder ein Normalverteilungstest der Form z=
βˆj ˆs(βˆj ) φˆ
durchführen. Man lehnt die Nullhypothese wieder ab, wenn z sehr große oder sehr kleine Werte annimmt, genauer, wenn der Betrag von |z| größer als das (1− α/2)-Quantil der Standardnormalverteilung ist.
898
Gerhard Tutz
2.3 Modell der negativen Binomialverteilung Neben der Strukturannahme μi = h(x i β), lässt sich für die abhängige Variable eine negative Binomialverteilung annehmen. Für die Varianz hat man damit in Abhängigkeit vom Erwartungswert μ2 var(Yi ) = μi + i . ν Der zweite Parameter ν, der nicht vom Erwartungswert abhängt, hat wieder die Funktion eines Dispersionsparameters, allerdings wirkt dieser nicht multiplikativ wie im Quasi-Poissonmodell. Er macht das Modell allerdings flexibler als das Poissonmodell, das als Spezialfall wiederum enthalten ist. Für feste Wahl von ν ist das Modell wiederum ein generalisiertes lineares Modell und alle Werkzeuge der Inferenz (ML Schätzung, Tests) wie für das Poissonmodell stehen zur Verfügung. Eine spezielle Wahl ist ν = 1, was der Annahme einer geometrischen Verteilung entspricht. Meist wird man jedoch den Parameter ν als unbekannt voraussetzen und durch Maximum-Likelihood-Methoden schätzen.
3 Ein Beispiel Das folgende Beispiel wurde mit Daten des ALLBUS berechnet (http://www.gesis. org/allbus). Als abhängige Variable wird die Anzahl der Kinder betrachtet, wobei nur Frauen einbezogen werden. Als erklärende Variablen werden in die Analyse einbezogen – Alter in Jahren – Dauer der Ausbildung in Jahren (Ausb) – Staatsangehörigkeit(D, 1: deutsch, 2: nicht deutsch) – Einstellung zu Gott (Die Zustimmung zum Statement Gott ist das wertvolle im Menschen wird in Abstufungen bewertet, 1: Stimme ich voll zu, 2: Stimme eher zu, 3: Habe keine feste Meinung, 4: Stimme ich eher nicht zu, 5: Stimme überhaupt nicht zu, 6: Darüber habe ich noch nie nachgedacht Bei der Datenanalyse sind mehrere Entscheidungen zu treffen. Man muss den Verteilungstyp festlegen, die Transformations- bzw. Linkfunktion wählen und man muss die Form des Einflussterms spezifizieren. Als Verteilungstyp wird im folgenden zuerst die Poissonverteilung als klassische Zählverteilung gewählt. Zusätzlich wird das Quasi-Poissonmodell betrachtet, das einen zusätzlichen Dispersionsparameter enthält. Als Transformationsfunktion wird die Exponentialfunktion festgelegt, so dass man ein loglineares Modell erhält. Das loglineare Modell gilt als das klassische Regressionsmodell für Zählvariablen. Als letztes ist noch festzulegen, wie die Einflussgrößen wirken. Es ist nicht einfach davon auszugehen, dass die beiden metrischen Variablen Alter und Dauer der Schulausbildung einen einfachen linearen Einfluss haben. Daher werden in den linearen Prädiktor polynomiale Terme aufgenommen. Für das Alter werden polynomiale Terme der Ordnung vier, für die Ausbildung, die über einen geringeren Bereich variiert,
33 Regression für Zählvariablen
899
Tab. 1: Parameterschätzung für loglineares Poissonmodell Schätzer Konstante Alter Alter2 Alter3 Alter4 Ausb Ausb2 xD Gott2 Gott3 Gott4 Gott5 Gott6
Std. Fehler
−12,0586 0,9519 −0,0253 0,0003 −0,0000 0,0013 −0,0020 0,1273 −0,0885 −0,1454 −0,1306 −0,0390 −0,0919
1,4941 0,1250 0,0038 0,0000 0,0000 0,0558 0,0023 0,1450 0,0597 0,0683 0,0713 0,0675 0,0758
z-Wert −8,07 7,62 −6,61 5,80 −5,14 0,02 −0,88 0,88 −1,48 −2,13 −1,83 −0,58 −1,21
Pr(>|z|) 0,0000 0,0000 0,0000 0,0000 0,0000 0,9820 0,3795 0,3799 0,1384 0,0333 0,0671 0,5634 0,2253
werden polynomiale Terme der Ordnung zwei aufgenommen. Die Wirkung der Einflussgrößen ist damit nicht mehr linear festgelegt sondern durch einigermaßen flexible Funktionen mit mindestens quadratischen Termen spezifiziert. Für die kategorialen Variablen werden Dummy-Variablen verwendet. Bei den Dummy-Variablen ist die Wahl der Referenzkategorie beliebig, die Wahl bestimmt allerdings die Interpretation der Parameter. Insgesamt betrachtet man den linearen Prädiktor η = β0 + AlterβA1 + Alter2 βA2 + Alter3 βA3 + Alter4 βA4 + AusbβAS1 + Ausb2 βAS2 + xD βD + xG(2) βG(2) + · · · + xG(6) βG(6) , wobei xD
9 1 = 0
wenn D = 2 sonst
und xG(j) entsprechend der oben dargestellten Dummy-Kodierung definiert ist. Als Referenzkategorie für das Merkmal Staatsangehörigkeit dient „deutsch“. Die Parameterschätzungen finden sich in Tabelle 1. Man sieht, dass die polynomialen Terme für die Variable Alter hochsignifikant und damit nicht vernachlässigbar sind. Eine einfache lineare Spezifikation wäre daher den Daten nicht gerecht geworden. Für die Variable Ausbildungsjahre sind die einzelnen Parameter nichtsignifikant. Ob sich die gesamte Variable vernachlässigen lässt, erfordert allerdings einen Test auf Signifikanz für beide Parameter zusammen. Dieser wird im Rahmen der Devianzanalyse später durchgeführt. Für die Staatsangehörigkeit lässt sich keine signifikante Wirkung nachweisen, was durch den kleinen Anteil an Ausländerinnen in der Stichprobe zurückzuführen sein kann (nur 33 Ausländerinnen unter 1703 einbezogenen Frauen). Zur Verdeutlichung der Interpretation in loglinearen Modellen wird der geschätzte Wert von 0,127 trotzdem kurz interpretiert. Der positive Wert verweist darauf, dass Ausländer tendenziell
Gerhard Tutz
0.9 0.8 0.7
Kinderanzahl
0.4
0.5
0.5
0.6
2.5 2.0 1.5 1.0
Kinderanzahl
3.0
1.0
3.5
1.1
900
20
40
60
80
5
10
Alter
15
20
Bildungsjahre
0.5 0.0 0.5 1.0 1.5
c (Kinderanzahl)
2.5
2.0
0.5 1.0 1.5 2.0 2.5
c (Kinderanzahl)
0.0
0.5
(a) Modell mit polynomialen Termen
20
40
60
80
5
Alter
10
15
20
Bildungsjahre
(b) Additives Modell
Abb. 1: Kinderzahl in Abhängigkeit von Alter und Ausbildungsjahren mit polynomialen Termen mehr Kinder haben als Deutsche. Der Koeffizientenwert 0,127 selbst repräsentiert die (mittlere) Erhöhung des logarithmierten Erwartungswertes der Kinderzahl bei Ausländern. Da ein loglineares Modell verwendet wird, lässt sich wieder der transformierte Koeffizientenvektor e0.127 = 1,135 bestimmen. Im Mittel wäre damit (unter Berücksichtigung der übrigen einbezogenen Merkmale) eine Erhöhung um den Faktor = 1,135 bei Ausländern im Verhältnis zu Deutschen zu erwarten. Bei der Einstellung zu Gott sind inbesondere die Kategorien 3 und 4 durch kleine p-Werte auffällig. Die zu erwartende Anzahl Kinder von Frauen, die diese Ausprägungen wählen, scheinen sich zu unterscheiden von Frauen, die Kategorie 1 wählen. Für Kategorie 3 ergibt sich mit e−0,1454 = 0,865 eine zu erwartende Reduktion der Kinder-
33 Regression für Zählvariablen
901
Tab. 2: Devianztabelle Poissonmodell
Alle Effekte Alter Schuljahre Deutscher Gott
FG
Devianzdiff
FG
Devianz
4 2 1 5
236,3 29,3 0,8 6,4
1690 1694 1692 1691 1695
1670,1 1906,4 1699,4 1670,9 1676,5
zahl um den Faktor 0,865 für Frauen die Kategorie 3 gewählt haben im Verhältnis zu Frauen, die Kategorie 1 (stimme voll zu) gewählt haben. Polynomiale Terme haben den Nachteil, dass man die Wirkungsweise kaum unmittelbar an den Koeffizienten ablesen kann. Es empfiehlt sich daher in solchen Fällen, den Gesamteffekt der Variablen darzustellen. In Abbildung 1 a sieht man den geschätzten Effekt von Alter und Ausbildungsjahren für fest gewählte Subpopulationen. Man sieht, dass für Frauen zwischen 20 und 40 Jahren die Anzahl der zu erwartenden Kinder zunimmt, für Frauen höheren Alters bleibt die zu erwartende Kinderzahl relativ stabil. Die Modellierung eines schlichten linearen Effekts wäre hier den Daten in keinster Art und Weise gerecht geworden. Die Dauer der Schulbildung hingegen zeigt einen eindeutig fallenden Effekt, mit zunehmender Anzahl der Schuljahre wird die Anzahl zu erwartender Kinder kleiner. Der geschätzte Effekt ist nahezu linear. Dahinter steht wohl der beklagenswerte Effekt, dass Frauen mit besserer Ausbildung tendenziell weniger Kinder haben. Um die flexible Modellierung mit additiven Effekten zu veranschaulichen (die ansonsten hier nicht weiter behandelt wird), werden in Abbildung 1 b die entsprechenden Schätzungen wiedergegeben. Man sieht in dieser Darstellung deutlicher, dass jenseits der vierzig Jahre ein Plateau vorliegt. Bei der Anpassung polynomialer Terme tritt nach 40 Jahren eine leichte Absenkung auf, die durch die restriktive polynomiale Struktur bedingt sein dürfte. Die beiden Abbildungen lassen sich nicht hinsichtlich ihrer Skala vergleichen, da die Effekte in Abbildung 1 b um Null zentriert sind. Das ist notwendig, da die Funktionen selbst nicht spezifiziert sind und daher eine Identifizierbarkeitsbedingung (Zentrieren um Null) notwendig ist, um die unbekannte Funktion vom konstanten Term zu separieren. Die Relevanz der einzelnen Einflussgrößen lässt sich mit Hilfe einer Devianzanalyse untersuchen. In Tabelle 2 ist als erstes die Devianz des Modells mit allen betrachteten Einflussgrößen gegeben. In den folgenden Zeilen sind jeweils die Freiheitsgrade und die Differenz der Devianzen zu diesem vollen Modell gegeben, sowie die Freiheitsgrade und die Devianz der um diesen Effekt reduzierten Modelle. Die Differenz der Devianzen entspricht einem Likelihood-Quotienten-Test und dient damit dazu die Signifikanz des jeweils betrachteten Merkmals zu bestimmen. Man sieht unmittelbar, dass die Reduktion des Modells um eine Einflussgröße für die Merkmale Alter und Ausbildungsjahre zu einem signifikanten Unterschied führt – die entsprechenden Effekte sind nicht vernachlässigbar. Obwohl sich die Einzeleffekte des Merkmals Ausbildungsjahre als nicht signifikant erwiesen haben, ist damit der Gesamteffekt des Merkmals nicht ver-
902
Gerhard Tutz
Tab. 3: Parameterschätzung für loglineares Quasi-Poissonmodell Schätzer Konstante Alter Alter2 Alter3 Alter4 Ausb Ausb2 xD Gott2 Gott3 Gott4 Gott5 Gott6
−12,0586 0,9519 −0,0253 0,0003 −0,0000 0,0013 −0,0020 0,0872 −0,0885 −0,1454 −0,1306 −0,0418 −0,0919
Std. Fehler 1,3799 0,1154 0,0035 0,0000 0,0000 0,0516 0,0021 0,1340 0,0551 0,0631 0,0659 0,0622 0,0700
t-Wert −8,74 8,25 −7,16 6,28 −5,57 0,02 −0,95 0,65 −1,60 −2,31 −1,98 −0,67 −1,31
Pr(>|t| ) 0,0000 0,0000 0,0000 0,0000 0,0000 0,9805 0,3415 0,5154 0,1088 0,0213 0,0475 0,5013 0,1894
nachlässigbar. Die Reduktion um den Nationalitätseffekt (0,8 bei einem Freiheitsgrad) bzw. die Einstellung zu Gott (6,4 bei 5 Freiheitsgraden) führt zu keiner signifikanten Veränderung der Modellanpassung. Die Effekte erweisen sich damit als nichtsignifikant. Die Anpassung eines Quasi-Poissonmodells führt zu den Schätzungen in Tabelle 3. Dem Schätzverfahren entsprechend sind die Schätzungen mit den Maximum LikelihoodSchätzungen in Tabelle 1 identisch. Was sich verändert sind die Standardfehler und damit die Signifikanzen. In diesem Anwendungsfall erhält man den eher selteneren Fall einer Unterdispersion. Mit einem geschätzten Dispersionsparameter von φˆ = 0,853 sind die Standardfehler kleiner als die des Poissonmodells. Damit verschärfen sich die Signifikanzen etwas, was aber zu keiner anderen Bewertung der Einflussgrößen führt. Die in den Daten vorgefundene Unterdispersion hat auch Auswirkungen auf die Anpassung des flexibleren Modells der negativen Binomialverteilung. Die durch die 2 Varianzfunktion var(Yi ) = μi + μi/ν mögliche Anpassung der Varianz durch den zweiten Parameter ν ist nicht notwendig, da die Varianz tendenziell ja sogar kleiner als μi ist. Die Anpassung des Modells liefert daher auch als bestes Modell die Poissonregression.
4 Häufige Fehler Ein prinzipielles Problem jeder Regressionsmodellierung ist, dass Effekte nicht marginal zu interpretieren sind. Die Interpretation muß immer enthalten, welche anderen Effekte berücksichtigt sind. Das wird in dem betrachteten Beispiel deutlich: Universitätsabschluß allein (marginal) betrachtet hat einen negativen Effekt, wenn die anderen Kovariablen einbezogen werden, ist der Effekt positiv. Bei Zählvariablen ist ein Problem, dass häufig ein einfaches lineares Regressionsmodell nach dem Kleinste-Quadrate-Prinzip angepaßt wird. Das führt zu artifiziellen Aussagen, da implizit immer eine Normalverteilung unterstellt wird. Insbesondere
33 Regression für Zählvariablen
903
dann wenn die Zählvariable nur wenige Ausprägungen annimmt ist die Normalverteilungsannahme unangebracht mit der Konsequenz, dass die resultierenden Schätzungen nicht reliabel sind. Hinzukommt, dass das einfache lineare Modell ohne Transformationsfunktion die möglichen Ausprägungen der abhängigen Variable, die nie negative Werte annehmen kann, nicht berücksichtigt. Bei der Anwendung des adäquateren loglinearen Poissonregressionsmodells sollte man immer die potentielle Dispersionsabweichung berücksichtigen. Bei starker Überdispersion werden mit dem einfachen Poissonmodell Effekte für signifikant gehalten, die es tatsächlich nicht sind. Das negative Binomialmodell stellt eine Alternative dar, die allerdings nur Überdispersion modellieren kann. In den meisten Anwendungen ist allerdings von Überdispersion auszugehen, Unterdispersion ist der Ausnahmefall.
5 Literaturempfehlungen In diesem kurzen Abriss werden naturgemäß nur elementare Regressionstechniken für Zählvariablen dargestellt. Es finden sich in der Literatur alternative und flexiblere Ansätze. Die Überdispersion kann beispielsweise auch dadurch bedingt sein, dass mehr Nullen auftreten als von der Poissonverteilung oder der negativen Binomial-Verteilung vorgesehen. Man spricht dann von zero-inflated responses. Wie kurz angesprochen, lässt sich auch der Prädiktor flexibler gestalten, wenn man die Einflussgrößen als additiv aber nicht notwendigerweise linear annimmt. Im Folgenden wird kurz weiterführende Literatur angegeben, die derartige Ansätze behandelt. Eine ausgesprochen ausführliche Darstellung von Regressionsansätzen für Zählvariablen finden sich in Cameron & Trivedi (1998) und Winkelmann (1997). Beide Bücher betrachten die Modellierung im Hinblick auf ökonometrische Anwendungen. Generellere Darstellungen von Zählvariablen als kategoriale Daten finden sich in Tutz (2000). Eine ausführliche Einführung in die Modellierung mit generalisierten Modellen und weiterführende Modellansätze ist das Buch von Fahrmeir & Tutz (2000). Dort werden auch Meßwiederholungen und das generellere additive Modell eingeführt. Eine kurze aber konzise Anwendungsanleitung zur Umsetzung von parametrischen Regressionsmodellen für Zählvariablen mit R geben Zeileis et al. (2008). Eine ausführlichere Darstellung zur Verwendung des Programmsystems R geben Kleiber & Zeileis (2008). Alternativ lassen sich natürlich auch andere Programmpakete sinnvoll einsetzen, eine Beschreibung der Handhabung von Stata findet sich bei Long & Freese (2006).
Literaturverzeichnis Cameron, A. C. & Trivedi, P. K. (1998). Regression Analysis of Count Data, Band 30 von Econometric Society Monographs. Cambridge: Cambridge University Press. Fahrmeir, L. & Tutz, G. (2000). Multivariate Statistical Modelling Based on Generalized Linear Models. New York: Springer-Verlag. Kleiber, C. & Zeileis, A. (2008). Applied Econometrics with R. Heidelberg: Springer Verlag.
904
Gerhard Tutz
Long, J. S. & Freese, J. (2006). Regression Models for Categorical Dependent Variables Using Stata. College Station: Stata Press. Tutz, G. (2000). Die Analyse kategorialer Daten - eine anwendungsorientierte Einführung in Logit-Modellierung und kategoriale Regression. München: Oldenbourg Verlag. Winkelmann, R. (1997). Count Data Models: Econometric Theory and Application to Labor Mobility. Berlin: Springer-Verlag, 2. Auflage. Zeileis, A., Kleiber, C., & Jackman, S. (2008). Regression Models for Count Data in R. Journal of Statistical Software, 27, Issue 8.
34 Graphische Darstellung regressionsanalytischer Ergebnisse Gerrit Bauer Universität Mannheim
Zusammenfassung. In der multivariaten Datenanalyse kommt der graphischen Darstellung der mit Regressionsmodellen untersuchten Zusammenhänge eine sehr große Bedeutung zu, weil Abbildungen einen schnelleren Zugang zu den Ergebnissen ermöglichen, sich auf wesentliche Aspekte der Analysen konzentrieren und so das Erkennen von Mustern in den Daten erleichtern. Es werden daher zunächst einige graphische Grundlagen und Regeln benannt, die das Erstellen effektiver und effizienter Abbildungen ermöglichen. An konkreten Beispielen aus dem Bereich der Status- und Bildungsvererbung werden dann mehrdimensionale Datenstrukturen untersucht: Zunächst mit einfachen nicht-parametrischen Verfahren, dann mit multipler linearer, logistischer und multinomialer logistischer Regression. Die hier vorgestellten Abbildungstypen visualisieren dabei entweder die Regressionskoeffizienten samt ihrer Konfidenzintervalle, was anhand von Dot-Plots, Odds Ratio-Plots und Discrete-Change-Plots verdeutlicht wird, oder sie visualisieren vorhergesagte Werte. Zu letzteren zählt mit dem Conditional-Effect-Plot ein besonders wichtiger Abbildungstyp, der die Interpretation von regressionsanalytischen Ergebnissen deutlich vereinfachen und Fehlern in der Deutung im Idealfall vorbeugen kann. Dabei werden vorhergesagte Werte oder Wahrscheinlichkeiten (und ihre Konfidenzintervalle) für ausgewählte Ausprägungen und Kombinationen der unabhängigen Variablen in einem Koordinatensystem abgetragen.
1 Einführung in das Verfahren Graphische Darstellungen sind seit langer Zeit eine häufig genutzte Methode: Zum einen werden mittels visueller Verfahren statistische Daten analysiert und zum anderen statistische Analyseergebnisse anschaulich dargestellt. Aufgrund dieser beiden recht unterschiedlichen Verwendungsarten wird mitunter zutreffend zwischen „Datenanalysegraphik“ und „Präsentationsgraphik“ unterschieden (vgl. z. B. Schnell 1994). Graphische Darstellungen sind damit einerseits eine (alternative) Möglichkeit, Häufigkeitsverteilungen, Zusammenhänge zwischen Variablen oder Veränderungen von Merkmalen im Zeitverlauf zu untersuchen. Zusätzlich werden graphische Verfahren herangezogen, um Annahmen statistischer Modelle zu testen. Je nach Art der zu prüfenden Annahme werden in der Regressionsdiagnostik daher ganz unterschiedliche graphische Verfahren genutzt, um deren Annahmeverletzungen aufzudecken beziehungsweise auszuschließen. Die graphische Darstellung ist dann ein Ersatz oder eine Alternative, zumindest aber eine Ergänzung, zu formalen statistischen Tests. Andererseits lassen sich auch Ergebnisse statistischer Modelle visualisieren, wobei diese Darstellungen dann im Idealfall dazu dienen, komplexe Modelle und die daraus S. 905–927 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_34, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
906
Gerrit Bauer
gewonnenen Erkenntnisse anschaulich darzustellen. Wenngleich sich dieses Kapitel vornehmlich mit Präsentationsgraphik, nämlich der Darstellung regressionsanalytischer Ergebnisse, beschäftigen wird, zeigt sich, dass die Unterteilung in Datenanalyse- und Präsentationsgraphik eher fließend ist. Die graphische Darstellung von Ergebnissen erweist sich gerade dann als zweckmäßig, wenn durch die Komplexität des zugrunde liegenden statistischen Modells die direkte Interpretation der Ergebnisse erschwert wird. Richtig eingesetzt können graphische Darstellungen in solchen Fällen dazu beitragen, Fehler bei der Interpretation zu vermeiden. Speziell bei der Anwendung nicht-linearer Analyseverfahren sind graphische Aufbereitungen der Ergebnisse daher eine sinnvolle Ergänzung zu den üblichen Regressionstabellen, weil die nicht-linearen Wirkungsbeziehungen anhand der Koeffizienten oft schwer vorstellbar sind. Unpräzise oder gar falsche Interpretationen – sowohl des Autors selbst als auch des Lesers – sind mitunter die Folge. Werden die Modellschätzungen jedoch entsprechend visualisiert und die Information somit aufbereitet, wird dadurch die (richtige) Interpretation erleichtert. Im Folgenden soll zunächst auf einige Grundlagen der graphischen Darstellung eingegangen werden. Hierbei soll erklärt werden, welche statistischen Größen dargestellt werden können und welche Grundprinzipien zu beachten sind. Daran anschließend wird am Beispiel von Status-Vererbungs-Modellen gezeigt, wie sich beobachtete Daten, geschätzte Koeffizienten, Fehler und inferenzstatistische Einheiten in unterschiedlichen Diagrammen darstellen lassen. Diese Beispiele beginnen mit einfachen nichtparametrischen Verfahren und Smoothern, bevor insbesondere auf die Darstellung linearer und logistischer Regressionen sowie multinomialer logistischer Regressionsmodelle eingegangen wird.
2 Grundlagen der graphischen Darstellung Statistische Informationsgraphik hat zum Ziel, durch eine Kombination von Punkten, Linien, Zahlen, Symbolen, Worten, Schattierungen, Farben und gegebenenfalls eines Koordinatensystems gemessene Größen darzustellen. Eine Vielzahl der heute gebräuchlichen Darstellungsformen wurde dabei vor rund 200 Jahren von dem britischen Wirtschaftswissenschaftler William Playfair (1759–1823) entwickelt. Playfair stellte die sonst in Tabellen zusammengefasste Information beispielsweise in Form von Balkenoder Kreisdiagrammen dar, wodurch es dem Leser ermöglicht wurde, die relevanten Ergebnisse schnell zu erfassen. Auch die ersten Zeit-Verlaufsdiagramme werden Playfair zugeschrieben (vgl. Wainer 2000, 2005 für eine ausführliche Darstellung historischer Entwicklungen). Die graphische Veranschaulichung von Regressionsergebnissen nutzt diese teils alten Formen der Darstellung, um die relevanten Kennziffern der statistischen Modelle zu visualisieren. Ein Großteil der im Kapitel 5 in diesem Handbuch behandelten Diagramm-Typen ist daher prinzipiell auch dazu geeignet, regressionsanalytische Ergebnisse abzubilden. Beziehen sich die Darstellungen auf Regressionsergebnisse und nicht auf einzelne, beobachtete Datenpunkte, so verändert sich weniger die Form der Darstellung als vielmehr ihr Inhalt. Während statistische Diagramme in ihrer
34 Graphische Darstellung regressionsanalytischer Ergebnisse
907
klassischen Anwendung dazu genutzt wurden, beobachtete Werte (an Stelle von Häufigkeitstabellen) in Form von Balkendiagrammen oder Histogrammen zu präsentieren, werden in regressionsanalytischen Abbildungen keinesfalls nur beobachtete Werte berücksichtigt. In Regressionsmodellen existieren neben den beobachteten Werten, auf deren Grundlage die Modelle geschätzt werden, zusätzlich vorhergesagte Werte, Fehler (die Abweichungen zwischen geschätztem und beobachtetem Wert) und natürlich die Koeffizienten, die die Verbindung zwischen beobachteten und vorhergesagten Werten herstellen. Werden Regressionsmodelle auf der Grundlage von Stichproben berechnet, so kommen noch inferenzstatistische Größen wie Standardfehler, Konfidenzintervalle der Schätzer sowie Konfidenzintervalle der prognostizierten Werte hinzu. Auch diese inferenzstatistischen Größen sind visualisierbar. Dabei soll betont werden, dass eine graphische Abbildung, und somit auch eine regressionsanalytische Darstellung, meist kein Ersatz für eine Tabelle beziehungsweise eine numerische Darstellung der Daten sein kann, sondern dem Leser als Hilfestellung und für mögliche Schlussfolgerungen zusätzlich dargeboten wird. Nur besonders relevante Ergebnisse werden visualisiert, wodurch die Erkenntnisse über bestimmte multivariate Zusammenhänge erleichtert oder präzisiert werden. Gut gestaltete Graphiken sind nämlich mitunter die einfachste und zugleich wirkungsvollste Möglichkeit zur Analyse und Kommunikation statistischer Information (Tufte 2001). Dazu bedarf es effektiver und zugleich effizienter Darstellungsformen, die das Augenmerk des Lesers weniger auf die Darstellung selbst als auf die für die Forschungsfrage relevante Information ziehen. Solche Darstellungen zeichnen sich durch Klarheit und Genauigkeit, Anschaulichkeit sowie durch die Einprägsamkeit der Information aus (Miller 2005). Um diese Kriterien zu erfüllen, ist es unabhängig von der konkreten Abbildungsart hilfreich, einige grundlegende Regeln zur Gestaltung von Diagrammen zu beachten. Nur dann ist sichergestellt, dass diese das Verständnis von Mustern in den Daten fördern und auf die geschriebene Darstellung abgestimmt sind. Ganz generell lässt sich festhalten, dass eine informative Abbildung für sich allein genommen verständlich sein sollte, d.h. dass Text und Tabellen nicht hinzugezogen werden müssen, um die graphische Abbildung zu verstehen. Aus der Anforderung, dass die Graphik selbst Kontextinformation enthalten muss, folgt, dass graphische Abbildungen sinnvoll beschriftet werden müssen. Schließlich lassen sich schon aus Titel und Labels (z. B. von Gruppierungs-Variablen, Beschriftungen von Datenpunkten, Kategorien) erste Rückschlüsse auf die verwendeten Daten und deren Format ziehen. Ebenso lässt sich durch einen gut gewählten Titel auf die Forschungsfrage oder zumindest auf einen ihrer Teilaspekte schließen. Werden, beispielsweise in der Darstellung regressionsanalytischer Ergebnisse, aber auch in anderen Plots der multivariaten Datenanalyse, Zusammenhänge zwischen Variablen dargestellt, haben Abbildungen in der Regel mehrere Achsen. Meist werden in der vertikalen Dimension die Ausprägungen der abhängigen Variable (y) abgetragen, die Werte der unabhängigen Variablen (x) werden in der Regel in der Horizontalen notiert. Um eine Abbildung informativ zu gestalten, sollten die Achsen so beschriftet sein, dass der Leser sowohl den Inhalt als auch die Einheiten der Messung deutlich erkennen kann. Aus der Beschriftung der Achsen sollte auch hervorgehen, in welchen Einheiten die abgetragene Variable gemessen wurde. Handelt es sich um eine diskrete Variable,
908
Gerrit Bauer
sollten die Kategorien eindeutig beschriftet sein. Ist die Variable hingegen stetig, muss entschieden werden, in wie viele Abschnitte die Achse durch numerische Werte unterteilt werden soll. Hier haben sich fünf bis zehn Werte pro Achse als sinnvoll erwiesen. Das Beschriften einzelner Datenpunkte, z. B. die Angabe des genauen Zahlenwerts für eine Beobachtung, ist für das Erkennen von Zusammenhängen in aller Regel nicht hilfreich und sollte nur in Ausnahmefällen und dann sparsam erfolgen (vgl. Miller 2005). Auch wenn innerhalb der Graphik nur begrenzter Raum zur Verfügung steht, sollten Abkürzungen doch vermieden werden oder zumindest neben- oder untenstehend erklärt werden. Außer dem Titel, den beschrifteten Achsen und den Labels einzelner Datenpunkte umfassen Abbildungen häufig noch eine Legende. Sind Kategorien an anderer Stelle noch nicht beschriftet, ist eine Legende unumgänglich. Bei der Gestaltung wissenschaftlicher Abbildungen ist nach Tufte (2001) zusätzlich darauf zu achten, dass die von ihm sogenannte „graphische Integrität“, also die Eindeutigkeit und Korrektheit der Darstellung, gewahrt bleibt. Mitunter wird eingewandt, Abbildungen seien eine reine Dekoration von Zahlen und würden dazu herangezogen, um Ergebnisse in gewünschter Weise zu verzerren. Dieser Kritik lässt sich entnehmen, dass Darstellungsformen, die die in den Daten vorgefundenen Zusammenhänge falsch oder unzureichend darstellen, vermieden werden sollten. Informationsgraphiken müssen daher eindeutig sein, was sich durch die oben genannten Beschriftungen sicherstellen lässt. Bei der graphischen Darstellung von Größen ist zwingend auf die Wahrung direkter Proportionalität zwischen der gemessenen Größe und der graphisch dargestellten Größe (z. B. der Fläche einer Kategorie in einem Histogramm) zu achten. Zudem sollte eine Abbildung die Variation der Daten ausdrücken. Die pure Variation gestalterischer Elemente ist dahingegen kein informationsgraphisches, sondern vielmehr ein rein künstlerisches Ziel, das der Präzision einer wissenschaftlichen Abbildung nicht förderlich ist. Schließlich wird die „graphische Integrität“ dadurch gefährdet, dass numerische Information in mehr Dimensionen dargestellt wird, als sie gemessen wurde. Das bedeutet nicht, dass sich nicht beispielsweise in einem Balkendiagramm die Häufigkeitsverteilungen mehrerer Variablen (nebeneinander) darstellen ließen. Doch dreidimensionale Balken- oder Kreisdiagramme für simple Häufigkeitsdarstellungen sind ein Beispiel dafür, wie überflüssige Zusatzinformation (hier: eine dritte nicht existierende Dimension) von der interessierenden Information ablenkt und somit die Wahrnehmung der eigentlichen Häufigkeitsverteilung verzerrt. Eine Abbildung sollte also niemals mehr Dimensionen darstellen als Information in den Variablen enthalten ist. In der multivariaten (Regressions-) Analyse existiert aber tatsächliche Mehrdimensionalität, die allerdings aus ähnlichen Gründen kaum zu visualisieren ist: Da es unmöglich ist, n-dimensionale Räume graphisch darzustellen, müssen die Zusammenhänge zweidimensional – auf der Horizontalen und der Vertikalen des Papiers – veranschaulicht werden (vgl. Jacoby 1998 für eine ausführlichere Besprechung). Auch das Zeichnen einer dritten Dimension, das manche Statistikprogramme mittlerweile ermöglichen, ist demnach ein Kompromiss. Animierte Graphiken in digitalen Publikationen und Präsentationen könnten hier jedoch in Zukunft an Bedeutung gewinnen, denn durch die Betrachtung der Abbildung aus mehreren Winkeln mit Hilfe von Rotation ist es bei Mehrdimensionalität möglich, die Zusammenhänge zwischen drei Variablen zuverlässig
34 Graphische Darstellung regressionsanalytischer Ergebnisse
909
optisch zu erkennen. Die im nächsten Abschnitt vorgestellten Plots beschränken sich stets auf zwei Dimensionen, auch wenn in den Regressionsmodellen Effekte von weiteren Variablen geschätzt werden. Durch die Kombination von Dimensionen (z. B. einer Streudiagramm-Matrix) oder durch die Konstanthaltung mehrerer Variablen (Plots vorhergesagter Werte / Wahrscheinlichkeiten) lassen sich auch im zweidimensionalen Raum mehrdimensionale Zusammenhänge untersuchen und graphisch darstellen.
3 Beispiele Die im Folgenden vorgestellten Abbildungen werden alle mit den Daten der kumulierten Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) der Erhebungsjahre 1980 bis 2006 erstellt. Den Diagrammen und Regressionsmodellen liegt eine selektive Stichprobe zu Grunde, da in den Analysen stets nur die Daten westdeutscher Befragter verwendet werden. Zum Teil findet zusätzlich eine Beschränkung auf bestimmte Kohorten statt. Da sämtliche Modelle mit realen Umfragedaten geschätzt werden, fallen manche Effekte etwas schwächer aus, als dies für eine graphische Analyse wünschenswert wäre. Während in den meisten Lehrbüchern zu graphischen Datenanalyseverfahren in solchen Fällen artifizielle Daten herzangezogen werden, um eindrucksvollere Beispiele anführen zu können, wird hier auf ein solches Vorgehen bewusst verzichtet. Die den Abbildungen zu Grunde liegende Forschungsfrage setzt sich mit Effekten der Statusvererbung auseinander: Haben Bildung und Berufsprestige des Vaters einen Einfluss auf den Bildungsabschluss und das Berufsprestige des Befragten? Unterscheiden sich Effekte der Statusvererbung des Vaters auf den Sohn (männlichen Befragte) von Statusvererbungsprozessen auf die Tochter (weibliche Befragte)? Und schließlich: Haben sich die Effekte der Statusvererbung im Zeitverlauf verändert? Um sowohl lineare als auch logistische Regressionsmodelle visualisieren zu können, wird als abhängige Variable sowohl das Treiman-Prestige des Befragten als auch dessen Bildungsabschluss untersucht. 3.1 Streudiagramm- bzw. Scatterplot-Matrix Bevor die Zusammenhänge regressionsanalytisch dargestellt werden, soll eine Streudiagramm-Matrix Aufschluss über Zusammenhänge in den Daten geben. Die in Abbildung 1 zu einer Matrix kombinierten Streudiagramme (Scatter-Plots), erlauben visuell die mehrdimensionale Analyse von Zusammenhängen zwischen metrischen und (mit gewissen Einschränkungen) kategorialen Variablen. Stellt man sich die Ausprägungen der drei ersten Variablen, Treiman-Prestige, höchster Bildungsabschluss (rekodiert zur Bildungsklassifikation CASMIN) und derzeitige sozioökonomische Position (nach der European Socioecenomic Classification, ESeC, vgl. Wirth & Fischer 2008 für die Generierung des Maßes im vorliegenden Datensatz) als eine dreidimensionale Punktewolke innerhalb eines Würfels vor, so ermöglicht eine Scatterplot-Matrix einen Blick auf sämtliche Seiten dieses Würfels. Anhand der linken oberen Punktewolke lässt sich ein positiver Zusammenhang zwischen dem Prestige
910
Gerrit Bauer
Treiman Prestige 8 6 4 2
CASMIN
8 6 4 2
European ESeC
70
Alter
50 30 80
Treiman Prestige des Vaters
60 40 20 20
40
60
80 2
4
6
8
2
4
6
8
30
50
70
Abb. 1: Streudiagramm-Matrix zur Übersicht über ausgewählte Zusammenhänge (Quelle: ALLBUS 1980–2006, 200 zufällig ausgewählte Datenpunkte) und Bildung (CASMIN) (höher Prestigewert: höhere Bildung) des Befragten erkennen, während ein hohes Prestige mit einer numerisch niedrigen Klasse anhand des ESeC-Schemas einhergeht (das zweite Streudiagramm von oben, links, zeigt diesen negativen Zusammenhang). Schließlich ermöglicht die Streudiagramm-Matrix einen Blick auf die dritte Seite des Würfels und damit die Analyse des Zusammenhangs zwischen Bildung und sozioökonomischer Position. Mit einer niedrigeren (und damit günstigeren) Klassenposition geht tendenziell eine höhere Bildung einher. Durch die Hinzunahme weiterer Variablen lässt sich die Streudiagramm-Matrix schnell um weitere Dimensionen erweitern; hier werden noch das Alter des Befragten sowie das Berufsprestige des Vaters ergänzt. Auch bei größerer Variablenanzahl bleibt eine Streudiagramm-Matrix vergleichsweise übersichtlich und einfach zu lesen. Bewegt man sich innerhalb einer Zeile oder innerhalb einer Spalte, so ist immer die Verteilung der anderen Variablen zu erkennen. Beispielsweise lässt sich in der Spalte der Beobachtungen mit dem Prestigewert von mehr als 70 stets erkennen, welche Werte diese wenigen Beobachtungen auf den anderen vier Variablen haben. Bei der Interpretation der Scatterplotmatrix ist das Skalenniveau der einzelnen Variablen zu berücksichtigen. Für metrische Variablen ergeben sich keinerlei Probleme, nach Abtragung der Werte in ein kartesisches Koordinatensystem können die Beziehungen in Form einer euklidischen Distanzmatrix interpretiert werden. Für ordinale Merkmale (hier: CASMIN und ESeC) ist eine solche Interpretation hingegen nicht zulässig. Es kann sich aber dennoch als sinnvoll erweisen, solchen Variablen in die Abbildung aufzunehmen. In Abbildung 1 lässt sich durch eine reine Betrachtung der Spalten entnehmen, wie sich Bildungs- und sozioökonomische Kategorien in Bezug auf Alter und Prestige zusammensetzen.
34 Graphische Darstellung regressionsanalytischer Ergebnisse
911
Der Abbildungstyp einer Streudiagramm-Matrix ist im Grunde eine graphische Erweiterung einer empirischen Korrelationsmatrix (Nagel et al. 1996). Gegenüber einer einfachen Korrelationsmatrix hat die Streudiagramm-Matrix aber einen entscheidenden Vorteil: Als Abbildungsform ermöglicht sie es, Rückschlüsse auf die gleichzeitige Verteilung eines Merkmals über mehrere andere Merkmale ziehen zu können. Dies erleichtert die Identifizierung „mehrdimensionaler Ausreißer“, also von Datenpunkten, die auf mehreren Variablen gleichzeitig ungewöhnliche Kombinationen aufweisen. Beispielsweise wäre es möglich, eine einzelne Beobachtung zu markieren, um im konkreten Fall ein außergewöhnlich geringes Berufsprestige bei hoher Bildung etwa durch eine bestimmte Klassenposition, ein niedriges Alter oder ein niedriges Berufsprestige des Vaters zu erklären (vgl. Cook & Weisberg 1994 für eine Darstellung der Verwendungsmöglichkeiten von Streudiagrammen in der Regressionsdiagnostik). 3.2 Median- und Mean-Regression Im Folgenden soll zunächst der Zusammenhang zwischen dem Prestige des Befragten und dem seines Vaters näher untersucht werden. Das untere, linke Element der Streudiagramm-Matrix der Abbildung 1 hat bereits auf eine positive Korrelation hingedeutet. In Abbildung 2 wird dieser Zusammenhang mit einer Median- und einer Mean-Regression visualisiert. Die Grundidee hinter diesem Verfahren ist die Berechnung eines konditionalen Mittelwerts: Welche mittlere Ausprägung hat das Prestige des Befragten (abhängige Variable) bei einer gegebenen Ausprägung des Prestige des Vaters (unabhängige Variable). Berechnet man über jeden Prestigepunkt der Väter das durchschnittliche Prestige der Befragten und verbindet diese Werte mit einer Linie, so ergibt sich das in Abbildung 2 hellgrau dargestellte zackige Muster (Linie: Mittelwerte ohne Gruppierung). Offenbar fließen teilweise so wenige Werte in die Berechnung des konditionalen Mittelwerts ein, dass es zu starken Schwankungen des Maßes kommt. Median- und Mean-Regression werden daher fast immer auf der Grundlage gruppierter Daten berechnet. In diesem Beispiel wurde zunächst die Variable „Treiman-Prestige des Vaters“ in 15 Intervalle gleicher Breite unterteilt, bevor über alle Werte innerhalb dieser Intervalle aus der Variable „Treiman-Prestige des Befragten“ das arithmetische Mittel und der gegenüber Ausreißern robustere Median berechnet wurden. Gegenüber der hellgrauen Kurve hat sich durch die Gruppierung der Daten eine deutliche Glättung ergeben, die den (ungefähren) Zusammenhang aber deutlicher hervorhebt. Die sich aus den gruppierten Mittelwerten ergebenden Kurven weisen beide auf einen positiven Zusammenhang zwischen dem Prestige des Vaters und dem des Befragten hin. Median- und Mean-Regression sind somit einfache Verfahren, die die optische Analyse von Zusammenhängen zwischen zwei Variablen ermöglichen. Gegenüber einem parametrisierten Regressionsmodell haben diese auf konditionalen Mittelwerten beruhenden Verfahren aber den Nachteil, keine Koeffizienten zu liefern, mit denen sich die Stärke des Zusammenhangs ausdrücken lässt. Ein Urteil über den Zusammenhang ist ausschließlich dem Auge des Betrachters überlassen. Dennoch werden Median- oder Mean-Regression ebenso wie andere nicht-parametrische, glättende Verfahren (sogenannte Smoother), aus regressionsdiagnostischen Gründen immer wieder dargestellt
Gerrit Bauer
912
! !"#$$#
Abb. 2: Zusammenhangsanalyse mit Median- und einer Mean-Regression (ALLBUS 1980–2006) (Schnell 1994; Kohler & Kreuter 2008). Aus der visuellen Bewertung des Zusammenhangs lässt sich abschätzen, ob von einem linearen Zusammenhang ausgegangen werden kann oder ob unter Umständen quadratische oder kubische Terme in das Schätzmodell aufgenommen werden sollten. 3.3 Lineare Regression: Graphische Darstellung der Koeffizienten In Abbildung 2 wird mit Hilfe der abgetragenen konditionalen Mittelwerte und Mediane ersichtlich, dass sich der Zusammenhang zwischen beiden Variablen recht gut über eine Gerade darstellen lassen sollte. Das unten in Tabelle 1 aufgeführte lineare Regressionsmodell (1) weist den beobachteten positiven Zusammenhang nun aus: Steigt das Prestige des Vaters um einen Punkt an, so erhöht sich das vorhergesagte Prestige des Befragten um rund 0,4 Punkte. Auch unter Hinzunahme einiger Kontrollvariablen (Geschlecht und Abitur des Befragten sowie Bildungsabschlüsse des Vaters als multiple Dummyvariable) bleibt dieser positive Zusammenhang bestehen (Modell 2 in Tabelle 1). Die zwei weiteren Modelle wurden getrennt für die Geburtskohorten 1901-1954 (Modell 3) und 1955-1985 (Modell 4) berechnet, um zu untersuchen, ob sich der Mechanismus der Statusvererbung im Kohortenverlauf gewandelt hat. Ein Dot-Plot, wie in Abbildung 3 auf Seite 914 dargestellt, ist eine Möglichkeit, um die geschätzten Regressionskoeffizienten zu visualisieren und um sie leichter miteinander vergleichen zu können. Da die Regressionsmodelle auf der Grundlage einer Stichprobe berechnet wurden, bietet es sich an, auch die Konfidenzgrenzen der Punktschätzer in die Abbildung aufzunehmen. Der Punktschätzer ist in Abbildung 3 durch einen Punkt
34 Graphische Darstellung regressionsanalytischer Ergebnisse
913
Tab. 1: Lineare Regressionsmodelle zur Statusvererbung (abhängige Variable: Treiman-Prestige des Befragten) Treiman-Prestige des Befragten Gesamtpopulation (1) Prestige des Vaters
(2) ∗∗∗
∗∗∗
0,38 [0,36;0,39]
Konstante
26,95∗∗∗ [26,20;27,70]
0,19 [0,17;0,21] 2,01∗∗∗ [1,70;2,44] 3,34∗∗∗ [2,44;4,24] 5,00∗∗∗ [3,94;6,06] 4,70∗∗∗ [3,56;5,83] 11,47∗∗∗ [10,99;11,95] 26,99∗∗∗ [24,87;28,11]
N R2
12382 0,12
12382 0,28
Geschlecht (Ref: Frau) Hauptschule Vater Realschule Vater Abitur Vater Abitur Befragte/r
Anmerkungen: † : p ≤ 0,1; ∗ : p ≤ 0,05;
∗∗
: p ≤ 0,01;
∗∗∗
Kohorte 1901-1954
Kohorte 1955-1985
(3)
(4) ∗∗∗
0,19 [0,17;0,22] 3,70∗∗∗ [3,20;4,20] 2,99∗∗∗ [1,73;4,24] 5,29∗∗∗ [3,75;6,83] 5,19∗∗∗ [3,52;6,79] 13,55∗∗∗ [12,80;14,30] 26,24∗∗∗ [24,70;27,79] 6385 0,34
0,18∗∗∗ [0,15;0,20] 0,16 [-0,38;0,70] 3,60∗∗∗ [2,33;4,87] 4,92∗∗∗ [3,46;6,38] 4,15∗∗∗ [2,56;5,73] 10,22∗∗∗ [9,59;10,85] 28,24∗∗∗ [26,63;29,84] 5997 0,24
: p ≤ 0,001, 95%-KI in Klammern.
abgebildet worden, die oberen und unteren Intervallgrenzen der Effekte jeweils durch das Symbol +. Die berechneten Konfidenzgrenzen geben an, dass das Intervall in 95 von 100 möglichen Stichproben den (unbekannten) Parameter der Grundgesamtheit beinhaltet. Üblicherweise wird getestet, ob sich der Effekt eines Merkmals auf einem bestimmten Signifikanzniveau von 0 unterscheidet. Dazu wird betrachtet, ob das Konfidenzintervall den Wert 0 überdeckt. Abbildung 3 ist somit zu entnehmen, dass sich in beiden Kohorten fast alle Effekte mit einer Irrtumswahrscheinlichkeit von 5 Prozent vom Wert 0 unterscheiden und auf entsprechendem Niveau signifikant sind. Lediglich das Konfidenzintervall des Geschlechtseffekts überlagert den Wert 0 in der jüngeren Kohorte. Interpretiert man nicht nur Signifikanzen, sondern auch Effektstärken, so sollte bedacht werden, ob es sich bei den dargestellten Koeffizienten um standardisierte oder nicht-standardisierte Effekte handelt. Da für Abbildung 3 exemplarisch nur Effekte dichotomer Variablen herangezogen wurden, stellte sich in diesem Beispiel dieses Problem nicht. Für Effekte metrischer Variablen hingegen gilt, dass für einen Vergleich zwischen Variablen innerhalb eines Modells stets standardisierte Koeffizienten berechnet und gezeichnet werden sollten. Geht es jedoch darum, die Effektstärke einer einzelnen Variable in unterschiedlichen Populationen (Kohorten, Erhebungszeitpunkte, geographische Regionen etc.) miteinander zu vergleichen, wären aufgrund der un-
914
Gerrit Bauer
# ## #
# !!
!
!!
Abb. 3: Dot-Plots der Regressionskoeffizienten dichotomer Variablen und ihrer 95 %-Konfidenzintervalle aus Tab. 1 (weitere Kontrollvariable: Prestige des Vaters) terschiedlichen Varianzen in den Subgruppen nicht-standardisierte Koeffizienten zu bevorzugen. Prinzipiell sind zur Darstellung von Regressionskoeffizienten noch weitere Diagramm-Typen denkbar. Sollen Effektstärken (von dichotomen oder standardisierten Variablen) verglichen werden, so werden mitunter Balkendiagramme genutzt, wobei das Vorzeichen des Effekts und die Effektstärke dann die Länge und Richtung des Balkens bestimmen. Ebenso werden Range-Plots verwendet, die üblicherweise durch einen Punkt den Mittelwert der Daten und durch einen Strich die Spannweite angeben. Übertragen auf Regressionsmodelle lassen sich so Punktschätzer und Konfidenzintervalle visualisieren. Das kann sehr nützlich sein, wenn z. B. einzelne (kontrollierte) Effekte für mehrere Erhebungsjahre oder unterschiedliche Subpopulationen gegenübergestellt werden. Den zuvor erwähnten Abbildungen ist gemeinsam, dass sie auf der Information der Regressionskoeffizienten aufbauen und diese systematisch (z. B. in einer zeitlichen Abfolge) darstellen. Selbstverständlich lassen sich diese Graphiken auch für nicht-lineare Regressionsmodelle erstellen. Für eine logistische Regression würden entsprechend Logits oder Odds Ratios graphisch abgetragen. 3.4 Lineare Regression: Die Darstellung vorhergesagter Werte (Conditional-Effect-Plots) Eine andere Logik leitet die Erstellung so genannter „Conditional-Effect-Plots“: Statt beobachtete Werte (wie im Falle einer Streudiagramm-Matrix) oder Koeffizienten (als Balkendiagramm, Dot-Plot oder Range-Plot) darzustellen, werden dabei vorhergesagte Werte in ein Koordinatensystem übertragen. Dies können sowohl die prognostizierten Werte einer metrischen abhängigen Variable sein, als auch vorhergesagte Wahrscheinlichkeiten für diskrete Regressionsmodelle. Weil die Mehrdimensionalität graphisch
915
34 Graphische Darstellung regressionsanalytischer Ergebnisse
(a) ohne Interaktionseffekt
(b) mit Interaktionseffekt
Abb. 4: Conditional-Effect-Plot am Beispiel der Statusvererbung in der Geburtskohorte 1901–1954 (mit 95 %-Konfidenzintervallen für vorhergesagte Werte) nicht realisierbar ist, können in multiplen Regressionen nicht alle Einflüsse gleichzeitig dargestellt werden. Somit gilt es, vorhergesagte Werte für ausgewählte Kombinationen der unabhängigen Variablen zu zeichnen. Es werden also konditional prognostizierte Werte geplottet und miteinander verglichen. Im Falle der linearen Regression liegen diese vorhergesagten Werte jeweils auf der Regressionsgeraden. Übertragen auf das Beispiel der Statusvererbung müssen für einen ConditionalEffect-Plot zunächst zwei Variablen ausgewählt werden, die die Achsen des Koordinatensystems aufspannen. Analog zu Abbildung 2 wird erneut der Zusammenhänge zwischen dem Treiman-Prestige des Vaters (x) und dem „Treiman-Prestige des Befragten“ (y) untersucht. Für einen Conditional-Effect-Plot wird nun eine Regression gerechnet, wobei die vorhergesagten Werte abgespeichert und miteinander zu einer Regressionsgeraden verbunden werden. Die Abbildung 4 zugrundliegenden Regressionsmodelle sind in Tabelle 2 dargestellt. Untersucht wird also ausschließlich der Statusvererbungsprozess der 1901-1954 geborenen Befragten-Population. Weil jedoch nicht nur das Prestige des Vaters das Prestige des Befragten beeinflusst, sondern auch weitere erklärende Variablen (Kontrollvariablen, hier das Geschlecht des Befragten) einen Effekt auf das Berufsprestige des Befragten haben und diese in ihren Ausprägungen von Fall zu Fall variieren, unterscheiden sich die vorhergesagten Datenpunkte trotz eines gleichen Prestigewerts des Vaters. Bevor also eine Regressionsgerade gezeichnet werden kann, müssen die Einflüsse dieser Kontrollvariablen daher entweder konstant gehalten werden, oder für die unterschiedlichen Ausprägungen einzelner Kontrollvariablen müssen getrennte Werte prognostiziert werden. Für Abbildung 4 wurde diese zweite Möglichkeit gewählt. Die vorhergesagten Werte sind getrennt für weibliche und männliche Befragte bestimmt worden. Die Differenz
916
Gerrit Bauer
Tab. 2: Lineare Regression zur Statusvererbung ohne und mit Interaktionseffekt Treiman-Prestige des Befragten (1) Geschlecht (Ref: Frau) Prestige Vater Interaktion Geschlecht und Prestige des Vaters Konstante N R2 †
: p ≤ 0,1; ∗ : p ≤ 0,05;
4,80 0,41∗∗∗ 39,22∗∗∗ 6385 0,17
∗∗
: p ≤ 0,01;
∗∗∗
(2) ∗∗∗
4,82∗∗∗ 0,39∗∗ 0,05∗ 39,21∗∗∗ 6385 0,17
: p ≤ 0,001
zwischen den Regressionsgeraden entspricht somit dem Wert des Regressionskoeffizienten der Variable Geschlecht, d.h. Frauen haben – ceteris paribus – ein um rund 5 Punkte niedrigeres vorhergesagtes Treiman-Prestige als Männer. Alternativ wäre es möglich, die Variable Geschlecht auf einem beliebigen Wert konstant zu halten, z. B. auf ihrem (in der Natur nicht existenten) Mittelwert. Unten wird dieses alternative Vorgehen noch an einem Beispiel veranschaulicht werden. Will man untersuchen, ob sich der Statusvererbungsprozess zwischen befragten Frauen und Männern unterscheidet, so ist dies mit dem bisherigen Ergebnis nicht möglich. Wird ein Interaktionseffekt zwischen dem Prestige des Vaters und dem Geschlecht des Befragten modelliert, so lässt sich untersuchen, ob das Prestige des Vaters auf das Prestige seiner Tochter oder seines Sohnes einen unterschiedlich starken Einfluss hat. So kann überprüft werden, ob sich die Regressionskoeffizienten abhängig vom Geschlecht des Befragten unterscheiden, d.h. die Steigung der Regressionsgerade in der Gruppe der Söhne stärker oder schwächer ist als in der Gruppe der Töchter. Während in der linken Abbildungshälfte (ohne Interaktionseffekt) die Regressionsgeraden parallel verlaufen und lediglich um den Effekt der Drittvariable Geschlecht verschoben sind, ändert sich unter Berücksichtigung des Interaktionseffekts die Steigung der Geraden sowohl für die weiblichen als auch für die männlichen Befragten (rechte Hälfte Abbildung 4). Die Koeffizienten dieses Regressionsmodells mit Interaktionseffekt sowie ihre Standardfehler sind in Tabelle 2 gelistet, wobei die erklärende Variable „Prestige des Vaters“ zentriert und der Interaktionsterm zwischen dem Geschlechts-Dummy und dem zentrierten Prestige-Maß gebildet wurde (für die Vorteile der Zentrierung in Modellen mit Interaktionseffekten vergleiche Kapitel 26 in diesem Handbuch). Dem Regressionsmodell lässt sich entnehmen, dass mit jedem weiteren Prestigepunkt des Vaters das vorhergesagte Treiman-Prestige des Befragten um 0,25 Punkte steigt, wenn eine Frau befragt wurde. Für Männer ist ein zusätzlicher Effekt von 0,05 Punkten ermittelt worden, sodass in der männlichen Gruppe mit jedem Prestigepunkt des Vaters ein Anstieg um 0,30 Einheiten erwartet wird. Der Effekt der Prestige-Vererbung ist auf Söhne somit um 20 Prozent stärker als auf Töchter. Diese unterschiedliche Effektstärke ist im rechten Teil von Abbildung 4 durch die nicht parallel verlaufenden Regressionsgeraden deutlich zu erkennen.
34 Graphische Darstellung regressionsanalytischer Ergebnisse
917
Weil die Regressionsmodelle für Abbildung 4 auf der Basis des ALLBUS, also einer Zufallsstichprobe, geschätzt wurden, bietet es sich an, auch die Konfidenzgrenzen der vorhergesagten Werte zu ermitteln. Innerhalb dieser Konfidenzgrenzen sollte sich mit einer gewissen Irrtumswahrscheinlichkeit der Erwartungswert von y befinden (genauer: in 95 von 100 gezogenen Stichproben würde das Konfidenzintervall den unbekannten Erwartungswert von y in der Grundgesamtheit überdecken). Die Größe des Konfidenzintervalls ist, wie Formel 1 zeigt, zunächst von der angenommenen Irrtumswahrscheinlichkeit abhängig und wird kleiner, je kleiner der Konfidenzkoeffizient (1 − α) ist. Zudem wird das Konfidenzintervall größer, wenn der Standardschätzfehler steigt (σ(x|y) ): 1 ¯)2 (xj − x + crityˆ∗ = yˆj ± t(α/2) · σ ˆ(x|y) · (1) n n × s2x Wie bekannt werden Konfidenzintervalle mit steigender Fallzahl kleiner. Abbildung 4 war bereits zu entnehmen, dass die Konfidenzgrenzen einer einzelnen Regressionsvorhersage an den Rändern der unabhängigen Variable größer sind als bei Werten näher am Mittelwert. Da die quadrierte Abweichung vom Mittelwert von x unmittelbar in die Berechnung des Konfidenzintervalls eingeht, ergibt sich am Mittelwert von x die größte Genauigkeit der Vorhersage, wobei diese mit zunehmender Nähe zu den Rändern links und rechts immer unpräziser wird. So ergibt sich die hyperbolische Form der Konfidenzintervalle der vorhergesagten Werte (ausführlich bei Bortz 2005). 3.5 Logistische Regression: Conditional-Effect-Plots In der multivariaten Regressionsanalyse können lineare Modelle nur für abhängige Variablen mit metrischem Skalenniveau geschätzt werden. Daneben sind jedoch auch Regressionsmodelle für kategoriale abhängige Variablen von großer Bedeutung, wobei in den Sozialwissenschaften in solchen Fällen meist logistische Regressionen gerechnet werden. Die folgenden graphischen Darstellungsmöglichkeiten sind aber auch auf anderweitig transformierte Wahrscheinlichkeiten, etwa Probit-Modelle, anwendbar. Die Grundidee der folgenden Abbildungen ist es, vorhergesagte Wahrscheinlichkeiten der abhängigen Variable y für unterschiedliche Werte einer unabhängigen Variable x vorherzusagen. Damit sind Conditional-Effect-Plots bei kategorialen Modellen direkt mit denen vergleichbar, die auf linearen Regressionen beruhen. Der Unterschied beider Plots liegt darin, dass bei Modellen für metrische abhängige Variablen tatsächlich (im Grunde messbare) vorhergesagte Werte in den Schaubildern abgetragen werden, während es bei Modellen für kategoriale abhängige Variablen Wahrscheinlichkeiten für das Vorliegen bestimmter Merkmale sind. In den folgenden Beispielen soll untersucht werden, wie das Berufsprestige und der Bildungsabschluss des Vaters einen bestimmten Bildungsabschluss (konkret: das Abitur) des Befragten beeinflussen. Sorgen also ein höheres Prestige und ein besserer Schulabschluss des Vaters dafür, dass die Wahrscheinlichkeit, ein Abitur zu erreichen, steigt? Die Logit-Koeffizienten einer entsprechenden logistischen Regressionsanalyse sind in Tabelle 3 zusammengestellt. Koeffizienten mit einem positiven Vorzeichen deuten auf einen positiven Effekt auf die logarithmierten
918
Gerrit Bauer
Tab. 3: Logistische Regressionsmodelle ohne (1) und mit (2) Interaktionseffekt (Standardfehler in Klammern) Abitur (ja=1) (1) Prestige des Vaters (dividiert durch 10, zentriert) Kohorte 1955-1985 (Referenz: 1901-1954) Interaktion Prestige des Vaters * Kohorte Geschlecht (Ref: Frau) Konstante
0,76 (0,02) 0,98∗∗∗ (0,04) 0,39∗∗∗ (0,04) −1,93∗∗∗ (0,04)
N Pseudo-R2 †
: p ≤ 0,1; ∗ : p ≤ 0,05;
13332 0,16 ∗∗
: p ≤ 0,01;
(2) ∗∗∗
∗∗∗
0,85∗∗∗ (0,03) 1,03∗∗∗ (0,05) −0,15∗∗∗ (0,04) 0,39∗∗∗ (0,04) −1,97∗∗∗ (0,04) 13332 0,16
: p ≤ 0,001
Chancen hin. Somit haben das Berufsprestige des Vaters, die Ausprägung „Mann“ der Geschlechtsvariable sowie ein späteres Geburtsjahr positive Effekte auf die logarithmierte Chance, ein Abitur zu erlangen. So korrekt diese Interpretation formal sein mag, ist es sehr schwierig sich eine logarithmierte Chance vorzustellen. Exponiert man den Logit-Effekt, so ergeben sich daraus Koeffizienten, die sich direkt auf die Veränderung der Chancen beziehen, sogenannte Odds Ratios (vgl. Kapitel 31 in diesem Handbuch). Bei der Interpretation eines solchen Koeffizienten ist allerdings zu beachten, dass Chancen eben keine Wahrscheinlichkeiten sind. Zudem ergibt sich durch das Exponieren der Effekte ein multiplikatives Modell, was bei der Interpretation mit zu beachten ist, in der Praxis jedoch häufig vergessen wird. Ein Beispiel soll den Unterschied zwischen der Interpretation eines Logit und eines Odds Ratio kurz verdeutlichen: Modell 1 in Tabelle 3 zeigt, dass sich die logarithmierte Chance, ein Abitur zu haben, mit jedem Prestigepunkt des Vaters um ca. 0,08 erhöht (der Effekt pro Prestigepunkt ist 10 mal so klein wie in der Tabelle abgetragen). Ein um 5 Punkte höheres Prestige erhöht die Log-Odds, ein Abitur zu haben, demnach additiv um 5 · 0,08 = 0,4. Nach Exponieren der Gleichung ergibt sich ein Odds Ratio von e0,08 = 1,08. Dieser Effekt ist nun multiplikativ zu interpretieren, d.h. die Chance ein Abitur zu erlangen, wird mit jedem Prestigepunkt des Vaters um 1,08, bei fünf Einheiten also um 1,085 = 1,47 größer. Erschwerend kommt hinzu, dass zusätzlich weitere Drittvariablen die Wahrscheinlichkeit, ein Abitur zu haben, beeinflussen. Damit ändern sich auch die Basiswahrscheinlichkeiten, wodurch der Effekt auf die Chance je nach Ausprägungen der anderen Variablen unterschiedlich stark sein kann. Daher wird mittlerweile dazu geraten, Odds Ratios ebenso wie Logits nur in ihrer Wirkungsrichtung zu interpretieren (vgl. Kapitel 31 in diesem Handbuch). Für tiefer gehende Interpretationen sind
919
!
!
34 Graphische Darstellung regressionsanalytischer Ergebnisse
(a) ohne Interaktionseffekt
(b) mit Interaktionseffekt
Abb. 5: Conditional-Effect-Plot für logistische Regressionen (mit 95 %-Konfidenzintervallen für vorhergesagte Werte) Conditional-Effect-Plots sehr hilfreich, da diese detailliertere Interpretationen zulassen. Die graphische Abbildung eines Conditional-Effect-Plots ermöglicht eine schnelle und eindeutige Interpretation, wobei man sich auf einen Ausschnitt von Werten beschränken muss. Abbildung 5 zeigt die Effekte des Prestiges des Vaters auf die Wahrscheinlichkeit, dass ein Befragter der Geburtskohorte 1901-1954 bzw. 1955-1985 als höchsten allgemeinbildenden Schulabschluss ein Abitur erworben hat, und zwar unter Kontrolle des Geschlechts. Für das Zeichnen der Abbildung wurde die Variable Geschlecht auf ihrem Mittelwert von 0,49 konstant gehalten (49 Prozent der Personen in der Analysestichprobe sind Männer). Der aufgezeigte Prestige-Effekt lässt sich somit als ein Effekt bei „durchschnittlichem“ Geschlecht interpretieren. Auch hier wurden wieder Konfidenzintervalle für die vorhergesagten Werte bestimmt, auf deren Berechnung aber nicht näher eingegangen werden soll. Grundsätzlich gilt hier ebenso wie im Falle der linearen Regression, dass sich die oberen und unteren Grenzen der Konfidenzintervalle wieder nicht durch einfache Addition bzw. Subtraktion des Standardfehlers zum/ vom vorhergesagten Punktschätzer (Koeffizient) ergeben. Optisch ist daher wieder zu erkennen, dass die Konfidenzintervalle der vorhergesagten Wahrscheinlichkeiten an unterschiedlichen Stellen von x unterschiedlich breit sind, wobei die Schätzung gerade in dem Bereich unsicherer wird (d.h. das Konfidenzintervall also besonders breit ist), in dem wenig Datenpunkte zur Berechnung vorliegen. Der linke Teil der Abbildung wurde anhand des Modells 1 aus Tabelle 3 gezeichnet. Dem rechten Teil liegt Modell 2 zugrunde, das zusätzlich einen (negativen) Interaktionsterm zwischen dem Kohorten-Dummy und der Prestigemessung für den Vater des Befragten beinhaltet. Wenngleich zwischen den logarithmierten Chancen und den erklärenden Variablen ein linearer Zusammenhang besteht, ist diese Linearität auf Ebene der Wahrscheinlich-
920
Gerrit Bauer
keiten nicht mehr gegeben. Die Veränderungen für die Wahrscheinlichkeit, ein Abitur zu haben, folgen vielmehr den in Abbildung 5 gezeichneten s-förmigen Kurven. Der Effekt des Prestiges des Vaters auf die Wahrscheinlichkeit des Befragten, das Abitur zu erlangen, ist also nicht an allen Stellen gleich stark. Sowohl bei einem niedrigen als auch bei einem hohen Prestigewert des Vaters erhöht sich die Wahrscheinlichkeit, ein Abitur zu haben, weniger stark als im mittleren Wertebereich. Dort ist der Verlauf am steilsten und fast linear. Das multiplikative Modell bedingt außerdem, dass sich die Effekte zwischen den beiden Kohorten durchaus unterscheiden können – und dies obwohl in Modell 1 in Tabelle 3 noch kein Interaktionseffekt modelliert wurde. Anders als in der linearen Regression ohne Interaktionseffekt (vgl. dazu nochmals den linken Teil in Abbildung 4) sind die vorhergesagten Werte in der logistischen Regression nicht einfach um den Effekt der Drittvariable (im Beispiel: Kohorte) parallel zueinander verschoben. Die Effekte unterscheiden sich vielmehr zwischen den Kohorten nicht nur im Niveau, sondern auch in ihrem Verlauf, d.h. das Prestige des Vaters erhöht die Wahrscheinlichkeit in den beiden Kohorten unterschiedlich. So ist der Verlauf der Wahrscheinlichkeit mit zunehmendem väterlichem Prestige für die ältere Kohorte bauchiger als für die jüngere. Die zentrale erklärende Variable wirkt in den beiden Gruppen unterschiedlich. Die in Bezug auf die Wahrscheinlichkeiten nicht-lineare und nicht-additive logistische Regression modelliert in gewisser Weise bereits einen Interaktionseffekt, auch wenn dieser nicht explizit über die Aufnahme eines Interaktionsterms spezifiziert wurde. Wird zusätzlich ein Interaktionseffekt modelliert (Modell 2 und rechter Teil der Abbildung 5), lässt sich im Regressions-Output der Logits oder Odds Ratios kaum erkennen, wie sich die Effekte dadurch verändern. Conditional-Effect-Plots sind zur korrekten Interpretation dann meines Erachtens unerlässlich. 3.6 Multinomiale Regression: Odds Ratio-Plots, Discrete-Change und Conditional-Effect-Plots Mitunter sind die abhängigen Variablen weder metrisch skaliert oder dummy-kodiert, sondern es liegen ordinale oder lediglich nominal skalierte, kategoriale Merkmale vor. Um Effekte auf solche Variablen zu bestimmen, lassen sich ordinale logistische Regressionen oder multinomiale logistische Regressionen schätzen. Am Beispiel von Statusvererbungsprozessen und einer multinomialen Regression werden nun zwei weitere Formen graphischer Darstellung vorgeführt. Dabei geht es inhaltlich um die Frage, wie sich das Prestige des Vaters, seine Bildung (Abitur ja/nein) und das Geburtsjahr des Befragten auf die Wahrscheinlichkeit unterschiedlicher Bildungsabschlüsse auswirken: Dabei sind ein Hauptschul-, ein Realschul- sowie ein gymnasialer Abschluss konkurrierende Risiken, denn jeder Befragte hat genau einen höchsten Bildungsabschluss. Für die Schätzung des Modells in Tabelle 4 werden nur Personen betrachtet, die über einen der drei Abschlüsse verfügen. Die Grundidee des multinomialen logistischen Regressionsmodells ist es, die Koeffizienten der unabhängigen Variablen auf die drei Ausprägungen der abhängigen Variable gemeinsam, d.h. in einem Modell, zu schätzen. Würde man drei getrennte Analysen rechnen und die Wahrscheinlichkeiten für die drei Abschlüsse für bestimmte
34 Graphische Darstellung regressionsanalytischer Ergebnisse
921
Tab. 4: Multinomiales Regressionsmodell auf Hauptschul- (Referenz), Realschul- und gymnasialen Abschluss, Logit-Koeffizienten Realschulabschluss Prestige des Vaters (dividiert durch 10) Abitur Vater
N Pseudo-R2 : p ≤ 0,1; ∗ : p ≤ 0,05;
0,08∗∗∗ (0,11) 2,27∗∗∗ (0,11) 0,33∗∗∗ (0,05) 1,38∗∗∗ (0,05) −4,69∗∗∗ (0,12)
0,43 (0,03) 1,22∗∗∗ (0,12) −0,28∗∗∗ (0,05) 1,12∗∗∗ (0,05) −2,70∗∗∗ (0,11)
Geschlecht (Ref: Frau) Kohorte (Ref: Kohorte I) Konstante
†
Abitur
∗∗∗
13332 0,15 ∗∗
: p ≤ 0,01;
∗∗∗
: p ≤ 0,001
Werte der unabhängigen Variablen vorhersagen, so würden diese Werte aufaddiert nicht 1 ergeben. Dies ist aber notwendig, da entweder ein Haupt-, ein Realschul-, oder ein gymnasialer Abschluss vorliegen muss. Die Schwierigkeit der multinomialen logistischen Regression liegt vor allem in der richtigen Interpretation der Koeffizienten. Tabelle 4 zeigt, dass der Koeffizientenblock in zwei Teile gegliedert ist, wobei der linke Teil die Gleichung für den Bildungsabschluss Realschule, der rechte die für den Abschluss Abitur ausweist. Koeffizienten für die Kategorie Hauptschulabschluss wurden auf 0 gesetzt (Referenzkategorie) und werden daher nicht berichtet. Die Koeffizienten der beiden angegebenen Gleichungen sind nun aber immer in Bezug auf die Referenzkategorie zu interpretieren. Die Koeffizienten geben damit an, wie sich die logarithmierte Chance, einen Realschulabschluss (bzw. ein Abitur) und nicht einen Hauptschulabschluss zu haben, ändert, wenn sich eine unabhängige Variable um eine Einheit erhöht. Einen Überblick über sämtliche Koeffizienten eines multinomialen logistischen Regressionsmodells bietet ein sogenannter Odds Ratio-Plot, der das schnelle Erkennen von Mustern in den Ergebnissen komplexer Modelle ermöglicht. Allerdings ist bei der Interpretation zu beachten, dass es sich nicht um Effekte auf Wahrscheinlichkeiten handelt, sondern um multiplikative Effekte auf Chancen (Odds Ratios) bzw. additive Effekte auf logarithmierte Chancen (logit-Koeffizienten) im Vergleich zur Referenzkategorie. Die Odds Ratios und Logit-Koeffizienten sind in Abbildung 6 zusammengestellt. Für diese Abbildung wurden die beiden metrischen unabhängigen Variablen, Prestige des Vaters und Geburtsjahr des Befragten, standardisiert. Sämtliche Koeffizienten für den Schulabschluss Hauptschule (H) wurden auf 0 gesetzt, d.h. präziser, der LogitKoeffizient, dessen Skala am unteren Rand der Abbildung abgetragen wurde, nimmt diesen Wert an, das korrespondierende Odds Ratio ist dann 1. Zunächst ermöglicht der Odds Ratio-Plot eine Interpretation der Vorzeichen der Effekte, allerdings nur auf
922
Gerrit Bauer %&' ( )) %!*%& %&'+
',%!%'
%&
!%-'%'
(
((
&!%&! !(% )) %!*%& %&'+
Abb. 6: Odds Ratio-Plot zu Effekten des Prestiges und des Bildungsabschlusses des Vaters auf den Schulabschluss des Befragten Basis der Chancen, nicht in Bezug auf die Wahrscheinlichkeiten, die eben auch von den Wahrscheinlichkeitsverhältnissen in der Basiskategorie abhängen. Es lässt sich beispielsweise aus der ersten Zeile auslesen, dass mit steigendem Prestige des Vaters (um eine Standardabweichung) die Chance, einen Realschulabschluss (R) und keinen Hauptschulabschluss (H) zu haben, ansteigt: Das Odds Ratio von etwa 1,5 ist größer 1, der Effekt daher positiv. Stehen R oder A (Abitur) rechts neben der Referenzkategorie H, so handelt es sich um positive Effekte – stets bezogen auf die Referenz H. Stehen die Abkürzungen der Schulformen links von der Referenzkategorie H, so ist der Effekt entsprechend negativ. Das Merkmal Mann hat auf die Chance, einen Realschulabschluss und keinen Hauptschulabschluss zu haben, einen negativen Einfluss. Der Odds Ratio-Plot erlaubt es zudem die graphisch dargestellte Distanz zwischen den Symbolen H, R und A als Effektstärken zu interpretieren. Je stärker die Symbole von der Referenzkategorie entfernt sind, desto stärker ist der Effekt. Die vertikale Anordnung der Symbole innerhalb einer durch eine unabhängige Variable aufgespannte Zeile ist in dieser Abbildung allerdings bedeutungslos. Sie dient nur dazu, dass sich die Symbole auch dann nur leicht überschneiden, wenn Effekte sehr ähnlich sind. Zusätzlich ließen sich in solchen Diagrammen noch die Signifikanzen von Unterschieden zwischen den Effekten einzeichnen. Gewöhnlich würden die Symbole durch eine Linie miteinander verbunden, sollten die Unterschiede auf einem festzulegenden Niveau nicht signifikant sein. Da in Bezug auf die Referenzkategorie hier nur signifikante Effekte vorliegen, wurde auf diese Möglichkeit verzichtet. Ein Odds Ratio-Plot bietet also nicht nur einen guten Überblick über die Koeffizienten, sondern enthält im Vergleich zu einer einzelnen Tabelle mitunter auch noch zusätzliche Information. Allerdings muss beachtet werden, dass sich die Effekte eben nicht auf Wahrscheinlichkeiten beziehen, sondern auf Chancen im Vergleich zur jeweils gewählten Referenzkategorie. Selbst eine Interpretation der Vorzeichen von Odds Ratios kann im multinomialen Modell mitunter riskant sein, muss doch ein Effekt auf die Chancen nicht das gleiche Vorzeichen haben wie auf Wahrscheinlichkeiten (vgl. Kohler & Kreuter 2008, S. 302 f. für ein entsprechend konstruiertes Beispiel). Vor einer solchen Fehlinterpretation kann auch
34 Graphische Darstellung regressionsanalytischer Ergebnisse
#$%%# ($%) %% (1)
!! (0/1) ! ()
!!#%#" %'"# %
923
Abb. 7: Discrete-Change-Plot zur Veränderung der vorhergesagten Wahrscheinlichkeit für drei Bildungsabschlüsse und vier unabhängige Variablen ein übersichtlicher Odds Ratio-Plot nicht bewahren; dieser Abbildungstyp erleichtert die Interpretation also nur scheinbar. Anstelle von Odds Ratios und Logit-Koeffizienten bietet es sich in der multinomialen logistischen Regression an, wieder vorhergesagte Wahrscheinlichkeiten zu interpretieren. Discrete-Change-Plots, die ähnlich aufgebaut sind wie die eben besprochenen Odds Ratio-Plots, zeigen an, wie die Zunahme einer unabhängigen Variable um eine Einheit jede mögliche Ausprägung der abhängigen Variable mehr oder weniger wahrscheinlich macht. Da die Wahrscheinlichkeit auch mit den weiteren unabhängigen Variablen variiert, wurden diese jeweils auf ihrem Mittelwert konstant gehalten. Bei „durchschnittlichem“ Geschlecht, gemittelter Kohorte und gemitteltem Bildungsniveau des Vaters, reduziert die Zunahme des Prestiges des Vaters um eine Standardabweichung die Wahrscheinlichkeit, einen Hauptschulabschluss zu haben, um 18 Prozent. Dahingegen bewirkt ein entsprechend höheres Prestige eine um etwa 3 Prozent höhere Wahrscheinlichkeit, einen Realschulabschluss zu machen. Die Wahrscheinlichkeit für ein Abitur steigt dann sogar um etwa 15 Prozent an. Da die beiden metrischen unabhängigen Variablen standardisiert sind, lassen sich die Effektstärken nun auch zwischen den Zeilen vergleichen: Das Prestige des Vaters hat auf die Wahrscheinlichkeit, ein Abitur zu haben, einen größeren Einfluss als die Kohortenzugehörigkeit des Befragten. Für die Wahrscheinlichkeit, einen Realschulabschluss zu haben, gilt das Gegenteil (eine ausführliche Beschreibung von Odds-Ratio- und Discrete-Change-Plots sowie mögliche Kombinationen aus beiden Darstellungsformen findet sich bei Long & Freese 2006). Schließlich ist es analog zur logistischen Regression auch bei ordinalen oder multinomialen Regressionsmodellen möglich, vorhergesagte Wahrscheinlichkeiten in einem Koordinatensystem abzutragen. Abbildung 8 zeigt einen Conditional-Effect-Plot, dem die vorhergesagten Wahrscheinlichkeiten des Modells aus Tabelle 4 zugrunde liegen. Die weiteren drei unabhängigen Variablen wieder auf ihrem Mittelwert artifiziell konstant gehalten, reduziert ein zunehmender Prestigwert des Vaters die Wahrscheinlichkeit, dass der Befragte lediglich die Hauptschule erfolgreich abgeschlossen hat. Für die Wahrscheinlichkeit, ein Abitur abgelegt zu haben, zeigt sich ein fast identischer, nur eben positiver Effekt. Da sich die Wahrscheinlichkeiten über jedem Wert des Prestiges des Vaters zu 1 aufaddieren müssen, muss die Wahrscheinlichkeit für einen Realschulabschluss gerade dann am höchsten sein, wenn sowohl die Wahrscheinlichkeiten für einen Hauptschulabschluss als auch für ein Abitur niedrig sind. Der umgekehrt u-förmige
Gerrit Bauer
Q
924
X
Abb. 8: Conditional-Effect-Plot zur multinomialen Regression (mit 95 %-Konfidenzintervallen für vorhergesagte Werte) Verlauf der Wahrscheinlichkeit eines Realschulabschlusses folgt also direkt aus den Verläufen der Wahrscheinlichkeiten für die beiden anderen Kategorien. Wenngleich sich durch die Kenntnis zweier Wahrscheinlichkeiten hier die dritte einfach bestimmen lässt, ist in diesem Conditional-Effect-Plot bei der Interpretation kein Bezug auf eine Referenzkategorie erforderlich. Die abgetragenen Wahrscheinlichkeiten sind absolute Werte und als solche entsprechend einfach zu interpretieren. Rückschlüsse auf Basis eines solchen Plots sind deutlich weniger fehleranfällig als wenn auf Referenzkategorien bezogene, multiplikative Effekte auf Chancen oder additive Effekte auf logarithmierte Chancen interpretiert werden müssen. Einziger Nachteil gegenüber Odds Ratio-Plots ist, dass sich bei Conditional-Effect-Plots auf ausgewählte variierende unabhängige Variablen beschränkt werden muss und andere Effekte nicht simultan aufgezeigt werden können.
4 Häufige Fehler Ein Ziel der graphischen Darstellung regressionsanalytischer Ergebnisse ist es, Fehler in deren Interpretation zu vermeiden. Werden die in Abschnitt 2 behandelten Grundlagen graphischer Darstellung eingehalten, so sollte dies wesentlichen Interpretationsfehlern vorbeugen, weil diese Abbildungen durch Klarheit und Präzision zentrale Information korrekt darstellen (Tufte 2001). Nicht übersehen werden sollte aber, dass schlechte Abbildungen den Leser immer wieder zu täuschen vermögen. Sammlungen fehlerhafter Abbildungen (Krämer 2005) sind durchaus nützlich, um sich Verletzungen zentraler graphischer Regeln vor Augen zu führen. Das „Lügen“ mit graphischen Darstellungen mag zwar in den wenigsten Fällen vorsätzlich erfolgen; und doch verzerren solche Darstellungen die tatsächlich zu Grunde liegenden Sachverhalte. Die häufigsten Fehler sind wohl die folgenden: Bei der Skalierung der Achsen werden
34 Graphische Darstellung regressionsanalytischer Ergebnisse
925
nur Wertebereiche ausgewählt, die die Ergebnisse besonders eindrucksvoll erscheinen lassen. Auch Stauchungen und Streckungen können die Stärke von Zusammenhängen über- oder unterbetonen. Als in Abbildung 4 der Zusammenhang zwischen Prestige des Vaters und Prestige des Befragten untersucht wurde, wurde bewusst darauf geachtet, beide Achsen des Koordinatensystems identisch zu skalieren – schließlich handelt es sich um gleiche Maße. Durch eine Stauchung der y-Achse (Voreinstellung in vielen Statistikprogrammen) erschiene der Zusammenhang optisch schwächer als errechnet. Manche Abbildungen sind schlicht unvollständig, dadurch nicht selbsterklärend und letztlich unverständlich. Daher ist darauf zu achten, dass durch Titel, Anmerkungen, Legende und Achsenbeschriftungen alle erforderlichen Informationen zusammen getragen werden. Gerade bei der Darstellung von Häufigkeitsdaten sollte unbedingt darauf geachtet werden, dass zwischen der zu illustrierenden Größe und der Fläche Proportionalität besteht – eine Verdopplung des Maßes muss unbedingt mit einer Verdopplung der Fläche einhergehen. Die Darstellung von Kreisen oder gar Kugeln missachtet diese Anforderung häufig. Um Abbildungen klar und deutlich erscheinen zu lassen, sollten (zumindest in für den Druck bestimmten Abbildungen) Versuche, dreidimensionale Räume zu zeichnen, besser unterlassen werden. Diagramme mit mehr Dimensionen zu versehen, als erforderlich ist, verwirrt den Betrachter ohnehin nur. Fast selbstverständlich ist, dass bei farbigen Abbildungen bedacht werden sollte, dass diese auch im Graustufendruck erkennbar bleiben. Nur durch deutliche Kontraste lässt sich sicherstellen, dass z. B. nach dem Anfertigen einer Kopie Unterschiede zwischen verschiedenfarbigen Elementen noch erkennbar sind. Ein letzter kritisch abzuwägender Punkt betrifft die Auswahl an Informationsfülle: Wie viele Kategorien sind dem Leser zuzutrauen, an welcher Stelle kann Komplexität durch Kategorisierung reduziert werden? Hierauf ist eine pauschale Antwort kaum möglich. Ist der Informationsgehalt gering, ist die Abbildung im Grunde unnötig. Ist der Informationsgehalt zu hoch, ist sie unverständlich. Die Entscheidung ist also vor dem Hintergrund der Forschungsfrage zu treffen, nur so lässt sich beantworten, was wirklich zentrale Ergebnisse sind, die daher in Abbildungen aufgenommen werden sollten.
5 Rückblick Graphische Abbildungen können, wenn sie entsprechend gestaltet sind, das Verständnis für Zusammenhänge zwischen Variablen fördern. Ein Bild sagt sprichwörtlich zwar mehr als tausend Worte, dennoch können Abbildungen weder tabellarische Darstellungen der Regressionsergebnisse noch eine gründliche verbale Interpretation der Zusammenhänge ersetzen. Vielmehr helfen Abbildungen dem Leser, indem sie Information bündeln, strukturieren, unter Umständen vereinfachen und so gerade relevante Kernergebnisse herausstellen. Bevor regressionsanalytische Ergebnisse präsentiert werden, kann es durchaus sinnvoll sein, schon bei der Beschreibung der Variablen und ihrer bivariaten Zusammenhänge einfache, eher explorativ gedachte Abbildungen einzusetzen, z. B. eine Streudiagramm-Matrix oder auch einen Plot einer Median- oder Mean-Regression. So kann der Leser sich selbst ein Bild davon machen, welche Probleme bei der Schätzung
926
Gerrit Bauer
statistischer Modelle durch Annahmeverletzungen (z. B. Nicht-Linearität, einflussreiche multidimensionale Ausreißer) auftreten könnten. Werden regressionsanalytische Ergebnisse präsentiert, so werden in der Regel keine beobachteten Werte mehr geplottet. Vielmehr geht es dann um die graphische Darstellung entweder der Regressionskoeffizienten oder der vorhergesagten Werte, jeweils nebst ihrer zugehörigen Konfidenzintervalle. Die Darstellung der Koeffizienten erweist sich gerade dann als sinnvoll, wenn Effekte der unabhängigen Variablen z. B. in mehreren Substichproben, Erhebungsjahren oder in unterschiedlichen Datensätzen gegenübergestellt werden sollen. Am Beispiel der multinomialen logistischen Regression hat sich zudem gezeigt, dass Odds Ratio-Plots die Interpretation der Ergebnisse nur scheinbar erleichtern. Dieser Abbildungstyp, der gegenüber der Tabelle zusätzliche Information enthält, machte deutlich, dass bei seiner Interpretation schnell die gleichen Fehler unterlaufen können wie bei der der tabellarisch gelisteten Effekte. Für die Darstellung von in Regressionsmodellen prognostizierten Werten bieten sich Conditional-Effect-Plots an, die aber immer nur eine begrenzte Anzahl von Variablen berücksichtigen können, dadurch Komplexität reduzieren und den Blick auf die wirklich zentralen Effekte lenken. Solche Abbildungen sind bei der Darstellung regressionsanalytisch vorgefundener Zusammenhänge vor allem in nicht-linear-additiven Modellen von großer Bedeutung. Die Steigung einer einfachen linearen Regressionsgeraden ist dahingegen auch ohne Abbildung in der Regel gut vorstellbar, und selbst Interaktionseffekte müssen in der linearen Regression nicht unbedingt graphisch illustriert werden. In der logistischen Regression sind Abbildungen vorhergesagter Werte dahingegen geradezu unumgänglich, sobald Interaktionseffekte modelliert werden. Die multiplikativen Effekte auf Chancen sind nämlich ebenso schwer vorstellbar wie additive Effekte auf logarithmierte Chancen. Außerdem zeigt sich hier, dass auch ohne die Aufnahme eines Interaktionsterms eine unabhängige Variable bereits unterschiedlich wirken kann, je nach dem, welche Ausprägung eine andere erklärende Variable annimmt. Das lässt sich letztlich nur durch eine Abbildung erkennen. Im Beispiel der multinomialen logistischen Regression ergab sich auf der Darstellung der vorhergesagten Wahrscheinlichkeiten zudem der große Vorteil, dass diese absolut interpretiert werden konnten und sich im Unterschied zu den Chancen nicht auf eine zuvor festgelegte Referenzkategorie bezogen. In der multivariaten Regressionsanalyse sind Abbildungen ein hilfreiches Instrument, denn sie helfen, Zusammenhänge besser und schneller zu verstehen. Obwohl mehrdimensionale Einflüsse von Interesse sind, können diese aber in aller Regel nur eingeschränkt, nämlich für ausgewählte Variablenkombinationen, graphisch dargestellt werden. Wie so oft in der Sozialforschung bedarf es bei der Auswahl der wirklich interessierenden Einflussgrößen wieder einer theoretischen Grundlage, aus der sich ableiten lässt, welche zentralen Größen gegeneinander abgetragen werden sollen.
6 Literaturempfehlungen Für einen Überblick über graphische Grundlagen, historische Entwicklungen und Beispiele besonders gelungener Informationsgraphik aus unterschiedlichsten wissen-
34 Graphische Darstellung regressionsanalytischer Ergebnisse
927
schaftlichen Bereichen bieten sich die Zusammenstellungen von Tufte (2001) sowie Wainer (2000, 2005) an. Konkrete Anwendungen in der Regressionsanalyse finden sich bei Cook & Weisberg (1994) sowie beispielsweise bei Schnell (1994), wobei beide sich nicht auf Ergebnispräsentation beschränken, sondern Graphiken auch für regressionsdiagnostische Zwecke nutzen. Für kategoriale abhängige Variablen finden sich zahlreiche graphische Anregungen bei Long & Freese (2006). Hier sind insbesondere auch die Odds-Ratio-Plots und Discrete-Change-Plots diskutiert, die für multinomiale Modelle sinnvoll eingesetzt werden können. Eine allgemeine Umsetzung für verschiedene Conditional-Effect-Plots für das Programmpaket Stata haben Kohler & Kreuter (2008) zusammengestellt. Dort finden sich auch viele weitere nützliche Graphik-Kommandos.
Literaturverzeichnis Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler. Heidelberg: Springer Medizin Verlag, 6. Auflage. Cook, D. R. & Weisberg, S. (1994). An Introduction to Regression Graphics. New York: John Wiley & Sons, Inc. Jacoby, W. G. (1998). Statistical Graphics for Visualizing Multivariate Data. Thousand Oaks: Sage Publications. Kohler, U. & Kreuter, F. (2008). Datenanalyse mit Stata. München: Oldenbourg Wissenschaftsverlag. Krämer, W. (2005). So lügt man mit Statistik. München: Piper. Long, J. S. & Freese, J. (2006). Regression Models for Categorical Dependent Variables Using Stata. College Station: Stata Press. Miller, J. E. (2005). The Chicago Guide to Writing About Multivariate Analysis. Chicago: The University of Chicago Press. Nagel, M., Benner, A., Ostermann, R., & Henschke, K. (1996). Grafische Datenanalyse. Stuttgart: Fischer. Schnell, R. (1994). Graphisch gestützte Datenanalyse. München: Oldenbourg. Tufte, E. R. (2001). The Visual Display of Quantitative Information. Cheshire: Graphics Press. Wainer, H. (2000). Visual Revelations: Graphical Tales of Fate and Deception from Napoleon Bonaparte to Ross Perot. Hillsdale: Lawrence Erlbaum Associates. Wainer, H. (2005). Graphic Discovery. A Trout in the Milk and other Visual Adventures. Princeton: Princeton University Press. Wirth, H. & Fischer, A. (2008). ESeC - European Socioeconomic Classification. Die Operationalisierung von ESeC im kumulierten ALLBUS 1980 - 2006. Mannheim: GESIS, German Microdata Lab.
Teil VI
Analyse von zeitbezogenen Daten
35 Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren Markus Gangl University of Wisconsin-Madison
Zusammenfassung. Matchingverfahren umfassen eine Klasse nichtparametrischer Verfahren zur statistischen Abschätzung kausaler Effekte mittels Beobachtungsdaten. In diesen Verfahren erfolgt die Drittvariablenkontrolle durch Konstruktion statistischer Vergleichsgruppen, die in Bezug auf relevante Hintergrundfaktoren weitgehend identisch sind. In der praktischen Anwendung dominiert das Propensity score matching, das eine einfache Vergleichsgruppenbildung innerhalb eines eindimensionalen Merkmalsraums ermöglicht. Die empirische Analyse erfolgt dabei in drei Schritten: zunächst ist ein Zuweisungsmodell zu entwickeln, das die Verteilung des Kausalfaktors in Abhängigkeit von theoretisch relevanten Kovariaten beschreibt. Über die aus dem Zuweisungsmodell vorhergesagten Propensity scores wird anschließend durch den Einsatz verschiedener Matchingalgorithmen die Balancierung der Hintergrundkovariaten in den Vergleichsgruppen der Untersuchung angestrebt. Ist diese erreicht, erfolgt die eigentliche Schätzung der interessierenden kausalen Effekte durch den nichtparametrischen Vergleich der Ereignisverteilungen in den Experimental- und Kontrollstichproben. Auf die Annahme eines vollständigen Erklärungsmodells für die abhängige Variable der Analyse wird dabei verzichtet. Matchingverfahren stellen insgesamt eine Alternative zu gängigen Regressionsmodellen dar, die kausale Effekte unter vergleichsweise sparsamen statistischen Annahmen abschätzen. Ähnlich wie in konventionellen Regressionsanalysen hängt die Validität der Effektschätzungen jedoch entscheidend davon ab, ob der kausal wirksame Faktor und die Ergebnisgröße unter Kontrolle der verfügbaren Kovariaten aus theoretischer Sicht als unabhängig betrachtet werden können.
1 Einführung in das Verfahren Historisch wurden Matchingverfahren in den Sozialwissenschaften zunächst zur Präzisierung experimenteller Designs mit kleinen Stichproben eingesetzt und gewannen erst in jüngerer Zeit mit Rezeption neuerer Ergebnisse der biometrischen, epidemiologischen und statistischen Literatur zunehmende Bedeutung als flexible nichtparametrische Verfahren zur Abschätzung kausaler Effekte im Rahmen der nichtexperimentellen Forschung. Grundidee aller so verstandenen Matchingverfahren ist die Bildung statistisch möglichst ähnlicher Vergleichsgruppen, um dadurch den Einfluss potenzieller Störfaktoren in der Abschätzung kausaler Effekte auszuschalten. Im Unterschied zur üblichen Regressionsanalyse wird in der Analyse jedoch allein der kausale Effekt eines bestimmten Einflussfaktors T ermittelt, ohne dass ein explizites Modell für die Verteilung der abhängigen Variable in Abhängigkeit von einer Vielzahl potenzieller Determinanten angenommen bzw. anhand der empirischen Daten geschätzt werden S. 931–961 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_35, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
932
Markus Gangl
müsste. Forschungslogisch folgen Matchinganalysen damit dem Prinzip einer effects-ofcauses-Analyse (Holland 1986), in der das Augenmerk der empirischen Analyse einzig und allein auf der möglichst überzeugenden und validen Isolierung des interessierenden kausalen Effekts eines einzigen Faktors T liegt. Daneben zeichnen sich Matchingverfahren durch eine methodologisch transparente Vorgehensweise und leicht interpretierbare Parameterschätzungen aus, wodurch Logik wie Ergebnisse der empirischen Analyse auch einem statistisch nicht vorgebildeten Adressatenkreis weitgehend unproblematisch vermittelt werden können. 1.1 Grundannahmen kausaler Inferenz in Matchingverfahren Ein wichtiger statistischer Vorzug von Matching- gegenüber üblichen Regressionsverfahren besteht darin, dass die Abschätzung des interessierenden kausalen Effekts in nichtparametrischer Form erfolgt, wodurch Verzerrungen aufgrund von Spezifikationsfehlern im parametrischen Regressionsmodell forschungslogisch ausgeschaltet und kausale Schlussfolgerungen zur Wirkung einer bestimmten Einflussgröße damit vergleichsweise weniger von (typischerweise) ungeprüften Modellannahmen abhängig sind. Nichtsdestotrotz liegt es in der Natur des Gegenstandes, dass kausale Schlussfolgerungen auch im Rahmen von Matchingverfahren prinzipiell annahmebehaftet sind und gerade in der Analyse nichtexperimenteller Beobachtungsdaten nur theoriegestützt gerechtfertigt werden können. Das Grundproblem jeglicher Form kausaler Inferenz besteht darin, dass zur Abschätzung eines kausalen Effekts einer Einflussgröße T auf eine Ergebnisgröße Y der Vergleich zwischen einem beobachtbaren und einem oder mehreren prinzipiell unbeobachtbaren Ereignissen notwendig wird. Für jede Beobachtungseinheit einer sozialwissenschaftlichen Untersuchung kann die Ergebnisvariable Y = y nur für exakt eine empirisch vorliegende Ausprägung T = t der Einflussgröße bzw. Treatmentvariable beobachtet werden, während alle anderen potenziellen Ereignisse Y , die sich für die fragliche Untersuchungseinheit unter jeweils anderen Ausprägungen der Treatmentvariable einstellen würden, prinzipiell nicht bzw. zumindest nicht zum selben Zeitpunkt beobachtet werden können. Die Abschätzung der kausalen Wirkung der Treatmentvariable T erfordert definitionsgemäß jedoch gerade den kontrafaktischen Vergleich zwischen dem empirisch beobachtbaren Ereignis Y = y, das unter der Ausprägung T = t tatsächlich erzielt wird, und den potenziellen, da unbeobachtbaren Ereignissen Y , die unter alternativen Ausprägungen der Treatmentvariable – im einfachsten Fall: bei Abwesenheit des Treatments – realisiert würden. Dieses so genannte Fundamentalproblem der Kausalanalyse (Holland 1986) muss durch ein Forschungsdesign aufgelöst werden, das die Abschätzung des kausalen Effekts von T auf Y mit Hilfe des Vergleichs empirisch tatsächlich beobachtbarer Ereignisse rechtfertigt. Im einfachsten Fall eines binären Treatments T beinhaltet dies die Konstruktion zweier Stichproben, von denen eine Stichprobe als Experimentalstichprobe dem Einfluss des Treatments T ausgesetzt ist, während die zweite Stichprobe die Kontrollstichprobe darstellt, die nicht durch T beeinflusst wird. Wenn sich beide Stichproben in Bezug auf die relevanten Hintergrundfaktoren hinreichend ähnlich sind, dann kann der kausale Effekt von T durch den Vergleich der Ergebnisverteilung Y
35 Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren
933
in den beiden Stichproben valide geschätzt werden, da die Ereignisverteilung in der Kontrollgruppe eine unverzerrte Abschätzung der kontrafaktischen Ereignisverteilung darstellt, die zu erwarten gewesen wäre, wenn die Mitglieder der Experimentalgruppe nicht der Wirkung von T ausgesetzt gewesen wären. Zur Rechtfertigung kausaler Schlussfolgerungen über die Wirkung einer Treatmentgröße T ist selbstverständlich das randomisierte Experiment das Forschungsdesign der Wahl. In einem idealen randomisierten Experiment werden die wichtigsten Quellen kausaler Fehlschlüsse dadurch beseitigt, dass durch die experimentelle Manipulation der Treatmentbedingung den Akteuren die Kontrolle über die in T erfassten Situationsumstände entzogen ist, und gleichzeitig durch die zufällige Zuweisung der Versuchspersonen zu einer der Experimentalbedingungen eine asymptotische Gleichverteilung aller gemessenen und ungemessenen Einflussfaktoren erreicht wird. Der kausale Effekt von T wird durch den Vergleich der Ergebnisverteilungen Y in den verschiedenen Experimentalbedingungen identifiziert, da Einflüsse alternativer Störgrößen systematisch ausgeschlossen sind. In der nichtexperimentellen sozialwissenschaftlichen Forschung sind beide Voraussetzungen kausalen Schließens dagegen in aller Regel nicht erfüllt. Das Auftreten eines bestimmten Umstands T , von dem eine Auswirkung auf ein Ereignis Y erwartet wird, wird im Gegensatz zu experimentellen Daten nicht durch den Forscher gesteuert, sondern lediglich ex post facto beobachtet. Aus diesem Grund ist in nichtexperimentellen Daten in aller Regel davon auszugehen, dass sich die Gruppe der Personen, für die T beobachtet wird, in ihren Merkmalen systematisch von der Gruppe der Personen unterscheidet, die der Wirkung von T nicht ausgesetzt sind. Einerseits ist denkbar, dass das Auftreten von T durch Faktoren bestimmt wird, die soziale Opportunitätsstrukturen beschreiben – etwa wenn das Auftreten von T systematisch mit soziodemographischen Merkmalen oder biographischen Erfahrungen von Personen korreliert. Auf der anderen Seite resultieren Unterschiede in der Zusammensetzung der Vergleichsgruppen unter Umständen auch aus bewussten Entscheidungsprozessen, die bei den Studienteilnehmern individuell zur Wahl von bzw. zu einer Entscheidung gegen T geführt haben. Um dennoch kausale Schlussfolgerungen auf der Basis von Beobachtungsdaten rechtfertigen zu können, müssen die sozialen Prozesse, die zur ex post facto beobachteten Verteilung der Treatmentbedingung T geführt haben, durch die statistische Kontrolle entsprechender Kovariaten in der Abschätzung des kausalen Effekts berücksichtigt werden. Der Einschluss antezedierender Faktoren Z, die den Treatmentstatus T bedingen, dient dabei in der statistischen Analyse als nichtexperimentelles Äquivalent zur experimentellen Randomisierung. Der statistische Vergleich der Ergebnisvariablen Y in den Vergleichsgruppen unter Einschluss der Kontrollvariablen Z identifiziert den kausalen Effekt von T dabei nur dann, wenn Z eine hinreichende Teilmenge aller Merkmale enthält, die theoretisch wie empirisch das Auftreten von T bestimmen, so dass die Verteilung der Treatmentbedingung T als konditional unabhängig von der Verteilung der abhängigen Variable Y betrachtet werden kann. Anders ausgedrückt, und in Abbildung 1 graphisch illustriert, ist der kausale Effekt von T auf Y in Beobachtungsdaten immer dann identifiziert, wenn theoretisch begründet angenommen werden kann, dass die in den Fehlertermen u und e reflektierten ungemessenen
934
Markus Gangl ! rue = 0 u
e M
T
Z
Y
Bestandteil der Matchinganalyse Irrelevante Zusammenhänge
X
Abb. 1: Identifikationsannahme zur Schätzung kausaler Effekte in Matchingverfahren sonstigen Einflussfaktoren auf den Treatmentstatus T bzw. die Ergebnisvariable Y unter Kontrolle von Z als unkorreliert – d. h. quasi-randomisiert – zu betrachten sind. Die statistische Analyse identifiziert also dann einen kausalen Effekt, wenn die zur Verfügung stehenden Kovariaten Z eine theoretisch hinreichende Teilmenge der gemeinsamen Prädiktoren von T und Y umfassen, so dass die partielle Beziehung zwischen T und Y nach Kontrolle von Z nicht durch weitere ungemessene Störgrößen konfundiert ist. 1 Darüber hinaus muss zur Schätzung des kausalen Effekts von T sichergestellt sein, dass die Kovariaten der Analyse keine Mediatorgrößen M umfassen, die infolge der Wirkung von T auftreten und daher den kausalen Effekt von T zum Teil bereits indirekt vermitteln. Die Identifizierung kausaler Effekte durch die zentrale Annahme der konditionalen Unabhängigkeit (conditional independence assumption, CIA) von Treatmentstatus und Ergebnisvariable unter Kontrolle der Kovariaten ist dabei nicht spezifisch für die Anwendung von Matchingverfahren, sondern liegt genauso der kausalen Interpretation der Koeffizienten einer Regressionsanalyse zugrunde. Matchingverfahren unterscheiden sich damit nicht in Bezug auf die fundamentale Strategie zur Identifizierung kausaler Effekte von vergleichbaren Regressionsanalysen, sondern vielmehr in der statistischen Umsetzung derselben grundlegenden Methodologie. Im Vergleich zur traditionellen Regressionsanalyse besitzen Matchingverfahren allerdings den Vorzug, dass in der Ermittlung kausaler Effekte verfahrenslogisch sowohl die methodologische Vorgehensweise als auch die inhaltlichen Annahmen, die den kausalen Schlussfolgerungen zugrunde 1
Ein darüber hinausgehender Einschluss von Kovariaten in Z, die zwar mit T , nicht aber mit Y korreliert sind, führt im Rahmen von Matchinganalysen im allgemeinen zu einer Minimierung der Heterogenität der Vergleichsgruppen bei gleichzeitiger Vergrößerung des Standardfehlers der Punktschätzung des kausalen Effekts. Die Parameterschätzung ist jedoch bereits konsistent, wenn alle relevanten gemeinsamen Determinanten von T und Y in die Analyse aufgenommen sind. Für eine weiterführende allgemeine Analyse der Identifikation kausaler Effekte mit Beobachtungsdaten sei hier auf Pearl (2000) verwiesen. Ebenso sei hier explizit darauf hingewiesen, dass die CIA-Annahme selbst grundsätzlich nicht empirisch testbar ist, sondern auf der Basis eines theoretischen Modells begründet werden muss. In bestimmten Fällen, insbesondere wenn entweder Längsschnittdaten oder Daten für eine neutrale Vergleichsgruppe vorliegen, kann jedoch zumindest eine empirische Plausibilitätsprüfung vorgenommen werden (vgl. dazu näher Morgan & Winship 2007).
35 Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren
935
gelegt werden, unmittelbar transparent werden. Neben der im Grundsatz nichtparametrischen Analyse resultieren Matchingverfahren zudem in leicht interpretierbaren Effektschätzungen, die direkt auf zentrale Parameter des kontrafaktischen Modells kausaler Effekte zurückführbar sind. Die Vorgehensweise einer Matchinganalyse führt zudem auch dazu, dass die Unterscheidung zwischen kausal wirksamen Größen T und reinen Kontrollvariablen Z durchgängig gewahrt bleibt, d. h. der kausale Gehalt der geschätzten Parameter eindeutig bestimmt ist. Dies wird nicht zuletzt dadurch unterstrichen, dass Matchingverfahren einzig und allein in einer Parameterschätzung für den empirischen Effekt von T auf Y resultieren, während mögliche Assoziationen zwischen Y und den sonstigen Kovariaten der Analyse – und zwar unabhängig davon, ob diese Kovariaten antezedierende Bedingungen des Treatmentstatus beschreiben (in Abbildung 1: Z) oder Y vollständig unabhängig von T beeinflussen (in Abbildung 1: X) – nicht geschätzt werden. 1.2 Treatmenteffekte als Schätzgrößen der empirischen Analyse Zentrales Interesse einer Matchinganalyse ist damit die empirische Ermittlung des kausalen Effekts einer Treatmentbedingung T auf eine Ergebnisvariable Y . In Übereinstimmung mit dem kontrafaktischen Kausalitätsverständnis wird der kausale Effekt einer Treatmentgröße T dabei als Differenz in der Ergebnisvariable Y unter alternativen Ausprägungen von T aufgefasst. Konzeptionell ist diese Differenz auf der Ebene individueller Beobachtungen als so genannter Einheitseffekt (unit effect) definierbar, so dass kausale Effekte prinzipiell zwischen Beobachtungseinheiten, über geographische Einheiten oder auch über die Zeit variabel sein können. In der sozialwissenschaftlichen Anwendung sind diese Einheitseffekte jedoch kaum effektiv schätzbar, so dass typischerweise durchschnittliche Treatmenteffekte von T in der Stichprobe bzw. in bestimmten Teilstichproben in der Analyse ermittelt werden. Von besonderem Interesse sind dabei in der Regel der durchschnittliche Treatmenteffekt (average treatment effect, ATE) sowie der durchschnittliche Treatmenteffekt in der Experimentalstichprobe der Beobachtungseinheiten, die empirisch der Wirkung des Faktors T ausgesetzt sind (average treatment effect on the treated, ATT). Letzterer Effekt ist beispielsweise in Evaluationsstudien von besonderem Interesse, um die Effektivität einer Intervention spezifisch für die Gruppe der Maßnahmeteilnehmer zu ermitteln, während der ATE demgegenüber eine Generalisierung auch auf die Beobachtungseinheiten in der Kontrollgruppe vornimmt, die empirisch nicht der Wirkung von T ausgesetzt sind. Nicht zuletzt aufgrund dessen ist die Identifikation des ATE auch von der Plausibilität stärkerer Unabhängigkeitsannahmen abhängig, während der ATT auch noch in Situationen identifiziert ist, in welchen nicht davon ausgegangen werden kann, dass mit den zur Verfügung stehenden Kovariaten die Problematik der Selbstselektion des Treatmentstatus T durch die individuellen Akteure hinreichend erfasst wird.
936
Markus Gangl
Neben der Ermittlung der ATE- bzw. ATT-Effekte in der Stichprobe2 werden häufig noch konditionale Treatmenteffekte (conditional average treatment effect [on the treated], CATE bzw. CATT) für Substichproben berichtet, um beispielsweise systematische Unterschiede in der Wirkung der Treatmentgröße T in verschiedenen sozio-demographischen Gruppen zu betrachten. Ebenso werden gelegentlich andere Kennziffern der Verteilung der Treatmenteffekte (so genannte quantile treatment effects [on the treated], QTE bzw. QTT) ermittelt, um einen Eindruck der Varianz des Effekts von T in der Stichprobe zu erhalten. Wichtig ist zudem, dass im Rahmen von Matchingverfahren aufgrund des nichtparametrischen Schätzverfahrens alle genannten Parameter in der Regel nur für die Teilstichprobe der Beobachtungen identifiziert werden kann, für bestimmte Merkmalskombinationen der Hintergrundkovariaten Z sowohl Beobachtungen, die der Wirkung von T ausgesetzt sind, als auch Beobachtungen, die der Wirkung von T nicht ausgesetzt sind, in den empirischen Daten vorliegen. Da dieser Bereich des Common support in der Regel nicht die gesamte Stichprobe umfasst, können Matchingverfahren insgesamt auch als Verfahren zur Sensitivitätsanalyse von Regressionsergebnissen verstanden werden, die eine Abschätzung erlauben, inwieweit kausale Schlussfolgerungen nichtparametrisch, d. h. rein datengestützt erfolgen können, bzw. auf parametrische Annahmen zur funktionalen Form des Regressionsmodells angewiesen sind. 1.3 Durchführung der empirischen Analyse Die Abschätzung des Treatmenteffekts von T erfolgt in Matchingverfahren in drei Analyseschritten, die sich forschungslogisch direkt aus den Identifikationsbedingungen kausaler Schlussfolgerungen ergeben. In einem ersten Analyseschritt werden die relevanten antezedierenden Kovariaten Z bestimmt, die T und Y vorgelagert sind und durch deren Einschluss als Kontrollvariablen der interessierende kausale Effekt identifiziert wird. Im Rahmen des Propensity score matchings wird in diesem Analyseschritt ein explizites Zuweisungsmodell (assignment model) geschätzt, mit dem die Zugehörigkeit zur Experimentalbedingung T durch die Kovariaten Z vorhergesagt wird. Auf der Basis des Zuweisungsmodells wird in einem zweiten Schritt mittels Verwendung eines Matchingalgorithmus die Verteilung der Kovariaten Z über die Vergleichsgruppen der Analyse angeglichen. Bei Gültigkeit der CIA-Annahme und soweit durch den Matchingalgorithmus eine hinreichende Homogenität der Vergleichsgruppen erreicht wird, entspricht die Differenz der Ergebnisverteilungen in den statistisch konstruierten Vergleichsgruppen dem kausalen Effekt von T auf Y . Als Hauptschwierigkeit in der Anwendung von Matchingverfahren galt lange Zeit die nichtparametrische Kontrollgruppenbildung im mehrdimensionalen Merkmalsraum. Wenn, wie in klassischen Ansätzen des Covariate matching angestrebt, die Homogenisierung der Vergleichsgruppen direkt auf der Ebene der Kovariaten Z erfolgt, 2
Da in den Sozialwissenschaften Beobachtungsdaten häufig in Form repräsentativer Stichproben vorliegen, ist der Stichprobenschätzer typischerweise gleichzeitig auch ein unverzerrter und optimaler Schätzer der ATE- bzw. ATT-Parameter in der Grundgesamtheit (vgl. Imbens 2004).
35 Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren
937
dann sind offensichtlich gerade in sozialwissenschaftlichen Anwendungen mit ihrer typischerweise hohen Zahl von metrischen wie kategorialen Kovariaten – etwa Alter, Geschlecht, Nationalität, Bildungsniveau, Erwerbseinkommen, Wohnort, Familienstand, Haushaltsgröße und entsprechende demographische und sozialstrukturelle Merkmale von Ehe- und Lebenspartnern – nahezu unrealistisch große Datensätze erforderlich, um für die entsprechend hohe Zahl empirisch auftretender Merkmalskombinationen eine statistische Kontrollgruppenbildung durch (zumindest näherungsweise) exaktes Matching zu garantieren. Rosenbaum & Rubin (1983) gelang es in einem mittlerweile klassischen Aufsatz jedoch, das Problem der multidimensionalen Vergleichsgruppenbildung dadurch entscheidend zu vereinfachen, dass sie nachweisen konnten, dass eine Kontrollgruppenbildung über die Linearkombination der antezedierenden Kovariaten Z – den so genannten Propensity score – für die konsistente Schätzung des kausalen Effekts von T auf Y hinreichend ist. In der Praxis wird der Propensity score in der Regel als vorhergesagte bedingte Wahrscheinlichkeit aus einer logistischen oder ProbitRegression des Treatmentstatus T auf die antezedierenden Kovariaten Z geschätzt. Zur Angleichung der Hintergrundkovariaten in den Vergleichsgruppen der Analyse wird der Propensity score als Ähnlichkeitsmaß betrachtet, so dass das ursprünglich mehrdimensionale auf ein lediglich eindimensionales Matchingproblem reduziert ist.3 Nachdem die geschätzten Propensity scores vorliegen, werden Matchingalgorithmen verwendet, um eine gematchte Stichprobe zu konstruieren, in der sich die Verteilung des Propensity scores – und damit indirekt auch der darin eingegangenen Hintergrundkovariaten Z – nicht mehr systematisch über die Vergleichsgruppen der Analyse unterscheidet, d. h. die Vergleichsgruppen im Hinblick auf die Hintergrundkovariaten balanciert sind. Zur Balancierung der Hintergrundkovariaten stehen eine Reihe von Algorithmen zur Verfügung, die sich im Wesentlichen fünf grundständigen Typen zuordnen lassen. Neben dem exakten Matching, das in der Praxis nur eine vernachlässigbare Rolle spielt, zählen hierzu die Stratifizierung (gelegentlich auch als Interval matching bezeichnet), das Nearest neighbor matching sowie Radius und Kernel matching. Grundidee stratifizierender Verfahren ist die Anpassung der Kovariaten durch Bildung hinreichend homogener Schichten innerhalb der Analysestichprobe, während Nearest neighbor-Verfahren eine explizite statistische Paarbildung der relativ ähnlichsten Beobachtungen aus der Experimental- und Kontrollstichprobe vornehmen. Radius und Kernel matching sowie verwandte Verfahren beziehen schließlich die gesamte Kontrollstichprobe in die Schätzung der kontrafaktischen Ergebnisvariable ein, wobei im Radius matching innerhalb einer Toleranzschwelle alle ähnlichen Kontrollbeobachtungen herangezogen werden, während im Kernel matching die Beobachtungen 3
Es ist ebenfalls möglich, den vorhergesagten Index des Wahrscheinlichkeitsmodells oder, im Rahmen einer logistischen Regression, die vorhergesagten odds als Grundlage des Matchingalgorithmus heranzuziehen. Die Verwendung dieser alternativen Metriken wird man vor allem in Erwägung ziehen, um eine stärkere Differenzierung der Beobachtungseinheiten zu erreichen, wenn sich ein großer Teil der Stichprobe in den Enden der Verteilung befindet. Der vorhergesagte Logit bzw. die vorhergesagten odds müssen zudem im Falle von choice based sampling verwendet werden, um in Verbindung mit Kernel- und verwandten Matchingalgorithmen konsistente Parameterschätzungen zu erhalten (vgl. Heckman & Todd 2004).
938
Markus Gangl
der Kontrollgruppe jeweils über eine Distanzfunktion gewichtet in die Analyse eingehen. Innerhalb jeder Familie von Algorithmen existieren zudem vielfältige Varianten – z. B. Nearest neighbor-Verfahren, die nur eine oder mehrere Kontrollbeobachtungen matchen, oder die eine Paarbildung nur innerhalb eines bestimmten Ähnlichkeitsradius (caliper) vornehmen – und die verschiedenen Algorithmen können zum Teil auch sinnvoll kombiniert werden, z. B. indem ein Nearest neighbor-Algorithmus stratifiziert innerhalb von geographischen Regionen oder getrennt für Männer und Frauen durchgeführt wird, um dadurch die Homogenität der Vergleichgruppen in Bezug auf einige zentrale Kovariaten sicher zu stellen bzw. explizit eine Heterogenität des Zuweisungsmodells zu berücksichtigen. Neben der angemessenen Kontrolle relevanter antezedierender Kovariaten sind die Minimierung von Unterschieden in der Verteilung der Kovariaten in den Vergleichsgruppen der Analyse (Bias) sowie die Varianz bzw. Effizienz des resultierenden Punktschätzers für den kausalen Effekt von T die wichtigsten Kriterien in der Wahl eines konkreten Matchingalgorithmus. Da die verschiedenen Algorithmen asymptotisch zu äquivalenten Ergebnissen führen, hat die Auswahl eines spezifischen Matchingverfahrens in großen Stichproben mit einer hohen Zahl verfügbarer Kontrollbeobachtungen – die für sozialwissenschaftliche Anwendungen häufig typisch sind – in der Regel nur einen geringen Einfluss auf die resultierenden Parameterschätzungen. In kleineren Stichproben ist es dagegen in der Regel geboten, die Wahl des Matchingalgorithmus spezifisch auf die Struktur des vorliegenden Datensatzes abzustimmen, um die Informationen aus einer vergleichsweise geringen Zahl von verfügbaren Kontrollbeobachtungen optimal nutzen zu können. Dies gilt umso mehr, als in Matchinganalysen in der Regel gefordert wird, die Konstruktion der Vergleichsgruppen nur innerhalb des Überlappungsbereichs der Verteilung des Propensity scores bzw. der Hintergrundkovariaten Z (common support) vorzunehmen, um die nichtparametrische Identifikation des kausalen Effekts zu garantieren. Vor diesem Hintergrund ist es gerade in kleineren Stichproben essenziell, vor dem eigentlichen Matching die Verteilung der Propensity scores in den Vergleichsgruppen der Analyse daraufhin zu betrachten, ob der Bereich des Common support überhaupt hinreichend groß erscheint, um eine sinnvolle Parameterschätzung mittels Matching zu ermöglichen. Andernfalls können kausale Effekte nur geschätzt werden, indem mittels parametrischer Annahmen zur funktionalen Form der Regressionsfunktion über Bereiche fehlender Überschneidung extrapoliert bzw. die Homogenität des kausalen Effekts in Bereichen der Stichprobe angenommen wird. Erscheint der Einsatz eines Matchingalgorithmus prinzipiell sinnvoll, dann ist in der Wahl des Algorithmus zu beachten, dass in der Regel ein Zielkonflikt zwischen der Minimierung der Heterogenität der Stichproben (Biasreduktion) und der Varianz der Parameterschätzer besteht. Da sie durch explizite Paarbildung die Qualität individueller Matches maximieren, sind Methoden des Nearest neighbor matching in der Regel vorteilhaft, um eine optimale Biasreduktion zu erreichen. Dies gilt insbesondere, wenn Nearest neighbor-Verfahren mit Zurücklegen durchgeführt werden, so dass einzelne sehr gut geeignete Kontrollbeobachtungen mehrfach in der Konstruktion der kontrafaktischen Stichprobe berücksichtigt werden können, und wenn das Nearest neighbor matching mit caliper durchgeführt wird, so dass eine Mindestähnlichkeit der gematchten Beobachtungen garantiert ist.
35 Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren
939
Andererseits führt die Verwendung eines Nearest neighbor-Verfahrens in der Regel dazu, dass nur ein Teil der Kontrollbeobachtungen in der Konstruktion der kontrafaktischen Stichprobe genutzt wird, wodurch sich die Varianz der Parameterschätzungen relativ vergrößert. Diesbezüglich sind Methoden wie das Nearest neighbor-Verfahren mit multiplen Kontrollbeobachtungen, Radius oder Kernel matching von Vorteil, die systematisch eine größere Anzahl von Kontrollbeobachtungen in der Konstruktion der kontrafaktischen Stichprobe heranziehen. Allerdings sinkt dadurch in der Regel die durchschnittliche Qualität der konstruierten Matches, so dass die Verwendung dieser Verfahren vor allem dann in Betracht kommt, wenn die zur Verfügung stehenden Stichproben bzw. vor allem die Fallzahlen im Bereich des Common support noch ausreichend sind, um – eventuell unter Festlegung eines entsprechenden calipers bzw. Radius oder Bandbreiten-Parameters im Kernel matching – die Bildung multipler Matches von hinreichend großer Ähnlichkeit zu erlauben. Nach Durchführung des eigentlichen Matchingverfahrens ist noch zu prüfen, ob die Spezifikation des Zuweisungsmodells in Verbindung mit dem gewählten Matchingalgorithmus empirisch zu der gewünschten Balancierung der Hintergrundkovariaten in den Vergleichsgruppen der Analyse geführt hat. Dazu wird in der Regel für den Propensity score sowie separat für jede Hintergrundkovariate der standardisierte Bias berechnet, der in den konstruierten Vergleichsgruppen soweit wie möglich minimiert werden sollte. In der Praxis werden oft Schwellenwerte von 3 %–5 % für den verbleibenden standardisierten Mittelwertunterschied in den gematchten Stichproben als adäquat angesehen, wobei dieser Wert sicher nur als Richtwert anzusehen ist und gerade bei zentralen Kovariaten der Analyse idealerweise deutlich unterschritten werden sollte. Ebenso ist es möglich, höhere Momente (etwa die Varianz) der Merkmalsverteilungen anzupassen, multivariate Vergleiche der Verteilung der Hintergrundkovariaten vorzunehmen oder die Erklärungskraft des Zuweisungsmodells in den Rohdaten und in der gematchten Stichprobe zu vergleichen, um Probleme in der Balancierung der Hintergrundkovariaten zu lokalisieren und anschließend durch Verwendung eines alternativen Matchingalgorithmus oder mittels eines respezifizierten Zuweisungsmodells – etwa durch Einschluss von nichtlinearen Zusammenhängen oder relevanten Interaktionstermen – zu beheben. In der Praxis weit verbreitet ist auch die Verwendung statistischer Signifikanztests, z. B. von T-Tests auf Mittelwertunterschiede in den Hintergrundkovariaten in den Vergleichsgruppen oder innerhalb von Schichten des Propensity scores, oder auch Likelihood-Ratio-Tests der Modellgüte des Zuweisungsmodells, wobei auf eine ausreichende Balancierung der Kovariaten geschlossen wird, wenn die entsprechenden Nullhypothesen nicht abgelehnt werden können. Da die Balancierung jedoch eine Stichproben- und keine Populationseigenschaft darstellt, und die Aussagekraft der Signifikanztests zudem entscheidend von der verfügbaren Stichprobengröße abhängig ist, ist von ihrer Verwendung im Rahmen von Balancierungstests entschieden abzuraten (vgl. Imai et al. 2008).4 4
Eine irritierende Konsequenz der diesbezüglichen Verwendung von statistischen Signifikanztests besteht darin, dass eine „hinreichende“ Balancierung der Stichproben einfach dadurch erreicht werden kann, dass die Stichprobengröße systematisch reduziert wird und damit die Standardfehler der Kennziffern vergrößert werden.
940
Markus Gangl
Liegen schließlich adäquat balancierte Vergleichsstichproben vor, kann die Schätzung der kausalen Parameter mittels einfacher nichtparametrischer Vergleiche der Ergebnisverteilungen in den gematchten Stichproben erfolgen. Im Falle einer metrischen Ergebnisvariable Y ergibt sich der ATT beispielsweise als Mittelwertdifferenz zwischen der Stichprobe der Beobachtungen, die der Wirkung von T ausgesetzt waren, und der konstruierten Stichprobe ähnlicher Beobachtungen, die empirisch T nicht ausgesetzt waren. Der ATE-Effekt hingegen ergibt sich als gewichteter Durchschnitt aus dem so geschätzten ATT-Parameter und dem entsprechend spiegelbildlich geschätzten Parameter (dem average treatment effect on the untreated, ATU) für die Stichprobe der Beobachtungen, die empirisch der Wirkung von T nicht ausgesetzt waren, und für die eine kontrafaktische Experimentalgruppe konstruiert wird. Mit jeweils gleicher Logik können dann auch subgruppenspezifische CATE- bzw. CATT-Effekte als bedingte Mittelwertvergleiche und einzelne Quantilseffekte (QTE bzw. QTT) durch den Vergleich der Quantile der entsprechenden Ergebnisverteilungen geschätzt werden. Im Anschluss an die eigentliche Punktschätzung ist in aller Regel noch von Interesse, die Standardfehler bzw. Konfidenzintervalle der geschätzten Effekte zu bestimmen. Da allerdings zur Zeit nur für einige wenige, typischerweise sehr einfache Matchingalgorithmen analytische Schätzer vorliegen, gestaltet sich die Bestimmung der Konfidenzintervalle vergleichsweise aufwändig. In der Praxis dominieren verschiedene Näherungen sowie vor allem das Bootstrapping, wobei in der konkreten Anwendung jeweils darauf geachtet werden sollte, dass bei der Berechnung der Standardfehler neben der üblichen Stichprobenvariation zusätzlich die Variation aufgrund der Verwendung geschätzter Propensity scores, der Verwendung der Common support-Bedingung, sowie, im Falle von Nearest neighbor-Verfahren ohne Zurücklegen, der Reihenfolge der Beobachtungen berücksichtigt wird. Für die Anwendung von Bootstrapverfahren bedeutet dies konkret, dass die komplette Matchinganalyse einschließlich der Schätzung des Zuweisungsmodells und der Kontrollgruppenbildung für jede Bootstrap-Stichprobe vollständig neu berechnet werden muss. In der aktuellen ökonometrischen Literatur wird die Verwendung von Bootstrapverfahren zur Ermittlung der Standardfehler zum Teil allerdings kritisch gesehen und verschiedene Strategien zur allgemeinen Bestimmung analytischer Standardfehler diskutiert.5 Soweit in der konkreten Analyse auf analytische Standardfehler zurückgegriffen wird, die in Implementationen von Matchingverfahren in gängigen Statistikpaketen für bestimmte Algorithmen zur Verfügung gestellt werden, sollten diese allerdings mit einer gewissen Vorsicht betrachtet und berichtet werden, da sich zur Zeit noch keine einheitliche Berechnungsmethode der Standardfehler etabliert hat und die Schätzwerte verschiedener Programme deshalb erwartbar unterschiedlich ausfallen werden. 5
Abadie & Imbens (2008) zeigen beispielsweise, dass Bootstrapping im Nearest neighbor matching mit einer festen (kleinen) Zahl von matches nicht zu einer gültigen Schätzung der Standardfehler führt. Hauptgrund dafür ist, dass in größeren Stichproben Effizienzgewinne durch Nutzung einer größeren Zahl von Kontrollbeobachtungen nicht realisiert werden. Alternative Matchingalgorithmen, insbesondere Caliper, Radius, Kernel oder verwandte Matchingverfahren sind von dieser Problematik vermutlich weniger stark tangiert und bieten sich damit auch aus diesem Grund in sozialwissenschaftlichen Anwendungen und in Kombination mit Bootstrapverfahren an.
35 Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren
941
Im Allgemeinen ist jedoch zu erwarten, dass matchingbasierte Konfidenzintervalle aufgrund des nichtparametrischen Schätzverfahrens unter Umständen deutlich größer ausfallen als die Konfidenzintervalle vergleichbarer Regressionsschätzungen für dieselbe Stichprobe. 1.4 Varianten von Matchingverfahren bei Vorliegen unterschiedlicher Datenstrukturen Aus der bisherigen Darstellung sollte hervorgegangen sein, dass es sich bei Matchingverfahren nicht lediglich um ein spezielles Analyseverfahren für eine sehr spezifische Problemstellung, sondern um eine allgemeine, breit einsetzbare Methode zur nichtparametrischen Schätzung kausaler Effekte handelt, die alternativ oder in Ergänzung zu traditionellen Regressionsverfahren angewendet werden kann. Ungeachtet der Tatsache, dass Matchingverfahren bislang empirisch weit überwiegend zur Ermittlung des Effekts eines binären Treatments T auf eine metrische Ergebnisvariable Y eingesetzt wurden, können Matchingverfahren grundsätzlich für jegliche Kombination unterschiedlich skalierter abhängiger wie unabhängiger Variablen verwendet werden. Aufgrund der nichtparametrischen Schätzung des kausalen Effekts kann beispielsweise die generelle Vorgehensweise einer Matchinganalyse flexibel an das Skalenniveau der abhängigen Variable angepasst werden, indem im dritten Analyseschritt ein dem Skalenniveau angemessenes nichtparametrisches Verfahren verwendet wird, anhand dessen Gruppenunterschiede in den relevanten Kennziffern der Ergebnisverteilung ermittelt werden können. Ebenso können Matchingverfahren einfach in der Analyse polytomer oder ordinaler Treatmentbedingungen eingesetzt werden, indem multiple binäre Gruppenvergleiche vorgenommen werden und das Zuweisungsmodell der Analyse entsprechend in Form eines multinomialen Logit- oder Probitmodells geschätzt wird (vgl. Lechner 2002). Lediglich für den Fall quantitativer Treatmentvariablen wird die Analyse dadurch erschwert, dass eine Kategorienbildung notwendig und die Analyse durch die daraus resultierende Vielzahl möglicher Gruppenvergleiche potenziell sehr aufwändig wird. Ebenso kann die Verfahrenslogik einer Matchinganalyse flexibel an unterschiedliche Datenstrukturen angepasst werden. Matchingverfahren sind beispielsweise nicht auf die Analyse von Mikrodaten beschränkt, sondern können im Prinzip genauso zur Analyse höher aggregierter Daten herangezogen werden. Da in kleineren Stichproben die Suche nach hinreichend ähnlichen Vergleichsbeobachtungen allerdings generell auf fallzahlbedingte Schwierigkeiten stößt, wird eine nichtparametrische Schätzung kausaler Effekte mit Aggregatdatensätzen häufig empirisch nicht möglich sein, so dass eine entsprechend erfolglose Anwendung von Matchingverfahren darauf verweist, dass kausale Inferenzen in bestimmten Fällen entscheidend von der Annahme einer parametrischen Regressionsfunktion bzw. der Gültigkeit der Modellspezifikation abhängig sind. Schließlich ergeben sich wie in der klassischen Regressionsanalyse bei Vorliegen von Längsschnittinformationen auch im Rahmen von Matchinganalysen besondere Analysepotenziale im Hinblick auf die Ermittlung kausaler Effekte. Der Zeitbezug der Daten erlaubt es in diesem Fall zunächst, die angemessene zeitliche Reihenfolge der Messungen von Treatment-, Ergebnis- und Kontrollvariablen sicherzustellen
942
Markus Gangl
und zusätzlich die Hintergrundkovariaten um biographische Aspekte zu ergänzen. Darüber hinaus können die Analysen auch dahingehend spezifiziert werden, dass zeitpunktabhängige Treatmenteffekte geschätzt werden, indem die Ergebnisvariable Y zu unterschiedlichen Zeitpunkten nach Einsetzen der Treatmentbedingung T betrachtet wird, dass periodenspezifische Treatmenteffekte ermittelt werden, die zusätzlich die Dauer der Wirkung von T berücksichtigen, oder dass der Zeitpunkt des Einsetzens der Treatmentbedingung (die so genannte dynamische Treatmentzuweisung, dynamic treatment selection) in der Kontrollgruppenbildung berücksichtigt wird (vgl. näher dazu bspw. Brand & Xie 2007). Und schließlich bieten Längsschnittdaten die Möglichkeit, die Validität der Analysen mit Durchführung einer Differenzenschätzung – des so genannten Difference-in-Differences (DiD) Matching (vgl. Heckman et al. 1998) – entscheidend zu erhöhen, die für ungemessene, aber stabile Eigenschaften der Beobachtungseinheiten kontrolliert und dadurch die Plausibilität der CIA-Annahme gegebenenfalls nachhaltig stärkt. Soweit in Längsschnitt- wie Querschnittanalysen noch Zweifel bestehen, ob mit den verfügbaren beobachteten Kovariaten Z die relevanten konfundierenden Störgrößen zuverlässig erfasst sind, können zudem als Abschluss der Matchinganalyse Sensitivitätsanalysen durchgeführt werden, um die Sensitivität der Ergebnisse im Hinblick auf die Wirkung einer unbeobachteten Kovariate abzuschätzen (vgl. Rosenbaum 2002).
2 Mathematisch-statistische Grundlagen Grundlage des kontrafaktischen Kausalitätsverständnisses ist die Vorstellung kausaler Effekte als Unterschied in den potenziellen Ereignissen Y , die unter verschiedenen Ausprägungen eines Kausalfaktors T alternativ beobachtbar wären. Im kanonischen Fall einer binären Treatmentbedingung T mit T ∈ {0,1} und einer metrischen Ergebnisvariable Y ist der Einheitseffekt δ des Treatmentfaktors T auf der Ebene der individuellen Beobachtung i durch die Differenz Δi ≡ Y1i − Y0i
(1)
der Ereignisse Y1 und Y0 definiert, die bei Wirkung der Bedingungen T = 1 bzw. T = 0 auftreten. Implizit in dieser Definition enthalten ist die grundlegende Existenzannahme entsprechender Einheitseffekte, die in der Regel als stable unit treatment value assumption (SUTVA) bezeichnet wird. Die SUTVA-Annahme ist vergleichsweise weitreichend dahingehend, dass Effekte sozialer Interaktionen zwischen Treatment- und Kontrollgruppe, der Häufigkeit und Verteilung des Treatments T sowie sonstige allgemeine Gleichgewichtseffekte von T mit ihr unvereinbar sind. Kann die SUTVA-Annahme nicht als erfüllt angesehen werden, dann existieren die Einheitseffekte nicht, und es können durch eine Matchinganalyse – oder auch durch ein vergleichbares Regressionsmodell – keine kausal gehaltvollen Parameter geschätzt werden. Bei Gültigkeit der SUTVA-Annahme können der durchschnittliche Treatmenteffekt ATE ≡ E[Δi ] = E[Y1i − Y0i ] = E[Y1i ] − E[Y0i ] sowie alternativ der
(2)
35 Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren
ATT ≡ E[Δi |Ti = 1] = E[Y1i − Y0i |Ti = 1] = E[Y1i |Ti = 1] − E[Y0i |Ti = 1],
943
(3)
der den durchschnittlichen Effekt von T für die Teilgruppe der Beobachtungseinheiten beschreibt, die empirisch der Wirkung von T ausgesetzt waren, als zentrale Parameter der Analyse definiert werden. Diese Größen können allerdings nicht direkt beobachtet werden, da für jede Einheit i empirisch lediglich die Beobachtung exakt einer Kombination von Treatmentstatus T und Ergebnis Y möglich ist. Dieses so genannte Fundamentalproblem der Kausalanalyse ergibt sich dadurch, dass empirisch lediglich die Beobachtungen (4) Yi∗ ≡ Ti Y1i + (1 − Ti )Y0i vorliegen, d. h. eine Stichprobe zur Verfügung steht, in der ein Anteil π = E[T ] Beobachtungen empirisch der Wirkung von T ausgesetzt war, während der Anteil 1 − π der Stichprobe der Wirkung von T nicht ausgesetzt war. Die Zerlegung E[Δi ] = πE[Y1∗ − Y0 |Ti = 1] + (1 − π)E[Y1 − Y0∗ |Ti = 0] = πE[Y1∗ |Ti = 1] + (1 − π)E[Y1 |Ti = 0] − {πE[Y0 |Ti = 1] + (1 −
π)E[Y0∗ |Ti
(5)
= 0]}
zeigt beispielhaft auf, dass die empirische Schätzung des ATE-Parameters in der Konsequenz notwendigerweise auf Annahmen über die kontrafaktischen, d. h. unbeobachtbaren Terme E[Y1 |Ti = 0] und E[Y0 |Ti = 1] beruht. Die äquivalente Zerlegung des ATT-Parameters aus Gleichung (3) unterstreicht dagegen, dass in diesem Fall lediglich eine Annahme zur adäquaten Schätzung von E[Y0 |Ti = 1] notwendig ist, so dass die Identifikation des ATT-Parameters empirisch in der Regel vergleichsweise weniger problematisch ist. Wenn gleichzeitig angenommen wird, dass die potenziellen Ereignisse Y1 und Y0 gemäß Y0i = μ0 (Xi ) + U0i Y1i = μ1 (Xi ) + U1i
(6)
sowohl von einer Reihe beobachteter Variablen X als auch von unbeobachteten Einflussgrößen U bestimmt werden,6 dann ist der ATE-Parameter unter den Bedingungen E[Y1∗ |X,Ti = 1] = E[Y1 |X,Ti = 0] ⇔ E[X|Ti = 1] = E[X|Ti = 0] ∩ E[U1 |Ti = 1] = E[U1 |Ti = 0] A − 2 : E[Y0 |X,Ti = 1] = E[Y0∗ |X,Ti = 0]
A−1:
(7)
⇔ E[X|Ti = 1] = E[X|Ti = 0] ∩ E[U0 |Ti = 1] = E[U0 |Ti = 0] identifiziert, während zur Identifikation des ATT-Parameters bereits die Gültigkeit von Annahme (A-2) hinreichend ist. Der ATE-Parameter ist mit anderen Worten immer 6
Die Wirkung der Kovariaten X wirkt sich in Gleichung (6) über eine nicht weiter spezifizierte nichtparametrische Funktion μ(·) auf Y aus, wobei sowohl die Wirkung der beobachteten Kovariaten X wie auch der Einfluss der unbeobachteten Faktoren U prinzipiell von T abhängig sein kann (d. h. allgemeinen gilt μ0 (·) = μ1 (·) und U0i = U1i sowie E(U0 ) = E(U1 ) = 0).
944
Markus Gangl
dann identifiziert, wenn begründet angenommen werden kann, dass die bedingten Mittelwerte der Ereignisvariable Y unabhängig vom empirischen Treatmentstatus T angesehen werden können. Diese Annahme der conditional mean independence ist erfüllt, wenn die im Kovariatenvektor Z zur Verfügung stehenden Kontrollvariablen mindestens die relevanten Faktoren X vollständig umfassen, und dadurch keine Mittelwertdifferenzen in Bezug auf ungemessene Faktoren U vorliegen, die als konfundierende Störgrößen die Wahl von bzw. Zuweisung zu einer der Treatmentbedingungen beeinflussen. Im Vergleich dazu ist die Identifikation des ATT-Parameters sogar etwas weniger voraussetzungsreich, da hierzu nur die bedingte Unabhängigkeit des Erwartungswerts der Ergebnisvariable in der Kontrollbedingung vorausgesetzt werden muss. Eine residuale positive Selbstselektion der Beobachtungseinheiten in die Treatmentbedingung, die sich z. B. aufgrund individueller Erwartungen höherer Treatmenterträge in entsprechenden Differenzen E[U1 |Ti = 1] > E[U1 |Ti = 0] in den ungemessenen Einflussfaktoren U niederschlagen. Zusätzlich können weitere Kausalparameter identifiziert werden, wenn darüber hinaus die etwas stärkere Annahme der bedingt unabhängigen Zuweisung des Treatmentstatus (strict ignorability assumption) gerechtfertigt werden kann. Im Rahmen von Matchingverfahren erfolgt die entsprechende Konditionierung über die Hintergrundkovariaten Z nichtparametrisch durch eine Neugewichtung der vorhandenen Stichprobe, mit der die Balancierung der Kovariaten erreicht werden soll. Unabhängig vom spezifischen Matchingalgorithmus lässt sich beispielsweise der Matchingschätzer des ATT-Parameters mit 1 (8) ATTM = wi Y1i − Wi,j Y0j , NT1 i∈T1 ∩S
j∈T0 ∩S
d. h. als (ggf. mit Stichprobengewichten wi gewichteter) Durchschnitt der Differenzen zwischen den Ereignissen Y1i der Experimentalbeobachtungen i ∈ T1 mit T = 1 und der mit Wi,j gewichteten Ereignisse Y0j der Kontrollbeobachtungen j ∈ T0 mit T = 0 angeben (vgl. Heckman et al. 1998). Da die Gewichte Wi,j in allen Matchingalgorithmen auf einer Distanzfunktion basieren, erfolgt die nichtparametrische Konstruktion der kontrafaktischen Vergleichsgruppe also, indem separat für jede Beobachtung der Experimentalgruppe in Bezug auf die relevanten beobachteten Hintergrundkovariaten Z die relative Ähnlichkeit zu allen Beobachtungen der Kontrollgruppe berechnet, und anschließend die kontrafaktische Ergebnisvariable mit Hilfe der entsprechenden Ähnlichkeitsgewichte als neu gewichteter Durchschnitt der beobachteten Ereignisse in der Kontrollgruppe geschätzt wird. Der Schätzer des ATT ergibt sich dann als einfacher Durchschnitt über die kontrafaktischen Kontraste in der Stichprobe der Experimentalbeobachtungen.7 Wichtig ist allerdings, dass der nichtparametrische 7
Zusätzlich wird gelegentlich empfohlen, die matchingbasierte Vergleichsgruppenbildung durch eine regressionsbasierte Schätzung des Treatmenteffekts in der gematchten Stichprobe zu ergänzen (vgl. etwa Rubin & Thomas 2000). Durch entsprechend „doppelt robuste“ Schätzverfahren wird versucht, eine zuverlässigere Parameterschätzung zu erreichen, bei der sich mögliche Spezifikationsfehler im Matchingverfahren bzw. im Regressionsmodell gegenseitig neutralisieren.
35 Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren
945
Matchingschätzer die kontrafaktischen Kontraste nur im Bereich des Common support S, d. h. nur bei sich überlappendenden Verteilungen der Hintergrundkovariaten in den Vergleichsgruppen der Analyse konstruiert, da auf die für eine Extrapolation notwendigen weitergehenden Annahmen zur funktionalen Form eines Ergebnismodells explizit verzichtet wird. In Abhängigkeit von den empirischen Verteilungen ist es deshalb möglich, dass durch den Matchingschätzer lediglich ein ATT-Parameter für eine spezifische Substichprobe ermittelt werden kann, der nicht umstandslos auf den entsprechenden Stichproben- oder gar Populationsparameter generalisiert werden kann. Völlig analog zum obigen Matchingschätzer für den ATT-Parameter kann ein Schätzer für den durchschnittlichen Treatmenteffekt in der Kontrollstichprobe (average treatment effect on the untreated, ATU) definiert werden, der entsprechend den kausalen Effekt von T für die Gruppe von Beobachtungen beschreibt, die empirisch der Wirkung von T nicht ausgesetzt waren. Der ATU-Parameter wird aufgrund der Heterogenität der Einheitseffekte und insbesondere bei positiver Selbstselektion in die Treatmentbedingung T im Allgemeinen vom ATT-Parameter abweichen. Nach Abschätzung der ATT- und ATU-Parameter folgt der ATE-Parameter unmittelbar als gewichteter Durchschnitt ATEM = πATTM + (1 − π)ATUM
(9)
aus den geschätzten durchschnittlichen Treatmenteffekten in den beiden Teilstichproben. Zur matchingbasierten Schätzung dieser Parameter ist offenkundig die Wahl einer geeigneten Distanzfunktion sowie, darauf aufbauend, eines geeigneten Konstruktionsprinzips der Gewichte Wi,j notwendig. Im Anschluss an Rosenbaum und Rubins (1983) grundlegende Arbeiten wird in der Praxis in der Regel der geschätzte Propensity score P (Z) ≡ P r(Ti = 1|Zi ) als Distanzmaß verwendet.8 Der Propensity score ist dabei nichts anderes als die bedingte Wahrscheinlichkeit, der Experimentalgruppe T1 anzugehören, d. h. der Wirkung des Treatments T ausgesetzt zu sein. Die empirische Schätzung des Propensity scores erfolgt in der Regel über ein parametrisches Wahrscheinlichkeitsmodell, z. B. die logistische Regression P r(Ti = 1|Zi ) =
exp(Zi β) 1 + exp(Zi β)
(10)
und der anschließenden Berechnung der entsprechend der Kovariatenkonstellation Zi vorhergesagten bedingten Wahrscheinlichkeiten Pi für jede Beobachtungseinheit i der Stichprobe. In der Literatur existiert ein Konsens, dass die Wahl eines spezifischen 8
In bestimmten seltenen Fällen kann es möglich sein, die individuellen Propensity scores exakt zu bestimmen. Die Verwendung bekannter anstelle geschätzter Propensity scores erhöht die Effizienz der Schätzer und eliminiert die Möglichkeit aufgrund eines fehlspezifizierten Zuweisungsmodells verzerrter Parameterschätzungen. Ebenso ist es möglich, Transformationen des Propensity scores als Distanzmaß in der Analyse zu verwenden. Im Unterschied zum Propensity score matching werden im klassischen Covariate matching dagegen −1 schließlich die Distanzen z. B. unter Verwendung der Mahalanobis-Metrik (Zi − Zj ) (Zi − Zj ) direkt auf der Ebene der Hintergrundkovariaten Z bestimmt.
946
Markus Gangl
Wahrscheinlichkeitsmodells im Allgemeinen keinen nennenswerten Einfluss auf die Ergebnisse einer Matchinganalyse hat, so dass alternativ zu (10) in der Praxis auch Probit-Modelle, lineare Wahrscheinlichkeitsmodelle oder semiparametrische Schätzverfahren Anwendung finden. Letztere besitzen den Charme, auch im Rahmen des Zuweisungsmodells auf starke parametrische Annahmen zu verzichten, allerdings führt ihre Anwendung dazu, dass damit das Dimensionalitätsproblem – das in der eigentlich interessierenden Parameterschätzung durch die Verwendung des Propensity scores umgangen wird – nunmehr im Zuweisungsmodell der Analyse auftritt. In jedem Fall ist aber zu beachten, dass das Zuweisungsmodell im Rahmen der Matchinganalyse als rein prädiktiv aufgefasst wird, so dass den dort ermittelten Kovariateneffekten β nicht notwendigerweise ein kausaler Status in der sozialen Zuweisung zu den Treatmentbedingungen zukommt; die Rolle der Kovariaten Z besteht vielmehr ausschließlich darin, die konditionale Unabhängigkeit von Treatmentstatus und Ergebnisvariable zu erzeugen und die Wirkung entsprechender Störgrößen – welche die eigentlich wirksamen Kausalfaktoren darstellen können – statistisch zu kontrollieren. Aus dem Erfordernis, für die nichtparametrische Schätzung der Kausalparameter eine hinreichende Überlappung der Verteilung der Hintergrundkovariaten zur Verfügung zu haben, folgt schließlich noch die zunächst etwas paradox anmutende Notwendigkeit, auf die Verwendung perfekter Prädiktoren von T im Zuweisungsmodell zu verzichten. Liegen entsprechende Prädiktoren vor, könnte ihre Verwendung im Zuweisungsmodell im Extremfall zu einer kompletten Separierung der Vergleichsgruppen führen, so dass der nichtparametrische Ergebnisvergleich mittels gematchten Kontrollgruppen nicht mehr durchführbar ist. Stattdessen sollten entsprechende Kovariaten ggf. zur Verwendung im Rahmen einer Instrumentalvariablenschätzung bzw. eines Regression discontinuity design in Betracht gezogen werden. Liegen schließlich die geschätzten Propensity scores vor, dann wird durch die Verwendung eines Matchingalgorithmus die Balancierung der Kovariaten in den Vergleichsgruppen und dadurch die Konstruktion einer validen kontrafaktischen Ergebnisschätzung zur Bestimmung des kausalen Effekts von T angestrebt. Die verschiedenen grundständigen Algorithmen zur Konstruktion der Gewichte Wi,j sind in der Übersicht in Tabelle 1 beschrieben, wobei in der Praxis vielfältige Varianten und Kombinationsmöglichkeiten existieren und eingesetzt werden können. Wie bereits oben in Abschnitt 1 ausgeführt, ist die Wahl eines spezifischen Algorithmus vor allem in kleineren und mittelgroßen Stichproben für die Qualität der Analyse bedeutsam, so dass in diesen Fällen die Auswahl eines Matchingprinzips in Übereinstimmung mit der Struktur der vorhandenen Daten erfolgen sollte. Neben allgemeinen Überlegungen zur Vereinbarkeit der beiden Kriterien der Biasminimierung zwischen den Vergleichsgruppen sowie der Varianz der Matchingschätzer können dazu die Betrachtung der Verteilungen der Propensity scores sowie die Zahl und Qualität der unter alternativen Algorithmen erzielbaren Matches als wesentliche Entscheidungskriterien herangezogen werden. Zur Beurteilung der Qualität der erreichten Balancierung hat sich vor allem der von Rosenbaum & Rubin (1985) vorgeschlagene standardisierte Bias SB(Z) = 3
Z¯T1 − Z¯T0 0,5 · [VT1 (Z) + VT0 (Z)]
(11)
35 Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren
947
Tab. 1: Konstruktion der Gewichtungsfunktion in zentralen Matchingalgorithmen Verfahrensbeschreibung
Gewichtungsfunktion Wi,j
Stratifizierung (Interval matching )
Schichtung der Stichprobe in k Teilgruppen über P
Wi,j =
Nearestneighbor matching
Paarbildung zwischen Beobachtungen der Experimental- und m Beobachtungen der Kontrollstichprobe entsprechend maximaler Ähnlichkeit auf P
Caliper matching
Paarbildung zwischen der Experimental- und den m ähnlichsten Kontrollbeobachtungen innerhalb eines Ähnlichkeitsbereichs c um Pi
Radius matching
Paarbildung zwischen der Experimental- und Kontrollstichprobe innerhalb eines Ähnlichkeitsbereichs r um Pi
Kernel matching
Kontrollbeobachtung als gewichteter Durchschnitt aller Fälle der Kontrollstichprobe; Gewichtungsfaktoren ermittelt durch Distanzfunktion
:
1/N
k
0
: Wi,j =
1/m
0
für j ∈ k sonst für j ∈ arg minm {|Pi − Pj |} sonst
⎧ ⎨1/mi für j ∈ {|Pi − Pj | ≤ c} Wi,j =
∩ arg minm {|Pi − Pj |} sonst
⎩
0
: Wi,j =
1/N
r
0
für j ∈ {|Pi − Pj | ≤ r} sonst
K[(Pj −Pi )/h] Wi,j = K[(Pk −Pi )/h] k∈C
mit K – Kernelfunktion K(·) über P und h – Bandbreitenparameter
als Maß etabliert, mit dem die durch das Matching erreichte Verringerung der Heterogenität der Vergleichsgruppen (Biasreduktion) bzw. die nach dem Matching noch verbliebene Heterogenität ausgedrückt werden kann. In Bezug auf Letztere gelten Biaswerte von 3 % bis 5 % auf allen Variablen der Analyse in der Regel als akzeptabel, wobei zumindest für zentrale Kovariaten idealerweise eine noch weitergehende Homogenisierung der Vergleichsgruppen anzustreben ist. Ergänzend sei hier ebenfalls noch angemerkt, dass mit der Beurteilung der Balancierung der Kovariaten in den Vergleichsgruppen lediglich die Güte des Zuweisungsmodells und des gewählten Matchingalgorithmus für die vorliegenden empirischen Daten geprüft wird. Eine Aussage über die Validität der Parameterschätzungen ist damit keinesfalls verbunden, da hierzu ein Test der Gültigkeit der identifizierenden CIA-Annahme notwendig wäre. Im Falle von Beobachtungsdaten besteht dieser forschungslogisch aus dem Abgleich zwischen dem theoretisch unterstellten Modell der gemeinsamen Ereignisse T und Y
948
Markus Gangl
sowie der relevanten sozialen Vorbedingungen Z∗ (d. h. von Abbildung 1) mit den in der empirischen Analyse faktisch zur Verfügung stehenden Kovariaten Z und einer entsprechend theoretisch informierten Einschätzung darüber, inwiefern aus der Diskrepanz von Z und Z ∗ erwartbare Verzerrungen der Parameterschätzungen resultieren.
3 Ein Anwendungsbeispiel: der Einkommenseffekt eines Arbeitsplatzverlustes Um diese Überlegungen im Rahmen einer praktischen Anwendung zu konkretisieren, wird im Folgenden eine empirische Abschätzung der Karrierewirkungen von Arbeitslosigkeit mittels Nearest-neighbor propensity score matching vorgenommen. Präziser formuliert soll der kausale Effekt eines Arbeitsplatzverlustes und der anschließenden Arbeitslosigkeit auf die weiteren Einkommensaussichten der von einem Arbeitsplatzverlust Betroffenen ermittelt werden. Damit ist Vorzeichen wie Stärke des ATT-Parameters von Interesse, während der ATE-Parameter geschätzt werden müsste, um Aussagen über die typischen Einkommensfolgen einer Arbeitslosigkeit für den durchschnittlichen Arbeitnehmer zu treffen. Als Datenbasis für die folgende Analyse werden die Wellen N–R (1997–2001) des Sozio-ökonomischen Panels (SOEP, vgl. SOEP-Group 2001) herangezogen. Für die Analyse steht eine Treatmentstichprobe von knapp 420 Arbeitnehmern aus den alten wie den neuen Bundesländern zur Verfügung, die 1997 zum Befragungszeitpunkt abhängig beschäftigt waren, ihren Arbeitsplatz jedoch bis zur Wiederholungsbefragung 1998 verloren hatten und zusätzlich angaben, nach dem Arbeitsplatzverlust arbeitslos gewesen zu sein. Für etwa 300 Arbeitslose wird in den Folgebefragungen bis 2001 mindestens einmal eine erneute Erwerbstätigkeit und ein damit verbundenes Bruttomonatseinkommen beobachtet, und durch die empirische Analyse soll geklärt werden, inwiefern sich die Erfahrung der Arbeitslosigkeit negativ auf die Einkommensaussichten dieser Arbeitnehmer ausgewirkt hat. Als potentielle Kontrollgruppe steht für die Analyse eine Stichprobe von insgesamt etwa 6.100 durchgängig beschäftigten Arbeitnehmern zur Verfügung, die 1997 zum Interviewzeitpunkt ebenfalls abhängig beschäftigt waren, jedoch ihren Arbeitsplatz zwischen den Interviews 1997 und 1998 nicht verloren hatten.9 Als abhängige Variablen der Analyse wird im Folgenden das logarithmierte inflationsbereinigte Bruttomonatseinkommen bei der ersten beobachteten Beschäftigung nach 1997 betrachtet, d. h. es wird das Erwerbseinkommen, das vormals Arbeitslose bei der ersten Wiederbeschäftigung erzielen, mit dem Erwerbseinkommen durchgängig Beschäftigter aus dem Jahr 1998 verglichen, so dass beide Gruppen im Vergleich zum Zeitpunkt des Einsetzens des kritischen Ereignisses T – abhängig vom Befragungszeitpunkt – höchstens ein zusätzliches Jahr Berufserfahrung aufweisen. Als weitere 9
Strikt betrachtet ist die Kontrollgruppe damit durch die Abwesenheit der Ereignisse Arbeitsplatzverlust und Arbeitslosigkeit definiert, so dass es auch bei Fällen der Kontrollgruppe Beschäftigungsunterbrechungen z. B. aufgrund von Krankheit oder Erziehungsphasen vorliegen können. Zur sprachlichen Vereinfachung werden die Fälle der Kontrollgruppe im Folgenden dennoch als „durchgängig Beschäftigte“ bezeichnet.
35 Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren
949
unabhängige Variablen der Analyse, d. h. als Kontrollvariablen, die potenziell sowohl das Auftreten einer Arbeitslosigkeit wie auch die individuellen Einkommensaussichten beeinflussen, werden Faktoren wie Bildungsstand, Berufserfahrung, Geschlecht, deutsche Staatsangehörigkeit, Region (Ost/West), Berufsfeld, Branche, Arbeitszeit, Betriebsgröße sowie die Betriebszugehörigkeitsdauer beim aktuellen Arbeitgeber aus dem Jahr 1997 im Rahmen des Zuweisungsmodells einbezogen. Auf dieser Basis kann der interessierende ATT-Effekt der Arbeitslosigkeit durch einen einfachen Matchingalgorithmus geschätzt werden, wie er prinzipiell auch für „echte“ Querschnittdaten geeignet wäre. Selbstverständlich profitiert auch diese vergleichsweise einfache Analyse bereits in grundlegender Weise davon, dass im SOEP tatsächlich Paneldaten zur Verfügung stehen. Im Unterschied zu einer entsprechenden Analyse auf der Basis üblicher Querschnittbefragungen ist insbesondere der Zeitbezug der Variablen eindeutig, so dass nicht nur das Auftreten, sondern auch der Auftretenszeitpunkt der Treatmentbedingung exakt bestimmt und der Zeitpunkt der Ergebnismessung exakt festgelegt werden kann. Zudem kann auch die logische wie zeitliche Ordnung von Kontroll-, Treatment- und Ergebnisvariablen gewahrt werden bzw. sich in den Messzeitpunkten in angemessener Weise widerspiegeln. Der wesentliche verbleibende Unterschied zu einer „echten“ Längsschnittanalyse ist dann, dass für die abhängige Variable der Analyse lediglich eine Messung nach Auftreten der Treatmentbedingung T verwendet wird. Wenn dagegen zusätzlich – wie faktisch im SOEP – Beobachtungen des Erwerbseinkommens vor Auftreten von T , d. h. Beobachtungen des Erwerbseinkommens aus dem Jahr 1997 oder aus früheren Jahren zur Verfügung stehen, dann kann mit dem DiD Matching ein Differenzenschätzer implementiert werden, mit welchem zusätzlich zu den beobachteten Kovariaten auch für die Effekte sonstiger unbeobachteter, aber zeitlich stabiler Eigenschaften der Befragten kontrolliert werden kann. Dieses Verfahren wird in einem zweiten Schritt der Beispielanalyse zudem allein schon aus rein didaktischen Gründen eingesetzt, um die Flexibilität von Matchingverfahren in der Anpassung an unterschiedliche Datenstrukturen zu illustrieren. Dabei wird sich zeigen, dass der Wechsel von einer Querschnittzu einer Längsschnittanalyse nur minimale Veränderungen in der praktischen Vorgehensweise einer Matchinganalyse erfordert – was vollkommen im Einklang mit der methodologischen Feststellung steht, dass sich in diesem Fall nichts am Analyseziel oder an den methodologischen Grundannahmen verändert hat, sondern dass lediglich eine vergleichsweise informativere empirische Datenbasis für die Analyse zur Verfügung steht, mit deren Hilfe die für kausale Schlussfolgerungen notwendige Annahme der bedingten Unkonfundiertheit der Zuweisung der Treatmentbedingungen T in der Regel eher gerechtfertigt werden kann. 3.1 Zuweisungsmodell Erster Schritt der Analyse ist die Spezifikation eines Zuweisungsmodells, mit dem in nicht-experimentell gewonnenen Daten die antezedierenden Bestimmungsfaktoren der empirisch (ex post facto) beobachteten Treatmentbedingungen erfasst werden sollen. Im konkreten Fall des Auftretens einer Arbeitslosigkeit ist theoretisch plausibel, dass Faktoren wie Bildungsniveau, Berufserfahrung oder Merkmale der aktuellen
950
Markus Gangl
Tab. 2: Verteilung der Hintergrundkovariaten in den Vergleichsgruppen, arithmetische Mittelwerte und Gruppenunterschiede Arbeitslose Frauen deutsche Staatsangehörigkeit alte Bundesländer Alter (Jahre) Bildungsniveau (Jahre) Berufserfahrung (Jahre) Betriebszugehörigkeitsdauer (Jahre) Logarithmiertes Bruttomonatseinkommen 1997 (real) Gruppenunterschiede (Duncan’s D) Berufsverteilung (1-Steller) Branchenverteilung (1-Steller) Betriebsgröße (5 Klassen) N
0,41 0,90 0,54 34,64 (10,84) 11,81 (2,61) 13,55 (10,94) 3,94 (5,87) 7,89 (0,62) 0,13 0,09 0,21 303
Durchgängig Beschäftigte 0,43 0,86 0,73 38,52 (10,82) 11,85 (2,55) 16,92 (10,74) 9,11 (8,94) 8,19 (0,67)
5301
Anmerkung: Standardabweichung der metrischen Kovariaten in Klammern. Datenquelle: Sozio-ökonomisches Panel, Wellen N–R, ungewichtete Daten
Beschäftigung das individuelle Risiko einer Arbeitslosigkeit, und darüber hinaus auch die individuellen Einkommensaussichten unabhängig vom Auftreten einer Arbeitslosigkeitsphase beeinflussen. Diese Faktoren sollten damit als relevante antezedierende Kovariaten betrachtet werden, deren Verteilung zur Identifikation des kausalen Effektes in den beiden Vergleichsgruppen angeglichen werden muss. Für die weitere Analyse sei zudem – vereinfachend – angenommen, dass mit diesen Kovariaten die gemeinsamen Determinanten von T und Y erfasst sind und die identifizierende Annahme konditionaler Unabhängigkeit damit erfüllt sei. Erwartungsgemäß zeigt sich in Tabelle 2 unmittelbar, dass sich die beiden Vergleichsgruppen der Analyse in Bezug auf diese relevanten Hintergrundfaktoren tatsächlich deutlich unterscheiden. Im Vergleich zur Gruppe der durchgängig Beschäftigten tritt Arbeitslosigkeit tendenziell verstärkt in den neuen Bundesländern, unter Arbeitnehmern mit deutscher Staatsangehörigkeit sowie unter jüngeren Arbeitnehmern mit geringerer Berufserfahrung und insbesondere einer kürzeren Betriebszugehörigkeitsdauer auf. Von Arbeitslosigkeit Betroffene weisen zudem bereits vor der Arbeitslosigkeit bereits ein niedrigeres Durchschnittseinkommen auf. Schließlich zeigt Tabelle 2 auch, dass das Arbeitslosigkeitsrisiko berufs- und branchenspezifisch variiert sowie von der Betriebsgröße abhängig ist, da Arbeitsplätze in größeren Betrieben vergleichsweise sicher sind.
35 Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren
951
Die multivariate Beschreibung dieser Zusammenhänge innerhalb des Matchingverfahrens erfolgt im Rahmen des Zuweisungsmodells. In der konkreten Analyse wurde dazu ein Logit-Modell geschätzt, in dem (zur Simulation einer Querschnittdatenstruktur) mit Ausnahme des Erwerbseinkommens aus dem Jahr 1997 für die Haupteffekte der genannten Kovariaten kontrolliert wurde. Unter Verwendung von df = 30 Freiheitsgraden kann mit diesem Modell ein Pseudo-R2 von 11,3 % erreicht und am empirischen cutoff von p = 0,054 66,2 % der Fälle korrekt klassifiziert werden. Mit einem etwas komplexeren Modell, in dem die Effekte von Bildungsstand, Berufserfahrung und Betriebszugehörigkeitsdauer über die Regionen (Ost/West) und Geschlechter variieren, sowie zusätzlich Interaktionsterme zwischen Bildungsniveau, Berufserfahrung und Betriebszugehörigkeitsdauer aufgenommen werden (df = 44), kann sogar ein Pseudo-R2 von 12,2 % und mit einer Quote korrekt klassifizierter Fälle von 66,8 % am empirischen cutoff eine noch etwas stärkere Diskriminierung der Vergleichsgruppen erreicht werden. In einer realen Analyse würde aufgrund der stärkeren Differenzierungsleistung, und eine hinreichende Stichprobengröße vorausgesetzt, grundsätzlich die komplexere Modellspezifikation bevorzugt werden; im Folgenden werden zum Teil jedoch auch Ergebnisse auf der Basis des einfacheren Haupteffektmodells vorgestellt, um bestimmte Eigenschaften unterschiedlicher Matchingalgorithmen empirisch zu illustrieren. 3.2 Matching und Balancierungstests Um den kausalen Effekt der Treatmentbedingung T – des Auftretens einer Arbeitslosigkeitsphase im Jahr 1997 – zu isolieren, muss die Verteilung der beobachteten Hintergrundfaktoren Z zwischen den Vergleichsgruppen der Analyse angeglichen werden. Dazu werden zunächst die geschätzten Propensity scores P (Z) als bedingte vorhergesagte Wahrscheinlichkeiten des Auftretens einer Arbeitslosigkeit aus den geschätzten Zuweisungsmodellen bestimmt. Der in Abbildung 2 a dargestellte Kern-Dichte-Schätzer der Verteilungen der Propensity scores in den beiden Vergleichsgruppen zeigt dabei – hier für den Fall der komplexeren Spezifikation des Zuweisungsmodells – ein typisches Bild. Einerseits sind die beiden Verteilungen deutlich gegeneinander verschoben, da die Prädiktoren des Zuweisungsmodells relativ erfolgreich zwischen den beiden Gruppen diskriminieren. So liegt der Mittelwert der vorhergesagten Propensity scores, d. h. die mittlere vorhergesagte bedingte Wahrscheinlichkeit einer Arbeitslosigkeit, unter den faktisch von Arbeitslosigkeit Betroffenen bei 11,3 %, unter durchgängig beschäftigten Arbeitnehmern dagegen nur bei 5,1 %. Ebenso sind die vorhergesagten Propensity scores für durchgängig Beschäftigte vergleichsweise stark im Bereich zwischen 0 < P (Z) < 0,1 konzentriert, während die Propensity scores für die Stichprobe der Arbeitslosen etwa im Bereich von 0 < P (Z) < 0,35 streuen. Andererseits besteht durchaus ein Potenzial zur nichtparametrischen Identifikation des kausalen Effekts, da sich die Verteilungen der Propensity scores in einem relativ breiten Bereich von etwa 0 < P (Z) < 0,3 überlappen, und somit empirisch relativ ähnliche Vergleichsbeobachtungen prinzipiell vorliegen.10 10
Als Konsequenz hiervon kann der Bereich des Common support im Folgenden einfach durch max{min(P (Z)|T = 0), min(P (Z)|T = 1)}, min{max(P (Z)|T = 0), max(P (Z)|T = 1)}
Markus Gangl
0.20
0.08
0.15
0.06 nach Arbeits− platzverlust
0.10
f(p(Z))
f(P(Z))
952
gesamte Stichprobe c=0,01
0.04
Durchgängig Beschäftigte
c=0,001 0.02
0.05
c=0,0001
0.00
0.00 0.0
0.1 0.2 0.3 Propensity score P(Z)
(a) Rohdaten
0.4
0.0
0.1 0.2 0.3 Propensity score p(Z)
0.4
(b) gematchte Stichproben (ohne Zurücklegen)
Abb. 2: Kern-Dichte-Schätzer der Verteilungsfunktion der Propensity scores Um die Hintergrundkovariaten in den Vergleichsgruppen anzugleichen, wird hier ein Nearest neighbor matching durchgeführt, d. h. die Homogenisierung der Stichproben wird erreicht, indem separat für jede Beobachtung der Treatmentgruppe – der Arbeitslosen – eine statistische Paarbildung mit der oder den jeweils ähnlichsten Vergleichsbeobachtungen aus der Kontrollgruppe der durchgängig Beschäftigten erfolgt. Tabelle 3 illustriert die Anpassungsleistung unterschiedlicher Algorithmen durch die Größe der gematchten Stichprobe, den in der gematchten Stichprobe für den Propensity score bzw. einige ausgewählte Kovariaten verbleibende standardisierte Bias sowie den T-Test auf Mittelwertunterschiede im Propensity score bzw. in den ausgewählten Kovariaten. Konkret wurden hier ein Nearest neighbor-Verfahren mit einer Kontrollbeobachtung (k = 1) einmal mit und einmal ohne Zurücklegen durchgeführt. Beide Varianten werden jeweils einmal ohne caliper und in Verbindung mit zunehmend stringenteren calipern von c = 0,001 bzw. c = 0,0001 Einheiten der Standardabweichung von P (Z) durchgeführt, und zudem jeweils mit den Ergebnissen eines Matchingalgorithmus verglichen, in dem zehn potenzielle Kontrollbeobachtungen (k = 10) zur Konstruktion der kontrafaktischen Stichprobe herangezogen werden. Die Kennziffern aus Tabelle 3 bestätigen dabei zunächst den Eindruck aus der obigen Betrachtung der Verteilungen der Propensity scores, dass empirisch hinreichend ähnliche Vergleichsbeobachtungen in beiden Gruppen gefunden werden können, da sich der Bereich des Common support über fast den gesamten Bereich der Verteilung des vorhergesagten Propensity scores erstreckt. Dementsprechend gelingt es fast allen vorgestellten Algorithmen, für 289 bis 302 der insgesamt 303 Beobachtungen der Treatmentstichprobe hinreichend ähnliche Vergleichsbeobachtungen zu identifizieren. festgelegt werden. Bei empirisch stärkerer Separierung der Vergleichsgruppen bzw. stärker multimodalen Verteilungen der Propensity scores sollte dagegen eine Trimmung verwendet werden, um gering besetzte Bereiche der Verteilung des Propensity scores aus der Analyse auszuschließen (vgl. Heckman et al. 1998).
35 Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren
953
Tab. 3: Balancierungstests nach Matchingalgorithmus und Modellspezifikation Standardisierter Bias (Signifikanzniveau) NT Propensity Westliche ∈ Score P(Z) BundesT =1 länder Rohdaten (1) Einfache Modellspezifikation NN+1 o.Z.a NN+1, c = 0,001a NN+1, c = 1e−4 a NN+1 NN+1, c = 0,001 NN+1, c = 0,0001 NN+10 NN+10, c = 0,001 NN+10, c = 1e−4 (2) Komplexe Modellspezifikation NN+1 o.Z.a NN+1, c = 0,001a NN+1, c = 1e−4 a NN+1 NN+1, c = 0,001 NN+1, c = 0,0001 NN+10 NN+10, c = 0,001 NN+10, c = 1e−4
303
300 296 241 300 300 245 300 300 245
1:94,4 −40,9 2:97,6 (0,00)
Berufserfahrung −31,1 (0,00)
BetriebsLog. zugehörigBruttokeitsdauer einkommen −68,4 (0,00)
−46,8 (0,00)
−0,1 (0,99) 2,8 (0,74) 1,5 (0,86) −3,4 (0,62) −11,8 (0,17) −0,0 (1,00) 2,9 (0,74) 2,3 (0,79) −1,4 (0,83) −12,4 (0,15) −0,0 (1,00) 7,0 (0,46) −5,0 (0,59) −1,1 (0,89) −14,8 (0,13) −0,0 (1,00) 6,4 (0,46) 2,1 (0,80) −1,1 (0,87) −8,9 (0,30) −0,0 (1,00) 6,4 (0,46) 2,1 (0,80) −1,1 (0,87) −8,9 (0,30) −0,0 (1,00) 7,8 (0,41) −2,4 (0,79) −1,1 (0,89) −12,4 (0,20) 0,0 (1,00) −0,3 (0,97) 1,4 (0,87) −1,9 (0,77) −11,7 (0,17) −0,0 (1,00) 0,7 (0,94) 2,7 (0,34) −0,4 (0,95) −11,4 (0,18) −0,0 (1,00) 4,8 (0,61) 2,2 (0,81) −0,1 (0,99) −12,3 (0,21)
302 −0,3 (0,98) 2,1 (0,81) −8,9 (0,28) −0,4 (0,95) 289 −0,0 (1,00) 2,2 (0,80) −9,4 (0,27) −0,7 (0,91) 239 −0,0 (1,00) 2,7 (0,78) −10,3 (0,26) −0,5 (0,95) 302 0,0 (1,00) −1,4 (0,87) −9,2 (0,26) −2,4 (0,72) 295 0,0 (1,00) −1,4 (0,87) −10,6 (0,20) −2,4 (0,72) 244 0,0 (1,00) −2,6 (0,78) −13,4 (0,14) −2,9 (0,72) 302 0,3 (0,97) 2,6 (0,76) −2,7 (0,75) −0,6 (0,93) 295 0,0 (1,00) 1,6 (0,85) −2,2 (0,79) −0,7 (0,91) 244 0,0 (1,00) 0,9 (0,92) −4,6 (0,91) −1,5 (0,85)
−17,9 (0,03) −17,7 (0,04) −19,8 (0,04) −24,0 (0,00) −25,0 (0,00) −23,5 (0,01) −15,3 (0,06) −15,0 (0,07) −15,3 (0,10)
Anmerkungen: Signifikanzniveau des Zwei-Stichproben-T-Tests auf Mittelwertunterschiede zwischen den Vergleichsgruppen in Klammern. NN+k: Nearest neighbor matching mit k Kontrollbeobachtungen. Datenquelle: Sozio-ökonomisches Panel, Wellen N–R, ungewichtete Daten. a
ohne Zurücklegen.
Erst wenn eine Genauigkeit von c = 0,0001 – d. h. eine Ähnlichkeit unterhalb des Promillebereichs der empirischen Standardabweichung von P (Z) – gefordert wird, ist es nicht mehr möglich, für einen Teil der Treatmentstichprobe hinreichend ähnliche Kontrollbeobachtungen zu generieren. Abbildung 2 b zeigt, dass die Ursache hierfür in einem systematischen Ausfall sehr guter Vergleichsbeobachtungen im oberen Bereich der Verteilung – d. h. bei Arbeitnehmern mit einem sehr hohen Arbeitslosigkeitsrisiko – zu suchen ist, so dass die resultierende Verteilung der mit einem caliper von c = 0,0001 gematchten Stichprobe deutlich von der ursprünglichen Verteilung des Propensity
954
Markus Gangl
scores in der Treatmentstichprobe abweicht. Ebenso zeigt sich in Tabelle 3, dass beim Nearest neighbor matching ohne Zurücklegen geringe Zellenbesetzungen in bestimmten Bereichen der Verteilung des Propensity scores in der Regel schneller ins Gewicht fallen, da jede Kontrollbeobachtung nur exakt einmal in der Konstruktion der gematchten Stichprobe verwendet wird und damit zur Paarbildung mit weiteren Treatmentbeobachtungen in diesem Verteilungsbereich nicht mehr zur Verfügung steht. Tabelle 3 zeigt auch, dass alle Algorithmen in der Lage sind, eine sehr weitgehende Homogenität der gematchten Stichproben in Bezug auf den Propensity score herzustellen, und dass mit dieser Anpassung des Propensity scores auch eine weitgehend zufrieden stellende Anpassung der Hintergrundkovariaten verbunden ist. Der standardisierte Bias der Kovariaten, die in Tabelle 2 die deutlichsten Gruppenunterschiede aufwiesen, wird in den allermeisten Fällen auf unter 10 % verringert und unterschreitet in der Regel die in der Literatur oft als Daumenregel geforderten Werte von 3 %–5 %. Eine deutliche Diskrepanz verbleibt lediglich jeweils für das Erwerbseinkommen vor der Arbeitslosigkeit, für das – im Gegensatz zu einer realen Analyse – hier zur Simulation eines Querschnittsmodells ja auch bewusst nicht kontrolliert wurde und das deshalb hier nur in dem Maß angepasst wird, wie es mit den übrigen „beobachteten“ Kovariaten empirisch korreliert ist. Gerade anhand der Balancierungstests für das Erwerbseinkommen lässt sich aber gut illustrieren, warum die Verwendung von Signifikanztests zu irreführenden Ergebnissen – insbesondere einer trügerischen Sicherheit in Bezug auf die erreichte Balancierung – führen kann. Abgesehen von den oben angeführten prinzipiellen Einwänden ist die Teststatistik aufgrund der Abhängigkeit von der Stichprobengröße selbst in einer mittelgroßen Stichprobe von N = 300 Treatmentfällen nur bedingt aussagekräftig, da – natürlich abhängig von den empirischen Standardabweichungen der Variablen – hier im Beispiel erst relativ starke Diskrepanzen von 15 %–20 % standardisiertem Bias als statistisch signifikant entdeckt werden. Zum zweiten zeigt sich ebenfalls, dass jede weitere Reduzierung der Stichprobengröße – z. B. durch einen strikteren caliper – auf diesem Kriterium ebenfalls automatisch zu einer verbesserten Balancierung führt. Unter allen Algorithmen steigt der p-Wert des T-Tests in Tabelle 3 mit strikterem caliper an, ohne dass sich der standardisierte Bias verändert hätte bzw. bleibt auch in den Fällen (weitgehend) konstant, in denen der standardisierte Bias absolut angestiegen ist. Darüber hinaus illustriert Tabelle 3 auch, dass mit einer komplexeren Spezifikation und einer entsprechend verbesserten Klassifikationsleistung des Zuweisungsmodells in der Regel (aber nicht notwendigerweise) auch eine bessere Balancierung der Kovariaten Z erreicht werden kann, da die Wahrscheinlichkeit sinkt, dass unterschiedliche Kovariatenkonstellationen mit identischen oder sehr ähnlichen Propensity scores einhergehen. Im Beispiel ist dies für die Region wie für die Betriebszugehörigkeitsdauer augenfällig, für die Berufserfahrung kann dagegen nur im NN+10-Algorithmus auch mit der komplexen Spezifikation des Zuweisungsmodells eine zufrieden stellende Balancierung erreicht werden, während in den NN+1-Algorithmen sogar eine deutliche Verschlechterung festzustellen ist. In der Praxis würde man sich deshalb auch kaum mit dem hier relativ mechanistisch erstellten Zuweisungsmodell zufrieden geben, sondern in der Regel von vorneherein bzw. gerade angesichts der vorliegenden unbefriedigenden Balancierungs-
35 Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren
955
tests insbesondere für die Berufserfahrung versuchen, über weitergehende explorative Datenanalysen zu einer verbesserten Modellspezifikation zu gelangen, die etwa zusätzlich weitere relevante Interaktionsterme oder auch vorhandene Nichtlinearitäten berücksichtigt. Im Vergleich der NN+1- und NN+10-Algorithmen zeigen die Balancierungstests schließlich noch, dass der in Abschnitt 1 allgemein beschriebene Zielkonflikt zwischen Biasreduktion durch NN+1-Matching und Varianzreduktion durch Verfahren, die einen größeren Teil der Kontrollstichprobe in der Konstruktion der kontrafaktischen Schätzer heranziehen, in sozialwissenschaftlichen Daten mit ihrem typischerweise sehr positiven Verhältnis von Kontroll- zu Experimentalbeobachtungen – etwa 20 : 1 im vorliegenden Fall – empirisch erfahrungsgemäß häufig nur abgeschwächt existiert. Dementsprechend sollten in sozialwissenschaftlichen Anwendungen Verfahren wie Nearest neighbor matching mit multiplen Matches bzw. Radius oder Kernel matching im Allgemeinen zur Balancierung der Vergleichsgruppen vorgezogen werden. Dies gilt umso mehr, wenn man sich gerade anhand der Ergebnisse zur mangelhaften Balancierung einiger Kovariaten im NN+1 matching konkret vergegenwärtigt, dass die varianzreduzierende Eigenschaft dieser Verfahren indirekt auch der Biasreduktion in Bezug auf die Kovariaten Z zu Gute kommt, da bei Vorliegen einer Mehrzahl geeigneter Matches die residualen Zufallsfehler in der Angleichung von Z im Vergleich zur Auswahl lediglich einer bestimmten Kontrollbeobachtung weiter minimiert werden. Aufgrund dieses in der Literatur häufig übersehenen Umstands und in Zusammenhang mit der typischen Struktur sozialwissenschaftlicher Datensätze spielt die Gefahr der potenziell geringeren Qualität akzeptierter Matches – die durch Verwendung eines calipers ohnehin begrenzt werden kann – in der praktischen Anwendung von NN+k und ähnlichen Verfahren damit häufig nur eine untergeordnete Rolle. 3.3 Parameterschätzung Entsprechend den Ergebnissen der Balancierungstests ist das Nearest neighbor matching mit einem caliper von c = 0,001 am besten geeignet, um eine homogene kontrafaktische Stichprobe für eine möglichst hohe Zahl von Treatmentbedingungen zu erzeugen. In einer konkreten Analyse würde wohl eindeutig der NN+10-Algorithmus bevorzugt werden, in Tabelle 4 werden jedoch weiterhin systematisch die Parameterschätzungen aus den drei unterschiedlichen Verfahren verglichen, um insbesondere die varianzreduzierende Eigenschaft des NN+10-Matchings auch empirisch zu illustrieren. Unter der Annahme, dass durch das Zuweisungsmodell alle relevanten Kovariaten Z kontrolliert, und damit der Treatmentstatus als konditional unabhängig von der Ergebnisvariable betrachtet werden kann, und der erfolgreichen Balancierung der Vergleichsgruppen durch einen geeigneten Matchingalgorithmus kann die anschließende Schätzung der interessierenden kausalen Parameter rein nichtparametrisch, d. h. mit Hilfe einfacher deskriptiver Verfahren erfolgen. Tabelle 4 stellt die ATTParameterschätzungen dar, die durch den Mittelwertvergleich der Ergebnisvariable Y in den gematchten Stichproben ermittelt werden kann. Weiterhin zeigt die Tabelle die Schätzungen der konditionalen CATT-Parameter für Männer und Frauen in den
956
Markus Gangl
alten bzw. neuen Bundesländern, die durch entsprechend bedingte Mittelwertvergleiche bestimmt werden.11 Zudem können die QTT-Parameter aus den Quantilen der geschätzten Verteilung der Treatmenteffekte ermittelt werden. In der Beispielanalyse sprechen die Schätzergebnisse für einen nachhaltigen Effekt der Arbeitslosigkeit auf das Erwerbseinkommen bei Wiederbeschäftigung. Der ATT-Effekt liegt in allen drei Verfahren etwa bei einem Einkommensverlust von 24 % (e−0,257 bzw. e−0,278 ), wobei die Quantilseffekte durchaus auf eine starke Streuung der Wirkung einer Arbeitslosigkeit hinweisen. Während der Medianeffekt zumindest im NN+1-Matching in etwa dem ATT entspricht, liegt das untere Quartil der Verteilung der Treatmenteffekte um etwa 50 % Einkommensverlust, das obere Quartil zeigt dagegen einen Einkommensgewinn von etwa 25 % für eine Minderheit von Arbeitslosen an. Daneben zeigen die Schätzungen der konditionalen CATT-Parameter, dass Arbeitslosigkeit für Frauen in Ost- wie Westdeutschland mit starken Einkommensverlusten verbunden ist, während bei Männern nur in den neuen Bundesländern ein bedeutsamer negativer Effekt sichtbar wird. Selbstverständlich sind die Stichprobengrößen, die für die konditionale Analyse zur Verfügung stehen, vergleichsweise klein, so dass die Standardfehler der geschätzten Parameter relativ groß ausfallen. In der Regel zeigt sich jedoch, dass die Standardfehler der Parameter im NN+10-Matching kleiner als im NN+1-Verfahren ausfallen. Neben der traditionellen, auf der einmaligen Messung der abhängigen Variablen in Querschnittdaten basierenden Analyse kann mit den Paneldaten des SOEP zudem praktisch umstandslos ein längsschnittbasiertes DiD Matching implementiert werden. Im Unterschied zur bisherigen Vorgehensweise wird dazu lediglich der change score – die Differenz des individuellen Erwerbseinkommens Y zu den beiden Zeitpunkten t + 0 und t + 1 – gebildet und als abhängige Variable der Analyse verwendet, um für den konfundierenden Effekt jeglicher ungemessener, aber zeitlich stabiler Personenmerkmale zu kontrollieren.12 Wie theoretisch zu erwarten, ist dieser Faktor durchaus in der Analyse relevant, so dass das DiD Matching – neben der plausibleren Identifikationsannahme – auch zu substanziell veränderten Resultaten führt. Entsprechend der konfundierenden Wirkung ungemessener Personeneigenschaften fallen die Parameterschätzungen insgesamt durchgängig deutlich geringer aus, und liegen etwa für den ATT lediglich noch bei etwa 13 % Einkommensverlust. Darüber hinaus verändern sich zudem die Schätzungen der konditionalen CATT-Parameter deutlich, so dass nunmehr Männer in Ost 11
12
Einschränkend sei allerdings angemerkt, dass mit dem hier durchgeführten Matching keine exakte Passung von Geschlecht und Region erreicht wurde, d. h. z. B. westdeutsche Beobachtungen in Abhängigkeit von ihren vorhergesagten Propensity scores durchaus als Kontrollbeobachtungen für ostdeutsche Beobachtungen herangezogen werden können. In der Praxis würde für entsprechend zentrale Kovariaten bzw. für Kovariatenkonstellationen, für die CATT/CATE-Parameter geschätzt werden sollen, in der Regel das Propensity score matching in Verbindung mit einem exakten Matching auf diesen Kovariaten implementiert bzw. alternativ ein entsprechend stratifiziertes Propensity score matching durchgeführt, bei dem auch das Zuweisungsmodell subgruppenspezifisch geschätzt würde. In der Praxis kann die Einkommensmessung aus t + 0 selbstverständlich auch als Kovariate im Zuweisungsmodell verwendet werden, um die implizite Restriktion eines Einheitseffekts aufzulösen bzw. empirisch zu prüfen.
35 Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren
957
Tab. 4: ATT-Parameterschätzungen bei unterschiedlichen Matchingalgorithmen Querschnittmatching Längsschnittmatching (DiD) AV: Log. Erwerbseinkommen t + 1 AV: Log. Erwerbseinkommen t + 1 − Log. Erwerbseinkommen t + 0
ATT Quantilseffekte P(25) P(50) P(75)
NN+1, NN+1, c=0,001 c=0,001 o.Z.a
NN+10, c=0,001
NN+1, NN+1, c=0,001 c=0,001 o.Z.a
NN+10, c=0,001
−0,257∗ −0,278∗ (0,091) (0,089)
−0,268∗ (0,080)
−0,133 −0,140∗ (0,063) (0,072)
−0,146∗ (0,074)
−0,707∗ −0,760∗ (0,114) (0,126) −0,263∗ −0,272∗ (0,076) (0,087) 0,222∗ 0,203∗ (0,106) (0,112)
−0,642∗ (0,105) −0,111 (0,074) 0,231∗ (0,088)
−0,376∗ −0,383∗ (0,064) (0,077) −0,073∗ −0,073 (0,065) (0,041) 0,178∗ 0,173∗ (0,064) (0,065)
−0,385∗ (0,081) −0,060 (0,043) 0,156∗ (0,074)
−0,515∗ (0,157) −0,018 (0,120) −0,550∗ (0,219) −0,200 (0,192)
−0,085 (0,128) −0,128 (0,111) −0,103 (0,212) −0,230 (0,136)
−0,082 (0,139) −0,149 (0,105) −0,146 (0,207) −0,210 (0,154)
Konditionale ATT-Effekte West/Frauen −0,412 (0,184) West/Männer −0,027 (0,143) Ost/Frauen −0,592∗ (0,225) Ost/Männer −0,199 (0,179)
−0,467∗ (0,181) −0,027 (0,132) −0,609∗ (0,231) −0,229 (0,202)
−0,087 (0,128) −0,128 (0,117) −0,114 (0,201) −0,245∗ (0,152)
Anmerkungen: Komplexe Modellspezifikation (Spezifikation 2) des Zuweisungsmodells. NN+k: Nearest neighbor matching mit k Kontrollbeobachtungen. Bootstrap-Standardfehler in Klammern, basierend auf N=100 Replikationen. Signifikanzangaben: ∗ p < 0,05 für Bias-korrigiertes 95 %-Konfidenzintervall. Datenquelle: Sozio-ökonomisches Panel, Wellen N–R, ungewichtete Daten. a
ohne Zurücklegen.
wie West im Durchschnitt jeweils höhere Einkommensverluste als Frauen hinnehmen müssen, während gleichzeitig der Einkommenseffekt der Arbeitslosigkeit in den neuen Bundesländern für Männer wie Frauen höher als in den alten Bundesländern ausfällt. Auch hierbei gilt jedoch, dass die hier illustrativ verwendete Teilstichprobe des SOEP für eine hinreichend präzise Ermittlung der subgruppenspezifischen CATT-Parameter rein fallzahlbedingt nicht geeignet ist.
958
Markus Gangl
4 Häufige Fehler Wie hoffentlich anhand des obigen Beispiels verdeutlicht werden konnte, besteht der Charme des Propensity score matchings gerade darin, dass eine grundsätzlich fehlerhafte Anwendung des Verfahrens sowie eine fundamental irreführende Interpretation der Ergebnisse nur schwer vorstellbar sind. Die Vorgehensweise einer Matchinganalyse ist forschungslogisch direkt an die drei wesentlichen Aspekte kausaler Inferenz mit Beobachtungsdaten gekoppelt – die Auswahl der relevanten beobachteten Kontrollvariablen, die Anpassung derselben innerhalb der Vergleichsgruppen der Analyse, sowie der letztendlichen Abschätzung der Ergebnisunterschiede unter ansonsten homogenen Vergleichsbeobachtungen aus Treatment- und Kontrollgruppe. Zudem stehen die relevanten Kennziffern des Verfahrens – Klassifikationsleistung des Zuweisungsmodells, Balancierungstests des empirischen Matchings sowie Parameterschätzungen des kausalen Effekts – in einer klaren Beziehung mit der forschungslogischen Vorgehensweise. Und schließlich sind Matchingverfahren nicht zuletzt aufgrund der nichtparametrischen Methodik ausgesprochen flexibel zu handhaben und können vergleichsweise unaufwändig an unterschiedliche Datenstrukturen angepasst werden. Nun mag mit Recht eingewendet werden, dass sich Durchführung wie Ergebnisse einer Matchinganalyse in der Regel kaum von einer entsprechend sorgfältig durchgeführten Regressionsanalyse unterscheiden. Und in der Tat entspricht die Verfahrenslogik einer Matchinganalyse exakt der Logik einer kausalanalytischen Interpretation entsprechender Regressionsergebnisse. Im Unterschied zur vielfältig – z. B. auch rein prädiktiv – einsetzbaren Regressionsanalyse ist die kausalanalytische „effects-of-causes“ Vorgehensweise allerdings in der Logik eines Matchingverfahrens inhärent. Dementsprechend zwingt die Verwendung eines Matchingverfahrens geradezu dazu, in der eigentlichen Analyse wie in der Publikation der Ergebnisse die getroffenen inhaltlichen wie statistischen Entscheidungen offen zu legen und dadurch die den kausalen Schlussfolgerungen zugrunde liegenden Annahmen transparent, diskutier- und kritisierbar zu machen. Von besonderer Bedeutung ist dabei, dass in Matchingverfahren im Unterschied zur Regressionsanalyse die beiden Schritte des Forschungsdesigns – die Konstruktion der nichtexperimentellen Kontrollgruppen – und der statistischen Abschätzung des kausalen Effekts methodisch getrennt werden (vgl. auch Rubin 2006). Dadurch wird die rein prädiktive Funktion der Kovariaten Z klar von der – bei Gültigkeit von SUTVA und CIA – alleinigen kausalen Interpretation von ATT- bzw. ATE- oder entsprechenden Parametern zur Beschreibung der Wirkung von T auf Y abgegrenzt, und die inhaltliche Rechtfertigung der Angemessenheit des Zuweisungsmodells als entscheidendes Kriterium der Kausalinterpretation hervorgehoben. Gleichzeitig wird damit erreicht, dass die statistische Analyse von einer Vielzahl inhaltlich irrelevanter Kennziffern – etwa dem R2 der Regression oder den „Effekten“ anderer Kovariaten im Modell – entfrachtet, und die Praxis des regressionsanalytischen Curve fitting zumindest erschwert wird. Ebenso wird durch die grundsätzlich nichtparametrische Vorgehensweise erreicht, dass bereits im Rahmen der Datenanalyse deutlich wird, wenn kausale Inferenzen mit den vorliegenden Daten nicht allein datengestützt erfolgen können, sondern die Annahme eines expliziten parametrischen Modells erfordern.
35 Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren
959
Damit soll nun jedoch nicht gesagt sein, dass die Verwendung eines Matchingverfahrens eine fehlerlose Analyse garantiert oder in allen Forschungssituationen unmittelbar erfolgreich eingesetzt werden kann. Als nichtparametrisches Verfahren bieten sich Matchingverfahren sicher tendenziell vor allem dann an, wenn zur Analyse hinreichend große Stichproben zur Verfügung stehen, in denen realistischerweise eine hinreichende Zahl von Beobachtungen vorliegt, für die bei ähnlichen Merkmalskombinationen Z zusätzlich noch eine hinreichende Variation in der Treatmentbedingung T beobachtet wird. In Situationen, in denen eine sehr starke soziale Diskrepanz der Vergleichsgruppen besteht, ist der Einsatz von Matchingverfahren wenig Erfolg versprechend, da möglicherweise überhaupt kein überlappender Kovariatenbereich existiert oder der Common support nur einen kleinen und wenig repräsentativen Teil der interessierenden Stichprobe abdeckt, und deshalb eine nichtparametrische Parameterschätzung nicht möglich oder nicht sinnvoll ist. Ebenso unbefriedigend erscheint auf den ersten Blick sicher die schiere Vielfalt verfügbarer Matchingalgorithmen und ihrer Kombinationsmöglichkeiten, sowie die Tatsache, dass das Problem der statistischen Inferenz in Matchingverfahren noch nicht hinreichend gelöst ist. Es ist unübersehbar, dass es sich bei Matchingverfahren immer noch um eine relativ junge Klasse statistischer Verfahren handelt, deren Entwicklung Gegenstand intensiver statistischer und ökonometrischer Forschung ist. Gleichzeitig kristallisieren sich durch die verstärkte Anwendung der Verfahren zunehmend eine Reihe von Empfehlungen für die sozialwissenschaftliche Praxis heraus. Da in den üblichen sozialwissenschaftlichen Datensätzen in der Regel eine relativ große Zahl potenzieller Vergleichsbeobachtungen vorliegt, bieten sich Verfahren wie Caliper, Radius oder Kernel matching eher als klassische Nearest neighbor-Verfahren (insbesondere mit einer kleinen Zahl von matches) an, da mit ihnen die Vielzahl von Kontrollbeobachtungen auch adäquat genutzt werden kann. Darüber hinaus ist bei diesen Algorithmen davon auszugehen, dass Bootstrapverfahren generell für Zwecke der statistischen Inferenz herangezogen werden können. Als Hauptproblem und Achillesferse einer jeden Matchinganalyse verbleibt damit die korrekte Spezifikation des Zuweisungsmodells, und zwar sowohl im Hinblick auf die Balancierung der Stichproben als auch in Bezug auf die Auswahl der relevanten Kovariaten. In der praktischen Analyse können übliche Verfahren der explorativen Datenanalyse, Residuenanalysen oder Kennziffern wie der standardisierte Bias wertvolle Hinweise geben, wie durch Variablentransformationen, Berücksichtigung von zusätzlichen Interaktionstermen oder auch durch eine Stratifizierung der Stichprobe die Anpassungsleistung des Matchingalgorithmus erhöht werden kann. Andererseits ist auch offensichtlich, dass die Frage nach der Spezifikation des Zuweisungsmodells kein rein statistisches Problem darstellt, sondern dass sich hier theoretische Überlegungen und statistische Praxis sinnvoll ergänzen müssen. Statistische Kennziffern und Analysen sind notwendigerweise modellimmanent und bieten keinerlei Kriterien für ein Urteil darüber, ob und welche ungemessenen Kovariaten berücksichtigt werden sollten, um einen bestimmten kausalen Effekt zu identifizieren. Die fundamentale Problematik, dass kausale Schlussfolgerungen auf der Basis nichtexperimenteller Daten nur theoriebasiert gerechtfertigt werden können, ist zwar nicht spezifisch für Matchingverfahren, die Verwendung eines Matchingverfahrens befreit aber eben auch nicht von
960
Markus Gangl
der analytischen Notwendigkeit, die empirische Analyse theoriegestützt zu betreiben. Ein statistisches Verfahren, mit dem quasi automatisiert gültige Schätzungen kausal gehaltvoller Parameter vorgenommen werden können, stellen auch Matchingverfahren nicht dar.
5 Literaturempfehlungen Aufbauend auf Arbeiten Donald Rubins und James Heckmans war es vor allem Hollands (1986) mittlerweile klassischer Aufsatz, der das kontrafaktische Kausalitätsverständnis etablierte. Morgan & Winship (2007) bieten eine exzellente Einführung in diese Perspektive und die daraus folgenden Implikationen für die statistische Praxis in den Sozialwissenschaften. Rosenbaum (2002), Rubin (2006), Imbens (2004) und Heckman et al. (1998) sind wichtige Überblicksarbeiten zum kausalanalytischen Einsatz von Matchingverfahren, die wesentlichen statistischen Grundlagen des Propensity score matchings wurden in zwei Aufsätzen von Rosenbaum & Rubin (1983, 1985) in den 1980er Jahren gelegt. Die Aufsätze von Morgan & Harding (2006), Smith & Todd (2005), Dehejia & Wahba (2002) sowie Caliendo & Kopeinig (2008) diskutieren die praktische Anwendung von Matchingverfahren auf sozialwissenschaftliche und ökonomische Fragestellungen, die Arbeiten von Harding (2003) und Brand & Halaby (2006) sind Beispiele neuerer Anwendungen in der Soziologie. Eine Weiterführung der hier durchgeführten Beispielanalyse findet sich in Gangl (2006). Routinen zur Durchführung entsprechender Analysen liegen mittlerweile in einer Reihe gängiger Programmpakete vor, z. B. in Stata (psmatch2, pscore, nnmatch) oder R (matchit).
Literaturverzeichnis Abadie, A. & Imbens, G. W. (2008). On the Failure of the Bootstrap for Matching Estimators. Econometrica, 76, 1537–1557. Brand, J. E. & Halaby, C. N. (2006). Regression and Matching Estimates of the Effects of Elite College Attendance on Educational and Career Achievement. Social Science Research, 35, 749–770. Brand, J. E. & Xie, Y. (2007). Identification and Estimation of Causal Effects with TimeVarying Treatments and Time-Varying Outcomes. Sociological Methodology, 37, 393–434. Caliendo, M. & Kopeinig, S. (2008). Some Practical Guidance for the Implementation of Propensity Score Matching. Journal of Economic Surveys, 22, 31–72. Dehejia, R. H. & Wahba, S. (2002). Propensity Score-Matching Methods for Nonexperimental Causal Studies. Review of Economic and Statistics, 84, 151–161. Gangl, M. (2006). Scar Effects of Unemployment: An Assessment of Institutional Complementarities. American Sociological Review, 71, 986–1013. Harding, D. J. (2003). Counterfactual Models of Neighborhood Effects: The Effect of Neighborhood Poverty on Dropping Out and Teenage Pregnancy. American Journal of Sociology, 109, 676–719.
35 Nichtparametrische Schätzung kausaler Effekte mittels Matchingverfahren
961
Heckman, J. J., Ichimura, H., & Todd, P. E. (1998). Matching as an Econometric Evaluation Estimator. Review of Economic Studies, 65, 261–294. Heckman, J. J. & Todd, P. E. (2004). A Note on Adapting Propensity Score Matching and Selection Models to Choice Based Samples. Chicago: University of Chicago, mimeo. Holland, P. W. (1986). Statistics and Causal Inference. Journal of the American Statistical Association, 81, 945–960. Imai, K., King, G., & Stuart, E. A. (2008). Misunderstandings between Experimentalists and Observationalists about Causal Inference. Journal of the Royal Statistical Society A, 171, 481–502. Imbens, G. W. (2004). Nonparametric Estimation of Average Treatment Effects Under Exogeneity. Review of Economic and Statistics, 86, 4–29. Lechner, M. (2002). Some Practical Issues in the Evaluation of Heterogeneous Labour Market Programmes by Matching Methods. Journal of the Royal Statistical Society A, 165, 59–82. Morgan, S. L. & Harding, D. J. (2006). Matching Estimators of Causal Effects. Prospects and Pitfalls in Theory and Practice. Sociological Methods & Research, 35, 3–60. Morgan, S. L. & Winship, C. (2007). Counterfactuals and Causal Inference. Methods and Principles for Social Research. Cambridge: Cambridge University Press. Pearl, J. (2000). Causality. Models, Reasoning and Inference. Cambridge: Cambridge University Press. Rosenbaum, P. R. (2002). Observational Studies. New York: Springer, 2. Auflage. Rosenbaum, P. R. & Rubin, D. B. (1983). The Central Role of the Propensity Score in Observational Studies for Causal Effects. Biometrika, 70, 41–55. Rosenbaum, P. R. & Rubin, D. B. (1985). Constructing a Control Group Using Multivariate Matched Sampling Methods that Incorporate the Propensity Score. American Statistician, 39, 33–38. Rubin, D. B. (2006). Matched Sampling for Causal Effects. Cambridge: Cambridge University Press. Rubin, D. B. & Thomas, N. (2000). Combining Propensity Score Matching with Additional Adjustments for Prognostic Covariates. Journal of the American Statistical Association, 95, 573–585. Smith, J. A. & Todd, P. E. (2005). Does Matching Overcome LaLonde’s Critique of Nonexperimental Estimators? Journal of Econometrics, 125, 305–353. SOEP-Group (2001). The German Socio-Economic Panel (GSOEP) After More Than 15 Years - Overview. Vierteljahreshefte zur Wirtschaftsforschung, 70, 7–14.
36 Kausalanalyse mit Paneldaten Josef Brüderl∗ Universität Mannheim
Zusammenfassung. Der Beitrag gibt eine anwendungsorientierte Einführung in die Kausalanalyse mit Paneldaten. Es wird versucht, dem Anwender die Grundlogik der Paneldatenanalyse nahe zu bringen. Im ersten Abschnitt wird eine intuitive Einführung in die Paneldatenanalyse gegeben. Zuerst werden die Vorzüge von Paneldaten für die Kausalanalyse herausgearbeitet, dann werden die grundlegenden Panelregressionsmodelle vorgestellt. Deren „Mechanik“ wird schließlich anhand eines fiktiven Datensatzes demonstriert. Im zweiten Abschnitt erfolgt eine präzisere Vorstellung verschiedener (linearer) Panelregressionsmodelle. Diese Modelle werden im dritten Abschnitt eingesetzt, um mit Daten des SOEP 1984–2007 den Effekt einer Heirat auf die Lebenszufriedenheit zu untersuchen. Im vierten Abschnitt werden einige nicht-lineare Panelregressionsmodelle vorgestellt. Der Beitrag endet mit der Diskussion irreführender Argumentationen und suboptimaler Modellklassen.
1 Einführung in die Paneldatenanalyse Paneldaten erhält man durch die wiederholte Messung derselben Variablen an denselben Untersuchungseinheiten. In der Sozialforschung werden Paneldaten meist mittels eines Panelsurvey erhoben: Hierbei sind die Untersuchungseinheiten Personen und die Erhebungsmethode ist die Befragung. Personen werden (meist) Jahr für Jahr kontaktiert und mit demselben Fragebogen befragt, wobei jeweils die aktuellen Werte der Variablen erhoben werden (prospektiver Panelsurvey). Paneldaten könnten auch retrospektiv erhoben werden, was aber auf Grund von Erinnerungsproblemen bei den Befragten eher problematisch ist. Im Folgenden gehe ich meist implizit davon aus, dass man Panelsurveydaten vorliegen hat. Paneldaten bieten gegenüber Querschnittsdaten einige gewichtige Vorteile (s. u.), weshalb sie über kurz oder lang die Sozialforschung dominieren werden. Der in Deutschland bekannteste Panelsurvey ist das Sozio-ökonomische Panel (SOEP), welches seit 1984 läuft. Im Jahre 2008 wurden im Rahmen des SOEP etwa 20.000 Personen befragt, davon etwa 2.500 zum 25. male. Aufgrund seiner langen Laufzeit kann das SOEP inzwischen für eine Vielzahl von Fragestellungen verwendet werden. Das SOEP ist ein „Allzweck“-Panel. Inzwischen wurden auch vermehrt spezialisierte, groß angelegte Panelsurveys gestartet. Die erste Welle des „Survey on Health, Ageing and Retirement ∗
Für hilfreiche Anmerkungen danke ich Vera Troeger und Johannes Huinink. Die Kollegin bzw. der Kollege teilen allerdings nicht jeden meiner Standpunkte.
S. 963–994 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_36, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
964
Josef Brüderl
in Europe“ (SHARE) wurde 2004 erhoben, im Jahr 2008 ging die erste Welle des deutschen Beziehungs- und Familienpanels (pairfam) ins Feld und 2009 startete das nationale Bildungspanel (NEPS). Bei Panelsurveys ist üblicherweise die Zahl der Untersuchungseinheiten (N ) groß und die Zahl der Wiederholungsmessungen (T ) klein. Mit dem umgekehrten Fall – kleines N und relativ großes T – hat man es häufig bei Analysen über Länder/Regionen zu tun. Hier hat man typischerweise eine Reihe von Makroindikatoren für mehrere Länder über viele Jahre vorliegen („Pooled Cross-Section Time-Series“). Im Fall von N = 1 spricht man von Zeitreihendaten. Da es sich insbesondere bei gepoolten Zeitreihendaten auch um Paneldaten handelt, kann man sie auch mit den im Folgenden vorgestellten Verfahren analysieren. Bei solchen „Makro-Paneldaten“ stellen sich jedoch besondere Probleme (z. B. zeitliche und räumliche Autokorrelation), weshalb für deren Analyse spezielle Verfahren entwickelt wurden (siehe Kapitel 40 in diesem Handbuch), die im Folgenden jedoch aus Platzgründen nicht behandelt werden können. Paneldaten besitzen gegenüber Querschnittsdaten mindestens drei gewichtige Vorteile: (a) Sie erlauben die Verfolgung der individuellen Dynamik sozialer und psychischer Prozesse (intraindividuelle Veränderung). (b) Sie erlauben die zeitliche Abfolge von Veränderungen festzustellen (kausale Reihenfolge). (c) Sie ermöglichen es, das Problem unbeobachteter Heterogenität abzumildern. Während die Vorteile (a) und (b) offensichtlich sind und auch in jedem Lehrbuch gewürdigt werden, ist Vorteil (c) noch viel zu wenig bekannt. Unbeobachtete Heterogenität ist ein fundamentales Problem nicht-experimenteller Sozialforschung und deshalb ist die Möglichkeit, es mittels Paneldaten abzumildern, nicht hoch genug einzuschätzen. Infolgedessen wird im Folgenden die Betonung auf Verfahren liegen, die das Potential von Paneldaten zur Reduzierung des Problems unbeobachteter Heterogenität ausschöpfen. Zur programmtechnischen Umsetzung einer Panelanalyse kann man Stata empfehlen. Stata verfügt über ein mächtiges Panelanalyse-Paket (die xt-Kommandos). Inzwischen existieren auch einige Einführungen in die Paneldatenanalyse mit Stata (Brüderl 2005; Allison 2009; Cameron & Trivedi 2009). 1.1 Kontrafaktische Kausalanalyse und Paneldaten Bevor die Verfahren dargestellt werden, ist es hilfreich, sich die Grundidee des kontrafaktischen Kausalitätsbegriffs zu vergegenwärtigen (hier aus didaktischen Gründen stark vereinfachend, präziser in den Kapiteln 2 und 35 in diesem Handbuch). Wir wollen der Einfachheit halber den kausalen Effekt einer dichotomen Variable X auf eine metrische Variable Y betrachten. Der üblichen Terminologie folgend ist X die unabhängige und Y die abhängige Variable (Outcome). X hat die Ausprägungen 0 und 1. In der Literatur bezeichnet man X = 1 in Anlehnung an die in Experimenten übliche Terminologie als „Treatment“ und X = 0 als „Control“. Der kausale Effekt von X auf der Ebene eines Individuums (Einheitseffekt) ist dann definiert als
36 Kausalanalyse mit Paneldaten X=1 X=0 Δi = Yi,t − Yi,t , 0 0
965
(1)
wobei i der Personenindex ist und t0 einen Zeitpunkt indiziert.1 Der kausale Effekt ist also die Veränderung der abhängigen Variable, wenn die Person i von „Control“ (X = 0) zum „Treatment“ (X = 1) wechselt – und zwar gemessen zu ein und demselben Zeitpunkt t0 . Das macht konzeptionell zwar sehr viel Sinn, ist aber in der realen Welt so nicht umsetzbar. In der realen Welt kann eine Person faktisch zu einem Zeitpunkt nur einen Zustand einnehmen. Der andere Zustand ist hypothetisch, eben kontrafaktisch. Kausalität ist im kontrafaktischen Modell definiert durch den Vergleich eines faktischen und eines kontrafaktischen Outcomes. Ein Kausaleffekt kann deshalb nie direkt gemessen werden. Er kann in praktisch durchführbaren Untersuchungsdesigns bei Gültigkeit von bestimmten Annahmen nur indirekt erschlossen werden. In einem (nicht-experimentellen) Querschnittsdesign erschließt man nun den Einheitseffekt aus dem Vergleich verschiedener Personen i und j, die sich nur in X unterscheiden: X=1 X=0 − Yj,t . (2) ΔB i = Yi,t0 0 Dies ist der so genannte Between-Schätzer, wobei die zentrale Annahme ist, dass sich i und j nur in X unterscheiden (keine unbeobachtete Heterogenität). Dies ist in der Realität normalerweise nicht der Fall, weshalb man etwa mittels Regressionen oder Matching-Verfahren für beobachtete Unterschiede zu kontrollieren versucht. In vielen Fällen bleiben allerdings relevante Unterschiede unbeobachtet, weshalb auf Querschnittsdaten beruhende Kausalschlüsse höchst unsicher sind. Da die Sozialforschung bisher überwiegend auf Querschnittsdaten aufbaut, kann man festhalten: Unbeobachtete Heterogenität ist ein zentrales Problem der nicht-experimentellen Sozialforschung. Der tiefere Grund hierfür ist, dass der Einheitseffekt aus dem Vergleich verschiedener Personen erschlossen werden muss. Anders ist die Situation bei einem Paneldesign. Hier kann man den Einheitseffekt aus dem Vergleich derselben Person i zu verschiedenen Zeitpunkten erschließen: X=1 X=0 − Yi,t . ΔW i = Yi,t1 0
(3)
Dies ist der so genannte Within-Schätzer. Die zentrale Annahme ist hier, dass ein und dieselbe Person sich über die Zeit nur in X unterscheidet (keine zeitveränderliche unbeobachtete Heterogenität). In den meisten Situationen dürfte die Annahme, dass keine zeitveränderliche intraindividuelle unbeobachtete Heterogenität vorliegt, eher erfüllt sein, als die Annahme, dass keine interindividuelle unbeobachtete Heterogenität vorliegt. Deshalb sind Kausalschlüsse auf der Basis von Paneldaten im Allgemeinen sicherer als Kausalschlüsse anhand von Querschnittsdaten. Der zentrale „Trick“ ist, dass man bei Vorliegen von Paneldaten Kausalanalyse anhand eines intertemporalen Vergleichs ein und derselben Person betreiben kann (Within-Schätzer) und nicht auf den Vergleich zwischen Personen angewiesen ist (Between-Schätzer). Das Ganze beruht natürlich auf der Voraussetzung, dass man in den Paneldaten genügend Personen hat, 1
Der durchschnittliche Kausaleffekt auf Populationsebene kann dann durch Durchschnittsbildung über alle Einheitseffekte berechnet werden.
966
Josef Brüderl
bei denen sich X über die Zeit ändert. Gibt es keine intraindividuelle Varianz auf X, so kann man den Within-Schätzer nicht einsetzen. Die Gültigkeit des Within-Schätzers ist allerdings durch Alterseffekte (Y ändert sich aufgrund des Alterungsprozesses) und Periodeneffekte bedroht (Y ändert sich aufgrund exogener Einflüsse). Dieses Problem kann man jedoch durch einen Vergleich mit einer Person j, bei der sich X nicht über die Zeit ändert, in den Griff bekommen: X=1 X=0 X=0 X=0 ΔDID = (Yi,t − Yi,t ) − (Yj,t − Yj,t ). i 1 0 1 0
(4)
Dies ist der so genannte Difference-in-Differences-Schätzer (DID). Hier wird der Alters-/ Periodeneffekt anhand der Veränderung der Person j geschätzt und aus dem Within-Schätzer „herausgerechnet“. Der DID-Schätzer wird auch zur Berechnung des Kausaleffektes bei Vorliegen von Experimentaldaten (mit Vorher-Nachher-Messung) verwendet. Insofern kann man mit Paneldaten den Kausaleffekt analog zum Experiment berechnen. Natürlich fehlen bei Paneldaten die beiden wesentlichen Merkmale eines Experiments: Randomisierung und kontrollierte Stimulussetzung. Die fehlende Randomisierung wird allerdings durch die Vorher-Messung kompensiert, wodurch eventuelle Unterschiede in der Versuchs- und Kontrollgruppe kontrolliert werden. Dies ist eine deutliche Verbesserung im Vergleich zur Situation beim Vorliegen von Querschnittsdaten. Allerdings ist selbst mit Paneldaten das Fehlen der kontrollierten Stimulussetzung nicht kompensierbar. Gibt es etwa eine Selbstselektion in das Treatment (P (X = 1) steigt, wenn sich Y über die Zeit verändert), so wird auch der anhand von Paneldaten geschätzte Kausaleffekt verzerrt sein. Die Sicherheit von auf Paneldaten basierenden Kausalschlüssen wird also irgendwo zwischen der mit Querschnitts- und Experimentaldaten erzielbaren Sicherheit liegen. Wo immer möglich, sollte man deshalb in der nicht-experimentellen Sozialforschung Paneldaten verwenden. 1.2 Eine intuitive Einführung in Panelregressionsmodelle Die erhöhte Sicherheit der Kausalschlüsse mit Paneldaten ist allerdings nur dann realisierbar, wenn man statistische Verfahren verwendet, die auf dem Within-Prinzip beruhen. Nicht bei allen Panelregressionsverfahren ist dies der Fall. Im Folgenden sollen einige dieser Verfahren vorgestellt werden. Wir betrachten zuerst den Fall einer linearen Regression mit metrischer abhängiger Variable Y . Um eine Panelregression durchführen zu können, muss man die Daten „poolen“, d. h. man legt die Beobachtungen einer Welle in jeweils einer eigenen Datenzeile ab. Der resultierende Datensatz hat mithin N · T Fälle (man sagt auch oft: N · T Personenjahre).2 Das einfachste Panelregressionsmodell erhält man, wenn man auf die gepoolten Daten ein lineares Regressionsmodell anwendet (zur linearen Regression siehe Kapitel 24 in diesem Handbuch): yit = α + xit β + uit , i = 1, . . . , N, t = 1, . . . , T , 2
(5)
Im Folgenden wird unterstellt, dass die Zahl der Wellen für alle Personen gleich ist (balanciertes Panel). Die Schätzer sind aber leicht für den Fall eines nicht-balancierten Panels verallgemeinerbar (oft muss man T nur durch Ti ersetzen).
36 Kausalanalyse mit Paneldaten
967
wobei i der Personenindex ist und t der Zeitindex. xit ist ein Vektor, der die gemessenen Werte der K unabhängigen Variablen einer Person i zum Zeitpunkt (in der Welle) t enthält. Die unabhängigen Variablen können zeitkonstant (z. B. Geschlecht, Geburtsjahr) oder zeitveränderlich (z. B. Einkommen, Familienstand) sein. β ist ein Vektor mit K Regressionskoeffizienten. u ist ein Fehlerterm, der die üblichen Regressionsannahmen erfüllt. Dann ist der OLS-Schätzer von β konsistent (Pooled-OLS oder POLS). POLS nützt die Paneldaten nur insofern aus, als durch die erhöhte Fallzahl die Schätzer präziser werden. Die POLS-Schätzer beruhen jedoch auch auf der BetweenVariation. Insofern werden die POLS-Schätzer bei Vorliegen von unbeobachteter Heterogenität verzerrt sein. Dann ist nämlich eine wichtige Regressionsannahme verletzt: Die X-Variablen sind mit dem Fehlerterm korreliert – Cov(xit ,uit ) = 0 – und die POLS-Schätzer sind verzerrt. Im Vergleich zur Querschnittsanalyse hat sich kaum etwas verbessert. Auf dem Weg zu einem hilfreicheren Panelregressionsmodell ist es nützlich, den Fehlerterm in zwei Komponenten zu zerlegen (Fehlerkomponenten Zerlegung): uit = αi +εit . Hierbei ist αi ein personenspezifischer, zeitkonstanter Fehlerterm, εit erfasst die restlichen unbeobachteten Größen, die über Personen und die Zeit variieren (idiosynkratischer Fehler). αi könnte (je nach Anwendung) unbeobachtete Merkmale der Personen enthalten, die sich über die Zeit nicht verändern, wie etwa Attraktivität und Intelligenz. Diese Zerlegung ist rein formal immer möglich, allerdings ist sie im Falle von Querschnittsdaten nutzlos, denn man kann die beiden Fehlerkomponenten dann nicht identifizieren. Mit Paneldaten aber – und das ist ein entscheidender Vorteil von Paneldaten – kann man die personenspezifischen Fehler schätzen bzw. „herausrechnen“. Damit kann dieser Teil der unbeobachteten Heterogenität die Schätzer nicht mehr verzerren. Um das zu verstehen, betrachten wir das Fehlerkomponenten-Modell: β + αi + εit . yit = xit
(6)
Der Fehler ist in die beiden Komponenten zerlegt und die Konstante ist weggelassen, weil sie mit den personenspezifischen Fehlern kollinear wäre (man kann die αi auch als personenspezifische Konstanten auffassen). Schätzt man dieses Modell mit POLS, so dürfen die X-Variablen mit beiden Fehlertermen nicht korreliert sein. Mit Paneldaten kann man die Situation nun aber verbessern, indem man die αi herausrechnet. Dazu führt man zuerst die so genannte Between-Transformation aus: ¯i β + αi + ε¯i . y¯i = x
(7)
Man bildet für jede Person die Mittelwerte der Daten über die Zeit. Damit beseitigt man die Within-Variation (man hat sie herausgemittelt), übrig bleibt die BetweenVariation (die Variation der Mittelwerte zwischen den Personen). Zieht man nun (7) von (6) ab (Within-Transformation), so erhält man: ¯i ) β + (εit − ε¯i ) . yit − y¯i = (xit − x
(8)
In diesem Modell ist von allen Variablen die Between-Variation abgezogen, es bleibt nur die Within-Variation übrig. Ein auf Modell (8) aufsetzendes Regressionsmodell benutzt
968
Josef Brüderl
mithin nur die Within-Variation. In der Terminologie des letzten Unterabschnitts handelt es sich um einen Within-Schätzer. Technisch gesehen sind die personenspezifischen Fehler in Modell (8) heraus gefallen, übrig sind nur die idiosynkratischen Fehler. Wendet man deshalb POLS auf das Modell (8) an, so muss man für eine konsistente Schätzung von β nur annehmen, dass die X-Variablen und die idiosynkratischen Fehler unkorreliert sind. Personenspezifische unbeobachtete Heterogenität verzerrt den POLS-Schätzer nach der Within-Transformation nicht mehr. Genau dies ist der große Vorteil von Paneldaten gegenüber Querschnittsdaten: Während eine Querschnittsregression einen Between-Schätzer liefert, der von personenspezifischer unbeobachteter Heterogenität verzerrt wird, liefert eine Panelregression (nach der Within-Transformation) einen Within-Schätzer, der von personenspezifischer unbeobachteter Heterogenität nicht verzerrt wird. Die Within-Transformation ist an die Voraussetzung gebunden, dass die αi zeitkonstante Größen sind, so genannte fixe Effekte. Unter dieser Annahme heißt (6) das Fixed-Effects-Modell (FE-Modell). Durch die Within-Transformation werden die fixen Effekte herausgerechnet und der POLS-Schätzer von (8) ist konsistent auch wenn personenspezifische unbeobachtete Heterogenität in den Ursprungsdaten steckt. Dies nennt man den Fixed-Effects-Schätzer (FE-Schätzer). Der FE-Schätzer ist ein Within-Schätzer. 1.3 Ein didaktisches Beispiel Anhand eines Beispiels mit fiktiven Daten soll im Folgenden gezeigt werden, wie ein FE-Schätzer trotz des Vorhandenseins von personenspezifischer unbeobachteter Heterogenität eine unverzerrte Schätzung liefert (ausführlicher bei Brüderl 2005). Aus didaktischen Gründen belegen wir die fiktiven Daten mit einer inhaltlichen Bedeutung. Wir wollen untersuchen, ob eine Heirat dazu führt, dass Männer anschließend mehr verdienen. Viele Querschnittsstudien haben gezeigt, dass dies der Fall ist. Es wurden verschiedene Kausalmechanismen für diese Beobachtung vorgeschlagen, z. B. könnte durch die Heirat ein Entlastungseffekt eintreten (die Ehefrauen nehmen „lästige“ Hausarbeit ab), weshalb Männer nach der Heirat produktiver arbeiten können. Allerdings liegt der Verdacht nahe, dass es sich hier nicht um einen Kausaleffekt, sondern um ein durch unbeobachtete Heterogenität verzerrtes Ergebnis handelt. Gut verdienende Männer könnten attraktivere Heiratspartner sein, weshalb sie eher Heiraten. Nicht die Heirat erhöht den Verdienst, sondern Männer mit mehr Humankapital selektieren sich in die Ehe (bzw. werden von den Frauen selektiert). Mit Paneldaten und FE-Schätzern konnte die neuere Literatur zeigen, dass tatsächlich kein Kausaleffekt vorliegt, dass das Querschnittsergebnis allein auf unbeobachteter Heterogenität beruht (Ludwig & Brüderl 2009). Aus didaktischen Gründen konstruieren wir hier dennoch einen Datensatz, in dem ein Kausaleffekt der Heirat vorliegt. Abbildung 1 zeigt die Daten in graphischer Form. 3 Es liegt ein Panel mit sechs Wellen (T = 6) für vier Männer (N = 4) vor. Die abhängige 3
Die Daten („Panelanalyse fiktiv.dta“) und ein Auswertungsfile („Panelanalyse fiktiv.do“) können von der Webseite des Handbuchs heruntergeladen werden.
36 Kausalanalyse mit Paneldaten
969
Monatslohn in Euro
5000
4000
3000
2000
1000
0 1
2
3
4
5
6
Zeit (Welle) vor der Heirat
nach der Heirat
Abb. 1: Die fiktiven Lohnkarrieren von vier Männern Variable ist der Monatslohn in Euro, die unabhängige Variable ist eine Heirats-Dummy (0 steht für unverheiratet, 1 für verheiratet). Wir haben zwei „Geringverdiener“, die während der Beobachtungsdauer nicht heiraten. Ihr Lohn beträgt – bis auf zufällige Fluktuationen – 1000 bzw. 2000 Euro. Andererseits haben wir zwei „Besserverdiener“, die zwischen den Wellen drei und vier heiraten. Die Heirat bewirkt, dass der Lohn jeweils um 500 Euro ansteigt. Der in diese Daten eingebaute Kausaleffekt ist also 500 Euro. Zusätzlich ist aber auch noch unbeobachtete Heterogenität eingebaut: Die Heiratenden sind keine Zufallsauswahl, sondern die Heirat hängt systematisch an unbeobachteten Faktoren, die einen hohen Lohn verursachen. Es sind die „Besserverdienenden“, die heiraten. Im Folgenden wollen wir schauen, welche Ergebnisse wir mit diesen Daten anhand einer Querschnittsregression, einer POLS-Regression und einer FE-Regression erhalten (Tabelle 1). Wir schätzen jeweils eine Regression mit dem Lohn als abhängiger Variable und der Heiratsdummy als unabhängiger Variable. Der Regressionskoeffizient der Heiratsdummy gibt uns dann jeweils Auskunft über den „Kausaleffekt“ einer Heirat (diese Spezifikation impliziert einen dauerhaften Effekt der Heirat).4 Schätzen wir zuerst eine Querschnittsregression nur mit den Daten der vierten Welle (T = 4). Das Ergebnis ist ein Regressionskoeffizient von 2500 Euro (das Lohnmittel der nicht Verheirateten ist 1500 Euro, das der Verheirateten 4000 Euro) (Tabelle 1, Spalte 1). Offensichtlich wäre es grob irreführend, dieses Ergebnis als Kausaleffekt einer Heirat zu interpretieren. Unbeobachtete Heterogenität führt zu einer deutlichen Verzerrung des Querschnitts-Schätzers. Im zweiten Modell verwenden wir die Daten aller Wellen und berechnen den POLSSchätzer. Das Ergebnis ist 1833 Euro (Tabelle 1, Spalte 2). Es ergibt sich aus dem mittleren Lohn in den verheirateten Personen-Jahren minus dem mittleren Lohn in 4
Für das Folgende ist es wichtig zu wissen, wie sich der Regressionskoeffizient einer Dummy in einer bivariaten Regression ergibt: Der Koeffizient ist einfach der Mittelwertsunterschied der beiden Dummy-Gruppen auf der abhängigen Variable.
970
Josef Brüderl
Tab. 1: Vergleich dreier Regressionen mit fiktiven Daten
Konstante Heirat Zahl Personen Zahl Personenjahre
(1) OLS Querschnitt
(2) POLS
(3) FE
1500 2500 (707)
2167 1833 (656)
— 500 (39)
4 —
4 24
2 12
Standardfehler in Klammern. In (2) ist der Standardfehler panel-robust geschätzt. In (3) ist das aufgrund von Eigenheiten der Daten nicht möglich.
den nicht verheirateten Personen-Jahren. Die Verzerrung ist zwar geringer, aber immer noch deutlich. Der Grund ist, dass POLS zwar die Within-Variation (die Löhne der „Besserverdiener“ vor und nach der Heirat) nutzt, aber dennoch die Between-Variation dominiert. Die Lehre daraus ist, dass Paneldaten in Verbindung mit Between-Schätzern nicht das Problem personenspezifischer unbeobachteter Heterogenität beheben. Dies gelingt erst mit einem Within-Schätzer: Der FE-Schätzer beträgt 500 Euro (Tabelle 1, Spalte 3), kann also den in die Daten eingebauten Kausaleffekt reproduzieren. Der FE-Schätzer – indem er rein die Within-Variation nutzt – ist nicht durch unbeobachtete Heterogenität verzerrt. Das heißt, Paneldaten in Verbindung mit dem FE-Schätzer haben das Potential, das Problem personenspezifischer unbeobachteter Heterogenität zu beheben. Um die „Mechanik“ des FE-Schätzers zu verstehen, sind in Abbildung 2 die Daten nach der Within-Transformation in ein Streudiagramm abgetragen (mit Zufallsstreuung, um Überdeckungen zu vermeiden). Wie oben erläutert, werden bei der Within-Transformation bei jeder Variable jeweils die personenspezifischen Mittelwerte abgezogen (Mittelwertbereinigung). Die mittelwertsbereinigte Heiratsdummy ist auf der X-Achse abgetragen. Die immer Ledigen haben hier in jeder Welle ein Null stehen. Die Heiratenden haben vor der Heirat eine −0,5, danach eine +0,5. Auf der Y -Achse ist der mittelwertsbereinigte Lohn abgetragen. Die Datenpunkte der immer Ledigen streuen leicht um den Punkt (0,0). Sie tragen nichts zur Steigung der Regression bei, denn eine Regression geht immer durch den Punkt (¯ x,¯ y) was hier eben (0,0) ist. Die Steigung der Regressionsgerade wird allein vom mittleren Lohn vor und nach der Heirat bestimmt. Der FE-Schätzer ist somit ganz einfach die Differenz des mittleren Lohnes nach der Heirat und vor der Heirat. Er nutzt nur die Within-Variation, indem er nur die Daten der Heiratenden berücksichtigt und einen vorher-nachher Vergleich anstellt. Dies macht deutlich, dass der (einfache) FE-Schätzer die Daten der immer Ledigen nicht nutzt (er benutzt die Kontrollgruppe nicht). Dies ist so in Ordnung, weil die Kontrollgruppe keine Within-Information liefert. Gibt es allerdings Alters- oder Periodeneffekte, dann wird die Nicht-Berücksichtigung der Kontrollgruppe zum Problem. Man kann dieses Problem aber leicht beheben, indem man das Modell um Alters- und
36 Kausalanalyse mit Paneldaten
971
! " " !
Abb. 2: Die ’Mechanik’ einer FE–Regression Periodenvariablen erweitert (ein Beispiel hierzu findet sich unten). Die Alters- und Periodeneffekte werden unter Einbezug der Daten der Kontrollgruppe geschätzt. Eine FE-Regression mit Perioden- und Alters-Variablen implementiert im Prinzip einen vorher-nachher Vergleich mit Kontrollgruppe. Sie ist daher die beste Methode zur Analyse von Paneldaten. An dieser Stelle wird ein weiterer Punkt deutlich: nicht alle in der Stichprobe enthaltenen Personen tragen zur FE-Schätzung des Effektes des interessierenden Ereignisses (hier der Heirat) bei. Nur die Personen, die während der Bebachtungszeit das Ereignis erlebt haben, tragen zur Schätzung bei. Damit ist die Generalisierbarkeit des FE-Schätzers eingeschränkt. Wenn die Personen mit Ereignis (Treatment) keine Zufallsauswahl aus allen Personen sind, so repräsentiert der FE-Schätzer nur den Effekt in der Gruppe mit Treatment. In der Literatur zur kontrafaktischen Kausalität bezeichnet man deshalb einen solchen Schätzer als ATET (Average Treatment Effect on the Treated, siehe Kapitel 35 in diesem Handbuch). Wie wir unten an einem Beispiel sehen werden, trägt oft nur ein kleiner Teil der Panel-Stichprobe zum FE-Schätzer bei. Das ist in Ordnung so, weil nur der Teil der Daten verwendet wird, der tatsächlich Within-Information liefert. Aber man muss sich bewusst sein, dass dies ein nur mit Vorsicht generalisierbarer ATET-Schätzer ist.
2 Eine präzisere Einführung in die Panelregression Nach der eher intuitiven Einführung in die Panelregression im letzten Kapitel, sollen im Folgenden die Modelle präziser formuliert werden. Dabei werden auch einige weitere Panelregressionsmodelle eingeführt. Die Darstellung orientiert sich stark an Cameron & Trivedi (2005), wo man auch die hier nicht angeführten Herleitungen nachschlagen kann.
972
Josef Brüderl
2.1 Das Fehlerkomponenten-Modell Ausgangspunkt ist das Fehlerkomponenten-Modell (auch Varianzkomponenten-Modell): yit = xit β + αi + εit .
(9)
Der idiosynkratische Fehler εit ist unabhängig, identisch verteilt über i und t. Alle im Folgenden vorgestellten Panelregressionsmodelle machen die Annahme der strikten Exogenität: E[εit |xi1 , . . . , xiT ] = 0 Der idiosynkratische Fehler darf nicht mit den X-Variablen korrelieren (jeweils innerhalb einer Person, über alle Zeitpunkte). D. h. die X-Werte dürfen nicht eine Funktion vergangener, gegenwärtiger oder zukünftiger unbeobachteter Faktoren sein. Trifft diese Annahme nicht zu, so sind die im Folgenden vorgestellten Panelschätzer verzerrt. αi ist ein personenspezifischer, zeitkonstanter Fehlerterm (also eine Zufallsvariable). Abhängig von den weiteren Annahmen über den personenspezifischen Fehler kann man zwei grundlegende Modelle unterscheiden. Im Fixed-Effects-Modell (FE-Modell) nimmt man an, dass αi potentiell mit den beobachteten X-Variablen korreliert ist.5 Unter dieser Annahme ist es nötig, die αi zu eliminieren. Ansonsten sind die Schätzer von β verzerrt. Das Random-Effects-Modell (RE-Modell) hingegen nimmt an, dass die personenspezifischen Fehler αi unabhängig von den Regressoren sind. Weiterhin wird üblicherweise angenommen, dass sowohl die personenspezifischen, wie auch die idiosynkratischen Fehler unabhängig, identisch verteilt sind und konstante Varianz haben: αi ∼ (α,σα2 ) εit ∼ (0,σε2 ) .
(10)
Eine präzisere Bezeichnung wäre allerdings „Random-Intercept“-Modell, weil hier – im Unterschied zum klassischen Regressionsmodell – der Achsenabschnitt eine Zufallsvariable ist.6 Diese Zufallsvariable muss allerdings unabhängig von den Regressoren sein. Ist dies nicht der Fall, so sind RE-Schätzer verzerrt. 2.2 Die Schätzverfahren Zur Schätzung von β mit Paneldaten gibt es verschiedene Möglichkeiten. Das einfachste Verfahren ist die Anwendung von OLS auf die „gepoolten“ Daten (POLS). POLS ist konsistent unter der RE-Annahme, aber nicht effizient, denn es liegt Autokorrelation vor (die Fehlerterme sind über die Zeit korreliert, wegen dem personenspezifischen Fehlerterm). Unter der realistischeren FE-Annahme liefert POLS inkonsistente Schätzer. 5
Die Bezeichnung „Fixed-Effects“ geht auf eine Tradition zurück, in der man die αi als fixe Parameter betrachtete, die geschätzt werden sollten. 6 Unter diesem Namen ist das RE-Modell in der Mehrebenenanalyse-Literatur bekannt (siehe Kapitel 28 in diesem Handbuch). Paneldaten können als Mehrebenendaten konzeptionalisiert werden: die obere Ebene sind Personen, darunter liegt die Ebene „Zeit“. Deshalb gibt es Parallelitäten zwischen Panelmodellen und Mehrebenenmodellen (siehe Rabe-Hesketh & Skrondal 2008).
36 Kausalanalyse mit Paneldaten
973
POLS verwendet sowohl die Variation über die Zeit (Within), als auch die Variation zwischen den Personen (Between). Der Between-Schätzer benutzt nur die Variation zwischen den Personen. Man erhält ihn, indem man OLS auf die Daten nach der Between-Transformation anwendet: ¯i β + αi + ε¯i . y¯i = x
(11)
Der Between-Schätzer ist unter der RE-Annahme konsistent, nicht aber unter der FE-Annahme. Der Between-Schätzer ist in der Forschungspraxis nicht relevant, aber konzeptionell ist er interessant, da er nur auf der Between-Variation beruht. Das andere Extrem – ein Within-Schätzer – ist der FE-Schätzer. Er nutzt nur die Variation der Daten über die Zeit. Man erhält den FE-Schätzer indem man OLS auf die Daten nach der Within-Transformation anwendet. Dazu zieht man (11) von (9) ab und erhält das Within-Modell: yit − y¯i = (xit − x ¯i ) β + (εit − ε¯i ) .
(12)
Entscheidend ist, dass die unbeobachteten, personenspezifischen Fehler αi nun eliminiert sind. Deshalb ist der FE-Schätzer sowohl unter der RE-Annahme, wie auch unter der FE-Annahme konsistent. Er ist durch personenspezifische unbeobachtete Heterogenität nicht verzerrt. Damit nützt der FE-Schätzer eine spezielle Eigenschaft von Paneldaten aus, nämlich Kausaleffekte durch den intraindividuellen Vergleich zu schätzen. Ein „Nachteil“ des FE-Schätzers ist allerdings, dass die Koeffizienten zeitkonstanter Variablen nicht geschätzt werden können. Durch die Within-Transformation fallen nicht nur die personenspezifischen unbeobachteten Größen aus dem Modell, sondern auch die personenspezifischen beobachteten Variablen. Dass dem so sein muss, ist leicht verständlich, denn mit konstanten Größen ist kein Within-Vergleich möglich. Wenn sich nichts ändert, kann kein vorher-nachher Vergleich angestellt werden. Zwei weitere – zum FE-Verfahren äquivalente – Schätzverfahren, verdeutlichen die „Logik“ der Within-Schätzung aus anderen Perspektiven. Beim ersten Verfahren fügt man in das Modell für jede Person eine Dummy ein und schätzt die Parameter mit OLS (LSDV, Least Squares Dummy Variable). Man schätzt also die αi in Modell (9) mit, und kontrolliert somit für alle personenspezifischen Merkmale (beobachtete und unbeobachtete). Unbeobachtete Personen-Heterogenität ist deshalb kein Problem mehr. Mit dem LSDV-Schätzer ist es möglich, den FE-Schätzer auch ohne ein spezielles PanelProgramm zu schätzen (allerdings nur bei kleinem N , denn bei großem N überfordert man die meisten Programme durch die vielen Dummies). Weiterhin erhält man Schätzer für die personenspezifischen Effekte, was bei Länder- bzw. Firmenpaneldaten manchmal von inhaltlichem Interesse sein kann. Ein weiteres äquivalentes Verfahren ist eine Regression mit personenspezifischen Koeffizienten. Dabei berechnet man im Prinzip mit den Beobachtungen einer jeden Person eine eigene Regression. Das gewichtete Mittel der Steigungskoeffizienten dieser Regressionen ist dann der FE-Schätzer. Für Personen, die während ihrer Beobachtungsdauer keine Varianz auf einer unabhängigen Variablen aufweisen, kann keine Regressionsgerade geschätzt werden, weshalb sie nicht in die Berechnung eingehen.
974
Josef Brüderl
Dies zeigt noch einmal, dass nur die „Treated“ zum FE-Schätzer beitragen. Weiterhin macht dieser Schätzer noch einmal klar, dass es sich um eine reine Within-Betrachtung handelt: Es wird gefragt, wie sich Y ändert, wenn sich X ändert und zwar bei einer Person über die Zeit. Das Mittel der Antworten auf diese Frage ist dann der FE-Schätzer. Ein weiterer Within-Schätzer ist der FD (First Differences) Schätzer. Wenn man (9) um eine Periode zeitverzögert, erhält man yi,t−1 = xi,t−1 β + αi + εi,t−1 . Zieht man dies von (9) ab, so erhält man das FD-Modell: yit − yi,t−1 = (xit − xi,t−1 ) β + (εit − εi,t−1 ) .
(13)
Auch hier sind die αi eliminiert und damit ist der OLS Schätzer von (13) sowohl unter der RE-, wie auch unter der FE-Annahme konsistent. Wie beim FE-Schätzer ist hier die Frage, wie sich Y ändert, wenn sich X ändert. Anders als beim FE-Schätzer, werden jedoch nur die beiden Y -Werte unmittelbar vor und nach der X-Veränderung betrachtet (der FE-Schätzer bezieht alle verfügbaren Y -Werte in den Davor-DanachVergleich ein). Hat man mehr als zwei Wellen zur Verfügung, so ist dies ineffizient. Bei zwei Wellen sind FD- und FE-Schätzer äquivalent. Bei mehr als zwei Wellen unterscheiden sich FE- und FD-Schätzer und man sollte den effizienteren FE-Schätzer verwenden. Schließlich kann man das RE-Modell (9) und (10) mit GLS (Generalized Least Squares) schätzen. Im RE-Modell sind die Fehler autokorreliert, weshalb OLS ineffizient ist. GLS behebt dieses Problem, indem die Daten entsprechend transformiert werden (Feasible GLS). Der GLS-Schätzer des RE-Modells wird RE-Schätzer genannt. Der RE-Schätzer ist konsistent unter der RE-Annahme. Unter der FE-Annahme ist er jedoch verzerrt. Die RE-Transformation ist folgende: yi = (xit − λ¯ xi ) β + (1 − λ)αi + (εit − λ¯ εi ) , yit − λ¯ σε2 wobei λ = 1 − . σε2 + T σα2
(14)
OLS angewandt auf die so transformierten Daten, liefert den RE-Schätzer. Man beachte, dass für λ = 0 der RE-Schätzer äquivalent zu POLS ist und für λ = 1 ist er äquivalent zu FE. Normalerweise wird λ Werte zwischen 0 und 1 annehmen.7 In diesem Fall ist der RE-Schätzer eine Mischung aus dem Between- und dem FE-Schätzer. Sind die personenspezifischen Fehler und X korreliert, so ist der Between-Schätzer verzerrt. Damit wird auch der RE-Schätzer verzerrt sein. Das Ausmaß der Verzerrung hängt vom Wert des Transformationsgewichtes λ ab. Ist λ in der Nähe von 1, so wird die Verzerrung gering sein. Für lange Panels (T groß) wird λ gegen 1 gehen. Dasselbe gilt, falls die personenspezifische Fehlervarianz deutlich größer ist, als die idiosynkratische Fehlervarianz.
7
Man beachte, dass das Transformationsgewicht λ von T abhängt. In nicht-balancierten Panels gibt es deshalb verschiedene Transformationsgewichte.
36 Kausalanalyse mit Paneldaten
975
2.3 RE- oder FE-Modell? Damit stellt sich die Frage, ob man das RE- oder das FE-Modell verwenden soll. Angesichts der Tatsache, dass bei den meisten sozialwissenschaftlichen Fragestellungen personenspezifische unbeobachtete Heterogenität vorhanden sein dürfte, ist die Antwort eigentlich klar: Man sollte das FE-Modell verwenden, weil es den besonderen Vorzug von Paneldaten – die Möglichkeit des Within-Vergleichs – voll umsetzt, und deshalb bei Vorliegen von personenspezifischer unbeobachteter Heterogenität nicht verzerrt ist. Dagegen wird in dieser Situation der RE-Schätzer verzerrt sein, weil er auch den Between-Vergleich mit einbezieht (zumindest solange λ deutlich kleiner 1 ist). In der Sozialforschung sind diese Vorzüge des FE-Schätzers noch viel zu wenig bekannt, was dazu führt, dass viele Autoren POLS oder RE verwenden. Halaby (2004) wertete Panelstudien aus, die in ASR und AJS von 1990 bis 2003 erschienen sind. Sein Ergebnis ist, dass die Hälfte dieser Artikel keine FE-Schätzer verwendet. Den Autoren und Gutachtern der besten Soziologie-Journale scheint der große Vorzug von Paneldaten – nämlich die Möglichkeit der Within-Schätzung – unbekannt zu sein. Zwei „Probleme“ des FE-Modells sind es, die manchen Forscher zum RE-Modell greifen lassen. Erstens kann man mit dem FE-Modell die Koeffizienten zeitkonstanter Variablen nicht mitschätzen. Da man es von Querschnittsregressionen gewohnt ist, dass Regressionen möglichst viele Kontrollvariablen enthalten, wollen Forscher auch bei Panelregressionen viele Variablen ins Modell nehmen. Da Kontrollvariablen oft zeitkonstant sind, macht dies das RE-Modell attraktiv. Dies ist aber ein trügerischer Schluss: Bei Querschnittsregressionen ist es sinnvoll, für viele Variablen zu kontrollieren, weil dies das Potential für verzerrte Schätzer reduziert. Bei Panelregressionen ist das Gegenteil der Fall, denn durch die Verwendung des RE-Modells erhöht man das Potential für verzerrte Schätzer. Ein FE-Modell enthält zwar weniger Variablen, es kontrolliert aber implizit für alle zeitkonstanten Variablen. Um den Informationsgehalt von Paneldaten voll auszunutzen, ist ein Umdenken erforderlich: Nicht große Regressionsmodelle sind „beautiful“, sondern FE-Modelle mit evtl. wenigen zeitveränderlichen Variablen. Man muss es eigentlich umgekehrt formulieren: Nicht das FE-Modell hat hier ein Problem, sondern das Beharren auf den Effekten zeitkonstanter Variablen ist das Problem. Auch mit Paneldaten können die Effekte zeitkonstanter Variablen nur verzerrt geschätzt werden, falls unbeobachtete Heterogenität vorliegt. Man kann sogar in Frage stellen, dass dies Kausalanalyse ist, denn wo keine Veränderung, da keine Ursache und Wirkung. Effekte zeitkonstanter Variablen sind keine Kausaleffekte, sondern Korrelate. Mit Querschnittsdaten muss man sich mit der Frage nach den Korrelaten begnügen. Aber mit Paneldaten kann man neue Fragen stellen: Man kann versuchen die hinter den Korrelationen stehenden kausalen Mechanismen aufzuklären. Dabei können Paneldaten sehr hilfreich sein, weil sie die Dynamik der Prozesse in verschiedenen Gruppen beleuchten helfen. Hierzu kann man z. B. WachstumskurvenModelle einsetzen (s. u.). Mit der bloßen Frage nach den Effekten zeitkonstanter Variablen schöpft man das Potential von Paneldaten bei weitem nicht aus. Ein zweiter angeblicher „Vorteil“ wird oft zugunsten des RE-Modells angeführt. Im Vergleich zu einem RE-Schätzer ist der FE-Schätzer weniger effizient (die Stan-
976
Josef Brüderl
dardfehler der FE-Schätzer sind größer). Dies ist leicht zu verstehen: Während der RE-Schätzer die gesamte Variation in den Daten nutzt, stützt sich der FE-Schätzer nur auf die Within-Variation. In Situationen, in denen die Within-Variation im Vergleich zur Between-Variation klein ist, benutzt der FE-Schätzer nur einen kleinen Teil der Variation in den Daten. Da sei der RE-Schätzer doch vorzuziehen, weil er die gesamte Variation nutze. Dieses Argument führt aber in die Irre, denn nicht Effizienz (kleine Standardfehler) sondern Vermeidung von Bias ist das wichtigere Ziel in der Sozialforschung. Wem helfen präzise Schätzer, die aber massiv verzerrt sind? Indem der FE-Schätzer die „kontaminierte“ Between-Variation ignoriert, opfert er Effizienz dem Oberziel „Vermeidung von Bias“ (Allison 2009, S. 3). In manchen Situationen mag personenspezifische Heterogenität kein Problem sein, oder das Transformationsgewicht ist nahe 1. Dann – und nur dann – ist die Verwendung des RE-Modells gerechtfertigt und eben auch effizienter. Mit einem so genannten Hausman-Test kann man feststellen, ob eine solche Situation vorliegt. Ein HausmanTest testet ein „immer“ konsistentes Modell gegen ein „manchmal“ konsistentes aber dann effizientes Modell. Im Panel-Fall ist das immer konsistente Modell das FE-Modell und das manchmal konsistente Modell ist das RE-Modell. Die Grundidee für die Hausman-Teststatistik ist einfach: Man berechnet die standardisierte Differenz der Parameterschätzer. Ist die groß, so weicht das RE-Modell stark vom FE-Modell ab ˆ ˆ und man muss das FE-Modell verwenden. Seien β F E die FE-Schätzer und β RE die ˆ RE-Schätzer. Sei V (. ) die geschätzte Varianz-Kovarianzmatrix der Schätzer. So ergibt sich die Hausman-Teststatistik H als: ˆ ˆ −1 ˆ ˆ ˆ ˆ ). ˆ ˆ H = (β (β RE − β RE − β F E ) [V (β RE ) − V (β F E )] FE
(15)
Die Nullhypothese ist, dass die Schätzer beider Modelle identisch sind (H = 0). H ist unter der Nullhypothese asymptotisch χ2 -verteilt mit K (Zahl der Variablen) Freiheitsgraden. Kann die Nullhypothese nicht abgelehnt werden, so sind die RESchätzer nicht durch unbeobachtete Heterogenität verzerrt und den FE-Schätzern wegen ihrer größeren Effizienz sogar vorzuziehen. Muss die Nullhypothese abgelehnt werden, so sind die RE-Schätzer verzerrt und man sollte das FE-Modell verwenden. 2.4 Ein Hybrid-Modell Wenn aber der Effekt einer zeitkonstanten Variable von zentralem inhaltlichem Interesse ist, dann nützen all die Vorteile des FE-Modells nichts: es liefert diesbezüglich keinen Schätzer. Anstatt nun zum RE-Modell zu greifen, gibt es als Alternative das so genannte Hybrid-Modell. Solche Modelle kombinieren RE- und FE-Modelle und erlauben so, die Effekte zeitkonstanter Variablen mitzuschätzen. Allison (2009) schlägt ein solches Hybrid-Modell vor.8 Man schätzt ein RE-Modell, wobei allerdings die zeitveränderlichen Variablen in zweifacher Form aufgenommen werden: mittelwertsbereinigt (Within-Transformation) und als Personenmittel (Between-Transformation). Das Hybrid-Modell lautet: 8
Zwei weitere Hybrid-Modelle (auch „Mixed Models“ genannt) erwähnt Halaby (2004, S. 530 ff.).
36 Kausalanalyse mit Paneldaten
yit = (xit − x ¯i ) β + x ¯i γ + zi δ + αi + εit ,
977
(16)
wobei zi der Vektor der zeitkonstanten Variablen ist. Die Parameter werden mit GLS geschätzt (RE-Modell). Die Schätzer der Within-Komponente (β) sind identisch mit den FE-Schätzern. Die Schätzer der Between-Komponente (γ) sind BetweenSchätzer und bei Vorliegen unbeobachteter Heterogenität verzerrt. Deshalb sind sie normalerweise nicht von inhaltlichem Interesse. Liegt keine personenspezifische unbeobachtete Heterogenität vor, so sollte β = γ sein. Ein Test diesbezüglich kann somit als Alternative zum Hausman-Test eingesetzt werden. Das attraktive am Hybrid-Modell ist nun, dass es neben den Within-Schätzern auch Schätzer der Effekte der zeitkonstanten Variablen (δ) liefert. Im Gegensatz zum RE-Modell sind diese Schätzer nicht durch die ungenügende Kontrolle der zeitveränderlichen Variablen verzerrt. Das RE-Modell unterstellt ja implizit die – meist falsche – Restriktion β = γ . Insofern sollte man die Hybrid-Schätzer den RE-Schätzern immer vorziehen. Dennoch sind die Effektschätzer der zeitkonstanten Variablen auch im Hybrid-Modell bei Vorliegen von personenspezifischer unbeobachteter Heterogenität verzerrt. Man muss sich – wie schon mehrfach erwähnt – bewusst sein, dass Paneldaten bezüglich der Identifikation der Effekte zeitkonstanter Variablen kaum Vorteile bieten. 2.5 Panel-robuste Standardfehler Schließlich sind noch ein paar Bemerkungen zu den Standardfehlern notwendig. Die konventionellen Formeln zur Berechnung von Standardfehlern in Regressionsmodellen setzen die Abwesenheit von Heteroskedastizität und Autokorrelation voraus. Da Paneldaten eine Cluster-Struktur aufweisen, ist jedoch ziemlich sicher mit Autokorrelation zu rechnen. Die Beobachtungen einer Person sind nicht unabhängig, weshalb die Fehlerterme innerhalb einer Person korreliert sein werden (Autokorrelation). Die Berücksichtigung personenspezifischer Terme bei RE- und FE-Modellen reduziert zwar das Problem, beseitigt es aber normalerweise nicht ganz. Weiterhin muss man davon ausgehen, dass in den meisten Daten Heteroskedastizität vorliegt. Aus dem letzteren Grund hat es sich inzwischen bei Querschnittsregressionen eingebürgert, die Huber/White-Sandwich-Schätzer der Standardfehler zu verwenden. Die sind robust gegen die Verletzung der Heteroskedastizitätsannahme (robuste Standardfehler). Das Sandwich-Prinzip lässt sich auf den Panelkontext verallgemeinern und man erhält damit panel-robuste Standardfehler, die auch gegen das Vorliegen von Autokorrelation unempfindlich sind. In Stata erhält man panel-robuste Standardfehler mit der Option vce (cluster id), wobei id der Personen-Identifier ist. Man hüte sich aber davor, das Problem verzerrter Standardfehler überzustilisieren.9 Viele Forschungsartikel beinhalten eine längere methodologische Diskussion über verzerrte Standardfehler bei Paneldaten. Das mündet dann in die Verwendung von REModellen mit panel-robusten Standardfehlern. Verzerrte Standardfehler sind aber nicht 9
Im Übrigen weisen Angrist & Pischke (2009, Kap. 8) darauf hin, dass auch die robusten Standardfehler in finiten Stichproben verzerrt sein werden. Die geschätzten Standardfehler (egal ob konventionell oder robust) werden nie ganz richtig sein. Ihr Ratschlag: „Don’t panic“.
978
Josef Brüderl
das Hauptproblem der Sozialforschung, sondern durch unbeobachtete Heterogenität verzerrte Effektschätzer. Man arbeitet sich an einem zweitrangigen Problem ab und vergisst dabei das eigentliche Problem, welches man mit der Verwendung von FEModellen in den Griff bekommen könnte.
3 Ein Beispiel: Der Effekt der Heirat auf die Zufriedenheit Anhand eines Beispiels mit SOEP-Daten soll in diesem Kapitel der Umgang mit den verschiedenen Panelregressionsmodellen illustriert werden. Ich wähle ein Beispiel aus dem in den letzten Jahren boomenden Bereich der „Happiness-Forschung“. Es soll untersucht werden, ob eine (Erst-) Heirat die Lebenszufriedenheit erhöht (der den Boom auslösende Aufsatz ist Lucas et al. 2003). Die meisten Menschen würden wohl antworten „natürlich ja“, und einschlägige Auswertungen mit Querschnittsdaten belegen dies auch. Aber der methodisch geschulte Sozialforscher wird bemerken, dass dies auch die Folge von Selbstselektion seine könnte: Vermutlich heiraten glückliche Menschen eher. Da das SOEP jedes Jahr die Zufriedenheitsfrage gestellt hat, ist es für diese Fragestellung ideal geeignet. Für die folgenden Analysen verwende ich die Daten des SOEP 1984–2007 (100 % Version). Damit hat man teilweise sehr lange Zufriedenheitspanels vorliegen und hat genügend Varianz auf der unabhängigen Variable, so dass in der typischen Within-Herangehensweise die Zufriedenheit vor und nach der Heirat innerhalb einer Person verglichen werden kann. 3.1 Datenaufbereitung Die Frage nach der Lebenszufriedenheit lautet: „Wie zufrieden sind Sie gegenwärtig, alles in allem, mit Ihrem Leben?“. Die Antworten erfolgen auf einer 11-stufigen Skala von 0 („ganz und gar unzufrieden“) bis 10 („ganz und gar zufrieden“). Dies ist eine ordinale Variable, aber die meisten Autoren behandeln sie wie eine intervallskalierte Variable. Deshalb verwende auch ich im Folgenden metrische Regressionsverfahren. Eine weitere wichtige Entscheidung ist die Modellierung des Zeitpfades des Heiratseffektes. Nimmt man an, dass eine Heirat einen sofortigen und dauerhaft konstanten Effekt auf die Zufriedenheit hat, dann genügt es, in das Modell eine Heiratsdummy aufzunehmen. Die Heiratsdummy ist null vor der Erstheirat, in Wellen nach dem Datum der Erstheirat ist sie eins. In unserem Fall liegt aber die Vermutung nahe, dass der Heiratseffekt mit der Zeit verschwinden könnte. Deshalb nehme ich zwei Zeitvariablen zusätzlich in das Modell auf: Jahre seit der Heirat und Jahre seit der Heirat quadriert. Die Heiratsdummy und die beiden Zeitvariablen zusammen können den Zeitpfad des Heiratseffektes sehr flexibel modellieren. Weiterhin berücksichtige ich drei Kontrollvariablen. Um eventuelle Alterseffekte zu erfassen, wird das Alter in Jahren in die Modelle aufgenommen (aus didaktischen Gründen vorerst nur linear). Da eine Abhängigkeit der Zufriedenheit vom Einkommen zu vermuten ist, ist auch das Haushaltseinkommen in den Modellen (natürlicher Logarithmus). Diese beiden Kontrollvariablen sind zeitveränderlich. Die dritte Kontrollvariable ist zeitkonstant: das Geschlecht.
36 Kausalanalyse mit Paneldaten
979
Die hierzu erforderlichen Datenaufbereitungsschritte sind nicht trivial. Paneldaten sind komplexe Daten, weshalb die Datenaufbereitung den Hauptteil der Datenanalyse in Anspruch nimmt. Aus Platzgründen kann ich hier nicht weiter auf die Datenaufbereitung eingehen, aber der kommentierte Datenaufbereitungsfile (und auch der Datenanalysefile) kann auf der Internetseite des Handbuchs eingesehen werden. Einige Besonderheiten sind bei der Eingrenzung des Schätz-Samples zu beachten, weshalb ich darauf hier eingehen will (insbesondere weil man diese wichtigen Schritte in keinem Lehrbuch findet). Die Personendatensätze des SOEP beinhalten 376.581 Personenjahre von 47.466 Personen. Es ist nicht sinnvoll, mit all diesen Fällen die Analyse durchzuführen. Die erste Eingrenzung kennt man so auch aus der Querschnittsdatenanalyse: Personenjahre mit fehlenden Werten auf einer der Analysevariablen werden ausgeschlossen (Listwise Deletion). Damit verliert man 5.526 Personenjahre und 379 Personen. Die weiteren Eingrenzungen sind jedoch panelspezifisch: Die Idee ist, das Sample auf die Personenjahre einzugrenzen, die für die Within-Analyse relevant sind. Das sind die Personen (bzw. Personenjahre), die das Ereignis (in unserem Falle eine Erstheirat) potentiell während der Beobachtungsdauer des Panels erleben könnten. Das sind nicht Personenjahre nach der Auflösung einer Ehe (Verwitwung, Trennung, Scheidung). Damit verlieren wir 64.301 Personenjahre und 5.568 Personen. Ebenso tragen nur Personen, die bei der ersten Beobachtung im Panel ledig waren, zum Within-Schätzer bei. Deshalb schließen wir 25.375 am Anfang bereits verheiratete Personen (das sind 61 % der Personen) mit 195.478 Personenjahren aus. Schließlich schließe ich alle Personen aus, die nur mit einem Personenjahr im Datensatz vertreten sind (N=2.605). Damit hat der Analysedatensatz zum Schluss 108.369 Personenjahre von 13.539 Personen. Diese massiven Dateneingrenzungsschritte sind sicher gewöhnungsbedürftig. Aber wenn man in der Within-Logik denkt, machen sie Sinn. Wie oben erläutert, ist ein FE-Schätzer immer ein ATET-Schätzer, weshalb es keinen Unterschied macht, ob man die „Non-Treated“ im Analysedatensatz lässt oder nicht. Allerdings schließe ich nicht alle „Non-Treated“ aus: die immer Ledigen bleiben im Analysedatensatz, um zuverlässigere Schätzer für die Alters- und Periodeneffekte (und die weiteren Kontrollvariablen) zu erhalten. Man könnte nun argumentieren, dass die Schätzer der Kontrollvariablen noch präziser würden, wenn man auch z. B. die am Anfang des Panels bereits verheirateten Personen im Analysedatensatz belassen würde. Allerdings bringt man dadurch eher unnötige Heterogenität in den Analysedatensatz, welche die Schätzer der Kontrollvariablen „verzerren“ könnte. Angenommen der Alterseffekt ist bei Ledigen ganz anders, als bei Verheirateten. Die Verheirateten werden aufgrund ihrer größeren Zahl die Schätzung des Alterseffektes dominieren, was dazu führen kann, dass der Heiratseffekt verzerrt geschätzt wird. Deshalb macht es Sinn, den Analysedatensatz auf die Personen zu beschränken, die in einem wichtigen Punkt vergleichbar sind: sie können das Ereignis (Treatment) potentiell erleben. In unserem Beispiel sind dies eben die am Anfang des Panels noch Ledigen.
980
Josef Brüderl
Tab. 2: Regressionsmodelle auf die Lebenszufriedenheit (SOEP 1984–2007) (1) POLS Heirat Jahre seit Heirat (Jahre seit Heirat)2 Alter in Jahren Haushaltseinkommen (ln) Frau (Within-)R2 Zahl Personen Zahl Personenjahre Zahl Heiraten
0,403∗∗∗ −0,055∗∗ 0,002∗∗ −0,013∗∗∗ 0,283∗∗∗ 0,066∗∗ 0,026 13539 108369 3491
(2) RE
(3) FE
0,243∗∗∗ −0,058∗∗∗ 0,002∗∗∗ −0,022∗∗∗ 0,138∗∗∗ 0,057∗∗ 0,014 13539 108369 3491
0,249∗∗∗ −0,043∗∗∗ 0,002∗∗∗ −0,037∗∗∗ 0,091∗∗∗ — 0,015 13539 108369 3491
(4) FE Perioden 0,249∗∗∗ −0,047∗∗∗ 0,002∗∗∗ −0,022∗∗ 0,091∗∗∗ — 0,019 13539 108369 3491
Standardfehler panel-robust geschätzt. Modell (4) enthält zusätzlich Periodeneffekte. ∗ : p ≤ 0,05; ∗∗ : p ≤ 0,01; ∗∗∗ : p ≤ 0,001
3.2 Schätzergebnisse Mit unserem Analysedatensatz vergleichen wir nun POLS, RE- und FE-Modell. Die Schätzergebnisse finden sich in Tabelle 2, Modelle 1–3. Von den 13.539 Personen haben 3.491 Personen während der Beobachtungsdauer eine Heirat. Dies sind genügend Ereignisse, um eine verlässliche Within-Schätzung durchführen zu können. Zuerst gehe ich auf die Interpretation der Kontrollvariablen ein. Der Alterseffekt ist negativ, d. h. mit zunehmendem Alter werden die Deutschen unzufriedener. Der Effekt wird im RE- und im FE-Modell stärker. Allerdings sind hier keine Periodeneffekte kontrolliert, so dass der Alterseffekt verzerrt ist (s. Modell 4). Der positive Einkommenseffekt zeigt, dass wohlhabende Menschen zufriedener sind. Der Effekt ist im FE-Modell allerdings deutlich kleiner, was darauf hindeutet, dass hier zum Teil unbeobachtete Heterogenität vorliegt: Es liegen unbeobachteten Eigenschaften vor, die sowohl die Zufriedenheit als auch das Einkommen erhöhen. Schließlich zeigt sich, dass Frauen etwas zufriedener sind. Da es sich hierbei um eine zeitkonstante Variable handelt, ist der Effekt im FE-Modell nicht schätzbar. Der eigentlich interessierende Effekt der Heirat ist aufgrund der komplexen Modellierung nur schwer zu interpretieren. Ein Conditional-Effect Plot hilft hier weiter (siehe Abbildung 3). Alle drei Modelle kommen zu dem Ergebnis, dass eine Heirat die Zufriedenheit erhöht, allerdings nur in den ersten Jahren der Ehe. POLS überschätzt den Heiratseffekt deutlich. Der Grund ist vermutlich Selbstselektion. Der FE-Schätzer ist kleiner, aber immer noch signifikant. Es gibt also neben der Selbstselektion auch einen kausalen Effekt der Heirat. Im Honeymoon-Jahr ist die Zufriedenheit um 0,25 Skalenpunkte höher. Dieser Honeymoon-Effekt baut sich über die Jahre rasch ab und ist nach sechs Jahren nicht mehr signifikant von null verschieden.10 Der RE-Schätzer 10
Dies zeigt ein Test für Linearkombinationen (s. Analysefile).
ä
36 Kausalanalyse mit Paneldaten
981
!"
#"
Abb. 3: Effekt der Heirat auf die Lebenszufriedenheit liegt hier erstaunlicherweise nicht zwischen POLS und FE, sondern ist noch kleiner. Es ist allerdings ziemlich wahrscheinlich, dass er aufgrund von Selbstselektion verzerrt ist. Die inhaltliche Schlussfolgerung ist somit, dass eine (Erst-) Heirat die Lebenszufriedenheit erhöht. Allerdings ist dies ein vorübergehender Effekt: nach fünf Jahren kehrt die Zufriedenheit wieder auf ihren Ausgangswert zurück.11 Die Schätzergebnisse haben sich bei Verwendung des FE-Modells deutlich verändert. Insofern scheint Selbstselektion in unserem Anwendungsfall ein Problem darzustellen und man sollte das FE-Modell vorziehen. Eine formale Entscheidungshilfe liefert ein Hausman-Test. Ein Hausman-Test testet die Nullhypothese, dass sich die RE-Schätzer nicht von den FE-Schätzern unterscheiden. In unserem Fall hat die χ2 -Statistik den Wert 645 bei 5 Freiheitsgraden und ist damit hochsignifikant. Die RE-Schätzer weichen damit signifikant von den FE-Schätzern ab und man muss das FE-Modell verwenden. Die oben angeführten Signifikanztests basieren auf panel-robusten Standardfehlern. Damit ist Heteroskedastizität und Autokorrelation unbestimmter Art innerhalb der Panels zugelassen. Das führt normalerweise zu deutlich größeren Standardfehlern. Schätzt man beispielsweise mit unseren Daten ein vereinfachtes FE-Modell (ohne die „Jahre seit der Heirat“), so beträgt der konventionelle Standardfehler der Heiratsdummy 0,018. Der daraus resultierende t-Wert ist 9,74. Der panel-robuste Standardfehler ist 0,024 und der t-Wert ist nur mehr 7,29. Konventionelle Standardfehler führen zu einer Überschätzung der Signifikanz der Effekte. Schließlich sei auf den Modellfit eingegangen. In Panelregressionsmodellen kann man verschiedene R2 -Werte berechnen: Within, Between, Overall. Da POLS die Varianzkomponenten nicht trennt, ist hier das Overall-R2 ausgewiesen: Heirat, Alter und Einkommen zusammen erklären 2,6 % der gesamten Zufriedenheitsvarianz zwischen und innerhalb der Personen. Bei RE- und FE-Modell hat man dagegen die Wahl. Der Within-Logik folgend ist es hier sinnvoll, das Within-R2 auszuweisen. Im FE-Modell 11
Dies ist analog zu dem Ergebnis, das Lucas et al. (2003) mit dem SOEP 1984–1998 berichten (wobei sie RE-Modelle verwenden).
982
Josef Brüderl
erklären die Variablen 1,5 % der Zufriedenheitsvariation innerhalb der Personen. Man beachte hier einen (feinen) Unterschied zur üblichen R2 -Interpretation: Das Within-R2 gibt den Anteil der erklärten Varianz innerhalb der Personen, die Varianz zwischen den Personen ist völlig ausgeblendet. Die 98,5 % nicht erklärte Varianz sind also nicht durch unbeobachtete Personen-Heterogenität verursacht, sondern durch unterschiedliche Lebenssituationen und Stimmungslagen, in denen sich die Respondenten zum Zeitpunkt der Interviews befinden. Das Overall-R2 in einem analogen LSDV-Modell fällt viel höher aus und beträgt 44,7 %. 3.3 Ein Modell mit Periodeneffekten Die bisherigen Modelle kontrollieren nicht für Periodeneffekte. Standardmäßig sollte man dies aber – wie oben bereits ausgeführt – tun. Das Modell ist nun: yit = μt + xit β + αi + εit .
(17)
μt sind die Periodeneffekte, die ein periodenspezifisches Zufriedenheitsniveau modellieren. Dieses Modell heißt auch „two-way FE-Modell“, denn es enthält nicht nur fixe Effekte für jede Person sondern auch für jede Periode. Die fixen Periodeneffekte werden über Perioden-Dummies mitgeschätzt. Modell 4 in Tabelle 2 enthält die Schätzergebnisse (die Perioden-Effektschätzer sind aus Platzgründen nicht aufgeführt). Wie man sieht, ändern sich in unserem Fall die Schätzergebnisse kaum. Nur der Alterseffekt geht dem Betrag nach deutlich zurück. Mit der Berücksichtigung der Periodeneffekte handelt man sich allerdings ein methodisches Problem ein: das APC-Problem (Age-Period-Cohort). Es ist nicht möglich, Perioden-, Alters- und Kohorteneffekte in ein lineares Regressionsmodell gleichzeitig aufzunehmen, weil perfekte Kollinearität vorliegt: Das Alter ergibt sich z. B. aus Periode minus Kohorte (siehe Rabe-Hesketh & Skrondal 2008, S. 182 ff.). Mit Querschnittsdaten kann man nur einen der drei Zeiteffekte schätzen, weil die Periode konstant ist (Alter und Kohorte sind kollinear). Mit Kohorten-Paneldaten kann man auch nur einen Zeiteffekt schätzen, weil die Kohorte konstant ist (Alter und Periode sind kollinear). Mit Paneldaten mit mehreren Kohorten kann man zwei der Zeiteffekte schätzen. Meist wird man den Alters- und den Periodeneffekt in das Modell aufnehmen. Das FE-Modell (3, in Tabelle 2) enthält einen linearen Altersterm, aber keinen Kohortenterm. Dennoch bricht das Modell zusammen, wenn man Perioden-Dummies (oder einen linearen Periodenterm) einführt. Wieso das, wo doch kein Kohortenterm im Modell ist? POLS und RE haben kein Problem mit einem Modell, das nur Altersund Periodenterme enthält. Das FE-Modell allerdings schon, weil es ja implizit auch die zeitkonstante Variable „Kohorte“ mitkontrolliert. Innerhalb einer Person ist die Kohorte konstant und Alter und Periode sind perfekt kollinear. Man kann das APCProblem umgehen, indem man Restriktionen einführt. In unserem Falle liegt es nahe, Perioden-Dummies für Jahre, die ähnliche mittlere Zufriedenheitswerte aufweisen (geschätzt mit POLS), zusammenzufassen. Die Jahre 1984, 1986, 1990 und 1991 weisen die höchsten Zufriedenheitswerte auf, weshalb ich für diese vier Jahre nur eine Dummy berücksichtige. Mit diesen so restringierten Perioden-Dummies gelingt es, das Modell
36 Kausalanalyse mit Paneldaten
983
Tab. 3: Regressionsmodelle auf die Lebenszufriedenheit (SOEP 1984–2007)
Heirat Heirat (within) Heirat (between) Alter Alter (within) Alter (between) HHeink HHeink (within) HHeink (between) Frau 2
Within-R Zahl Personenjahre ∗
: p ≤ 0,05;
∗∗
: p ≤ 0,01;
(1) RE
(2) FE
0,103∗∗∗
0,175∗∗∗
−0,026∗∗∗
−0,042∗∗∗
0,123∗∗∗
0,086∗∗∗
0,056∗∗
—
0,013 108369 ∗∗∗
0,014 108369
(3) HYBRID 0,175∗∗∗ 0,358∗∗∗ −0,042∗∗∗ −0,010∗∗∗ 0,086∗∗∗ 0,435∗∗∗ 0,074∗∗∗ 0,014 108369
: p ≤ 0,001; Standardfehler panel-robust geschätzt.
4 zu schätzen. Gegenüber Modell 3 geht der Alterseffekt deutlich zurück, was darauf hindeutet, dass der Alterseffekt ohne Berücksichtigung des Periodeneffektes (dem Betrag nach) überschätzt wird (der Tendenz nach zeigt sich, dass über die Jahre die Zufriedenheit eher zurückgeht). Allerdings muss man darauf hinweisen, dass die Altersund Periodenschätzer nur dann unverzerrt sind, wenn die Restriktion zutrifft. Ist die Einschränkung (die vier Jahre gleichzusetzen) so nicht zutreffend, so sind die Schätzer verzerrt. 3.4 Ein Hybrid-Modell Um das oben eingeführte Hybrid-Modell zu demonstrieren, vereinfachen wir die Modellierung. Wir wollen Modelle mit der Heirat, dem Alter, dem Haushaltseinkommen und dem Geschlecht schätzen. Tabelle 3 enthält in den ersten beiden Spalten die Ergebnisse für ein RE- und ein FE-Modell. Die Ergebnisse fallen ähnlich zu den Bisherigen aus. Wie üblich ist der Effekt des Geschlechts im FE-Modell nicht schätzbar. Ein Hybrid-Modell erhält man nun, wenn man jede zeitveränderliche unabhängige Variable in eine Between- und eine Within-Komponente zerlegt. Die Between-Komponente ist das Mittel über alle Beobachtungen einer Variable bei einer Person (BetweenTransformation). Die Within-Komponente ist die Variation um das Personenmittel (Within-Transformation). Mit diesen so transformierten zeitveränderlichen Variablen schätzt man dann ein RE-Modell, in das man auch (nicht-transformierte) zeitkonstante Variablen aufnehmen kann. Tabelle 3 enthält in Spalte 3 die Ergebnisse für unser Beispiel. Man sieht, dass die Schätzer der Within-Komponente exakt die FE-Schätzer reproduzieren. Das HybridModell erlaubt somit eine FE-Schätzung, wobei aber noch weitere Koeffizienten geliefert
984
Josef Brüderl
werden. Die Between-Komponenten liefern die Between-Schätzer. Die sind allerdings – wie wir wissen – bei Vorliegen von unbeobachteter Heterogenität verzerrt. Eine starke Abweichung von den Within-Schätzern kann deshalb einen Hinweis auf Probleme mit unbeobachteter Heterogenität liefern. In unserem Fall gibt es bei allen drei Variablen deutliche Abweichungen, was noch einmal bestätigt, dass es mit den Happiness-Daten massive Selbstselektionsprobleme gibt. Schließlich liefert das Hybrid-Modell einen Schätzer für den Geschlechtseffekt. Der fällt etwas stärker aus als der RE-Schätzer. Er kann interpretiert werden als der Effekt, unter Kontrolle sowohl der Within- wie auch der Beween-Variation der zeitveränderlichen Variablen. Es muss allerdings betont werden, dass es sich hierbei nicht um einen Within-Schätzer handelt. Bei Vorliegen von unbeobachteter Heterogenität wird der Geschlechtseffekt verzerrt sein. 3.5 Ein Wachstumskurven-Modell Das Hybrid-Modell erlaubt die Berücksichtigung der Geschlechts-Dummy. Mit Paneldaten kann man aber nicht nur Gruppenunterschiede im Niveau schätzen, sondern auch Gruppenunterschiede in der Dynamik. Die Frage lautet dann: Wie unterscheidet sich die Entwicklung der Zufriedenheit im Lebensverlauf von Männern und Frauen? In der Literatur nennt man das Wachstumskurven-Analyse (Growth Curve Analysis, siehe Kapitel 38 in diesem Handbuch). Wachstumskurven werden meist mit RE-Modellen geschätzt (Random Coefficient Modelle, siehe Rabe-Hesketh & Skrondal 2008, S. 210 ff.). Aber auch in einem FE-Modell kann man Wachstumskurven schätzen und hat damit den Vorteil, dass die Wachstumskurven nicht durch personenspezifische Heterogenität verzerrt geschätzt werden. Im Folgenden soll deshalb kurz erläutert werden, wie man FE-Wachstumskurven schätzen kann. Wachstumskurven sind über eine Zeitvariable definiert. In unserem Kontext könnten wir Wachstumskurven über die Jahre seit Heirat schätzen und könnten damit etwa untersuchen, wie stark sich der Heiratseffekt zwischen Männern und Frauen unterscheidet (diese Analysen zeigen, dass der Unterschied gering ist). Am häufigsten wird aber die Zeitvariable „Lebensalter“ betrachtet. Oben haben wir „Alter“ linear im Modell berücksichtigt und damit eine lineare Wachstumskurve mitgeschätzt. Genauere Analysen zeigen, dass eine kubische Modellierung angemessener ist. Die Wachstumskurven modellieren wir deshalb im Folgenden mit „Alter“, „Alter2 “ und „Alter3 “. Die Wachstumskurven-Analyse macht sich nun die Tatsache zu nutze, dass im FE-Modell Interaktionen von zeitkonstanten und zeitveränderlichen Variablen schätzbar sind. Wir können also „Geschlecht“ mit den drei Altersvariablen interagieren und in einem FE-Modell die Effekte schätzen. Die numerischen Ergebnisse der Modellschätzung führen wir hier nicht an, aber die geschätzten Wachstumskurven sind in Abbildung 4 eingetragen. Die durchgezogene Linie ist die Entwicklung der Zufriedenheit über den Lebensverlauf bei Frauen, die gestrichelte bei Männern. Beide Wachstumskurven sind jeweils von einem 95 %-Konfidenzintervall (panel-robust) umgeben. Betrachtet man zuerst den Verlauf der Wachstumskurven, so erkennt man, dass der Rückgang der Zufriedenheit bis etwa 60 annähernd linear verläuft, danach beschleunigt er sich. Das erscheint plausibel, denn aus der Literatur ist bekannt, dass insbesondere kurz vor dem Tod die
36 Kausalanalyse mit Paneldaten
985
10
Lebenszufriedenheit
9 8 7 6 5 4 3 2
Frauen Männer
1 0 10
20
30
40
50
60
70
80
90
100
Alter
Abb. 4: Zufriedenheit im Lebensverlauf Lebenszufriedenheit stark abfällt. Nun aber zu den Geschlechtsunterschieden. Aus den obigen Analysen (siehe Tabelle 3) wissen wir, dass Frauen zufriedener sind als Männer. Hier sehen wir noch viel mehr: Die Zufriedenheit ist bei Frauen in jungen Jahren etwa einen Skalenpunkt höher. Da sich die Konfidenzintervalle hier nicht überlappen, ist dieser Unterschied signifikant. In höherem Alter verringert sich der Unterschied und ist ab etwa 50 nicht mehr signifikant. Ein F-Test (nicht angeführt) zeigt, dass sich die Wachstumskurven von Männern und Frauen insgesamt signifikant unterscheiden.12
4 Nicht-lineare FE-Modelle Bisher haben wir nur lineare Panelregressionsmodelle betrachtet. Doch auch für den nicht-linearen Fall sind Panelregressionsmodelle verfügbar. Wie im linearen Fall gibt es Pooled-, RE- und FE-Modelle. Die Vor- und Nachteile gelten analog. Die gepoolten und die RE-Modelle verwenden den Between-Vergleich und sind deshalb bei Vorliegen personenspezifischer unbeobachteter Heterogenität verzerrt. FE-Modelle dagegen liefern in dieser Situation konsistente Schätzer, die auch im nicht-linearen Fall auf dem Within-Prinzip basieren. Aus Platzgründen können im Folgenden nur die wichtigsten Modelle kurz vorgestellt werden (ausführlicher Cameron & Trivedi 2005, Kap. 23; Allison 2009).
12
Man kann noch einen Schritt weitergehen und personenspezifische Wachstumskurven erlauben. Das ist eine Erweiterung des FE-Modells, bei der man nicht nur personenspezifische Achsenabschnitte zulässt, sondern personenspezifische Wachstumskurven (Fixed Growth Modell, oder FE-IS). Damit kontrolliert man nicht nur für zeitkonstante Heterogenität, sondern (eingeschränkt) auch für zeitveränderliche Heterogenität. Eine Anwendung des FE-IS Modells findet man bei Ludwig & Brüderl (2009).
986
Josef Brüderl
4.1 Nicht-lineare Panelregressionsmodelle Bevor die konkreten Modelle vorgestellt werden, beginnen wir mit einigen Bemerkungen zum allgemeinen Modellierungsansatz. In linearen Panelregressionsmodellen – wie wir sie bisher kennen gelernt haben – modelliert man den bedingten Mittelwert als E[yit |αi ,xit ] = xit β + αi . Der personenspezifische Fehler geht additiv in das Modell ein. Der große Vorteil dieser Modellierung ist, dass man die personenspezifischen Fehler herausdifferenzieren kann (z. B. durch die Within-Transformation). In nicht-linearen Modellen macht es dagegen meist keinen Sinn, bedingte Mittelwerte zu modellieren. Häufig modelliert man bedingte Dichten: f (yit |αi ,xit ) = f (yit ,xit β+ αi ,γ). γ ist ein Streuungsparameter. Durch diese Modellierung ist es aber nicht mehr möglich, die personenspezifischen Fehler herauszudifferenzieren. Man muss sie mit den interessierenden Parametern (β,γ) als „Störgrößen“ (Nuisance Parameters) mitschätzen. Dies erzeugt das so genannte „Incidental Parameter“ (IP) Problem: Mit N → ∞ geht auch die Zahl der zu schätzenden Parameter gegen Unendlich. Dies verletzt eine zentrale Konsistenzbedingung der ML-Schätzung, weshalb die Parameterschätzer inkonsistent sind. Deshalb ist es im nicht-linearen Falle nicht einfach, FE-Modelle konsistent zu schätzen. Dies ist nur in den Fällen möglich, in denen es gelingt, die Störgrößen durch suffiziente Statistiken aus der Likelihood herauszukonditionieren (Conditional Likelihood). Die Schätzung von FE-Modellen mittels bedingter Likelihood ist in folgenden Fällen möglich: 1. Bei Zähldatenmodellen (Poisson, Negbin), 2. binären Modellen (Logit), und 3. bei Ereignisdatenmodellen (Cox). Auf die Zähldatenmodelle gehe ich im Folgenden nicht ein, aber das FE-Logit und das FE-Cox Modell will ich vorstellen.13 Für diese und noch viele weitere nicht-lineare Modelle existieren auch RE-Modelle, worauf ich im Folgenden aber nicht eingehe. 4.2 Das FE-Logit Modell Bei binärer abhängiger Variable ist ein sinnvoller Modellierungsansatz ein Logit-Modell mit personenspezifischen Fehlern: P (yit = 1) =
exp(xit β + αi ) β+α ) . 1 + exp(xit i
(18)
Dieses Modell ist analog zum für Querschnittsdaten gern verwendeten Logit-Modell (siehe Kapitel 31 in diesem Handbuch). Allerdings ist es erweitert um einen personenspezifischen Fehlerterm. Für diesen kann man wie im linearen Modell eine RE- oder 13
Auf den ersten Blick kann man natürlich immer ein FE-Modell über die Dummy-Methode schätzen: Man erweitert das nicht-lineare Regressionsmodell um Personen-Dummies. Abgesehen von den praktischen Problemen bei großem N führt dies bei nicht-linearen Modellen aufgrund des IP-Problems leider nicht zu konsistenten Schätzungen. Allerdings haben Simulationsstudien gezeigt, dass die Verzerrung bei langen Panels (T > 10) gering ist.
36 Kausalanalyse mit Paneldaten
987
eine FE-Annahme treffen. Das FE-Logit ist mittels bedingter Likelihood konsistent schätzbar, denn es existiert eine suffiziente Statistik nämlich t yit (die Zahl der Einsen im Panel einer Person). Deshalb nennt man dieses Model oft auch „Conditional Logit“. Intuitiv kann man sich das so vorstellen, dass durch die Zahl der Einsen αi „kontrolliert“ ist, und damit die Schätzer nicht mehr von personenspezifischer Heterogenität verzerrt werden. Dadurch hat man den Vorteil der FE-Methodologie auch im Logit-Modell zur Verfügung: Der Schätzer für β ist konsistent auch wenn es zeitkonstante, personenspezifische unbeobachtete Heterogenität gibt (für das Pooledbzw. RE-Logit gilt dies nicht).14 Zwei Besonderheiten des FE-LogitModells führen gerne zu Verwirrung. Erstens ist es nicht möglich auf t yit = 0 bzw. t yit = T zu konditionieren. D. h. Personenjahre von Personen, die auf allen Beobachtungen der abhängigen Variable konstant 0 oder 1 aufweisen, fliegen aus der Schätzung. Das kann den Analysedatensatz drastisch reduzieren, wenn auf der abhängigen Variable nicht genügend Varianz ist. Bei vielen Nutzern (und leider auch Gutachtern) entsteht dadurch die irrige Meinung, dass dies ein Stichprobenauswahl-Problem induziert. Dem ist aber nicht so, denn diese Beobachtungen tragen keine Information zur Schätzung der Regressionseffekte bei. Die Effekte sind – analog zum linearen Fall – als ATET-Effekte zu interpretieren. Zweitens ist die Interpretation der FE-Schätzer ungewohnt (siehe Allison 2009, S. 36 f.). Die Koeffizientenschätzer jeder Regression können in zweifacher Art und Weise interpretiert werden: als subjektspezifischer Effekt (der Effekt bei einer bestimmten Person) und als Populationsdurchschnitts-Effekt (der durchschnittliche Effekt in der Population). Der Populationsdurchschnitts-Effekt ergibt sich durch Aggregation der subjektspezifischen (Marginal-) Effekte. Da in Fehlerkomponenten-Modellen ein personenspezifischer Fehlerterm enthalten ist, unterscheiden sich die beiden Interpretationen potentiell. Bei der Berechnung eines subjektspezifischen Marginaleffektes geht αi als eine festzulegende Konstante ein. Um den Populationsdurchschnitts-Effekt zu erhalten, muss man aber die Verteilung von αi in der Population berücksichtigen und darüber integrieren. Bei linearen Modellen unterscheiden sich subjektspezifische und Populationsdurchschnitts-Koeffizienten nicht, weil der subjektspezifische Marginaleffekt unabhängig von αi ist. Bei nicht-linearen Modellen gilt dies nicht mehr, da im Allgemeinen der subjektspezifische Marginaleffekt abhängig von αi ist. Welche Koeffizienten ein Modell schätzt, hängt ab von der Modellspezifikation: Fehlerkomponenten-Modelle (FE und RE) weisen subjektspezifische Koeffizienten aus, Pooled-Modelle Populationsdurchschnitts-Koeffizienten.15 Nun gilt allgemein, dass Populationsdurchschnitts-Koeffizienten (betragsmäßig) kleiner ausfallen, als die sub14
15
Die Anwendbarkeit des FE-Logit ist auf Situationen beschränkt, in denen jederzeit ein Wechsel von 0 zu 1 und umgekehrt erfolgen kann. Denn gegeben eine bestimmte Zahl von Einsen werden alle möglichen Sequenzmuster bestehend aus 0 und 1 in Abhängigkeit von X verglichen. Die Zahl der möglichen Sequenzmuster ist aber drastisch eingeschränkt, wenn etwa nur ein Wechsel von 0 nach 1 möglich ist, aber nicht zurück. Das ultimative Beispiel hierfür wäre eine Mortalitätsanalyse mit Tod= 1. Allerdings präsentiert Allison (2009, S. 79 ff.) auch für diesen Fall ein FE-Verfahren, dessen Intuition mir jedoch schleierhaft ist. In der epidemiologischen Literatur wird oft prototypisch für ein „Subject-Specific“ Modell das RE-Logit und für ein „Population-Averaged“ Modell das GEE-Logit (Generalized
988
Josef Brüderl
jektspezifischen Koeffizienten (Rabe-Hesketh & Skrondal 2008, S. 254 ff.). Dies wird durch die Streuung der αi in der Population verursacht (Heterogenitätsschrumpfung).16 Allison (2009, S. 37) führt für den Logit-Fall folgende näherungsweise Beziehung an (falls αi normalverteilt ist): β∗ ≈ 3
β , 0,346V (αi ) + 1
(19)
wobei β ∗ der Populationsdurchschnitts- und β der subjektspezifische Koeffizient ist. Gibt es keine Heterogenität in der Population (V (αi ) = 0), so sind beide Koeffizienten gleich. Mit zunehmender Heterogenität „schrumpft“ β ∗ gegen Null. Ist z. B. V (αi ) = 9, so sind die Populationsdurchschnitts-Koeffizienten nur mehr halb so groß. Für die Kausalanalyse sind die subjektspezifischen Koeffizienten bedeutsamer, da sie den Effekt von X auf die abhängige Variable schätzen. PopulationsdurchschnittsKoeffizienten dagegen hängen von der Verteilung von αi in der gegebenen Stichprobe ab. Insofern ist es durchaus erwünscht, wenn das FE-Logit die subjektspezifischen Koeffizienten ausweist. Allerdings muss man aufpassen, wenn man die Pooled- und FE-Schätzer vergleicht. Die Pooled-Schätzer können sich nun aus zwei Gründen von den FE-Schätzern unterscheiden: Sie könnten durch unbeobachtete Heterogenität verzerrt sein und sie sind von Heterogenitätsschrumpfung betroffen.17 Schließlich muss man bei der Interpretation der (subjektspezifischen) FE-Logit Koeffizienten aufpassen. Die Interpretation der Vorzeichen der Logit-Koeffizienten ist unproblematisch, auch die übliche Odds-Interpretation ist möglich. Aber – wie oben schon angesprochen – die Interpretation als Wahrscheinlichkeitseffekte ist problematisch, da sie von αi abhängt. Die üblichen Algorithmen setzen αi = 0. Das kann aber eventuell ein sehr spezieller Fall sein und die Effektinterpretation dadurch in die Irre führen. 4.3 FE-Modelle für Ereignisdaten Schließlich sei noch erläutert, wie man Ereignisdaten in einem Panelkontext analysieren kann. Die üblichen Modelle der Ereignisdatenanalyse (siehe Kapitel 37 in diesem Handbuch) beruhen – wie jede andere Querschnittsregression auch – auf dem Between-Vergleich. Damit sind ihre Schätzer potentiell von unbeobachteter Personenheterogenität bedroht. In der Ereignisdatenanalyse sehr populär sind Modelle für „unbeobachtete Heterogenität“. Viele Anwender glauben, dadurch die durch unbeobachtete Heterogenität verursachten Probleme im Griff zu haben. Das ist ein Irrglaube. Im Prinzip sind dies RE-Modelle, die mit nur einer Beobachtung pro Person geschätzt
16 17
Estimating Equations) angeführt. Das GEE-Logit ist ein Pooled-Logit, wobei die Kovarianzmatrix der Fehlerterme unrestringiert ist (eine andere Art robuster Standardfehler). Die schöne deutsche Terminologie habe ich der Dissertation von Jette Schröder entnommen. Ein Hybrid-Modell (analog zu dem Vorgehen in Abschnitt 2.4), welches man mit PooledLogit statt RE schätzt, liefert FE-Schätzer, die auch von Heterogenitätsschrumpfung betroffen sind. Ein Vergleich mit den normalen FE-Schätzern zeigt dann das Ausmaß der Heterogenitätsschrumpfung.
36 Kausalanalyse mit Paneldaten
989
werden. Die Zufallseffekte sind mit nur einer Beobachtung natürlich nicht identifiziert und insofern verwundert es nicht, dass die Schätzergebnisse dieser Modelle massiv von den getroffenen Annahmen beeinflusst sind. Die in der Ereignisdatenanalyse so genannten Modelle mit unbeobachteter Heterogenität sind somit unbrauchbar. Ereignisdatenanalyse wird erst wirklich längsschnittlich, wenn man pro Person mehrere Episoden beobachtet hat (Multiple Episodes). Dies ist dann möglich, wenn das betrachtete Ereignis wiederholt auftreten kann (Repeated Events). Z. B. kann man in Gesellschaften mit hoher Scheidungsrate für viele Personen mehrere EheEpisoden beobachten. Liegen multiple Episoden vor, so hat man im Prinzip eine Paneldatenstruktur (mehrere Beobachtungen pro Person). Damit kann man auch in der Ereignisdatenanalyse Within-Schätzer verwenden und von deren Eigenschaft – bei Vorliegen personenspezifischer unbeobachteter Heterogenität konsistente Schätzer zu liefern – profitieren. In neueren Lehrbüchern der Ereignisdatenanalyse werden inzwischen auch Modelle für wiederholte Ereignisse vorgestellt. Dabei werden aber die Prioritäten falsch gesetzt. Erste Priorität gilt den panel-verzerrten Standardfehlern. Deshalb gibt man sich mit RE-Modellen (Frailty-Modelle genannt) und panel-robusten Standardfehlern zufrieden. Das Potential der Within-Schätzung lässt sich mit RE-Modellen aber nicht umsetzen. Bisher noch weitgehend unbekannt ist, dass es auch FE-Modell für Ereignisdaten gibt (siehe Allison 1996, 2009). Im Prinzip stehen zwei Analyseoptionen zur Verfügung (siehe genauer Brüderl 2008): Modelle für diskrete oder stetige Zeit. Bei jährlich erhobenen Paneldaten liegt es oft nahe, Modelle für diskrete Zeit zu verwenden. Die logistische Regression ist ein in der diskreten Ereignisdatenanalyse sehr häufig verwendetes Modell. Im Falle von wiederholten Ereignissen in diskreter Zeit liegt es deshalb nahe, das oben vorgestellte FE-Logit zu verwenden. Wurde die Prozesszeit stetig gemessen, so ist ein FE-Cox-Modell verfügbar. Das aus der Ereignisdatenanalyse bekannte Cox-Modell (siehe Kapitel 37 in diesem Handbuch) wird um einen personenspezifischen Fehlerterm erweitert. Das FE-Cox-Modell lautet: rij (t) = r0 (t)exp(xij (t)β + αi ) ,
(20)
wobei rij (t) die Ereignisrate der Person i in der Episode j ist, die von der Verweildauer t abhängt. r0 (t) ist die Basisrate, die für alle Personen als identisch angenommen wird. Die Effekte der Kovariaten X werden exponentiell parametrisiert, was proportionale Effekte impliziert. Die Kovariaten können zeitveränderlich sein. Die Verweildauer wird in den meisten Anwendungen so definiert sein, dass sie bei jedem Ereignis wieder bei null beginnt (Gap Time Approach). αi ist ein personenspezifischer, zeitkonstanter Fehlerterm, der potentiell mit den X-Variablen korreliert ist. Ist dies der Fall, so sind z. B. die Pooled-Cox-Schätzer verzerrt. Die FE-Schätzer dagegen wären nicht verzerrt. Aber das FE-Cox-Modell ist aufgrund des IP-Problems nicht so ohne weiteres schätzbar. Mittels eines „Tricks“ gelingt es allerdings, die αi aus dem Modell zu entfernen. Man kann die αi in die Basisrate integrieren: rij (t) = r0i (t)exp(xij (t)β) .
(21)
990
Josef Brüderl
r0i (t) ist nun eine personenspezifische Basisrate. Damit modelliert man nicht nur das personenspezifische Niveau – wie in Standard-FE-Modellen –, sondern sogar personenspezifische Ratenverläufe – ähnlich dem FE-IS Modell. Der Punkt ist nun, dass das Schätzverfahren des Cox-Modells – Partial Likelihood – die Basisrate nicht mitschätzt, wenn man jede Person als eine eigene Schicht definiert (Stata Option strata(id)). Eine nach Personen geschichtete Cox-Regression ermöglicht somit eine einfache Within-Schätzung bei wiederholten Ereignissen. Das oben angeführte Scheidungsbeispiel soll den entscheidenden Punkt verdeutlichen. Man könnte die Vermutung habe, dass Ehen, bei denen sich die Partner in einer Disko kennen lernten, weniger stabil sind. Eine Cox-Regression, bei der man nur eine Ehe pro Person zur Verfügung hat, ist ein Between-Schätzer. Der geschätzte Disko-Effekt beruht ganz und gar auf dem Vergleich verschiedener Personen. Der könnte aber durch unbeobachtete Merkmale, auf denen sich Diskobesucher von anderen Personen unterscheiden, verzerrt sein. Hat man multiple Ehe-Episoden zur Verfügung, so kann man FE-Cox anwenden. Hier beruht der geschätzte Disko-Effekt auf einem WithinVergleich: Bei ein und derselben Person wird die Dauer einer Disko-Ehe mit der Dauer einer anderen Ehe verglichen, die nicht in der Disko begann. Es sollte einsichtig sein, dass der Within-Vergleich weniger von unbeobachteter Heterogenität bedroht ist. Eine Beispiel-Anwendung des FE-Cox-Modells mit SOEP-Daten findet man in Brüderl (2008).
5 Häufige Fehler In diesem Abschnitt sollen suboptimale Modelle der Paneldatenanalyse, die dennoch häufig verwendet werden, besprochen werden. Weiterhin soll auf die Grenzen des FE-Ansatzes eingegangen werden. 5.1 Suboptimale Panelregressionsmodelle Es gibt verschiedene statistische Traditionen, in deren Rahmen Panelmodelle vorgeschlagen wurden: LISREL-Modelle (Kapitel 29 in diesem Handbuch), MANOVAModelle (Kapitel 19 in diesem Handbuch), Mehrebenen-Modelle (Kapitel 28 in diesem Handbuch), Wachstumskurven-Modelle (Kapitel 38 in diesem Handbuch). Eine große Vielzahl solcher Panelmodelle wird z. B. bei Rabe-Hesketh & Skrondal (2008) beschrieben. Die meisten dieser Modelle sind allerdings RE-Modelle. Man muss sich bei Verwendung dieser Modelle immer fragen, ob dies nun ein Within- oder ein BetweenSchätzverfahren ist. Diese fundamentale Unterscheidung geht in mancher Terminologie leicht verloren. Oft werden hoch komplexe, eindrucksvolle Modelle postuliert, die aber im Grunde RE-Modelle sind. Besonders irreführend sind die so genannten dynamischen Panelmodelle.18 Als „dynamisch“ bezeichnet man Panelmodelle mit verzögert endogener Variable auf der rechten Seite, z. B.: 18
Der Name ist irreführend, denn auch die bisher vorgestellten, „statischen“ Modelle sind dynamisch, weil sie die zeitliche Struktur in den Paneldaten modellieren.
36 Kausalanalyse mit Paneldaten yit = δyi,t−1 + xit β + αi + εit .
991
(22)
Dieses Modell hat intuitiven „Appeal“, da es die „Beharrungstendenz“ von Paneldaten explizit modelliert. δˆ gibt Auskunft über das Ausmaß der Beharrungstendenz.19 Dynamische Modelle waren historisch die ersten Modelle, die zur Analyse von Paneldaten vorgeschlagen wurden. Eine Verallgemeinerung – das Cross-Lagged-Modell – wurde (und wird) gar als der Königsweg der Panelanalyse gesehen. Aber dynamische Modelle haben ein großes Problem: Durch die Berücksichtigung der verzögert endogenen Variable sind die Schätzer von sowohl δ wie auch β verzerrt (sogar unter der RE-Annahme). Deshalb kann man dynamische Modelle nicht mit den „einfachen“, bisher vorgestellten Modellen schätzen. Man benötigt komplexe Ökonometrie (siehe Cameron & Trivedi 2005, Kap. 22.5). Die für diese komplexen Verfahren nötigen Annahmen können aber nicht überprüft werden, weshalb in der Praxis unklar ist, ob die Schätzer durch die komplexen Verfahren tatsächlich besser werden. Der Hauptvorteil von Paneldaten – die Möglichkeit das Problem unbeobachteter Heterogenität mit relativ einfachen Methoden in den Griff zu bekommen – geht durch die Benutzung von dynamischen Modellen verloren. Insbesondere Rogosa (1988) zeigt, dass die weit verbreiteten Argumente für dynamische, Cross-Lagged- und Strukturgleichungs-Modelle Mythen sind. Seiner Meinung nach sind diese Modelle „useless“.20 5.2 Grenzen von FE-Modellen Paneldaten bieten durch die Möglichkeit der Within-Schätzung große Vorzüge im Rahmen der Kausalanalyse. Allerdings sind auch Paneldaten in Verbindung mit FE-Modellen kein Allheilmittel: 1. FE-Modelle sind nicht für jede Fragestellung geeignet und 2. Endogenität und 3. Panel-Attrition können auch FE-Schätzer verzerren. Eine Within-Schätzung ist im Prinzip ein Davor-Danach-Vergleich und ist deshalb nur dann durchführbar, wenn es eine Veränderung gibt. Eine Within-Schätzung ist nur mit zeitveränderlichen X-Variablen durchführbar. Selbst bei zeitveränderlichen Variablen gibt es manchmal Probleme, wenn im Paneldatensatz nicht genug X-Variation ist (dann sind die FE-Schätzer sehr unpräzise). Paneldaten sind ideal, um die „Effects of Events“ zu untersuchen. Sie helfen allerdings nicht bei der Schätzung des Kausaleffektes zeitkonstanter Variablen. Die Probleme diesbezüglich sind die Gleichen wie bei Querschnittsdaten. Dessen sollte man sich bewusst sein: Paneldaten helfen nichts für die Identifizierung von z. B. Geschlechtseffekten. 19
20
Auch die statischen Modelle modellieren eine Beharrungstendenz, nämlich über den personenspezifischen Fehlerterm αi . Unbeobachtete Heterogenität erzeugt hier eine „Spurious State Dependence“. In dynamischen Modellen wird eine zweite, „kausale“ Komponente der Beharrungstendenz modelliert (True State Dependence). Allerdings zeigt Allison (2009, Kap. 6), dass man FE-Modelle auch in einem Strukturgleichungsansatz schätzen kann. In diesem Rahmen kann man auch dynamische Modelle schätzen. Die dadurch mögliche Kombination von FE-Methodologie und dynamischen Modellen könnte diese Einschätzung relativieren.
992
Josef Brüderl
Wie oben erwähnt, beruht die Konsistenz des FE-Schätzers auf der Annahme strikter Exogenität. Der idiosynkratische Fehler darf nicht mit den X-Variablen korreliert sein. Liegt Endogenität vor, so ist auch der FE-Schätzer verzerrt. Verschiedene Ursachen von Endogenität sind denkbar: Messfehler, zeitveränderliche unbeobachtete Heterogenität und umgekehrte Kausalität. Eine Ursache können Messfehler in X sein. In einer Regression mit nur einem X werden Messfehler den Regressionskoeffizienten nach unten verzerren (Attenuation Bias). Bei mehreren X-Variablen ist die Richtung der Verzerrung unklar. Die durch Messfehler verursachte Verzerrung wird durch die FD- und FE-Schätzung sogar noch verstärkt. Dies könnte man als Argument für POLS und RE werten. Allerdings sind deren Schätzer durch unbeobachtete Heterogenität verzerrt. Ich würde behaupten, dass unbeobachtete Heterogenität in der Sozialforschung das größere Problem ist und man deshalb Modelle verwenden sollte, die unter unbeobachteter Heterogenität konsistente Schätzer liefern. Eine weitere Ursache für die Verletzung der Annahme strikter Exogenität kann zeitveränderliche Heterogenität sein. Im Beispiel von Abschnitt 3 könnte man etwa argumentieren, dass mit einer Heirat oft ein Lohnanstieg einhergeht (Marital Wage Premium, siehe Ludwig & Brüderl 2009), der den Anstieg der Zufriedenheit erzeugt. Das würde den Schätzer des Heiratseffektes verzerren. Abhilfe schafft man leicht, indem man den Lohn im Modell kontrolliert – wie wir es in Abschnitt 3 getan haben. Hat man die Heterogenität verursachende Variable aber nicht gemessen, so hat man ein Problem. Die nun unbeobachtete zeitveränderliche Heterogenität kann den FE-Schätzer verzerren. Analoges kann im Fall von umgekehrter Kausalität passieren. Wenn eine Veränderung in Y die Veränderung in X verursacht, dann sind auch die FE-Schätzer verzerrt. Angenommen eine Heirat hat keinen Effekt auf die Zufriedenheit. Aber ein zufälliger Anstieg der Zufriedenheit führt dazu, dass man eher heiratet, dann wird der FE-Schätzer einen positiven Heiratseffekt schätzen. Gegen diese Art von Problemen gibt es kein einfaches Mittel. Theoretisch hilft die Instrumentalvariablen (IV) Methode (siehe Cameron & Trivedi 2005, Kap. 22). Dazu benötigt man (mindestens) eine Instrumentalvariable, welche mit xit korreliert ist, aber nicht mit εit . Letzteres kann man aber nicht überprüfen. Deshalb ist es Treu und Glauben überlassen, ob der IV-Schätzer konsistent ist. Zusätzlich sind IV-Schätzer nicht robust. Wenn die IV-Annahmen nicht stimmen, dann kann der IV-Schätzer sogar noch schlimmer verzerrt sein, als der konventionelle Schätzer. Besonders problematisch ist, dass man kaum beurteilen kann, welcher der in der Literatur berichteten IV-Schätzer nun „gut“ und welcher „schlecht“ ist. In Forschungsgebieten, in denen IV-Schätzer exzessiv genutzt werden, findet man deshalb oft extrem divergierende Schätzer und es ist unklar, welche Schätzer nun die „richtigen“ sind. Die IV-Methode führt deshalb zu einem furchtbaren Durcheinander und ich rate deshalb von ihr dringend ab. Analoges kann man für LISREL-Modelle konstatieren, die im Zusammenhang mit umgekehrter Kausalität (und Messfehlern) auch gerne verwendet werden. Schließlich sei noch auf das Problem der Panel-Attrition eingegangen. Wenn Personen nicht-zufällig aus dem Panel ausscheiden, so kann das die Schätzungen verzerren. Attrition ist ein weit verbreitetes Phänomen in Panelstudien, weshalb es gerne als das Hauptproblem der Panelanalyse stilisiert wird. Das muss man allerdings differenzierter
36 Kausalanalyse mit Paneldaten
993
sehen, als das die meisten Autoren tun. Attrition ist ein Spezialfall der Stichprobenauswahl. Aus dieser Literatur weiß man, dass eine Auswahl, die von beobachteten Variablen abhängt, leicht korrigiert werden kann, indem man in den Regressionsmodellen diese Variablen kontrolliert. Im Panelkontext hat man es sogar noch besser: Selbst wenn Attrition von unbeobachteten zeitkonstanten Variablen abhängt, kann man die Verzerrung leicht korrigieren. Denn das FE-Modell kontrolliert ja auch für diese Variablen. Dies ist ein weiterer Vorteil des FE-Schätzers: Er ist nicht verzerrt durch Attrition, die von unbeobachteten zeitkonstanten Variablen abhängt (dies gilt leider nicht für die nicht-linearen FE-Modelle). Allerdings wird Attrition, die über zeitveränderliche Variablen läuft, unter Umständen auch den FE-Schätzer verzerren. Dass bestimmte Ereignisse – Umzug und Scheidung etwa – zu erhöhter Attrition führen, ist bekannt. Unter welchen Umständen das zu Verzerrungen in welchem Ausmaß führt ist allerdings bisher kaum erforscht. In der Literatur wurden dennoch – sozusagen auf Verdacht – Modelle zur Korrektur des Attrition-Bias vorgeschlagen. Hier gilt aber wieder analog, was ich oben über die anderen komplexen Modelle gesagt habe: Ob die komplexe Ökonometrie die Sache besser macht, ist unklar. Auf alle Fälle – das zeigt die Erfahrung – produziert komplexe Ökonometrie ein großes Durcheinander. Warum dann also den Aufwand komplexer Modelle betreiben? Mein Rat deshalb – und das sehen inzwischen auch manche Ökonometriker so (z. B. Angrist & Pischke 2009): „Keep it simple“. 6 Literaturempfehlungen Angrist & Pischke (2009) geben eine schöne Einführung in die modernen Methoden der Kausalanalyse (Regression, Matching, Within-Schätzer, Regression Discontinuity). Allison (1994) und Halaby (2004) plädieren vehement für den Einsatz von Fixed-Effects Modellen zur Analyse von Paneldaten. Rogosa (1988) „zerpflückt“ die Argumente, die gegen Change-Score Modelle (z. B. alle Within-Modelle) vorgebracht werden. Eine anwendungsorientierte Einführung in die Panelregression geben Brüderl (2005) und Allison (2009). Formaler, aber immer noch leicht verständlich, sind die Kapitel 13 und 14 von Wooldridge (2003). Die Kapitel 21–23 von Cameron & Trivedi (2005) bieten eine fortgeschrittene Einführung in die Panelregression. In Cameron & Trivedi (2009) zeigen die Autoren, wie man Panelregressionen mit Stata umsetzt. Rabe-Hesketh & Skrondal (2008) geben eine Einführung in die Paneldatenanalyse mit Stata aus der Perspektive der Mehrebenenanalyse. FE-Modelle für Ereignisdaten werden in Allison (1996, 2009) und Brüderl (2008) behandelt. Ludwig & Brüderl (2009) und Lucas et al. (2003) sind Anwendungsbeispiele für die Panelregression. Literaturverzeichnis Allison, P. D. (1994). Using Panel Data to Estimate the Effects of Events. Sociological Methods and Research, 23, 174–199. Allison, P. D. (1996). Fixed-Effects Partial Likelihood for Repeated Events. Sociological Methods and Research, 25, 207–222.
994
Josef Brüderl
Allison, P. D. (2009). Fixed Effects Regression Models. Thousand Oaks: Sage. Angrist, J. D. & Pischke, J. (2009). Mostly Harmless Econometrics. Princeton: Princeton University Press. Brüderl, J. (2005). Panel Data Analysis. Letzter Zugriff 28.05.2010: http://www2.sowi. uni-mannheim.de/lsssm/lehre.html. Brüderl, J. (2008). Event History Analysis. Letzter Zugriff 28.05.2010: http://www2.sowi. uni-mannheim.de/lsssm/lehre.html. Cameron, A. C. & Trivedi, P. K. (2005). Microeconometrics: Methods and Applications. Cambridge: Cambridge University Press. Cameron, A. C. & Trivedi, P. K. (2009). Microeconometrics Using Stata. College Station: Stata Press. Halaby, C. (2004). Panel Models in Sociological Research. Annual Review of Sociology, 30, 507–544. Lucas, R. E., Clark, A. E., Georgellis, Y., & Diener, E. (2003). Reexamining Adaption and the Set Point Model of Happiness. Journal of Personality and Social Psychology, 84, 527–539. Ludwig, V. & Brüderl, J. (2009). The Male Marital Wage Premium: Further Results on an Enduring Puzzle. Mannheim: unveröffentlichtes Manuskript. Rabe-Hesketh, S. & Skrondal, A. (2008). Multilevel and Longitudinal Modeling Using Stata. College Station: Stata Press, 2. Auflage. Rogosa, D. (1988). Myths about Longitudinal Research. In K. W. Schaie (Hg.), Methodological Issues in Aging Research (S. 171–209). New York: Springer. Wooldridge, J. M. (2003). Introductory Econometrics: A Modern Approach. Mason: Thomson.
37 Survival- und Ereignisanalyse Hans-Peter Blossfeld Otto-Friedrich-Universität Bamberg
Zusammenfassung. Mit dem Begriff der „Survival- und Ereignisanalyse“ werden statistische Verfahren zur Untersuchung von Zeitintervallen zwischen aufeinander folgenden Ereignissen oder Zustandswechseln bezeichnet. Die von den Untersuchungseinheiten (z. B. Individuen, Haushalten, Organisationen) eingenommenen Zustände sind dabei abzählbar (in der Regel handelt es sich um eine relativ begrenzte Anzahl von Zuständen), und die Ereignisse können zu beliebigen Zeitpunkten eintreten. Beispiele solcher Prozesse sind die Dauern der Arbeitslosigkeit bis zum Beginn einer neuen Erwerbstätigkeit in der Arbeitsmarktforschung; die Zeit in einer beruflichen Tätigkeit bis zu einem sozialen Aufstieg in der sozialen Mobilitätsforschung; die Dauer bis zu einem Umzug an einen anderen Ort in der Migrationsforschung; die Ehedauern bis zur Scheidung in der demographischen Forschung; die Überlebenszeiten von Patienten in medizinischen Studien. Die Statistik bietet heute eine große Zahl von Methoden zur Analyse von Survival- und Ereignisdaten an. Sie reichen von den deskriptiven Verfahren der Survivalanalyse (z. B. Sterbetafel-Methode und Kaplan-Meier-Schätzung), über das semiparametrische Regressionsmodell von Cox, bis zu den parametrischen Verfahren mit und ohne Zeitabhängigkeiten (z. B. dem Exponential-, Piecewise-Constant-, Gompertz(-Makeham)-, Weibull- oder log-logistischen Modell). In jüngster Zeit kommt den Methoden der Ereignisanalyse eine besondere Bedeutung bei der Weiterentwicklung der Kausalanalyse, der Untersuchung von parallelen und interdependenten Prozessen und der Mehrebenenanalyse zu. Diese Aspekte stehen auch im Vordergrund dieses Beitrags.
1 Einführung in das Verfahren Im Zentrum der Survival- oder Ereignisanalyse stehen Prozesse, die eine Reihe von wenigen Zuständen einnehmen können (z. B. sind Individuen Vollzeit erwerbstätig, Teilzeit erwerbstätig, arbeitslos oder nicht erwerbstätig). Die Ereignisse oder Zustandswechsel – also die Änderungen zwischen den Zuständen – können jederzeit eintreten. Mit der Abfolge von Ereignissen wird damit gleichzeitig eine Abfolge von mehr oder weniger langen Zustandsdauern (z. B. Zeitabschnitte in denen man eine bestimmte Erwerbstätigkeit ausführt) definiert. Ziel der Analyse ist es, diese Zeitdauern zu beschreiben und zu erklären, warum Zustandsänderungen bzw. Ereignisse bei den Untersuchungseinheiten eintreten. Wenn wir in diesem Beitrag also von Verlauf oder Prozess sprechen, dann soll damit betont werden, dass in der Ereignisanalyse die in jedem Augenblick prinzipiell mögliche Veränderlichkeit oder die jeweils augenblickliche Dynamik der Prozesse und deren Erklärung ganz besonders interessiert. S. 995–1016 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_37, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
996
Hans-Peter Blossfeld
1.1 Spezifische Problemstellungen Die Entwicklung der Ereignisanalyse ist in den letzten 25 Jahren empirisch sehr eng mit der Etablierung der Lebensverlaufsforschung verbunden gewesen (siehe Mayer 2009). Dort stehen die Veränderungen in den verschiedenen Dimensionen des Lebenslaufs sowie deren Interaktion im Vordergrund. Dabei hat sich gezeigt, dass sich die Methoden der Ereignisanalyse vor allem zur Beschreibung und Erklärung der folgenden drei konzeptionellen Dimensionen besonders gut eignen: 1. Der Verlauf des Individuums in einem bestimmten Lebensbereich (z. B. Berufsverlauf) ist ein selbstreferentieller Prozess. Eine Person handelt unter anderem auf der Grundlage ihrer jeweils in diesem Lebensbereich bisher kumulierten beruflichen Erfahrungen (z. B. auf der Grundlage ihres bisherigen Karriereverlaufs). Die berufliche Vorgeschichte ist somit immer in dem je aktuellen Entscheidungs- und Handlungsprozess der Person involviert. Häufig wird hier in der Forschung auch vom Verlauf als einem „endogenen Kausalzusammenhang“ gesprochen. Allgemein muss man in der Ereignisanalyse deswegen also auf „präformierende“ Vorerfahrungen und in der Vergangenheit bereits getroffene Entscheidungen in den zu untersuchenden Prozessen achten, die das Optionsspektrum jeweils zukünftiger Ereignisse begrenzen und dadurch den weiteren Verlauf in eine bestimmte Bahn lenken. 2. Der Lebensverlauf einer Person ist ein multidimensionaler Prozess. Er entwickelt sich in mehreren, wechselseitig aufeinander bezogenen Lebensbereichen. Jeder dieser Bereiche lässt sich als Teilprozess des Lebensverlaufs begreifen. Man kann die Entwicklung des Berufsverlaufs, die (Weiter-)Bildungskarriere, den Familienprozess oder den Krankheitsverlauf beispielhaft nennen. Die verschiedenen Lebensbereiche einer Person sind aber in der Regel nicht unabhängig voneinander. Ihr Verhältnis ist vielmehr durch einen wechselseitigen Bedingungszusammenhang charakterisiert. Die Kontingenz des Lebenslaufs erwächst hier also nicht aus dem selbstreferentiellen Bezug auf frühere Zustände in einem bestimmten Lebensbereich (wie beim ersten Punkt), sondern aus der parallelen Interdependenz verschiedener Lebensbereiche in der Vergangenheit. Dabei haben einzelne Lebensverlaufsdimensionen in unterschiedlichen Lebenssituationen und abhängig vom Alter durchaus eine unterschiedliche Priorität für den Prozessverlauf. Zum Beispiel ist zu vermuten, dass bisherige Erfahrungen im Berufsverlauf (Arbeitslosigkeit, berufliche Aufstiege, Einkommensentwicklung etc.) das Familien- und Fertilitätsverhalten deutlich beeinflussen. 3. Der Lebensverlauf einer Person ist in hochgradig differenzierte gesellschaftliche Mehrebenenprozesse eingebettet. Er vollzieht sich beispielsweise unter den strukturierenden Einflüssen – der Lebensverläufe anderer Menschen, mit denen jemand mehr oder weniger eng in Interaktionsbeziehungen steht (Eltern, (Ehe-)Partner, Kinder, Freunde usw.); – von Prozessen in verschiedenen sozialen Gruppen, deren Mitglied jemand ist (die elterliche und die eigene Familie, Bezugsgruppen, „Peer groups“ etc.);
37 Survival- und Ereignisanalyse
997
– der Veränderungen gesellschaftlicher Institutionen und sozialer Organisationen (intermediäre Instanzen, staatliche Institutionen, Arbeitsorganisationen); – des Wandels der Lebensbedingungen in sozialen und regionalen Kontexten, in denen jemand lebt; – der historisch gewachsenen und sich permanent verändernden gesellschaftlichen Strukturen, die sozialstrukturelle, institutionelle, politische, rechtliche, kulturelle und ökonomische Rahmenbedingungen der Lebensorganisation darstellen. Mit diesen drei konzeptuellen Dimensionen ist nicht nur ein theoretisches Programm der Lebensverlaufsforschung definiert, sondern auch die Grundlage für eine empirisch umsetzbare, kausalanalytische Modellstruktur und eine damit eng verbundene Methodenentwicklung in der Ereignisanalyse skizziert. Die drei Dimensionen weisen insbesondere darauf hin, dass der Lebensverlauf von Personen Teil hochgradig nichtlinearer, komplexer Prozesse ist; und sie geben die wesentlichen Quellen der Nichtlinearitäten an: Selbstreferenz, zeitlich lokale Interdependenz der Lebensbereiche und vertikale Interdependenz zwischen verschiedenen sozialen Prozessebenen. Die Zeit ist das entscheidende Medium der Verknüpfung der verschiedenen Dimensionen. In der Ereignisanalyse stehen daher zeitliche Veränderungen von Zustandsfolgen individueller Akteure im Vordergrund. Die Übergänge zwischen diesen Zuständen werden als Ereignisse bezeichnet. Das chronologische Alter der Akteure bietet dafür einen wichtigen, jedoch nicht den einzigen Ausgangspunkt. Zwei weitere Zeitbezüge, die eng mit dem Alter verknüpft sind, sind zu nennen: der Geburtszeitpunkt eines Individuums und die ab diesem Zeitpunkt mit dem Alter voranschreitende Kalenderzeit. Das Alter erlaubt den dynamischen Bezug verschiedener Lebensbereiche zueinander (sowie die Analyse von Alterseffekten). Die Parallelität von Alter und historischer Zeit erlaubt die Einbettung der Lebensverläufe von Individuen in den Prozess des gesellschaftlichen Wandels (und die Analyse von Kohorten- und Periodeneffekten). Je nachdem, welcher Geburtsjahrgangskohorte eine Person angehört, erfährt sie einen anderen Ausschnitt des historischen Zeitgeschehens, mit all den Konsequenzen, z. B. für ihr individuelles Berufsschicksal. Die Identifikation verschiedenster Zeiteffekte sozialen Wandels auf das Verhalten von Menschen wird mit der Ereignisanalyse besser möglich. Die Ereignisanalyse erlaubt aber noch sehr viel komplexere und differenziertere Zeitbezüge. Mit einem bestimmten Ereignis im Lebenslauf, etwa einer ersten Eheschließung, startet immer auch ein neuer Zeitstrang. Eine weitere „Uhr“ beginnt zu laufen. In diesem Beispiel handelt es sich um die Zeit seit der ersten Heirat, also die Ehedauer. Nach einer etwaigen Scheidung beginnt eine weitere neue Uhr zu ticken und die Ehedauer ist beendet. Man kann sich viele – auch parallel verlaufende – „Uhren“ in bestimmten Zuständen denken. Sie definieren Zeitbezüge, die für den weiteren Prozessverlauf von großer Bedeutung sein können und in die Ereignisanalyse einbeziehbar sind. Nicht nur die jeweils aktuell eingenommenen Zustände oder gerade erfolgte Ereignisse selbst, auch die Verweildauer, die man in diesen Zuständen bisher verbracht hat oder die Zeit, die seit einem Ereignis verstrichen ist, kann deswegen einen Einfluss auf das zukünftige Verhalten haben. Diese inhaltlichen Überlegungen bilden häufig auch die Grundlage für die Anwendung verschiedener Verweildauermodelle wie etwa die Anwendung des Gompertz-(Makeham)-, des Weibull- oder des log-logistischen Modells,
998
Hans-Peter Blossfeld
die verschiedene idealtypische Zeitabhängigkeiten beschreiben. Neben dem Alter und der Kalenderzeit können alle Zustandsdauern im Lebenslauf simultan modelliert werden. Man spricht dann von der Modellierung paralleler und interdependenter Prozesse (Blossfeld et al. 2007) oder von sogenannten „multiple clock“-Modellen (Lillard 1993). 1.2 Erhebung von Ereignisdaten Die zeitbezogenen Informationen, die für die Ereignisanalyse notwendig sind, werden in der Regel in standardisierten Erhebungen gewonnen. Zwei Strategien bieten sich dazu an: Zum einen werden in Retrospektivbefragungen Lebensereignisse, Tätigkeiten und Merkmale mitsamt den dazu gehörigen Zeitangaben erhoben. Die bekannten Lebensverlaufsstudien des Max-Planck-Instituts für Bildungsforschung in Berlin folgen beispielsweise diesem Ansatz (Mayer 2009). Ein Vorteil solcher und ähnlicher Retrospektivbefragungen ist es, dass man nur eine Erhebung durchführen muss. Nachteilig daran ist, dass zum Teil mehr oder weniger große Erinnerungsfehler der befragten Personen in Kauf zu nehmen sind. Die interessierenden Ereignisse und Sachverhalte können, insbesondere bei älteren Menschen, sehr weit in der Vergangenheit zurückliegen. Als immer schwerwiegender erweist sich heute der Nachteil von Retrospektiverhebungen, dass man bei „weichen“ Merkmalen, wie individuellen Einstellungen und Motivlagen, systematisch verzerrte Antworten zu erwarten hat und deswegen meist von vornherein auf die Erhebung solcher Informationen verzichtet. Angaben über zurückliegende Entscheidungsprozesse und Motivstrukturen fehlen daher in den retrospektiven Lebensverlaufsstudien meist völlig. Will man aber den Lebensverlauf als strukturell eingebetteten, individuell vollzogenen Entscheidungsprozess modellieren, sind derartige Informationen außerordentlich bedeutsam (siehe Blossfeld & Prein 1998). Dennoch ist die Erfassung von Lebensverläufen durch Retrospektivstudien zu einem Standardverfahren der Datenerhebung der Ereignisanalyse geworden, das noch immer häufig angewendet wird. Als weitere wichtige Datenquelle für Ereignisanalysen dienen heute zunehmend langjährige Panelbefragungen, die um Retrospektivdaten angereichert sind. Beispiele dafür sind das seit 1984 jährlich durchgeführte Sozioökonomische Panel (SOEP), die weit ältere Panel Study of Income Dynamics (PSID) in den USA und die dagegen noch relativ junge British Household and Panel Study (BHPS) in Großbritannien. Eine neue Variante von Panelerhebungen mit Kompetenztests der Personen stellt das Nationale Bildungspanel (NEPS) dar (http://www.uni-bamberg.de/neps/). Damit allerdings Panelstudien für Ereignisanalysen wirklich interessant werden, müssen sie erst eine längere Zeitspanne im Leben der Menschen abbilden bzw. längere retrospektive Komponenten enthalten. Das erfordert eine Reihe aufeinander folgender, sehr kostenaufwendiger Panelwellen. Panelstudien sind zudem mit einer Reihe methodischer Probleme konfrontiert, die bei einmalig durchgeführten Erhebungen nicht auftreten. Dazu gehören vor allem die Panelmortalität, Effekte der wiederkehrenden Befragung auf den zu untersuchenden Prozess selbst und Gewöhnungseffekte bei den Befragten. Panelstudien stellen auch hohe Anforderungen an das Studiendesign und die Feldpflege. Sie bieten aber auch eine Reihe von unübersehbaren Vorteilen. Auf Grund der zeitnäheren Erhebung der Lebensereignisse ist nicht selten eine größere Zuverlässigkeit der
37 Survival- und Ereignisanalyse
999
„harten“ Zeit- und Zustandsinformationen zu erwarten. Nur im Rahmen von Panelerhebungen sind sinnvoll zeitbezogene Informationen zu den sogenannten „weichen“ Faktoren (z. B. Entscheidungen, Zukunftsplänen, Erwartungen, Informationen der Handelnden) zu gewinnen. Will man letztere in die Ereignisanalyse integrieren, gibt es zur Panelbefragung eigentlich keine Alternative. Lebensverlaufsanalysen sind der Analyse von reinen Querschnittsdaten deutlich überlegen. Mit Querschnittsdaten können allein Zustände und Merkmale von Personen zu einem einzigen Zeitpunkt beschrieben werden. Sie lassen streng genommen nur auf diesen Zeitpunkt bezogene Korrelationsanalysen zu. Das empirische Material kann in der Regel keinen direkten Hinweis auf kausale Zusammenhänge liefern, denn diese sind durch eine zeitliche Abfolge von Ursache und Wirkung bestimmt. Reine Paneldaten bieten deswegen einen gewissen Fortschritt bei der Modellierung von Kausalmodellen, da sie Informationen über ein und dieselbe Person zu verschiedenen, in bestimmten Zeitabständen aufeinander folgenden Zeitpunkten bereitstellen (siehe die Diskussion in Blossfeld et al. 2007). Aber erst die ereignisorientierte Datenstruktur bietet optimale Voraussetzungen zum Studium von Kausalmodellen, da sie eine kontinuierliche, zeitliche Abfolge von Zuständen und Eigenschaften für verschiedene Lebensbereiche liefern. So kann überprüft werden, ob ein Ereignis die Rate des Auftretens eines anderen Ereignisses zu einem späteren Zeitpunkt beeinflusst oder nicht. Dass man auch mit Ereignisdaten nicht in jedem Fall eine empirisch gesicherte Klarheit über Kausalzusammenhänge gewinnen kann, sollte hier allerdings auch erwähnt werden. Ein wesentliches Problem dabei ist, dass die erfassten Zeitverläufe tatsächliche Entscheidungs- und Verhaltensprozesse oft nur unzureichend wiedergeben. 1.3 Zensierung von Beobachtungen Beobachtungen von Ereignisgeschichten in retrospektiven Befragungen oder Panelstudien sind in der Regel zensiert. Unter Zensierung versteht man, dass die Information über die Verweildauer in einem Zustand nicht vollständig ist. Eine Episode ist vollständig linkszensiert, wenn der Beginn und das Ende der Episode vor dem Beginn des Beobachtungsfensters (z. B. dem Beginn einer Panelstudie) liegen. Teilweise Linkszensierung liegt vor, wenn die Dauer, die eine Untersuchungseinheit bereits in einem Ausgangszustand verbracht hat, nicht bekannt ist. Dies ist manchmal in Panelstudien der Fall, wenn man bei der ersten Panelwelle zwar die Information erhebt, ob sich z. B. jemand zum Zeitpunkt der ersten Panelwelle in einer beruflichen Tätigkeit befindet, aber nicht nach der bisherigen Berufskarriere und dem Beginn dieser beruflichen Tätigkeit gefragt wird. Linkszensierung ist ein schwerwiegendes methodisches Problem in der Ereignisanalyse, weil man die Informationen der unbekannten Episoden oder der unbekannten bisherigen Verweildauer einer Episode nicht in die Modelle einbeziehen kann. Es entsteht dann ein Selektionsproblem, weil die Wahrscheinlichkeit, dass eine Episode beobachtet wird, vom Beginn der Episode und von der Episodendauer abhängt. Episoden, die weit vor dem Beginn des Beobachtungsfensters beginnen und kurze Episoden sind systematisch unterrepräsentiert (vgl. Blossfeld et al. 2007). Der Normalfall in der Ereignisanalyse ist allerdings die Rechtszensierung. In diesem Fall kennt man zwar den Anfang der Episode (und die Episoden der Vorgeschichte),
1000
Hans-Peter Blossfeld
aber das Ende der Episode ist noch nicht beobachtet worden. Diese Art der Zensierung geschieht immer dann, wenn zum Zeitpunkt der retrospektiven Befragung oder der letzten verfügbaren Panelwelle (also dem Ende des Beobachtungsfensters) eine Episode noch andauert. Das ist zum Beispiel der Fall, wenn jemand am Ende des Beobachtungsfensters noch immer verheiratet ist (die Ehedauer wird dann rechtszensiert). Da dieses rechtszensierende Ereignis (also das Ende der Beobachtung des Prozesses durch den Forscher) in der Regel stochastisch unabhängig vom inhaltlich zu untersuchenden Prozess eintritt, ist die Handhabung dieser rechtszensierten Episoden methodisch unproblematisch. Denn wir wissen von diesen Episoden zumindest, dass die Untersuchungseinheit bis zu diesem rechtszensierenden Ereignis „überlebt“ hat. Man kann deswegen die sogenannte „Überlebens-“ Wahrscheinlichkeit berechnen und in die (Likelihood-)Schätzungen einbeziehen (siehe unten). Falls die Rechtszensierung allerdings vom untersuchenden Prozess abhängt ist, weil sich z. B. geschiedene Personen nicht an einer weiteren Panelwelle beteiligen, ist der Zensierungsmechanismus nicht unabhängig vom zu untersuchenden Prozess. In diesem Fall müssen die Selektionsmechanismen durch geeignete Modelle berücksichtigt werden. Von vollständiger Rechtszensierung schließlich spricht man, wenn sowohl die Anfangsals auch die Endzeitpunkte zukünftiger Episoden unbekannt sind. Diese Art der Zensierung tritt in der Regel dann auf, wenn z. B. die Lebensverläufe verschiedener Geburtskohorten unterschiedlich lange beobachtet werden. Von den jüngeren Kohorten fehlen dann Episoden im Lebenslauf, die für die älteren bereits vorliegen. Analysiert man nun diese Kohorten gleichzeitig, sollte man in diese Modelle möglichst alle lebensverlaufsrelevanten Informationen (z. B. Geburtskohorten-Dummies, Lebensalter, Verweildauern etc.) aufnehmen, um die Kohortenselektionsprozesse zu kontrollieren.
2 Theoretische Modelle, mathematisch-statistische Grundlagen und Notation Zur Auswertung der Informationen über das Wann und Wie der Ereignisse in verschiedenen Prozessen, wurden anspruchsvolle statistische Verfahren entwickelt, die den Anforderungen einer zeitbezogenen Kausalmodellierung sehr nahe kommen (vgl. dazu Tuma & Hannan 1984; Allison 1994). Das Kernkonzept (und die abhängige Variable in den statistischen Regressionsmodellen) ist dabei die sogenannte Übergangsrate von einem Ausgangszustand j (z. B. „verheiratet“) in einen Zielzustand k (z. B. „geschieden“): P (t ≤ T < t | T ≥ t) t →t (t − t)
rjk (t) = lim
mit t < t .
(1)
In die Rate rjk (t) geht damit zunächst die bedingte Wahrscheinlichkeit ein, dass die Zufallsvariable T , also die Verweildauer im Ausgangszustand in das konkrete Zeitintervall von t bis t fällt (z. B., dass zwischen dem 5. und 6. Ehejahr eine Ehescheidung erfolgt), unter der Voraussetzung, dass bis zum Zeitpunkt t (in unserem Beispiel also bis zum 5. Ehejahr) dieses Ereignis bei der Untersuchungseinheit noch nicht eingetreten ist. Diese bedingte Wahrscheinlichkeit wird dann in der obigen Formel mit der Länge des
37 Survival- und Ereignisanalyse
1001
konkreten Zeitintervalls (t − t) in Beziehung gesetzt (d. h., man bekommt damit eine bedingte Ereigniswahrscheinlichkeit pro Zeitintervall). Schließlich wird dieser Quotient bei der zeitkontinuierlichen Ereignisanalyse einer Grenzwertbetrachtung unterzogen. Man erhält dann für jeden beliebigen Zeitpunkt t der Verweildauer sogenannte Intensitäten des Zustandswechsels von Ausgangszustand j zum Zielzustand k. Das heißt, eine Beschreibung der Evolution des Prozesses in jedem Zeitpunkt t. Diese Intensitäten rjk (t) sind bei der zeitkontinuierlichen Rate allerdings keine Wahrscheinlichkeiten, da sie auch größer als 1 werden können. Für kleinere Zeitintervalle kann man diese Intensitäten aber einfach in bedingte Wahrscheinlichkeiten konvertieren, indem man das Intervall (t − t) mit der Übergangsrate rjk (t) multipliziert (siehe dazu Blossfeld et al. 2007, S. 37): P (t ≤ T < t | T ≥ t) ≈ (t − t)rjk (t) . (2) An diesem Zusammenhang zeigt sich auch, wie die in diesem Beitrag vor allem dargestellte zeitkontinuierliche Ereignisanalyse mit der zeitdiskreten Ereignisanalyse (siehe z. B. Yamaguchi 1991 oder Vermunt 1997) zusammenhängt, bei der der Prozessverlauf nur auf der Grundlage fest vorgegebener Zeitintervalle (t − t) untersucht wird. Mit den zeitdiskreten Modellen werden die zeitkontinuierlichen Modelle also in der Regel nur approximiert – und diese Approximation ist natürlich umso besser, je kürzer die festen Intervalle (t − t) sind, d. h., je stärker sich die zeitdiskreten Modelle den zeitkontinuierlichen Modellen annähern. Die inhaltlichen Ergebnisse äquivalenter statistischer Modelle beider Formen der Ereignisanalyse sind deswegen in der Regel sehr ähnlich (Allison 1982). Die Übergangsrate für die zeitdiskrete Ereignisanalyse vom Ausgangszustand j zum Zielzustand k wird in der Literatur häufig mit hjk (t) bezeichnet. Da in der zeitdiskreten Ereignisanalyse die Ereigniszeiten in festen diskreten Intervallen vorliegen, bezeichnet t = 1,2,3, . . . in der zeitdiskreten Ereignisanalyse die Nummer des Zeitintervalls (z. B. den Monat, das Jahr) und die Übergangsrate hjk (vom Ausgangszustand j in den Zielzustand k) lässt sich wie folgt schreiben hjk (t) = P (T = t | T ≥ t)
t = 1,2,3 . . . .
(3)
Die zeitdiskrete Übergangsrate hjk (t) gibt damit die Wahrscheinlichkeit an, dass im Intervall t ein Ereignis eintritt, unter der Voraussetzung, dass das Ereignis bis zum Beginn dieses Intervalls noch nicht eingetreten ist. Unter dem Gesichtspunkt der empirischen Anwendung ist es besonders wichtig, dass sich das Konzept der Übergangsrate einfach mit der Vorstellung von probabilistischer Kausalität verbinden lässt, da zu jedem Zeitpunkt die Veränderungsintensität (bzw. bei zeitdiskreten Modellen die Veränderungswahrscheinlichkeit) in der Zukunft auf die wichtigen Bedingungen und Ereignisse in der Vergangenheit bezogen werden kann und damit die Vorhersage wahrscheinlicher zukünftiger Veränderungen auf der Grundlage vergangener Beobachtungen ermöglicht wird. Die Übergangsrate ist deswegen auch ein geeignetes Instrument zur Modellierung des „Zeitpfeils“ von Prozessen: Zu jedem Zeitpunkt der Evolution eines stochastischen Prozesses wird zwischen der jeweiligen Gegenwart t, der abgeschlossenen Vergangenheit bis zu zum Zeitpunkt t (bzw. zur Intervallnummer t) und der offenen Zukunft ab t unterschieden. In die Modellierung
1002
Hans-Peter Blossfeld
der Übergangsrate können deswegen die bis t jeweils realisierten Zustände und Ereignisse der jeweiligen Vorgeschichte (im Sinne der Selbstreferenz, der Interdependenz der Lebensbereiche und der Abhängigkeit von Mehrebenenprozessen) als erklärende Faktoren zur Vorhersage der Veränderung der Übergangsrate in t einbezogen werden. Da die Übergangsrate aber kein deterministisches Konzept ist, sondern nur Intensitäten (oder bei der zeitdiskreten Ereignisanalyse Wahrscheinlichkeiten) der Untersuchungseinheiten für einen Zustandswechsel angibt, bleibt die Zukunft einer konkreten Untersuchungseinheit (z. B. der Person) in den statistischen Modellen der Ereignisanalyse immer „ergebnisoffen“. Weitere wichtige ergänzende mathematische Konzepte der Ereignisanalyse sind die Dichte- und die Verteilungsfunktion sowie die Survivorfunktion. Die Dichte- und Verteilungsfunktion der Verweildauer T (T > 0) im Ausgangszustand i seien mit f (t) und F (t) bezeichnet. Dabei gilt bei der zeitkontinuierlichen Ereignisanalyse wie üblich der Zusammenhang
t
F (t) = P (T ≤ t) =
f (u)du ,
(4)
0
und an allen Stellen, an denen F (t) differenzierbar ist, gilt f (t) = F (t) .
(5)
Die Verteilungsfunktion F (t) gibt für den Zeitpunkt t der Verweildauer T die Wahrscheinlichkeit an, dass bis zum Zeitpunkt t ein Ereignis eingetreten ist. Im Gegensatz dazu gibt die Survivorfunktion G(t) für den Zeitpunkt t die Wahrscheinlichkeit an, dass bisher noch kein Ereignis eingetreten ist t r(u)du . (6) G(t) = 1 − F (t) = P (T > t) = exp − 0
Für die zeitdiskrete Ereignisanalyse mit festen Intervallen t gilt entsprechend für die Wahrscheinlichkeitsfunktion f (t) f (t) = P (T = t),
für t = 1,2,3, . . .
(7)
und die Survivorfunktion G(t) G(t) = [1 − h(1)] · [1 − h(2)] · [1 − h(3)] . . . [q − h(t − 1)]
(8)
G(t) = G(t − 1)[1 − h(t − 1)] .
(9)
oder Die Rate r(t) ergibt sich sowohl bei der zeitstetigen (als auch bei zeitdiskreten) Ereignisanalyse für jeden Zeitpunkt t (bzw. jedes festes Zeitintervall t) aus dem Quotienten der Dichtefunktion f (t) und der Survivorfunktion G(t) r(t) =
f (t) . G(t)
(10)
37 Survival- und Ereignisanalyse
1003
2.1 Verschiedene Ratenmodelle und ihre Schätzung Die zentrale Idee der Ereignisanalyse ist es nun, die Prozesse zu beschreiben und, wenn möglich, die zeitkontinuierliche Übergangsrate rjk (t) (oder die zeitdiskrete Übergangsrate hjk (t)) von der Zeit t und von zeitkonstanten sowie zeitveränderlichen Kovariablen abhängig zu machen. Wir konzentrieren uns im Folgenden auf die zeitkontinuierliche Ereignisanalyse. Sterbetafelmethode und Kaplan-Meier-Schätzung Zu den wichtigsten nichtparametrischen Verfahren, mit denen man den Ratenverlauf für bestimmte (Sub-) Gruppen beschreiben oder die Survivorfunktionen schätzen kann, gehören die Sterbetafelmethode und die Kaplan-Meier-Schätzung (Cleves et al. 2002). Bei der Sterbetafemethode werden die Verweildauern in feste Intervalle eingeteilt, die beliebig lang sein können (Kintner 2004). Für jedes dieser Intervalle werden die Anzahl der Untersuchungseinheiten, die am Beginn des Intervalls noch dem Ereignisrisiko ausgesetzt sind, die Anzahl der Untersuchungseinheiten, die im Intervall ein Ereignis erfahren, und die Anzahl der Untersuchungseinheiten, die im Intervall zensiert werden, gezählt. Auf dieser Basis werden dann die Dichtefunktion der Verweildauern, die Survivorfunktion und die Übergangsrate geschätzt. Die Schätzung stützt sich dabei auf die Annahme, dass die Zensierungen in jedem Intervall gleichverteilt sind. Obwohl die Sterbetafelmethode, insbesondere bei großen Stichproben, ein nützliches Verfahren zur ersten Analyse von Ereignisdaten darstellt, hängt die Genauigkeit der Schätzungen doch stark von den gewählten Intervallbreiten ab. Je größer diese sind, desto schlechter und ungenauer sind die Schätzungen der Funktionen. Störend ist ferner die Tatsache, dass bei unterschiedlicher Wahl der Intervalleinteilung normalerweise jeweils leicht unterschiedliche Schätzergebnisse zu erwarten sind. Als alternatives Verfahren zur Sterbetafelmethode wird deswegen häufig auf den Kaplan-Meier-Schätzer (oder den Produkt-Limit-Schätzer) zurückgegriffen. Die Grundidee dieses Schätzers ist, dass durch die Einteilung der Verweildauer in immer kleinere Intervalle schließlich ein Punkt erreicht wird, wo jede Ereignis- oder Zensierungszeit nur in ein bestimmtes Intervall fällt. Tatsächlich sind Sterbetafel- und Kaplan-Meier-Schätzer dann identisch, wenn man bei der Sterbetafelmethode die Intervalle entsprechend klein wählt. Die gemessenen Ereignis- und Zensierungszeiten werden dann der Größe nach geordnet. Dabei werden zensierte Beobachtungen, die zum gleichen Zeitpunkt wie Ereignisse auftreten, als etwas verzögert betrachtet. Auf der Basis einer solchen eindeutigen Rangreihe von Ereignis- und Zensierungszeiten werden dann Schätzungen nur für die Ereigniszeitpunkte vorgenommen. Die zensierten Zeiten verringern dabei nur jeweils die Risikomenge der später eintretenden Ereignisse. Bei den nach der Methode von Kaplan und Meier geschätzten Survivorfunktion handelt es sich deswegen um eine Stufenfunktion mit diskreten Sprungstellen an den Ereigniszeitpunkten. Bei der Sterbetafelmethode und bei der Kaplan-Meier-Schätzung tritt nicht nur die Schwierigkeit auf, dass mit wachsender Zahl der zu kontrollierenden Subgruppen oft sehr schnell ein Punkt erreicht wird, von dem ab die Schätzung von Survivorfunktionen und Übergangsraten wegen zu geringer Fallzahlen nicht mehr sinnvoll erscheint. Man wird auch mit dem Problem konfrontiert, dass die Subgruppenvergleiche mit steigender
1004
Hans-Peter Blossfeld
Zahl unübersichtlich werden und nur noch schwer zu interpretieren sind. In den letzten Jahren haben sich in der praktischen Anwendung deswegen zunehmend Regressionsansätze zur Analyse von Ereignisdaten durchgesetzt, bei denen die Übergangsrate in Abhängigkeit von zeitkonstanten und zeitveränderlichen Kovariablen und anderen Zeitabhängigkeiten geschätzt wird. Diese Modelle kommen aber in der Regel nicht ohne verschiedene zusätzliche Annahmen aus. Aus Platzgründen können hier nur ausgewählte Modelle kurz angesprochen, aber nicht im Einzelnen ausgeführt werden. Detailliertere Hinweise zu den verschiedenen Modellen können Blossfeld et al. (2007) entnommen werden. Das Exponentialmodell Das Exponentialmodell wird in der Forschungspraxis häufig als Basis- oder Referenzmodell benutzt, mit dem dann die Schätzungen komplexerer Modellierungen verglichen werden. Es geht davon aus, dass das Ereignisrisiko zeitkonstant ist: rjk (t) ≡ rjk (Markov-Eigenschaft). Da die Rate rjk nicht negativ werden darf, werden die Kovariablen Ajkl und ihre Koeffizienten αjkl log-linear mit der Rate rjk (t) ≡ rjk verbunden: rjk (t) ≡ rjk ≡ exp(αjk0 + Ajk1 αjk1 + Ajk2 αjk2 + . . .) = exp(ajk αjk ) .
(11)
Die Höhe der Rate hängt im Exponentialmodell somit nur von den Kovariablenkonstellationen ab, die jeweils mit ihren Koeffizienten multipliziert werden. Ein negativer Koeffizient αjkl vermindert dabei die Rate rjk (t) ≡ rjk (z. B. das Risiko eines Berufswechsels), wenn sich der Wert der Kovariable Ajkl (z. B. die Berufserfahrung) erhöht; ein positiver Koeffizient αjkl erhöht die Rate rjk (t) ≡ rjk (z. B. des Berufswechsels), wenn sich der Wert der Kovariable Ajkl (z. B. die Berufserfahrung) erhöht; ein Koeffizient αjkl = 0 bedeutet, dass die entsprechende Kovariable Ajkl (z. B. die Berufserfahrung) keinen Einfluss auf die Rate (z. B. die Neigung, den Beruf zu wechseln) hat . Die Parameter des Exponentialmodells werden durch die Maximum-LikelihoodMethode geschätzt. Wir werden auf dieses Modell weiter unten bei unserem Anwendungsbeispiel noch genauer interpretierend eingehen. Das Cox-Modell Ein weiteres häufig verwendetes Modell ist das semiparametrische Modell von Cox, das die Verweildauerabhängigkeit (oder Baseline-Rate) r0 (t) zwar kontrolliert, aber nicht explizit in den Schätzungen ausweist rjk (t) = r0 (t) exp(αjk0 + Ajkl αjkl + Ajk2 αjk2 + . . .) = r0 (t) exp(ajk αjk ) .
(12)
Das Cox-Modell wird in der Literatur häufig auch als Proportional-Hazards-Modell bezeichnet, da die Verweildauerabhängigkeit r0 (t) proportional zum Einfluss der Kovariablen ist. D. h., die Annahme dieses Modells ist, dass alle Effekte der Kovariablen nicht von der Zeit abhängen, also zeitkonstant sind. Die Zeitabhängigkeit steckt dann nur in der Baseline-Rate. Die Proportionalitätsannahme kann durch graphische Verfahren oder Tests überprüft werden. Ist diese Annahme nicht erfüllt, kann man
37 Survival- und Ereignisanalyse
1005
durch sogenannte Schichtung nach den Ausprägungen der verschiedenen Kovariablen oder durch die Einführung von Interaktionstermen zwischen diesen Kovariablen und der Verweildauer die Annahmeverletzung korrigieren. Die Schätzung des Cox-Modells erfolgt durch die sogenannte Partial-Likelihood-Methode. Die Interpretation der Koeffizienten erfolgt wie beim Exponentialmodell. Auch hier handelt es sich um eine log-lineare Linkfunktion, in der die Kovariableneinflüsse mit der Rate verbunden werden (wegen: rjk (t) ≥ 0) : Ein negativer Koeffizient αjkl vermindert dabei die Rate rjk (t) ≡ rjk (z. B. das Risiko eines Berufswechsels), wenn sich der Wert der Kovariable Ajkl (z. B. die Berufserfahrung) erhöht; ein positiver Koeffizient αjkl erhöht die Rate rjk (t) ≡ rjk (z. B. des Berufswechsels), wenn sich der Wert der Kovariable Ajkl (z. B. die Berufserfahrung) erhöht; ein Koeffizient αjkl = 0 bedeutet, dass die entsprechende Kovariable Ajkl (z. B. die Berufserfahrung) keinen Einfluss auf die Rate (z. B. die Neigung, den Beruf zu wechseln) hat. Die Interpretion der Koeffizienten erfolgt beim Cox-Modell aber im Unterschied zum Exponentialmodell unter der Voraussetzung, dass beliebige (proportional wirkende) Verweildauerabhängigkeiten kontrolliert sind. Das Piecewise-Constant-Modell Dem Cox-Modell ähnlich ist das Piecewise-Constant-Modell, das die Zeitabhängigkeit (jk) jetzt mit expliziten stückweise konstanten Regressionskonstanten αi (i = 1, . . .,L Intervalle) abbildet und in der Regel zu sehr ähnlichen Parameterschätzungen wie das Cox-Modell führt rjk (t) = exp{α1jk + ajk αjk }
wenn t ∈ I1 ist.
(13)
Das heißt, das Piecewise-Constant-Modell erfordert eine Definition von beliebigen Intervallgrenzen der Zeitachse (die sinnvoll gewählt werden sollte): 0 = τ1 < τ2 < τ3 < τ4 < τ5 < . . . < τL Wobei man mit τL = ∞ L Zeitintervalle erhält I1 = {t | τl ≤ t < τl+1 }
für l = 1, . . . ,L .
(14) (jk)
Für jedes dieser Zeitintervalle wird dann eine Regressionskonstante geschätzt αi , i = 1, . . . , L Intervalle. Der Unterschied zum Cox-Modell besteht nun darin, dass mit dem PiecewiseConstant-Modell Zeitabhängigkeiten der Baseline-Raten, die im Cox-Modell noch unspezifiziert bleiben, sichtbar gemacht werden können. Die Piecewise-Constant-Modelle sind in der Forschungspraxis sehr beliebt, weil sie beliebige Baseline-Hazardraten abbilden können, aber keine spezifischen Annahmen über die Verweildauerabhängigkeit erfordern (wie voll parametrisierte Modelle). Die Interpretation der Koeffizienten erfolgt wieder wie beim Exponentialmodell. Auch hier handelt es sich um eine log-lineare Linkfunktion, in der die Kovariableneinflüsse mit der Rate verbunden werden (wegen: rjk (t) ≥ 0) : Ein negativer Koeffizient
1006
Hans-Peter Blossfeld
αjkl vermindert dabei wieder die Rate rjk (t) ≡ rjk (z. B. das Risiko eines Berufswechsels), wenn sich der Wert der Kovariable Ajkl (z. B. die Berufserfahrung) erhöht; ein positiver Koeffizient αjkl erhöht die Rate rjk (t) ≡ rjk (z. B. des Berufswechsels), wenn sich der Wert der Kovariable Ajkl (z. B. die Berufserfahrung) erhöht; ein Koeffizient αjkl = 0 bedeutet, dass die entsprechende Kovariable Ajkl (z. B. die Berufserfahrung) keinen Einfluss auf die Rate (z. B. die Neigung, den Beruf zu wechseln) hat. Im Unterschied zum Cox-Modell, bei dem die unbekannte Verweildauerabhängigkeit nur kontrolliert wurde, erhält man beim Piecewise-Constant-Modell nun zusätzlich über (jk) die geschätzten konstanten Regressionsparameter αi , i = 1, . . . ,L Intervalle, einen Eindruck davon, wie sich die (proportionale) Verweildauerabhängigkeit über die Zeit entwickelt. Parametrische Modelle der Zeitabhängigkeit Schließlich gibt es die parametrischen Modelle der Zeitabhängigkeit, die nur bestimmte monoton fallende oder steigende Raten (z. B. das Weibull- oder Gompertz(-Makeham)Modell) oder bestimmte zuerst steigende und dann fallende Raten (z. B. das loglogistische Modell oder log-normale Modell) im Zeitverlauf zulassen (siehe Blossfeld et al. 2007, S. 182–215). Diese parametrischen Modelle setzen also immer eine Annahme einer bestimmten Verweildauerabhängigkeit voraus. Da es aber selten der Fall ist, dass man in den Sozialwissenschaften theoretisch klar spezifizierte Verweildauerabhängigkeiten unterstellen kann, wird man in der Regel erst einmal ein Piecewise-Constant-Modell schätzen und an Hand der sich ergebenden Form der Verweildauerabhängigkeit sich in einem zweiten Schritt für ein bestimmtes (sparsameres) parametrisches Modell entscheiden. 2.2 Ein Beispiel Im Folgenden soll ein Beispiel für die Interpretation verschiedener Modelle der Ereignisanalyse gegeben werden. Die abhängige Variable ist dabei die Job-Exit-Rate, also die Intensität von Männern und Frauen, eine berufliche Tätigkeit (wegen eines Jobwechsels, einer Erwerbsunterbrechung etc.) zu beenden. Als erklärende Kovariable greifen wir auf die Merkmale des bisherigen Bildungs- und Berufsverlaufs der Personen zurück (zur Variablenbeschreibung siehe Blossfeld et al. 2007): – –
Bildungsniveau (edu), Kohorten-Dummyvariablen (1940-Geborene: coho2; 1950-Geborene: coho3; wobei die 1930-Geborenen die Referenzgruppe sind: coho1), – Berufserfahrung zu Beginn jeder beruflichen Tätigkeitsepisode (lfx), – Anzahl der vorhergehenden beruflichen Tätigkeiten (pnoj), – Prestige der gegenwärtigen Tätigkeit (pres). Wenn wir den Einfluss dieser Kovariablen auf die Job-Exit-Rate mit verschiedenen Verweildauermodellen schätzen (siehe Tabelle 1), wird deutlich, dass die inhaltlichen Interpretationen der zeitkonstanten Kovariablen bei den verschiedenen Modellen (Exponentialmodell, Cox-Modell und Piecewise-Constant-Modell) sehr ähnlich ausfallen.
37 Survival- und Ereignisanalyse
1007
Tab. 1: Schätzung der Kovariableneinflüsse auf die Job-Exit-Rate in verschiedenen Modellen Kovariable cons cons1 (0-12 Monate) cons2 (12-24 Monate) cons3 (24-36 Monate) cons4 (36-48 Monate) cons5 (48-60 Monate) cons6 (60-72 Monate) cons7 (72-84 Monate) cons8 (84-96 Monate) cons9 (t >96 Monate) edu coho2 coho3 lfx pnoj pres Log likelihood ∗
Exponentialmodell
Cox-Modell
−4,489∗
0,077∗ 0,608∗ 0,611∗ −0,003∗ 0,060 −0,028∗ −2465,99
0,070∗ 0,411∗ 0,305∗ −0,004∗ 0,067 −0,026∗ −2546,78
Piecewise-ConstantModell −4,605∗ −3,924∗ −3,630∗ −4,151∗ −4,111∗ −4,158∗ −4,527∗ −5,474∗ −4,909∗ 0,068∗ 0,484∗ 0,382∗ −0,004∗ 0,062 −0,026∗ −2417,18
: p ≤ 0,05
Dies gilt im Übrigen auch für andere Modelle der parametrischen Modellklasse wie dem Weibull- oder Gompertz(-Makeham)-Modell oder dem log-logistischen Modell sowie dem log-normalen Modell (siehe Blossfeld et al. 2007). Das heißt, die Einflüsse zeitkonstanter Kovariablen sind in der Ereignisanalyse über sehr unterschiedliche semi-parametrische und parametrische Modelle hinweg relativ robust. Die Vorzeichen und Signifikanzen der Ergebnisse stimmen in der Regel überein und die Koeffizienten sind in ihrer Größe sehr ähnlich. Die Ergebnisse in Tabelle 1 zeigen, dass die Koeffizienten für das Bildungsniveau (edu), die Kohortendummyvariablen coho2 und coho3 und die Anzahl der vorhergehenden beruflichen Tätigkeiten (pnoj) ein positives Vorzeichen haben. Der Einfluss von pnoj ist dabei in allen Modellen statistisch nicht signifikant. Das heißt, dass mit zunehmender Bildung und von der älteren zu den zwei jüngeren Kohorten die Job-Exit-Rate tendenziell ansteigt. Diese Personen verlassen die jeweils gegenwärtige berufliche Tätigkeit also jeweils schneller. Die Koeffizienten der Berufserfahrung (lfx) und des Prestiges der gegenwärtigen beruflichen Tätigkeit (pres) haben dagegen ein negatives Vorzeichen. Mit anderen Worten, mit zunehmender Berufserfahrung und mit steigender Qualität der beruflichen Tätigkeit sinkt die Job-Exit-Rate deutlich. Aage Sørensen begründet diese Effekte in seinem Vacancy-Competition Modell z. B. durch die Tatsache, dass es mit zunehmender Berufserfahrung und mit zunehmendem
1008
Hans-Peter Blossfeld
Berufsprestige der Position immer schwieriger wird, noch eine bessere Position im Berufsverlauf zu finden. Die Berufsmobilität nimmt deswegen ab. Im Exponentialmodell von Tabelle 1 erhalten wir schließlich noch eine Regressionskonstante (cons). Im Cox-Modell entfällt diese Konstante, weil sie Teil der BaselineRate wird, die zwar im Cox-Modell kontrolliert wird, aber für die das Cox-Modell keine Schätzungen ausweist. Einen Eindruck über die Baseline-Rate erhält man aber im Piecewise-Constant-Modell. Dort sind für neun gewählte Intervalle die periodenspezifischen Regessionskonstanten zu sehen. Anhand dieser Schätzungen wird deutlich, dass die Baseline der Job-Exit-Rate anfänglich steigt, dann einen Höhepunkt erreicht und danach abfällt. Das heißt, das Job-Exit-Risiko ist am Beginn einer neuen Tätigkeit gering, steigt dann (in der Probezeit!) etwas an und fällt dann mit zunehmender Verweildauer in einer Tätigkeit ab.
3 Modellierung von parallelen und interdependenten Prozessen Der eigentliche Fortschritt der Ereignisanalyse gegenüber den herkömmlichen Regressionsmodellen besteht vor allem in der Möglichkeit, sehr flexibel zeitabhängige Kovariablen in die Erklärungsmodelle einzubeziehen. Damit lassen sich die Wirkungen paralleler und interdependenter Prozesse auf einen abhängigen Prozess mit der Ereignisanalyse einfach modellieren. In der Literatur werden zwei Gruppen von zeitabhängigen Einflussfaktoren unterschieden, die methodisch relativ unproblematisch sind, weil bei ihnen keine Rückwirkungen (Feedback-Effekte) auftreten können: Dies sind zum einen sogenannte definierte zeitabhängige Kovariablen, deren Zeitpfade (oder funktionale Veränderungsformen im Zeitverlauf) für alle Untersuchungseinheiten im Voraus in gleicher Weise festliegen. Zum Beispiel sind das Alter und die Verweildauer in einem bestimmten Zustand (z. B. die Dauer einer Ehe bei Scheidungsstudien) „definierte“ zeitabhängige Kovariablen, weil sich deren Werte im Prozessverlauf für alle Untersuchungseinheiten in gleicher Weise ändern. Daher können diese Kovariablen per definitionem nicht durch den als abhängig betrachteten Prozess (z. B. die Scheidungsrate) beeinflusst werden. Zum anderen gibt es sogenannte externe zeitabhängige Kovariablen, deren Zeitpfade das Resultat stochastischer Prozesse sind, die von dem zu untersuchenden Prozess selbst nicht oder nur marginal beeinflusst werden. Beispiele für diese zeitabhängigen Kovariablen sind nahezu alle Prozesse, die Veränderungen auf der gesellschaftlichen Makroebene widerspiegeln (z. B. Arbeitslosenquoten, Beschäftigungsstrukturen etc.) oder sich auf der Ebene der Gesamtbevölkerung (Wandel der Zusammensetzung der Bevölkerung nach Alter, Geschlecht, etc.) abspielen, vorausgesetzt, der Beitrag jeder einzelnen Untersuchungseinheit (z. B. jedes Lebensverlaufs) zur Makrostruktur ist so gering, dass er vernachlässigbar klein ist (Yamaguchi 1991). Aber das ist in der Regel der Fall. Im Vergleich zu diesen zwei Gruppen von zeitabhängigen Kovariablen wird die Verwendung sogenannter interner zeitabhängiger Kovariablen in der Literatur häufig als problematisch angesehen. Eine interne zeitabhängige Kovariable YtA beschreibt einen in einem kausalen Modell als unabhängige Variable gedachten stochastischen Prozess, der seinerseits durch den als abhängig betrachteten Prozess YtB beeinflusst
37 Survival- und Ereignisanalyse
1009
wird. Das heißt, es gibt zum einen autonome Wirkungen, durch die sich die Prozesse gegenseitig beeinflussen (z. B. YtB beeinflusst YtA und YtA beeinflusst YtB ), und zum anderen Feedback-Effekte, durch die sich diese Prozesse selbst über den jeweiligen anderen Prozess beeinflussen (YtA beeinflusst YtA über YtB und YtB beeinflusst YtB über YtA ). Mit anderen Worten, diese Prozesse sind interdependent und bilden dynamische Systeme (Tuma & Hannan 1984). Interdependente Prozesse sind typisch für Verläufe auf der individuellen Ebene in verschiedenen Lebensbereichen. Aus der empirischen Literatur ist beispielsweise bekannt, dass der Berufsverlauf eines Individuums den Heiratsprozess beeinflusst und umgekehrt, dass der individuelle Berufsverlauf von der Heiratsentscheidung abhängig ist. Die Möglichkeit, komplexe dynamische Abhängigkeiten zwischen verschiedenen Lebensbereichen bzw. den sie repräsentierenden Teilprozessen zu modellieren, wirft deswegen für die statistische Analyse eine gewichtige Frage auf. Wie kann man zuverlässig die Effekte der beiden Teilprozesse aufeinander trennen? Wie kann man feststellen, wie stark der eine Teilprozess auf den anderen wirkt und umgekehrt? Dieses Problem wird in der Literatur auf sehr verschiedene Weise bearbeitet. Wir stellen hier den dynamischen Kausalansatz von Blossfeld & Rohwer (2002) kurz vor. Dort wird auf der Grundlage einer zu untersuchenden Fragestellung oder aufgrund theoretischer Vorüberlegungen einer der Teilprozesse als der abhängige Prozess spezifiziert, dessen Verlauf beschrieben und erklärt werden soll. Dabei ist zu berücksichtigen, dass Veränderungen im Prozessablauf sowohl von der Geschichte dieses Prozesses selbst als auch von anderen, parallel ablaufenden Prozessen abhängig sein können. Entsprechend werden bei diesem Ansatz der bisherige Verlauf und der gegenwärtige Zustand des Gesamtsystems als Voraussetzung für alle zukünftigen Veränderungen der einzelnen Teilprozesse angesehen. Wir wollen im Folgenden kurz diskutieren, wie sich diese Perspektive theoretisch-methodisch begründen und umsetzen lässt. 3.1 Ursachen und zeitabhängige Kovariablen Den Zusammenhang zwischen kausalen Überlegungen und statistischer Modellierung hat Holland (1986) in einem wissenschaftlich einflussreichen Aufsatz deutlich gemacht. Er hat insbesondere darauf hingewiesen, dass jede kausale Aussage eine kontrafaktische Überlegung beinhaltet. Dies ist eine Überlegung derart, dass sich eine andere Wirkung ergeben hätte, wenn die Ursache eine andere gewesen wäre – zumindest mit einer gewissen Wahrscheinlichkeit. Der kausale Effekt ist also die Differenz der Wirkungen, die sich aus einer Veränderung der Bedingungen ergibt. Das entscheidende Problem der Überprüfung kausaler Aussagen besteht nun darin, dass sich in empirischen Untersuchungen bei ein und derselben Untersuchungseinheit nicht gleichzeitig auch diejenigen Wirkungen beobachten lassen, die sich ergeben hätten, wenn die Bedingungen für die Untersuchungseinheit anders gewesen wären. Holland hat dies als das „fundamentale Problem kausalen Schlussfolgerns“ bezeichnet (siehe auch Kapitel 2 in diesem Handbuch). Um eine empirische Prüfung von Vermutungen über Kausalzusammenhänge in der Ereignisanalyse durchführen zu können, ist von Blossfeld & Rohwer (2002) vorgeschlagen worden, sich vor allem auf diejenigen Bedingungen bei den Untersuchungseinheiten
1010
Hans-Peter Blossfeld
zu konzentrieren, die sich bei den Untersuchungseinheiten im Zeitverlauf tatsächlich ändern. Das sind sogenannte zeitabhängige Kovariablen. 3.2 Zeit und kausale Wirkungen Man sollte bei der empirischen Überprüfung von kausalen Analysen deswegen nicht davon sprechen, dass ein Prozess YtA die Ursache für die Veränderung eines anderen Prozesses YtB ist, sondern vielmehr dass eine zeitlich fixierbare Veränderung im Prozess YtA zu einer zeitlich später fixierbaren Veränderung im Prozess YtB (dem Effekt) führt: ΔYtA → ΔYtB
t < t .
(15)
Dies impliziert natürlich nicht, dass die Veränderung in YtA die einzige Ursache ist, die einen Einfluss auf den Prozess YtB haben kann. Es ist deshalb besser, von kausalen Bedingungen zu sprechen, um zu betonen, dass es meistens eine komplexe Konstellation von Ursachen gibt. Insgesamt sollte man sich aber bei der Analyse vor allem auf Veränderungen von Prozessen (qualitativen und quantitativen Zustandsänderungen) als potentielle Ursachen konzentrieren. Drei Aspekte sind dabei von besonderer Bedeutung. 3.3 Zeitachse und Ereignisse Von der Veränderung eines Zustands zu sprechen, impliziert erstens, eine genauere Bestimmung des Begriffs „Zeitpunkt“. Seine Bedeutung hängt normalerweise von der Art der Ereignisse ab, die beschrieben werden, z. B. einer Heirat, der Geburt eines Kindes oder dem Betroffensein von Arbeitslosigkeit. In Lehrbüchern zur Ereignisdatenanalyse geht man wie in diesem Beitrag normalerweise von einer kontinuierlichen Zeitachse aus. Man sollte dies jedoch eher als eine idealisierte Art der Darstellung sozialer Zeit verstehen. Mathematische Begriffe werden nur dazu verwendet, um über soziale Realitäten zu sprechen. Wir können deshalb die Kontroverse über die Frage, ob Zeit (im mathematischen Sinne des Wortes) kontinuierlich ist oder nicht, außer acht lassen. Wir verwenden die Symbole „ΔYtA “ und „ΔYtB “, wenn wir uns auf Veränderungen der Prozesse A und B zum Zeitpunkt t bzw. t beziehen. Der wesentliche Punkt, den es hier festzuhalten gilt, ist, dass sich Überprüfungen von Kausalaussagen in der Ereignisanalyse auf Beziehungen zwischen Zustandsänderungen richten müssen. 3.4 Zeitfolge, Zeitintervalle und scheinbare Gleichzeitigkeit Dabei muss es zweitens eine zeitliche Abfolge von Ursache und Wirkung geben. Das ursächliche Ereignis muss seinem Wirkungsereignis immer zeitlich vorausgehen: t < t . Diese Auffassung scheint heute relativ unstrittig zu sein. Aber daraus folgt, dass es immer ein Zeitintervall zwischen der Veränderung der Variablen, die ein ursächliches Ereignis darstellt, und der Veränderung der Variablen, die eine Wirkung repräsentiert, geben muss. Eine Ursache (die Veränderung des unabhängigen Prozesses) und ihre Wirkung (die Veränderung des abhängigen Prozesses) können deshalb nicht zum selben Zeitpunkt geschehen. Jede angemessene empirische Repräsentation von kausalen
37 Survival- und Ereignisanalyse
1011
Beziehungen in einem statistischen Modell muss also in Rechnung stellen, dass es eine zeitliche Verzögerung (häufig auch als „lag“ bezeichnet) zwischen dem ursächlichen Ereignis und der Entfaltung des Effekts geben muss. Das Zeitintervall zwischen dem Eintreten der Ursache und dem Beginn der Wirkung kann kurz oder lang sein, es darf aber weder null noch unendlich sein – sonst würde es keine Wirkung geben. Für die empirische Analyse von interdependenten Prozessen in der Ereignisanalyse besteht deswegen eine der wichtigen Aufgaben darin, der Zeitstruktur der zu untersuchenden Kausalbeziehungen Rechnung zu tragen. Dies ist bisher bei vielen Studien noch nicht genügend berücksichtigt worden, allerdings auch oft aus praktischen Gründen nur unzureichend möglich. Häufig stehen nur zeitlich ungenaue Beobachtungen zur Verfügung, woraus dann der Eindruck entstehen kann, dass die Ursachen und ihre Wirkungen „gleichzeitig“ auftreten. In Wirklichkeit handelt es sich dabei jedoch nur um eine scheinbare Gleichzeitigkeit infolge ungenauer Beobachtungen. Andere Wirkungen wiederum brauchen sehr lange, ehe sie überhaupt sichtbar werden. Zu denken ist beispielsweise an psychoanalytische Theorien, die Besonderheiten des Verhaltens von Erwachsenen durch weit in der Vergangenheit zurückliegende frühkindliche Erfahrungen begründen. Dann gibt es beträchtliche zeitliche Verzögerungen oder „lags“ zwischen den ursächlichen Ereignissen und ihren Wirkungsereignissen, die in einer kausalen Ereignisanalyse theoretisch spezifiziert werden müssen. 3.5 Zeitliche Form der Entfaltung von Wirkungen Dies führt drittens zur Frage, wie sich der kausale Effekt im Zeitablauf entfaltet. Blossfeld & Rohwer (2002) beschreiben verschiedene hypothetische Formen, in denen sich Wirkungen im Zeitablauf entfalten können. Zunächst kann die Wirkung fast schlagartig oder mit einer gewissen zeitlichen Verzögerung eintreten und dann zeitlich unverändert bleiben. Dies ist die gängige Vorstellung von Ursache-Wirkungsbeziehungen wie sie heute in den Sozialwissenschaften bei vielen Theoretikern vorherrscht. Die Wirkung kann sich aber auch erst langsam aufbauen oder rasch ansteigen, einen Höhepunkt erreichen und dann wieder abnehmen bzw. sich zyklisch verändern, d. h., immer wieder zu- und abnehmen. Mit anderen Worten, der Veränderung der Wirkung in der Zeit ist in den Sozialwissenschaften vor allem theoretisch bisher zu wenig Beachtung geschenkt worden. 3.6 Das Prinzip der konditionalen Unabhängigkeit Aus diesen Überlegungen zur Zeitstruktur von Kausalbeziehungen ergibt sich ein im Prinzip relativ einfacher Zugang zur Kausalanalyse interdependenter Prozesse. Geht man zum Beispiel von zwei in Wechselwirkung stehenden parallelen Prozessen YtA und YtB aus, dann kann die Veränderungstendenz des Prozesses YtA im Zeitpunkt t nur vom Verlauf der beiden Prozesse bis zu diesem Zeitpunkt (jedoch nicht einschließlich t ) abhängen. Anders ausgedrückt, was mit YtA zum Zeitpunkt t passiert, ist konditional unabhängig von dem, was mit YtB zum gleichen Zeitpunkt t passiert, vorausgesetzt, man hat den Verlauf des gemeinsamen Prozesses Yt = (YtA ,YtB ) bis zum Zeitpunkt t adäquat einbezogen.
1012
Hans-Peter Blossfeld
Die Likelihood für das Übergangsratenmodell des gemeinsamen Prozesses Yt = (YtA ,YtB ) kann man wegen des Prinzips der konditionalen Unabhängigkeit in ein Produkt der Likelihood-Komponenten für die zwei getrennten Modelle zerlegen. Das heißt, es ergeben sich zwei unabhängige Übergangsratenmodelle: ein Ratenmodell für YtA , in das YtB als zeitabhängige Kovariable einbezogen wird, und ein Ratenmodell für YtB , in das YtA als zeitabhängige Kovariable aufgenommen wird. Welchen Teilprozess man als abhängigen und welchen man als unabhängigen Teilprozess betrachten will, ist dabei eine theoretische Frage. Man kann deswegen diese Überlegungen auch auf den Prozess YtB als „abhängige Variable“ übertragen. Die Schätzung der Wirkung der Veränderung der erklärenden (qualitativen oder metrischen) Prozesse auf die Übergangsrate lässt sich dann einfach mit Hilfe der Methode des Episodensplittings vornehmen. Dabei werden die urspünglichen Verweildauerepisoden nach den Veränderungszeitpunkten der erklärenden Variablen in Subepisoden aufgesplittet. Die Subepisoden werden dann rechtszensiert, bis auf die letzte Subepisode, die den ursprünglichen Zensierungsindikator der Ausgangsepisode erhält. 3.7 Ein Anwendungsbeispiel Im Folgenden soll das Anwendungsbeispiel einer Ereignisanalyse aus Tabelle 1 ausgebaut werden. Es handelt sich dabei um eine Ereignisanalyse mit dem Programm Stata (siehe dazu das Begleitmaterial zum vorliegenden Buch). Die abhängige Variable ist dabei wieder die Job-Exit-Rate. Als erklärende Kovariable greifen wir wieder auf die Merkmale des bisherigen Bildungs- und Berufsverlaufs der Personen zurück: (1) Bildungsniveau (edu), (2) Kohorten-Dummyvariablen (1940-Geborene: coho2; 1950-Geborene: coho3; wobei die 1930-Geborenen die Referenzgruppe sind: coho1), (3) Berufserfahrung zu Beginn jeder beruflichen Tätigkeitsepisode (lfx), (4) Anzahl der vorhergehenden beruflichen Tätigkeiten (pnoj), (5) Prestige der gegenwärtigen Tätigkeit (pres). Um den Einfluss eines interdependenten Prozesses zu untersuchen, greifen wir zusätzlich auf den Heiratsprozess zurück und führen eine zeitabhängige Dummyvariable (marr) ein, die anzeigt, ob jemand zum Zeitpunkt t bereits verheiratet ist oder nicht. Da familiäre Ereignisse in Deutschland in der Regel einen gegensätzlichen Effekt auf die Job-Exit-Rate von Männern und Frauen haben, wird die Analyse durch eine zeitabhängige Interaktionsdummyvariable (marrmen) ergänzt, die den Wert 1 annimmt, wenn es sich bei der Heirat um die Heirat eines Mannes handelt. Der Einbezug der beiden zeitabhängigen Kovariablen erfolgt über die Methode des Episodensplittings (siehe Blossfeld et al. 2007, S. 137–152). Dabei werden die ursprünglichen beruflichen Tätigkeitsepisoden des Datensatzes jeweils zum Zeitpunkt der Heirat in Subepisoden aufgespalten. Als Datensatz wird der ereignisorientierte Beispieldatensatz rrdat1 aus dem Buch von Blossfeld & Rohwer (2002) verwendet, der in den Begleitmaterialien zum vorliegenden Buch zu finden ist. Das Ergebnis dieser exemplarischen Ereignisanalyse ist in Tabelle 1 dargestellt. Die Ergebnisse in Tabelle 2 zeigen, dass die Koeffizienten für das Bildungsniveau (edu), die Kohortendummyvariablen coho2 und coho3, die Anzahl der vorhergehenden beruflichen Tätigkeiten (pnoj), die Berufserfahrung (lfx) und das Prestiges der
37 Survival- und Ereignisanalyse
1013
Tab. 2: Ergebnis der exemplarischen Ereignisanalyse mit Stata (Exponential regression – log relative-hazard form) Coef. edu coho2 coho3 lfx pnoj pres marr marrmen _cons
0,0943202 0,5422956 0,5303917 −0,0030792 0,1029071 −0,026412 0,2734695 −1,023141 −4,584152
No. of subjects Number of obs No. of failures Time at risk
Std. Err. 0,0234471 0,1131758 0,1192044 0,000976 0,0444981 0,0053505 0,1231325 0,1401201 0,2693982
z 4,02 4,79 4,45 −3,16 2,31 −4,94 2,22 −7,30 −17,02
P>|z| 0,000 0,000 0,000 0,002 0,021 0,000 0,026 0,000 0,000
[95% Conf Interval] 0,0483646 0,3204752 0,2967555 −0,0049921 0,0156924 −0,0368988 0,0321343 −1,297771 −5,112163
0,1402757 0,764116 0,764028 −0,0011664 0,1901218 −0,0159252 0,5148047 −0,7485103 −4,056141
600 761 458 40782
LR chi2(8) = 159,69; Log likelihood = -858,12342; Prob < χ2 = 0,0000
gegenwärtigen beruflichen Tätigkeit (pres) wieder sehr ähnlich sind, wie in Tabelle 1. Interessant ist der Einfluss des Heiratsprozesses auf die Job-Exit-Rate bei Männern und Frauen. Bei Männern sinkt die Job-Exit-Rate (0,27 · 1 − 1,02 · 1 = −0,75), während bei Frauen die Job-Exit-Rate steigt (+0,27 · 1− 1,02 ·0 = +0,27). Das lässt sich dadurch erklären, dass in Westdeutschland die Frauen noch immer für die Kindererziehung zuständig sind und sie ihre Erwerbstätigkeit häufig bei der Geburt von Kindern unterbrechen. Bei den Männern ist es wegen der „Ernährerideologie“ genau umgekehrt: Sie sehen sich nach der Heirat nicht nur für sich, sondern für eine Familie verantwortlich, was ihren Erwerbsverlauf stabilisiert.
4 Häufige Fehler Zum Abschluss soll noch auf häufige Fehler bei der Ereignisanalyse hingewiesen werden. Eine erste Fehlerquelle ergibt sich bereits bei der Definition der Zeitachse und der Genauigkeit der Messungen in der Zeit. Wenn die Messungen z. B. nur ein Mal jährlich erfolgen wie das z. B. beim SOEP der Fall ist, entsteht das Problem, dass man die zeitliche Ordnung zwischen den ursächlichen Ereignissen und ihren Wirkungen nicht mehr etablieren kann. Man sollte die zeitlichen Datierungen also immer möglichst genau messen. In der Lebensverlaufsforschung hat sich eine Datierung auf Monatsebene durchgesetzt. Ein zweites Problem ergibt sich bei der Definition des sogenannten Zustandsraums. Damit ist die Anzahl und Art der Zustände gemeint, die vom Prozess angenommen werden können. Definiert man zum Beispiel den Zustandsraum nur durch die Zustände „erwerbstätig“ und „nicht erwerbstätig“, dann ergeben sich bei der Analyse der Frauenerwerbstätigkeit häufig große Interpretationsprobleme, weil
1014
Hans-Peter Blossfeld
Frauen in verschiedenen modernen Gesellschaften häufig auch Teilzeit arbeiten oder in geringfügigen Beschäftigungen zu finden sind. Der Definition des Zustandsraums ist also eine große Aufmerksamkeit zu widmen, weil dadurch alle möglichen Übergänge und Ereignisse festgelegt werden. Eine weitere Fehlerquelle der Ereignisanalyse ist, dass man die Anfangsbedingungen einer Verweildaueranalyse unzureichend spezifiziert. Unterschiede in den Anfangsbedingungen sind häufig das Ergebnis vorgängiger Selektionsprozesse und diese Vorgeschichte sollte immer so umfassend wie möglich in die Modelle aufgenommen werden. Ein viertes Problem liegt darin, dass man wichtige zeitabhängige Kovariablen nicht in die Modelle aufgenommen hat. In unserem Anwendungsbeispiel oben, ist es sehr wahrscheinlich, dass nicht die Eheschließung, sondern die Geburt des ersten Kindes das zentrale Ereignis für den Job-Exit-Prozess der (Ehe-)Männer und (Ehe-)Frauen ist. D. h., wenn der Prozess der Geburt von Kindern nicht berücksichtigt wird, erscheint es so, als ob die Heirat ein zentrales Ereignis für den Berufsverlauf wäre. Mit großer Wahrscheinlichkeit würde dieser Effekt der Heirat als zeitabhängige Kovariable bei Kontrolle der Geburt des ersten Kindes als zeitabhängige Kovariable verschwinden, weil Frauen heute nicht bereits wegen der Heirat, sondern vielmehr erst wegen der Geburt ihres Kindes ihre Erwerbstätigkeit unterbrechen. Ein weiteres Problem ist das der sogenannten unbeobachteten Heterogenität. Dieses Problem tritt dann auf, wenn nicht alle relevanten Einflüsse in das Modell aufgenommen werden bzw. aufgenommen werden können. Dann bleiben nicht beobachtete Unterschiede zwischen den Untersuchungseinheiten, die für den zu erklärenden Prozess wichtig sind, außen vor. In den Ratenmodellen führt unbeobachtete Heterogenität in der Regel zu (scheinbaren) Zeitabhängigkeiten. Das heißt, Zeitabhängigkeiten in der Ereignisanalyse sind nicht notwendigerweise durch tatsächliche Zeitabhängigkeiten begründet, sondern können durchaus auch das Ergebnis von methodischen Artefakten sein. In der Literatur existieren viele Arbeiten zum methodischen Umgang mit diesem Problem. Eine kurze Zusammenfassung der Ratenmodelle mit unbeobachteter Heterogenität ist in Blossfeld & Rohwer (2002) zu finden. Lillard & Panis (2003) bieten darüber hinaus ein statistisches Schätzprogramm an, mit dem simultan Ratengleichungen für verschiedene endogen miteinander verknüpfte Teilprozesse modelliert werden können. Schließlich ergibt sich bei Ereignisanalysen, bei denen bei ein und demselben Individuum mehrere Episoden beobachtet werden, wie dies in unserem Anwendungsbeispiel der Fall ist, das Problem, dass die Verweildauern dieser Episoden nicht unabhängig voneinander sind. Eine Möglichkeit ist, diese Faktoren zu kontrollieren. Aber oft gibt es auch unbeobachtete Einflüsse auf diese Episoden. Diese unbeobachteten für Individuen spezifischen Faktoren, von denen dann die Übergangsraten aller Episoden abhängen, können durch sogenannte Mehrebenenmodelle in der Ereignisanalyse kontrolliert werden (Goldstein et al. 2004).
5 Literaturempfehlungen Aufbauend auf den Veröffentlichungen von Allison (1984), Tuma & Hannan (1984) sowie Yamaguchi (1991) haben Blossfeld et al. (2007) ein anwendungsorientiertes
37 Survival- und Ereignisanalyse
1015
Buch zur zeitkontinuierlichen Ereignisanalyse geschrieben, in dem insbesondere die Vorteile dieser Verfahren für die kausale Modellierung mit vielen Beispielen und StataAnwendungen dargestellt werden. Für die diskrete Ereignisanalyse ist das Buch von Yamaguchi (1991) und von Vermunt (1997) zu empfehlen. Die Probleme und Lösungen simultaner Ratengleichungen werden insbesondere von Lillard (1993) ausgezeichnet herausgearbeitet. Eine instruktive Einführung in die Mehrebenen-Modellierung in der Ereignisanalyse findet sich in Goldstein et al. (2004). Courgeau & Lelièvre (1992) geben eine ausgezeichnete Einführung in die Anwendung der Ereignisanalyse in der demographischen Forschung.
Literaturverzeichnis Allison, P. D. (1982). Discrete-Time Methods for the Analysis of Event Histories. Sociological Methodology, 13, 61–98. Allison, P. D. (1984). Event History Analysis. Regression for Longitudinal Event Data. California: Sage. Allison, P. D. (1994). Using Panel Data to Estimate the Effects of Events. Sociological Methods and Research, 23, 174–199. Blossfeld, H.-P., Golsch, K., & Rohwer, G. (2007). Techniques of Event History Analysis with Stata. Mawah: Lawrence Erlbaum. Blossfeld, H.-P. & Prein, G., Hg. (1998). Rational Choice Theory and Large-Scale Data Analysis. Boulder: Westview Press. Blossfeld, H.-P. & Rohwer, G. (2002). Techniques of Event History Modeling. New Approaches to Causal Analysis. Mawah: Lawrence Erlbaum, 2. Auflage. Cleves, M. A., Gould, W. W., & Gutierrez, R. (2002). An Introduction to Survival Analysis Using Stats G. In M. A. Cleves (Hg.), Introduction to Survival Analysis Using Stats G (S. 195–196). College Station: Stata Corp. Courgeau, D. & Lelièvre, E. E. (1992). Event History Analysis in Demography. Oxford: Clarendon Press. Goldstein, H., Pan, H., & Bynner, J. (2004). A Flexible Procedure for Analyzing Longitudinal Event History Data Using Multilevel Model. Understanding Statistics, 3, 85–99. Holland, P. W. (1986). Statistics and Causal Inference. Journal of the American Statistical Association, 81, 945–960. Kintner, H. J. (2004). The Life Table. In J. S. Siegel & D. A. Swanson (Hg.), The Methods and Materials of Demography (S. 301–340). Boston: Elsevier Academic Press. Lillard, L. A. (1993). Simultaneous Equations for Hazards: Marital Duration & Fertility Timing. Journal of Econometrics, 56, 189–217. Lillard, L. A. & Panis, C. W. A. (2003). aML Multilevel Multiprocess Statistical Software, Release 2.0. Los Angeles: EconWare. Mayer, K. U. (2009). New Directions in Life Course Research. Annual Review of Sociology, 35, 413–433. Tuma, N. B. & Hannan, M. T. (1984). Social Dynamics. Models and Methods. Orlando: Academic Press.
1016
Hans-Peter Blossfeld
Vermunt, J. K. (1997). Log-Linear Models for Event Histories. Newbury Park: Sage. Yamaguchi, K. (1991). Event History Analysis. Newbury Park: Sage.
38 Latente Wachstumskurvenmodelle Florian Schmiedek und Julia K. Wolff a b
Deutsches Institut für Internationale Pädagogische Forschung (DIPF), Frankfurt am Main Max-Planck-Institut für Bildungsforschung, Berlin
Zusammenfassung. Werden in sozialwissenschaftlichen Studien Veränderungsprozesse untersucht, zum Beispiel in der Entwicklungspsychologie, den Erziehungswissenschaften oder in der Soziologie des Lebenslaufes, so interessiert man sich in der Regel sowohl für allgemeine, mittlere Veränderungsverläufe als auch für interindividuelle Unterschiede beziehungsweise Abweichungen von den mittleren Veränderungen, sowie für Ursachen und Folgen dieser interindividuellen Unterschiede. Es liegt daher nahe, als grundlegende Analyseebene von Veränderungsprozessen das sich verändernde Individuum zu wählen (Schmiedek & Lindenberger 2007). Um einerseits individuellen Unterschieden in Veränderungen mit ausreichender Flexibilität gerecht zu werden, andererseits aber auch mittlere Veränderungen beschreiben und statistisch testen zu können, haben sich in den letzten Jahren Verfahren zur Veränderungsmessung etabliert, in denen sogenannte feste und zufällige Effekte (fixed und random effects) kombiniert werden. Die festen Effekte repräsentieren die mittleren Veränderungen und die zufälligen Effekte individuelle Abweichungen von diesen. Zu diesen Verfahren zählen sowohl Mehrebenenmodelle (Multilevel models bzw. Mixed models) als auch latente Wachstumskurvenmodelle (Latent growth curve models; LGMs). Beide Verfahren sind in vielerlei Hinsicht konzeptuell verwandt oder sogar formal identisch. Da LGMs als Strukturgleichungsmodelle (Structural equation models; SEMs) formuliert und geschätzt werden, bieten sie jedoch eine enorme Flexibilität in Bezug auf Erweiterungen verschiedenster Art. Dazu gehören Möglichkeiten der Untersuchung multivariater Veränderungsprozesse, der Einsatz von komplexen Messmodellen für abhängige und unabhängige Variablen sowie Mehrgruppen- und latente Klassenmodelle zur Untersuchung von Gemeinsamkeiten und Unterschieden von Veränderungen in verschiedenen a priori definierten oder explorativ identifizierten Populationen. Weiterhin lassen sich latente Veränderungsmodelle (Latent change models; LCMs) formulieren, in denen latente Wachstumsmodelle flexibel mit autoregressiven Prozessen verknüpft werden können.
1 Einführung in das Verfahren Latente Wachstumskurvenmodelle beschreiben mittlere Veränderungen und interindividuelle Unterschiede mit einer Kombination von festen und zufälligen Effekten. Feste Effekte repräsentieren die mittlere Veränderung über die Zeit. Unter zufälligen Effekten versteht man die individuellen Unterschiede um diese mittleren Veränderungen. Feste und zufällige Effekte werden in LGMs durch Mittelwerte und Varianzen latenter Faktoren modelliert. Das Veränderungsmodell wird hierbei durch festgelegte Ladungen der beobachteten Messwiederholungsvariablen auf den latenten Faktoren bestimmt S. 1017–1029 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_38, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
1018
Florian Schmiedek und Julia K. Wolff
μy0
μy1
μy2 σ(y0,y2)
σ(y0,y1) σ2(y0)
y0 1
σ2(e)
σ(y1,y2)
y1
σ2(y1) 1
1
1
1
2
y2
σ2(y2) 3
1
4
Y1
Y2
Y3
Y4
e1
e2
e3
e4
σ2(e)
σ2(e)
9
σ2(e)
Abb. 1: LGM mit latenten Faktoren für Ausgangsniveau (y0 ), lineare Steigung (y1 ) und quadratische Steigung (y2 ). Rechtecke Y1 –Y4 : beobachtete Variablen zu den Zeitpunkten T1 –T4 ; Kreise: latente Wachstumsfaktoren (y0 –y2 ) und Residualvarianzterme (e1 -e4 ); Einfachpfeile: Faktorladungen; Doppelpfeile: (Ko)-Varianzen; Latente Mittelwerte (μ0 –μ1 ) sind dargestellt als Faktorladungen auf einem konstanten Faktor (Dreieck) (Meredith & Tisak 1990). Durch Verwendung mehrerer latenter Wachstumsfaktoren können komplexe Veränderungsfunktionen, zum Beispiel Polynome unterschiedlicher Ordnung, realisiert werden. In Abbildung 1 ist ein Beispiel für eine Veränderungsfunktion mit Faktoren für Ausgangsniveau (Intercept; y0 ), linearer Steigung (Linear Slope; y1 ) und quadratischer Steigung (Quadratic Slope; y2 ) in der für Strukturgleichungsmodelle üblichen grafischen Darstellungsweise gezeigt. Die beobachteten Variablen Y1 − Y4 laden auf diesen Wachstumsfaktoren. Die Faktorladungen sind, anders als sonst in faktorenanalytischen Modellen üblich, hier in der Regel keine frei zu schätzenden Parameter, sondern erzwingen durch festgelegte Werte eine bestimmte Wachstumsform. Zum Beispiel kann Stabilität der Mittelwerte durch konstante Faktorladungen (z. B. 1, 1, 1, 1 usw.) oder eine lineare Steigung durch über die Messzeitpunkte linear ansteigende Ladungen (z. B. 0, 1, 2, 3 usw.) modelliert werden. Für einen einzelnen Messzeitpunkt ergibt sich im Beispiel daraus die Modellgleichung Yij = λ0j y0i + λ1j y1i + λ2j y2i + eij
(1)
wobei Yij der beobachtete Wert von Person i (aus einer Stichprobe mit n Personen) zu Zeitpunkt j auf der Messwiederholungsvariablen Y ist. λ0j , λ1j und λ2j sind die Ladungen der Variablen Y zum Zeitpunkt j auf den Faktoren y0 , y1 und y2 und eij
38 Latente Wachstumskurvenmodelle
1019
ist ein Residualterm für Person i zum Zeitpunkt j. In Matrizennotation ergibt sich hierfür Y = yλ + e mit ⎡
Y11 · · · ⎢ .. . . Y=⎣ . .
⎤ ⎡ y01 Y14 .. ⎥ , y = ⎢ .. ⎣ . . ⎦
Yn1 · · · Yn4
y11 .. .
y0n y1n
⎡ ⎤ 1 y21 ⎢ ⎥ .. , λ = ⎢1 . ⎦ ⎣1 y2n 1
(2)
0 1 2 3
⎤ ⎡ 0 e11 1⎥ . ⎥ und e = ⎢ ⎣ .. 4⎦ en1 9
⎤ · · · e14 . . .. ⎥ . . ⎦. · · · en4
Da die Wachstumsfaktoren und Residualterme als latente Faktoren modelliert werden, sind die individuellen Werte yij und eij nicht beobachtbar. Für diese werden im Modell Mittelwerte (im Beispiel μ0 , μ1 und μ2 für die Veränderungsfaktoren und 0 für die Residualterme), sowie Varianzen und Kovarianzen geschätzt. Die Mittelwerte und Varianzen der Veränderungsfaktoren entsprechen den festen bzw. zufälligen Effekten. In diesem Beispiel wird für die Residualterme angenommen, dass sie gleiche Varianzen haben und sowohl untereinander als auch mit den Wachstumsfaktoren unkorreliert sind. Den Varianzen der Wachstumsfaktoren entsprechen interindividuelle Unterschiede im Ausgangsniveau und in der Veränderung. Die Kovarianz der beiden Faktoren reflektiert mögliche Zusammenhänge von Ausgangswerten und Veränderungen. Dieses Modell ließe sich äquivalent auch als Mehrebenenmodell formulieren. Dann entsprächen die Faktorladungsmatrix einer Designmatrix X und die Mittelwerte und (Ko-)Varianzen der latenten Faktoren den festen und zufälligen Effekten der korrespondierenden Regressionskoeffizienten. Ein entscheidender Vorteil von LGMs (und Mehrebenenmodellen) gegenüber herkömmlichen Verfahren zur Analyse von Längsschnittdaten, wie der ANOVA oder MANOVA für Messwiederholungen, besteht darin, dass sich die erwartete Kovarianzstruktur der beobachteten Variablen aus einem theoretisch abgeleiteten Veränderungsmodell ergibt. Die Annahme einer bestimmten Anzahl von Wachstumsfaktoren mit bestimmter funktionaler Form lässt sich hier direkt übersetzen in die zu erwartenden (Ko-)Varianzen der beobachteten Variablen. Dagegen muss man sich bei den herkömmlichen Verfahren zwischen den ähnlich unbefriedigenden Alternativen (a) unrealistisch strenger Annahmen in Bezug auf die Kovarianzstruktur (die bei der ANOVA für Messwiederholungen gemacht werden müssen) oder (b) unnötig laxer und mit Verlust an Teststärke verbundener Annahmen beliebiger Kovarianzstrukturen (bei der MANOVA für Messwiederholungen) entscheiden. Zusätzlich können in LGMs flexibel auch komplexere Kovarianzstrukturen implementiert werden, in dem zusätzliche Kovarianzen der Residualterme zugelassen werden – theoriegeleitet oder als empirisch begründete Post-hoc-Modifikationen. Ein weiterer Vorteil von LGMs (und Mehrebenenmodellen) gegenüber ANOVA und MANOVA ist die Möglichkeit, Datensätze mit unvollständigen Beobachtungen zu analysieren. Die Untersuchung von Längsschnittdaten muss also nicht auf Fälle, für die Beobachtungen zu allen Messzeitpunkten vorliegen, beschränkt bleiben, sondern bezieht sich auf alle Fälle, für die Daten zu mindestens einem Zeitpunkt vorhanden sind.
1020
Florian Schmiedek und Julia K. Wolff
Dies führt zu einer mitunter deutlich verbesserten Effizienz und geringerer Verzerrung der Schätzung der Veränderungsprozesse. Während die bisher genannten Punkte für LGMs und Mehrebenenmodelle gleichermaßen gelten und diese beiden Verfahren grundsätzlich große Ähnlichkeiten aufweisen (siehe Curran 2003), lassen sich zum gegenwärtigen Zeitpunkt jedoch auch Unterschiede zwischen LGMs und Mehrebenenmodellen feststellen. Mit diesen Unterschieden gehen (zumindest im Vergleich mit den Implementationen von Mehrebenenanalysen in weit verbreiteten Softwarepaketen wie SPSS, SAS oder HLM) eine Reihe von Vorteilen im Sinne größerer Flexibilität von LGMs einher. Da sie im Rahmen von SEMs formuliert werden, eröffnen sich für LGMs eine Menge von SEM-spezifischen und auch im Kontext von Längschnittanalysen interessanten Möglichkeiten. Dazu gehören unter anderem die Möglichkeit, multivariate Veränderungsprozesse in einem Modell zu implementieren und miteinander in Beziehung zu setzen, die Überprüfung von Kausalhypothesen mit Pfadmodellen und die gemeinsame Untersuchung von Gruppen mit partiell unterschiedlichen Veränderungsmodellen im Rahmen von Mehrgruppenanalysen. In diesem Zusammenhang ist auch die Möglichkeit zu nennen, den Veränderungsprozess statt auf beobachtete Variablen auf Faktoren, die durch ein Messmodell mit mehreren Indikatorvariablen definiert werden, zu beziehen. Ein Beispiel für solch ein Curves-of-factors-Modell (Duncan et al. 2006) ist in Abbildung 2 dargestellt. Diese Vorgehensweise ermöglicht die Untersuchung von Veränderungsprozessen auf der Ebene von durch latente Faktoren operationalisierten und von Messfehlern bereinigten theoretischen Konstrukten. Wichtig ist hierbei, dass für das Messmodell über die Zeitpunkte hinweg Messinvarianz (measurement invariance) gezeigt werden kann (Meredith & Horn 2001). Dies bedeutet, dass Faktorladungen und Intercepts sowie idealerweise auch Fehlervarianzen über die Messzeitpunkte im Modell als gleich angenommen werden. Alternativ zu Curves-of-factors-Modellen können auch Factors-of-curves-Modelle Verwendung finden, in denen mehrere latente Wachstumsfaktoren für verschiedene Messwiederholungsvariablen mittels Faktoren höherer Ordnung zusammengefasst werden (Duncan et al. 2006). Eine im Rahmen von SEMs mögliche Formulierung von LGMs, die eine Reihe von interessanten Erweiterungen ermöglicht, sind Latent change score models (LCMs; McArdle 2009). In diesen werden Veränderungen von einem Zeitpunkt zum nächsten direkt einer flexiblen Modellierung zugänglich gemacht. Dies gelingt, indem diese Veränderungen als latente Variablen durch die Modellgleichung yj = yj−1 + Δyj (wegen Δyj = yj − yj−1 ) definiert werden. Die latenten Veränderungsfaktoren können dann zum einen auf latenten Wachstumsfaktoren laden und damit LGMs entsprechen (Modell 3A). Zum anderen bieten sie alternativ oder zusätzlich auch die Möglichkeit der Hinzunahme von proportionalen Veränderungskoeffizienten (β in Abbildung 3 b), welche eine Abhängigkeit der Veränderungen vom Ausgangswert zum jeweils vorherigen Zeitpunkt repräsentieren. Solche sequentiellen Abhängigkeiten zwischen aufeinander folgenden Messzeitpunkten können für viele inhaltliche Fragestellungen relevant sein, z. B. wenn kompensatorische Mechanismen dazu führen, dass auf relativ niedrige Schulleistungen zu einem Zeitpunkt mit stärkeren Anstrengungen und entsprechend stärker positiven Veränderungen bis zum nächsten Zeitpunkt reagiert wird. Die Über-
38 Latente Wachstumskurvenmodelle
μy0
1021
μy1
σ(y0,y1) σ2(y0)
y0 1
σ2(y1) 1
1
y1 1
2
f1
f2
f3
YA1 YB1 YC1
YA2 YB2 YC2
YA3 YB3 YC3
eA
eA
eB
eC
eB
eC
eA
eB
eC
Abb. 2: Curves-of-factors-Modell mit Veränderungsmodell für latente Faktoren, welche wiederum durch ein Messmodell mit den beobachteten Variablen YA , YB , und YC definiert sind einstimmung des Modells in Abbildung 3 a mit einem linearen LGM besteht darin, dass auch hier ein Interceptfaktor y0 und ein linearer Wachstumsfaktor y1 angenommen wird. Der Interceptfaktor bestimmt die Ausgangswerte zu T1 , welche, vermittelt über die auf 1 fixierten autoregressiven Pfade zwischen den benachbarten Messzeitpunkten, die beobachteten Werte zu allen Zeitpunkten gleichermaßen beeinflussen. Der Wachstumsfaktor y1 bestimmt ein lineares Veränderungsmodell, da er zu jeder Veränderung (Δy2 − Δy4 ) zwischen zwei Zeitpunkten einen konstanten Betrag hinzufügt. 2 Mathematisch-statistische Grundlagen Die Schätzung von LGMs und LCMs geschieht im Rahmen von SEMs. Das bedeutet, dass Parameter in der Regel mit Full Information Maximum Likelihood (FIML) und iterativen Optimierungsverfahren geschätzt werden (siehe Kapitel 10 in diesem Handbuch). Als Voraussetzungen gelten daher auch die üblichen Annahmen von (zwischen Individuen) unabhängigen und multivariat normalverteilten beobachteten Variablen. Bei Abweichungen von der Normalverteilungsannahme, zum Beispiel bei kategorial oder ordinal verteilten Variablen, können auch alternative Schätzer (z. B. der WLSMV-Schätzer in MPlus; siehe Muthén et al. 1997) verwendet werden. Für abhängige Datenstrukturen, zum Beispiel hierarchische Strukturen mit Schülern in
1022
Florian Schmiedek und Julia K. Wolff
A
B μy1
μy1
μy0
μy0
σ(y0,y1) σ2(y0)
σ(y0,y1)
σ2(y1)
y0
y1
1
ω2
1
y1
Y1
Y2
e1 σ2(e)
y2
1
1
e3 σ2(e)
(a) Modell A
*
y1
Y4
Y1
y4
e4 σ2(e)
*
y2
*
*
1 1
Y3
e2 σ2(e)
y3
Δy4 β
1 1
Y2
e1 σ2(e)
1
ω2
Δy3 β
1 1
1
ω2
Δy2 β
1
*
Y3
e2 σ2(e)
y3
ω2
1
Δy4
1
*
y1
1
ω2
Δy3
1 1
σ2(y1)
y0
1
ω2
Δy2
*
1
σ2(y0)
Y4
e3 σ2(e)
y4*
e4 σ2(e)
(b) Modell B
Abb. 3: Latent Change Score-Modell: Veränderungen zwischen den Zeitpunkten werden durch latente Veränderungsfaktoren (Δy2 − Δy4 ) modelliert, die wiederum durch den Ausgangsniveaufaktor y0 und den Veränderungsfaktor y1 mit konstanten Ladungen einem linearen Wachstumsmodell folgen (Modell A). In Modell A ist zusätzlich eine proportionale Veränderung (β) eingefügt, welche eine lineare Abhängigkeit der Veränderungen von den Ausgangswerten des vorherigen Zeitpunktes ausdrückt. Weiterhin werden in beiden Modellen messzeitpunktspezifische Einflüsse angenommen, welche von einer Residualvarianz ω 2 der Veränderungsfaktoren repräsentiert werden. Klassen, gibt es Möglichkeiten, diese auch im Rahmen von LGMs zu berücksichtigen (z. B. mit der TWOLEVEL-Option in MPlus; siehe Muthén 1994), wodurch die Übereinstimmung der Möglichkeiten von LGMs und Mehrebenenmodellen noch einmal erhöht wird. Durch den Einsatz von FIML-Schätzverfahren ist es möglich, dass nicht jedes Individuum Daten zu allen Messzeitpunkten aufweist. Dadurch können, anders als mit ANOVA und MANOVA, auch Längsschnittdatensätze selbst mit hohen Drop-outRaten vollständig in die Analysen einbezogen werden. Ist der Datenausfallprozess unabhängig sowohl von den beobachteten als auch von den nicht beobachteten Werten („missing completely at random“, MCAR), führt dieser einzig zu einer Reduktion der statistischen Power. Hängt der Ausfallprozess mit den beobachteten Werten zusammen („missing at random“, MAR), etwa durch eine Abhängigkeit des Ausfallprozesses von den Ausgangswerten zum ersten Messzeitpunkt, so ermöglicht die FIML-Schätzung eine Kontrolle dieses Zusammenhanges und damit eine unverzerrte Schätzung der
38 Latente Wachstumskurvenmodelle
1023
Veränderungsverläufe. Selbst für den problematischeren Fall, dass der Ausfallprozess auch von den nicht beobachteten Werten selbst abhängig ist („missing not at random“, MNAR), kann gezeigt werden, dass die Verwendung aller vorhandenen Daten mit FIML-Schätzverfahren zu besseren Schätzungen der Populationsparameter führt, als eine Reduktion der Stichprobe auf die Fälle mit beobachteten Werten zu allen Messzeitpunkten (Schafer & Graham 2002). Durch die Tolerierung von fehlenden Werten im FIML-Ansatz entstehen auch flexible Möglichkeiten, die Zeitdimension auf verschiedene Weise zu definieren. So kann zum Beispiel in längsschnittlichen Untersuchungen mit altersheterogenen Ausgangsstichproben das chronologische Alter (z. B. gerundet auf ganze Jahre) als Zeitdimension gewählt werden. Das kann zwar zu Datensituationen mit sehr niedrigen Beobachtungshäufigkeiten für die einzelnen Altersstufen führen, erlaubt aber die Schätzung von altersgradierten Veränderungsprozessen. Wie im empirischen Beispiel dieses Beitrags demonstriert, können auch andere Skalierungen der Zeitdimension vorgenommen werden, etwa die Zeit bis zu bzw. seit einem bestimmten Ereignis. Für die mittels Faktorladungen festgelegten Wachstumsfaktoren werden in der Regel Polynome, d. h. lineare und quadratische, selten auch Polynome höherer Ordnung verwendet. Es ist allerdings möglich, auch andere theoretisch motivierte nichtlineare Wachstumsverläufe, wie etwa Exponentialfunktionen oder Stufenfunktionen, zu verwenden. Weiterhin können prinzipiell auch Faktoren mit frei zu schätzenden Faktorladungen eingesetzt werden. Dies führt zu einer den empirischen Daten optimal angepassten Wachstumsform (McArdle & Bell 2000). Mittels der aus der ML-Schätzung resultierenden Log-Likelihood können Vergleichstests geschachtelter Modelle durchgeführt werden, etwa darauf, ob das Hinzunehmen eines quadratischen Veränderungsfaktors die Modellpassung signifikant verbessert. Wie bei Strukturgleichungsmodellen im Allgemeinen (siehe Kapitel 29 in diesem Handbuch), lassen sich für LGMs auch Fitindizes der absoluten Modellpassung (wie zum Beispiel CFI, RMSEA oder SRMR) ermitteln. Diese geben Auskunft, wie gut das gewählte Veränderungsmodell die beobachteten Daten erklärt und können damit auf notwendige Modifikationen des Modells hinweisen. Grundsätzlich ist hierbei jedoch zu beachten, dass gute Modellpassung nicht zwangsläufig die Richtigkeit des postulierten Modells belegt. Wie auch sonst in der Statistik üblich, ist die Betrachtung der Passung von Modellen besonders aussagekräftig, wenn verschiedene theoretisch begründete Modelle miteinander verglichen werden. Die Schätzungen für einzelne Parameter können inferenzstatistisch mittels Standardfehlern und daraus abgeleiteten Wald-Tests beurteilt werden. Alternativ können für einzelne Parameter auch Likelihoodquotiententests berechnet werden, indem Vergleichsmodelle geschätzt werden, in denen der zu testende Parameter auf Null fixiert wird. Letztere Vorgehensweise ist vor allem bei kleinen bis mittelgroßen Stichproben angeraten (Gonzalez & Griffin 2001). Hierbei ist zu beachten, dass bei Tests für Varianzen der Veränderungsfaktoren (also Tests, ob reliable interindividuelle Unterschiede in den Veränderungen vorliegen) sowohl die entsprechende Faktorvarianz als auch Kovarianzen des Faktors mit anderen Faktoren auf Null gesetzt werden müssen, woraus Tests mit mehreren Freiheitsgraden resultieren können. Des Weiteren muss berücksichtigt werden, dass die Verwendung von Likelihoodquotiententests eine Anpassung der kriti-
1024
Florian Schmiedek und Julia K. Wolff
schen Werte erfordert, wenn die Vergleichshypothese mit einer Parameterrestriktion am Rande des theoretisch möglichen Parameterbereiches verbunden ist (also z. B. ein Modell mit auf Null fixierter Faktorvarianz; siehe Stoel et al. 2006). Da LGMs als SEMs formuliert und geschätzt werden, kommen für praktische Anwendung prinzipiell auch alle Programme, mit denen sich SEMs mit FIML schätzen lassen, in Frage, zum Beispiel MPlus (Muthén & Muthén 2006), Mx (Neale et al. 2003), AMOS (Arbuckle 2006) oder LISREL (Jöreskog & Sörbom 1997). Unterschiede der Programme in Bezug auf die angebotenen Optionen (zum Beispiel nichtlineare constraints, Latent Class-Analysen oder die Möglichkeit der Modellierung von kategorialen und ordinalen Variablen) sind häufig allerdings auch für den Einsatz von LGMs relevant und können die mögliche Auswahl daher einschränken.
3 Beispiel: Entwicklung von Lebenszufriedenheit nach Arbeitsplatzverlust Im folgenden Beispiel greifen wir eine von Lucas et al. (2004) mit Daten des SozioÖkonomischen Panels (SOEP) der Jahre 1984 bis 1999 bearbeitete Fragestellung zur Auswirkung des Ereignisses Arbeitsplatzverlust auf die allgemeine Lebenszufriedenheit auf. Das SOEP ist eine längsschnittliche Studie mit deutschen Haushalten, die seit 1984 jährlich durchgeführt wird und inzwischen über 11.000 Haushalte und damit über 20.000 Personen in Deutschland umfasst (Wagner et al. 2007). Lucas et al. (2004) untersuchten, ob sich, in Übereinstimmung mit der Set-Point-Theorie des subjektiven Wohlbefindens, die Lebenszufriedenheit nach dem Arbeitsplatzverlust wieder an das Niveau vor dem Ereignis anpasst oder ob es zu länger anhaltenden Veränderungen in der Lebenszufriedenheit kommt. Um diese Fragestellung zu beantworten, wurde eine Teilstichprobe des SOEP ausgewählt mit Personen, die zunächst erwerbstätig waren, dann eine gewisse Zeit arbeitslos waren und anschließend wieder eine Beschäftigung fanden. Das Ausgangsniveau wurde mit den Lebenszufriedenheitsmaßen aus 2 Jahren vor der Arbeitslosigkeit gemessen. Um die Reaktion auf die Arbeitslosigkeit zu messen, wurden das Jahr vor, das Jahr während, die Jahre nach dem Ereignis und das erste Jahr nach der Erlangung der Wiederbeschäftigung verwendet. Die sich anschließenden Jahre im Beschäftigungsverhältnis wurden als Adaptationsphase beschrieben, in der sich die Lebenszufriedenheit laut Set-Point-Theorie wieder an das Niveau vor der Arbeitslosigkeit anpassen sollte. Das berechnete Multilevelmodell zeigt, dass die Lebenszufriedenheit als Reaktion auf den Arbeitplatzverlust abnahm. Für Männer und für Personen, die länger als ein Jahr arbeitslos waren, war diese Abnahme stärker ausgeprägt. Auch bei wieder gewonnener Erwerbstätigkeit bestand noch ein signifikanter Unterschied zum Ausgangsniveau. Zudem konnte kein positiver linearer Trend, welcher auf zukünftige Anpassungsleistungen schließen ließe, nachgewiesen werden. Demzufolge scheint der Arbeitsplatzverlust den Set-Point der Lebenszufriedenheit zu verändern. Auch nach Wiedererlangung einer Beschäftigung passte sich das Niveau der Lebenszufriedenheit nicht wieder an das Ausgangsniveau an. In Abbildung 4 ist dargestellt, wie sich ein ähnliches Modell mit einem LCM umsetzen lässt. Prinzipiell ließe sich das Modell auch als LGM formulieren, im LCM wird
38 Latente Wachstumskurvenmodelle
1025
μy0 μy1
μy2 μΔy4
σ2(y0)
y1
y0 1 1
ω12
Δy2
ω12
1
y1*
1
Y1
1
Δy3
y 3*
ω22
1
y 4*
1
1
y 5*
Δy6
1
ω12
y6*
1
y7* Y7
e6 σ2(e)
Δy7 1
Y6
e5 σ2(e)
1
1
Y5
e4 σ2(e)
Δy5
ω12
1
Y4
e3 σ2(e)
Δy4
ω12
1
Y3
e2 σ2(e)
1
1
Y2
e1 σ2(e)
y2*
y2
σ(y0,Δy4) 1
e7 σ2(e)
Beginn der Arbeitslosigkeit
Abb. 4: Latent change score-Modell für Veränderungsprozesse vor und nach Arbeitsplatzverlust. Veränderungen von einem jährlichen Zeitpunkt zum nächsten sind durch Veränderungsfaktoren Δyi modelliert. jedoch besonders gut erkennbar, wie sich die Veränderungen von einem Zeitpunkt zum nächsten zu verschiedenen Phasen und damit assoziierten Einflüssen zusammenfassen lassen. Das Modell setzt sich aus der beobachteten Lebenszufriedenheit zu drei jährlichen Zeitpunkten vor (Y1 − Y3 ) und zu vier jährlichen Zeitpunkten nach dem Arbeitsplatzverlust (Y4 − Y7 ) sowie vier zentralen Faktoren zusammen, welche unterschiedliche Phasen der Zeit vor und nach dem Arbeitsplatzverlust beeinflussen. Individuelle Ausgangswerte werden mit dem Faktor y0 erfasst. Weiterhin gibt es zwei Phasen, für die ein lineares Veränderungsmodell angenommen wird, und zwar für die Phase vor dem Verlust des Arbeitsplatzes (Y1 −Y3 ) und die Phase danach (Y4 −Y7 ). Der Einfluss des Arbeitsplatzverlustes selbst wird dadurch modelliert, dass für den latenten Veränderungsfaktor Δy4 ein eigener Mittelwert und eine eigene Varianz geschätzt werden. Die hier untersuchte Teilstichprobe umfasst 499 Männer und 497 Frauen aus Westdeutschland, die zwischen 1984 und 2007 am SOEP teilnahmen und das Ereignis des Arbeitsplatzverlustes erfahren haben. Die Zeit nach Wiedererlangen einer Beschäftigung wurde hier nicht mit aufgenommen. Aus jedem Ursprungshaushalt wurde nur eine zufällig gezogene Person betrachtet, um eine abhängige Datenstruktur zu vermeiden. Der Arbeitsplatzverlust wurde mittels des Erwerbsstatus zum Erhebungszeitpunkt erfasst. Das heißt, das Ereignis wurde als eingetreten gewertet, wenn die Person sich im vorliegenden Jahr als erwerbslos einschätzte, nachdem in mindestens einem Jahr
1026
Florian Schmiedek und Julia K. Wolff
eine Voll- oder Teilzeitbeschäftigung bestand. Um zu vermeiden, den Eintritt in das Rentenalter als Arbeitsplatzverlust zu werten, wurden nur Personen im Alter von 17 bis 60 Jahren in die Analysen eingeschlossen. Die Lebenszufriedenheit wurde jedes Jahr mit einem Item „Wie zufrieden sind Sie, alles in allem, gegenwärtig mit Ihrem Leben“ auf einer Skala von 0 (ganz und gar unzufrieden) bis 10 (ganz und gar zufrieden) eingeschätzt. Das in Abbildung 4 dargestellte Ausgangsmodell, in dem die beiden linearen Wachstumsfaktoren nur einen Mittelwert, aber keine Varianz haben, hat einen guten Modellfit, sowohl für Männer (χ2 [26] = 44,06; CFI= 0,98; RMSEA = 0,04; SRMR = 0,09) als auch für Frauen (χ2 [26] = 50,12; CFI = 0,97; RMSEA = 0,04; SRMR = 0,13). Das Zulassen von Varianzen der beiden linearen Wachstumsfaktoren verbessert den Fit nicht signifikant, bzw. führt zu negativen Varianzschätzungen, einem häufigen Zeichen für zu komplexe Modelle mit zu vielen Parametern. In Tabelle 1 sind die Ergebnisse der einzelnen Parameterschätzungen zusammengefasst. Sowohl für Frauen als auch für Männer hat der Arbeitsplatzverlust einen signifikanten negativen Effekt auf die Lebenszufriedenheit. Diesem geht bei den Männern eine signifikante lineare negative Veränderung über die Jahre vor dem Arbeitsplatzverlust voraus. Dieser Effekt zeigt sich bei den Frauen nicht. In den Jahren der Arbeitslosigkeit lässt sich für beide Gruppen keine signifikante mittlere Veränderung nachweisen. Die Varianz des Veränderungsfaktors zum Zeitpunkt des Arbeitsplatzverlustes bedeutet, dass individuelle Unterschiede des Effektes auf die Lebenszufriedenheit für beide Geschlechter bestehen. Ausgehend von diesem Modell, welches zunächst einmal eine gut passende und interpretierbare Beschreibung von mittleren Veränderungen und interindividuellen Unterschieden in diesen darstellt, könnten nun eine Reihe von Modifikationen und Erweiterungen des Modells vorgenommen werden. So könnte zum Beispiel in einem Mehrgruppenmodell geprüft werden, welche Parameter des Modells sich signifikant zwischen den beiden Gruppen unterscheiden. Weiterhin könnten zusätzliche Variablen ins Modell aufgenommen werden, welche mit den interindividuellen Unterschieden in der Auswirkung des Arbeitsplatzverlustes in Beziehung gesetzt werden.
4 Häufige Fehler Wie allgemein in SEMs, kann auch in LGMs eine unbefriedigende Modellpassung des theoretisch postulierte Modells dazu verleiten, datengetriebene Modifikationen zur Verbesserung der Modellpassung vorzunehmen. Solche Suchprozesse zur Identifikation eines befriedigenden Veränderungsmodells für gegebene empirische Längsschnittdaten sind nicht grundsätzlich negativ zu beurteilen. Es ist jedoch vorteilhaft, a priori eine Sequenz von theoretisch begründeten Modellen zunehmender Komplexität zu formulieren, um der Zahl möglicher Modifikationen Grenzen zu setzen. Außerdem müssen Fit-Indizes für anhand empirischer Ergebnisse modifizierte Modelle mit Vorsicht interpretiert werden. Ebenfalls in Übereinstimmung mit allgemeinen Prinzipien der Anwendung von SEMs muss die kausale Interpretation von gerichteten Pfadkoeffizienten in LGMs, also zum Beispiel von einer Prädiktorvariable auf einen Veränderungsfaktor, mit der
38 Latente Wachstumskurvenmodelle
1027
Tab. 1: Parameterschätzungen (mit Standardfehlern und Wald Z-Test) für das Veränderungsmodell Männer Parameter (S.E.) Mittelwerte Interceptfaktor y0 Wachstumsfaktor y1 Veränderungsfaktor Δy4 Wachstumsfaktor y2 Varianzen Interceptfaktor y0 Veränderungsfaktor Δy4 Veränderungsfaktoren Δy2 − Δy3 , Δy5 − Δy7 Residualterme Kovarianz Interceptfaktor y0 Veränderungsfaktor Δy4
Frauen Z
p
Parameter (S.E.)
Z
p
7,214 −0,260 −0,220 −0,040
(0,087) 82,55 0,00 (0,048) 5,43 0,00 (0,086) 2,55 0,01 (0,044) 0,92 0,36
7,272 −0,037 −0,227 0,004
1,870 0,788 0,247
(0,174) 10,75 0,00 (0,170) 4,63 0,00 (0,071) 3,49 0,00
1,177 0,604 0,369
(0,136) (0,157) (0,071)
1,675
(0,077) 21,77 0,00
1,514
(0,073) 20,88 0,00
−0,211
(0,129)
1,64 0,10
−0,101
(0,082) 89,06 0,00 (0,050) 0,75 0,45 (0,081) 2,80 0,01 (0,040) 0,10 0,93
(0,111)
8,66 0,00 3,84 0,00 5,21 0,00
0,91 0,37
Einschränkung vorgenommen werden, dass nur die Plausibilität einer Kausalhypothese und nicht deren Richtigkeit geprüft wird. Zwar bieten Längsschnittdaten durch die Möglichkeit, die zeitliche Ordnung von Variablen in Pfadmodellen zu berücksichtigen, eine bessere Grundlage für Kausalinterpretationen als Querschnittsdaten. Ohne das Vorliegen von experimentell manipulierten Variablen bestehen jedoch immer potentielle Alternativerklärungen durch Effekte von weiteren, nicht erfassten Variablen. Häufig wird versucht, mit multivariaten LGMs zu untersuchen, ob individuelle Unterschiede in den Veränderungen verschiedener Variablen systematisch miteinander zusammenhängen, das heißt, ob zum Beispiel die linearen Steigungsfaktoren zweier Veränderungsprozesse miteinander korrelieren. Die statistische Power zur Erfassung von reliablen interindividuellen Unterschieden in Veränderungsfaktoren und damit auch zur Erfassung von Korrelationen mehrerer solcher Faktoren, ist jedoch häufig erstaunlich gering (Hertzog et al. 2006, 2008). Hier bieten bivariate Dual Change Score-Modelle (McArdle & Hamagami 2001), welche eine Erweiterung der besprochenen LCMs sind, eine Alternative, bei der Veränderungen in einer Variable mit Ausgangswerten einer anderen Variable zum vorherigen Zeitpunkt vorhergesagt werden. Berücksichtigt man die Forderung, das sich entwickelnde Individuum als primäre Analyseebene von Längsschnittuntersuchungen zu betrachten, so bieten LGMs und andere im Rahmen von SEMs oder Mehrebenenanalysen implementierbare Modelle einerseits im Vergleich zu herkömmlichen Verfahren hervorragende Möglichkeiten, individuelle Unterschiede über Varianzen von Veränderungsfaktoren zu berücksichtigen. Andererseits werden auf diese Weise individuelle Unterschiede immer nur als quantitative Abweichungen von einem allgemeinen Veränderungsmodell und seinen festen Effekten betrachtet. Individuen können aber auch qualitativ unterschiedliche
1028
Florian Schmiedek und Julia K. Wolff
Veränderungsfunktionen aufweisen. Neuere Entwicklungen mit Latent mixture models versprechen hier flexiblere Möglichkeiten, indem für jedes Individuum die Zugehörigkeit zu latenten Klassen mit verschiedenen Veränderungsmodellen geschätzt werden kann. Hierzu ist kritisch angemerkt worden, dass es durch Verletzungen von Verteilungsannahmen zur Identifikation scheinbarer latenter Klassen kommen kann, wenn in Wirklichkeit nur ein Veränderungsprozess existiert (Curran 2003). Zusammenfassend lässt sich sagen, dass die Modellierung von Veränderungsprozessen mit SEM-Methoden vielfältige flexible Möglichkeiten bietet, auch komplexe theoretische Modelle praktisch umzusetzen. Zu den wichtigen Fragen wie gut die anschließenden Schätzprozesse gelingen, welche Rolle dabei Abhängigkeiten zwischen verschiedenen Modellparametern spielen und wie mit möglichen Schätzproblemen durch empirische Unteridentifikation (d. h. unzureichende Datengrundlage für theoretisch identifizierte Modelle) umzugehen ist, ist für die jetzt möglichen komplexen Modelle leider noch recht wenig bekannt.
5 Literaturempfehlungen Eine kurze und aktuelle Einführung in Latente Wachstumskurvenmodelle bietet die Monografie von Preacher et al. (2008). Eine umfangreichere Darstellung, welche auch komplexere Erweiterungen wie z.B. Latent Mixture Models und Syntaxbeispiele umfasst, findet sich in Duncan et al. (2006). Latent Change Score-Modelle werden in dem Kapitel von McArdle (2009) im Annual Review of Psychology eingeführt. Das Herausgeberwerk von Collins & Sayer (2001) bietet eine Reihe von Kapiteln für Fortgeschrittene zu methodischen Fragestellungen im Rahmen von Latenten Wachstumskurvenmodellen und deren Erweiterungen.
Literaturverzeichnis Arbuckle, J. L. (2006). Amos (Version 7.0). Chicago: SPSS. Collins, L. M. & Sayer, A. G. (2001). New Methods for the Analysis of Change. Washington DC: American Psychological Association. Curran, P. J. (2003). Have Multilevel Models been Structural Equation Models all along? Multivariate Behavioral Research, 38, 529–569. Duncan, T. E., Duncan, S. C., & Strycker, L. A. (2006). An Introduction to Latent Variable Growth Curve Modeling. Mahwah: Erlbaum. Gonzalez, R. & Griffin, D. (2001). Testing Parameters in Structural Equation Modeling: Every "One" Matters. Psychological Methods, 6, 258–269. Hertzog, C., Lindenberger, U., Ghisletta, P., & von Oertzen, T. (2006). On the Power of Multivariate Latent Growth Curve Models to Detect Correlated Change. Psychological Methods, 11, 244–252. Hertzog, C., von Oertzen, T., Ghisletta, P., & Lindenberger, U. (2008). Evaluating the Power of Latent Growth Curve Models to Detect Individual Differences in Change. Structural Equation Modeling, 15, 541–563.
38 Latente Wachstumskurvenmodelle
1029
Jöreskog, K. G. & Sörbom, D. (1997). LISREL 8: User’s Reference Guide. Lincolnwood: Scientific Software. Lucas, R. E., Clark, A. E., Georgellis, Y., & Diener, E. (2004). Unemployment Alters the Setpoint for Life Satisfaction. Psychological Science, 15, 8–13. McArdle, J. J. (2009). Latent Variable Modelling of Differences and Changes with Longitudinal Data. Annual Review of Psychology, 60, 577–605. McArdle, J. J. & Bell, R. Q. (2000). An Introduction to Latent Growth Models for Developmental Data Analysis. In T. D. Little, K. U. Schnabel, & J. Baumert (Hg.), Modeling Longitudinal and Multilevel Data: Practical Issues, Applied Approaches, and Specific Examples (S. 69–107). Mahwah: Erlbaum. McArdle, J. J. & Hamagami, F. (2001). Linear Dynamic Analyses of Incomplete Longitudinal Data. In L. Collins & A. Sayer (Hg.), Methods for the Analysis of Change (S. 139–175). Washington: American Psychological Association. Meredith, W. & Horn, J. (2001). The Role of Factorial Invariance in Modeling Growth and Change. In L. M. Collins & A. G. Sayer (Hg.), New Methods for the Analysis of Change. Washington, DC: American Psychological Association. Meredith, W. & Tisak, J. (1990). Latent Curve Analysis. Psychometrika, 55, 107–122. Muthén, B. O. (1994). Multilevel Covariance Structure Analysis. Sociological Methods Research, 22, 367–398. Muthén, B. O., du Toit, S. C., & Spisic, D. (1997). Robust Inference Using Weighted Least Squares and Quadratic Estimating Equations in Latent Variable Modeling with Categorical and Continuous Outcomes. Letzter Zugriff 29.03.2010: http://www.gseis.ucla.edu/ faculty/muthen/articles/Article_075.pdf. Muthén, L. & Muthén, B. O. (2006). Mplus User’s Guide. Los Angeles: Muthén & Muthén, 5. Auflage. Neale, M. C., Boker, S. M., Xie, G., & Maes, H. H. (2003). Mx: Statistical Modeling. Richmond: Department of Psychiatry, 6. Auflage. Preacher, K. J., Wichmann, A. L., MacCallum, R. C., & Briggs, N. E. (2008). Latent Growth Curve Modeling. Thousand Oaks: Sage. Schafer, J. L. & Graham, J. W. (2002). Missing Data: Our View of the State of the Art. Psychological Methods, 7, 147–177. Schmiedek, F. & Lindenberger, U. (2007). Methodologische Grundlagen. In J. Brandstädter & U. Lindenberger (Hg.), Lehrbuch zur Entwicklungspsychologie der Lebensspanne (S. 67–96). Stuttgart: Kohlhammer. Stoel, R. D., Garre, F. G., Dolan, C., & van den Wittenboer, G. (2006). On the Likelihood Ratio Test in Structural Equation Modeling when Parameters are Subject to Boundary Constraints. Psychological Methods, 11, 439–455. Wagner, G. G., Frick, J. R., & Schupp, J. (2007). The German Socio-Economic Panel Study (SOEP) - Scope, Evolution and Enhancements. Schmollers Jahrbuch, 127, 139–169.
39 Sequenzdatenanalyse Stefani Scherer und Josef Brüderl∗ a b
Università degli Studi di Trento Universität Mannheim
Zusammenfassung. Eine Sequenz ist eine geordnete Liste von Elementen. Auch Lebensverläufe lassen sich als Sequenz darstellen, denn das Leben ist eine zeitlich geordnete Abfolge von Zuständen. Die Sequenzdatenanalyse stellt Verfahren zur Beschreibung und Analyse von Sequenzen/Lebensverläufen zur Verfügung. In diesem Beitrag führen wir in die grundlegenden Konzepte der Sequenzdatenanalyse ein. Wir stellen das meist verwendete Verfahren zur Berechnung der Distanz von Sequenzen (Optimal Matching) vor und erläutern, wie man darauf aufbauend Sequenzen typisieren kann. Auch einige neuere, alternative Verfahren werden kurz diskutiert. Ein ausführliches Anwendungsbeispiel zum Arbeitsmarkteintritt deutscher Männer und Frauen demonstriert die einzelnen Schritte einer Sequenzdatenanalyse und führt das Potential dieser Verfahren vor Augen.
1 Einführung in die Sequenzdatenanalyse Mit der zunehmenden Verfügbarkeit von Längsschnittdaten wächst naturgemäß auch die Nachfrage nach geeigneten statistischen Verfahren. Längsschnittdaten bieten im Vergleich zu Querschnittsdaten den Vorteil, die Untersuchungseinheit zu mehreren Zeitpunkten zu beobachten. Dies erlaubt eine wesentlich adäquatere Analyse altbekannter Fragestellungen, aber auch die Bearbeitung gänzlich neuer Fragestellungen. Die Mehrzahl der Analysen von Längsschnittdaten verwenden Verfahren der Ereignisdatenoder der Paneldatenanalyse. Bei der Paneldatenanalyse (siehe Kapitel 36 in diesem Handbuch) liegen mehrere Beobachtungen desselben Individuums vor, und die zeitliche Ordnung der Ereignisse ist bekannt. Deshalb sind (Kausal-)Schlüsse mit höherer Sicherheit als in einer Querschnittsregression möglich. Bei der Ereignisdatenanalyse (siehe Kapitel 37 in diesem Handbuch) betrachtet man die verursachenden Prozesse bestimmter Ereignisse. Als Ereignis bezeichnet man den Übergang zwischen verschiedenen Statuszuständen (also zum Beispiel der Übergang von der Erwerbstätigkeit in die Arbeitslosigkeit, die Geburt des ersten Kindes usw.). Diese Herangehensweisen „zerlegen“ jedoch den Lebensverlauf in einzelne Ereignisse und verlieren damit die Sequenz als Ganzes aus dem Auge. Genau hier setzt die Sequenzdatenanalyse an. Sie betrachtet den Lebensverlauf in seiner Komplexität als geordnete, sequenzielle Abfolge von Statuszuständen und ermöglicht somit die holistische Bearbeitung verschiedener Fragestellungen. Als gegen Ende der 1980er ∗
Wir danken Ulrich Kohler und den beiden Reviewern für hilfreiche Kommentare.
S. 1031–1051 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_39, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
1032
Stefani Scherer und Josef Brüderl
Jahre die Sequenzdatenanalyse auch für sozialwissenschaftliche Fragestellungen eingeführt wurde (den „Durchbruch“ brachte eine Anwendung auf die Lebensverläufe von deutschen Musikern des 18. Jahrhunderts von Abbott & Hrycak 1990), wurde darin sogar das Potenzial für einen Paradigmenwechsel in der empirischen Sozialforschung gesehen: weg vom Standardansatz des „variable paradigm“, hin zu einer stärkeren Berücksichtigung des Kontextes, der verknüpfenden Verbindungen und der zeitlichen Abfolge von Ereignissen (Abbott 1992). Wir können hier nicht weiter auf diese mehr epistemologischen Aspekte eingehen, sondern beschränken uns im Folgenden auf die Darstellung der praktischen und inhaltlichen Aspekte der Sequenzdatenanalyse. Die Sequenzdatenanalyse fand bislang innerhalb der soziologischen Forschung vor allem im Bereich der Lebensverlaufsforschung Anwendung. Unser Beispiel rekrutiert sich daher auch aus diesem Bereich. Typische Fragestellungen für die Sequenzdatenanalyse in der Soziologie sind die Folgenden: Welche Typen von (Lebens-) Verläufen gibt es? Wie homogen sind die Lebensverläufe einer Gruppe? Wie wirken sich der historische und soziale Kontext auf Lebensverläufe als Ganzes aus? Kam es tatsächlich zu einer Pluralisierung der Lebensverläufe? Die Mehrzahl der bisherigen Anwendungen konzentriert sich auf Berufs- und Familienverläufe. Mit der Implementierung eines Sequenzdatenanalyse-Moduls in Stata durch das Autorenteam um Ulrich Kohler (vgl. Brzinsky-Fay et al. 2006) wurde die praktische Umsetzung dieser Methode ganz wesentlich erleichtert. Unser Beispiel nutzt dieses Modul. Vor der Entwicklung dieses Moduls wurde häufig TDA benutzt (siehe genauer Brüderl & Scherer 2006). TDA ist allerdings weniger nutzerfreundlich, so dass sich immer mehr die Verwendung des Stata-Moduls durchsetzt. Der vorliegende Beitrag führt in die Methoden der Sequenzdatenanalyse ein. In den nächsten Abschnitten wird der Ansatz der Sequenzdatenanalyse vorgestellt und grundlegende Konzepte werden erläutert. Abschnitt 2 führt in den grundlegenden Algorithmus – Optimal Matching – ein. Es werden auch in jüngster Zeit vorgeschlagene Alternativen vorgestellt. In Abschnitt 3 schließlich wird anhand eines Analysebeispiels das Vorgehen einer Sequenzdatenanalyse verdeutlicht. Der Aufsatz schließt mit einer kritischen Diskussion des Verfahrens. 1.1 Was ist Sequenzdatenanalyse? Eine Sequenz ist eine geordnete Liste von Elementen. Die klassische Sequenz ist die DNS, in der in einer Folge von nur vier Basen (A, C, G und T) die Erbinformation aller Lebewesen festgehalten ist. Sequenzen lassen sich in vielen Bereichen identifizieren. Ein Lebensverlauf bspw. lässt sich als Abfolge der Lebensformen/Statuszuständen, die ein Mensch während seines Lebens durchläuft, darstellen. Aus analytischen Gründen unterscheidet man meist nach Lebensbereich: Bildungsverlauf, Erwerbsverlauf, Partnerschaftsverlauf usw. Einen Wechsel der Statuszustände bezeichnet man als „Ereignis“ oder „Übergang“. Das Ereignis „Heirat“ etwa bewirkt den Übergang von der Lebensform „Ledig“ in die Lebensform „Verheiratet“; das Ereignis „Arbeitsplatzverlust“ den Übergang von der Erwerbstätigkeit in die Arbeitslosigkeit. Sequenzen beinhalten damit eine Vielzahl von Informationen: die Präsenz und Abfolge bestimmter Statuszustände, die Dauer der Zustände und die Anzahl und Verortung
39 Sequenzdatenanalyse
1033
der Übergange zwischen verschiedenen Statuszuständen. Die Sequenzdatenanalyse ist nun jene Methode, die (im Idealfall) die simultane Bearbeitung dieser komplexen Information ermöglicht, d. h. sowohl die zeitliche Verortung, die sequenzielle Abfolge als auch die Art und Häufigkeit der auftretenden Statuszustände berücksichtigt. Grundsätzlich sind zwei Herangehensweisen zur Analyse von Sequenzdaten möglich (siehe Abbildung 1). Zunächst kann man die Sequenzen aggregieren und die Zustandsverteilung über die Zeit bestimmen. Damit erhält man eine Makro-Beschreibung der Lebensverläufe, sozusagen die „Sozialstruktur“ der Lebensverläufe. Macht man dies für verschiedene Teilgruppen (z. B. Männer-Frauen, Kohorten oder auch verschiedene Länder), so kann man die aggregierten Zustandsverteilungen vergleichen (z. B. mit dem Dissimilaritätsindex). Wesentlich informativer ist hingegen die Analyse der individuellen Sequenzen, für die man Kennzahlen berechnen kann. Wir sprechen nur im zweiten Fall, d. h. wenn tatsächlich der Einzelverlauf in Betracht gezogen wird, von Sequenzdatenanalyse im eigentlichen Sinne. Innerhalb der eigentlichen Sequenzdatenanalyse gibt es zunächst einmal eine Reihe mehr oder weniger simpler deskriptiver Verfahren (Teil 2.1 in Abbildung 1). Einfache Beispiele für solche Kennzahlen sind die mittlere verbrachte Zeit in den Zuständen, die Zahl der vorliegenden Statuszustände oder die Anzahl der Ereignisse (d. h. Übergänge zwischen verschiedenen Statuszuständen), aber auch die Variation der beruflichen Positionen innerhalb eines Karriereverlauf kann bspw. berechnet werden. Sie sind (in aggregierter Form) für den Vergleich zwischen verschiedenen Gruppen, z. B. Kohorten, Geschlechter etc. bereits sehr aufschlussreich. Viele weitere Beispiele für die Deskription von Sequenzen findet man bei Rohwer & Trappe (1997) und Brüderl & Klein (2003). Eine weitere Möglichkeit ist die Distanz- bzw. Ähnlichkeitsbestimmung zwischen Sequenzen (Teil 2.2 in Abbildung 1). Hier wird eine Antwort auf die Frage, wie unterschiedlich bzw. ähnlich zwei Sequenzen sind, gegeben. Grundsätzlich gibt es eine Vielzahl von Möglichkeiten zur Berechnung von Distanzmaßen zwischen Sequenzen, die sich allerdings wesentlich in ihrer Komplexität und Adäquatheit für sozialwissenschaftliche Fragestellungen unterscheiden. Die prominenteste Methode, welche mit den späten 1980er Jahren die Sequenzdatenanalyse überhaupt erst in die Sozialwissenschaften eingeführt hat, ist sicherlich das so genannte Optimal Matching (OM) Verfahren, das auch wir hier ausführlicher darstellen wollen. 1.2 Grundlegende Konzepte Bevor wir uns den Details der Sequenzdatenanalyse zuwenden, ist es notwendig, ein paar grundlegende Konzepte einzuführen und ein paar technische Vorbemerkungen zu machen. Der erste Schritt einer Sequenzdatenanalyse ist die Darstellung der Daten als Sequenzen. Diese Aufbereitung der verfügbaren Information, die Überführung in ein handhabbares Format und die damit einhergehenden inhaltlichen Entscheidungen sind oft der zeitaufwändigste und auch fehleranfälligste Teil der Analysen. Hier ist besondere Sorgfalt geboten. In Abschnitt 3 gehen wir, im Rahmen des konkreten Beispiels, auch kurz auf verschiedene Datenformate ein.
1034
Stefani Scherer und Josef Brüderl !IP !YIS
HXI)#JNI ( J HXIa !S 'K
( PI, !,IISIP ( HJIQIISIP
X#IYNI H* !J*I
J !IYNIIIYI#) JN* H!JG ! bIIJ#IJN
(( c*J#J
#P
XI\*IJHO
XUP H!J#S IISINX#JN* J #XÆ RX)P !JQS HHISLJS,
Abb. 1: Möglichkeiten der Sequenzdatenanalyse Zur sequenziellen Darstellung von Verläufen müssen die Zeitachse und der Zustandsraum, d. h. die unterschiedenen Statuszustände, definiert werden. Die verschiedenen Zustände bilden dabei die Elemente der Sequenz, deren Ordnung durch die Zeitachse definiert ist. Je mehr Zustände unterschieden werden, umso komplexer werden die Sequenzen. Bei der Definition des (diskreten) Zustandsraumes, der natürlich inhaltlichen Kriterien der jeweiligen Fragestellung folgt, sollte man daher nur so differenziert vorgehen wie nötig, denn je mehr Statuszustände man unterscheidet, desto schwieriger wird die Interpretation. Leitlinie sollte sein, nur diejenigen Zustände zu unterscheiden, die auch von den betroffenen Individuen als unterschiedlich wahrgenommen werden. Das Problem ist, dass mit der Zahl der Zustände die Zahl der möglichen Sequenzen exponentiell wächst. Bei neun Zuständen und einer Länge von 60 gibt es 960 mögliche verschiedene Sequenzen. Eine unglaublich große Zahl. Reale Lebensverläufe schöpfen diese Vielfalt zwar bei weitem nicht aus, weil Menschen ihre Lebensform nicht jeden Monat wechseln. Dennoch werden insbesondere die deskriptiven Auswertungen schnell unübersichtlich, wenn man viele Zustände zulässt. Praktikabel scheinen Zustandsräume bis etwa 15. OM arbeitet aber auch mit umfangreichen Zustandsräumen problemlos. Für die Definition der Zeitachse muss zunächst ein Beobachtungsfenster, d. h. der Beobachtungsbeginn und das Ende festgelegt werden. Aus Gründen der Vergleichbarkeit empfiehlt es sich, das Beobachtungsfenster zu standardisieren, wodurch die Sequenzen auf dieselbe Länge gebracht werden.1 Der Beginn des Beobachtungsfensters kann dabei 1
Die Verfahren der Sequenzdatenanalyse sind auch bei ungleich langen Sequenzen anwendbar, allerdings beeinflusst die Sequenzlänge das Ergebnis (Sequenzen unterschiedlicher Länge sind sich ceteris paribus unähnlicher). Ungleich lange Lebensverläufe resultieren aus RechtsZensierung, d. h. unterschiedlich langer Beobachtungsdauer. Die Probleme mit Zensierung vermeidet man, wenn man alle Sequenzen auf gleiche Länge bringt, d. h. künstlich zensiert.
39 Sequenzdatenanalyse
1035
Tab. 1: Eine Beispielsequenz Zustand Zeitachse
A 1
A 2
A 3
A 4
B 5
B 6
A 7
A 8
unterschiedlich definiert werden: etwa über das Alter der Befragten (wenn man sie z. B. ab ihrem 18. Lebensjahr beobachtet) oder über das Eintreten eines bestimmten Ereignisses (wie z. B. dem Eintritt in den Arbeitsmarkt). Die Zeitachse wird in diskrete Zeiteinheiten unterteilt. Untersucht man beispielsweise die Erwerbsverläufe über die ersten fünf Jahre im Arbeitsmarkt in Monatsschritten, so resultieren Sequenzen der Länge 60. Ausschlaggebend ist hierfür die Genauigkeit, mit der die Ereignisse gemessen wurden. Hat man nur Jahresangaben erhoben, so wird man ein Jahr als Zeiteinheit festlegen; hat man monatsgenau gemessen, so wird man in Monatsschritten arbeiten. Dabei ist zu beachten, dass mit kleineren Zeiteinheiten die Länge der Sequenzen zunimmt und die erforderliche Rechenzeit mit dem Quadrat der Länge steigt. Nach diesen Definitionsschritten kann man aus den oftmals biographisch abgelegten Lebensverlaufsdaten (1. Job, 2. Job, usw.) die Sequenzen bilden. In den festgelegten Zeitschritten wird für jeden Zeitpunkt der entsprechende Zustand, in dem sich ein Individuum befindet, festgehalten. Eine individuelle Sequenz könnte also wie in Tabelle 1 aussehen, wobei „A“ und „B“ zwei Zustände repräsentieren. Für die dargestellte Person wurden acht Zeiteinheiten beobachtet. Die ersten vier befand sie sich im Zustand A, wechselte dann für zwei Zeiteinheiten in den Zustand B und kehrte dann wieder in den Zustand A zurück. Eine weitere Entscheidung ist zu treffen, wenn sich Individuen gleichzeitig in mehreren Zuständen befinden können. Dann muss entweder festgelegt werden, welcher Zustand dominiert (etwa Vollzeiterwerbstätigkeit eine geringfügige Beschäftigung), oder man erweitert den Zustandsraum um Doppelzustände. Diese Möglichkeit bietet sich auch an, wenn man die parallele Entwicklung verschiedener Lebensbereiche untersuchen will, wie etwa Berufs- und Familienverläufe. Dieses Vorgehen bläht natürlich die Anzahl der Zustände und damit der theoretisch möglichen Sequenzen wesentlich auf. Sind die Verläufe in Sequenzform gebracht, bestehen vielfältige Möglichkeiten, sie unter verschiedenen Aspekten zu beschreiben. Hier seien einige Möglichkeiten beispielhaft aufgeführt. Wenn wir das Sequenzpaar s1 = AAABBB und s2 = ABABAB betrachten, wird deutlich, dass schon mit einfachen deskriptiven Berechnungen interessante Unterschiede herausgearbeitet werden können. Beide haben die Länge von sechs Zeiteinheiten und es liegen zwei Zustände vor. Insofern sind die Sequenzen bzgl. der vorhandenen Elemente identisch. Auch die Gesamtdauer sowohl in A als auch in B beträgt jeweils drei Zeiteinheiten. Schauen wir uns die Dauer der Einzelepisoden an, sieht das Bild jedoch ganz anders aus. Dem Unterschied zwischen s1 und s2 wird aber auch schon über die höhere Anzahl an Ereignissen Rechnung getragen. In s2 beobachten wir fünf Ereignisse, in s1 nur eines. Man könnte auch beschließen lediglich die Abfolge, d. h. die Ordnung der Zustände zu betrachten und die Information zur Verweildauer zu ignorieren, was bei s1 zu AB bei s2 zu ABABAB führt. Nun könnte man auszählen, wie viele Sequenzen mit der gleichen Abfolge sich im Datensatz befin-
1036
Stefani Scherer und Josef Brüderl
den. Typischerweise wird man diese Kennzahlen zwischen Subgruppen vergleichen, um etwa die Frage zu beantworten, ob die Verläufe von Männern und Frauen bzgl. der gewählten Kriterien systematisch unterschiedlich sind oder nicht. Komplizierter wird es, wenn man Verläufe typisieren will. Die Standardverfahren zur Typenbildung sind die Clusteranalyse und die Multidimensionale Skalierung, die wiederum auf einer Distanzmatrix der Untersuchungseinheiten aufbauen (vgl. die Kapitel 21 und 17 in diesem Handbuch). Eine Distanzmatrix gibt für jedes Paar der Untersuchungseinheiten (in unserem Fall der Sequenzen) deren „Unähnlichkeit“ an. Wir brauchen also einen paarweisen Vergleich aller Sequenzen. Distanzmaße haben üblicherweise ein Minimum von Null (das Paar ist identisch), sind verhältnisskaliert und symmetrisch. Für die Typisierung von Verläufen bedarf es also eines zweistufigen Vorgehens: zuerst berechnet man ein Distanzmatrix, auf deren Basis dann im zweiten Schritt die Verläufe mittels Clusteranalyse o.ä. klassifiziert werden. Hier kann sich eine dritte Stufe anschließen, welche die Clusterzugehörigkeit zur abhängigen Variable macht und versucht, beispielsweise mittels multinomialer logistischer Regressionen, die Zugehörigkeit zu einer bestimmten Gruppe statistisch zu erklären. Manchmal gilt das Interesse aber auch den Distanzen an sich. Beispielsweise könnte man fragen, ob sich die paarweisen Distanzen, die innerhalb bestimmter Gruppen berechnet werden, zwischen diesen Gruppen im Mittel unterscheiden. Damit hat man eine Messung der Unähnlichkeit innerhalb der Kategorien, wie sie bspw. in der Diskussion um die De-Standardisierung des Lebenslaufs interessant ist. Ein weiteres Vorgehen, das nur die erste Stufe – die Distanzberechung – erfordert, ist der Vergleich von Verläufen mit einem vorgegebenen Referenzverlauf. Man kann etwa jeden Lebensverlauf eines Datensatzes mit einer kulturell definierten „Normalbiographie“ vergleichen. Die Distanz zur Normalbiographie kann man dann zur abhängigen Variable einer Regression machen und damit der Frage nachgehen, welche Personen besonders stark von der Normalbiographie abweichen. Bei diesem Vorgehen ist der Rechenaufwand deutlich geringer, da man für jede Sequenz nur eine Distanz berechnet (insgesamt also nur n Distanzen). Das Problem besteht natürlich in der sinnvollen Auswahl der Referenzsequenz. Ein möglicher Vorschlag könnte der Vergleich mit der modalen Sequenz sein. Wie aber berechnet man nun die Distanz zwischen zwei Sequenzen? Das Verfahren, welches wir im Folgenden vorstellen – Optimal Matching – verwendet hierzu eine einfache Zählmetrik. Es wird im wesentlichen die Anzahl der minimal nötigen Operationen gezählt, die notwendig sind, um die eine Sequenz in die andere Sequenz zu überführen, d. h. um ein so genanntes „Alignment“ zu erreichen. Für diese Angleichung/Überführung stehen unterschiedliche Transformationsoperationen zur Verfügung (Substitution, Einfügen und Löschen), welche mit unterschiedlichen Gewichten, d. h. Kosten versehen werden. Das Minimum dieser aufsummierten Transformationskosten wird als Levenshtein-Distanz bezeichnet, auf die wir im folgenden Abschnitt gleich noch detailierter eingehen. Die Levenshtein-Distanz stellt ein metrisches Maß für die Unähnlichkeit dar, mit dem Wert 0 wenn die beiden Sequenzen identisch sind. Der jeweils mögliche Maximalwert der Distanzen hängt von der Gewichtung der Transformationsoperationen und der Länge der Sequenzen ab.
39 Sequenzdatenanalyse
1037
2 Mathematisch-statistische Grundlagen: Algorithmen zur Distanzberechnung In diesem Abschnitt beschäftigen wir uns mit der Distanzberechnung für Sequenzen. Die folgenden Darstellungen sind sowohl für die paarweise Distanzberechnung als auch für den Vergleich mit einer Referenzsequenz relevant. Im zweiten Teil beschreiben wir, wie die resultierenden Distanzmatrizen weiterverarbeitet werden. Schließlich stellen wir die Kritikpunkte an den bislang verbreiteten Verfahren vor und führen einige Weiterentwicklungen an. 2.1 Der Optimal Matching Algorithmus Der einfachste Ansatz für ein Distanzmaß ist der elementweise Vergleich der beiden Sequenzen. Bei Nicht-Übereinstimung führt man eine Substitution durch. Die Distanz zweier Sequenzen ist dann die Zahl der nötigen Substitutionen, um die eine Sequenz in die andere überzuführen. Dies ist die so genannte Hamming-Distanz. Dieses Vorgehen ist bei Sequenzen aber meist nicht sinnvoll, wie das in Tabelle 2 dargestellte Beispiel zeigt. Man vergleicht jeweils Sequenzen der Länge sechs. Es sind acht Zustände möglich. Bei allen drei Vergleichen unterscheiden sich alle Elemente. Deshalb ist die HammingDistanz bei allen drei Vergleichen gleich sechs. Die Hamming-Distanz ist die Zahl der Substitutionen, die man braucht, um Sequenz 1 in Sequenz 2 überzuführen (oder umgekehrt wegen der Symmetrie). Beim ersten Vergleich ersetzt man das erste A durch ein C, das zweite A durch ein D, usw. Es sind jeweils sechs Substitutionen nötig. Dieses Verfahren ist nicht sinnvoll, denn die „Unähnlichkeit“ der Sequenzen unterscheidet sich offensichtlich. Während das Paar in Vergleich 1 komplett unterschiedlich ist, sind die Sequenzen der anderen beiden Vergleiche mehr oder weniger „verschoben“. Im Vergleich 3 etwa ist die Subsequenz BCDEF in beiden Sequenzen zu finden, nur um eine Stelle verschoben. Wären dies Erwerbsverläufe, so würden beiden Personen die Berufskarriere BCDEF durchlaufen. Person 1 hätte davor vielleicht noch gejobbt (Zustand G). Es ist offensichtlich nicht zweckmäßig, diese beiden Erwerbsverläufe als maximal unterschiedlich zu klassifizieren. Das Problem lässt sich beheben, wenn man zwei weitere Operationen zulässt: Einfügen und Löschen („insertion“ und „deletion“ oder kurz: Indel). Es sind dann nur zwei Operationen nötig, um im Vergleich 3 ein Alignment zu erreichen: Lösche bei Sequenz 1 das G und füge hinten ein A an. Eine Substitution kann man durch zwei Indel-Operationen ersetzen (füge den neuen Zustand ein und lösche den alten). Deshalb wird man Indel-Operationen nur mit dem Gewicht 0,5 versehen. Da also offensichtlich mehrere Wege zum Ziel führen, ist es wichtig, den „kostengünstigsten“ aufzufinden. Die (nach ihrem Erfinder benannte) Levenshtein-Distanz bestimmt das Minimum der Summe der so gewichteten Operationen, die mindestens für ein Alignment nötig sind. Bei Vergleich 1 bleibt es bei der maximalen Distanz: Es sind sechs Substitutionen nötig (oder sechsmal Einfügen und sechsmal Löschen). Bei Vergleich 2 löscht man vorne dreimal A und fügt es hinten dreimal ein. Die Levenshtein-Distanz ist drei. Bei
1038
Stefani Scherer und Josef Brüderl
Tab. 2: Einfache Distanzmaße
Sequenz 1 Sequenz 2 Hamming-Distanz Levenshtein-Distanz (Subst=1, Indel=0,5)
Vergleich 1
Vergleich 2
Vergleich 3
AAABBB CDEFGH 6 6
AAABBB BBBAAA 6 3
GBCDEF BCDEFA 6 1
Vergleich 3 sind zwei Indel-Operationen erforderlich, die Distanz ist also eins. Diese Art der Distanzberechnung erscheint wesentlich sinnvoller. Bei kurzen Sequenzen (wie in unserem Beispiel) ist es recht einfach, die minimale Zahl der nötigen Operationen zu bestimmen. Bei längeren Sequenzen wird das aber sehr schwierig. Ein Algorithmus ist nötig. Optimal Matching (OM) besteht im Kern aus einem Algorithmus, der auch bei langen Sequenzen die Bestimmung der LevenshteinDistanz leistet. Eine ausführliche Darstellung dieses Minimierungs-Algorithmus findet man bei Abbott & Hrycak (1990). Im paarweisen Vergleich berechnet OM für jedes Sequenzpaar die Distanz (wegen Symmetrie n · (n − 1)/2 Distanzen), im Vergleich zu einer Referenzsequenz n Distanzen (eine für jede Sequenz). Dieses Grundprinzip kann man flexibilisieren, indem man die Gewichte der Operationen variiert. Zunächst ist es üblich, eine Substitution mit dem Gewicht zwei und eine Indel-Operation mit dem Gewicht eins zu versehen. Dies ändert nichts, verdoppelt nur die Metrik. Weiterhin kann man die Substitutionsgewichte unterschiedlich wählen, je nach den „Kosten“ der Ersetzung. Ersetzt man einen Zustand durch einen anderen sehr ähnlichen, so kann man die Substitutionskosten niedriger als zwei ansetzen. Dadurch wird die Distanz bei Sequenzen, die aus unterschiedlichen, aber sehr ähnlichen Zuständen bestehen, kleiner. Will man von dieser Flexibilität Gebrauch machen, muss man eine (symmetrische) Substitutionskostenmatrix festlegen. Man könnte beispielsweise die Teilzeit-Erwerbstätigkeit (TZ) als inhaltlich näher an der Vollzeit-Erwerbstätigkeit (VZ) ansehen als z. B. Arbeitslosigkeit (AL). Folglich wird man dem Ersetzen der VZ durch TZ (oder andersrum) ein geringeres Kostengewicht zuteilen als dem Ersetzen von VZ durch AL (oder andersrum). Das Problem ist allerdings, dass man eine Theorie braucht, die sagt, welche Zustände sich in welchem Ausmaß ähnlich sind. Die hat man meist nicht. Eine Lösung besteht darin, die Substitutionskostenmatrix automatisch aus den Daten zu errechnen. Dabei wird die in den Daten beobachtete Übergangswahrscheinlichkeit zwischen den jeweiligen Zuständen berechnet und dieser Wert dann von 2 abgezogen (das Substitutionsgewicht ist damit umgekehrt proportional zur Übergangswahrscheinlichkeit). Diese datenbasierte Methode der Bestimmung der Substitutionskostenmatrix wird inzwischen häufig eingesetzt. Oben wurde darauf hingewiesen, dass der Algorithmus die Distanz aus den minimalen Transformationskosten errechnet. Demzufolge wird auch die Relation der Indel- und Substitutionskosten relevant. Die übliche Voreinstellung der Programme, Indel-Kosten = 1 und Substitutionskosten = 2, ermöglicht bspw. wie im obigen Beispiel die gegeneinander verschobenen Sequenzen als ähnlicher zu erkennen. Werden nun die Indel-Kosten höher als die Substitutionskosten angesetzt, verliert man diesen Vorteil
39 Sequenzdatenanalyse
1039
der Zulassung der Indel-Operationen (siehe Abbott & Tsay 2000). Konkret bedeutet das eine Reduktion auf den oben kritisierten Vergleich der einzelnen Positionen innerhalb der Sequenzen. Bei Indel-Kosten von eins sollten sich also die Substitutionskosten zwischen eins und zwei bewegen. Substitutionskosten größer zwei haben hingegen zur Folge, dass keine Substitution mehr durchgeführt wird, weil eine Substitution billiger durch Einfügen und Löschen erreichbar ist. In diesem Fall ist die Distanz zweier Sequenzen gegeben durch: (Länge der Sequenz − Länge der längsten gemeinsamen Subsequenz) mal 2. Will man dies vermeiden, so sollte man (zumindest einige) Substitutionskosten < 2 ansetzen. OM funktioniert in der Standard Voreinstellung (ohne Gewichtung) hervorragend. Die bisherige praktische Erfahrung mit OM und Simulationen (Abbott & Hrycak 1990, S. 164; Halpin 2010) haben zusätzlich gezeigt, dass die Ergebnisse von OM ziemlich robust gegenüber auch massiven Veränderungen der Indel- und Substitutionskosten sind. Deshalb muss der Nutzer angesichts der Vielzahl der Optionen nicht verzweifeln. 2.2 Der zweite Schritt: Die Weiterverarbeitung der Distanzen Die so gewonnene Distanzmatrix kann man dann als Input für Klassifizierungsverfahren – insbesondere Clusteranalyse – nutzen. Im Fall der Sequenzdatenanalyse stehen lediglich die hierarchischen Clusterverfahren zu Verfügung, weil partitionierende Verfahren eine Neuberechnung der Distanzen bei jeder Umgruppierung der Fälle verlangen. Dies ist mit der extern berechneten Distanzmatrix nicht leistbar. Praktische Erfahrung hat gezeigt, dass das Ward-Verfahren ganz gute Ergebnisse erbringt (d. h. homogene Cluster erzeugt). Ein weiteres Problem der Clusteranalyse ist die Bestimmung der „optimalen“ Anzahl der Cluster, weil es hierfür kein eindeutiges Kriterium gibt. Wir können hier nicht auf die Details eingehen, sondern verweisen auf Kapitel 21 in diesem Handbuch. Einen Anhaltspunkt liefert jedoch das Elbow-Kriterium, einen weiteren die mittleren Distanzen zwischen und innerhalb der Cluster (Aisenbrey & Fasang 2010). Ziel sind in sich möglichst homogene Cluster (minimale Distanz innerhalb der Cluster), die sich möglichst deutlich untereinander unterscheiden (maximale Distanz zwischen den Clustern). Die endgültige Entscheidung wird man inhaltlich treffen müssen: Die „Interpretierbarkeit“ der resultierenden Typologie der Lebensverläufe ist deshalb in den meisten Anwendungen das Hauptkriterium zur Festlegung der Clusterzahl. Die Ergebnispräsentation sollte deswegen der Cluster-Validierung auch einige Aufmerksamkeit widmen. Ein gutes Instrument hierfür ist ein Sequenz-Indexplot (siehe Abbildung 5) ergänzt durch die oben zitierten einfachen deskriptiven Instrumente zu Sequenzbeschreibung. Damit hat man recht anschauliche Instrumente zur Validierung der vorgeschlagenen Cluster-Lösung zur Hand. 2.3 Die Diskussion um OM und neuere Entwicklungen Der Einzug von OM in die soziologische Forschung hat viel Kritik hervorgerufen (für einen Überblick vgl. Halpin 2010; Aisenbrey & Fasang 2010; Brzinsky-Fay & Kohler 2010). Wir weisen darauf hin, dass die beiden Schritte zur Bestimmung typischer Verläufe (Distanzberechnung und Clusterbestimmung) getrennt zu betrachten sind.
1040
Stefani Scherer und Josef Brüderl
Während sich eine umfangreiche Diskussion um die Frage entwickelt hat, ob OM wirklich das optimale Verfahren für die Bestimmung der Ähnlichkeit von Lebensverläufen ist, hat das Aggregierungsverfahren kaum Aufmerksamkeit erfahren. Dieser Schritt ist unseres Erachtens aber ebenso diskussionsbedürftig, wie folgendes Zitat belegt: “It has been said that there are as many cluster-analysis methods as there are people performing cluster analysis. This is a gross understatement! There exist infinitely more ways to perform a cluster analysis than people who perform them.“ (StataCorp 2005, S. 73). Einer der generellen Kritikpunkte lautet, die Methode bilde keine realen Lebensverlaufsprozesse ab, weil die in OM durchgeführten Transformationen – Einfügen, Löschen und Substitution – keine realen Entsprechungen in Lebensverläufen hätten. Dem Argument kann entgegengehalten werden, dass kaum ein statistisches Verfahren reale Prozesse abbildet, es auch gar nicht muss. Die (Sozial-) Wissenschaft ist an Modellen der Wirklichkeit interessiert, die uns ihr Verständnis ermöglichen, nicht aber an ihrer exakten Abbildung. Ein weiterer Vorwurf ist, dass OM kein besonderes Konzept für den Umgang mit der Dauer von Episoden hat. Die Dauer der Episoden wird in OM-Analysen üblicherweise dadurch berücksichtigt, dass der jeweilige Zustand so oft vorkommt, wie die Episode dauert (s. u.). OM hat in diesem Sinne tatsächlich „kein Gedächtnis“, d. h. berechnet die Distanzen unabhängig vom Kontext und ist blind für die Kontinuität in Zuständen: Eine kleine Anpassung der Länge einer Episode ist mit den gleichen Kosten verbunden wie das Einfügen einer neue Episode. Dementsprechend sind für OM die folgenden Sequenzen äquidistant: s1 = ABBD, s2 = ABCD, s3 = ABDD, wenngleich dies soziologisch nicht unbedingt sinnvoll ist (siehe Halpin 2010). Diesen Mangel haben verschiedene Autoren durch den Vorschlag alternativer Methoden zur Distanzberechnung versucht zu beheben. Wir wollen hier zwei dieser Alternativen, die uns viel versprechend erscheinen, kurz vorstellen. Halpin (2010) schlägt eine geringfügige Variante des OM-Algorithmus vor (OMv). OMv berechnet Optimal Matching Distanzen, die an die Verweildauer angepasst sind. Die Kosten der grundlegenden Operationen werden dabei reduziert, wenn es sich um das Element einer längeren Episode handelt – die Kostenreduktion ist umso größer, je länger die Episode ist. Diese Variante berücksichtigt damit die Dauer der Episoden. Erste Anwendungen zeigen aber, dass OMv auch nicht zu gravierend anderen Ergebnissen führt. Deutlicher von der OM-Logik weicht der von Elzinga (2003) auf axiomatischer Basis entwickelte Algorithmus ab. Die Ähnlichkeit zweier Sequenzen bestimmt sich hier aus der Häufigkeit mit der geordnete k-Tupel der Zustände (Sub-Sequenzen) in beiden Sequenzen auftreten. Der Elzinga-Algorithmus berücksichtigt insbesondere die Ordnung der Zustände (A vor B), aber nicht in welchem zeitlichen Abstand sie auftreten. Durch eine geringfügige Modifikation kann aber die Berücksichtigung von Dauern erreicht werden. Die Ergebnisse mit dem Elzinga-Algorithmus scheinen doch deutlicher von OM abzuweichen. Aufgrund der besonders starken Betonung der Ordnung der Zustände, ist der Elzinga-Algorithmus besonders bei Anwendungen zu empfehlen, die den Schwerpunkt auf die Abfolge der Zustände legen. Einen anderen Punkt kritisiert Lesnard (2010). Die Indel-Transformationen stellen im Prinzip eine Streckung bzw. Stauchung der Zeitachse dar (time warping). Das
39 Sequenzdatenanalyse
1041
ist aber nicht sinnvoll, wenn die Zeitachse absolut gemessen ist (wie z. B. bei Tagesabläufen). Dann sollte man auf Indel verzichten, womit man aber wieder bei der Hamming-Distanz ist. Weiter argumentiert Lesnard, dass man bei absoluter Zeitskala auch die Substitutionskostenmatrix zeitveränderlich schätzen sollte. Die Substitutionskosten zweier Zustände sind dann umgekehrt proportional zu der in den Daten beobachteten Übergangswahrscheinlichkeit zum jeweiligen Zeitpunkt. Die Anwendung dieser so genannten dynamischen Hamming-Distanz auf Sequenzen der Tagesabläufe erbringt durchaus überzeugende Ergebnisse.2
3 Beispiel: Der Arbeitsmarkteintritt westdeutscher Männer und Frauen In diesem Abschnitt veranschaulichen wir die bislang beschriebenen Verfahren anhand der Analyse von Erwerbsverläufen der zwischen 1983 und 2001 in den deutschen Arbeitsmarkt eingetretenen Personen. Wir fragen, wie sich, im Aggregat gesehen, die beruflichen Frühkarrieren vollziehen; ob es wesentliche Unterschiede in den Sequenzverläufen zwischen Frauen und Männern und zwischen Geburtskohorten gibt; ob es zu einer Zunahme der Instabilität der beruflichen Frühkarrieren kam, ob diese zunehmend heterogener werden; ob, und welche unterschiedlichen Typen von Erwerbseintrittsmustern identifiziert werden können und ob es eine Veränderung über die Kohorten in der Verteilung der typischen Karrieremuster gegeben hat. 3.1 Datenaufbereitung Unser Beispiel nutzt die SOEP Daten 1984–2006, präziser die im Datensatz „Artkalen“ enthaltene monatsgenaue Information des Erwerbsstatus, die seit der ersten Welle jeweils retrospektiv für das letzte Jahr erhoben wird. Folgende sechs Statuszustände werden unterschieden: Vollzeit Erwerbstätig, Teilzeit Erwerbstätig, Arbeitslos, Bildungsrückkehr, Nicht Erwerbstätig, Militär/Zivildienst. Vor der tatsächlichen Analyse dieser Daten ist eine Aufbereitung notwendig. Im Detail wurden die folgenden Schritte durchgeführt: Doppelstati wurden überschrieben (wobei die Episode mit dem jeweils neueren Anfangsdatum dominiert; nur Episoden in Bildung wurde immer Priorität gegeben, um sie später vom Erwerbsverlauf ausschließen zu können), vorhandene Lücken im Verlauf wurden geschlossen indem der vorhergehende Status weiter geschrieben wurde. Dem Datensatz wurden einige soziodemografische Informationen zugefügt (z. B. Bildung, Geburtsjahr) und schließlich jene Erwerbsverläufe ausgewählt, von denen wir mit einiger Wahrscheinlichkeit annehmen können, dass es sich um die berufliche Frühkarriere handelt. Dies ist wichtig, damit wir die Sequenzen (d. h. die individuellen Berufsverläufe) an möglichst einheitlichen Stellen vergleichen. Zwei Kriterien wurden hier angewandt: entweder der Befragte ist 2
Programme, die die Algorithmen implementieren, findet man auf der Homepage von Halpin (http://teaching.sociology.ul.ie/seqanal/), Elzinga (http://home.fsw.vu. nl/ch.elzinga/) und von Lesnard (http://laurent.lesnard.free.fr/article.php3? id_article=8), zuletzt aufgerufen am 18.05.2010.
1042
Stefani Scherer und Josef Brüderl Episoden-Datenformat Persnr Start Ende
Zustand
Zensierungs- Dauer + Variablen indikator 1 1 3 A 0 3 … 1 4 6 B 1 2 2 1 2 B 0 2 2 3 3 D 0 1 2 4 6 B 1 2 Der Zensierungsindikator gibt an, ob wir das Ende der Episode beobachten oder nicht (=1). Wide-Format Persnr T1 1 A 2 B
T2 A B
T3 A D
Long-Format Persnr T 1 1 1 2 1 3 1 4 1 5 1 6 2 1 2 2 2 3 2 4 2 5 2 6
Zustand A A A B B B B B D B B B
+ Variabeln …
T4 B B
T5 B B
T6 B B
+ Variablen …
Abb. 2: Datenorganisation bei der ersten Beobachtung jung genug (20 Jahre oder jünger) oder wir beobachten in den Artkalen Daten den Austritt aus dem Bildungssystem. Generell wurden jene, die bei der ersten Beobachtung 28 Jahre oder älter waren, von der Analyse ausgeschlossen. Abschließend wurde die Datenstruktur in ein Monatsraster überführt. Für die Auswertungen standardisieren wir die Sequenzen auf 5 Jahre Beobachtungszeit und beschränken die Analyse auf das „Sample A“, d. h. auf die westdeutsche Population. Wir weisen darauf hin, dass unsere Analysen nur Anschauungszwecken dienen. Alle Programme, sowohl der Datenaufbereitung als auch der Analyse, können von der Webseite des Handbuchs bezogen werden. Eine kurze Anmerkung zur Datenorganisation. Oftmals sind die Informationen über Verläufe als sogenannte Episoden-Daten abgelegt (manchmal auch Spell-Daten genannt). Jede Episode (der Zeitraum, in dem ein Zustand eingenommen wurde) im Leben eines Individuums ist dabei ein eigener Record im Datensatz. Das bedeutet, pro Individuum liegen mehrere Zeilen in der Datenmatrix vor, für die jeweils der Anfangsund auch der Endzeitpunkt vorliegen (sofern es sich nicht um zensierte Beobachtungen handelt). Aus diesen Episoden-Daten muss man nun die Sequenzen generieren. Im Prinzip programmiert man hierzu eine Schleife über alle Episoden einer Person und innerhalb der Episoden jeweils eine weitere Schleife, mit der man für jede Zeiteinheit den jeweiligen Zustand der Person generiert. Je nach verwendetem Programm legt man dann die Abfolge der Zustände in einem „breiten“ (wide) oder „langen“ (long) Format ab (siehe Abbildung 2).
39 Sequenzdatenanalyse 100%
100%
90%
90%
80%
80%
70%
70%
60%
60%
50%
50%
40%
40%
30%
30%
20%
20%
10%
10%
Militär Nichterwerb Bildung Arbeitslos Teilzeit Vollzeit
0%
0% 1
Monate
(a) Männer
60
1043
1
Monate
60
(b) Frauen
Abb. 3: Aggregierte Zustandsverteilungen der beruflichen Frühkarrieren von Männern und Frauen (Beobachtungsfenster 60 Monate) 3.2 Datenauswertung In keinem konventionellen Statistikpaket ist standardmäßig ein SequenzdatenanalyseModul implementiert. Das Autorenteam um Ulrich Kohler (Brzinsky-Fay et al. 2006) hat jedoch ein Programmpaket zur Sequenzdatenanalyse verfügbar gemacht, das direkt über die Stata Webseiten mit dem Kommando ssc install sq in Stata zu installieren ist. Der Vorteil dieses Paketes ist, neben dem Optimal Matching Algorithmus, die Verfügbarkeit sehr umfangreicher deskriptiver Analysemöglichkeiten und einer ausführlichen und umfangreichen Dokumentation. Unsere Auswertungen nutzten dieses Programmpaket. Im hier dargestellten „praktisch-didaktischen“ Beispiel geht es darum, die konkrete Anwendung der vorgestellten Vorgehensweisen und Techniken möglichst praxisnahe darzustellen. Inhaltlich werden wir an dieser Stelle recht wenig zur bereits bestehenden Literatur beitragen. Zunächst betrachten wir in Abbildung 3 die Struktur der beruflichen Frühkarrieren. Wir nutzen hierfür die aggregierten Zustandsverteilungen der Verläufe bis 5 Jahre nach Beobachtungsbeginn. Sowohl für Männer als auch Frauen steigt in den ersten Monaten der Anteil der Vollzeitbeschäftigten kontinuierlich an, der Anteil an Nichterwerbstätigen und Arbeitslosen nimmt parallel dazu ab. Während die Verteilung der Männer nach dem ersten Jahr konstant bleibt (abgesehen vom Auftauchen der Zustände Militär-/ Zivildienst und Bildung nach zwei Jahren), beobachten wir für die Frauen eine sukzessive Abnahme der Vollzeiterwerbstätigkeit, begleitet von einer Zunahme der Teilzeit- und Nichterwerbstätigkeit.3 Solche Grafiken sind äußerst nützlich, um sich einen ersten Eindruck des Phänomens zu verschaffen. Es ist aber keine Längsschnitt- oder gar Sequenzdatenanalyse im eigentlichen Sinne. 3
Bildungsepisoden können gemäß der Konstruktion des Datensatzes frühestens nach 24 Monaten Beobachtungszeit auftreten.
1044
Stefani Scherer und Josef Brüderl
kumulierte Häufigkeit
1 .8 .6 .4 .2 Männer
0 0
.5
1
Frauen 1.5
2
OM Distanz
Abb. 4: Kumulierte Häufigkeitsverteilung der individuellen OM-Distanzen zur Referenzsequenz der kontinuierlichen Vollzeiterwerbstätigkeit (Modalsequenz) Die Informationen der individuellen Sequenzen nutzen wir im folgenden Schritt. Tabelle 3 zeigt die mittlere Verweildauer in den einzelnen Statuszuständen getrennt für Männer und Frauen und für drei Geburtskohorten. Wie nicht anders zu erwarten, bestätigen sich die Geschlechterunterschiede der obigen Analyse. Gleichzeitig sehen wir aber auch an den Mobilitätsindikatoren – mittlere Anzahl der Statuszustände und -wechsel –, dass die individuellen Verläufe der Frauen insgesamt signifikant unruhiger, d. h. von mehr Statuswechseln gekennzeichnet sind. Schließlich informiert uns die mittlere Distanz zur Referenzsequenz der durchgängigen Vollzeiterwerbstätigkeit über den nach wie vor bestehenden „Gender-Gap“ in der Arbeitsmarktbeteiligung. Diese Unterschiede werden besonders in der grafischen Darstellung der kumulierten Häufigkeitsverteilungen der OM Distanzen (ohne jegliche Gewichtung in diesem Fall) getrennt nach Geschlecht deutlich, wie sie Abbildung 4 zeigt. Die Kurve der Männer liegt hier deutlich über der der Frauen, weil der Anteil durchgängig vollzeiterwerbstätiger Männer (null Distanz) deutlich höher ist. Der Vergleich mit einer so simplen Referenzsequenz nutzt nicht optimal alle Möglichkeiten des Optimal Matchings aus, hat aber den großen Vorteil einer einfachen Interpretierbarkeit. Wenden wir uns nun der Frage zu, ob es insgesamt zu einer Zunahme der Instabilität der beruflichen Frühkarrieren kam. Wir vergleichen hierfür drei Geburtskohorten (Tabelle 3) und beobachten eine leichte Zunahme der Karriereinstabilität (die Mobilitätisindikatoren), die allerdings nicht statistisch signifikant ist. Dementsprechend kommt es auch zu einer Abnahme des Vollzeiterwerbstätigkeitsanteils, hier zu Gunsten der Arbeitslosigkeit und Nicht-Erwerbstätigkeit, wobei diese Unterschiede – abgesehen von einer leichten Zunahme der Bildungsrückkehr in der zweiten Kohorte – nicht signifikant sind. Auch die Unterschiede in den Mittleren OM-Distanzen zur Modalsequenz (kontinuierlicher Vollzeiterwerbstätigkeit) sind eher gering. Um von einem eindeutigen Trend zur Destabilisierung zu sprechen, reichen diese Ergebnisse eher nicht aus. Eine ganz wesentliche in den Sequenzen enthaltene Information ist die der Abfolge der Statuszustände. Sehr informativ ist die Untersuchung des Auftretens bestimmter Muster der Zustandsabfolge. Entweder werden eine Reihe theoretisch definierter
39 Sequenzdatenanalyse
1045
Tab. 3: Mittelwerte (a) der Verweildauern in den Zuständen, (b) einiger Mobilitätsindikatoren und (c) der OM-Distanz (N=1552 Personen) Geschlecht
Kohorte
Männer Frauen 1956-65 1966-75 (a) Verweildauern Vollzeit Teilzeit Arbeitslos Bildung Nichterwerb Militär (b) Mobilitätsindikatoren Anzahl der Statuszustände Anzahl der Statuswechsel Anzahl der Arbeitslosigkeits-Episoden (c) OM-Distanz zur Modal-Sequenz OM-Distanz zur kontinuierlichen Vollzeiterwerbstätigkeit Anteil Null-Distanzen zur kontinuierlichen Vollzeiterwerbstätigkeit
1976-83
49,20 2,32 3,26 1,93 2,53 0,76
36,06∗ 5,61∗ 3,57 1,51 13,26∗ 0,00∗
42,38 4,10 3,25 1,22 8,71 0,35
43,38 3,76 3,21 2,09∗ 7,15 0,41
37,69 4,97 5,17 1,65 10,28 0,24
1,82 2,49 0,54
2,21∗ 3,06∗ 0,58
1,99 2,74 0,53
2,02 2,77 0,55
2,10 3,00 0,72
0,36
0,80∗
0,59
0,55
0,74
40,64
24,16∗
30,57
33,71∗
30,07
Signifikanztests der Kohorten beziehen sich auf die Unterschiede zur ältesten Kohorte. Das Beobachtungsfenster wurde auf 60 Monate standardisiert. ∗ Signifikant mit 5 % Irrtumswahrscheinlichkeit.
Tab. 4: Häufigkeitsverteilung der Muster der Zustandsabfolge Zustands-Abfolge 1 1|5 3|1 1|3|1 1|4 5|1
N
%
kum. %
499 77 76 55 53 37
32,15 4,96 4,90 3,54 3,41 2,38
32,15 37,11 42,01 45,55 48,97 51,35
1 = Vollzeit, 2 = Teilzeit, 3 = Arbeitslos, 4 = Bildung, 5 = Nichterwerb, 6 = Militär
Muster auf ihr empirisches Vorkommen geprüft oder schlichtweg die in den Daten beobachtbaren Muster abgetragen. Diese Herangehensweise ignoriert natürlich die Dauer der einzelnen Episoden. Tun wir dies für unseren Beispieldatensatz, identifizieren wir weit über 100 unterschiedliche Muster, von denen die überwiegende Mehrzahl jedoch nur ein einziges Mal vorkommt (theoretisch könnten wir 660 unterschiedliche Muster beobachten). Im Beispiel können über die Hälfte der Verläufe in sechs unterschiedlichen Mustern dargestellt werden, wobei die kontinuierliche Vollzeiterwerbstätigkeit eindeutig mit 32 % am häufigsten vorkommt (Tabelle 4).
1046
Stefani Scherer und Josef Brüderl
Tab. 5: Häufigkeitsverteilung der sieben Cluster Cluster 1 2 3 4 5 6 7 Gesamt
Vollzeiterwerbstätigkeit Vollzeiterwerbstätigkeit mit Unterbrechung Bildungsrückkehr Arbeitslosigkeit Teilzeit Vollzeit und Nichterwerbstätigkeit Nichterwerbstätigkeit
N
%
kum. %
822 270 51 56 100 139 114
52,96 17,40 3,29 3,61 6,44 8,96 7,35
52,96 70,36 73,65 77,26 83,70 92,65 100
1552
100
Als Nächstes sollen typische Erwerbseintrittsmuster bestimmt werden, und zwar unter Einbezug der gesamten in den Sequenzen enthaltenen Information. Dazu werden mittels OM die paarweisen Distanzen berechnet und anschließend mit dem Ward-Verfahren geclustert. Wir stellen hier die Lösung mit sieben Clustern vor, wie sie auf Basis einer Standard-Substitutionsmatrix resultiert (Substitutionskosten= 2, indelkosten= 1).4 Tabelle 5 gibt die Verteilung wieder. Zur genaueren Analyse erscheint es sinnvoll, die einzelnen Cluster mit den oben beschriebenen Instrumenten der Sequenzdatenanalyse zu beschreiben und bspw. die mittleren Verweildauern in den einzelnen Statuszuständen, die Mobilitätsindikatoren und die sequenzielle Abfolge der Zustände abzutragen. Wir stellen dies hier aus Platzgründen nicht dar, sondern gehen kurz auf eine anschauliche grafische Darstellung eine: den Sequenzindexplot. Der Sequenzindexplot ist recht hilfreich, um einen Eindruck von der Zusammensetzung der Cluster zu bekommen. Jede Sequenz wird als horizontale Linie gezeichnet, wobei die Zustände durch Farben oder geeignete Schraffuren unterschieden werden. Idealerweise würde man den gesamten Datensatz plotten, d. h. die Linien werden nach der Clusterzugehörigkeit sortiert, übereinander gestapelt und die Cluster durch horizontale Linien getrennt. Allerdings stößt man dabei leicht an die Grenzen der Darstellbarkeit, da die Linien ab einer bestimmten Anzahl an Sequenzen beginnen, sich zu überlappen. Deshalb ist es sinnvoll, im Sequenzindexplot nur eine Auswahl der Sequenzen darzustellen. In Abbildung 5 tun wir dies für eine 20 % Zufallsstichprobe. Die Sequenzen sind dabei von oben nach unten entsprechend ihrer Clusterzugehörigkeit geordnet. Die Striche am Rand des Plots geben dabei die Clustergrenzen an. Die oberen ca. 160 Sequenzen gehören zum Cluster „Vollzeiterwerbstätigkeit“. Man erkennt, dass es sich hier um eine sehr homogene Gruppe handelt, die bis auf kurze Unterbrechungen ständig Vollzeiterwerbstätig ist. Beim zweiten Cluster findet man neben der Vollzeiterwerbstätigkeit am Anfang bzw. Ende längere Episoden anderer Art. Die Personen im dritten Cluster kehren alle in die Bildung zurück. Im vierten Cluster weisen die Sequenzen 4
Eine leicht abweichende Clusterzusammensetzung erhalten wir, wenn wir eine mit den empirisch beobachteten Übergangswahrscheinlichkeiten gewichtete oder eine „theoretisch“ definierte Substitutionsmatrix verwenden.
39 Sequenzdatenanalyse
1047
0 25 50 75
Personen
100 125 150 175 200
Militär Nichterwerb Bildung Arbeitslos Teilzeit Vollzeit
225 250 275 300 0
12
24
36
48
60
Monate
Abb. 5: Sequenzindexplot für eine 20 %-Zufallsstichprobe (n = 310) längere Phasen der Arbeitslosigkeit auf, im fünften Cluster Teilzeiterwerbstätigkeit. Im sechsten Cluster folgt auf Vollzeiterwerbstätigkeit Nichterwerbstätigkeit (bzw. umgekehrt). Der siebte Cluster schließlich ist durch konstante Nichterwerbstätigkeit geprägt. Insgesamt erkennt man, dass die Cluster teilweise eher heterogen sind. Der Cluster zwei etwa vereinigt recht disparate Erwerbsverläufe. Eine Lösung mit mehr Clustern würde die soziale Realität vermutlich besser abbilden. Um schließlich der Frage nachzugehen, ob eine Veränderung der typischen Karrieremuster über die Kohorten zu beobachten ist, wird man die Verteilungen der eben dargestellten Clustertypen über die Kohorten vergleichen. Ein einfacher graphischer Vergleich ist in Abbildung 6 umgesetzt. Man erkennt einige Veränderungen. Die „Normalbiographie“ Vollzeiterwerberbstätigkeit gerät in die Minderheit, ist allerdings mit 44 % immer noch stark vertreten. Zunahmen zeigt der Anteil derer, die in das Bildungssystem zurückkehren. Vermutlich sind dies eher Aufstiegskarrieren. Auf der anderen Seite nimmt aber auch der Anteil der Cluster „Teilzeit“, „Arbeitslos“ und „Nichterwerb“ zu. Deuten diese Veränderungen auf eine zunehmende De-Standardisierung (Pluralisierung) der Erwerbseintrittsmuster hin? Brüderl (2004, s. a. Elzinga & Liefbroer 2007) schägt einige Verfahren vor, um diese Frage zu beantworten. Ein erster möglicher Ansatzpunkt besteht darin, die kohorteninterne Heterogenität der Verläufe zu berechnen. Dazu vergleicht man Sequenzen einer Geburtskohorte und berechnet für jedes Paar die OM-Distanz. Das Mittel der paarweisen Distanzen einer Kohorte ist eine Kennzahl der Heterogenität. De-Standardisierung würde sich dann in einem Anstieg dieser mittleren Distanz über die Kohorten manifestieren. Eine weitere Möglichkeit einen Heterogenitätsanstieg zu prüfen ist, die „qualitative Varianz“ der Verteilungen der typischen Verläufe zu betrachten. Ein qualitatives Varianzmaß ist die Entropie. Maximale Homogenität würde demnach vorliegen, wenn alle Verläufe einem einzigen Muster folgen, maximale Heterogenität, wenn eine völlige Gleichverteilung auf die unterschiedlichen Muster besteht (im Extremfall jeder Verlauf seinem eigenen Muster
1048
Stefani Scherer und Josef Brüderl 100% 90% 80% 70% 60% 50% Nichterwerb VZ+Nichterw. Teilzeit Arbeitslos Bildung VZ+Unterbr. Vollzeit
40% 30% 20% 10% 0% 19 6 6 1956-65
1966 1966-75
19 6 83 1976-83
Abb. 6: Häufigkeitsverteilung der Sieben Cluster nach Kohorten folgt). Beschränken wir uns auf die oben identifizierten sieben Cluster, so wird aus Abbildung 6 deutlich, dass es mit er jüngsten Kohorte zu einer Abnahme der durchgängigen Vollzeiterwerbstätigkeit kommt, diese Kohorte also insgesamt heterogener als die anderen ist. Ein erstes Indiz diesbezüglich sahen wir bereits in Tabelle 3: die mittlere Distanz zur kontinuierlichen Vollzeiterwerbstätigkeit ist in der jüngsten Kohorte am größten. Allerdings erwiesen sich die Unterschiede als nicht statistisch signifikant. Von einer klaren Zunahme sind aber nicht, wie es die De-Standardisierungsdebatte nahelegt, die „instabilen“ Cluster, sondern die (relativ homogenen) Gruppen der Nicht- und Teilzeiterwerbstätigkeit betroffen. Von einem eindeutigen Trend zu einer zunehmenden De-Standardisierung der Erwerbseintrittskarrieren zu sprechen, erschiene uns auf Basis dieser, zugegebenermaßen sehr vorläufigen Analysen voreilig. Bisher haben wir Sequenzdatenanalyse nur für beschreibende Fragestellungen eingesetzt. Aber wie die obige Diskussion bzgl. der Hypothese der De-Standardisierung zeigt, berührt das durchaus auch zentrale soziologische Fragestellungen. Man kann aber Sequenzdatenanalyse auch stärker erklärend einsetzen. Hat man etwa mittels OM und Clusteranalyse Lebensverlaufstypen identifiziert, kann man weitere Analysen anschließen: Die Lebensverlaufstypen können sowohl als abhängige wie auch als unabhängige Variable verwendet werden. Beispielsweise wäre es möglich, ein multinomiales logistisches Regressionsmodell auf die Lebensverlaufstypen zu berechnen. Damit könnte der Frage nachgegangen werden, wer welchen Lebensverlauf verfolgt (z. B. in Abhängigkeit vom Geschlecht, der Geburtskohorte, der Bildung, usw.). Umgekehrt könnte man auch fragen, welche Auswirkungen bestimmte Lebensverläufe auf zukünftiges Geschehen haben (z. B. auf den weiteren Lebensverlauf, die Gesundheit, usw.).
4 Häufige Fehler Die Aufbereitung der Sequenzdaten kann sich – wie bei jeder Längsschnittdatenanalyse – recht umfangreich gestalten. Unseres Erachtens ist dies der fehleranfälligste Punkt der Analyse. Es ist daher wesentlich, die einzelnen Schnitte weitestgehend zu automatisieren, zu dokumentieren und damit replizierbar zu machen. Zugleich muss man eine Reihe von inhaltlichen Vorentscheidungen treffen. Diese werden natürlich von der jeweiligen konkreten Fragestellung und den bereits vorhandenen (theoretischen)
39 Sequenzdatenanalyse
1049
Vorüberlegungen geleitet. Nichtsdestotrotz haben diese Entscheidungen oft auch willkürlichen Charakter und sind zumindest kritisierbar. Es ist daher ganz wesentlich, alle Schritte transparent und reproduzierbar zu machen. Konkret bedeutet dies, die Programme zu dokumentieren und zugänglich zu machen.5 Nach der konkreten Datenaufbereitung sind Entscheidungen bzgl. der Distanzbestimmung, wie etwa die Gewichtung der Transformationskosten, zu fällen. Auch hier ist eine theoretische Begründung nicht immer ganz einfach und folglich die Replizierbarkeit umso wichtiger. Und schließlich ist das Vorgehen der weiteren Verarbeitung der Distanzmatrizen, die Auswahl der Clustermethode sowie der Clusteranzahl zu problematisieren. Auch hier liegen keine eindeutigen, festen Kriterien vor. Es wird daher unumgänglich sein, detailliert die Resultate zu prüfen, um eine inhaltlich sinnvolle Entscheidung treffen zu können. Der Sequenzindex-Plot ist hierfür ein sehr nützliches Instrument. Er ist eine sehr informative Grafik, die allerdings auf Grund der farblichen Darstellung bei einer größeren Zahl an Statuszuständen an seine Grenzen stößt. Desweiteren hat die derzeitige Umsetzung in Stata das Problem, nur eine begrenzte Anzahl von Sequenzen handhaben zu können, ohne dass sich die Linien beginnen zu überlappen. Wenngleich sich eine intensive Diskussion um die „beste“ Methode zur Distanzberechnung in der Literatur entfaltet hat, und inzwischen mehrere, teilweise sehr interessante Algorithmen zur Verfügung stehen, hat sich (das relativ einfache) Optimal Matching als erstaunlich robust erwiesen: Die bisherigen Anwendungen zeigen, dass das Verfahren in der Praxis ziemlich gut funktioniert und zu inhaltlich sinnvollen Ergebnissen führt, wie auch die Vertreter alternativer Algorithmen eingestehen. Auch andere Methoden gelangen nicht zu grundlegend anderen Ergebnissen. Darüber hinaus hat Optimal Matching den großen Vorteil anwenderfreundlich umsetzbar zu sein. Die Sequenzdatenanalyse ist eher ein ergänzendes Instrument für die Längsschnittdatenanalyse, bei dem die Beschreibung komplexer Verläufe im Vordergrund steht und nicht deren Erklärung. Der Lebensverlauf wird hier tatsächlich nicht als eine Verkettung von Ursachen und Wirkungen konzipiert, sondern als eine Sequenz von Zuständen (und damit Ereignissen) ganzheitlich dargestellt. Hier werden auch die Grenzen der Sequenzdatenanalyse deutlich: Sie kann uns zwar zeigen, wie Lebensverläufe typischerweise aussehen, aber warum sie so aussehen, sagt sie nicht. Dazu muss man sich doch die einzelnen Ereignisse des Lebensverlaufs und die dahinter stehenden Prozesse, Mechanismen und Dynamiken ansehen. Eine Methode kann aber natürlich nicht alles leisten, sondern muss an der Sinnhaftigkeit der Ziele und dem Zielerreichungsgrad gemessen werden. Kaum jemand wird bestreiten, dass die ausführliche Beschreibung und Typisierung von Verläufen sinnvoll ist. Und die vorliegenden Anwendungen haben eindrücklich demonstriert, dass die Sequenzdatenanalyse für diesen Zweck sehr gut geeignet ist.
5
Ein nachahmenswertes Vorbild: Ulrich Kohler hat auf seiner Seite jede seiner Publikationen ausführlich dokumentiert, vgl. http://www.wzb.eu/~kohler/publications/index.html (letzter Zugriff: 18.05.2010).
1050
Stefani Scherer und Josef Brüderl
5 Literaturempfehlungen Einführungen in die Methode der Sequenzdatenanalyse sind Taris (2000) und Aisenbrey (2000). Der vorliegende Beitrag ist eine aktualisierte Version des einführenden Artikels von Brüderl & Scherer (2006), wo man weitere Beispiele und Literatur findet. Überblicke über die bisherigen Anwendungen der Sequenzdatenanalyse in der Soziologie geben Abbott & Tsay (2000) und Aisenbrey & Fasang (2010). Neuere Entwicklungen weden in einem Themenheft von Sociological Methods & Research vorgestellt (vgl. Brzinsky-Fay & Kohler 2010)
Literaturverzeichnis Abbott, A. (1992). From Causes to Events: Notes on Narrative Positivism. Sociological Methods & Research, 20, 428–455. Abbott, A. & Hrycak, A. (1990). Measuring Resemblance in Sequence Data: An Optimal Matching Analysis of Musicians’ Careers. American Journal of Sociology, 96, 144–185. Abbott, A. & Tsay, A. (2000). Sequence Analysis and Optimal Matching Methods in Sociology. Review and Prospect. Sociological Methods & Research, 29, 3–33. Aisenbrey, S. (2000). Optimal Matching Analyse: Anwendungen in den Sozialwissenschaften. Opladen: Leske + Budrich. Aisenbrey, S. & Fasang, A. E. (2010). New Life for Old Ideas: The "Second Wave" of Sequence Analysis Bringing the "Course" Back into the Life Course. Sociological Methods and Research, 38, 420–462. Brüderl, J. (2004). Die Pluralisierung partnerschaftlicher Lebensformen in Westdeutschland und Europa. Aus Politik und Zeitgeschichte, B 19, 3–10. Brüderl, J. & Klein, T. (2003). Die Pluralisierung partnerschaftlicher Lebensformen in Westdeutschland 1960 - 2000. In W. Bien & J. Marbach (Hg.), Partnerschaft und Familiengründung (S. 189–217). Opladen: Leske + Budrich. Brüderl, J. & Scherer, S. (2006). Methoden zur Analyse von Sequenzdaten. Kölner Zeitschrift für Soziologie und Sozialpsychologie, Sonderheft 44, 330–347. Brzinsky-Fay, C. & Kohler, U. (2010). New Developments in Sequence Analysis. Sociological Methods and Research, 38, 359–364. Brzinsky-Fay, C., Kohler, U., & Luniak, M. (2006). Sequence Analysis with Stata. The Stata Journal, 6, 435–460. Elzinga, C. H. (2003). Sequence Similarity: A Nonaligning Technique. Sociological Methods & Research, 32, 3–29. Elzinga, C. H. & Liefbroer, A. C. (2007). De-Standardization of Family-Life Trajectories of Young Adults: A Cross-National Comparison Using Sequence Analysis. European Journal of Population, 23, 225–250. Halpin, B. (2010). Optimal Matching Analysis and Life-Course Data: The Importance of Duration. Sociological Methods and Research, 38, 365–388. Lesnard, L. (2010). Setting Cost in Optimal Matching to Uncover Contemporaneous SocioTemporal Patterns. Sociological Methods and Research, 38, 389–419.
39 Sequenzdatenanalyse
1051
Rohwer, G. & Trappe, H. (1997). Describing Life Courses. An Illustration Based on NLSY Data. POLIS Project Paper. Letzter Zugriff 29.03.2010: http://www.stat.ruhr-uni-bochum. de/papers.html. StataCorp (2005). Stata Multivariate Statistics. Reference Manual, Release 9. College Station: Stata Press. Taris, T. (2000). A Primer in Longitudinal Data Analysis. London: Sage.
40 Zeitreihenanalyse Rainer Metz GESIS – Leibniz-Institut für Sozialforschung, Köln und Universität St. Gallen
Zusammenfassung. In der modernen Zeitreihenanalyse werden Zeitreihen als Realisationen stochastischer Prozesse aufgefasst. Ziel der Analyse von Zeitreihen ist es deshalb, Modelle zu identifizieren und zu schätzen, die die stochastischen Eigenschaften der Zeitreihen möglichst gut wiedergeben. Diese Modelle, die zunächst ohne Bezug auf eine bestimmte substanzwissenschaftliche Theorie bestimmt werden, sind Grundlage für die Beschreibung der kurz- und langfristigen Dynamik und für die Zerlegung von Zeitreihen in spezifische Komponenten, wie Trend, Zyklus und Saison. Sie sind überdies Grundlage für die Analyse spezifischer Einflussgrößen, für Zusammenhangs- bzw. Kausalanalysen, und nicht zuletzt für Prognosen. Der Identifikation eines für die jeweilige Zeitreihe adäquaten Modells kommt deshalb in der Zeitreihenanalyse eine zentrale Bedeutung zu. Die Modellbildung wird allerdings erschwert, wenn die Zeitreihe langfristige Veränderungen in ihrem Niveau aufweist, also einem Trend folgt, und damit nichtstationär ist. Mit Hilfe der sogenannten „Unit Root“-Tests versucht man deshalb, die Art der Nichtstationarität zu identifizieren. Speziell in der Ökonometrie sind in den letzten Jahren Verfahren entwickelt worden, mit denen man den kurz- und langfristigen Zusammenhang zwischen Zeitreihen auch dann schätzen kann, wenn sie trendbehaftet sind und die das Problem der Scheinkorrelation („spurious regression“) vermeiden. Neben Modellen spielen auch Filter eine wichtige Rolle in der Zeitreihenanalyse. Das Ziel besteht hier darin, Filter zu konstruieren, mit denen man vorgegebene Schwingungskomponenten, die dann eigens interpretiert werden, aus Zeitreihen exakt herausfiltern kann.
1 Einführung Zeitreihenanalyse ist ein Sammelbegriff für statistische Verfahren zur Analyse von Zeitreihen. Unter einer Zeitreihe versteht man eine Serie von zeitlich geordneten Messergebnissen, die aus Erhebungen stammen, die relativ häufig (mindestens etwa 30 bis 40 Mal) in gleichbleibenden Abständen am gleichen Objekt zur gleichen Merkmalsdimension vorgenommen worden sind. Formal lässt sich eine Zeitreihe als eine chronologisch geordnete Folge Y1 ,Y2 , . . . , YT numerischer Größen definieren, wobei T die Länge einer Zeitreihe bezeichnet. Die einzelnen Fälle einer Zeitreihe sind also nicht wie in der Querschnittsanalyse durch die verschiedenen Erhebungseinheiten (z. B. Personen) konstituiert, sondern durch die Messzeitpunkte. Zeitreihen sind damit eine spezielle Form von Längsschnittdaten. Weitere Längsschnittdaten sind Verlaufs- bzw. Ereignisdaten sowie Paneldaten. Der Panelanalyse liegen Daten zugrunde, die bei einer Vielzahl von Objekten wiederholt, aber nicht unbedingt in gleichen zeitlichen Abständen erhoben worden sind. Das bekannteste Panel in der Bundesrepublik ist vermutlich S. 1053–1090 in: Christof Wolf & Henning Best, Hg. (2010). Handbuch der sozialwissenschaftlichen Datenanalyse. Wiesbaden: VS Verlag für Sozialwissenschaften
C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2_40, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
1054
Rainer Metz
das sozio-ökonomische Panel (SOEP). Mit der Panel-Analyse verwandt ist die pooled time-series-cross-section-analysis. Grundlage sind hier relativ kurze Zeitreihen, die bei einer überschaubaren Menge von Objekten in gleicher Weise erhoben worden sind.1 Zeitreihenanalysen kommt in den verschiedenen Disziplinen der Sozialwissenschaften unterschiedliche Bedeutung zu. Grundlegend sind sie in der Ökonomie und hier insbesondere in der Ökonometrie und der empirischen Wirtschaftsforschung. Auch in der Politikwissenschaft, der Psychologie und der Kriminologie werden Verfahren der Zeitreihenanalyse eingesetzt. In der Soziologie sind Zeitreihenanalysen immer noch eher die Ausnahme, obwohl ihnen auch hier ein erhebliches und bisher nicht ausgeschöpftes Analysepotential zukommen dürfte. Generell richtet sich das Interesse bei der Analyse von Zeitreihen auf die Beschreibung und Erklärung der kurz- und langfristigen Dynamik von (historischen) Prozessen, auf historische Besonderheiten oder Strukturbrüche sowie, in der multivariaten Analyse, auf den strukturellen bzw. kausalen Zusammenhang zwischen Zeitreihen verschiedener Indikatoren, oder auch auf die Bedeutung spezifischer Einflussgrößen. Große Bedeutung haben uni- und multivariate Verfahren der Zeitreihenanalyse auch für die Prognose von Zeitreihen. Die Methoden der Zeitreihenanalyse sind weit ausdifferenziert und daher vielfältig und komplex.2 Sie sind Gegenstand umfangreicher Lehrbücher und intensiver Forschungen.3 In dieser Darstellung konzentrieren wir uns auf einige grundlegende Verfahren, die wir anhand von Beispielen darstellen und diskutieren. Der Text soll zum praktischen und problembewussten Umgang mit Zeitreihen anleiten sowie auf bestehende Analysemöglichkeiten und -probleme hinweisen. Wichtig war es uns, einen Überblick zu geben, über einige wichtige Verfahren sowie deren Probleme und Anwendungsmöglichkeiten vor dem Hintergrund allgemeiner Fragestellungen der empirischen Sozialforschung.4 1
2
3
4
Wichtige Institutionen für die Erhebung von Zeitreihendaten sind die amtliche Statistik sowie die wirtschafts- und sozialwissenschaftlichen Forschungsinstitute. Auch GESIS bietet mit DISI und HISTAT zwei umfangreiche Online-Datenbanken zu Zeitreihen an. DISI ist ein umfassendes System sozialer Indikatoren, die laufend aktualisiert werden und die teilweise bis 1950 zurückreichen. HISTAT ist eine online Datenbank mit Zeitreihen zu allen Bereichen der Historischen Statistik primär für Deutschland. Zeitlicher Schwerpunkt sind historische Statistikdaten für das 19. und 20. Jahrhundert. Zeitreihenanalysen werden heute durch leistungsfähige und benutzerfreundliche Software unterstützt und erleichtert, die meist als Teil größerer kommerzieller Statistik- oder Ökonometrie-Pakete wie EViews, OxMetrics, RATS, SAS, SCA oder Stata, um nur einige zu nennen, angeboten werden. Ergänzend gibt es eine Vielzahl von Software zu Spezialproblemen oder bestimmten Anwendungen (wie z. B. der Prognose). An nichtkommerziellen Softwarepaketen sind zu nennen: GNU R und gretl. Die Datenbank Econlit der American Economic Association verzeichnet allein für das Jahr 2008 1205 Forschungsbeiträge zum Schlagwort „time series“. Für die Beispiele wurden verschiedene Reihen und unterschiedliche Programme verwendet. Bei den Reihen ist dies dadurch begründet, dass jeweils Reihen ausgewählt wurden, mit denen sich die jeweiligen Methoden und die damit verbundenen Probleme besonders anschaulich illustrieren lassen. Bei den Programmen wurden jene ausgewählt, die sich für die Modellierung besonders gut eignen, indem sie z. B. automatische Identifikationsprozeduren enthalten, oder die sich durch eine einfache Nutzerführung, bzw. hohe Flexibilität oder
40 Zeitreihenanalyse
1055
Es ist in dem hier vorgegebenen Umfang weder möglich, alle wichtigen Verfahren darzustellen, noch die dargestellten Verfahren in ihrer formal-mathematischen Notation vollständig wiederzugeben. Auf eine Erörterung der Schätzverfahren wurde ebenfalls verzichtet. Auch Panelanalysen, Prognose- und Saisonbereinigungsverfahren sind nicht Gegenstand dieser Ausführungen. Der Beitrag ist wie folgt gegliedert: Nach einführenden Bemerkungen zur Deskription von Zeitreihen und zur Bedeutung statistischer Modelle werden stochastische Prozesse als Grundlage der modernen Zeitreihenanalyse dargestellt. Dies führt zur elementaren Unterscheidung von stationären und nichtstationären Prozessen. Während bei den ersteren Mittelwert, Varianz und Kovarianz konstant und damit zeitunabhängig sind, ist das bei zweiteren nicht der Fall. Mit nichtstationären Prozessen ist wesentlich das Problem der Identifikation der Art der Nichtstationarität verbunden, das mit Hilfe der sogenannten „Unit Root“-Tests versucht wird zu lösen. Daran anschließend werden wir Verfahren vorstellen, mit denen man eine Zeitreihe in eine stationäre und nichtstationäre Komponente zerlegen kann und dabei sowohl auf Modell- wie auch auf Filterbasierte Verfahren eingehen. Nach diesen ausschließlich auf eine Zeitreihe bezogenen univariaten Verfahren werden wir uns der multivariaten Analyse zuwenden und dabei zunächst den Einfluss exogener Interventionen sowie den Einfluss unbekannter Interventionen auf eine Zeitreihe untersuchen. Im Anschluss daran werden Transferfunktions-Modelle vorgestellt, mit denen man kausale Abhängigkeiten zwischen stochastischen Zeitreihen untersuchen kann. Den Schluss bilden multivariate Verfahren zur Modellierung des Zusammenhangs zwischen stationären sowie nichtstationären stochastischen Zeitreihen.
2 Deskription und statistisches Modell Jede Zeitreihenanalyse sollte mit der Deskription der Reihe(n) beginnen. Dabei versucht man, erste Anhaltspunkte über spezifische kurz- und langfristige Entwicklungsmuster in und zwischen Zeitreihen, aber auch über historische Besonderheiten, wie z. B. Strukturbrüche oder Ausreißer zu entdecken. Unverzichtbar ist eine graphische Inspektion des Verlaufs der Reihe(n). Dabei gilt es auch unterschiedliche Transformationen der Zeitreihe(n) zu betrachten, also z. B. Logarithmen sowie absolute oder relative Veränderungen der Reihe(n). Informativ sind zudem elementare Kennziffern wie Mittelwert, Varianz, Kovarianz und Kreuzkovarianz. Auch bei der multivariaten Analyse wird man den Verlauf der Reihen zunächst graphisch miteinander vergleichen. Neben der Darstellung der Reihen im Zeitbereich ist auch deren Darstellung im Frequenzbereich sinnvoll, wobei als Frequenz die Anzahl der Schwingungen pro Zeiteinheit (ZE) verstanden wird. Zeitbereich und Frequenzbereich sind dabei dual zueinander und lassen sich durch mathematische Operationen ineinander überführen. Im Frequenzbereich sind Periodogramm- und Spektralanalyse wichtige Hilfsmittel insbesondere zum Aufspüren von Periodizitäten in Zeitreihen. Das Periodogramm ist eine Funktion der Frequenz „f“ und gibt für jede Frequenz „f“ ein Maß dafür an, mit welcher spezielle Routinen für den jeweiligen Modellierungsansatz auszeichnen. Auf keinen Fall soll damit der Eindruck entstehen, dass verschiedene Programme für ein und dasselbe Modell unterschiedliche Resultate erzeugen.
1056
Rainer Metz
„Stärke“ harmonische Wellen der Frequenz „f“ in der Ausgangsreihe vorhanden sind. Man kann das Periodogramm über die Autokovarianz der Reihe schätzen. Nachteil des Periodogramms ist allerdings, dass es zur Identifikation von Schwingungen in Zeitreihen nicht unmittelbar geeignet ist, da die Varianz des Schätzers nicht gegen Null konvergiert, wenn der Stichprobenumfang gegen unendlich geht. Diese Nachteile lassen sich vermeiden, wenn man das Periodogramm durch bestimmte Gewichtungsfunktionen modifiziert, was zu direkten und indirekten Spektralschätzern führt, wobei das Spektrum als Fourier-Transformierte der Kovarianzfunktion definiert ist. Gleichwohl kommen der Periodogramm-Analyse wichtige Funktionen zu, z. B. wenn es darum geht, wie bestimmte Transformationen (z. B. Filter) den Frequenzgehalt einer Reihe verändern. Nach der deskriptiven Inspektion wird man versuchen, interessierende Entwicklungsmuster, historische Besonderheiten bzw. strukturelle Zusammenhänge zu identifizieren und zu schätzen. Die wichtigste Grundlage dafür sind statistische Modelle. Die Auswahl eines bestimmten Modells kann als das Grundproblem jeder Zeitreihenanalyse bezeichnet werden. Diese statistischen Modelle sind Grundlage für die Beschreibung der kurz- und langfristigen Dynamik und für die Zerlegung von Zeitreihen in spezifische Komponenten, wie Trend, Zyklus und Saison. Die Analyse spezifischer Einflussgrößen, die Zusammenhangs- bzw. Kausalanalyse und auch Prognosen sind ohne solche Modelle überhaupt nicht möglich. Die bei der Zeitreihenanalyse verwendeten statistischen Modelle sind demnach die Basis für substantielle Analysen. Das Problem der Modellierung besteht darin, aus der Vielzahl von verfügbaren Modellen, die i.d.R. ganz unterschiedliche Eigenschaften aufweisen, ein Modell auszuwählen, das sich für die Analyse als „geeignet“ erweist und die Zeitreihen, bzw. den Zusammenhang zwischen ihnen, „angemessen“ beschreibt. „Geeignet“ und „angemessen“ wird sich dabei sowohl auf die Struktur der Daten wie auch auf die Fragestellung der Analyse beziehen müssen. Keinesfalls lässt sich mit einem bestimmten Modell der Anspruch verbinden, damit die „wahre“ Struktur des datengenerierenden Prozesses abzubilden bzw. den „wahren“ strukturellen Zusammenhang zwischen Zeitreihen zu erfassen. Im Hinblick auf substanzwissenschaftliche Überlegungen ist eine solche Modellierung zunächst „theorielos“, da das statistische Modell allein aufgrund empirischer Kenngrößen und aufgrund der in den Daten enthaltenen Informationen spezifiziert wird. Damit unterscheidet sich diese Art von Zeitreihenanalyse grundlegend vom klassisch ökonometrischen Ansatz, bei dem man versucht, substanzwissenschaftlich formulierte Modelle empirisch zu testen. Es hat sich jedoch gezeigt, dass dieser klassisch ökonometrische Ansatz, sofern er sich auf Zeitreihen stützt, zu gravierenden Fehlschlüssen führen kann, weshalb in der Ökonometrie spezielle Schätzverfahren für Zeitreihen entwickelt wurden. Man spricht in diesem Zusammenhang auch von Zeitreihenökonometrie.
3 Stochastische Prozesse In der modernen Zeitreihenanalyse geht man davon aus, dass Zeitreihen Realisationen stochastischer Prozesse darstellen. Diesen kommt deshalb eine grundlegende Bedeutung zu. Unter einem stochastischen Prozess wird eine Menge von Zufallsvariablen
40 Zeitreihenanalyse
1057
{Yt |t ∈ T } verstanden, die von einer Indexmenge T abhängt, welche als Parameterraum des Prozesses bezeichnet wird. Wie gewöhnliche Zufallsvariablen können stochastische Prozesse durch ihre Momente, also Erwartungswert-, Varianz-, Kovarianz- und Autokovarianz- bzw. Autokorrelationsfunktion charakterisiert werden. Autokovarianzbzw. Autokorrelationsfunktion stellen die serielle Abhängigkeit der Zufallsvariablen über die Zeit dar, also die (lineare) Abhängigkeit zeitlich aufeinander folgender Werte. Eine wichtige Klasse von stochastischen Prozessen bilden die stationären Prozesse und innerhalb dieser die schwach stationären stochastischen Prozesse. Schwache Stationarität bedeutet, dass Erwartungswert, Varianz und Kovarianz gegenüber Verschiebungen entlang der Zeitachse invariant sind. Ein schwach stationärer Prozess wird also, bezüglich seiner Momente erster und zweiter Ordnung, das gleiche Verhaltensmuster zeigen, gleichgültig in welchem Zeitintervall der Prozess beobachtet wird. Der einfachste stationäre Prozess ist dadurch charakterisiert, dass seine Zufallsvariablen paarweise unkorreliert sind. Ein solcher Prozess wird als weißes Rauschen oder „White Noise“ bezeichnet. Aufgrund der Unkorreliertheit der Zufallsvariablen ist die Autokorrelation beim „White Noise“-Prozess für einen beliebigen Lag gleich Null, so dass dieser Prozess keinerlei „innere“ Struktur aufweist. In der Regel weisen Zeitreihen jedoch eine mehr oder weniger starke serielle Abhängigkeit auf, d. h. sie sind autokorreliert. Für die Modellierung solcher Reihen haben sogenannte ARMA-Prozesse, die von Box & Jenkins (1976) in die Diskussion eingeführt wurden, grundlegende Bedeutung. Die Prozessgleichung eines ARMA-Prozesses der Ordnung (p,q) – kurz ARMA(p,q)-Prozess – lautet: Yt − φ1 Yt−1 − · · · − φp Yt−p = ε1 − θ1 εt−1 − · · · − θq εt−q .
(1)
Kürzer kann der Prozess in der Form φ(B)Yt = θ(B)εt
(2)
geschrieben werden, mit den beiden Lag-Polynomen φ(B) = 1 − φ1 B − · · · − φp Bp und θ(B) = 1 − θ1 B − · · · − θq Bq .
(3)
Dabei bezeichnen φ1 , . . . , φp die Koeffizienten des AR-Polynoms, θ1 , . . . θq die Koeffizienten des MA-Polynoms, p und q die Ordnung des AR- bzw. MA-Polynoms und B den Rückwärtsverschiebungs-Operator (Backshift- oder Lag-Operator), der wie folgt definiert ist: B j Yt = Yt−j· Wenn alle θ-Koeffizienten, nicht aber alle φ-Koeffizienten gleich Null sind, handelt es sich um einen reinen autoregressiven Prozess p-ter Ordnung: AR(p) oder ARMA(p,0); falls alle φ-Koeffizienten, nicht aber alle θ-Koeffizienten gleich Null sind, handelt es sich um einen reinen Moving-Average-Prozess q-ter Ordnung: MA(q) oder ARMA(0,q). Die AR- bzw. MA-Koeffizienten bestimmen die Dynamik des Modells, die darin zum Ausdruck kommt, wie ein Zufallsschock vom System „verarbeitet“ wird.5 Wenn sämtliche φ- und θ-Koeffizienten gleich Null sind, handelt 5
Theoretisch besteht allerdings eine Äquivalenz zwischen MA- und AR-Prozessen. Jeder stationäre AR(p)-Prozess lässt sich nämlich in einen MA(∞)-Prozess und jeder MA(q)Prozess in einen AR(∞)Prozess transformieren.
1058
Rainer Metz
es um einen „White Noise“-Prozess. Damit wird dieser zum Bestandteil eines jeden Zeitreihenmodells: für eine bestimmte Zeitreihe wird ein Modell so gewählt, dass die Residuen möglichst „White Noise“-Eigenschaften aufweisen. Ziel der Analyse ist es, den die Zeitreihe erzeugenden Prozess, der in der Praxis in der Regel unbekannt ist, zu identifizieren und zu modellieren. Dabei wird, wie bereits erwähnt, von einer vorliegenden Reihe auf den „erzeugenden“ und zunächst unbekannten Prozess geschlossen. Damit ist nicht eine bestimmte substanzwissenschaftliche Theorie Ausgangspunkt der Modellbildung, sondern die vorliegende Zeitreihe, bzw. statistische Kenngrößen, die mit ihr geschätzt werden. Der besondere „Charme“ dieser Modellierungsstrategie wird von seinen Verfechtern gerade darin gesehen, dass man sich für die empirische Analyse, jedenfalls zunächst nicht, für eine bestimmte Theorie entscheiden muss, sondern primär die Daten „sprechen“ lassen kann. Unterstützung findet diese Hypothese auch in der Tatsache, dass solche Modelle bei ökonomischen Zeitreihen in vielen Fällen zu besseren Prognosen führen als umfangreiche substanzwissenschaftlich konzipierte Modelle. Gleichwohl gibt es, vor allem in der Ökonomik, Theorien, die sich als autoregressive Prozesse darstellen lassen.6 Die konkrete Aufgabe besteht also darin, für eine Zeitreihe ein bestimmtes ARMAModell zu schätzen. Bevor man jedoch die Prozessparameter schätzen kann, ist es notwendig, den Prozesstyp zu identifizieren, worunter man die Festlegung von p und q versteht. Einzige Informationsquelle dafür ist die gegebene Zeitreihe, genauer: Kenngrößen, die auf der Basis dieser konkreten Reihe berechnet werden. Für die Identifikation kommen neben der Autokorrelationsfunktion und der sogenannten „partiellen“ Autokorrelationsfunktion das AIC-Kriterium (Akaikes Information Criterion), das BIC-Kriterium (Bayesian Information Criterion) oder Schwarz-Kriterium sowie das HQ- oder Hannan-Quinn-Kriterium in Frage. Nach der Identifikation sind die unbekannten Parameter des ARMA-Prozesses zu schätzen. Dabei geht es im Prinzip darum, diese so zu bestimmen, das sich ein möglichst guter „Fit“ von Modell (genauer: den vom Modell „vorhergesagten“ Reihenwerten) und den tatsächlichen Reihenwerten ergibt. Dazu wird entweder die Methode der kleinsten Quadrate verwendet oder die „Maximum-Likelihood“-Methode.7 Als letzter Schritt der Modellierung ist schließlich noch die Diagnose zu nennen. Dabei geht es im Wesentlichen um die Frage, ob die Residuen (die als Differenzen zwischen ModellReihenwerten und den tatsächlichen Reihenwerten definiert sind) als Realisation eines „White Noise“-Prozesses interpretierbar sind. Darüber hinaus wird mit Hilfe von Signifikanztests (t-Tests) geprüft, ob die geschätzten Parameter von Null verschieden sind. Ein „gutes“ Modell kann dahingehend charakterisiert werden, dass es möglichst wenige Parameter enthält, dass die Korrelationen der geschätzten Parameter nicht „zu 6
7
Vor allem in der Wachstums- und Konjunkturtheorie; man denke an Multiplikator- und Akzelerator-, oder Gleichgewichts-Konjunkturmodelle. Bei der „Maximum-Likelihood“ (ML)-Methode werden die unbekannten Parameter eines Modells so geschätzt, dass die Likelihoodfunktion für die beobachteten Variablen maximal wird. Bei der Methode der kleinsten Quadrate (auch „ordinary least squares“ (OLS)Methode) werden dagegen die Koeffizienten eines Modells so geschätzt, dass die Varianz der Residuen, definiert als quadrierte Abweichungen zwischen Modell- und beobachteten Reihenwerten, minimiert wird (vgl. ausführlich Rinne & Specht 2002, S. 391 ff.).
40 Zeitreihenanalyse
1059
groß“ sind, was auf eine Parameterredundanz hinweisen würde, und dass schließlich die Modellresiduen als Realisation von „White Noise“ interpretiert werden können. Betrachten wir als Beispiel zunächst die Reihe, die den Prozentanteil der Bundesbürger angibt, die dem neuen Jahr mit Hoffnungen entgegen sehen in Abbildung 1 a. Diese Reihe, die offensichtlich keinen Trend aufweist, wird vom Institut für Demoskopie in Allensbach seit 1949 ermittelt.8 Die Modellierung der Reihe für den Zeitraum von 1949 bis 2008 mit dem Programmodul IARIMA des Programms SCA9 liefert folgendes ARMA(1,0)-Modell:10 Yt = 50,35 + 0,474Yt−1 + εt (2,165) (0,1192) mit σε2 = 8,849. Danach folgt die Reihe einem (stationären) autoregressiven Prozess 1. Ordnung mit einem konstanten Mittelwert von 50,35 und einem AR(1)-Koeffizienten von 0,474, der die serielle Abhängigkeit aufeinander folgende Reihenwerte angibt. Die Modellresiduen (Differenz zwischen Modell-Reihenwert und tatsächlichem Reihenwert) sind in Abbildung 1 a und ihre Autokorrelationskoeffizienten (AKF) bis zum Lag 15 sind in Abbildung 1 b eingezeichnet. Da die Residuen offensichtlich „White Noise“-Eigenschaften aufweisen (Durbin-Watson-Statistik: DW = 1,959)11 kann man davon ausgehen, dass das spezifizierte Modell alle Informationen, die in der Reihe vorhanden sind, adäquat berücksichtigt. Als zweites Beispiel wählen wir die Anzahl der deutschen Strafgefangenen in Hamburg von 1971 bis 2008.12 Auch für diese Reihe lässt sich ein ARMA (1,0)-Modell mit befriedigenden Eigenschaften (DW-Statistik = 1,539) schätzen: Yt = 1384 + 0,9409Yt−1 + εt (218) (0,1098) mit σε2 = 81,004. Auffallend ist hier, dass der AR(1)-Koeffizient mit φ = 0,9409 relativ nahe bei Eins liegt, was als Hinweis auf eine mögliche Nichtstationarität der Reihe interpretiert werden kann. Reihe, Modellresiduen und AKF sind in den Abbildungen 1 c und d dargestellt. 8 9
10 11
12
Quelle: http://www.ifd-allensbach.de/ In den letzten Jahren wurde eine Reihe von automatischen Identifikationsprozeduren entwickelt, die den Prozess der Identifikation iterativ durchlaufen. Über eine solche Prozedur verfügt z. B. neben dem hier verwendeten EXPERT System von SCA (Scientific Computing Associates Corp., 913 W. Van Buren Street, Chicago, IL 60607-3528, USA) auch das Programmpaket AUTOBOX 6.0 (Automatic Forecasting Systems, Statistical Consultants, P.O. Box 563 / Hatboro PA. 19040, USA). Die Zahlen in Klammern bezeichnen den Standardfehler. Der DW-Test ist einer der meistangewandten Tests in der Zeitreihenanalyse. Die Residuen sind hoch korreliert, wenn die Prüfgröße DW nahe bei 0 oder bei 4 liegt; sie sind nicht oder nur schwach korreliert wenn sie nahe bei 2 liegt (vgl. Thome 2005, S. 233). Quelle: Justizbehörde der Freien und Hansestadt Hamburg, Strafvollzugsamt.
1060
Rainer Metz
(a) Hoffnungen Residuen
(b) AKF-Residuen
(c) Strafgefangene – Residuen
(d) AKF-Residuen
Abb. 1: Reihen, Modellresiduen und AKF Die ARMA-Modellierung kann als ein Mustererkennungsproblem angesehen werden, das viel Erfahrung und Fingerspitzengefühl voraussetzt. In der Regel werden bei der Modellierung die einzelnen Schritte: Identifikation – Schätzung – Diagnose iterativ so oft durchlaufen, bis sich eine „befriedigende“ Diagnose ergibt. Nicht selten zeigt es sich, dass für eine konkrete Zeitreihe mehrere unterschiedliche Modelle in Betracht kommen. In vielen empirischen Untersuchungen, in denen ARMA-Modelle Verwendung finden, schätzt man deshalb meist mehrere Modelle unterschiedlicher Ordnung, die dann im Hinblick auf die interessierenden Eigenschaften vergleichend interpretiert werden. Natürlich kann es auch vorkommen, dass man für eine Reihe kein Modell mit zufrieden stellenden Eigenschaften findet. Das kann verschiedene Gründe haben. So kann es z. B. sein, dass sich die Struktur des datenerzeugenden Prozesses im Untersuchungszeitraum geändert hat. Denkbar ist aber auch, dass sich nicht die Struktur des Prozesses geändert hat, sondern er lediglich durch außergewöhnliche, exogene Einflüsse zeitweilig gestört wurde. Die Aufgabe besteht in diesem Fall darin, diese externen Effekte zu identifizieren und ihre Auswirkungen zu schätzen, um dann anhand der bereinigten Reihe erneut Modellschätzungen vorzunehmen. Wir werden auf dieses Problem noch zurück kommen.
40 Zeitreihenanalyse
1061
4 Nichtstationäre (stochastische) Prozesse Wir sind bislang davon ausgegangen, dass die zu analysierende Zeitreihe einem stationären stochastischen Prozess folgt und damit einen zeitunabhängigen Erwartungswert aufweist. Es ist nun aber gerade ein Charakteristikum historischer und sozialökonomischer Zeitreihen, dass sie diese Bedingung im Allgemeinen nicht erfüllen. Die meisten dieser Zeitreihen weisen langfristig abfallende oder ansteigende oder wechselnde Trendrichtungen auf. Grundsätzlich verbirgt sich hinter diesen Trendrichtungen eine Dynamik, deren Ursachen in langfristig angelegten Wirkungsmechanismen des ökonomischen bzw. gesellschaftlichen Systems vermutet werden. Für eine Modellierung trendbehafteter Zeitreihen sind ARMA-Modelle daher offensichtlich nicht direkt geeignet. In diesem Zusammenhang haben Box & Jenkins (1976) eine Möglichkeit zur Modellierung nichtstationärer Zeitreihen vorgeschlagen, die relativ einfach ist. Sie beruht auf dem Postulat, dass vorhandene Trends durch Differenzenbildung eliminiert werden können und zwar so, dass nach Differenzenbildung eine Reihe vorliegt, die stationär ist. Das bedeutet, dass grundsätzlich von einer ganz bestimmten Klasse nichtstationärer Prozesse ausgegangen wird, die dadurch charakterisiert ist, dass die Nichtstationarität durch „Integration“ eines stationären Prozesses entsteht, weshalb man auch von Autoregressiven-Integrierten-Moving-Averagekurz: ARIMA-Prozessen spricht. Durch die Differenzenbildung wird diese Integration praktisch rückgängig gemacht, so dass wieder Stationarität vorliegt und damit die bisher betrachteten ARMA-Prozesse zur Modellierung herangezogen werden können. Man spricht in diesem Zusammenhang deshalb auch von differenzstationären oder DS-Prozessen. Ist Yt ein integrierter Prozess, der sich nach einfacher Differenzenbildung in einen stationären Prozess transformieren lässt Δ1 Yt = (1 − B)1 Yt ,
(4)
so spricht man von einem integrierten Prozess der Ordnung Eins, oder kurz: I(1)Prozess. Für eine zweifache Differenzenbildung kann man schreiben: Δ2 Yt = (1 − B)2 Yt .
(5)
In diesem Fall wird Yt als I(2)-Prozess bezeichnet. Allgemein lässt sich für eine d-fache Differenzenbildung schreiben Δd Yt = (1 − B)d Yt .
(6)
φ(B)Δd Yt = θ(B)εt
(7)
φ(B)(1 − B)d Yt = θ(B)εt ,
(8)
Die ARIMA-Darstellung lautet:
bzw. wobei φ(B) und θ(B) wiederum Lag-Polynome des Grades p bzw. q sind. Ein solcher Prozess wird nach Box & Jenkins (1976) als ARIMA(p,d,q)-Prozess bezeichnet, der
1062
Rainer Metz
durch das Tripel (p,d,q) vollständig charakterisiert ist und bei dem d den Grad der Differenzenbildung angibt. Bei ARIMA-Prozessen ist dieses d ganzzahlig. Im Falle |d| < 1 spricht man von fraktionell integrierten oder ARFIMA-Prozessen, die eine wichtige Rolle bei der Modellierung sehr langer Zeitreihen spielen. Der einfachste Fall eines nichtstationären stochastischen Prozesses ist der sogenannte „Random Walk“ Yt = Yt−1 + εt
(9)
bei dem εt „White Noise“-Eigenschaften besitzt. Da die einzige Nullstelle bzw. Wurzel des zugehörigen Lag-Polynoms gleich plus Eins ist, spricht man in diesem Zusammenhang auch von Prozessen mit einer Einheitswurzel oder von „Unit Root“-Prozessen. Löst man die Prozessgleichung rekursiv auf, dann erhält man Y t = Y0 +
t
εj ,
(10)
j=1
woraus ersichtlich wird, dass ein „Random Walk“ aus der Kumulation (Summation) von Zufallseinflüssen entsteht. Es liegt auf der Hand, dass solche Entwicklungen vor allem langfristig nur sehr bedingt prognostizierbar sind. Eine wichtige Erweiterung ist der „Random Walk“ mit einer Konstanten (Drift): Yt = μ + Yt−1 + εt mit der Lösung: Yt = Y0 + μt +
t
εj .
(11)
(12)
j=1
Für Erwartungswert und Varianz ergeben sich: E[Yt ] =tμ , V ar[Yt ] =tσ 2
(13)
Der Erwartungswert ist eine lineare Funktion der Zeit, während die Varianz wiederum gegen Unendlich geht, obwohl der „Random Walk“ mit Drift wegen μt eine deterministische Trendkomponente aufweist. Eine weitere wichtige Erweiterung stellen Modelle dar, bei denen der Drift selbst wieder einem „Random Walk“ folgt. Wir werden darauf in Zusammenhang der Zerlegung von Zeitreihen noch einmal zurück kommen. Offensichtlich ist die Existenz einer Einheitswurzel für die langfristige Dynamik eines Prozesses von grundlegender Bedeutung. Das lässt sich auch im Vergleich zu deterministischen Trendmodellen verdeutlichen. Als Beispiel wählen wir den einfachsten Fall eines linearen Trendmodells Yt = μ + bt + et (14) bei dem et ebenfalls als stationäre Zufallskomponente betrachtet wird. Der langfristige Reihenverlauf hängt nur von μ und der Steigung b ab, nicht aber von den Zufallseinflüssen et . Man spricht hier von einem „trendstationären Prozess“ 1. Ordnung oder
40 Zeitreihenanalyse
1063
kurz: von einem TS-Prozess. Während beim „Random Walk“ jede Zufallsänderung ein neues Trendniveau realisiert, das dann wieder Ausgangspunkt für alle weiteren Veränderungen der Reihe darstellt, haben Zufallseinflüsse im TS-Modell überhaupt keinen Einfluss auf die langfristige Entwicklung. Abbildung 2 zeigt einige simulierte Random Walk“-Prozesse für T = 100. Drei Realisationen eines „Random Walk“ ohne Mittelwert zeigt die Abbildung 2 a. Die drei Realisationen eines „Random Walk“ mit Mittelwert in Abbildung 2 b zeigen, dass der Mittelwert zu einer Art deterministischer Trendkomponente führt. Die 1. Differenzen dieser Reihen, deren Kumulation ja den „Random Walk“ ergibt, und die in Abbildung 2 nicht dargestellt sind, lassen sich jeweils als Realisationen eines „White Noise“-Prozesses auffassen. Wie man sieht, führt die Kumulation dieser Zufallseinflüsse nicht nur zu langfristigen Auf- bzw. Abwärtsbewegungen, sondern auch, im Falle des Random Walk mit Mittelwert, zu Trendverläufen, die zur Vorstellung verleiten, es handle sich dabei um regelmäßige oder gar deterministische Entwicklungen, was natürlich nicht der Fall ist. In Abbildung 2 c ist eine Realisation eines integrierten „Random Walk“ ohne Drift für T = 100 eingezeichnet. Für diese Reihe, die zwei Mal differenziert werden muss, um eine stationäre Reihe zu erhalten, ergeben die 1. Differenzen einen „Random Walk“ und die 2. Differenzen einen „White Noise“-Prozess (vgl. Abbildung 2 d). Der relativ „glatte“ Verlauf des integrierten „Random Walk“ ist typisch für I(2)-Prozesse.
5 Tests auf „Random Walk“ Der Frage, ob eine Zeitreihe integriert ist, und wenn ja, von welchem Grad (also z. B. I(0), I(1) oder I(2)), kommt für die Modellbildung entscheidende Bedeutung zu. So führen z. B. deterministische Trendmodelle bei I(1)-Prozessen zu künstlichen Zyklen („spurious cycles“) und zu einer Unterschätzung der Trendkomponente. Besonders verhängnisvoll ist die Tatsache, dass die OLS-Regression von I(1)-Prozessen zur Scheinkausalität („spurious regression“) führen kann, d. h. es wird ein statistisch signifikanter Zusammenhang zwischen den Reihen nachgewiesen, obwohl keiner existiert. Andererseits führt die Trendbereinigung durch Differenzenbildung bei TS-Prozessen ebenfalls zu Fehlschlüssen. Bei nicht integrierten Prozessen führt die Bildung von Differenzen zur Ausschaltung der langfristigen Dynamik sowohl in als auch zwischen Zeitreihen. Eine OLS-Regression von fälschlicherweise differenzierten TS-Prozessen konfrontiert den Forscher zudem mit dem Problem der scheinbaren Nicht-Kausalität. In der empirischen Forschung kommt man also nicht umhin, die Frage zu klären, ob eine konkrete Reihe einem DS-Prozess folgt. Diese Frage lässt sich in unterschiedlicher Weise analysieren. Die wohl bedeutendste Diskussion wird unter dem Stichwort „Einheitswurzeltest“ oder „Unit Root“-Test geführt. Worum es dabei geht, sei nachfolgend in vereinfachter Form dargestellt. Ausgangspunkt sei ein AR(1)-Prozess: Yt = ρYt−1 + εt . Um für endlich lange, sprich historische Reihen, festzustellen, ob ρ gleich Eins ist, muss ρ zunächst geschätzt und dann getestet werden, ob ρˆ signifikant von Eins abweicht. Die Nullhypothese ist dabei H0 : ρ = 1, d. h. der AR(1)-Prozess besitzt eine Einheitswurzel. Als Alternativhypothese formuliert man H1 : ρ =
1. Nun besitzt der Kleinst-QuadrateSchätzer ρˆ für den Fall, dass eine Einheitswurzel vorliegt, eine linksschiefe Verteilung,
1064
Rainer Metz
(a) Random Walk ohne Drift
(b) Random Walk mit Drift
(c) Integrierter Random Walk
(d) 1. & 2. Diff. Integr. Random Walk
Abb. 2: Simulierte „Random Walks“ weshalb die übliche t-Statistik von (ˆ ρ − 1) nicht mehr einer t-Verteilung folgt. Die Verteilung des Schätzers ρˆ lässt sich für ρ = 1 nur für unendlich große Stichproben theoretisch ableiten. Für endliche Stichproben ist sie jedoch unbekannt. Auch lassen sich die Quantile nicht geschlossen ableiten, sondern nur durch Simulation ermitteln. Die Unterscheidung zwischen einem stationären und nichtstationären AR(1)-Prozess stellt den einfachsten Fall eines Einheitswurzeltests dar. Wichtig sind darüber hinaus das Modell mit Absolutglied (Mμ ) und das Modell mit Absolutglied und linearem Trend (sogenanntes Trendmodell) (Mt ) (Mμ ) : (Mt ) :
Yt = μ + ρYt−1 + et Yt = μ + ut + ρYt−1 + et ,
(15) (16)
wobei et einen noch zu spezifizierenden Restgrößenprozess darstellt, bei dem es sich z. B. um „White Noise“, aber auch um einen ARMA(p,q)-Prozess handeln kann. In den letzten Jahren sind eine Vielzahl von Tests entwickelt worden, die sich bezüglich der Null- und Alternativhypothese sowie den Annahmen über den Restgrößenprozess unterscheiden. Die in der empirischen Forschung bedeutsamsten sind der
40 Zeitreihenanalyse
1065
Erweiterte Dickey-Fuller Test (ADF-Test)13 sowie der Phillips-Perron Test (PP-Test)14 . Sowohl der ADF- als auch der PP-Test basieren auf einer Regression der beobachteten Variablen bzw. deren ersten Differenzen, auf die um eine Zeiteinheit verzögerte Variable sowie auf die verzögerten ersten Differenzen der Variablen und gegebenenfalls auf ein Absolutglied und spezielle deterministische Regressoren. Kwiatkowski, Philipps, Schmidt und Shin (KPSS) (1992) haben einen Test entwickelt, bei dem unter der Nullhypothese das Vorliegen von Stationarität angenommen wird, weshalb man hier auch von einem Stationaritätstest spricht. Eine wichtige Erweiterung stellen Einheitswurzeltests dar, bei denen unter der Alternativhypothese ein (trend-)stationärer Prozess angenommen wird, der einen Strukturbruch aufweist. Ausgangspunkt dieser Überlegungen war die Feststellung, dass Einheitswurzeltests bei Reihen, die gebrochen linearen Trends folgen, die Nullhypothese einer Einheitswurzel nicht verwerfen können, obwohl sie falsch ist. Bei den in diesem Zusammenhang von Perron (1988, 1989) vorgeschlagenen Tests wird unter der Nullhypothese ein „Unit Root“-Prozess mit Drift betrachtet. Unter der Alternativhypothese wird dagegen ein trendstationärer Prozess formuliert, bei dem es zum Zeitpunkt 1 < TB < T zu einer einmaligen, exogen bedingten Veränderung der Parameter der Trendfunktion kommt. Dabei kann es sowohl zu einer Veränderung des Trendniveaus, der Trendsteigung wie auch gleichzeitig zu einer Veränderung von Niveau und Steigung kommen. Betrachten wir als Beispiel die Reihe der Strafgefangenen in Hamburg, für die wir ein ARMA(1,0)-Modell geschätzt hatten, bei dem der AR-Koeffizient ρ = 0,94 nahe bei Eins lag. Wir wollen nun testen, ob der AR-Koeffizient signifikant von Eins abweicht. Ist das nicht der Fall, wäre unser ARMA(1,0) fehlspezifiziert. Zunächst muss man festlegen, welches Modell man testen möchte. Da der Mittelwert der 1. Differenzen der Reihe mit -5 nahe bei Null liegt, wählen wir das Modell mit Absolutglied Yt = μ + ρYt−1 + et
(Mμ )
(17)
und testen die Nullhypothese H0 : μ = 0, ρ = 1 („Random Walk“ ohne Drift) gegen die Alternativhypothese: H1 : μ = 0, |ρ| < 1 (stationärer AR(1) mit Absolutglied). Zum Test verwenden wir den ADF-Test, bei dem für die Niveauvariable Yt = μ + ρYt−1 + et
(18)
bzw. für die 1. Differenzen die Regression ΔYt = μ + (ρ − 1)Yt−1 + et
(19)
geschätzt wird.15 Für den Fall, dass die 1. Differenzen der Reihe einem ARMAProzess folgen, kann man diesen beim Test durch einen AR(p)-Prozess genügend großer 13 14 15
Dickey & Fuller (1979, 1981). Phillips & Perron (1988). Alle gängigen Programme bieten eine Vielzahl von „Unit Root“-Tests. Allein in EViews 6 sind sechs verschiedene Tests verfügbar.
1066
Rainer Metz
Ordnung approximieren. Das Problem ist hier die Festlegung von p.16 Die Durchführung des Tests mit EViews 6 und p = 0 ergibt für die Teststatistik tα = −0,428. Die kritischen Werte, die von EViews 6 ebenfalls ausgegeben werden, sind: 1 % = −3,621, 5 % = −2,943, 10 % = −2,610. Da die Teststatistik offensichtlich deutlich größer ist als die kritischen Werte, können wir die Nullhypothese einer Einheitswurzel nicht ablehnen. Danach ist die Reihe nicht stationär, sie folgt einem „Random Walk“. Ergänzend führen wir einen Stationaritätstest durch. Als Nullhypothese formulieren wir einen stationären AR(1) mit Drift und als Alternativhypothese einen „Random Walk“ ohne Drift. Der KPSS-Test, der ebenfalls in EViews 6 verfügbar ist, liefert eine Lagrange-Multiplier (LM)-Teststatistik17 von 0,539. Mit den kritischen Werten von 1 % = 0,739, 5 % = 0,463, 10 % = 0,347 können wir die Nullhypothese mit einer Irrtumswahrscheinlichkeit von 5 % ablehnen. Danach wäre unser oben geschätztes ARMA(1,0)-Modell fehlspezifiziert. Folgt man den hier durchgeführten Tests, würde die Entwicklung der Strafgefangenen einem reinen Zufallsprozess folgen. Dass eine solche Annahme nicht nur für die Erklärung der Entwicklung, sondern auch für deren Prognose weitreichende Konsequenzen hat, liegt auf der Hand. Dieses Beispiel zeigt deutlich, welche Konsequenzen sich aus „Unit Root“-Tests und den entsprechend gewählten ARIMA-Modellen ergeben können. An dieser Stelle scheinen deshalb einige Hinweise auf Probleme im Umgang mit diesen Tests angebracht. Bei der Anwendung von „Unit Root“-Tests sollte man sich zunächst mit der Plausibilität der unter der Null- und Alternativhypothese formulierten Trendmodelle genau auseinandersetzen. Auch die mögliche Existenz von Irregularitäten ist dabei zu berücksichtigen und nicht zuletzt die Frage, für welchen Zeitraum man die entsprechenden Trendmodelle testen möchte. Hat man sich für ein bestimmtes Modell entschieden, empfiehlt es sich, verschiedene Tests durchzuführen, um damit Anhaltspunkte über die Stabilität der Ergebnisse zu erhalten. Ein grundsätzliches Problem besteht darin, dass verschiedene Tests unterschiedliche, sich widersprechende Ergebnisse produzieren können, die dann im Sinne einer weiteren Modellierung der Reihen interpretiert werden müssen. Berücksichtigt man ferner die geringe Macht der Einheitswurzeltests, dann kann die Schlussfolgerung für die empirische Arbeit nur sein, dass neben den Testergebnissen zahlreiche weitere Kriterien für die Modellierung von Zeitreihen benötigt werden. Grundsätzlich gilt es also zu bedenken, dass die Tests zwar wichtige Informationen über die Struktur der Zeitreihen liefern, aber niemals die Gewähr dafür bieten, mit den Tests den „wahren“ Prozess identifiziert zu haben. Man sollte deshalb immer kritisch prüfen, ob das aufgrund der Tests verwendete Modell die bestmögliche Approximation der Reihe liefert und welche anderen Modelle unter Umständen eine Alternative darstellen.
16
17
p wird von vielen Programmen automatisch festgelegt, wobei sie sich an den bereits oben erwähnten Teststatistiken für ARMA-Modelle orientieren. Bei LM-Tests handelt es sich um eine asymptotische Testprozedur, deren Teststatistik bei Richtigkeit der Nullhypothese Chi-Quadrat verteilt ist, und die Freiheitsgrade der Anzahl der Restriktionen entsprechen.
40 Zeitreihenanalyse
1067
6 Zerlegung von Zeitreihen Wir haben gezeigt, dass sich Zeitreihen aus dem Zusammenwirken unterschiedlicher Komponenten ergeben können, z. B. bei Reihen, die einem Trend folgen, aus einer stationären und einer nichtstationären Komponente, wobei letztere entweder stochastisch oder deterministisch ist. Auch bei stationären Reihen geht man von mehreren Komponenten aus, z. B. einer zyklischen -, einer irregulären - und, bei unterjährigen Reihen, einer Saisonkomponente.18 Es liegt also nahe, die Zeitreihe in diese nicht-beobachtbaren Komponenten zu zerlegen. Ausgangspunkt ist das Komponentenmodell, für das im einfachsten Fall eine nichtstationäre Trend- und eine stationäre Restkomponente angenommen werden: Yt = Tt + Rt . (20) Da sich lediglich eine Reihe, nämlich Yt , beobachten lässt, spricht man hier von nicht-beobachtbaren Komponenten („unobserved components“), für die immer nur Schätzungen zur Verfügung stehen. Rechnerisch ist eine solche Aufteilung der Reihe nur möglich, wenn man bestimmte Annahmen über die Eigenschaften der Komponenten macht, also diese definiert. In der Literatur werden verschiedene Möglichkeiten der Zerlegung diskutiert, wobei man Modellbasierte- und Filterbasierte Verfahren unterscheidet, für die es jeweils wiederum unterschiedliche Möglichkeiten gibt. Die wichtigsten Modellbasierten Verfahren sind die von Beveridge & Nelson (1981) vorgeschlagene Zerlegung, das von Harvey (1989, 1993) popularisierte strukturelle Zeitreihenmodell (STZ-Modell) sowie die u.a. von Gómez & Maravall (1997) entwickelte „kanonische“ Zerlegung eines ARIMA-Prozesses. Alle diese Verfahren gehen davon aus, dass eine Zeitreihe die Realisation eines nichtstationären ARIMA-Prozesses darstellt. Bei Beveridge und Nelson (BN) wird für den Trend ein „Random Walk“ mit konstantem Drift angenommen. Darüber hinaus wird a priori unterstellt, dass die „Noise“-Reihen der Trend- und stationären Restkomponente identisch sind. Unter dieser Bedingung haben sie gezeigt, dass jede Zeitreihe, die eine homogene Nichtstationarität vom Grade Eins aufweist, in eine stationäre Reihe und in einen „Random Walk“ mit Drift zerlegt werden kann. Der Verlauf der Komponenten hängt dabei wesentlich von den Eigenschaften des für die stationäre Reihe geschätzten ARIMA-Prozesses ab. Bei STZ-Modellen geht man davon aus, dass die „Noise“-Reihen der einzelnen Komponenten unabhängig voneinander sind. Ein einfaches strukturelles Zeitreihenmodell ist das sogenannte lokal-lineare Trendmodell: Yt = Tt + Ct + εt ,
t = 1, . . . , T
(21)
mit: Yt = Zeitreihe, Tt = Trend, Ct = Zyklus, εt = irreguläre Komponente, wobei für die Trendkomponente folgendes Modell angenommen wird:
18
Tt = Tt−1 + μt−1 + ηt
ηt ∼ NID(0; ση2 )
(22)
μt = μt−1 + ζt
ζt ∼
(23)
NID(0; σζ2 ) .
Die Bestimmung der Saisonkomponente ist in der empirischen Wirtschaftsforschung und der amtlichen Statistik von großer Bedeutung und hat zur Entwicklung ganz unterschiedlicher Saisonbereinigungsverfahren geführt.
1068
Rainer Metz
Dabei ist μt der „Drift“ („Slope“), während ηt und ζt Folgen von normalverteilten Zufallsschocks darstellen (NID steht für „normally, independently distributed“). Welche Trendform gewählt wird, hängt u. a. von den geschätzten Trendvarianzen σ ˆζ2 und σ ˆη2 2 ab. Ist σζ gleich Null, ist μt eine Konstante, und der Trend entspricht einem „Random Walk“ mit Drift. Ist ση2 gleich Null, entspricht der Trend einem zweifach integrierten Prozess. Sind beide Varianzen, also σζ2 und ση2 , gleich Null, handelt es sich um einen linearen Trend. Sind beide Varianzen größer als Null, handelt es sich ebenfalls um einen integrierten „Random Walk“, allerdings mit einer stochastischen Variation des Trendniveaus. Die Möglichkeit, mit diesem Modellierungsansatz nicht nur unterschiedliche Komponenten in das Modell zu inkludieren, sondern auch die Komponenten, vor allem den Trend, unterschiedlich zu modellieren, wird als wesentlicher Vorteil dieser Strategie angesehen. Die zyklische Komponente wird als stationärer stochastischer Prozess wie folgt modelliert: Ct cos ψ sin ψ Ct−1 κ =ξ + ∗t . (24) ∗ Ct∗ κt − sin ψ cos ψ Ct−1 Dabei sind κt und κ∗t unkorrelierte „White Noise“-Prozesse. Die Parameter 0 ≤ ψ ≤ π und 0 ≤ ξ ≤ 1 lassen sich als Frequenz bzw. als Dämpfungsfaktor des Zyklus interpretieren. Die Aufgabe besteht nun darin, die unbekannten „Hyperparameter“ ση2 , σζ2 , σκ2 , σε2 , ψ und ξ zu schätzen. Dazu wird das jeweils spezifizierte Modell zunächst in Zustandsraumform dargestellt (daher auch die Bezeichnung „State Space Model“). Optimale Schätzungen der Komponenten erhält man dann durch bestimmte Glättungsverfahren (Kalman-smoother). Die modellbasierte kanonische Zerlegung einer Zeitreihe geht auf mehrere Autoren zurück und wurde von Gómez & Maravall (1997) weiter entwickelt. Sie ist im Programmpaket TRAMO/SEATS realisiert. Praktisch eingesetzt wird das Verfahren vor allem zur Saisonbereinigung u.a. von EUROSTAT. Bei der kanonischen Zerlegung wird eine Zeitreihe in (orthogonale) Komponentenprozesse zerlegt, die ihrerseits wieder ARIMA-Prozesse sind. Geht man vom traditionellen Komponentenmodell mit den Komponenten Trend, Saison und irregulärer Komponente aus, dann werden die unbekannten Prozessparameter der jeweiligen ARIMA-Prozesse so festgelegt, dass die Varianz der irregulären Komponente maximiert und die der anderen Komponenten minimiert wird. Anders ausgedrückt, die unbekannten Prozessparameter werden so bestimmt, dass Trend- und Saisonkomponente möglichst „glatt“ verlaufen. Die daraus resultierende Komponentenzerlegung wird als kanonisch bezeichnet. Neben diesen Modellbasierten Verfahren spielen Filter-Verfahren in der empirischen Forschung eine große Rolle. Dabei versucht man, die einzelnen Komponenten einer Reihe anhand ihrer Schwingungsdauer zu definieren und dann Filter zu verwenden, die diese Schwingungen aus der Zeitreihe möglichst exakt herausfiltern. Generell versteht man unter einem Filter einen Algorithmus zur Transformation einer Zeitreihe. Die zu filternde Zeitreihe Yt wird als Inputreihe, das Ergebnis des Filters Zt als Outputreihe bezeichnet, so dass sich der Zusammenhang zwischen Filter-Input und Filter-Output folgendermaßen darstellen lässt: Zt = F (Yt ) .
(25)
40 Zeitreihenanalyse
1069
Handelt es sich bei dem Filter um ein lineares zeitinvariantes System Xt =
∞
hk Yt−k , t = . . . ; −2; −1; 0; 1; 2; . . . ,
(26)
k=−∞
dann lässt sich an der sogenannten Transferfunktion des Filters („Frequency Response Function“) studieren, wie der Frequenzgehalt der Inputreihe verändert wird. Die Transferfunktion ist im Allgemeinen komplexwertig und kann geschrieben werden als: T (f ) = |T (f )|eiπ(f ) , 0 ≤ f ≤ 0,5 .
(27)
Dabei wird |T (f )|, der Absolutbetrag von T (f ), üblicherweise als Amplitudenfunktion bezeichnet, während π(f ) die Phasenfunktion des Filters darstellt19 . Die Phasenfunktion gibt für jede Frequenz an, um wie viele Zeiteinheiten sie gegebenenfalls im Filter-Output verzögert dargestellt ist. Der Wert der Amplitudenfunktion gibt den Faktor an, mit dem Frequenzen bei der Übertragung von der Inputreihe in die Outputreihe multipliziert werden. Je nachdem, welche Frequenzen durch den Filter übertragen werden, spricht man z. B. von einem Hochpass- oder Tiefpass-Filter. Ein Hochpass überträgt nur hochfrequente und ein Tiefpass nur niederfrequente Schwingungen. Frequenzbereiche, die durch den Filter übertragen (oder eliminiert) werden, heißen Passbänder (bzw. Stoppbänder). Bei einem „idealen“ Filter hat die Amplitude im Passband exakt den Wert Eins und im Stoppband exakt den Wert Null. Der wesentliche Aspekt beim Filter-Design besteht darin, Filter mit exakter Amplitude und exakter Nullphase zu entwerfen. In den letzten Jahren sind unter diesen Gesichtspunkten Filterverfahren entwickelt worden, denen in der empirischen Forschung große Bedeutung zukommt. Es handelt sich dabei um den Hodrick-Prescott (HP)-, den Baxter-King (BK)- sowie den Christiano-Fitzgerald (CF)-Filter. Hodrick & Prescott (1997) schlagen vor, Yt durch eine glatte Kurve zu approximieren und diese als Trendkomponente zu definieren. Die „Glattheit“ des Trends wird dabei so festgelegt, dass die Quadratsumme der zweiten Differenzen der Trendkomponente kleiner oder gleich einer vorgegebenen Zahl ist. Diese Vorgabe lässt sich als Minimierungsproblem unter einer Nebenbedingung wie folgt darstellen: T t=1
(Yt − Tt )2 + λ
T −1 t=2
[(Tt+1 − Tt ) − (Tt − Tt−1 )]2 →
min . (Tt )
(28)
Im ersten Teil des Ausdrucks werden die quadrierten Abweichungen der Reihe vom Trend summiert. Diese Summe ist für Yt = Tt gleich Null. Je glatter der Trend ist, desto größer wird dieser Term. Der zweite Teil ist eine gewichtete Summe der zweiten Differenzen der Trendkomponente – der Gewichtungsfaktor ist λ – und damit ein Maß für die Glattheit des Trends. Dieser zweite Term ist gleich Null, wenn die Veränderung der glatten Komponente konstant, d. h. wenn Tt linear ist. Damit entsteht ein „trade off“ zwischen dem Fit und der Glattheit. Welches Gewicht den einzelnen Restriktionen 19
π(f ) misst die Phase in radian, weshalb sich eine Umrechnung in Zeiteinheiten empfiehlt, die sich aus einer Divison von π(f ) durch f ∈ [0; 0,5] ergibt.
1070
Rainer Metz
zukommt, wird durch den a priori festzulegenden Gewichtungsfaktor λ bestimmt. Mit größer werdendem λ wird der Trend immer glatter und schließlich, bei λ = ∞, linear. Bei λ = 0 ist der Trend mit der Originalreihe identisch. Dagegen versuchen Baxter & King (1999) und Christiano & Fitzgerald (2003) eine vorgegebene Amplitudenfunktion durch eine symmetrische Folge von Filtergewichten möglichst exakt zu approximieren. Dabei handelt es sich um sogenannte FIR-Filter20 : Xt = b0 Yt + b1 Yt−1 + · · · + bN Yt−N .
(29)
Ein FIR-Filter ist dann bestimmt, wenn die Filter Koeffizienten b0 ,b1 , . . . , bN festgelegt sind. Gleitende Mittelwerte sind z. B. einfache FIR-Filter. Die für die Realisierung exakter Amplitudenverläufe notwendige hohe Filterordnung bedeutet in der Praxis jedoch den Verlust vieler Anfangs- und Endwerte der Zeitreihe. Christiano und Fitzgerald haben deshalb auch einen asymmetrischen FIR-Filter entwickelt um diesen Datenverlust zu vermeiden. Grundsätzlich stellt sich bei der Anwendung von Filtern das Problem der Festlegung der Pass- und Stoppbänder.21 Ganz konkret lautet die Frage also, welche Schwingungen z. B. dem Trend, den zyklischen oder den saisonalen Schwankungen zugerechnet werden sollen. Substanzwissenschaftlich begründete Definitionen sind schwierig, weshalb man zusätzliche Kriterien für die Festlegung der Amplitudenfunktion benötigt. Diese kann das Periodogramm der Reihe bzw. deren Wachstumsraten liefern, da dieses den Anteil einzelner Frequenzen an der Gesamtvarianz der Reihe angibt. Gleichwohl wird von Kritikern eingewandt, dass bei der Anwendung von Filtern immer die Gefahr bestünde, dass dabei die stochastische Struktur der Daten nicht angemessen berücksichtigt werden würde. Als Beispiel für die Komponentenzerlegung verwenden wir die logarithmierte Reihe des Reallohnes in Deutschland von 1950 bis 200522 und wenden uns zunächst den modellbasierten Verfahren zu, wobei wir uns auf die von BN vorgeschlagene Zerlegung sowie auf ein STZ-Modell beschränken. Um die Komponenten nach BN zu schätzen, muss man zunächst ein ARIMA(p,1,q)-Modell bestimmen. Die automatische Modellidentifikation mit der Prozedur IARIMA von SCA liefert folgendes ARIMA(3,1,0)-Modell: (1 − B)Yt = 0,022 + 0,8371ΔYt−1 − 0,3171ΔYt−2 + 0,2696ΔYt−3 + εt (0,012) (0,134)
(0,1720)
(0,1336)
(30)
mit σε2 = 0,0166. Die nach diesem Modell geschätzte Trendkomponente ist in Abbildung 3 a dargestellt.23 Die stationäre Komponente in Abbildung 4 a weist beträchtliche Schwankungen 20
Da bei diesen Filtern die Impulsantwortfunktion von endlicher Dauer ist, spricht man von „F inite-I mpulse-Response“-Filtern. 21 Beim HP-Filter entspricht dies der Festlegung von λ. 22 Quelle: Digitales Informationssystem Soziale Indikatoren (DISI) der GESIS (http://www. gesis.org). 23 Zur Schätzung verwenden wir die Prozedur BNDECOMP des Programmpakets RATS 7.
40 Zeitreihenanalyse
(b) Reallohn und STZ-Trend
(a) Reallohn und BN-Trend
1071
(c) Reallohn und HP-Trend
(d) Reallohn und CF-Trend
Abb. 3: Trendkomponenten der Reallohnreihe auf, die ein eher irreguläres Muster zeigen. Auch ist der Trend volatiler als die Reihe, was im Sinne der traditionellen Vorstellungen von Wachstum und Konjunktur nur schwer interpretierbar ist. Dies ist mit ein Grund dafür, weshalb sich diese Art der Komponentenzerlegung in der empirischen Forschung bislang nicht wirklich durchgesetzt hat. Alternativ dazu kann man die stochastischen Komponenten auch mit einem STZ-Modell schätzen, wofür wir das lokal lineare Trendmodell verwenden. Die Schätzung der Hyperparameter mit STAMP 824 ergibt folgende Werte: ση2 = 0, σζ2 = 5,06930 · 10−5 , σκ2 = 7,04357 · 10−5 , σε2 = 0, ψ = 0,77134 und ξ = 0,84409. Danach setzt sich die Reihe aus einem relativ glatt verlaufenden Trend (Abbildung 3 b) und einer zyklischen Komponente mit einer durchschnittlichen Periodendauer von 8,1 Jahren (Abbildung 4 b) zusammen. Der mit diesem Verfahren geschätzte I(2)-Trend steht in Widerspruch zu dem Ergebnis der ARIMA-Modellierung, die einen I(1)-Trend mit konstantem Drift ergab. Die Tatsache, dass ARIMA- und STZ-Modelle häufig zu unterschiedlichen Ergebnissen bezüglich des Trends führen, hat eine intensive und kontroverse Diskussion darüber ausgelöst, unter welchen Bedingungen sich ein variabler Drift schätzen lässt, zumal in STZ-Modellen die geschätzte Slope-Varianz i.d.R. sehr 24
Structural Time Series Analyser, Modeller and Predictor, vgl. Koopman et al. (2007).
1072
Rainer Metz
(a) BN-Zyklus
(b) STZ-Zyklus
(c) HP-Zyklus
(d) CF-Zyklus und STZ-Zyklus
!"
!"
#$
#$
#% #%
(e) Drift, STZ-Zyklus und Dif. Reallohn
Abb. 4: Stationäre Komponenten sowie Drift und Slope der Reallohnreihe klein ist. Vergleicht man jedoch den konstanten Drift des ARIMA-Modells und den Slope des STZ-Modells mit den Wachstumsraten der Reihe25 in Abbildung 4 e , dann spricht einiges dafür, für diese Reihe einen variablen Drift und damit einen I(2)-Trend anzunehmen. Wenden wir uns nun den Filterverfahren zu und beschränken uns dabei auf den HP- und den asymmetrischen CF-Filter. Für den HP-Filter legen wir λ = 6,25 fest, womit wir einem Vorschlag von Ravn & Uhlig (2002) folgen.26 Der gefilterte Trend in Abbildung 3 c verläuft sehr glatt, was bei der resultierenden stationären Komponente in Abbildung 4 c ausgeprägte und relativ lang anhaltende Abweichungen von diesem Trend nach oben und unten hervorruft. Bei der Verwendung des CF-Filters muss man Beginn und Ende des Passbandes (Stoppbandes) explizit festlegen, wofür wir uns am Periodogramm der Reihe orientieren. Da dieses bei etwa 8 und 4 Jahren leichte „peaks“ zeigt, legen wir den Beginn des Passbandes mit 10 und sein Ende mit 2 Jahren fest. Für die Filterung verwenden wir den in EViews 6 implementierten asymmetrischen CF25 26
Hier als 1. Differenzen der logarithmierten Reihe dargestellt. Für die Filterung verwenden wir EViews 6.
40 Zeitreihenanalyse
1073
Filter. Die gefilterte Trendkomponente in Abbildung 3 d passt sich der Reihe flexibler an als der HP-Trend und ist in ihrem Verlauf mit dem Trend des STZ-Modells am ehesten vergleichbar. Entsprechend sind auch die CF-gefilterte zyklische Komponente in Abbildung 4 d und die zyklische Komponente des STZ-Modells, die noch einmal in Abbildung 4 d eingezeichnet ist, nahezu identisch. Diese Beispiele sollen zeigen, dass die unterschiedlichen Zerlegungsverfahren zu unterschiedlichen Komponenten und damit zu unterschiedlichen Aussagen über die langund kurzfristige Dynamik der Reihe führen. Die Auswahl eines bestimmten Modells bzw. Filters für die Zerlegung der Reihe wird sich daher nicht nur an den statistischen „Güte“-Eigenschaften des jeweiligen Verfahrens orientieren müssen, sondern auch an der substanzwissenschaftlichen Interpretation der resultierenden Komponenten. Auch hier gilt für die konkrete Arbeit die Forderung, immer mehrere Verfahren zu verwenden, um dann die Ergebnisse vergleichend zu interpretieren. Als besonders vertrauenswürdig können jene Resultate eingestuft werden, die sich verfahrensunabhängig als stabil erweisen. Von besonderer Bedeutung sind in diesem Zusammenhang auch mögliche Irregularitäten und Strukturbrüche in den Reihen, da sich diese auf die geschätzten Komponenten auswirken. Allerdings lassen sich Strukturbrüche und Irregularitäten nur mit Modellbasierten Verfahren, nicht jedoch mit Filterverfahren identifizieren und schätzen.
7 Interventionsanalyse Unseren bisherigen Überlegungen lag lediglich eine Zeitreihe zugrunde, für die wir versucht haben, ein bestimmtes Modell zu schätzen, bzw. sie in ihre (unbeobachtbaren) Komponenten zu zerlegen. Wir sind dabei davon ausgegangen, dass eine Zeitreihe das Ergebnis regelmäßig auftretender normalverteilter Zufallseinflüsse ist. Das muss jedoch nicht immer so sein. Häufig sind diese Zufallseinflüsse durch außergewöhnliche, exogen bedingte Ereignisse überlagert, bzw. gestört. Die Auswirkungen solcher außergewöhnlichen Ereignisse werden im Rahmen der sogenannten Interventionsanalyse untersucht. Interventionen werden dabei als historisch singuläre, exogen bedingte Ereignisse außerhalb des eigentlichen Prozessmechanismus aufgefasst, die eine vorübergehende oder andauernde, abrupte oder allmähliche Verschiebung im mittleren Niveau einer Zeitreihe bewirken. Für die Analyse von Zeitreihen sind solche Interventionen von grundlegender Bedeutung, da sie sowohl Struktur „induzieren“ als auch vorhandene Struktur „verdecken“ können. Sie können also, sofern sie nicht erkannt werden, zu gravierenden Fehlschlüssen führen. Dies betrifft nicht nur die Modellspezifikation, die Parameter- und Komponentenschätzung, sondern auch die Prognose sowie die Modellierung des strukturellen Zusammenhangs zwischen Zeitreihen verschiedener Indikatoren. Für die Analyse solcher Interventionen gibt es wiederum mehrere Möglichkeiten. Grundlegende Bedeutung hat die von Box & Jenkins (1975) entwickelte Interventionsanalyse („impact assessment“), bei der man versucht, die Wirkung besonderer, herausragender Ereignisse, die bekannt sind, in ihrer Stärke und ihrem zeitlichen Verlauf zu schätzen. Darüber hinaus sind Verfahren entwickelt worden, mit denen
1074
Rainer Metz
Tab. 1: Schätzung des Interventionsmodells mit SCA ------------------------------------------------------------------------------VARIABLE TYPE OF ORIGINAL DIFFERENCING VARIABLE OR CENTERED 1 V1 RANDOM ORIGINAL (1-B ) 1 DUM BINARY ORIGINAL (1-B ) -----------------------------------------------------------------------------PARAMETER LABEL 1 2 3 4 5
CNST W0 P1 P2 P3
VARIABLE NAME DUM V1 V1 V1
NUM./ FACTOR DENOM. CNST NUM. AR AR AR
1 1 1 1 1
EFFECTIVE NUMBER OF OBSERVATIONS . . R-SQUARE . . . . . . . . . . . . . . RESIDUAL STANDARD ERROR. . . . . . .
ORDER 0 0 1 2 3
CONSTRAINT
VALUE
STD ERROR
T VALUE
NONE 3643.7059 1281.6548 NONE 34096.5798 7854.1143 NONE .3570 .1126 NONE .1348 .1204 NONE -.3646 .1144
2.84 4.34 3.17 1.12 -3.19
48 0.992 0.765712E+04
man den Einfluss außergewöhnlicher Ereignisse, über die zunächst nichts bekannt ist, identifizieren und modellieren kann (Ausreißeranalyse). Zusätzlich bieten strukturelle Zeitreihenmodelle die Möglichkeit, den Einfluss solcher Interventionen auf einzelne Komponenten des Modells zu schätzen (vgl. Metz 2010). Im Rahmen der Interventionsanalyse geht man davon aus, dass eine Zeitreihe das Ergebnis einer regulären „Noise“-Komponente und einer Reihe von exogenen, deterministischen Interventionen ist. Bei den Interventionen unterscheidet man verschiedene Typen. Die beiden wichtigsten sind der Puls- und der Stufen-Input. Dabei bezeichnet man eine einmalige, zu einem bestimmten Zeitpunkt auftretende Intervention als Puls-Input. Eine Intervention mit dauerhafter Wirkung wird als Stufen-Input bezeichnet. Darüber hinaus spricht man von Block-Input, wenn eine Intervention zu einem bestimmten Zeitpunkt einsetzt, eine gewisse Zeit anhält und dann plötzlich wieder endet. Und schließlich wird eine dauerhafte Intervention mit zunehmender Wirkung als Rampen-Input bezeichnet. Natürlich können die verschiedenen Interventionen bei einer Zeitreihe auch mehrmals zu verschiedenen Zeitpunkten auftreten. Im Falle nur einer Intervention lässt sich das Modell wie folgt schreiben: Yt = C +
ω(B) It + Nt . δ(B)
(31)
Nt steht für die reguläre „Noise“-Komponente, für die wir einen ARIMA-Prozess annehmen. It ist ein binärer Indikator, der den Zeitpunkt der Intervention angibt. Das rationale Lag-Polynom ω(B)/δ(B) gibt an, wie die Intervention vom System verarbeitet wird. Dabei steht ω(B) für das Ausmaß der Intervention und die Dauer seiner Wirkung. δ(B) zeigt den Verlauf der Wirkung der Intervention. Der Ausdruck ω(B)/δ(B) wird auch als Transferfunktion bezeichnet, da er den Transfer der Intervention in die
40 Zeitreihenanalyse
1075
beobachtete Zeitreihe angibt. Obwohl sich damit nahezu beliebige Verlaufsmuster modellieren lassen, sind in der Praxis meist einfache Transferfunktionen ausreichend, wie z. B. δ(B) = 1 − δ1 B . (32) Die konkrete Aufgabe besteht darin, Modelle für die Transferfunktion und die stochastische „Noise“-Komponente zu identifizieren und zu schätzen. Auch dies erfolgt, wie bei der ARIMA-Modellierung, in einem iterativen Prozess von Identifikation, Schätzung und Diagnose. Betrachten wir als Beispiel die Reihe der Studienanfänger an deutschen Hochschulen und Universitäten {Yt } von 1950 bis 2000.27 Diese Reihe weist 1972 eine markante Niveauverschiebung auf, die mit dem 1971 eingeführten BAFöG in Verbindung gebracht werden kann. Mit Hilfe der Interventionsanalyse wollen wir nun das Ausmaß dieser bildungspolitischen Maßnahme untersuchen. Hierzu formulieren wir einen Stufen-Input St , der bis 1971 den Wert 0 und ab 1972 den Wert 1 annimmt. Für die Struktur der „Noise“-Komponente lässt sich ein ARIMA(3,1,0)-Modell identifizieren. Das zu schätzende Interventionsmodell hat demnach folgende Form: (1 − φ1 B − φ2 B 2 − φ3 B 3 )(1 − B)Yt = c + ω(1 − B)St + εt .
(33)
Die Schätzung dieses Modells mit SCA liefert das in Tabelle 1 dargestellte Ergebnis. Dabei bezeichnen V 1 die Originalreihe Yt und DUM die Interventionsvariable St . Bei beiden Reihen gehen die 1. Differenzen (1 − B 1 ) in das Modell ein. P 1, P 2, P 3, CN ST und W 0 stehen für die AR-Koeffizienten φ1 , φ2 , φ3 , die Konstante C und den Interventionseffekt ω. Wie man sieht, wird das Ausmaß der Intervention mit etwa 34. 097 Studenten geschätzt, um die die Anzahl der Studienanfänger 1972 plötzlich und dauerhaft erhöht wird. Mit diesem Wert lässt sich die Reihe der Studienanfänger auch „bereinigen“. Als Ergebnis erhält man eine Reihe, die zeigt, wie sich die Anzahl der Studienanfänger ohne diese Maßnahme entwickelt hätte (Abbildung 5 a). Diese adjustierte Reihe verläuft ab 1972 auf einem konstant niedrigeren Niveau als die tatsächliche Reihe. In den Veränderungsraten der Reihe (Abbildung 5 b) entspricht dieser Effekt einem Puls-Input, dessen Ausmaß sich aus der Differenz zwischen den Veränderungsraten der Originalreihe und denen der adjustierten Reihe ergibt. Aus der Subtraktion dieser Veränderungsraten ergibt sich der geschätzte Interventionseffekt, der in Abbildung 5 c dargestellt ist.
8 Ausreißer-Analyse Im Rahmen der Interventionsanalyse sind wir davon ausgegangen, dass Zeitpunkt und Wirkungsverlauf der Interventionen bekannt sind. Bei der praktischen Arbeit wird man jedoch davon ausgehen müssen, dass der Verlauf der Reihe auch von zunächst unbekannten exogenen Ereignissen beeinflusst ist. Im Rahmen der ARIMA-Modellierung sind deshalb Suchstrategien entwickelt worden, die es erlauben, Ausreißer, die als Folge 27
Quelle: Historische Statistik (HISTAT) in GESIS (http://www.histat.gesis.org).
1076
Rainer Metz
00 0000 Studienanfänger
1950
1955
1960
1965
1970
1975
1980
1985
1990
Studanfänger adjustiert
1995
2000
2005
2010
(a) Studienanfänger und Studienanfänger adjustiert Dif. Studienanfänger
Dif. Studienanfänger adjustiert
25000 0 1950
1955
1960
1965
1970
1975
1980
1985
1990
1995
2000
2005
2010
(b) Dif. Studienanfänger und Dif. Studienanfänger adjustiert 30000 20000 10000 Intervention
1950
1955
1960
1965
1970
1975
1980
1985
1990
1995
2000
2005
2010
(c) Intervention
Abb. 5: Studienanfänger Original, adjustiert und Intervention zunächst unbekannter Interventionen entstehen, zu diagnostizieren und ihre Effekte zu modellieren. Auch dabei werden Ausreißer als Interventionseffekte behandelt und im Rahmen der Transferfunktions-Modelle modelliert. Grundsätzlich werden dabei vier verschiedene Ausreißertypen unterschieden: Additive Ausreißer (AO: Additive Outlier), Innovative Ausreißer (IO: Innovative Outlier), Dauerhafte Niveauverschiebung (LS: Level Shift) sowie Zeitweilige Niveauverschiebung (TC: Temporary Change). Bei der Identifikation und Schätzung der (unbekannten) Ausreißer stellt sich nun folgendes Problem: Wenn die Ausreißereffekte und die Zeitpunkte ihres Auftretens bekannt sind, kann man die beobachtete Zeitreihe entsprechend bereinigen und die Modellparameter unbeeinflusst durch die Ausreißer schätzen. Andererseits: Erst wenn die Modellparameter und die Residuen bekannt sind, lassen sich bestimmte Werte als Ausreißer identifizieren. Einen Ausweg aus diesem Dilemma bietet nur ein iteratives Verfahren, das die Ausreißereffekte und die ARMA-Parameter sukzessive in wechselseitiger Anpassung (in diesem Sinne „gemeinsam“) schätzt. Gestützt auf die Arbeiten von Chang & Tiao (1983) und Chang et al. (1988) haben Chen & Liu (1990, 1993) ein erweitertes Verfahren vorgeschlagen, das alle vier oben erwähnten Ausreißertypen iterativ identifiziert und modelliert. Dieses Verfahren ist sowohl in dem Software-Paket SCA in der Routine OESTIM als auch in TRAMO/SEATS implementiert.
40 Zeitreihenanalyse
1077
Tab. 2: Automatische Ausreißerbereinigung mit SCA ------------------------------------------------------------------------------VARIABLE TYPE OF ORIGINAL DIFFERENCING VARIABLE OR CENTERED 1 V1 RANDOM ORIGINAL (1-B ) -----------------------------------------------------------------------------PARAMETER LABEL 1 2
CNST T1
VARIABLE NAME V1
NUM./ FACTOR DENOM. CNST MA
1 1
ORDER
CONSTRAINT
0 1
NONE NONE
VALUE
STD ERROR
T VALUE
49.1407 -.3792
13.4603 .1538
3.65 -2.47
SUMMARY OF OUTLIER DETECTION AND ADJUSTMENT ------------------------------------TIME ESTIMATE T-VALUE TYPE ------------------------------------1959 6 283.770 5.46 TC 1963 10 -1024.011 -17.39 LS 1983 30 -758.283 -12.88 LS 1990 37 -420.017 -8.02 TC 1992 39 131.384 3.68 AO ------------------------------------TOTAL NUMBER OF OBSERVATIONS. . . . . . . . . . . . . EFFECTIVE NUMBER OF OBSERVATIONS. . . . . . . . . . . RESIDUAL STANDARD ERROR (WITHOUT OUTLIER ADJUSTMENT). RESIDUAL STANDARD ERROR (WITH OUTLIER ADJUSTMENT) . .
. . . .
46 45 0.237275E+03 0.636142E+02
Nehmen wir als Beispiel die Reihe der Tatverdächtigenbelastungsziffer (TVBZ) in Deutschland von 1954 bis 1999.28 Diese Reihe weist aufgrund zahlreicher Änderungen in der Erfassung nicht nur mehrere Niveauverschiebungen auf, sondern verzeichnet auch für 1991 und 1992 erhebliche Mindererfassungen. Als Basismodell lässt sich für diese Reihe ein ARIMA(0,1,0)-Modell identifizieren. Eine automatische Ausreißerbereinigung mit der Prozedur OESTIM des Programmpaketes SCA liefert das in Tabelle 2 dargestellte Ergebnis mit 5 Interventionen: 1959 haben wir eine positive, 1963, 1983, 1990 eine negative und 1992 wieder eine positiv wirkende Intervention. 1963 führt der Ausschluss von Straßenverkehrsdelikten und 1983 die Umstellung auf die Echttäterzählung zu dramatischen Verschiebungen im Niveau der Reihe, die 1963 mit 1024 Personen und 1983 mit 758 Personen zu Buche schlägt. Ab 1990 wirken sich die Mindererfassung und der Einbezug der neuen Bundesländer sowohl negativ wie auch positiv aus. Das Ausmaß der Effekte ist in 28
Quelle: Historische Statistik (HISTAT) in GESIS (http://histat.gesis.org/). Die TVBZ repräsentiert die ermittelten strafmündigen Tatverdächtigen auf 100.000 Einwohner der gleichen Personengruppe. Bis 1956 Bundesgebiet ohne Saarland, einschl. Berlin-West; ab 1957 Bundesgebiet einschl. Berlin-West. Straftaten insgesamt. Seit 1963 ohne Verkehrsstraftaten. Seit 1971 Ausgangsstatistik statt Eingangsstatistik. 1983: Kein Wert vorhanden. Seit 1984 ohne Mehrfachzählung von Mehrfachtätern. Ab 1991 Daten für Deutschland einschl. der neuen Bundesländer. Für 1991 und 1992 erhebliche Mindererfassung.
1078
Rainer Metz
"!"
"
"
(a) Effekt und Kum. Effekt
"!"
(b) TVBZ und TVBZ adjustiert
"!" "!"
(c) Dif. TVBZ und Dif. TVBZ adj.
"
(d) AKF-Residuen
Abb. 6: TVBZ: Original, adjustiert, Interventionen und AKF der Residuen Abbildung 6 a dargestellt. Die Kumulation dieser Effekte, die ebenfalls in Abbildung 6 a dargestellt ist, zeigt, wie sich das Niveau der Reihe nachhaltig verändert. Interessant ist auch der in Abbildung 6 b dargestellte Verlauf der adjustierten Reihe, der zeigt, wie sich die TVBZ entwickelt hätte, wenn die Interventionen nicht stattgefunden hätten. Vergleicht man die jährlichen Veränderungen der Originalreihe mit denen der adjustierten Reihe in Abbildung 6 c, dann zeigt sich, wie sich die Interventionen auf die jährlichen Veränderungen ausgewirkt haben. Dass unser Interventionsmodell eine „gute“ Beschreibung der Reihe darstellt, wird durch die Modellresiduen bestätigt, die „White Noise“-Eigenschaften aufweisen, wie deren Korrelogramm in Abbildung 6 d zeigt. Für eine Analyse dieser Reihe, sowohl uni- wie auch multivariat, ist streng genommen natürlich nur die adjustierte Reihe aussagekräftig.
9 Transferfunktions-Modelle Im Rahmen der Interventions- und Ausreißeranalyse haben wir nach der Wirkung exogener Ereignisse auf den stochastischen Prozessverlauf gefragt. Häufig richtet sich das Interesse jedoch nicht nur auf den Einfluss eines bestimmten Ereignisses, sondern auf den generellen Zusammenhang zwischen zwei oder mehr Variablen. Geht man dabei
40 Zeitreihenanalyse
1079
zunächst davon aus, dass zwischen diesen kausale Abhängigkeiten bestehen, dann werden solche kausalen Beziehungen traditionell im Rahmen des klassischen linearen Regressionsmodells untersucht. Im einfachsten Fall einer kausalen Abhängigkeit einer bestimmten Variablen Yt von einer anderen Variablen Xt kann man z. B. folgende Regressionsgleichung schätzen: Yt = const + βXt + εt .
(34)
Nun sind aber bei Zeitreihen wichtige Voraussetzungen für die Anwendbarkeit dieses Modells nicht erfüllt. Erstens sind in der Regel die Störgrößen εt autokorreliert. Zweitens weisen die meisten Zeitreihen zeitabhängige Erwartungswerte (also Trends) auf, was zum Problem der Schein-Kausalität von Xt → Yt führen kann. Während man das zweite Problem durch geeignete Trendbereinigungsverfahren zu lösen versucht, verlangt das erste Problem eine andere Lösung. Im Rahmen der ARIMA-Modellierung sind in diesem Zusammenhang die sogenannten Transferfunktions-Modelle (TF-Modelle) entwickelt worden, die wir bei der Interventions- und Ausreißeranalyse bereits kennen gelernt haben. Im Gegensatz zur Interventionsanalyse geht es aber jetzt nicht um den Einfluss exogen deterministischer Ereignisse, sondern um den Einfluss einer (unabhängigen) stochastischen Variablen auf die (abhängige) stochastische Variable. Im Unterschied zu den Interventionsmodellen werden die Input-Variablen hier als stochastisch angesehen. Die Wirkung der Input-Variablen wird nicht augenblicklich erfolgen, sondern sie wird sich über mehrere Beobachtungsintervalle vollziehen. Derartige Modelle, bei denen kausale Abhängigkeiten zwischen stochastischen Variablen bestehen, werden allgemein als TF- oder ARMAX-Modelle bezeichnet. TF-Modelle lassen sich als Verallgemeinerungen des üblichen Regressionsmodells betrachten. Sie lassen korrelierte latente Variablen zu, stochastische Inputs sowie auch dynamische Input-Output Beziehungen. Ein Ziel der Transferfunktionenanalyse ist es, kausale Abhängigkeiten zwischen Variablen zu identifizieren um so z. B. Prognosen von Yt zu verbessern. Damit ist insbesondere dann zu rechnen, wenn es sich bei der Input-Variablen um einen „leading-indicator“ handelt. Man unterscheidet TF-Modelle mit einer Input-Variablen und solche mit mehreren Input-Variablen. Betrachten wir das Modell mit nur einer Input-Variablen: Yt = f (Xt ) + Nt .
(35)
Nt ist der „Noise“-Teil des Modells, für den a priori kein „White Noise“- Prozess postuliert wird wie im klassischen Regressionsmodell. Unterstellt man eine lineare Beziehung zwischen Input und Output, dann kann für ein solches Modell geschrieben werden: Yt = ν0 Xt + ν1 Xt−1 + ν2 Xt−2 + · · · + Nt = ν(B)Xt + Nt , (36) wobei das Lag-Polynom ν(B) =
∞ j=0
νj B j mit
∞ j=0
|νj | < ∞
(37)
1080
Rainer Metz
als Transferfunktion und νj als Impuls-Antwort-Funktion (IAF) bezeichnet wird. Die Transferfunktion enthält unendlich viele Impuls-Antwort-Gewichte. Damit kann natürlich bei endlich langen Zeitreihen nicht gearbeitet werden, weshalb man folgende Modifikation vornimmt: m νj B j Xt + Nt , (38) Yt = j=0
Dabei wird m so gewählt, dass alle Effekte, die weiter als m Zeiteinheiten zurückliegen, vernachlässigt werden. Das Problem der Bestimmung von m kann man umgehen, wenn man die Transferfunktion grundsätzlich als rationale Funktion in B ansetzt: ν(B) :=
ω(B) b B δ(B)
(39)
mit den Lag-Operatoren ω(B) = ω0 − ω1 B − · · · − ws B s δ(B) = 1 − δ1 B − · · · − δr B r ,
(40)
wobei b die reine Verzögerung zwischen Input und Output bezeichnet. Ein TF-Modell ist dann bestimmt, wenn die IAF, also (r,s,b) sowie Nt identifiziert sind. Grundlegend für TF-Modelle ist die Kreuzkovarianz- bzw. Kreuzkorrelationsfunktion (KKF) zwischen Input und Output γXY (h) = E(Yt Yt+h ) bzw. ρXY (h) =
γXY (h) σX σY
(41)
für h = 0, ±1, ±2. σx bzw. σy bezeichnen die Standardabweichungen des Input- bzw. Output-Prozesses. Die KKF misst nicht nur die Stärke, sondern auch die Richtung des (linearen) Zusammenhangs der beiden Prozesse. Nur wenn Xt als kausal für Yt oder Yt als kausal für Xt bezeichnet werden kann, d. h. wenn eine Rückkopplung zwischen den beiden Prozessen ausgeschlossen ist (Modelle ohne „feedback“), ist es sinnvoll, ein kausales TF-Modell zu verwenden. Allerdings hängt die KKF nicht nur von Stärke und Richtung des Zusammenhangs der beiden Prozesse ab, sondern auch von der Autokorrelation des Inputs. Um diesen Effekt auf die KKF auszuschalten, haben Box & Jenkins vorgeschlagen, den Input-Prozess auf „White Noise“ zu transformieren und den Output-Prozess entsprechend zu „filtern“. Diese Transformation wird als „prewhitening“ („Vorweißen“) bezeichnet. Für die Identifikation von TF-Modellen sind insgesamt mehrere Arbeitsschritte erforderlich: Zunächst ist zu prüfen, ob die Zeitreihen stationär sind. Wenn nicht, ist eine entsprechende Trendbereinigung vorzunehmen. ˆ ˆ Für den Input-Prozess wird dann ein ARMA-Modell identifiziert: φ(B)X εt . t = θ(B)ˆ Danach wird der Output-Prozess mit Hilfe dieses „prewhitening“-Modells gefiltert. In einem nächsten Schritt wird die KKF zwischen den Residuen des Input-Prozesses und dem vorgeweissten Output-Prozess geschätzt. Die signifikanten Impuls-AntwortGewichte können nun aus den geschätzten Kreuzkorrelationskoeffizienten bestimmt werden und aus dem Verlaufsmuster der Impuls-Antwort-Gewichte kann auf die Prozessordnung (r,s,b) der Transferfunktion geschlossen werden. Danach können die
40 Zeitreihenanalyse
1081
ˆt ω- und δ-Parameter von ν(B) bestimmt werden. Der geschätzte „Noise“-Prozess N ergibt sich aus der Differenz: Yt − νˆ(B)Xt . Schließlich wird für den „Noise“-Prozess ein ARMA-Modell identifiziert und geschätzt. Die Identifikationsphase, die häufig mehrmals durchlaufen wird, führt zu einem TF-Modell ω(B) θN (B) (42) Yt = ν(B)Xt−b + Nt = Xt−b + at δ(B) φN (B) für das die unbekannten Parameter ω = (ω0 , . . . , ωs ) , δ = (δ1 , . . . , δr ) , φ = (φN1 , . . . , φNp ) sowie θ = (θN1 , . . . , θNq ) mit Hilfe von Maximum-Likelihood Verfahren geschätzt werden. Nach der Identifikations- und Schätzphase folgt die Diagnose des TF-Modells. Dabei können das „Noise“-Modell, die Transferfunktion oder auch beide fehlspezifiziert sein. Ist das TF-Modell fehlspezifiziert, dann ist die KKF zwischen dem vorgeweissten Input-Prozess Xt und den Innovationen im „Noise“-Term von Null verschieden. Sofern das „Noise“-Modell fehlspezifiziert ist, sind die Innovationen des „Noise“-Terms autokorreliert. Für die Überprüfung der geschätzten KKF und der Modell Residuen stehen wiederum verschiedene Teststatistiken zur Verfügung. Betrachten wir als Beispiel den Zusammenhang zwischen dem Ausländeranteil (AusAnt)29 und den ausländischen Strafgefangenen (AusSG)30 in Hamburg von 1971 bis 2007 (Jahresdaten). Beide Reihen sind in Abbildung 7 a und b dargestellt. Offensichtlich sind beide Reihen nicht stationär und weisen zudem eine Parallelbewegung auf. „Unit Root“-Tests weisen bei beiden Reihen auf eine Einheitswurzel hin. Die automatische Modellidentifikation von SCA liefert für die Reihe der Strafgefangenen ein ARIMA(3,1,0) Modell, bei dem allerdings nur der AR-Koeffizient zum Lag 3 signifikant ist. Für die Reihe des Ausländeranteils wird ein ARIMA(3,1,0) Modell identifiziert. Mit letzterem wird nun die Reihe der Strafgefangenen vorgeweisst. Um die kausale Abhängigkeit zwischen den beiden Reihen zu testen, wird die KKF zwischen den Residuen des Input-Prozesses und dem vorgeweissten Output-Prozess geschätzt. Die in Abbildung 7 c dargestellten Werte der KKF weisen auf eine Kausalität von AusAnt → AusSG aber nicht umgekehrt hin, was darauf hindeutet, dass sich die Veränderung des Ausländeranteils auf die Veränderung der Anzahl der Strafgefangenen auswirkt. Aus dem Muster der signifikanten KKF-Koeffizienten lassen sich die Parameter der Transferfunktion bestimmen und damit auch das „Noise“-Modell schätzen. Wir erhalten schließlich folgendes TF-Modell: (1 − 0,8B)(1 − B) AusSG = (5,692B 3 + 9,511B 4 )(1 − B) AusAnt + εt ,
(43)
das sich folgendermaßen interpretieren lässt: Bei einem Anstieg des Ausländeranteils um einen Prozentpunkt erhöht sich die Anzahl der ausländischen Strafgefangenen ab dem drittem Jahr um insgesamt etwa 15, wobei die Noise-Komponente nun eine AR(1)-Struktur aufweist. Für die Diagnose des geschätzten TF-Modells ist zunächst bedeutsam, dass die Residuen des TF-Modells „White Noise“-Eigenschaften aufweisen. Auch die KKF 29 30
Quelle: Statistisches Amt für Hamburg und Schleswig-Holstein. Justizbehörde der Freien und Hansestadt Hamburg, Strafvollzugsamt.
1082
Rainer Metz
(a) Ausländische Strafgefangene
(b) Ausländeranteil
KKF
Lag
(c) KKF
(d) Ausländische Strafgefangene und Modell-Fit
Abb. 7: Ausländische Strafgefangene, Ausländeranteil, KKF und Modell-Fit zwischen den Residuen des TF-Modells und den Residuen des Inputs weist keine signifikanten Werte auf. Der „Erklärungswert“ des TF-Modells zeigt sich anschaulich, wenn man die Einschrittprognosen des Modells (Fit) mit den Werten der ausländischen Strafgefangenen in Abbildung 7 d vergleicht. Es liegt nahe, ein solches Modell auch für die Prognose der ausländischen Strafgefangenen einzusetzen, wobei dann neben der erklärenden Variablen „Ausländeranteil“ auch noch andere Einflussfaktoren zu berücksichtigen sind, was z. B. im Rahmen eines Transferfunktions-Modells mit mehreren Einflussfaktoren geschehen kann.
10 Vektorielle stochastische Prozesse Obwohl gerade TF-Modelle in der empirischen Sozialforschung häufig Anwendung finden, weisen sie eine Reihe von Nachteilen auf. So sind z. B., wie bereits erwähnt, „feedback“-Beziehungen zwischen den Variablen ausgeschlossen. Auch ist kritisch zu bedenken, dass der Zusammenhang nur zwischen stationären Variablen und damit nur für die kurzfristige Dynamik modelliert werden kann. Da die langfristige Trenddynamik bei dieser Art der Modellbildung explizit ausgeschlossen wird, lässt sich über den langfristigen Zusammenhang zwischen den Variablen nichts aussagen. Diese Nachteile
40 Zeitreihenanalyse
1083
haben zur Entwicklung von Modellen geführt, die diese Restriktionen nicht aufweisen. Zentrale Bedeutung haben in diesem Zusammenhang vektorielle AR-Prozesse (VARProzesse) und kointegrierte Prozesse. Der Prozess xt = c + Φ1 xt−1 + Φ2 xt−2 + · · · + Φp xt−p + εt
(44)
wird als vektorieller (m-dimensionaler) autoregressiver Prozess der Ordung p bezeichnet. Dabei sind: Φi (i = 1,2, . . . , p)(m × m) Parametermatrizen mit Φp = 0; c ein Konstantenvektor, εt vektorielles weißes Rauschen. Analog zu einem AR(p)-Prozess kann ein VAR(p)-Prozess auch in Backshift-Operator Schreibweise wie folgt dargestellt werden: (45) Φ(B) := I m − Φ1 B − Φ2 B 2 − · · · − Φp B p . Mit VAR-Prozessen, die in der modernen Ökonometrie eine große Rolle spielen, wird die Frage zu beantworten versucht, wie ein zu einem bestimmten Zeitpunkt auftretender stochastischer Impuls auf eine bestimmte Variable vom System verarbeitet wird, d. h. welche Auswirkungen dieser Impuls auf die Ausgangsvariable und auf alle anderen Variablen hat. In diesem Zusammenhang spielen die Impuls-Antwort-Funktion und das Instrument der Varianzzerlegung eine wichtige Rolle. Im Gegensatz zum univariaten Fall muss bei VAR-Prozessen nicht nur die zeitliche Abhängigkeit innerhalb eines Prozesses berücksichtigt werden, sondern auch die Interaktion zwischen den einzelnen autoregressiven Prozessen. In Abhängigkeit davon, welche Elemente der Φ-Matrix Null oder von Null verschieden sind, lassen sich verschiedene Beziehungen zwischen den einzelnen Prozessen identifizieren. Dabei kann der Fall auftreten, dass zwischen den Elementen keinerlei Beziehung besteht, dass eine einseitige oder kausale Beziehung oder aber auch, dass eine interdependente Beziehung besteht. In letzterem Fall spricht man von „feedback“ oder Rückkopplung zwischen den einzelnen Prozessen. Neben den VAR-Prozessen, bei denen alle beteiligten univariaten Prozesse stationär sein müssen, kommt sogenannten Kointegrierten Prozessen in der empirischen Forschung eine grundlegende Bedeutung zu. Das Kointegrationskonzept, das auf Granger (1981, 1986) zurückgeht und von Engle & Granger (1987) weiter entwickelt wurde, beschreibt ein System zwischen zwei oder mehr Variablen, die gemeinsamen stochastischen Trends („common trends“) folgen. Jede der beteiligten Zeitreihen ist zwar instationär, aufgrund der Tatsache aber, dass sie gemeinsamen stochastischen Trends folgen, können sie sich langfristig nicht beliebig weit voneinander entfernen, sondern werden sich immer wieder aufeinander zu bewegen, d. h. die Abweichungen der Reihen voneinander sind stationär, was man auch als langfristige Gleichgewichtsbeziehung interpretiert. Diese Gleichgewichtsbeziehung bedeutet, dass eine stationäre Linearkombination zwischen den Reihen existiert. Im Falle gemeinsamer stochastischer Trends korrespondieren die Trendbewegungen der einzelnen Reihen miteinander, so dass z. B. ein Anstieg des lokalen Trends in X mit entsprechenden Anpassungen des lokalen Trends in Y einhergeht. Zur Illustration sind in Abbildung 8 die Reallöhne, das Bruttoinlandsprodukt pro Kopf der Bevölkerung, die Kriminalitätsrate, die Arbeitslosenquote
1084
Rainer Metz
Kriminalitätsrate Reallohn Arbeitslosenquote 1960
1965
1970
1975
1980
1985
BIP pK Suizidrate
1990
1995
2000
2005
Abb. 8: Beispiele für (unterschiedliche) Trendverläufe und die Suizidrate in Deutschland für den Zeitraum von 1960 bis 2005 eingezeichnet.31 Während die vier erst genannten Reihen in diesem Zeitraum einen gleichgerichteten Anstieg aufweisen, hat sich der Trend bei der Suizidrate in der zweiten Hälfte der 1970er Jahre nach unten gekehrt, und damit die Entwicklung der anderen vier Reihen „verlassen“. Die formalen Bedingungen für das Vorliegen von Kointegration werden in der Literatur unterschiedlich definiert. Beschränken wir uns zunächst auf zwei Prozesse Xt und Yt , dann ist eine notwendige Bedingung für deren Kointegration, dass sie den gleichen Integrationsgrad aufweisen. Kointegration liegt allerdings nur dann vor, wenn außer dem gleichen Integrationsgrad d eine Linearkombination a1 Xt + a2 Yt existiert mit dem Integrationsgrad d − b. Für diesen Sachverhalt lässt sich kurz schreiben: Xt ,Yt ∼ CI(d,b) mit d ≤ b > 0. Der Vektor (a1 ,a2 ) wird als Kointegrationsvektor bezeichnet. Allgemein wird ein vektorieller Prozess xt = (X1t ,X2t , . . . , Xnt ) als kointegriert bezeichnet, wenn jedes Xit , i = 1,2, . . . , n integriert ist vom Grad d und wenn ein Vektor a = (a1 ,a2 , . . . , an ) existiert, so dass gilt a xt ∼ I(d,b). Der in der Praxis wichtigste Fall ist d = b = 1, d. h. alle Xit sind integriert vom Grade 1. Ob für konkrete Zeitreihen Kointegration vorliegt, und ob es bei mehr als zwei Zeitreihen gegebenenfalls mehrere Kointegrationsbeziehungen gibt, ist a priori nicht bekannt. Deshalb sind spezielle Tests erforderlich, die eine Entscheidung darüber erlauben, ob überhaupt Kointegration vorliegt und mit wie vielen Konintegrationsbeziehungen zu rechnen ist. Am einfachsten gestalten sich Kointegrationstest, wenn man annehmen kann, dass nur eine Kointegrationsbeziehung besteht. Seien X1t und X2t ∼ I(1) mit der Kointegrationsbeziehung X1t = γX2t , dann sind die Abweichungen Z1t := X1t − γX2t stationär und der Kointegrationsvektor ist 31
Quelle: Digitales Informationssystem Soziale Indikatoren (DISI) in GESIS (http://www. gesis.org). Alle Reihen sind um ihren Mittelwert zwischen ihren Minima und Maxima zentriert.
40 Zeitreihenanalyse
1085
(1, − γ) mit unbekanntem Koeffizienten γ. Man schätzt also zunächst den unbekannten Kointegrationsvektor, hier den Parameter γ in der Regression X1t = γX2t +et mit Hilfe von OLS und bildet dann die Residuen eˆt := X1t − γˆ X2t . Wenn X1t und X2t nicht kointegriert sind, dann kann et nicht I(0) sein. Wenn X1t und X2t kointegriert sind, dann sollte dieser Koeffizient kleiner als Eins sein, d. h. die Residuen sind stationär. Wir wollen hier noch ergänzen, dass bei einer Kointegration die OLS Regression konsistente Schätzer liefert. Sind die Reihen nicht kointegriert, entsteht das Problem der Scheinregression, auf das bereits hingewiesen wurde. Dieses Vorgehen, das von Engle & Granger (1987) vorgeschlagen wurde, umfasst also zwei Stufen und beruht auf „Unit Root“-Tests. Während in der ersten Stufe geprüft wird, ob die Zeitreihen integriert sind vom Grade Eins (bzw. zum gleichen Grad integriert sind), wird im zweiten Schritt geprüft, ob die Residualreihe noch eine Einheitswurzel aufweist. Nur wenn die Zeitreihen kointegriert sind, ist dies nicht der Fall. Bisher wurde ausschließlich der Fall nur einer Kointegrationsbeziehung betrachtet. Bei n Variablen sind aber maximal n−1 Kointegrationsbeziehungen denkbar. Außerdem wurde in der Kointegrationsgleichung eine der n Variablen als abhängige Variable betrachtet. Zudem kann mit den bisherigen Kointegrationstest nur geprüft werden, ob Kointegration vorliegt oder nicht, aber nicht, ob mehrere und gegebenenfalls wie viele Kointegrationsbeziehungen bestehen. Es sind deshalb alternative Schätzverfahren entwickelt worden, unter denen dem sogenannten Johansen-Verfahren (Johansen 1988), das auf dem ML-Prinzip beruht, die wohl größte Bedeutung zukommt. Bei diesem sogenannten Full-Information Maximum-Likelihood-approach sind prinzipiell mehrere Kointegrationsbeziehungen zugelassen, eine Einteilung der kointegrierten Variablen in eine abhängige und mehrere unabhängige Variable ist nicht notwendig und außerdem kann mit Hilfe eines Likelihood-Quotienten-Tests überprüft werden, ob eine, zwei, . . . , oder n − 1 Kointegrationsbeziehungen bestehen. Da die bisher betrachtete Kointegrationsgleichung statisch ist, macht sie keine Angaben über den zeitlichen Verlauf der Anpassungsprozesse. Die dynamische Modellierung erfolgt in einem zweiten Schritt mit Hilfe der sogenannten Fehlerkorrekturmodelle („Error Correction Models“, ECM). Diese Modelle ermöglichen es, eine vorhandene langfristige Gleichgewichtsbeziehung zwischen zwei oder mehr Variablen und die kurzfristige Anpassungsdynamik, mit der eine Störung des Gleichgewichts vom System verarbeitet wird, also die sogenannten Fehler-Korrektur, simultan zu schätzen. Das Engle-Granger-Repräsentationstheorem besagt, dass zu einem System kointegrierter I(1) Variablen ein Fehlerkorrekturmodell existiert, das die Kurzfristdynamik beschreibt, und dass es umgekehrt zu jedem Fehlerkorrekturmodell für I(1) Variable eine diese verbindende Kointegrationsbeziehung gibt. Die Fehler-Korrektur Darstellung eines kointegrierten Systems ergibt sich aus der VAR-Darstellung durch Einführung des Kointegrationsvektors. Für den einfachen Fall nur einer Kointegrationsbeziehung lässt sich das Fehlerkorrekturmodell wie folgt schreiben: ΔYt = c +
l j=0
α(ΔYt−j ) +
k j=1
β(ΔXt−j ) + γZt−1 + εt .
(46)
1086
Rainer Metz
(a) Residuen
(b) Modellfit
Abb. 9: Residuen und Fit des Kointegrationsmodells Das ECM modelliert also die stationäre Linearkombination der kointegrierten Einzelprozesse und nicht direkt die I(1)-Prozesse selbst. Das Besondere dieser Gleichung ist die Regressorvariable Zt−1 , die die Residuen der Kointegrationsgleichung repräsentiert und damit die kurzfristigen Abweichungen vom Gleichgewichtspfad. Der Koeffizient γ gibt den Anteil an, um den ein zum Zeitpunkt t bestehendes Ungleichgewicht bis zum Zeitpunkt t + 1 abgebaut ist. Somit modelliert das ECM jede Art der Anpassung an ein neues Gleichgewicht. Als Beispiel wollen wir den Zusammenhang zwischen der Kriminalitätsrate (KRIM ) und der Arbeitslosenquote (ALOS) (vgl. Abbildung 8, oben) auf mögliche Kointegrationsbeziehungen untersuchen. Dabei beschränken wir uns auf die Zeit von 1960 bis 2005 und verwenden ausschließlich die logarithmierten Jahresdaten der Reihen. Zunächst ist zu prüfen, ob die beiden Reihen denselben Ingerationsgrad aufweisen. Für beide Reihen kann die Nullhypothese einer Einheitswurzel mit Hilfe des ADFTests nicht zurückgewiesen werden. Wir gehen also davon aus, dass beide Reihen einem stochastischen Trend folgen. In einem zweiten Schritt schätzen wir nun den Kointegrationsvektor mit OLS und erhalten folgendes Ergebnis: KRIMt = 8,1612 + 0,338 ALOSt + εt . (0,0267) (0,0156)
(47)
Die Residuen des Modells εt , im folgenden als RESALOS bezeichnet, sind offensichtlich stationär (Abbildung 9 a), was durch den ADF-Test bestätigt wird. Bei einer Lag-Länge von p = 3 erhalten wir einen Testwert von τ = −4,13. Bei einem kritischen Wert von τ = −2,62 (1 % Niveau) können wir die Nullhypothese einer Einheitswurzel für die Residuen demnach zurückweisen. Nachdem wir festgestellt haben, dass die Reihen der Kriminalitätsrate und der Arbeitslosenquote in Hamburg einen gemeinsamen stochastischen Trend aufweisen, können wir mit Hilfe des Fehlerkorrekturmodells die kurz- und langfristige Dynamik zwischen den beiden Reihen schätzen. Bei der Spezifikation des Modells zeigt sich lediglich eine Signifikanz von ΔKRIM zum Lag 1, und außerdem sind die βj = 0 für alle j = 1,2, . . .. Wir schätzen daher folgendes Modell:
40 Zeitreihenanalyse
1087
ΔKRIMt = 0,013 + 0,35ΔKRIMt−1 + 0,048ΔALOSt − 0,09RESALOSt−1 + εt . (0,006) (0,15) (0,019) (0,05) (48) Die geschätzten Koeffizienten und der in Abbildung 9 b eingezeichnete Fit des Modells (R2 = 0,189, DW-Statistik = 1,952) zeigen, dass in diesem Beispiel die langfristigen Reaktionen der Kriminalitätsrate auf Veränderungen der Arbeitslosenquote die kurzfristigen übersteigen, was unmittelbar einsichtig ist, wenn man sich den Verlauf der Reihen anschaut (vgl. Abbildung 8, oben). So weisen beide zwar ab etwa 1960 einen gleichgerichteten Anstieg auf, jedoch spiegelt sich die ausgeprägte konjunkturelle Veränderung bei der Arbeitslosenquote in der Kriminalitätsentwicklung nur sehr eingeschränkt bzw. kaum wider. Die Arbeitslosenquote wirkt sich daher auf die Kriminalitätsentwicklung vor allem langfristig positiv aus.
11 Schluss Die Ausführungen mussten sich darauf beschränken, einige wichtige Verfahren und Analysetechniken in ihren Grundzügen vorzustellen und auf Analysemöglichkeiten und -probleme hinzuweisen. Alle vorgestellten Verfahren unterliegen einer rasanten und forschungsintensiven (Weiter-)Entwicklung. So werden die Verfahren zum Test auf Integration und Kointegration, zur Schätzung und Filterung von Komponenten sowie von Fehlerkorrekturmodellen ständig verfeinert und weiter entwickelt. Vieles von dem, was gegenwärtig zum „state of the art“ gerechnet wird, wurde hier aus Platzgründen nicht einmal erwähnt. Dazu gehört z. B. das Konzept der Granger-Kausalität, das ein Eingehen auf die Prognoseproblematik erfordert hätte. Auch haben wir uns auf Modelle beschränkt, bei denen die Residuen nicht nur unkorreliert, sondern auch homoskedastisch sind, d. h. dass bei ihnen die nicht erklärten Schwankungen keine Abhängigkeiten in den zweiten Momenten aufweisen. Modelle, die diese Restriktion nicht aufweisen, werden unter dem Begriff „Autoregressive Conditional Heteroscedasticity“ diskutiert, wozu z. B. ARCH und GARCH-Modelle gehören, die bei der Analyse von Finanzmarktdaten eine wichtige Rolle spielen. Auch die Beschränkung auf Modelle mit ganzzahligem Integrationsgrad mag als gravierende Einschränkung der Modellierungsmöglichkeiten gesehen werden, hätte aber eine Darstellung der im Text erwähnten ARFIMA-Modelle erforderlich gemacht. Von zunehmender Bedeutung in der sozialwissenschaftlichen Datenanalyse ist überdies, wie bereits eingangs erwähnt, die Panelökonometrie, die sich rasant entwickelt und vielfältige Anwendungsmöglichkeiten bietet. Der interessierte Leser ist also bei vielen Fragen auf zusätzliche und weiterführende Literatur angewiesen. Wenn dieser Überblick aber trotz dieser Beschränkungen dem Leser ein Verständnis der Probleme, Fragestellungen und Anwendungsmöglichkeiten der Verfahren der Zeitreihenanalyse vermittelt, hat er seinen Zweck erfüllt.
1088
Rainer Metz
12 Literaturempfehlungen Eine vorzügliche und an zahlreichen Beispielen orientierte Einführung in die Zeitreihenanalyse für Sozialwissenschaftler und Historiker bietet das Lehrbuch von Thome (2005), das vor allem der durch Box & Jenkins (1976) begründeten ARIMA-Analyse breiten Raum einräumt. Als eine Art „Standard“-Lehrbuch gilt Schlittgen & Streitberg (2001), das nun bereits in der 9. Auflage vorliegt. Wer sich mit Filterverfahren eingehender beschäftigen möchte, dem sei das Lehrbuch von Stier (2001) empfohlen, das auch zu vielen anderen Themen der Zeitreihenanalyse einen gut verständlichen und an zahlreichen Beispielen orientierten Einführungstext bietet. Eine ausführliche und großenteils kritische Auseinandersetzung mit „Unit Root“-Tests und Verfahren zur Zerlegung von Zeitreihen findet sich in Metz (2002). Auch Mills (2003) bietet eine gelungene und an Beispielen orientierte Einführung in die Probleme der Zerlegung von Zeitreihen. In diesem Zusammenhang sind auch die Arbeiten von Harvey (1989, 1993) zu nennen, der als einer der Ersten strukturelle Zeitreihenmodelle popularisiert hat. Die klassische Arbeit zur Kointegrationsanalyse ist Engle & Granger (1987). Die Kointegrationsanalyse ist in allen neueren Lehrbüchern zur Zeitreihenanalyse, wie z. B. in Kirchgässner & Wolters (2006) prominent vertreten. In diesem Zusammenhang seien auch der Aufsatz von Thome (1995) und die Monographie von Hassler (2000) genannt. Gut lesbare Einführungen in die Ausreißeranalyse sind selten. Als Einstieg sei hier der Aufsatz von Thome (1997) empfohlen. Schließlich sei noch darauf hingewiesen, dass die meisten Software-Handbücher zur Zeitreihenanalyse, wie z. B. EViews und SCA, um nur zwei zu nennen, in der Regel didaktisch sehr gut aufbereitete Texte zu Verfahren der Zeitreihenanalyse bieten, die zudem noch durch zahlreiche konkrete Rechenbeispiele illustriert sind. Sie eignen sich als Einstiegslektüre vor allem für diejenigen, die die Theorie möglichst rasch „umsetzen“ möchten. Literaturverzeichnis Baxter, M. & King, R. G. (1999). Measuring Business Cycles: Approximate Band-Pass Filters for Economic Time Series. The Review of Economics and Statistics, 81, 575–593. Beveridge, S. & Nelson, C. (1981). A New Approach to the Decomposition of Economic Time Series into Permanent and Transitory Components with Particular Attention to Measurement of the Business Cycle. Journal of Monetary Economics, 7, 151–174. Box, G. E. P. & Jenkins, G. M. (1975). Intervention Analysis with Applications to Economic and Environmental Problems. Journal of the American Statistical Association, 70, 70–79. Box, G. E. P. & Jenkins, G. M. (1976). Time Series Analysis: Forecasting and Control. San Francisco: Holden Day, 2. Auflage. Chang, I. & Tiao, G. C. (1983). Estimation of Time Series Parameters in the Presence of Outliers, Band 8 von Technical Report Series. Graduate School of Business, University of Chicago. Chang, I., Tiao, G. C., & Chen, G. (1988). Estimation of Time Series Parameters in the Presence of Outliers. Technometrics, 30, 193–204. Chen, C. & Liu, L.-M. (1990). Joint Estimation of Model Parameters and Outlier Effects in Time Series. Working Paper Series. Illinois: Scientific Computing Associates.
40 Zeitreihenanalyse
1089
Chen, C. & Liu, L.-M. (1993). Joint Estimation of Model Parameters and Outlier Effects in Time Series. Journal of the American Statistical Association, 88, 284–297. Christiano, L. & Fitzgerald, T. (2003). The Band Pass Filter. International Economic Review, 44, 435–465. Dickey, D. & Fuller, W. (1979). Distribution of the Estimators for Autoregressive Time Series with a Unit Root. Journal of the American Statistical Association, 74, 427–443. Dickey, D. & Fuller, W. (1981). Likelihood Ratio Statistics for Autoregressive Time Series with a Unit Root. Econometrica, 49, 1057–1072. Engle, R. & Granger, C. W. J. (1987). Co-Integration and Error Correction: Representation, Estimation, and Testing. Econometrica, 55, 251–276. Gómez, V. & Maravall, A. (1997). Programs TRAMO and SEATS: Instructions for the User. Working Paper No. 97001. Ministerio de Economica y Hacienda, Madrid: Dirección General de Análisis y Programación Presupuestaria. Granger, C. W. J. (1981). Some Properties of Time Series Data and their Use in Econometric Model Specification. Journal of Econometrics, 16, 121–130. Granger, C. W. J. (1986). Developments in the Study of Co-integrated Economic Variables. Oxford Bulletin of Economics and Statistics, 48, 213–228. Harvey, A. C. (1989). Forecasting, Structural Time Series Models, and the Kalman Filter. Cambridge: Cambridge University Press. Harvey, A. C. (1993). Time Series Models. London: The MIT Press, 2. Auflage. Hassler, U. (2000). Regression trendbehafteter Zeitreihen in der Ökonometrie. Berlin: Verlag für Wissenschaft und Forschung. Hodrick, R. & Prescott, E. (1997). Post-War U. S. Business Cycles: A Descriptive Empirical Investigation. Journal of Money, Credit, and Banking, 29, 1–16. Johansen, S. (1988). Statistical Analysis of Cointegration Vectors. Journal of Economic Dynamics and Control, 12, 231–254. Kirchgässner, G. & Wolters, J. (2006). Einführung in die moderne Zeitreihenanalyse. München: Vahlen. Koopman, S. J., Harvey, A. C., Doornik, J. A., & Shepard, N. (2007). Structural Time Series Analyser and Modeller and Predictor. STAMP 8. London: Timberlake. Kwiatkowski, D., Phillips, P., Schmidt, P., & Shin, Y. (1992). Testing the Null Hypothesis of Stationarity Against the Alternative of a Unit Root. Journal of Econometrics, 54, 159–178. Metz, R. (2002). Trend, Zyklus und Zufall. Bestimmungsgründe und Verlaufsformen langfristiger Wachstumsschwankungen. Stuttgart: Franz Steiner. Metz, R. (2010). Filter-Design and Model-Based Analysis of Trends and Cycles in the Presence of Outliers and Structural Breaks. Cliometrica, 4, 51–73. Mills, T. C. (2003). Modelling Trends and Cycles in Economic Time Series. Houndmills: MacMillan. Perron, P. (1988). Trends and Random Walks in Macroeconomic Time Series: Further Evidence from a New Approach. Journal of Economic Dynamics and Control, 12, 297–332. Perron, P. (1989). The Great Crash, the Oil Price Shock, and the Unit Root Hypothesis. Econometrica, 57, 1361–1401.
1090
Rainer Metz
Phillips, P. C. B. & Perron, P. (1988). Testing for a Unit Root in Time Series Regression. Biometrika, 75, 335–346. Ravn, M. O. & Uhlig, H. (2002). Notes on Adjusting the Hodrick-Prescott Filter for the Frequency of Observations. The Review of Economics and Statistics, 84, 371–380. Rinne, H. & Specht, K. (2002). Zeitreihen - Statistische Modellierung, Schätzung und Prognose. München: Vahlen. Schlittgen, R. & Streitberg, B. (2001). Zeitreihenanalyse. München: Oldenbourg, 9. Auflage. Stier, W. (2001). Methoden der Zeitreihenanalyse. Berlin: Springer. Thome, H. (1995). A Box-Jenkins Approach to Modeling Outliers in Time Series Analysis. Sociological Methods and Research, 23, 442–478. Thome, H. (1997). Scheinregressionen, Kointegrierte Prozesse und Fehlerkorrekturmodelle: Eine Strategie zur Modellierung langfristiger Gleichgewichtsbeziehungen und kurzfristiger Effekte. Zeitschrift für Soziologie, 26, 202–221. Thome, H. (2005). Zeitreihenanalyse. Eine Einführung für Sozialwissenschaftler und Historiker. München: Oldenbourg.
Anhang
Autorenverzeichnis
Andreß, Hans-Jürgen, Prof. Dr., geb. 1952, ist Professor für Empirische Sozial- und Wirtschaftsforschung an der Wirtschafts- und Sozialwissenschaftlichen Fakultät der Universität zu Köln. Forschungsgebiete: Methoden der empirischen Sozialforschung, Statistik und multivariate Methoden, EDV-Anwendungen in den Sozialwissenschaften, Arbeitsmarkt und Berufsforschung (insb. Arbeitslosigkeit), Sozial- und Familienpolitik (insb. Armut). Bacher, Johann, Prof. Dr., geb. 1959, ist Professor für Soziologie und empirische Sozialforschung an der Johannes Kepler Universität Linz, Forschungsschwerpunkte: Methoden der empirischen Sozialforschung, Kindheits- und Bildungsforschung, Soziologie des Abweichenden Verhaltens. Bauer, Gerrit, Dipl.-Soz., geb. 1979, ist wissenschaftlicher Mitarbeiter am Mannheimer Zentrum für Europäische Sozialforschung und an der Fakultät für Sozialwissenschaften der Universität Mannheim. Forschungsgebiete: Methoden der empirischen Sozialforschung, Familiensoziologie, Sozialstrukturanalyse. Best, Henning, PD Dr., geb. 1975, ist wissenschaftlicher Mitarbeiter an der Fakultät für Sozialwissenschaften der Universität Mannheim. Forschungsgebiete: Methoden der empirischen Sozialforschung, Rational Choice, Umweltsoziologie. Blasius, Jörg, Prof. Dr., geb. 1957, ist Professor für Soziologie an der Universität Bonn, Institut für Politische Wissenschaft und Soziologie. Forschungsschwerpunkte: Methoden der empirischen Sozialforschung, angewandte Statistik, insbesondere Skalierungsverfahren, Stadtsoziologie, Lebensstile, Armutsforschung. Blossfeld, Hans-Peter, Prof. Dr. Dr. hc, geb. 1954, ist Professor für Soziologie an der Otto-Friedrich-Universität Bamberg. Er ist Leiter des Instituts für Familienforschung (ifb) und des Nationalen Bildungspanels (NEPS). Forschungsgebiete: Längsschnittmethoden, Lebensverlaufsforschung, Familien-, Arbeitsmarkt- und Bildungssoziologie, Rational Choice und Diffusionsmodelle. Borg, Ingwer, Prof. Dr., geb. 1945, ist Leiter der Abteilung Survey Design & Methodology bei GESIS – Leibniz-Institut für Sozialwissenschaften und Professor am Fachbereich Psychologie der Universität Gießen. Forschungsgebiete: Mitarbeiterbefragungen, Skalierungsverfahren, Werte und Einstellungen. C. Wolf , H. Best (Hrsg.), Handbuch der sozialwissenschaftlichen Datenanalyse, DOI 10.1007/978-3-531-92038-2, © VS Verlag fur Sozialwissenschaften | Springer Fachmedien Wiesbaden GmbH 2010
1094
Autorenverzeichnis
Brüderl, Josef, Prof. Dr., geb. 1960, ist Professor für Statistik und sozialwissenschaftliche Methodenlehre an der Fakultät für Sozialwissenschaften der Universität Mannheim. Forschungsgebiete: Längsschnittdatenerhebung und -analyse, Familiensoziologie, Organisationssoziologie. Brunsiek, Kathrin, Dipl. Kffr., geb. 1981, freie Autorin. Wissenschaftliche Interessengebiete: Moderne Methoden der Datenanalyse und ihre Anwendung in Marketing und Marktforschung. Decker, Reinhold, Dr., geb. 1960, ist Professor für Betriebswirtschaftslehre, insb. Marketing, an der Fakultät für Wirtschaftswissenschaften der Universität Bielefeld. Forschungsgebiete: Analyse und Modellierung des Käuferverhaltens, quantitative Methoden der Marketingforschung, Data Mining im Marketing, computergestützte Präferenzmessung und Neuproduktentwicklung. Degen, Horst, Prof. Dr., geb. 1949, ist Professor für Statistik und Ökonometrie an der Wirtschaftswissenschaftlichen Fakultät der Heinrich-Heine-Universität Düsseldorf. Forschungsgebiete: Wirtschaftsstatistik, Ökonometrische Modelle, Statistische Schaubilder. Eid, Michael, Prof. Dr., geb. 1963, ist Professor für Methoden und Evaluation am Fachbereich Erziehungswissenschaft und Psychologie der Freien Universität Berlin. Forschungsgebiete: Veränderungsmessung, multimethodale Diagnostik, Item-ResponseTheorie, Wohlbefindensforschung, Stimmungsregulation, Hautkrebsprävention. Erdfelder, Edgar, Prof. Dr., geb. 1953, ist Professor für Psychologie (Lehrstuhl für Psychologie III) an der Fakultät für Sozialwissenschaften der Universität Mannheim. Forschungsgebiete: Forschungsmethoden, Modellierung kognitiver Prozesse, Gedächtnis, Urteilen und Entscheiden. Gabler, Siegfried, PD Dr., geb. 1951, ist Statistiker bei GESIS – Leibniz-Institut für Sozialwissenschaften und Privatdozent an der Fakultät für Rechtswissenschaft und Volkswirtschaftslehre, Abteilung Volkswirtschaftslehre, der Universität Mannheim. Forschungsgebiete: Stichproben in Theorie und Praxis, Telefonstichproben im Festnetzund Mobilfunkbereich, Designeffekte. Gangl, Markus, Prof. Dr., geb. 1972, ist Professor am Department of Sociology der University of Wisconsin-Madison, USA. Forschungsgebiete: Sozialstrukturanalyse, Arbeitsmarktforschung, Einkommensungleichheit, quantitative Methoden der empirischen Sozialforschung. Ganninger, Matthias, Dr., geb. 1980, ist Forscher bei GESIS – Leibniz-Institut für Sozialwissenschaften. Forschungsgebiete: Survey Statistik, Designeffekte und Varianzschätzung.
Autorenverzeichnis
1095
Gautschi, Thomas, Prof. Dr., geb. 1969, ist Professor für Methoden der empirischen Sozialforschung an der Fakultät für Sozialwissenschaften der Universität Mannheim. Forschungsgebiete: Methoden der empirischen Sozialforschung, ökonomische Soziologie, Netzwerktheorie sowie Spieltheorie. Geiser, Christian, Dr., geb. 1978, ist Assistenzprofessor für Quantitative Psychologie am Department of Psychology der Arizona State University. Forschungsgebiete: Lineare Strukturgleichungsmodelle, Veränderungsmessung, Multitrait-Multimethod-Analyse, mentale Rotation. Gerich, Joachim, Dr., geb. 1970, ist wissenschaftlicher Mitarbeiter am Institut für Soziologie, Abteilung für empirische Sozialforschung an der Johannes Kepler Universität Linz. Forschungsgebiete: Methoden der empirischen Sozialforschung, Gesundheits- und sozialpolitische Forschung. Hummell, Hans J., Prof. Dr., geb. 1941, ist emeritierter Professor für Soziologie am Institut für Soziologie der Universität Duisburg-Essen. Forschungsgebiete: Netzwerkanalyse, Mehrebenenanalyse, Handlungstheorie. Jann, Ben, Dr., geb. 1972, ist Assistenzprofessor für Soziologie an der Universität Bern. Forschungsgebiete: Methoden der empirischen Sozialforschung, Statistik, Arbeitsmarktsoziologie, soziale Ungleichheit. Krebs, Dagmar, Prof. Dr., geb. 1943, emeritierte Professorin für Methoden der Empirischen Sozialforschung an der Universität Gießen. Forschungsgebiete: Methoden der Empirischen Sozialforschung. Kühnel, Steffen M., Prof. Dr., geb. 1956, ist Professor für Quantitative Methoden der Sozialwissenschaften an der Universität Göttingen. Forschungsgebiete: Methoden der Empirischen Sozialforschung, Rational Choice, Wahlforschung. Langer, Wolfgang, Dr., geb. 1960, ist wissenschaftlicher Mitarbeiter im Institut für Soziologie der Martin-Luther-Universität Halle-Wittenberg und Associate Professor der Universität Luxembourg. Forschungsgebiete: Mehrebenen-, Strukturgleichungssowie Logitmodelle, Ausländerfeindlichkeit, Wahlforschung. Lohmann, Henning, Dr., ist wissenschaftlicher Mitarbeiter bei der Längsschnittstudie „Sozio-oekonomisches Panel“ (SOEP) am Deutschen Institut für Wirtschaftsforschung (DIW Berlin). Forschungsgebiete: Soziale Ungleichheit, Methoden der empirischen Sozialforschung, Vergleich von Wohlfahrtsstaaten. Metz, Rainer, Prof. Dr., geb. 1951, ist Leiter des Arbeitsbereichs Historische Studien der Abteilung Datenarchiv bei GESIS – Leibniz-Institut für Sozialwissenschaften und Titularprofessor für Wirtschaftsgeschichte und Methoden der empirischen Wirtschaftsforschung an der Universität St. Gallen. Forschungsgebiete: Historische Wachstumsund Konjunkturforschung, Historische Statistik, Zeitreihenanalyse.
1096
Autorenverzeichnis
Ohr, Dieter, Prof. Dr., geb. 1960, ist Professor für Methoden der empirischen Sozialforschung an der Freien Universität Berlin. Forschungsgebiete: Empirische Wahlforschung und Forschung zu politischer Kommunikation, Methoden der empirischen Sozialforschung. Opp, Karl-Dieter, Prof. Dr., geb. 1937, ist Professor Emeritus an der Universität Leipzig und Affiliate Professor an der University of Washington (Seattle). Forschungs- und Interessengebiete sind Soziologische Theorie (Schwerpunkt Rational Choice-Theorie), kollektives Handeln und politischer Protest, Normen und Institutionen. Pöge, Andreas, Dr., geb. 1973, ist akademischer Rat an der Fakultät für Soziologie der Universität Bielefeld, Arbeitsbereich II – Methoden der empirischen Sozialforschung. Forschungsgebiete: Methoden der empirischen Sozialforschung, Sozialstrukturanalyse, abweichendes Verhalten und Hochschulforschung. Pötschke, Manuela, Dr., geb. 1967, ist akademische Rätin am Fachberich 5 der Universität Kassel und verantwortet das Lehrgebiet Angewandte Statistik. Forschungsgebiete: Mehrebenenanalyse, Evaluationsforschung, Arbeitszufriedenheit, Delphi. Rammstedt, Beatrice, PD Dr., geb. 1973, ist Projektleiterin bei GESIS – Leibniz-Institut für Sozialwissenschaften. Forschungsgebiete: Skalenentwicklung für die sozialwissenschaftliche Umfrageforschung, Effekte von Antwortskalen und Verfälschungstendenzen, Persönlichkeitsmessung. Rašković, Silvia, Dipl. Kffr., geb. 1979, ist wissenschaftliche Mitarbeiterin an der Fakultät für Wirtschaftswissenschaften der Universität Bielefeld. Forschungsgebiete: Präferenzmessung im Marketing, Messskalen, statistische Methoden der empirischen Sozial- und Marktforschung, experimentelle Marktforschung. Reinecke, Jost, Prof. Dr., geb. 1957, ist Professor für quantitative Methoden der empirischen Sozialforschung an der Fakultät für Soziologie der Universität Bielefeld. Forschungsgebiete: Rational Choice, Strukturgleichungsmodelle, fehlende Werte, Jugend- und Gesundheitsforschung, Analyse gruppenbezogener Menschenfeindlichkeit. Scherer, Stefani, Dr., geb. 1970, ist Assistenz-Professor an der Fakultät für Soziologie der Università degli Studi di Trento, Italien wo sie Statistik und Methodenlehre lehrt. Forschungsgebiete: Soziale Ungleichheit und Arbeitsmarktsoziologie. Schmiedek, Florian, Prof. Dr., geb. 1971, ist Professor für Methoden der empirischen Bildungsforschung am Deutschen Institut für Internationale Pädagogische Forschung (DIPF) und der Johann Wolfgang Goethe-Universität Frankfurt am Main und außerordentlicher wissenschaftlicher Mitarbeiter am Max-Planck-Institut für Bildungsforschung, Forschungsbereich Entwicklungspsychologie, Berlin. Forschungsgebiete: Methoden längsschnittlicher Forschung, Kognitive Lebensspannenpsychologie.
Autorenverzeichnis
1097
Shikano, Susumu, Prof. Dr., geb 1971, ist Professor für Methoden der empirischen Politik- und Verwaltungsforschung der Universität Konstanz. Forschungsgebiete: Politische Soziologie, vergleichende politische Ökonomie. Sodeur, Wolfgang, Prof. Dr., geb. 1938, ist emeritierter Professor für Empirische Sozialforschung an der Universität Duisburg-Essen. Forschungsgebiete: Soziale Netzwerke, Modellierung sozialer Prozesse (Simulation), Klassifikation. Spieß, Martin, Prof. Dr., geb. 1960, ist Professor für Psychologische Methoden am Fachbereich Psychologie der Fakultät Erziehungswissenschaften, Psychologie und Bewegungswissenschaften, Universität Hamburg. Forschungsgebiete: Techniken zur Kompensation fehlender Werte, Schätzung von Längsschnitt- bzw. Panelmodellen, Kausalität. Stein, Petra, Prof. Dr., geb. 1964, ist Professorin für Empirische Sozialforschung am Institut für Soziologie, Fakultät für Gesellschaftswissenschaften an der Universität Duisburg-Essen. Forschungsgebiete: Modellierung sozialer Prozesse, Mischverteilungsanalysen, Mittelwert- und Kovarianzstrukturanalysen. Tutz, Gerhard, Prof. Dr., geb. 1950, leitet das Seminar für angewandte Stochastik an der Fakultät für Mathematik, Informatik und Statistik der Ludwig-Maximilians-Universität München. Forschungsgebiete: Kategoriale Daten, Semiparametrische Modelle, Diskriminanzanalyse, Verweildaueranalyse. Vermunt, Jeroen K., Prof. Dr., geb. 1962, ist Professor für „Methodology and Statistics“ an der Tilburg University. Forschungsgebiete: Latent Variable Models, Methods for Longitudinal Data Analysis, Categorical Data Analysis. Völkle, Manuel C., Dr., geb. 1978, ist wissenschaftlicher Mitarbeiter am Max-PlanckInstitut für Bildungsforschung in Berlin. Forschungsgebiete: Methoden zur Analyse von Längsschnittdaten, Lernen und Fertigkeitserwerb, Differentielle Psychologie, Evaluationsforschung. Weins, Cornelia, Prof. Dr., geb. 1969, ist Professorin für Methoden der empirischen Sozialforschung an der Fakultät für Sozialwissenschaft der Ruhr-Universität Bochum. Forschungsgebiete: Migration und Arbeitsmarkt, politische Soziologie. Wiedenbeck, Michael, geb. 1947, ist wissenschaftlicher Mitarbeiter bei GESIS – LeibnizInstitut für Sozialwissenschaften in der Abteilung „Center for Survey Design and Methodology“. Forschungsgebiete: Graphische Modelle, Clusteranalyse. Wolf, Christof, Prof. Dr., geb. 1963, ist wissenschaftlicher Leiter der Abteilung „Dauerbeobachtung der Gesellschaft“ bei GESIS – Leibniz-Institut für Sozialwissenschaften und Professor für Soziologie an der Universität Mannheim. Forschungsgebiete: Sozialstrukturanalyse, soziale Netzwerke, Gesundheitssoziologie.
1098
Autorenverzeichnis
Wolff, Hans-Georg, Dr., geb. 1969, ist wissenschaftlicher Mitarbeiter am Lehrstuhl für Psychologie, insb. Wirtschafts- und Sozialpsychologie der Universität ErlangenNürnberg. Forschungsgebiete: Networking, Investitionsentscheidungen, Forschungsmethoden. Wolff, Julia, geb. 1982, ist Doktorandin am Max-Planck-Institut für Bildungsforschung, Forschungsbereich Entwicklungspsychologie, Berlin. Forschungsgebiete: Gesundheitspsychologie, Lebensspannenpsychologie. Züll, Cornelia, geb. 1953, ist wissenschaftliche Mitarbeiterin bei GESIS – LeibnizInstitut für Sozialwissenschaften in der Abteilung „Center for Survey Design and Methodology“. Forschungsgebiete: computerunterstützte Text- und Inhaltsanalyse, Clusteranalyse.