This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
wir>
∞But uh∞
bitte>].
⫹ ⫹
⫹
[so [das
冋 册
[so] [and]
Lautstärke
Sprecherwechsel: Partiturschreibweise1: Simultanfläche ⫹
S1 S2 S3 Horizontale Vertikale Simultane Äußerungen: er es
⫹ ⫹
⫹ ⫹
⫹ er es
[]
ja nein
so and
6. Datenerhebung und Transkription
partitur. Die Partiturschreibung unterscheidet sich von der Zeilenschreibweise wie etwa in GAT dadurch, dass gleichzeitiges Sprechen und schneller Sprecherwechsel in der sog. Simultanfläche des Transkripts abgebildet werden. Die vollständige Partiturschreibung umfasst insgesamt drei Arten von Notationen: (a) Der Umfang der Simultanfläche wird am linken Rand des Transkripts zeilenübergreifend durch eine eckige Klammer variabler Größe notiert. (b) Innerhalb dieser Klammer zeigt die horizontale Anordnung der Gesprächsbeiträge verschiedener Sprecher die simultane oder sukzessive Abfolge der Beiträge. (c) In der Vertikalen ist für jeden Sprecher eine Zeile vorgesehen, die auch nach einem Sprecherwechsel beibehalten wird. Im Folgenden geben wir ein Beispiel für die Partiturschreibung aus Ehlich und Rehbein (1976: 28): L L S1 L S2 S3
冋
冤 冤
Ihr . fragt mal eure Eltern, sprecht mit denen darüber, und dann sagt ihr mir am Dienstag Bescheid .. was sie gemeint bisschen leiser haben Vivian donnerstags oder dienstags? Äh .. wi./äh
Abbildung 6.2 enthält die Notationskonventionen für insgesamt acht verschiedene Transkriptionssysteme, fünf deutschsprachige und drei angloamerikanische, die alle gegenwärtig von verschiedenen Forschungsgruppen verwendet werden. Bei dem Vergleich dieser acht Systeme mit Herrmann und Grabowski (1994) haben wir in Abbildung 6.2 ein ‘⫹’Zeichen aufgeführt, wenn das betreffende Transkriptionssystem die entsprechende Kategorie enthält und eine Notation dieser Kategorie, die mit der Notation von Herrmann und Grabowski völlig identisch ist. Wird zwar die Kategorie berücksichtigt, aber eine Notation verwendet, die mit Herrmann und
101 Grabowski nicht identisch ist, so haben wir diese Notation unter der entsprechenden Kategorie aufgeführt (z. B. ((niest)) unter ‘deskriptive Kommentare’ in System (2), HIAT). Wenn in einem der acht Systeme eine der Kategorien von Herrmann und Grabowski überhaupt nicht vorkommt, haben wir die entsprechende Stelle in Abbildung 6.2 frei gelassen (z. B. die Kategorie ‘Wortabbruch’ in System (5), GAT). Mit Abbildung 6.2 verfolgen wir zwei Zielsetzungen. Zum einen wollen wir den Lesern auf diese Weise einen systematischen Überblick über wesentliche Konventionen der verschiedenen Transkriptionssysteme geben; dabei ist zu berücksichtigen, dass alle acht Systeme noch zusätzliche, hier nicht aufgeführte Notationskonventionen enthalten. Zum anderen erlaubt dieser Überblick, das Ausmaß der Normierung bzw. Standardisierung der Notationszeichen in den verschiedenen Systemen zu überprüfen. Dafür müssen zwei Aspekte der Systeme berücksichtigt werden: (a) die Kategorien, die in dem System aufgeführt sind, und (b) die Zeichen, die für die Notation dieser Kategorien verwendet werden. Prinzipiell können die Systeme entweder in (a) und (b), d. h. vollständig, oder nur in (a), d. h. teilweise, oder gar nicht übereinstimmen. Nach Herrmann und Grabowskis Annahme müssten mindestens deutschsprachige Transkriptionssysteme weitgehend in (a) und (b) übereinstimmen. In Abbildung 6.3 haben wir die Häufigkeiten der Übereinstimmung der verschiedenen Transkriptionssysteme mit den Notationen von Herrmann und Grabowski zusammengefasst: Vollständige Übereinstimmung (⫹), teilweise Übereinstimmung (⫺) und keine Übereinstimmung (0). Für die deutschsprachigen Systeme zeigt Abbildung 6.3 in 42 % aller Fälle vollständige Übereinstimmung, in der Hälfte aller Fälle (50 %) teilweise und in 8 % keinerlei Übereinstimmung. Für die englischsprachigen Systeme ist die Übereinstim-
˘ 1
Von den drei Notationskonventionen der Partiturschreibweise werden bei Herrmann und Grabowski nur zwei (Horizontale und Vertikale) richtig dargestellt.
Abb. 6.2: Verwendung (⫹) von „häufig“ gebrauchten Notationskonventionen für Transkripte (Herrmann & Grabowski, 1994: 33) bzw. alternative Notation in verschiedenen Transkriptionssystemen: (1) GutfleischRieck, Klein, Speck & Spranz-Fogasy, 1989; (2) Halbinterpretative Arbeitstranskription (HIAT, Ehlich & Rehbein, 1976; Ehlich, 1993); (3) Klann-Delius, 1990; (4) Kallmeyer, 1996; (5) Gesprächsanalytisches Transkriptionssystem (GAT, Selting et al., 1998); (6) Conversation Analysis (CA, Jefferson, 1989); (7) Discourse Transcription (DT, Du Bois, Schuetze-Coburn, Cumming & Paolino, 1993); und (8) Codes for the Human Analysis of Transcripts (CHAT, MacWhinney, 1995)
102
II. Methoden der Psycholinguistik
mung mit Herrmann und Grabowski geringer: Nur in 10 % aller Fälle liegt vollständige, in 67 % teilweise und in 23 % keinerlei Übereinstimmung vor. Die verschiedenen Systeme sind sich also insgesamt im Hinblick auf die von Herrmann und Grabowski ausgewählten Kategorien ([⫹] und [⫺] in Abbildung 6.3) tatsächlich sehr ähnlich (30 % und 56 %), d. h. die deutsch- und englischsprachigen Forschungsgruppen sind sich in 86 % aller möglichen Fälle darin einig, welche Merkmale des Gesprächsverhaltens für die Analyse unentbehrlich sind. Jedoch unterscheiden sich die Systeme erheblich im Hinblick auf die verwendeten Notationszeichen ([⫹] in Abbildung 6.3): Nur knapp ein Drittel (30 %) aller
Übereinstimmung ⫹ ⫺ 0 Gesamt
Notationszeichen stimmt überein. Dieses Ergebnis zeigt, dass bisher keine Einigkeit darüber besteht, wie Transkripte optimal lesbar und damit analysierbar gemacht werden können (vgl. O’Connell & Kowal, 1999). Um den Unterschied zwischen den verschiedenen deutschsprachigen Transkriptionssystemen deutlich zu machen, haben wir ein fiktives Gesprächsbeispiel nach den Konventionen der verschiedenen deutschen Systeme transkribiert. Diese Transkripte sind in Abbildung 6.4 zusammengefasst. Die Beispiele in Abbildung 6.4 machen unserer Meinung nach deutlich, dass die konsequente Verwendung der möglichen Notationszeichen, vor allem für die Notation prosodischer
Verschiedene Transkriptionssysteme Deutsch (1) (2) (3) (4) (5) Σ %
Englisch (6) (7)
(8)
Σ
%
Gesamt ΣΣ %
17 2 ⫺ 19
3 12 4 19
1 13 5 19
6 38 13 57
10 67 23 100
46 85 21 152
6 12 1 19
4 14 1 19
8 9 2 19
5 10 4 19
40 47 8 95
42 50 8 100
2 13 4 19
30 56 14 100
Abb. 6.3: Häufigkeit der Übereinstimmung der acht Transkriptionssysteme mit Herrmann und Grabowskis (1994) Transkriptionskategorien und Notationszeichen: Vollständige Übereinstimmung (⫹), teilweise Übereinstimmung (⫺) und keine Übereinstimmung (0).
Transkriptionssystem
Beispiel
Hermann und Grabowski
A: B:
wo is⫽n der zu- äh * das SALZ/
(1)
A: B:
wo is⫽n der zu | äh * das SALZ/
A:
Wo is+n der Zu/ äh . das Salz+
(2)
(4) (5)
A: B: A: B: A: B: A: B:
schön\ (LACHEND) >bitte< \
danke
schön7 ((lachend))
hie:r ( ) wo isn der Zu⫽ äh 쐌 das Salz/
bitte7 danke
schön\ ] (lachend) [ (p) bitte\
danke
schön B LACHEND >bitte B
hier <xxx> wo is⫽n der zu/ äh * das Salz” A
hie:r ( … )
schön\ (LACHEND) >bitte<\
danke hie:r ( )
B: (3)
danke hie:r ( )
wo is⫽n der zu äh (.) das !SALZ!? hie:r ( ) danke [ schön]. ((lachend)) [<
Abb. 6.4: Beispiel für die Transkription eines fiktiven Gesprächsausschnitts nach den Notationskonventionen der verschiedenen deutschsprachigen Transkriptionssysteme
6. Datenerhebung und Transkription
Kategorien, zu schwer lesbaren und deshalb schwer analysierbaren Transkripten führt. Bei der Herstellung der Transkripte in Abbildung 6.4 hatten wir selbst Mühe, die verschiedenen Konventionen zu verstehen und anzuwenden. So geben Herrmann und Grabowski (1994: 34) ein Beispiel für die Partiturschreibweise, das tatsächlich nicht die Notierung der Simultanfläche berücksichtigt, sondern simultane Gesprächsbeiträge in Anlehnung an Jefferson (1989) notiert. Wir haben auch festgestellt, dass die Abfolge von mehreren Notationszeichen an derselben Stelle eines Transkripts nur in dem System von Klann-Delius (1990) explizit festgelegt wird.
5.
Schlussbemerkungen
Wenn die Psycholinguistik der Sprachproduktion sich künftig stärker als bisher nicht nur auf experimentell erhobene Daten, sondern auch auf authentische Gespräche stützen will, muss sie sich mit der Transkription auseinandersetzen. Unsere Analysen verschiedener Transkriptionssysteme haben gezeigt, dass die Systeme in grundlegenden Verhaltenskategorien weitgehend übereinstimmen. Dagegen treten bei den Zeichen, die zur Notation dieser Kategorien verwendet werden, erhebliche Unterschiede auf. Von einer ‘gewissen Normierung’ (Herrmann & Grabowski 1994: 32) kann also nur begrenzt die Rede sein. Die Frage ist allerdings auch, ob eine solche Normierung überhaupt notwendig bzw. wünschenswert ist. Unserer Ansicht nach ist dies nicht zu entscheiden, so lange aufgrund empirischer Analysen nicht bekannt ist, unter welchen Bedingungen Transkripte reliabel und valide herstellbar sind und was sie lesbar macht. Daraus leiten wir die Forderung an die Psycholinguistik ab, das Herstellen und das Lesen von Transkripten als spezielle Formen des Sprachgebrauchs zum Untersuchungsgegenstand zu machen. Eine ähnliche Forderung nach „Verbesserung der Zuverlässigkeit von Transkriptionen und Analysen“ (Selting, im Druck) ist von linguistischer Seite inzwischen ebenfalls erhoben worden.
6.
Literatur
Altmann, Gerry T. M. (1997). The ascent of Babel: An exploration of language, mind, and understanding. Oxford: Oxford University Press.
103 Atkinson, J. Maxwell & Heritage, John (Eds.). (1984). Structures of social action: Studies in conversation analysis. Cambridge: Cambridge University Press. Bloom, Lois (1993). Transcription and coding for child language research: The parts are more than the whole. In Jane A. Edwards & Martin D. Lampert (Eds.), Talking data: Transcription and coding in discourse research (pp. 149⫺166). Hillsdale, NJ: Erlbaum. Bock, J. Kathryn (1987). An effect of the accessibility of word forms on sentence structures. Journal of Memory and Language, 26, 119⫺137. Bock, Kathryn (1996). Language production: Methods and methodologies. Psychonomic Bulletin & Review, 3, 395⫺421. Brinker, Klaus & Sager, Sven F. (1996). Linguistische Gesprächsanalyse: Eine Einführung (2. Aufl.). Berlin: Erich Schmidt. Clark, Herbert H. (1996). Using language. Cambridge: Cambridge University Press. Cook, Guy (1990). Transcribing infinity: Problems of context presentation. Journal of Pragmatics, 14, 1⫺24. Crowdy, Steve (1995). The BNC spoken corpus. In Geoffrey Leech, Greg Myers & Jenny Thomas (Eds.), Spoken English on computer: Transcription, mark-up and application (pp. 224⫺234). Harlow, England: Longman. Deese, James (1984). Thought into speech: The psychology of a language. Englewood Cliffs, NJ: Prentice-Hall. Dittmar, N. (2002). Transkription: Ein Leitfaden mit Aufgaben für Studenten, Forscher und Laien. Opladen: Leske & Budrich. Du Bois, John W. (1991). Transcription design principles for spoken discourse research. Pragmatics, 1, 71⫺106. Du Bois, John W., Schuetze-Coburn, Stephan, Cumming, Susanna & Paolino, Danae (1993). Outline of discourse transcription. In J. A. Edwards & M. D. Lampert (Eds.), Talking data: Transcription and coding in discourse research (pp. 45⫺89). Hillsdale, NJ: Erlbaum. Duranti, Alessandro (1997). Linguistic anthropology. Cambridge: Cambridge University Press. Edwards, Jane A. (1993). Principles and contrasting systems of discourse transcription. In Jane A. Edwards & Martin D. Lampert (Eds.), Talking data: Transcription and coding in discourse research (pp. 3⫺31). Hillsdale, NJ: Erlbaum. Edwards, Jane A. (2001). The transcription of discourse. In D. Schiffrin, D. Tannen & H. E. Hamil-
104 ton (Eds.), The handbook of discourse analysis (pp: 321⫺348). Malden, MA: Blackwell. Edwards, Jane A. & Lampert, Martin D. (Eds.), (1993). Talking data: Transcription and coding in discourse research. Hillsdale, NJ: Erlbaum. Ehlich, Konrad (1993). HIAT: A transcription system for discourse data. In J. A. Edwards & M. D. Lampert (Eds.), Talking data: Transcription and coding in discourse research (pp. 123⫺148). Hillsdale, NJ: Erlbaum.
II. Methoden der Psycholinguistik Transkriptionsvereinbarungen für den Sonderforschungsbereich 245 „Sprechen und Sprachverstehen im sozialen Kontext“. Bericht Nr. 14. Heidelberg/ Mannheim. Harley, Trevor A. (2001). The psychology of language: From data to theory. East Sussex: Erlbaum (UK) Taylor & Francis. Henne, Helmut & Rehbock, Helmut (1995). Einführung in die Gesprächsanalyse (3. Aufl.). Berlin: de Gruyter.
Ehlich, Konrad & Rehbein, Jochen (1976). Halbinterpretative Arbeitstranskriptionen (HIAT). Linguistische Berichte, 45, 21⫺41.
Herrmann, Theo & Grabowski, Joachim (1994). Sprechen: Psychologie der Sprachproduktion. Heidelberg: Spektrum Akademischer Verlag.
Ehlich, Konrad & Rehbein, Jochen (1979). Erweiterte halbinterpretative Arbeitstranskriptionen (HIAT 2): Intonation. Linguistische Berichte, 59, 51⫺75.
Jefferson, Gail (1989). Preliminary notes on a possible metric which provides for a ‘standard maximum’ silence of approximately one second in conversation. In Derek Roger & Peter Bull (Eds.), Conversation: An interdisciplinary perspective (pp. 166⫺196). Clevedon, England: Multilingual Matters.
Ehlich, Konrad & Rehbein, Jochen (1981). Zur Notierung nonverbaler Kommunikation für diskursanalytische Zwecke (Erweiterte halbinterpretative Arbeitstranskriptionen HIAT 2). In Peter Winkler (Hrsg.), Methoden der Analyse von Face-to-FaceSituationen (pp. 302⫺329). Stuttgart: Metzler. Ehlich, Konrad & Switalla, Bernd (1976). Transkriptionssysteme – Eine exemplarische Übersicht. Studium Linguistik, 2, 78⫺105.
Kallmeyer, Werner (1996). Erläuterungen zur Transkriptionsweise. In W. Kallmeyer (Hrsg.), Gesprächsrhetorik: Rhetorische Verfahren im Gesprächsprozess (pp. 419⫺421). Tübingen: Gunter Narr.
Ferber, Rosa (1991). Slip of the tongue or slip of the ear? On the perception and transcription of naturalistic slips of the tongue. Journal of Psycholinguistic Research, 20, 105⫺122.
Kallmeyer, Werner (1997). Vom Nutzen des technologischen Wandels in der Sprachwissenschaft: Gesprächsanalyse und automatische Sprachverarbeitung. Zeitschrift für Literaturwissenschaft und Linguistik, 107, 124⫺152.
Forrester, Michael A. (1996). Psychology of language: A critical introduction. London: Sage.
Kallmeyer, Werner & Schütze, Fritz (1976). Konversationsanalyse. Studium Linguistik, 1, 1⫺28.
Fromkin, Victoria (1971). The non-anomalous nature of anomalous utterances. Language, 47, 27⫺ 52.
Klann-Delius, Gisela (1990). Manual zur Transkription. Unveröffentlichtes Manuskript. Freie Universität Berlin.
Garman, Michael (1990). Psycholinguistics. Cambridge: Cambridge University Press.
Koch, Peter & Oesterreicher, Wulf (1994). Schriftlichkeit und Sprache. In Hartmut Günther & Otto Ludwig (Hrsg.), Schrift und Schriftlichkeit/Writing and its use. Ein interdisziplinäres Handbuch internationaler Forschung/An interdisciplinary handbook of international research, 1. Halbband/Volume 1 (pp. 587⫺604). Berlin: de Gruyter.
Garnham, Alan (1994). Future directions. In Morton A. Gernsbacher (Ed.), Handbook of psycholinguistics (pp. 1123⫺1144). San Diego, CA: Academic Press. Garrett, Merril F. (1975). The analysis of speech production. In Gordon H. Bower (Ed.), The psychology of learning and motivation (pp. 133⫺177). New York: Academic Press. Gernsbacher, Morton A. (Ed.), (1994). Handbook of psycholinguistics. San Diego, CA: Academic Press.
Kowal, Sabine & O’Connell, Daniel C. (1995). Notation und Transkription in der Gesprächsforschung. KODIKAS/CODE. Ars Semeiotica: An International Journal of Semiotics, 18, 113⫺138.
Goldman-Eisler, Frieda (1968). Psycholinguistics: Experiments in spontaneous speech. London: Academic Press.
Kucharczik, Kerstin (1996) (Bespr.). Angelika Redder & Konrad Ehlich (Hrsg.), (1994): Gesprochene Sprache: Transkripte und Tondokumente. Thübingen, Niemeyer, 1994, 434 S. ⫹ CD (⫽ Phonai. 41). Leuvense Bijdragen, 85, 435⫺442.
Gutfleisch-Rieck, Ingeborg, Klein, Wolfgang, Speck, Agnes & Spranz-Fogasy, Thomas (1989).
Lampert, Martin D. & Ervin-Tripp, Susan M. (1993). Structured coding for the study of language
6. Datenerhebung und Transkription and social interaction. In J. A. Edwards & M. D. Lampert (Eds.), Talking data: Transcription and coding in discourse research (pp. 169⫺206). Hillsdale, NJ: Erlbaum. Langenmayr, Arnold (1997). Sprachpsychologie: Ein Lehrbuch. Göttingen: Hogrefe. Leech, Geoffrey, Myers, Greg & Thomas, Jenny (Eds.), (1995). Spoken English on computer: Transcription, mark-up, and application. Harlow, England: Longman. Levelt, Willem J. M. (1989). Speaking: From intention to articulation. Cambridge, MA: MIT Press. Maclay, Howard & Osgood, Charles E. (1959). Hesitation phenomena in spontaneous English speech. Word, 15, 19⫺44. MacNeilage, Peter & Ladefoged, Peter (1976). The production of speech and language. In Edward C. Carterette & Morton P. Friedman (Eds.), Handbook of perception, Vol. 7 (pp. 75⫺120). New York: Academic Press. MacWhinney, Brian (1995). The CHILDES project: Tools for analyzing talk (2nd ed.). Hillsdale, NJ: Erlbaum.
105 O’Connell, D. C. & Kowal, S. (1999). Transcription and the issue of standardization. Journal of Psycholinguistic Research, 28, 103⫺120. Pomerantz, Anita & Fehr, B. J. (1997). Conversation analysis: An approach to the study of social action as sense making practices. In Teun A. van Dijk (Ed.), Discourse studies: A multidisciplinary introduction. Vol. 2: Discourse as social interaction (pp. 64⫺91). London: Sage. Posner, Roland (1986). Zur Systematik der Beschreibung verbaler und nonverbaler Kommunikation: Semiotik als Propädeutik der Medienanalyse. In Hans-Georg Bosshardt (Hrsg.), Perspektiven auf Sprache. Interdisziplinäre Beiträge zum Gedenken an Hans Hörmann (pp. 267⫺313). Berlin: de Gruyter. Psathas, Georg & Anderson, Timothy (1990). The ‘practices’ of transcription in conversation analysis. Semiotica, 78, 75⫺99. Redder, Angelika & Ehlich, Konrad (Hrsg.), (1994). Gesprochene Sprache. Transkripte und Tondokumente. Tübingen: Niemeyer.
Ochs, Elimor (1979). Transcription as theory. In E. Ochs & Bambi B. Schieffelin (Eds.), Developmental pragmatics (pp. 43⫺72). New York: Academic Press.
Richter, Helmut (1988). Transkription. In Ulrich Ammon, Norbert Dittmar & Klaus J. Mattheier (Hrsg.), Sociolinguistics/Soziolinguistik: An international handbook of the science of language and society/Ein internationales Handbuch zur Wissenschaft von Sprache und Gesellschaft (pp. 966⫺ 972). Berlin: de Gruyter.
O’Connell, Daniel C. & Kowal, Sabine (1990a). A note on time, timing, and transcriptions thereof. Georgetown Journal of Languages and Linguistics, 1, 203⫺208.
Schachter, Stanley, Christenfeld, Nicholas, Ravina, Bernard & Bilous, Frances (1991). Speech disfluency and the structure of knowledge. Journal of Personality and Social Psychology, 60, 362⫺367.
O’Connell, D. C. & Kowal, S. (1990b). Some sources of error in the transcription of real time in spoken discourse. Georgetown Journal of Languages and Linguistics, 1, 453⫺466.
Schlobinski, Peter (1996). Empirische Sprachwissenschaft. Opladen: Westdeutscher Verlag.
Mißler, Bettina (1993). Datenerhebung und Datenanalyse in der Psycholinguistik. Bochum: AKSVerlag.
O’Connell, D. C. & Kowal, S. (1994). Some current transcription systems for spoken discourse: A critical analysis. Pragmatics, 4, 81⫺107. O’Connell, D. C. & Kowal, S. (1995a). Basic principles of transcription. In Jonathan A. Smith, Rom Harre & Luk Van Langenhove (Eds.), Rethinking methods in psychology (pp. 93⫺105). London: Sage. O’Connell, D. C. & Kowal, S. (1995b). Transcription systems for spoken discourse. In Jef Verschueren, Jan-Ola Oestman & Jan Blommaert (Eds.), Handbook of pragmatics (pp. 646⫺656). Amsterdam: John Benjamins. O’Connell, D. C. & Kowal, S. (1998). Orality and literacy in public discourse: An interview of Hannah Arendt. Journal of Pragmatics, 30, 543⫺564.
Schriefers, H., Meyer, A. S. & Levelt, Willem J. M. (1990). Exploring the time course of lexical access in language production: Picture-word interference studies. Journal of Memory and Language, 29, 86⫺102. Scovel, Thomas (1998). Psycholinguistics. Oxford: Oxford University Press. Selting, Margret (2001). Probleme der Transkription verbalen und paraverbalen/prosodischen Verhaltens. In Gerd Antos, Klaus Brinker, W. Heinemann & Sven F. Sager (Hrsg.), (2001) Text- und Gesprächslinguistik: Ein internationales Handbuch zeitgenössischer Forschung. 2. Halbband: Gesprächslinguistik/Linguistics of text and conversation: An international handbook of contemporary research. Vol. 2: Linguistics of conversation (pp. 1038⫺1059). Berlin: de Gruyter.
106
II. Methoden der Psycholinguistik
Selting, Margret, Auer, Peter, Barden, Birgit, Bergmann, Jörg, Couper-Kuhlen, Elizabeth, Günthner, Susanne, Meier, Christoph, Quasthoff, Uta, Schlobinski, Peter & Uhmann, Susanne (1998). Gesprächsanalytisches Transkriptionssystem (GAT). Linguistische Berichte, 173, 91⫺122. Svartvik, Jan (Ed.) (1990). The London-Lund corpus of spoken English: Description and research. Lund: Lund University Press.
Svartvik, Jan & Quirk, Randolph (1980). A corpus of English conversation. Lund: Gleerup. Whitney, Paul (1998). The psychology of language. Boston: Houghton Mifflin.
Sabine Kowal Technische Universität Berlin (Deutschland) Daniel C. O’Connell Georgetown University, Washington (USA)
7. Ethnographic Methods 1. 2. 3.
5. 6.
Introduction Cross-cultural psychology From the cross-cultural to the crosslinguistic study of language acquisition Developmental pragmatics and language socialization research Cognitive anthropology References
1.
Introduction
4.
In the very first paragraph of his introduction to the first volume of his “Völkerpsychologie” Wilhelm Wundt expresses his hope that future psychologists will become more aware of the importance of “Völkerpsychologie” as an indispensible source for psychological epistemology (“… zu hoffen ist […] daß sich die Psychologen der Bedeutung der Völkerpsychologie als einer unentbehrlichen Erkenntnisquelle mehr bewußt werden als dies gegenwärtig der Fall ist” (Wundt, 1900: vi)). And two paragraphs later he states his conviction that linguistics is more and more heading towards becoming thoroughly absorbed in the psychological aspect of linguistic problems (“Innerhalb der Jahre … hat sich mir … die Überzeugung aufgedrängt, daß die Sprachwissenschaft von sich aus in wachsendem Maß einer gründlichen Vertiefung in die psychologische Seite der Sprachprobleme zugeführt werde” (Wundt, 1900: viii)). As to this latter conviction, Wundt was right. However, – for various reasons (Oelze, 1991) – his hopes with respect to the influence of his “Völkerpsychologie” remained unfulfilled for a long time. Ethnographers and anthropologists as well as linguists and psychologists largely ignored this work – as they ignored related ideas of other pioneers
in the cross-cultural study of language and cognition (Berry & Dasen, 1974: 2⫺12; Klineberg, 1980; Lonner & Triandis, 1980; Trommsdorff, 1977). The founder of modern cultural anthropology, Bronislaw Malinowski (1922, 1923), who studied with Wundt in Leipzig, was certainly influenced by his empiricism, but he rather took up psychoanalytic debates (Senft, 1999; Firth, 1957). However, Malinowski, who introduced the “participant observer” method into the field of ethnography (1922: 24 f.), also made an early plea for researching the socialization and the language acquisition of children in nonEuropean cultures (Malinowski, 1923: 318 ff.; Goodwin, 1997). That language, culture and cognition were finally understood as interdependent domains of one interdiscipline again was an achievement that accompanied the rise of psycholinguistics and the development of the “cross-cultural psychology” subdiscipline. Representatives of this subdiscipline – mainly followers of Jean Piaget’s and Bärbel Inhelder’s Geneve school (1966), Gustav Jahoda (1984), some of Jerome Bruner’s (1983) associates at the Center of Cognitive Studies at Harvard University such as Patricia Greenfield (1989), and Michael Cole (1974, 1977, 1982), Sylvia Scribner (1977) and their coworkers took the interdependence between language, culture and cognition for granted. They were convinced that psychological hypotheses – especially hypotheses in developmental psychology – proposed in researching populations within one culture and one language community could only claim to be general and universal if they were tested in intercultural research. In psycholinguistics the interest in this new interdiscipline was made manifest probably most prominently
7. Ethnographic Methods
with the “Field Manual for cross-cultural study of the acquisition of communicative competence” edited by Dan Slobin and written by Susan Ervin-Tripp, John Gumperz, Dan Slobin, Keith Kernan, Claudia Mitchell and Brian Stross. Although the manual exists in xeroxcopied versions only, it started the field of “The Crosslinguistic Study of Language Acquisition” (Slobin, 1985a,b; 1992; 1997a,b) for which Malinowski made such a strong plea. Studies in this new field in developmental psycholinguistics favoured and still use the comparative method – the method Wundt propagated so much (Oelze, 1991: 34, 59). Cross cultural psychologists, researchers of developmental pragmatics and language socialization, anthropological linguists and cognitive anthropologists have been dealing with psycholinguistic issues, too. They have also taken up some of the basic ideas of Wundt and Malinowski in developing their methods for data gathering. In what follows the ethnographic methods developed within these various sub-disciplines are briefly presented and discussed. These methods are of relevance for psycholinguistics in general because they add the cross-linguistic and crosscultural perspective in the study of language and cognition and shed some light on the question of how the human language capacity copes with the huge variety of natural languages.
2.
Cross-cultural psychology
“Psychology elaborated in our environment, which is characterized by a certain culture and a certain language, remains essentially conjectural as long as the necessary cross-cultural material has not been gathered as a control” (Piaget, 1974: 309). With this programmatic statement Piaget – who developed his theory of the child’s cognitive development by researching children in Geneva only – emphasized the need for cross-cultural studies in psychology. Some of his students like Pierre Dasen (1974) started in the late 1960s to test his predictions with respect to the sequential order of specific stages in the development of knowledge. Carrying out Piaget’s experiments and tests in other European and nonEuropean cultures they found that these stages do occur in the same order, but not at the same ages, and that systematic cultural differences appear in the rate of development (Berry, Dasen & Witkin, 1982). The psychol-
107 ogists used Piaget’s classic experimental designs, materials and tests – like the Piaget (Permanent) Object Scale, the tasks of ‘combinations’ and ‘permutations’, verbal logical tests, classification and seriation tasks, tasks to test spatial concepts like orders, rotation and horizontality and tasks to test the concepts of conservation of quantity, weight, volume and length – sometimes in slightly modified versions, together with more or less standardized paper-and-pencil tests and interviews (Dasen, 1974). To allow for the cross-cultural comparison of their results researchers must ensure not only the functional equivalence of the compared behavior settings, but also the conceptual equivalence of the meaning their research instruments have for the compared groups and the metric equivalence of the results, the data, of comparisons (see Trommsdorff, 1977: 243 ff.). This is the general problem for all ethnographic methods applied in the cognitive sciences. There is no such thing as a “culture-free (or culture-fair) test”. Thus, the major problem of cross-cultural comparative research is “ascertaining the culture-specific (emic) and cross-cultural (etic) validity” at the same time (Trommsdorff, 1977: 245). In other words, the problem is “how to describe behaviour in terms which are meaningful to members of a particular culture (an emic approach …) while at the same time to validly compare behaviour in that culture with behaviour in another or all other cultures (the etic aim …)” (Berry & Dasen, 1974: 17). Moreover, field research just cannot be compared to a laboratory setting: it is extremely difficult, if not impossible, to control independent variables in the field, “one must usually sacrifice some generalizability to gain control, or sacrifice some control to gain generalizability” (Berry & Dasen, 1974: 20). Although researchers in the Geneva tradition were completely aware of these methodological problems (Segall, Dasen & Berry et al., 1990: 48 ff.), American cross-cultural psychologists like Michael Cole and his associates (1971, 1974, 1977, 1982) criticized their approach within the Piagetian tradition. For Cole it is a general mistake to transfer a psychological cognitive theory which originated within a Western cultural tradition to nonWestern cultures, because this entails the risk of experimental ethnocentricism. Comparing results of various psychological experiments with observations of people’s everyday beha-
108 vior often reveals that “people who have difficulty with a particular task in the laboratory may spontaneously use the skill of interest in their everyday activities” (Rogoff, Gauvain & Ellis, 1984: 539). Thus, instead of keeping the tests, tasks and experiments constant in different cultures Cole and others propose to alter the tasks and expriments until they are culturally appropriate (see also Greenfield, Brazelton & Childs, 1989). Believing in the psychic unity of mankind, they “situate the psychological experiment as one of many contexts in which to sample behavior. This approach to “behavior in context” leads [them] to question the generality of inferences from experiments that are not corroborated by non-experimental data” (Cole & Scribner, 1982: 4; but see also Berry, Dasen & Witkin, 1982: 19). Consequently, they understand their cross-cultural psychological approach as “experimental anthropology” or “unorthodox ethnography” (Lonner & Triandis, 1980: 8; see also Schlegel, 1994) and investigate cognitive skills embedded in cultural contexts. Cole and his associates illustrate this approach and methodology in their famous study of the Kpelle of Liberia which researches the influence of schooling and literacy on Kpelle ways of thinking (Cole, Gay & Glick et al., 1971). They first studied the classification of natural world-objects in the Kpelle noun system in order to relate the linguistic categories of the speech community to other verbal and non-verbal behaviors. They interviewed their consultants with the basic question “(name of object) is a what?”, discussed the answers in groups, and summarized their findings in a chart. Then they introduced the “sentence-substitution method”: The consultants had to make up sentences with words within this chart and were then asked which other words could be used in this sentence. Then the psychologists did a free-association experiment, in which they asked their consultants questions like “What do you think of when I say (name of an object)?”. Finally the consultants were confronted with a number of sorting tasks. The elicited data revealed that semantic classes serve as one means of organizing verbal behavior, that the Kpelle use taxonomic class relationship to structure their verbal behavior, but that the use of this kind of structuring is neither universal nor obligatory for the situations that were studied. To find out whether such organization affect the way in which subjects learn something new, the re-
II. Methoden der Psycholinguistik
searchers made the subjects perform experiments that use the concept-discrimination technique and they did free-recall memory experiments in various situations and contexts. To study the interrelationship between culture, logic and thinking the psychologists analyzed a Kpelle court case, strategies in playing the famous Malan game, and responses to verbal syllogisms (see also Scribner, 1977), riddles, and to solving problems with respect to conjunctive and disjunctive concepts. The ideas of the general approach of “experimental anthropology”, the methods developed and used, and the insights gained are described in detail in Cole, Gay and Glick et al. (1971) and in Cole and Scribner (1974).
3.
From the cross-cultural to the cross-linguistic study of language acquistion
Confronted with Chomsky’s (1965) notion of “Universal Grammar” and his idea of an innate “Language Acquisition Device” American psycholinguists understood the importance of collecting language acquisition data from non-Indo-European languages to reveal developmental universals and language-specific developmental patterns (see Slobin, 1985; Bowerman, 1981). At the University of California at Berkeley Dan Slobin, in collaboration with linguists and anthropologists (see Chapter 1 above), started to develop methods for the “collection of comparable cross-linguistic and cross-cultural data on the acquisition of communicative competence” (Slobin, 1967: ix). The scientists produced a “Field Manual” consisting of a general introduction, three main parts and five appendices. The manual “presented an admirable eclectic view of the range of phenomena that should be studied, a summary of existing research techniques, and specific suggestions for the conduct of cross-cultural research on language development” (Bowerman, 1981: 95). Part I presents 14 major research tasks for recording and eliciting speech data of children in various situations over a period of 12 months of field research. These data had to cover information on the children’s motor development, their linguistic development with respect to phonology, vocabulary, and grammar, their communicative development and insights in the community’s linguistic belief system. A core sample of 24 children
7. Ethnographic Methods
between the ages of six months and 13 years, their mothers and some other adults in the speech comunity served as subjects for the studies. Part II presents methodological factors – basically a list of important issues to keep in mind with respect to the aims of the planned contrastive analyses, to the recording apparatus and techniques, and to native consultants, assistants and interpreters. Part III presents some theoretical considerations and possible subsidiary studies with respect to phonology, grammar, semantics, the social setting of linguistic behavior, and usage and styles. Five appendices contain examples of specific tests and procedures like model sentences for elicited imitations, comprehension tests, elicitation techniques, the transcription of tapes, techniques for studying multilingualism (e. g., a picture vocabulary test, a word association test, etc.), an age calculation chart, the International Phonetic Alphabet, and relevant references to language acqusition studies. 12 dissertations on the acqusition of various languages emerged from this manual (Slobin, 1985: 4 f.). However, they illustrate once more the methodological problem of cross-cultural research: The “researchers encountered a number of unanticipated difficulties in following the research design in the field situation. Experiments could not be successfully administered and carried out because this type of activity was culturally inappropriate in the societies under study. Researchers found, moreover, that the speech samples they recorded could be collected only in what they admitted were culturally inappropriate situations” (Schieffelin, 1979b: 75; see also Bowerman, 1981: 107 ff.; Berry, 1980: 7). Realizing that “different types of languages pose different types of acquisition problems” (Slobin, 1985: 4) Slobin, “attending to the acquisition of linguistic form itself” (Slobin, 1990: 233), developed a “cross-linguistic” approach. “This approach is based on the empirical finding … that patterns of grammatical development are strikingly similar in widely differing cultural settings; and on the psychological conviction that the course of language development is determined by biological and cognitive factors that are common to our species. Thus [Slobin has] made use of linguistic diversity as a kind of “natural experiment” in which the world presents children with different tasks to solve. In this laboratory … one can tease out the strategies that children use in constructing grammar” (Slobin, 1990:
109 233). The results of this approach are documented in the by now five volumes edited by Slobin and titled “The crosslinguistic study of language acquisition”. Contributors to these volumes are “asked to approach [their] particular language “as a case study in a potential crosslinguistic typology of acquisitional problems”, considering those data which “contribute to an issue of general theoretical concern in developmental psycholinguistics” (Slobin, 1985: 18). All authors follow the framework with the guiding questions presented in Slobin (1985: 19 f.). Moreover, Dan Slobin, in collaboration with Ruth Berman, initiated a crosslinguistic developmental study on different ways of relating events in narrative. To get a “better understanding of the complex of linguistic, cognitive and communicative abilities that underlie the human ability to capture and convey events in words” (Berman & Slobin, 1994: ix) the psycholinguists elicited narratives in 3-, 4-, 5-, and 9-year old children and in adults in five languages (English, German, Spanish, Hebrew, and Turkish) with Mercer Mayer’s (1969) storybook without words titled “Frog, where are you”. The “frog story” – first used by Bamberg (1985) – consists of 24 pictures that form a story accessible to children. The data elicited with this booklet are analyzed with respect to “the ‘filtering’ of experience through language for purposes of speaking; … the ‘packaging’ of event descriptions into larger units for purposes of narrating; and … the cognitive and psycholinguistic development that leads to mature ‘filtering’ and ‘packaging’” (Berman & Slobin, 1994: 9). In the meantime many other researchers elicited and analyzed data with the “frog story” and the sample of crosslinguistic data and research results on how events are related verbally is continuously growing. Parallel to Slobin’s cross-linguistic approach as an alternative to the cross-cultural approach propagated in the 1967 “Field Manual”, Elinor Ochs and Bambi Schiffelin developed a more holistic way “to deal with the various aspects of the development of communicative competence and language socialization in a unified manner”. They refer to their approach as “Developmental Pragmatics” and “Language Socialization Research” (Ochs & Schieffelin, 1979; Schieffelin & Ochs, 1986). Before discussing this approach, it remains to be noted that there are also a few cross-language studies of speech perception (see e. g.
110
II. Methoden der Psycholinguistik
Strange, 1995); they have to cope with similar methodological problems as the cross-linguistic studies of language acquisition.
4.
Developmental pragmatics and language socialization research
Their criticism of the studies based on the “Field Manual” (Slobin, 1967), the insight that “all societies do not rely on the very same set of language socializing procedures” (Ochs, 1986: 6), and the realization that “acquisition of language and acquisition of culture are natural contexts for each other and should be studied as such” (Schieffelin, 1979a: 14) motivated Ochs and Schieffelin to develop a new paradigm for the study of language and culture development: Developmental pragmatics “tends to focus on children’s competence in constructing discourse … The relevant features of context utilized in developmental pragmatic research … include prior and subsequent discourse …, and interlocutor’s understanding of social identities, knowledge and goals … These features are linked to specific linguistic structures in order to assess children’s functional competence in language. Language socialization builds on this rich understanding of children’s discourse at the microanalytic level … language socialization has as a goal the linking of microanalytic analyses of children’s discourse to more general ethnographic accounts of cultural beliefs and practices of the families, social groups, or communites into which children are socialized” (Schieffelin & Ochs, 1986: 168). To study how the acquisition of language and of culture influence each other, the linguists examined how language is used in the researched speech communities “to express relationships and cultural meanings in interactions involving children and adults” (Schieffelin & Ochs, 1986: 183). Influenced by Geertz’s concept of “thick descriptions” (Geertz, 1973: 6), they developed the following methods for data collection and for transcription: Schieffelin (1979a) did all her work with Kaluli children in Papua New Guinea monolingually. For a year she systematically studied three 2- to 3-year olds in three situations within their families in which the children regularly participated, and she made additional observations in other interactional contexts. She thus tape-recorded spontaneous, naturalistic interactions between these children and their mothers, sib-
lings, relatives and other villagers. While tape-recording she also took detailed contextual notes on the situation, the participants, nonverbal behaviour, etc. in her diary (see also Braunwald & Brislin, 1979). With the assistence of the children’s mothers she then transcribed and translated the tapes, integrating these contextual notes into the transcription. A few months later she listened to the tapes and checked the transcription with another consultant. His comments were used to further enrich and extend the information provided by the mothers. These transcriptions with their “thick descriptions” formed the basis for her anthropological linguistic analyses. Ochs (1988) did a similar study on Samoa. She researched six 1½- to 3-year old children for several months, but she also studied children in classroom settings and did an adult-speech study. In gathering her data she used tape- and video-recorders, field notes, and photographs. All material gathered was then transformed into complex and extremely rich transcriptions (Ochs, 1979) that contextualized both ethnographic and linguistic information. On the basis of these transcriptions the researchers’ data analyses showed that “conversational activities involving small children vary in ways that systematically relate to cultural beliefs, values, and social order. […] What a child says and how he or she says it will be influenced by local cultural processes” (Schieffelin & Ochs, 1986: 183).
5.
Cognitive anthropology
In the late 1950s and early 1960s cultural, psychological, and linguistic anthropologists in America redefined their object of research: “A society’s culture consists of whatever it is one has to know or believe in order to operate in a manner acceptable to its members […] Culture does not exist of things, people, behavior, or emotions, but in the forms of organizations of the things in the mind of the people” (Goodenough, 1957: 167 f.). With this definition of ‘culture’ as ‘cognition’ the founders of what was first called the “New Ethnography”, then “Ethnoscience”, later “Ethnosemantics” and finally “Cognitive Anthropology” (from here onwards abbreviated as CA) established a new interdiscipline that tries to “study the cultures of others from the inside” (Casson, 1994: 61), thus avoiding ethnocentric biases in its investiga-
7. Ethnographic Methods
tions. Under the influence of anthropological linguistics and the linguistic relativity hypothesis (Lucy, 1997) the “real thrust of ethnoscience has been the realm of semantics” (Keesing, 1972: 306). The pioneers of CA first studied certain semantic domains like, e. g., kinship. The terms found for such a domain within a language constitute a “folk classification”. This classification is described with a so-called “componential analysis” in which the meaning of the terms is represented through a set of semantic oppositions (Duranti, 1997: 108 ff.). Other studies researched taxonomies that represent, e. g., folk botanical and zoological knowledge in various cultures. By the 1970s these classification studies were criticized as “far too simplistic” (Keesing, 1972: 314). However, influenced by Chomsky’s (1965) ideas of a universal grammar, a new focus of interest on “the interface between cultural knowledge and basic psychological factors developed within CA” (Casson, 1994: 66). This new focus is manifested in Berlin and Kay’s (1969) comparative study on “Basic Color Terms” that claims to “reveal universal constraints of patterning” in a semantic domain” which had previously been thought to be randomly structured” (Duranti, 1997: 115). In this study the researchers use the Munsell set of 320 color chips, present them to consultants and ask them to provide the basic color term for each chip. Despite the importance Berlin and Kay’s 1969 study and subsequent work had for CA, their approach was heavily criticized by researchers that argued from a more relativist position and criticized the methodology of data gathering: “Color terms in a given culture do not mean Munsell chips” (Duranti, 1997: 161; see also Senft, 1987; Saunders & van Brakel, 1997). And indeed, more recent research in CA deals with conceptual categories and semantic domains from a more relativist point of view again (see Casson, 1994; Dougherty, 1985; Quinn & Holland 1987). The remainder of this section presents one of these projects within modern CA, namely the domain-centered approach and the methods of the former “Cognitive Anthropology Research Group” now the department of “Language and Cognition” of the Max-Planck-Institute for Psycholinguistics in Nijmegen. The aim of this group of researchers with its director Stephen Levinson is to further research into the relationships between language, cuture and cognition by conducting fieldwork on leading issues of
111 common interest to anthropology, psychology and linguistics in a number of non-IndoEuropean languages and cultures. (Levinson, 1996; Pederson, Danziger, Wilkins et al., 1998; Senft, 1995). The group tries to investigate questions of possible interdependencies between language, culture and cognition empirically via the following stratagem: “(a) first, pick a conceptual domain; (b) second, find two or more languages which contrast in the semantic treatment of that domain (i. e., where very different semantic parameters are employed); (c) third, develop non-linguistic tasks which will behaviourally reveal the conceptual parameters utilized to solve them; (d) compare the linguistic and non-linguistic representation systems as revealed by (b) and (c), and assess whether there is any correlation between linguistic and non-linguistic codings in the same domain” (Brown & Levinson, 1993: 1). The first domain the group has been picking is the domain of “space”. To research this domain the group developed methods to build a comparative data base through parallel field research in different languages and cultures. In developing these methods the group accepted that “the best alternative to the true experiment is unquestionably an appropriate quasi-experimental design” (Brown & Sechrest, 1980: 316). Most of the developed methods make use of ‘interactive games’ (Cole, 1977: 470) which are used to elicit task-oriented verbal descriptions in native speakers of the language under study. These games involve a ‘director’ consultant who is allowed to see a certain stimulus, and a ‘matcher’ who is not. The players are sitting side by side with a screen separating them so that they cannot see each other’s stimuli. The orientation of the players is taken note of, and the field researcher instructs the players what to do in their own language – all instructions are standardized. Moreover, the field researcher encourages the players to interact verbally, especially if they think they have difficulties to understand each other. On the basis of the verbal descriptions given by the ‘director’ in the game, the ‘matcher’ is asked to reproduce three-dimensional models involving familiar objects with intrinsic orientations, like a human statuette in various body poses and mini-landscapes inhabited by model farm animals, as well as unfamiliar and abstract objects. Some games also involve the matching of photographs on the basis of verbal descriptions; these photographs systematically cover certain spatial
112 oppositions. Thus, the “photo-object-game”, for example, is played with three-dimensional plastic toys and photos depicting a certain spatial configuration of these toys. The director describes the photo, and on the basis of this description the matcher uses the toys to rearrange the spatial configuration. The “wooden-man-game” requires that the director, on the basis of photos or on the basis of a wooden human statuette with flexible angles, describes certain body-poses. The matcher has to adjust his or her statuette in such a way that the resulting body pose matches the description. In the “Tinkertoygames” (see Cole, 1977: 469) the matcher – with the help of a building system for children – has to build a number of three-dimensional configurational and non-configurational constructions on the basis of the director’s description which itself is based either on the same object or on a photo of the object to be constructed. The “photo-photogame” consists of four series of 2 ⫻ 12 photographs; here the matcher has to select one photo on the basis of the director’s description. The photos depict certain localizations and configurations of objects with and without intrinsic features (like men vs. trees and balls) in four directions on the horizontal plane. Moreover, the set contains a number of distractor photos, so it did not become too obvious for the players to hypothesize about what we were after with the game. These four games were designed to elicit descriptions of spatial arrays and configurations. With games like these corpora of contextually anchored yet complex interactive texts were elicited that incorporate many examples of spatial language. These corpora constitute the group’s comparative data base for the research on verbal reference to space in different languages and cultures (see Senft, 1994, 2001). Analyses of these data revealed fundamental differences in how the researched languages refer to space. Speakers of Indo-European languages prefer the use of body coordinates to describe arrangements of objects, but other languages like, e. g., the Australian Aboriginal language Guugu Yimidhirr (Haviland, 1993) prefer systems anchored as cardinal direction terms (see also Senft, 1997). The group then investigated “whether variation in linguistic use corresponded to variation in cognition.To do this the group has exploited the sensitivity of the various spatial reference systems to rotation. If something is to the left and I turn around,
II. Methoden der Psycholinguistik
it is now to the right, but if I conceive of it as to the east, then turn around, it remains to the east” (Lucy, 1997: 301). Using a number of such tasks (Senft, 1994: 421 ff., 2001: 527 ff.) the group found that “speakers of different languages respond in ways congruent with their verbal practices” (Lucy, 1997: 301). Thus, languages – probably together with other cultural phenomena – seem to influence the choice and the kind of conceptual parameters their speakers use to solve non-verbal problems within the domain “space”. It seems that studies like the one presented here finally contribute to making Wilhelm Wundt’s hopes for the future of psycholinguistics come true.
6.
References
Bamberg, M. G. W. (1985). Form and function in the construction of narratives: Developmental perspectives. Unpublished doctoral dissertation. University of California, Berkeley. Berman, R. A. & Slobin, D. I. (1994). Relating events in narrative: A crosslinguistic developmental study. Hillsdale: Erlbaum. Berry, J. W. (1980). Introduction to methodology. In H. C. Triandis & J. W. Berry (Eds.), Handbook of cross-cultural psychology. Vol. 2: Methodology (pp. 1⫺28). Boston: Allyn and Bacon. Berry, J. W. & Dasen, P. R. (1974). Introduction: History and method in the cross-cultural study of cognition. In J. W. Berry & P. R. Dasen (Eds.), Culture and cognition: Readings in cross-cultural psychology (pp. 1⫺20). London: Methuan. Berry, J. W., Dasen, P. R. & Witkin, H. A. (1982). Developmental theories in cross-cultural perspective. In L. L. Adler (Ed.), Cross-cultural research at issue (pp. 13⫺21). New York: Academic Press. Bowerman, M. (1981). Language development. In H. C. Triandis & A. Heron (Eds.), Handbook of cross-cultural psychology. Vol. 4: Developmental psychology (pp. 93⫺185). Boston: Allyn and Bacon. Braunwald, S. R. & Brislin, R. W. (1979). The diary method updated. In E. Ochs & B. Schieffelin (Eds.), Developmental pragmatics (pp. 21⫺42). New York: Academic Press. Brown, E. D. & Sechrest, L. (1980). Experiments in cross-cultural research. In H. C. Triandis & J. W. Berry (Eds.), Handbook of cross-cultural psychology. Vol. 2: Methodology. (pp. 297⫺318). Boston: Allyn and Bacon. Brown, P. & Levinson, S. C. (1993). Linguistic and nonlinguistic coding of spatial arrays: Explorations
7. Ethnographic Methods in Mayan cognition. CARG Working paper No. 24. Nijmegen: Mimeo. Bruner, J. S. (1983). Child’s talk: Learning to use language. New York: Norton. Casson, R. W. (1994). Cognitive anthropology. In P. K. Bock (Ed.), Handbook of psychological anthropology (pp. 61⫺96). Westport: Praeger. Chomsky, N. (1965). Aspects of a theory of syntax. Cambridge: MIT Press. Cole, M. (1977). An ethnographic psychology of cognition. In P. N. Johnson-Laird & P. C. Wason (Eds.), Thinking – Readings in cognitive science (pp. 468⫺482). Cambridge: Cambridge University Press. Cole, M. & Scribner, S. (1974). Culture and thought – A psychological introduction. New York: John Wiley. Cole, M. & Scribner, S. (1982). Developmental theories applied to cross-cultural research. In L. L. Adler (Ed.), Cross-cultural research at issue (pp. 3⫺ 12). New York: Academic Press. Cole, M., Gay, J., Glick, J. A. & Sharp, D. W. (1971). The cultural context of learning and thinking. An exploration in experimental anthropology. New York: Basic Books. Dasen, P. R. (1974). Cross-cultural Piagetian research: A summary. In J. W. Berry & P. R. Dasen (Eds.), Culture and cognition: Readings in cross-cultural psychology (pp. 409⫺423). London: Methuan. Dougherty, J. W. D. (Ed.) (1985). Directions in cognitive anthropology. Urbana: University of Illinois Press. Firth, R. (Ed.) (1957). Man and culture – An evaluation of the work of Bronislaw Malinowski. London: Routledge & Kegan Paul. Geertz, C. (1973). The interpretation of cultures. New York: Basic Books. Goodenough, W. H. (1957). Cultural anthropology and linguistics. In P. L. Garvin (Ed.), Report on the 7th Annual Round Table Meeting on Linguistics and Language Study (pp. 167⫺173). Washington: Georgetown University Press. Goodwin, M. H. (1997). Children’s linguistic and social worlds. Anthropology Newsletter, 38, 4⫺5. Greenfield, P. M., Brazelton, T. B. & Childs, C. P. (1989). From birth to maturity in Zinacantan: Ontogenesis in cultural context. In V. R. Bricker & G. H. Gossen (Eds.), Ethnographic encounters in Southern Mesoamerica: Essays in honor of Evon Zartman Vogt, Jr. (pp. 177⫺216). Austin: University of Texas Press.
113 Haviland, J. (1993). Anchoring, iconicity, and orientation in Guugu Yimidhirr pointing gestures. Journal of Linguistic Anthropology, 3, 3⫺45. Jahoda, G. (1984). Psychology and anthropology: a psychological perspective. London: Academic Press. Keesing, R. M. (1972). Paradigms lost: The new ethnography and the new linguistics. Southwestern Journal of Anthropology, 28, 299⫺332. Klineberg, O. (1980). Historical perspectives: Cross-cultural psychology before 1960. In H. C. Triandis & W. W. Lambert (Eds.), Handbook of cross-cultural psychology. Vol. 1: Perspectives (pp. 31⫺67). Boston: Allyn and Bacon. Levinson, S. C. (1996). Frames of reference and Molyneaux’s question. Cross-linguistic evidence. In P. Bloom, M. Peterson, L. Nadel & M. Garrett (Eds.), Language and space (pp. 109⫺169). Cambridge: MIT Press. Lonner, W. J. & Triandis, H. C. (1980). Introduction to basic processes. In H. C. Triandis & W. Lonner (Eds.), Handbook of cross-cultural psychology. Vol. 3: Basic processes (pp. 1⫺20). Boston: Allyn and Bacon. Lucy, J. A. (1997). Linguistic relativity. Annual Review of Anthropology, 26, 291⫺312. Malinowski, B. (1922). Argonauts of the Western Pacific. London: Routledge & Kegan Paul. Malinowski, B. (1923). The problem of meaning in primitive languages. In C. K. Ogden & I. A. Richards (Eds.), The meaning of meaning, Supplement I (pp. 296⫺336). London: Kegan Paul. Mayer, M. (1969). Frog, where are you? New York: Dial Press. Ochs, E. (1979). Transcription as theory. In E. Ochs & B. B. Schieffelin (Eds.), Developmental pragmatics (pp. 43⫺72). New York: Academic Press. Ochs, E. (1986). Introduction. In B. B. Schieffelin & E. Ochs (Eds.), Language socialization across cultures (pp. 1⫺13). Cambridge: Cambridge University Press. Ochs, E. (1988). Culture and language development. Language acquisition and language socialization in a Samoan village. Cambridge: Cambridge University Press. Ochs, E. & Schieffelin, B. B. (1979). Developmental pragmatics. New York: Academic Press. Oelze, B. (1991). Wilhelm Wundt – die Konzeption der Völkerpsychologie. Münster: Waxmann. Pederson, E., Danziger, E., Wilkins, D., Levinson, S. C., Kita, S. & Senft, G. (1998). Semantic typology and spatial conceptualization. Language, 74, 557⫺589.
114
II. Methoden der Psycholinguistik
Piaget, J. (1974). Need and significance of crosscultural studies in genetic psychology. In J. W. Berry & P. R. Dasen (Eds.), Culture and cognition: Readings in cross-cultural psychology (pp. 299⫺ 309). London: Methuan.
turen erheben kann. Linguistische Berichte, 154, 413⫺429.
Piaget, J. & Inhelder, B. (1966). La psychologie de l’enfant. Paris: Presses Universitaires de France.
Senft, G. (1997). Introduction. In G. Senft (Ed.), Referring to space – Studies in Austronesian and Papuan languages (pp. 1⫺38). Oxford: Clarendon Press.
Rogoff, B., Gauvain, M. & Ellis, S. (1984). Development viewed in its cultural context. In M. H. Bornstein & M. E. Lamb (Eds.), Developmental psychology: An advanced textbook (pp. 533⫺571). Hillsdale: Erlbaum. Saunders, B. A. C. & van Brakel, J. (1997). Are there nontrivial constraints on colour categorization? Behavioral and Brain Sciences, 20, 167⫺228. Schieffelin, B. B. (1979a). The give and take of everyday life – Language socialization of Kaluli children. Cambridge: Cambridge University Press. Schieffelin, B. B. (1979b). Getting it together: An ethnographic approach to the study of the development of communicative competence. In E. Ochs & B. B. Schieffelin (Eds.), Developmental pragmatics (pp. 73⫺108). New York: Academic Press. Schieffelin, B. B. & Ochs, E. (1986). Language socialization. Annual Review of Anthropology, 15, 163⫺191. Schlegel, A. (1994). Cross-cultural comparisons in psychological anthropology. In P. K. Bock (Ed.), Psychological anthropology (pp. 19⫺39). Westport: Praeger. Scribner, S. (1977). Modes of thinking and ways of speaking: Culture and logic reconsidered. In P. N. Johnson-Laird & P. C. Wason (Eds.), Thinking – Readings in cognitive science (pp. 483⫺500). Cambridge: Cambridge University Press. Segall, M. H., Dasen, P. R., Berry, J. W. & Poortinga, Y. P. (1990). Human behavior in global perspective. An introduction to cross-cultural psychology. New York: Pergamon Press. Senft, G. (1987). Kilivila color terms. Studies in Language, 11, 313⫺346. Senft, G. (1994). Ein Vorschlag, wie man standardisierte Daten zum Thema “Sprache, Kognition und Konzepte des Raumes” in verschiedenen Kul-
Senft, G. (1995). Sprache, Kognition und Konzepte des Raumes in verschiedenen Kulturen. Kognitionswissenschaft, 4, 166⫺170.
Senft, G. (1999). Bronislaw Kasper Malinowski. In J. Verschueren, J.-O. Östman, J. Blommaert & C. Bulcaen, (Eds.), Handbook of pragmatics (1997 installment) (20 pp.) Amsterdam: Benjamins. Senft, G. (2001). Frames of spatial reference in Kilivila. Studies in language, 25, 521⫺555. Slobin, D. I. (Ed.) (1967). A field manual for crosscultural study of the acquisition of communicative competence (second draft, July 1967). Berkeley: University of California, ASUC Bookstore. Slobin, D. I. (1985). Introduction: Why study acqusition crosslinguistically? In D. I. Slobin (Ed.), The crosslinguistic study of language acquisition. Vol. 1. (pp. 3⫺24). Hillsdale: Erlbaum. Slobin, D. I. (1990). The development from child speaker to native speaker. In J. W. Stigler, R. A. Shweder & G. Herdt (Eds.), Cultural psychology. Essays on comparative human development (pp. 23⫺256). Cambridge: Cambridge University Press. Slobin, D. I. (Ed.) (1985⫺1997). The crosslinguistic study of language acquisition. (Vols. 1⫺5). Hillsdale: Erlbaum. Strange, W. (Ed.) (1992). Speech perception and linguistic experience: Issues in cross-language research. Baltimore: York Press. Trommsdorff, G. (1977). German cross-cultural psychology. The German Journal of Psychology, 10, 240⫺266. Wundt, W. (1900). Völkerpsychologie. Eine Untersuchung der Entwicklungsgesetze von Sprache, Mythus und Sitte. Band I: Die Sprache. 1. Teil. Leipzig: Engelmann (3rd edition, 1911).
Gunter Senft Max-Planck-Institute for Psycholinguistics, Nijmegen (The Netherlands)
115
8. Experimentelle Methoden
8. Experimentelle Methoden 1. 2. 3. 4. 5.
Experimentelle Psycholinguistik Methodologische Grundlagen Experimentaldesign: Variation und Kontrolle Auswertung von Experimentaldaten Literatur
1.
Experimentelle Psycholinguistik
1.1. Zum Stellenwert von Experimenten Psycholinguistik versteht sich als empirische Wissenschaft. Es geht darum, theoretisch begründete Hypothesen über das Verhalten von Sprachbenutzern anhand von empirischen Beobachtungen zu stützen oder zu widerlegen, um so Entscheidungsgrundlagen für das Beibehalten oder Ablehnen der zugrunde liegenden Theorie zu erhalten. In ihrem Bemühen, Erkenntnisse über die kognitiven Prozesse der Produktion, Rezeption und Entwicklung sprachlicher Strukturen zu gewinnen, stützt sich die Psycholinguistik vorzugsweise auf experimentelle Methoden. Seitens der Psycholinguistik hat dieses Vorgehen eine mehr als hundertjährige Tradition (Binet & Henri, 1894), und die zunehmende Relevanz dieser Forschungsrichtung wird darin deutlich, dass sich der Anteil der Aufsätze mit experimentell-psycholinguistischer Thematik in der psychologischen Literatur seit den 60er Jahren nahezu verdoppelt hat. In der Linguistik hingegen hat sich das Experiment als Untersuchungsmethode erst seit der so genannten kognitiven Wende in den 70er Jahren zu etablieren vermocht, als zum einen die Notwendigkeit einer objektiven empirischen Überprüfung theoretischlinguistischer Postulate immer deutlicher wurde und zum anderen der Haupteinwand gegen ein experimentelles Vorgehen – es sei
artifiziell – angesichts der erfolgreichen wissenschaftlichen Praxis gegenstandslos wurde. Auch für die Psycholinguistik gilt seither die traditionelle Definition des Experiments. Um den Verlauf kognitiver Vorgänge rekonstruieren zu können, heißt es bereits bei Wundt (1896: 26), müsse man ihr Zustandekommen „willkürlich herbeiführen und die Bedingungen … variieren“. Eine modernere Definition (Hager, 1987: 71) betont, dass in einem Experiment „die gleichen Sachverhalte unter verschiedenen Bedingungen … systematisch beobachtet werden“. Dadurch, dass das Auftreten der interessierenden Phänomene durch Wissenschaftler evoziert wird, ist eine prinzipielle Wiederholbarkeit der Beobachtungen gewährleistet. Damit bietet das Experiment – über akzidentelle Beobachtung hinausgehend, bei der lediglich korrelative Zusammenhänge aufgezeigt werden können – die Möglichkeit, Kausalzusammenhänge nachzuweisen und so das Bedingungsgefüge von Ereignissen (wenigstens in Ausschnitten) präzise zu rekonstruieren (Sarris, 1990; Townsend, 1984). Das geschieht, indem die gemäß Theorie ursächlichen Bedingungen systematisch variiert werden und die Wirkung der Variation auf die kritischen Ereignisse beobachtet wird. Daraus ergibt sich eine für Experimente spezifische Unterscheidung zweier Klassen von Variablen: ⫺ Faktoren (‘unabhängige Variablen’, d. h. als Ursache anzusehende Merkmale); ⫺ Variaten (‘abhängige Variablen’, d. h. als Wirkung anzusehende Merkmale). Hinzu kommen bestimmte, genau zu kontrollierende Randbedingungen der Untersuchung. Charakteristika eines Experiments sind somit zusammenfassend: Prüfung kausaler Hypothesen; Evozieren der Phänomene;
FALL (Beobachtungsobjekt)
VARIABLE A (Faktor)
VARIABLE B (Faktor)
… …
VARIABLE X (Variate)
… …
1 2 3 4 5 …
1 1 2 2 1 …
1 2 1 2 1 …
… … … … … …
x1 x2 x3 x4 x5 …
… … … … … …
Abb. 8.1: Allgemeine Datenmatrix für experimentelle Untersuchungen.
116 Variation von Faktoren; Beobachtung von Variaten; Kontrolle von Randbedingungen. Die Ergebnisse einer experimentellen Untersuchung werden in einer Matrix aus Fällen (den beobachteten Objekten) und Variablen (den Faktoren und Variaten) festgehalten, in die Daten eingetragen sind. Dabei konstituieren die Werte der Faktoren die Bedingungen für das Zustandekommen der Werte der Variaten. Abbildung 8.1 zeigt ein Beispiel für eine solche Datenmatrix. 1.2. Typen von Experimenten Innerhalb dieses generellen Rahmens sind verschiedene Realisierungen von Experimenten denkbar (Bortz & Döring, 2002). Deren Spektrum wird unter anderem durch die folgenden Dimensionen bestimmt: (1) Vergleichsgrundlage (Bierhoff & Rudinger, 1996): In einem echten Experiment werden die Faktoren aktiv manipuliert; die Zuweisung der Fälle zu Bedingungen (und damit die Gruppierung) erfolgt zufällig. In einem Quasi-Experiment dagegen werden die Fälle aufgrund natürlich vorgefundener Gegebenheiten gruppiert. Echtes Experiment und Quasi-Experiment ergänzen sich, weil bestimmte Faktoren nicht zu manipulieren sind (z. B. Geschlecht als Ursache für die Bevorzugung bestimmter Sprachregister). (2) Experimentierort (Bredenkamp, 1969): Ein Feldexperiment findet in einer natürlichen Umgebung statt. Es spiegelt in besonderem Maß die Alltagsrealität des kommunikativen Geschehens wider (hohe ökologische Validität). Ein Laborexperiment dagegen findet in einer zweckmäßig gestalteten Umgebung statt, in der das Bedingungsgefüge kognitiver Prozesse besonders gut analysierbar ist (hohe interne Validität). Im konkreten Fall ist abzuwägen, welcher Gesichtspunkt höher zu gewichten ist. (3) Art der Datenerhebung (Thornton, MacDonald & Gil, 1999): In einem ‘on line’-Experiment erfolgt die Erfassung der Daten während des zu untersuchenden Prozesses, so dass auf diese Weise Abläufe transparent werden. In einem ‘off line’-Experiment dagegen erfolgt die Erfassung der Daten nach Abschluss des zu untersuchenden Prozesses, so dass hier das Verarbeitungsresultat im Vordergrund steht. Der Übergang zwischen beiden Arten der Datenerhebung ist fließend; was im konkreten Fall zu bevorzugen ist, hängt vom Forschungsinteresse und von Aufwand-Nutzen-Erwägungen ab.
II. Methoden der Psycholinguistik
(4) Anzahl der Faktoren (Czienskowski, 1996): In einem einfaktoriellen Experiment wird genau ein Faktor manipuliert. Das ist zum klaren Nachweis der Wirksamkeit isolierter Ursachen geeignet. In einem mehrfaktoriellen Experiment dagegen werden mehrere Faktoren in Kombination variiert. Das gestattet Aussagen über die wechselseitige Beeinflussung von Ursachen in einem komplexeren Bedingungsgefüge. (5) Anzahl der Variaten (Share, 1984): In univariaten Experimenten beziehen sich die Fragestellungen auf genau eine Variate; Wirkungen werden also auf der Grundlage jeweils eines einzelnen Maßes isoliert betrachtet. In multivariaten Experimenten dagegen beziehen sich die Fragestellungen auf mehrere Variaten, die gemeinsam ausgewertet werden.
2.
Methodologische Grundlagen
2.1. Fälle: Sprachausdrücke und Sprachbenutzer In der Psycholinguistik sind die Fälle, d. h. die Objekte, auf die sich die Beobachtung richtet, meist ⫺ Sprachausdrücke (Versuchsmaterialien): sprachliche Äußerungen im weitesten Sinn (Phoneme, Wörter, Sätze, Texte, Dialoge…), deren morphosyntaktische, semantische oder pragmatische Struktur beobachtet wird; ⫺ Sprachbenutzer (Versuchspersonen): Einzelpersonen oder Personengruppen (Informanten, Sprecher, Hörer, Patienten, Gesprächsbeteiligte …), deren Sprachproduktions- oder -rezeptionsverhalten beobachtet wird. Oft sind allerdings Allgemeinaussagen sowohl über Sprachstrukturen wie auch über Sprachverarbeitungsprozesse beabsichtigt. Dann sind Sprachausdrücke und zusätzlich Sprachbenutzer als Fälle in Betracht zu ziehen. Eine zweifache Verallgemeinerung – über Äußerungen und Personen – bringt allerdings gewisse Schwierigkeiten mit sich (vgl. 4.2). Die beobachteten Objekte repräsentieren fast immer eine größere Menge von potenziell beobachtbaren Objekten, stellen also eine Stichprobe aus einer Gesamtmenge von Ausdrücken oder Personen dar. Idealerweise erfolgt die Auswahl der Fälle aus der jeweiligen Gesamtmenge zufällig, doch ist das Zufallsprinzip im Rahmen psycholinguistischen Ex-
8. Experimentelle Methoden
perimentierens meist nur mit Einschränkungen anwendbar. Bei unendlichen Gesamtmengen (wenn Aussagen z. B. auch für künftige Sprachbenutzer gelten sollen) kommen in der Praxis Verfahren zur Anwendung, die eine Zufallsauswahl lediglich simulieren (Bortz & Döring, 2002). Angaben über den notwendigen Umfang der Stichprobe lassen sich nicht generell machen. Er richtet sich danach, mit welcher Wahrscheinlichkeit und innerhalb welcher Grenzen Allgemeinaussagen über die interessierenden Phänomene beabsichtigt sind. Empfehlungen zu den für bestimmte Analyseverfahren optimalen Stichprobenumfängen gibt Bortz (1999). In der Praxis verfährt man jedoch meist so, dass der Stichprobenumfang als Vielfaches der Anzahl der zu vergleichenden Bedingungen bestimmt wird (Friedrichs, 1990). Dieses Vorgehen ist damit zu rechtfertigen, dass in psycholinguistischen Experimenten nicht die Repräsentativität der Stichproben, sondern deren Vergleichbarkeit im Vordergrund steht. Denn letzten Endes kann sprachliche Kommunikation überhaupt nur bei einer weitgehenden Übereinstimmung der Sprachverarbeitungsprozesse zwischen allen ‘native speakers’ einer bestimmten Sprache funktionieren. Um die Verallgemeinerung von einer Stichprobe auf eine Gesamtmenge wahrscheinlichkeitstheoretisch zu rechtfertigen, müssen besondere statistische Verfahren angewendet werden (vgl. 4.1). 2.2. Variablen: Faktoren und Variaten Variablen – das sind die in der Hypothese spezifizierten Ursachen und Wirkungen, nämlich die zu variierenden Bedingungen und die zu beobachtenden Phänomene. Welche das sind, hängt freilich von der Fragestellung des betreffenden Experiments ab. Während die inhaltliche Definition der Variablen eine Frage der zugrunde liegenden Theorie ist, ist die Erfassung der jeweiligen Variablenwerte eine Frage der praktischen Messtechnik. Der damit notwendige Schritt der Überführung einer theorienahen Definition von Variablen in eine beobachtungsnahe heißt Operationalisierung. Grundsätzlich muss die Erfassung von Variablen drei Anforderungen genügen (Lienert & Raatz, 1994): ⫺ Objektivität: Die Messung muss vom jeweils Beobachtenden unabhängig sein. Idealerweise sollten verschiedene Be-
117 obachter zu denselben Ergebnissen gelangen. ⫺ Reliabilität: Die Messung muss im Rahmen der jeweiligen Messmethode verlässlich sein. Idealerweise sollte eine Wiederholung der Messung zu denselben Ergebnissen führen wie die ursprüngliche Messung. ⫺ Validität: Die Messung muss genau das erfassen, was erfasst werden soll. Inhaltlich sollten Messergebnisse möglichst direkt auf das jeweils zu untersuchende Merkmal beziehbar sein. Diese so genannten Gütekriterien gelten für Faktoren ebenso wie für Variaten. Vor allem bezüglich der Erfassung von Variaten existieren in der Psycholinguistik nicht immer allgemein anerkannte Messvorschriften. Während man sich bei der Messung eines Kriteriums wie etwa ‘Länge eines gesprochenen Texts’ auf das internationale SI-System (mit Sekunden als Basiseinheit) stützen kann, sind zur Messung eines Kriteriums wie ‘Länge eines geschriebenen Texts’ verschiedene Verfahren denkbar (Anzahl der Zeichen, Zahl der Zeilen, Zahl der Seiten, Summe aller Zeilenlängen…). Prinzipiell ist dabei das valideste Messverfahren zu bevorzugen (im Beispiel die Zeichenanzahl, da alle anderen Maße noch von weiteren Größen, etwa dem Schriftgrad, abhängig sind). Faktoren dagegen dienen zur Kennzeichnung von Bedingungen und zur Gruppierung von Fällen. In einem Experiment wird jeder Faktor variiert. Je Faktor liegen also verschiedene Ausprägungsstufen vor, die zweckmäßigerweise durch verschiedene numerische Codes gekennzeichnet werden. Anhand der Werte der Faktoren werden die Werte der Variaten zu Messwertreihen zusammengefasst, die Gegenstand der statistischen Analyse sind. 2.3. Daten Die Orientierung an Daten oder Messwerten ist das wesentliche Kennzeichen empirischlinguistischer Forschung (Erdfelder, 1994). In Abgrenzung zu Daten in allgemein linguistischer Terminologie (Huber & Mandl, 1994) sind Daten im Sinne psycholinguistischer Methodologie ⫺ für das jeweilige Erkenntnisinteresse informativ, d. h. sie bilden die Grundlage für theoriebezogene Entscheidungen; ⫺ das Resultat systematischer Beobachtungsprozesse, d. h. sie sind aufgrund von Messvorgängen zustande gekommen;
118 ⫺ auf eine numerische Skala bezogen, d. h. es existiert eine Zuordnungsfunktion zwischen Merkmalsausprägung und Maßzahl. Daten können charakterisiert werden hinsichtlich ihrer Kontinuität (stetig, wie z. B. bei Lesezeiten, oder diskret, wie z. B. bei Konstituentenzahl), ihrer Präzision (Genauigkeit der Messung bzw. die Breite der zur Messung verwendeten Kategorien) und des ihnen zugrunde liegenden Skalenniveaus (in Folge des Bezugs auf eine Skala mit bestimmten mathematischen Eigenschaften). Skalen unterscheiden sich nämlich in den mathematischen Transformationen, die zulässig sind, ohne dass sich die Aussagen über die dahinterstehenden Beziehungen ändern. Es ist zum Beispiel zulässig zu sagen, ein Schüler, der 24 von 30 Sätzen richtig übersetzt hat, habe doppelt so viel geleistet wie ein Schüler, der 12 der 30 Sätze richtig übersetzt hat; es ist hingegen nicht zulässig zu sagen, eine Leistung mit der Note 2 sei doppelt so hoch wie eine mit der Note 4. Von praktischer Bedeutung sind folgende Skalentypen (Orth, 1983): ⫺ Nominalskala: Eine Variable wird durch prinzipiell gleichwertige Kategorien gemessen (z. B. Numerus durch die Kategorien Singular und Plural). Da hier nur die Relationen ⫽ und ⫽ definiert sind, sind bei nominal skalierten Daten lediglich Aussagen über Gleichheit oder Verschiedenheit der Kategoriezuordnung zulässig. ⫺ Ordinalskala: Eine Variable wird durch abgestufte Kategorien verschiedener Breite gemessen (z. B. konnotativer Eindruck auf einem siebenstufigen semantischen Differential wie etwa gut 햴⫺햳⫺햲⫺쎻 0 ⫺햲⫺햳⫺햴 schlecht Hier sind die Relationen ⫽, ⫽, ⬍und⬎ definiert, so dass auch Aussagen über die Rangfolge von Messwerten sinnvoll sind. ⫺ Kardinalskala: Eine Variable wird durch abgestufte Kategorien gleicher Breite gemessen (z. B. Verarbeitungsschwierigkeit durch die zur Verarbeitung notwendige Zeit). Für Kardinalskalen sind die Relationen ⫽, ⫽, ⬍, ⬎, ⫹ sowie – (und u. U. noch · und /) definiert; hier sind auch Aussagen über Größenunterschiede (und u. U. Größenverhältnisse) von Messwerten erlaubt. Anzumerken ist, dass eine höherwertige Skala immer in eine niedrigerwertige umgesetzt werden kann, jedoch nicht umgekehrt.
II. Methoden der Psycholinguistik
3.
Experimentaldesign: Variation und Kontrolle
3.1. Einfaktorielle Designs Der einfachste denkbare Versuchsplan ist das so genannte einfaktorielle Design. Hier betrifft die systematische Variation genau einen Faktor; untersucht wird die Auswirkung auf die Variate. Variiert man die Bedingungen auf zwei Stufen (so dass der Faktor nur zwei Werte annehmen kann), so kann man feststellen, ob überhaupt ein Einfluss auf die Variate vorliegt (für einen Faktor ‘Lärm’ mit den Stufen ‘laut’ und ‘leise’ etwa, ob die Sprechlautstärke bei lautem Hintergrund-Geräuschpegel höher ist als bei leisem). Liegt hingegen eine größere Zahl von Stufen vor, so lässt sich auch der Wirkverlauf feststellen (z. B. der so genannte Lombard-Effekt: Je lauter der Hintergrundlärm, desto höher ist die Sprechlautstärke). Neben der Anzahl der Faktorstufen muss auch festgelegt werden, wie die Applikation der Variation erfolgen soll. ⫺ Bei unabhängiger Bedingungsvariation (‘between cases’-Vergleich) werden unter den unterschiedlichen Faktorstufen verschiedene Fälle untersucht. Den zu vergleichenden Messwertreihen liegen also unabhängige Fallgruppen zugrunde. Abbildung 8.2 verdeutlicht beispielhaft ein einfaktorielles Design mit zwei Faktorstufen (Bedingungen laut/leise) und entsprechend unabhängigen Personengruppen (eine Gruppe spricht bei lautem, die andere bei leisem Hintergrundgeräusch). FALLGRUPPE FAKTOR VARIATE Personen Lärm Sprechlautstärke Gruppe 1 Gruppe 2
1 (laut) 2 (leise)
x¯ 1 x¯ 2
Abb. 8.2: Einfaktorielles Design mit zwei Stufen; unabhängige Bedingungsvariation.
⫺ Bei abhängiger Bedingungsvariation (‘within cases’-Vergleich) wird eine einzige Gruppe von Fällen unter den unterschiedlichen Bedingungen beobachtet. Den zu vergleichenden Messwertreihen liegt also Messwiederholung, d. h. mehrfache Erhebung der gleichen Variate an denselben Fällen, zugrunde. Abbildung 8.3 zeigt beispielhaft ein einfaktorielles Design mit drei Faktorstufen (Lärm-Bedingungen laut/mittel/leise) und wiederholten Mes-
119
8. Experimentelle Methoden
sungen (dieselbe Gruppe spricht bei lautem, mittlerem und leisem Hintergrundgeräusch). 3.2. Mehrfaktorielle Designs Mehrfaktorielle Experimente haben komplexere Designs, bei denen über die Effekte der einzelnen Faktoren hinaus auch Effekte von Faktorkombinationen zu berücksichtigen sind. Einem mehrfaktoriellen Experiment kann entweder ein geblocktes, ein geschachteltes oder ein gemischtes Design zugrunde liegen. ⫺ Mehrfaktorielle Versuchspläne mit geblockten (gekreuzten) Faktoren: Hier werden sämtliche Ausprägungsstufen eines Faktors mit sämtlichen Stufen aller anderen Faktoren kombiniert. Bei einer solchen Kombinationsweise entspricht die Zahl der zum Vergleich ausstehenden Bedingungen dem Produkt der Anzahl aller Faktorstufen. Liegen etwa zwei zweistufige Faktoren vor (ein so genanntes 2 ⫻ 2-Design), so müssen vier Messwertreihen miteinander verglichen werden. Abbildung 8.4 zeigt exemplarisch ein solches Design: In einer Reihe von Experimenten zum Verstehen
sprachlicher Lokalisationen wie „vor dem Haus“ (Grabowski, Herrmann & Weiß, 1993) sind u. a. die beiden Faktoren ‘Lokalangabe’ (Präposition „vor“/„hinter“) und ‘Bezugsobjekt’ (mit/ohne intrinsische Vorderseite) als Bedingungen referenziellen Handelns kombiniert worden. Den meisten Experimenten in der Psycholinguistik liegt ein geblocktes Design zugrunde; zwei- bis vierfaktorielle Versuchspläne sind dabei die Regel. ⫺ Mehrfaktorielle Versuchspläne mit geschachtelten (genesteten) Faktoren: Hier werden die Ausprägungsstufen eines Faktors mit einigen, jedoch nicht allen Stufen eines anderen Faktors kombiniert. Daher ist die Anzahl der Bedingungen kleiner als das Produkt der Anzahl aller Faktorstufen. Abbildung 8.5 zeigt ein Beispiel eines geschachtelten Designs – ein Experiment zum Einfluss der Negation auf das Behalten von Äußerungskonstituenten (Engelkamp, Merdian & Hörmann, 1972): Unter dem zweistufigen Faktor ‘Formulierung’ (affirmativ/negativ) ist ein dreistufiger Faktor ‘Konstituente’ geschachtelt, der angibt, was genau negiert ist (Subjekt/Objekt/Prädikat).
FALLGRUPPE Personen
1 (laut)
2 (mittel)
3 (leise)
FAKTOR Lärm
Gruppe 1
x¯ 1
x¯ 2
x¯ 3
VARIATE Sprechlautstärke
Abb. 8.3: Einfaktorielles Design mit drei Stufen; abhängige Bedingungsvariation Einzelheiten zu Versuchsplanung und Experimentaldesigns finden sich bei Hager (1987).
FALLGRUPPE Personen
FAKTOR A Lokalangabe
FAKTOR B Bezugsobjekt
VARIATE referenzielles Handeln
Gruppe Gruppe Gruppe Gruppe
1 1 2 2
1 2 1 2
x¯ 1 x¯ 2 x¯ 3 x¯ 4
1 2 3 4
(vor) (vor) (hinter) (hinter)
(mit) (ohne) (mit) (ohne)
Abb. 8.4: Zweifaktorielles Design mit 2 ⫻ 2 Stufen; unabhängige Bedingungsvariation.
FALLGRUPPE Personen
FAKTOR A Formulierung
FAKTOR B Konstituente
VARIATE Behaltensleistung
Gruppe Gruppe Gruppe Gruppe
1 2 2 2
⫺ 1 (Subjekt) 2 (Objekt) 3 (Prädikat)
x¯ 1 x¯ 2 x¯ 3 x¯ 4
1 2 3 4
(affirmativ) (negativ) (negativ) (negativ)
Abb. 8.5: Zweifaktorielles Design mit geschachtelten Faktoren; unabhängige Bedingungsvariation.
120 Experimente mit geschachteltem Design sind dann sinnvoll, wenn die Effekte bestimmter Faktorkombinationen bereits gut erforscht sind, da sich das Bedingungsgefüge hier nur ausschnittweise rekonstruieren lässt. ⫺ Mehrfaktorielle Versuchspläne mit gemischtem Design: Hier sind einige Faktoren mit anderen geblockt, während andere Faktoren ineinander geschachtelt sind. Gemischte Designs sind auswertungstechnisch und im Hinblick auf die Interpretation der Ergebnisse recht kompliziert. Auch bei mehrfaktoriellen Versuchsplänen ist natürlich festzulegen, ob die Bedingungsvariation unabhängig oder abhängig erfolgt, wobei auch dabei Mischformen möglich sind. Einzelheiten zu komplexeren Experimentaldesigns finden sich bei Winer, Brown & Michels (1991). Mit Hilfe mehrfaktorieller Versuchspläne lassen sich zunächst so genannte Haupteffekte nachweisen – Effekte der Variation der einzelnen beteiligten Faktoren auf die Variate. Darüber hinaus können bei mehrfaktoriellen Versuchsplänen so genannte Wechselwirkungen (Interaktionen) auftreten. Eine Wechselwirkung liegt dann vor, wenn bestimmte Effekte auf Seiten der Variate nur bei Vorliegen spezieller Faktorstufen-Kombinationen zu beobachten sind. Plakativ ausgedrückt, manifestiert sich eine Wechselwirkung zweier Faktoren als Unterschied von Unterschieden zwischen Messwertreihen, eine Wechselwirkung dreier Faktoren als Unterschied zwischen Unterschieden von Unterschieden usw. Ein Beispiel liefert etwa die Beobachtung (Mayer & Gallini, 1990), dass Textillustrationen bei Lesern mit geringem Vorwissen deutliche behaltensfördernde Effekte haben können, während Leser mit hohem Vorwissen von Textillustrationen nicht so stark profitie-
Abb. 8.6: Arten von Wechselwirkungen.
II. Methoden der Psycholinguistik
ren. Hier interagieren die Faktoren ‘Textart’ (‘illustriert’ vs. ‘nicht illustriert’) und ‘Vorwissen’ (‘gering’ vs. ‘hoch’) in Bezug auf die Variate ‘Behalten’ miteinander. Während Nicht-Interaktion zweier Faktoren sich bei grafischer Darstellung in annähernd parallel verlaufenden Kurven äußert, erscheinen Interaktionen als nicht parallel verlaufende Kurven. Dabei sind drei Arten von Nicht-Parallelität zu unterscheiden (Bredenkamp, 1982). ⫺ Ordinale Wechselwirkungen: Die Unterschiede liegen in gleicher Richtung, jedoch ist ein Unterschied größer als der andere. In diesem Fall lassen sich zusätzlich zum Wechselwirkungseffekt auch Haupteffekte interpretieren. ⫺ Disordinale Wechselwirkungen: Die Unterschiede sind gleich groß, liegen jedoch in entgegengesetzter Richtung. Haupteffekte, sofern vorhanden, lassen sich in diesem Fall nicht interpretieren. ⫺ Hybride Wechselwirkungen: Die Unterschiede sind in Bezug auf Größe und Richtung verschieden. In diesem Fall lassen sich nur einige, aber nicht alle Haupteffekte interpretieren. Abbildung 8.6 veranschaulicht die verschiedenen Arten von Wechselwirkungen. Abschließend sei noch darauf hingewiesen, dass Interaktionen nach jedem der beteiligten Faktoren aufgelöst werden müssen, um das Bedingungsgefüge vollkommen transparent zu machen (Analyse so genannter Einfacheffekte). Es muss also genau geprüft werden, unter welchen Bedingungen welche Effekte zu beobachten sind. Nur so ist eine einwandfreie Interpretation der Befundlage möglich. 3.3. Kontrolltechniken Sprachproduktion und -rezeption erfolgen immer im Rahmen einer konkreten, vielschichtigen Situation. Man kann daher da-
8. Experimentelle Methoden
von ausgehen, dass in Experimenten nicht nur die untersuchten Faktoren auf die Variaten wirken, sondern dass darüber hinaus weitere, im Versuchsplan nicht berücksichtigte Randbedingungen wirksam werden. Beispielsweise kann die Tageszeit, zu der ein Leseexperiment stattfindet, die durchschnittliche Lesegeschwindigkeit beeinflussen (Oakhill & Garnham, 1987). Solche Randbedingungen bezeichnet man auch als Störvariablen. Sie können unsystematisch oder systematisch wirksam werden. Während Effekte unsystematisch wirkender Randbedingungen sich bei einer hinreichend großen Anzahl von Beobachtungen ungefähr ausgleichen, können systematisch wirkende Randbedingungen den zu untersuchenden Kausalzusammenhang in schwer kontrollierbarer Weise verfälschen (Gniech, 1976). Ein Beispiel für eine unsystematisch wirkende Randbedingung, die in der Tatsache begründet liegt, dass überhaupt eine wissenschaftliche Beobachtung durchgeführt wird, ist der so genannte Hawthorne-Effekt (Adair, 1984): Bereits das Bewusstsein der Versuchsteilnehmer, als Beobachtungsobjekt zu dienen, kann verhaltenswirksam werden. In der empirischen Linguistik kann sich dieser Effekt etwa in einer angesichts eines Mikrofons minimal veränderten Sprechweise äußern (was gelegentlich als Vorwand für eine – in Deutschland strafbare – heimliche Aufzeichnung nichtöffentlicher Sprachäußerungen gedient hat). Durch Schaffung einer entspannten Untersuchungs-Atmosphäre kann man solchen Effekten jedoch entgegenwirken. Ein Beispiel für eine systematische Randbedingung, die in der Tatsache begründet ist, dass in jedem Experiment eine vielschichtige – nicht nur sprachliche – Kommunikation zwischen den am Experiment beteiligten Personen stattfindet, ist der so genannte Pygmalion-Effekt (Rosenthal, 1976): Unbewusst kann ein Versuchsleiter jene Versuchsteilnehmer, die sich den Hypothesen gemäß verhalten, anders behandeln als solche Teilnehmer, die sich nicht hypothesenkonform verhalten (z. B. durch andere Mimik, Gestik, Intonation usw.). Zur Vermeidung solcher Effekte kann man entweder computergesteuerte Experimente durchführen, in denen die Rolle des Versuchsleiters auf ein Mimimum beschränkt ist, oder Experimente nach dem ‘double blind’-Prinzip gestalten, wobei weder den Versuchsteilnehmern noch den Versuchsleitern die jeweiligen Hypothesen bekannt sind.
121 Der Einfluss von Störvariablen kann durch eine Reihe von Maßnahmen neutralisiert oder berechenbar gemacht werden. Die wichtigsten Kontrollmaßnahmen sind ⫺ Eliminieren: Sicherstellen, dass eine Störvariable überhaupt keinen Einfluss haben kann. Zum Beispiel können AußenlärmEinflüsse bei Experimenten mit phonologischer Thematik dadurch neutralisiert werden, dass das Experiment in einem schallgeschützten Raum stattfindet. ⫺ Konstanthalten: Sicherstellen, dass bei allen Beobachtungsobjekten und unter allen Bedingungen genau dieselbe Ausprägung einer Störvariablen vorliegt. Zum Beispiel können Helligkeitseinflüsse bei Leseversuchen dadurch neutralisiert werden, dass in allen Fällen die gleichen Lichtquellen eingeschaltet sind. ⫺ Parallelisieren: Sicherstellen, dass unter allen Bedingungen das gleiche Spektrum von Ausprägungen einer Störvariablen vorliegt. Zum Beispiel können Einflüsse unterschiedlicher Textlänge dadurch neutralisiert werden, dass unter allen Bedingungen gleichermaßen kurze wie lange Texte verwendet werden. ⫺ Randomisieren: Sicherstellen, dass eine Störvariable unsystematisch wirksam wird, so dass die Effekte sich gegebenenfalls ausgleichen können. Zum Beispiel können Einflüsse individueller Persönlichkeitsmerkmale dadurch neutralisiert werden, dass Versuchsteilnehmer den Untersuchungsgruppen nach Zufall zugeteilt werden. ⫺ Registrieren: Sicherstellen, dass Einflüsse der Störvariablen gegebenenfalls systematisch erfasst werden. Die Störvariable wird quasi als zusätzlicher Faktor aufgefasst, der jedoch nur bei Bedarf in die Auswertung eingeht. Zum Beispiel können Einflüsse der Reihenfolge von Testfragen dadurch neutralisiert werden, dass die Reihenfolge systematisch verändert wird. Im Fall einer Neutralisierung durch Registrieren kann der Einfluss einer Störvariablen nachträglich quantifiziert werden und ihr Anteil statistisch herausgerechnet („auspartialisiert“) werden (Bortz, 1999). Dem Nutzen – nämlich der genaueren Kenntnis des Bedingungsgefüges – stehen damit Kosten – nämlich die Notwendigkeit des Einbezugs weiterer Faktoren und, daraus folgend, die Vergrößerung der notwendigen Stichproben – gegenüber.
122
II. Methoden der Psycholinguistik
Beinhaltet der Versuchsplan abhängige Bedingungsvariation, also wiederholte Messungen an denselben Fällen, so muss mit Reihenfolge-Effekten gerechnet werden. In psycholinguistischen Experimenten sind solche Reihenfolge-Effekte besonders ernst zu nehmen, da dieselben Versuchsteilnehmer vielfach eine größere Menge von Sprachausdrücken nacheinander verarbeiten. Zur Kontrolle von Reihenfolge-Effekten sind verschiedene Vorgehensweisen möglich. ⫺ Bei kompletter Permutation werden alle n! denkbaren Reihenfolgen der n Elemente realisiert. ⫺ Beim ‘Lateinischen Quadrat’ erfolgt eine n-fache zyklische Verschiebung der Position der n Elemente. ⫺ Bei teilweiser Permutation werden einige zum Ausbalancieren zweckmäßige Reihenfolgen der n Elemente realisiert. ⫺ Bei Inversion wird neben einer willkürlich ausgewählten Reihenfolge der n Elemente auch deren Umkehrung realisiert. Abbildung 8.7 illustriert die verschiedenen Vorgehensweisen am Beispiel der Reihenfolge von vier Texten A, B, C, D. Hier wird deutlich: Je genauer die Kontrolle der Reihenfolge sein soll, umso mehr Bedingungen müssen zusätzlich eingeführt werden. Reihenfolge-Effekte können allerdings unterschiedlich verstanden werden, nämlich als
⫺ Effekte der absoluten Position. Damit sind so genannte ‘primacy’- oder ‘recency’-Effekte gemeint; etwa der Umstand, dass im Lauf eines Experiments bei den Versuchsteilnehmern ein gewisser Leistungsabfall durch Ermüdung oder ein gewisser Leistungsanstieg durch Lernen eintreten kann. ⫺ Effekte der relativen Position. Damit sind so genannte ‘carry-over’-Effekte gemeint; etwa die Tatsache, dass Verarbeitungsresultate aus einem vorausgehenden Versuchsdurchgang einen Kontext für den nachfolgenden Versuchsdurchgang darstellen und die Verarbeitung entsprechend beeinflussen können. Bei genauerem Hinsehen wird deutlich, dass die oben aufgeführten Techniken der Reihenfolge-Kontrolle verschieden gut geeignet sind, um absolute und relative Positionseffekte zu neutralisieren. Mit einem Lateinischen Quadrat lassen sich absolute, nicht aber relative Positionseffekte ausbalancieren. Durch Inversion werden relative, nicht aber absolute Positionseffekte ausbalanciert. Nur durch vollständige Permutation oder durch sorgfältig arrangierte teilweise Permutation kann sichergestellt werden, dass jedes Element gleich oft an erster, zweiter, dritter und vierter Stelle vorkommt (absolute Position) sowie vor und nach jedem anderen Element vorkommt (relative Position).
4. (1)
Komplette Permutation (vollständiges Ausbalancieren)
Gruppe 1 2 3 … 24
Reihenfolge ABCD ABDC ACBD … DCBA
(2)
Lateinisches Quadrat (zyklische Verschiebung)
Gruppe 1 2 3 4
Reihenfolge ABCD DABC CDAB BCDA
(3)
Teilweise Permutation (teilweises Ausbalancieren)
Gruppe 1 2 3 4
Reihenfolge ABCD BADC CDAB DCBA
(4)
Inversion (Umkehrung)
Gruppe 1 2
Reihenfolge ABCD DCBA
Abb. 8.7: Möglichkeiten der Kontrolle von Reihenfolge-Effekten.
Auswertung von Experimentaldaten
4.1. Deskriptive und analytische Statistik Zur Auswertung der in einem Experiment gewonnenen Daten bedient sich die Psycholinguistik der mathematischen Statistik. Im Vordergrund stehen dabei zwei Aufgaben. ⫺ Deskriptive Statistik dient zur Aufbereitung, Darstellung, Zusammenfassung und Strukturierung der Daten durch geeignete numerische Parameter oder grafische Visualisierung. ⫺ Analytische Statistik dient zur Überprüfung von Hypothesen über die Bedeutsamkeit (Signifikanz) von Effekten und zur wahrscheinlichkeitstheoretischen Rechtfertigung von Allgemeinaussagen. Statistik ermöglicht damit Entscheidungen über das Annehmen oder Ablehnen der zugrunde liegenden Theorie unter Angabe konkreter Wahrscheinlichkeiten (MacRae, 1988).
123
8. Experimentelle Methoden
Zur Überprüfung von Hypothesen existiert eine Vielzahl verschiedener Verfahren, auf die hier nicht im Einzelnen eingegangen werden kann; einen Überblick geben beispielsweise Bortz (1999), Bortz und Lienert (1998) und Hays (1994). Das Analyseprinzip stellt sich folgendermaßen dar: Aufgrund von Wahrscheinlichkeitsschlüssen trifft man eine Entscheidung zwischen der Arbeitshypothese, die besagt, der betreffende Effekt gehe auf die Variation der Faktoren zurück, und deren logischem Gegenteil, der Nullhypothese, die besagt, der betreffende Effekt sei zufälliger Natur. ‘Signifikant’ heißt ein Effekt dann, wenn er mit großer Wahrscheinlichkeit systematisch bedingt ist. Konkret erfolgt die Signifikanzprüfung durch den Vergleich eines empirischen Testwerts mit einem kritischen Wert, der anhand einer theoretischen Verteilung bestimmt wird und für eine bestimmte Wahrscheinlichkeit gilt. Eine Signifikanzaussage ist freilich immer mit dem Risiko einer Fehlentscheidung verbunden. Das Risiko, eine Fehlentscheidung zu Gunsten der Arbeitshypothese zu treffen (der so genannte α-Fehler), sollte 5 % nicht überschreiten. Mit anderen Worten: Statistisch begründete Aussagen in der experimentellen Psycholinguistik lassen sich üblicherweise mit einem Wahrscheinlichkeitsniveau von mindestens 95 % auf andere als die untersuchten Sprachausdrücke oder andere als die untersuchten Sprachbenutzer verallgemeinern. 4.2. Zweifache statistische Analyse Wie erwähnt, beabsichtigen viele psycholinguistische Experimente Aussagen, die sowohl über die tatsächlich beobachteten Äußerungen als auch über die tatsächlich beobachteten Personen hinaus Gültigkeit besitzen. In solchen Fällen müssen zwei Zufallsstichproben herangezogen werden: eine Stichprobe mit Sprachäußerungen und eine weitere mit Sprachbenutzern als Beobachtungseinheiten. Außerdem sind die Daten sowohl in Bezug auf die Versuchspersonen als auch in Bezug auf die Versuchsmaterialien zu analysieren, um eine zweifache Verallgemeinerung zu rechtfertigen (Clark, 1973). Diese an sich selbstverständliche Auffassung hat sich in der Psycholinguistik erst erstaunlich spät durchgesetzt (Günther, 1983). In der Praxis geht man dabei meist folgendermaßen vor (vgl. aber Raaijmakers, Schrijnemakers & Gremmen, 1999): Die ursprüngliche Datenmatrix mit Personen und Äuße-
rungen als Fällen wird auf zwei Weisen zusammengefasst. Zum einen abstrahiert man von den Sprachbenutzern, indem getrennt für jede Bedingung aus den Werten für die einzelnen Personen ein Mittelwert über alle Personen berechnet wird. Daraus ergibt sich eine aggregierte Datenmatrix, in der lediglich Sprachausdrücke als Fälle zu finden sind. Zum anderen abstrahiert man von den Sprachausdrücken, indem getrennt für jede Bedingung aus den Werten für die einzelnen Äußerungen ein Mittelwert über alle Äußerungen berechnet wird. Daraus ergibt sich eine zweite aggregierte Datenmatrix, in der diesmal Versuchspersonen als Fälle zu finden sind. Diese aggregierten Datenmatrizen bilden die Grundlage der statistischen Analysen. Die Analyse der aggregierten Datenmatrix mit Versuchsmaterialien als Fällen kann Auskunft über die Verallgemeinerbarkeit auf andere Sprachäußerungen, die der mit Versuchspersonen als Fällen über die Verallgemeinerbarkeit auf andere Sprachbenutzer geben. Nur wenn sich sowohl in der Analyse mit Versuchsmaterialien als Fällen als auch in der Analyse mit Versuchspersonen als Fällen herausstellt, dass eine wahrscheinlichkeitstheoretisch begründete Verallgemeinerung möglich ist, lassen sich die Ergebnisse sowohl auf andere Sprachbenutzer wie auch auf andere Sprachausdrücke übertragen.
5.
Literatur
Adair, J. G. (1984). The Hawthorne effect: A reconsideration of the methodological artifact. Journal of Applied Psychology, 69, 334⫺345. Bierhoff, H. W. & Rudinger, G. (1996). Quasi-experimentelle Untersuchungsmethoden. In E. Erdfelder, R. Mausfeld, T. Meiser & G. Rudinger (Eds.), Handbuch Quantitative Methoden (pp. 47⫺ 58). Weinheim: Beltz PVU. Binet, A. & Henri, V. (1894). La me´moire des phrases (me´moire des ide´es). L’Anne´e Psychologique, 1, 24⫺59. Bortz, J. (1999). Statistik. Für Sozialwissenschaftler. Berlin: Springer. Bortz, J. & Döring, N. (2002). Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler. Berlin: Springer. Bortz, J. & Lienert, G. A. (1998). Kurzgefasste Statistik für die klinische Forschung. Berlin: Springer. Bredenkamp, J. (1969). Experiment und Feldexperiment. In C.F. Graumann (Ed.), Sozialpsychologie
124 – Theorien und Methoden (pp. 332⫺374). Göttingen: Hogrefe. Bredenkamp, J. (1982). Verfahren zur Ermittlung des Typs der statistischen Wechselwirkung. Psychologische Beiträge, 24, 56⫺75. Clark, H. H. (1973). The language-as-fixed-effect fallacy: A critique of language statistics in psychological research. Journal of Verbal Learning and Verbal Behavior, 12, 335⫺359. Czienskowski, U. (1996). Wissenschaftliche Experimente: Planung, Auswertung, Interpretation. Weinheim: Beltz PVU. Engelkamp, J., Merdian, F. & Hörmann, H. (1972). Semantische Faktoren beim Behalten der Verneinung von Sätzen. Psychologische Forschung, 35, 93⫺116. Erdfelder, E. (1994). Erzeugung und Verwendung empirischer Daten. In T. Herrmann & W. H. Tack (Hrsg.), Methodologische Grundlagen der Psychologie (pp. 47⫺97). Göttingen: Hogrefe. Friedrichs, J. (1990). Methoden empirischer Sozialforschung. Opladen: Westdeutscher Verlag.
II. Methoden der Psycholinguistik MacRae, A W. (1988). Measurement scales and statistics: What can significance tests tell us about the world? British Journal of Psychology, 79, 161⫺172. Mayer, R. E. & Gallini, J. K. (1990). When is an illustration worth ten thousand words? Journal of Educational Psychology, 82, 715⫺726. Oakhill, J. V. & Garnham, A. (1987). Interpreting elliptical verb phrases at different times of day: Effects of plausibility and antecedent distance. Language and Speech, 30, 145⫺157. Orth, B. (1983). Grundlagen des Messens. In H. Feger & J. Bredenkamp (Hrsg.), Messen und Testen (pp. 136⫺180). Göttingen: Hogrefe. Raaijmakers, J. G. W.; Schrijnemakers, J. M. C. & Gremmen, F. (1999). How to deal with „The language-as-fixed-effect fallacy“: Common misconceptions and alternative solutions. Journal of Memory and Language, 41, 416⫺426. Rosenthal, R. (1976). Experimenter effects in behavioral research. New York: Irvington Wiley.
Gniech, G. (1976). Störeffekte in psychologischen Experimenten. Stuttgart: Kohlhammer.
Sarris, V. (1990). Methodische Grundlagen der Experimentalpsychologie: Erkenntnisgewinnung und Methodik. München: Reinhardt.
Grabowski, J.; Herrmann, T. & Weiß, P. (1993). Wenn „vor“ gleich „hinter“ ist – zur multiplen Determination des Verstehens von Richtungspräpositionen. Kognitionswissenschaft, 3, 171⫺183.
Share, D. L. (1984). Interpreting the output of multivariate analyses: A discussion of current approaches. British Journal of Psychology, 75, 349⫺ 362.
Günther, H. (1983). Zur methodischen und theoretischen Notwendigkeit zweifacher statistischer Analyse sprachpsychologischer Experimente. Sprache und Kognition, 4, 279⫺285.
Thornton, R.; MacDonald, M. C. & Gil, M. (1999). Pragmatic constraint on the interpretation of complex noun phrases in Spanish and English. Journal of Expermental Psychology: Learning, Memory, and Cognition, 25, 1347⫺1365.
Hager, W. (1987). Grundlagen einer Versuchsplanung zur Prüfung empirischer Hypothesen in der Psychologie. In G. Lüer (Hrsg.), Allgemeine experimentelle Psychologie (pp. 43⫺264). Stuttgart: Fischer. Hays, W. L. (1994). Statistics. Fort Worth: Harcourt Brace. Huber, G. L. & Mandl, H. (1994). Verbale Daten. Eine Einführung in die Grundlagen und Methoden der Erhebung und Auswertung. Weinheim: Beltz PVU. Lienert, G. A. & Raatz, U. (1994). Testaufbau und Testanalyse. Weinheim: Beltz PVU.
Townsend, J. T. (1984). Uncovering mental processes with factorial experiments. Journal of Mathematical Psychology, 28, 369⫺400. Winer, B. J.; Brown, D. R. & Michels, K. M. (1991). Statistical principles in experimental design. New York: McGraw-Hill. Wundt, W. (1896). Grundriss der Psychologie. Leipzig: Kröner.
Lorenz Sichelschmidt, Universität Bielefeld Elena Carbone, Universität Bielefeld (Deutschland)
9. Simulative Methoden
125
9. Simulative Methoden 1. 2. 3. 4. 5.
Einleitung Einteilung von simulativen Methoden Simulative Methoden in der Psycholinguistik Schlussbemerkung Literatur
1.
Einleitung
„Es scheint uns Autoren, dass die Versuche, psychologische Prozesse mit Maschinen zu simulieren, größtenteils dem Wunsch entspringen, zu prüfen – oder zu demonstrieren – dass der Entwerfer die zugrundeliegende Theorie verstanden hat.“ (Miller, Galanter & Pribram, 1960/1973: 50).
1.1. Simulative Methoden als Mittel der wissenschaftlichen Prüfbarkeit und Suffizienzanalyse Gedanken wie die im obigen Zitat geäußerten mögen McCulloch und Pitts (1943) geleitet haben, als sie sich daran machten, das kleinste psychische Ereignis (least kind of psychic event) mittels eines digitalen Systems, dem sog. Psychon, zu simulieren. Wenn man eine Simulation als ein rechnergestütztes Modell (computational model) einer wirklichen oder vorgestellten Situation oder eines Phänomens versteht, dann kann McCulloch und Pitts Psychon als das erste Simulationsmodell der kognitiven Wissenschaften gelten, die erste Methode, komplexe kognitive Prozesse auf primitive logische Operationen zurückzuführen, die im Prinzip durch eine einfache Nervenzelle verwirklicht werden können (vgl. Caudill & Butler, 1990; Quinlan, 1991). Wenn Wissenschaftlichkeit etwas mit Nachprüfbarkeit von Aussagen durch Logik, Mathematik und Experimentieren zu tun hat, dann erweisen sich simulative Methoden oder Computermodelle immer dort als eine ergänzende vierte Möglichkeit, wo mit den drei klassischen Mitteln nicht oder nur schlecht weiterzukommen ist. Ein Musterbeispiel für diesen Fall bietet die Untersuchung komplexer, nonlinearer, dynamischer Systeme, deren Verhalten mit Hilfe von simulativen Methoden besser zu untersuchen ist als mit herkömmlichen Methoden (Peitgen, Jürgens & Saupe, 1992). Simulative Methoden werden in diesem Beitrag also als die Fortführung der klassischen Prüfbarkeits-Trias (Logik, Mathematik, Experimentieren) angesehen. Man kann mit ihnen prüfen, ob ein psycho- oder neu-
robiologisches Modell konsistent, widerspruchsfrei und damit als Computerprogramm lauffähig ist und ob es korrekte Vorhersagen liefert. Außerdem kann man mit ihnen ‘experimentell modellieren’ (Neumann, 1990): untersuchen, wie die Veränderung von Teilkomponenten eines Systems das Systemverhalten beeinflusst, z. B. indem man Teile des Simulationsmodells (zer)stört und beobachtet, wie solche künstlichen Läsionen die simulierte Reaktion verändern (Hinton & Shallice, 1991; Jacobs, Heller & Nazir, 1989; Schade, 1999). Im Gegensatz zu bestimmten logisch-mathematischen Methoden dienen simulative Methoden jedoch im Prinzip nicht einer Notwendigkeits-, sondern einer Suffizienzanalyse: sie zeigen, wie etwas funktionieren könnte, nicht aber warum etwas notwendigerweise so funktioniert und nicht anders (Caudill & Butler, 1990; Jacobs, Rey, Ziegler & Grainger, 1998; vgl. Miller et al., 1960; Marr, 1982). Während einer der Väter der Kognitiven Psychologie, Don Broadbent (1958) das „boxologische“ Standardmodell der Informationsverarbeitung in Form eines Kästchen-und-Pfeil Diagramms vorstellte, publizierte Rosenblatt (1958) bereits ein formelles Modell, das sog. Perzeptron, das die Grundlagen zur Simulation eines komplexen kognitiven Vorgangs bot: der Mustererkennung. Im Gegensatz zu Broadbents präquantitativem „Boxologie-Modell“, wies das Perzeptron bereits fast alle Bestandteile moderner konnektionistischer Simulationsmodelle auf: eine Eingangsschicht aus „sensorischen“ Einheiten, eine Zwischenschicht aus „assoziativen“ Einheiten, eine Ausgabeschicht aus Reaktionseinheiten und schließlich etwas, das dem Psychon von McCulloch und Pitts (1943) noch fehlte: eine Lernregel. Minsky und Papert (1969) wiesen später auf verschiedene Grenzen des Perzeptrons sowohl als Modell menschlicher Mustererkennung als auch als Rechenmaschine (computational device) hin und stimulierten damit die umfangreiche Entwicklung von alternativen, besseren simulativen Methoden, die als „Konnektionistische Renaissance“ (Quinlan, 1991) oder Paradigmenwechsel der Kognitiven Psychologie (Schneider, 1987) bezeichnet worden ist und im bahnbrechenden, zweibändigen Werk der sog. PDP-Forschungsgruppe (Ru-
126 melhart, McClelland & PDP Research Group, 1986; McClelland, Rumelhart & PDP Research Group, 1986) einen ersten einflussreichen Höhepunkt fand. Spätestens seit Rosenblatt und Miller et al. war trotz der Kritik von Minsky und Papert die Verbreitung von Simulationsmodellen in den kognitiven Neurowissenschaften nicht mehr aufzuhalten. Eine kleine Statistik aus dem Bereich der Kognitiven Psychologie mag dies verdeutlichen: von 1887 – 1966 wurden die Begriffe Simulation oder Simulationsmodell 434-mal in den Zusammenfassungen der PsycLit- Datenbank verwendet, also ungefähr fünfmal pro Jahr. Von 1967⫺1980 stieg diese Zahl rapide auf 142 pro Jahr. Von 1981⫺1987 brachten bereits 201 Erwähnungen pro Jahr, gefolgt von rund 355 im Zeitraum 1988⫺1992, 407 im Zeitraum 1993⫺ 1995 und 375 im Zeitraum 1996⫺1999 (1. Halbjahr). 1.2. Begriffsbestimmung In Anlehnung an Jacobs und Graingers (1994) Einteilung kognitiver Modelle möchte ich simulative Methoden, eingeschränkt auf Probleme der kognitiven Wissenschaften, wie folgt definieren: eine simulative Methode ist jedes systematische Vorgehen, bei dem ein bestimmtes kognitives Modell als Computerprogramm formuliert und implementiert wird. Werden die Ergebnisse der Computersimulation zusätzlich anhand eines empirischen Datensatzes geprüft, so kann man mit Schade (1999, s. a. Rickheit und Strohner, 1993) auch von der experimentell-simulativen Methode sprechen. Simulative Methoden sind somit alle Methoden, die kognitive Modelle anhand von Computersimulationen prüfen und validieren. Der Begriff Computersimulation wird in diesem Übersichtsartikel aus Gründen der Repräsentativität und Vollständigkeit relativ weit gefasst, so dass z. B. auch sog. Monte Carlo-Studien mit mathematischen Modellen, d. h. die Simulation stochastischer Prozesse mittels Randomisierungsfunktionen, darin einbezogen werden. Die Prüfung eines kognitiven Modells anhand einer Computersimulation setzt natürlich voraus, dass das Modell formalisiert werden kann: es muss als Algorithmus in irgendeiner Computersprache formuliert und lauffähig gemacht werden können. Kann das Modell in Form von Gleichungen und formellen Regeln beschrieben werden, so können Computer diese
II. Methoden der Psycholinguistik
Gleichungssysteme i. d. R. numerisch lösen. Am Beispiel des Modelltyps der sog. Künstlichen Neuronalen Netzwerke (KNN) kann man dies verdeutlichen. Ein prototypisches KNN besteht im Wesentlichen aus Knoten, Aktivationsfunktionen, Verbindungen und einem Parametersatz, der entweder vom Modellentwickler festgelegt oder vom KNN einer bestimmten Regel (auch Lernregel genannt) entsprechend organisiert wird. Ein typisches KNN wird zunächst als Regel- bzw. Gleichungssystem beschrieben und in eine Computersprache übersetzt. Die Gleichungen beschreiben die Eingangs-, Transfer- und Ausgangsfunktionen für jede ‘Neurode’ (elektronisches Neuron; vgl. Caudill & Butler, 1990) des KNN und u. U. die Lernregel. Das Computerprogramm repliziert dann das zeitliche Verhalten des KNNs, indem es die Systemgleichungen für sukzessive Zeitpunkte numerisch löst. Dabei benutzt es als Startpunkt für jede Iteration die Werte der Systemparameter der vorherigen Lösung. Ein realistisches Simulationsmodell eines physikalischen, chemischen, biologischen, meteorologischen oder kognitiven Prozesses enthält viele Parameter und hilft so dem Benutzer die multiplen Ursache-Wirkungs-Relationen, die jeder Situation und jedem Phänomen inhärent sind, zu würdigen und einzuschätzen. Jedoch werfen solche Computersimulationen im Prinzip auch immer mindestens zwei Probleme auf, die ihre Bedeutung und Nützlichkeit potentiell einschränken. Erstens werden gewöhnlich Differenz- statt Differentialgleichungen verwendet. Man sieht also das Systemverhalten nicht bei wirklich infinitesimalen Zeitintervallen und wird manchmal zu erheblichen Anstrengungen verleitet, um herauszufinden, ob man dadurch entweder eine unechte Instabilität oder aber eine falsche Stabilität eingeführt hat, die im echten bzw. vorgestellten System nicht vorliegen würde. Zweitens ergeben numerische Lösungsversuche manchmal „Nonsens“ oder Chaos für bestimmte Regionen des Parameterraums des simulierten Systems (d. h. für best. Kombinationen von Parameterwerten). Wie alle nonlinearen, dynamischen Systeme sind auch KNN generell empfindlich für Anfangs- oder Randbedingungen (Ausgangswerte, die bezüglich der Systemparameter und -zustände angenommen werden). Leichte Veränderungen derselben können manchmal zu völlig anderen Simulationsergebnissen führen. Das Ergebnis einer einzigen Simula-
9. Simulative Methoden
tion sollte daher niemals blind akzeptiert werden. Ähnlich wie beim Experimentieren sind Replikationsstudien erforderlich.
2.
Einteilung von simulativen Methoden
Kognition und Sprache werden seit Jahrhunderten entweder als Ergebnis einer Menge von genetisch determinierten Berechnungsmodulen angesehen, in denen Regeln symbolische Repräsentationen produzieren und manipulieren, oder als Produkt einer homogenen, assoziativen Gedächtnisstruktur. Die heutigen Simulationsmodelle leiten sich im Grunde aus diesen zwei Denktraditionen ab. Die erste auf den Rationalismus von Descartes, Spinoza und Leibniz zurückgehende Tradition geht von der Grundannahme aus, dass Lernen die Formulierung von Regeln, die symbolische Repräsentationen manipulieren, zum Ziel hat (Chomsky, 1965; Pinker, 1991). Die zweite, auf den Assoziationismus von Hume zurückgehende Tradition betrachtet als das Ziel des Lernens die Bildung von Assoziationen unterschiedlicher Stärke, die es einem System oder Netzwerk einfacher Einheiten erlauben, sich so zu verhalten, „als ob“ es Regeln kennen würde (Hebb, 1949). Anders formuliert, besteht der menschliche Geist für die Einen aus Modulen und Regeln und benutzt eine eigene Sprache, das sog. Mentalesisch (Fodor, 1975), während er für die Anderen eine Art Korrelationsentdeckungs- und Generierungsmaschine ist und aus Assoziationen besteht (Eggermont, 1990). Diesen beiden Traditionen entsprechend, sind Simulationsmodelle oft in symbolische Modelle vs. Netzwerkmodelle (Simon & Kaplan, 1989) bzw. regelgeleitete vs. konnektionistische (assoziative) Modelle unterteilt worden (McClelland, Rumelhart & Hinton, 1986). Letztere wurden wiederum in lokalistische vs. verteilte (lokal-konnektionistische vs. distribuiert-konnektionistische) Modelle dividiert (Grainger & Jacobs, 1998; Hinton, Rumelhart & McClelland, 1986; Murre & Goebel, 1996; Schade, 1999; Quinlan, 1991). Diese Unterscheidungen erweisen sich jedoch angesichts der großen Komplexität der stetig wachsenden Computermodelllandschaft als zunehmend unscharf und teilweise irreführend, da sie sich nicht auf sich gegenseitig ausschließende Kategorien stützen und auch die ausgeklügeltsten Definitionsversuche (Bar-
127 low, 1972; Thorpe, 1995) sich als unzulänglich erwiesen haben (Page, 2000). Um dem Leser angesichts des Umfangs und der Komplexität gegenwärtiger Simulationsmodelle dennoch eine Möglichkeit der Einordnung zu bieten, schlage ich hier in Anlehnung an die Einteilung kognitiver Modelle der Worterkennung von Jacobs und Grainger (1994) sieben Einordnungs- und Verwendungsmerkmale vor. Wer simulative Methoden anwenden will, muss sich in Abhängigkeit von der Problemstellung zunächst für ein geeignetes, formales kognitives Modell entscheiden bzw. ein solches entwickeln. Dabei stellt sich die Grundfrage, ob man eher den der Leistung zugrundeliegenden Lernprozess oder die der Leistung zugrundeliegenden Verarbeitungsprozesse simulieren möchte (2.1). Eine Reihe weiterer Entscheidungen folgt aus dieser Grundsatzüberlegung. Wer etwa an der Simulation von Lernprozessen interessiert ist, wird in der Regel assoziative KNN (2.2) mit verteilten Repräsentationen (2.3) und freien Verbindungen (Lernregel, 2.6) benutzen. 2.1. Lern- vs. Prozessmodelle Ein Grund für den Durchbruch von Simulationsmodellen des konnektionistischen Typs ist die Tatsache, dass sich diese im Gegensatz zu anderen Klassen kognitiver Modelle besonders für die Simulation von Lernprozessen eignen. Die meisten KNN, die eine Lernregel benutzen, erlauben jedoch lediglich Vorhersagen über den asymptotischen Zustand eines kognitiven Systems (die Reaktion) in Abhängigkeit von der Reizsituation, nicht aber über Zustände zwischen Reiz und Reaktion. Sie sind daher statisch insofern, als die Reaktion des Systems auf einen Reiz hin am Ende der Trainingsdurchgänge unmittelbar (zeitlich nicht verteilt) ist. Solche Modelle eignen sich daher nur in Ausnahmefällen zur Simulation oder Prädiktion von Reaktionszeiten, können allerdings für Vorhersagen über die Lerndauer bzw. -geschwindigkeit (Anzahl der Trainingsdurchgänge) herangezogen werden (Ratcliff, McKoon & van Zandt, 2000). Bei Lernmodellen kann der Modellanwender zwischen drei Klassen auswählen: supervisiertes, Verstärkungs- und autonomes Lernen. In der Regel benutzen die innerhalb der Psycholinguistik bekannten KNN supervisiertes Lernen (,mit einem Lehrer‘). Standard ist dabei die Rückwärtspropagationsregel, bei der die Differenz zwischen einem zu lernen-
128 den Zielmuster und dem aktuellen Ausgabemuster des KNN (der Fehler) dazu benutzt wird, die Verbindungen des KNN so zu adjustieren, dass der Fehler minimiert wird (Bryson & Ho, 1969; Rumelhart, Hinton & Williams, 1986). Dies setzt voraus, dass der Modellbilder für alle Eingangsmuster die korrekten Ausgabemuster kennt. In Situationen, in denen das dazu nötige Detailwissen fehlt, werden entweder unsupervisierte (autonome) Lernnetze oder hybride KNN ‘mit einem Kritiker’ (im Gegensatz zum Lehrer) eingesetzt. Letztere heißen auch KNN mit Verstärkungslernen, da nach jedem Trainingsdurchgang dem KNN lediglich rückgemeldet wird, ob der bestimmte Output korrekt oder inkorrekt war, nicht jedoch, welches der korrekte Output (das Zielmuster) sein soll (Hertz, Krogh & Palmer, 1991). Einfache Musterassoziationsnetzwerke ohne versteckte Schichten zwischen Ein- und Ausgabeschicht benutzen meist unsupervisiertes Lernen unter Verwendung der HebbRegel (Quinlan, 1991). Neben dem einfachen Perzeptron sind das Neokognitron (Fukushima, 1988) oder Kohonen-Netzwerke (Kohonen, 1984) bekannte Beispiele für autonom-lernende KNN. Eine ganze Reihe für kognitive Forschung interessanter Prozesse können mit autonomen KNN simuliert werden, z. B. Vertrautheitsentdeckung (graduelles Lernen, wie sehr ein Input-Muster typischen oder mittleren Mustern, die es bereits als Input bekommen hat, ähnelt) und Hauptkomponentenanalyse (weitet den vorhergehenden Fall auf mehrere Output-Einheiten oder Dimensionen aus, auf denen die Ähnlichkeit eines neuen Musters zu bereits bekannten bestimmt wird). Des Weiteren kann man damit Kategorienbildung (‘clustering’; eine Menge von binären Output-Einheiten, von denen nur jeweils eine aktiv sein kann, lernt, welche Kategorie von Input-Muster gerade vorliegt), und Prototypbildung (Lernen von Kategorien, aber mit einem ‘Prototypen’ oder ‘Beispiel’ aus der entsprechenden Kategorie als Output) simulieren. Schließlich können auch noch die einfache Enkodierung (das Output-Muster entspricht einer enkodierten Version des Input-Musters mit weniger Bits, aber so viel an relevanter Information wie möglich) und die Merkmalskartographie (besitzen die Output-Knoten eine festgelegte geometrische Anordnung, z. B. ein zweidimensionales Feld, und kann nur jeweils eine Einheit aktiv sein, so kann das KNN Input-Muster verschiedenen Punkten in diesem Feld zu-
II. Methoden der Psycholinguistik
ordnen und eine topographische Karte des Inputs lernen, in der ähnliche Muster immer benachbarte Output-Einheiten aktivieren) mit solchen KNN simuliert werden. Allerdings ist seit Minsky und Papert (1969) bekannt, dass einfache, autonom-lernende KNN nur linear trennbare Input-Muster lernen können, grosso modo also solche Fälle, in denen ähnliche Input-Muster auch ähnliche Output-Muster generieren. Generieren zwei maximal unähnliche Input-Muster (z. B. 00 und 11) das gleiche Output-Muster (z. B. 0), wie beim bekannten XOR oder vielen anderen interessanten Problemen der kognitiven Forschung, so muss man auf andere simulative Methoden zurückgreifen. Ist der Modellanwender eher am Verarbeitungsprozess als am Lernen eines kognitiven Problems interessiert, so muss er i. d. R. auf regelgeleitete Modelle oder lokale KNN zurückgreifen, die meistens mit Verarbeitungszyklen arbeiten, welche z. B. über Regressionsanalysen in Millisekunden konvertiert und damit zur direkten Vorhersage von Reaktionszeiten benutzt werden können (Jacobs & Grainger, 1992). Auf Prozessmodelle wird unter Punkt 3. noch näher eingegangen. 2.2. Regelgeleitete vs. Assoziative Modelle Dieses Merkmal unterscheidet Simulationsmodelle, die eine Liste explizit formulierter Regeln beinhalten (regelgeleitet), von jenen, in denen die Information in den Verbindungsstärken gespeichert ist und die keine solche Liste beinhalten (assoziativ). Hybride Modelle sind solche, die sowohl Regelwissen als auch assoziatives Wissen speichern. Bekannte Beispiele für regelgeleitete Modelle sind Experten- oder Produktionssysteme (van Lehn, 1989). Die innerhalb der kognitiven Psychologie wohl bekanntesten Simulationsmodelle dieses Typs sind Andersons (1983, 1990) ACT*, Newells (1990) SOAR sowie Feigenbaum und Simons (1984) EPAM. Prototypen der assoziativen Modelle sind Rosenblatts (1958) ‘Perzeptron’, Grossbergs (1972; 1982) ‘Adaptive Resonance Theory’ (ART), von der Malsburgs (1973) Modell des Striatums, Marr und Poggios (1976) Modell der stereoskopischen Tiefenwahrnehmung, Anderson, Silverstein, Ritz und Jones’ (1977) ‘brain state in a box’ (BSB), Kohonens (1984) Modell des assoziativen Gedächtnisses und McClelland und Rumelharts (1981) ‘Interactive Activation Model’ (IAM). Ein bekanntes Hybridmodell ist das kaskadische Zwei-Wege
9. Simulative Methoden
Modell der Worterkennung (dual-route-cascaded model, DRCM, Coltheart, Curtis, Atkins & Haller, 1993). Die regelgeleiteten Modelle kommen hauptsächlich bei der Simulation sehr allgemeiner, umfassender kognitiver Systeme zur Anwendung (Anderson, 1990; Newell, 1990), während die assoziativen KNN eher bei der Simulation spezifischer kognitiver Leistungen, wie z. B. der Muster- oder Worterkennung erfolgreich eingesetzt werden (McClelland et al., 1986a). Eine neuere Einsatzmöglichkeit assoziativer KNN, die regelgeleitete Simulationsmethoden noch nicht aufweisen, ist die Entwicklung kognitiver Systeme (Elman, Bates, Johnson, Karmiloff-Smith, Parisi & Plunkett, 1996). 2.3. Lokale vs. verteilte Repräsentationen Dieses Merkmal bezieht sich auf assoziative oder hybride KNN und betrifft die Frage nach der Art, wie das KNN Entitäten der Außen- oder Innenwelt abbildet. Laut Page (2000) ist „ein lokal-konnektionistisches Modell einer bestimmten Art von Entität (z. B. Wörter) durch die Anwesenheit von (mindestens) einem Knoten charakterisiert, welcher maximal auf ein gegebenes, vertrautes (gelerntes) Beispiel dieser Art reagiert, wobei alle vertrauten Beispiele dieser Art so repräsentiert sind“. Da praktisch jede Entität, die in einer Schicht S eines hierarchischen, lokalkonnektionistischen Modells auf der darunter liegenden Schicht S-1 verteilt repräsentiert ist (z. B. sind Worteinheiten in Interaktiven Aktivationsmodellen auf der Buchstabenebene über mehrere Buchstabendetektoren verteilt repräsentiert; McClelland & Rumelhart, 1981), macht es wenig Sinn, lokale Modelle über die Abwesenheit verteilter Repräsentationen zu definieren. Ebenso besitzen praktisch alle verteilten KNN auf der Einund Ausgabeebene lokale Knoten. Charakteristisch für sie ist jedoch das Vorliegen einer sog. versteckten Schicht mit ausschließlich verteilten Repräsentationen. Eine Repräsentation ist dann ‘verteilt’, wenn sie verschiedene Entitäten unter Benutzung derselben Ressourcen und identische Entitäten unter Benutzung verschiedener Ressourcen abbildet. Der Urvater aller verteilten Simulationsmodelle ist das Perzeptron (Rosenblatt, 1958), der Prototyp aller lokal-konnektionistischen Modelle das sich an das Pandämoniums(Selfridge & Neisser, 1960) und Logogenmodell (Morton, 1969) anlehnende IAM
129 (McClelland & Rumelhart, 1981). Nach dem großen Durchbruch der verteilten Modelle in den kognitiven Wissenschaften (McClelland et al., 1986a) ist gegenwärtig wieder ein Trend zur Verwendung lokaler Modelle zu beobachten (Grainger & Jacobs, 1998; Page, 2000). Im Sammelband der sog. PDP-Forschungsgruppe finden sich verteilte Modelle u. a. zu sequentiellen Denkprozessen (Rumelhart, Smolensky, McClelland & Hinton, 1986), zur auditiven Worterkennung (McClelland & Elman, 1986), zum Lesen (McClelland, 1986), zu Lernen und Gedächtnis (McClelland & Rumelhart, 1986), zum Grammatiklernen (Rumelhart & McClelland, 1986), zur Satzverarbeitung (McClelland & Kawamoto, 1986) oder zur Ortserkennung (Zipser, 1986). Im Sammelband von Grainger und Jacobs (1998) finden sich lokale Modelle zur selektiven Aufmerksamkeit (Houghton & Tipper, 1998), zur Gesichtererkennung (Burton, 1998), zur Spracherkennung (Frauenfelder & Peeters, 1998), zum Lesen (Jacobs et al., 1998), zur bilingualen Wortverarbeitung (Dijkstra & van Heuven, 1998), zum Arbeitsgedächtnis (Page & Norris, 1998), zur Produktion von Objektspezifikationen (Schade & Eikmeyer, 1998) und zur Ähnlichkeitswahrnehmung (Goldstone, 1998). Beide Bände sprechen für die Vielseitigkeit des Einsatzes konnektionistischer Simulationsmodelle in den kognitiven Wissenschaften. 2.4. Autonome (modulare) vs. interaktive Verarbeitung Viele klassische und moderne kognitive Modelle gehen davon aus, dass die Information im modellierten System nur in Vorwärtsrichtung (‘bottom-up’) fließt. Dies gilt für klassische serielle Stufenmodelle (Broadbent, 1958; Sternberg, 1969) genauso wie für Kaskadenmodelle (McClelland, 1979; Massaro, 1987) und eine ganze Reihe von KNN, z. B. einund zweischichtige Perzeptrons oder mehrschichtige Rückwärtspropagations- Netzwerke. Modelle, die nur einen Vorwärtsfluss der Information zulassen und deren Komponenten, abgesehen von diesem Input unabhängig voneinander agieren, nennt man in der psycholinguistischen Literatur autonom oder modular. Dabei kann je nach Fall die Unabhängigkeit von prälexikalischen und lexikalischen, orthographischen und phonologischen oder syntaktischen und semantischen Prozessen gemeint sein. Das Merkmal ‘interaktiv’ ist zweiteilig. Es bezieht sich sowohl auf das Vorliegen von
130 Rückwärtsverbindungen (Feedback) zwischen Knoten zweier benachbarten Schichten als auch auf die Existenz von lateralen Verbindungen zwischen Knoten einer Schicht. Das prototypische Gegenstück zu den autonomen Modellen ist das in 3.1.2. näher beschriebene IAM (McClelland & Rumelhart, 1981), ein lokales KNN mit lateralen und Feedback-Verbindungen. Interaktive, verteilte KNN werden oft unter dem Begriff ‘rekurrente Netzwerke’ zusammengefasst. Die bekanntesten sind Hopfield-Netzwerke (Hopfield, 1982), Boltzmann-Maschinen (Hinton & Sejnowski, 1986) und die einfachen rekurrenten Netzwerke mit Rückwärtspropagation (‘simple recurrent networks’; Elman, 1990), die sich u. a. zur Simulation des Lernens von Zeitsequenzen eignen (Kinder, 2000). Interaktive KNN eignen sich ausgezeichnet zur Simulation von kognitiven Ergänzungsprozessen und Kontext- bzw. Überlegenheitseffekten wie dem berühmten Wortüberlegenheitseffekt (Grainger & Jacobs, 1994; McClelland & Rumelhart, 1981). Ob das Vorliegen von Quer- und Rückwärtsverbindungen (d. h. Interaktivität) eine für die Simulation von modelltheoretisch kritischen Befunden im Bereich der Sprachverarbeitung (z. B. Wortüberlegenheitseffekt; Orthographischer Nachbarschaftsfrequenzeffekt; Phonemischer Restaurationseffekt) notwendige oder nur hinreichende Komponente ist, wird gegenwärtig intensiv diskutiert (Grainger & Jacobs, 1994; 1996; Norris, McQueen & Cutler, 2000; Levelt, Roelofs & Meyer, 1999; Samuel, 1996). 2.5. Deterministische vs. stochastische (probabilistische) Verarbeitung Dieses Merkmal kodiert die Tatsache, ob ein KNN verrauschte (z. B. mit Gauß’schem Rauschen gestörte) Aktivationsfunktionen, Identifikationsschwellen oder Verbindungsgewichte benutzt oder nicht. Stochastische KNN (auch Diffusionsnetzwerke genannt) sind solche, die über stochastische Differentialgleichungen definiert werden, während deterministische KNN über herkömmliche Differenz- bzw. Differentialgleichungen beschrieben werden (McClelland, 1991; Movellan & McClelland, 2000). Die Neuronen eines KNN können entweder deterministische (binäre Werte: –1 ⫽ aus oder ⫹1 ⫽ an) oder stochastische Aktivationsfunktionen (quasikontinuierliche Werte zwischen –1 und ⫹1) aufweisen. Die meisten KNN mit verteilten
II. Methoden der Psycholinguistik
Repräsentationen, die eine Lernregel benutzen, arbeiten mit stochastischen Knoten, z. B. alle mehrschichtigen KNN mit Rückwärtspropagation (Hertz et al., 1991). Das Vorliegen von Knoten mit kontinuierlichen Aktivationswerten macht ein KNN allerdings noch nicht zu einem nicht-deterministischen Netzwerk. Produziert ein KNN bei wiederholten Simulationen gleiche Reaktionen auf gleiche Reize, dann arbeitet es global deterministisch und ist damit z. B. zur Simulation von Reaktionszeitverteilungen ungeeignet. Das IAM ist ein klassisches Beispiel. Zur Simulation des Wortüberlegenheitseffektes reichte dieses deterministische KNN aus. Um mit dem Modell aber auch Vorhersagen über die wichtigste abhängige Variable der kognitiven Psychologie neben Fehlerraten, Reaktionszeiten (RZ) und deren notorisch schiefe Verteilungen machen zu können, entwickelten Jacobs und Grainger (1992) eine ‘semi-stochastische’ Variante, das SIAM. Der Ausdruck ‘semistochastisch’ wurde gewählt, um darauf hinzuweisen, dass nur die Identifikationsschwellen der lokalen Detektoren des Modells mit Gauß’schem Rauschen gestört wurden, die Aktivation dieser Detektoren jedoch ungestört blieb. Andere lokal-konnektionistische Modelle benutzen mit Gauss’schem Rauschen gestörte Aktivationsfunktionen, aber deterministische Aktivationsschwellen (Page, 2000). 2.6. Feste Gewichte vs. freie Gewichte Verteilte KNN benutzen in der Regel freie Verbindungsgewichte, die dann mittels einer Lernregel verändert werden. Vor dem ersten Lerndurchgang werden die Gewichte üblicherweise auf Pseudozufallswerte gesetzt. Lokale KNN in der Tradition des IAM benutzen in der Regel festverdrahtete, also vom Modellkonstrukteur a priori festgelegte Gewichte. Dabei ergibt sich natürlich die Frage, welche Prozedur bei der ‘Verdrahtung’ des KNN anzuwenden ist. Der von McClelland und Rumelhart (1981) benutzten „Versuchsund-Irrtums“-Prozedur stellten kürzlich Jacobs et al. (1998; s. a. Jacobs & Grainger, 1998) eine fünfstufige Prozedur gegenüber, die zu einem standardisierten Vorgehen bei der Konstruktion von lokalen KNN ohne Lernregel führen soll. Die Gewichte eines lokalen KNN können allerdings auch (ganzheitlich oder partiell) mittels einer Lernregel verändert (Murre, Phaf, & Wolters, 1992; Page, 2000) oder mittels eines Parameteranpassungsprogramms post-hoc an Daten an-
9. Simulative Methoden
gepasst werden (Grainger & Jacobs, 1996; Massaro & Cohen, 1991). Hybride Fälle sind ebenso bei verteilten KNN möglich, wenn diese teilweise festverdrahtete und teilweise freie Gewichte benutzen (Plaut, McClelland, Seidenberg & Patterson, 1996). 2.7. Lineare vs. nonlineare Verarbeitung Die frühen KNN, wie Rosenblatts (1958) Perzeptron oder Widrow und Hoffs (1960) ADALINE, benutzten einfache lineare Einheiten ohne Schwellen. Der KNN-Output ist dabei immer eine lineare Funktion seines Inputs, d. h. es muss gelten: f (cx) ⫽ cf (x) und f (x1 ⫹ x2) ⫽ f (x1) ⫹ f (x2). KNN mit linearen Einheiten sind nur interessant mit einer Schicht von modifizierbaren Gewichten und ohne Feedback (Rumelhart et al., 1986a; Quinlan, 1991). Weil damit nur linear trennbare Probleme gelöst werden können (s. o.; Minsky & Papert, 1969), haben rein lineare KNN heute nur noch eine historische Bedeutung. Viele zeitgenössische KNN benutzen dagegen Kombinationen von linearen und nonlinearen Funktionen: das prototypische lokale KNN, das IAM, benutzt Neuroden mit einer linearen Eingangs-, einer sigmoiden Transfer- und einer Schwellenoutputfunktion.
3.
Simulative Methoden in der Psycholinguistik
In Anlehnung an das Sprachbenutzermodell von Dijkstra und Kempen (1994) können mindestens sechs Forschungsbereiche der Psycholinguistik unterschieden werden, auf die unter 3.1.⫺3.2. näher eingegangen wird. In praktisch allen Bereichen liegen formale Modelle vor, die allerdings nicht immer auch tatsächlich als Computerprogramm implementiert und geprüft wurden. Aus Gründen der Vollständigkeit werde ich jedoch gelegentlich auf mathematische Modelle eingehen, die im Prinzip mit simulativen Methoden prüfbar sind, auch wenn dies zumindest nach meinem Wissensstand noch nicht erfolgt ist. 3.1. Sprachrezeption Von den drei in diesem Abschnitt diskutierten Bereichen bietet derjenige der Sprachrezeption vermutlich die größte Auswahl an formalen Modellen, die mit simulativen Methoden evaluiert werden können.
131 3.1.1 Signalverarbeitung. Die für die Sprachrezeption relevanten Signalverarbeitungsmodelle beziehen sich hauptsächlich auf visuelle und auditive Signale; die haptische Verarbeitung bei Blindenschrift bleibt hier unberücksichtigt. Visuelle Signalverarbeitung ⫺ Buchstabenerkennung. Seit den ersten biokybernetischen Modellen der frühen visuellen Verabeitung von Marr und Poggio (1976), Marr (1982) oder Grossberg (1972) haben sich die Computermodelle im Bereich der visuellen Signalverarbeitung explosionsartig vermehrt, was ein Blick in einschlägige Zeitschriften (z. B. Biological Cybernetics, Behavioral and Brain Sciences; Neural Networks; Neural Computation; Spatial Vision; Vision Research; Visual Cognition) deutlich macht. Dieser rasanten Entwicklung kann hier keine Rechnung getragen werden. Da die für das Lesen entscheidende visuelle Signalverarbeitung auf den Ebenen der Merkmals- und Buchstabenerkennung abläuft (Massaro & Klitzke, 1977; McClelland & Rumelhart, 1981; Nazir, 2000; Nazir, Jacobs & O’Regan, 1998; Nazir, O’Regan & Jacobs, 1991), möchte ich mich daher auf repräsentative Beispiele aus diesem Bereich beschränken. Laut einer klassischen Annahme der Kognitiven Psychologie werden Buchstaben aufgrund ihrer distinktiven Merkmale erkannt (Gibson, 1969; Neisser, 1967). Diese elementaren visuellen Eigenschaften werden vom Reiz abstrahiert und mit Gedächtnisrepräsentationen der Buchstaben verglichen. Das Problem, welches mit simulativen Methoden im Bereich der visuellen Vorverarbeitung gelöst werden soll, besteht somit darin, die Prozesse der Enkodierung (Bildung eines internen Abbildes des visuellen Reizes), Merkmalsextraktion und Buchstabenerkennung (Abgleich der enkodierten mit einer gespeicherten Repräsentation des Reizes und Reaktionswahl) zu modellieren. Die bekanntesten formalen Buchstabenerkennungsmodelle, welche die oben erwähnten Befunde erkären können, lassen sich in fünf Klassen einteilen. Zustandsmodelle, wie das Ähnlichkeitswahlmodell von Luce (1963), postulieren eine formalisierbare Beziehung zwischen einer Menge von S möglichen Reizen, z hypothetischen internen Zuständen und R möglichen Antworten. Im Unterschied zu Zustandsmodellen machen geometrische Modelle spezifische Annahmen über räumliche Eigenschaften von Buchstaben und deren mentale Repräsentationen (die
132 Gültigkeit der Euklid’schen Axiome wird dabei vorausgesetzt). Ein bekannter Vertreter dieser Modellklasse ist das Distanz-DichteModell von Krumhansl (1978), das die psychologische Distanz (Unähnlichkeit) zwischen zwei Buchstaben als Funktion der Summe aus einem Distanzmaß (D (a, b)) und zwei gewichteten Dichtemaßen (d’ (a) und d’ (b)) berechnet: D (a, b) ⫽ d (a, b,) ⫹ pd’ (a) ⫹ qd’ (b). Im Unterschied zu geometrischen Modellen gehen die auf der Mengenlehre beruhenden Modelle davon aus, dass die Euklid’schen Axiome psychologisch nur unter besonderen Bedingungen gelten. Geometrische Modelle können somit als Sonderfälle der allgemeineren mengentheoretischen Modelle angesehen werden. Der bekannteste Vertreter dieser Modellklasse, das Kontrastmodell von Tversky (1977), postuliert, dass ein jedes Ähnlichkeitsurteil für ein geordnetes Buchstabenpaar a, b eine Funktion von drei gewichteten Größen ist: der Menge der Merkmale, die a und b gemeinsam haben (Schnittmenge A, B), der Menge der Merkmale, die nur a besitzt (Differenzmenge A ⫺ B) und solcher, die nur b besitzt (Differenzmenge B ⫺ A). Das ‘Fuzzy Logical Model of Perception (FLMP; Massaro, 1987) als bekanntester Vertreter der Klasse der Modelle der ‘unscharfen Logik’ (fuzzy logic) gliedert den Buchstabenerkennungsvorgang in drei Teilprozesse: Merkmalsevaluation, Prototypabgleich und Entscheidung. Die Merkmalsevaluation besteht aus einem Vorgang, der den Grad abschätzt, zu dem jedes bekannte funktionale Merkmal im dargebotenen Reiz vorhanden ist. Der Prototypabgleich berechnet einen einheitlichen, globalen Wert, der den Gesamtgrad wiedergibt, zu dem jedes funktionale Merkmal des Prototyps im Reiz vorhanden ist. Schließlich wird im dritten Teilvorgang mittels einer Regel der relativen Güte (Luce, 1963) eine Entscheidung darüber gefällt, welches der Kandidatenmuster am besten zum Reiz passt. Ein repräsentativer Vertreter der fünften Klasse, psychophysikalischer Buchstabenerkennungsmodelle, ist das Konturmodell von Blommaert (1988). Es konzentriert sich auf die formale Analyse der visuellen Vorverarbeitung, deren Funktion darin liegt, interne Repräsentationen des äußeren Reizes zu schaffen (Enkodierung), die die Grundlage für den sich auf Gedächtnisrepräsentationen stützenden Buchstabenerkennungs- und Identifikationsvorgang bilden. Das erlaubt
II. Methoden der Psycholinguistik
eine Vorhersage von Buchstabenverwechslungswahrscheinlichkeiten aufgrund der Berechnung der sog. Punktausbreitungsfunktion (‘point spread function’, PSF) eines menschlichen Beobachters. Diese PSF kann mittels psychophysischer Verfahren bestimmt und modelltheoretisch berechnet werden. Auditive Signalverarbeitung. Die zeitgenössischen psycholinguistischen Modelle der auditiven Sprachverarbeitung gehen davon aus, dass Phoneme die relevanten sublexikalischen Signale sind (McClelland & Elman, 1986). Das innerhalb der Psycholinguistik wohl bekannteste Modell der Phonemerkennung ist ein KNN mit einer Input-, zwei versteckten und einer Output-Schicht, verteilten Repräsentationen, Rückwärtspropagation und zeitverzögerter Verarbeitung (Waibel & Hampshire, 1989). Als Input-Reize benutzt das KNN digitalisierte Spektogramme. 3.1.2. Worterkennung Visuelle Worterkennung und Lesen. Es gibt eine Vielzahl von im Prinzip mit simulativen Methoden prüfbaren mathematischen Modellen der Worterkennung. Dazu gehören die frühen Signalentdeckungsmodelle: Broadbents (1967) variables Kriteriumsmodell, Mortons (1969) Logogenmodell und Treismans (1978) Perzeptuelles Identifikationsmodell. Eine weitere mathematische Modellfamilie bilden die fragmenttheoretischen Modelle des verfeinerten Ratens (‘sophisticated guessing models’), deren bekannteste Vertreter das Multikomponentenmodell von Rumelhart und Siple (1974) und das Buchstabenverwechslungsmodell von Bouwhuis und Bouma (1979) sind. Weitere bekannte mathematische Modelle sind das FLMP (Massaro & Cohen, 1991) und das Aktivations-Verifikationsmodell von Paap, Newsome, McDonald & Schvaneveldt (1982), das auch in Form eines verbesserten Simulationsprogramms vorliegt (Paap, Chun & Vonahme, 2000). Neben diesen mathematischen Modellen lassen sich die zeitgenössischen Simulationsmodelle (im engeren Sinn) der visuellen Worterkennung in vier Gruppen einteilen: regelgeleitete Produktionssysteme, lokale, interaktive Aktivationsmodelle, hybride ZweiWege-Modelle und verteilte bzw. hybride Rückwärtspropagationsmodelle. Ein rein regelgeleitetes Worterkennungsmodell von Richman und Simon (1989) zur Simulation von Kontexteffekten, das auf dem EPAM aufbaut (Feigenbaum & Simon, 1984), hat in
9. Simulative Methoden
der zeitgenössischen Worterkennungsforschung (bisher) keine Verbreitung gefunden. Der Prototyp aller Interaktiven Aktivationsmodelle und neben dem DRCM (Coltheart et al., 1993) weitverbreiteteste Modell dieses Forschungsgebiets, das IAM (McClelland & Rumelhart, 1981), zeichnet sich aus durch eine hierarchische, dreischichtige Architektur (Merkmals-, Buchstaben- bzw. Phonem- und Wortdetektoren) und parallele, interaktive Verarbeitung (Quer- und Rückwärtsverbindungen). Sonderfälle, Erweiterungen und Verallgemeinerungen des IAM sind das Buchstabenpriming-Modell von Jacobs und Grainger (1991), das SIAM (Jacobs & Grainger, 1992) zur Simulation von Reaktionszeiten (sowohl Mittelwerte als auch Verteilungen), das ‘Dual Read-Out Model’ (DROM; Grainger & Jacobs, 1993; 1994), eine mathematische, non-interaktive Version des IAM, das ‘Mutliple Read-Out Model’ (MROM, Grainger & Jacobs, 1996; Ziegler, Rey & Jacobs, 1998) zur Simulation sämtlicher Leistungsparameter in der lexikalischen Entscheidungsaufgabe und dem Fragmentationstest, das MROM-p (Jacobs et al., 1998) zur Simulation von phonologischen Effekten bei der visuellen Worterkennung und das MROMpd (Graf, Jacobs, Nürk & Richter, 1999) zur Simulation der Leistung in der Benennungsaufgabe. Das DRCM (Coltheart et al., 1993) kann ebenfalls zur Familie der interaktiven Aktivationsmodelle gezählt werden, da der ‘direkte’, lexikalische Weg als IAM implementiert ist. Zum Hybriden wird das DRCM durch den zweiten Weg, der einen regelgeleiteten Algorithmus benutzt, um Graphemfolgen seriell in Phonemfolgen zu konvertieren. Der Prototyp der distribuiert-konnektionistischen Worterkennungsmodelle ist das Rückwärtspropagationsmodell von Seidenberg und McClelland (1989), das erste Modell, das das Erlernen der Aussprache von Wörtern ohne die Annahme der Existenz eines mentalen Lexikons zu simulieren versuchte, allerdings mit sehr eingeschränktem Erfolg (Besner, Twilley, McCann & Seergobin, 1990; Jacobs & Grainger, 1994). Eine Verbesserung dieses Modells liegt in Form des hybriden Rückwärtspropagationsmodells von Plaut et al. (1996) vor, welches zusätzlich zu einer verteilten Schicht lokale orthographische Inputund phonologische Output-Repräsentationen benutzt. Weitere verteilt-konnektionistische Worterkennungsmodelle sind das Modell des Lernens der Aussprache von mehrsilbigen Wörtern (Ans, Carbonnel & Valdois, 1996)
133 und das verteilte Zwei-Wege-Modell von Zorzi, Houghton und Butterworth (1998). Blickbewegungs- und Lesemodelle. Die o. a. Modelle der Worterkennung modellieren ausschließlich das leise oder laute Lesen von Einzelwörtern ohne Einbeziehung von Blickbewegungen. Sie werden ergänzt durch mathematische Modelle, die für das Lesen entscheidende visuelle Faktoren (Sehschärfeinhomogenität, laterale Inhibition) und Blickbewegungen berücksichtigen und teilweise das Lesen von Mehrwortfolgen, Sätzen und Texten modellieren können. Hierzu gehören das Modell der optimalen Blickposition im Wort (McConkie, Kerr, Reddix, Zola & Jacobs, 1988; Nazir, 2000; Nazir et al., 1991; 1998) und die Lesemodelle von Just und Carpenter (1987), McConkie und Dyre (2000), Reichle, Pollatsek, Fisher und Rayner (1998) sowie Legge, Klitz, und Tjan (1997). Die letzten drei Modelle werden in Jacobs (2000) kritisch evaluiert. Auditive Worterkennung. Die Simulationsmodelle der auditiven Worterkennung können ähnlich wie die der visuellen Worterkennung in modular/autonome vs. interaktiv/konnektionistische Modelle eingeteilt werden. SHORTLIST (Norris, 1994) und MERGE (Norris et al., 2000) sind erfolgreiche autonome Modelle. Das lokal-konnektionistische Standardsimulationsmodell der auditiven Worterkennung ist McClelland und Elmans (1986) TRACE, das im Grunde die auditive Version des IAM mit einer sehr ähnlichen Architektur und Arbeitsweise darstellt. Es besteht aus drei parallel operierenden, voll interaktiven Verarbeitungsebenen (7 Merkmals-, 14 Phonem- und 211 Wortdetektoren; neun feste Parameter), wobei die Merkmalsdetektoren fünf Dimensionen aus der klassischen Beschreibung der Phonologie kodieren (konsonantisch, vokalisch, diffuseness, acuteness, voicing; Jakobson, Fant & Halle, 1952) sowie die zusätzlichen Dimensionen Stärke (zur Erhöhung der Diskriminierbarkeit von Vokalen und Konsonanten) und ‘burst Amplitude’ (zur Verbesserung der Diskriminierbarkeit von Stop-Konsonanten). Die für die auditive Worterkennung entscheidende Zeitdimension wird in diskreten Zeitscheiben abgebildet, und jeder Detektor des KNN ist mit 11 konsekutiven Zeitscheiben verbunden, d. h. dass z. B. die Gesamtmenge von lexikalischen Verarbeitungseinheiten bzw. Wortdetektoren über die 11 Zeitscheiben redupliziert wird.
134 Ähnlich wie IAM kann TRACE vor allem Kontexteffekte bei der auditiven Wahrnehmung simulieren, z. B. den Phonemrestaurationseffekt (Samuel, 1996). Verteilt-konnektionistische Modelle der auditiven Worterkennung wurden u. a. von der Gruppe um Marslen-Wilson entwickelt (Gaskell & Marslen-Wilson, 1995; Gaskell, Hare & Marslen-Wilson, 1995), dem man das erste (präquantitative) interaktive Modell der Worterkennung, das Kohortenmodell (Marslen-Wilson & Welsh, 1978), verdankt. 3.1.3. Satzverarbeitung Die vermutlich ersten ‘komputationellen’ Modelle der Psycholinguistik stammen aus dem Bereich der Syntax und Satzverarbeitung (Forster, 1966; Kaplan, 1972). Das Hauptproblem, das es in diesem Bereich zu simulieren gilt, ist die Segmentierung des Satzes in Einheiten, die mit dem Wissensstand zur Funktionsweise des Arbeitsgedächtnisses (Kapazität, Zerfallsrate), das beim Satzverständnis eine zentrale Rolle spielt, in Einklang gebracht werden können. Die Grundarchitektur aller Satzsegmentierungsmodelle besteht aus einem Lexikon, einer Grammatik, einem Input-Puffer, einem Syntaxprozessor und einem Arbeitsspeicher. Die beiden letztgenannten lesen Wörter aus dem InputPuffer aus, konsultieren lexikalische, morphologische und syntaktische Informationen, die mit ihnen assoziiert sind, und bilden eine syntaktische Struktur (einen ganzen oder fragmentarischen Syntaxbaum) als Output. Die bekanntesten Satzsegmentierungsmodelle sind ‘Erweiterte Transitionsnetzwerke’ (augmented transition networks, ATN; Kaplan, 1972), in denen der Satzsegmentierungsprozess als Ansammlung von Übergängen zwischen Zuständen simuliert wird. Ein aktueller, äußerst erfolgreicher Vertreter dieser Modellklasse ist das sog. ‘Versteckte Markov Modell’ von Jelinek (1998). Vier weitere Modelle werden in der aktuellen Literatur (Kempen, 1996) als Kandidaten für eine Evaluation durch simulative Methoden erwähnt: Marcus’ (1980) Einprozessmodell PARSIFAL, ‘shift-reduce parsing’ (Abney, 1989; Shieber, 1983), ‘race-based parsing’ (McRoy & Hirst, 1990), welches auf dem berühmten ‘Wurstmaschinenmodell’ von Frazier und Fodor (1978) beruht und ‘unification space’ (Kempen & Vosse, 1989). Diese vier Modelle gehören zum regelgeleiteten Typ (s. 2.2). Verteilt-konnektionistische Modelle der Satzverarbeitung wurden u. a. von
II. Methoden der Psycholinguistik
McClelland, St. John und Taraban (1989) sowie Christiansen und Chater (1999) entwickelt. 3.1.4. Textverarbeitung Die zusammen mit dem freien Sprechen vermutlich schwierigste Simulationsaufgabe innerhalb der Psycholinguistik ist das Textverstehen. Die Repräsentation eines Textes, die die Struktur des Teils der (wirklichen oder imaginären) Welt reflektiert, die der Text beschreibt, stellt in der Tat eine enorme Herausforderung für kognitive Modellierer dar, weil sie eine Vielzahl von Informationen spezifizieren müssen, die vermutlich beim Textverstehen eine Rolle spielen (Syntax, lexikalische und Textsemantik, Pragmatik, Hintergrundwissen uvm.). Ähnlich wie die Satzverarbeitung ist Textverstehen primär eine Domäne von regelgeleiteten Modellen, die ursprünglich aus der Künstlichen Intelligenzforschung stammen. SHRDLU (Winograd, 1972) und MARGIE (Schank, 1975) sind frühe Beispiele für formale Modelle aus diesem Bereich. Es gibt allerdings mindestens zwei im weiteren Sinne als konnektionistisch zu bezeichnende Modelle des Textverstehens in der Kognitiven Psychologie, die im Prinzip mit simulativen Methoden prüfbar sind: Kintschs (1988) Konstruktions-Integrations-Modell, das der Autor selbst als ein Hybrid zwischen Produktionssystemen und konnektionistischen Modellen bezeichnet, und Sharkeys (1990) ‘konnektionistisches’ Modell. Kintschs Modell besteht im Wesentlichen aus Konzeptund Propositionsknoten, die positiv oder negativ assoziiert sind, einem Konstruktionsnetzwerk, das grosso modo die Bedeutung des Textes repräsentiert, Aktivationsanpassungsprozessen, die konsistente Knoten verstärken und inkompatible Knoten schwächen, und einem Satzsegmentierungsprozess, der auf der Basis von Inhaltswörtern Propositionen generiert. In Sharkeys Modell wird Wissen in Makroeinheiten, sog. GedächtnisOrganisations-Paketen (Memory Organization Packets, MOPs) gespeichert. Die Inhaltswörter eines Satzes aktivieren sog. Mikromerkmale und Wortknoten in einer Reihe von Subnetzwerken. Die Mikromerkmalsdetektoren aktivieren die Propositionsknoten, die wiederum die Makroknoten aktivieren und von diesen Rückwärtsaktivierung bekommen. Der höchstaktivierte Propositionsknoten wird schließlich als Bedeutungsträger des Textsegments selektiert.
9. Simulative Methoden
3.2. Sprachproduktion Das ‘Standardmodell’ der Sprachproduktion postuliert, dass die Äußerung eines Satzes die Bildung einer konzeptuellen Repräsentation des Satzes und mindestens zwei weitere Repräsentationen erfordert: eine, die syntaktische Relationen zwischen Wörtern spezifiziert (das sog. Lemma), und eine andere, die deren Lautstruktur und Reihenfolge spezifiziert (das sog. Lexem). Diese Repräsentationen werden sukzessive vor der Artikulation zusammengesetzt, wobei die Erstellung der frühen syntaktischen Repräsentation mehr Planungs- und Zeitaufwand erfordert als die der späteren phonologischen Repräsentation (Garrett, 1975; vgl. Dell & Juliano, 1996). 3.2.1. Wortproduktion Die Aufgabe, die Modelle der Wortbenennung zu simulieren versuchen, besteht darin, eine visuell dargebotene Buchstabenfolge (entweder ein Wort oder ein unbekanntes Pseudowort) korrekt auszusprechen bzw. laut zu lesen. Wie in vielen anderen Bereichen der Kognitiven Psychologie kann man im Bereich der Wortproduktions-/benennungsmodelle zwei Gruppen von Modellen unterscheiden: Ein- und Zweiprozessmodelle. Das populärste Modell, das DRCM (Coltheart et al., 1993), postuliert, dass diese Aufgabe nur durch zwei verschiedene Prozesse bewältigt werden kann: (bekannte) Wörter sind laut Modell in einem internen Lexikon gespeichert, das auch Informationen über ihre Aussprache zugänglich macht. Da unbekannte Wörter oder Buchstabenfolgen per definitionem nicht im Lexikon gespeichert sind, müssen diese über einen zweiten nonlexikalischen Prozess, der Grapheme in Phoneme konvertiert, verarbeitet werden. Im Gegensatz zum DRCM postulieren das verteilte Rückwärtspropagations-Modell von Seidenberg und McClelland (1989) und das lokal-konnektionistische MROM-p (Graf et al., 2000; Jacobs et al., 1998; Richter, 1999) nur einen Prozess, der vom geschriebenen zum gesprochenen Wort führt. 3.2.2. Satzproduktion Das Phänomen, das Modelle der Satzproduktion fast aussschließlich zu simulieren versuchen, sind Versprecher. Laut dem Standardmodell erfordert jede Satzäußerung u. a. den Zugriff auf zwei elementare, empirisch unterscheidbare Gedächtnisrepräsentationen, Lemmata und Lexeme (Levelt, 1989). Der
135 Lemma- und Lexemabruf zusammenfassende Prozess wird oft als lexikalischer Zugriff bezeichnet. Lemma- und Lexem-Abruf. Ein Lemma wird häufig definiert als die interne Abbildung der semantischen und syntaktischen Eigenschaften eines Wortes (Roelofs, 1996). Lemma-Zugriff ist der Prozess, durch den ein Äußerungskonzept (z. B. Vogel) auf ein Lemma abgebildet wird, wobei die konzeptuellen Bedingungen für die adäquate Verwendung des Wortes (‘kann fliegen’, ‘hat Federn’) und die Tatsache, dass es ein Substantiv ist, zugänglich gemacht werden. LemmaZugriff kann also im Prinzip sowohl über die Bedeutung als auch über die syntaktische Form geschehen. Der Zugriff über die Bedeutung ist die Standardannahme von Modellen der Sprachproduktion. Nach dem LemmaZugriff ist das zweite Problem, das Satzproduktionsmodelle lösen wollen, die Simulation des Zugriffs auf die phonologische Form von Wörtern (sog. Lexeme; Dell & Juliano, 1996). Drei Gruppen von Simulationsmodellen des lexikalischen Zugriffs bei der Satzproduktion können unterschieden werden: Diskriminationsnetzwerke (Goldmann, 1975), Entscheidungstabellen (Miller & JohnsonLaird, 1976) und lokal-konnektionistische Aktivationsausbreitungsnetzwerke. Letztere verwenden entweder Merkmalsextraktion, dekompositionale Semantik und Interaktivität (Dell, 1986; Schade, 1999) oder nicht-dekompositionale, autonome semantische Repräsentationen (Levelt et al., 1999). Die beiden erstgenannten Gruppen haben heute lediglich eine historische Bedeutung und werden deswegen nicht weiter behandelt. In dekompositionalen KNN breitet sich Aktivation von Konzeptmerkmalsknoten (z. B. männlich, weiblich) direkt zu Lemma-Knoten (z. B. Mutter, Vater) und in umgekehrter Richtung aus. In nicht-dekompositionalen KNN hingegen sind zwischen die Konzeptmerkmals- und Lemmaknoten noch sog. lexikalische Konzeptknoten geschaltet, die das zu verbalisierende Konzept repräsentieren. Die beiden lokal-konnektionistischen Aktivationsausbreitungsnetzwerke mit dekompositionaler Semantik (Dell, 1986; Schade, 1999) unterscheiden sich durch das Prinzip der lateralen Hemmung, das nur im Modell von Schade (1999) implementiert ist. Die lokal-konnektionistischen Aktivationsausbreitungsnetzwerke mit dekompositionaler Semantik erlauben eine Simulation von Versprecherbefunden, die alle Versprecher auf eine einheitli-
136
II. Methoden der Psycholinguistik
che Ursache zurückführt, sowie Vorhersagen über statistische Verteilungen von Versprechern. Das nicht-dekompositionale KNN hingegen erlaubt die Vorhersage von Reaktionszeiten in der Bildbenennungsaufgabe. Grammatikalische und morphologische Enkodierung. Konnektionistische Alternativen zu traditionellen, die Kompetenz (Chomsky, 1965) betonenden Ansätzen der Sprachproduktion (z. B. Bock, 1982; Pinker, 1991) sind u. a. von Ward (1992) und Stemberger (1985) entwickelt worden (einen Überblick bietet de Smedt, 1996). Im Bereich des Erlernens morphologischer Prozesse liegen verteilte Simulationsmodelle von Rumelhart und McClelland (1986) sowie von Plunkett und Marchman (1996) vor (s. a. Baayen & Schreuder, 1996). Artikulation. Motorisch-artikulatorische Aspekte der Sprachproduktion sind noch relativ wenig mit psycholinguistischen Modellen untersucht wurden. Boves und Cranen (1996) geben hier einen Überblick. Sprechen im sozialen Kontext. Sehr umfassende Theorien des freien, spontanen Sprechens bzw. des Sprechens in sozialen Kontexten sind von Levelt (1989) und Hermann und Grabowski (1994) entwickelt worden. Für beide gilt, dass sie in Teilen mit simulativen Methoden geprüft werden können (Graf, Herrmann, Grabowski & Schweizer, 1996; Levelt et al., 1999).
4.
Schlussbemerkung
„Es ist sehr beeindruckend zu sehen und zu erfahren, wie sehr das Vertrauen in eine abstrakte Idee wächst, sobald diese konkret aktualisiert werden kann“ (Miller et al., 1960/1973: 59). „Besides, psychology like any science needs practical frameworks, ways to turn ideas into calculations“ (Jacobs & Grainger, 1994).
Abstrakte psychologische Ideen zu aktualisieren und in Berechnungen zu verwandeln, diese Möglichkeit bieten uns die in diesem Übersichtsartikel aufgeführten, sich ständig vermehrenden und weiterentwickelnden simulativen Methoden. Es besteht deswegen Hoffnung, dass sie zusammen mit den traditionellen und neuen experimentellen Methoden (z. B. bildgebenden Verfahren; Jacobs & Carr, 1994) zur Erfüllung der Forderung MacKays (1988) dazu beitragen, die empirische und theoriegeleitete Herangehensweise
an die Erkenntnisgewinnung bei Problemen der Kognitionswissenschaft zusammenzubringen (vgl. Schade, 1999; Rickheit & Strohner, 1993).
5.
Literatur
Abney, S. P. (1989). A computational model of human parsing. Journal of Psycholinguistic Research, 18, 129⫺144. Anderson, J. A., Silverstein, J. W., Ritz, S. A. & Jones, R. S. (1977). Distinctive features, categorical perception and probability learning: Some applications of a neural model. Psychological Review, 84, 413⫺451. Anderson, J. R. (1983). The architecture of cognition. Cambridge, MA: Harvard University Press. Anderson, J. R. (1990). The adaptive character of thought. Hillsdale, NJ: Lawrence Erlbaum Associates. Ans, B., Carbonnel, S. & Valdois, S. (1996). A connectionist model for polysyllabic words. Psychological Review, 105, 678⫺723. Baayen, R. H. & Schreuder, R. (1996). Modelling the processing of morphologically complex words. In T. Dijkstra & K. De Smedt. (Eds.), Computational psycholinguistics: AI and connectionist models of human language processing, (pp. 166⫺191). London: Taylor & Francis. Barlow, H. (1972). Single units and sensation: A neuron doctrine for perceptual psychology? Perception, 1, 371⫺394. Besner, D., Twilley, L., McCann, R. & Seergobin, K. (1990). On the connection between connectionism and data: Are a few words necessary? Psychological Review, 97, 432⫺446. Bock, J. K. (1982). Toward a cognitive psychology of syntax: Information processing contributions to sentence formulation, Psychological Review, 89, 1⫺47. Bouwhuis, D. & Bouma, H. (1979). Visual word recognition of three-letter words as derived from the recognition of the constituent letters, Perception & Psychophysics, 25, 12⫺22. Broadbent, D. E. (1958). Perception and communication. London: Pergamon Press. Broadbent, D. E. (1967). Word-frequency effect and response bias. Psychological Review, 74, 1⫺15. Bryson, A. E. & Ho, Y.-C. (1969). Applied optimal control. New York: Blaisdell. Burton, A. M. (1998). A model of human face recognition. In J. Grainger & A. M. Jacobs (Eds.), Localist connectionist approaches to human cogni-
9. Simulative Methoden tion, (pp. 75⫺100). Mahwah, NJ: Lawrence Erlbaum Associates. Caudill, M. & Butler, C. (1990). Naturally intelligent systems. Boston: MIT Press. Chomsky, N. (1965). Aspects of the theory of syntax. Boston: MIT Press. Christiansen, M. H. & Chater, N. (1999). Toward a connectionist model of recursion in human linguistic performance. Cognitive Science, 23, 157⫺ 205. Coltheart, M., Curtis, B., Atkins, P. & Haller, M. (1993). Models of reading aloud: Dual-route and parallel-distributed-processing approaches. Psychological Review, 100, 589⫺608. Dell, G. S. (1986). A spreading-activation theory of retrieval in sentence production. Psychological Review, 93, 283⫺321. Dell, G. S. & Juliano, C. (1996). Computational models of phonological encoding. In T. Dijkstra & K. de Smedt. (Eds.), Computational psycholinguistics: AI and connectionist models of human language processing, (pp. 328⫺359). London: Taylor & Francis. de Smedt, K. (1996). Computational models of incremental grammatical encoding. In T. Dijkstra & K. de Smedt. (Eds.), Computational psycholinguistics, (pp. 279⫺307). London: Taylor & Francis. Dijkstra, T. & Kempen, G. (1993). Einführung in die Psycholinguistik. Göttingen: Hogrefe. Dijkstra, T. & van Heuven, W. J. B. (1998). The BIA model and bilingual word recognition. In J. Grainger, J. & A. M. Jacobs (Eds.) Localist connectionist approaches to human cognition, (pp. 189⫺ 226). Mahwah, NJ: Lawrence Erlbaum Associates. Eggermont, J. J. (1990). The correlative brain. Berlin: Springer. Elman, J. L. (1990). Finding structure in time. Cognitive Science, 14, 179⫺211. Elman, J. L., Bates, E. A., Johnson, M. H., Karmiloff-Smith, A., Parisi, D. & Plunkett, K. (1996). Rethinking innateness: A connectionist perspective on development. Boston: MIT Press. Feigenbaum, E. A. & Simon, H. A. (1984). EPAMlike models of recognition and learning. Cognitive Science, 8, 305⫺336. Fodor, J. (1975) The language of thought. Boston: Thomas Crowell. Forster, K. I. (1966). Computer simulation of psycholinguistic abilities. Australian Psychologist, 1, 1⫺86. Frazier, L. & Fodor, J. D. (1978). The SAUSAGE MACHINE: A new two-stage parsing model, Cognition, 6, 291⫺325.
137 Frauenfelder, U. H. & Peeters, G. (1998). Simulating the time course of spoken word recognition: an analysis of lexical competition in TRACE. In J. Grainger, J. & A. M. Jacobs (Eds.) Localist connectionist approaches to human cognition, (pp. 101⫺ 146). Mahwah, NJ: Lawrence Erlbaum Associates. Fukushima, K. (1988). Character recognition with neural networks. Neurocomputing, 4, 221⫺233. Garrett, M. F. (1975). The analysis of sentence production, In G. H. Bower (Ed.), The psychology of learning and motivation (pp. 133⫺177). New York: Academic Press. Gaskell, M. G. & Marslen-Wilson, W. D. (1995). Integrating form and meaning: A distributed model of speech perception. Language and Cognitive Processes, 12, 613⫺656. Gaskell, M. G., Hare, M. & Marslen-Wilson, W. D. (1995). A connectionist model of phonological representation in speech perception. Cognitive Science, 19, 407⫺439. Gibson, E. J. (1969). Principles of perceptual learning and development. New York: Appleton-Century-Crofts. Goldman, N. (1975). Conceptual generation. In R. Schank (Ed.), Conceptual information processing, (pp. 289⫺371). Amsterdam: North-Holland. Goldstone, R. L. (1998). Hanging together; a connectionist model of similarity. In J. Grainger & A. M. Jacobs (Eds.) Localist connectionist approaches to human cognition, (pp. 283⫺326). Mahwah, NJ: Lawrence Erlbaum Associates. Graf, R., Herrmann, Th., Grabowski, J. & Schweizer, K. (1996). Grundriß eines Modells der Aktivierung von Konzepten, Wörtern und Figuren. In J. Grabowski, G. Harras & Th. Herrmann (Hrsg.), Bedeutung-Konzepte-Bedeutungskonzepte. Theorie und Anwendung in Linguistik und Psychologie, (pp. 154⫺210). Opladen: Westdeutscher Verlag. Graf, R., Jacobs, A. M., Nürk, H. C. & Richter, K. (2000). Do orthographic neighbors help or hinder reading aloud German words? European Journal of Cognitive Psychology, in revision. Grainger, J. & Jacobs, A. M. (1993). Masked partial-word priming in visual word recognition: Effects of positional letter frequency. Journal of Experimental Psychology: Human Perception and Performance, 19, 951⫺964. Grainger, J. & Jacobs, A. M. (1994). A dual-read out model of word context effects in letter perception: Further investigations of the word superiority effect. Journal of Experimental Psychology: Human Perception and Performance, 20, 1158⫺1176. Grainger, J. & Jacobs, A. M. (1996). Orthographic processing in visual word recognition: A multiple
138 read-out model. Psychological Review, 103, 518⫺ 565. Grainger, J. & Jacobs, A. M. (1998).* On localist connectionism and psychological science. In J. Grainger & A. M. Jacobs (Eds.) Localist connectionist approaches to human cognition, (pp. 1⫺38). Mahwah, NJ: Lawrence Erlbaum Associates. Grossberg, S. (1972). Neural expectation: Cerebellar and retinal analogs of cells fired by learnable or unlearned pattern classes. Kybernetik,10, 49⫺57. Grossberg, S. (1982). Studies in mind and brain. Dordrecht, NL: D. Reidel. Hebb, D. O. (1949). The organization of behavior. New York: Wiley & Sons. Herrmann, T. & Grabowski, J. (1994). Sprechen: Psychologie der Sprachproduktion. Heidelberg: Spektrum. Hertz, J., Krogh, A. & Palmer, R. G. (1991). Introduction to the theory of neural computation. Redwood City, CA: Addison Wesley. Hinton, G. E. & Sejnowski, T. J. (1986). Learning and relearning in Boltzmann machines. In D. E. Rumelhart & J. L. McClelland (Eds.), Parallel distributed processing: Explorations in the microstructure of cognition (pp. 282⫺317). Cambridge, MA: MIT Press. Hinton, G. E. & Shallice, T. (1991). Lesioning an attractor network: Investigations of acquired dyslexia. Psychological Review, 98, 74⫺95. Hinton, G. E., McClelland, J. L. & Rumelhart, D. E. (1986). Distributed representations. In D. E. Rumelhart & J. L. McClelland (Eds.), Parallel distributed processing: Explorations in the microstructure of cognition (pp. 77⫺109). Cambridge, MA: MIT Press. Hopfield, J. J. (1982). Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Sciences (pp. 2554⫺2558). National Academy of Sciences. Houghton, G. & Tipper, S. P. (1998). A model of selective attention as a mechanism of cognitive control. In J. Grainger & A. M. Jacobs (Eds.), Localist connectionist approaches to human cognition, (pp. 39⫺74). Mahwah, NJ: Lawrence Erlbaum Associates. Jacobs, A. M. (2000). Five questions about cognitive models and some answers from three models of reading. In A. Kennedy, R. Radach, D. Heller & J. Pynte (Eds.), Reading as a perceptual process (in press). Amsterdam: North-Holland. Jacobs, A. M. & Carr, T. H. (1995). Mind mappers and cognitive modelers: Toward cross-fertilization. Behavioral and Brain Sciences, 18, 362⫺363.
II. Methoden der Psycholinguistik Jacobs, A. M. & Grainger, J. (1991). Automatic letter priming in an alphabetic decision task. Perception & Psychophysics, 49, 43⫺52. Jacobs, A. M. & Grainger, J. (1992). Testing a semi-stochastic variant of the interactive activation model in different word recognition experiments. Journal of Experimental Psychology: Human Perception and Performance, 18, 1174⫺1188. Jacobs, A. M. & Grainger, J. (1994). Models of visual word recognition: Sampling the state of the art. Journal of Experimental Psychology: Human Perception and Performance, 20, 1311⫺1334. Jacobs, A. M. & Grainger, J. (1998). Modeling a theory without a model-theory, or, computational modeling ‘after Feyerabend’. Behavioral and Brain Sciences, 22, 46⫺47. Jacobs, A. M., Nazir, T. A. & Heller, O. (1989). Letter perception in peripheral vision: A temporal discrimination matrix using eye movements. Perception & Psychophysics, 46, 95⫺102. Jacobs, A. M., Rey, A., Ziegler, J. C. & Grainger, J. (1998). MROM-P: An interactive activation, multiple read-out model of orthographic and phonological processes in visual word recognition. In J. Grainger & A. M. Jacobs (Eds.) Localist connectionist approaches to human cognition, (pp. 147⫺ 188). Mahwah, NJ: Lawrence Erlbaum Associates. Jakobson, R., Fant, G. G. M. & Halle, M. (1952). Preliminaries to speech analysis: The distinctive features and their correlates. Cambridge, MA: MIT Press. Jelinek, F. (1998). Statistical methods for speech recognition. Cambridge, MA: MIT Press. Just, M. A. & Carpenter, P. A. (1987). The psychology of reading and language comprehension. Boston: Allyn & Bacon. Kaplan, R. M. (1972). Augmented transition networks as psychological models of sentence comprehension. Artificial Intelligence, 3, 77⫺100. Kempen, G. (1996). Computational models of syntactic processing in language comprehension. In T. Dijkstra & K. De Smedt (Eds.), Computational psycholinguistics (pp. 192⫺220). Taylor & Francis. Kempen, G. & Vosse, Th. (1989). Incremental syntactic tree formation in human sentence processing: a cognitive architecture based on activation decay and simulated annealing. Connection Science, 1, 273⫺290. Kinder, A. (2000). The knowledge acquired during artificial grammar learning: Testing the predictions of two connectionist models. Psychological Research, (in press).
9. Simulative Methoden Kintsch, W. (1988). The role of knowledge in discourse comprehension: A construction-integration model. Psychological Review, 95, 163⫺182. Kohonen, T. (1984). Self-organization and associative memory. Berlin: Springer-Verlag. Krumhansl, C. L. (1978). Concerning the applicability of geometric models to similarity data: The interrelationship between similarity and spatial density. Psychological Review, 85, 445⫺463. Legge, G. E., Klitz, T. S. & Tjan, B. S. (1997). Mr. Chips: An Ideal-Observer model of reading. Psychological Review, 104, 524⫺553.
139 D. E. Rumelhart & the PDP Research Group (Eds.), Parallel distributed processing: Explorations in the microstructure of cognition (Vol. 2, pp. 122⫺ 169). Cambridge, MA: Bradford Books. McClelland, J. L. (1991). Stochastic interactive processes and the effect of context on perception. Cognitive Psychology, 23, 1⫺44. McClelland, J. L. & Elman, J. L. (1986). The TRACE model of speech perception. Cognitive Psychology, 18, 1⫺86.
Levelt, W. J. M., Roelofs, A. & Meyer, A. S. (1999). A theory of lexical access in speech production. Behavioral and Brain Sciences, 1, 1⫺38.
McClelland, J. L. & Kawamoto, A. H. (1986). Mechanisms of sentence processing: Assigning roles to constituents. In J. L. McClelland, D. E. Rumelhart & the PDP Research Group (Eds.), Parallel distributed processing: Explorations in the microstructure of cognition (Vol. 2, pp. 272⫺326). Cambridge, MA: Bradford Books.
Luce, R. D. (1963). Detection and recognition. In R. D. Luce, R. R. Bush & E. Galanter (Eds.), Handbook of mathematical psychology, (pp. 103⫺ 189). New York: Wiley.
McClelland, J. L. & Rumelhart, D. E. (1981). An interactive activation model of context effects in letter perception: Part I. An account of basic findings. Psychological Review, 88, 375⫺407.
MacKay, D. G. (1988). Under what conditions can theoretical psychology survive and prosper? Integrating the rational and empirical epistemologies. Psychological Review, 93, 559⫺565.
McClelland, J. L. & Rumelhart, D. E. (1986). A distributed model of human learning and memory. In J. L. McClelland, D. E. Rumelhart & the PDP Research Group (Eds.), Parallel distributed processing: Explorations in the microstructure of cognition (Vol. 2, pp. 170⫺215). Cambridge, MA: Bradford Books.
Levelt, W. J. M. (1989). Speaking: From intention to articulation. Cambridge, MA: MIT Press.
Marcus, M. P. (1980). A theory of syntactic processing for natural language. Cambridge, MA: MIT Press. Marr, D. (1982). Vision. San Francisco: Freeman. Marr, D. & Poggio, T. (1976). Cooperative computation of stereo disparity, Science, 194, 283⫺287. Marslen-Wilson, W. D. & Welsh, A. (1978). Processing interactions and lexical access during word recognition in continuous speech. Cognitive Psychology, 10, 29⫺63.
McClelland, J. L. & Rumelhart, D. E. & the PDP Research Group (Eds.) (1986a). Parallel distributed processing: Explorations in the microstructure of cognition (Vol. 2). Cambridge, MA: Bradford Books.
Massaro, D. W. (1987). Speech perception by ear and eye: A paradigm for psychological inquiry. Hillsdale, NJ: Erlbaum.
McClelland, J. L., Rumelhart, D. E. & Hinton, G. E. (1986b). The appeal of parallel distributed processing. In D. E. Rumelhart & J. L. McClelland (Eds.), Parallel distributed processing: Explorations in the microstructure of cognition (Vol. 1, pp. 3⫺ 45). Cambridge, MA: MIT Press.
Massaro, D. W. & Cohen, M. M. (1991). Integration versus interactive activation: The joint influence of stimulus and context in perception. Cognitive Psychology, 23, 558⫺614.
McClelland, J. L., St. John, M. & Taraban, R. (1989). Sentence comprehension: A parallel distributed processing approach. Language and Cognitive Processes, 4, 287⫺335.
Massaro, D. W. & Klitzke, D. (1977). Letters are functional in word identification. Memory & Cognition, 5, 292⫺298.
McConkie, G. W. & Dyre, B. (2000). Fixation durations during reading: A model-based investigation. In A. Kennedy, R. Radach, D. Heller & J. Pynte (Eds.), Reading as a perceptual process, (in press). Amsterdam: North-Holland.
McClelland, J. L. (1979). On the time relations of mental processes: An examination of systems of processes in cascade. Psychological Review, 86, 287⫺330. McClelland, J. L. (1986). The programmable blackboard model of reading. In J. L. McClelland,
McConkie, G. W., Kerr, P. W., Reddix, M. D., Zola, D. & Jacobs, A. M. (1989). Eye movement control during reading: II. Frequency of refixating a word. Perception & Psychophysics, 46, 245⫺253.
140 McCulloch, W. S. & Pitts, W. (1943). A logical calculus of ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, 5, 115⫺133. McRoy, S. W. & Hirst, G. (1990). Race-based parsing and syntactic disambiguation. Cognitive Science, 14, 313⫺353. Miller, G. A. & Johnson-Laird, P. N. (1976). Language and perception. Cambridge, MA: Harvard University Press. Miller, G. A., Galanter, E. & Pribram, K. H. (1960). Plans and the structure of behavior. New York: Holt, Rinehart & Winston. Minsky, M. L. & Papert, S. A. (1969). Perceptrons: An introduction to computational geometry. Cambridge, MA: MIT Press. Morton, J. (1969). Interaction of information in word recognition. Psychological Review, 76, 165⫺ 178. Movellan, R. & McClelland, J. L. (2000). The Morton-Massaro law of information integration: Implications for perception. Psychological Review, in press. Murre, J. M. J. & Goebel, R. (1996). Connectionist modelling. In T. Dijkstra & K. De Smedt. (Eds.), Computational psycholinguistics, (pp. 49⫺76). Taylor & Francis. Murre, J. M., Phaf, H. R. & Wolters, G. (1992). CALM: Categorizing and learning module. Neural Networks, 5, 55⫺82. Nazir, T. A. (2000). Aspects of the visual process that underlies reading. In A. Kennedy, R. Radach, D. Heller & J. Pynte (Eds.), Reading as a perceptual process, (in press). Amsterdam: North-Holland.
II. Methoden der Psycholinguistik Norris, D., McQueen, J. M. & Cutler, A. (2000). Merging information in speech recognition: Feedback is never necessary. Behavioral and Brain Sciences, (in press). Paap, K., Chun, E. & Vonahme, P. (2000). Discreet threshold versus continuous strength models of perceptual recognition. Canadian Journal of Psychology, in press. Paap, K., Newsome, S. L., McDonald, J. E. & Schvaneveldt, R. W. (1982). An activation-verification model for letter and word recognition: The word superiority effect. Psychological Review, 89, 573⫺594. Page, M. (2000). Connectionist modelling in psychology: A localist manifesto. Behavioral and Brain Sciences, 23, in press. Page, M. & Norris, D. (1998). Modeling immediate serial recall with a localist implementation of the primacy model. In J. Grainger & A. M. Jacobs (Eds.) Localist connectionist approaches to human cognition, (pp. 227⫺256). Mahwah, NJ: Lawrence Erlbaum Associates. Peitgen, H. O. Jürgens, H. & Saupe, D. (1992). Chaos and fractals: New frontiers of science. Berlin: Springer. Pinker, S. (1991). Rules of language. Science, 253, 530⫺535. Plaut, D. C., McClelland, J. L., Seidenberg, M. S. & Patterson, K. E. (1996). Understanding normal and impaired word reading: Computational principles in quasi-regular domains. Psychological Review, 103, 56⫺115. Plunkett, K. & Marchman, V. A. (1996). Learning from a connectionist model of the acquisition of the English past tense. Cognition, 61, 3, 299⫺308.
Nazir, T. A., Jacobs, A. M. & O’Regan, J. K. (1998). Letter legibility and visual word recognition. Memory & Cognition, 26, 810⫺821.
Quinlan, P. T. (1991). Connectionism and psychology. New York: Harvester-Wheatsheaf.
Nazir, T. A., O’Regan, J. K. & Jacobs, A. M. (1991). On words and their letters. Bulletin of the Psychonomic Society, 29, 171⫺174.
Ratcliff, R., Van Zandt, T. & McKoon, G. (2000). Connectionist and diffusion models of reaction time. Psychological Review, (in press).
Neisser, U. (1967). Cognitive Psychology, New York: Appleton-Century-Crofts.
Reichle, E. D., Pollatsek, A., Fisher, D. L. & Rayner, K. (1998). Toward a model of eye movement control in reading. Psychological Review, 105, 125⫺157.
Neumann, O. (1990). Lexical access: Some comments on models and metaphors. In D. A. Balota, G. B. Flores d’Arcais & K. Rayner (Eds.), Comprehension processes in reading (165⫺185). Hillsdale: Erlbaum. Newell, A. (1990). Unified theories of cognition. Cambridge, MA: Harvard University Press. Norris, D. G. (1994) Shortlist: A connectionist model of continuous speech recognition. Cognition, 52, 189⫺234.
Richman, H. B. & Simon, H. A. (1989). Context effects in letter perception: Comparison of two theories. Psychological Review, 96, 417⫺432. Richter, K. (1999). A functional units model of visual word recognition. Diplomarbeit, Philipps-Universität Marburg. Rickheit, G. & Strohner, H. (1993). Grundlagen der kognitiven Sprachverarbeitung. Tübingen: Francke.
9. Simulative Methoden
141
Roelofs, A. (1996). Computational models of lemma retrieval. In T. Dijkstra & K. De Smedt. (Eds.), Computational psycholinguistics, (pp. 308⫺ 327). London: Taylor & Francis.
Seidenberg, M. S. & McClelland, J. L. (1989) A distributed, developmental model of word recognition and naming. Psychological Review, 96, 523⫺ 568.
Rosenblatt, F. (1958). The perceptron: A probabilistic model for information storage and organization in the brain. Psychological Review, 65, 368⫺ 408.
Sharkey, N. E. (1990). A connectionist model of text comprehension. In D. A. Balota, G. B. Flores d’Arcais & K. Rayner (Eds.), Comprehension processes in reading, (pp. 487⫺514). Hillsdale: Erlbaum.
Rumelhart, D. E. & McClelland, J. L. (1986). On learning the past tenses of English verbs. In J. L. McClelland, D. E. Rumelhart & the PDP Research Group (Eds.), Parallel distributed processing: Explorations in the microstructure of cognition (Vol. 2, pp. 216⫺271). Cambridge, MA: Bradford Books. Rumelhart, D. E. & Siple, P. (1974). The process of recognizing tachistoscopically presented words. Psychological Review, 81, 99⫺118. Rumelhart, D. E., Hinton, G. E. & Williams, R. J. (1986a). Learning internal representations by error propagation. In D. E. Rumelhart, J. L. McClelland & the PDP Research Group (Eds.), Parallel distributed processing: Explorations in the microstructure of cognition (Vol. 1, pp. 318⫺362). Cambridge, MA: Bradford Books. Rumelhart, D. E., McClelland, J. L. & the PDP Research Group (Eds.) (1986). Parallel distributed processing: Explorations in the microstructure of cognition. Volume I. Cambridge, MA: MIT Press. Rumelhart, D. E., Smolensky, P., McClelland, J. L. & Hinton, G. E. (1986b). Schemata and sequential thought processes in PDP models. In J. L. McClelland, D. E. Rumelhart & the PDP Research Group (Eds.), Parallel distributed processing: Explorations in the microstructure of cognition (Vol. 2, pp. 7⫺57). Cambridge, MA: MIT Press.
Shieber, S. (1983). Sentence diambiguation by a shift-reduce parsing technique. In Proceedings of the 21st Annual Meeting of the Association for Computational Linguistics. Simon, H. A. & Kaplan, C. A. (1989). Foundations of cognitive science. In M. I. Posner (Ed.), Foundations of cognitive science, (pp. 1⫺47). Cambridge, MA: MIT Press. Stemberger, J. P. (1985). An interactive activation model of language production. In A. W. Ellis (Ed.), Progress in the psychology of language, (pp. 143⫺ 186). Mahwah: Lawrence Erlbaum. Sternberg, S. (1969). The discovery of processing stages: Extensions of Donder’s method. In W. G. Koster (Ed.), Attention and performance, II. Acta Psychologica, 30, 276⫺315. Thorpe, S. (1995). Localized versus distributed representations. In M. A. Arbib (Ed.), The handbook of brain theory and neural networks, (pp. 549⫺552). Cambridge, MA: MIT Press. Treisman, M. (1978). A theory of the identification of complex stimuli with an application to word recognition. Psychological Review, 85, 525⫺570. Tversky, A. (1977). Features of similarity. Psychological Review, 84, 327⫺352.
Samuel, A. G. (1996) Does lexical information influence the perceptual restoration of phonemes? Journal of Experimental Psychology: General, 125, 28⫺51.
van Lehn, K. (1989). Problem solving and cognitive skill aquisition. In M. I. Posner (Ed.), Foundations of cognitive science, (527⫺579). Cambridge, MA: MIT Press.
Schade, U. (1999). Konnektionistische Sprachproduktion. Wiesbaden: DUV.
von der Malsburg, C. (1973). Self-organization of orientation selective cells in the striate cortex. Kybernetik, 14, 85⫺100.
Schade, U. & Eikmeyer, H.-J. (1998). Modeling the production of object specifications. In J. Grainger & A.M. Jacobs (Eds.), Localist connectionist approaches to human cognition, (pp. 257⫺282). Mahwah, NJ: Lawrence Erlbaum Associates. Schank, R.C. (1975). Conceptual information processing. Amsterdam: North-Holland. Schneider, W. (1987). Connectionism: Is it a paradigm shift for psychology? Behavior Research Methods, Instruments, and Computers, 19, 73⫺83. Selfridge, O. G. & Neisser, U. (1960). Pattern recognition by machine. Scientific American, 203, 60⫺68.
Waibel, A. & Hampshire, J. (1989). Building blocks for speech. BYTE, August, 235⫺242. Ward, N. (1992). A parallel approach to syntax for generation. Artificial Intelligence, 57, 183⫺225. Widrow, B. & Hoff, M. E. (1960). Adaptive switching circuits. In 1960 IRE WESCON Convention record, part 4, 96⫺104. New York: IRE. Winograd, T. (1972). Understanding natural language, Cognitive Psychology, 3, 1⫺191. Ziegler, J. C., Rey, A. & Jacobs, A. M. (1998). Simulating individual word identification thresholds
142
II. Methoden der Psycholinguistik
and errors in the fragmentation task. Memory & Cognition, 26, 490⫺501. Zipser, D. (1986). Biologically plausible models of place recognition and goal location. In J. L. McClelland, D. E. Rumelhart & the PDP Research Group (Eds.), Parallel distributed processing: Explorations in the microstructure of cognition (Vol. 2, pp. 432⫺470). Cambridge, MA: MIT Press.
Zorzi, M., Houghton, G. & Butterworth, B. (1998). Two routes or one in reading aloud? A connectionist dual-process model. Journal of Experimental Psychology: Human Perception and Performance, 24, 1131⫺1161.
Arthur M. Jacobs, Catholic University Eichstaett-Ingolstadt, Eichstaett (Deutschland)
10. Spezielle Verfahren I: Bewegungen des menschlichen Auges: Fakten, Methoden und innovative Anwendungen 0. 1. 2. 3.
5. 6.
Einleitung Arten von Augenbewegungen Methoden der Blickbewegungsregistrierung Relevante Parameter der Augen- und Blickbewegungen Technologische Anwendungen der Augenbewegungsforschung Zusammenfassung Literatur
0.
Einleitung
4.
Augen- und Blickbewegungen sind – neben motorischen Handlungen und Sprachproduktion – die einfachsten physischen Akte des Menschen. Dabei werden Prozesse, die sensorischen, perzeptiven und attentiven Ereignissen zugrunde liegen, mit kognitiven Prozessen, die in Manipulation von Symbolen und der Organisation komplexen Verhaltens involviert sind, verbunden. Viele Laborexperimente der letzten Jahrzehnte haben Augenbewegungen zuerst in sehr restriktiven Kontexten untersucht, in denen Probanden auf das Erscheinen eines Stimulus reagieren sollten (Becker, 1991; Robinson, 1975). Bei alltäglichen Tätigkeiten ist das Auge aber nicht nur Sensor, sondern wird aktiv zur Exploration der Umgebung eingesetzt. Die Exploration ist an die laufenden Handlungen der Person gebunden und eilt diesen voraus (etwa eine halbe Sekunde beim Basteln, Lesen, Musikspielen oder Autofahren – Buswell, 1920; Land & Furneux, 1997). Oft spielen Augenbewegungen auch in komplexen kommunikativen Interaktionen eine wesentliche Rolle, wie zum Beispiel bei deiktischen Anweisungen oder bei Auge-zu-Auge-Kontakten (Velichkovsky, Pomplun & Rieser, 1996).
Die Analyse der Augenbewegungen hat deshalb in der modernen Sprachpsychologie und in der Kommunikationsforschung zunehmend an Bedeutung gewonnen. In diesem Kapitel werden in erster Linie methodische Fragen des Einsatzes der entsprechenden Messinstrumente beschrieben. Zunächst werden Grundlagen über Augen- und Blickbewegungen und deren Klassifizierung dargestellt. Anschließend wird ein Überblick über die Messmethoden gegeben sowie eine ausführliche Darstellung der am häufigsten benutzten Parameter der Registrierung – Sakkaden, Fixationen und Augenbewegungspfade. Am Ende des Kapitels beschreiben wir einige innovative Anwendungen des Eyetrackings in der Mensch-Computer-Interaktion und in Kommunikationstechnologien.
1.
Arten von Augenbewegungen
1.1. Einführung Augenbewegungen umfassen sowohl Bewegungen des Augapfels als auch Lidschlussund Pupillenmotorik (Galley, 2001). In diesem Kapitel wird der Begriff Augenbewegung größtenteils auf Bewegungen des Augapfels eingeschränkt, ohne die Bedeutung der übrigen Bewegungen für die Sprachpsychologie unterschätzen zu wollen. Das menschliche Auge ist in der Lage, eine Vielzahl unterschiedlicher Bewegungen auszuführen. Auch wenn diese immer durch dieselben sechs äußerlich am Augapfel angreifenden Muskeln vollzogen werden, unterscheiden sich die Bewegungen durch die sie verursachenden Stimuli, ihre Bewegungscharakteristika und die bei der Steuerung involvierten Prozesse. Im Folgenden werden drei
10. Spezielle Verfahren I: Bewegungen des menschlichen Auges
Klassen von schieden:
Augenbewegungen
unter-
(1) Bewegungen des Auges, die ein „Verschieben“ der Information auf der Retina verhindern. Sie erfolgen entweder als Reaktion auf Bewegungen des eigenen Körpers, des überwiegenden Teils der visuellen Umwelt oder eines fixierten Objektes. (2) Zielsuchende Bewegungen des Auges zur Ausrichtung der Fovea auf (neue) Sehobjekte. (3) Mikrobewegungen des Auges. Eine Übersicht und detailliertere Beschreibungen der wichtigsten Arten von Augenbewegungen finden sich bei Rötting (1999). Im Weiteren wird – insbesondere bei der Diskussion der Parameter – zwischen Augenbewegungen und Blickbewegungen unterschieden. Augenbewegungen sind alle Bewegungen des Auges, die allein durch Beobachtung des Auges erfasst und interpretiert werden können. Im Gegensatz hierzu werden als Blickbewegungen solche Bewegungen des Auges bezeichnet, die in Verbindung mit den vom Auge aufgenommenen Informationen interpretiert werden. Bei der Erfassung von Blickbewegungen muss folglich, neben der Augenbewegung, definitionsgemäß immer auch „der Zielort“ der Augen mit erfasst oder anderweitig bestimmt werden. Demnach ist die Fixationsdauer an sich (ohne Objektbezug) ein Augenbewegungsparameter, während die Dauer der Fixation bezüglich eines Objektes einen Blickbewegungsparameter darstellt. 1.2. Reaktion auf die Bewegung des Körpers oder der visuellen Umwelt Vestibuläre Augenbewegungen sind Anpassungsbewegungen, die der anhaltenden Fixierung eines Punktes bei Kopf- und Körperbewegungen dienen. Die notwendigen Informationen werden durch Impulse von den Bogengängen des Innenohres erfasst und zum okulomotorischen Zentrum über den vestibulookulären Reflexbogen geleitet. Sie sind daher unabhängig von visuellen Stimuli und treten auch bei Dunkelheit auf. Weiterhin sind sie biphasischer Natur: Langsame Gleitbewegungen wechseln sich mit schnellen Rückstellbewegungen ab (vestibulärer Nystagmus). Um das Fixieren (d. h. Festhalten) eines sich bezüglich des Auges bewegenden Blickobjektes zu ermöglichen, gibt es die so genannten Folgebewegungen (smooth pursuit). Folgebewegungen sind relativ langsame, gleitende Bewegungen des Auges und wer-
143
den, mit Ausnahme von Beginn und Ende, autonom (unwillkürlich) gesteuert: nur bewegte Blickobjekte können solche Augenbewegungen auslösen und aufrechterhalten. Bewegt sich nicht nur ein Objekt, sondern auch ein Großteil der visuellen Umgebung (z. B. durch Kopf- oder Körperbewegungen), dient die sogenannte Optokinese zur Aufrechterhaltung eines stabilen Netzhautbildes. Bei schnellen Bewegungen zeigt sich hier, wie auch bei den vestibulären Augenbewegungen, eine typische biphasische Bewegung, der optokinetische Nystagmus: In raschem Wechsel folgen schnelle und langsame Augenbewegungen aufeinander. Die schnellen Phasen ähneln Sakkaden, die langsamen ähneln den Smooth-pursuit-Bewegungen. 1.3. Ausrichtung des Auges auf das Sehobjekt Das gesamte Blickfeld eines Auges umfasst einen Kegel von etwa 100∞ (Schandry, 1989), der Bereich des scharfen Sehens ist jedoch deutlich kleiner. In der Mitte der menschlichen Netzhaut (Retina) befindet sich die Zentralgrube (Fovea Centralis), ein kleines, etwas vertieftes Gebiet, das die Zone des schärfsten Sehens darstellt. Hier ist die Dichte der lichtempfindlichen Rezeptoren, besonders der für das Farbsehen zuständigen Zapfen, am größten, so dass die Einzelheiten eines betrachteten Objektes dort besonders gut unterschieden werden können. Schärfstes Sehen ist nur in einem Winkel von ca. 1∞ um den fixierten Blickort möglich. Weiter entfernt, in der Peripherie liegende Objekte, werden mit progressiv verringerter Auflösung und abnehmender Farbintensität wahrgenommen. Der Grund dieser peripheren Unschärfe besteht in der Konvergenz mehrerer Rezeptoren auf eine Ganglionzelle (Verhältnis 125 :1). Bereits bei einer Abweichung von 3∞ vom Fixationsort vermindert sich die Sehschärfe um die Hälfte. Augenbewegungen ermöglichen also scharfes Sehen. Es sind drei verschiedene Fälle zu unterscheiden, bei denen sich die Augen bewegen, um auf ein Objekt gerichtet zu werden: ⫺ Es findet ein Blickwechsel von einem Objekt zu einem anderen statt. In diesem Fall werden die Augen durch eine oder mehrere Sakkaden bewegt (s. u.). ⫺ Das Objekt bewegt sich, und die Augen versuchen, dieser Bewegung zu folgen. Bewegt sich das Objekt langsam, kann das
144 Auge mit Folgebewegungen (pursuit movements) dem Objekt folgen. Bei höherer Geschwindigkeit des Objektes sind Sakkaden notwendig. ⫺ Der Körper bzw. der Kopf bewegt sich, und die Augen gleichen diese Bewegungen aus. Das Problem der Wahrnehmung besteht darin, aus sensorischen Informationen „relevante und valide“ Eigenschaften der externen Welt zu extrahieren (vgl. Marr, 1982). Der Wechsel von Sakkaden und Fixationen spiegelt diesen Prozess zumindest teilweise wider, da einige dieser Eigenschaften nicht aus einem statischen retinalen Abbild gewonnen werden können. Sakkaden sind sehr schnelle ballistische Bewegungen, die das Auge auf ein Blickobjekt richten. Sie werden entweder spontan durch gezielte Verhaltenspläne bei der Inspektion und Interpretation der Umweltinformationen oder unwillkürlich, etwa durch Veränderungen im peripheren Gesichtsfeld, ausgelöst (Mickasch & Haack, 1986). Im Zeitraum einer Sakkade von zirka 30⫺40 ms vor und bis zu 120 ms nach dem Start einer Sakkade (bei kurzen Sakkaden also während der folgenden Fixation) ist das visuelle Wahrnehmungsvermögen drastisch eingeschränkt (saccadic suppression, vgl. Volkmann et al., 1978; saccadic omission, Chekaluk & Llewellyn, 1994). In der alltäglichen Erfahrung wird diese Einschränkung nicht bewusst; schaut man beispielsweise in einen Spiegel und blickt abwechselnd das eigene linke und rechte Auge an, so kann man selbst keine Bewegung der Augen beobachten (Dodge, 1900). Während der Fixationen, bei denen sich das Auge in relativer Ruhe zu einem Sehobjekt befindet, werden visuelle Informationen aufgenommen. Die minimale Fixationsdauer liegt nach empirischen Befunden normalerweise bei 100 ms (Karsh & Breitenbach, 1983; Young & Sheena, 1975). Dieser Wert erscheint aufgrund der saccadic suppression plausibel, weil bei kürzeren Fixationsdauern keine Information wahrgenommen wird. Übliche durchschnittliche Fixationsdauern sind jedoch um ein Vielfaches länger. Da den Sakkaden und Fixationen in psychologischen Untersuchungen mit Recht eine besonders wichtige Rolle zugeschrieben wird, sollen ihre Charakteristiken im dritten Abschnitt detaillierter dargestellt werden. Die bisher vorgestellten Augenbewegungen sind konjugiert, d. h. beide Augen werden an-
II. Methoden der Psycholinguistik
nährend parallel geführt. Auf die Vergenzbewegungen trifft dies nicht zu. Diese dienen dazu, Objekte auf der Fovea beider Augen abzubilden. Bei einem Blickwechsel zwischen unterschiedlich entfernten Objekten müssen sich die Augen gegenläufig bewegen. Phylogenetisch sind die Vergenzbewegungen relativ jung. Es wird angenommen, dass sie deswegen relativ langsam sind, sich erst spät bei kleinen Kindern vollständig entwickeln und bei Ermüdung oder unter Alkoholeinfluss gestört sind. 1.4. Mikrobewegungen des Auges Neben den bereits vorgestellten Augenbewegungen gibt es noch eine Reihe von Bewegungen des Auges mit vergleichsweise geringer Amplitude (unter 10 Winkelminuten). Diese Miniaturbewegungen treten bei jeder Fixation auf und lassen sich in Drift, Tremor und Mikrosakkaden untergliedern. Wie andere Nervenzellen auch, reagieren die Stäbchen und Zapfen der Netzhaut primär auf Veränderungen. Wird dem Auge ein konstantes Bild dargeboten (z. B. durch künstliche Lähmung der Augenmuskeln oder durch optische Stabilisierung des Bildes auf der Netzhaut), verschwindet allmählich das wahrgenommene Bild durch die Rezeptorermüdung. Die Drift ist eine langsame Abgleitung des Auges vom Fixationsort während der fortdauernden Fixation. Sie bewirkt, dass sich die Netzhaut fortwährend um einen Bereich mehrerer Sehzellen verschiebt. Dadurch trifft der Lichtreiz stets auf unterschiedliche Nervenzellen, und die Sensitivität gegenüber dem optischen Stimulus wird aufrechterhalten. Von den Mikrosakkaden wird angenommen, dass sie die durch Drift verursachte Verschiebung korrigieren und so zu einer Refixierung des intendierten Objektes beitragen. Allerdings treten sie auch teilweise regellos auf bzw. können das Auge weg von fixierten Objekten führen (Gippenreiter, 1978). Die typische Kombination von Drift und Mikrosakkaden wird auch als physiologischer Nystagmus bezeichnet. Der sogenannte Tremor bezeichnet die kleinsten, zitterartigen Bewegungen (deutlich unter 1 Bogenminute) des Auges mit Frequenzen von etwa 50 Hz (vgl. Wolf & Wolf, 1990). Er verursacht eine Verschiebung der Netzhaut um einen Bereich von 5 bis 10 Sehzellen. Dem Tremor wird ebenso wie dem Drift die Funktion zugeschrieben, die Nervenzellen mit neuen Reizen zu versorgen. Es gibt jedoch auch eine weitere Erklärung für
145
10. Spezielle Verfahren I: Bewegungen des menschlichen Auges
Tab. 10.1: Verschiedene Arten der Augenbewegungen, verursachender Stimulus, Wirkung und Geschwindigkeit (vgl. Boff & Lincoln, 1988; Unema, 1995). Art der Augenbewegung
Stimulus
Wirkung
Geschwindigkeit
Stabilisierende Bewegungen Vestibulärer Nystagmus
Kopf- oder Körperbewegungen, unwillkürlich (Reflex)
Aufrechterhaltung der Fixation während Kopfoder Körperbewegung
Analog zur Kopfoder Körperbewegung, Rückstellbewegung: bis zu 500∞/s
Optokinetischer Nystagmus
Verschiebung des retinalen Abbildes, unwillkürlich (Reflex)
Aufrechterhaltung eines stabilen Netzhautbildes
Langsame Phase: bis zu 80∞/s, Rückstellbewegung: bis zu 500∞/s
Folgebewegung (smooth pursuit)
Sich langsam bewegendes Objekt, unwillkürlich
Verfolgung eines sich langsam bewegenden Objektes
bis zu 80∞/s
Sakkade
Periphere Veränderungen oder willkürlich ausgelöst
Exploration der Umgebung, bis zu 1000∞/s, Orientierung auf neue Ziele, vi- Amplitude bis zu 60∞ suelle Suche, Refixation
Vergenzbewegungen
Binokuläre Disparität oder willkürlich
Aufrechterhaltung der Konvergenz beider Augen auf dem fixierten Objekt
bis zu 10∞/s
Drift
Spontan, tonische motorische und vestibuläre Einflüße
Aufrechterhaltung der Stimulation von Rezeptoren und Neuronen
bis zu 10 Bogenminuten
Tremor
Nicht ausregelbare Ungenauigkeit der Muskelsteuerung
Destabilisierung des Abbildes auf Netzhaut
40 bis 100Hz, < 1 Bogenminute
Mikrosakkade
Kompensation der Drift, physiologischer Regelkreis
Repositionierung des Auges auf das vorher fixierte Objekt
ähnlich Sakkaden, bis zu 10 Bogenminuten
Zielsuchende Bewegungen
Mikrobewegungen
den Tremor (Bruce & Green, 1990). Danach wird dieser durch Instabilitäten in der Steuerung der drei Paare antagonistischer Muskeln verursacht. Zusammenfassend gibt Tabelle 10.1 einen Überblick über die verschiedenen Arten von Augenbewegungen und ihrer Funktionen.
2.
Methoden der Blickbewegungsregistrierung
2.1. Einführung Die im Folgenden dargestellten Methoden zur Registrierung von Augenbewegungen basieren auf anatomisch-physiologischen Ei-
genschaften des Auges, die der Eigen- oder Fremdbeobachtung zugänglich oder technisch erfassbar sind. Sowohl Eigenschaften der Retina als auch des Limbus und der Pupille, das corneo-retinale Potential, die Kurvatur der Cornea und Reflexionen an verschiedenen Grenzflächen des dioptrischen Apparates können zur Bestimmung von Augenbewegungen dienen (siehe Abbildung 10.1). Anschließend sollen die darauf beruhenden Prinzipien der Augenbewegungsregistrierung kurz dargestellt werden. Die in diesem Abschnitt beschriebenen Methoden und Geräte zur Registrierung von Augenbewegungen geben Auskunft über die rotierenden Bewegungen des Auges selbst.
146
1 2 3 4 5 6 7 8 9
II. Methoden der Psycholinguistik
Ziliarmuskel Iris Linse Pupille Hornhaut vordere Augenkammer hintere Augenkammer Sklera Glaskörper
10 11 12 13 14 15 (A) (B)
Augenmuskulatur Retina Fovea blinder Fleck Sehnerv Aderhaut Retinales Nachbild und Blutgefäße auf der Retina corneo-retinale Potential
(C) (D) (E) (F) (G) (H) (I)
Krümmung der Cornea Limbus Pupille Corneareflex / 1. Purkinje Bild 2. und 3. Purkinje Bild 4. Purkinje Bild Reflexion von der Retina (bright pupil )
Abb. 10.1 Darstellung des Auges – die anatomisch-physiologischen Eigenschaften, die zur Bestimmung der Augenbewegungen dienen – sind mit (A) bis (I) gekennzeichnet.
Veränderungen in der Position der Augen, die durch Kopf- und Körperbewegungen verursacht werden, sind dabei nicht erfassbar bzw. unterscheidbar. Kopfbewegungen können gegebenenfalls mittels optischer, elektromagnetisch- oder ultraschallbasierter Verfahren gemessen werden. 2.2. Art der gewünschten Messgrößen und Methodenübersicht Die Auswahl der Methode und der Geräte hängt immer grundsätzlich von dem Ziel der Untersuchung ab. Bedeutsam sind dabei besonders folgende, in zeitlicher und örtlicher Ausprägung beschreibbare, technische Eigenschaften der Geräte: Der örtliche Messbereich ist definiert als der Winkelbereich von Augenbewegungen, in dem diese, mit den im weiteren angegebenen Spezifikationen, gemessen werden können.
Der zeitliche Messbereich entspricht der Aufzeichnungsdauer, die einerseits durch die Speicherkapazität des Datenträgers und andererseits durch die Trageeigenschaften des Messsystems bestimmt wird. Die örtliche Auflösung ist die Größe des kleinsten Inkrements für die gemessene Blickrichtung. Die zeitliche Auflösung ergibt sich aus der Anzahl der Messwerte pro Zeiteinheit. Die örtliche Genauigkeit ist die Differenz zwischen wahrer Augenposition und dem vom System gemessenen Wert. Sie kann nicht größer als die örtliche Auflösung sein. Die Linearität (angegeben in %) ist das Verhältnis von der Differenz zwischen gemessener und tatsächlicher Augenposition zu tatsächlicher Augenposition. Die zeitliche Genauigkeit ist die zeitliche Dauer zwischen der Erfassung einer Augenposition und der Bereitstellung der Messgröße. Das Signal-Rauschen-Verhältnis gibt
147
10. Spezielle Verfahren I: Bewegungen des menschlichen Auges
den Betrag der verschiedenen Störgrößen in Relation zum Nutzsignal an. Zu unterscheiden sind berührungsfreie und kopfbasierte Messsysteme, wobei letztere über eine Kopfbewegungsregistrierung verfügen können. Sowohl bei den berührungsfreien als auch den kopfbasierten Messsystemen mit Kopfbewegungsregistrierung sind für die Kopfbewegungserfassung die obigen Eigenschaften kennzeichnend. Bei Systemen ohne Kopfbewegungserfassung sind entweder die Kopfbewegungen durch Kinnstütze oder Beißplatte zu unterbinden oder bei der (manuellen) Auswertung zu kompensieren. Die verschiedenen Messsysteme unterscheiden sich in der Geschwindigkeit und der Komplexität der Signalverarbeitung und -verdichtung, um zu interpretierbaren Daten zu ge-
langen. Für viele Anwendungen ist es wünschenswert, das Messsystem mit anderen Systemen, etwa einem Experimentalsystem und weiteren physiologischen Messgeräten, zu koppeln. Die Auswahl des Messsystems muss außerdem den Untersuchungskontext, wie beispielsweise die zu untersuchende Personengruppe, berücksichtigen. Zudem sollten die Beeinträchtigungen durch die Messtechnik gegenüber der Messgenauigkeit abgewogen werden. Im Folgenden sollen verschiedene Geräte und die in Tabelle 10.2 aufgelisteten Methoden beschrieben werden. Ausführlicher sind einige von diesen Methoden z. B. bei Saupe (1985) dargestellt. Eine kurzgefasste Übersicht über die verschiedenen Verfahren findet
Tab. 10.2: Methoden zur Registrierung von Augenbewegungen, die von ihnen genutzten anatomisch-physiologischen Eigenschaften des Auges und das zugrundeliegende Meßprinzip Anatomischphysiologische Eigenschaften des Auges
Meßprinzip Subjektive Erfassung
Retinale Nachbilder
Bericht durch Probanden (Abschn. 2.3.1)
Getrennte Erfassung horizontaler und vertikaler Bewegungen
Retinale Gefäße
Videobasierte Erfassung und Bildverarbeitung
„Point of regard measurement“ (Abschn. 2.5.2)
Corneo-retinales Potential
EOG (Abschn. 2.4.2)
Krümmung der Cornea
Kontaktlinsenmethode ⫺ Search Coil (Abschn. 2.4.3)
Kontaktlinsenmethode (Abschn. 2.5.3)
Limbus Tracking (Abschn. 2.4.4)
(X)
Pupil Tracking (Abschn. 2.4.4)
„Point of regard measurement“ (Abschn. 2.5.2)
Limbus (Augenlid) Pupille
Direkte Beobachtung (Abschn. 2.3.2 )
Corneareflex
(XX)
Corneareflex-Methode (Abschn. 2.5.4) „Point of regard measurement“ (Abschn. 2.5.2)
Purkinje Bilder Retinareflexion
Doppelte Purkinje-BildTechnik (Abschn. 2.5.5) (X)
„Bright Pupil “ (Abschn. 2.5.6)
(X) Theoretisch denkbare Variante, eine Umsetzung ist jedoch nicht bekannt. (XX) Bei dem System EMR-600 der Firma NAC wird das Augenbild mit dem Corneareflex optisch so verändert, dass eine getrennte Erfassung der horizontalen und vertikalen Augenbewegung erfolgt.
148
II. Methoden der Psycholinguistik
sich bei Galley (2001). Carpenter (1988) gibt neben einer Übersicht zusätzliche Informationen für den Nachbau von Messsystemen.
D-Wandlung wird mit einer begrenzten Abtastrate durchgeführt, wodurch die zeitliche Auflösung der Daten bestimmt wird.
2.3.
Subjektive Erfassung der Augenbewegungen 2.3.1. Retinale Nachbilder Durch eine Folge starker Lichtreize werden auf der Retina Nachbilder erzeugt (Grüsser & Grüsser-Cornehls, 1990). Bewegt sich währenddessen das Auge, entstehen die Nachbilder an unterschiedlichen Orten der Retina. Die Probanden berichten die Positionen der Nachbilder, woraus auf die Augenbewegungen geschlossen wird. Nachbilder mit einem Abstand von 0,25∞ werden sicher unterschieden. Nachteilig an diesem Verfahren ist, dass es nur bei Dunkelheit funktioniert und die Probanden Lichtblitzen ausgesetzt sind. Außerdem können retinale Nachbilder nur durch Mitwirkung der Probanden zur Augenbewegungsregistrierung genutzt werden. Weiterhin begrenzt das Abklingen der Nachbilder die Dauer der untersuchbaren Bewegungssequenzen. Eine kontinuierliche Messung ist nicht möglich. Häufig wird dieses Verfahren zur Untersuchung der torsionalen Augenbewegungen, etwa im Rahmen der Gleichgewichtsforschung, eingesetzt.
2.4.2. Elektrookulogramm (EOG) Zwischen Hornhaut und Netzhaut des Auges besteht eine Potentialdifferenz (die Angaben verschiedener Autoren sind recht unterschiedlich: Schandry (1989) sowie Mickasch und Haack (1986) geben eine Potentialdifferenz von bis zu 1 mV an) von bis zu 20 mV, wobei die Hornhaut positiv geladen ist. Diese Spannung U0 ist nicht konstant, sondern unterliegt leichten tageszeitlichen Schwankungen. Sie hängt in geringem Maße vom Adaptationszustand des Auges und vom Aufmerksamkeitsniveau der Versuchsperson ab (Mickasch & Haack, 1986; Schandry, 1989). Das Auge kann als Dipol aufgefasst werden, dessen an die Körperoberfläche weitergeleitetes elektrisches Feld mit Oberflächenelektroden nahe am Auge messbar ist (vgl. Shackel, 1967). Abbildung 10.2a zeigt die Entstehung des Elektro-Okulogramms bei Veränderung der Blickrichtung. Für den Zusammenhang zwischen Blickwinkel σ und der Signalspannung U ergibt sich theoretisch folgender Zusammenhang:
2.3.2. Direkte Beobachtung Die technisch einfachste, älteste (vgl. Laurentius, 1599), aber auch sehr ungenaue Methode ist sicherlich die direkte Beobachtung. Bewegungen ab etwa 1∞ sind bemerkbar, aber nicht genauer zu quantifizieren. Anwendung findet die direkte Beobachtung im medizinischen Bereich. Im Sinne eines Screenings wird dabei festgestellt, ob bestimmte Typen von Augenbewegungen ausgeführt werden können und bestimmte Reflexe vorhanden sind.
Praktisch ist der entstehende Fehler im Winkelbereich bis 40∞ gering, wenn ein linearer Zusammenhang angenommen wird. Um nicht nur die Bewegungen, sondern auch die Position der Augen bestimmen zu können, sollte mit Gleichspannungsableitung gearbeitet werden. Abbildung 10.2b zeigt die Platzierung der Elektroden für die Ableitung des horizontalen und vertikalen EOG’s. Vor und ggf. während einer Messung sind Eichungen vorzunehmen, damit den Spannungen entsprechende Blickwinkel bzw. angeschaute Objekte zugeordnet werden können. Dabei sollte das Auge der Person vollständig an die herrschende Leuchtdichte adaptiert sein. Das registrierbare Gesichtsfeld beim EOG beträgt bis zu ( 80∞, wobei im Bereich über 30∞ nicht mehr sehr genau gemessen werden kann (Mickasch & Haack, 1986: 16). Die Genauigkeit bei der Verwendung von Oberflächenelektroden beträgt im günstigsten Fall für die horizontale Komponente ( 30’, typischerweise aber eher ( 1∞ bis 1,5∞. Für die vertikale Komponente beträgt die Genauigkeit etwa ( 2∞ (vgl. Mickasch & Haack, 1986:16, sowie Oster & Stern, 1980: 284). Be-
2.4.
Getrennte Erfassung horizontaler und vertikaler Bewegungen 2.4.1. Einführung Den im Folgenden beschriebenen Verfahren ist gemeinsam, dass für die Bewegungen des Auges in horizontaler und vertikaler Richtung (beim Search-coil-Verfahren zusätzlich auch der dritten Raumachse) jeweils ein eigener Messkanal genutzt wird. Die Messwerte liegen üblicherweise in analoger Form, z. B. als Spannung, vor. Diese werden dann mittels Analog-Digital-Wandlung (A/DWandlung) in digitale Werte überführt und auf einem Rechner weiter verarbeitet. Die A/
U ⫽ U0 · sin σ
10. Spezielle Verfahren I: Bewegungen des menschlichen Auges
149
Abb. 10.2: (a) Entstehung des Elektro-Okulogramms bei Veränderung der Blickrichtung (aus Zipp, 1988). (b) Platzierung der EOG-Elektroden. Die Elektroden A und a bzw. B und b dienen der Aufzeichnung vertikaler Bewegungen. Die Position C und c bzw. D und d werden für die horizontale Ableitung verwendet. Die häufigsten horizontalen Platzierungen sind C und d (binokular). Vertikale Aufzeichnungen werden gewöhnlich monokular durchgeführt. Die Erdungselektrode E wird i. a. hinter dem Ohr (Mastoid) angebracht (aus Schandry, 1989).
stimmend für die Genauigkeit ist u. a. die Empfindlichkeit des Registriersystems. Das EOG eignet sich für die Registrierung aller Augenbewegungen, die größer als 1∞ sind. Probleme bei der EOG-Messung entstehen durch die schon erwähnte Variation des corneo-retinalen Potentials (nach Oster & Stern, 1980, bis zu 60 % des Messwertes). Für die vertikale Komponente ergeben sich Messprobleme durch Lidschläge und Überlagerung der Potentiale der Gesichtsmuskulatur sowie durch elektrisches Rauschen, Drift des Messsystems und Veränderungen des Übergangswiderstandes zwischen Haut und Elektroden. Die zeitliche Auflösung wird allein durch das Registriersystem bestimmt, in der Regel also durch die Abtastrate der A/DWandlung. Der Proband wird in seinem Blickfeld durch die Abnahme des EOG’s nicht eingeschränkt, und die Beeinträchtigung durch die Elektroden ist ähnlich wie bei anderen in der Arbeitswissenschaft üblichen physiologischen Messgrößen. Die Augenbewegungen von Personen, die eine Brille oder Kontaktlinsen tragen, können in der Regel problemlos mittels EOG aufgezeichnet werden. 2.4.3. Kontaktlinsenmethode (Analog) Zu den genauesten, aber auch aufwendigsten Methoden zur Augenbewegungsregistrierung gehören diejenigen, bei denen der Person eine Kontaktlinse angepasst wird. Diese sollte na-
türlich sicher auf Hornhaut und Sklera sitzen und selbst bei schnellen Augenbewegungen nicht verrutschen. Die Kontaktlinsen müssen individuell an die Probanden angepasst werden, was sowohl den Vorbereitungsaufwand als auch die Kosten für die Messung erhöht. Sie sind mit spezieller Sorgfalt anzuwenden, um das Auge des Probanden nicht zu schädigen (vgl. Mickasch & Haack, 1986). Die Tragedauer ist auf relativ kurze Zeiträume von etwa 30 Minuten pro Messung begrenzt. Zwei unterschiedliche Varianten zur Bestimmung der Augenbewegungen sind üblich. Bei der einen Variante ist auf der Kontaktlinse ein Spiegel angebracht, der eingestrahltes Licht reflektiert. Die punktförmige Reflexion wird von einer Kamera oder einem anderen lichtempfindlichen Element aufgezeichnet (siehe Abschnitt 2.5.3). In der anderen Variante, bekannt unter dem Namen search coil, wird in eine in einem magnetischem Wechselfeld liegende Spule eine Spannung induziert. Entweder werden die Spulen am Kopf des Probanden angebracht (vgl. Carpenter, 1988) oder der Kopf des Probanden befindet sich in einem Rahmen, an dem Spulen für jede Raumrichtung ein magnetisches Wechselfeld erzeugen. An der Kontaktlinse sind eine oder mehrere kleine Spulen untergebracht. Die dort induzierten Spannungen, die sich proportional mit der Lage der Spulen im Feld verändern, werden gemessen.
150 2.4.4. Limbus-, Pupillen- oder Augenlidregistrierung Einige Charakteristika des Auges sind optisch sehr leicht erkennbar und haben sich insofern für die kontinuierliche Registrierung von Augenbewegungen bewährt. Die Grenzlinie zwischen Augapfel und Iris, der Limbus, eignet sich besonders für die Registrierung horizontaler Bewegungen. Das Augenlid folgt den vertikalen Augenbewegungen, so dass dessen Beobachtung Informationen über die vertikale Komponente der Augenbewegungen liefert. Sowohl zur Bestimmung der horizontalen als auch der vertikalen Augenbewegungen kann die Pupille dienen. Die eigentliche Registrierung der Bewegung kann in allen drei Fällen entweder mittels einer Videokamera und anschließender Auswertung mit einer Bildverarbeitungskarte (vgl. Abschnitt 2.5.2) oder über photoelektrische Registrierung erfolgen. Diese wird von Carpenter (1988: Appendix 1) erläutert. Das Ausgangssignal der photoelektrischen Sensoren ist üblicherweise eine Spannung oder eine Widerstandsänderung. Diese werden dann A/ D-gewandelt, in einen Rechner übertragen und dort weiter verarbeitet. 2.5.
Videobasierte Erfassung und Bildverarbeitung 2.5.1. Einführung Bei der videobasierten Erfassung wird mittels einer Videokamera oder eines anderen lichtempfindlichen Sensors ein Bild des Auges aufgezeichnet. Das Signal wird dann einer rechnergestützten Bildverarbeitung zugeführt, um die interessierenden charakteristischen Merkmale des Augenbildes zu extrahie-
II. Methoden der Psycholinguistik
ren. Die zeitliche Auflösung der videobasierten Verfahren wird üblicherweise durch die entsprechenden Videonormen bestimmt und liegt bei 25 Bildern pro Sekunde bei der europäischen CCIR-Norm und 30 Bildern pro Sekunde bei der in den USA und Japan NTSCNorm. Für einen Einsatz bei psychologischen Experimenten, zum Beispiel bei blickkontingenten Versuchen in der Leseforschung, sind diese Systeme sicherlich zu langsam. Da die Videobilder nach beiden Normen aus Halbbildern (frames) aufgebaut werden, kann die zeitliche Auflösung verdoppelt werden, wenn die Halbbilder analysiert werden. Hierdurch verringert sich aber entsprechend die örtliche Genauigkeit (vgl. z. B. auch Clarke, 1996). Inzwischen sind videobasierte, kommerzielle Systeme erhältlich, die zeitliche Auflösungen von 250 und 600 Hz gewährleisten. Ist die Lage des Messgerätes gegenüber dem Kopf fest, reicht ein mit den Augenbewegungen veränderlicher Bezugspunkt, um die Augenbewegungen zu messen. Ein zweiter Bezugspunkt ist notwendig, um bei berührungsfreier Messung die Augenbewegungen bestimmen zu können. Abbildung 10.3 zeigt die berührungslose Registrierung der Augenbewegungen mit einem videobasierten System. 2.5.2. Blickachsenmessung (Point of Regard Measurement) Für Messsysteme, bei denen aus einem festen Punkt des Auges und einem Lichtreflex auf die Blickachse geschlossen wird, hat sich der Name Point of Regard Measurement (Blickachsenmessung) eingebürgert. Üblich ist die Messung der Distanz zwischen Corneareflex (siehe auch Abschnitt 2.5.4) und Mittelpunkt
Abb. 10.3: Menschliches Auge im Infrarotlicht eines videobasiertes Gerätes. Rechts: Kontaktlose Augenkamera am PC-Arbeitsplatz.
10. Spezielle Verfahren I: Bewegungen des menschlichen Auges
der Pupille oder zwischen Lichtreflex auf der Netzhaut und einem charakteristischem Blutgefäß auf der Netzhaut (vgl. Carpenter, 1988). Bei Bewegungen des Kopfes verändert sich die relative Position der beiden Messpunkte nicht. Bei Bewegungen des Auges hingegen verschiebt sich der Corneareflex gegenüber dem gewählten Fixpunkt (Pupillenmittelpunkt oder Blutgefäß) systematisch, woraus die Blickposition bestimmt werden kann. Die Ermittlung der Lage beider Bezugspunkte erfolgt üblicherweise durch Verfahren der automatischen Bildverarbeitung. Die Messvorrichtung braucht nicht notwendigerweise am Kopf des Probanden angebracht zu sein, d. h. es ist auch eine „kontaktfreie“ Messung möglich. Für ein von der Firma ISCAN hergestelltes kontaktfreies System, das Remote Eye Imaging & Camera Control System, hat Franke (1995) die folgenden technischen Parameter am künstlichen Auge bestimmt. Die Auflösung gibt er mit 0,45∞ horizontal und 0,65∞ vertikal an. Die Messgenauigkeit beträgt 1,2∞ ( 0,27∞ horizontal und 0,95∞ ( 0,41∞ vertikal. Das Systemrauschen beträgt ( 1 Pixel und hat damit in Blickwinkel umgerechnet die gleichen Werte wie die Auflösung. Das ISCAN-System ermittelt die Blickposition aus den Mittelpunkten der Pupille und des Corneareflexes. 2.5.3. Kontaktlinsenmethode (Videobasiert) Bei der videobasierten Variante der Kontaktlinsenmethoden wird, ähnlich wie bei der Cornea-Reflex-Methode (vgl. Abschnitt 2.5.4), die punktförmige Reflexion eines auf der Kontaktlinse angebrachten Spiegels aufgezeichnet. Carpenter (1988) zeigt, dass eine Bewegung des Auges um einen bestimmten Winkel eine doppelt so große Bewegung des Reflexes bewirkt. Verglichen mit den anderen optischen Verfahren, ist also eine höhere örtliche Auflösung (bei gleichem optischen Sensor) realisierbar. Wegen der schon im Abschnitt 2.4.3 erläuterten Nachteile wird die Kontaktlinsenmethode jedoch nur selten angewandt. 2.5.4. Cornea-Reflex-Methode Helmholtz berichtet über eine frühe Anwendung der Cornea-Reflex-Methode: „Professor Junge aus St.Petersburg hat in meinem Laboratorium den Drehpunkt des Auges zu bestimmen versucht, indem er beobachtete, um wieviel sich die Lichtreflexe beider Horn-
151
häute einander näherten, wenn die Gesichtslinien aus paralleler Stellung in einen bestimmten Konvergenzwinkel übergingen. Es zeigte sich indes, dass die Elliptizität der Hornhäute einen merklichen Einfluss auf die Berechnung der Resultate hatte, und da es sehr mühsam ist, diese Elliptizität für viele Augen zu bestimmen, so war die Methode nicht eben ausgedehnter Verwendung fähig, obgleich sie übrigens sehr genaue Resultate gab“ (Helmholtz, 1910: 35). Da die Oberfläche der Hornhaut (Cornea) glänzend ist, spiegelt sich dort auftreffendes Licht einer punktförmigen Quelle. Dieser Corneareflex ist das erste Purkinje-Bild und scheint etwa 3,5 mm hinter der Augenoberfläche zu liegen. Der Rotationspunkt des Auges rr befindet sich etwa 13 mm hinter der Oberfläche des Auges, und der Radius der Cornea rc beträgt knapp 8 mm, dementsprechend kommt es bei einer Bewegung des Auges um den Winkel σ in erster Näherung zu einer Verschiebung des Corneareflexes (vgl. Abbildung 10.4) um den Betrag hq: hq ⫽ (rr ⫺ rc) · sin σ Insbesondere bei größeren Winkeln kommt es jedoch zu stärkeren Abweichungen von dieser Formel, weil sich der Drehpunkt des Auges um etwa einen Millimeter verschiebt, der Radius der Hornhaut sich zum Rand hin verändert und sich die Lichtquelle nicht im Unendlichen befindet.
Abb. 10.4: Entstehung des Corneareflexes (erstes Purkinje-Bild) und seine Verschiebung bei Rotation des Auges.
Die Cornea-Reflex-Methode wird zum Beispiel in den Geräten der japanischen Firma NAC (EMR-V und EMR-600) angewendet. Für die Registrierung werden dabei insgesamt drei Videokameras eingesetzt. Mit der Feldkamera wird in etwa das Blickfeld der Person
152 aufgenommen. Die linke und rechte Augenbewegungsregistriereinheit zeichnen den Corneareflex auf. Im Camera-Controller werden die Signale der drei Kameras zusammengebracht. Der Corneareflex wird in ein ⫹ bzw. ⫺ Marker für das linke bzw. rechte Auge gewandelt. Abhängig von der Person muss das Signal der Augenbewegungskameras elektronisch so aufgespreizt werden, dass Marker und fixiertes Objekt übereinander liegen. Der Camera-Controller besitzt einen Ausgang für ein Video-Signal. Nachdem zur Identifizierung jedes Videobildes eine Stoppuhr eingeblendet wurde, kann das Signal mit einem Videorekorder aufgezeichnet werden. Entweder gleichzeitig oder später vom Videoband gelangt das Signal in die „Data-Output-Unit“. Dort wird die Markerposition aus dem Videosignal extrahiert und über die serielle Schnittstelle für die weitere Datenverarbeitung an einen PC übertragen. 2.5.5. Doppelte Purkinje-Bild-Technik Lichtstrahlen werden an den verschiedenen Oberflächen des Auges gebrochen. Die erste Reflexion entsteht an der Oberfläche der Hornhaut und heißt daher Corneareflex (siehe auch Abschnitt 2.5.4) oder auch erstes Purkinje-Bild. Das zweite, dritte und vierte Purkinje-Bild entstehen respektive an der Grenzfläche zwischen Hornhaut und Kammerwasser, Kammerwasser und Linse sowie Linse und Glaskörper. Das erste und vierte Purkinje-Bild sind besonders geeignet für die Bestimmung der Blickrichtung, da sich deren Lage zueinander nur durch rotierende und nicht durch translatorische Bewegungen des Auges ändern. Für eine ausführliche Beschreibung des Messprinzips sei auf Crane und Steele (1978) verwiesen. 2.5.6. „Bright Pupil“ Beleuchtet man das Auge mit einem sich in der optischen Achse der Kamera befindlichen Licht, reflektiert die Netzhaut dieses, und die Pupille erscheint hell („bright pupil“). Die weitere Verarbeitung kann analog zu den Verfahren erfolgen, die auch zur Bestimmung der „dunklen“ Pupille eingesetzt werden. Von Morimoto et al. (1998) wurde ein kontaktfreies Verfahren vorgestellt, bei dem ein oder auch mehrere Gesichter wechselweise im Takt der Kamerahalbbilder mit zwei IR-Dioden beleuchtet werden. Eine der Dioden befindet sich nahe der Kameraachse, die zweite entfernt davon. So erscheinen die Pupillen im ersten Halbbild hell und im zweiten dunkel.
II. Methoden der Psycholinguistik
Durch vergleichsweise einfache Bildverarbeitungsalgorithmen lassen sich so die Pupillen detektieren. 2.6. Zusätzliche Daten der Augenbewegungsregistrierung Bei der Registrierung der Augenbewegungsdaten können, insbesondere bei dem Einsatz der gerade vorgestellten videobasierten Verfahren, weitere Informationen erfasst werden. Diese Informationen betreffen Pupillengröße und Lidschlag-Parameter. Sie werden bei anderen Typen der Augenbewegungsmessung entweder ignoriert oder als unerwünschtes Rauschen betrachtet. 2.6.1. Pupillendurchmesser Bei Lichteinfall verengt sich die Pupille, während sie sich bei Dunkelheit erweitert. Beide Pupillen verengen sich auf minimal 1,5 mm – dies ist auf Grund des sogenannten konsensuellen Pupillenreflexes auch der Fall, wenn Licht nur in ein Auge fällt. Die Pupille erweitert sich auf maximal 8 mm, wenn es dunkel wird. Unter üblichen Beleuchtungsbedingungen beträgt der Spielraum jedoch zwischen 2 und 6 mm Durchmesser. Die Lichtmengenregulierung, die analog zur Blende eines Fotoapparates gesehen werden kann, ist unumstritten die wichtigste Funktion der menschlichen Pupillenbewegung (Alexandridis, 1985). Sie verhindert als relativ schneller Regelungsmechanismus häufig eine Blendung, ersetzt aber nicht die langsameren Pigmentverschiebungen der Hell- und Dunkeladaptation der Netzhaut, die bis zu 30 Minuten in Anspruch nehmen und sekundär auch zu einer Veränderung der Pupillengröße führen kann (Hornung, 1967). Es sind also nicht so sehr die absoluten Lichtmengen, sondern eher die wahrgenommenen Lichtmengenveränderungen, welche die Pupillenweite steuern. Zusätzlich zum Lichteinfall führt auch die Nah-Akkomodation und die Konvergenz zu einer Pupillenverkleinerung (Lowenstein & Loewenfeld, 1969). Eine ausführliche Zusammenschau der in der Literatur beschriebenen Einflüsse auf den Durchmesser der Pupille (etwa durch emotionale Faktoren oder Prozesse der Informationsverarbeitung) findet sich in Rößger (1997). 2.6.2. Lidschlag Bei einem Lidschlag wird das Auge kurzzeitig durch die Augenlider verschlossen und dadurch mit einem Tränenfilm überzogen, wodurch die Hornhaut vor dem Austrocknen be-
10. Spezielle Verfahren I: Bewegungen des menschlichen Auges
wahrt wird. Eine zusätzliche Funktion des spontanen Lidschlags sehen Haberich und Fischer (1958) in der Ausschaltung störender Scheinverschiebungen bei großen Sakkaden, da Lidschläge bevorzugt bei großen Sakkaden und Kopfbewegungen vorkämen. Weiterhin unterscheidet man den reflektorischen Lidschlag als Schutzreflex des Auges auf verschiedene Reize und den willkürlichen Lidschlag. Bei einer Lidschlagregistrierung unterscheidet man das Lidschlagintervall, die Lidschlagamplitude sowie die Lidschlagdauer. Da der Lidschlag aus einer Lidschluss- sowie einer Lidöffnungsphase besteht, kann deren Dauer bzw. Geschwindigkeit auch getrennt bestimmt werden. Die genannten Parameter wurden in den letzten Jahren als Indikatoren für die mentale Beanspruchung verwendet. 2.7. Bewertung und Ausblick Die vorgestellten Methoden besitzen unterschiedliche Relevanz für experimentelle und praktische Anwendungen. Die Häufigkeit des Einsatzes ist unter anderem von der Invasivität einer Methode, den entstehenden Kosten, der Leistungsfähigkeit sowie der Handhabbarkeit der Systeme abhängig. Die manuelle Auswertung von Augenbewegungsdaten kann aufgrund des erheblichen Datenumfangs nur in begrenztem Maße geleistet werden. Üblicherweise werden sehr kurze Aufzeichnungssequenzen, in denen besonders forschungsrelevante Situationen oder Aufgabenabschnitte beachtet werden, analysiert. Die manuelle Auswertung ist mit hohem Zeitaufwand verbunden und stellt wegen der Gleichförmigkeit der Aufgabe auch eine Belastung für die Personen dar, welche die Analyse durchführen. Werten mehrere Personen die Daten aus, muss die Kategorisierung präzise definiert sein, um eine valide Datenbasis für die weitere Auswertung und Interpretation zu erstellen. Allerdings können bei der manuellen Auswertung systematische Fehler, wie sie etwa durch das Verrutschen der Messvorrichtung auf dem Kopf der Person entstehen, durch erfahrene Auswerter korrigiert werden. Gegenüber der manuellen Auswertung ist mit einer automatischen Auswertung die Bewältigung größerer Datenmengen in sehr viel kürzerer Zeit möglich. Viele Parameter sind allein aus den Daten der Augenbewegungen zu ermitteln. Um aber bei der automatischen Auswertung Bezüge zu den betrachteten Objekten herstellen zu können, müssen zum einen die Koordinaten der Objekte bekannt sein
153
und zum anderen der Kopf fixiert oder die Kopfbewegungen mit erfasst werden (siehe z. B. Pelz, 1995). Abschließend sei angemerkt, dass die wachsenden hardware- und software-technischen Möglichkeiten auch für die Augen- und Blickbewegungsmessung neue Perspektiven eröffnen. In den letzten Jahren werden vermehrt zum Teil recht preiswerte Geräte vorgestellt, die primär unter dem Aspekt der Interaktion des Menschen mit technischen Geräten entwickelt wurden. Neben dem schon seit langer Zeit verfolgten Ziel, mittels Blickbewegungen Schwerstbehinderten eine Interaktion zu ermöglichen, wird der Einsatz der Geräte auch zunehmend für gesunde Nutzer interessant. Sie werden, wie der letzte Abschnitt dieses Kapitels zeigt, auch zunehmend in modernen Kommunikationstechnologien verwendet. Für bestimmte Fragestellungen der Forschung sind diese Geräte schon heute leicht einsetzbar. Für andere Anwendungen fehlt es aber immer noch an einfachen Systemen, die über die nötige örtliche und/oder zeitliche Auflösung verfügen.
3.
Relevante Parameter der Augenund Blickbewegungen
3.1. Einführung Nachdem in den vorangegangenen Abschnitten allgemeine Informationen über Augenbewegungen und entsprechende Messmethoden dargestellt wurden, sollen in diesem Teil des Kapitels gezielt, wenn auch fragmentarisch, die Parameter der Augen- bzw. Blickbewegungen besprochen werden, die eine besondere Relevanz für psychologische und hierbei speziell für sprachpsychologische und kommunikative Untersuchungen haben. Dies sind Parameter der Sakkaden, Fixationen und dem Zusammenspiel von beiden – den Blickpfaden (scanpaths). Die Auswahl dieser Parameter aus der großen Menge von möglichen Parametern erfolgte in Anbetracht deren Beziehung zur Aufmerksamkeit. Zahlreiche Untersuchungen (z. B. Just & Carpenter, 1976) stützen die Annahme, dass im Allgemeinen eine Übereinstimmung zwischen dem Fixationsort und dem Fokus der visuellen Aufmerksamkeit angenommen werden kann, da die Aufmerksamkeit, gekoppelt an Sakkaden, normalerweise das Auge zu seinem Ziel führt. So kann z. B. durch die Provokation einer Blickbewegung in
154 eine bestimmte Richtung ein in dieser Richtung erscheinender Reiz schneller beantwortet werden, was für eine in Reizrichtung gelenkte Aufmerksamkeit spricht (Posner, 1980). Posner (1995) geht davon aus, dass sich die Aufmerksamkeit vom Fixationsort lösen muss („attentional disengagement“), bevor sie sich auf ein anderes Objekt verlagern kann – bei einer Fixation bindet sich der Betrachter an ein Objekt („engagement“). Bevor keine Loslösung stattfindet, wird keine Sakkade initiiert. Dieser Loslösungsprozess findet vor allem im Gap-Paradigma statt, bei dem ein fixiertes Blickobjekt ca. 150 ms vor dem Erscheinen eines peripheren Reizes von der Fovea Centralis verschwindet, was die kürzeren Sakkadenlatenzen erklärt. Hieraus wird ersichtlich, dass „gebundene“ Aufmerksamkeit Sakkaden hemmen kann. Diese Hemmung ist sogar spezifisch für den Ort im Gesichtsfeld, auf den die Aufmerksamkeit gelenkt ist (Weber & Fischer, 1995), d. h. sie wird nur für die beachtete Stelle wirksam, während unbeachtete Stellen sehr wohl mit Expresssakkaden (s. u.) erreicht werden können. Durch diese „Reflexkontrolle“ können aus dem Augenwinkel, in der Peripherie liegende Objekte beobachtet und analysiert werden, um sodann eine Entscheidung treffen zu können, zu diesem Objekt oder woandershin zu blicken. Die Fähigkeit der bewussten Blickfixierung bzw. Freigabe ist besonders in Situationen von großer Bedeutung, in denen etwas „gesucht“ wird. Die Tatsache, dass man etwas aus den Augenwinkeln beobachten kann, ohne es zu fixieren, zeigt, dass eine Übereinstimmung von Fixationsort und Aufmerksamkeit nicht zwingend ist. Eine weitere Ausnahme stellt das „Nachdenken“ dar: Hier ist die Aufmerksamkeit nach innen gerichtet und keinem der Objekte in der Umgebung zugewandt (Posner et al., 1980; Reeves & Sperling, 1986). Wieder anders ist es im Fall des Lesens, wo ein Wort zur Informationsaufnahme fixiert, gleichzeitig aber auch das nächste, im außerfovealen Bereich liegende Wort, vorverarbeitet wird (Hoffman, 1999). Solche und ähnliche Ergebnisse legen die Vermutung nahe, dass die Aufmerksamkeit sich zwischen dem fixierten und dem peripher liegenden Wort aufteilt. Zusammenfassend gilt es als gesichert, dass der Aufmerksamkeitsfokus ohne jegliche Augenbewegungen verlagert werden kann. Die Ausrichtung der Augen auf ein visuelles Ziel, ohne dass parallel dazu eine Aufmerksamkeitsverlagerung stattfindet, scheint eher zweifelhaft (Deubel, 1998).
II. Methoden der Psycholinguistik
3.2. Sakkaden 3.2.1. Geschwindigkeit und Dauer Sakkaden sind die schnellsten Bewegungen, die vom menschlichen Körper ausgeführt werden können. Geschwindigkeit und Dauer einer Sakkade sind von der Sprungweite abhängig. Carpenter (1988) gibt für die Dauer von Sakkaden die Formel Sakkadendauer [ms] ⫽ 2,2 · Sakkadenamplitude [∞] ⫹ 21 an. Ähnliche Dauern nennen Oster und Stern (1980) sowie Rayner (1978). Für die Sakkadengeschwindigkeit (saccadic speed oder saccadic velocity) nennen Boff und Lincoln (1988) Daten von bis zu 1000∞/s. Die höchsten Geschwindigkeiten werden vor der Mitte der Bewegungsbahn erreicht, und die Abbremsphase ist länger als die Beschleunigungsphase. Die Sakkadengeschwindigkeit kann als Indikator für Vigilanz und Beanspruchung betrachtet werden (Galley, 1989; Galley, 2001), hat aber bisher erst als Aktivierungsindikator bei Untersuchungen der Vigilanzminderung durch Pharmaka und Alkohol (vgl. Galley, 2001), bei neurologischen Erkrankungen (Lim et al., 1995; Anastasopoulos et al., 1996) oder als Maß für Schläfrigkeit Anwendung gefunden. Auch die erste Ableitung der Sakkadengeschwindigkeit, die Sakkadenbeschleunigung (saccadic acceleration), wird nur selten als Parameter eingesetzt. Zur Beschreibung der Sakkadenbewegung ist von van Opstal und van Gisbergen (1987) der Parameter „skewness“ eingeführt worden, der das Verhältnis der Beschleunigungsphase zur Abbremsphase einer Sakkade angibt. Saito (1992) entwickelte ein Maß für die Augenbewegungen, das Produkt aus mittlerer Sakkadenamplitude in Grad und der Sakkadenhäufigkeit pro Sekunde. Er nennt die Größe ‘average saccadic velocity’ und findet bei Arbeiten am Bildschirm Werte, die mit knapp 23∞/s etwa 2,5 mal höher sind als bei Tätigkeiten ohne Bildschirm. Als maximalen physiologisch möglichen Wert dieser Größe gibt er 48∞/s an (Saito, 1992). 3.2.2. Reaktionszeit der Sakkaden Die Sakkadenlatenz (saccadic latency oder saccadic reaction time) ist die Zeit zwischen Erscheinen eines Zieles und dem Start der Sakkade zum intendierten Ziel. Es handelt sich also um eine Art visuelle Reaktionszeit, wobei der Parameter hauptsächlich in chronometrischen Laboruntersuchungen verwendet wird. Sowohl das Erscheinen des Stimulus als
10. Spezielle Verfahren I: Bewegungen des menschlichen Auges
auch der Zeitpunkt, an dem das Ziel erreicht wird, müssen mit relativ hoher zeitlicher Genauigkeit erhoben werden. Daher wird dieses Maß fast ausschließlich bei Laboruntersuchungen erhoben. Die Verteilung der Sakkadenlatenzen zeigt dabei drei Gipfel. Der erste Gipfel mit einer mittleren Sakkadenlatenz von 240 ms besteht aus Sakkaden, bei denen alle Prozesse, von der Lösung der Fixation bis zur Erstellung und Ausführung des motorischen Programms, ablaufen müssen. Der zweite Gipfel mit einer mittleren Sakkadenlatenz von 175 ms kommt durch Sakkaden zustande, bei denen bei Erscheinen des neuen Blickziels die Fixation schon gelöst war, aber noch keine Entscheidung und Koordination stattgefunden hat. Bei dem dritten Gipfel handelt es sich um sogenannte Expresssakkaden mit einer mittleren Sakkadenlatenz von 125 ms. Bei den Expresssakkaden sind alle Prozesse, außer der Bestimmung der Zielkoordinaten, abgeschlossen (Fischer, 1990). Die Sakkadenlatenz spiegelt den Einfluss des Aktivierungs-Mechanismus auf die Blickbewegungssteuerung wider und ist gegenüber Parametern, die auf der Messung der Fixationsdauer basieren, in ihrer psychologischen Aussagekraft deutlich unterlegen. 3.2.3. Sakkadenamplitude und weitere abgeleitete Maße Die Sakkadenamplitude (saccadic extent und saccadic amplitude) ist die wohl gebräuchlichste Größe zur Beschreibung von Sakkaden. Verschiedene Autoren bezeichnen diese allerdings auch als Sakkadenhöhe oder als Sakkadenlänge. Die Sakkadenamplitude ist offensichtlich durch das Stimulusmaterial bzw. die visuelle Umgebung bestimmt. Darüber hinaus hängt die Sakkadenamplitude aber auch von dem ‘functional field of view’ (s. u.) ab. Von verschiedenen Autoren ist eine Verkleinerung des Sichtfeldes in Abhängigkeit von der Erhöhung der Aufgabenschwierigkeit beobachtet worden. Es ist zu erwarten, dass die Mehrzahl der Änderungen der Fixationsorte nur innerhalb des Sichtfeldes erfolgt. Mithin wird sich die Größe des Sichtfeldes in der durchschnittlichen Sakkadenamplitude widerspiegeln. May et al. (1990) nennen verschiedene Arbeiten, bei denen eine Verkleinerung des Sichtfeldes bei erhöhter Aufgabenschwierigkeit gefunden wurde. In den eigenen Untersuchungen fanden May et al. (1990) eine Verringerung der Sakkadenamplitude bei erhöhter Stimuluskomplexität. Ceder (1977) und Troy et al. (1972) fanden eine Verringerung der
155
Häufigkeit von Augenbewegungen größerer Amplitude (größer 9,5∞) mit zunehmender Aufgabenbearbeitungszeit. Zenhausern und Kraemer (1991) benutzen eine Größe, die von Day (1964) eingeführt wurde und „lateral eye movements“ bzw. „conjugate lateral eye movements“ genannt wird. Day (1964) stellte eine Beziehung zwischen der Zahl der nach links bzw. rechts gerichteten Augenbewegungen und dem individuellen Bewältigen von Stress auf. Kinsbourne (1972) erweiterte den Ansatz und postulierte, dass Aufgaben, die überwiegend auf der linken Gehirnhälfte lokalisierte Funktionen erfordern, Augenbewegungen nach rechts zur Folge haben und das umgekehrt linksgerichtete Augenbewegungen mit einer Beanspruchung der rechten Hemisphäre einhergehen. Auf die Person bezogen, kann die Richtung der Augenbewegung darauf hinweisen, welche Problemlösetechnik bevorzugt wird. Bei Kopfrechenaufgaben deutet eine Bewegung nach links auf eine Visualisierung und eine Bewegung nach rechts auf eine abstrakte Lösung des Problems (vgl. Oster & Stern, 1980). 3.3. Fixationen 3.3.1. Fixationsdauer Die Fixationsdauer (fixation duration) ist der wohl am häufigsten benutzte Parameter der Augenbewegungen. Eine Fixation wird definiert als der Zustand, bei dem das Auge sich bezüglich eines Sehobjektes in „relativem“ Stillstand befindet. Eindeutig sind mit dieser Definition die Fixationen von den Sakkaden abgegrenzt. In der Definition wird in doppeltem Bezug das Wort „relativ“ genutzt. Wird relativ auf Stillstand bezogen, erfolgt die Abgrenzung zu den Mikrobewegungen (vgl. Abschnitt 1.2.3) des Auges (die Möglichkeit zur Erfassung von Mikrobewegungen ist abhängig von der zeitlichen und örtlichen Auflösung des Messsystems). Wird hingegen relativ auf das Sehobjekt bezogen, werden Folgebewegungen (vgl. Abschnitt 1.2.1) in den Fixationen mit eingeschlossen. Beide Abgrenzungen erfolgen über die Operationalisierung der Fixationen. Üblich ist eine Kombination eines örtlichen und eines zeitlichen Kriteriums (vgl. z. B. Anliker, 1976; Unema & Rötting, 1990). Nicht immer wird die Fixationsdauer auch so bezeichnet. So sprechen Oster und Stern (1980) von ‘saccadic reaction time’ und ‘intersaccadic interval’. Dies ist insofern auch sinnvoll, als sie die Fixationsdauer (bei einer Registrierung
156 mittels EOG) als die Zeit definieren, die zwischen dem Ende einer und dem Start der folgenden Sakkade liegt. Fixationen haben eine Dauer von 100⫺ 2000 ms mit einer Konzentration im Bereich von 200⫺600 ms (Karsh & Breitenbach, 1983; Young & Sheena, 1975), wobei Velichkovsky et al. (1997) auch extrem kurze Expressfixationen mit einer Dauer zwischen 50 und 100 ms fanden. Dieser Wert erscheint aufgrund der ‘saccadic suppression’ (vgl. Abschnitt 1.2.2) plausibel, weil bei kürzeren Fixationsdauern keine Information wahrgenommen werden kann. Übliche durchschnittliche Fixationsdauern sind jedoch um ein Vielfaches länger, etwa 225 ms beim Lesen, bei visuellen Suchaufgaben rund 275 ms und bei der Bildwahrnehmung rund 330 ms (Rayner, 1978). Diese Ergebnisse sind jedoch keineswegs stabil: In vielen Fällen scheint ein Zusammenhang zwischen Fixationsdauer und Aufgabenparameter (Aufgabenschwere, erforderliche Genauigkeit, u. a.) zu bestehen. Fixationsdauern werden deshalb oftmals als Maß für die Dauer der Bearbeitung der betrachteten Information interpretiert. Da während der Sakkaden das Sehvermögen weitgehend reduziert ist, findet die visuelle Informationsaufnahme fast ausschließlich während der Fixationen statt. In vielen Untersuchungen wird daher davon ausgegangen, dass die Information, die gerade fixiert wird, auch verarbeitet wird. Unter dieser Annahme ist also die Fixationsdauer identisch mit der Dauer der Informationsverarbeitung (‘eye-mind assumption’ und ‘immediacy assumption’, vgl. auch Inhoff & Radach, 1998). McConkie et al. (1985) haben für das Lesen gezeigt, dass die Verarbeitungszeit kürzer als die Fixationsdauer sein kann. So können Wörter erst fast 100 ms nach dem Ende der hinführenden Sakkade identifiziert werden. Die fortführende Sakkade muss schon 100 ms vor ihrem Start programmiert werden (ihre Ausführung kann allerdings noch bis 30 ms vor dem Start abgebrochen werden). Sanders (1990) geht davon aus, dass eine Sakkade – und damit das Ende einer Fixation – die Antwort auf das Vorliegen eines internen Wahrnehmungscodes von konstanter Qualität ist. In anderen Worten: die Augen können das Signal, welches gerade bearbeitet wird, nicht zu jedem beliebigen Zeitpunkt während des Wahrnehmungsprozesses verlassen. Auch Oster und Stern (1980) gehen nach dem Vergleich der Fixationsdauern bei ver-
II. Methoden der Psycholinguistik
schiedenen Aufgabentypen davon aus, dass die Zeit zwischen zwei Sakkaden eher eine Funktion der Aufgabenanforderungen als ein Merkmal des Sakkadensystems ist. Rayner (1978) stellt zwei Modelle der Steuerung von Fixationsdauern vor. Nach dem Modell des kognitiven Rückstandes sind die Fixationen so kurz, dass die kognitiven Prozesse notwendigerweise mit einem zeitlichen Abstand zu der Informationsaufnahme ablaufen können. Die meisten Ergebnisse aus der Literatur sprechen jedoch dagegen (Carpenter & Just, 1978). Nach dem Modell der Prozessüberwachung wird die Fixationsdauer von den kognitiven Prozessen beeinflusst, die zur Verarbeitung der während der Fixation aufgenommenen Informationen herangezogen werden. Die Verarbeitungsschwierigkeit würde sich demnach in der Fixationsdauer niederschlagen. Viele Forschungsergebnisse scheinen dieses Modell tatsächlich zu unterstützen (Balota et al., 1985). Es sei jedoch darauf hingewiesen, dass die beiden Modelle sich im Grunde nur auf Fixationsdauern bei Leseaufgaben beziehen, so dass die Kontextinformation, also zum Teil bereits verarbeitete Information, eine entscheidende Rolle in der Bestimmung bzw. Steuerung der Fixationsdauer spielt. Dieser Tatbestand macht die Interpretation der bei Leseaufgaben gefundenen Fixationsdauern problematisch. In den Veröffentlichungen von Henderson und Hollingworth (1998) bzw. Findlay und Walker (1999) werden generellere Theorien der Steuerung von Blickbewegungen entwickelt. Während das Modell des kognitiven Rückstandes implizit von einer zufälligen Verteilung der Fixationszeiten ausgeht (RandomKontrollhypothese, vgl. Kolers, 1976), ist die Grundhypothese des Modells der Prozessüberwachung die kognitive Steuerung der Fixationsdauer. Das Randommodell kann systematische Unterschiede in der Fixationsdauer nicht erklären. Mit dem Modell der kognitiven Kontrolle lässt sich dagegen schwer erklären, dass Fixationsdauern – verglichen mit der zu vermutenden großen Variabilität in der kognitiven Prozessdauer – relativ konstant sind. Die Fixationsdauer kann auch als ein Maß für die Beanspruchung gelten. Allerdings ist zu beachten, dass die Interpretation der Fixationsdauer als Beanspruchungsmaß vom Aufgabentyp abhängig ist. Verlangt die Aufgabe überwiegend zentral kontrollierte Verarbeitung, so ist eine Verlängerung der Fixationsdauer ein Hinweis auf größere Beanspru-
10. Spezielle Verfahren I: Bewegungen des menschlichen Auges
chung. So fand Rayner (1978, 1982) eine Verlängerung der Fixationsdauern bei zunehmender Schwierigkeit von Satzkonstruktionen. Stager und Angus (1978) konnten zeigen, dass die Fixationsdauer bei Erfahrung mit einer Aufgabe sinkt. Bei Aufgaben, bei denen schnelles Reagieren gefordert ist (z. B. Führen von Fahrzeugen), kommt es bei größerer Beanspruchung über einen Anstieg des Aktivierungs-Niveaus zu kürzeren Fixationsdauern. Verwiesen sei auch auf Gerathewohl et al. (1978), die zeigten, dass sich die Fixationsdauer bei höherer Schwierigkeit von Flugführungsaufgaben verkürzt. Miura (1986) sowie Unema und Rötting (1990) fanden gleichartige Ergebnisse beim Autofahren. Verschiedene Autoren haben die Größe des Bereichs untersucht, innerhalb dessen während einer Fixation Informationen aufgenommen und verarbeitet werden können. Mackworth (1965) nannte den Bereich „functional field of view“, Saida und Ikeda (1979) bezeichnen den Bereich als „useful visual field“, Nelson und Loftus (1980) sprechen vom „functional visual field“. In der Leseforschung wird der Bereich als „perceptual span“, (Rayner & Pollatsek, 1989) bezeichnet. Die Abschätzung des Bereiches, in dem während einer bestimmten Aufgabe und unter spezifischen Reizbedingungen Information aufgenommen werden kann, unterstützt die Zuverlässigkeit, der aus der Analyse von Fixationsdauern abgeleiteten Ergebnisse. Allerdings scheint sich die Größe des Bereiches unter dem Einfluss der Aufgabenanforderungen zu verändern und ist damit selbst ein potentieller Parameter. Außerhalb von Laborsituationen ist das „functional field of view“ über die Sakkadenamplitude zu operationalisieren. Bei vielen Aufgaben, etwa beim Autofahren, spielt allerdings nicht allein die foveale Wahrnehmung, die auf scharfem Sehen in einem kleinen Bereich (ca. 1,5∞) des Gesichtsfeldes beruht, eine entscheidende Rolle, sondern auch die periphere Wahrnehmung. Über den Bereich des scharfen Sehens hinaus können besonders neu auftauchende und sich bewegende als auch durch ihren Kontrast zum Hintergrund auffällige Stimuli erkannt werden. 3.3.2. Objektbezogene Fixationsmaße Zur Analyse des Handlungsvollzuges ist die Identifizierung der fixierten Objekte unumgänglich. Werden beispielsweise Bilder unter zwei verschiedenen Fragestellungen betrach-
157
tet, so gibt es kaum Überschneidungen in den Fixationsobjekten (Nodine et al., 1978; Velichkovsky & Hansen, 1996). Die meisten der hier erläuterten Parameter der Augenbewegung können auch auf die fixierten Objekte, Klassen von Objekten oder sogenannte ‘areas of interest’ (AOI) bezogen werden. So ist es üblich, die absolute und relative Häufigkeit der Fixation bestimmter Objekte zu ermitteln. Neben der Häufigkeit wird sehr oft auch die Fixationsdauer bestimmt und daraus die durchschnittliche Fixationsdauer pro Blickobjekt errechnet (Gengenbach, 1999). Auch wenn die Fixationsdauer auf ein Objekt bezogen wird, können die Variation und die Verteilung der Fixationsdauern pro Blickobjekt ermittelt werden. Moderne bildverarbeitende Verfahren erlauben es, zahlreiche unterschiedliche Darstellungen der Fixationen objektbezogen zu produzieren. In der Geschichte der Augenbewegungsforschung wurden Fixationen meistens als Punkte über die Oberfläche des Bildes dargestellt (z. B. Yarbus, 1967). Gebiete mit größerer Dichte der Punkte wurden als diejenige interpretiert, die mehr Aufmerksamkeit bekommen haben. Die Abbildung 10.5a zeigt eine moderne Version der Darstellungsweise, wobei auch die Fixationsdauer mit einbezogen ist. Die Aufmerksamkeit wird aber nicht auf diskrete geometrische Punkte, sondern auf mehr oder weniger große Regionen gerichtet. Eine der fortgeschrittenen Methoden war die Darstellung der AOI mit Hilfe von Clusteranalyse (Pillaramari et al., 1993). Eine entsprechende Darstellung wird in Abbildung 10.5b gezeigt. Aber auch in diesem Fall gibt es psychologische Bedenken, da die AOI nicht unbedingt eine elliptische Form mit scharfen Grenzen haben soll. Velichkovsky, Pomplun und Rieser (1996) schlagen deshalb vor, eine graduelle Funktion als „Aufmerksamkeitslandschaft“ über das gesehene Bild zu definieren. Je höher der Wert dieser Funktion in einem bestimmten Bereich des Bildes ist, desto mehr Aufmerksamkeit wurde dem Bereich gewidmet. Diese Funktion wurde als nach der Fixationsdauer gewichtete, zweidimensionale Gauß’sche Verteilung mit dem Zentrum um den Fixationspunkt definiert. Als Standardabweichung dieser Verteilung wurde ein Winkelgrad genommen. Ein Beispiel für eine solche Aufmerksamkeitslandschaft ist in Abbildung 10.5c zu sehen. Schließlich kann man die auf diese Weise gewonnenen Funktionen als Filter zur
158
II. Methoden der Psycholinguistik
Abb. 10.5: Verschiedene Arten der Darstellung der visuellen Aufmerksamkeitsverteilung: als Fixationspunkte (a), als Cluster von Fixationen (b), als „Aufmerksamkeitslandschaften “ (c) und als „subjektives Ansicht“ (d) des Bildes (aus Velichkovsky, Pomplun & Rieser, 1996)
Bearbeitung von betrachteten Bildern und Szenen verwenden. Die Ergebnisse dieses Vorgehens sind exemplarisch in Abbildung 10.5d gezeigt. In einer weiteren Untersuchung wurden anhand der Aufmerksamkeitslandschaften subjektive Ansichten komplexer Szenen visualisiert und insbesondere die Wahrnehmung von mehrdeutigen Bildern (wie diese von Mauretus Cornelius Escher oder Giuseppe Arcimboldo) disambiguiert (Pomplun et al., 1996). Eine weiterführende Entwicklung ist mit der Trennung von Landschaften für präattentive und attentive Fixationen verbunden (Dornhoefer et al., 2000). Die Verweildauer pro Blickobjekt (gaze duration) ist die Gesamtsumme der Zeiten, die ein Objekt oder eine Gruppe von Objekten fixiert wird. Die „first pass gaze duration“ ist die Summe der Fixationsdauern von der ersten Fixation eines Objektes bis zum ersten Verlassen des Objektes. Bei Identifizierungsaufgaben wird sie als ein Maß für die Objekterkennung angesehen und reflektiert die semantische Konsistenz des Objektes (Henderson et al., 1997).
3.3.3. Aus den Fixationen und Fixationsdauern abgeleitete Maße Die Anzahl der Fixationen pro Zeiteinheit ist eine Größe, die ggf. einfacher als die Fixationsdauern zu bestimmen ist. Die Anzahl der Fixationen pro Zeiteinheit, zum Beispiel pro Minute (Casali & Wierwille, 1983), entspricht dem Kehrwert der mittleren Dauer (z. B. in Minuten) zwischen zwei Fixationen. Der Wert umfasst damit die Fixationsdauer, die Dauer der dazwischen liegenden Sakkaden sowie eventuelle weitere Dauern (Mikrobewegungen, Messartefakte, etc.). Fixationsdauern müssen für jede einzelne Fixation bestimmt werden. Üblich ist dann die Bildung des Mittelwertes der Fixationsdauern über entsprechend gewählte Untersuchungsabschnitte. Oftmals wird auch die Streuung bzw. Variation der Fixationsdauern (Lambert, 1976) betrachtet. Noch mehr Informationen enthält die Verteilung der Fixationsdauern. Dazu werden die Fixationsdauern in Klassen von beispielsweise 100 ms Breite eingeteilt und der prozentuale Anteil der Klasse an der Gesamtzahl der Fixationen aufgetragen. Die Verteilung
10. Spezielle Verfahren I: Bewegungen des menschlichen Auges
der Fixationsdauern kann, auch bei identischem Mittelwert, recht unterschiedlich sein. Üblicherweise finden sich linksschiefe Verteilungskurven. 3.4. Wechselspiel von Fixationen und Sakkaden – Blickpfadanalyse 3.4.1. Elementare Parameter des Blickpfades Die Suchzeit ist ein Parameter des Blickpfades, der insbesondere bei der Evaluation der Gestaltung von Mensch-Maschine-Schnittstellen genutzt werden kann. Sie ergibt sich aus der Zeit, die vom Erscheinen eines Stimulus bis zur ersten Fixation auf dem zu findenden Zielobjekt vergeht. Die Suchzeit ist in hohem Maße von der Aufgabe und dem Stimulusmaterial abhängig. Neben der Anordnung sind insbesondere die Kontraste für die Suchzeit mitbestimmend. Als Maß der globalen visuellen Suche wird die Blickpfaddauer (scanpath duration) genutzt. Diese ist definiert als die Folge von Fixationen und Sakkaden bis zur Lösung einer bestimmten Aufgabe und kann von weniger als einer Sekunde bis zu mehreren Minuten liegen. Ebenso wie die Suchzeit kann die Blickpfaddauer als Maß für die Angemessenheit einer MenschMaschine-Schnittstelle verwendet werden (Goldberg & Kotval, 1998). Ein drittes Maß der zeitlichen Ausprägung des Blickpfades ist das Fixationen-Sakkaden-Verhältnis. Es ergibt sich aus dem Verhältnis der mittleren Fixationsdauer zu der mittleren Sakkadendauer. Da während der Sakkaden keine Information aufgenommen werden kann, gibt das Fixationen-Sakkaden-Verhältnis Aufschluss über den Anteil der betrachteten Gesamtzeit, während derer Informationen aufgenommen werden können. Als elementarer Parameter der örtlichen Ausprägung des Blickpfades dient die Länge des Blickpfades. Sie ist definiert als die Summe der Distanz zwischen aufeinanderfolgenden Fixationsorten und wird als Maß zur Beschreibung der globalen visuellen Suche interpretiert. Ein möglichst kurzer Blickpfad bis zum gewünschten Ziel wird dabei als günstig angesehen. Ein Maß, welches häufig in der Leseforschung Anwendung findet, sind die Rücksprünge (regressive movements), die als Richtungsänderung einer Sakkade von mehr als ( 90∞ von der Richtung der vorhergehenden Sakkade definiert sind. Die Anzahl der Rücksprünge innerhalb einer Zeile verringert sich z. B. mit zunehmender Leseerfahrung.
159
3.4.2. Übergangshäufigkeit Die Folge, in der die verschiedenen Blickobjekte fixiert werden, liefert Hinweise auf die sequentiellen Informationserfordernisse zur Ausführung der aktuellen Aufgabe und die dahinter liegenden steuernden Prozesse. Es bietet sich an, eine Übergangsmatrix zu erstellen, in der die Wahrscheinlichkeiten eingetragen sind, mit der von einem Blickgebiet in ein anderes gewechselt wird. Liegt dem Blickverhalten eine Strategie zugrunde, so zeigt sich in der Übergangsmatrix eine von dieser ermittelten Wahrscheinlichkeit abweichende Häufigkeit des Blickwechsels zwischen verschiedenen definierten Gebieten. Ellis und Stark (1986) unterscheiden drei essentiell unterschiedliche Muster der Fixationsübergänge zwischen den anwesenden Sehobjekten: Random (zufällig): Jedes Blickgebiet hat die gleiche Chance, fixiert zu werden. Die Übergangshäufigkeiten zwischen allen Blickgebieten sind gleich groß. Stratified Random (gewichtet zufällig): Jedes Blickgebiet wird mit unterschiedlicher Wahrscheinlichkeit angeschaut. Die Übergangshäufigkeiten zwischen jeweils zwei Blickgebieten errechnet sich aus diesen jeweiligen Wahrscheinlichkeiten. Ein Stratified random-Abtastmuster deutet auf einen automatischen, angelernten Prozess hin. Statistically Dependent (statistisch abhängig): Der Inhalt des gerade fixierten Blickgebietes bestimmt, welches Blickgebiet als nächstes betrachtet wird. Die Übergangshäufigkeiten zwischen den jeweiligen Blickgebieten sind nicht aus den Fixationshäufigkeiten zu errechnen, sondern müssen empirisch festgestellt werden und lassen sich durch Markov-Prozesse erster oder höherer Ordnung beschreiben. Eine große statistische Abhängigkeit kann als willkürliches Blickverhalten interpretiert werden (Ellis & Smith, 1985; siehe auch Rayner, 1978). Untersuchungen mit trainierten Piloten, deren Blickverhalten durch die Anwesenheit neuer Instrumente stark beeinflusst werden kann (Harris et al., 1982), weisen auf eine Umschaltung von einem stratified random auf ein statistically dependent Muster des Abtastens der Umgebung hin. 3.4.3. Markov-Matrizen Eine Markov-Matrix nullter Ordnung enthält für jedes Blickobjekt bzw. Blickgebiet den prozentualen Anteil an der Gesamtzahl der
160 Fixationen. Eine Markov-Matrix erster Ordnung enthält die Wahrscheinlichkeit eines Übergangs von einem zu einem anderen Blickgebiet und entspricht somit der Übergangsmatrix (siehe 3.4.2). Eine Markov-Matrix zweiter Ordnung entspricht einer dreidimensionalen Matrix und enthält die Wahrscheinlichkeit eines Übergangs von einem Blickgebiet zu einem anderen in Abhängigkeit von dem vorletzten Blickgebiet. Obwohl theoretisch Markov-Matrizen beliebiger Ordnung denkbar sind, werden im Bereich der Blickbewegungsanalyse allerdings kaum Matrizen höher als die zweiter Ordnung benutzt. Liu (1999) verwendete beispielsweise Markov-Matrizen zur Identifizierung des „typischen“ Blickverhaltens in einer Fahrsimulationsaufgabe. Indem die höchsten Übergangswahrscheinlichkeiten in jeder Zeile einer Markov-Matrix betrachtet werden, lässt sich die Sequenz von Fixationen feststellen, die die höchste Wahrscheinlichkeit für ein bestimmtes Blickgebiet aufweist. So zeigte sich z. B. auf geraden Straßenstücken ein vorausschauendes und ein „Seite-zu-Seite“-schauendes Blickmuster, wohingegen in einer Kurve zwar ein „Seite-zu-Seite“-schauendes Blickmuster festgestellt werden konnte, jedoch kein vorausschauendes. Auch bei dem Einsatz von Blickbewegungen als Interaktionsmittel mit einem Rechner kann eine Analyse der Folgen von Fixationen mittels Markov-Modellen hilfreich sein, um daraus auf die kognitiven Modelle des Nutzers und insbesondere auf die intendierte Handlung zu schließen (Salvucci, 1999). 3.5. Ausblick Bei den vorgestellten Parametern der Augenund Blickbewegungen handelt es sich im weitesten Sinne um psychophysiologische Größen. Hockey et al. (1986) führen an, dass die Interpretation psychophysiologischer Daten oft widersprüchlich ist. Hilfreich bei der Auflösung dieser Widersprüche kann nach den Autoren die Unterscheidung sein, ob es sich bei der gemessenen Größe um eine tonische oder um eine phasische Messung handelt, ob also ein über längere Zeiträume anhaltender Zustand oder ein durch ein diskretes Ereignis ausgelöster Prozess beobachtet wurde. Ebenso wichtig ist die Unterscheidung zwischen einer Manifestation eines physiologischen Prozesses und einem Korrelat dieses Prozesses. Zur Verdeutlichung: Wird das EMG eines an einer offensichtlichen motorischen Reaktion beteiligten Muskels aufge-
II. Methoden der Psycholinguistik
zeichnet, handelt es sich hierbei um die Manifestation dieses Prozesses. Wird hingegen die elektrodermale Aktivität zur Beschreibung von Aktivierung aufgezeichnet, handelt es sich um ein Korrelat, da nicht angenommen wird, dass Aktivierung in den Hautdrüsen implementiert ist. Ohne das Kontextwissen bezüglich des Einsatzes kann eine Klassifizierung der vorgestellten Parameter der Augenmotorik nach den beiden Dimensionen tonisch vs. phasisch und Manifestation vs. Korrelat allerdings nicht allgemeingültig und vollständig gelingen. Es bedarf somit jeweils einer Theorie über die Interpretation der Parameter der Augenmotorik und deren Ausprägungen.
4.
Technologische Anwendungen der Augenbewegungsforschung
Nachdem in den drei vorausgehenden Abschnitten die Arten von Blickbewegungen, ihre Erfassung und ihre psychologische Bedeutung behandelt wurden, sollen im folgenden Abschnitt einige moderne Tendenzen der technologischen Umsetzung dieser Methoden exemplarisch dargestellt werden. 4.1. Blickbewegungen zur Kontrolle von Benutzerschnittstellen Die erste und offensichtlichste Anwendung von Blickbewegungsdaten ist die sogenannte „Augenmaus“ bzw. „Blickmaus“. Vorausgegangene Versuche zur Erprobung waren nicht sehr erfolgreich, da diese nicht in der Lage waren, den Unterschied zwischen Augenbewegungen und Aufmerksamkeit zu unterscheiden. Mittlerweile macht eine Einbindung von temporalen Filtern den Einsatz von Augenbewegungen zur Steuerung virtueller Tastaturen und zur Bedienung von graphischen Benutzeroberflächen praktisch fehlerfrei möglich (Velichkovsky et al., 1997). Die Filter bilden dabei Cluster aus einzelnen Fixationen. Die Schwelle, die zur Filterung von kommunikativen Fixationen verwendet wird, beträgt in den meisten Fällen 500 ms. Im Allgemeinen verkürzt eine solche Augenmaus die Selektionszeit. Ein verbreitetes Anwendungsgebiet sind Bereiche, in denen es schwierig oder unmöglich ist, seine Hände zu benutzen, wie dies z. B. bei Menschen mit entsprechenden Behinderungen der Fall ist. In solchen Fällen kann die „Augenmaus“ dazu benutzt werden, unterschiedliche elektronische Medien, wie z.B Telefon, Fax, E-
10. Spezielle Verfahren I: Bewegungen des menschlichen Auges
161
Abb. 10.6: Bildersequenz einer „Eyecon“-Schaltfläche
Mail oder Sprachgeneratoren zu steuern. Über 200 Augenbewegungsmesssysteme wurden 1999 weltweit für diese Zwecke eingesetzt. Im Gegensatz zu einer manuell gesteuerten Computer-Maus benötigt eine „Augenmaus“ keine explizite visuelle Rückmeldung. Um einen hohen Grad an Zuverlässigkeit zu erreichen, wird jedoch empfohlen, eine visuelle Rückmeldung zu geben. Abbildung 10.6 zeigt eine Realisierung dieser Idee in Form eines sogenannten „Eyecons“. Fixiert ein Nutzer eine virtuelle Schaltfläche, so läuft eine 500 ms dauernde Bildersequenz ab und ermöglicht damit dem Nutzer, die begonnene Aktivierung der Schaltfläche abzubrechen, noch bevor das virtuelle Auge geschlossen wird. Zusätzlich leitet die Animation die Aufmerksamkeit des Benutzers auf einen präzisen Ort, was dem System ermöglicht, sich bei jedem virtuellen Knopfdruck zu rekalibrieren. In einer Studie (siehe Velichkovsky & Hansen, 1996) zur Akzeptanz des „Eyecon“-Systems ergaben sich durchweg positive Reaktionen. Mehr als 95 % der Benutzer bezeichneten das System als „aufregend“ und 70 % glaubten, dass „die Blickbewegungsregistrierung in Zukunft eine alltägliche Sache“ sein wird. Ein anderer Ansatz der blickbewegungsgesteuerten Interaktion entsteht, wenn man die Blickbewegungsdaten auf einer höheren semantischen Ebene interpretiert und in einer neuen Art von „Noncommand“-MultimediaAnwendungen benutzt. Diese registriert fortlaufend die Aufmerksamkeit, die auf individuelle Objekte auf dem Bildschirm gerichtet ist (siehe z. B. Nielsen, 1993; Starker & Bolt, 1990). Diese „Noncommand“-Interaktionen werden auch als „Interessen- und Emotionssensitive Medien“ bezeichnet. Die Möglichkeit der Kopplung von Messungen der Augenbewegungen mit der Darstellung des Stimulusmaterials erlaubt dem Benutzer, einen quasi-passiven Einfluss auf die Steuerung elektronischer Medien auszuüben. Dies kann erreicht werden durch die Erfassung 1) der Benutzerinteressen mit Hilfe der Detektierung von AOI, d. h. Gebieten
mit hoher Aufmerksamkeitszuwendung, und 2) der emotionalen Reaktionen, die sich aus der Lidschlagfrequenz und den Veränderungen der Pupillengröße ableiten lassen (Hansen, Andersen & Roed, 1995; Velichkovsky, 1995). Natürlich sind aber auch Hybrid-Lösungen als eine Kombination aus „Command“- und „Noncommand“-Prinzipien denkbar. 4.2. Eine neue Generation von Kommunikationshilfsmitteln Bei Telekommunikation und Telearbeit ist es von Bedeutung, nicht nur zu wissen, wer mit wem kommuniziert, sondern auch, wer woran arbeitet. Eine der bekanntesten Nutzungsprobleme herkömmlicher Telekommunikations- und Telearbeitsumgebungen ist die (mangelnde) Unterstützung, um diesen Fokus gemeinsamer Aufmerksamkeit, ‘Joint Attention’, zu repräsentieren (vgl. Velichkovsky, 1995). Dieser Mangel führte mittlerweile dazu, dass innerhalb der Mensch-ComputerInteraktionsforschung und der Forschung auf dem Gebiet der Computer-unterstützten kooperativen Arbeit Aspekte der Aufmerksamkeit ein großes Interesse erfahren haben. Die dabei vorgeschlagenen Lösungen erfordern jedoch häufig explizites Komunikationsfluss-Management, was bisher den Erfolg solcher Lösungsvorschläge erheblich schmälerte. Visuelle Aufmerksamkeit im Speziellen ist ein wichtiges Element des allgemeinen Aufmerksamkeitszustandes eines Benutzers. Die Blickrichtung ist dabei der einzige reliable Indikator, um den Ort der visuellen Aufmerksamkeit bestimmen zu können. Die Erstellung blickrichtungssensitiver Systeme gestaltete sich bislang aufgrund mangelnder Erfassungsapparaturen schwierig. Dies führte zur Konstruktion von komplizierten Systemen mit mehreren Kameras bzw. Systemen, die unterschiedliche Eingabegeräte, wie z. B. die Computer-Maus, als sensorischen Ersatzkanal zur Erfassung der visuellen Aufmerksamkeit einsetzten. Mit der Entwicklung neuer Blickbewegungserfassungssysteme (s. o.) ist es jedoch möglich geworden, die Blickrich-
162 tung reliabel zu erfassen und diese Daten zur Erfassung der Loci geteilter Aufmerksamkeit zu nutzen. Eine Realisation stellt beispielsweise das „GAZE Groupware System“ (Vertegaal, Velichkovsky & Van der Veer, 1997; Vertegaal, 1998) dar. Das prototypische GAZE-System wurde als Konferenz-und Kooperationssystem für mehrere Teilnehmer entworfen. In dem GAZE-System wird die Metapher eines dreidimensionalen Konferenzraums angewandt, in dem die Teilnehmer auf dreidimensionalen Darstellungsflächen repräsentiert sind (siehe Abbildung 10.7). An allen Knotenpunkten des Systems rotieren diese Flächen in Abhängigkeit von der Blickrichtung jedes Teilnehmers. Die Möglichkeiten, wie die Teilnehmer auf den Flächen repräsentiert sein können, reicht von Standbildern mit Audio- bis zu vollbewegter Videodarstellung. Farbige Lichtpunkte auf einem virtuellen Konferenztisch und auf gemeinsam zu bearbeitenden Dokumenten indizieren den visuellen Aufmerksamkeitsfokus der Teilnehmer und erlauben es, die Zustände der ‘Joint Attention’ zu unterstützen. Die Implementierung des Gaze-Systems basiert auf der Virtual Room Modelling Language (VRML) und benutzt JAVA zur Steuerung. Zur Blickrichtungsregistrierung verwendet man im GAZE-System eine berührungslose Methode, die Blickkoordinaten in Echtzeit liefert, wobei eine relativ niedrige
II. Methoden der Psycholinguistik
zeitliche und räumliche Auflösung der Methode völlig ausreichend ist (siehe Abbildung 10.8).
Abb. 10.8: Das berührungslose Blickerfassungssystem von GAZE Groupware-System (Firma LC Technologies)
Beim GAZE-System wird der Kommunikationsfluss in Abhängigkeit von der visuellen Aufmerksamkeit gesteuert. Die visuelle Aufmerksamkeit wird dabei über verschiedene Eingabemöglichkeiten erfasst, die von der Computer-Maus bis zum Blickregistrierungssystem reichen können. Der Schwerpunkt des Systems liegt auf der Entwicklung von computervermittelten Interaktionsstilen und der Repräsentation von Aufmerksamkeit im Kontext unterschiedlicher Interaktionsmoda-
Abb. 10.7: Der virtuelle Konferenzraum des GAZE-Systems: Für eine Identifikation der Zugehörigkeit der Fixation wird eine zusätzliche Farbkodierung benutzt (nach Vertegaal, Velichkovsky & Van der Veer, 1997)
10. Spezielle Verfahren I: Bewegungen des menschlichen Auges
litäten, wie z. B. Video-Kommunikation, Audio-Kommunikation, Text-Kommunikation und der gemeinsamen Bearbeitung von Dokumenten. Auch auf der psychologischen Idee von ‘Joint Attention’ basierend, ist das „GazeToTalk“- System von Chino, Fukui und Suzuki (2000) entwickelt worden. Die ‘Joint Attention‘-Zustände sollen hier aber nicht zwischen menschlichen Teilnehmern der Kommunikation entstehen, sondern zwischen Menschen und einem anthropomorphen Agenten. Es ist eine neue Mensch-Maschine Schnittstelle, die Blickbewegungserfassung, Spracherkennung und animierte menschenähnliche Agenten integriert. Das System interpretiert akustische Eingaben sowie nonverbale Botschaften und reagiert mit einem anthropomorphen Agenten darauf. Diese multimodale Schnittstelle simuliert insofern meta-kommunikative Fähigkeiten, als dass es die Blickrichtung des Benutzers interpretiert. Der Vorteil gegenüber herkömmlichen Spracherkennungssystemen liegt darin, dass das System durch die Berücksichtigung der Blickrichtung rudimentär zu einem CocktailParty-Effekt fähig ist, d. h. in der Lage ist, zwischen der an das System gerichteten Sprache und Rauschen zu unterscheiden. Die innovative Komponente des Systems gewährleistet zudem, dass dem Nutzer die Bereitschaft zur Entgegnnahme der Spracheingabe rückgemeldet wird, wenn das System zuvor anhand der Fixation durch den Nutzer dessen Kommunikationsbereitschaft erkannt hat. Im Einzelnen funktioniert das System dabei nach folgendem Regelkreis: Das System wartet, bis der Benutzer den Agenten fixiert. Nach einer kurzen Phase der Fixation wechselt der Agent seine Gestalt, um Aufnahmebereitschaft zu signalisieren. Wenn der Benutzer die Spracheingabe beginnt, signalisiert der Agent dem Benutzer durch Kopfnicken, dass die Sprache interpretiert wird. Wendet der Benutzer seinen Blick vom Agenten, so wird die Spracherkennung unterbrochen, und der Agent kehrt in seinen, auf Blickkontakt wartenden, Ausgangszustand zurück. 4.3. Intelligente Online-Hilfen Bei der Darstellung von Blickmaus und den auf Verwendung von Augenbewegungsdaten basierenden Formen der Mensch-ComputerInteraktion haben wir auf die Möglichkeit hingewiesen, diese Interaktion implizit zu führen, ohne auf explizite Entscheidungen und entsprechende Anweisungen seitens des
163
Benutzers zurückzugreifen. Insoweit moderne Messsysteme und psychologische Augenbewegungsforschung zuverlässige Daten über Absichten und psychologische Zustände des Menschen liefern, können diese Parameter zur intelligenten Unterstützung von Mensch-Maschine-Schnittstellen verwendet werden. Ein wichtiger Ansatz wird z. B. unter dem Namen „What human eye tells the car’s brain“ geführt (Liu, 1999). Bei diesem Ansatz werden bei Fahrern online Blickpfade diagnostiziert, die z. B. auf eine Überholabsicht hindeuten. Die Ergebnisse der Analyse werden dann zur Adaptation von Maschinenfunktionen benutzt – in diesem Fall zur vorübergehenden Abschaltung von Systemen, die den Abstand des Fahrzeuges zu vorausfahrenden Fahrzeugen sichern. Wir wollen in diesem Abschnitt uns auf die Beschreibung eines Systems konzentrieren, das versucht, in hohem Maße psycholinguistisches Wissen einzusetzen. Das „iDict“- System von Hyrskykari et al. (2000) nutzt Augenbewegungsdaten, um den Anwender bei Übersetzungsaufgaben zu unterstützen. Da diese Daten aufgrund der physiologischen Eigenschaften der Augen sowie Messfehlern bei der Blickdatenerfassung oft fehlerbehaftet sind, integriert das System drei weitere Informationsquellen zur Disambiguierung der registrierten Daten. Dies sind zum einen Erkenntnisse, die aus der Leseforschung stammen, lexikalische und syntaktische Sprachanalyse des zu übersetzenden Textes sowie benutzerspezifische Profile über die lesespezifischen Charakteristiken des Benutzers. Die „iDict“ Übersetzungshilfe verfolgt die Blickbewegungen eines Benutzers, um Rückschlüsse über Nutzung und Angemessenheit von Hilfen beim Lesen eines Fremdsprachentextes zu ziehen. Das Grundprinzip besteht darin, die natürlichen Augenbewegungen des Lesenden zu analysieren, ohne dass der Anwender spezielle Augenbewegungen ausführen müsste. Im „iDict“-Prototyp ist der zu übersetzende Text Englisch und die Zielsprache Finnisch, Deutsch oder Italienisch. Die Hilfe, die das System bietet, besteht darin, dass bei erkannten Problemstellen ein „tooltip“ erscheint mit der, aus der lexikalisch-syntaktischen Analyse sich ergebenden, besten Übersetzung. Der „tooltip“ schließt sich dann wieder, wenn der Anwender seinen Blick von der Problemstelle abwendet. Um die jeweils beste Hilfestellung zu geben, greift „iDict“ auf Wissensdatenbanken zu, die einerseits aus einer lexikalisch-syntaktischen
164
II. Methoden der Psycholinguistik
Textanalyse und andererseits aus nutzerspezifischen adaptiven Lesecharakteristika bestehen.
5.
Zusammenfassung
Das Kapitel gibt einen systematischen Überblick über die verschiedenen Arten der Augenbewegungen und methodischen Ansätze sowie Geräte, die zur Registrierung dieser Bewegungen verwendet werden können. Ausführlich werden die für psychologische Forschung und Praxis relevanten Parameter der Sakkaden, Fixationen und Blickpfade diskutiert. Exemplarisch wird auch eine Reihe von modernen technologischen Anwendungen der Augenbewegungsforschung beschrieben. Diese Anwendungen liegen auf Gebieten der MenschComputer-Interaktion, computer-unterstützter Mensch-Mensch-Kommunikation, anthropomorphen Agententechnologien und intelligenten Hilfesystemen.
6.
Literatur
Alexandridis, E. (1985). The pupil. Berlin/NY: Springer. Anastasopoulos, D., Kimmig, H., Mergner, T. & Psilas, K. (1996). Abnormalities of ocularmotility in myotonic dystrophy. Brain, 119 (6), 1923⫺1932. Anliker, J. (1976). Eye movements: On-line measurement, analysis, and control. In R. A. Monty & J. W. Senders (Eds.), Eye movements and psychological processes (pp. 372⫺398). Hillsdale, NJ: Lawrence Erlbaum. Balota, D. A., Pollatsek, A. & Rayner, K. (1985). The interaction of contextual constraints and parafoveal information in reading. Cognitive Psychology, 17, 364⫺390. Becker, W. (1991). Saccades. In J. Cronly-Dillon (Ed.), Vision and visual dysfunction, Vol. 8. Basingstoke (pp. 967⫺983). Hampshire: MacMillan Press. Boff, K. R. & Lincoln, J. E. (1988). Engineering data compendium – Human perception and performance. Armstrong Aerospace Medical Research Laboratory, Wright-Patterson Airforce Base, Ohio. Bruce, V. & Green, P. R. (1990). Visual perception – Physiology, psychology and ecology. Hove: Lawrence Erlbaum. Buswell, G. T. (1920). An experimental study of the eye-voice span in reading. Chicago: Supplementary Educational Monographs, 17. Carpenter, P. A. (1988). Movements of the eyes. London: Pion Limited.
Carpenter, P. A. & Just, M. A. (1978). Eye fixation during mental rotation. In J. W. Senders, D. F. Fisher & R. A. Monty (Eds.), Eye movements and the higher psychological functions (pp. 115⫺133). Hillsdale, NJ: Lawrence Erlbaum. Casali, J. G. & Wierwille, W. W. (1983). A comparison of rating scale, secondary-task, physiological and primary-task workload estimation techniques in a simulated flight task emphasizing communications load. Human Factors, 25, 623⫺641. Ceder, A. (1977). Drivers’ eye movements as related to attention in simulated traffic flow conditions. Human Factors, 19 (6), 571⫺581. Chekaluk, E. & Llewellyn, K. R. (1994). Masking effects in saccadic eye movements. In G. d’Ydewalle & J. Van Rensbergen (Eds.), Visual and oculomotor functions –Advances in eye movement research (pp. 45⫺54). Amsterdam: Elsevier. Chino, T., Fukui K. & Suzuki, K. (2000). „GazeToTalk“: A nonverbal interface with meta-communication facility. In Proceedinggs of the International Conference Eye Tracking Research & Applications Symposium (p. 111), Palm Beach Gardens, FL, November 6⫺8, 2000, ACM Press. Clarke, A. H. (1996). Current trends in eye movement measurement techniques. In W. H. Zangenmeister, H. S. Stiehl & C. Freksa (Eds.), Visual attention and cognition. (pp. 347⫺364). Amsterdam: Elsevier. Crane, H. D. & Steele, C. M. (1978). Accurate three-dimensional eyetracker. Applied Optics, 17 (5), 691⫺705. Day, M. E. (1964). An eye-movement phenomenon relating to attention, thought and anxiety. Perceptual and Motor Skills, 19, 443⫺446. Deubel, H. (1998). Die Rolle der visuellen Aufmerksamkeit bei der Selektion von Blickbewegungszielen. In H. H. Bülthoff, M. Fahle, K. R. Gegenfurtner & H. A. Mallot (Hrsg), Visuelle Wahrnehmung: Beiträge zur 1.Tübinger Wahrnehmungskonferenz, Konferenzproceedings (p. 37). Kirchentellinsfurt: Knirsch. Dodge, R. (1900). Visual perception during eye movement. Psychological Review, 7, 454⫺465. Dornhoefer, S., Pannasch, S., Velichkovsky, B. M. & Unema, P. J. A. (2000). „Attentional landscapes“ and phasic changes of fixation duration in picture perception. Perception, 29, 11. Suppl. Ellis, S. R. & Smith, J. D. (1985). Patterns of statistical dependency in visual scanning. In R. Groner, G. W. McConkie & C. Menz (Eds.), Eye movements and human information processing (pp. 221⫺ 238). Amsterdam: Elsevier.
10. Spezielle Verfahren I: Bewegungen des menschlichen Auges Ellis, S. R. & Stark, L. (1986). Statistical dependency in visual scanning. Human Factors, 28(4), 421⫺438. Findlay, J. M. & Walker, R. (1999). A model of saccade generation based on parallel processing and competitive inhibition. Behavioral and Brain Sciences, 22, 661⫺721. Fischer, B. (1990). Neurophysiologische Grundlagen willkürlicher zielgerichteter Blicksprünge. In H. Mühlendyck & W. Rüssmann (Hrsg.), Augenbewegungen und visuelle Wahrnehmung (pp. 117⫺ 123). Stuttgart: Enke. Franke, J.-A. (1995). Analyse eines videobasierten Verfahrens zur kontaktfreien Registrierung der Blickrichtung. Unveröffentlichte Studienarbeit, Institut für Werkzeugmaschinen und Fertigungstechnik, Technische Universität Berlin. Galley, N. (1989). Saccadic eye movement velocity as an indicator of (de)activation. A review and some speculations. Journal of Psychophysiology, 3, 229⫺244. Galley, N. (2001). Physiologische Grundlagen und Meßmethoden der okulomotrischen Aktivität. In F. Rösler (Hrsg.), Enzyklopädie der Psychologie, Serie Biologische Psychologie. Band 4: Grundlagen und Methoden der Psychophysiologie (pp. 237⫺ 316). Göttingen: Hogrefe. Gengenbach, R. (1999). Blickerfassung im Kraftfahrzeug – Ein Anwendungsbeispiel für das Blickerfassungssystem JANUS. In M. Rötting & K. Seifert (Hrsg.), Blickbewegungen in der Mensch-Maschine-Systemtechnik (pp. 113⫺142). Sinzheim: Pro Universitate Verlag. Gerathewohl, S. J., Brown, E. L., Burke, J. E., Kimball, K. A., Lowe, W. F. & Strackhouse, S. P. (1978). Inflight measurement of pilot workload: A panel discussion. Aviation, Space, and Environmental Medicine, 17, 810⫺822. Gippenreiter, J. B. (1978). Dvizhenija chelovecheskogo glaza. Moscow: Moscow University Press. Goldberg, J. H. & Kotval, X. P. (1998). Eye movement-based evaluation of the computer interface. In S. K. Kumar (Ed.), Advances in occupational ergonomics and safety (pp. 529⫺532). Amsterdam: IOS Press. Grüsser, O.-J. & Grüsser-Cornehls, U. (1990). Gesichtssinn. In R. F. Schmidt & G. Thews (Hrsg.), Physiologie des Menschen (pp. 263⫺297). Berlin: Springer.
165
zai, K. Ogawa & H. Mori (Eds.), Symbiosis of human and artifact. Proceedings of the 6th international conference on human computer interaction (pp. 37⫺42). Amsterdam: Elsevier. Harris, R. L., Tole, J. R., Ephrath, A. R. & Stephens, A. T. (1982). How a new instrument affects pilots’ mental workload. In Proceedings of the Human Factors Society – 26th Annual Meeting (pp. 97⫺99). Henderson, J. M. & Hollingworth, A. (1998). Eye movements during scene viewing. In G. Underwood (Ed.), Eye guidance in reading and scene perception (pp. 269⫺293). Amsterdam: Elsevier. Henderson, J. M., McClure, K., Pierce, S. & Schrock, G. (1997). Object identification without foveal vision: Evidence from an artificial scotoma paradigm. Perception and Psychophysics, 59, 323⫺346. Hockey, G. R. J. (1986). Changes in operator efficiency as function of effects of environmental stress, fatigue and circadian rhythm. In K. Boff, L. Kaufman & J. P. Thomas (Eds.), Handbook of perception and human performance (pp. 197⫺199). NY: John Wiley and Sons. Hoffman, J. E. (1999). Stages of processing in visual search and attention. In B. H. Challis & B. M. Velichkovsky (Eds.), Stratification in cognition and consciousness (pp. 43⫺71). Amsterdam/Philadelphia: John Benjamins. Hornung, J. (1967). Pupillenbewegung nach einem Sprung der Reizlichtintensität. Pflügers Archiv, 296, 39⫺48. Hyrskykari A., Majaranta P., Aaltonen A. & Raiha K. J. (2000). Design issues of iDict: A gaze-assisted translation aid. In Proceedinggs of the International Conference Eye Tracking Research & Applications Symposium, Palm Beach Gardens, FL, November 6⫺8, 2000, (pp. 9⫺14). ACM Press. Inhoff, A. W. & Radach, R. (1998). Definition and computation of occulomotor measures in the study of cognition. In G. Underwood (Ed.), Eye guidance in reading and scene perception (pp. 29⫺53). Amsterdam: Elsevier. Just M. A. & Carpenter P. (1976). Eye fixations and cognitive processes. Cognitive Psychology, 8, 441⫺480.
Haberich, F. J. & Fischer, M. H. (1958). Die Bedeutung des Lidschlags für das Sehen beim Umherblicken. Pflügers Archiv, 267, 626⫺635.
Karsh, R. & Breitenbach, F. W. (1983). Looking at the amorphous fixation measure. In R. Groner, C. Menz, D. F. Fisher & R. A. Monty (Eds.), Eye movements and psychological functions (pp. 53⫺64). Hillsdale, NJ: Lawrence Erlbaum.
Hansen, J. P., Andersen, A. W. & Roed, P. (1995). Eye-gaze control of multimedia systems. In Y. An-
Kinsbourne, M. (1972). Eye and head turning indicate cerebral lateralization. Science, 176, 539⫺541.
166
II. Methoden der Psycholinguistik
Kolers, P. A. (1976). Buswell’s discoveries. In R. A. Monty & J. W. Senders (Eds.), Eye movements and psychological processes (pp. 317⫺329). Hillsdale, NJ: Lawrence Erlbaum.
vision performance. In A. G. Gale, M. H. Freeman, C. M. Haslegrave, P. Smith & S. P. Taylor (Eds.), Vision in vehicles (pp. 205⫺216). Amsterdam: Elsevier.
Lambert, R. H. (1976). Recent developments in high-speed data processing and unobtrusive monitoring of the eyes. In R. A. Monty & J. W. Senders (Eds.), Eye movement and psychological processes (pp. 411⫺436). Hillsdale, NJ: Lawrence Erlbaum.
Morimoto, C., Koons, D., Amir, A. & Flickner, M. (1998). Pupil detection and tracking using multiple light sources. Fifth European Conference on Computer Vision (ECCV ’98). Workshop on Advances in Facial Image Analysis and Recognition Techniques (p. 37).
Land, M. F. & Furneaux, S. (1997). The knowledge base of the oculomotor system. Philosophical Transactions of the Royal Society London B: Biological Sciences, 382, 1231⫺1239. Laurentius, A. (1599). A discourse of the preservation of the sight: of melancholike diseases, of rheumes, and of old age. Translated by R. Surphlet (Ralph Jackson, London), facsimile edition published by the Shakespeare Association, 1938 (Oxford University Press). Lim, L., Rosenbaum, A. L. & Demer, J. L. (1995). Saccadic velocity analysis in patients with divergence paralysis. Journal of Pediatric Ophthalmology & Strabismus, 32, 76⫺81. Liu, A. (1999). Towards predicting driver intentions from patterns of eye fixations. In A. Gale, I. D. Brown, C. M. Haslegrave & S. P. Taylor (Eds.), Vision in vehicles VII (pp. 205⫺212). Amsterdam: North-Holland. Lowenstein, O. & Loewenfeld, I. E. (1969). The pupil. In H. Davson (Ed.), The eye (pp. 317⫺334). New York: Academic Press. Mackworth, N. H. (1965). Visual noise causes tunnel vision. Psychonomic Science, 3, 67⫺68. Marr, D. (1982). Vision. New York: W. H. Freeman and Company. May, J. G., Kennedy, R. S., Williams, M. C., Dunlap, W. P. & Brannan, J. R. (1990). Eye movement indices of mental workload. Acta Psychologica, 75, 75⫺89. McConkie, G. W., Underwood, N. R., Zola, D. & Wolverton, G. S. (1985). Some temporal characteristics of processing during reading. Journal of Experimental Psychology: Human Perception and Performance, 11, 168⫺186. Mickasch, H. D. & Haack, J. (1986). Blickbewegungsforschung – Einführung in die Physiologischen Grundlagen, Techniken und in die Problemund Anwendungsbereiche. In L. J. Issing, H. D. Mickasch & J. Haack (Hrsg.), Blickbewegung und Bildverarbeitung (pp. 11⫺36). Frankfurt am Main/ New York: Peter Lang. Miura, T. (1986). Coping with situational demands: A study of eye movements and peripheral
Nelson, W. W. & Loftus, G. R. (1980). The functional visual field during picture viewing. Journal of Experimental Psychology: Human Learning and Memory, 6, 391⫺399. Nodine, C. F., Carmody, D. P. & Kundel, H. L. (1978). Searching for Nina. In J. W. Senders, D. F. Fisher & R. A. Monty (Eds.), Eye movements and the higher psychological functions (pp.241⫺258). Hillsdale: Lawrence Erlbaum Associates. Nielsen, J. (1993). Noncommand user interfaces. Communications of the ACM, 36(4), 83⫺99. Van Opstal, A. J. & Van Gisbergen, J. A. (1987). Skewness of saccadic velocity profiles: A unifying parameter for normal and slow saccades. Vision Research, 27(5), 731⫺745. Oster, P. J. & Stern, J. A. (1980). Measurement of eye movements – Electrooculography. In I. Martin & P. H. Venables (Eds.), Techniques in psychophysiology (pp. 275⫺309). Chichester: Wiley. Pelz, J. B. (1995). Visual representation in a natural visuo-motor task. Doctoral Dissertation, Department of Brain and Cognitive Studies, University of Rochester. Pillalamari, R. S., Barnette, B. D. & Birkmire, D. (1993). Cluster: A program for the identification of eye-fixation-cluster characteristics. Behavioral Research Methods, Instruments, and Computers, 25, 9. Pomplun, M., Ritter, H. & Velichkovsky, B. M. (1996). Disambiguating complex visual information: Towards communication of personal views of a scene. Perception, 25(8), 931⫺948. Posner, M. I. (1980). Orienting of attention. Quarterly Journal of Experimental Psychology, 32, 3⫺ 25. Posner, M. I. (1995). Attention in cognitive neuroscience. In M. S. Gazzaniga (Ed.), The cognitive neurosciences (pp. 615⫺624). Cambridge, MA: MIT Press. Posner, M. I., Snyder, C. R. R. & Davidson, B. J. (1980). Attention and the detection of signals. Journal of Experimental Psychology, 109, 160⫺174. Rayner, K. (1978). Eye movements in reading and information procesing. Psychological Bulletin, 85(3), 618⫺660.
10. Spezielle Verfahren I: Bewegungen des menschlichen Auges Rayner, K. (1982). Visual selection in reading, picture perception and visual search. In H. Bouma & D. G. Bouwhuis (Eds.), Attention and performance X (pp. 67⫺96). Hillsdale, NJ: Lawrence Erlbaum. Rayner, K. & Pollatsek, A. (1989). The psychology of reading. Hillsdale: Lawrence Erlbaum. Reeves, A. & Sperling, G. (1986). Attention gating in short-term visual memory. Psychological Review, 93, 180⫺206.
167
Starker, I. & Bolt, R. A. (1990). A gaze-responsive self-disclosing display. In CHI’90 Proceedings (pp. 3⫺9). ACM Press. Troy, M. E., Chen, S. C. & Stern, J. A. (1972). Computer analysis of eye movement patterns during visual search. Aerospace Medicine, 43, 390⫺ 394. Unema, P. J. A. (1995). Eye movements and mental effort. Aachen: Shaker.
Robinson, D. A. (1975). Oculomotor control signals. In G. Lennerstrand & P. Bach-y-Rita (Eds.), Basic mechanisms of ocular motility and their clinical implications (pp. 337⫺374). Oxford: Pergamon Press.
Unema, P. J. A. & Rötting, M. (1990). Differences in eye movements and mental workload between experienced and inexperienced motor-vehicle drivers. In D. Brogan (Ed.), Visual search (pp. 193⫺ 202). London: Taylor & Francis.
Rößger, P. (1997). Die Entwicklung der Pupillometrie zu einer Methode der Messung mentaler Beanspruchung in der Arbeitswissenschaft. Sinzheim: Pro Universitate Verlag.
Velichkovsky, B. M. (1995). Communicating attention: Gaze position transfer in cooperative problem solving. Pragmatics and Cognition, 3(2), 199⫺222.
Rötting, M. (1999). Typen und Parameter von Augenbewegungen. In M. Rötting & K. Seifert (Hrsg.), Blickbewegungen in der Mensch-MaschineSystemtechnik (pp. 1⫺18). Sinzheim: Pro Universitate Verlag. Saida, S. & Ikeda, M. (1979). Useful visual field size for pattern perception. Perception and Psychophysics, 25, 119⫺125. Saito, S. (1992). Does fatigue exist in a quantitative measurement of eye movements? Ergonomics, 35, 607⫺615 Salvucci, D. D. (1999). Mapping eye movements to cognitive processes. Doctoral Dissertation, Department of Computer Science, Carnegie Mellon University. Sanders, A. F. (1990). Issues and trends in the debate on discrete vs. continuous processing of information. Acta Psychologica, 74, 123⫺167. Saupe, I. (1985). Blickbewegungen und ihre Messung. Bericht Nr. 64. Forschungsgesellschaft für Angewandte Naturwissenschaften e. V., Forschungsinstitut für Anthropotechnik, WachtbergWerthhoven. Schandry, R. (1989). Lehrbuch Psychophysiologie – Körperliche Indikatoren psychischen Geschehens. 2. Auflage. München & Weinheim: Psychologie Verlags Union. Shackel, B. (1967). Eye movement recording by electro-oculography. In P. H. Venables & I. Martin (Eds.), A manual of psychophysiological methods (pp. 107⫺132). Amsterdam: North Holland. Stager, P. & Angus, R. (1978). Locating crash sites in simulated air-to-ground visual search. Human Factors, 20 (4), 453⫺466.
Velichkovsky, B. M. & Hansen, J. P. (1996). New technological windows into mind: There is more in eyes and brains for human-computer interaction. In CHI-96: Human factors in computing systems (pp. 496⫺503). New York: ACM Press. Velichkovsky, B., Pomplun, M. & Rieser, J. (1996). Attention and communication: Eye-movement based research paradigms. In W. H. Zangenmeister, H. S. Stiehl. & C. Freksa (Eds.), Visual attention and cognition (pp. 125⫺154). Amsterdam: Elsevier. Velichkovsky, B., Sprenger, A. & Pomplun, M. (1997). Auf dem Weg zur Blickmaus: Die Beeinflussung der Fixationsdauer durch kognitive und kommunikative Aufgaben. In R. Liskowsky, B. M. Velichkovsky & W. Wünschmann (Eds.), Usability engineering (pp. 113⫺132). Stuttgart: Teubner. Vertegaal, R. (1998). Look who’s talking to whom. Mediating joint attention in multiparty communication and collaboration. Doctoral Dissertation. Cognitive Ergonomics Department. University of Twente. Vertegaal, R., Velichkovsky, B. M. & Van der Veer, G. (1997). Catching the eye: Management of joint attention in teleconferencing and cooperative work. ACM SIGCHI Bulletin, 29(4), 87⫺92. Volkmann, F. C., Riggs, L. A. & White, K. D. (1978). Central and peripheral determinants of saccadic suppression. In J. W. Senders, D. F. Fisher & R. A. Monty (Eds.), Eye movements and the higher psychological functions (pp. 35⫺54). Hillsdale, N.J.: Lawrence Erlbaum. von Helmholtz, H. (1910). Handbuch der Physiologischen Optik. Die Lehre von den Gesichtswahrnehmungen. 3. Aufl. Hamburg & Leipzig: Voss. Weber, H. & Fischer, B. (1995). Gap duration and location of attention focus modulate the occur-
168
II. Methoden der Psycholinguistik
rence of left/right asymmetries in the saccadic reaction times of human subjects. Vision Research, 35, 987⫺998.
Zenhausern, R. & Kraemer, M. (1991). The dual nature of lateral eye movements. International Journal of Neuroscience, 56, 169⫺175.
Wolf, R. & Wolf, D. (1990). Vom Sehen zur Wahrnehmung: Aus Illusionen entsteht ein Bild. In A. Maelicke (Hrsg.), Vom Reiz der Sinne (pp. 47⫺74). Weinheim: VCH.
Zipp, P. (1988). Optimierung der Oberflächenableitung bioelektrischer Signale. Fortschrittsberichte VDI, Reihe 17: Biotechnik, Nr. 45. Düsseldorf: VDI Verlag.
Yarbus, A. L. (1967). Eye movements and vision. New York: Plenum Press.
Markus Joos, TU Dresden, Matthias Rötting, RWTH Aachen und Boris M. Velichkovsky, TU Dresden (Deutschland)
Young, L. R. & Sheena, D. (1975). Survey of eye movement recording methods. Behavioral Research Methods & Instrumentation, 7(5), 397⫺429.
11. Spezielle Verfahren II: Elektrophysiologische Methoden 1. 2. 3. 4. 5.
Semantik (N400) Syntax Untersuchung von Parsingstrategien Ausblick Literatur
Ereigniskorrelierte Potentiale (ERP ⫽ engl. event-related potentials) im Elektroencephalogramm (EEG) reflektieren die Summenaktivität inhibitorischer und exzitatorischer post-synaptischer Potentiale kortikaler und subkortikaler Zellstrukturen. In ihnen bilden sich Prozesse der Informationsverarbeitung ab (Allison, Wood & McCarthy, 1986; Dale & Sereno, 1993). Mit der Aufzeichnung des ERPs vom ungeöffneten Schädel können somit Informationen über einzelne Schritte bei der Sprachverarbeitung gewonnen werden. Da ERPs parallel zu einem Sprachverstehensprozess bzw. zur Vorbereitung einer Sprachproduktion aufgezeichnet werden können, hat der Untersucher die Möglichkeit, einzelne Schritte der Verarbeitung in ihrer zeitlichen Abfolge zu erfassen. Das Verfahren erweitert somit die Reaktionszeitmessung und erfasst mehr als nur den Endstatus einer komplexen kognitiven Aufgabenbewältigung. In den meisten Experimenten zur Psycholinguistik werden den Probanden Zusatzaufgaben gestellt, die eine explizite Reaktion (Wortkategorisierung, Phonembeachtung, Objektbenennung, Satzwiederholung, etc.) verlangen. Man erwartet dann, dass experimentell bedingte Unterschiede in den Verhaltensdaten primär von Unterschieden in den Sprachverarbeitungsprozessen abhängen. Denkbar ist jedoch
auch, dass die mit der natürlichen Sprachperzeption verknüpften Prozesse durch die Zusatzaufgaben verfälscht werden. ERPs können auch in natürlichen Hör- und Sprechsituationen aufgezeichnet werden, ohne dass von den Probanden eine zusätzliche Aufgabe verlangt wird. Werden ERP-Messungen mit anderen bildgebenden Verfahren (siehe dazu Kapitel 12 in diesem Buch) verknüpft, so lassen sich zudem die Orte der neuronalen Generatoren schätzen, die die Sprachverarbeitungsprozesse leisten. In diesem Kapitel soll ein Überblick über ERP-Messungen und Phänomene im Bereich der Sprachverarbeitung gegeben werden. Das technische Vorgehen kann Lutzenberger, Elbert, Rockstroh und Birbaumer (1985), Rösler (1996), Elbert, Junghöfer, Rockstroh und Roth (2000) und Weitkunat (1991) entnommen werden.
1.
Semantik (N400)
Die ereigniskorrelierte Reaktion auf ein Wort, das nicht in einen zuvor aufgebauten Satzkontext passt, ist eine ausgeprägte Negativierung über dem posterioren Kortex mit einer maximalen Amplitude bei etwa 400 ms, der sogenannte N400-Effekt. Kutas und Hillyard (1980) waren die ersten, die zeigen konnten, dass ein semantisch inkorrektes Satzende, wie das Wort „socks“, im Satz „He spread the warm bread with socks“ eine relativ stärkere N400-Amplitude evoziert als das Wort „work“ im semantisch korrekten Satz „It was his first day at work“. Dass dieser Effekt keine unspezifische Erwartungsverletzung abbildet, konnten bereits Kutas und
11. Spezielle Verfahren II: Elektrophysiologische Methoden
Hillyard zeigen: In der gleichen Studie variierten sie neben der semantischen auch die physikalische Reizeigenschaft (d. i. die Schriftgröße) des letzten Wortes. Ein physikalisch abweichendes Wort löst eine starke Positivierung (P560) im gleichen Zeitfenster aus. In Folgestudien wurde bestätigt, dass weder physikalische (Besson & Macar, 1987) noch morphosyntaktische (Kutas & Hillyard, 1983) oder syntaktische (Neville, Nicol, Barss, Forster & Garrett, 1991; Rösler, Friederici, Pütz & Hahne, 1993) Abweichungen das Auftreten der N400 beeinflussen. Weiterhin wurde ein N400-Effekt sowohl beim Lesen als auch beim Hören (Holcomb & Neville, 1990; Friederici, Pfeifer & Hahne, 1993) beobachtet sowie bei der Darbietung von inkongruenten Bildern am Ende eines Satzes (Kutas & Van Petten, 1990). Andere Studien belegen die Allgemeingültigkeit des Phänomens für verschiedene Sprachen, darunter Japanisch (Koyama, Nageishi, Shimokochi, Hokama, Miyazato, Miyatani & Ogura, 1991), Holländisch (Gunter, Jackson & Mulder, 1992), Französisch (Besson & Macar, 1987) und Deutsch (Münte, Heinze & Prevedel, 1990) sowie die Gebärdensprache American Sign Language (Neville, 1985; Kutas, Neville & Holcomb, 1987). Wie diese Studien zeigen, sind weder die Reizmodalität noch andere physikalische Randbedingungen für die Auslösung der N400 entscheidend. Der Effekt wird lediglich durch den Bedeutungsgehalt der Reize in Bezug auf einen vorangegangenen Kontext provoziert. 1.1. Amplitudenmodulation der N400 Kutas und Hillyard (1984) variierten die cloze probability, d. i. die Häufigkeit, mit der von einer Gruppe Befragter ein bestimmtes Wort zur Komplettierung eines vorgegebenen Satzes gewählt wurde. Hier zeigte sich, dass bei Darbietung der für den jeweiligen Satzkontext wenig erwarteten terminalen Wörter im Vergleich zu den hoch erwarteten terminalen Wörtern eine höhere N400-Amplitude evoziert wurde. Dieses Ergebnis ist nicht nur im Hinblick auf die cloze probability interessant, sondern es zeigt auch, dass die N400 kein Index für eine semantische Verletzung an sich darstellt, sondern sensitiv ist für die Bahnung eines Wortes durch den Satzkontext. Van Petten und Kutas (1990) untersuchten den Zusammenhang zwischen Amplitudenhöhe und kontextueller Erwartung von einer anderen Perspektive her. In ihrem Experiment erfolgte die Aufzeichnung des EEGs, während die
169
Probanden mehrere semantisch und syntaktisch korrekte Sätze einer bestimmten Länge lasen. Zur Auswertung wurden die ereigniskorrelierten Potentiale auf die einzelnen Worte entsprechend ihrer Ordinalposition im Satz, der Wortklasse und -häufigkeit sortiert. Van Petten und Kutas konnten zeigen, dass die ordinale Position eines Inhaltswortes und die Amplitudenhöhe der N400 korrelieren, denn Worte am Anfang eines Satzes evozieren einen größeren N400-Effekt als Worte am Satzende. Auch die Worthäufigkeit der Inhaltswörter beeinflusst den N400-Effekt, die Amplitudenhöhe ist am Anfang eines Satzes für relativ seltene Wörter größer als für häufig gebrauchte Wörter (siehe auch Van Petten, 1995). Für spätere Satzpositionen wird der Worthäufigkeitseffekt vom Positionseffekt überlagert und ist nicht mehr zu erkennen. Bei Vorgabe zufälliger Wortketten (z. B. „To prided the bury she room she of peanut the had china“) und bei Vorgabe syntaktisch strukturierter, aber semantisch inkorrekter Sätze (z. B. „He ran the half white car even though he couldn’t name the raise“) ist keine monotone Reduktion des N400 Effektes im Verlauf der Wortfolge zu beobachten. Die N400 reflektiert offensichtlich die Akkumulation semantischer Erwartungen (Van Petten & Kutas, 1991). Der zweite Faktor, der die N400-Amplitude moduliert, ist die assoziative Bahnung. In kontextuell stark eingrenzenden Sätzen (z. B. „The pizza was too hot to …“) variierten Kutas, Lindamood und Hillyard (1984) die assoziative Verknüpfung zur besten Ergänzung („eat“). Sie verglichen ein mit der besten Ergänzung stark assoziiertes Wort, z. B. „drink“ mit einem unverbundenen Wort, z. B. „cry“. Obwohl weder das assoziierte noch das unverbundene Wort zu einer semantisch korrekten Satzkomplettierung führen, ist der N400-Effekt für das assoziierte Wort geringer als für das unverbundene. Kutas et al. vermuten eine automatische Aktivierungsausbreitung im semantischen Netzwerk als Ursache dieses Effektes. Zur Bestätigung der These, dass eine Abweichung von semantisch-assoziativen Verknüpfungen an der Auslösung des N400-Effektes beteiligt ist, liegt es nahe, die N400 in einem Bahnungsparadigma zu untersuchen. Gleichzeitig kann geprüft werden, ob der Effekt auch nach isolierten Wörtern in Wortlisten oder -paaren auftritt. Bentin, McCarthy und Wood (1985) präsentierten in einer lexikalischen Entscheidungsaufgabe Wortpaare, die der gleichen se-
170
II. Methoden der Psycholinguistik
stark gebahnt moderat gebahnt nicht gebahnt Pseudowort
Pz 0 +4 µV
Zielreiz 0
500
ms
Abb. 11.1: ERPs auf Zielreize, die durch einen Vorreiz entweder stark (z. B. „Zeitschrift – Magazin“), moderat (z. B. „Zeitschrift – Text“) oder nicht (z. B. „Zeitschrift – Kuchen“) gebahnt wurden, sowie das ERP auf ein Pseudowort (z. B. „Zeitschrift – Blube“). Der N400-Effekt wird moduliert durch die Stärke der Bahnung (Daten aus Rösler, Streb & Haan, 2001).
mantischen Kategorie angehörten (z. B. „rain – snow“) oder semantisch unverbunden waren. Im ERP zeigte sich, dass ungebahnte im Vergleich zu gebahnten Wörtern einen negativeren Verlauf über dem zentro-parietalen Kortex mit einem Amplitudenmaximum bei etwa 400 ms aufweisen. Bentin et al. werteten zusätzlich die ereigniskorrelierte Antwort auf (ungebahnte) Pseudowörter aus und konnten zeigen, dass diese den im Vergleich zu allen anderen Bedingungen größten N400-Effekt produzierten. Abbildung 11.1 zeigt das Ergebnis eines vergleichbaren Experimentes, in dem neben einer starken und einer schwachen Bahnung zusätzlich eine moderate Bahnung des Zielreizes realisiert wurde (Rösler, Streb & Haan, 2001). Im Kontrast dazu folgt auf sogenannte Nichtwörter, die sich von den Pseudowörtern darin unterscheiden, dass sie orthographisch inkorrekt und nicht aussprechbar sind, keine N400-Aktivität (Holcomb & Neville, 1990; Nobre & McCarthy, 1994; Ziegler, Besson, Jacobs, Nazir & Carr, 1997). Weitere Einflussfaktoren für die Amplitude des N400-Effektes sind die Wortklasse (Van Petten & Kutas, 1991), die Abstraktheit (Kounios & Holcomb, 1992) und die globale und lokale Verwendungshäufigkeit (Rugg, 1985). Niedeggen und Rösler (1999) konnten zudem zeigen, dass ein N400-Effekt nicht nur durch sprachliche Reize (Wörter, Sätze) ausgelöst werden kann, sondern auch durch nu-
merische Beziehungen in Rechenaufgaben. Inkorrekte Ergebnisse nach einer Multiplikationsaufgabe (3 ⫻ 4 ⫽ 16) lösen im Vergleich zum korrekten Ergebnis einen N400-Effekt aus, der eine vergleichbare Topographie wie der sprachliche Effekt hat. Dabei variiert die Amplitude ebenfalls mit der assoziativen Nähe. Bei mit dem korrekten Ergebnis enger assoziierten Zahlen aus der gleichen Multiplikationstabelle (3 ⫻ 4 ⫽ 16) ist die Amplitude des Effekts geringer als bei nicht über eine Tabelle assoziierten Zahlen (3 ⫻ 4 ⫽ 14). Weiterhin wächst die Amplitude mit zunehmender numerischer Distanz vom inkorrekten zum korrekten Ergebnis. 1.2. Funktionale Bedeutung des N400-Effektes Die Amplitude des N400-Effektes wird also, wie zuvor erläutert, sowohl durch assoziative semantische Bahnung (z. B. bei Wortpaaren) als auch durch kontextbedingte Erwartungen (z. B. in Sätzen) beeinflusst. Van Petten (1993; s. a. Kutas, 1993) variierte beide Faktoren unabhängig voneinander, indem sie assoziierte und nicht assozierte Wortpaare in entweder inhaltlich kongruenten oder nichtkongruenten Sätzen darbot. Es zeigte sich, dass beide Faktoren einen in Topographie, Latenz und Amplitude vergleichbaren N400Effekt auslösen. Die Effektstärke der Kombination der Faktoren „nicht assoziierte Wörter“ ⫹ „inkongruenter Satz“ ließ sich zudem
171
11. Spezielle Verfahren II: Elektrophysiologische Methoden
additiv aus den Einzeleffekten vorhersagen. Dies spricht dafür, dass in beiden Fällen der gleiche Mechanismus für den Effekt verantwortlich ist. Passt ein Wort nicht zu der über einen Satz vermittelten Erwartung, so wird die semantische Integration der Bedeutungselemente erschwert. Somit ist zu vermuten, dass sich im N400-Effekt der Prozess der semantischen Integration abbildet. Je schwieriger dieser Prozess ist, je stärker zusätzliche (kontrollierte) Suchprozesse im Gedächtnis angestoßen werden, umso ausgeprägter ist die N400-Amplitude. Die Auffassung, dass sich im N400-Effekt ausschließlich kontrollierte Prozesse der semantischen Integration manifestieren, wird auch durch Bahnungsexperimente mit maskierten Primes bzw. degradierten (d. h. schwer erkennbaren) Targets nahegelegt. Brown und Hagoort (1993) fanden bei maskierten Primes keinen N400-Effekt, wohl aber einen Bahnungseffekt in den Reaktionszeiten. Holcomb (1993) beobachtete eine Interaktion zwischen Reizdegradierung und Ausmaß der semantischen Bahnung in den Verhaltensdaten, nicht jedoch im N400-Effekt. In beiden Untersuchungen blieb der N400-Effekt also unbeeinflusst, wenn eine eher automatische Ausbreitung der Aktivierung im semantischen Netzwerk unterdrückt wurde (vgl. auch Bentin, Kutas & Hillyard, 1995). Neuere Untersuchungen haben jedoch gezeigt, dass auch die automatische semantische Bahnung die Amplitude des N400-Effektes modulieren kann. Kiefer und Spitzer (2000) maskierten ebenfalls die Primes in einem Bahnungsexperiment, und zwar so, dass die Primes nicht überzufällig häufig erkannt werden konnten. Folgte dann ein Target mit sehr kurzem zeitlichen Abstand, so trat bei ungebahnten im Vergleich zu gebahnten Targets sowohl ein N400-Effekt als auch ein Reaktionsvorteil auf. Rolke, Heil, Streb und Hennighausen (2001) boten Primes in der Phase eines sog. „attentional blinks“ dar, d. h. also dann, wenn diese Reize nicht bewusst verarbeitet werden können. Trotzdem zeigte sich bei nachfolgenden Targets ein signifikanter N400-Effekt auf ungebahnte im Vergleich zu gebahnten Reizen. Diese Untersuchungsergebnisse stützen somit die Vermutung, dass sich im N400-Effekt sowohl der Prozess der automatischen Aktivierungsausbreitung als auch der Prozess der kontrollierten semantischen Integration abbildet. Auch die von Niedeggen und Rösler beobachteten N400-Effekte in Rechenaufgaben lassen sich zum Teil als Effekte automatischer Aktivierungsausbreitung verstehen.
2.
Syntax
Bei syntaktischen Anomalien bzw. syntaktisch schwierigen Satzkonstruktionen wurden vor allem drei ERP-Phänomene beobachtet, eine frühe linksanteriore Negativierung (ELAN), eine zeitlich spätere linksanteriore Negativierung (LAN) und eine späte Positivierung (P600). Diese drei Phänomene scheinen mit unterschiedlichen Prozessen der syntaktischen Analyse zusammenzuhängen. 2.1. ELAN Eine frühe linksanteriore Negativierung (early left anterior negativity) wurde bei Phrasenstrukturverletzungen beobachtet. So berichten Neville, Nicol, Barss, Forster und Garrett (1991) eine ELAN mit einem Maximum bei etwa 120 ms z. B. auf das Wort „of“ in einem Satz wie „The scientist criticized Max’s of proof the theorem“. Die Autoren beobachten diese frühe Negativierung nicht bei anderen, im gleichen Experiment ebenfalls untersuchten syntaktischen Verletzungen (wie Verletzungen der Spezifität oder der Subjazenz). Friederici, Pfeifer und Hahne (1993) untersuchten Phrasenstrukturverletzungen (z. B. „Der Freund wurde im besucht“) bei auditiver Reizdarbietung und fanden ebenfalls eine ELAN mit einer Maximalamplitude bei etwa 180 ms. Doch nicht nur im Zusammenhang mit Phrasenstrukturverletzungen, sondern auch beim Lesen von Funktionswörtern in korrekten Sätzen wurde eine entsprechende frühe Negativierung (N280) beobachtet (Neville, Mills & Lawson, 1992). Aufgrund dieser Ergebnisse vermutet Friederici (1995), dass die frühe Negativierung im Zusammenhang mit der Überprüfung der Wortkategorie steht. Eine ELAN tritt immer dann auf, so Friederici, wenn der Parser feststellt, dass die zu prozessierende Wortkategorie nicht in Übereinstimmung mit der erwarteten Satzstruktur ist. Dabei spielt die Auftretenshäufigkeit einer Satzstruktur keine Rolle, denn syntaktisch weniger gebräuchliche Strukturen, die aber dennoch legal sind, lösen keine solche Negativierung aus (Friederici, Hahne & Mecklinger, 1996). 2.2. LAN Eine zeitlich spätere, linksanteriore Negativierung (left anterior negativity) wurde in verschiedenen Situationen beobachtet, zum einen nach syntaktischen Verletzungen und zum anderen, wenn schwierige syntaktische Konstruktionen verarbeitet werden mussten,
172 die das Arbeitsgedächtnis stärker beanspruchen. Die von Neville et al. (1991) und Friederici et al. (1993) beschriebenen Phrasenstrukturverletzungen provozierten neben der ELAN auch eine spätere linksanteriore Negativierung. Osterhout und Holcomb (1992) beobachteten ebenfalls eine LAN als Folge einer Phrasenstrukturverletzung. Sie boten ihren Probanden Sätze der folgenden Art dar: (1) The broker persuaded to sell the stock was sent to jail. (2) The broker hoped to sell the stock was sent to jail. Das Satzfragment „was sent to jail“ ist für Satz (1) eine grammatisch korrekte Weiterführung, da das Verb „persuaded“ passivisch gebraucht werden kann und es somit Teil eines verkürzten Relativsatzes ist („The broker [who was] persuaded to sell the stock was sent to jail“). Für Satz (2) ist eine Weiterführung des Satzes mit „was“ nicht möglich; an dieser Stelle wird die Phrasenstruktur des Satzes verletzt, und die ERP-Antwort zeigte eine LAN im Zeitfenster 200 bis 500 ms sowie eine sich anschließende langsame Positivierung. Eine LAN nach Subkategorisierungsverletzungen wurde von Rösler, Friederici, Pütz und Hahne (1993) beschrieben. Die Autoren boten ihren Probanden Sätze mit korrekten und inkorrekten Verbergänzungen nach Hilfsverben dar, z. B. (1) Der Präsident wurde begrüßt./Der Clown hat gelacht. (2) Der Lehrer wurde gefallen./Der Dichter hat gegangen. Die ERP-Antwort infolge einer inkorrekten Verbergänzung im Vergleich zu einer korrekten äußerte sich als eine linksanteriore Negativierung im Zeitbereich zwischen 400 und 700 ms. Eine LAN wurde nicht nur nach syntaktischen Verletzungen im Satzkontext, sondern auch in Phrasen beobachtet. Die von Münte, Heinze und Mangun (1993) erzeugten Wortpaare bildeten in einer Bedingung ein grammatisch korrektes oder inkorrektes Paar. Die syntaktisch inkorrekten Zielreize (z. B. Wortklassenverletzungen) lösten eine LAN im Zeitfenster 300 bis 600 ms aus. Eine vergleichbare linksanteriore Negativierung kann auch in grammatisch korrekten Sätzen auftreten, z. B. wenn die Konstruktionen weniger geläufig sind und somit das verbale Arbeitsgedächtnis kurzfristig stärker beanspruchen. Kutas und Kluender (1994) untersuchten in Sätzen sog. Filler-Gap-Abhän-
II. Methoden der Psycholinguistik
gigkeiten. Durch Manipulation der den Nebensatz einleitenden Items variierten sie die Anzahl der Filler-Gap-Abhängigkeiten in einem Fragesatz, z. B. (a) Can’t you remember that he advised them against it on previous occasions? (b) Can’t you remember who he advised ___ against it on previous occasions? (c) What did you remember that he advised them against ___ on previous occasions? (d) What did you remember who he advised ___ against ___ on previous occasions? Die Beispielsätze (a) enthalten keine, (b) und (c) eine und (d) zwei Filler-Gap-Abhängigkeiten. Die Autoren vergleichen nun das ERP auf das Subjekt „he“ in den Bedingungen (a) und (b) und beobachten, dass die LAN (Zeitfenster 300⫺500 ms) für (b) relativ negativer war als für (a). Ebenso vergleichen sie (c) und (d) und stellen auch hier fest, dass die LAN für (d) relativ negativer war. Sie werten dieses Ergebnis als Hinweis darauf, dass die LAN die Enkodierung des Fillers im Arbeitsgedächtnis widerspiegelt und dabei die für (b) und (d) relativ stärkere Kapazitätsauslastung markiert. Kutas und Kluender beobachten jedoch nicht nur bei der Enkodierung des Fillers eine LAN, sondern auch an der Stelle, an der der gespeicherte Filler dem noch offenen Gap zugewiesen wird. So zeigt ein Vergleich der ERP-Antwort auf das Wort „against“ erneut eine stärkere LAN für die Bedingungen (b) und (d) im Vergleich zu den Bedingungen (a) und (c). Rösler, Pechmann, Streb, Röder und Hennighausen (1998) variierten die syntaktische Komplexität eines Satzes durch die Anordnung der Satzelemente Subjekt, direktes und indirektes Objekt, so dass neben der kanonischen Anordnung S-dO-iO auch alle übrigen Folgen resultierten, z. B. (1) Dann hat der Vater dem Sohn den Schnuller gegeben. (2) Dann hat der Vater den Schnuller dem Sohn gegeben. (3) Dann hat dem Sohn der Vater den Schnuller gegeben. usw. Alle Sätze sind grammatisch korrekt, sie weichen aber zunehmend von der kanonischen Form ab. So ist für Satz (2) zwar die Erwartung „Subjekt vor Objekt“ erfüllt, aber das indirekte Objekt steht nicht vor dem direkten Objekt; in Satz (3) ist die Erwartung Subjekt vor indirektem Objekt nicht erfüllt usw. Die
173
11. Spezielle Verfahren II: Elektrophysiologische Methoden Dann hat der Vater .... Dann hat dem Sohn .... Dann hat den Schnuller ....
Dann hat der Vater dem Sohn .... Dann hat der Vater den Schnuller ....
Bl
Bl
0
0
+5 µV
+5 µV
Artikel
Artikel 0
500 ms
0
500 ms
Abb. 11.2: Die ERP-Antwort auf den Artikel der ersten (links) und zweiten (rechts) Nominalphrase in einem Satz mit kanonischer Wortfolge (fett) und in Sätzen mit veränderter Wortfolge (dünn und gestrichelt). Die Artikel, die eine nicht-kanonische Fortführung des Satzes indizieren, lösen eine relativ stärkere linksanteriore Negativierung aus. Kanal „Bl“ war über Broca links positioniert (Daten aus Rösler, Pechmann, Streb, Röder & Hennighausen, 1998).
Autoren berichten eine stärkere LAN auf die Artikel, durch die evident wird, dass der Satz nicht in seiner kanonischen Form weitergeführt wird. Ein Vergleich der ERP-Antwort auf die ersten Artikel der Sätze zeigt eine relativ stärkere Negativierung für die Artikel „dem“ und „den“ im Vergleich zu „der“, und ein Vergleich des ERPs auf den zweiten Artikel der bisher erwartungstreuen Sätze (1 und 2) zeigt eine relativ stärkere LAN für „den“ im Vergleich zu „dem“ (Abbildung 11.2). Ähnliche Ergebnisse berichten King und Kutas (1995). Eine LAN kann, wie dargestellt, durch ganz unterschiedliche linguistische Konstruktionen evoziert werden. Einige Autoren nehmen an, dass die LAN die Beanspruchung des Arbeitsgedächtnisses bei der syntaktischen Analyse anzeigt. Diese Interpretation der LAN integriert auch die Befunde zu syntaktischen Verletzungen, wenn man annimmt, dass moderate grammatische Inkongruenzen online repariert werden und der Parser dazu die Kapazität des Arbeitsgedächtnisses benötigt. Demgegenüber steht die Hypothese, dass die LAN lediglich die Aktivität des Parsers bei einer syntaktischen Erwartungsverletzung anzeigt, nicht aber die Beanspruchung des Arbeitsgedächtnisses. In der Studie von Rösler et al. (1998) trat die LAN nach dem Artikel auf, der eine Erwar-
tungsverletzung bei einer nicht-kanonischen Satzkonstruktion signalisierte. Zu diesem Zeitpunkt kann das System eine Umstellung der Rollenzuweisungen noch nicht vornehmen. Dies ist erst möglich, wenn auch das Inhaltswort der Nominalphrase bekannt ist. Bei dem nach dem Artikel folgenden Inhaltswort trat jedoch keine LAN auf, d. h. die LAN signalisierte in dieser Anordnung möglicherweise nur die Tatsache, dass Kapazität des Arbeitsgedächtnisses benötigt wird, nicht aber die Beanspruchung des Arbeitsgedächtnisses selbst. 2.3. P600 Der dritte bei einer Vielzahl syntaktischer Verletzungen beobachtete Effekt ist eine hochamplitudige, mehrere hundert Millisekunden andauernde, zentroparietale Positivierung, deren Beginn zwischen 300 und 500 ms nach Darbietung des Reizes liegt. Diese Positivierung wird wahlweise P600 (Osterhout & Holcomb, 1992) oder „syntactic positive shift“ (Hagoort, Brown & Groothusen, 1993) genannt. Osterhout und Holcomb (1992) untersuchten Subkategorisierungsverletzungen. Sie präsentierten ihren Probanden Sätze, in denen das finite Verb korrekt (z. B. „The broker hoped to sell the stock“) oder inkorrekt (z. B. „The broker persuaded to sell the stock“) mit einem Nebensatz ergänzt
174
II. Methoden der Psycholinguistik
Abb. 11.3: Das ERP auf die Infinitivmarkierung „to“ als korrekte Fortführung nach einem intransitiven Verb („hoped“) und als inkorrekte Fortführung nach einem transitiven Verb („persuaded“). Die inkorrekte Fortführung evoziert einen P600-Effekt (aus Osterhout & Holcomb, 1992; Reproduktion mit Genehmigung der Autoren und des Verlages).
wurde. Sobald der Parser die grammatisch inkorrekte Fortführung bemerkt, kann im ERP eine Positivierung beobachtet werden (Abbildung 11.3). Osterhout, Holcomb und Swinney (1994) konnten zeigen, dass die Amplitude der P600 die Schwere der VerbSubkategorisierungsverletzung markiert. Eine analoge Positivierung infolge einer Phrasenstrukturverletzung beobachten Osterhout und Holcomb (1992) bei Relativsätzen mit Verben, die kein direktes Objekt verlangen und somit im passiven Gebrauch ungrammatisch sind (z. B. „*The broker hoped to sell the stock was sent to jail“). Die Präsentation des Hilfsverbes „was“ löst im Vergleich zum grammatisch korrekten Gegenpart (z. B. „The broker persuaded to sell the stock was sent to jail“) eine LAN (siehe 2.2) und daran anschließend eine P600 aus. Vergleichbare Effekte wurden im Holländischen (Hagoort, Brown & Groothusen, 1993) und im Deutschen (Friederici, Hahne & Mecklinger, 1996) nachgewiesen. Die dabei beobachteten Latenzverzögerungen der P600 nach Phrasenstrukturverletzungen wurden mit der relativen Schwierigkeit des syntaktischen Revisionsprozesses in Zusammenhang gebracht (Friederici & Mecklinger, 1996). Eine P600 beobachteten Coulson, King und Kutas (1998) sowie Osterhout und Mobley (1995) bei Verletzungen der Numerusübereinstimmung für die englische und Münte, Matzke und Johannes (1997) für die deutsche Sprache. Neville et al. (1991) untersuchten u. a. Verletzungen der Subjazenz-Bedingung. Sie konstruierten Sätze, in denen eine wh-Phrase inkorrekterweise aus einer Subjekt-Nominal-
phrase extrahiert wird (z. B. „What was a proof of criticized by the scientist?“). Die ERP-Antworten auf die kritischen Worte wurden mit denen der grammatisch korrekten Kontrollbedingung (z. B. „Was the proof of the theorem criticized by the scientist?“) verglichen, und es zeigte sich, dass diese etwa 600 ms nach Reizbeginn eine stärkere Positivierung evozieren. Einige Autoren vertreten die Auffassung, dass die P600 zur “Familie” des P300-Komplexes (Donchin & Coles, 1988) gehört. Die Befundlage ist aber nicht eindeutig (Osterhout, McKinnon, Bersick & Corey, 1996; Gunter, Stowe & Mulder, 1997; Steinhauer, Mecklinger, Friederici & Meyer, 1997; Coulson, King & Kutas, 1998). Obwohl die der P600 zugrundeliegenden kognitiven Prozesse noch nicht präzise beschrieben werden können, weisen die Auslösebedingungen darauf hin, dass die Positivierung möglicherweise den Prozess einer syntaktischen Reanalyse reflektiert. Wie Rösler et al. (1998) vermuten, tritt sie dann auf, wenn die Rollenzuweisung einzelner Wörter und die syntaktische Struktur des Satzes nicht mit den Erwartungen übereinstimmen, so dass eine Umstrukturierung vorgenommen werden muss. 2.4. Zusammenfassung der Ergebnisse zur Syntax Fasst man die Ergebnisse der ERP-Studien zur syntaktischen Verarbeitung zusammen, so ergibt sich noch kein kohärentes Bild. Unterschiedliche syntaktische Verletzungen führen zu unterschiedlichen ERP-Effekten, wobei
11. Spezielle Verfahren II: Elektrophysiologische Methoden
einer Verletzung auch mehrere zeitlich aufeinanderfolgende Komponenten folgen können (Neville et al., 1991; Osterhout & Holcomb, 1992; Friederici, et al., 1993; Münte et al., 1993; Rösler et al., 1993; Osterhout & Mobley, 1995; Münte et al., 1997). Friederici (1995) versuchte, die verschiedenen sprachspezifischen ERP-Effekte in einem Modell mit drei Verarbeitungsstufen zu integrieren: In einer ersten Phase der Satzverarbeitung wird dem Satz die initiale Struktur auf Basis der Wortkategorie-Information zugewiesen. Auftretende Schwierigkeiten in dieser Phase werden von der ELAN reflektiert. In der zweiten Phase, im Zeitbereich von etwa 400 ms nach Reizbeginn, werden die thematischen Rollen vergeben. Die Probleme bei der Verarbeitung lexikalisch-semantischer Informationen werden im N400-Effekt sichtbar, während sich die Verletzung syntaktischer Erwartungen (z. B. über Subkategorisierung und inflektionale Morphologie) in der späten LAN abbilden. Während der dritten Phase der Sprachverarbeitung werden lexikalisch-semantische und syntaktische Informationen auf Übereinstimmung geprüft. Bei fehlender Übereinstimmung wird eine Reanalyse initialisiert. Dieser Prozess soll sich in der späten Positivierung zeigen.
3.
Untersuchung von Parsingstrategien
Die beschriebenen Effekte – N400, LAN, P600 – bilden einzelne Prozesse der Sprachverarbeitung ab. Im Folgenden sollen Experimente dargestellt werden, in denen diese Effekte genutzt werden, um Vorhersagen psycholinguistischer Theorien zu testen. Osterhout, Holcomb und Swinney (1994) untersuchten die Verarbeitungsstrategie bei syntaktisch mehrdeutigen Sätzen (sogenannte „garden-path“-Sätze). Wie das Verarbeitungssytem mit der Unbestimmtheit dieser Mehrdeutigkeit umgeht, wird von aktuellen linguistischen Modellen unterschiedlich beurteilt: Vertreter serieller Parsingmodelle (z. B. Frazier & Rayner, 1982) gehen davon aus, dass zunächst eine präferierte Satzstruktur konstruiert wird, die dann, wenn sie nicht mit dem tatsächlichen Wortlaut vereinbar ist, revidiert wird. Andere vermuten, dass der Parser mit der Zuweisung grammatischer Rollen wartet, bis die korrekte Satzstruktur mit Sicherheit erkannt wurde (Marcus, 1980), und wiederum andere vertreten die These, dass
175
alle möglichen Strukturen parallel erstellt werden (Gorell, 1989). Um dieser Frage mit Hilfe der ERP-Messung nachzugehen, präsentierten Osterhout et al.(1994) ihren Probanden Sätze, die eine syntaktisch mehrdeutige Nominalphrase enthielten (z. B. „The lawyer charged the defendant was lying“). Die korrekte grammatische Rolle der Nominalphrase „the defendant“ des Beispielsatzes ist temporär unsicher: So kann sie einerseits Objekt des Verbs und andererseits Subjekt eines folgenden Nebensatzes sein. Welche Rolle die Nominalphrase einnimmt (hier Subjekt des Nebensatzes), wird erst nach der Verarbeitung des die syntaktische Struktur aufklärenden Hilfsverbes „was“ erkannt. Im Gegensatz dazu wird die grammatische Rolle der Nominalphrase in einem Kontrollsatz durch die Konjunktion „that“ sofort als Subjekt des Nebensatzes indiziert (z. B. „The lawyer charged that the defendant was lying“). Osterhout et al. analysierten die ERP-Antwort auf das Hilfsverb und beobachteten, dass dieses in den mehrdeutigen Sätzen einen stärkeren P600-Effekt im Vergleich zu den eindeutigen Satzstrukturen auslöst. Unter der Annahme, dass die P600 Prozesse der syntaktischen Reanalyse reflektiert, bestätigt das Ergebnis das serielle Modell von Frazier und Rayner (1982). Eine andere Art syntaktischer Mehrdeutigkeit kann die Verarbeitung von Fillergap-Abhängigkeiten provozieren. So kann das Satzfragment „The mother found out which book the child read …“ auf verschiedene Weise fortgeführt werden, zum einen „The mother found out which book the child read ___ in school“ und zum anderen „The mother found out which book the child read about ___ in school“. Der Ort des Gap ist dabei entweder direkt hinter „read“ oder erst nach „about“. Auch hier finden sich in der Literatur zwei kontrastierende Modelle, die das Vorgehen des Verarbeitungssystems beschreiben. Entsprechend dem First-resortPrinzip wird der Filler dem ersten möglichen Gap zugewiesen, wohingegen das Last-resortPrinzip die Vorhersage trifft, dass der Parser die Zuweisung erst dann vornimmt, wenn eindeutige Informationen über den Ort des Gap vorliegen. Garnsey, Tanenhaus und Chapman (1989) überprüften die beiden Parsingstrategien in einem ERP-Experiment. Sie kontrastierten Sätze der folgenden Art: (1) The businessman knew which customer the secretary called ___ at home. (2) The businessman knew which article the secretary called ___ at home.
176 Die erste Möglichkeit, den Filler einem Gap zuzuweisen, ergibt sich unmittelbar nach dem Verb „called“. Die Funktion des (belebten) Fillers „customer“ als direktes Objekt des Verbes ist plausibel, wohingegen der (unbelebte) Filler „article“ keine plausible Verbergänzung darstellt. Wenn der Parser den Filler nun entsprechend der First-resort-Strategie dem ersten möglichen Gap zuweist und dieser Filler unplausibel ist, dann sollte als Reaktion auf das Verb eine N400 ausgelöst werden. Wenn dahingegen der Parser die Filler-gap-Zuweisung abwartet, dann sollte eine N400 nicht an dieser, jedoch möglicherweise an einer späteren Stelle auftreten. Die Autoren beobachteten, dass Verben in Sätzen mit unplausiblen Fillern eine größere N400 provozieren als Verben mit plausiblen Objektergänzungen, sie werten dieses Ergebnis als Beleg für das First-resort-Prinzip. Van Petten und Kutas (1987) untersuchten die Verarbeitung lexikalischer Mehrdeutigkeit. In einem Experiment überprüften sie, ob die jeweils für den Satzkontext irrelevante Bedeutung eines mehrdeutigen Wortes mitaktiviert oder ob sie durch den Kontext unterdrückt wird. Eine umfassende Betrachtung der Verhaltensdaten (Übersicht bei Simpson, 1994) führte zum Postulat eines Zwei-Prozess-Modells. Entsprechend diesem Modell werden in einer frühen Phase der semantischen Verarbeitung alle Bedeutungen eines Wortes automatisch aktiviert, und erst in einer zweiten Phase wird die relevante Bedeutung selektiert. Van Petten und Kutas boten ihren Probanden Sätze dar, in denen das terminale Wort entweder nur eine oder aber zwei Bedeutungen hatte. Die Sätze, die mit einem mehrdeutigen Wort endeten, bahnten jeweils die weniger gebräuchliche Bedeutung (z. B. „He was not used to hard labor and soon began to tire“). Jedem Satz folgte ein kontextuell relevanter Testreiz („sleep“), ein kontextuell irrelevanter, jedoch mit der dominanten Bedeutung des doppeldeutigen Wortes assoziierter Testreiz („wheel“) oder ein unverbundenes Wort („rifle“). Die Analyse der ereigniskorrelierten Reaktion auf die Testreize zeigte folgendes Muster: Die Amplitude der N400 war für das unverbundene Testwort größer als für den kontextuell relevanten Reiz, unabhängig davon, ob das terminale Wort des Satzes nur eine oder zwei Bedeutungen hatte. Die N400-Amplitude auf die kontextuell irrelevanten Testreize war ebenso groß wie die auf die unverbundenen Worte.
II. Methoden der Psycholinguistik
Die Ergebnisse belegen, dass für die Verarbeitung doppeldeutiger Worte ein bahnender Satzkontext genutzt wird, um die aktuelle Bedeutung des Wortes festzulegen. Die Autoren konnten zeigen, dass zum Zeitpunkt der Testung die alternative Bedeutung nicht mehr aktiv war. Alle bisher berichteten Daten zeigen den Einfluss von einzelnen Wörtern oder einem vorangehenden Satzkontext auf die ERPKomponenten. Streb, Rösler und Hennighausen (1999) konnten zeigen, dass auch über Satzgrenzen hinaus ERP-Effekte moduliert werden können. In dieser Studie wurde der Einfluss der Diskursstruktur auf das ERP untersucht. Die Autoren boten ihren Probanden parallele (1 ⫹ 2) und nicht parallele (3 ⫹ 4) Diskursstrukturen der folgenden Art dar: (1) Peter besucht Julia in der Klinik. Dort hat Peter/er dem Arzt eine Frage gestellt. (2) Peter besucht Julia in der Klinik. Dort hat die Schwester Julia/ihr eine Spritze gegeben. (3) Peter besucht Julia in der Klinik. Dort hat die Schwester Peter/ihm das Zimmer gezeigt. (4) Peter besucht Julia in der Klinik. Dort hat Julia/sie dem Arzt den Besuch vorgestellt. Analysiert wurde das ERP auf den referentiellen Verweis (im Beispiel kursiv). Es zeigte sich, dass nicht-parallele Diskursstrukturen im Vergleich zu parallelen eine stärkere Negativierung mit parietalem Maximum im Zeitbereich der N400 auslösen (Abbildung 11.4). Entgegen den Erwartungen wird die Auflösung des anaphorischen Verweises, sozusagen die Suche im mentalen Modell, nicht von einer LAN, sondern von einer N400 begleitet. Die bevorzugte parallele Satzstruktur ist somit eher das Resultat einer inhaltlichen Bedeutungszuweisung als einer syntaktischen Regelhaftigkeit. Die ERP-Methode kann auch dem Erkenntnisgewinn auf der Ebene der morphologischen Verarbeitung dienen. Penke, Weyerts, Gross, Zander, Münte und Clahsen (1997) boten ihren Probanden korrekte und inkorrekte Partizipformen dar. Sie verglichen dann jeweils korrekt reguläre (-t) und irreguläre (-[e]n) Partizipien mit inkorrekt regulär und irregulär gebildeten. Die Ergebnisse zeigen, dass die inkorrekt irregulären Formen (z. B. „geladet“) eine LAN mit einem Maximum bei etwa 350 ms auslösen, inkorrekt reguläre
177
11. Spezielle Verfahren II: Elektrophysiologische Methoden parallel nicht parallel PZ
PZ 0
0
+2 µ V
+2 µV
Eigenname 0
Pronomen 500
ms
0
500
ms
Abb. 11.4: Die ERP-Antwort auf die zweite Darbietung eines Eigennamens (links) bzw. die Darbietung eines Pronomens (rechts) in einem Miniaturtext. Unabhängig von der Art des Verweises evoziert das kritische Wort in nicht parallelen Satzstrukturen eine relativ stärkere Negativierung zwischen 510 und 600 ms (Daten aus Streb, Rösler & Hennighausen, 1999). Reproduktion folgender Abbildung: Osterhout, L. & Holcomb, P. J. (1992). Event-related brain potentials elicited by syntactic anomaly. Journal of Memory and Language, 31, 785⫺806. Seite 795, Figure 4
(z. B. „getanzen“) hingegen unterscheiden sich nicht von den korrekten Partizipien. Die Autoren werten dieses Ergebnis als Hinweis auf das sogenannte Dual-route-Modell (Pinker & Prince, 1988, 1992). Das Modell geht davon aus, dass irregulär flektierte Partizipien als Einzeleintrag im mentalen Lexikon abgerufen werden, wohingegen reguläre Partizipformen erst aus dem Wortstamm und der Applikation des Affixes gebildet werden. Eine vergleichbare ereigniskorrelierte Antwort findet sich in Untersuchungen zum Pluralsystem (Weyerts, Penke, Dohrn, Clahsen & Münte, 1997; Bartke, Niedeggen, Wiese & Rösler, 1998; Niedeggen-Bartke, Niedeggen, Rösler, Streb & Wiese, submitted).
4.
Ausblick
Bislang wurden ERPs fast ausschließlich bei der Sprachperzeption untersucht. Dies hat seine Ursache darin, dass bei Sprachproduktionsaufgaben Bewegungsartefakte auftreten, die die ERP-Messung stören. Einen neuen Ansatz, der dieses Problem umgeht, beschreiben Van Turennout, Hagoort und Brown (1997). Sie messen vor der Artikulation mit einer manuellen Zusatzaufgabe das lateralisierte Bereitschaftspotential (LRP), ein Potential, das sich unmittelbar vor der Bewe-
gungsausführung entwickelt. Die Amplitude des LRPs ist über dem Motorkortex kontralateral zur ausführenden Hand am größten. Vorangegangene Studien haben gezeigt, dass das LRP ein Index der Antwortvorbereitung ist und dass es auch auftreten kann, wenn eine Antwort zwar vorbereitet, aber nicht ausgeführt wird. Diese Situation kann eintreten, wenn eine früh verfügbare Teilinformation den Probanden veranlasst, die Reaktion vorzubereiten, eine später verfügbare Information dem Probanden aber indiziert, dass die Reaktion nicht erfolgen soll. Van Turennout et al. nutzten das LRP, um eine grundlegende Behauptung des Sprachproduktionsmodells von Levelt zu testen, wonach die semantischen Eigenschaften von Wörtern vor deren phonologischer Form aktiviert werden. Die Probanden bearbeiteten zwei Aufgaben simultan: eine Bildbenennungsaufgabe (um Sprachproduktionsprozesse zu initialisieren) und eine manuelle Go/No-go-Aufgabe, mit der eine semantische und eine phonologische Entscheidung zu treffen war. In den Go-Trials sollte eine Reaktion, in den No-go-Trials keine Reaktion ausgeführt werden. Die semantische Entscheidung bezog sich auf die Belebtheit/Unbelebtheit des dargestellten Objektes, die phonologische Entscheidung darauf, ob der Name des Objektes auf das Pho-
178 nem /s/ endet. Die Zuordnung der semantischen/phonologischen Beurteilung zur Reaktionsausführung (links/rechts versus Go/Nogo) wurde variiert. So bestimmte in einer Hälfte des Experimentes die semantische Information, mit welcher Hand zu reagieren war (links oder rechts) und die phonologische Information, ob überhaupt reagiert werden musste (Go oder No-go). In der anderen Hälfte war die Zuordnung vertauscht. Wenn nun die semantische Information vor der phonologischen Information verfügbar ist, dann sollte ein LRP in No-go-Trials evoziert werden, in denen die semantische Information die ausführende Hand bestimmt und die phonologische Information, ob die Reaktion ausgeführt wird oder nicht. Umgekehrt sollte kein LRP entstehen, wenn die Zuordnungen vertauscht sind, wenn also die Semantik über Go/No-go und die Phonetik über rechts/links entscheidet. In diesem Fall informiert die semantische Information das System frühzeitig genug, so dass jegliche Antwortvorbereitung unterbleiben kann. Die beobachteten Ergebnisse bestätigen diese Vorhersagen: Das Sprachplanungssystem hat Zugriff auf die semantische Information, bevor es die phonologische Information aktiviert. In einem sehr ähnlichen zweiten Experiment zur Sprachproduktion überprüften Van Turennout, Hagoort und Brown (1998) die zeitliche Abfolge syntaktischer und phonologischer Informationen und konnten zeigen, dass etwa 40 Millisekunden vor der Aktivierung phonologischer Eigenschaften syntaktische Informationen aktiviert werden. Ein grundsätzliches Problem dieser Studien (vgl. auch Schmitt, Münte & Kutas, 2000) ist allerdings, dass die Zeitschätzungen über Sprachproduktionsprozesse aus manuellen Entscheidungszeiten abgeleitet werden, also nur mittelbar mit dem eigentlichen Artikulationsprozess der Sprachproduktion im engeren Sinne verbunden sind. Zusammenfassend kann festgehalten werden, dass ereigniskorrelierte Potentiale auf einige sprachpsychologische Ereignisse sensibel reagieren. Diese Sensibilität wird in zahlreichen Untersuchungen zum Sprachverstehen und neuerdings auch in ersten Arbeiten zur Sprachproduktion deutlich. Abschließend muss jedoch auch darauf hingewiesen werden, dass über die neuronalen Ursachen der sprachspezifischen Effekte zur Zeit noch wenig bekannt ist. So ist unklar, ob die beschriebenen ERP-Effekte die linguistischen Prozesse direkt abbilden oder ob im ERP Prozesse re-
II. Methoden der Psycholinguistik
flektiert werden, die nur mit den linguistischen Vorgängen korreliert sind. Erst wenn wir mehr Wissen über die zugrundeliegenden kognitiven und neuronalen Prozesse gesammelt haben, wird sich zeigen, inwiefern die Methode der ereigniskorrelierten Potentialmessung kognitive Modelle der Sprachverarbeitung mit den biologischen Substraten zu verknüpfen vermag.
5.
Literatur
Allison, T., Wood, C. C. & McCarthy, O. (1986). The central nervous system. In M. G. H. Coles, E. Donchin & S. Porges (Eds.), Psychophysiology: Systems, processes and applications (pp. 5⫺25). New York: Guilford Press. Bartke, S., Niedeggen, M., Wiese, R. & Rösler, F. (1998). Hirnelektrische Korrelate der Verarbeitung regulärer und irregulärer Pluralformen im Deutschen. In H. Lachnit, A. Jacobs & F. Rösler (Hrsg.), Experimentelle Psychologie (p. 12). Lengerich: Papst. Bentin, S., Kutas, M. & Hillyard, S. A. (1995). Behavioral and electrophysiological evidence for semantic analysis of attended and unattended words during dichotic listening. Journal of Experimental Psychology: Human Perception and Performance, 21, 54⫺67. Bentin, S., McCarthy, G. & Wood, C. C. (1985). Event-related potentials, lexical decision and semantic priming. Electroencephalography and Clinical Neurophysiology, 60, 343⫺355. Besson, M. & Macar, F. (1987). An event-related potential analysis of incongruity in music and other non-linguistic contexts. Psychophysiology, 24, 14⫺25. Brown, C. & Hagoort, P. (1993). The processing nature of the N400: Evidence from masked priming. Journal of Cognitive Neuroscience, 5, 34⫺44. Coulson, S., King, J. W. & Kutas, M. (1998). Expect the unexpected: Event-related brain response to morphosyntactic violations. Language and Cognitive Processes, 13, 21⫺58. Dale, A. & Sereno, M. (1993). Improved localization of cortical activity by combining EEG and MEG with RIM cortical surface reconstruction: A linear approach. Journal of Cognitive Neuroscience, 5, 162⫺176. Donchin, E. & Coles, M. G. (1988). Is the P300 component a manifestation of context updating? Behavioral and Brain Sciences, 11, 357⫺427. Elbert, T., Junghöfer, M., Rockstroh, B. & Roth, W. T. (2000). Physiologische Grundlagen und psy-
11. Spezielle Verfahren II: Elektrophysiologische Methoden chophysiologische Meßmethoden der Hirnaktivität. In F. Rösler (Hrsg.), Enzyklopädie der Psychologie. Grundlagen und Methoden der Psychophysiologie (pp. 179⫺236). Göttingen: Hogrefe. Frazier, L. & Rayner, K. (1982). Making and correcting errors during sentence comprehension: Eye movements in the analysis of structurally ambiguous sentences. Cognitive Psychology, 14, 178⫺ 210. Friederici, A. D. (1995). The time course of syntactic activation during language processing: A model based on neuropsychological and neurophysiological data. Brain and Language, 50, 259⫺281. Friederici, A. D. & Mecklinger, A. (1996). Syntactic parsing as revealed by brain responses: Firstpass and second-pass parsing processes. Journal of Psycholinguistic Research, 25, 157⫺176. Friederici, A. D., Hahne, A. & Mecklinger, A. (1996). The temporal structure of syntactic parsing: Event-related potentials during speech perception and word-by-word reading. Journal of Experimental Psychology: Learning, Memory and Cognition, 22, 1219⫺1248. Friederici, A. D., Pfeifer, E. & Hahne, A. (1993). Event-related brain potentials during natural speech processing: Effects of semantic, morphological and syntactic violations. Cognitive Brain Research, 1, 183⫺192. Garnsey, S. M., Tanenhaus, M. K. & Chapman, R. (1989). Evoked potentials and the study of sentence comprehension. Journal of Psycholinguistic Research, 18, 51⫺60. Gorrell, P. (1989). Establishing the loci of serial and parallel effects in syntactic processing. Journal of Psycholinguistic Research, 18, 61⫺71. Gunter, T. C., Jackson, J. L. & Mulder, G. (1992). An electrophysiological study of semantic processing in young and middleaged academics. Psychophysiology, 29, 38⫺54. Gunter, T. C., Stowe, L. A. & Mulder, G. (1997). When syntax meets semantics. Psychophysiology, 34, 660⫺676. Hagoort, P., Brown, C. & Groothusen, J. (1993). The syntactic positive shift (SPS) as an ERP measure of syntactic processing. Language and Cognitive Processes, 8, 439⫺483. Holcomb, P. J. (1993). Semantic priming and stimulus degradation: Implications for the role of the N400 in language processing. Psychophysiology, 30, 47⫺61. Holcomb, P. J. & Neville, H. J. (1990). Auditory and visual semantic priming in lexical decision – A comparison using event-related brain potentials. Language and Cognitive Processes, 5, 281⫺312.
179
Kiefer, M. & Spitzer, M. (2000). Time course of conscious and unconscious semantic brain activations. NeuroReport 11, 2401⫺2407. King, J. W. & Kutas, M. (1995). Who did what and when? Using word- and clause-level ERPs to monitor working memory usage in reading. Journal of Cognitive Neuroscience, 7, 376⫺395. Kounios, J. & Holcomb, P. J. (1992). Structure and process in semantic memory: Evidence from eventrelated brain potentials and reaction times. Journal of Experimental Psychology: General, 121, 459⫺ 479. Koyama, S., Nageishi, Y., Shimokochi, M., Hokama, M., Miyazato, Y., Miyatani, M. & Ogura, C. (1991). The N400 component of event-related potentials in schizophrenic patients: A preliminary study. Electroencephalography and Clinical Neurophysiology, 78, 124⫺132. Kutas, M. (1993). In the company of other words: Electrophysiological evidence for single-word and sentence context effects. Language and Cognitive Processes, 8, 533⫺572. Kutas, M. & Hillyard, S. A. (1980). Reading senseless sentences: Brain potentials reflect semantic incongruity. Science, 207, 203⫺205. Kutas, M. & Hillyard, S. A. (1983). Event-related brain potentials to grammatical errors and semantic anomalies. Memory & Cognition, 11, 539⫺550. Kutas, M. & Hillyard, S. A. (1984). Brain potentials during reading reflect word expectancy and semantic association. Nature, 307, 161⫺163. Kutas, M. & Kluender, R. (1994). What is who violating? A reconsideration of linguistic violations in light of event-related brain potentials. In H.-J. Heinze, T. F. Münte & G. R. Mangun (Eds.), Cognitive electrophysiology (pp. 183⫺210). Boston: Birkhäuser. Kutas, M., Lindamood, T. & Hillyard, S. A. (1984). Word expectancy and event-related brain potentials during sentence processing. In S. Kornblum & J. Roquin (Eds.), Preparatory states and processes (pp. 217⫺238). Hillsdale, NJ: Erlbaum. Kutas, M., Neville, H. & Holcomb, S. A. (1987). A preliminary comparison of the N400 response to semantic anomalies during reading, listening and singing. In W. L. McCallum, R. Zappoli & F. Denoth (Eds.), Cerebral Psychophysiology: Studies in Event-Related Potentials EEG. Supplement 39 (pp. 325⫺330). Kutas, M. & Van Petten, C. K. (1990). Electrophysiological perspectives on comprehending written language. In P. M. Rossini & F. Mauguiere
180 (Eds.), Electroencephalography and Clinical Neurophysiology: Supplement 41. New trends and advanced techniques in clinical neurophysiology. Amsterdam: Elsevier. Lutzenberger, W., Elbert, T., Rockstroh, B. & Birbaumer, N. (1985). Das EEG. Berlin: Springer. Marcus, M. P. (1980). A theory of syntactic recognition for natural language. Cambridge, MA: MIT Press. Münte, T. F., Heinze, H.-J. & Prevedel, H. (1990). Ereigniskorrelierte Hirnrindenpotentiale reflektieren semantische und syntaktische Fehler bei der Sprachverarbeitung. Zeitschrift für EEG und EMG und verwandte Gebiete, 21, 75⫺81. Münte, T. F., Heinze, H.-J. & Mangun, G. R. (1993). Dissociation of brain activity related to syntactic and semantic aspects of language. Journal of Cognitive Neuroscience, 5, 335⫺344. Münte, T. F., Matzke, M. & Johannes, S. (1997). Brain activity associated with syntactic incongruencies in words and pseudo-words. Journal of Cognitive Neuroscience, 9, 318⫺329.
II. Methoden der Psycholinguistik Osterhout, L., Holcomb, P. J. & Swinney, D. A. (1994). Brain potentials elicited by garden-path sentences: Evidence of the application of verb information during parsing. Journal of Experimental Psychology: Learning, Memory and Cognition, 20, 786⫺803. Osterhout, L., McKinnon, R., Bersick, M. & Corey, V. (1996). On the language specificity of the brain response to syntactic anomalies: Is the syntactic positive shift a member of the P300 family? Journal of Cognitive Neuroscience, 8, 507⫺526. Penke, M., Weyerts, H., Gross, M., Zander, E., Münte, T. F. & Clahsen, H. (1997). How the brain processes complex words: An event-related potential study of German verb inflections. Cognitive Brain Research, 6, 37⫺52. Pinker, S. & Prince, A. (1988). On language and connectionism: Analysis of a parallel distributed processing model of language acquisition. Cognition, 28, 73⫺193.
Neville, H. (1985). Biological constraints on semantic processing: A comparison of spoken and signed languages. Psychophysiology, 22, 576.
Pinker, S. & Prince, A. (1992). Regular and irregular morphology and the psychological status of rules of grammar. In L. A. Sutton, C. Johnson & R. Shields (Eds.), Proceedings of the 17th annual meeting of the Berkeley Linguistics Society. Berkeley, CA: Berkeley Linguistic Society.
Neville, H. J., Mills, D. L. & Lawson, D. S. (1992). Fractionating language: Different neural subsystems with different sensitive periods. Cerebral Cortex, 2, 244⫺258.
Rolke, B., Heil, M., Streb, J. & Hennighausen, E. (2001). Missed prime words within the attentional blink evoke an N400 semantic priming effect. Psychophysiology, 38, 694⫺703.
Neville, H., Nicol, J. L., Barss, A., Forster, K. L. & Garrett, M. F. (1991). Syntactically based sentence processing classes: Evidence from event-related brain potentials. Journal of Cognitive Neuroscience, 3, 151⫺165.
Rösler, F. (1996). Methoden der Psychophysiologie. In E. Erdfelder, R. Mausfeld, T. Meiser & G. Rudinger (Hrsg.), Handbuch quantitativer Methoden (pp. 491⫺514). Weinheim: Psychologie-Verlags Union.
Niedeggen-Bartke, S., Niedeggen, M., Rösler, F., Streb, J. & Wiese, R. (submitted). An ERP study of types of „irregular“ morphology: The case of German plurals.
Rösler, F., Friederici, A., Pütz, P. & Hahne, A. (1993). Event-related brain potentials while encountering semantic and syntactic constraint violations. Journal of Cognitive Neuroscience, 5, 345⫺ 362.
Niedeggen, M. & Rösler, F. (1999). N400 effects reflect activation spread during retrieval of arithmetic facts. Psychological Science, 10, 271⫺276. Nobre, A. C. & McCarthy G. (1994). Languagerelated ERPs: Scalp distributions and modulation by word type and semantic priming. Journal of Cognitive Neuroscience, 6, 233⫺255.
Rösler, F., Pechmann, T., Streb, J., Röder, B. & Hennighausen, E. (1998). Parsing of sentences in a language with varying word order: Word-by-word variations of processing demands are revealed by event-related brain potentials. Journal of Memory and Language, 38, 150⫺176.
Osterhout, L. & Holcomb, P. J. (1992). Event-related brain potentials elicited by syntactic anomaly. Journal of Memory and Language, 31, 785⫺806.
Rösler, F., Streb, J. & Haan, H. (2001). Event-related brain potentials evoked by verbs and nouns in a lexical decision task. Psychophysiology, 38, 694⫺703.
Osterhout, L. & Mobley, L. A. (1995). Event-related brain potentials elicited by failure to agree. Journal of Memory and Language, 34, 739⫺773.
Rugg, M. D. (1985). The effects of semantic priming and word repetition on event-related potentials. Psychophysiology, 22, 642⫺647.
12. Spezielle Verfahren III: Bildgebende Verfahren
181
Schmitt, B. M., Münte, T., Kutas, M. (2000). Electrophysiological estimates of the time course of semantic and phonological encoding during implicit picture naming. Psychophysiology, 37, 473⫺484.
event-related brain potentials. Memory and Cognition, 18, 380⫺393.
Simpson, G. B. (1994). Context and the processing of ambiguous words. In M. A. Gernsbacher (Ed.), Handbook of psycholinguistics (pp. 359⫺374). New York: Academic Press. Steinhauer, K., Mecklinger, A., Friederici, A. D. & Meyer, M. (1997). Wahrscheinlichkeit und Strategie: Eine EKP-Studie zur Verarbeitung syntaktischer Anomalien. Zeitschrift für Experimentelle Psychologie, XLIV, 2, 305⫺331. Streb, J., Rösler, F. & Hennighausen, E. (1999). Event-related responses to pronoun and proper name anaphors in parallel and non-parallel discourse structures. Brain & Language, 70, 273⫺286. Van Petten, C. (1993). A comparison of lexical and sentence-level context effects in event-related potentials. Language and Cognitive Processes, 8, 485⫺531. Van Petten, C. (1995). Words and sentences: Eventrelated brain potential measures. Psychophysiology, 32, 511⫺525. Van Petten, C. & Kutas, M. (1987). Ambiguous words in context: An event-related potential analysis of the time course of meaning activation. Journal of Memory and Language, 26, 188⫺208. Van Petten, C. & Kutas, M. (1990). Interactions between sentence context and word frequency in
Van Petten, C. & Kutas, M. (1991). Influences of semantic and syntactic context on open- and closed-class words. Memory and Cognition, 19, 95⫺112. Van Turennout, M., Hagoort, P. & Brown, C. M. (1997). Electrophysiological evidence on the time course of semantic and phonological processes in speech production. Journal of Experimental Psychology: Learning, Memory, and Cognition, 23, 787⫺806. Van Turennout, M., Hagoort, P. & Brown, C. M. (1998). Brain activity during speaking: From syntax to phonology in 40 milliseconds. Science, 280, 572⫺574. Weitkunat, R. (1991). Digital biosignal processing. Elsevier: Amsterdam. Weyerts, H., Penke, M., Dohrn, U., Clahsen, H. & Münte, T. F. (1997). Brain potentials indicate differences between regular and irregular German plurals. NeuroReport, 8, 957⫺962. Ziegler, J. C., Besson, M., Jacobs, A. M. & Nazir, T. A. (1997). Word, pseudoword, and nonword processing: A multitask comparison using eventrelated brain potentials. Journal of Cognitive Neuroscience, 9, 758⫺775.
Judith Streb, Frank Rösler Philipps-Universität Marburg (Deutschland)
12. Spezielle Verfahren III: Bildgebende Verfahren 1. 2. 3.
1.
Prinzip der funktionellen Bildgebung Hämodynamische Korrelate von Sprachrezeption und -produktion Literatur
Prinzip der funktionellen Bildgebung
Auch wenn das Wissen um die zerebrale Organisation des Sprachvermögens seit den Tagen Brocas (1861) und Wernickes (1874) größer und reichhaltiger geworden war, blieb es der Wissenschaft bis Anfang der neunziger Jahre verwehrt, einen direkten Blick in die Tiefen des Gehirns zu werfen und das sprachliche Netzwerk bei seiner Tätigkeit zu beobach-
ten. Eine völlig andere Situation entstand vor etwas mehr als einer Dekade durch das Aufkommen der modernen bildgebenden Verfahren, unter anderem der Positronen-EmissionsTomographie (PET) sowie der funktionellen Magnetresonanztomographie (fMRT). Den Schlüssel für die Entwicklung der funktionellen Bildgebung lieferte die Entdeckung, dass sich bestimmte Parameter des regionalen zerebralen Blutflusses (rCBF) infolge lokaler neuronaler Aktivität veränderten. Bildgebende Verfahren registrieren diese subtilen Stoffwechseländerungen und ermöglichen eine dreidimensionale In-vivo-Rekonstruktion des ‘Gehirns in Aktion’. Da die Stärke des Hirnstoffwechsels als Funktion der neuronalen Aktivität variiert, können funktionell
182 bedingte Änderungen des rCBF als indirektes Korrelat kognitiver Prozesse angesehen und interpretiert werden (Roland, 1993). 1.1. Positronen-Emissions-Tomographie Emissionstomographische Verfahren wie die PET bedienen sich im Rahmen der Funktionslokalisation zumeist der Messung des rCBF als indirektem Indikator einer selektiven neuronalen Aktivierung. Zur Registrierung des rCBF werden dem Körper durch Inhalation oder Injektion schwach radioaktiv markierte Substanzen (sog. Tracer, zumeist 15 O-markiertes Wasser) in geringer Menge zugeführt. Binnen einer Minute erreichen die oxygenierten Radionukleide das Gehirn. Dort kommt es infolge der Zerfallseigenschaft der Nukleide zu einer Emission von Positronen, die dort am deutlichsten ist, wo, bedingt durch erhöhte neuronale Aktivität, der stärkste rCBF auftritt. Aufgrund ihrer geringen kinetischen Energie verlieren die Positronen schon nach wenigen Millimetern ihre Eigenbewegung und werden rasch von der negativen Ladung der Elektronen angezogen. Trifft ein Positron auf ein Elektron, löschen sie sich unter Freisetzung äußerst energiereicher Photonen (sog. Gammaquanten von je 511 KeV Energie) auf, welche den Kollisionsort sowie den Schädel mit Lichtgeschwindigkeit in exakt entgegengesetzter Richtung verlassen. Die auf den ringförmig angeordneten Detektoren der PET-Kameras auftreffenden Photonen werden genau dann als Ereignis registriert, wenn zwei Detektoren, die sich diametral gegenüber liegen, zum exakt gleichen Zeitpunkt von jeweils einem Photon getroffen werden (Koinzidenzschaltung). Aufgrund dieser Daten kann die Tracerverteilung im Gehirn rekonstruiert und damit auf die selektive Aktivierung bestimmter Hirnareale rückgeschlossen werden. Die räumliche Auflösung liegt bei modernen Tomographen in der Größenordnung von 4 mm innerhalb der Schichten. Trotz aller Fortschritte können moderne PET-Geräte eine zeitliche Auflösung von 30 Sekunden nicht unterbieten. Weiterführende Erläuterungen zur PETMethode finden sich bei Hartshorne (1995). 1.2. Funktionelle Magnetresonanztomographie Im Rahmen bildgebender Methoden wird die (funktionelle) Magnetresonanztomographie (MRT) derzeit vielfach verwendet, ermöglicht sie doch als einziges Verfahren die räumlich hoch aufgelöste Aufnahme und Darstel-
II. Methoden der Psycholinguistik
lung von Anatomie und Funktion im Kubikmillimeterbereich und verfügt des Weiteren über eine zeitliche Auflösung unter einer Sekunde. Die MRT macht sich die magnetischen Eigenschaften des zerebralen Gewebes zur Erzeugung von strukturellen wie funktionellen Schnittbildern des Gehirns zu Nutze. Insbesondere die Kerne des Wasserstoffatoms (Protonen) eignen sich aufgrund ihres Eigendrehimpulses (Spin), der sensitiv für magnetische Momente ist, als Medium. Die Darstellung der biophysikalischen Hintergründe der fMRT erweist sich im Rahmen dieses Beitrags als zu komplex. Ausführliche Beschreibungen der Methode und der Prinzipien ihrer Anwendung finden sich bei Binder und Rao (1994), Casey et al., (1996), Cohen und Bookheimer (1994), Le Bihan (1995), Sanders (1995), Turner et al., (1997), Chong et al. (2000). Im Rahmen der funktionellen MRT hat sich in den letzten Jahren ein Verfahren bewährt, welches indirekt die lokale Konzentration von Blutsauerstoff im Kapillarbett als Indikator neuronaler Aktivität bestimmt und als BOLD-Kontrast (Blood Oxygen Level Dependent) bezeichnet wird. Infolge der erhöhten Stoffwechselprozesse bei der Aktivierung eines Hirnareals kommt es zu einem Abfall der lokalen Blutsauerstoffkonzentration, welcher mit einer Latenz von 5⫺8 Sekunden durch die verstärkte Heranführung oxygenierten Hämoglobins kompensiert wird. Volumen und Geschwindigkeit dieser hämodynamischen Reaktion (HR) des Gehirns werden von der fMRT registriert. Da sauerstoffreiches Blut magnetisch neutral ist, können Stärke und Ort einer selektiven Aktivierung indirekt über den Anteil der desoxygenierten Hämoglobinmoleküle im Blut rekonstruiert werden. Im Gegensatz zur PET-Methode kann die fMRT prinzipiell die HR auf ein einziges flüchtiges neuronales Ereignis aufzeichnen und darstellen, wobei sich die Stärke einer HR approximativ linear zur Stärke der vorausgegangenen neuronalen Aktivierung verhält. Dieses Prinzip gestattet demzufolge die Zuordnung einer spezifischen HR zu der Präsentation und Verarbeitung eines einzelnen experimentellen Stimulus und findet unter der Bezeichnung ereigniskorrelierte fMRT vermehrt Anwendung im Zusammenhang mit kognitionspsychologischen Experimenten zur Funktionslokalisation. Ereigniskorrelierte Versuchspläne ermöglichen demzufolge die Auswertung der HR auf einzelne Stimuli und nicht ausschließlich, wie im Rahmen des
12. Spezielle Verfahren III: Bildgebende Verfahren
183
‘klassischen’ PET-Paradigmas üblich, die summierte Aktivierung mehrerer geblockt präsentierter Stimuli. Daher wird jener Ansatz auch als ‘Blockparadigma’ bezeichnet. Die Flexibilität des ereigniskorrelierten Ansatzes gilt somit als entscheidender Vorteil der fMRT gegenüber der PET. Daneben ist die fMRT der PET auch im Hinblick auf die zeitliche und räumliche Auflösung deutlich überlegen. Im Hinblick auf die räumliche Auflösung sind alle bildgebenden Methoden den elektroenzephalographischen Verfahren (EEG, EKP) überlegen, während letzte aufgrund hochfrequenter Abtastraten über eine bessere zeitliche Auflösung verfügen (siehe Kapitel 11 i. d. Band). Ein weiterer Vorteil der (f)MRT besteht in der Nichtinvasivität, d. h. die (f)MRT ist nicht auf die Verwendung radioaktiv markierter Substanzen angewiesen. Somit stellt die (f)MRT kein gesundheitliches Risiko für die Versuchsperson dar, wodurch mehrere rasch aufeinanderfolgende Wiederholungen mit derselben Versuchsperson möglich sind.
Verfügung. Auf diesem Wege können Versuchspersonen beispielsweise anzeigen, ob sie einen Aktiv- oder Passivsatz gehört haben. Im Gegensatz zur PET sind Reaktionen, die motorische Tätigkeiten in größerem Umfang erfordern (Schreiben, Gestikulieren, Handbewegungen), aufgrund der Anfälligkeit der fMRT für Bewegungsartefakte ausgeschlossen). Die überwiegende Mehrheit der Untersuchungen mit PET bzw. fMRT stellt die zerebrale Organisation des Lesens in den Vordergrund, wohingegen der Anteil an Arbeiten, welche Aspekte auditiver Sprachverarbeitung untersuchen, deutlich geringer ist. Den Befunden zur Funktionslokalisation in der visuellen bzw. in der auditiven Modalität zufolge löst das Hören bzw. Lesen sprachlicher Äußerungen differentielle Aktivierungen in unterschiedlichen Hirnregionen aus. Sprachverarbeitung, unabhängig in welcher Modalität, wird als komplexer Vorgang angesehen, der eine Reihe von separat beschreibbaren, untergeordneten Prozessen von der Identifikation einzelner Wörter anhand ihrer Klangmuster bzw. graphemischen Merkmale bis zur finalen Interpretation einer sprachlichen Äußerung integriert. Im Folgenden sollen repräsentative Befunde aus bildgebenden Studien zur Neurokognition phono-
2.
Hämodynamische Korrelate von Sprachrezeption und -produktion Zu Beginn der Forschungen mit bildgebenden Verfahren am Ende der achtziger Jahre standen Aspekte phonologischer, lexikalischer und semantischer Sprachverarbeitung (zumeist auf der Ebene einzelner Phoneme, Silben oder Wörter) deutlich im Mittelpunkt des Interesses. Die Neurokognition syntaktischer Prozesse auf Satz- bzw. Textebene wird dagegen erst seit wenigen Jahren mit PET bzw. fMRT untersucht. Auch die Funktionen prosodischer Parameter (Intonation, Akzentuierung) während des auditiven Sprachverstehens sind in jüngster Zeit Gegenstand von bildgebenden Studien gewesen. Untersuchungen zur Sprachproduktion sind die Ausnahme, was nicht zuletzt mit der relativ hohen Anfälligkeit der fMRT für Bewegungsartefakte (des Sprechapparates) zu erklären ist. Dies erklärt auch die relativ restriktiven Aufgabenanforderungen im Rahmen von fMRT-Studien. Diese sind oftmals implizit, d. h. die Probanden sind lediglich instruiert, die Reize wahrzunehmen, beispielsweise Sätze anzuhören, ohne dass eine zusätzliche Aufgabenanforderung besteht. Sind die Versuchsteilnehmer dagegen angehalten, explizit auf die Präsentation eines Stimulus zu reagieren, steht für die Registrierung der Antwortklasse bzw. Reaktionszeit zumeist eine entsprechende Apparatur mit Druckknöpfen zur
Abb. 12.1 zeigt die idealisierte Lateralansicht einer linken Hemisphäre. Maßgeblich relevant für sprachverarbeitende Funktionen sind frontale und temporale Areale, welche entlang der Sylvischen Fissur angeordnet sind und unter der Bezeichnung perisylvischer Kortex zusammengefasst werden. Nicht dargestellt ist das tiefe frontale Operculum, welches in den Tiefen des frontoopercularen Kortex hinter dem frontolateralen Broca-Areal verborgen ist. (Abkürzungen: IFS – inferior frontaler Sulcus; IFG – inferior frontaler Gyrus; STG – superior temporaler Gyrus; STS – superior temporaler Sulcus; MTG – mittlerer temporaler Gyrus.)
184 logischer, lexikalisch-semantischer, syntaktischer und prosodischer Verarbeitung exemplarisch dargestellt werden. 2.1. Phonologie Die Anwendung und Ausdehnung des Begriffs phonologische Verarbeitung wurde von Autoren bildgebender Studien in den letzten Jahren recht willkürlich und uneinheitlich gehandhabt und ging demzufolge mit einer äußerst heterogenen Befundlage einher (Pöppel, 1996). Dies ist u. a. darauf zurückzuführen, dass perzeptive und expressive Sprachfunktionen konfundiert sind, dass die Darstellung und Diskussion von Ergebnissen keine Trennung für die auditive und die visuelle Modalität vorsieht und dass durch ungeeignetes Material bzw. experimentelle Aufgaben mehr als nur phonologische Aspekte involviert sind, z. B. im Zusammenhang mit der Generierung oder dem Erkennen von Reimen oder zusätzlicher Belastung für das Arbeitsgedächtnis. Alternativ hat sich die Verwendung sogenannter Pseudowörter als geeignetes Paradigma erwiesen, um die (möglichst isolierte) Verarbeitung phonologischer Information unabhängig von der Modalität zu untersuchen. Als Pseudowort bezeichnet man dabei Kombinationen von Silben, die den lautsprachlichen Regeln einer Sprache folgen, aber keine Bedeutung tragen (z. B. ‘Fölöfel’, ‘Schlawötz’, ‘mumpfig’, ‘möngern’). Exemplarisch kann eine ereigniskorrelierte fMRT-Studie genannt werden, in der die Verarbeitung von Pseudowörtern in der auditiven Modalität untersucht wurde (Friederici, Meyer & von Cramon, 2000). Als hämodynamisches Korrelat der phonologischen Verarbeitung zeigte sich eine bilaterale Anregung im mittleren Abschnitt des STG (siehe Abbildung 12.1). Vergleichbare Aktivierungsmuster im oberen Temporallappen sind übereinstimmend auch schon von früheren bildgebenden Studien im Zusammenhang mit der auditiven Präsentation von Pseudowörtern beschrieben worden (Wise et al., 1991; Binder, Rao & Hammeke, 1994; De´monet, Price, Wise, & Frackowiak, 1994; Fiez, Raichle, Balota, Tallal & Petersen, 1996). Zusätzlich ließ sich eine frontale Aktivierung im linken IFS nachweisen. Weit distribuierte frontale Aktivierungen bei auditiver Stimulation wurden ebenfalls mehrfach von PET-Studien berichtet, sobald die experimentelle Aufgabe, ähnlich wie in dem fMRT-Experiment von Friederici, Meyer & von Cramon (2000), explizit die Analyse phonetischer Einheiten oder Se-
II. Methoden der Psycholinguistik
quenzen erforderte (De´monet et al., 1992; De´monet et al., 1994; Fiez et al., 1996). Weitere Evidenz für eine Beteiligung von separaten Arealen in der linken inferior frontalen Hirnrinde (Kortex) an der Verarbeitung von phonologischer Information auf Silbenebene in Kombination mit phonetischer Diskrimination liegt in Form von zwei PET-Studien vor (Zatorre, Evans, Meyer & Gjedde, 1992; Zatorre, Evans & Meyer, 1996). Während die Durchführung der Aufgabe im ersten Experiment zu einem Signalanstieg im posterioren Anteil des Broca-Areals führte, lag der Fokus der Aktivierung im zweiten Experiment im Zentrum des Broca-Gebiets. Dabei erklärt sich die Heterogenität der Lokalisation dieser frontalen Effekte zwischen den diversen PETStudien durch die ungenügende räumliche Auflösung dieser Methode. Auch in der visuellen Modalität spielt die Broca-Region im IFG offensichtlich eine entscheidende Rolle bei der Verarbeitung von phonologischer Information in Form von Pseudowörtern (Herbster, Mintun & Nebes, 1997). Zusammenfassend ist zu konstatieren, dass die Verarbeitung phonologischer Information in der auditiven Modalität nur dann zu einer signifikanten Beteiligung frontaler Areale führt, wenn, durch die experimentelle Aufgabe bedingt, besonders die phonologischen Merkmale sprachlicher Stimuli fokussiert werden. Auditive Studien, bei denen dies nicht der Fall ist, berichten übereinstimmend bilaterale Aktivierung in distinkten Anteilen des STG als Funktion einer phonologischen Analyse. In der visuellen Modalität erweist sich eine Beteiligung des IFG an der phonologischen Verarbeitung offensichtlich als obligatorisch, was möglicherweise durch die notwendige Graphem-Phonem-Transformation verursacht wird. 2.2. Semantisches Lexikon Die Lokalisation eines semantischen Lexikons in der visuellen (Lesen eines Wortes) sowie in der auditiven Modalität (lautes Wiederholen eines Wortes) war das Anliegen einer frühen PET-Studie (Howard et al., 1992). Wortwiederholung korrespondierte mit einem Anstieg des rCBF in mittleren und superior temporalen Arealen der linken Hemisphäre, was von den Autoren als Hinweis auf den Sitz eines auditorischen Lexikons in dieser Region gewertet wurde. Das Lesen von Wörtern aktivierte dagegen nur einen kleinen Abschnitt im posterioren linken MTG, wel-
12. Spezielle Verfahren III: Bildgebende Verfahren
185
cher demnach das visuelle Lexikon beherbergt. Diese Befunde waren allerdings schnell in die Kritik geraten, da expressive und perzeptive Sprachfunktionen konfundiert wurden. Auch kann vor dem Hintergrund neuerer bildgebender Studien eine derartige räumliche Trennung eines visuellen und auditiven Lexikons nicht mehr aufrecht erhalten werden. Um Aspekte des semantischen Lexikons zu lokalisieren, wurde in einer auditiven fMRT-Studie die explizite Verarbeitung von Listen semantisch nicht assoziierter Inhaltswörter untersucht (Friederici, Meyer & von Cramon, 2000). Als hämodynamisches Korrelat dieser Verarbeitung fanden sich ein bilaterales Engagement supratemporaler Areale, dessen Maximum in anterioren und mittleren Anteilen des STG geortet wurde, sowie kleinere Aktivierungsherde im IFS beider Hemisphären. Superior temporale Aktivierungsmuster wurden auch von anderen bildgebenden Studien berichtet, deren Augenmerk auf der impliziten Verarbeitung von Inhaltswörtern in der auditiven Modalität lag (Mazoyer et al., 1993; Binder et al., 1994, 1996). Zusätzlich zu einer temporalen Aktivierung verweist eine PET-Studie zur expliziten Generierung von Verben in semantischer Assoziation zu einer Liste von Nomen auf einen Anstieg des rCBF in links frontalen Arealen (Wise et al., 1991). In diesem Fall wurden die frontalen Aktivierungsmaxima in der Broca-Area und im posterioren Abschnitt des mittleren frontalen Gyrus ermittelt. Bei einer fMRTStudie, welche sich einer vergleichbaren Aufgabe bediente (Shaywitz et al., 1995), zeigten sich bilaterale Anteile des IFG sowie der linken superioren Temporalregion involviert, womit die Befunde von Friederici, Meyer und von Cramon (2000) in Einklang stehen. Eine Beteiligung des rechten IFG an der semantischen Verarbeitung einzelner Wörter erwies sich auch in einer anderen fMRT-Studie als evident (Friederici, Opitz & von Cramon, 2000). Ein semantisches Lexikon in der visuellen Modalität lässt sich dagegen in weit distribuierten inferior, mittleren und superior temporalen Arealen lokalisieren (Price, Moore, Humphreys & Wise, 1997; Herbster et al., 1997). Inferior frontale Areale erwiesen sich nur dann als signifikant aktiviert, wenn im experimentellen Kontext semantische Operationen erforderlich waren, die über die implizite Anforderung eines einfachen lexikalischen Zugriffs hinausgingen (Fiez, 1997; Poldrack et al., 1999).
Es bleibt festzuhalten, dass sich der Zugriff auf das mentale Lexikon in temporalen Arealen beider Hemisphären manifestiert. Bilaterale Areale im inferior frontalen Kortex sind involviert, wenn die Komplexität der Verarbeitung durch explizite semantische Funktionen ansteigt. 2.3. Syntax Im Hinblick auf die Neurokognition syntaktischer Funktionen konnten in jüngster Zeit spezifische Effekte in distinkten Hirnarealen nachgewiesen werden. Eine jüngere auditive fMRT-Studie untersuchte, ob und inwiefern sich die Verarbeitung syntaktisch inkorrekter im Vergleich zu korrekten Sätzen unterschiedlich in der Stärke der lokalen HR manifestiert (Meyer, Friederici & von Cramon, 2000). In der korrekten Bedingung wurde die Präsentation von deutschen Passivsätzen realisiert („Der Sieger wird vom Publikum gefeiert.“), während in der inkorrekten Bedingung zu gleichen Anteilen diverse syntaktische Verletzungen umgesetzt wurden, beispielsweise Phrasenstrukturverletzungen („Der Spion wurde im gefangen.“) sowie Verletzungen der Numerus- („Der Arzt wird in dem Dörfer gebraucht.“), Genus- („Der Seemann wird in der Sturm gerettet.“) und Kasus-Kongruenz („Die Kiste wird von dem Mannes geschleppt.“) innerhalb der Präpositionalphrase. Beim Vergleich der bedingungsspezifischen Aktivierungsmuster stellte sich heraus, dass der gesamte linke supratemporale Kortex signifikant stärker in die Verarbeitung der inkorrekten Sätze involviert war. Dies galt im Besonderen für das anterior zum Heschlschen Gyrus gelegene Planum polare im temporalen Operculum. Die Verarbeitung syntaktischer Information auf der Satzebene im Vergleich zu einer ‘syntaxfreien’ Aufzählung von Inhaltswörtern ging auch in einer anderen auditiven ereigniskorrelierten fMRTStudie mit einer nachweisbar stärkeren Aktivierung im Planum polare beider Hemisphären einher (Friederici, Meyer & von Cramon, 2000). Dem anterioren STG ist auch an anderer Stelle eine besondere Rolle bei der Satzverarbeitung attestiert worden (Mazoyer et al. 1993; Stowe et al., 1998; Humphries, Buchsbaum & Hickok, 2001). Im Zusammenhang mit der Neurokognition syntaktischer Funktionen wird regelmäßig auf die herausragende Rolle des inferioren frontalen Kortex der linken Hemisphäre, insbesondere des Broca-Areals, hingewiesen
186 (Zurif & Swinney, 1994). Diese Ansicht wird auch von einer Reihe PET-Studien untermauert, die mehrheitlich in der visuellen Domäne agieren, allesamt auf der Logik des Blockparadigmas beruhen und eine funktionelle Spezifizierung des Broca-Areals für syntaktische Funktionen proklamieren (Stromswold, Caplan, Alpert & Rauch, 1996; Caplan, Alpert & Waters, 1998, 1999; Inui et al., 1998). Demgegenüber steht eine Phalanx von Untersuchungen, die keine oder nur eine äußerst geringfügige Beteiligung der Broca-Region an der auditiven Satzverarbeitung beobachtet haben (Mazoyer et al., 1993; Müller et al., 1997; Dehaene et al., 1997; Schlosser, Aoyagi, Fulbright, Gore & McCarthy, 1998). In einer jüngeren ereigniskorrelierten fMRT-Studie erwies sich eine Beteiligung des tiefen frontalen Operculums in unmittelbarer Nähe des Broca-Areals bei der Verarbeitung von Pseudosätzen, welche die syntaktische Information fokussierten, als signifikant, während die Verarbeitung normaler Sätze im Kontext desselben Experiments keinerlei frontale Aktivierung auslöste (Friederici, Meyer & von Cramon, 2000). Die Inhaltswörter dieser Sätze wurden vollständig durch phonologisch legale und grammatisch eindeutig flektierte Pseudowörter ersetzt („Das mumpfige Fölöfel höngert das apoldige Trekon.“). Dabei wurde die Wortbedeutung im Satz eliminiert, die syntaktische Struktur aber blieb konserviert. In der Vergleichsbedingung wurden Sätze präsentiert, welche ebenfalls eine korrekte Syntax und darüber hinaus adäquate Wortbedeutungen aufwiesen („Die hungrige Katze jagt die flinke Maus.“). Die Probanden waren instruiert, mittels Knopfdruck zu entscheiden, ob ein Satz in der Aktiv- oder in der Passform realisiert war. Im Falle der Pseudosätze kommt der adäquaten Verarbeitung der syntaktischen Information aus der Sicht des Hörers eine besondere Bedeutung zu, da nur über die syntaktische Analyse der Propositionen eine Zuweisung der Nominalphrasen an die Subjekt- bzw. Objektposition der Satzstruktur möglich ist. Die besondere Gewichtung der syntaktischen Struktur erklärt den Anstieg der lokalen Blutsauerstoffkonzentration in syntaxrelevanten Hirnarealen. Es ist daher plausibel, dass das tiefe frontale Operculum möglicherweise die Funktionen beherbergt, welche bislang dem inferior frontolateralen Broca-Areal zugesprochen wurden. Zweifel an der Rolle des Broca-Areals als exklusivem Sitz syntaktischer Funktionen bestehen bereits seit längerem und wurden pri-
II. Methoden der Psycholinguistik
mär durch neuropsychologische Studien geweckt (Mohr et al., 1978). Demzufolge geht das klassische Broca-Syndrom mit einer ausgedehnten links frontalen Läsion einher, welche von Fall zu Fall die Broca-Area an sich, das unmittelbar angrenzende tiefe frontale Operculum, die vordere Inselrinde sowie die anteriore Sylvische Fissur (also auch das Planum polare) umfasst. Betrachtet man noch einmal kritisch das inhaltliche und methodische Gerüst der PETStudien, welche das Broca-Areal als das maßgebliche Relais für syntaktische Prozesse favorisieren (Stromswold et al., 1996; Caplan et al., 1998, 1999; Inui et al., 1998), ist es evident, dass diese die Manipulationen syntaktischer Komplexität fokussieren und demnach mit Aspekten des verbalen Arbeitsgedächtnisses konfundiert sind, welche an anderer Stelle schon mit der Funktion der Broca-Area assoziiert worden sind (Just, Carpenter, Keller, Eddy & Thulborn, 1996; Bavelier et al., 1997; Stowe et al., 1998; Hagoort et al., 1999). Des Weiteren erschwert die mangelhafte räumliche Auflösung der PET-Methode bzw. die Verwendung des Blockparadigmas eine funktionelle Dissoziierung von Broca-Areal und tiefem frontalem Operculum, zumal beide Areale dicht beieinander im frontalen Kortex liegen. Zusammenfassend lässt sich sagen, dass sowohl visuelle als auch auditive Studien zur Satzverarbeitung übereinstimmend die Beteiligung perisylvischer Strukturen berichten. Eine distinkte Hirnregion als Sitz syntaktischer Funktionen zu benennen, ist aufgrund der heterogenen Resultate nicht möglich (Kaan & Swaab, 2002). Sowohl das linke frontale Broca-Areal bzw. das tiefe frontale Operculum als auch der anteriore Abschnitt des STG sind als syntaxrelevant identifiziert worden, wobei ersteres mit der Verarbeitung von syntaktischer Komplexität und letzterer allgemein mit satzrelevanten Prozessen in Zusammenhang gebracht wurde (Mazoyer et al., 1993; Stowe et al. 1998; Müller et al., 1997; Meyer, Friederici & von Cramon, 2000). 2.4. Prosodie Neben Semantik und Syntax existiert im Rahmen gesprochener Sprache in Form prosodischer Parameter (Tonhöhe, Lautheit, Tempo, Rhythmus) noch eine weitere Ebene, welche dem Hörer Information vermittelt, die zur adäquaten Interpretation einer spezifischen sprachlichen Äußerung beiträgt. Der
12. Spezielle Verfahren III: Bildgebende Verfahren
187
Intonation oder auch Grundfrequenz (F0) kommt dabei eine besondere Bedeutung zu, da durch Veränderung von F0 einer der wichtigsten prosodischen Parameter entscheidend beeinflusst werden kann. Auf der perzeptiven Seite manifestieren sich solche Manipulationen in Variationen der Satzmelodie, die unmittelbar die Intention einer sprachlichen Äußerung bestimmen können. So kann einzig die Intonation einer sprachlichen Äußerung über ihren linguistischen Charakter als Aussage oder Frage entscheiden („Hans raucht.“ / „Hans raucht?“). Im Rahmen einer ereigniskorrelierten fMRT-Studie wurden Sätze auditorisch präsentiert, welche vorher mit einem speziellen Filterverfahren vollständig delexikalisiert wurden (Meyer, Alter, Friederici, Lohmann & von Cramon, 2002). Dieses Verfahren filtert sämtliche akustische Information oberhalb der dritten Harmonischen sowie alle aperiodischen Signale einer sprachlichen Äußerung aus dem Signal, so dass ausschließlich die Satzintonation erhalten bleibt. Das Hören derart manipulierter Sätze erweckt den Eindruck, einer Stimme im Nebenzimmer zu lauschen (Sonntag & Portele, 1998). Die Probanden waren instruiert, mittels Knopfdruck zu entscheiden, ob ein Satz in der Aktiv- oder in der Passivform realisiert war. Für die Verarbeitung der Intonationskontur fand sich ein Aktivierungsmuster, welches eine stärkere Beteiligung rechtshemisphärischer Areale des perisylvischen Kortex (Rolandisches Operculum, Planum temporale, Planum parietale) enthüllte und sich somit als abweichend von der links dominanten Organisation semantischer und syntaktischer Verarbeitung erwies. Des Weiteren führte die Präsentation der Intonationsbedingung im Vergleich zu normalen Sätzen zu einer Reduzierung der HR im supratemporalen Kortex beider Hemisphären. Dieser Befund erklärt sich durch das Fehlen jeglicher phonologischer, lexikalischer und semantischer Information, so dass sich lediglich Abschnitte des primären und sekundären auditorischen Kortex als signifikant aktiviert erwiesen. Ein deutlicher Anstieg der HR kann für die Verarbeitung isolierter prosodischer Information im frontoopercularen Kortex, insbesondere im rechten tiefen frontalen Operculum, beobachtet werden. Diese Befunde befinden sich im Einklang mit einer PET-Studie, welche erstmals prosodische Funktionen mit Hilfe bildgebender Verfahren untersuchte und ebenfalls einen Anstieg des rCBF im mittleren und inferioren frontalen Kortex der rechten Hemisphäre als hämody-
namisches Korrelat der Verarbeitung von Tonhöheninformation beobachtete (Zatorre et al., 1992). In einer anderen fMRT-Studie wurde die F0-Kontur durch eine artifizielle Resynthese verflacht, so dass der Hörer auf die verbleibenden prosodischen Parameter rekurrieren musste, um die fehlende Information zu kompensieren (Alter, Meyer, Steinhauer, Friederici & von Cramon, 2002), wodurch eine Zunahme der funktionell bedingten Aktivierung in bilateral inferior frontalen Arealen sowie im rechten STG ausgelöst wurde. Zusammengenommen deuten diese Resultate eine besondere Rolle des perisylvischen Kortex der rechten Hemisphäre im Hinblick auf die Verarbeitung prosodischer Parameter in der gesprochenen Sprache an. Durch die Verwendung bildgebender Verfahren innerhalb der letzten Dekade konnten sprachrelevante Areale in bilateralen Anteilen des perisylvischen Kortex eindeutig identifiziert und ihre funktionelle Beteiligung an der auditorischen und visuellen Sprachverarbeitung spezifiziert werden. Das Ausmaß der funktionell bedingten Aktivierung variiert dabei als Funktion der Verarbeitung phonologischer, lexikalischer, syntaktischer und prosodischer Information. Dabei spielt der anteriore STG (Planum polare) der linken Hemisphäre eine tragende Rolle im Zusammenhang mit syntaktischen Prozessen, während der mittlere und posteriore Abschnitt des STG stärker in phonologische und lexikalische Verarbeitung involviert sind. Die Verarbeitung einer vom normalen Sprachgebrauch abweichenden sprachlichen Äußerung führt zu einem Anstieg der Hirnaktivierung in selektiven Arealen des frontooperkularen Kortex. Dies ist zum Beispiel der Fall, wenn der Modus der Satzverarbeitung explizit syntaktische Information fokussiert. Bedingt durch die hohe räumliche Genauigkeit der fMRT ist somit neuerdings das benachbarte frontolaterale Broca-Areal als Sitz syntaktischer Funktionen in Frage gestellt. Areale des perisylvischen Kortex der kontralateralen rechten Hemisphäre beherbergen dagegen offensichtlich prosodische Funktionen, welche primär im Hinblick auf die auditive Sprachverarbeitung relevant sind.
3.
Literatur
Alter, K., Meyer, M., Steinhauer, K., Friederici, A. D. & von Cramon, D. Y. (2002). Brain responses related to prosodic information in natural speech: an event-related fMRI study. Proceedings
188
II. Methoden der Psycholinguistik
of the 34th Colloquium of Linguistics (FASK’99), Linguistics on the way into the third millenium (Rapp, R., Ed.) Part II: Language, Computer, and Society. Bern: Peter Lang. pp. 21⫺26.
strategies in normal subjects during language tasks: Influence of phonetic ambiguity and sequence processing on phoneme monitoring. Brain, 117, 671⫺682.
Bavelier, D., Corina, D., Jezzard, P., Padmanabhan, S., Clark, A., Karni, V. P., Prinster, A., Braun, A., Lalwani, A., Rauschecker, J. P., Turner, R. & Neville, H. (1997). Sentence reading: A functional MRI study at 4 Tesla. Journal of Cognitive Neuroscience, 9, 664⫺686.
De´monet, J.-F., Chollet, F., Ramsay, S., Cardebat, D., Nespoulous, J.-L., Wise, R., Rascol, A. & Frackowiak, R. S. J. (1992). The anatomy of phonological and semantic processing in normal subjects. Brain, 115, 1753⫺1768.
Binder, J. R. & Rao, S. M. (1994). Human brain mapping with functional magnetic brain imaging. In A. Kertesz (Ed.), Localization and neuroimaging in neuropsychology (pp. 185⫺212). San Diego: Academic Press. Binder, J. R., Rao, S. M. & Hammeke, T. A. (1994). Functional MRI of human auditory cortex. Annals of Neurology, 35, 662⫺672. Binder, J. R., Frost, J. A., Hammeke, T. A., Rao, S. M. & Cox, R. W. (1996). Function of the left planum temporale in auditory and linguistic processing. Brain, 119, 1239⫺1254. Broca, P. (1861). Remarques sur le sie`ge de la faculte´ du langage articule´, suivies d’une obsveration d’aphemie (parte de la parole). Bulletins de la Socie´te´ Anatomique de Paris, 6, 330⫺357. Caplan, D., Alpert, N. & Waters, G. (1998). Effects of syntactic structure and propositional number on patterns of regional cerebral blood flow. Journal of Cognitive Neuroscience, 10, 541⫺552. Caplan, D. Alpert, N. & Waters, G. (1999). PET studies of syntactic processing with auditory sentence presentation. Neuroimage, 9, 343⫺351. Casey, B. J., Cohen, J. D., Noll, D. C., Schneider, W., Giedd, J. N. & Rapoport, J. L. (1996). Functional magnetic resonance imaging. Studies of cognition. In E. D. Bigler (Ed.), Neuroimaging II: Clinical applications (pp. 299⫺330). New York: Plenum Press. Chong, B. W., Sanders, J. A. & Jones, G. M. (2000) Functional magnetic resonance imaging. In W. W. Orrison (Ed.), Neuroimaging (pp. 60⫺86). Philadelphia: W. B. Saunders Company. Cohen, M. S. & Bookheimer, S. Y. (1994). Localization of brain function using magnetic resonance imaging. Trends in Neuroscience, 17, 268⫺277. Dehaene, S., Dupoux, E., Mehler, J., Cohen, L., Paulesu, E., Perani, D., van de Moortele, P.-F., Lehricy, S. & Le Bihan, D. (1997). Anatomical variability in the cortical representation of first and second language. NeuroReport, 8, 3809⫺3815. De´monet, J.-F., Price, C. J., Wise, R. & Frackowiak, R. S. J. (1994). A PET study of cognitive
Fiez, J. A., Raichle, M. E., Balota, D. A., Tallal, P. & Petersen, S. E. (1996). PET activation of posterior temporal regions during auditory word presentation and verb generation. Cerebral Cortex, 6, 1⫺10. Fiez, J. A. (1997). Phonology, semantics, and the role of the left inferior prefrontal cortex. Human Brain Mapping, 5, 79⫺83. Friederici, A. D., Meyer, M. & von Cramon, D. Y. (2000) Auditory language comprehension: An event-related fMRI study on the processing of syntactic and lexical information. Brain and Language, 74, 289⫺300. Friederici, A. D., Opitz, B. & von Cramon, D. Y. (2000). Segregating semantic and syntactic aspects of processing in the human brain: A fMRI investigation of different word types. Cerebral Cortex, 10, 698⫺705. Hagoort, P., Brown, C. M. & Osterhout, L. (1999). The neurocognition of syntactic processing. In C. M. Brown & P. Hagoort (Eds.), The neurocognition of language (pp. 273⫺316). New York: Oxford University Press. Hartshorne, M. F. (1995). Positron emission tomography. In W. W. Orrison, J. D. Lewine, J. A. Sanders & M. F. Hartshorne (Eds.), Functional brain imaging (pp. 187⫺212). St. Louis: Mosby. Herbster, A. N., Mintun, M. A. & Nebes, R. D. (1997). Regional cerebral blood flow during word and nonword reading. Human Brain Mapping, 5, 84⫺92. Howard, D., Patterson, K., Wise, R., Brown, W. D., Friston, K. J., Weiller, C. & Frackowiak, R. S. J. (1992). The cortical lateralization of the lexicon. Positron emission tomography evidence. Brain, 115, 1769⫺1782. Humphries, C., Buchsbaum, C. & Hickok, G. (2001). Role of anterior temporal cortex in auditory sentence comprehension: an fMRI study. NeuroReport, 12, 1749⫺1752 Inui, T., Otsu, Y., Tanaka, S., Okada, T., Nishizawa, S. & Konishi, J. (1998). A functional MRI analysis of comprehension processes of Japanese sentences. NeuroReport, 9, 3325⫺3328.
12. Spezielle Verfahren III: Bildgebende Verfahren
189
Just, M. A., Carpenter, P. A., Keller, T. A., Eddy, W. F. & Thulborn, K. R. (1996). Brain activation modulated by sentence comprehension. Science, 274, 114⫺116.
Schlosser, M. J., Aoyagi, N., Fulbright R. K., Gore, J. C. & McCarthy, G. (1998). Functional MRI studies of auditory comprehension. Human Brain Mapping, 6, 1⫺13.
Kaan, E. & Swaab, T. Y. (2002). The brain circuitry of syntactic comprehension. Trends in Cognitive Science, 6, 350⫺356.
Shaywitz, B. A., Pugh, K. R., Constable, R. T., Shaywitz, S. E., Bronen, R. A., Fulbright, R. K., Shankweiler, D. P., Katz, L., Fletcher, J. M., Skudlarski, P. & Gore, J. C. (1995). Localization of semantic processing using functional resonance imaging. Human Brain Mapping, 2, 149⫺158.
Le Bihan, D. (1995). Diffusion and perfusion magnetic resonance imaging. New York: Raven. Mazoyer, B. M., Tzourio, N., Frak, V., Syrota, A., Murayama, N., Levrier, O., Salamon, G., Dehaene, S., Cohen, L. & Mehler, J. (1993). The cortical representation of speech. Journal of Cognitive Neuroscience, 5, 467⫺479.
Sonntag, G. P. & Portele, T. (1998). PURR – A method for prosody evaluation and investigation. Journal of Computer Speech and Language, 12, 437⫺451.
Meyer, M., Alter, K., Friederici, A. D., Lohmann, G. & von Cramon, D. Y. (2002). Functional MRI reveals brain regions mediating slow prosodic manipulations of spoken sentences. Human Brain Mapping, 17 (2), 73⫺88.
Stowe, L. A., Cees, A. J., Broere, A. J., Paans, A. M. J., Wijers, A. A., Mulder, G., Vaalburg, W. & Zwarts, F. (1998). Localizing components of a complex task: Sentence processing and working memory. NeuroReport, 9, 2995⫺2999.
Meyer, M., Friederici, A. D. & von Cramon, D. Y. (2000). Neurocognition of auditory sentence comprehension: Event-related fMRI reveals sensitivity to syntactic violations and task demands. Cognitive Brain Research, 9, 19⫺33.
Stromswold, K., Caplan, D., Alpert, N. & Rauch, S. (1996). Localization of syntactic comprehension by positron emission tomography. Brain and Language, 52, 452⫺473.
Mohr, J. P., Pessin, M. S., Finkelstein, S., Funkenstein, H. H., Duncan, G. W. & Davis, M. D. (1978). Broca aphasia: Pathologic and clinical. Neurology, 28, 311⫺324. Müller, R.-A., Rothermel, R. D., Behen, M. E., Muzik, O., Mangner, T. J. & Chugani, H. T. (1997). Receptive and expressive language activations for sentences: A PET study. NeuroReport, 8, 3767⫺3770. Pöppel, D. (1996). A critical review of PET studies of phonological processing. Brain and Language, 55, 317⫺351. Poldrack, R. A., Wagner, A. D., Prull, M. W., Desmond, J. E., Glover, G. H. & Gabrieli, J. D. E. (1999). Functional specialization for semantic and phonological processing in the left inferior prefrontal cortex. Neuroimage, 10, 15⫺35. Price, C. J., Moore, C. J., Humphreys, G. W. & Wise, R. J. S. (1997). Segregating semantic from phonological processes during reading. Journal of Cognitive Neuroscience 9, 727⫺733.
Turner, R., Howseman, A., Rees, G. & Josephs, O. (1997). Functional imaging with magnetic resonance. In R. S. J. Frackowiak, K. J. Friston, C. D. Frith & R. J. Dolan (Eds.), Human brain function (pp. 467⫺486). San Diego: Academic Press. Wernicke, C. (1874). Der aphasische Symptomkomplex. Breslau: Cohn & Weigert. Wise, R., Chollet, F., Hadar, U., Friston, K., Hoffner, E. & Frackowiak, R. S. J. (1991). Distribution of cortical neural networks involved in word comprehension and word retrieval. Brain, 114, 1803⫺ 1817. Zatorre, R. J., Evans, A. C., Meyer, E. & Gjedde, A. (1992). Lateralization of phonetic and pitch discrimination in speech processing. Science, 256, 846⫺849. Zatorre, R. J., Meyer, E., Gjedde, A. & Evans, A. C. (1996). PET studies of phonetic processing of speech: Review, replication, andreanalysis. Cerebral Cortex, 6, 21⫺30.
Roland, P. (1993). Brain activation. New York: Wiley-Liss.
Zurif, E. B. & Swinney, D. (1994). The neuropsychology of language. In M. A. Gernsbacher (Ed.), Handbook of psycholinguistics (pp. 1055⫺1074). San Diego: Academic Press.
Sanders, J. A. (1995). Magnetic resonance imaging. In W. W. Orrison, J. D. Lewine, J. A. Sanders & M. F. Hartshorne (Eds.), Functional brain imaging (pp. 145⫺186). St. Louis: Mosby.
Martin Meyer University of Edinburgh, Scotland (United Kingdom)
190
II. Methoden der Psycholinguistik
13. Spezielle Verfahren IV: Reaktionszeitmessung: Grundlagen und Anwendungen 1. 2. 3. 4.
6.
Definition und Überblick Die Subtraktionsmethode Die Methode additiver Faktoren Parallele Verarbeitung, kontinuierlicher Informationsfluss und Verarbeitungsstrategien Schlussbemerkung: Kontrollprozesse und die Leistungsfähigkeit der Reaktionszeitmessung Literatur
1.
Definition und Überblick
5.
1.1. Begriff der Reaktionszeit und Messverfahren Die Messung und die Analyse von Reaktionszeiten (engl. reaction times, response latencies) gehören zu den ältesten und fruchtbarsten Paradigmen, die sich die experimentelle Psychologie für den Rückschluss auf nicht direkt beobachtbare psychische Prozesse zunutze macht. Unter der Reaktionszeit (RZ) wird das Intervall zwischen einem Reiz und dem Beginn einer auf ihn folgenden, mit der Versuchsperson (Vp) vereinbarten Reaktion verstanden. Erhoben wird die RZ meist unter der Instruktion, die Reaktion so schnell wie möglich auszuführen, dabei aber Fehler zu vermeiden. Sie dient als Indikator für den Abschluss einer Folge von psychischen Prozessen oder das Erreichen eines bestimmten Verarbeitungszustandes, und aus RZ-Daten versucht man, Art und Zeitbedarf der zwischen Signal (Reiz, engl. stimulus) und Reaktion (engl. meist response, heute nur noch seltener reaction) vermittelnden Prozesse zu erschließen. Methoden zur Analyse von RZen können Erkenntnisse über Struktur und Funktion dieser vermittelnden Prozesse liefern, die sich aus der Aufnahme der Information an der Rezeptoroberfläche, der Informationsweiterleitung und -verarbeitung (z. B. Reizidentifikation und Reaktionsselektion) sowie der Vorbereitung und Ausführung der motorischen Antwort zusammensetzen. RZen werden üblicherweise auf eine Millisekunde genau gemessen. Zahlreiche der heute bekannten Effekte auf die RZ liegen in der Größenordnung von unter hundert, teilweise von wenigen Millisekunden (z. B. Meyer & Schvaneveldt, 1971). Die aus der (über Durchgänge und Vpn) wiederholten Erhebung von RZen resultierende RZ-Verteilung lässt sich durch verschiedene Kennwerte
charakterisieren. Die wichtigsten sind die Maße für die zentrale Tendenz, also Mittelwert und Median. Unterschiede in diesen Kennwerten werden standardmäßig durch Varianzanalysen, t-Tests und ähnliche Verfahren inferenzstatistisch abgesichert. Aber auch die Varianzen selbst, die Schiefe einer Verteilung oder ihre Multimodalität können zum Gegenstand der Analyse gemacht werden (z. B. Luce, 1986). Für die Erhebung der RZ kann jeder Effektor benutzt werden, dessen Bewegungen oder Bewegungsprodukte beobachtet oder aufgezeichnet werden können, also etwa Hände, Finger, Augen und die Effektoren des Sprechapparats. Anstelle der offenen Reaktion können auch die dieser vorangehenden Muskelspannungen im Elektromyogramm gemessen werden. Bei Hand- oder Fingerreaktionen müssen üblicherweise Tasten gedrückt oder Schalter, Hebel oder Räder bewegt werden. Die Dauer vom Beginn des zu beantwortenden Reizes bis zu dieser Lageveränderung dient als RZ. Seltener werden auch Lageveränderungen der Effektoren selbst oder Veränderungen ihres Drucks an Objekten als Reaktion gewählt. Mit der Möglichkeit zur Aufzeichnung vollständiger Bewegungen im zwei- oder dreidimensionalen Raum und über die Zeit ergeben sich weitere Verfahren. Man kann etwa Reaktionen messen, die über eine zurückgelegte Distanz in einer bestimmten Richtung, ein Geschwindigkeitskriterium, ein Beschleunigungskriterium oder eine Kombination dieser Kriterien definiert sind. Bei der Reaktionszeit des Auges zur Ausführung einer schnellen, sprunghaften Blickbewegung (Sakkade) können alle diese Kriterien verwendet werden. Bei Sprechreaktionen (engl. vocal responses) wird in der Regel mithilfe eines Stimmschlüssels (engl. voice key) der Zeitpunkt ermittelt, zu dem das Sprechsignal einen definierten Schalldruck erreicht. Weiterhin lassen sich bei vielen Reaktionen der Zeitpunkt des Bewegungsbeginns (engl. initiation time) und die Zeit, bis die Bewegung ihr Ziel erreicht hat (engl. movement time), getrennt erfassen. 1.2. Kompatibilität Die absoluten RZen können je nach Reaktionsart und Messverfahren erheblich variieren. Ein wichtiger Unterschied zwischen Re-
13. Spezielle Verfahren IV: Reaktionszeitmessung
aktionsarten resultiert aus dem Umstand, dass die Beziehung zwischen dem Reiz und der Reaktion mehr oder minder eng sein kann. Enge Beziehungen (kompatible ReizReaktions-Paarungen) lassen sich durch hohe Ähnlichkeit oder räumliche Übereinstimmung von Reiz- und Reaktionsmerkmalen bzw. -konsequenzen erreichen. Beispiele sind das Nachsprechen von auditiv gebotenen Wörtern (engl. shadowing) und der Tastendruck auf eine aufleuchtende Taste (Überblicke bei Hommel, 1990; Kornblum, 1992). Neben solchen „natürlichen“ Verwandtschaften kann Kompatibilität auch das Ergebnis ausgedehnter Übung sein, wie z. B. beim lauten Lesen geschriebener Wörter (Fraisse, 1969). Die RZ wird unter kompatiblen Bedingungen in der Regel niedriger sein als wenn die Beziehung zwischen Reiz und Reaktion allein durch die Instruktion gestiftet wird oder sie weniger geübt ist. Weiterhin wirkt sich die Zahl der alternativen Reaktionen weniger stark auf die RZ aus als bei nichtkompatiblen Zuordnungen. Der Faktor der Kompatibilität ist ein allgemeines methodisches Problem von RZ-Experimenten, weil die Experimentierenden durch die Wahl einer bestimmten Reiz-Reaktions-Zuordnung einen Grad der Kompatibilität festlegen; selbst dann, wenn dieser Faktor in der Untersuchung nicht thematisiert wird. Wenn die interessierenden Faktoren mit der Kompatibilität statistisch interagieren, kann es sein, dass die Ergebnisse in anderen Experimenten mit einer abweichenden ReizReaktions-Zuordnung nicht replizierbar sind. Zwar hat sich empirisch gezeigt, dass die Kompatibilität sich zum Effekt vieler in der RZ-Forschung interessierender Faktoren additiv verhält (Sanders, 1990). Dennoch empfiehlt es sich generell, RZ-Daten mit Reiz-Reaktionszuordnungen unterschiedlicher Kompatibilität zu replizieren, um ihre Generalisierbarkeit sicherzustellen. 1.3. Reaktionszeit und physiologische Indikatoren Bis vor einigen Jahrzehnten waren RZen die einzigen exakten Maße, die Information über den Zeitbedarf von Verarbeitungsprozessen lieferten. Inzwischen sind physiologische Latenzmaße hinzugetreten (vgl. Kapitel 11, 12). Sie ergänzen RZ-Daten und liefern direktere Einblicke in die Komponenten, aus denen sich die Gesamt-RZ zusammensetzt; sie können RZ-Daten aber nicht ersetzen. Die meisten der bildgebenden Verfahren erlauben zum
191 gegenwärtigen Zeitpunkt keine sehr genaue Bestimmung des Momentes, zu dem sich die Aktivität verändert. Positronenemissionstomographie (PET) und funktionelle Kernspintomographie (functional Magnetic Resonance Imaging; fMRI) beispielsweise haben eine recht geringe zeitliche Auflösung. Verfahren wie Einzelzellableitungen, Elektroenzephalographie (EEG), Magnetoenzephalographie (MEG) und Dopplersonographie verfügen über größere zeitliche Genauigkeit. Auch ihnen gegenüber hat die RZ aber verschiedene Vorteile. RZen lassen sich nicht nur mit geringerem apparativem Aufwand messen und einfacher auswerten, sondern sie liefern auch spezifische Informationen, die den physiologischen Messwerten nicht ohne weiteres zu entnehmen sind. Kennwerte der zentralen Tendenz (Mittelwerte, Mediane) der RZ-Verteilung können nicht nur Unterschiede der Verarbeitungszeit zwischen verschiedenen Bedingungen belegen, sondern auch zur Bestimmung der Richtung dieser Differenzen verwendet werden. Eine RZ-Verlängerung weist auf geringere Effizienz der Verarbeitung oder höhere Beanspruchung der beteiligten Mechanismen hin, eine Verkürzung ist als Effizienzsteigerung oder geringere Beanspruchung zu interpretieren. Damit bietet die RZ, ähnlich wie der Anteil fehlerhafter Reaktionen als abhängige Variable, die unmittelbare Grundlage für die inhaltliche Analyse der Daten (Kosten und Nutzen). Richtungsunterschiede können zwar auch mit anderen abhängigen Variablen festgestellt werden, etwa Amplituden oder Latenzen von EEG-Komponenten. Der Unterschied zwischen mittleren RZen ist aber ein Kriterium mit hoher Sinnfälligkeit. Es wäre widersinnig, eine Verlängerung der RZ als Hinweis auf eine Erleichterung der Verarbeitung oder eine kürzere RZ als Beleg für komplexere Verarbeitungsprozesse zu interpretieren. Die Interpretation beispielsweise höherer oder niedrigerer Amplituden von EEG-Komponenten ist dagegen weniger offensichtlich. Des Weiteren lassen sich Reaktionszeitdaten, wie in den folgenden Abschnitten beschrieben wird, so aufbereiten, dass sie Einsichten in strukturelle und funktionelle Aspekte der Informationsverarbeitung erlauben. Historisch gründet sich die Beliebtheit der RZ als abhängige Variable allerdings in der Tat darauf, dass sie lange Zeit die einzige Möglichkeit bot, den Zeitbedarf psychischer Prozesse zu messen. Von Anfang an galt dabei das besondere Interesse einer Analyse der
192
II. Methoden der Psycholinguistik
Teilprozesse, die in die RZ eingehen. Zunächst wurde das mit der von Donders (1868) eingeführten Subtraktionsmethode versucht (vgl. 2), an deren Stelle in der modernen Kognitionspsychologie die Methode der additiven Faktoren (Sternberg, 1966, 1969) trat (vgl. 3). Gegenwärtig ist eine Diskussion über die Voraussetzungen dieser Methode im Gang, wobei dem ihr zugrunde liegenden linearen Stufenmodell inzwischen Modelle paralleler, kontinuierlicher Verarbeitung entgegengestellt werden. Des Weiteren haben sich Aufgabenfaktoren als bestimmender erwiesen, als es dieses Modell voraussetzt (vgl. 4). Die Hoffnung, mithilfe von RZ-Messungen die Architektur des menschlichen Verarbeitungssystems zu erschließen, scheint sich damit nicht zu erfüllen. Eine Bewertung der Leistungsfähigkeit der RZ-Messung (vgl. 5) zeigt, dass sie dennoch ein beträchtliches Erkenntnispotential hat.
2.
Die Subtraktionsmethode
2.1. a-, b- und c-Reaktionen Die bekannteste ältere Methode zur Analyse mittlerer RZen ist die Subtraktionsmethode, die von Donders (1868) entwickelt wurde. Donders arbeitete mit drei Aufgabentypen, die er a-, b- und c-Reaktion nannte und denen jeweils bestimmte Kombinationen von psychischen Teilprozessen entsprechen sollten. Die a-Reaktion (einfache Reaktion, engl. simple reaction) ist eine vereinbarte Bewegung auf das Erscheinen eines vorab bekannten Reizes; z. B. ein Tastendruck auf das Aufleuchten eines Lichtsignals hin. Da jeder gebotene Reiz reaktionsrelevant ist und nur eine einzige mögliche Reaktion vorkommt, muss nur entschieden werden, dass ein Reiz geboten wurde. Es ist hingegen nicht erforderlich, den Reiz zu diskriminieren oder zwischen alternativen Reaktionen zu wählen. Der a-Reaktion entspricht kein einzelner Teilprozess. Sie umfasst die Aufnahme der Sinnesinformation und ihre Weiterverarbeitung bis zu dem Moment, zu dem erkannt wird, dass ein Signal geboten wurde, sowie die Gesamtzeit, die zum Einleiten und zur Ausführung der motorischen Reaktion notwendig ist. Weil diese Gesamtzeit mithilfe der Subtraktionsmethode nicht in ihre Komponenten zerlegt werden kann, dient die a-Reaktion als Vergleichsmaß. Bei der b-Reaktion (Wahlreaktion, engl. choice reaction oder disjunctive reaction)
muss bestimmt werden, welcher von zwei oder mehr möglichen Reizen erschien und mit der ihm zugeordneten Reaktion geantwortet werden. Sie erfordert also eine Unterscheidung und eine Wahl zwischen Alternativen, etwa das Drücken einer Taste bei der Darbietung eines Wortes und das Drücken einer anderen Taste als Antwort auf die Darbietung einer sinnlosen Buchstabenfolge (lexikalische Entscheidungsaufgabe, engl. lexical decision task; Meyer & Schvaneveldt, 1971). b-Reaktionen dauern generell länger als a-Reaktionen. Wie bereits Merkel (1885) fand, ist die RZ eine Funktion der Zahl der Alternativen. Sie wächst linear mit dem Logarithmus der Alternativenzahl. Dieser Zusammenhang ist in der modernen Kognitionspsychologie von Hyman (1953) und Hick (1952) beschrieben worden und wird oft als das Hick’sche Gesetz bezeichnet. Bei der c-Reaktion (Unterscheidungsreaktion, engl. discriminatory reaction, heute meist go/nogo task genannt) gibt es ebenfalls mehrere alternative Reize. Allerdings muss nur auf einen der Reize reagiert werden, während auf den oder die anderen keine Antwort erfolgen soll. Nach Donders (1868) erfordert die c-Reaktion nur eine Unterscheidung zwischen den Reizen, aber keine Wahl der Reaktion, da diese ja wie bei einer a-Reaktion feststeht. 2.2. Die Logik der Subtraktionsmethode Durch Subtraktion der mittleren RZen in den verschiedenen Aufgaben kann nach Donders der zeitliche Bedarf der unterstellten Teilprozesse der Unterscheidung und der Wahl ermittelt werden (daher der Name „Subtraktionsmethode“). So soll die RZ-Differenz zwischen c- und a-Reaktion der Dauer der Unterscheidung zweier Reizalternativen entsprechen, denn die Vp muss hier zwischen den Reizen diskriminieren, braucht aber dann, wenn sie den mit der Reaktion verknüpften Reiz identifiziert hat, nur noch die bereits vorbereitete Reaktion auszulösen. Nach derselben Logik sah Donders die Differenz zwischen b- und c-Reaktionszeiten als den Zeitbedarf für die Wahl einer Reaktion an. Die Logik der Subtraktionsmethode ist nicht auf diese Aufgabentypen beschränkt, sondern lässt sich immer dann einsetzen, wenn in eine Aufgabe eine zusätzliche Anforderung eingefügt werden kann. So entwarf Wilhelm Wundt ein erheblich komplexeres Modell stufenweise komplizierterer Leistungen (Wundt, 1903). Die Subtraktionsmethode
13. Spezielle Verfahren IV: Reaktionszeitmessung
stellt mit dieser eleganten Logik wohl eines der einfachsten mathematischen Modelle dar, welche die Psychologie entwickelt hat (Prinz, 1972: 241). Die empirische Forschung kennt zahlreiche Beispiele für Verhältnisse, die dieser Logik entsprechen. Am offensichtlichsten ist die Beobachtung, dass die RZ mit der Zahl der Teilschritte wächst, die eine Aufgabe umfasst: Beispielsweise führte Saul Sternberg eine Gedächtnissuch-Aufgabe (engl. memory search task; Sternberg, 1966, 1969) ein, in der die Vp zu entscheiden hat, ob ein Testreiz (etwa eine Ziffer) in einem kurz vor diesem dargebotenen, unterschiedlich großen Ensemble von Reizen (engl. memory set) enthalten ist, das die Vp im Gedächtnis bereithält. Sternberg fand, dass zwischen der mittleren RZ und der Größe des Gedächtnis-Ensembles eine lineare Beziehung besteht. Im Sinne der Subtraktionsmethode ist dies ein Beleg dafür, dass pro zusätzlicher Ziffer eine weitere Vergleichsoperation nötig wird und sich die Dauer dieser Operation durch Subtraktion schätzen lässt. (Spätere Untersuchungen haben diesen linearen Zusammenhang nicht immer bestätigt, aber doch zumindest eine monotone Abhängigkeit der RZ von der Zahl der im Gedächtnis gehaltenen Elemente gefunden; s. z. B. Corballis, 1975.) 2.3. Das Schicksal der Subtraktionsmethode Im Gefolge der Arbeit von Donders und der Übernahme seines Ansatzes durch Wundt entfaltete sich in den anschließenden Jahrzehnten eine breite RZ-Forschung. Die Versuchsanordnungen waren allerdings oft um einiges weniger restriktiv, als die Subtraktionsmethode es vorsieht. Zumeist wurde in einfaktoriellen Versuchsplänen untersucht, wie die Latenz von Reaktionen von verschiedenen Faktoren abhängt (etwa Reizqualität, -intensität oder -dauer; die Frage, ob auf den Beginn oder das Ende eines Reizes reagiert werden soll; Motivation, Adaptation, Übung und ähnliches). Zusammenfassungen des Forschungsstandes bis 1950 finden sich in Woodworth und Schlosberg (1954). Die RZForschung bis Ende der siebziger Jahre ist in Welford (1980) dokumentiert. In den ersten Jahrzehnten des Zwanzigsten Jahrhunderts verlor die RZ-Forschung vorübergehend ihre Bedeutung. In Deutschland wurde die klassische Psychophysik durch die Gestalttheorie abgelöst, der die Subtraktionsmethode aufgrund ihres elementaristischen Ansatzes suspekt war und deren phänomeno-
193 logischem Ansatz die RZ-Messung überhaupt fern lag. Der amerikanische Behaviorismus legte den Schwerpunkt auf Tierexperimente, in denen zwar die Antwortlatenz (engl. response latency; dieser Begriff löste damals den der reaction time ab) eine gewisse Rolle spielte, in denen die hauptsächlich verwendete abhängige Variable allerdings die Reaktionshäufigkeit war. Dass die Subtraktionsmethode kaum noch verwendet wurde, lag auch daran, dass es zu ihrer Anwendung einiger zusätzlicher Annahmen bedarf, die sich als problematisch erwiesen. Für die Interpretation jeglicher Unterschiede zwischen mittleren RZen gilt, dass der Schluss von einer kürzeren RZ auf eine kürzere Verarbeitungsdauer nur dann erlaubt ist, wenn kürzere RZen nicht etwa durch weniger exakte Leistungen bedingt sind (engl. speed-accuracy trade-off). Findet man zwischen zwei Versuchsbedingungen Unterschiede in der mittleren RZ, dann muss deshalb routinemäßig geprüft werden, ob nicht die längeren RZen mit einer geringeren Fehlerrate einhergehen. Bereits eine geringfügige Änderung des Reaktionskriteriums kann erhebliche Auswirkungen auf die mittlere RZ haben (z. B. Wickelgren, 1977). Die dem trade-off zugrundeliegende Logik wurde in der Signalentdeckungstheorie (engl. Signal Detection Theory, SDT; Green & Swets, 1966) formalisiert. Dieser Theorie zufolge kann eine Vp die Höhe des Kriteriums zur Reaktionsausführung variieren. Bei niedrigem Kriterium genügt ein geringerer Grad an Bestätigung dafür, das Bestehen eines bestimmten Sachverhaltes anzuzeigen. Die zur korrekten Ausführung der Aufgabe erforderliche Verarbeitungsdauer wird in diesem Falle nicht oder nicht immer abgewartet. Es kommt zu einer Verkürzung der RZ, die aber weder geringere Verarbeitungsanforderungen noch eine höhere Effizienz der Verarbeitung widerspiegelt. Aus diesem Grund werden mittlere Reaktionszeiten häufig unter mehreren Bedingungen erhoben, in denen je unterschiedlich genaue Reaktionen gefordert werden. Dann lassen sich Geschwindigkeits-Genauigkeits-Funktionen bilden, deren Merkmale, z. B. Steigung und Asymptote, über verschiedene Bedingungen miteinander verglichen werden können (z. B. McClelland, 1979; McElree, Dolan & Jacoby, 1999). Eine spezifischere Annahme der Subtraktionsmethode ist, dass in einzelnen Aufgaben ganze Teilprozesse getilgt oder umgekehrt eingesetzt werden können – die sogenannte
194
II. Methoden der Psycholinguistik
Annahme der reinen Einfügung (engl. pure insertion). Auf dieses Problem hat beispielsweise Sternberg (1969) aufmerksam gemacht und deshalb die Subtraktionsmethode verworfen. Er nahm damit eine Kritik auf, die bereits von Wundt und seinem Schüler Lange (1888) diskutiert worden war. Lange hatte gefunden, dass es bei a-Reaktionsaufgaben zu sogenannten verkürzten Reaktionen kommen kann, bei denen die Reaktion ausgelöst wird, bevor die Vp den Reiz bewusst wahrgenommen hat. Da verkürzte Reaktionen nach den Beobachtungen Langes bei c-Reaktionsaufgaben nicht auftreten, sah er es als problematisch an, die Unterscheidungszeit durch die Differenz zwischen c- und a-Reaktionen zu bestimmen. In der modernen Forschung wird die Gültigkeit des Postulates reiner Einfügung als empirische Frage angesehen (z. B. Ashby, 1982; Ulrich, Mattes & Miller, 1999). Problematisch ist an der Subtraktionsmethode schließlich auch, dass sie die Existenz und Funktion einzelner Teilprozesse nicht zum Untersuchungsgegenstand machen kann. Im Gegenteil: Ihre Anwendung setzt voraus, dass Stufen oder Teilprozesse im Vorhinein bekannt sind bzw. definiert werden. An diesen Kritikpunkten setzt ein alternatives Verfahren zur Analyse mittlerer RZen an: Sternbergs (1966, 1969) Methode additiver Faktoren.
3.
Die Methode additiver Faktoren
3.1. Die Logik der AFM Als in der zweiten Hälfte des Zwanzigsten Jahrhunderts der Behaviorismus seine herrschende Stellung verlor und die Psychologie der Informationsverarbeitung entstand (Broadbent, 1958; Neisser, 1967; Sanders, 1971), erlebte die Untersuchung psychischer Teilprozesse oder Verarbeitungsstufen durch RZMessungen eine Renaissance. Mit der Methode additiver Faktoren (engl. Additive Factors Method, AFM) entwickelte Sternberg (1966, 1969) ein Verfahren zur Analyse von mittleren RZen. Sie hat das Ziel, Verarbeitungsstufen des kognitiven Systems zu erschließen, ohne sie vorab als bekannt vorauszusetzen. Sternbergs Verfahren beruht nur auf der Annahme, dass bestimmte Verarbeitungsstufen sich selektiv durch unabhängige Variablen beeinflussen lassen. (Es wird deshalb manchmal auch als „method of selective influence“ bezeichnet.) Hingegen wird nicht vorausgesetzt, dass sich durch experimentelle
Manipulationen Verarbeitungsstufen tilgen oder einfügen lassen, ohne dass dies etwas an der Verarbeitung auf den übrigen Stufen ändert. Konsequenterweise interessiert sich dieser Ansatz nicht für die – theoretisch wenig belangvollen – absoluten mittleren Dauern von Operationen, sondern für deren Abhängigkeit von experimentellen Manipulationen. Die Anwendung der AFM verlangt, dass zumindest zwei mindestens zweistufige unabhängige Variablen (Faktoren) manipuliert werden (mehrfaktorielles varianzanalytisches Design). In einem lexikalischen Entscheidungsexperiment könnte man beispielsweise die Worthäufigkeit auf zwei Stufen (seltene und häufige Wörter) und die Deutlichkeit der Wörter auf ebenfalls zwei Stufen (deutliche und durch Maskierung undeutlich gemachte Wörter) variieren (z. B. Plourde & Besner, 1997; s. Abschn. 3.2). Die RZ-Daten werden einer Varianzanalyse unterzogen, wobei das Augenmerk besonders darauf gerichtet wird, ob zwei Faktoren miteinander interagieren oder additive Auswirkungen auf die RZ haben. (Die Fehlerdaten werden selten berücksichtigt, von der routinemäßigen Überprüfung eines möglichen trade-offs abgesehen. Obwohl dies manchmal versucht wurde, lassen sich Fehlerdaten nicht mit der AFM analysieren!) Für die Interpretation der Befunde bietet die AFM zwei Hauptregeln an, die sich auf unterschiedliche Ergebnismuster beziehen. Die erste Regel besagt, dass zwei Faktoren, die additive Effekte zeigen, auf zwei verschiedenen Stufen in den Verarbeitungsprozess eingreifen. Daher kann man aus dieser Additivität auf mindestens zwei beteiligte Stufen schließen. Wenn – dies ist die zweite Schlussregel – zwei Faktoren hingegen interaktive Effekte zeigen, dann heißt dies, dass es mindestens eine Stufe gibt, auf der beide Faktoren gemeinsam wirken. Mithilfe der ersten Regel lässt sich die Mindestzahl der Verarbeitungsstufen in der operationalisierten Aufgabe bestimmen. Die zweite Regel liefert Kriterien zur inhaltlichen Interpretation einzelner Stufen. Keine Anhaltspunkte bietet das Verfahren zur Bestimmung der genauen Sequenz, in der Verarbeitungsstufen aufeinander folgen, und zur Bestimmung der Gesamtzahl beteiligter Stufen. Der Erkenntniswert von Experimenten, in denen die Wirkung zweier Faktoren überprüft wird, ist begrenzt, und Sternberg selbst betont, dass er die AFM insbesondere dort für angebracht hält, wo zusätzlich zu den
13. Spezielle Verfahren IV: Reaktionszeitmessung
Wirkungen zweier bekannter additiver Faktoren ein dritter Faktor eingeführt wird (Sternberg, 1969: 285 f.). Die Schlusslogik folgt hier grundsätzlich denselben Regeln: Ein zusätzlicher Faktor, der sich zu einem Paar additiver Faktoren selbst wieder additiv verhält, ist ein Hinweis auf eine weitere Stufe der Verarbeitung. Neben den paarweisen Interaktionen lassen sich nun auch solche höherer Ordnung prüfen. Diese führen zu erheblich komplizierteren Modellen und verlangen unter Umständen weitere Konkretisierungen, um die Daten interpretieren zu können. (In bestimmten Fällen wird aus dem Vorliegen von additiven Wirkungen übrigens nicht auf verschiedene Stufen geschlossen. Sternberg plädiert für eine solche Ausnahme vor allem dann, wenn weitere Faktoren mit beiden oder keinem von beiden interagieren, hält das aber nicht für den Normalfall (Sternberg, 1969: 282).) Sanders (z. B. 1990), und seine Schüler (z. B. Molenaar & van der Molen, 1986) haben sich besonders eingehend mit der Logik der AFM befasst. 3.2. Semantisches Priming als Beispiel für die Anwendung der AFM Sternberg verwendete die AFM hauptsächlich zur Untersuchung von Gedächtnisaufgaben (Sternberg, 1966, 1969). Damit mag es zusammenhängen, dass die Methode in der Psycholinguistik vor allem zur Untersuchung der Worterkennung eingesetzt wurde: Um gelesene oder gehörte Wörter zu erkennen, müssen sie mit einer Gedächtnisrepräsentation verglichen werden (z. B. Morton, 1969). Zur Veranschaulichung der AFM soll ein Beispiel aus dem Bereich des semantischen Primings (engl. semantic priming; Meyer & Schvaneveldt, 1971) dienen. Beim semantischen Priming geht ein Prime- oder Kontextwort einem Zielreiz (zumeist ebenfalls ein Wort) voraus (z. B. Neely, 1991). Der Zielreiz ist reaktionsrelevant: Er muss z. B. ausgesprochen werden (z. B. Brodeur & Lupker, 1994), als Wort oder Nicht-Wort klassifiziert werden (lexikalische Entscheidung, engl. lexical decision; z. B. Meyer & Schvaneveldt, 1971) oder in Bezug auf seine semantische Nähe zum Primewort oder zu einer anderen Kategorie beurteilt werden (z. B. Balota & Paul, 1996). Das Primewort dient hingegen nur der Vorbereitung der Zielreizverarbeitung. Das typische Ergebnis sieht folgendermaßen aus: Je bedeutungsähnlicher Prime- und Zielwort
195 sind, umso stärker wird die RZ auf den Zielreiz verkürzt, was in der Regel als Erleichterung von dessen Verarbeitung interpretiert wird. So wird z. B. das Zielwort „Rotkehlchen“ (engl. „robin“) nach dem Primewort „Vogel“ (engl. „bird“) schneller beantwortet als nach dem Primewort „Körper“ (engl. „body“) (Neely, 1977). Der Name „semantisches Priming“ rührt daher, dass der Effekt ursprünglich vornehmlich auf hypothetische Konstrukte wie die Aktivierung von Verbindungen zwischen Einträgen im mentalen Lexikon zurückgeführt wurde (z. B. Meyer & Schvaneveldt, 1971). Inzwischen ist klar, dass verschiedene Varianten des semantischen Primings diese Interpretation nur bedingt erlauben (z. B. Neumann, 1990). Sofern semantische Primingeffekte dem mentalen Lexikon zugeschrieben werden, dürfen sie außerdem nicht immer als Ausdruck automatischer Aktivierungen verstanden werden (z. B. Neely, 1977; Smith, Besner & Miyoshi, 1994). Einige Erkenntnisse über die Mechanismen des semantischen Primings sind der Anwendung der AFM zu verdanken. Bei lexikalischen Entscheidungen zeigen sich drei typische Muster des Zusammenwirkens verschiedener Faktoren. Die Stärke semantischen Primings interagiert erstens mit der visuellen Deutlichkeit (Becker & Killion, 1977; Balota & Paul, 1996) und zweitens mit der Häufigkeit des Zielwortes (Becker, 1976; Borowsky & Besner, 1993). Undeutliche (engl. degraded) und seltene Wörter führen zu höheren RZen als deutliche und häufige. Die Interaktion besteht darin, dass ein semantischer Primingeffekt bei undeutlichen und seltenen Wörtern größer ist als bei deutlichen und häufigen. Interessanterweise sind die Effekte von Deutlichkeit und Häufigkeit hingegen additiv (Plourde & Besner, 1997; Stanners, Jastrzembski & Westbrook, 1975). Der Logik der AFM zufolge belegt dieses Muster, dass Deutlichkeit und semantische Nähe sowie Häufigkeit und semantische Nähe jeweils dieselbe, Deutlichkeit und Häufigkeit hingegen unterschiedliche Verarbeitungsstufen beeinflussen. Die zuletzt genannten additiven Effekte weisen auf mindestens zwei an der Verarbeitung beteiligte Stufen hin. Deutlichkeit wirkt vermutlich auf eine frühe Stufe perzeptiver Verarbeitung (engl. feature extraction; Sanders, 1990). Die Häufigkeit von Wörtern könnte hingegen die Stufe zur Entscheidung über eine bestimmte Antwort betreffen, in Form einer Tendenz der
196
II. Methoden der Psycholinguistik
Vp, in der lexikalischen Entscheidungsaufgabe bei einem häufigen Wort eher die Antwort „ja“ zu wählen als bei einem seltenen (z. B. Neumann, 1990). Die Interaktion der Faktoren mit semantischer Nähe lässt außerdem vermuten, dass die Bedeutungsverwandtschaft der Wörter auf beiden Stufen wirksam wird (Borowsky & Besner, 1993). Die AFM kann wie die Subtraktionsmethode hinsichtlich ihrer impliziten Annahmen kritisiert werden. In Bezug auf die inferenzstatistischen Grundlagen wurde z. B. eingewandt, dass additive Wirkungen durch das Beibehalten der Nullhypothese (in Bezug auf eine mögliche Interaktion) belegt werden, so dass der Schluss auf additive Faktoren umso wahrscheinlicher ist, je stärker die Daten mit Fehlervarianz belastet sind. Diesem Einwand ließe sich dadurch begegnen, dass man weitere statistische Kriterien für Additivität heranzieht, beispielsweise die Power oder Tests auf Gleichheit (z. B. Londeree, Speckman & Clapp, 1990). Andere Kritikpunkte haben zu theoretisch fundierten, alternativen Interpretationsmöglichkeiten für die empirischen Befunde geführt. Diese Alternativen zur AFM und dem mit ihr verknüpften Stufenmodell werden im folgenden Abschnitt (4) beschrieben.
4.
Parallele Verarbeitung, kontinuierlicher Informationsfluss und Verarbeitungsstrategien
4.1. Serielle oder parallele Verarbeitung? Ein Kern der AFM ist die Annahme strikter Serialität der Verarbeitung, die dem zugrundeliegenden Modell die Bezeichnung „serial stage model“ eingetragen hat. Dieses Modell schließt jede zeitliche Überlappung von Verarbeitungsstufen aus: Die Stufen sind untereinander nur dadurch verbunden, dass der Output einer Stufe ⫺ ein interner Code, mit dessen Erreichen die Verarbeitung in ihr abgeschlossen ist ⫺ zugleich der Input in eine einzige anschließende Stufe ist. Negativ formuliert: Es ist nicht vorgesehen, dass der Output einer Stufe in mehrere anschließende Stufen gelangt, in denen die Verarbeitung parallel fortschreitet, um am Ende (spätestens bei der offenen Reaktion) wieder zu konvergieren. Würde eine solche Möglichkeit zugelassen, dann wäre der Logik der AFM der Boden entzogen. Bestünde zwischen zwei solchen parallelen Stufen beispielsweise ein „Wettlauf“ (die jeweils schnellere liefert als
einzige den Input in die gemeinsame nachgeschaltete Stufe), dann würden zwei Faktoren, von denen jeder nur auf die Dauer einer dieser beiden Stufen einwirkt, dennoch statistisch miteinander interagieren (z. B. dann, wenn der eine Faktor die Verarbeitung in Stufe A beschleunigt und der andere die Verarbeitung in Stufe B verlangsamt). Aus einer Interaktion zwischen zwei Faktoren könnte somit nicht mehr geschlossen werden, dass sie eine gemeinsame Verarbeitungsstufe beeinflussen. Angesichts der massiv parallelen Verarbeitung im zentralen Nervensystem, wie sie bereits dessen Anatomie mit ihren zahlreichen parallelen Verarbeitungssträngen zeigt, war diese Annahme einer strikten Serialität nie wirklich plausibel. Jedoch war die Logik der AFM an sie gebunden, und gut replizierbare Befunde, in denen immer wieder additive Effekte bestimmter Faktoren gefunden wurden (z. B. von Kompatibilität und Alternativenzahl; Überblick bei Sanders, 1980) gaben ihr eine empirische Grundlage. Bis in die achtziger Jahre wurde die Idee serieller Stufen auch durch einige der technischen Analogien nahegelegt, die damals die Psychologie der Informationsverarbeitung prägten (s. z. B. Neisser, 1976; Neumann, 1985). Die Bewertung des Gedankens serieller Stufen änderte sich fast schlagartig mit dem Aufkommen konnektionistischer Modelle in der ersten Hälfte der achtziger Jahre, das den Charakter einer breiten theoretischen Neuorientierung hatte (s. z. B. Kessler, Duwe & Strohner, 1999; McClelland & Rumelhart, 1981; Neumann, 1992). Die zeitliche Überlappung von Verarbeitungsprozessen oder -stufen wurde in diesen Ansätzen als ein selbstverständliches Merkmal der zu modellierenden Verarbeitungsprozesse betrachtet, die biologische Plausibilität beanspruchen. Beispiele sind die Theorie paralleler verteilter Verarbeitung (engl. Parallel Distributed Processing, PDP; McClelland & Rumelhart, 1986) und cascading-Modelle (Miller, 1988, 1993). Tatsächlich machen synaptische Eigenschaften des menschlichen Nervensystems – beispielsweise die Rückwirkung von Neuronen auf vorangehende, auf sie projizierende Neurone – die Existenz von Rückkopplungsschleifen in der kognitiven Verarbeitung wahrscheinlich. Information kann hiernach nicht nur in eine Richtung weitergegeben werden, sondern auch auf bereits durchlaufene Verarbeitungsstufen zurückwirken und deren Output verändern. Die von der AFM
13. Spezielle Verfahren IV: Reaktionszeitmessung
geforderte strikte Serialität wäre durch solche Mechanismen aufgehoben. Die massive Parallelität der Verarbeitung im Nervensystem impliziert darüber hinaus die Möglichkeit, dass unterschiedliche Teilsysteme zugleich dieselbe Information verarbeiten und ihr Output erst später integriert wird; auch dies, wie schon erwähnt, im Gegensatz zu den Grundannahmen der AFM. Allerdings ist zu bedenken, dass in parallelen Verarbeitungsmodellen die größere biologische Plausibilität mit einer höheren Zahl von Freiheitsgraden erkauft wird. Durch die große Zahl von Freiheitsgraden lassen sich solche Modelle nahezu jedem Datensatz anpassen; sie sind, wie es ein Kritiker formuliert hat, „too powerful to be meaningful“ (Massaro, 1988: 213). Mathematisch kann zwischen seriellen und parallelen Modellen nicht unterschieden werden (Pieters, 1983; Smith, 1980). Zudem lassen sich parallele RZ-Modelle zumeist durch serielle simulieren, während das Umgekehrte nicht gilt (Townsend, 1971). Insbesondere additive Wirkungen lassen sich nach wie vor nur durch die Annahme unabhängiger Prozesse erklären (McClelland, 1979). Möglicherweise ist die Frage, ob „die Verarbeitung“ seriell oder parallel organisiert sei, zu undifferenziert gestellt. Es könnte sein, dass die Fälle von Additivität, die von der AFM zutage gefördert wurden, weniger auf eine serielle Architektur des Verarbeitungssystems hinweisen als vielmehr auf die Art und Weise, wie die Teilschritte organisiert sind, mit denen die Aufgabe gelöst wird. Wenn beispielsweise mit der Aktivierung einer Reaktion gewartet wird, bis genügend Information über den Reiz gesammelt ist, um alle Reaktionsalternativen bis auf eine zu eliminieren, dann sollten die Reaktionsauswahl (engl. response selection; die Entscheidung darüber, welche Reaktion ausgeführt wird) und die Reaktionsprogrammierung (engl. response programming; die Bereitstellung des entsprechenden motorischen Programms) seriell aufeinander folgen. Wenn andererseits die motorische Programmierung bereits zu einem Zeitpunkt beginnt, zu dem noch mehrere Reaktionsalternativen „im Spiel“ sind, dann würden Reaktionsselektion und Reaktionsprogrammierung einander überlappen. Wenn serielle und parallele Verarbeitungen eher Strategien der Aufgabenlösung sind als Merkmale der Architektur des Verarbeitungssystems, dann sollte man durch geeignete Instruktionen die eine oder die andere dieser
197 Strategien begünstigen können. Auf eine Verarbeitung nach dem Modell serieller Stufen kann man die Vp etwa dadurch einzustellen versuchen, dass die Zuordnung der Reaktionen zu den Reizen erst relativ spät nach dem zu verarbeitenden Signal bekannt gegeben wird; auf parallele Verarbeitung dadurch, dass ein erstes Signal bereits eine partielle Vorbereitung der Reaktion ermöglicht (etwa die Aktivierung der Hand, nicht aber des einzelnen Fingers; s. Smith, 1980: 190 f.). 4.2. Diskrete oder kontinuierliche Verarbeitung? Die Annahme strikter Serialität hat zur Minimalvoraussetzung, dass die Stufen des kognitiven Systems diskret organisiert sind. Diskrete Verarbeitungsstufen setzen die Weitergabe vollständiger Information von Stufe zu Stufe voraus. Innerhalb der AFM wird dies als das Postulat des konstanten Outputs von Stufen (engl. constant stage output) bezeichnet. Wird die Verarbeitung auf einer Stufe durch einen Faktor beeinflusst, dann wird sie nach den Annahmen der AFM verkürzt oder verlängert; aber die Qualität des Outputs wird dadurch nicht verändert. Die Verarbeitung auf einer gegebenen Stufe bleibt gewissermaßen gegen die auf sie folgenden Stufen abgeschottet, bis sie abgeschlossen ist. Dieser Annahme wurde ebenfalls widersprochen. Schon die Tatsache, dass Vpn ihre Reaktionsgenauigkeit der Reaktionsgeschwindigkeit zu opfern vermögen, belegt, dass zumindest auf der letzten Stufe der Verarbeitung, der Auslösung der offenen Reaktion, auf nur partiell verarbeitete Information zurückgegriffen werden kann. Jeder speed-accuracy trade-off stellt daher für die AFM ein besonderes Problem dar. Zahlreiche weitere Belege für kontinuierliche Informationsweitergabe wurden im Flankierreizparadigma (Eriksen & Eriksen, 1974) gefunden (z. B. Eriksen & Schultz, 1979; Coles, Gratton, Bashore et al., 1985). Beispielsweise finden sich im Elektromyogramm (Eriksen, Coles, Morris et al., 1985) und im lateralisierten Bereitschaftspotential (Gratton, Coles, Sirevaag et al., 1988) partielle Aktivierungen, die sich auf eine noch nicht abgeschlossene Identifikation des Reizes zurückführen lassen. Solche partiellen Voraktivierungen motorischer Antworten wurden zum Beispiel benutzt, um die Abfolge von Prozessen in der Sprachproduktion zu untersuchen. Van Turennout, Hagoort und Brown (1997) konnten zeigen, dass semantische, nicht aber phonologische Infor-
198 mation das lateralisierte Bereitschaftspotential beeinflusst, und interpretierten dieses Ergebnis als Beleg einer frühen semantischen Aktivierung und einer späteren phonologischen Enkodierung. 4.3. Struktur oder Funktion? In der klassischen Psychologie der Informationsverarbeitung war es ein zentrales Forschungsziel, die ⫺ der Annahme nach ⫺ weitgehend fest verdrahtete, funktionsinvariante Struktur des verarbeitenden Systems zu ermitteln. Die Informationsverarbeitung wurde als Informationsfluss „von unten nach oben“ (engl. bottom up) durch diese Architektur verstanden. Die AFM bot sich als Instrument zu ihrer Aufklärung an, weil der von ihr analysierte Verarbeitungsverlauf notwendigerweise vorwärts (bzw., in dieser Metapher, aufwärts) gerichtet ist (Sanders, 1990). Wie bereits erwähnt (vgl. Abschn. 4.1), kann man das Muster der Additivitäten und Interaktionen in einem Experiment mit der AFM aber auch anders interpretieren, nämlich als Hinweis nicht auf den Aufbau eines starren Verarbeitungssystems, sondern auf eine funktionelle Organisation, die zur Lösung einer bestimmten Aufgabe gewählt wird. Funktionsmerkmale, im Gegensatz zu Strukturmerkmalen, sollten von der Instruktion und von den Eigenschaften der Aufgabe abhängen, so wie die Vp sie im Lauf des Experiments kennenlernt. In der Tat gibt es Experimente, die zeigen, dass das Muster der Additivitäten und Interaktionen zwischen Faktoren je nach Aufgabenmerkmalen unterschiedlich ausfallen kann. Stolz und Neely (1995) fanden beispielsweise in einer lexikalischen Entscheidungsaufgabe mit semantischem Priming die oben (vgl. Abschn. 3.2) erwähnte übliche Interaktion zwischen Deutlichkeit und semantischer Nähe. Dies war aber nur in einer Versuchsbedingung der Fall, in der semantisch verwandte Prime-Zielwortpaare relativ häufig im Experiment vorkamen, wie das in der Regel in lexikalischen Entscheidungsexperimenten der Fall ist. Hingegen wirkten die beiden Faktoren additiv, wenn solche Paarungen selten waren. Es ist zu vermuten, dass nur in der ersten Bedingung die semantische Nähe von den Vpn absichtlich genutzt wurde, um die lexikalische Entscheidung zu treffen. Dann konnte schlechtere Deutlichkeit durch ein richtiges Raten aufgrund der semantischen Nähe kompensiert werden, und es ergab sich eine Interaktion zwischen diesen beiden Faktoren auf
II. Methoden der Psycholinguistik
der Stufe der Wortidentifikation. Ohne eine solche Strategie wirkte sich hingegen das semantische Priming vermutlich erst im Anschluss an die Wortidentifikation aus (etwa auf die Entscheidungsstufe; s. z. B. Neumann, 1990), was zu einer additiven Beziehung zwischen den beiden Faktoren führte. Ein Schluss aus der üblicherweise beobachteten Interaktion von Deutlichkeit und Priming auf invariante Eigenschaften der Systemstruktur ist demnach nicht statthaft. In ihr drückt sich ⫺ wenn die obige Interpretation richtig ist ⫺ zwar, wie von der AFM vorausgesetzt, der Umstand aus, dass die beiden Faktoren auf denselben Prozess wirken. Sie tun das aber nicht aufgrund der unveränderlichen Strukturmerkmale des Systems, sondern aufgrund einer durch die Aufgabe nahegelegten Strategie der (meisten) Vpn. Strategien und aufgabenspezifisch variierende Verarbeitungsmodi stellen also ein Problem für die Anwendung der AFM dar (für ausführlichere Diskussion s. z. B. Gopher & Sanders, 1984). Wie das Beispiel des Experiments von Stolz und Neely (1995) zeigt, müssen sie nicht notwendigerweise durch eine explizite Instruktion induziert werden. Sie müssen überhaupt nicht als experimentelle Faktoren manipuliert werden, um wirksam zu sein. Auch ohne dass sie explizit thematisiert werden, müssen Bedingungen wie die Wahrscheinlichkeit der Ereignisse im Experiment, randomisierte vs. geblockte Darbietung von Bedingungen, Wissentlichkeit oder Unwissentlichkeit der Vpn usw. festgelegt werden. Das Muster der Additivitäten und Interaktionen kann u. U. diese Festlegungen und die Art, wie die Vp strategisch auf sie reagiert, stärker widerspiegeln als eine festgefügte „Architektur“ des Verarbeitungssystems. 4.4. Dissoziationen Es wäre unzutreffend, die Strategieabhängigkeit der Verarbeitung nur als ein Problem für die AFM zu sehen. Sie ist zugleich ein neuer und aktueller Forschungsgegenstand, bei dessen Untersuchung die RZ-Messung weiterhin ihre Bedeutung hat, wenn auch eine geänderte. Ein Beispiel für diese neue Perspektive ist die Untersuchung scheinbar paradoxer Effekte der Art, dass derselbe Faktor sich mitunter förderlich und mitunter hinderlich auf die Verarbeitung auswirkt, je nachdem, wie ein anderer Faktor beschaffen ist („Dissoziationen“).
199
13. Spezielle Verfahren IV: Reaktionszeitmessung
In einer Untersuchung von Balota und Spieler (1999) mit Priming in einer lexikalischen Entscheidungsaufgabe war der in dieser Weise dissoziierende Faktor die wiederholte Darbietung von Wörtern. Sie beschleunigte die RZ, sofern es sich beim Zielreiz um ein Wort handelte. Für Nicht-Wörter fand sich hingegen eine Verlangsamung, wenn der Reiz wiederholt wurde (s. auch McKoon & Ratcliff, 1979). Balota und Spieler (1999) machen für diese Interaktion einen Prozess verantwortlich, den sie als „Geläufigkeitsprüfung“ (engl. familiarity check) bezeichnen. Demnach prüfen die Vpn zunächst, ob ihnen Prime und Zielreiz geläufig sind. Überschreitet der Geläufigkeitseindruck ein Kriterium auf der Geläufigkeitsskala (engl. familiaritymeaningfulness dimension), wird schnell positiv geantwortet, wird hingegen ein anderer, unterhalb des „Ja“-Kriteriums befindlicher kritischer Wert unterschritten, wird schnell negativ geantwortet. Ergibt die Einschätzung der Geläufigkeit einen zwischen den beiden Kriterien liegenden Wert, so muss der Reiz einer genaueren und zeitaufwendigen Analyse unterzogen werden. Da wiederholte Zielreize als geläufiger eingeschätzt werden als nicht wiederholte, bedingen Wiederholungen von Wörtern, dass eine größere Zahl der Wörter oberhalb des „Ja“-Kriteriums gelangt und also schnell mit einer positiven Reaktion beantwortet wird. Hingegen bedingt die erhöhte Geläufigkeit wiederholter Nicht-Wörter, dass diese seltener als unterhalb des „Nein“-Kriteriums liegend eingeschätzt werden, was eine weitere Analyse des Zielreizes und damit verlängerte RZen nach sich zieht. Im Einklang mit der Annahme, dass wiederholte Nicht-Wörter zwei Verarbeitungsschritte erforderlich machen, führt diese Bedingung zu einer höheren Zahl besonders langsamer Reaktionen. Das belegen die Autoren, indem sie nachweisen, dass die Wiederholung von Nicht-Wörtern neben den Mittelwerten auch die Schiefe der Verteilung, erhoben als das Maß Tau einer Exponentialverteilung (s. z. B. Luce, 1986), beeinflusst. Diese Dissoziation ist ein weiteres Beispiel dafür, dass die Logik der AFM nicht greift, denn die Interaktion zwischen den beiden Faktoren (Wiederholung und Wort/Nichtwort) geht nicht darauf zurück, dass diese auf dieselbe Verarbeitungsstufe einwirken. Sie beruht vielmehr auf der Beteiligung unterschiedlicher Verarbeitungsstufen je nachdem, ob die Reize wiederholt werden oder nicht
und ob sie Wörter sind oder nicht. Im Hinblick auf die Fragestellung, mit welcher Strategie die Vpn die Aufgaben lösen, ist dies aber ein positives Ergebnis, das Aufschluss über Kontrollprozesse gibt.
5.
Schlussbemerkung: Kontrollprozesse und die Leistungsfähigkeit der Reaktionszeitmessung
5.1. Kontrollprozesse Überblickt man die fast anderthalb Jahrhunderte RZ-Forschung, dann ist eine Parallele zwischen den Schicksalen der klassischen und der modernen Forschung nicht zu übersehen. Donders (1868) wollte mit der Subtraktionsmethode die Teilprozesse vom Reiz bis zur Reaktion analysieren. Diese Methode scheiterte daran, dass ihre Annahmen sich als nicht haltbar erwiesen, insbesondere die Annahme der reinen Einfügung. Sternberg (1966, 1969) entwarf mit der AFM einen methodischen Ansatz, der ohne diese Annahme auskam, aber im Grunde dasselbe Ziel verfolgte. Wieder zeigte sich bei der Entfaltung dieses Forschungsprogramms, dass Annahmen, auf denen die Methode fußte, nicht zutrafen (wie z. B. die Annahme der Linearität der Verarbeitung und des konstanten Stufen-Outputs). Beide Ansätze haben sich nicht durchhalten lassen, weil sie die Dynamik der menschlichen Informationsverarbeitung unterschätzt haben. Unter der Bezeichnung „executive control“ sind diejenigen Prozesse, durch die in Abhängigkeit von den Bedingungen und den Anforderungen der Aufgabe der Handlungsplan erstellt und ausgeführt wird, inzwischen wieder zu einem zentralen Thema der Kognitionspsychologie geworden (Überblick z. B. Monsell & Driver, 2000; s. auch das Sonderheft von Psychological Research/Psychologische Forschung vom April 2000 [Band 63] zum Thema „Executive Processing“). 5.2. Über die zentrale Tendenz hinaus Die zentrale Tendenz ist nur ein Kennwert der RZ-Verteilung. Bis hierher mag es so scheinen, als ob die RZ-Forschung stark an Wert eingebüßt habe. Aber die Berücksichtigung weiterer Kennwerte über den der zentralen Tendenz hinaus ermöglicht vor dem Hintergrund präzisierter Modelle, auch der Absichtsabhängigkeit der Verarbeitung Rechnung zu tragen. Sternberg (1969) selbst sah zur weiteren Prüfung additiver Effekte die
200
II. Methoden der Psycholinguistik
Untersuchung höherer Kumulanten der RZVerteilung vor, was einer Prüfung additiver Effekte auf die Varianz und die Schiefe der RZ-Verteilung gleichkommt. Die entsprechenden Kennwerte wurden selten geprüft (s. aber Plourde & Besner, 1997). Als Beispiel sei hier noch einmal an die bereits erwähnte Studie von Balota und Paul (1999) erinnert. Im Einklang mit der Annahme, dass wiederholte Nicht-Wörter zwei Verarbeitungsschritte erforderlich machen, führt diese Bedingung zu einer höheren Zahl besonders langsamer Reaktionen. Das belegen die Autoren, indem sie nachweisen, dass die Interaktion zwischen Wiederholung und Lesbarkeit neben den Mittelwerten auch die Schiefe der Verteilung betrifft. Allgemein liegt in der weiteren Berücksichtigung alternativer Kennwerte der RZ-Verteilung ein sehr vielversprechendes Forschungsfeld (z. B. Luce, 1986; McKoon & Ratcliff, 1979), das bislang kaum genutzt wurde.
6.
Literatur
Ashby, F. Gregory (1982). Testing the assumptions of exponential, additive reaction time models. Memory & Cognition, 10, 125⫺134. Balota, David A., & Paul, Stephen T. (1996). Summation of activation: Evidence from multiple primes that converge and diverge within semantic memory. Journal of Experimental Psychology: Learning, Memory, and Cognition, 22, 827⫺845. Balota, David A., & Spieler, Daniel H. (1999). Word frequency, repetition, and lexicality effects in word recognition tasks: Beyond measures of central tendency. Journal of Experimental Psychology: General, 128, 32⫺55. Becker, Curtis A. (1976). Allocation of attention during visual word recognition. Journal of Experimental Psychology: Human Perception and Performance, 2, 556⫺566. Becker, Curtis A., & Killion, Thomas H. (1977). Interaction of visual and cognitive effects in word recognition. Journal of Experimental Psychology: Human Perception and Performance, 3, 389⫺401. Borowsky, Ron, & Besner, Derek (1993). Visual word recognition: A multistage activation model. Journal of Experimental Psychology: Learning, Memory, and Cognition, 19, 813⫺840. Broadbent, Donald E. (1958). Perception and communication. Oxford: Pergamon. Brodeur, Darlene A., & Lupker, Stephen J. (1994). Investigating the effects of multiple primes: An
analysis of theoretical mechanisms. Psychological Research, 57, 1⫺14. Coles, Michael G. H., Gratton, Gabriele, Bashore, Theodore R., Eriksen, Charles W., & Donchin, Emanuel (1985). A psychophysiological investigation of the continuous flow model of human information processing. Journal of Experimental Psychology: Human Perception and Performance, 11, 529⫺553. Corballis, Michael C. (1975). Access to memory: An analysis of recognition times. In Patrick M. A. Rabbitt & Stan Dornic (Eds.), Attention & Performance V (pp. 591⫺612). London: Academic Press. Donders, Frans C. (1868). Die Schnelligkeit psychischer Prozesse. Archiv für Anatomie und Physiologie und wissenschaftliche Medizin, 6, 657⫺681. Eriksen, Charles W., Coles, Michael G. H., Morris, L. R., & O’Hara, William P. (1985). An electromyographic examination of response competition. Bulletin of the Psychonomic Society, 23, 165⫺168. Eriksen, Barbara A., & Eriksen, Charles W. (1974). Effects of noise letters upon the identification of a target letter in a nonsearch task. Perception & Psychophysics, 16, 143⫺149. Eriksen, Charles W. & Schultz, Derek W. (1979). Information processing in visual search: A continuous flow conception and experimental results. Perception & Psychophysics, 25, 249⫺263. Executive Processing [Special Issue]. (2000). Psychological Reseach/Psychologische Forschung, 63 (3, 4). Fraisse, Paul (1969). Why is naming longer than reading? Acta Psychologica, 30, 96⫺103. Gopher, Daniel, & Sanders, Andries F. (1984). SOh-R: Oh Stages! Oh Resources! In Wolfgang Prinz & Andries F. Sanders (Eds.), Cognition and motor processes (pp. 231⫺253). Berlin Heidelberg: Springer. Gratton, Gabriele, Coles, Michael G. H., Sirevaag, Erik J., Eriksen, Charles W., & Donchin, Emanuel (1988). Pre- and poststimulus activation of response channels: A psychophysiological analysis. Journal of Experimental Psychology: Human Perception and Performance, 14, 331⫺344. Green, David M., & Swets, John A. (1966). Signal detection theory and psychophysics. New York: Wiley. Hick, William E. (1952). On the rate of gain of information. Quarterly Journal of Experimental Psychology, 4, 11⫺26. Hommel, Bernhard (1990). Kompatibilität, Interferenz und Handlungssteuerung. In Cristina Meinecke & Lothar Kehrer (Hrsg.), Bielefelder Beiträge
13. Spezielle Verfahren IV: Reaktionszeitmessung zur Kognitionspsychologie (pp. 221⫺273). Göttingen: Hogrefe. Hyman, Ray (1953). Stimulus information as a determinant of reaction time. Journal of Experimental Psychology, 45, 188⫺196. Kessler, Klaus, Duwe, Ingo & Strohner, Hans (1999). Grounding mental models: Subconceptual dynamics in the resolution of linguistic reference in discourse. In Gert Rickheit & Christopher Habel (Eds.), Mental models in discourse processing and reasoning. Advances in psychology, vol. 128 (pp. 169⫺193). Amsterdam: North-Holland/Elsevier Science Publishers. Kornblum, Sylvan (1992). Dimensional overlap and dimensional relevance in stimulus-response and stimulus-stimulus compatibility. In G. E. Stelmach & J. Requin (Eds.), Tutorials in motor behavior, Vol. 2. Advances in psychology, Vol. 87. (pp. 743⫺777). Amsterdam: North-Holland. Lange, Ludwig (1888). Neue Experimente über den Vorgang der einfachen Reaktion auf Sinneseindrücke. Philosophische Studien, 4, 479⫺510. Londeree, Ben R., Speckman, Paul L., & Clapp, Dan (1990). Testing for hypothesized equality. Research Quarterly for Excercise and Sport, 61, 275⫺279. Luce, R. Duncan (1986). Response times: Their role in infering elementary mental organization. New York: Oxford University Press. Massaro, Dominic W. (1988). Some criticisms of connectionist models of human performance. Journal of Memory and Language, 27, 213⫺234. McClelland, James L. (1979). On the time relations of mental processes: An examination of systems of processes in cascade. Psychological Review, 86, 287⫺330. McClelland, James L. & Rumelhart, David E. (1981). An interactive activation model of context effects in letter perception: Part 1. An account of basic findings. Psychological Review, 88, 375⫺407. McClelland, James L. & Rumelhart, David E. (1986). Parallel distributed processing. Explorations in the microstructure of cognition: Vol. 2. Psychological and Biological Models. Cambridge, MA.: Bradford. McElree, Brian, Dolan, Patrick O. & Jacoby, Larry L. (1999). Isolating the contributions of familiarity and source information to item recognition: A time course analysis. Journal of Experimental Psychology: Learning, Memory, and Cognition, 25, 563⫺ 582. McKoon, Gail & Ratcliff, Roger (1979). Priming in episodic and semantic memory. Journal of Verbal Learning and Verbal Behavior, 18, 463⫺480.
201 Merkel, Julius (1885). Die zeitlichen Verhältnisse der Willensthätigkeit. Philosophische Studien, 2, 73⫺127. Meyer, David E. & Schvaneveldt, Roger W. (1971). Facilitation in recognizing pairs of words: Evidence of a dependence between retrieval operations. Journal of Experimental Psychology, 90, 227⫺234. Miller, Jeff (1988). Discrete and continuous models of human information processing: Theoretical distinctions and empirical results. Acta Psychologica, 67, 191⫺257. Miller, Jeff (1993). A queue-series model for reaction time, with discrete-stage and continuous-flow models as special cases. Psychological Review, 100, 702⫺715. Molenaar, Peter C. & van der Molen, Maurits W. (1986). Steps to a formal analysis of the cognitiveenergetic model of stress and human performance. Acta Psychologica, 62, 237⫺261. Monsell, Stephen & Driver, Jon (Eds.) (2000). Control of cognitive processes: Attention & Performance XVIII. Cambridge, MA: MIT Press. Morton, John (1969). The interaction of information in word recognition. Psychological Review, 76, 165⫺178. Neely, James H. (1977). Semantic priming and retrieval from lexical memory: Roles of inhibitionless spreading of activation and limited-capacity attention. Journal of Experimental Psychology: General, 106, 226⫺254. Neely, James H. (1991). Semantic priming effects in visual word recognition: A selective review of current findings and theories. In Derek Besner & Glyn W. Humphreys (Eds.), Basic processes in reading: Visual word recognition. (pp. 264⫺336). Hillsdale, NJ: Lawrence Erlbaum Associates. Neisser, Ulric (1967). Cognitive psychology. New York, NY: Appleton-Century-Crofts. Neisser, Ulric (1976). Cognition and reality: Principles and implications of cognitive psychology. San Francisco: Freeman. Neumann, Odmar (1985). Informationsverarbeitung, Künstliche Intelligenz und die Perspektiven der Kognitionspsychologie. In Odmar Neumann (Hrsg.), Perspektiven der Kognitionspsychologie (pp. 3⫺39). Berlin: Springer. Neumann, Odmar (1990). Lexical access: Some comments on models and metaphors. In David A. Balota, Giovanni B. Flore`s d’Arcais & Keith Rayner (Eds.), Comprehension processes in reading. (pp. 165⫺185). Hillsdale, NJ: Lawrence Erlbaum.
202
II. Methoden der Psycholinguistik
Neumann, Odmar (1992). Zum gegenwärtigen theoretischen Umbruch in der Kognitionspsychologie. Merkur, 514, 47⫺60.
Sternberg, Saul (1969). The discovery of processing stages: Extensions of Donders’ method. Acta Psychologica, 30, 276⫺315.
Pieters, Jo P. (1983). Sternberg’s additive factor method and underlying psychological processes: Some theoretical considerations. Psychological Bulletin, 93, 411⫺426.
Stolz, Jennifer A. & Neely, James H. (1995). When target degradation does and does not enhance semantic context effects in word recognition. Journal of Experimental Psychology: Learning, Memory, and Cognition, 21, 596⫺611.
Plourde, Carolyn E. & Besner, Derek (1997). On the locus of the word frequency effect in visual word recognition. Canadian Journal of Experimental Psychology, 51, 181⫺194. Prinz, Wolfgang (1972). Reaktionszeit-Fraktionierung durch Varianzanalyse? Archiv für Psychologie, 124, 240⫺252. Sanders, Andries F. (1971). Psychologie der Informationsverarbeitung. Bern: Huber. Sanders, Andries F. (1980). Stage analysis of reaction processes. In George E. Stelmach & Jean Requin (Eds.), Tutorials in motor behavior (pp. 331⫺354). Amsterdam: North Holland. Smith, G. A. (1980). Models of choice reaction time. In A. T. Welford (Ed.), Reaction times (pp. 173⫺215). London: Academic Press. Smith, Marilyn C., Besner, Derek & Miyoshi, Hiroto (1994). New limits to automaticity: Context modulates semantic priming. Journal of Experimental Psychology: Learning, Memory, and Cognition, 20, 104⫺115. Stanners, Robert F., Jastrzembski, James E. & Westbrook, Allen (1975). Frequency and visual quality in a word-nonword classification task. Journal of Verbal Learning and Verbal Behavior, 14, 259⫺264. Sternberg, Saul (1966). High-speed scanning in human memory. Science, 153 (3736), 652⫺654.
Townsend, James T. (1971). A note on the identifiability of parallel and serial processes. Perception & Psychophysics, 10, 616⫺163. Ulrich, Rolf, Mattes, Stefan & Miller, Jeff (1999). Donders’ assumption of pure insertion: An evaluation on the basis of response dynamics. Acta Psychologica, 102, 43⫺75. Van Turennout, Miranda, Hagoort, Peter & Brown, Colin M. (1997). Electrophysiological evidence on the time course of semantic and phonological processes in speech production. Journal of Experimental Psychology: Learning, Memory, and Cognition, 23, 787⫺806. Welford, Alan T. (Ed.) (1980). Reaction times. London: Academic Press. Wickelgren, Wayne (1977). Speed-accuracy tradeoff and information processing dynamics. Acta Psychologica, 41, 67⫺85. Woodworth, Robert S. & Schlosberg, Harold (1954). Experimental psychology. New York: Holt, Rinehart and Winston. Wundt, Wilhelm (1903). Grundzüge der physiologischen Psychologie. Leipzig: Engelmann.
Ingrid Scharlau, Ulrich Ansorge und Odmar Neumann Universität Bielefeld (Deutschland)
14. Spezielle Verfahren V: Analyse und Synthese von Sprachlauten 0. 1. 2. 3. 4. 5.
Einleitung Analyse Syntheseanwendungen Synthesemethoden Schlussbemerkungen Literatur
0.
Einleitung
Anders als in der geschriebenen Sprache, in der einzelne Buchstaben auftreten und in der Wörter durch Zwischenräume voneinander
getrennt sind, wird gesprochene Sprache durch kontinuierliche Bewegungen des Sprechapparats produziert und ist keine Folge isolierter Laute. Auch einzelne Wörter sind in kontinuierlicher Sprache nicht durch Pausen voneinander getrennt. Ein Sprachsignal kann deswegen nicht einfach in einzelne Elemente zerlegt werden, obwohl es als Folge von Sprachlauten wahrgenommen werden kann. Deswegen werden Sprachsignale zur Untersuchung graphisch dargestellt oder in Parametersätzen repräsentiert. Weiterhin können
14. Spezielle Verfahren V: Analyse und Synthese von Sprachlauten
Parameter benutzt werden, um Sprachsignale zu synthetisieren. Die gebräuchslichsten Verfahren werden in diesem Kapitel dargestellt.
1.
Analyse
1.1. Oszillogramm Eine direkte graphische Abbildung des Sprachsignals wird durch ein Oszillogramm erreicht, wie es in Abbildung 14.1.a dargestellt ist. In einem Oszillogramm werden die Luftdruckschwankungen der Schallwellen, die beim Sprechen erzeugt werden, durch vertikale Auslenkungen gegen die Zeit in der Horizontalen dargestellt. Das Oszillogramm stellt die akustische Information eines Sprachsignals graphisch so dar, wie sie von einem Mikrofon aufgefangen wird oder am Außenohr eines Hörers auftritt. Im Oszillogramm können grob drei Klassen von Lauten unterschieden werden: (1) Stimmhafte Laute, bei denen die Stimmlippen im Kehlkopf schwingen (u. a. alle Vokale, wie [a, i, u] und andere sonorante Laute, wie [n, m, l]). Bei diesen Lauten öffnen und schließen sich die Stimmlippen quasi-periodisch, was zu (fast) regelmäßig auftretenden Spitzen im Sprachsignals führt (s. Abbildung 14.1.c). (2) Frikative wie [f, s, c¸], die durch Luftturbulenzen an einer Verengung erzeugt werden, sind durch die Unregelmäßigkeit im Signal gekennzeichnet (s. Abbildung 14.1.d).
Abb. 14.1: (a) Oszillogramm der Äußerung „Dann können wir ja gleich sagen“. Dauer der Phase: 1 Sekunde. (b) Verschlusslaut [k] mit Verschlussbildung, Verschlusslösung und Einsatz des folgenden Lautes. (c) Stimmhafte Folge von sonoranten Lauten. Die quasi-periodischen großen Ausschläge stammen von den schwingenden Stimmlippen. (d) Stimmlose Frikative [c¸] und [s] mit unregelmäßiger Struktur.
203
(3) Plosionslaute wie [p, t, k], die durch eine Pause, einen plötzlichen Amplitudenanstieg und bisweilen durch eine nachfolgende Aspirationsphase gekennzeichnet sind (s. Abbildung 14.1.b). Kombinationen dieser drei Typen sind möglich, wie z. B. stimmhafte Frikative (etwa am Beginn des Wortes „wir“, s. Abbildung 14.1.a), bei denen die Stimmlippen schwingen und gleichzeitig eine Friktion an der Verengung (hier zwischen Lippe und Zähnen) entsteht, oder bei voll stimmhaften Plosiven im Französischen, bei denen die Stimmlippen auch während der Verschlussphase schwingen. Obwohl das Oszillogramm direkt das Sprachsignal graphisch abbildet, kann es irreführend sein und Unterschiede im Signal nicht immer deutlich darstellen. So wird ein Sprachsignal bei der Aufnahme mit einem Computer typischerweise in 65536 Amplitudenwerte zerlegt; eine Darstellung auf einem Monitor benutzt aber meist weniger als 500 Punkte, so dass ca. 130 verschiedene Amplitudenwerte in einem graphischen Punkt zusammenfallen. Dadurch kann ein Signalstück, das im Oszillogramm als Linie erscheint, in Wirklichkeit deutliche akustische Information tragen. In der Regel wird ein zusätzliches Hintergrundrauschen der Aufnahme diesen Effekt verstärken. Weiterhin ist es im Oszillogramm schwierig, innerhalb der Gruppe der Vokale, Frikative oder Plosive einzelne Laute voneinander zu unterscheiden, obwohl die Laute durch ihre Luftdruckschwankungen eindeutig bestimmt werden. Es werden deswegen weitere Analysemethoden benötigt, um Eigenschaften des Sprachsignals deutlicher darstellen zu können. 1.2. Fourier-Spektrum Nach dem Theorem von Fourier (1822) lässt sich jedes periodische Signal als Summe von unendlich vielen Sinussignalen darstellen, die ein-eindeutig durch Frequenz, Amplitude und Phasenlage bestimmt sind. Die Anwendung der Fourier-Transformation auf ein kurzes Stück (Sprach-) Signal führt zu einem Fourier-Spektrum, das zu jedem Frequenzwert die Amplitude und Phasenlage eines Sinussignals liefert. Diese Darstellung enthält genau dieselbe Information wie das Oszillogramm, in dem die Amplitude gegen die Zeit dargestellt wird. Im Fourier-Spektrum wird jedoch die Amplitude (oder Phase) der Sinuskomponenten gegen die Frequenz abgebildet. Die Fourier-Transformation wird auf einem
204 Digitalcomputer mittels der Digitalen Fourier-Transformation (DFT) durchgeführt, die häufig mit einem besonders schnellen Algorithmus bewerkstelligt wird, der Fast FourierTransformation (FFT, Cooley & Tukey, 1965). In der Regel wird in der Darstellung des Fourier-Spektrums die Phasenlage vernachlässigt und nur die Leistung des Signals im Leistungsspektrum (power spectrum) dargestellt (s. Abbildung 14.2.b und 14.2.c). In diesem Spektrum kann die Energieverteilung über die Frequenzen abgelesen werden: Frikative mit einem relativ diffusen Spektrum (s. Abbildung 14.2.c) und meist mehr Energie in den hohen Frequenzen unterscheiden sich deutlich von stimmhaften Lauten (s. Abbildung 14.2.b), die aufgrund der quasi-periodischen Stimmlippenschwingungen Energie in der Grundfrequenz (F0) und den Vielfachen davon, den Harmonischen, aufweisen.
Abb. 14.2: (a) Sprachsignal. (b) FFT- und LPCSpektren des Vokals [a]. Die Harmonischen der Grundfrequenz im FFT-Spektrum sind im LPCSpektrum eliminiert, dafür sind die Resonanzfrequenzen des Vokaltrakts besser sichtbar. (c) FFTSpektrum eines stimmlosen Frikativs. (d) Schmalbandspektrogramm. (e) Breitbandspektrogramm.
Obwohl die Fourier-Transformation nur für periodische Signale definiert ist, lässt sich durch das Herausschneiden (windowing) ein kurzes Stück Signal (typischerweise 10⫺ 40ms) als Teil eines periodischen Signals auf-
II. Methoden der Psycholinguistik
fassen. Durch das Verwenden von speziellen Fensterfunktionen (z. B. Hamming-, Blackman-, Kaiser-Window, s. Harris, 1978) lassen sich Verzerrungen durch das Herausschneiden eines Signalstücks auf die Berechnung in der Transformation reduzieren. 1.3. LPC-Spektrum Die Darstellung eines Sprachsignals in einem (Kurzzeit-)Leistungsspektrum, wie beschrieben, kann für seine Untersuchung ein Zuviel an Information darstellen, weil im Spektrum gleichzeitig die Beiträge der Stimmlippen und des Vokaltrakts (Rachen-, Mund- und Nasenraum) an dem Sprachsignal dargestellt werden. Während das Schwingen der Stimmlippen die Tonhöhe bestimmt (s. Abschn. 1.7), ist man häufig nur an dem Einfluss des Vokaltrakts auf das Signal interessiert, der z. B. festlegt, welcher Vokal gebildet wird. Aus diesem Grunde benötigt man Analyseverfahren, die den Einfluss der Stimmlippen auf das Analyseergebnis reduzieren. Verbreitet ist das LPC-Verfahren (linear predictive coding, Markel & Gray, 1976), das das Sprachsignal in eine Sequenz von Werten zerlegt, die den Vokaltrakt als Filter beschreibt, das einzelne Frequenzbereiche weniger stark abdämpft als andere. Mit dem LPCVerfahren lässt sich der Beitrag des Vokaltrakts an dem gebildeten Sprachlaut unabhängig vom Einfluss der Stimmlippen abschätzen und graphisch darstellen (s. Abbildung 14.2.b). In der Regel liegt dem LPCVerfahren ein vereinfachtes Artikulationsmodell des Sprechapparats zugrunde: Sprachsignale sind entweder stimmhaft oder stimmlos (die Stimmlippen schwingen oder schwingen nicht), und der Vokaltrakt wird durch eine komplex geformte Röhre repräsentiert. Ein wesentlicher Parameter für die LPC-Analyse ist die Vorgabe der Pole, mit denen die Filterfunktion des Vokaltrakts beschrieben wird. Die Anzahl dieser Pole legt die Anzahl der Resonanzfrequenzen des Vokaltrakts fest und kann nicht automatisch aus dem Signal errechnet werden. Nicht eingeschlossen im LPC-Modell sind Laute mit mehr als einer Signalquelle (wie z. B. ein gerolltes [r] oder stimmhafte Frikative) und nasale Laute, bei denen sowohl der Mundraum als auch der Nasenraum gleichzeitig an der Lautbildung beteiligt sind. Eine generalisierte Version des LPC-Verfahrens ist das ARMA-Verfahren (Auto-Regressive Moving Average. Box, Jenkins & Reinsel, 1994), das den Nasaltrakt im Modell ein-
14. Spezielle Verfahren V: Analyse und Synthese von Sprachlauten
schließen kann. Dieses Verfahren führt aber zu einem nicht mehr analytisch lösbaren Gleichungssystem (d. h., die Parameter der Kodierung können nicht mehr direkt aus dem Sprachsignal errechnet werden, sondern müssen durch iterative Verfahren angenähert werden) und erfordert weitere Parametersätze, deren Abschätzung selber ebenso problematisch ist wie die Bestimmung der Anzahl der Pole im LPC-Verfahren. 1.4. Geglättete Spektren Andere Verfahren zur Entfernung des Einflusses der Stimmlippen auf das Spektrum sind das geglättete Spektrum, bei dem über einen gewissen Bereich (typisch: 300 Hz) die Frequenzen gemittelt werden und so der Einfluss der Harmonischen auf das Spektrum reduziert wird. Hierbei wird jedoch angenommen, dass die Grundfrequenz deutlich unterhalb von 300 Hz liegt. Ein Verfahren, bei dem die Grundfrequenz selber entfernt wird, ist die cepstrale Glättung. Dabei wird zunächst durch eine weitere Fourier-Transformation des Leistungsspektrums ein Spektrum des Spektrums (das Cepstrum, Bogert, Healey & Tukey, 1963) berechnet. Im Leistungsspektrum führt die Regelmäßigkeit der Stimmlippenschwingung zu den Harmonischen. Diese regelmäßig auftretenden Harmonischen führen im Cepstrum zu einem Maximum bei der Periodendauer der Stimmlippenschwingung. Wird dieses Maximum entfernt bzw. alle langen Dauern und damit alle niedrigen Frequenzen und das Cepstrum in ein Spektrum zurücktransformiert, dann führt das zu einem Spektrum, bei dem die Struktur der Harmonischen (und damit der Einfluss der Stimmlippen auf das Sprachsignal) weitgehend entfernt ist. Die Bestimmung des Maximums im Cepstrum bzw. die Festlegung der niedrigsten Frequenz ist jedoch nicht trivial, so dass eine Glättung über ein Cepstrum nicht immer zuverlässig erfolgen kann. 1.5. Sonagramm Alle bisher behandelten Verfahren wandeln ein kurzes Stück Sprachsignal (typischerweise 10⫺40 ms) aus dem Zeitbereich, das mit einem Oszillogramm abgebildet werden kann, in eine Repräsentation im Frequenzbereich um, das mit dem Spektrum dargestellt werden kann. Das Ausschneiden eines kurzen Zeitbereichs selber führt zu Störungen im Spektrum, die durch geeignete Fensterfunktionen reduziert werden können. Mittels an-
205
derer Berechnungsmethoden (LPC, Cepstrum) kann der Einfluss des Vokaltrakts auf das Sprachsignal unabhängig vom Einfluss der Stimmlippen abgeschätzt werden. Mit diesen Kurzzeitspektren kann jedoch nicht die Entwicklung eines Sprachsignals in der Zeit dargestellt werden, wie es im Oszillogramm möglich ist, sondern es wird nur die Analyse eines kurzen Zeitbereichs durchgeführt. Eine Art topographische Darstellung der Energieverteilung vieler Kurzzeitspektren über die Zeit ist das Sonagamm (oder Spektrogramm, s. Abbildung 14.1.d, Koenig, Dunn & Lacey, 1946). Hier wird die Frequenz in der Vertikalen und die Zeit in der Horizontalen aufgetragen; der Grad der Schwärzung gibt die Energie in den einzelnen Frequenzbereichen an. Im Spektrogramm wird somit die Energieverteilung über die Frequenzen und deren zeitlicher Verlauf dargestellt. Es gibt im Wesentlichen zwei Arten von Spektrogrammen: (1) Das Breitbandspektrogramm (wide band spectrogram, s. Abbildung 14.2.e), bei dem über ein relativ breites Frequenzband die Energie gemittelt wird, wodurch der Einfluss des Vokaltrakts auf das Sprachsignal darstellt wird, ähnlich wie in einem LPC-Spektrum. (2) Das Schmalbandspektrogramm (narrow band spectrogram, s. Abbildung 14.2.d), in dem einzelne Harmonische gut abgebildet werden und somit den Einfluss der Stimmlippenschwingung deutlicher zum Ausdruck bringt (ähnlich einem FFT-Leistungsspektrum). Ähnlich wie die Darstellung der Sprache im Oszillogramm zu irreführenden Annahmen über Sprachlaute führen kann, kann auch das Spektrogramm falsch interpretiert werden. Neben der Bandbreite des Spektrogramms, das die Frequenzauflösung festlegt, beeinflusst auch die Helligkeits- und Kontrast-Einstellung die graphische Darstellung des Spektrogramms. Das scheinbare Ende eines Signals im Spektrogramm kann nur ein Artefakt der gewählten Parameter sein, die die Schwärzung in der Darstellung festlegen, und muss nicht notwendigerweise mit dem Ende eines Signals einhergehen. Untersuchungen von Allen (1978) zeigten keinen wesentlichen Unterschied zwischen Oszillogrammen und Spektrogrammen bei Lautdauermessungen. Untersuchungen von Monsen und Engebretson (1983) zur Bestimmung von Resonanzfrequenzen ergaben ebenfalls keine wesentlichen Unterschiede beim Ausmessen von Sprachparametern zwischen Spektrogrammen und LPC-Spektren.
206 1.6. Zeit- und Frequenzauflösung Bei allen bisher behandelten Spektren gibt es einen Zusammenhang zwischen der Zeit- und der Frequenzauflösung: Eine gute Auflösung in der Zeitachse (d. h. Information darüber, wann etwas geschieht) ist verbunden mit einer schlechten Auflösung in der Frequenzachse (d. h. wo etwas geschieht) und umgekehrt. Für ein Schmalbandspektrogramm bedeutet dies, dass zwar einzelne Frequenzen gut aufgelöst werden, aber die zeitliche Lokalisation schlecht ist; bei einem Breitbandspektrogramm können zeitliche Ereignisse gut lokalisiert werden, aber die Frequenzauflösung ist schlecht. Aus diesem Grund ist das Schmalbandspektrogramm in Abbildung 14.2.d mehr horizontal gegliedert (gute Frequenzauflösung) und das Breitbandspektrogramm in Abbildung 14.2.e mehr vertikal (gute Zeitauflösung). Ursache dieses Zusammenhangs ist letztendlich das Theorem von Fourier, das die Transformation des Zeitsignals in eine unendliche Summe von (zeitlich invarianten) Sinussignalen durchführt. In einem Gabor-Spektrum (Gabor, 1946) werden zeitlich variante Sinussignale zugelassen, so dass gleichzeitig Zeit und Frequenz gut aufgelöst werden können. Bei diesen Spektren gehen jedoch weitere Parameter in die Analyse ein, die das Ergebnis stark beeinflussen und nicht zu einer besseren Darstellung des Sprachsignals führen müssen (s. Loughlin, Atlas & Pitton, 1993). 1.7. Intonationsanalyse Bei den bisher besprochenen Verfahren wurde der Einfluss der Stimmlippenschwingung auf das Sprachsignal reduziert. Bei der Analyse von Tonhöhenverläufen, z. B. in der Intonationsforschung, versucht man umgekehrt den Einfluss des Vokaltrakts auf die Analyse des Sprachsignals zu reduzieren. Mit Analysemethoden, die im Zeitbereich, im Frequenzbereich, über das Cepstrum oder unter Berücksichtigung psychoakustischer Eigenschaften des Gehörs arbeiten (s. Hermes, 1993) lässt sich die Tonhöhe im Verlauf der Zeit berechnen (s. Abbildung 14.3.b). Da die Analysemethoden jedoch mit Fehlern behaftet sind bzw. sich bisweilen nicht eindeutig beurteilen lassen, mit welcher Frequenz die Stimmlippen schwingen (da es sich um ein quasi-periodisches Signal handelt, gibt es zwangsläufig einen gleitenden Übergang zwischen Periodizität und Nicht-Periodizität), muss ein Intonationsverlauf immer kritisch
II. Methoden der Psycholinguistik
betrachtet werden. Plötzliche Sprünge oder Veränderungen in der graphischen Darstellung des Analyseverlaufs können dabei im Sprachsignal vorhanden sein, sie können aber auch ein Artefakt der Analysemethode darstellen. Selbst spezielle Geräte zur direkten Messung der Stimmlippenschwingung (wie z. B. Laryngograph und Elektroglottograph) liefern keine fehlerfreien Messwerte (s. Childers et al., 1990). 1.8. Energieverläufe Ein weiterer Parameter des Sprachsignals ist der Verlauf der Signalenergie in der Zeit. Diese Messung wird normalerweise mit gemittelten quadrierten Amplitudenwerten (RMS, root mean square) berechnet (s. Abbildung 14.3.c), die annäherungsweise die Lautstärke eines Signals repräsentiert. Bei dieser Darstellung ist zu berücksichtigen, dass die Amplitude des Signals von der Position des Sprechers relativ zum Aufnahmemikrofon abhängt. Schon leichte Drehungen des Kopfes können zu drastischen Amplitudenveränderungen führen, die deutliche Veränderungen im Amplitudenverlauf bewirken, welche nicht von Amplitudenschwankungen im produzierten Sprachsignal unterschieden werden können. Amplitudenmessungen sind deswegen nur im Vergleich von relativ dicht benachbarten Signalstücken sinnvoll. Ein absoluter Vergleich der Signalamplituden zweier Aufnahmen ist nur mit kalibrierten Aufnahmen möglich, wie sie nur selten angefertigt werden.
Abb. 14.3: (a) Sprachsignal. (b) Tonhöhenverlauf, wie sie von einem Programm berechnet wurde. (Diese Kontur ist fehlerhaft; z. B. ist das [v] im Signal deutlich stimmhaft, obwohl in der Kontur eine Lücke auftritt.) (c) RMS-Energieverlauf des Signals.
207
14. Spezielle Verfahren V: Analyse und Synthese von Sprachlauten
1.9. Skalierungen Die Ergebnisse der verschiedenen Analysen können auf unterschiedliche Weisen graphisch dargestellt werden. Bei der linearen Darstellung entsprechen gleiche Abstände auf den Skalenachsen gleichen Abständen in der physikalischen Eigenschaft. Z. B. wird für die Darstellung der Zeit immer eine lineare Skala gewählt werden. In der Frequenzdimension werden bisweilen andere Skalen verwendet. So erscheint eine Frequenz um eine Oktave höher, wenn sie doppelt so hoch wie eine Referenzfrequenz ist; als Folge erhält man eine logarithmische Skala: nicht der Abstand zweier Frequenzwerte (z. B. Differenz: 100 Hz) ist entscheidend, sondern ihr Verhältnis zueinander (Frequenz 1 zu Frequenz 2). Eine logarithmische Skala drückt aus, dass ein Mensch eine Verdoppelung einer Frequenz als Oktave und nicht als einen absoluten Unterschied (in Hertz) wahrnimmt. Typischerweise wird eine logarithmische Frequenzskala in Halbtonschritte (semitones) eingeteilt. Mit der Funktion (14.1) lassen sich lineare Frequenzwerte in Halbtöne in Bezug auf eine Referenzfrequenz umrechnen.
冉
冊
Freq [Hz] 39.863 * log ⫽ Intervall [semitones] Ref [Hz] Funktion 14.1
Die Mel-Skala (Stevens & Volkman, 1940) drückt aus, dass ein Mensch unterhalb von 1000 Hz Frequenzunterschiede annähernd linear wahrnehmen kann, oberhalb von 1000 Hz eher logarithmisch. Mit der Funktion (14.2) lassen sich lineare Frequenzwerte in Mel-Werte umzurechnen. 3322 * (log(1000 ⫹ Freq [Hz])⫺3) ⫽ Freq [mel] Funktion 14.2
Genauer ausgemessen als die Mel-Skala ist die Bark-Skala (Zwicker & Terhardt, 1980), der die Wahrnehmung von Frequenzunterschieden simultan auftretenden Frequenzen zugrundeliegt. Noch sorgfältiger ausgemessen ist die ERB-Skala (Equivalent Rectangular Bandwidth, Patterson 1976), bei der Rauschsignale zum Bestimmen der wahrnehmbaren Frequenzunterschiede verwendet werden. Bei der Bark- und ERB-Skala gehen zwei Prozesse in die Wahrnehmung der Frequenz ein: die physikalische Frequenz (die in Hertz
gemessen wird) und der Einfluss benachbarter Frequenzen bei der Wahrnehmung, wobei deren Intensität (in Amplitudeneinheiten gemessen) eine Rolle spielt. Für eine exakte Bark- und ERB-Skalierung sind also Intensitäten auch benachbarter Frequenzbereiche zu berücksichtigen. Häufig werden die Skalen aber nur durch eine nichtlineare Transformation aus einer linearen Skala gewonnen und der Einfluss benachbarter Frequenzanteile vernachlässigt. Diese vereinfachte Transformation ist in Funktion (14.3) für die BarkSkala und in Funktion (14.4) für die ERBSkala dargestellt. Bei diesen Formeln handelt es sich um empirische Näherungsformeln, um die physikalischen Größen (Hertz) auf physiologische Empfindungen (Tonhöhe) abzubilden.
冉
冊
26.81 * Freq [Hz] ⫺0.53 ⫽ Freq [Bark] 1960 ⫹ Freq [Hz]
Funktion 14.3
25.72 * log
冉
冊
312 ⫹ Freq [Hz] ⫹43 ⫽ Freq [ERB] 14675 ⫹ Freq [Hz]
Funktion 14.4
Amplitudenwerte werden normalerweise auf einer Dezibel-Skala (dB-Skala) festgelegt, der eine logarithmische Skalierung zugrunde liegt, da das Gehör Lautstärkeunterschiede annähernd logarithmisch wahrnimmt. Meist wird die energieabhängige dB-Skala verwendet, bei der ca. ⫹/⫺ 6 dB einer Verdoppelung/Halbierung der Signalamplitude entspricht. In der Technik sind Intensitätsskalen gebräuchlich, bei der ⫹/⫺ 3 dB einer Verdoppelung/Halbierung der Amplitude entspricht. Die dBRMS-Werte sind eine rein mathematische Umrechnung von Amplitudenwerten in die RMS-Energie, die alle Frequenzen gleichermaßen berücksichtigt. Bei den dB(A)Werten wird eine frequenzabhängige (empirisch ermittelte) Korrektur der Messwerte vorgenommen, die dem Lautstärkeempfinden eines Normhörers entspricht.
2.
Syntheseanwendungen
Bei der Durchführung von phonetischen, linguistischen und psycholinguistischen Experimenten mit gesprochener Sprache wird häufig Sprachmaterial benötigt, das von einem Sprecher oder einer Sprecherin produziert
208 wurde, in dem Referenzpunkte markiert sind (z. B. Anfang eines Worts oder Lauts), zu denen dann in Reaktionszeiten relatiert werden. Während dieses Verfahren zu quantitativen Ergebnissen führt, birgt es drei Nachteile: (1) Das Sprachmaterial einer Person ist einmalig; genau dasselbe Experiment kann lediglich dann an einem anderen Ort oder zu einer anderen Zeit nachvollzogen werden, wenn die verwendete (Original-)Sprachaufnahme vorliegt. (2) Eine Person kann eine spezielle Eigenart beim Sprechen aufweisen (z. B. Dialekt, besondere Art, einen Laut zu bilden etc.), die das gemessene Ergebnis beeinflusst und somit systematisch verfälschen kann. (3) Eine Untersuchung will einzelne Sprachparameter kontrolliert variieren (z. B. Intonationskontur, zeitliche Verhältnisse zwischen Lauten, Qualität einzelner Laute etc.); ein Sprecher wird diese genau kontrollierten Qualitäten aber nie erzeugen können. Es ist aus diesen Gründen wünschenswert, Sprachmaterial zu verwenden, das (1) an anderen Orten und zu anderen Zeitpunkten in identischer Form verfügbar ist, (2) frei von individueller Variation vorliegt und (3) genau kontrolliert werden kann. Menschliche Sprache kann durch eine Aufnahme dokumentiert werden, ist aber nur in geringem Maße kontrollierbar. Die Verwendung von synthetischer Sprache erlaubt hingegen die genaue Steuerung einzelner Parameter und die Reproduktion zu beliebigen Zeitpunkten. Synthetische Sprache kann bei geeigneter Wahl der Parameter die Qualität der menschlichen Stimme erreichen. Dies ist jedoch keinesfalls die Regel und kann einen hohen (manuellen) Arbeitsaufwand erfordern. Die in der Sprachsynthese verwendeten Verfahren werden in diesem Abschnitt mit ihren Vor- und Nachteilen dargestellt. Sprachsyntheseverfahren lassen sich in verschiedene Dimensionen einteilen. Zum einen gibt es verschiedene Methoden, mit der ein Sprachsignal synthetisiert werden kann. Zum anderen gibt es verschiedene Anwendungen für die Sprachsynthese. Diese beiden Dimensionen sind nicht vollständig voneinander unabhängig, aber es gibt eine gewisse Freiheit in der Wahl der Methoden für eine gegebene Anwendung. Als Anwendungsgebiete sind vier Gebiete anzusetzen, die im Folgenden behandelt werden: ⫺ ⫺ ⫺ ⫺
Resynthese einer Aufnahme, Parametersynthese, Text-to-Speech-Synthese, Vollsynthese aus einem Konzept.
II. Methoden der Psycholinguistik
2.1. Resynthese einer Aufnahme Bei einer Resynthese wird in der Regel eine menschliche Stimme mit gewissen Verfahren (z. B. LPC) in Parametersätze analysiert und nach eventueller Modifikation der Parameter wieder resynthetisiert. Dieses Verfahren verwendet menschliche Sprache als Grundlage, die aber durch die Analyse reproduzierbar dokumentiert wird und durch die gesteuerte Parametermanipulation kontrolliert verändert werden kann. Vorteile dieses Verfahrens sind die Natürlichkeit, da menschliche Sprache als Basis dient (obwohl abhängig vom Syntheseverfahren die Qualität schlecht sein kann) und die einfache und schnelle Erhebung der zum Teil umfangreichen Parametersätze. 2.2. Parametersynthese Bei einer Synthese aus Parametersätzen wird im Grunde wie bei der Resynthese vorgegangen, es wird der menschliche Sprecher jedoch weggelassen, und die Sprache wird vollständig aus Parametern synthetisiert, die aus einer Datenbank stammen können. In diesem Falle liegt eine vollständige Kontrolle über alle Parameter vor, und keinerlei menschliche Artefakte können die experimentellen Resultate beeinflussen. Vor allem zur Untersuchung einzelner (akustischer) Parameter kann mit diesem Verfahren eine gute Kontrolle aller relevanten Parameter durchgeführt werden. Meist sind die Parametersätze weniger umfangreich als die bei einer Analyse einer menschlichen Stimme anfallenden Datenmenge, da die Mikrovariation der menschlichen Stimme i. d. R. nicht moduliert wird. Eine vollständige Synthese erfordert aber vom Benutzer eine gute Kenntnis der Parameter und der von ihr bedingten (akustischen) Effekte. 2.3. Text-To-Speech-Synthese Bei einer Text-To-Speech-Synthese erzeugt das Syntheseprogramm ein Sprachsignal aus einer Textvorlage. Die Synthese kann regelbasiert sein oder aufgrund eines (zuvor trainierten) statistischen Zusammenhangs zwischen Text und Signal erzeugt werden. In jedem Fall kommt es aufgrund des Regelsystems oder der statistischen Korellation zu einem reproduzierbaren Sprachsignal. Über globale Parameter (Sprechgeschwindigkeit, Stimmqualität, theoretisch auch paralinguistische Parameter wie ‘traurig’ etc.) lässt sich die Sprache dabei prinzipiell steuern. Solch eine Synthese entlastet den Benutzer zwar von den Details der Parameterinspektion
14. Spezielle Verfahren V: Analyse und Synthese von Sprachlauten
und -manipulation, d. h. befreit ihn von allen internen Kenntnissen über die Synthese, macht ihn aber abhängig von dem im Synthesesystem implementierten Regel- oder Korrelations-Systems: falsche oder unvollständige Regeln/Korrelationen können zu fehlerhafter oder atypischer Aussprache führen. Z. B. kann das Wissen über die Bedeutung eines Wortes für eine korrekte Aussprache entscheidend sein. So kann die Buchstabenfolge ‘Dachs’ ein Tier bezeichnen, aber auch der Genitiv des obersten Teils eines Hauses sein: in Abhängigkeit davon verändert sich die Aussprache. Die Text-to-Speech-Synthese erfordert deswegen zunächst eine linguistische oder statistische Analyse des Texts, bevor die Synthese durchgeführt werden kann (s. Allen, Hunnicutt & Klatt, 1987). Eine fehlerfreie Analyse eines Texts nach allen linguistischen Parametern, sei es regelbasiert oder statistisch, ist noch nicht möglich, so dass eine freie Synthese eines Texts nicht dieselbe Qualität erreicht wie die eines lesenden Menschen. 2.4. Vollsynthese aus einem Konzept Für viele kommerzielle Anwendungen (z. B. Auskunftssysteme) müssen Informationen, die in einer Datenbank vorliegen, sprachlich ausgegeben werden. Bei einer Sprachsynthese von einem Konzept kann eine Reihe linguistische Parameter (z. B. Betonung, Worttyp etc.) direkt aus der Datenbank abgerufen werden. Dadurch ist diese Form der Synthese einfacher zu bewerkstelligen als eine Text-ToSpeech-Synthese, da die linguistische Analyse eines (unbekannten) Texts entfallen kann und die Daten direkt in die Sprachsynthese gegeben werden können.
3.
Synthesemethoden
Neben diesen unterschiedlichen Anwendungen der Sprachsynthese gibt es im Wesentlichen drei Methoden, ein akustisches Sprachsignal zu synthetisieren: ⫺ Artikulatorische Synthese, ⫺ Akustische Synthese, ⫺ Wellenformsynthese. Diese Methoden werden jetzt im Einzelnen behandelt. 3.1. Artikulatorische Synthese Die artikulatorische Synthese moduliert den menschlichen Sprachtrakt und bildet so Sprachsignale nach dem anatomischen Vor-
209
bild. Diese Synthese besteht aus zwei Teilen: (1) der Berechnung des Sprachtrakts aus dem Wortmaterial, das generiert werden soll, und (2) der Umsetzung der räumlichen Sprachtraktkonfigurationen in akustische Signale. In beiden Bereichen können wiederum verschiedene Methoden verwendet werden. (1) Die Konfiguration des Sprachtrakts für einen Laut kann (a) durch die Simulation einzelner Muskelgruppen, (b) durch geometrische Beschreibungen des Vokaltrakts wie Drehpunkte von Artikulatoren und Öffnungsweiten, aber (c) auch durch statistische Korrelation von Lauten und Artikulatorstellungen beschrieben werden. (2) Die Generierung eines akustischen Signals aus einer Sprachtraktkonfiguration kann (a) durch eine Approximation des Vokaltrakts durch kleine Röhrenabschnitte, (b) durch den Einfluss der geometrischen Form auf die Resonanzeigenschaften des Volkaltrakts, aber (c) auch durch Strömungssimulation gewonnen werden. Beim derzeitigen Stand der Technik ist die artikulatorische Synthese ein Entwicklungsmodell, um phonetisch-artikulatorische Prozesse zu untersuchen. Sie ist noch nicht in der Lage, eine qualitativ hochwertige und einfach zu bedienende Synthese durchzuführen. 3.2. Akustische Synthese Bei der akustischen Synthese werden Parameter in ein Sprachsignal umgerechnet. In diese Gruppe gehören als wichtigste Vertreter die LPC- und die Formant-Synthese. Die LPC-Analyse (s. Abschn. 1.3.) zerlegt ein Sprachsignal in Parameter über die Amplitude, Grundfrequenz und Parameter, die den Vokaltrakt beschreiben. Diese Parameter können manipuliert und für eine Resynthese verwendet werden (Markel & Gray, 1976). Da diesem Verfahren nur ein vereinfachter Vokaltrakt zugrunde liegt und die Signalquelle der stimmhaften Laute (die Stimmlippenschwingung) durch eine einfache Impulsform simuliert wird, hat das resynthetisierte Signal oft eine unnatürliche, metallische Färbung. Die Formantsynthese versucht dagegen, die akustischen Eigenschaften des Vokaltrakts in die Synthese einzubeziehen (Klatt, 1980). Dadurch wird der Ort der Signalquelle (labial, velar, alveolar, labial) und die Art (stimmhaft, stimmlos) über die Filterparameter akustisch genau simuliert, so dass ein Signal erzeugt werden kann, dessen Qualität der menschlichen Stimme nahe kommt. Jedoch hat dies einen Satz von ca. 60 Para-
210 metern zur Folge (Klatt & Klatt, 1990), die in beliebig kleinen Abständen definiert werden können. Dadurch erfordert diese Synthese einen hohen Aufwand in der Parametererzeugung und -Manipulation. Der hohe Aufwand zum Erstellen der Parametersätze für die Formantsynthese kann durch die Schätzung dieser Daten aus LPCParametern (copy synthesis, Scheffers & Simpson, 1995) reduziert werden oder durch den Einsatz von höherwertigen Parametern, die automatisch in die Syntheseparameter umgesetzt werden und Abhängigkeiten zwischen diesen Parametern berücksichtigen (HL, high level synthesis, Stevens & Bickley, 1991) ersetzt werden. Zudem können auch nur die wesentlichen Teile eines längeren Signalstücks sehr sorgfältig synthetisiert werden (z. B. einzelne Vokale) und in normale Sprachssignale eingefügt werden. 3.3. Wellenformsynthese Der Wellenformsynthese (bzw. Signalkonkatenation) liegt ein normales Sprachsignal zugrunde, wie es mit einem Mikrofon aufgenommen wurde. Aus einzelnen Signalteilen werden dann größere sprachliche Einheiten zusammengesetzt. Um Tonhöhenverläufe und verschiedene Sprechgeschwindigkeiten zu erzeugen, werden dazu die Signalteile mit entsprechenden Verfahren manipuliert. Vergleichbar sind diese Verfahren mit einem schnelleren oder langsameren Abspielen eines Tonbandes. Bei einem Tonbandgerät wird dabei zwangsläufig eine Aufnahme verkürzt und die Tonhöhe erhöht (bzw. die Aufnahme gelängt und die Tonhöhe reduziert). Bei dem PSOLA-Verfahren (Pitch Sychronous Overlap Add, Charpentier & Moulines, 1989) werden diese beiden Komponenten entkoppelt. Bei diesem Verfahren werden einzelne Perioden repliziert bzw. durch den Mittelwert benachbarter Perioden ersetzt. Dadurch kann bei der Verkürzung oder Verlängerung einzelner Perioden die Tonhöhe verändert werden und durch das Einfügen oder Eliminieren einzelner Perioden die Länge beibehalten oder auch verändert werden. Stimmlose Signalteile (Frikative, Plosive) werden einfach unverändert übernommen oder, falls notwendig, entsprechend in der Länge verändert. Da dem Verfahren eine natürliche, menschliche Stimme zugrunde liegt, die nur etwas im Zeitbereich manipuliert wird, ist die Qualität der Synthese sehr gut. Das Verfahren hat Beschränkungen, da immer nur ein Sprecher synthesisert werden
II. Methoden der Psycholinguistik
kann, von dem alle benötigten Signalteile aufgenommen und in dessen Sprache sorgfältigt einzelne Perioden markiert werden müssen. Zusätzlich können die Geschwindigkeit und Tonhöhe nicht beliebig verändert werden, da bei zu großen Abweichungen von der Originalgeschwindigkeit oder Tonhöhe ein menschlicher Sprecher weitere Veränderungen am Signal vornimmt, die dem PSOLAVerfahren nicht zugänglich sind. Eine wesentliche Beschränkung ist die Erzeugung eines beliebigen Texts mit diesem Verfahren, selbst wenn alle Wörter in einer Datenbank vorliegen: Wörter in kontinuierlicher Rede beeinflussen sich gegenseitig; so ist in der Abbildung 14.1.a die Phrase „Dann können wir ja gleich sagen“ abgebildet. In der phonetischen Transkription ist das Wort „dann“ als [dan] und das Wort „können“ als [kœm] dargestellt, weil genau dieses von dem Sprecher gesagt wurde. Ursache hierfür ist, dass dem „dann“ ein [k] folgt, das dorsal (am weichen Gaumen) gebildet wird; dadurch wird das [n], das normalerweise coronal (mit der Zungenspitze) gebildet wird, ebenfalls dorsal als [n] realisiert. Genauso wird das [n] in „können“ labial (mit den Lippen) als [m] gebildet, weil ein labialer Laut (das [v] in „wir“) folgt. Diese Assimilationsprozesse können von einer einfachen Signalkonkatenation nicht nachgebildet werden. Bei einer Wellenformsynthese werden in der Regel einzelne Wörter aus einer Datenbank abgerufen, zusammengefügt, und mit einer Lautstärke und Grundfrequenzkorrektur wird eine kontinuierliche sprachliche Äußerung erzeugt. Dieses setzt jedoch voraus, dass alle auftretenden Wörter in einer Datenbank vorhanden sind. Da weiterhin beim Sprechen einzelne Wörter ineinander übergehen und sich gegenseitig beeinflussen, führt das Zusammenschneiden von Wörtern nicht zwangsläufig zu einem natürlichen Sprachsignal. Mit der Wellenformsynthese können dagegen größere sprachliche Einheiten, wie etwa ganze Sätze, im Tonhöhenverlauf sehr gut manipuliert werden. Die Sprache erhält ihre Natürlichkeit, und beliebige Intonationsmuster können erzeugt werden. Besonders bei der Wellenformsynthese, aber auch bei den anderen Synthesemethoden werden häufig nicht ganze Wörter oder einzelne Laute (Phone), sondern Lautpaare (Diphone) oder andere Einheiten in einer Datenbank abgelegt, aus der dann die einzelnen Wörter und die Übergänge zwischen Wörtern zusammengesetzt werden. Dieses Aufbauen
14. Spezielle Verfahren V: Analyse und Synthese von Sprachlauten
der Sprache erlaubt eine größere Flexibilität und einen theoretisch unbegrenzten Wortschatz. Dies erfordert zum Teil umfangreiche Regelsysteme (bzw. statistisch trainierte Systeme), um ein befriedigendes Ergebnis zu erzielen. Mit anderen Worten: um einen natürlichen Übergang zwischen einzelnen Lautteilen zu erreichen, werden diese Übergänge komplett abgespeichert. Das Zusammensetzen dieser Teile erfordert jedoch wiederum eine komplexe Kontrolle zahlreicher Parameter, so dass der Gesamtaufwand nicht notwendigerweise reduziert wird.
4.
Schlussbemerkungen
Jedes Analyse- und Syntheseverfahren hat spezifische Vor- und Nachteile. Neben diesen systemimmanenten Beschränkungen kann eine schlechte Implementation eines Algorithmus in einem Computerprogramm zu fehlerhaften Ergebnissen führen. Dass eine Analyse nicht die gewünschte Information liefert, kann also an dem Verfahren selber liegen, aber es kann auch eine Folge eines Programmierfehlers sein. Genauso kann eine Synthese schlecht klingen, weil das Syntheseverfahren nicht korrekt implementiert wurde, obwohl die gewählte Synthesemethode in der Lage wäre, ein natürlich klingendes Ergebnis zu produzieren. Zusätzlich wird jedes Verfahren durch eine Vielzahl von Parametern kontrolliert. Die Wahl und Kontrolle dieser Parameter sind wichtig für die Analyse- und Synthesequalität. Generelle Aussagen wie „Das Verfahren X ist besser als das Verfahren Y“ sind deswegen kaum zu treffen.
5.
Literatur
Allen, G. D. (1978). Vowel duration measurement: A reliability study. Journal of the Acoustical Society of America, 63, 1176⫺1185. Allen, J., Hunnicutt, M. S. & Klatt, D. H. (1987). From text to speech ⫺ The MITalk system. Cambridge: Cambridge University Press. Bogert, B. P., Healy, M. J. R. & Tukey, J. W. (1963). The quefrency alanysis of time series for echoes: Cepstrum, pseudo-autocovariance, crosscepstrum and saphe cracking (pp. 209⫺243), Symposium on Time Series Analysis. New York: John Wiley & Sons. Box, G. E. P., Jenkins, G. M. & Reinsel, G. C. (1994) Time series analysis: forecasting and control. (3rd ed.) Englewood Cliffs: Prentice Hall.
211
Charpentier, F. & Moulines, E. (1989) Pitch-synchronous waveform processing techniques for textto-speech synthesis using diphones. Proceedings of Eurospeech 89, Paris 2, 13⫺19. Childers, D. G., Hicks, D. M., Moore, G. P., Eskenazi, L. & Lalwani, A. L. (1990). Electroglottography and vocal fold physiology. Journal of Speech and Hearing Research, 33, 245⫺254. Cooley, J. W. & Tukey, J. W. (1965). An algorithm for the machine calculation of complex Fourier series. Mathematics of Computation, 19, 297⫺301. Fourier, M. (1822). The´orie analytique de la chaleur. Paris: F. Didot. Ga´bor, D. (1946). Theory of communication. The Journal of the Institution of Electrical Engineers, 93, 429⫺457. Harris, F. J. (1978). On the use of windows for harmonic analysis with the discrete Fourier transform. Proceedings of the IEEE, 66, 51⫺83. Hermes, D. J. (1993). Pitch analysis. In M. Cooke, S. Beet & M. Crawford (Eds.), Visual representations of speech signals (pp. 3⫺25). Chichester: John Wiley & Sons. Klatt, D. H. (1980). Software for a cascade/parallel formant synthesizer. Journal of the Acoustical Society of America, 67, 971⫺995. Klatt, D. H. & Klatt, L. C. (1990). Analysis, synthesis, and perception of voice quality variations among female and male talkers. Journal of the Acoustical Society of America, 87, 820⫺857. Koenig, W., Dunn, H. K. & Lacy, L. Y. (1946). The sound spectrograph. Journal of the Acoustical Society of America, 18, 19⫺49. Loughlin, P. J., Atlas, L. E. & Pitton, J. W. (1993). Advanced time-frequency representations for speech processing. In M. Cooke, S. Beet & M. Crawford (Eds.) Visual representations of speech signals (pp. 27⫺53). Chichester: John Wiley & Sons. Markel, J. D. & Gray, A. H. (1976). Linear prediction of speech. Berlin: Springer. Monsen, R. B. & Engebretson, A. M. (1983). The accuracy of formant frequency measurements: A comparison of spectrographic analysis and linear prediction. Journal of Speech and Hearing Research, 26, 89⫺97. Patterson, R. D. (1976). Auditory filter shapes derived with noise stimuli. Journal of the Acoustical Society of America, 59, 640⫺654. Scheffers, M. T. M. & Simpson, A. P. (1995). LACS: Label assisted copy synthesis. Proceedings of the XIIIth International Congress of Phonetic Sciences, Stockholm, 2, 346⫺349.
212
II. Methoden der Psycholinguistik
Stevens, K. N. & Bickley, C. A. (1991). Constraints among parameters simplify control of Klatt formant synthesizer. Journal of Phonetics, 19, 161⫺ 174.
Zwicker, E. & Terhardt, E. (1980). Analytical expressions for critical band rate and critical bandwidth as a function of frequency. Journal of the Acoustical Society of America, 68, 1523⫺1525.
Stevens, S. S. & Volkman, J. (1940). The relation of pitch to frequency: A revised scale. The American Journal of Psychology, 53, 329⫺353.
Henning Reetz Universität Konstanz (Deutschland)
III. Sprachproduktion/Language Production 15. Theorien und Modelle der Sprachproduktion 1. 2. 3. 4. 5. 6.
1.
Sprachproduktionsmodelle: das Problem des Modell-Originals Sprachproduktionsmodelle und Problemreduktion Modellklassen Zwei Modelle des Sprachproduktionsprozesses Schluss Literatur
Sprachproduktionsmodelle: das Problem des Modell-Originals
Modelle sind Modelle von Originalen (vgl. dazu Stachowiak, 1973). Theorien haben einen „Gegenstand“; sie beziehen sich auf einen problematisierten Sachverhalt. So betreffen Sprachproduktionsmodelle und -theorien eben die Sprachproduktion. Wenn man sie erörtert, stellt sich also sogleich die Frage, was denn die Sprachproduktion sei. (Zu Theorien und Modellen vgl. Shapere, 1974; Gadenne, 1984.) Der Ausdruck „Sprachproduktion“ ist insofern irreführend, als er ersichtlich nicht den Sachverhalt bezeichnet, dass Sprache produziert wird. Dies zumindest nicht, wenn man mit de Saussure (1916) Sprache als „la langue“ (engl. „language“), also als überindividuelles, „ideelles“ Sprachsystem auffasst (vgl. dazu Bühler, 1934) und sie von „la parole“ (engl. „speech“), also von den individuellen, raum-zeitlich bestimmten Sprechhandlungen unterscheidet. Der Ausdruck „Sprachproduktion“ bezeichnet in diesem Kapitel die individuelle Produktion von singulären Sprachäußerungen – alltagssprachlich: das Sprechen. (Das Schreiben ist nicht das Thema dieses Kapitels. Vgl. dazu Bereiter & Scardamalia, 1987; Günther & Günther, 1983; Herrmann & Grabowski, 1995.) Diese Präzisierung schafft nicht die Frage nach dem Original der hier zu besprechenden Modelle bzw. nach dem in den hier interessierenden Theorien beschriebenen und gegebenenfalls erklärten Sachverhalt aus der Welt.
Bei der Beantwortung dieser Frage kann nicht mit hinreichender Sicherheit auf einen spezifischen, unbezweifelbar vorhandenen Tatbestand hingewiesen werden, der sich sozusagen aus sich selbst bestimmt. Was die individuelle Erzeugung von Sprachäußerungen für jemanden bedeutet, entscheidet die von ihm oder ihr gewählte Problembestimmung (Problemkonstitution). Diese Problembestimmung ist ihrerseits von vielen Bedingungen historischer, soziologischer und persönlich-biographischer Art abhängig (vgl. auch Blumenthal, 1970). Einige Beispiele: Man kann das Sprechen als ein artspezifisches mentales Vermögen begreifen. Es ist dann eine dem Menschen eigene, genetisch determinierte beziehungsweise angeborene Fähigkeit. Dieses Vermögen kann man mit Chomsky (1968; 1981) auch als das Verfügen über eine Universalgrammatik konzipieren, die dem Menschen als Gattungswesen implantiert ist. Sprechen zu erlernen bedeutet dann (allerdings neben dem Erwerb eines Vokabulars und von phonetischen und phonologischen Besonderheiten) im Wesentlichen nur noch, die immer gleichen Parameter dieser einen Universalgrammatik je nach Einzelsprache unterschiedlich zu fixieren. Oder das Sprechen setzt zumindest eine universelle und zugleich ganz spezifische Fähigkeit von Individuen voraus, die jeweils in ihrer Umgebung gesprochene Sprache in einer bestimmten Weise zu erwerben (Aitchison, 1998). – Ganz anders ist Sprechen konstituiert, wenn man es als neurologisch-physiologisch zu behandelnden Vorgang begreift (vgl. z. B. Höhle, 1995; Kiritani, Hirose & Fujisaki [Eds.], 1997). Dann untersucht man zum Beispiel evozierte Hirnpotentiale bei der Wortproduktion oder die Interkorrelation von Larynx-Muskeln während des Sprechens. – Oder das Sprechen ist nach kommunikationstheoretischer (konversations-, gesprächsanalytischer) Problembestimmung das wichtigste Vehikel für die Interaktion von mindestens zwei Menschen.
214
III. Sprachproduktion
Nicht das Individuum, sondern die Kommunikationsdyade ist dann die kleinste analytische Einheit für die wissenschaftliche Behandlung des Sprechens (Kallmeyer & Schütze, 1976). – Für die Sprachpsychologie ist das Sprechen ganz überwiegend ein individuelles Verhaltensereignis. Dieses Verhaltensereignis kann man beobachten, messen oder über andere empirische Indikatoren erfassen und beschreiben. Man erforscht seine Bedingungen und Auswirkungen und rekonstruiert es theoretisch als mentalen und neuronalen Prozess, wobei man auch den systematischen Zusammenhang des Sprechens mit anderen menschlichen Verhaltensweisen zu klären sucht (vgl. Herrmann & Grabowski, 1994). – Andere Varianten der Bestimmung des Sprechens entstehen zum Beispiel aus semiotischer Sicht (Peirce, 1931⫺35; Eco, 1972). Die Beispiele verdeutlichen, dass die Sprachproduktion keineswegs ein einziges, schlicht vorfindbares Phänomen ist, das man durch alternative Theorien und Modelle rekonstruieren und systematisieren könnte. Vielmehr muss man in Rechnung stellen, dass die heute vorliegenden Theorien und Modelle nicht ein und dasselbe Original abbilden, sondern dass es sich bei ihnen um Modelle mehrerer verschiedener Originale handelt. Hieraus folgt unmittelbar, dass die erörterten Theorien und Modelle nicht miteinander strikt konkurrieren bzw. dass zwischen ihnen nicht zweifelsfrei empirisch entschieden werden kann (vgl. auch Duhem, 1906; Lakatos, 1974). Doch können bestimmte Theorien und Modelle der Sprachproduktion, verglichen mit anderen, zu bestimmten Zeiten für bestimmte Zwecke mit guten Gründen als die nützlicheren Problemlösungsmittel beurteilt werden (Stachowiak, 1973).
2.
Sprachproduktionsmodelle und Problemreduktion
Die Entwicklung und Erprobung von Theorien und Modellen ist nicht die einzige Tätigkeit von Psycholinguisten und Sprachpsychologen, die die Sprachproduktion wissenschaftlich systematisieren und theoretisch reflektieren wollen. So hat es in der Geschichte dieser Wissenschaftsdisziplinen seit etwa hundert Jahren immer ein Nebeneinander von theoretisch-methodologischem Paradigmatismus und Aspektismus gegeben: Als Paradigmatismus kann man diejenigen theoretischen und methodologischen Forschungsbemühun-
gen verstehen, die in einer geschlossenen und einheitlichen Rekonstruktion des Problemfelds der Sprachproduktion, also in entsprechenden Modellen und Theorien, resultieren oder resultieren sollen. Solche Theorien und Modelle sind immer reduzierte Rekonstruktionen der Sprachproduktion. Unter der Maßgabe des sprachpsychologischen und psycholinguistischen Aspektismus (vgl. u. a. Bühler, 1934; Hörmann, 1967; 1976) wird hingegen versucht, tentativ alle bekannten Facetten des Problemgebiets der Sprachproduktion oder doch möglichst viele von ihnen zu berücksichtigen. Damit aber opfert der Aspektismus die Einheitlichkeit und Geschlossenheit der Theoriebildung. Die Psychologie und Linguistik des Sprechens standen immer schon vor dem folgenden Vollständigkeits-Geschlossenheits-Dilemma: Entweder muss man bedeutsame Problematisierungsfacetten des Sprechens, so wie sie im Alltagsverständnis und auch in der Geschichte der sprachwissenschaftlichen Disziplinen nachweisbar sind, beiseite lassen und sein Geschäft stark reduziert betreiben, um hinlänglich kohärente und konsistente Theorien und Modelle entwickeln zu können. Oder man muss versuchen, tentativ alle bekannten Problematisierungsfacetten oder doch möglichst viele von ihnen in den theoretischen Diskurs aufzunehmen. Dann aber verfehlt man die nach dem heutigen Standard erforderliche Kohärenz und Konsistenz der Modell- und Theoriebildung. Es folgt: Alle Modelle und Theorien der Sprachproduktion haben per se ein nicht zu behebendes Defizit. Der Paradigmatismus, auf dem sie beruhen, erkauft die aus heutiger Sicht erforderliche theoretische und methodologische Einheitlichkeit und Geschlossenheit seiner Konzeptionen mit dem Verzicht auf berechtigte Vollständigkeitsansprüche bei der Problemkonstitution und Problembehandlung und damit mit einem erheblichen theoretisch-methodologischen Reduktionismus. Ein Beispiel: Eines der bekanntesten Modelle zur Sprachproduktion, das im Abschnitt 4.1 ausführlich beschrieben wird, stammt von Willem J. M. Levelt (1989). Dieser Autor trennt, wie fast alle heutigen Modellautoren, die Sprachproduktion von der Sprachrezeption ab und betrachtet den Menschen somit nicht als „integrierten Sprecher/ Hörer“. Annahmen zum komplizierten und geordneten Wechselspiel von Sprechen, Mimik, Gestik und anderen nonverbalen Kommunikationsmitteln sind nicht vorgesehen.
215
15. Theorien und Modelle der Sprachproduktion
Im Wesentlichen ist das Ergebnis der Sprachproduktion der (linguistisch definierte) Satz. Das Sprechen ist kaum kommunikativ. Die Sprachproduktion wird als ein im „mind“ (und auch im „brain“) eines Individuums im Grunde immer gleich ablaufender Prozess verstanden, bei dem der Kommunikationspartner, die kommunikative Gesamtsituation, in welcher der Sprecher als eine merkmalsreiche, keineswegs nur sprechende Person agiert, und in dieser Situation verwirklichte historisch-gesellschaftliche Konventionen kaum eine Rolle spielen (vgl. zu diesen Problembereichen Clark, 1996; Graumann & Herrmann, 1989). Innerhalb von Levelts Modell (wie innerhalb vergleichbarer Konzeptionen) lässt sich keine Gesprächsdynamik, zum Beispiel kein „face management“ (vgl. Brown & Levinson, 1987), darstellen. Es wird kaum erforscht, wie und warum Sprecher beim Vorliegen einer bestimmten Kommunikationssituation und nicht nur einer bestimmten vorsprachlich-gedanklichen „message“ (vgl. auch unten Abschnitt 3.2) genau eine bestimmte (zumeist grammatische) Sprachäußerung erzeugen; das Sprechen ist insofern bei Levelt nicht „situiert“. Zwar gehört die Systematik von Sprechfehlern zu den wichtigsten Wegen, auf denen die Teilprozesse der Sprachproduktion und ihre Abfolge erkannt werden sollen (vgl. auch Levelt, 1983), doch bleibt zum Beispiel jede handlungstheoretische Art, Sprechfehler zu erklären (Sprechfehler als Handlungsfehler), unthematisiert. Die Fähigkeit zur Produktion von „frischen“, noch nicht konventionalisierten Metaphern wird in ihrer sprachtheoretischen Relevanz nicht behandelt. (Zu „frischen“ Metaphern vgl. Hörmann, 1971; Schumacher, 1997.) Die Widerspiegelung des ständigen kollektiven Sprachwandels im Individuum findet keine Berücksichtigung (Dornseiff, 1955). Generell kommt der theoretische Zusammenhang von Sprecher/Hörer, Konvention, Institutionen und Gesellschaft so wenig vor wie etwa phänomenologisch-hermeneutische Methodenkonzeptionen. Es fehlt auch jede genauere Ausarbeitung des angesichts der stark nativistischen Sichtweise, die Teilen der Modellbildung zugrunde liegt, eigentlich naheliegenden humanethologischen Funktionalismus. Dies alles kann Levelts Modell freilich so wenig angelastet werden wie allen anderen modernen Modellentwicklungen, die mit solchen Problemreduktionen behaftet sind; denn das hieße nicht weniger, als von der heutigen For-
schung die Suspendierung vom Vollständigkeits-Geschlossenheits-Dilemma zu fordern. Der nachfolgende Bericht über Theorien und Modelle der Sprachproduktion bezieht sich nur auf den paradigmenförmigen Zugang der Psycholinguistik und Sprachpsychologie zur Sprachproduktion, also nur auf einen Teil ihrer Bemühungen um eine systematisierte Erkenntnis dieses Problemgebiets.
3.
Modellklassen
Man kann die zur Sprachproduktion vorliegenden Modelle und Theorien unter sehr verschiedenen Gesichtspunkten einteilen bzw. voneinander unterscheiden; solche Klassifikationsbemühungen entbehren nie einer gewissen Willkür. Die im Folgenden verwendeten Einteilungsgesichtspunkte sind in den sprachwissenschaftlichen Disziplinen üblich, wenn sich auch bisher keine einheitliche Klassifikationsterminologie eingebürgert hat (vgl. dazu auch Gernsbacher [Ed.], 1994; Rickheit & Strohner, 2002). 3.1. Merkmalsträger Man kann die Modelle und Theorien der Sprachproduktion danach einteilen, welchem Substrat, welchem Merkmalsträger, die theoriespezifisch unterstellten Merkmale und Funktionen der Sprachproduktion zugeschrieben werden. Die Grundunterscheidung besteht darin, ob man entweder das Individuum oder die Dyade (bzw. ein größeres Kollektiv) als Substrat der Erzeugung sprachlicher Äußerungen unterstellt. Kommunikationswissenschafter, aber auch Psychologen und Linguisten, deren Interesse besonders der Gesprächsdynamik, dem Aushandeln von Bedeutung im Diskurs und ähnlichen Phänomenen gilt, betrachten Dyaden von Kommunikationsteilnehmern als die kleinste analytische Einheit ihrer Theoriebildung. Sprachliche Kommunikation „benötigt“ mindestens zwei sprachlich miteinander interagierende Individuen (Clark, 1996; Kallmeyer & Schütze, 1976; Markova´ & Foppa, 1990; vgl. auch aus der Sicht der KI-Forschung Ortony, Slack & Stock, 1992). Anders verhält es sich, wenn man den mentalen oder neuronalen Prozess der Produktion von Sprachäußerungen zum Forschungsproblem bestimmt. Der Sprachproduktionsprozess ist seit längerem der weitgehend konsensuelle Gegenstand der psycholinguistischen und sprachpsychologischen Modell- und Theorie-
216 bildung. Dieser Prozess wird stets dem Individuum zugeschrieben; die Sprachäußerung ist das Ergebnis eines individuellen Sprachproduktionsprozesses (z. B. Butterworth, 1980; Hofer & Buhl, 1998; Levelt, 1989). Man kann die sprachwissenschaftliche Arbeit, bei der Individuen als Merkmalsträger unterstellt werden, als methodologischen Individualismus bezeichnen. Diese methodologische Vorentscheidung impliziert keinen dogmatischen, ontologischen Individualismus als eine philosophische oder auch gesellschaftstheoretische Grundüberzeugung. 3.2. Kontextsensitive und autonome Modelle Die meisten Vertreter der psycholinguistischen und sprachpsychologischen Theorien und Modelle des Sprachproduktionsprozesses arbeiten nach den Maßgaben eines methodologischen Individualismus, dennoch unterscheiden sie sich in starkem Maße. Der Unterschied besteht primär darin, ob bzw. wieweit die Sprachproduktion als kontextsensitiv oder aber als autonom aufgefasst wird. ⫺ Kontextsensitive Modelle: Die Vertreter von kontextsensitiven Theorien und Modellen interessieren sich primär für situative bzw. kommunikative Einflüsse auf die variierende Sprachproduktion und auf die aus ihr resultierenden unterschiedlichen sprachlichen Äußerungen. Sie rekonstruieren zwar jeweils den Prozess der Sprachproduktion, doch lassen sie in unterschiedlicher Weise Raum für die variablen Bedingungen der Sprachproduktion (s. unten Abschnitt 4.2). Die Sprachproduktion kovariiert unter anderem mit der jeweiligen kommunikativen Gesamtsituation, mit dem Kommunikationsziel des Sprechers, dem Verhalten des Partners und mit demjenigen, was im laufenden Gespräch bereits gesagt wurde. Weiterhin kann man Unterschiede der Sprachproduktion aus Unterschieden dispositioneller Merkmale des Sprechers, beispielsweise aus seinem sozialen Status, seinen überdauernden Überzeugungen und auch aus seiner sozialen Distanz zum Partner erklären (z. B. Levinson, 1990). Nach allem kann die Sprachproduktion als kontextsensitiv aufgefasst werden. Aus den kontextsensitiven Modellen lassen sich vielfältige empirisch prüfbare, auf die jeweiligen Sprachproduktionsbedingungen bezogene Wenn-dann-Aussagen folgern. Beispiele für die Klasse der kontextsensitiven Theorien bzw. Modelle findet man unter anderem bei
III. Sprachproduktion
Bock (1982), Herrmann und Grabowski (1994) und bei Hofer und Buhl (1998). ⫺ Autonome Modelle: Diese Modellklasse hat die Eigenart, von den soeben genannten kontextspezifischen Unterschieden ganz oder fast ganz abzusehen und die der menschlichen Spezies eigenen Invarianten der Sprachproduktion zu akzentuieren. Die Teilprozesse der Sprachproduktion, auf die sich diese Modelle beziehen, laufen tentativ immer in gleicher Weise ab. Autonome Modelle privilegieren als die einzige relevante Varianzquelle für den Output der Sprachproduktion die „message“ (den mentalen, nichtsprachlichen, zur sprachlichen Verschlüsselung anstehenden Prozessinput). Wir nennen diese Theoriebzw. Modellklasse (wie üblich, vgl. Rickheit & Strohner, 2001) die autonomen Modelle der Sprachproduktion. Die charakteristischen experimentellen Untersuchungen und anderen empirischen Verfahren zur Erprobung autonomer Modelle dienen der Prüfung von Annahmen zum Aufbau des invarianten Gesamtprozesses der Sprachproduktion aus invarianten Teilprozessen und zu deren invarianter Abfolge. – Beispiele für die Klasse der autonomen Modelle findet man unter anderem bei Garrett (1988) und Levelt (1989). ⫺ Relevanz der Syntax: Die kontextsensitiven und die autonomen Modelle unterscheiden sich danach, wie sehr sich ihre Vertreter für den Teilprozess der Erzeugung syntaktischer Satzstrukturen interessieren: Proponenten der autonomen Modelle pflegen (i) die Relevanz der Syntax für die Sprachproduktion und (ii) die Unabhängigkeit der Syntaxgenerierung von inhaltlichen (d. h. auf die Bedeutung von Äußerungen bezogenen) Aspekten der Sprachproduktion zu betonen (Garrett, 1988; Frazier, 1987; vgl. dazu Rickheit & Strohner, 1993). Autonom sind diese Modelle also einmal wegen der akzentuierten Invarianz der Sprachproduktion gegenüber situativen Kontexteinflüssen und zum anderen wegen der postulierten Unabhängigkeit der Syntaxerzeugung von der Satzbedeutung. Zwischen den Vertretern kontextsensitiver Modelle ergeben sich bezüglich der Relevanz der Syntax erhebliche Unterschiede. Zum Beispiel spielt die theoretische Rekonstruktion der Erzeugung von syntaktischen Strukturen bei Bock (1982) eine wesentliche Rolle; dagegen gehört die Syntaxerzeugung gar nicht zum Gegenstand des Modellentwurfs von Hofer und Buhl (1998). Doch betonen die Vertreter kontextsensitiver Modelle, soweit
15. Theorien und Modelle der Sprachproduktion
sie die Syntaxgenerierung zum Thema machen, übereinstimmend die situativen und inhaltlichen Einflüsse auf die Generierung syntaktischer Strukturen (vgl. Bock, 1982). Für die kontextsensitiven Modelle ist es nicht nur wichtig, auf welche Weise grammatische Satzkonstruktionen überhaupt produziert werden, sondern auch, unter welchen Bedingungen genau eine von mehreren möglichen korrekten Strukturen erzeugt wird (Herrmann & Grabowski, 1994). ⫺ Input- und Prozessvariabilität: Der Output des Sprachproduktionsprozesses (⫽ die resultierende Sprachäußerung) hängt im Grundsatz von zwei Klassen von Bedingungen ab: (i) vom variablen Input des Sprachproduktionsprozesses und (ii) von variablen Eigenschaften des Sprachproduktionsprozesses: (i) Alle heute bekannten sprachpsychologischen und psycholinguistischen Theorien und Modelle – die kontextsensitiven und die autonomen – beachten in hohem Maße die Abhängigkeit des Unterschieds von Prozessoutputs von der Variabilität des Prozessinputs: Wer unterschiedliche mentale, nichtsprachliche „Botschaften“ (Gedanken, „messages“, Propositionsstrukturen u. dgl.) sprachlich verschlüsselt, wird Unterschiedliches sagen. Diese ubiquitäre Kovariation des Prozessoutputs mit dem Prozessinput nennen wir die Inputvariabilität des Sprechens. (ii) Die kontextsensitiven Theorien der Sprachproduktion, aber kaum die autonomen Theorien enthalten (neben den Annahmen zur Inputvariabilität) wesentliche Annahmen zu einer spezifischen Prozessvariabilität des Sprechens. Prozessvariabilität bedeutet die Kovariation des Sprachoutputs mit variablen Eigenschaften des Sprachproduktionsprozesses. Der situative bzw. kommunikative Kontext determiniert – partiell vermittelt über die „message“ – die variable Einstellung bzw. Instantiierung von Prozessparametern (und auf diesem Wege zugleich den sprachlichen Output). Wir unterscheiden zwei Stufen der Prozessvariabilität und treffen zuvor die folgende terminologische Festlegung: Zufolge der Annahmen aller heute bekannten Sprachproduktionsmodelle zerfällt der Gesamtprozess der Sprachproduktion in Teilprozesse. Der erste Teilprozess resultiert in der Bereitstellung des kognitiv-nichtsprachlichen Inputs der sprachlichen Verschlüsselung. Der terminale Teilprozess dient der artikulatorischen Erzeugung des Endprodukts der Sprachproduktion: des beobachtbaren Sprechsignals
217 bzw. der Bewegungen der Sprechmuskulatur. Die Teilprozesse, die zwischen dem ersten und dem terminalen Teilprozess angeordnet sind, nennen wir intermediäre Teilprozesse. (Als intermediäre Teilprozesse gelten zum Beispiel der interne Abruf von Lexemen oder die interne Erzeugung der Prosodie.) Die erste Stufe der Prozessvariabilität kann wie folgt bestimmt werden: Intermediäre Teilprozesse oder auch der terminale Teilprozess können (auch wenn sie vom jeweils vorgeordneten Teilprozess den gleichen Input empfangen) zu verschiedenen Teilprozessoutputs führen, falls verschiedene Teilprozessbedingungen vorliegen. Dabei kann es sich um situative Kontextbedingungen (s. oben) oder um andere Teilprozessbedingungen handeln. Beispiele: Den gleichen Komponenten einer gedanklichen „message“, die den Input des Teilprozesses der lexikalischen Kodierung bilden, werden unterschiedliche Wörter oder Morpheme zugeordnet, wenn das lexikalische Teilsystem auf unterschiedliche Sprachkodes (z. B. Standardsprache vs. Dialekt) eingestellt ist oder wenn die Wortfindung bei unterschiedlicher individueller Wortverwendungshäufigkeit oder bei unterschiedlicher Wortreproduktion nach Maßgabe der Enkodierspezifität variiert (Tulving & Thomson, 1973). Oder das Artikulationssystem erzeugt bei gleichem Input einen unterschiedlichen Output (Flüstern, Rufen usf.), wenn es in unterschiedlicher Weise situationsspezifisch eingestellt ist. Die zweite Stufe der Prozessvariabilität liegt vor, wenn die funktionale Verknüpfung mehrerer Teilprozesse mit dem Sprachproduktionskontext kovariiert: Die Gesamtanforderung an die Sprachproduktion verteilt sich kontextabhängig unterschiedlich auf verschiedene Teilprozesse. So kann die Kontrolle über den Sprachproduktionsprozess von einer zentralen Kontrollinstanz in variablem Ausmaß an nachgeordnete Prozessinstanzen „delegiert“ werden (Herrmann & Grabowski, 1994: 278 ff.). Beispiel: Bei situationsspezifischer Einstellung des Sprechersystems auf das Erzählen eines Märchens (⫽ Schema-Steuerung des Sprachproduktionsprozesses) ist das Kommunikationsprotokoll, das die funktionale Verbindung der momentanen Sprechplanung mit der vorhergehenden Äußerung des Partners oder des Sprechers herstellt, „heruntergeschaltet“; dagegen ist das Kommunikationsprotokoll hoch aktiviert, wenn die momentane Sprechplanung, zufolge der kommunikativen Gesamtsitua-
218 tion, strikt von vorhergehenden Partneräußerungen abhängt (⫽ Reiz-Steuerung des Sprachproduktionsprozesses). Die autonomen Modelle enthalten keine zentralen Annahmen zur kontextabhängigen Prozessvariabilität und pflegen experimentell aufgefundene Ablaufvariationen von intermediären Teilprozessen gegebenenfalls durch Ad-hoc-Annahmen zu erklären (s. Meyer & Schriefers, 2001). Soweit situative bzw. kommunikative Kontexteinflüsse in autonomen Modellen überhaupt thematisiert werden, beeinflusst dieser Kontext (i) wie auch immer die nichtsprachliche „message“, und diese „message“ beeinflusst (ii) als Input eines vielgliedrigen Enkodierprozesses die tentativ auf immer gleiche Weise verschlüsselte Sprachäußerung. Diese Einflusskette wird allerdings kaum zum Forschungsthema. – Die kontextsensitiven Produktionsmodelle unterscheiden sich danach, ob sie nur Stufe 1 der Prozessvariabilität (z. B. Bock, 1982) oder auch Stufe 2 der Prozessvariabilität (z. B. Herrmann & Grabowski, 1994; Rummer, Grabowski & Vorwerg, 1995) vorsehen. 3.3. Serialität, Kaskaden, Parallelität, Module und Rückkopplung Bei der derzeitigen wissenschaftlichen Diskussion zur Architektur von Sprachproduktionsmodellen wird die (invariante) Verschaltung von Teilprozessen unter den Gesichtspunkten der Serialität, der Modularität und der Rückkopplung kontrovers diskutiert. Dies sei kurz wie folgt erläutert: Bei der Sprachproduktion wird eine Abfolge von Informationselementen IE in mehreren Teilprozessen TP verarbeitet. Bei IE mag es sich – je nach Modellannahme – um Begriffe („concepts“), Propositionen, Phoneme, Silben, Morpheme, um Satzkonstituenten, ganze Sätze, Texte oder auch um Objektbenennungen, Fragen, Bitten, Wegauskünfte oder dergleichen handeln. – Eine serielle Verschaltung (Serialität) von Teilprozessen TP liegt vor, wenn ein nachgeordneter Teilprozess TPf⫹1 die (z. B. phonologische) Verarbeitung eines Informationselements IEf erst beginnt, nachdem der vorgeordnete Teilprozess TPf die (z. B. lexikalische) Verarbeitung eben dieses Elements IEf beendet hat (vgl. Levelt, 1989). Demgegenüber kann man die Verschaltung von Teilprozessen auch im Sinne von Kaskaden oder auch als parallel verlaufend auffassen (vgl. dazu im Zusammenhang mit der Wortgenerierung Harley, 1993; Caramazza & Miozzo, 1997). Kaskaden implizieren den Beginn von
III. Sprachproduktion
Teilprozessen TPf⫹1 vor Beendigung der Teilprozesse TPf, so dass eine partielle zeitliche Überlappung beider Teilprozesse stattfindet; die theoretische Begründung von Kaskadenstrukturen schwankt (vgl. dazu auch Meyer & Schriefers, 2002). Der Begriff der Parallelität wird bisher nicht einvernehmlich verwendet. Meist bedeutet er die (fast) vollständige Gleichzeitigkeit des Anfangs und des Endes zweier Teilprozesse TPf und TPg, Parallelität kann aber auch die Variabilität der temporalen Relation zwischen Teilprozessen bedeuten und impliziert zuweilen sogar die Negation der Möglichkeit von strikten Grenzziehungen zwischen disjunkten Teilprozessen (vgl. u. a. Dell, Burger & Svec, 1997; Dell & O’Seaghdha, 1992; Schade, 1992). – Wie weiter unten noch genauer ausgeführt wird (Abschnitt 4.1: inkrementelle Verarbeitung), bedeutet Serialität nicht, dass der vorgeordnete Teilprozess TPf „ruht“, nachdem er den nachgeordneten Prozess TPf⫹1 angestoßen hat. Das wäre unter dem Gesichtspunkt mentaler Prozessökonomie höchst dysfunktional. Vielmehr kann der Teilprozess TPf bereits das nachfolgend zu verschlüsselnde Informationselement IEf⫹1 verarbeiten, während der nachgeordnete Teilprozess TPf⫹1 noch das vorherige Informationselement IEf verarbeitet. Auch muss der Sprecher zu Beginn der Enkodierung sprachlicher Äußerungen noch nicht die gesamte zur Enkodierung anstehende „message“ bereitgestellt haben; man beginnt bisweilen sogar zu sprechen, ohne schon zu wissen, was man eigentlich sagen will (Bock, 1982: 38). Begrifflich unabhängig vom Serialitätsbegriff, aber theoretisch eng mit ihm verschwistert ist der Begriff der Modularität (der Abgekapseltheit) von Teilprozessen. Der Ausdruck „Modularität“ wird innerhalb der Psycholinguistik und generell der Psychologie wie auch der Kognitionswissenschaft unterschiedlich und auch unterschiedlich präzise verwendet (Zimmer, 1993). Weitgehende Übereinstimmung besteht über folgende Bestimmung der Modularität: Teilprozesse sind voneinander abgekapselt, sie arbeiten unabhängig voneinander, und sie sind lediglich durch definierte „Schnittstellen“ miteinander verbunden (vgl. allgemein Fodor, 1983). Garrett (1988) versteht die Modularität als ein wesentliches Attribut von Teilprozessen der Sprachproduktion: Die für jeden Teilprozess benötigte Information ist spezifisch, d. h. sie steht nur auf der jeweiligen Prozessebene zur Verfügung.
219
15. Theorien und Modelle der Sprachproduktion
So kann das Sprechersystem auf Einträge des Mentalen Lexikons lediglich auf der Ebene der lexikalischen Enkodierung zurückgreifen; Information über die phonologische Form von Wörtern steht nur auf der WortformEbene zur Verfügung. Wiederum unabhängig von den Gesichtspunkten der entweder seriellen, kaskadenförmigen oder parallelen Verschaltung von Teilprozessen oder auch von der Modularität der Teilprozesse kann gefragt werden, ob und wieweit sequentiell nachgeordnete Teilprozesse TPf⫹1 mit vorgeordneten Prozessen TPf rückgekoppelt sind. Im Modell von Levelt (1989) ist eine Informationsrückkopplung nur insofern vorgesehen, als der Sprecher vom „Endergebnis“ des gesamten Sprachproduktionsprozesses, also vom resultierenden Sprechsignal, Kenntnis nimmt und auf diese Weise gegebenenfalls Korrekturen vornimmt. Für die intermediären Teilprozesse ist dagegen keine Rückkopplung vorgesehen. Die Informationsverarbeitung erfolgt sozusagen ballistisch, ebenso wie ein geworfener Stein vom Werfer in seiner Flugbahn nicht mehr beeinflusst werden kann, nachdem er die Hand verlassen hat. In der Mannheimer Regulationstheorie (Herrmann & Grabowski, 1994) sind Rückkopplungen auch zwischen intermediären Teilprozessen vorgesehen. Es wird für einige intermediäre Teilprozesse eine (nicht „bewusst“ repräsentierte) Überwachung ihres Outputs unterstellt. Zeigt die Überwachung des Outputs eines solchen Teilprozesses die Notwendigkeit von Korrekturen bzw. Ergänzungen an, so erfolgen diese im Wege der Rückmeldung an jeweils vorgeordnete Teilprozesse. Das Sprachproduktionssystem verfügt also über intermediäre Regulationsinstanzen (Herrmann & Grabowski, 1994; vgl. entsprechende Annahmen zur erschwerten Wortfindung: Herrmann, 1992). Für die Serialitätsannahme stellt sich das folgende Problem: Man kann für kleine Informationselemente IEi (zum Beispiel für einzelne Silben, Morpheme oder Wörter) unterstellen, dass ihre Verarbeitung streng seriell erfolgt. Zugleich aber kann man gegebenenfalls annehmen, dass komplexere Informationsstrukturen IEj, die aus den kleinen Elementen IEi zusammengesetzt sind, kaskadenförmig verarbeitet werden. Bei den komplexeren Strukturen IEj kann es sich beispielsweise um Objektbenennungen, Fragen, Erwiderungen o. dgl. handeln (vgl. u. a. MangoldAllwinn, Barattelli, Kiefer & Koelbing,
1995). Man kann also widerspruchsfrei die Konjunktion der beiden folgenden Sachverhalte behaupten: (i) Die Verarbeitung jedes kleinen Elements IEi beginnt erst auf der Prozessebene TPf⫹1, nachdem seine Verarbeitung auf der vorgeordneten Ebene TPf beendet ist. (ii) Mit der Verarbeitung der ersten Elemente IEi der Struktur IEj wird bereits auf der Prozessebene TPf⫹1 begonnen, bevor die Verarbeitung der letzten Elemente IEi der Struktur IEj auf der Ebene TPf abgeschlossen ist. Insofern beginnt die Verarbeitung einer Informationsstruktur auf der Ebene TPf⫹1, bevor die Verarbeitung dieser Struktur auf der Ebene TPj beendet ist. Es folgt: Empirische Prüfungen von Serialitätsannahmen erfordern die genaue Bestimmung derjenigen Informationselemente IE, für die die jeweiligen Annahmen gelten sollen. Empirische Ergebnisse zur Serialität, die bei Unterstellung bestimmter Informationselemente IEf gewonnen wurden, können nicht ohne weiteres auf Serialitätsannahmen übertragen werden, die die Unterstellung anderer Informationselemente IEg implizieren. (Zum Serialitätsproblem und zum Problem des „central bottleneck“ vgl. auch McCann & Johnson, 1992; Pashler, 1994.) 3.4. Zusammenfassung einiger Klassifikationsgesichtspunkte Die wichtigsten in diesem Abschnitt erläuterten Klassifikationsmerkmale für Modelle und Theorien der Sprachproduktion sind in Abbildung 15.1 zusammengefasst. Es sei betont, dass fast alle heutigen autonomen Modelle der Sprachproduktion (vgl. Garrett, 1988; Levelt, 1989) in expliziter Weise eine strenge Serialität der Teilprozesse voraussetzen.
Individuum
Dyade z.B. Clark (1996)
kontextsensitiv
autonom z.B. Garrett (1988) Levelt (1989)
Prozessvariabilität, Stufe 1 Prozessvariabilität, Stufe 2 z.B. Bock (1982)
z.B. Herrmann & Grabowski (1994)
Abb. 15.1: Klassen von Modellen der Sprachproduktion (s. Text).
220
4.
III. Sprachproduktion
Zwei Modelle des Sprachproduktionsprozesses
Unter Hinweis auf die Zusammenfassung von Klassifikationsgesichtspunkten im Abschnitt 3.4. werden nachfolgend zwei charakteristische Modelle des Sprachproduktionsprozesses genauer dargestellt. Die beiden Prozessmodelle unterstellen als Merkmalsträger das menschliche Individuum. Eines gehört zur Klasse der autonomen, das andere zur Klasse der kontextsensitiven Modelle. 4.1. Levelts Modell serieller Prozesse (1989) Levelts Modell der Satzproduktion (1989; vgl. auch Levelt, 1992; sowie Roelofs, 1997) ist das zur Zeit bedeutendste autonome Modell der Sprachproduktion. Das Modell besitzt in Garretts „Processes in language production“ (1988; vgl. auch Garrett, 1980) einen einflussreichen Vorläufer. Levelt übernimmt von Garrett (1988) die Annahme der funktionalen Abgekapseltheit der Teilprozesse (Modularitätsannahme), wonach die auf jeder Prozessebene benötigten Informationen spezifisch sind, also nur auf der jeweiligen Ebene zur Verfügung stehen. Weiter übernimmt Levelt die Annahme der strikten Serialität der Teilprozesse (s. oben; vgl. auch Bock & Levelt, 1994). Äußerungen werden – in dieser Reihenfolge – gedanklich-begrifflich, lexikalisch-grammatisch und phonetisch-artikulatorisch produziert. In Levelts Modell sind die Grundbegriffe und die Argumentationsweise weitgehend der Linguistik entlehnt. In strenger Abfolge laufen, nach Levelt, bei der Sprachproduktion die folgenden Teilprozesse ab: (1) Aus einem nichtsprachlich-konzeptuellen Prozess resultieren „messages“. Eine solche „message“ ist noch nichts im engeren Sinne Sprachliches, aber sie ist schon so beschaffen, dass den Komponenten der „message“ (von Levelt auch „lexikalische Konzepte“ genannt) auf der Ebene 2 (s. dort) Eintragungen im Mentalen Lexikon zugeordnet werden können. (2) Die „message“ (von Ebene 1) stößt die lexikalische Enkodierung an: Den Komponenten der „message“ (den „lexikalischen Konzepten“) werden, wie bei Garrett (1988), Einträge in ein Mentales Lexikon (sog. „lemmas“, Lemmata) zugeordnet. Die „lemmas“ sind interne Repräsentationen, die auch grammatische Merkmale (Wortart, gramma-
tisches Geschlecht usf.) besitzen. Meist wird einem lexikalischen Konzept nur ein „lemma“ zugeordnet, bisweilen aber auch mehrere. (Dem lexikalischen Konzept Weggehen können zum Beispiel im Deutschen die drei „lemmas“ „sich | fort|machen“ oder auch „die | Platte | putzen“ entsprechen.) (3) Aus den „lemmas“ werden im Wege der nächsten beiden Teilprozesse die Wortformen erzeugt. Zunächst werden die „lemmas“ morphologisch enkodiert; es entstehen Morpheme. Auf der Basis eines „lemmas“ und einiger zusätzlicher Kriterien, die sich aus der „message“ (Ebene 1) herleiten (z. B. Tempus, Numerus), werden ein oder mehrere Morpheme generiert (z. B. „kam“, „Hund|e“). Mehreren „lemmas“ (mit ganz unterschiedlicher Bedeutung) können auch dieselben Morpheme zugeordnet sein (z. B. „Absatz“). (4) Auf die Morpheme greift der phonologische Enkodierungsprozess zu, der auch metrische Wortmerkmale (Silbenstruktur) generiert. Nicht für jedes einzelne Morphem ist ein separates phonologisches Muster gespeichert. Die phonologische Enkodierung erfolgt vielmehr meist per Anwendung von generellen Silbenbildungs- und Betonungsregeln der jeweiligen Einzelsprache; die phonologische Enkodierung ist insofern regelbasiert. Das Resultat ist eine abstrakt-intermediäre Repräsentation von Wortformen, die noch nicht phonetisch-artikulatorisch spezifiziert sind. (5) Die phonetische Enkodierung erzeugt phonetische Pläne für einzelne Wörter und für die „verbundene Rede“. (6) Durch den nach dem phonetischen Plan ablaufenden Vorgang der Artikulation entsteht das hörbare Sprechsignal. Zur Überwachung des eigenen Sprechens kann der Sprecher (nur) auf das Ergebnis der Artikulation zugreifen. Kontrollierende Zugriffe auf die Lemma-Produktion und andere Teilergebnisse intermediärer Prozesse sind nicht möglich. Wenn auch die Prozessinstanzen der verschiedenen Ebenen strikt seriell arbeiten, so sind sie doch während der Sprachproduktion allesamt gleichzeitig aktiv: Nachdem auf Ebene 1 ein Teil einer „message“ generiert und dann zur lexikalischen Enkodierung an die Ebene 2 weitergeleitet wurde, werden auf Ebene 1 sogleich weitere Teile der „message“ erzeugt. Oder wenn „lemmas“ zur morphologischen Enkodierung von Ebene 2 an Ebene 3 weitergegeben wor-
221
15. Theorien und Modelle der Sprachproduktion
den sind, werden auf Ebene 2, auf der Basis neuer von der Ebene 1 empfangener Teile der „message“, sogleich neue „lemmas“ erzeugt, usf. Bei alledem beeinflusst die genaue Reihenfolge des Stück-für-Stück-Inputs der Informationselemente aus der jeweils vorgeordneten Ebene die Prozeduren der diesen Input verarbeitenden (nachgeordneten) Ebene. Diese Sachlage ist für die sogenannte inkrementelle Sprachproduktion charakteristisch (vgl. Kempen & Hoenkamp, 1987). Was die syntaktische Enkodierung betrifft, betrachtet Levelt (1989: 74 ff.), unter Bezugnahme auf Anderson (1976), Bresnan (1982), Montague (1974) und andere, die nichtsprachlichen „messages“ (Ebene 1) als propositionale, hierarchisch aufgebaute Strukturbäume, deren Instanzen (Knoten) auch
grammatisch relevante Information enthalten. Die derart proto-grammatischen Strukturbäume bilden die Eingangsinformation für einen grammatischen Prozess auf Ebene 2, der zusammen mit dem Aufruf der passenden „lemmas“ zur Generierung einer syntaktischen Satzoberfläche führt. Der grammatische Prozess, der auf der Basis von Merkmalen der „message“ (Ebene 1) und der grammatischen Merkmale der aufgerufenen „lemmas“ (Ebene 2) die syntaktische Satzoberfläche generiert, wird von Levelt als ein prozessgrammatischer Algorithmus verstanden. Es handelt sich um die IPG-Grammatik von Kempen und Hoenkamp (1987; vgl. auch die spätere Erweiterung bei DeSmedt & Kempen, 1991), auf die der Autor für seine Zwecke zurückgreift (Levelt, 1989: 236 ff.).
Morphemgerierung
Phonologische Kodierung
Erzeugung des phonetischen Planes Artikulation
Sprechsignal
Abb. 15.2: Levelts Modell serieller Teilprozesse der Sprachproduktion (s. Text).
222 Der Algorithmus von Kempen und Hoenkamp (1987) impliziert ein strenges Nacheinander der kognitiven Verfügbarkeit der einzelnen Teile einer „message“ und damit eine strikte Sequentialität des Aufrufs von passenden „lemmas“. Die grammatischen Merkmale der jeweils bereits aufgerufenen „lemmas“ (z. B. grammatisches Geschlecht, Wortart) lösen grammatische (insbes. kategoriale) Prozeduren aus, die zur Herstellung vollständiger Satzphrasen und zum Aneinanderbauen mehrerer solcher Satzphrasen führen. Die bereits generierten „lemmas“ stoßen also den Aufruf anderer „lemmas“ an (z. B. ruft ein Nomen einen infiniten Artikel auf) und erzeugen so „inkrementell“ bzw. „on line“ nacheinander die gesamte syntaktische Satzstruktur. Die Satzstruktur ist nach allem, im Unterschied etwa zu Garrett (1988), nicht als ein Satzrahmen zu verstehen, der schon zu Beginn einer Satzproduktion als ganzer zur Verfügung steht und in dessen „slots“ die aus dem Mentalen Lexikon abgerufenen „lemmas“ eingefüllt werden. Vielmehr entsteht die Satzstruktur erst peu a` peu mit dem Nacheinander der (vom Nacheinander von Komponenten einer „message“ abhängigen) Generierung von „lemmas“. Die derart inkrementell entstehende syntaktische Satzstruktur entspricht tentativ einer hierarchischen, rekursiven Phrasenstrukturgrammatik: Die Satzstruktur kann als ein sozusagen von links nach rechts generierter Satzstrukturbaum aufgefasst werden, dessen terminale Konstituenten die „lemmas“ sind. Kempen und Hoenkamp wie auch Levelt entwickeln ihre Modellierung des psychischen Prozesses der Generierung syntaktischer Satzstrukturen also strikt nach den Vorgaben linguistischer Grundsätze. Wichtige Merkmale des Modells von Levelt sind in Anlehnung an Meyer und Schriefers (2001) in Abbildung 15.2 zusammengefasst. 4.2. Die Mannheimer Regulationstheorie der Sprachproduktion (1994) Die Mannheimer Regulationstheorie des Sprechens ist ein kontextsensitives Modell, das Annahmen zur 2. Stufe der Prozessvariabilität enthält (s. oben Abschnitt 3.2). Sie kann durch die folgenden Grundannahmen charakterisiert werden (Herrmann & Grabowski, 1994, vgl. auch Herrmann & Grabowski, 1996): ⫺ Die Regulationstheorie hat die Erzeugung von verbalsprachlichen Äußerungen zum Ge-
III. Sprachproduktion
genstand. (Die linguistische Kategorie des Satzes ist für diese Modellierung der Spracherzeugung von nachrangiger Bedeutung.) Primäres Forschungsobjekt ist das Individuum, das – situationsbezogen – auch spricht und auch Sprache versteht. Die Sprachproduktion wird als in enger Wechselbeziehung mit anderen psychischen Funktionen stehend verstanden; sie ist eine sporadisch und suppletorisch arbeitende Funktion (Herrmann, 1995: 40). Das Sprechen im Alltag kann nicht nur als die Realisierung grammatischer Regeln verstanden werden; gesprochene Äußerungen enthalten vielmehr auch vielerlei „vorgefertigte“ (als ganze im Gedächtnis aufgerufene) Floskeln und Wendungen, nur aufgrund der kommunikativen Gesamtsituation und des bisherigen Gesprächsverlaufs verstehbare Ellipsen, verschiedene „Agglutinationen“ von syntaktischen Fragmenten, andere Unstetigkeiten, Korrekturen usf. Dieses alltägliche Sprechen ist der primäre Gegenstand der Sprachproduktionspsychologie. ⫺ Der Sprachproduktionsprozess dient der Regulation des Sprechersystems: Das Sprechersystem (der Sprecher) kogniziert und überwacht laufend seine Ist- und Sollzustände. Wird eine Ist-Soll-Differenz überschwellig groß, so wird eine Stelloperation in Gang gesetzt, deren Auswahl davon abhängt, um welche überschwellige Ist-Soll-Abweichung es sich handelt. Eine Teilklasse von IstSoll-Abweichungen führt zu Stelloperationen, die in sprachlichen Äußerungen resultieren. Es gibt zwei Haupttypen der sprachproduktionsrelevanten Abweichung von Ist- und Soll-Zuständen: (i) noch nicht erreichte Handlungsziele, die (zufolge der Kognition des Sprechers) nur oder am leichtesten durch die Erzeugung eigener Sprachäußerungen erreicht werden können, und (ii) Situationen, in denen spezifische Sprachäußerungen konventional gefordert sind. Zu den relevanten Bedingungen für die Sprachproduktion als sprecherseitigem Regulationsvorgang gehören kognizierte Merkmale des Kommunikationspartners. (Der Partner kann als Teil der „Regelstrecke“ des Sprechersystems aufgefasst werden.) Dem Sprechersystem gelingt ganz überwiegend die Regulation (Minimierung der Ist-Soll-Differenz), wenn er für den Partner informativ spricht und wenn er derart instrumentell spricht, dass der Partner zur Erreichung des jeweiligen sprecherseitigen Handlungsziels beiträgt und/oder dass die für die jeweilige Situation relevanten Konventionen eingehalten werden.
15. Theorien und Modelle der Sprachproduktion
⫺ Die Teilprozesse der Sprachproduktion sind parametrisiert. Situationsspezifische Unterschiede der Erzeugung sprachlicher Äußerungen sind basale Bestandteile der Regulationstheorie: Das Sprechersystem verwandelt nicht nur unterschiedliche gedankliche Strukturen auf gleiche Weise in unterschiedliche Verbaläußerungen (s. oben: Inputvariabilität); vielmehr läuft, je nach der kommunikativen Gesamtsituation, der Sprachproduktionsprozess mit seinen Prozesskomponenten selbst variabel ab (Prozessvariabilität, Stufe 1 und 2). Prozessstrukturen haben „slots“, die durch situative Information instantiiert werden. Unter anderem werden als situativ determinierte Prozessvarianten die SchemaSteuerung, die Reiz-Steuerung und die Ad hoc-Steuerung der Sprachproduktion unterschieden (Herrmann & Grabowski, 1994, S. 275 ff., S. 423 ff.; s. auch Rummer, Grabowski & Vorwerg, 1995; Rummer, 1996). ⫺ Der Mensch sagt nur einen Teil dessen, was er als seine „gedankliche Botschaft“ intendiert bzw. was er meint: Welchen Teil des Gemeinten er – pars pro toto – verbalisiert, ist selbst wieder eine relevante Information für den Partner (Herrmann, 1983; vgl. auch Graf & Schweizer, Kap. 32 i. d. Band) ⫺ Das Sprechen ist insofern rückbezüglich, als der Sprecher über die Voraussetzungen seines Sprechens, also über die von ihm kognizierten Istzustände, Sollzustände und deren Abweichungen, welche sein Sprechen auslösen, spricht. Die Regulationstheorie unterscheidet drei Verarbeitungsebenen bzw. drei hierarchisch geschichtete Prozessinstanzen (sowie zusätzlich eine vierte phonetisch-artikulatorische Ebene, die aber in der Theorie nicht expliziert wird). Von der obersten zur untersten Prozessebene nimmt die Kapazitätsbelastung des Arbeitsspeichers (des Fokusspeichers, s. unten) ab; die Prozesse der jeweils tieferen Ebene sind weniger kontrolliert bzw. arbeiten in höherem Maße automatisiert als diejenigen der höheren Ebene (Rummer, Grabowski & Vorwerg, 1995; vgl. auch Bock, 1982). Es sind Rückmeldungen von niedrigeren zu höheren Ebenen vorgesehen. (1) Die erste Prozessebene enthält die Zentrale Kontrolle der Sprachproduktion. Die Zentrale Kontrolle hat als erste Komponente einen Fokusspeicher, der die Eigenschaften eines Arbeitsspeichers mit begrenzter Kapazität besitzt und der alle für die jeweilige
223 Sprachproduktion relevanten Informationen über die Ist- und Sollzustände des Sprechersystems enthält. Diese Fokusinformation lässt sich nicht nur danach klassifizieren, ob sie sich auf Ist- oder Sollzustände des Sprechersystems bezieht, sondern auch danach, ob die Information selbst-, partner- oder drittbezogen sowie ob sie situationsübergreifend oder situationsspezifisch ist. Spezifische Muster der Fokusinformation entscheiden darüber, ob überhaupt gesprochen wird (Herrmann & Grabowski, 1994: 324 ff.). Falls im Fokusspeicher die notwendigen Bedingungen für den Start eines Sprachproduktionsprozesses vorliegen, tritt als zweite Komponente der Zentralen Kontrolle die Zentrale Exekutive ins Spiel. Diese prozedurale Instanz selegiert Fokusinformation, bereitet sie auf und linearisiert sie. Sie greift dabei auf den Langzeitspeicher des Systems wie auch auf den Output aktueller Wahrnehmungsprozesse und auf rückgemeldete Prozessresultate der zweiten und der dritten Ebene zu. Dazu gehört unter anderem das „Protokoll“ des bisherigen Gesprächsverlaufs (⫽ Kommunikationsprotokoll). Das Prozessergebnis der Zentralen Exekutive ist der noch nicht einzelsprachlich spezifizierte, jedoch zur sprachlichen Enkodierung vorgesehene Protoinput. Dieser ist eine intermediäre Repräsentationsform, die als Propositionsstruktur beschrieben wird und die konzeptuell der „message“ im Sinne von Garrett (1988) und Bock (1982; vgl. auch 1990) ähnelt (Herrmann & Grabowski, 1994: 343 ff.). (2) Die zweite Prozessebene ist die Ebene der (einzelsprachenbezogenen) Hilfssysteme. Diese Hilfssystemebene enthält diejenigen Prozessschritte, die die vorsprachlichen Teilprozesse (Ebene 1) mit der hochautomatisierten sprachlichen Enkodierung (s. unten: Ebene 3) verbinden. Die theoretische Unterstellung einer Hilfssystemebene ergibt sich zum Beispiel aus der Tatsache, dass selbst relativ einfache Propositionen (Protoinputs) von der Art [Lieben (Agent: Otto, Patient: Anna] in einer und derselben Einzelsprache in vielfältiger Weise grammatisch (und jeweils situationsadäquat) enkodiert werden können. Aus der Annahme, dass der zwar schnell und robust, aber unflexibel arbeitende Enkodiermechanismus (Ebene 3) nicht in der Lage ist, zu einem und demselben Protoinput genau eine situationsadäquate wie auch grammatische Äußerungsvariante zu generieren, ergibt sich die Annahme von intermediären Hilfssyste-
224
III. Sprachproduktion
men, aus deren Arbeit erst der Enkodierinput entsteht. Die Hilfssysteme werden durch den jeweiligen Protoinput angestoßen, greifen aber auch auf andere Informationen aus der ersten Ebene (u. a. auf Wahrnehmungsergebnisse) zu. Eines der Hilfssysteme gibt aufgrund des Protoinputs und der Ergebnisse der anderen, parallel arbeitenden Hilfssysteme dem Enkodiermechanismus (Ebene 3) die Satzart, das Tempus und den Modus des zu erzeugenden Satzes vor (⫽ STM-Generator). Ein anderes Hilfssystem sorgt dafür, dass die zu erzeugende Äußerung mit den jeweils verfügbaren einzelsprachlichen Mitteln auf die vorgängigen Äußerungen des Partners abgestimmt wird (⫽ Transformationsgenerator). Wieder ein anderes Hilfssystem realisiert die situationsadäquate Kohärenz und Konsistenz der Äußerung (⫽ Kohärenzgenerator). Ein weiteres Hilfssystem verleiht, wieder mit den jeweils verfügbaren einzelsprachlichen Mitteln, der Äußerung die spezifische Emphase, die unter anderem der Aufmerksamkeitslenkung des Partners dient (⫽ Emphasengenerator). Ein Kommunikationsprotokoll, auf das bereits hingewiesen wurde, kommt hinzu. Die Hilfssysteme arbeiten parallel und interaktiv. Der resultierende Enkodierinput ist das Ergebnis eines regulatorischen Abgleichs der Outputs aller beteiligten Hilfssysteme (vgl. auch das Prinzip des „constraint satisfication“; dazu Güsgen & Hertzberg, 1992). Der Enkodierinput ist also aus dem Protoinput entstanden und wird mittels der Informationen aus der Hilfssystemebene „markiert“ (⫽ markierter Enkodierinput).
sis dieser erlernten Zuordnung erzeugen Konzepte oder Konzeptstrukturen des markierten Enkodierinputs in einem Phonemfolgen-Erzeugungsnetz multiple lokale Aktivationen, denen lexikalische Information entspricht. Dabei ist jedes Wort (bzw. jedes Morphem und gegebenenfalls eine Wortfolge) durch simultane Aktivationsmuster auf verschiedenen Netzebenen (bzw. in verschiedenen Schichten des Phonemfolgen-Erzeugungsnetzes) repräsentiert: auf der Wort-, Silben-, Silbenteil- und Phonemebene. Die jeweils ein Wort, ein Morphem oder auch eine Wortfolge repräsentierenden Aktivationen beeinflussen einander inhibitorisch innerhalb jeder Netzebene und exzitatorisch zwischen den Ebenen. Jedes Repräsentat auf jeder Netzebene inhibiert sich zudem nach dem Erreichen seines Aktivationsmaximums selbst (⫽ Selbstinhibition; vgl. Schade, 1992). Das Aktivationsmaximum wandert so – vereinfacht formuliert – von Wort zu Wort, von Silbe zu Silbe, von Silbenteil zu Silbenteil und von Phonem zu Phonem. Der Output des Enkodiermechanismus, der die Lautfolgenerzeugung (Ebene 4) anstößt, besteht also aus einer Aktivationswelle auf der Phonem-Ebene des Phonemfolgen-Erzeugungsnetzes. Die Sequenzierung der Phonemfolge ist (i) durch die vom Enkodierinput nacheinander aufgerufene Wort- bzw. Morphem- oder auch Wortfolgenrepräsentation, (ii) gegebenenfalls durch spezifische Markierungen des Enkodierinputs (Emphase u. dgl.) und (iii) durch die grammatische Regelung der Satzproduktion bestimmt.
(3) Auf der dritten Prozessebene ist der Enkodiermechanismus angesiedelt, der den markierten Enkodierinput in eine Phonemfolge transformiert. Dieser resultierenden Phonemfolge sind spezifische Informationen über Segmentierung, Betonung u. dgl. beigegeben. Das Enkodierresultat wird, wie erwähnt, an einen Artikulationsgenerator weitergegeben. Der Enkodiermechanismus ist hoch automatisiert, beansprucht also in der Regel keine Aufmerksamkeit. Seine Schnelligkeit, Robustheit und sein geringer Aufmerksamkeitsverbrauch sind dadurch erkauft, dass ihm reflexive und andere „intelligente“ Merkmale fehlen. Der Enkodiermechanismus ist in Anlehnung an Dell (1986), Schade (1992) und andere als ein subsymbolisches (lokal-konnektionistisches, geschichtetes) Netzwerksystem konzipiert. Sprechersysteme haben Konzept-Wort-Zuordnungen erlernt. Auf der Ba-
Die grammatische Regelung ist durch ein grammatisches Kontrollnetz realisiert. Das Kontrollnetz ist exzitatorisch und inhibitorisch mit dem Phonemfolgen-Erzeugungsnetz verknüpft. Auf das Kontrollnetz greift der markierte Enkodierinput (vgl. oben: STMGenerator) zu; je nach den syntaxspezifischen Merkmalen des Enkodierinputs entstehen im Kontrollnetz variable lokale Aktivationsmuster, die ihrerseits die Aktivationsausbreitung im Phonemfolgen-Erzeugungsnetz variabel modifizieren (vgl. Graf, Herrmann, Grabowski & Schweizer, 1996; s. auch Jordan, 1986). Dies wiederum führt unter anderem zu grammatisch variierenden Phonemfolgen und damit letztendlich zu unterschiedlichen Äußerungen (Herrmann & Grabowski, 1994: 398 ff.). Das alltägliche Sprechen erfolgt, wie erwähnt, zum Teil über den Gedächtnisabruf ganzer Phrasen und Floskeln
225
15. Theorien und Modelle der Sprachproduktion
Abb. 15.3: Teilprozessverlauf nach der Mannheimer Regulationstheorie (s. Text).
und durch das „Montieren“ von syntaktischen Fragmenten, ohne dass ein einheitlicher „Satzplan“ bestünde (vgl. dazu auch Foppa, 1994). Eine Zusammenfassung des Teilprozessverlaufs nach der Mannheimer Regulationstheorie ergibt sich aus Abbildung 15.3.
5.
Schluss
Sowohl die im Abschnitt 3 erörterten Klassifikationsmerkmale von Sprachproduktionsmodellen als auch die beiden im Abschnitt 4 dargestellten Modelle des Sprachproduktionsprozesses führen zu folgendem Fazit: Mit
den Modellen der Sprachproduktion wird, wie bereits im Abschnitt 1 diskutiert, wahrscheinlich nicht ein und dasselbe Modell-Original multipel abgebildet; vielmehr betreffen die theoretischen Systematisierungen zum Teil unterschiedlich problematisierte Sachverhalte, dienen also der Lösung verschiedener wissenschaftlicher Probleme. Soweit die Modelle nicht dasselbe Modell-Original abbilden, konkurrieren sie nicht miteinander; man kann nicht durch empirische Prüfung zwischen ihnen entscheiden. Bestimmte Modelle können aber aus guten Gründen zu bestimmten Zeiten für bestimmte Zwecke anderen Modellen als nützliche Problemlösungsmittel vorgezogen werden.
226
III. Sprachproduktion
Eine Unifikation der vorliegenden Modelle zu einem allgemein akzeptierten Standardmodell der Sprachproduktion ist zur Zeit nicht in Sicht.
Dell, G. S., Burger, L. K. & Svec, W. R. (1997). Language production and serial order: A functional analysis and a model. Psychological Review, 104 (1), 123⫺47.
6.
Dell, G. S. & O’Seaghdha, P. G. (1992). Stages of lexical access in language production. Cognitive Science, 17, 149⫺195.
Literatur
Aitchison, J. (1998). The articulate mammal: An introduction to psycholinguistics. London: Routledge. Anderson, J. R. (1976). Language, memory and thought. Hillsdale, NJ: Lawrence Erlbaum. Bereiter, C. & Scardamalia, M. (1987). The psychology of written composition. London: Erlbaum. Blumenthal, A. L. (1970). Language and psychology: Historical aspects of psycholinguistics. New York, NY: Wiley. Bock, J. K. (1982). Toward a cognitive psychology of syntax: Information processing contributions to sentence formulation. Psychological Review, 89, 1⫺47. Bock, J. K. (1990). Structure in language: Creating form in talk. American Psychologist, 45, 1221⫺ 1236. Bock, J. K. & Levelt, W. J. M. (1994). Language production: Grammatical encoding. In M. A. Gernsbacher (Ed.), Handbook of psycholinguistics (pp. 945⫺984). San Diego, CA: Academic Press. Bresnan, J. (1982). The mental representation of grammatical relations. Cambridge, MA: MIT Press. Brown, P. & Levinson, S. C. (1987). Politeness: Some universals in language usage. Cambridge, MA: Cambridge University Press. Bühler, K. (1934). Sprachtheorie: Die Darstellungsfunktion der Sprache. Jena: Fischer (Ungekürzter Nachdruck 1982, Stuttgart: Fischer.). Butterworth, B. (Ed.) (1980). Language production, Vol. 1: Speech and talk. San Diego, CA: Academic Press. Caramazza, A. & Miozzo, M. (1997). The relation between syntactic and phonological knowledge in lexical access: Evidence from the ‘tip-of-thetongue’ phenomenon. Cognition, 64 (3), 309⫺343. Chomsky, N. (1968). Language and mind. New York, NY: Harcourt, Brace & World. Chomsky, N. (1981). Lectures on government and binding. Dordrecht: Foris. Clark, H. H. (1996). Using language. Cambridge: Cambridge University Press. Dell, G. (1986). A spreading activation theory of retrieval in sentence production. Psychological Review, 93, 283⫺321.
DeSmedt, K. & Kempen, G. (1991). Segment grammar: A formalism for incremental sentence generation. In C. L. Paris, W. R. Swartout & W. C. Mann (Eds.), Natural language generation in artificial intelligence and computational linguistics (pp. 329⫺349). Boston, MA: Kluwer. Dornseiff, F. (1955). Bezeichnungswandel unseres Wortschatzes: Ein Blick in das Seelenleben der Sprechenden. Lahr in Baden: Schauenburg. Duhem, P. (1906). La the´orie physique, son objet, sa structure. Paris: Chevalier et Rivie´re. Eco, U. (1972). Einführung in die Semiotik. München: Fink. Fodor, J. A. (1983). The modularity of mind. Cambridge, MA: MIT Press. Foppa, K. (1994). Wie muß man was wissen, um sprechen (und verstehen) zu können? In H. J. Kornadt, J. Grabowski & R. Mangold-Allwinn (Hrsg.), Sprache und Kognition. Perspektiven moderner Sprachpsychologie (pp. 93⫺111). Heidelberg: Spektrum Akademischer Verlag. Frazier, L. (1987). Structure in auditory word recognition. Cognition, 25 (1⫺2), 157⫺187. Gadenne, V. (1984). Theorie und Erfahrung in der psychologischen Forschung. Tübingen : Mohr. Garrett, M. F. (1980). Levels of processing in sentence production. In B. Butterworth (Ed.), Language production, Vol. 1: Speech and talk (pp. 177⫺ 220). London: Academic Press. Garrett, M. F. (1988). Processes in language production. In F. J. Newmeyer (Ed.), Language: psychological and biological aspects (pp. 69⫺97). Cambridge, MA: Cambridge University Press. Gernsbacher, M.A. (Ed.) (1994). Handbook of psycholinguistics. San Diego, CA: Academic Press. Graf, R., Herrmann, Th., Grabowski, J. & Schweizer, K. (1996). Grundriß eines Modells der Aktivierung von Konzepten, Wörtern und Figuren. In J. Grabowski, G. Harras & Th. Herrmann (Hrsg.), Bedeutung ⫺ Konzepte – Bedeutungskonzepte (pp. 154⫺211). Opladen: Westdeutscher Verlag. Graumann, C. F. & Herrmann, Th. (1989). Otherrelatedness in language processing. In C. F. Graumann & Th. Herrmann (Eds.), Speakers: The role of the listener (pp. 1⫺10). Clevedon, PA: Multilingual Matters.
15. Theorien und Modelle der Sprachproduktion
227
Günther, K. B. & Günther, H. (Hrsg.) (1983). Schrift, Schreiben, Schriftlichkeit. Tübingen: Niemeyer.
Kempen, G. & Hoenkamp, E. (1987). An incremental procedural grammar for sentence formulation. Cognitive Science, 11, 201⫺258.
Güsgen, H.-W. & Hertzberg, J. (1992). A perspective of constraint-based reasoning: An introductory tutorial. Berlin: Springer.
Kiritani, S., Hirose, H. & Fujisaki, H. (Eds.) (1997). Speech production and language. In honor of Osamu Fujimura. New York, NY: Mouton de Gruyter.
Harley, T. A. (1993). Phonological activation of semantic competitors during lexical access in speech production. Language and Cognitive Processes, 8 (3), 291⫺309. Herrmann, Th. (1983). Speech and situation. A psychological conception of situated speaking. Berlin: Springer.
Lakatos, I. (1974). Criticism and the growth of knowledge. London: Cambridge University Press. Levelt, W. J. M. (1983). Monitoring and self repairs in speech. Cognition, 14, 41⫺104. Levelt, W. J. M. (1989). Speaking: From intention to articulation. Cambridge, MA: MIT Press.
Herrmann, Th. (1992). Sprachproduktion und erschwerte Wortfindung. Sprache & Kognition, 11, 181⫺192.
Levelt, W. J. M. (1992). Acessing words in speech production: Stages, processes and representations. Cognition, 42, 1⫺22.
Herrmann, Th. (1995). Allgemeine Sprachpsychologie. Grundlagen und Probleme Weinheim: Belz.
Levinson, S. C. (1990). Pragmatik. Tübingen: Niemeyer (Original erschienen 1983: Pragmatics. Cambridge, MA: Cambridge University Press.).
Herrmann, Th. & Grabowski, J. (1994). Sprechen. Psychologie der Sprachproduktion. Heidelberg: Spektrum Akademischer Verlag. Herrmann, Th. & Grabowski, J. (1995). Pre-terminal levels of process in oral and written language production. In U. M. Quasthoff (Ed.), Aspects of oral communication (pp. 67⫺87). Berlin: Walter de Gruyter. Herrmann, Th. & Grabowski, J. (1996). Kurzgefaßt: „Sprechen: Psychologie der Sprachproduktion“. Psychologische Rundschau, 47, 117⫺121. Höhle, B. (1995). Aphasie und Sprachproduktion: Sprachstörungen bei Broca- und Wernicke-Aphasikern. Opladen: Westdeutscher Verlag. Hörmann, H. (1967). Psychologie der Sprache. Berlin: Springer. Hörmann, H. (1971). Semantische Anomalien, Metapher und Witz. Oder: Schlafen grüne Ideen wirklich wütend? Folia linguistica, 5, 310⫺330.
Mangold-Allwinn, R., Barattelli, S., Kiefer, M. & Koelbing, H. G. (1995). Wörter für Dinge: Von flexiblen Konzepten zu variablen Benennungen. Opladen: Westdeutscher Verlag. Markova´, I. & Foppa, K. (Eds.) (1990). The dynamics of dialogue. Hemel Hempstead: Harvester Wheatsheaf. McCann, R. S. & Johnson, J. C. ( 1992). Locus of the single-channel bottleneck in dual-task interference. Journal of Experimental Psychology: Human Perception and Performance, 18, 471⫺484. Meyer, A. S. & Schriefers, H. (2002). Die lexikalische Kodierung. In Th. Herrmann & J. Grabowski (Hrsg.), Enzyklopädie der Psychologie (Bereich C, Serie III, Band 1: Sprachproduktion). Göttingen: Verlag für Psychologie, Dr. C. J. Hogrefe. Montague, R. (1974). Formal philosophy. New Haven, CT: Yale University Press.
Hörmann, H. (1976). Meinen und Verstehen. Grundzüge einer psychologischen Semantik. Frankfurt am Main: Suhrkamp.
Ortony, A., Slack, J. & Stock, O. (Eds.) (1992). Communication from an artificial intelligence perspective. Berlin: Springer.
Hofer, M. & Buhl, H. (1998). Experiments using the role-playing method in the study of interactive behavior. In M. Hofer, J. Youniss & P. Noack (Eds.), Verbal interaction and development in families with adolescents (pp. 31⫺48). London: Ablex.
Pashler, H. (1994). Dual-task interference in simple tasks: Data and theory. Psychological Bulletin, 116, 220⫺244.
Jordan, M.I. (1986). Serial Order: A parallel distributed processing approach (Technical Report No.8604). San Diego, CA: University of California, Institute for Cognitive Science.
Rickheit, G. & Strohner, H. (1993). Grundlagen der kognitiven Sprachverarbeitung: Modelle, Methoden, Ergebnisse. Tübingen: Francke.
Kallmeyer, W. & Schütze, F. (1976). Konversationsanalyse. Studium Linguistik, 1, 1⫺28.
Peirce, C. S. (1931⫺35). Collected papers. Cambridge, MA: Harvard University Press.
Rickheit, G. & Strohner, H. (2002). Modelle der Sprachproduktion. In Th. Herrmann & J. Grabowski (Hrsg.), Enzyklopädie der Psychologie (Bereich
228
III. Sprachproduktion
C, Serie III, Band 1: Sprachproduktion). Göttingen: Verlag für Psychologie, Dr. C. J. Hogrefe.
Schumacher, R. (1997). „Metapher“. Erfassen und Verstehen frischer Metaphern. Tübingen: Francke.
Roelofs, A. (1997). The WEAVER model of wordform encoding in speech production. Cognition, 64 (3), 249⫺84.
Shapere, D. (1974). Scientific theories and their domains. In F. Suppe (Ed.), The structure of scientific theories (pp. 518⫺570). Urbana, IL: University of Illinois Press.
Rummer, R. (1996). Kognitive Beanspruchung beim Sprechen. Weinheim: Beltz. Rummer, R., Grabowski, J. & Vorwerg, C. (1995). Kontrollprozesse beim Sprechen: Flexibilität und Determination der ereignisbezogenen Äußerungsplanung. Zeitschrift für Psychologie, 203 (1), 25⫺ 51.
Stachowiak, H. (1973). Allgemeine Modelltheorie. Wien: Springer. Tulving, E. & Thomson, D. M. (1973). Encoding specificity and retrieval processes in episodic memory. Psychological Review, 80 (5), 359⫺380.
Saussure, F. de (1916). Cours de linguistique ge´ne´rale. Publie´ par C. Bally & A. Sechehaye. Paris: Payot (Deutsche Übersetzung: Grundfragen der allgemeinen Sprachwissenschaft. 2. Aufl. 1967, hrsg. von C. Bally. Berlin: de Gruyter).
Zimmer, H. D. (1993). Modalitätsspezifische Systeme der Repräsentation und Verarbeitung von Information. Überflüssige Gebilde, nützliche Fiktionen, notwendiges Übel oder zwangsläufige Folge optimierter Reizverarbeitung. Zeitschrift für Psychologie, 201, 203⫺235.
Schade, U. (1992). Konnektionismus: Zur Modellierung der Sprachproduktion. Opladen: Westdeutscher Verlag.
Theo Herrmann Universität Mannheim (Deutschland)
16. Kognitive Grundlagen der Sprachproduktion 1. 2. 3. 4. 5. 6. 7.
1.
Einleitung: Stufen der Sprachproduktion Drei Teilprozesse der Erzeugung der kognitiven Äußerungsbasis Fokussieren: zur Selektion der kognitiven Äußerungsbasis Fokussieren: zum Linearisieren der kognitiven Äußerungsbasis Parameterfixierung von Teilprozessen Formatierung der kognitiven Äußerungsbasis Literatur
Einleitung: Stufen der Sprachproduktion
Der Mensch kann seine situationsspezifischen Ziele dadurch verfolgen oder auch die geltenden sozialen Konventionen dadurch erfüllen, dass er Sprachäußerungen erzeugt. Die Sprachproduktion kann also zum einen der Verfolgung eigener Handlungsziele dienen. Beispiele: Ich möchte, dass Jutta das Fenster schließt; ich möchte den Stammtisch durch einen soeben gehörten Witz unterhalten; ich will eine bestimmte Prüfungsfrage beantworten. Oder es handelt sich um die Einhaltung von Konventionen. Beispiele: Ich muss die Nachbarin, die sich nähert, grüßen; ich sollte beim „small talk“ keine peinliche Pause ent-
stehen lassen, ich muss also irgendetwas sagen; ich sollte mich am Telefon formgerecht verabschieden. Der mentale Prozess der Erzeugung von Sprachäußerungen bzw. die Sprachproduktion wird generell in drei Stufen eingeteilt (vgl. u. a. Levelt, 1989): (i)
Erzeugung der kognitiven Grundlagen der Sprachproduktion: Der Sprecher erzeugt eine Mitteilung bzw. eine Botschaft („message“), die den momentanen Sprecherabsichten und der aktuellen Kommunikationssituation möglichst angemessen ist. Diese Botschaft ist (von wenigen Ausnahmen abgesehen) kognitivnonverbal, d. h. sie stellt eine noch nicht in einer Einzelsprache formulierte „gedankliche Struktur“ dar. (ii) Enkodierung: Die nonverbale Botschaft wird einzelsprachlich enkodiert bzw. formuliert. (iii) Artikulation: Auf der Basis der einzelsprachlichen Enkodierung wird sprechmotorisch eine manifeste Sprachäußerung bzw. ein hörbares Sprechsignal erzeugt. Dieser Beitrag befasst sich mit der ersten Prozessstufe der Sprachproduktion: der Erzeugung der kognitiven Grundlagen der Sprachproduktion.
229
16. Kognitive Grundlagen der Sprachproduktion
2.
Drei Teilprozesse der Erzeugung der kognitiven Äußerungsbasis
Die Erzeugung der kognitiven Grundlagen der Sprachproduktion lässt sich ihrerseits in drei Teilprozesse untergliedern: (i) die Fokussierung, (ii) die Parameterfixierung von Teilsystemen der Sprachproduktion und (iii) die Formatierung: Fokussierung: Der Sprecher fokussiert dasjenige, von dem die Rede sein wird. Anders formuliert: Das Sprecher-System stellt diejenige Information bereit, die einzelsprachlich enkodiert werden soll. Schlesinger (1977: 81) spricht in diesem Zusammenhang von der Erzeugung einer nichtsprachlichen „kognitiven Struktur“; der Sprecher fokussiert dasjenige, „from what he is aware of and intends to talk about“. Dabei wählt er diejenigen kognitiven Inhalte aus, die er enkodieren wird (⫽ Selektion) und bringt die für die Verbalisierung ausgewählten kognitiven Inhalte in eine bestimmte Reihenfolge (⫽ Linearisierung). Bisweilen gehen dem Sprechen explizite sprachliche Planungen voraus. Die Bereitstellung der kognitiven Äußerungsbasis kann aber auch automatisch, also ganz ohne explizite Planungsprozesse, erfolgen. (ii) Parameterfixierung von Teilsystemen der Sprachproduktion: Bei der Bereitstellung der nichtsprachlichen Basis für das einzelsprachliche Formulieren werden mentale (und zugleich neuronale) Teilsysteme des Sprechersystems, in denen die Teilprozesse der Sprachproduktion ablaufen, in situationsangemessener Weise eingestellt: Ihre Parameter werden fixiert, sie werden instantiiert (Herrmann & Grabowski, 1994; s. auch unten). So kann der Teilprozess des Artikulierens einer sprachlichen Äußerung je nach der Situationsbeschaffenheit auf Flüstern, auf normale Lautstärke oder auf lautes Rufen eingestellt werden. Oder der Sprecher wählt seine Standardsprache oder aber einen Dialekt, vielleicht auch eine Fremdsprache; er wählt entweder die Sie- oder die Du-Form, usf. Über eine kommunikative Situation hinweg pflegen diese Parameterstellungen des Sprachproduktionssystems im Allgemeinen konstant gehalten zu werden; zum Beispiel muss nicht bei der Artikulation eines jeden Sprachlauts immer wieder neu „festgelegt“ werden, dass (i)
zum Beispiel geflüstert werden soll. Ändert sich die Gesprächssituation, so ändern sich auch die Parameterfixierungen: Wenn sich beispielsweise der Partner langsam entfernt, so steigert man im Gegenzug die Lautstärke. (iii) Formatierung: Wir nennen den kognitiven Teilapparat, der die einzelsprachliche Formulierung bzw. Enkodierung einer Sprachäußerung (s. oben 1.) besorgt, den Enkodiermechanismus. Dieser arbeitet außerordentlich schnell und im Allgemeinen robust und zuverlässig. Diese hohe Leistungsfähigkeit wird damit erkauft, dass die kognitive, nichtsprachliche Basis der Sprachproduktion in einem genau bestimmten Format vorliegen muss, um vom Enkodiermechanismus überhaupt als Prozessinput angenommen werden zu können (DeSmedt & Kempen, 1991; Garrett, 1988; Herrmann & Grabowski, 1994; Levelt, 1989; Schade, 1992). Es kommt hinzu, dass gleiche Gedanken, gleiche Äußerungsinhalte, auch gleiche Äußerungsziele zu höchst unterschiedlichen Formulierungen führen können; die jeweils vorliegenden Gedanken, Vorstellungen, Gefühle sind im Allgemeinen als Enkodierinput unterbestimmt und müssen vor ihrer sprachlichen Umsetzung nicht nur seligiert und linearisiert, sondern auch vereindeutigt werden. In der Psycholinguistik herrscht die Auffassung vor, dies geschehe durch den Teilprozess der Propositionalisierung (s. unten). Zur Bereitstellung der kognitiven Äußerungsbasis gehören – zusammengefasst – (i) die kognitive Fokussierung dessen, wovon die Rede sein soll, wobei (a) die Selektion und (b) die Linearisierung eine wichtige Rolle spielen, (ii) die situationsangemessene Parameterfixierung (Einstellung) von Teilsystemen des Sprechersystems, in denen Teilprozesse der Sprachproduktion ablaufen, und (iii) die für den Enkodiermechanismus geeignete Formatierung der Äußerungsbasis. Im Folgenden werden wir die Selektion und die Linearisierung als Komponenten des Fokussierens sowie die Einstellung von Teilsystemen und die Formatierung der kognitiven Äußerungsbasis nacheinander darstellen.
3.
Fokussieren: zur Selektion der kognitiven Äußerungsbasis
Man sagt immer nur einen Teil dessen, was man weiß oder meint (vgl. auch Hörmann,
230 1976). Dies nennt man das Pars-pro-totoPrinzip (lat.: Teil-für-das-Ganze-Prinzip) der Sprachproduktion (vgl. Laucht, 1979; Herrmann, 1995). Der Sprecher wählt einen bestimmten Teil der kognitiven Äußerungsbasis für die Formulierung und Artikulation aus. Und der Kommunikationspartner rekonstruiert aufgrund der von ihm gehörten Sprachäußerung, was der Sprecher weiß, meint oder auch beabsichtigt (vgl. auch Rickheit & Strohner, 1993). Für solche Rekonstruktionen benötigt der Partner ein spezifisches Sprach- und Sachwissen. Über dieses Wissen muss auch der Sprecher verfügen, und er muss es auch seinem Partner zuschreiben und es beim Partner einkalkulieren, wenn er genau den situationsspezifisch angemessenen Teil seiner kognitiven Äußerungsbasis für die Enkodierung und Artikulation auswählen will. Daraus ergibt sich: Erfolgreiches Kommunizieren erfordert beim Sprecher und Partner gemeinsames Wissen („shared knowledge“; vgl. Clark, 1996: 92 ff.). Sprachproduktion und Sprachrezeption sind also wie folgt zu charakterisieren: (i) Der Sprecher wählt aus dem von ihm Gewussten bzw. Gemeinten das Gesagte aus. (ii) Der Partner schlussfolgert bzw. rekonstruiert aus dem von ihm rezipierten Ergebnis dieser Auswahl das sprecherseitig Gewusste bzw. Gemeinte. (iii) Das alles erfordert beim Sprecher und Partner gemeinsames Wissen über Sachverhalte und über die Sprache (und vor allem über den Zusammenhang zwischen Wissen, Meinen und Sagen). Dass der Sprecher nicht alles sagt, was er meint, kann zum einen mit der für jede erfolgreiche Kommunikation erforderlichen Sprachökonomie erklärt werden. Beispiel: Wenn der Sprecher voraussetzen kann, dass der Partner bereits weiß, dass sich der Sprecher beim Reden immer wieder auf seinen angeheirateten Cousin Heinz bezieht, muss der Sprecher nicht jedesmal „mein angeheirateter Cousin Heinz“ sagen; zur Bezeichnung genügt beispielsweise das Pronomen „er“ (⫽ Pronominalisierung). Zum anderen ergibt das Pars-pro-totoPrinzip zusätzliche Information für den Partner: Der Sprecher wählt einen bestimmten Teil der kognitiven Äußerungsbasis aus, den er verbalisieren wird. Und der Partner rekonstruiert aus dem Gesagten nicht nur, wie dargestellt, die sprecherseitige Äußerungsbasis, sondern er erfährt dadurch, welcher Teil derselben verbalisiert wird, noch etwas darüber hinaus. Wir betrachten in diesem Zusammen-
III. Sprachproduktion
hang ein in der Sprachpsychologie gut erforschtes Beispiel etwas genauer: das Auffordern. (Vgl. dazu Blum-Kulka, House & Kasper (Eds.), 1989; Edmondson & House, 1981 s. auch Graf & Schweizer in diesem Band.) Sprachliche Aufforderungen können im Grundsatz auf zweierlei Weise erfolgen (Herrmann, 2002). (1) Man kann mit dem Gebrauch des Imperativs eine eindeutige Verpflichtungshandlung ausführen: „Mähe bitte den Rasen!“ Imperative sind die direktesten, unmissverständlichsten sprachlichen Mittel, eine solche Verpflichtungshandlung zu manifestieren. (Unter welchen Bedingungen der Partner die sprecherseitige Verpflichtung akzeptiert bzw. ihr nachkommt oder aber die Akzeptierung bzw. Ausführung der gewollten Handlung verweigert, ist ein anderes Problem, das hier nicht erörtert werden kann.) Unter bestimmten Bedingungen kann man zudem ebenso direkt und ebenso eindeutig auffordern, indem man sagt, dass man auffordert (⫽ Verwendung performativer Verben; vgl. Herrmann, 2002). Beispiel: „Ich fordere Sie auf, den Rasen zu mähen.“ (2) Oder man nennt Bedingungen, oder man fragt nach Bedingungen, die nach den gültigen Konventionen einer Kultur und Sprachgemeinschaft eine Aufforderung als Verpflichtungshandlung rechtfertigen bzw. begründen (Gordon & Lakoff, 1971). Auf diese Weise realisiert man mäßig direkte oder auch sehr indirekte Aufforderungen: (2.1) Der Sprecher kann auffordern, indem er deklariert, dass er den Partner zur fraglichen Tätigkeit überhaupt zu verpflichten beabsichtigt: „Ich will, dass du den Rasen mähst.“ Der Sprecher nennt damit eine nach den Normen unserer Kultur notwendige Bedingung dafür, zum Rasenmähen aufzufordern: Wer nicht will, dass der Partner den Rasen mäht, und ihn dennoch dazu auffordert, stellt sich mit diesem Verhalten außerhalb unserer Konventionen. (2.2) Der Sprecher fordert auf, indem er sagt oder fragt, dass bzw. ob er zum Auffordern legitimiert ist: „Ich kann von ihnen verlangen, dass Sie den Rasen mähen.“ Oder: „Nach unserer Hausordnung sind Sie mit dem Rasenmähen dran.“ Oder: „Sind Sie nicht verpflichtet, den Rasen zu mähen?“ Auch eine hinreichende sprecherseitige Legitimation ist eine konventionale Bedingung für das Auffordern.
16. Kognitive Grundlagen der Sprachproduktion
(2.3) Der Sprecher nennt oder er fragt nach partnerseitigen Bedingungen für das Auffordern: Diese Bedingungen sind die partnerseitige Bereitschaft oder das partnerseitige Können: „Du willst doch bestimmt jetzt mal für uns den Rasen mähen.“ Oder: „Kannst du gerade mal den Rasen mähen?“ Zu den Bedingungen für konventional gerechtfertigtes Auffordern gehört es auch, dass der Partner zur verlangten Handlung hinreichend bereit und überhaupt imstande ist. (2.4) Der Sprecher kann auch auffordern, indem er sich auf den defizitären Zustand bezieht, der durch das Handeln des Partners beseitigt werden soll: „Der Rasen sieht wieder schlimm aus.“ Oder er referiert auf das Ziel oder den Sollzustand, das oder den er durch das partnerseitige Handeln erreichen möchte: „Ach, es geht doch nichts über einen gut gemähten Rasen.“ Wer den langen Rasen nicht als defizitär auffasst oder wer keinen kurzen Rasen präferiert, fordert nach unseren Konventionen nicht zum Mähen auf. (2.5) Schließlich kann der Sprecher versteckte Fingerzeige (engl.: „hints“) geben: So mag jemand den Partner zum Rasenmähen veranlassen wollen, indem er sagt: „Vergiss nicht: Morgen will sich Mutti im Garten die Rosen ansehen.“ Mutmaßlich nennt der Sprecher hier eine sehr individuelle, idiosynkratische Bedingung dafür, dass er einen gemähten Rasen präferiert: Die Mutter hasst ungemähten Rasen, und der ungemähte Rasen könnte derart zu unerwünschten Konflikten führen. Zur kognitiven Grundlage von sprachlichen Auffordernsäußerungen gehören alle Sachverhalte von (1) bis (2.5). Ein Sprecher fordert in einer bestimmten Situation nur dann mit variabler Direktheit zum Rasenmähen auf, wenn nach seiner Einschätzung alle Bedingungen für die Verpflichtungshandlung des Aufforderns vorliegen: Generell wissen Sprecher, dass man nach unseren sozialen Regeln nur dann ernsthaft auffordert, wenn man eine bestimmte partnerseitige Handlung überhaupt initiieren will, wenn man hinreichend dazu befugt ist, wenn man den Partner dafür zureichend bereit und in der Lage findet und wenn man einen bestimmten defizitären Zustand beseitigen bzw. ein einschlägiges Ziel oder einen bestimmten Sollzustand erreichen will. Der Sprecher muss also immer kalkulieren, ob alle diese Bedingungen für sein Verpflichtungshandeln (zu einem Mindestmaß) vorliegen; andernfalls fordert er nicht
231 auf. (In der Regel stellt er in diesem Fall die für das Auffordern notwendigen Bedingungen in irgendeiner geeigneten Weise her und fordert erst dann auf, oder er ersetzt das Auffordern durch eine andere Handlungsoption.) Alle genannten Bedingungen gehören also zu einer Wissensstruktur, die der Sprecher im Laufe seiner kognitiven Entwicklung erlernt hat (Herrmann, 1983; 2002). Der Sprecher muss diese gesamte Wissensstruktur in Kommunikationssituationen, in denen das sprachliche Auffordern eine naheliegende Handlungsoption darstellt, aktivieren und das Vorliegen aller Bedingungen abprüfen – sei es im Wege expliziten Überlegens und Planens oder aber automatisiert und implizit. Mit anderen Worten: Wer eine Situation so einschätzt, dass er sein Ziel am ehesten durch eine Handlungsaufforderung erreicht, fokussiert die gesamte Wissensstruktur bzw. stellt sie als kognitive Äußerungsbasis bereit. Niemand sagt aber beim Auffordern alles, was er weiß und meint (s. oben); vielmehr wählt er aus der kognitiven Gesamtstruktur, die für die Realisierung einer Aufforderung erforderlich ist, einen Teil aus: in der Regel ein Element einer Aufforderungsklasse (1.) bis (2.5). Die ausgewählte und verbalisierte Aufforderungsvariante steht dann – pars pro toto – für diese Gesamtstruktur. Und der Partner, der eben diese Variante rezipiert, rekonstruiert aus ihr die Gesamtstruktur der kognitiven Äußerungsbasis. Wenn der Partner also hört: „Kannst du mal den Rasen mähen?“, dann schlussfolgert er in der Regel nicht, dass sich der Sprecher bloß darüber informieren will, ob er zum Rasenmähen imstande sei, sondern er versteht, dass er den Rasen mähen soll. Und hört der Partner: „Mäh mal den Rasen!“, so schlussfolgert er unter anderem, dass der Sprecher den Rasen ernsthaft gemäht haben will, dass der Sprecher sich zum Auffordern hinreichend befugt fühlt, dass er unterstellt, der Partner könne den Rasen mähen, usf. (vgl. auch Rickheit & Strohner, 1993). Falls jedoch der Partner aus dem Gesagten das Gemeinte nicht rekonstruieren kann, missversteht er die Aufforderung und fühlt sich nicht aufgefordert; die Kommunikation missglückt. (Freilich kann ein Partner eine Aufforderung auch durchaus verstehen, aber sozusagen aus taktischen Gründen vorgeben, sie misszuverstehen.) Welche Aufforderungsvariante als Ergebnis einer Selektion verbalisiert wird, ist von vielerlei Bedingungen abhängig: Zum Beispiel darf man in Israel, verglichen mit angelsäch-
232 sischen Konventionen, sehr direkte Aufforderungen (Imperative) manifestieren, ohne für unhöflich gehalten zu werden (Blum-Kulka, 1985). Für den deutschsprachigen Raum gelten zudem die folgenden Voraussetzungen, wobei (a) Standardsituationen von (b) Nichtstandardsituationen des Aufforderns unterschieden werden (Grabowski-Gellert & Winterhoff-Spurk, 1988): (a) Standardsituationen sind häufige, alltägliche Aufforderungssituationen, in denen die Ansprüche des Sprechers an den Partner eher gering sind und der Sprecher die Bereitschaft des Partners und die eigene Legitimation als hoch und unzweifelhaft eingeschätzt. Hier dominieren in unserem Sprachraum indirekte Varianten von der Art (2.4): „Mein Bier ist alle.“ Oder: „Ich bräuchte noch ein Bier.“ sowie auch sprachliche Ellipsen: „Ein Bier bitte!“ Besteht in Standardsituationen jedoch ein gewisser Zweifel am Können des Partners, so kommen gehäuft Aufforderungen von der Art (2.3) vor: „Können Sie mir noch schnell ein Bier bringen?“. Massive Aufforderungen (1, 2.1 und 2.2) fehlen hier ganz. (b) Nichtstandardsituationen sind nicht häufig; sie stellen höhere Anforderungen an den Partner (GrabowskiGellert & Winterhoff-Spurk, 1988; Meyer, 1992.). Entsprechend ist die Bereitschaft des Partners nunmehr zweifelhaft. Ist zugleich die eigene Legitimation über jeden Zweifel erhaben, so wählt der Sprecher massive Aufforderungen von der Art (1) bis (2.2): „Gib mir sofort meine hundert Euro zurück!“. Kogniziert er seine Legitimation hingegen auch als schwach, so dominieren besonders höflich formulierte Aufforderungen von der Art (2.3) und (2.4) oder auch (2.5): „Könntest du mir vielleicht bitte mal hundert Euro leihen?“ oder: „Die teure Weihnachtszeit steht vor der Tür.“ Solche Zusammenhänge von Situation und Aufforderungsvariante haben sich aus einer großen Anzahl von experimentellen Untersuchungen ergeben (vgl. zusammenfassend Herrmann & Grabowski, 1994: 153 ff.; Kasper, 1990). Man beachte bei alledem, dass der Sprecher beim Auffordern mittels der jeweils ausgewählten Aufforderungsvariante, das heißt mit Hilfe der Selektion des jeweils verbalisierten Teils der kognitiven Gesamtstruktur des Aufforderns dem Partner zusätzliche Informationen gibt. Zum Beispiel gibt der Sprecher dem Partner mit einer sehr massiven Aufforderungsvariante zu erkennen, wie er die partnerseitige Bereitschaft und die eigene Legitimation einschätzt. ⫺ Die etwas ge-
III. Sprachproduktion
nauere Darstellung des Aufforderns soll hier, als besonders eingehend erforschtes Beispiel, die immer erforderliche Selektion von Teilen der kognitiven Basis der Sprachproduktion veranschaulichen (Herrmann & Grabowski, 1994: 349): das Pars-pro-toto-Prinzip ist universell.
4.
Fokussieren: zum Linearisieren der kognitiven Äußerungsbasis
Zur Bereitstellung der kognitiven Äußerungsbasis gehört es im Regelfall, die Bestandteile dessen, wovon die Rede sein soll, in eine bestimmte Reihenfolge zu bringen, also eine sequenziell geordnete „message“ zu erzeugen, aus der dann eine gleichfalls sequenzierte sprachliche Äußerung resultiert. Die Sequenz einer manifestierten Äußerung wird im Wesentlichen durch zwei Klassen von Determinanten beeinflusst: (i) Die beim sprachlichen Enkodieren entstehenden Phonem-, Morphem- und Wortfolgen sind das Resultat der grammatischen Steuerung: So gibt es (von Sprache zu Sprache verschiedene) grammatische Wortfolgeregeln. Man darf nicht sagen: „*Du am Nachmittag heute kommst.“ Oder: „*Bert her the milk gave.“ (ii) Die Sequenz der einzelsprachlichen Äußerungsbestandteile richtet sich nach der sequenzierten kognitiven Äußerungsbasis. Die Herstellung dieser sequenziellen Äußerungsbasis nennt man auch das (konzeptuelle) Linearisieren. (Zum Linearisieren vgl. Levelt, 1981; 1982; 1989; Ehrich, 1989.) Die kognitive Basis einer Äußerung kann leicht und fast ohne kognitiven Aufwand linearisiert werden, wenn die zur Verbalisierung anstehende Wissensstruktur zeitlich geordnete Sachverhalte repräsentiert. Beispiel: Der Rundfunkreporter berichtet über ein Fußballspiel im Allgemeinen so, wie es abläuft: vom Anstoß bis zum Abpfiff. Allerdings kann man sich – unter besonderer Zielsetzung und unter kognitivem Aufwand – aus dieser von der Sache her gegebenen Sequenz lösen, man kann markante Episoden an den Anfang stellen, man kann eine Geschichte „von hinten her aufrollen“ usf. Generell richtet sich die Linearisierung der kognitiven Äußerungsbasis aber nach der immanenten zeitlichen Ordnung des Geschehens, soweit es eine solche gibt. Vieles, worüber man spricht, besitzt indes keine immanente temporale Ordnung. Das gilt zum Beispiel für räumliche Anordnungen. Eine Landschaft,
16. Kognitive Grundlagen der Sprachproduktion
eine Stadt, eine Straße, ein Haus und ein Zimmer besitzen keine „natürliche“ zeitliche Strukturierung. Wie linearisiert man solche Gegebenheiten? Levelt (1989: 138 ff.) unterscheidet generell zwei Gruppen von Gesichtspunkten, nach denen Gegebenheiten linearisiert werden: (1) inhaltsbezogene und (2) prozessbezogene Determinanten. (1) Inhaltsbezogene Determinanten: Hierbei handelt es sich zunächst um die bereits genannten Gegebenheiten mit eigener Zeitstruktur; die zeitliche Ordnung des Äußerungsinhalts determiniert hier die Linearisierung. Die Linearisierung folgt dann, Levelt zufolge, sozusagen einer „natürlichen Ordnung“. Andere Gegebenheiten sind selbst zwar nicht immanent chronologisch strukturiert wie etwa ein Film, doch ergeben sich Anhaltspunkte für die Linearisierung unter anderem aus dem üblichen Umgang mit ihnen (Linde & Labov, 1985). Beispiel: In einem Selbstbedienungsrestaurant manifestiert man eine bestimmte übliche Reihenfolge von Teilhandlungen; diese übliche Handlungsfolge nutzt man dann bei einer Beschreibung des Restaurants für die Reihenfolge der Bezugnahmen auf die räumlichen Gegebenheiten, die per se nicht zeitlich strukturiert sind. Anhaltspunkte können sich auch aus dem sprecherseitigen Kommunikationsziel ergeben. Beispiel: Gibt man jemandem eine Wegauskunft (Klein, 1982), so bezieht sich das Sprechen zwar auf ein Raumareal, das wiederum keine immanente zeitliche Strukturierung besitzt. Doch beschreibt man einerseits nur solche Teile dieses Areals, die für die Zielfindung des Partners relevant sind (⫽ Selektion, s. oben). Andererseits bringt man die sprachliche Bezugnahme auf die relevanten Teile des Areals derart in eine Reihenfolge, dass man zunächst über den gegenwärtigen Ort von Sprecher und Hörer, also den Startpunkt einer Route, dann auf dieser Route sukzessiv über Kreuzungen, Abzweigungen, auffällige Gebäude und andere wichtige Orientierungspunkte („Wegmarken“) und zum Schluss über dasjenige Objekt o. dgl. spricht, das den Zielpunkt bildet oder anzeigt. Dies ist sozusagen die „natürliche Weise“, bei Wegauskünften zu linearisieren. Wenn man Raumareale (zum Beispiel eine Stadt) beschreiben will, ohne aber damit eine Wegauskunft geben zu wollen, benutzt man häufig den Kunstgriff, so zu beschreiben, als wandere jemand durch das Areal. Indem der Sprecher
233 einen solchen „imaginären Wanderer“ und dessen Weg durch das Areal als Vorgabe für die Linearisierung wählt, löst er sein Problem, das per se nicht zeitlich strukturierte Areal so zu beschreiben, dass der Partner eine zufriedenstellende mentale Repräsentation zumindest von wesentlichen Teilen des fraglichen Raumareals aufbauen kann (Carroll, 1993; Herrmann & Schweizer, 1998: 169 ff.): „Wenn man gleich halblinks vom Hauptbahnhofsvorplatz aus die große Straße entlanggeht, sieht man hinten rechts das Stadttheater, direkt davor ist eine Kreuzung. Man wendet sich da um 90 Grad nach links und geht bis zum Ludwigs-Denkmal, dahinter kommt direkt auf der rechten Straßenseite ein großes Sandsteintor. Wenn man da durchgeht, …“ Menschen pflegen häufig wiederkehrende und für sie wichtige Objekte, Objektkonstellationen und andere Umweltgegebenheiten in Form kognitiver Schemata zu speichern. (Vgl. allgemein zu kognitiven Schemata [auch „frames“, „scripts“] Graesser, Gordon & Sawyer, 1979; Mandler & Johnson, 1977; Reimer, 1989; Rumelhart & Ortony, 1977; Schank & Abelson, 1977.) Wir besitzen für Kirchen, Restaurants, Küchen, Arztpraxen, Besteckschubladen, Computer und unzählige andere vertraute Gegebenheiten solche kognitiven Schemata. Zur Unterscheidung von den weiter unten diskutierten „Wie-Schemata“ können diese kognitiven Schemata auch als „Was-Schemata“ bezeichnet werden. Soweit man über solche Schemata verfügt, kennt man die invariante Architektur und Funktionsweise von Klassen von Objekten oder Objektkonstellationen, beispielsweise von Küchen. In den Schemata sind für die Besonderheiten singulärer Schema-Exemplare, zum Beispiel singulärer Küchen, Leerstellen („slots“) vorgesehen. Die Leerstellen des Schemas werden bei der kognitiven Verarbeitung eines Schema-Exemplars ausgefüllt (instantiiert). Die besondere Charakteristik des jeweiligen Schema-Exemplars (d. h. die jeweilige Ausfüllung der Leerstellen) wird zusätzlich zum Schema gespeichert (Graesser, Gordon & Sawyer, 1979). Das hat den Vorteil, dass man beispielsweise zum Zweck der adäquaten Erinnerung an eine bestimmte Küche nicht sämtliche Details dieser Küche vollständig speichern muss. Es genügt vielmehr (a) zu wissen, dass es sich überhaupt um eine Küche handelt (⫽ kognitives Küchen-Schema). Auf diese Weise braucht man
234 sich zum Beispiel nicht separat zu merken, dass es eine Kochgelegenheit und einen Küchenschrank gibt; denn alle Küchen haben, soviel man weiß, Kochgelegenheiten und Küchenschränke. Außerdem muss man (b) alles dasjenige separat speichern, was man bei just dieser Küche für charakteristisch hält, dass es also zum Beispiel in dieser Küche einen Vogelbauer und auf dem Küchenschrank eine griechische Vase gibt. Leerstellen von Schemata bleiben übrigens nie „leer“, sondern werden im Zweifelsfall, zufolge erworbener Erwartungen bzw. Voreinstellungen, „auf Verdacht“ („default“) instantiiert. So mag jemand aufgrund seiner vielfältigen Erfahrungen mit Küchen „auf Verdacht“ annehmen, auch die Küche, über die er soeben spricht, habe ein Küchenfenster. Kognitive Schemata können nach entsprechender Ausfüllung ihrer Leerstellen als kognitive Äußerungsbasis fokussiert werden. Die schematisch repräsentierten Gegebenheiten haben eine invariante Architektur und Funktionsweise, und sie erfordern eine bestimmte Art und Weise, mit ihnen umzugehen und haben damit so etwas wie eine „natürliche Ordnung“. Diese inhaltliche Bestimmtheit leitet auch die Linearisierung der kognitiven Äußerungsbasis oder legt sie zumindest nahe. (2) Prozessbezogene Determinanten: Levelt (1982) unterscheidet drei Prinzipien, die unabhängig vom Äußerungsinhalt die Linearisierungsprozesse steuern: (a) Nach dem Prinzip der Verbundenheit werden räumlich benachbarte Gegebenheiten unmittelbar nacheinander fokussiert und verbalisiert. (b) Das Stapelprinzip wird angewendet, wenn Raumkonstellationen Verzweigungspunkte besitzen, wenn man also beispielsweise eine Y-förmige Anordnung beschreibt. Nach dem Stapelprinzip wird vom Verzweigungspunkt aus eine der alternativen Wegstrecken bis zum Ende abgearbeitet, bevor man zum Verzweigungspunkt zurückkehrt und von dort aus nunmehr die andere Wegstrecke bis zum Ende beschreibt. (c) Nach dem Ökonomieprinzip wird (im Falle von (b)), vom Verzweigungspunkt ausgehend, zuerst der kürzere Ast abgearbeitet. Das erklärt Levelt so, dass bei dieser Strategie sowohl der Sprecher als auch der Partner den Verzweigungspunkt weniger lange im Gedächtnis behalten müssen, als wenn zuerst der längere Ast beschrieben würde. Robin und Denis (1991) untersuchten Raumanordnungen, bei denen von einem Verzweigungspunkt gleichlange Äste abge-
III. Sprachproduktion
hen. In diesem Fall wurde derjenige Ast zuerst fokussiert, der (in variabler Weise) weniger komplex und damit schneller zu beschreiben war. Das ist eine überzeugende Bestätigung von Levelts Ökonomieprinzip. Eine weitere Determinante der Linearisierung von Raumkonstellationen folgt aus dem Genese- und Ankerprinzip (Buhl, Katz, Schweizer & Herrmann, 2000; vgl. auch Herrmann & Schweizer, 1998). Sprecher beschreiben Objekte auf Wegen (Routen) in derjenigen Reihenfolge, in der sie sie nacheinander wahrgenommen und gespeichert haben. Die Linearisierung ist also durch die Erwerbsreihenfolge determiniert (⫽ Genese-Effekt). Wenn man einen Weg während des Kennenlernens in beiden Richtungen gegangen oder gefahren ist, wenn also entgegengesetzte Erwerbsrichtungen vorliegen, so beschreibt man den Weg im Allgemeinen entsprechend der zuerst benutzten Erwerbsrichtung; die Linearisierung entspricht der Ersterfahrung (⫽ Anker-Effekt). Diese Effekte lassen sich unter anderem auch dann nachweisen, wenn zwischen der Ersterfahrung und einer „freien“ Routenbeschreibung eine „erzwungene“ andersartige Beschreibung erfolgt. Das ist zum Beispiel dann der Fall, wenn der Sprecher zwischenzeitlich einem Kommunikationspartner den Weg von einem Startpunkt bis zu einem Zielpunkt in derjenigen Richtung beschreiben muss, die nicht mit der Wegrichtung bei der Ersterfahrung übereinstimmt. Auch dann erfolgt bei späterer „freier Beschreibung“ die Linearisierung wieder nach dem Ankerprinzip (Engelbert, 1992).
5.
Parameterfixierung von Teilprozessen
Wie schon im zweiten Abschnitt beschrieben, geht die Bereitstellung der kognitiven Äußerungsbasis mit der Einstellung (Parameterfixierung) derjenigen mentalen (und zugleich neuronalen) Teilsysteme einher, in denen die Teilprozesse der Sprachproduktion ablaufen. Das betrifft zum Beispiel die Einstellung der Artikulationsorgane auf Flüstern, Rufen usf. und die Einstellung des Sprechersystems auf Sprachen, Dialekte, Sprachschichten und andere sprachliche „Register“ (Biber, 1995). Über diese Parameterfixierungen bzw. Einstellungen des Sprechersystems ist bis heute wenig bekannt. Im Folgenden wird auf einige Gesichtspunkte der Instantiierung von Pro-
235
16. Kognitive Grundlagen der Sprachproduktion
zessparametern hingewiesen, die auf globale Steuerungsvarianten des Sprechersystems zurückzuführen sind (vgl. zum Folgenden Herrmann & Grabowski, 1994: 254 ff., 278 ff.). Reizsteuerung der Sprachproduktion: Die Bereitstellung der kognitiven Äußerungsbasis kann in der erlernten, hochautomatisierten Bezugnahme auf eine soeben rezipierte Partneräußerung bestehen (vgl. auch die Beispiele bei Vukovich, 1999: 112 ff.). Sehr häufig findet man „Doubletten“ der folgenden Art: Partner: „Guten Morgen!“ – Sprecher: „Guten Morgen!“ Partner: „Bitte!“ – Sprecher: „Danke!“ Partner: „Gestatten Sie?“ – Sprecher: „Gerne.“ Entsprechend gibt es auch „Dreischritte“ oder längere Sequenzen der folgenden Art (Malone, 1995): Sprecher: „Wie finden Sie das Wetter?“ – Partner: „Na, furchtbar.“ – Sprecher: „Nicht?! Finde ich auch.“ Auch diese Sequenzen werden weitgehend auf der Basis erlernter Reiz-Reaktions-Verknüpfungen realisiert. Die „Doubletten“ können ganz überwiegend als konventional festgelegte „adjacency pairs“ (etwa: „Paare von Nachbarn“) interpretiert werden. Doch sind diese Sequenzen wie auch jeder „small talk“ oft nicht vollständig reizgesteuert und damit sozusagen nicht völlig „gedankenlos“; überwiegend enthalten sie auch einige Anteile, deren Erzeugung höhere kognitive Anforderungen stellt (Clark & Wilkes-Gibbs, 1986; Ungerer, Liebertz & Morgenroth, 1998). Sprachproduktion als bloße verbale Reproduktion: Was gesagt werden soll, kann gegebenenfalls als Ganzes sozusagen wortwörtlich aus dem Langzeitspeicher in den Arbeitsspeicher kopiert werden und dient so als Grundlage für die Sprachproduktion. (Man kann selbstverständlich auch einzelsprachliche Äußerungen im Langzeitgedächtnis speichern.) So produziert man auswendig gelernte Sprüche, Lieder, Gedichte und Ähnliches: „Einigkeit und Recht und Freiheit …“ Schema-Steuerung der Sprachproduktion: Die Sprachproduktion kann (i) durch „Was-Schemata“ und (ii) durch „Wie-Schemata“ gesteuert sein: (i) „Was-Schemata“: Von dieser Steuerungsvariante war bereits die Rede. Kognitive
Schemata von der Art des Küchen- oder Restaurantschemas können, wie ausgeführt, wegen der jeweiligen Architektur der betreffenden Gegebenheiten, ihrer Funktionsweise, aber auch wegen des üblichen Umgangs mit diesen Gegebenheiten bestimmte Linearisierungen der kognitiven Äußerungsbasis nahelegen. Der Sprecher kann sie „als ganze“ aus dem Langzeitspeicher abrufen, und ihre Leerstellen können unterschiedlich instantiiert werden. Diese Schemata ko-determinieren dann die Äußerungsproduktion. (ii) „Wie-Schemata“: Der Sprecher stellt ein im Langzeitspeicher verfügbares Prozedurales Schema („Wie-Schema“) bereit, also beispielsweise das erlernte Schema zum standardisierten Erzählen von Märchen (MärchenSchema; Stein & Glenn, 1979) oder das prozedurale Wissen über das Anfertigen von Erlebnisaufsätzen im Deutschunterricht, über die Generierung von Bauplänen oder von Packungsbeilagen, über die Produktion von Zeugenberichten vor Gericht (Hoffmann, 1991) oder das prozedurale Wissen darüber, wie man ein Kochrezept konzeptualisiert und verbalisiert (Koch, 1992): „Es war einmal …“ „Man nehme …“ Die Beispiele zeigen, dass die „Wie-Schemata“ im Allgemeinen nur von begrenzten Personengruppen im Wege spezifischer Lernvorgänge erworben werden: Nicht jede(r) verfügt über etablierte kognitive Schemata für das Generieren von Packungsbeilagen und Bauplänen oder auch nur von Kochrezepten und Märchen. Die „Wie-Schemata“ können theoretisch den weiter oben beschriebenen kognitiven Schemata subsumiert werden (Herrmann & Schweizer, 1998: 159 ff.). Auch sie sind als standardisierte Wissensstrukturen zu verstehen, die der Sprecher als ganze aus dem Langzeitspeicher abruft und deren Leerstellen („slots“) er mit den jeweiligen Inhalten füllt, die er kommunizieren will. Man beachte aber den Unterschied beispielsweise zwischen dem kognitiven Schema von Küchen (⫽ „Was-Schema“), und von Kochrezepten (⫽ „Wie-Schema“). Die Prozeduralen Schemata („Wie-Schemata“) sind erlernte Strategien für das standardisierte Sprechen über Gegebenheiten. Diese Prozeduralen Schemata sind meist nur wenig inhaltlich bestimmt; ihre Leerstellen sind vielfältig instantiierbar. So kann der Sprecher einmal das Märchen von „Hänsel und Gretel“, dann wieder das Mär-
236 chen vom „Sternthaler“ oder sogar ein selbsterfundenes Märchen erzählen. Oder der Sprecher mag einmal das Rezept für ein Saumagengericht und dann wieder das (geheime) Rezept für die echte Sacher-Torte mitteilen wollen. Das die Sprachproduktion steuernde Prozedurale Schema ist dann jeweils tentativ gleich; nur die Instantiierung der SchemaSlots variiert stark. „Wie-Schemata“ können gegebenenfalls mittels „Was-Schemata“ instantiiert werden. Beispiel: Bezieht sich eine Zeugenaussage, für deren Produktion ein Sprecher (zum Beispiel ein Polizist) über ein etabliertes „Wie-Schema“ verfügt, auf eine bestimmte Küche, die er mit Hilfe eines gespeicherten Küchen-Schemas (⫽ „WasSchema“) gespeichert hat, so werden die „slots“ der Zeugenaussage (als einer schematisierten Diskursform) mit Sachverhaltsinformation ausgefüllt, die unter anderem dem schematisierten Wissen über Küchen entnommen sind. Das Sprechersystem erzeugt hier die resultierende Äußerung im Wege des spezifischen Zusammenwirkens eines „Wie-“ und eines „Was-Schemas“ (vgl. Herrmann, Kilian, Dittrich & Dreyer, 1992). Ad-hoc-Steuerung der Sprachproduktion: Nicht immer erfolgt die Sprachproduktion reiz- oder schemagesteuert oder besteht lediglich aus der Reproduktion von Auswendiggelerntem. Wir verfügen ersichtlich nicht für alles, was wir äußern wollen, über bereits fertige oder routiniert zu realisierende Konzeptualisierungen. In unsere Rede mischen sich ständig Ad-hoc-Produktionen. Oder das Zuäußernde besteht ausschließlich aus einer ad hoc produzierten „message“, bei der weder die kognitive Bezugnahme auf unmittelbar vorausgehende Partneräußerungen noch auf Auswendiggelerntes noch die Mobilisierung von „Was-“ oder „Wie-Schemata“ eine wesentliche Rolle spielen. Die Ad-hoc-Steuerung der Sprachproduktion – mag sie sich lediglich auf Teile von Äußerungen oder auf die jeweils gesamte Äußerung eines Sprechers beziehen – kann unter dem Gesichtspunkt beschrieben werden, dass hier die Planung der zu verschlüsselnden Botschaft ihrer sprachlichen Enkodierung vorausgeht. Planendes Verhalten beruht auf oder geht einher mit kontrollierten (auch: „bewussten“ oder auch: „willkürlichen“, „intentionalen“, „absichtlichen“) kognitiven Prozessen. Das Planen besteht aus kognitiven Vorgängen, die in einer gewissen „Bewusstseinshelligkeit“ und auch in bestimmter Weise „absichtsvoll“
III. Sprachproduktion
oder auch „explizit“ ablaufen. Kontrollierte kognitive Prozesse und damit auch Planungsvorgänge enthalten die Antizipation bzw. die mentale Vorwegnahme von Verhaltenskonsequenzen (Oesterreich, 1981). Kontrollierte Prozesse erfordern Aufmerksamkeit; sie benötigen „kognitive Ressourcen“. (Die Ressourcentheorie der Aufmerksamkeit ist von Neumann (1992) sowie von Rummer, Mohr & Zimmer (1998) kritisiert worden.) Bei der Verarbeitung von Information bildet das sprachliche Planen einen „Flaschenhals“, der den schnellen Informationsfluss behindert. Kontrollierte Prozesse laufen relativ langsam ab und sind relativ leicht störbar. Man kann den kontrollierten Prozessen die automatischen bzw. impliziten Prozesse gegenüberstellen (Berry & Broadbent, 1984; Norman & Shallice, 1986; Perrig, Wippich & Perrig-Chiello, 1993). Automatische bzw. implizite Prozesse gehen kaum mit psychischer Anspannung einher, sie verlaufen schnell und sind robust gegenüber Störungen (s. auch Posner & Snyder, 1975; Bosshardt, 1999; Power, 1985; Rummer, 1996). Sprachliches Planen kann sich auf ganz unterschiedliche Ziele richten: Bisweilen plant man den Ablauf bzw. die Beschaffenheit kommunikativer Gesamtsituationen, zum Beispiel von Sitzungen, Verhandlungen oder anderen institutionell normierten Gesprächen. Oder die Planung bezieht sich lediglich auf Diskurssegmente, zum Beispiel auf eine in ein zwangloses Gespräch eingestreute Erzählung. (Das impliziert, dass der Sprecher in diesem Fall kein „Wie-Schema“ für solche Erzählungen sein eigen nennt; sonst müsste er nicht planen.) In gleicher Weise kann auch eine einzelne Teiläußerung, ein einzelner verbalisierter Gedanke, ein bestimmtes Argument o. dgl. oder eine einzelne sprachliche Wendung, eine grammatische Konstruktion oder sogar ein einzelnes Wort zum Gegenstand expliziter Planung werden. Steuerungsmodalitäten: Bei der Reizsteuerung, der Schema-Steuerung, der Ad-hocSteuerung und bei der bloßen Reproduktion von Auswendiggelerntem ist das Sprechersystem unterschiedlich eingestellt (Herrmann & Grabowski, 1994: 336 f.). Zum Beispiel muss der Sprecher bei der Ad-hoc-Steuerung von Gesprächsbeiträgen ein viel genaueres mentales Protokoll über dasjenige führen, was er und sein Partner bereits gesagt haben, vergleicht man dies mit der Reiz-Steuerung, zum Beispiel mit einem konventionell festgelegten Grußritual. Oder wenn man bei der Beschrei-
16. Kognitive Grundlagen der Sprachproduktion
bung eines Gerichts sein erlerntes Kochrezept-Schema abarbeitet, muss man sich nicht so sorgfältig merken, was man bereits gesagt hat und was noch nicht, als wenn man jemandem einen komplexen Gesprächsgegenstand in freier Weise erläutert, unvorbereitet einen Vortrag darüber hält oder mit mehreren Partnern darüber diskutiert: Das mentale Teilsystem, das das mentale Kommunikationsprotokoll fortschreibt und speichert, ist also bei Ad-hoc-Steuerung stärker aktiviert als bei Reiz- oder Schema-Steuerung. Allgemein erlaubt und erfordert die Ad-hoc-Steuerung eine bei weitem größere Variabilität der Wortwahl (vgl. Herrmann & Deutsch, 1976: Benennungsflexibilität) als die Schema-Steuerung. Die Leerstellen von Schemata (vgl. etwa Kochrezepte, Gebrauchsanweisungen u. dgl.) werden überwiegend mit konventionellen bzw. „kanonisierten“ Begriffen gefüllt, die nur in beschränkter Weise variabel enkodiert werden können. Bei Schema-Steuerung sind häufig bestimmte Varianten der Sprachschichthöhe und generell die Wahl sprachlicher Register festgelegt: Das Sprachregister, in dem Märchen erzählt werden, ist weitgehend vorgegeben und unterscheidet sich beispielsweise stark vom Sprachduktus einer Bauanleitung. Dies ganz unabhängig von der konkreten Kommunikationssituation, in der gesprochen wird.
6.
Formatierung der kognitiven Äußerungsbasis
Die kognitive, nichtsprachliche Basis der Sprachproduktion muss, wie bereits erwähnt, in einem genau bestimmten Format vorliegen, um vom Enkodiermechanismus als Prozessinput angenommen zu werden (DeSmedt & Kempen, 1991; Garrett, 1988; Levelt, 1989). Es kommt hinzu, dass gleiche Teile der kognitiven Äußerungsbasis zu höchst unterschiedlichen Formulierungen führen können und dass diese Unterbestimmtheit nicht durch unterschiedliche Prozessvarianten im Enkodiermechanismus beseitigt werden kann. Die erforderliche Formatierung der Äußerungsbasis erfolgt durch spezifische Vorgänge in einem Teilsystem des Sprechersystems: Dasjenige, was jeweils als Nächstes gesagt werden soll, wird unter Verwendung von einzelsprachlicher Information, auf deren Nutzung das System jeweils eingestellt ist, zu einem für den Enkodiermechanismus geeigneten Enkodierinput aufbereitet. Diese Formatierung
237 wird in der Sprachpsychologie unter verschiedenen theoretischen Gesichtspunkten behandelt. Wir erläutern kurz zwei theoretische Vorschläge: (1) Nach dem Regulationsmodell der Sprachproduktion (Herrmann & Grabowski, 1994; vgl. auch Herrmann Kapitel 15 in diesem Band) besitzt das Teilsystem des Sprechersystems, in dem die kognitive Basis der Sprachäußerung bereitgestellt wird (⫽ „Zentrale Kontrolle“) ihm funktional nachgeordnete Hilfssysteme, die weitgehend automatisiert, also mit geringem kognitiven Aufwand arbeiten, die untereinander vernetzt und die an die „Zentrale Kontrolle“ rückgekoppelt sind. Die Hilfssysteme erzeugen aus dem selegierten und linearisierten Teil der kognitiven Äußerungsbasis, der jeweils als nächster für die einzelsprachliche Enkodierung vorgesehen ist (⫽ „Protoinput“), den Enkodierinput: Sie vereindeutigen die bereits selegierte und linearisierte Äußerungsbasis so, dass im Enkodiermechanismus genau eine situativ angemessene und zugleich grammatische Äußerung entstehen kann. Die theoretische Unterstellung von Hilfssystemen ergibt sich zum Beispiel aus der Tatsache, dass selbst eine einfache Proposition (Protoinput) in jeweils eine Vielzahl von grammatisch korrekten und situativ angemessenen Äußerungen transformiert werden kann: Zum Beispiel möge der Sprecher seinem Kommunikationspartner mitteilen wollen, dass ein bestimmtes Mädchen einen bestimmten Jungen liebt. Diese Sachlage kann man in einfacher Weise, so wie das in der Psychologie seit langem üblich ist (vgl. Kintsch, 1974; s. aber auch unten), als Proposition (d. h. als Prädikat-ArgumentStruktur) schreiben: [Prädikat: lieben (Agent: M‰dchen; Patient: Junge)] Der Sprecher kann nun diese immer gleiche Proposition im Deutschen alternativ – wir geben hier lediglich Beispiele in der Präsens-Indikativ-Form – unter anderem wie folgt formulieren: Das Mädchen liebt den Jungen. Das Mädchen mag den Jungen gern. [Das Prädikat ist anders verbalisiert.] Den Jungen liebt das Mädchen. [Im Deutschen kann man die Wortreihenfolge ändern.] Der Junge wird von dem Mädchen geliebt. [Ein Passivsatz.] Es ist das Mädchen, das den Jungen liebt. [Ein sog. Spaltsatz.]
238 Es ist der Junge, der vom Mädchen geliebt wird. [Ein Spaltsatz im Passiv.] Was das Mädchen betrifft, so liebt sie den Jungen. [Ein sog. Pseudo-Spaltsatz.] Wen das Mädchen liebt, ist der Junge. [Ein anderer Pseudo-Spaltsatz.] Sie liebt ihn. [Pronominalisierung: wenn schon zuvor von beiden die Rede war.] Das Mädchen liebt ihn. [Hier setzt der Sprecher voraus, dass auf den Jungen Bezug genommen wird.] Sie liebt den Jungen. [Diesmal ist das Mädchen „präsupponiert“.] Das Mädchen den Jungen. [Ellipse: etwa als Antwort auf die Frage „Wer liebt wen?“] Liebt nicht das Mädchen den Jungen?! [Emphatische „rhetorische“ Frage.] Usf. Es bedarf komplexer psychischer Mechanismen, um, wie in diesem Beispiel, einen und denselben Protoinput (hier: eine einfache Proposition) in genau eine von vielen möglichen situationsadäquaten, also semantisch und pragmatisch angemessenen und zugleich grammatischen Sprachäußerungen zu transformieren (Herrmann & Grabowski, 1994: 361 ff.). Der zwar schnell und robust, aber unflexibel arbeitende Enkodiermechanismus ist selbst nicht in der Lage, zu einem und demselben Protoinput genau eine situationsadäquate und zugleich grammatische Äußerungsvariante auszuwählen. Man kann die folgenden Hilfssysteme unterscheiden: ⫺ STM-Generator: Eines der Hilfssysteme gibt aufgrund des Protoinputs und der Ergebnisse der anderen, parallel arbeitenden Hilfssysteme dem Enkodiermechanismus die Satzart, das Tempus und den Modus des zu erzeugenden Satzes vor: So muss zum Beispiel festgelegt werden, ob gesagt werden soll: „Das Mädchen liebt den Jungen.“ oder: „Der Junge wird von dem Mädchen geliebt.“ oder auch: „Könnte es das Mädchen sein, das den Jungen liebt?“ oder: „Der Junge ist von dem Mädchen geliebt worden.“ usf. Mit dieser Festlegung werden zugleich die grammatischen Regeln prädeterminiert, die jeweils bei der Generierung des betreffenden einzelsprachlichen Satzes im Enkodiermechanismus angewendet werden müssen. ⫺ Transformationsgenerator: Ein anderes Hilfssystem sorgt dafür, dass die zu erzeugende Äußerung auf die vorgängigen Äußerungen des Partners und die kommunikative Gesamtsituation abgestimmt wird. Auf die in
III. Sprachproduktion
einer bestimmten Gesprächssituation geäußerte Frage des Partners: „Liebt das Mädchen den Jungen?“ antwortet der Sprecher nach den hierzulande gebräuchlichen Sprachverwendungsregeln kaum mit der Äußerung: „Das Mädchen liebt den Jungen.“, sondern sehr viel eher mit: „Ja.“ Oder: „Ja, das tut es.“ Fragt der Partner zuvor: „Wer liebt wen?“, so lautet die Antwort wiederum meist nicht: „Das Mädchen liebt den Jungen.“, sondern diesmal: „Das Mädchen den Jungen.“ (vgl. dazu Klein, 1984). Fragt der Partner aber zum Beispiel: „Was ist passiert?“, so kann der Sprecher nunmehr durchaus antworten: „Das Mädchen liebt den Jungen.“ (Alle drei Versionen beruhen auf einem und demselben Protoinput: [Prädikat: Lieben (Agent: M‰dchen, Patient: Junge)].) ⫺ Kohärenzgenerator: Wieder ein anderes Hilfssystem realisiert die situationsadäquate Kohärenz und Konsistenz der Äußerung. Völlig inkohärent sind Äußerungen, wenn man sie etwa wie folgt formuliert: „Er hatte drei Söhne. Der König war schon sehr alt. Ein König rief seine Söhne zu sich. …“ Vielmehr wird der Zusammenhang sogleich deutlich, wenn es heißt: „Ein König hatte drei Söhne. Der König / Er war schon sehr alt. Er rief seine Söhne zu sich. …“ Es gibt hier also eine kohärenzgarantierende Verwendungssequenz: (i) unbestimmter Artikel – (ii) bestimmter Artikel / Pronomen – (3) Pronomen. Auch die folgende Sequenz ist nicht optimal: „Müller treibt den Ball die Linie entlang. Maier fault ihn.“ Besser ist: „Müller treibt den Ball die Linie entlang. Er wird von Maier gefault.“ Durch die Passivierung des zweiten Satzes bleibt nämlich die semantische Belegung des Satzsubjekts erhalten; es wird in beiden Sätzen etwas über Müller ausgesagt. Man spricht hier von einer „Topic-comment-Struktur“ (Engelkamp & Zimmer, 1983). Eine andere Kohärenzstrategie besteht darin, dass man sich in einem Satz zunächst auf etwas bezieht, wovon bereits die Rede war oder was der Sprecher aus einem anderen Grund als mit dem Partner geteiltes Wissen voraussetzen kann. An das Bekannte hängt man dann etwas Neues an. Im nächsten Satz ist dieses Neue nunmehr das Alte, an das wiederum etwas Neues angehängt wird, usf.: „Hier vom Bahnhof aus gehst du zuerst zum Wasserturm. Vom Wasserturm aus gehst du zum Kaufhof. Im Kaufhof fährst du in die dritte Etage. In der dritten Etage ist hinten die Teppichabteilung. In der Teppichabtei-
16. Kognitive Grundlagen der Sprachproduktion
lung liegen vorn links die Berberteppiche …“ Dies ist die „Alt-neu-Strategie“ der Kohärenzherstellung (vgl. Clark & Haviland, 1977). ⫺ Emphasengenerator: Ein weiteres Hilfssystem verleiht, wieder mit den jeweils verfügbaren einzelsprachlichen Mitteln, der Äußerung die spezifische Emphase, die unter anderem der Aufmerksamkeitslenkung des Partners dient (Hornby, 1974; Engelkamp & Zimmer, 1981). So kann man sagen: „Es ist das Mädchen, das den Jungen liebt.“ Dieser Spaltsatz lenkt die Aufmerksamkeit des Partners speziell auf den Begriff M‰dchen. ⫺ Die Verwaltung des mentalen Kommunikationsprotokolls, auf das bereits hingewiesen wurde, ist die Aufgabe eines weiteren Hilfssystems. Die Hilfssysteme arbeiten parallel und interaktiv. Der resultierende Enkodierinput ist das Ergebnis eines regulatorischen Abgleichs der Outputs aller beteiligten Hilfssysteme. Dieser Abgleich erfolgt nach dem Prinzip des „constraint satisfication“ („Erfüllung von Randbedingungen“; vgl. Güsgen & Hertzberg, 1992): Jedes der parallel arbeitenden Hilfssysteme hat die Aufgabe, spezifische IstWerte an einen Soll-Wert anzugleichen (Beispiel Kohärenzgenerator: Bearbeitung einer vorliegenden Struktur von Propositionen nach dem Topic-comment-Prinzip; s. oben). Der Output jeder Stelloperation eines Hilfssystems ist eine relevante Einflussgröße („Störgröße“) für alle anderen Hilfssysteme. Das Sprechersystem hat also das Problem, zum Zwecke der Erzeugung eines adäquaten und in sich konsistenten Enkodierinputs bei jedem Hilfssystem bzw. im gesamten Netzwerk von Hilfssystemen die Bedingung optimaler Ist-Soll-Angleichung zu erfüllen. Die Hilfssysteme benötigen für ihre Arbeit bereits einzelsprachliche Information (vgl. zum Beispiel den STM-Generator), ohne jedoch schon die eigentliche Enkodierung zu leisten. Der Protoinput bzw. die kognitive Äußerungsbasis werden vielmehr mittels spezifischer Informationen aus der Hilfssystemebene „markiert“ (⫽ markierter Enkodierinput) und ergeben so den eindeutigen Input des Enkodiermechanismus (vgl. Herrmann & Grabowski, 1994: 361 ff.). (2) Chafe (1976) zum Zweck des spezifischen Teil Versprachlichung
nimmt an, dass Menschen Sprechens zunächst einen ihres Weltwissens für die bereitstellen (vgl. oben: Se-
239 lektion) und die jeweils ausgewählten Wissensstrukturen „schematisieren“, also sozusagen vorstrukturieren: Der ausgewählte Teil des Weltwissens wird in Propositionen (Prädikat-Argument-Strukturen) gegliedert, und es werden für die mit Wörtern zu bezeichnenden Begriffe propositionale Rollen (Prädikat, Agent-Argument, Patient-Argument usf.) festgelegt (vgl. dazu auch Grabowski, 1991). Auch nach Bock (1982) werden zur Vorbereitung der sprachlichen Verschlüsselung gedankliche Inhalte in ein Format gebracht, welches diese überhaupt erst zur einzelsprachlichen Enkodierung geeignet macht: Die Glieder eines Gedankengefüges werden in einer bestimmten Reihenfolge angeordnet, und es wird so zerlegt, dass wiederum propositionale Strukturen von Begriffen entstehen, welche jeweils eine bestimmte propositionale Rolle einnehmen. Das Ergebnis dieses Vorgangs, der nach Bock in einer von ihr so genannten „referentiellen Arena“ abläuft, ist noch strikt nonverbal. Bei Levelt (1989: 75 ff., 161 ff.) generiert das Sprechersystem „lexikalische“ Konzepte. Diese Konzepte werden ebenfalls als Elemente von Propositionen aufgefasst. Doch berücksichtigt auch dieser Autor, dass die propositionale Schreibweise, so wie sie traditionell verwendet wird (s. oben), nicht alle Informationen berücksichtigt, die der Enkodiermechanismus als Input benötigt (Levelt, 1992). Levelt verwendet im Anschluss an Bresnan (1982), Jackendoff (1983) sowie Kempen und Hoenkamp (1987) ein detailliertes propositionales Beschreibungsmodell für „messages“ und vermeidet damit die Unterbestimmtheit des Protoinputs. Levelt beschreibt konzeptuelle Strukturen mittels Graphen, wobei die lexikalischen Begriffe Komponenten (Knoten) dieser Strukturen sind (vgl. zum Folgenden Abbildung 16.1). Es ist hier nicht möglich, Levelts komplexes Beschreibungmodell vollständig darzustellen. Wir können nur an einem Beispiel den folgenden Einblick in Levelts Konzeption geben: Bei üblicher propositionaler Schreibung (vgl. oben Chafe, 1976) wird zum Beispiel die Sachlage, dass das Kind der Mutter die Katze gab, wie folgt dargestellt: [Prädikat: geben (Agent: Kind, Rezipient: Mutter, Objekt: Katze)]. Die so repräsentierte Information reicht nun aber für die einzelsprachliche Generierung einer Äußerung nicht aus. Zum Beispiel ist
240
III. Sprachproduktion
EVENT
PAST
CAUSE
PERSON
KIND
EVENT
GOpos s
THING
KATZE
PATH
FROM FROM /T/OT
PERSON1
KIND
PERSON2
MUTTER
Abb. 16.1: Propositionale Darstellung einer kognitiven Äußerungsbasis nach Levelt (1989: 164; s.Text).
nicht dargestellt, dass sich das Ereignis in der Vergangenheit abgespielt hat (vgl. unter (1) den STM-Generator). Levelt (1989: 161 ff. u. a.O.) rekonstruiert den Sachverhalt, dass das Kind der Mutter die Katze gab, wie folgt (vgl. Abb. 16.1, linker Teil): Das Sprechersystem verfügt während der Sprachproduktion über eine propositionale Teilstruktur, die zur semantischen Kategorie der Ereignisse (event) gehört und die den lexikalischen Begriff Kind enthält. Das Ereignis, zu dem Kind gehört, hat im Einzelnen die folgenden Merkmale: (1) Das Ereignis geschah in der Vergangenheit (past). (2) Zum Ereignis gehört die Prädikat-Kategorie Verursachen (cause); d. h. es wird etwas verursacht. (3) Kern des Ereignisses ist eine Person. (4) Diese Person-Kategorie ist mit dem lexikalischen Begriff Kind belegt. (5) Das Ereignis hat eine semantische Verbindung zu einem anderen Ereignis (event); dieses Ereignis impliziert, dass eine Katze vom Kind zur Mutter transferiert wird. Bei Levelt (1989: 164; vgl. Abb. 16.1, rechter Teil) ist dieses zweite Ereignis wie folgt konzipiert: (1) Eine semantische Kategorie Ding (thing) ist mit dem Begriff Katze belegt. (2) Es existiert eine semantische Kategorie goposs, die man als Besitzerwechsel bezeichnen kann: Die Katze wechselt den Besitzer. (3) Außerdem besteht ein Pfad (path) von einer Person1 (Kind) zu einer Person2 (Mutter). ⫺ Es ergibt sich also die folgende propositionale Gesamtstruktur: Indem das Kind in der Vergangenheit (past) etwas ver-
ursacht (cause), wird Katze possessiv von Kind zu Mutter transferiert (goposs). Man kann Levelts propositionale Darstellung des hier als Beispiel herangezogenen Sachverhalts mit der traditionellen Schreibweise [Prädikat: geben (Agent: Kind, Rezipient: Mutter, Objekt: Katze)] vergleichen und mit dem Autor unterstellen, dass die konzeptuelle Struktur nicht nur eine vollständigere Beschreibung eines Sachverhalts liefert, sondern dass sie die kognitive Äußerungsbasis einer Sprachäußerung wiedergibt. Solche propositionalen Strukturen enthalten bereits, wie man leicht sieht, grammatische Information. Diese ist nach Levelt Bestandteil des Enkodierinputs, also des Inputs eines mehrgliedrigen Formulierungsprozesses (vgl. auch Roelofs, 1997). Man kann diese Information als proto-grammatische Information bezeichnen. Ob zum Beispiel einem lexikalischen Konzept wie Kind in einer Einzelsprache ein Nomen bzw. der Kern einer Nominalphrase entspricht, wird nicht erst während der einzelsprachlichen Enkodierung festgelegt, sondern ist schon durch die protogrammatische Information der kognitiven Äußerungsbasis vorgegeben: Der Begriff Kind gehört nämlich zur Kategorie Person; Kind verursacht etwas (cause). In Levelts Konzeption bleibt ungeklärt, wie die konzeptuellen Teilprozesse auf der Ebene der Bereitstellung der kognitiven Äußerungsbasis genau beschaffen sind, die aus irgendwelchen gedanklichen Inhalten so detaillierte Graphenstrukturen entstehen lassen: Wie also hat man sich die kognitiven Teilpro-
241
16. Kognitive Grundlagen der Sprachproduktion
zesse vorzustellen, die irgendwelche Gedanken, bildhafte Vorstellungen, auch Gefühlsanmutungen und dergleichen zu so präzise und hochdetailliert beschriebenen Begriffsstrukturen machen? Welcher kognitive Vorgang führt zum Beispiel dazu, dass im vorstehenden Beispiel die Kategorien goposs, path oder cause auftreten? Kempen und Hoenkamp (1987) sowie Levelt (1989; vgl. auch DeSmedt & Kempen, 1991) legen Wert auf den Gesichtspunkt, dass die Formatierung wie alle übrigen Teilprozesse der Sprachproduktion nach dem Prinzip der inkrementellen Verarbeitung („incremental processing“) erfolgt: Die in strenger Reihenfolge (sequenziell) verfügbaren InputElemente einer vorgeordneten Sprachverarbeitungsstufe stoßen auf der jeweils nachgeordneten Prozessebene Stück für Stück die ihnen zugeordneten spezifischen Arbeitsschritte an. So wird auch, Levelt zufolge, die „message“ nicht als ganze simultan, sondern Stück für Stück (zufolge Abb. 16.1: von links nach rechts) verfügbar. Die Suche nach dem ersten Wort (einem sogenannten Lemma), beispielsweise die Suche eines auf die englische Sprache eingestellten Sprachproduktionssystems nach dem Wort „child“ beginnt sofort bei Verfügbarkeit der ersten Teilstruktur des Propositions-Graphen nach Abb. 14.1 (linke Teilstruktur mit dem Begriff Kind). Dies, bevor schon die nachfolgenden Teilstrukturen oder gar die gesamte „message“ vorliegen. Gemeinsam ist den beiden soeben dargestellten theoretischen Vorschlägen (1) und (2), dass kognitive Inhalte, wie auch immer sie zuvor intern repräsentiert sein mögen, zum Zweck der Formatierung in einzelne Begriffe bzw. Konzepte zerlegt und zugleich in die Form propositionaler Strukturen gebracht werden, wodurch die einzelnen Begriffe ihre propositionale Rolle erhalten. Die theoretische Konzeptualisierung gedanklicher Inhalte als (Strukturen von) Propositionen ist allerdings nicht ohne Kritik geblieben (so u. a. Dörner, 1999; Johnson-Laird, 1980). Zumindest hat es sich aber schon aus Gründen der theoretischen „Sparsamkeit“ als nützlich erwiesen, die kognitive Äußerungsbasis und ihre Formatierung mit Hilfe von Propositionen (einschließlich der detaillierten Levelt’ schen Graphen) zu interpretieren. Propositionen haben dann die wissenschaftstheoretische Funktion hypothetischer Konstrukte, die sich in der Forschungspraxis bewähren können, bei denen aber auch nicht auszuschließen ist,
dass sie in Zukunft durch überlegene theoretische Konstruktionen ersetzt werden. Es handelt sich bei den Propositionen und ähnlichen Sachverhalten also nicht um real existierende („reifizierte“) psychische oder auch neuronale Fakten, die noch dazu als reale Ursachen für andere solche Fakten gelten könnten, sondern um nützliche, aber revidierbare theoretische Konstruktionen (vgl. Gardenne, 1984; Herrmann, 1994).
7.
Literatur
Berry, D. C. & Broadbent, D. E. (1984). On the relationship between task performance and associated verbalizable knowledge. Quarterly Journal of Experimental Psychology, 36 A, 209⫺231. Biber, D. (1995). Dimensions of register variation: A cross linguistic comparison. Cambridge: Cambridge University Press. Blum-Kulka, S., House, J. & Kasper, G. (Eds.) (1989). Cross-cultural pragmatics: Requests and apologies (Advances in discourse processes, Vol. 31). Norwood: Ablex. Bock, J. K. (1982). Toward a cognitive psychology of syntax: Information processing contributions to sentence formulation. Psychological Review, 89, 1⫺47. Bosshardt, H.-G. (1999). Effects of concurrent mental calculation on stuttering, inhalation, and speech timing. Journal of Fluency Disorders, 24, 43⫺72. Bresnan, J. (1982). The mental representation of grammatical relations. Cambridge: MIT Press. Buhl, H. M., Katz, S., Schweizer, K. & Herrmann, Th. (2000). Einflüsse des Wissenserwerbs auf die Linearisierung beim Sprechen über räumliche Anordnungen. Zeitschrift für Experimentelle Psychologie, 47 (1), 17⫺33. Carroll, M. (1993). Deictic and intrinsic orientation in spatial descriptions: A comparison between English and German. In J. Altarriba (Ed.), Cognition and culture: A cross-cultural approach to cognitive psychology. Amsterdam: Elsevier. Chafe, W. L. (1976). Bedeutung und Sprachstruktur. München: Hueber. Clark, H. H. (1996). Using language. Cambridge, MA: Cambridge University Press. Clark, H. H. & Haviland, S. E. (1977). Comprehension and the given-new contract. In R. O.Freedle (Ed.), Discourse production and comprehension (pp. 1⫺40). Norwood: Ablex.
242
III. Sprachproduktion
Clark, H. H. & Wilkes-Gibbs, D. (1986). Referring as a collaborative process. Cognition, 22, 1⫺39.
pointer tag hypothesis. Journal of Verbal Learning and Verbal Behavior, 18, 319⫺332.
Dell, G. S. (1989). Language production and connectionist models of the mind. Colloquium presented to the Department of Psychology, Michigan State University, East Leansing, MI.
Güsgen, H.-W. & Hertzberg, J. (1992). A perspective of constraint-based reasoning: An introductory tutorial. Berlin: Springer.
DeSmedt, K. & Kempen, G. (1991). Segment grammar: A formalism for incremental sentence generation. In C. L. Paris, W. R. Swartout & W. C. Mann (Eds.), Natural language generation in artificial intelligence and computational linguistics (pp. 329⫺349). Boston, MA: Kluwer. Dörner, D. (1999). Bauplan für eine Seele. Reinbek bei Hamburg: Rowohlt. Edmondson, W. & House, J. (1981). Let’s talk and talk about it: A pedagogic interactional grammar of English. München: Urban und Schwarzenberg. Ehrich, V. (1989). Die temporale Festlegung lokaler Referenz. In Ch. Habel, M. Herweg & K. Rehkämper (Hrsg.), Raumkonzepte in Verstehensprozessen. Interdisziplinäre Beiträge zur Sprache und Raum (Linguistische Arbeiten 233) (pp. 1⫺16). Tübingen: Niemeyer. Engelbert, H. M. (1992). Die Aktualgenese von Raummodellen und ihr Einfluß auf die Linearisierung. Unveröff. Diplomarbeit. Universität Mannheim: Lehrstuhl Psychologie III. Engelkamp, J. & Zimmer, H. D. (1983). Dynamic aspects of language processing. Focus and presupposition. Berlin: Springer. Gardenne, V. (1984). Theorie und Erfahrung in der psychologischen Forschung. Tübingen: Mohr. Garrett, M. F. (1988). Processes in language production. In F. J. Newmeyer (Ed.), Language: Psychological and biological aspects (pp. 69⫺97). Cambridge, MA: Cambridge University Press. Gordon, D. & Lakoff, G. (1971). Conversational postulates. Papers from the Seventh Regional Meeting (pp. 63⫺84). Chicago: Chicago Linguistic Society. Grabowski, J. (1991). Der propositionale Ansatz der Textverständlichkeit: Kohärenz, Interessantheit und Behalten. Münster: Aschendorff. Grabowski-Gellert, J. & Winterhoff-Spurk, P. (1988). Your smile is my command: Interaction between verbal and nonverbal components of requesting specific to situational characteristics. Journal of Language and Social Psychology, 7, 229⫺242. Graesser, A. C., Gordon, S. G. & Sawyer, J. D. (1979). Recognition memory of typical and atypical actions in scripted activities: Tests of a script
Herrmann, Th. (1983). Speech and situation: A psychological conception of situated speaking. Berlin: Springer. Herrmann, Th. (1994). Forschungsprogramme. In Th. Herrmann & W. Tack (Hrsg.), Enzyklopädie der Psychologie (Themenbereich B, Serie 1, Band 1: Methodologische Grundlagen der Psychologie) (pp. 251⫺294). Göttingen: Hogrefe. Herrmann, Th. (1995). Allgemeine Sprachpsychologie. Grundlagen und Probleme (2. Auflage). Weinheim: Beltz. Herrmann, Th. (2002). Auffordern. In Th. Herrmann & J. Grabowski (Hrsg.), Enzyklopädie der Psychologie (Bereich C, Serie III, Band 1: Sprachproduktion). Göttingen: Hogrefe. Herrmann, Th. & Deutsch, W. (1976). Psychologie der Objektbenennung (Studien zur Sprachpsychologie: 5). Bern: Huber. Herrmann, Th. & Grabowski, J. (1994). Sprechen. Psychologie der Sprachproduktion. Heidelberg, Berlin, Oxford: Spektrum Akademischer Verlag. Herrmann, Th., Kilian, E., Dittrich, S. & Dreyer, P. (1992). Was- und Wie-Schemata beim Erzählen. In H. P. Krings & G. Antos (Hrsg.), Textproduktion. Neue Wege der Forschung (Fokus Bd. 7) (pp. 147⫺158). Trier: WVT Wissenschaftlicher Verlag Trier. Herrmann, Th. & Schweizer, K. (1998). Sprechen über Raum. Lokalisieren und seine kognitiven Grundlagen. Bern: Huber. Hoffmann, L. (1991). Vom Ereignis zum Fall. Sprachliche Muster zur Darstellung und Überprüfung von Sachverhalten vor Gericht. In J. Schönert (Hrsg.), Erzählte Kriminalität. Zur Typologie und Fuktion von narrativen Darstellungen in Strafrechtspflege, Publizistik und Literatur zwischen 1770 und 1920 (pp. 87⫺113). Tübingen: Narr. Hörmann, H. (1976). Meinen und Verstehen. Grundzüge einer psychologischen Semantik. Frankfurt/M.: Suhrkamp. Hornby, P. A. (1974). Surface structure and presupposition. Journal of Verbal Learning and Verbal Behavior, 13, 530⫺583. Jackendoff, R. S. (1983). Semantics and cognition (Current Studies in Linguistics Series, 8). Cambridge: MIT Press.
16. Kognitive Grundlagen der Sprachproduktion
243
Johnson-Laird, P. N. (1980). Thinking: Readings in cognitive science. Cambridge: Cambridge University Press.
Mandler, J. M. & Johnson, N. S. (1977). Remembrance of things parsed: Story structure and recall. Cognitive Psychology, 9, 111⫺151.
Kasper, G. (1990). Linguistic politeness: Current research issues. Journal of Pragmatics, 14 (2), 193⫺218.
Meyer, J. R. (1992). Fluency in the production of requests: Effects of degree of imposition, schematicity and instruction set. Journal of Language and Social Psychology, 11 (4), 233⫺251.
Kempen, G. & Hoenkamp, E. (1987). An incremental procedural grammar for sentence formulation. Cognitive Science, 11, 201⫺258. Kintsch, W. (1974). The representation of meaning in memory. Hilldale: Erlbaum. Klein, W. (1982). Local deixis in route directions. In R. J. Jarrella & W. Klein (Eds.), Speech, place, and action (pp. 161⫺182). Chichester: Wiley & Sons. Klein, W. (1984). Bühler Ellipse. In C. F. Graumann & Th. Herrmann (Hrsg.), Karls Bühlers Axiomatik (pp. 117⫺143). Frankfurt/M.: Klostermann. Koch, W. (1992). Automatische Generierung von Kochrezepten. In H. P. Krings & G. Antos (Hrsg.), Textproduktion. Neue Wege der Forschung (Fokus Bd. 7) (pp. 311⫺338). Trier: WVT Wissenschaftlicher Verlag Trier. Laucht, M. (1979). Untersuchungen zur sprachlichen Form des Aufforderns. In W. Tack (Hrsg.), Bericht über den 31. Kongreß der Deutschen Gesellschaft für Psychologie (pp. 89⫺91). Göttingen: Hogrefe. Levelt, W. J. M. (1981). The speaker’s linearization problem. In D. E. Broadbent, J. Lyons & S. Longuet-Higgins (Eds.), Psychological mechanisms of language (Philosophical Transactions of the Royal Society London, B 295) (pp. 305⫺315). Levelt, W. J. M. (1982). Linearization in describing spatial networks. In S. Peters & E. Saarinen (Eds.), Processes, beliefs, and questions. Essays on formal semantics of natural language and natural language processing (pp. 199⫺220). Dordrecht: Reidel. Levelt, W. J. M. (1989). Speaking: From intention to articulation. Cambridge/London: A Bradford Book/MIT Press. Levelt, W. J. M. (1992). Accessing words in speech production: Stages, processes and representations. Cognition, 42, 1⫺22. Linde, C. & Labov, W. (1985). Die Erforschung von Sprache und Denken anhand von Raumkonfigurationen. In H. Schweizer (Hrsg.), Sprache und Raum: Psychologische und linguistische Aspekte der Aneignung und Verarbeitung von Räumlichkeit. Ein Arbeitsbuch für das Lehren von Forschung (pp. 44⫺ 65). Stuttgart: Metzler. (Original erschienen 1975: Spatial networks as a site for the study of language and thought. Language, 51, 924⫺939.)
Neumann, O. (1992). Theorien der Aufmerksamkeit: Von Metaphern zu Mechanismen. Psychologische Rundschau, 43, 83⫺101. Norman, D. A. & Shallice, T. (1986). Attention to action: Willed and automatic control of behavior. In R. J. Davidson, G. E. Schwarts & D. Shapiro (Eds.), Consciousness and self-regulation. Advances in research and theory (pp. 1⫺18). New York: Plenum Press. Oesterreich, R. (1981). Handlungsregulation und Kontrolle. München: Urban und Schwarzenberg. Perrig, W. J., Wippig, W. & Perrig-Ciello, P. (1993). Unbewußte Informationsverarbeitung. Bern, Göttingen: Huber. Posner, M. I. & Snyder, C. R. R. (1975). Attention and cognitive control. In R. L. Solso (Ed.), Information processing and cognition: The Loyola Symposium. Hillsdale: Erlbaum. Power, M. J. (1985). Sentence production and working memory. Quarterly Journal of Experimental Psychology, 37A, 367⫺386. Reimer, U. (1989). FRM: Ein Frame-Repräsentationsmodell und seine formale Semantik: zur Integration von Datenbank- und Wissensrepräsentationsansätzen. Heidelberg: Springer. Rickheit, G. & Strohner, H. (1993). Grundlagen der kognitiven Sprachverarbeitung: Modelle, Methoden, Ergebnisse. Tübingen: Francke. Roelofs, A. (1997). The WEAVER Model of wordform encoding in speech production. Cognition, 64 (3), 249⫺284. Rumelhart, D. E. & Ortony, A. (1977). The representation of knowledge in memory. In R. C. Anderson, R. J. Spiro & W. E. Montague (Eds.), Schooling and the acquisition of knowledge (pp. 99⫺ 135). Hillsdale: Erlbaum. Rummer, R. (1996). Kognitive Beanspruchung beim Sprechen. Weinheim: Beltz. Rummer, R., Mohr, G. & Zimmer, H. (1998). Leistungsbegrenzungen im verbalen Arbeitsgedächtnis: Argumente gegen energetische Ressourcenkonzepte. Kognitionswissenschaft, 7, 134⫺140. Schade, U. (1992). Konnektionismus. Zur Modellierung der Sprachproduktion. Opladen: Westdeutscher Verlag.
244
III. Sprachproduktion
Schank, R. C. & Abelson, R. P. (1977). Scripts, plans, goals, and understanding. Hillsdale: Erlbaum. Schlesinger, I. M. (1977). Production and comprehension of utterances. Hillsdale: Erlbaum. Stein, G. L. & Glenn, C. G. (1979). An analysis of story comprehension in elementary school children. In R. O. Freedle (Ed.), New directions in discourse processing (Advances in Discourse Processes, Vol. 2) (pp. 53⫺120). Norwood: Ablex.
Ungerer, D., Liebertz, P. & Morgenroth, U. (1998). Telefonieren im Fahrzeug – Fahrerbelastung und Fahrfehler. Universität Bremen. Sensomotorik-Labor/ADAC-Zentrale München. Vukovich, A. (1999). Kovariation und Ebenmaß: Grundformen der Symmetrie in natürlichsprachlicher Rede. Regensburg: Roderer.
Theo Herrmann Universität Mannheim (Deutschland)
17. Aufmerksamkeitssteuerung 1. 2.
5. 6. 7.
Einleitung Aufmerksamkeit: Probleme bei der begrifflichen Präzisierung Handlungsbezogene Aufmerksamkeit: Das SAS-Modell Die Rolle der Aufmerksamkeitssteuerung in Modellen der Sprachproduktion Empirische Befunde Abschließende Bemerkungen Literatur
1.
Einleitung
3. 4.
Die Aufmerksamkeitssteuerung beim Sprechen ist ein Gegenstand, der in der Sprachpsychologie bislang nur wenig Beachtung fand. Der geringe Stellenwert, den die Erforschung exekutiver Kontrollfunktionen in der bisherigen Sprachproduktionsforschung hatte, wird etwa bei der Durchsicht einschlägiger Monographien (etwa Gernsbacher, 1994; Harley, 1995) oder Methodenübersichten zur Sprachproduktionsforschung (Bock, 1996; Pechmann, im Druck) deutlich. Der vorliegende Beitrag befasst sich mit der Frage, welche Aspekte der Sprachproduktion die Zuwendung von Aufmerksamkeit erforderlich machen. Um diese Frage beantworten zu können, ist es zum einen wichtig, das hypothetische Konstrukt „Aufmerksamkeit“ präzise zu definieren, zum anderen ist ein elaboriertes Prozessmodell der Sprachproduktion erforderlich, das auch (und vor allem) Aspekten der (konzeptuellen) Sprechplanung Rechnung trägt. Auf dieser Basis können dann relevante empirische Befunde dargestellt werden.
2.
Aufmerksamkeit: Probleme bei der begrifflichen Präzisierung
„Everybody knows what attention is“, schrieb William James (1890) in seinen Principles of Psychology, und diesem Zitat werden sich vermutlich auch viele Leser dieses Beitrags anschließen. Die Unschärfe des alltagssprachlichen Aufmerksamkeitsbegriffs wird jedoch sehr schnell deutlich, wenn es darum geht, eine begriffliche Präzisierung vorzunehmen, die wissenschaftlichen Kriterien genügt. Unter funktionalen Gesichtspunkten wird Aufmerksamkeit nämlich in sehr unterschiedlicher Weise verwandt: So spricht man etwa von Aufmerksamkeit als einer Funktion, die dafür sorgt, dass eine begrenzte Anzahl von bewusst repräsentierten Gegenständen (drei bis sieben) deutlicher wahrgenommen wird als die übrigen. Auf der anderen Seite richten wir Aufmerksamkeit auf unser eigenes Verhalten, um es bewusst und zielgerichtet zu kontrollieren. Nun haben Wahrnehmung und Handlungssteuerung zunächst wenig miteinander zu tun. In der Kognitionspsychologie verwendet man zur begrifflichen Präzisierung der Aufmerksamkeit deshalb abstrakte Kategorien wie Kapazität, Intentionalität oder Bewusstheit. Aufmerksamkeit wird traditionell als ein intentional steuerbarer und kapazitativ begrenzter Prozess verstanden, der zu (bewussten) Repräsentationen im Kurzzeitoder Arbeitsgedächtnis führt. Diese Definition wurde in den kognitiven Wissenschaften seit Mitte der achtziger Jahre sehr kontrovers diskutiert (z. B. Allport, 1993; Navon, 1984; Neumann, 1992). Im Folgenden werden einige Gründe hierfür angesprochen.
245
17. Aufmerksamkeitssteuerung
(1) Die sog. Dualitätsannahme geht davon aus, dass aufmerksamkeitskonsumierende Prozesse grundsätzlich willentlich und bewusst ablaufen und kapazitativ begrenzt sind (es können also nicht beliebig viele solcher Prozesse parallel ablaufen); der Ablauf sog. automatischer Prozesse hingegen sollte nicht willentlich initiierbar sein, unbewusst ablaufen und nicht kapazitativ begrenzt sein. Es wurde jedoch empirisch gezeigt, dass dies nicht der Fall ist (s. Neumann, 1992). D. h. es kommen auch Merkmalskombinationen vor, die entsprechend der Dualitätsannahme nicht auftreten dürften. Beispielsweise können Prozesse kapazitätsunabhängig erfolgen, sie führen aber zu bewussten (d. h. zu versprachlichenden) Repräsentationen. (2) Aufmerksamkeit ist ein Sammelbegriff für eine Vielzahl sehr unterschiedlicher kognitiver Prozesse. Die Existenz eines Oberbegriffs trägt aus Sicht vieler Autoren nur zur Verwirrung bei und ist lediglich unter alltagssprachlichen Gesichtspunkten sinnvoll. Eine differenzierte Sichtweise wird durch die Verwendung eines homogenen Aufmerksamkeitskonzepts erschwert (z. B. Allport, 1993; Meyer & Kieras, 1997; Neumann, 1992). (3) Schließlich ist das Konstrukt Aufmerksamkeit eng mit dem Begriff der kognitiven Ressource verbunden. Die Erklärung von Leistungsbegrenzungen durch die Annahme begrenzter Ressourcen begünstigt zirkuläre Erklärungsmuster (z. B. Kluwe, 1997; Rummer, Mohr & Zimmer, 1999). Allport, Styles und Hsieh (1994: 204) drücken ihr Unbehagen mit traditionellen Aufmerksamkeitskonzepten wie folgt aus: „Reference to attention or to a central executive or even to the anteriour attention system as an unspecific causal mechanism explains nothing.“ Aus den genannten Kritikpunkten wird für diesen Beitrag zweierlei gefolgert: (a) Es muss geklärt werden, welche Art von Aufmerksamkeit hier relevant ist. Im Folgenden wird es um handlungsbezogene Aufmerksamkeit, also um exekutive Kontrollprozesse, gehen. (b) Außerdem muss ein geeignetes Rahmenmodell der Aufmerksamkeit skizziert werden. Aus forschungspraktischen Gründen wird hier auf das SAS-Modell (Supervisory Attentional System) von Norman und Shallice (1986; s. auch Shallice, 1992) zurückgegriffen. Auf dieses Modell trifft zwar eine Reihe der oben genannten Kritikpunkte zu, doch besteht prinzipiell die Möglichkeit, dieses Mo-
dell mit aktuellen Überlegungen im Sinne einer Spezifikation von Aufmerksamkeitsmechanismen zu verbinden. Als Rahmenmodell ist das SAS-Modell aus zwei Gründen geeignet. Zum einen stehen derzeit keine der Komplexität des hier behandelten Gegenstandes angemessenen Modelle zur Verfügung, und zum anderen können die wenigen verfügbaren Modelle nur unter Schwierigkeiten an bestehende Modelle der Sprachproduktion angebunden werden.
3.
Handlungsbezogene Aufmerksamkeit: Das SAS-Modell
Das SAS-Modell ist der Versuch, einen Zusammenhang zwischen Wissensbasis, situativen Erfordernissen und Aufmerksamkeit herzustellen. Nach Norman und Shallice (1986) werden häufig vorkommende Handlungsmuster durch hierarchisch strukturierte (prozedurale) Handlungsschemata repräsentiert. Diese hierarchische Struktur wird im Rahmen eines Netzwerkmodells dargestellt (Rumelhart, 1980). Automatische Handlungssequenzen kommen durch eine automatische Aktivationsausbreitung innerhalb eines solchen Netzwerks zustande, während eine aktive und willentlich gerichtete Modulation der Aktivationsausbreitung im Netzwerk die Einflussnahme des SAS erforderlich macht. Das SAS aktiviert oder inhibiert (Sub-)Schemata direkt und kann so die automatische Aktivationsausbreitung modulieren. Auf diese Weise ist eine flexible und intentionale Handlungplanung möglich. Darüber hinaus kann das SAS die Handlungskontrolle übernehmen, auch wenn prozedurale Schemata verfügbar sind, etwa in Situationen, in denen Handlungsfehler besonders folgenreich wären. Das SAS ist hinsichtlich seiner Kapazität begrenzt. Wie diese Begrenzung zustande kommt, bleibt bei Norman und Shallice (1986) offen. Allerdings lässt sich das SAS mit Überlegungen verbinden, die im Rahmen des Task-Shift-Paradigmas angestellt wurden (z. B. Rogers & Monsell, 1994; einen Überblick gibt Kluwe, 1997): Je häufiger das SAS Einfluss auf die automatische Aktivationsausbreitung nimmt, desto aufwendiger (oder „aufmerksamkeitskonsumierender“) ist der entsprechende Planungsprozess. Die Leistung des SAS hängt maßgeblich vom Ausmaß der aktuellen Gedächtnisbelastung ab (Baddeley, 1986; Just & Carpenter,
246
III. Sprachproduktion
1992): Wenn bei der Bearbeitung einer aufmerksamkeitsintensiven Aufgabe konzeptuelle Information kurzfristig behalten werden muss, so beeinträchtigt dies die Leistung der Aufmerksamkeitssteuerung. Um die Rolle des SAS bei der Sprachproduktion angemessen beschreiben zu können, ist es erforderlich, ein Sprachproduktionsmodell zu beschreiben, das eine direkte Anbindung der Sprachproduktion an Prozesse der Aufmerksamkeitssteuerung leistet.
4.
Die Rolle der Aufmerksamkeitssteuerung in Modellen der Sprachproduktion
In den meisten Modellen der Sprachproduktion wird der Sprachproduktionsprozess in drei Teilprozesse unterteilt, denen jeweils eine Prozessinstanz zugeordnet ist. Levelt (1989) unterscheidet beispielsweise einen Conceptualizer, der der Generierung der Message dient, einen Formulator, der für die grammatische und phonologische Enkodierung zuständig ist, und einen Artikulator, der der Artikulation dient. Die einzelnen Prozesskomponenten arbeiten autonom und unterscheiden sich unter anderem darin, dass sie die Zuwendung von Aufmerksamkeit erfordern oder automatisch ablaufen. Nach Levelt (1989) unterliegen nur die Konzeptualisierungsprozesse sowie die abschließende Überwachung des Sprachproduktionsprozesses (Monitoring) der Aufmerksamkeitssteuerung; die übrigen Prozesskomponenten hingegen laufen weitgehend automatisch ab. Empirische Belege für diese Annahmen finden sich etwa bei Levelt (1983, 1989) und Marx (1984). Herrmann und Grabowski (1994) nehmen ebenfalls ein dreistufiges Modell des Sprachproduktionsprozesses an. Obwohl sich ihr Modell in einer ganzen Reihe von Annahmen, vor allem im Bereich der grammatischen Enkodierung, von dem oben genannten Modell unterscheidet, überwiegen die Gemeinsamkeiten. Das gilt insbesondere für die Frage, welche Aspekte der Sprachproduktion aufmerksamkeitsabhängig sind und welche automatisch ablaufen können. Im Zusammenhang mit der Aufmerksamkeitssteuerung ist ein Unterschied zwischen beiden Modellen besonders wichtig: Während Levelt (1989) davon ausgeht, dass die Aufmerksamkeitssteuerung nur während der konzeptuellen Planung und beim Monitoring Einfluss auf
den Sprachproduktionsprozess nimmt, gehen Herrmann und Grabowski davon aus, dass die Aufmerksamkeitssteuerung, wenn dies erforderlich ist, auch Einfluss auf die untergeordneten Prozessstufen nehmen kann. Die eigentliche (aufmerksamkeitsintensive) Sprechplanung erfolgt auf der hierarchisch höchsten Ebene, der Zentralen Kontrolle. Realisiert wird die Sprechplanung durch die Selektion der im Arbeitsgedächtnis repräsentierten Information (mitunter muss auch weitere Information aus dem Langzeitgedächtnis abgerufen werden) und die im Rahmen von Inferenzprozessen erfolgende Aufbereitung dieser Information. Über die Entscheidung, zu welchem Zeitpunkt die Selektion einer bestimmten Sinneinheit erfolgt, wird darüber hinaus die lineare Abfolge der selegierten Information festgelegt (Linearisierung). Die Zentrale Kontrolle, die hinsichtlich ihrer Kapazität begrenzt ist, beinhaltet zwei Subsysteme. Die Aufmerksamkeitssteuerung des Sprechens erfolgt durch die sogenannte Zentrale Exekutive, dem operationalen (prozeduralen) Subsystem. Das zweite Subsystem ist ein (deklaratives) Speichersystem, der sogenannte Fokusspeicher. Die Zentrale Exekutive arbeitet dabei über der im Fokusspeicher repräsentierten Information. Sowohl die (längerfristige) Repräsentation von (konzeptueller) Information im Fokusspeicher als auch deren Verarbeitung durch die Zentrale Exekutive erfolgt in Abhängigkeit von der kapazitativ begrenzten Zentralen Kontrolle, die man heuristisch als eine unspezifische kognitive Ressource betrachten kann (vgl. Just & Carpenter, 1992). Im Hinblick auf die kognitive Belastung, die bei der Planung von Sätzen entsteht, sagt dieses Modell voraus, dass die Belastung der Zentralen Kontrolle umso höher ist, je komplexer die entsprechenden Sätze sind. Die Versprachlichung einer bestimmten Informationsmenge belastet das kognitive System eines Sprechers also stärker, wenn die Information in einem komplexen Satz formuliert wird, als wenn statt dessen mehrere einfache Sätze gebildet werden. Der Grund hierfür liegt vor allem darin, dass bei der Generierung komplexerer Sätze mehr Information kurzfristig verfügbar gehalten werden muss als bei der Generierung weniger komplexer Sätze. Neben der Zentralen Kontrolle beinhaltet das Sprechersystem sog. Hilfssysteme und einen Enkodiermechanismus. Diese Teilsysteme sind etwa für die Textkohärenz sowie für grammatische und phonologische Pro-
247
17. Aufmerksamkeitssteuerung
zesse bei der Sprachproduktion zuständig und arbeiten in der Regel unabhängig von der Aufmerksamkeitssteuerung. Es kommt jedoch vor, dass aufgrund situativer Erfordernisse Aspekte der Sprachproduktion von der Zentralen Exekutive kontrolliert werden, die üblicherweise auf hierarchisch niedrigerer Ebene ablaufen. Mitunter reicht auch das auf Hilfssystemebene repräsentierte Wissen nicht aus, wie etwa bei fremdsprachiger Sprachproduktion (Takano & Noda, 1993). Dann kann die Zentrale Kontrolle bestimmte Aufgaben übernehmen, die ansonsten von einem der beiden hierarchisch untergeordneten Subsysteme ausgeführt werden. Die kognitive Beanspruchung, die auf die inhaltliche Planung sprachlicher Äußerungen zurückgeht, kann nicht nur auf Satzebene, sondern auch auf Textebene variieren. Ein Sprecher kann etwa bei der Makroplanung einer Äußerung, je nach Kommunikationssituation, in unterschiedlichem Umfang auf vorgefertigtes (im Langzeitgedächtnis repräsentiertes) Wissen zurückgreifen. Dies sollte zu einer Entlastung der Zentralen Exekutive führen. Oder Sprecher wählen zu bestimmten Zeitpunkten lediglich Informationen aus, die kognitiv leicht verfügbar sind. Möglicherweise wiederholen sie einen Sachverhalt, den sie oder der Kommunikationspartner bereits verbalisiert haben und dessen Produktion nahezu ohne Planungsaufwand erfolgen kann. Herrmann und Grabowski (1994) unterscheiden drei idealtypische Planungsmodi, die innerhalb einer längeren Äußerung zumeist wechseln und nur selten in Reinform vorkommen. (a) Reizsteuerung: Reizgesteuertes Sprechen ist nur in respondenter Form (also als reaktives sprachliches Verhalten) möglich. In der Regel wird von einem Hilfssystem ein sog. Diskursprotokoll (eine kurzfristig verfügbare phonologische Repräsentation der partnerseitigen oder der eigenen Äußerung) angelegt. Diese Repräsentation der Äußerungsoberfläche wird mittels spezieller, von einem anderen Hilfssystem bereitgestellter Algorithmen transformiert. Ein artifizielles Beispiel für die Reizsteuerung ist das Computerprogramm ELIZA, das einen Gesprächstherapeuten simuliert (Weizenbaum, 1966). Auch Patienten mit Demenz vom Alzheimer Typ und neuropsychologische Patienten mit einer Läsion des Frontallappens zeigen in ihrer Sprachproduktion mitunter Verhaltensweisen, die
auf reizgesteuertes Sprechen zurückgeführt werden können (vgl. z. B. Parks, Zec & Wilson, 1993). (b) Schemasteuerung: Hier greift der Sprecher auf schematisiert vorliegendes prozedurales Wissen darüber zurück, wie in einer bestimmten Kommunikationssituation zu sprechen ist. Die Aufmerksamkeitssteuerung aktiviert ein Wie-Schema, das dann automatisch abläuft. Wie-Schemata beinhalten unser standardisiertes Ausführungswissen über Texte, Diskurse, verbale Darstellungsmodalitäten und dergleichen (vgl. Herrmann & Grabowski, 1994: 356 ff.). Sie enthalten Selektions-, Aufbereitungs- und Linearisierungsprogramme, die in Form von verketteten Wenn-Dann-Regeln im Langzeitgedächtnis repräsentiert sind. Die Schemasteuerung ist wenig flexibel im Hinblick auf unvorhergesehene Veränderungen der Kommunikationssituation. (c) Ad-hoc-Steuerung: Hier werden von der Zentralen Exekutive des Sprechersystems ad hoc Entscheidungen über den Fortgang der eigenen Sprachproduktion gefällt. Bei der Ad-hoc-Steuerung überwacht das Aufmerksamkeitssystem die Sprachproduktion nicht nur im „Hintergrund“ (wie dies bei der Reizund Schemasteuerung der Fall ist), sondern sie gibt die Sprechplanung zu keinem Zeitpunkt aus der Hand. Die Ad-hoc-Steuerung ist außerordentlich flexibel, belastet die zentrale Exekutive jedoch erheblich. Rummer, Grabowski und Vorwerg (1995) beschrieben einen vierten Planungsmodus, den sie kontrollierte Schemasteuerung nannten. Die Sprechplanung unterliegt der kontrollierten Schemasteuerung, wenn Sprecher durch aufmerksamkeitsintensive Planung versuchen, Diskursmuster herzustellen, die in ihrem kognitiven System nicht als Wie-Schemata repräsentiert sind.
5.
Empirische Befunde
Je nach (konzeptueller) Komplexität der zu produzierenden Sätze sollte der Planungsaufwand, d. h. die Belastung des Aufmerksamkeitssystems, unterschiedlich hoch ausfallen. Evidenz für diese Annahme stammt etwa aus Untersuchungen von Sternberg und Mitarbeitern. Sternberg, Monsell, Knoll und Wright (1978) zeigten, dass die Latenzzeiten beim Aussprechen von Sätzen maßgeblich von der Länge der Sätze abhängen. Diese
248 Daten lassen sich als erster Beleg für einen positiven Zusammenhang zwischen der Komplexität von Sätzen und dem Planungsaufwand anführen. Oviatt (1997) konnte bei der mündlichen Textproduktion eine positive korrelative Beziehung zwischen ‘Disfluencies’ – z. B. ungefüllte und gefüllte Sprechpausen – und der Wortzahl der jeweils produzierten Sätze nachweisen. Auch dieser Befund spricht für die Annahme, dass die Komplexität von Sätzen mit dem Planungsaufwand positiv korreliert ist. Interessant sind in diesem Zusammenhang auch Arbeiten, in denen die Leistungen älterer und junger Probanden miteinander verglichen werden: Ältere Probanden präferieren einfachere syntaktische Konstruktionen. Beispielsweise produzieren sie weniger linksverzweigende Strukturen („Wer das getan hatte, wussten sie nicht.“ vs. „Sie wussten nicht, wer das getan hatte.“) und weniger eingebettete Nebensätze und Subordinierungen als jüngere Versuchspersonen (z. B. Kemper, 1987; Kynette & Kemper, 1986). Zwischen Alter und der Häufigkeit syntaktischer Fehler besteht hingegen kein Zusammenhang. Power (1985) konnte zeigen, dass nicht nur eine Beziehung zwischen Komplexität von Sätzen und dem Planungsaufwand besteht, sondern auch zwischen inhaltlicher Variabilität, Originalität und dem kognitiven Aufwand. Er gab seinen Versuchspersonen jeweils zwei Wörter vor, anschließend sollten sie mündlich einen Satz produzieren, der beide Wörter enthielt. Die Ergebnisse zeigten, dass Versuchspersonen, die gleichzeitig sechs Ziffern behalten sollten, stereotypere Sätze produzierten als Versuchspersonen, die keine oder nur drei Ziffern behalten sollten. Syntaktische Fehler wurden durch die zusätzliche Gedächtnisanforderung auch hier nicht begünstigt. Zu diesen Befunden passen auch die Ergebnisse von Jou und Harris (1992). Die Autoren verglichen die mündliche Wiedergabe verschiedener Texte mit und ohne Sekundäraufgabe. Es zeigte sich, dass die zeitgleiche Bearbeitung von Additionsaufgaben die Anzahl der von den Versuchspersonen reproduzierten Sinneinheiten (oder Propositionen) maßgeblich beeinträchtigte. Ein Einfluss auf die syntaktische Qualität der Äußerungen ließ sich hingegen nicht nachweisen. Rummer (1996) konnte diese Befunde bestätigen: Wenn die Versuchspersonen eine Wahlreaktionsaufgabe während des Sprechens bearbei-
III. Sprachproduktion
ten mussten, so äußerte sich dies vor allem darin, dass sie einen Film weniger detailliert wiedergaben, als wenn keine Sekundäraufgabe parallel bearbeitet wurde. Es fand sich jedoch kein Einfluss auf die syntaktische Struktur der einzelnen Sätze. Die Versuchspersonen machten weder mehr syntaktische Fehler in der Doppelaufgabenbedingung, noch waren, wie eine nicht veröffentlichte Reanalyse der Äußerungen ergab, Unterschiede in der syntaktischen Komplexität der Äußerungen erkennbar. Kellogg (1988) konnte zeigen, dass insbesondere die konzeptuelle Planung das Aufmerksamkeitssytem belastet. Er instruierte seine Versuchspersonen, kurze, thematisch gebundene Texte zu schreiben. Eine Gruppe sollte, bevor sie mit der Niederschrift des Textes begann, eine Gliederung des Textes erarbeiten. Die Kontrollgruppe musste sofort mit dem Schreiben beginnen. Die Texte der ersten Gruppe waren von höherer Qualität als die der zweiten. Wenn die Versuchspersonen während des gesamten Experiments einfache Reaktionsaufgaben ausführten, waren die entsprechenden Reaktionszeiten länger in der Planungs- als in der Produktionsphase. Die konzeptuelle Makroplanung der Äußerung ist also kognitiv beanspruchender als die eigentliche sprachliche Realisierung. Eine Reihe von Befunden spricht außerdem dafür, dass bestimmte situative Anforderungen (etwa bestimmte Merkmale der Aufgabe, des Partners oder der Kommunikationssituation) die Beteiligung der Aufmerksamkeitssteuerung modulieren können. Eine Äußerung muss, damit sie vom Partner verstanden werden kann, nicht nur die relevante Information enthalten, sondern sie muss auch auf das vom Sprecher und Partner geteilte Wissen Bezug nehmen. In diesem Zusammenhang stellt sich generell die Frage, ob eine Spezifikation der Äußerung im Hinblick auf den Partner aufmerksamkeitsabhängig erfolgt oder ob aufgrund der herausragenden kommunikativen Bedeutung der Hörerorientierung (s. Clark, 1996) die Äußerungsplanung bereits auf dem von Sprecher und Hörer geteiltem Wissen „aufsetzt“. Horton und Keysar (1996) haben diese Frage im Rahmen einer experimentellen Untersuchung, die allerdings einige methodische Mängel aufweist, untersucht. Die Autoren boten ihren Versuchspersonen Targetobjekte zusammen mit einem Kontextobjekt auf dem Bildschirm dar (z. B. ein helles Dreieck unter einem dunklen Dreieck). Die Aufgabe der Versuchspersonen
249
17. Aufmerksamkeitssteuerung
bestand darin, das obere der beiden Objekte so zu beschreiben, dass der Partner auf der Basis ihrer Äußerung entscheiden konnte, ob ein Objekt, das ihm präsentiert wurde, identisch mit dem beschriebenen Targetobjekt war. Wenn den Versuchspersonen bekannt war, dass dem Partner sowohl das Kontextobjekt als auch das Targetobjekt dargeboten wurde, referierten sie bei der Beschreibung sehr häufig auf das Kontextobjekt (z. B. „ein Dreieck, heller als das Dreieck unten“). Unter der Bedingung, dass die Sprecher wussten, dass dem Partner nur das Targetobjekt zur Verfügung stand (dem Sprecher wurden nach wie vor beide Objekte dargeboten), wurde hingegen kaum auf das Kontextobjekt referiert. Das änderte sich jedoch, wenn die Sprecher unter Zeitdruck gesetzt wurden. Während der Anteil von Beschreibungen, die auf das Kontextobjekt Bezug nahmen, in der ersten Bedingung (Sprecher und Partner sehen das Kontextobjekt) nicht von der Ausprägung des Zeitdrucks abhing, referierten die Versuchspersonen in der zweiten Bedingung (nur der Sprecher sah das Kontextobjekt) unter Zeitdruck deutlich häufiger auf das Kontextobjekt als ohne Zeitdruck. Dieser Befund spricht dafür, dass Hörerorientierung, zumindest dann, wenn sie eine Aktualisierung des sprecherseitigen Wissens oder der sprecherseitigen Perspektive erforderlich macht, nicht ohne kognitive Kosten erreicht werden kann. Ob dieser Aufwand jedoch zu Beginn des Sprachproduktionsprozesses oder – im Sinne einer Adjustierung – erst am Ende stattfindet (wie dies Horton und Keysar annehmen), lässt sich anhand des vorgelegten Datenmaterials nicht entscheiden. Es ist fraglich, ob im Hinblick auf den Zeitpunkt, zu dem das Partnermodell ins Spiel kommt, überhaupt ein universelles Prinzip angenommen werden sollte. Möglicherweise entscheiden situative Variablen, wie etwa die Bedeutsamkeit der Hörerorientierung für die Zielerreichung, darüber, ob, und wenn ja, an welcher Stelle des Sprachproduktionsprozesses an den Hörer adaptiert wird. Für die Annahme, dass Hörerorientierung kognitiv aufwendig ist, sprechen auch die Befunde von Roßnagel (1995). In einem Experiment sollten Versuchspersonen den Aufbau eines Maschinenmodells entweder einem Kind oder einem Erwachsenen gegenüber instruieren. Kindern gegenüber wurden weniger Fachbegriffe verwendet, und die Instruktionen waren ausführlicher. Diese Anpassung an den Hörer war jedoch nicht zu beobach-
ten, wenn die Sprecher während des Instruierens sechs Ziffern behalten mussten. Die Ergebnisse der Experimente von Horton und Keysar (1996) und Roßnagel (1995) sprechen dafür, dass die aktive Herstellung von Hörerorientierung die Beteiligung des Aufmerksamkeitssystems erforderlich macht (s. auch Buhl, 2001). Eine im Zusammenhang mit der Unterscheidung der Steuerungsarten interessante Frage ist, inwieweit die Produktion unterschiedlicher Textsorten (vgl. Biber, 1988; Wintermantel, im Druck) jeweils bestimmte Steuerungsarten nahelegt. Rummer (1996, 1997) verglich die Produktion von mündlichen Erzähl- und Berichtstexten. Die Versuchspersonen wurden instruiert, einen Film entweder einem Partner gegenüber in unterhaltender Absicht zu erzählen oder im Rahmen einer polizeilichen Zeugenaussage zu berichten. Rummer, Grabowski und Vorwerg (1995) konnten experimentell zeigen, dass die Planungsprozesse beim Erzählen flexibler sind als beim Berichten. Das SAS-Modell legt nun nahe, dass Flexibilitätsunterschiede mit einer unterschiedlichen Belastung des SAS einhergehen. In der Terminologie von Herrmann und Grabowski (1994) sollte das Erzählen der Ad-hoc-Steuerung und das Berichten der Schemasteuerung unterliegen. Um diese Annahme zu prüfen, führte Rummer (1996) ein Doppelaufgabenexperiment durch. Es zeigte sich, dass das Erzählen stärker durch eine Wahlreaktionsaufgabe beeinträchtigt wurde als das Berichten. Wie erwartet, unterliegt das Erzählen also eher dem Steuerungsmodus der Ad-hoc-Steuerung, während das Berichten eher schemagesteuert erfolgt.
6.
Abschließende Bemerkungen
Insgesamt kann festgehalten werden, dass das Aufmerksamkeitssystem vor allem durch die inhaltliche Planung von Äußerungen belastet wird. Der Grad der Belastung hängt dabei maßgeblich davon ab, inwieweit auf Vorwissen zurückgegriffen werden kann. Darüber hinaus hängt auch die (syntaktische) Komplexität von Äußerungen maßgeblich von der Aufmerksamkeitssteuerung ab. Die Befunde sprechen dafür, dass die syntaktische Planung aufmerksamkeitsunabhängig erfolgen kann (kein Einfluss von Sekundäraufgaben auf den Anteil syntaktischer Fehler). Eine plausible Erklärung für den Kom-
250
III. Sprachproduktion
plexitätseffekt ist, dass die Produktion besonders komplexer Strukturen das Arbeitsgedächtnis belastet und so mittelbar auch auf die Aufmerksamkeitssteuerung wirkt. Eine abschließende Klärung wird jedoch weitere empirische Untersuchungen erforderlich machen. Aufmerksamkeitsdefizite, seien sie nun von Dauer (wie bei neuropsychologischen Patienten oder älteren Versuchspersonen) oder experimentell induziert (wie im Falle von Doppelaufgabenexperimenten), können sich auf unterschiedliche Aspekte der Sprachproduktion auswirken. Eine Reduktion der syntaktischen Komplexität kann dazu führen, dass der semantische Gehalt der Äußerungen trotz verminderter kognitiver Kapazität nicht reduziert wird. In diesem Zusammenhang ist eine Untersuchung von Kemper, Rash, Kynette und Norman (1990) von Interesse, in der sie ältere Versuchspersonen instruierten, Geschichten zu erzählen. Interessanterweise stellten sie fest, dass die strukturelle Komplexität der Geschichten mit zunehmendem Alter der Versuchspersonen zunahm. Die Kohäsion (vermittelt durch anaphorische Referenzen, Konjunktionen, etc.) fiel jedoch mit dem Alter der Probanden ab. Der altersbedingte Rückgang der Verarbeitungskapazität muss sich also nicht zwangsläufig in einer inhaltlichen Verarmung der Sprachproduktion niederschlagen. Defizite können auch über die Gestaltung der Äußerungsoberfläche ausgeglichen werden. Dieses hohe Maß an Flexibilität und Adaptivität erschwert die Erforschung von Aufmerksamkeitsprozessen bei der Sprachproduktion ganz erheblich. Es ist dringend erforderlich, den Sprecherzielen und den Eigenschaften der experimentellen Aufgaben mehr Beachtung zu schenken, als dies bisher der Fall war. Im Zusammenhang mit dem Partnerbezug ist es beispielsweise naheliegend, die Bedeutung der Hörerorientierung für die Zielerreichung zu variieren.
7.
Literatur
of tasks. In C. Umilta & M. Moscovitch (Eds.), Attention and Performance XV, Conscious and nonconscious information processing (pp. 421⫺452). Cambridge, MA.: MIT Press. Baddeley, A. D. (1986). Working memory. Oxford: Clarendon Press. Biber, D. (1988). Variations across speech and writing. Cambridge: Cambridge University Press. Bock, K. (1996). Language production: Methods and methodology. Psychonomic Bulletin & Review, 3, 395⫺421. Buhl, H. M. (2001). Partner orientation and knowledge of the speaker as conflicting parameters in language production. Journal of Psycholinguistic Research, 30, 549⫺567. Clark, H. H. (1996). Using language. Cambridge, MA: University Press. Gernsbacher, M. A. (1994) (Ed.), Handbook of psycholinguistics. San Diego: Academic Press. Harley, T. A. (1995). The psychology of language: From data to theory. Erlbaum: Psychology Press. Herrmann, Th. & Grabowski, J. (1994). Sprechen ⫺ Psychologie der Sprachproduktion. Heidelberg: Spektrum Akademischer Verlag. Horton, W. S. & Keysar, B. (1996). When do speakers take into account common ground? Cognition, 59, 91⫺117. James, W. (1890). The principles of psychology. New York: Henry Holt. Jou, J. & Harris, R. J. (1992). The effect of divided attention on speech production. Bulletin of Psychonomic Society, 30, 301⫺304. Just, M. A. & Carpenter, P. A. (1992). A capacity of comprehension: Individual differences in working memory. Psychological Review, 99, 122⫺149. Kahneman, D. (1973). Attention and effort. Englewood Cliffs, NJ: Prentice-Hall. Kellogg, R. T. (1988). Attentional overload and writing performance: Effects of rough draft and outline strategies. Journal of Experimental Psychology: Learning, Memory, and Cognition, 14, 355⫺ 365. Kemper, S. (1987). Syntactic complexity and elderly adults’ prose recall. Experimental Aging Research, 13, 47⫺52.
Allport, A. (1993). Attention and control: Have we been asking the wrong questions? A critical review of twenty-five years. In D. E. Meyer & S. Kornblum (Eds.), Attention and Performance XIV, Synergies in experimental psychology: Artificial intelligence and cognitive neuroscience (pp. 182⫺218). Cambridge, MA.: MIT Press.
Kemper, S., Rash, S., Kynette, D. & Norman, S. (1990). Telling stories: The structure of adult’s narratives. European Journal of Cognitive Psychology, 2, 205⫺228.
Allport, A., Styles, E. A. & Hsieh, S. (1994). Shifting intentional set: Exploring the dynamic control
Kluwe, R. H. (1997). Intentionale Steuerung kognitiver Prozesse. Kognitionswissenschaft, 6, 53⫺69.
17. Aufmerksamkeitssteuerung
251
Kynette, D. & Kemper, S. (1986). Aging and the loss of grammatical forms: A cross-sectional study of language performance. Language & Communication, 6, 65⫺72.
Roßnagel, C. (2000). Cognitive load and perspective-taking: Applying the automatic-controlled distinction to verbal communication. European Journal of Social Psychology, 30, 429⫺445.
Levelt, W. J. M. (1983). Monitoring and self-repairs in speech. Cognition, 14, 41⫺104.
Rumelhart, D. E. (1980). Schemata: The building blocks of cognition. In B. Spiro, B. C. Bruce, & W. F. Brewer (Eds.), Theoretical issues in reading comprehension (pp. 33⫺58). Hillsdale, NJ: Lawrence Erlbaum.
Levelt, W. J. M. (1989). Speaking: From intention to articulation. Cambridge: MIT Press. Marx, E. (1984). Über die Wirkung von Zeitdruck auf Sprachproduktionsprozesse. Unveröffentlichte Dissertation. Münster: Universität. Meyer, D. E. & Kieras, D. E. (1997). A computational theory of executive cognitive processes and multiple-task performance: Part 1. Basic mechanisms. Psychological Review, 104, 3⫺65. Navon, D. (1984). Resources – A theoretical soup stone? Psychological Review, 91, 216⫺234. Neumann, O. (1992). Theorien der Aufmerksamkeit: Von Metaphern zu Mechanismen. Psychologische Rundschau, 43, 83⫺101. Norman, D. A. & Shallice, T. (1986). Attention to action: Willed and automatic control of behavior. In R. J. Davidson, G. E. Schwarts & D. Shapiro (Eds.), Consciousness and self-regulation. Advances in research and theory (Vol. 4) (pp. 1⫺18). New York: Plenum Press. Oberauer, K. & Hockl, I. (in Druck). Sprachproduktion und kognitive Ressourcen. In Th. Herrmann & J. Grabowski (Hrsg.), Sprachproduktion (Enzyklopädie der Psychologie; Bereich C, Serie III, Bd. 1). Göttingen: Hogrefe. Oviatt, S. (1997). Multimodal interactive maps: Designing for human performance. Human-Computer Interaction, 12, 93⫺129.
Rummer R. (1996). Kognitive Beanspruchung beim Sprechen. Weinheim: Psychologie Verlags Union. Rummer, R. (1997). Verarbeitungsbeschränkungen bei der Sprachproduktion: Ein experimenteller Ansatz zur Erforschung sprachlicher Makroplanungsprozesse. In R. Kluwe (Hrsg.), Kognitionswissenschaft: Strukturen und Prozesse intelligenter Systeme (pp. 41⫺63). Wiesbaden: Deutscher Universitätsverlag. Rummer, R., Grabowski, J. & Vorwerg, C. (1995). Kontrollprozesse beim Sprechen: Flexibilität und Determination der ereignisbezogenen Äußerungsplanung. Zeitschrift für Psychologie, 203, 25⫺51. Rummer, R., Mohr, G. & Zimmer, H. D. (1998). Leistungsbegrenzungen im verbalen Arbeitsgedächtnis: Argumente gegen energetische Ressourcenkonzepte. Kognitionswissenschaft, 7, 134⫺140. Shallice, T. (1992). Information processing models of consciousness: Possibilities and problems. In A. C. Marcel & E. Bisiach (Eds.), Consciousness and contemporary science (pp. 305⫺333). Oxford: Clarendon Press.
Parks, R. W., Zec, R. F. & Wilson, R. S. (Eds.) (1993). Neuropsychology of Alzheimer’s disease and other dementias. New York: Oxford University Press.
Sternberg, S., Monsell, S., Knoll, R. L. & Wright, C. E. (1978). The latency and duration of rapid movement sequences: Comparisons of speech and typewriting. In G. E. Stelmach (Ed.), Information processing in motor control and learning (pp. 76⫺ 94). New York: Academic Press.
Pechmann, Th. (2000). In Th. Herrmann & J. Grabowski (Hrsg.), Sprachproduktion (Enzyklopädie der Psychologie; Bereich C, Serie III, Bd. 1). Göttingen: Hogrefe.
Takano, Y. & Noda, A. (1993). A temporary decline of thinking ability during foreign language processing. Journal of Cross-Cultural Psychology, 24, 445⫺462.
Power, M. J. (1985). Sentence production and working memory. The Quarterly Journal of Experimental Psychology, 37A, 367⫺386.
Weizenbaum, J. (1966). ELIZA. Communications of the ACM, 9, 36⫺45.
Rogers, R. & Monsell, S. (1994). Costs of a predictable switch between simple cognitive tasks. Journal of Experimental Psychology: General, 124, 207⫺ 231.
Wintermantel, M. (im Druck). Die sprachliche Darstellung von Sachverhalten und Ereignissen. In Th. Herrmann & J. Grabowski (Hrsg.), Sprachproduktion (Enzyklopädie der Psychologie; Bereich C, Serie III, Bd. 1). Göttingen: Hogrefe.
Roßnagel, C. (1995). Kognitive Belastung und Hörerorientierung beim monologischen Instruieren. Zeitschrift für experimentelle Psychologie, 42, 94⫺ 110.
Ralf Rummer Universität Saarbrücken (Deutschland)
252
III. Sprachproduktion
18. Lexikalischer Zugriff und grammatische Kodierung 1. 2. 3. 4. 5. 6. 7.
Einleitung Modelle des lexikalischen Zugriffs Evidenz Grammatisches Genus und grammatisches Kodieren Numerus und Numeruskongruenz Schlussbemerkung Literatur
1.
Einleitung
Um eine kommunikative Intention in eine sprachliche Äußerung umzusetzen, muss ein Sprecher auf Gedächtnisrepräsentationen der entsprechenden Wörter zugreifen. Diese Gedächtnisrepräsentationen im mentalen Lexikon betreffen Informationen über die syntaktischen Eigenschaften der Wörter sowie Informationen über ihre morphologische und phonologische Form. Der vorliegende Beitrag gibt einen Überblick über aktuelle Theorien des Zugriffs auf diese Gedächtnisrepräsentationen. Im Mittelpunkt steht dabei der Zugriff auf syntaktische Eigenschaften und deren Verwendung bei der grammatischen Kodierung. Der Abruf phonologischer Informationen und deren Verwendung bei der Erstellung der phonologischen Form einer Äußerung wird nur insoweit angesprochen werden, als dies zum Verständnis der Grundarchitektur der entsprechenden Modelle nötig ist (für eine ausführliche Darstellung der Prozesse der phonologischen Kodierung siehe den Beitrag von A.S. Meyer in diesem Band). Desweiteren wird die Darstellung der Prozesse der grammatischen Kodierung auf solche Prozesse beschränkt bleiben, die Kongruenzrelationen zwischen Wörtern bzgl. lexikalisch repräsentierter syntaktischer Eigenschaften erstellen (zur Darstellung weiterer Aspekte der grammatischen Kodierung siehe u. a. die Beiträge von Eikmeyer & Schade sowie Schmitt). Der Beitrag ist wie folgt gegliedert. Zunächst werden aktuelle Modelle des lexikalischen Zugriffs in ihrer Grundarchitektur vorgestellt. Nachfolgend wird die entsprechende empirische Evidenz zu zentralen Annahmen dieser Modelle dargestellt. Obwohl die Analyse von Eigenschaften von Versprechern in diesem Zusammenhang eine wichtige Rolle spielt, werden wir dieses Gebiet nur beiläufig behandeln (für eine ausführliche Darstellung von Evidenzen von Versprechern siehe den
Beitrag von Schade und Laubenstein). Die beiden anschließenden Abschnitte geben einen Überblick über empirische psycholinguistische Arbeiten zur Verwendung lexikalisch repräsentierter syntaktischer Merkmale bei der grammatischen Kodierung. Diese Darstellung wird auf die zwei Gebiete beschränkt sein, zu denen inzwischen umfangreiche empirische Arbeiten vorliegen. Es handelt sich dabei um grammatisches Genus (siehe auch Schriefers & Jescheniak, 1999) und um Numeruskongruenz zwischen Subjekt und Verb (siehe auch Bock, 1995).
2.
Modelle des lexikalischen Zugriffs
Aktuelle Modelle des lexikalischen Zugriffs bei der Sprachproduktion gehen von der Annahme aus, dass die verschiedenen linguistischen Eigenschaften von Wörtern auf unterschiedlichen Ebenen repräsentiert sind. Der Input für den lexikalischen Zugriff wird auf einer sogenannten konzeptuellen Ebene spezifiziert. Hier wird eine vorsprachliche semantisch-konzeptuelle Repräsentation der kommunikativen Intention generiert. Bezüglich der repräsentationalen Einheiten auf dieser Ebene lassen sich zwei Sichtweisen unterscheiden. Im Modell von Levelt und Mitarbeitern (siehe z. B. Levelt, Roelofs & Meyer, 1999) sind die relevanten Einheiten sogenannte lexikalische Konzepte. Andere Modelle (Caramazza, 1997; Dell, 1986; Dell & O’Seaghdha, 1992) gehen dagegen davon aus, dass der Lexikalisierungsprozess nicht von einheitlichen Konzepten, sondern von Bündeln semantisch-konzeptueller Merkmale gesteuert wird. Jedes semantisch-konzeptuelle Merkmal ist mit allen Worteinträgen im mentalen Lexikon verbunden, zu deren Bedeutung es beiträgt. Für eine Diskussion einheitlicher Konzepte versus merkmalsorientierter konzeptueller Repräsentationen sei auf Bierwisch und Schreuder (1992) sowie Roelofs (1993, 1995) verwiesen. Im Modell lexikalischer Verarbeitung von Levelt und Mitarbeitern (z. B. Levelt et al., 1999) ist jedes lexikalische Konzept mit einer abstrakten lexikalischen Repräsentation, dem sogenannten Lemma, auf der syntaktischen Ebene verbunden. Innerhalb der syntaktischen Ebene verweist jedes Lemma auf Knoten, die die syntaktischen Eigenschaften des
253
18. Lexikalischer Zugriff und grammatische Kodierung
entsprechenden Lemmas repräsentieren. So ist das Lemma eines Nomens mit Knoten verbunden, die die entsprechende syntaktische Kategorie (Nomen) und sein grammatisches Genus kodieren. Zusätzlich zu solchen festen unveränderlichen syntaktischen Merkmalen haben die meisten Lemmas auch sogenannte diakritische Merkmale. Die letztendliche Ausprägung solcher Merkmale wird entweder aufgrund der konzeptuellen Repräsentation oder durch grammatische Kodierungsprozesse festgelegt. So hat etwa jedes Lemma eines zählbaren Nomens ein diakritisches Merkmal, welches den Numerus des Nomens festlegt. Die Ausprägung dieses Merkmals (Singular oder Plural) wird auf der Grundlage der konzeptuellen Repräsentation der kommunikativen Intention festgelegt. Lemmas für Verben besitzen diakritische Merkmale für Numerus, Person etc. Die Ausprägung eines diakritischen Merkmals wie Numerus wird im Falle eines Verbs durch die entsprechende Ausprägung des Numerusmerkmals des zugehörigen Satzsubjektes festgelegt. Im Gegensatz zu festen, unveränderlichen syntaktischen Merkmalen spezifizieren diakritische Merkmale also syntaktische Eigenschaften, deren Ausprägungen von Informationen auf der konzeptuellen Ebene oder von den syntaktischen Merkmalen anderer Elemente in der Äußerung abhängen. Schließlich ist jedes Lemma mit einer Repräsentation der entsprechenden phonologischen Form des Wortes auf einer phonologischen Repräsentationsebene verbunden (zu Details dieser Verarbeitungsebene siehe den Beitrag von A. S. Meyer). Lexikalische Verarbeitung geschieht in diesem Modell durch Aktivierungsausbreitung über Verbindungen zwischen den Knoten der verschiedenen Repräsentationsebenen und die Selektion von aktivierten Einheiten. Eine Hauptannahme betrifft die Richtung des Aktivierungsflusses. Im Modell von Levelt und Mitarbeitern ist der Aktivierungsfluss vom Lemma zu phonologischen Formen und vom Lemma zu den lexikalisch-syntaktischen Eigenschaften unidirektional. Weiterhin handelt es sich um ein strikt diskret-serielles Modell. Dies bedeutet u. a., dass die phonologische Form eines Zielwortes erst aktiviert wird, nachdem das entsprechende Lemma selektiert worden ist (siehe auch Levelt, Roelofs & Meyer, 1999). Dells (1986; Dell et al., 1997) Modell unterscheidet ebenfalls die bereits angesprochenen drei Ebenen (konzeptuelle, syntaktische /
Lemma, phonologische Ebene). Obwohl das Modell bzgl. der Repräsentation syntaktischer Merkmale nicht sehr explizit ist, scheint es auch davon auszugehen, dass syntaktische Merkmale auf der Lemma-Ebene, d. h. unabhängig von der phonologischen Form, repräsentiert sind. Im Gegensatz zu Levelts diskret-seriellem Modell beinhaltet Dells Modell die Annahme kaskadierender Aktivierungsausbreitung zwischen den Ebenen; Aktivierung kann bereits von der Lemma-Ebene an die phonologische Ebene weitergegeben werden, bevor das entsprechende Lemma selektiert worden ist. Weiterhin werden Rückkopplungsverbindungen postuliert, über die aktivierte phonologische Formen Aktivierung an alle mit ihnen verbundenen Lemmas zurückgeben. Dieser Rückkopplungsmechanismus wird von Dell angenommen, um Ergebnisse aus der Versprecherforschung zu erklären, wie etwa den lexikalischen Bias-Effekt, d. h. die Tendenz von Phonemvertauschungsfehlern, häufiger zu bestehenden Wörtern zu führen als auf Zufallsniveau zu erwarten wäre. Schließlich hat Caramazza (1997) ein Modell vorgeschlagen, welches keine zwischen konzeptuellen Repräsentationen und phonologischen Repräsentationen vermittelnde Lemma-Ebene annimmt (für eine Diskussion siehe Roelofs, Meyer & Levelt, 1998; Caramazza & Miozzo, 1998). Jedoch wird auch in diesem Modell davon ausgegangen, dass die syntaktischen und phonologischen Eigenschaften eines Wortes auf unterschiedlichen Ebenen des mentalen Lexikons repräsentiert sind.
3.
Evidenz
Die Evidenz für die von allen genannten Modellen geteilte Annahme, dass syntaktische und phonologische Informationen auf getrennten Ebenen repräsentiert sind, kommt aus unterschiedlichen Quellen. Dabei spielen Versprecher und sogenannte „Es-liegt-mirauf-der-Zunge“-Zustände (im Folgenden in Anlehnung an die englische Terminologie als TOT-Zustände, „tip-of-the-tongue-states“ bezeichnet) eine zentrale Rolle. Analysen von Versprechern zeigen, dass Wortvertauschungen in erster Linie durch syntaktische Ähnlichkeit der vertauschten Wörter bestimmt sind (etwa deren syntaktische Klasse), während Phonemvertauschungen von syntaktischen Eigenschaften weitgehend unbeein-
254 flusst sind, wohl aber durch phonologische Ähnlichkeitsbeziehungen beeinflusst werden (siehe z. B. Garrett, 1988). Weitere Evidenz für eine unabhängige Repräsentation von syntaktischen Eigenschaften und phonologischer Form stammt von experimentell induzierten TOT-Zuständen (siehe Brown, 1991, für eine Übersicht). In einem TOT-Zustand hat ein Sprecher das Gefühl, ein gesuchtes Wort zwar zu kennen, aber er ist momentan nicht in der Lage, es aus dem mentalen Lexikon abzurufen. In diesem Zustand können Sprecher häufig nur Bruchstücke der phonologischen Form des gesuchten Wortes angeben. Eine Reihe von Studien hat gezeigt, dass Sprecher in einem TOT-Zustand z. B. das Genus eines gesuchten Nomens überzufällig häufig korrekt angeben können. So zeigten Vigliocco et al. (1997), dass Sprecher des Italienischen, einer Sprache mit zwei Klassen von syntaktischem Genus, in 84 % aller TOT-Zustände das Genus des gesuchten Nomens korrekt spezifizieren konnten. Dies galt sowohl für Nomen, deren phonologische Form eine eindeutige Genusmarkierung enthielt (die Endung „-a“ oder „-o“), als auch für Nomen ohne morphophonologisch transparente Genusmarkierung (z. B. Nomen mit der Endung „-e“). Diese Befunde sind inzwischen für das Italienische (Miozzo & Caramazza, 1997a; Caramazza & Miozzo, 1997) und Spanische (Gonzalez & Miralles, 1997) repliziert worden. Entsprechende Befunde liegen inzwischen auch für die Verfügbarkeit anderer syntaktischer Merkmale in TOT-Zuständen vor, wie etwa zählbaren und nicht-zählbaren Nomen (siehe Vigliocco et al., 1999) oder dem im Perfekt eines Verbs zu verwendenden Auxiliar (sein vs. haben, siehe Miozzo & Cramazza, 1997b). Die Daten zu TOT-Zuständen zeigen also, dass lexikalisch-syntaktische Informationen einerseits und phonologische Information andererseits auf unabhängigen Ebenen repräsentiert sind. Es ist allerdings zu beachten, dass die Urteile von Probanden in TOT-Zuständen „Off-line“-Urteile in einer Situation fehlerhaften Funktionierens des lexikalischen Zugriffs darstellen. Es ist keineswegs gewährleistet, dass sie repräsentativ für das normale fehlerfreie Funktionieren des Sprachproduktionssystems sind. Darüber hinaus erlauben die TOT-Befunde keine Aussagen über den zeitlichen Ablauf des Zugriffs auf diese Repräsentationsebenen (siehe hierzu Abschn. 4.)
III. Sprachproduktion
Wie zuvor ausgeführt, unterscheiden sich die oben dargestellten Modelle darin, ob die phonologische Form eines Wortes bereits vor der Selektion des Ziellemmas aktiviert wird (kaskadierende und interaktive Modelle, z. B. Dell, 1986) oder ob die phonologische Form erst nach Selektion des Ziellemmas aktiviert wird (diskret serielle Modelle, z. B. Levelt et al., 1999). Damit machen die Modelle divergierende Vorhersagen bzgl. der Frage, ob beim lexikalischen Zugriff auch die phonologischen Formen semantischer Konkurrenten aktiviert werden. Nach Levelts diskret-seriellem Modell sollte die Aktivation semantischer Konkurrenten auf die Lemma-Ebene beschränkt sein, während Modelle mit kaskadierender Aktivierungsausbreitung vorhersagen, dass auch die phonologische Form semantischer Konkurrenten schwach aktiviert werden sollte. In einer einflussreichen Studie konnten Levelt et al. (1991) keine experimentelle Evidenz für eine Aktivierung der phonologischen Formen semantischer Konkurrenten finden. Allerdings haben u. a. Dell und O’Seaghdha (1992) darauf hingewiesen, dass in dieser Studie die semantische Konkurrenz zwischen Ziellemma und Konkurrenten zu schwach gewesen sein könnte und somit die phonologische Aktivierung dieser Konkurrenten mit herkömmlichen experimentellen Verfahren nicht messbar gewesen sein könnte. Peterson und Savoy (1999) sowie Jescheniak und Schriefers (1999) untersuchten deshalb diese Frage erneut für Fälle extremer semantischer Konkurrenz. Dabei handelte es sich um Fälle, in denen für ein Objekt zwei gleichermaßen adäquate Benennungen möglich waren (z. B. Sofa ⫺ Couch). Beide Studien kommen zu dem Ergebnis, dass in dieser Situation sowohl die phonologische Form des in der Bildbenennung geäußerten Wortes als auch die phonologische Form des semantischen Konkurrenten aktiviert wird. Obwohl diese Daten mit den Vorhersagen von Modellen mit kaskadierendem Aktivierungsfluss zwischen Lemma-Ebene und phonologischer Ebene übereinstimmen, könnte man argumentieren, dass die in diesen Studien untersuchten Synonyme einen Sonderfall lexikalischer Verarbeitung darstellen, da beide Benennungen im gegegebenen Kontext gleichermaßen adäquate Benennungen darstellen (siehe z. B. Levelt et al., 1999). Es bleibt somit abzuwarten, ob sich die Aktivierung der phonologischen Form eines semantischen Konkurrenten auch für andere semantische Ähnlichkeitsbeziehungen replizieren lässt.
18. Lexikalischer Zugriff und grammatische Kodierung
Zusammenfassend haben wir bisher gesehen, dass syntaktische und phonologische Eigenschaften auf unterschiedlichen Ebenen des mentalen Lexikons repräsentiert sind. Ob es sich bei dem Aktivierungssfluss zwischen Lemma-Ebene und phonologischer Ebene um diskret-serielle Prozesse oder um kaskadierende Aktivierungssausbreitung handelt, ist noch nicht eindeutig geklärt. Falls es sich um einen kaskadierenden Aktivierungsfluss handelt, muss noch bestimmt werden, ob es zusätzlich auch noch Rückkopplungsprozesse zwischen phonologischer Ebene und Lemma-Ebene gibt.
4.
Grammatisches Genus und grammatisches Kodieren
Wie bereits in Abschnitt 2 und 3 ausgeführt, ist grammatisches Genus ein festes inhärentes syntaktisches Merkmal lexikalischer Repräsentationen von Nomen, welches unabhängig von der phonologischen Form des Nomens repräsentiert ist. Im Folgenden werden wir einige zentrale Annahmen und Befunde zur Repräsentation und Verarbeitung von grammatischem Genus bei der Sprachproduktion darstellen. Dabei werden wir uns in erster Linie auf das Modell von Levelt und Mitarbeitern beziehen, da dieses Modell die am besten explizierten Annahmen über die Repräsentation und Verarbeitung syntaktischer Merkmale wie Genus enthält. Die wichtigsten Annahmen sind: (1) Syntaktische Merkmale, einschließlich Genus, sind auf einer von der phonologischen Ebene unabhängigen Ebene, der Lemma-Ebene, repräsentiert. (2) Syntaktische Merkmale stehen zeitlich vor der phonologischen Form zur Verfügung. (3) Für jede Genusklasse gibt es einen abstrakten syntaktischen Knoten auf der Lemma-Ebene, und alle Nomen der betreffenden Genusklasse sind mit diesem Genusknoten verbunden. (4) Ein Genusknoten verweist auf entsprechende lexikalische Repräsentationen genusmarkierter Elemente wie Artikel und Pronomina. (5) Der mit einem Nomen verbundene Genusknoten wird nur dann selektiert, wenn in der syntaktischen Umgebung des entsprechenden Nomens bzgl. des Genus kongruierende Elemente bestimmt werden müssen. Die Evidenz von TOT-Zuständen unterstützt Annahme (1), lässt jedoch keine Aussage über die zeitliche Reihenfolge des Zugriffs auf grammatisches Genus und phono-
255 logische Form zu. Aktuelle Untersuchungen mittels der Messung von ereigniskorrelierten Hirnrindenpotentialen (insbesondere lateralisierten Bereitschaftspotentialen; zu einer Übersicht siehe den Beitrag von Rösler in diesem Band) zeigen, dass Genusinformation vor phonologischer Information zur Verfügung steht und dies selbst dann, wenn eine umgekehrte zeitliche Reihenfolge des Zugriffs für die von den Probanden auszuführende experimentelle Aufgabe effizienter wäre (vanTurennout et al., 1998). Dieser Befund stützt Annahme (2). Bezüglich der Annahmen (3) bis (5) sind u. a. aktuelle Studien zur Produktion von Nominalphrasen interessant. Schriefers (1993) ließ Probanden einfache Linienzeichungen mittels Nominalphrasen (definiter Artikel ⫹ Adjektiv ⫹ Nomen, z. B. „das grüne Haus“) beschreiben. Zusätzlich zu den zu beschreibenden Bildern erhielten die Probanden visuell sogenannte Ablenkerwörter, die entweder dasselbe Genus wie das in der Bildbeschreibung zu verwendende Nomen besaßen (genuskongruente Bedingung) oder aber ein anderes Genus (genusinkongruente Bedingung). Die Bildbenennungslatenzen waren in der genusinkongruenten Bedingung länger als in der genuskongruenten Bedingung. Im Rahmen des Modells von Levelt und Mitarbeitern lässt sich dieser Genusinkongruenzeffekt wie folgt erklären. Das Ablenkerwort und das zu produzierende Zielwort aktivieren ihre entsprechenden Genusknoten. In der genusinkongruenten Bedingung aktivieren das Ablenkerwort und das in der Nominalphrase zu produzierende Nomen unterschiedliche Genusknoten. Durch die damit entstehende Konkurrenz zweier Genusknoten verzögert sich die Selektion des für die Produktion der Nominalphrase benötigten Genusknotens. In der genuskongruenten Bedingung aktivieren das Ablenkerwort und das zu produzierende Nomen dagegen denselben Genusknoten, wodurch es zu einer Beschleunigung der Selektion des entsprechenden Genusknotens kommt. Der Genusinkongruenzeffekt ist inzwischen mehrfach repliziert worden (für das Niederländische van Berkum, 1997; LaHeij et al., 1998; für das Deutsche Schriefers & Teruel, 2000; Schiller & Caramazza, 1999; für das Französische Schriefers & Teruel, 1999). Die skizzierte Interpretation des Genusinkongruenzeffektes steht in Übereinstimmung mit der Annahme, dass alle Nomen eines Genus mit einem entsprechenden abstrakten Genusknoten auf der Lemma-Ebene verbunden sind.
256 Allerdings könnte der Genusinkongruenzeffekt ebensogut als das Resultat der Konkurrenz zwischen verschiedenen durch den Genusknoten aktivierten lexikalischen Elementen, im vorliegenden Fall verschiedenen definiten Artikeln, erklärt werden. Eine wichtige Erweiterung dieser Befunde stellt die Arbeit von LaHeij et al. (1998) dar, die zeigt, dass der Genusinkongruenzeffekt zwar bei der Produktion von Nominalphrasen mit einem genusmarkierten bestimmten Artikel auftritt, nicht aber bei der Produktion von isolierten Nomen. Dies ist in Übereinstimmung mit Annahme (5), dass syntaktische Merkmale wie Genus nur dann selektiert werden, wenn sie für die Bestimmung anderer lexikalischer Elemente in der syntaktischen Umgebung des Nomens benötigt werden. Jedoch gilt auch in diesem Fall, dass die Ergebnisse keine Entscheidung darüber zulassen, ob es sich um Effekte der Konkurrenz bei der Selektion eines abstrakten Genusknotens handelt oder aber um Konkurrenz bei der Selektion eines entsprechenden genusmarkierten Elementes wie dem bestimmten Artikel. Bezüglich dieser Frage geben aktuelle Daten von Schiller und Caramazza (1999) weitere wichtige Hinweise. Diese Autoren konnten zunächst den Genusinterferenzeffekt für die Produktion von Nominalphrasen im Deutschen replizieren. Allerdings blieb der entsprechende Effekt bei der Produktion entsprechender Nominalphrasen im Plural aus. Da im Deutschen die definiten Artikel für die drei Genera im Singular unterschiedlich sind, im Plural allerdings übereinstimmen („die“), legen diese Ergebnisse die Annahme nahe, dass dem Genusinkongruenzeffekt eher Konkurrenz bei der Selektion spezifischer genusmarkierter Elemente (z. B. definiter Artikel) zugrunde liegt als Konkurrenz bei der Selektion abstrakter Genusknoten. Ein dieser Annahme entsprechendes Modell für das Deutsche ist von Berg (1992, siehe auch Berg & Schade, 1992; Schade & Berg, 1992) vorgeschlagen worden. Auch in diesem Modell ist jedes Genus durch einen Knoten repräsentiert. Jeder Genusknoten hat bidirektionale Verbindungen zu allen Nomen der entsprechenden Genusklasse. In der derzeitigen Fassung des Modells (Schade & Eikmeyer, 1998; Eikmeyer, Schade, Kupietz & Laubenstein, 1999) dienen diese Genusknoten jedoch lediglich der Weiterleitung von Aktivierung, um die Selektion der korrekten Adjektivformen bzw. Artikel zu gewährleisten. Im Gegensatz zum Modell von Levelt
III. Sprachproduktion
und Mitarbeitern findet keine Genusselektion auf der Ebene abstrakter Genusknoten statt. Die Selektion betrifft vielmehr spezifische genusmarkierte Elemente in der syntaktischen Umgebung des Nomens. Schließlich weisen aktuelle Arbeiten von Caramazza und Mitarbeitern darauf hin, dass sich Sprachen bezüglich der Verarbeitung von Genusinformation bei der Sprachproduktion unterscheiden. So konnten Miozzo und Carmazza (1999) den Genusinterferenzeffekt bei der Produktion von Nominalphrasen mit bestimmtem Artikel für das Italienische nicht replizieren. Diese Autoren weisen darauf hin, dass das Genus eines Nomens in Sprachen wie dem Deutschen und dem Niederländischen den entsprechenden Artikel vollständig bestimmt. Im Italienischen hängt die Selektion des zu verwendenden definiten Artikels hingegen zusätzlich von der Phonologie des auf den Artikel folgenden Wortes ab. Miozzo und Caramazza schlagen deshalb eine Unterscheidung zwischen „früh selektierenden Sprachen“ und „spät selektierenden Sprachen“ vor. In früh selektierenden Sprachen kann der bestimmte Artikel aufgrund der syntaktischen Genusinformation des Nomens bestimmt werden, während für spät selektierende Sprachen der bestimmte Artikel erst nach Zugriff auf die phonologische Form des nachfolgenden Wortes bestimmt werden kann. Außer bei der Bestimmung genusmarkierter Artikel spielt Genusinformation auch in weiteren Bereichen der grammatischen Kodierung eine Rolle, wie etwa bei der Produktion von Pronomina. Zentrale Fragen in diesem Zusammenhang sind: Muss bei der Produktion von Pronomina erneut auf das Lemma des entsprechenden Antezedenznomens und dessen Genusinformation zugegriffen werden, oder kann diese Information aus einer episodischen Gedächtnisspur des vorausgehenden Äußerungskontextes abgeleitet werden? Wenn auf das entsprechende Lemma erneut zugegriffen wird, wird dann auch die phonologische Form des entsprechenden Nomens erneut aktiviert? (Zu einer Darstellung der Befundlage zu diesen Fragen verweisen wir auf den Beitrag von B. Schmitt in diesem Band.) Bisher war die Diskussion auf grammatisches Genus beschränkt. Viele auf belebte Entitäten verweisende Nomina haben jedoch sowohl ein natürliches (oder konzeptuelles) als auch ein grammatisches Genus (z. B. „die Frau“). Wenn Genuskongruenz bei der
257
18. Lexikalischer Zugriff und grammatische Kodierung
Sprachproduktion ausschließlich auf einer syntaktischen Repräsentationsebene berechnet wird, so sollten die entsprechenden grammatischen Kodierungsprozesse von der Anwesenheit oder Abwesenheit zusätzlicher mit dem grammatischen Genus übereinstimmender konzeptueller Information bzgl. des natürlichen Genus unbeeinflusst sein. Diese Frage untersuchten Vigliocco und Franck (1999) für die Bestimmung der Genuskongruenz zwischen Nomen und Adjektiv im Französischen und Italienischen. Sie verwendeten dazu eine Methode zur experimentellen Induktion von Genuskongruenzfehlern. Die Probanden sahen zuerst ein Adjektiv in beiden Genusformen (etwa für das Italienische: rosso ⫺ rossa). Dann wurde ein Satzanfang dargeboten, der aus einem Subjektnomen und einer Präpositionalphrase bestand. Das Subjektnomen und das Nomen in der Präpositionalphrase (das sogenannte lokale Nomen) unterschieden sich im grammatischen Genus (etwa: lo sgabuzzino (masc) della casa (fem) ⫺ der Wandschrank des Hauses). Weiterhin hatte das Subjektnomen entweder nur grammatisches Genus oder aber zusätzlich natürliches Genus, welches mit dem grammatischen übereinstimmte (etwa il magico ⫺ der Zauberer; la magica ⫺ die Zauberin). Die Probanden sollten den Satzanfang so schnell wie möglich mittels der korrekten Adjektivform vervollständigen (etwa: lo sgabuzzino (masc) della casa e rosso (masc)). Bei der Wahl des Adjektivs wurden für Subjektnomen mit übereinstimmendem grammatischem und natürlichem Genus signifikant weniger Genusfehler beobachtet als für Nomen mit ausschließlich grammatischem Genus. Dieser Befund legt die Annahme nahe, dass die grammatischen Kodierungsprozesse bei der Erstellung von Genuskongruenz nicht nur das grammatische Genus berücksichtigen, sondern auch durch das auf der konzeptuellen Ebene spezifizierte natürliche Genus beeinflusst werden können. Es ist wichtig anzumerken, dass Viggliocco und Franck die Herstellung von Kongruenz zwischen Nomen und Adjektiven untersuchten, also zwischen zwei Elementen der sogenannten offenen Klasse. Ob sich vergleichbare Ergebnisse für die Kongruenz zwischen Nomen und Elementen der geschlossenen Klasse (also Pronomen und Artikel) finden werden, ist eine offene empirische Frage. Ein möglicherweise bedeutsamer Unterschied zwischen Adjektiven einerseits und Pronomen und Artikeln andererseits ist, dass der
Zugriff zu ihren Lemmas auf verschiedene Weise verläuft. Für ein Adjektiv wird, wie für ein Nomen, auf der Basis von konzeptueller Information ein eigenes Lemma selektiert und anschließend dem diakritischen Genusmerkmal des Adjektivs die dem Genus des Nomen entsprechende Ausprägung zugewiesen. Pronomen und Artikel werden dagegen vermutlich „indirekt“ selektiert (siehe z. B. Levelt et al., 1999): Erst werden das NomenLemma und das zugehörige Genus selektiert und erst nachfolgend das Pronomen oder der Artikel (Jescheniak, Schriefers & Hantsch, im Druck; Schmitt, Meyer & Levelt, 1999). Es ist vorstellbar, dass bei diesem indirekten Zugriff auf ein lexikalisches Element konzeptuelle Information weniger einflussreich ist als bei der Bestimmung der Ausprägung eines diakritischen Merkmals, die bei der Produktion von Adjektiven stattfindet.
5.
Numerus und Numeruskongruenz
Wie bereits in Abschnitt 2 und 3 ausgeführt, lassen sich feste inhärente syntaktische Merkmale von sogenannten diakritischen Merkmalen unterscheiden. So besitzt ein Nomen feste inhärente Merkmale wie Genus. Im Gegensatz dazu hängt die Spezifikation des Numerus eines Nomens von entsprechenden Spezifikationen auf der konzeptuellen Ebene ab. Entsprechend wird der Numerus eines Verbs durch den Numerus des entsprechenden Subjektnomens bestimmt. Die relevanten Einflüsse auf die Bestimmung der Ausprägung des diakritischen Numerusmerkmals von Verben ist inzwischen ausführlich untersucht worden. Ausgangspunkt dieser Studien waren gelegentlich auftretende Äußerungen mit inkorrekter Numeruskongruenz zwischen Subjekt und Verb, wie in folgendem Beispiel illustriert (aus Bock, 1995): The readiness of our conventional forces are at an all-time low. In diesem Beispiel stimmt das Verb bzgl. des Numerus mit dem Nomen in der Präpositionalphrase („forces“, im Folgenden als lokales Nomen bezeichnet) überein, aber nicht mit dem Subjektnomen („readiness“). Die Numerusparameter des Subjektnomens und des lokalen Nomens haben die Ausprägung Singular bzw. Plural. Bei korrekter Numeruskongruenz sollte das Numerusmerkmal des Verbs dieselbe Ausprägung erhalten wie das Subjektnomen. Im vorliegenden Beispiel scheint jedoch das Numerusmerkmal des Verbs
258 durch das Numerusmerkmal des lokalen Nomens („forces“) bestimmt worden zu sein. Bock und Miller (1991; siehe auch Bock, 1995, für eine Übersicht) haben eine experimentelle Technik entwickelt, die es erlaubt, solche Fehler der Numeruskongruenz experimentell zu induzieren. Dabei hören oder sehen Probanden kurze Satzanfänge, die aus einem Subjektnomen und einer Präpositinalphrase mit einem lokalen Nomen bestehen (etwa: „das Baby auf den Decken“). Die Probanden sollen diese Satzanfänge wiederholen und so schnell wie möglich zu einem Satz vervollständigen. Die Ergebnisse solcher Experimente zeigen, dass fehlerhafte Numeruskongruenz in einer Bedingung mit einem Subjektnomen im Singular und einem lokalen Nomen im Plural häufiger auftritt als in einer entsprechenden Kontrollbedingung, in der beide Nomen im Singular stehen. Wenn jedoch das Subjektnomen im Plural und das lokale Nomen im Singular steht, so ist die Anzahl der Kongruenzfehler nicht höher als in einer Kontrollbedingung mit beiden Nomen im Plural. Bock und Miller (1991) schlagen als Erklärung dieser Asymmetrie vor, dass Singular die unmarkierte Ausprägung des Numerusmerkmals darstellt. Ein lokales Nomen mit der markierten Ausprägung Plural kann also irrtümlich die Ausprägung des Numerusmerkmals des Verbs beeinflussen, während dies für ein lokales Nomen mit der unmarkierten Ausprägung Singular nicht gilt. Bock und Miller (1991) konnten weiterhin zeigen, dass das Muster von Numeruskongruenzfehlern unabhängig von der Belebtheit oder Unbelebtheit der Referenten des Subjektnomens und des lokalen Nomens ist. Da Belebtheit ein konzeptuelles Merkmal ist, welches eine starke Korrelation mit der syntaktischen Funktion Subjekt aufweist, legt dieser Befund die Annahme nahe, dass konzeptuelle Eigenschaften die Berechnung von Numeruskongruenz zwischen Subjekt und Verb nicht beeinflussen. Diese Annahme findet weitere Unterstützung aus dem Befund, dass konzeptueller Numerus keinen Einfluss auf das Auftreten von Numeruskongruenzfehlern hat. Konzeptueller Numerus wurde bei Bock und Miller (1991) durch zwei Typen von Satzanfängen realisiert. Im ersten Typ war das Subjektnomen in syntaktischer Hinsicht Singular, bezog sich aber konzeptuell auf mehrere Entitäten (z. B. „das Foto auf den Postkarten“, im Folgenden auch als „Mehrfach-Token“-Anfänge bezeichnet). Im zweiten Typ war das Subjektnomen in syn-
III. Sprachproduktion
taktischer Hinsicht Singular, und der entsprechende Satzanfang bezog sich auch nur auf eine einzelne Entität (etwa „das Baby auf den Decken“, im Folgenden auch als „EinfachToken“-Anfänge bezeichnet). Beide experimentellen Bedingungen führten zu vergleichbaren Fehlerraten. Schließlich zeigten Bock und Eberhard (1993), dass die Bestimmung von Numeruskongruenz zwischen Subjekt und Verb nicht durch morphophonologische Information beeinflusst ist. Dazu kontrastierten sie Satzanfänge mit einem Subjektnomen im Singular. Das lokale Nomen stand entweder im Singular (Kontrollbedingung) oder im Plural (Pluralbedingung), oder es handelte sich um ein lokales Nomen im Singular, welches jedoch auf „-s“ endete, also mit dem Phonem, das im Englischen auch die Funktion des Pluralsuffixes für Nomen ausübt (Pseudo-Pluralbedingung). Die Ergebnisse zeigten mehr Fehler der Numeruskongruenz in der Pluralbedingung als in der Kontrollbedingung und in der Pseudo-Pluralbedingung. Die letzteren beiden Bedingungen unterschieden sich dagegen nicht voneinander. Zusammenfassend sprechen die Befunde dieser Studien dafür, dass die Berechnung von Numeruskongruenz zwischen Subjekt und Verb auf einer rein syntaktischen Ebene erfolgt, die von konzeptuellen und morphophonologischen Faktoren unbeeinflussbar ist. Insbesondere der Befund, dass konzeptueller Numerus keine Rolle spielt, steht in deutlichem Kontrast zu den Befunden zur Genuskongruenz zwischen Nomen und Adjektiven (vgl. Abschn. 4), die zeigen, dass natürliches Genus die Berechnung von Genuskongruenz beeinflusst. Allerdings sind in nachfolgenden Arbeiten sehr wohl Einflüsse des konzeptuellen Numerus („Mehrfach-Token“- vs. „Einfach-Token“-Satzanfänge) nachgewiesen worden (siehe Vigliocco, Hartsuiker, Jarema & Kolk, 1996, für Evidenz aus dem Niederländischen und Französischen; Vigliocco, Butterworth & Garrett, 1996, für Evidenz aus dem Spanischen). Weiterhin sind auch Einflüsse morpho-phonologischer Information auf die Berechnung der Numeruskongruenz zwischen Subjekt und Verb aufgezeigt worden. So konnten Vigliocco, Butterworth und Semenza (1995) zeigen, dass die relative morpho-phonologische Transparenz der Numerusmarkierung des Subjektnomens einen systematischen Einfluss auf die Häufigkeit von Numerusfehlern des Verbs ausübt. Die meisten Nomen im Italienischen besitzen eine re-
18. Lexikalischer Zugriff und grammatische Kodierung
gelmäßige Pluralbildung, bei der Numerus sowohl durch den bestimmten Artikel als auch durch ein entsprechendes Flexionssuffix am Nomen markiert ist (z. B., la scoperta ⫺ die Entdeckung; le scoperte ⫺ die Entdeckungen; im Folgenden als regelmäßige Nomen bezeichnet). Für eine kleine Gruppe von Nomen wird der Numerus jedoch nur durch den bestimmten Artikel angezeigt (z. B., la citta` ⫺ die Stadt; le citta ⫺ die Städte, im Folgenden als invariante Nomen bezeichnet). Vigliocco et al. beobachteten für Satzanfänge mit invarianten Subjektnomen mehr Numerusfehler als für Satzanfänge mit regelmäßigen Nomen. Entsprechende Ergebnisse aus dem Niederländischen und Deutschen (Hartsuiker, Schriefers, Bock & Kikstra, eingereicht) geben zusätzliche Hinweise darauf, dass die morpho-phonologische Transparenz der Numerusmarkierung des Subjektnomens einen systematischen Einfluss auf die Berechnung der Numeruskongruenz zwischen Subjekt und Verb ausübt. Zusammenfassend legen diese Ergebnisse die Annahme nahe, dass die grammatischen Kodierungsprozesse auch durch semantischkonzeptuelle Variablen beeinflusst werden können. Dies gilt sowohl für Kongruenzbeziehungen zwischen zwei diakritischen Merkmalen (dem durch konzeptuelle Information gesetzten Numerusmerkmal eines Subjektnomens und der aufgrund dieses Merkmals zu spezifizierenden Ausprägung des Numerusmerkmals des Verbs) als auch für Kongruenzbeziehungen zwischen inhärenten lexikalisch syntaktischen Merkmalen (z. B. dem Genus eines Nomens) und einer aufgrund dieses Merkmals zu spezifizierenden Ausprägung des Genusmerkmals eines Adjektivs. Desweiteren legen die Ergebnisse zum Einfluss der Transparenz der morpho-phonologischen Markierung des Numerus eines Subjektnomens auf die Bestimmung des Numerus des entsprechenden Verbes die Annahme nahe, dass die grammatischen Kodierungsprozesse auch durch morpho-phonologische Informationen beeinflusst werden. Diese Befunde stellen eine wichtige Herausforderung für Modelle dar, die annehmen, dass grammatische Kodierungsprozesse ausschließlich auf der Grundlage abstrakter syntaktischer Merkmale operieren.
6.
Schlussbemerkung
Aktuelle Modelle des lexikalischen Kodierens gehen davon aus, dass syntaktische Eigenschaften von Wörtern und deren phonologi-
259 sche Form auf unterschiedlichen Ebenen des mentalen Lexikons repräsentiert sind. Diese Annahme wird u. a. durch die Ergebnisse von Studien zu TOT-Zuständen sowie durch die Analyse der Eigenschaften von Versprechern gestützt. Bezüglich der Verarbeitungsmechanismen lassen sich diskret-serielle von nichtdiskreten Modellen unterscheiden, wobei innerhalb der letzteren Klasse von Modellen einfache vorwärts-kaskadierende Modelle von interaktiven Modellen mit Rückkopplungsschleifen zu unterscheiden sind. Die vorhandene Evidenz aus Benennungsaufgaben mit Objekten, die zwei gleich adäquate Benennungen zulassen, sprechen dafür, dass die phonologischen Formen beider Benennungen aktiviert werden und somit für kaskadierende Modelle. Allerdings ist es noch eine offene Frage, ob diese Beobachtungen bei quasi-synonymen Ausdrücken einen Sonderfall darstellen oder sich auf andere semantische Relationen generalisieren lassen. Bezüglich der Verwendung lexikalisch repräsentierter syntaktischer Merkmale bei der grammatischen Kodierung sprechen die vorhandenen Daten dafür, dass die Prozesse der grammatischen Kodierung nicht ausschließlich mit abstrakten syntaktischen Merkmalen operieren, sondern auch durch semantischkonzeptuelle und morpho-phonologische Faktoren beeinflusst werden können. Abschließend sei noch darauf hingewiesen, dass die Frage nach semantisch-konzeptuellen Einflüssen auf grammatische Kodierungsprozesse nicht nur bei den im vorliegenden Beitrag betrachteten Kongruenzbeziehungen eine Rolle spielt. Vielmehr wird beim grammatischen Kodieren im Allgemeinen zwischen konzeptuell getriebenen und lexikalisch-syntaktisch getriebenen Prozessen unterschieden (siehe deSmedt, 1995). So besteht etwa zwischen der Subkategorisierung eines Verbs (z. B. transitiv oder intransitiv) und der durch das Verb bezeichneten Handlung ein deutlicher Zusammenhang. Insofern wäre zu vermuten, dass die syntaktische Struktur einer zu produzierenden Äußerung vollständig durch die entsprechende konzeptuelle Repräsentation bestimmt ist. Andererseits ist der Zusammenhang zwischen konzeptueller Repräsentation und syntaktischer Struktur bei weitem nicht perfekt, so dass die Bestimmung der syntaktischen Struktur einer Äußerung auch durch lexikalisch-syntaktisches Wissen getrieben sein muss. Die Herausforderung für die Zukunft besteht darin, die genauen Beiträge konzeptuell-semantischer und lexika-
260
III. Sprachproduktion
lisch-syntaktischer Repräsentationen und deren Wechselwirkungen beim Prozess des grammatischen Kodierens zu bestimmen.
guage production. In R. Klabunde & Ch. von Stutterheim (Eds.), Representations and processes in language production (pp. 205⫺236). Wiesbaden: Deutscher Universitätsverlag.
7.
Garrett, M. F. (1988). Processes in language production. In F. J. Nieumeyer (Ed.), Linguistics: The Cambridge survey. (Vol III.) Biological and psychological aspects of language (pp. 69⫺96). Boston: Harvard University Press.
Literatur
Berg, T. (1992). Prelexical and postlexical features in language production. Applied Psycholinguistics, 13, 199⫺235. Berg, T. & Schade, U. (1992). The role of inhibition in a spreading activation model of language production. I. The psycholinguistic perspective. Journal of Psycholinguistic Research, 21, 405⫺434. Bock, J. K. (1995). Producing agreement. Current Directions in Psychological Science, 4, 56⫺61. Bock, J. K. & Eberhard, K. M. (1993). Meaning, sound and syntax in English number agreement. Language and Cognitive Processes, 8, 57⫺99. Bock, J. K. & Miller, C. A. (1991). Broken agreement. Cognitive Psychology, 23, 45⫺93. Bierwisch, M. & Schreuder, R. (1992). From concepts to lexical items. Cognition, 42, 23⫺60. Brown, A. S. (1991). A review of the tip-of-thetongue experience. Psychological Bulletin, 109, 204⫺223. Caramazza, A. (1997). How many levels of processing are there in lexical access? Cognitive Neuropsychology, 14, 177⫺208. Caramazza, A. & Miozzo, M. (1997). The relation between syntactic and phonological knowledge in lexical access: evidence from the ‘tip-of-the-tongue’ phenomenon. Cognition, 64, 309⫺343. Caramazza, A. & Miozzo, M. (1998). More is not always better: A response to Roelofs, Meyer & Levelt. Cognition, 69, 231⫺241. Dell, G. S. (1986). A spreading-activation model of retrieval in sentence production. Psychological Review, 93, 283⫺321. Dell, G. S. & O’Seaghdha, P. G. (1992). Stages of lexical access in language production. Cognition, 42, 287⫺314. Dell, G. S., Schwartz, M. F., Martin, N., Saffran, E. & Gagnon, D. A. (1997). Lexical access in aphasic and nonaphasic speakers. Psychological Review, 104, 801⫺838. deSmedt, K. J. M. J. (1995). Computational models of incremental grammatical encoding. In T. Dijkstra & K. deSmedt (Eds.), Computational psycholinguistics. (pp. 279⫺307). London: Taylor and Francis. Eikmeyer, H.-J., Schade, U., Kupietz, M. & Laubenstein, U. (1999). A connectionist view of lan-
Gonzalez, J. & Miralles, J. L. (1997). La informacion sintatica esta disponible durante un estado de punto de la lengua (Syntactic information is available in a tip-of-the-tongue state). University Jaume I of Castellon (Spain). Hartsuiker, R., Schriefers, H., Bock, K. & Kikstra, G. (eingereicht). Morphophonological influences on the construction of subject verb agreement. Jescheniak, J. D. & Schriefers, H. (1998). Serial discrete versus cascaded processing in lexical access in speech production: Further evidence from the co-activation of near-synonyms. Journal of Experimental Psychology: Learning, Memory, and Cognition, 24, 1256⫺1274. Jescheniak, J. D., Schriefers, H. & Hantsch, A. (im Druck). Semantic and phonological activation in noun and pronoun production. Journal of Experimental Psychology: Learning, Memory, and Cognition. LaHeij, W., Mak, P., Sander, J. & Willeboordse, E. (1998). The gender congruency effect in pictureword tasks. Psychological Research, 61, 209⫺219. Levelt, W. J. M., Roelofs, A. & Meyer, A. S. (1999). A theory of lexical access in speech production. Behavioral and Brain Sciences, 22, 1⫺75. Levelt, W. J. M., Schriefers, H., Vorberg, D., Meyer, A. S., Pechmann, Th. & Havinga, J. (1991a). The time course of lexical access in speech production: A study of picture naming. Psychological Review, 98, 122⫺142. Miozzo, M. & Caramazza, A. (1997a). The retrieval of lexical-syntactic features in tip-of-thetongue states. Journal of Experimental Psychology: Learning, Memory and Cognition, 23, 1⫺14. Miozzo, M. & Caramazza, A. (1997b). On knowing the auxiliary of a verb that cannot be named: Evidence for the independence of grammatical and phonological aspects of lexical knowledge. Journal of Cognitive Neuropsychology, 9, 160⫺166. Miozzo, M. & Caramazza, A. (1999). The selection of determiners in noun phrase production. Journal of Experimental Psychology: Learning, Memory and Cognition, 25, 907⫺922. Peterson, R. R. & Savoy, P. (1998). Lexical selection and phonological encoding during language
18. Lexikalischer Zugriff und grammatische Kodierung production: Evidence for cascaded processing. Journal of Experimental Psychology: Language, Memory, and Cognition, 24, 539⫺557. Roelofs, A. (1993). Testing a non⫺decompositional theory of lemma retrieval in speaking: Retrieval of verbs. Cognition, 47, 59⫺87.
261 ciety (pp. 637⫺642). Mahwah, NJ: Lawrence Erlbaum. Schriefers, H. & Teruel, E. (2000). Grammatical gender in noun phrase production: The gender interference effect in German. Journal of Experimental Psychology: Learning, Memory, and Cognition, 26, 1368⫺1377.
Roelofs, A. (1995). Computational models of lemma retrieval. In T. Dijkstra & K. deSmedt (Eds.), Computational psycholinguistics (pp. 308⫺ 327). London: Taylor and Francis.
Van Berkum, J. J. A. (1997). Syntactic processes in speech production: The retrieval of grammatical gender. Cognition, 64, 115⫺152.
Roelofs, A., Meyer, A. S. & Levelt, W. J. M. (1998). A case for the lemma/lexeme distinction in models of speaking: Comment on Caramazza and Miozzo (1997). Cognition, 69, 219⫺230.
van Turennout, M., Hagoort, P. & Brown, C. M. (1998). Brain activity during speaking: From syntax to phonology in 40 milliseconds. Science, 280, 572⫺574.
Schade, U. & Berg, T. (1992). The role of inhibition in a spreading activation model of language production. II. The simulational perspective. Journal of Psycholinguistic Research, 21, 435⫺462.
Vigliocco, G., Butterworth, B. & Semenza, C. (1995). Constructing subject-verb agreement in speech: The role of semantic and morphological factors. Journal of Memory and Language, 34, 186⫺215.
Schade, U. & Eikmeyer, H.-J. (1998). Modeling the production of object specifications. In J. Grainger & A. Jacobs (Eds.), Localist connectionist approaches to human cognition (pp. 257⫺282). Mahwah, NJ: Lawrence Erlbaum Associates.
Vigliocco, G., Butterworth, B. & Garrett, M. F. (1996). Subject-verb agreement in Spanish and English: Differences in the role of conceptual constraints. Cognition, 61, 261⫺298.
Schiller, N. O. & Caramazza, A. (1999). Gender interference in language production: The case of German. Abstracts of the Psychonomic Society, Vol. 4, Nov. 1999, p. 45.
Vigliocco, G., Hartsuiker, R. J., Jarema, G. & Kolk, H. H. J. (1996). One or more labels on the bottles? Notional concord in Dutch and French. Language and Cognitive Processes, 11, 407⫺442.
Schmitt, B., Meyer, A. S. & Levelt, W. J. M. (1999). Lexical access in the production of pronouns. Cognition, 69, 313⫺335.
Vigliocco, G., Antonini, T. & Garrett, M. F. (1997). Grammatical gender is on the tip of Italian tongues. Psychological Science, 8, 314⫺317.
Schriefers, H. (1993). Syntactic processes in the production of noun phrases. Journal of Experimental Psychology: Learning, Memory, and Cognition, 19, 841⫺850.
Vigliocco, G. & Franck, J. (1999). When sex and syntax go hand in hand: Gender agreement in language production. Journal of Memory and Language, 40, 455⫺478.
Schriefers, H. & Jescheniak, J. D. (1999). Representation and processing of grammatical gender in language production: A review. Journal of Psycholinguistic Research, 28, 575- 600.
Vigliocco, G., Vinson, D. P., Martin, R. C. & Garrett, M. F. (1999). Is "count" and "mass" information available when the noun is not? An investigation of tip of the tongue states and anomia. Journal of Memory and Language, 40, 534⫺558.
Schriefers, H. & Teruel, E. (1999). The production of noun phrases in German and French: A crosslinguistic comparison of French and German. In M. Hahn & S. C. Stoness (Eds.), Proceedings of the 21st Annual Conference of the Cognitive Science So-
Herbert Schriefers, Universität Nijmegen (Niederlande) Jörg D. Jescheniak, MPI Leipzig (Deutschland)
262
III. Sprachproduktion
19. Gestik und Mimik beim Sprechen 1. 2. 3. 4.
Grundsätzliches Nonverbales Verhalten als Gegenstand wissensschaftlicher Analyse Einige Theorien zum Verhältnis zwischen gestischem Verhalten und Sprache Literatur
„The hands are the most frequent, regularly occurring, quantifiable and psychologically revealing bits of overt behavior available for objective study.“ (Freedman, 1977: 112)
1.
Grundsätzliches
Die Beziehung zwischen Sprache und nonverbalem Verhalten ist ein interessanter Bereich, der allerdings in der Literatur relativ selten thematisiert wird. Dies mag daran liegen, dass hier ein Zwischenbereich zwischen Psychologie, die sich im Rahmen der Emotionsforschung und besonders in der nonverbalen Kommunikationsforschung mit nonverbalem Verhalten beispielsweise zu diagnostischen Zwecken intensiv auseinandergesetzt hat, und der Linguistik bezeichnet wird, ohne dass die Untersuchung der Beziehungen zwischen beiden Bereichen eindeutig einem dieser Gebiete zuzuordnen ist. Insofern hat die psychologische Erforschung nonverbalen Verhaltens die Beziehung zur Sprache vernachlässigt, während die Linguistik die Sprache ins Zentrum der Aufmerksamkeit gestellt hat und damit weitgehend sprachbegleitendes, nonverbales Verhalten nicht immer ausreichend beachtet hat. Wenn hier von nonverbalem Verhalten gesprochen wird, so sollte betont werden, dass sich dieses Kapitel weitestgehend mit gestischen Handbewegungen beschäftigt, da uns hier die meiste relevante Literatur vorzuliegen scheint. Es ist wichtig, dies von vornherein zu betonen, da je nach Verständnis des Begriffes „nonverbales Verhalten“ auch andere Verhaltensbereiche, wie beispielsweise Körperbewegungen oder auch „mimische Gesten“, von denen teilweise in der Literatur gesprochen wird, einbezogen werden können. Es liegt beispielsweise eine Vielzahl von Befunden vor, die zeigen, dass Blickverhalten oder Änderungen der Körperhaltung eng mit sprachlichem Verhalten in Zusammenhang stehen, indem beispielsweise solche Verhaltensweisen Sprecherwechsel und generell die Regulation von Ge-
sprächen und Interaktionen mitbestimmen (vgl. beispielsweise Duncan & Fiske, 1977). Generell sind Überlegungen zur Beziehung zwischen Sprache und Gestik äußerst vielfältig. Sie reichen von der Annahme, dass gestisches Verhalten ein sozusagen Nebenprodukt des sprachlichen Ausdrucks darstellt und Sprache genauso gut ohne begleitende Gestik funktionieren könnte, bis hin zu der Annahme, dass Gestik und Sprache eigentlich Teilprozesse eines grundlegenden Prozesses sind und von daher kaum getrennt werden sollen oder können. Dass Gestik durchaus in der Lage ist, Sprache sogar zu ersetzen, zeigen nicht zuletzt Zeichensprachen und Gehörlosensprachen (vgl. beispielsweise zu Gehörlosensprache Brun, 1969; Bellugi & Klima, 1972; Stokoe, 1972, 1979, 1993). Zeichensprachen ethnischer Gruppen: beispielsweise Ikegami, 1971; bis hin zu „Wörterbüchern“ emblematischer, d. h. eine eindeutige Bedeutung tragender Gesten (Saitz & Cervenka, 1972; Ekman, 1976; Johnson, Ekman & Friesen, 1976). Als der sowjetische Psychologe Dobrogaev (1931) Versuchspersonen aufforderte, während des Sprechens Handgesten soweit möglich zu unterdrücken, zeigte sich, dass „niemand diese Unterdrückung vollständig ausführen konnte … die Sprache … verlor ihre Intonation, ihre Dynamik und Ausdrucksfülle. Sogar die Wortwahl, die für die Darstellung der Sprachinhalte nötig ist, wurde anstrengend; die Sprache klang abgehackt, und die Anzahl der verwendeten Worte war stark reduziert“. (Übersetzung H. G. W.; zitiert nach Kendon, 1977: 28). Dies alte, anekdotische Ergebnis zeigt recht dramatisch, welche Bedeutung nonverbales Verhalten, in diesem Fall gestisches Verhalten, für den Sprechausdruck hat bzw. wie Manipulationen dieses nonverbalen Verhaltens den Sprechausdruck beeinflussen. Eine Übersicht über den Gesamtbereich nonverbalen Verhaltens scheint nötig, um die Rolle gestischen Verhaltens nicht nur in Beziehung zu Sprechen und Sprache zu erläutern, sondern auch um gestischen Verhalten im Gesamtkontext nonverbalen und verbalen Verhaltens einordnen zu können. Eine Übersicht über ausgewählte Theorien und Überlegungen zur Beziehung zwischen Gestik und Sprache orientiert sich dann im Speziellen an ausgewählten psychologischen Theorien, die
263
19. Gestik und Mimik beim Sprechen
teilweise ihre Verankerung im klinischen Bereich, teilweise im Bereich der nonverbalen Kommunikationsforschung haben.
2.
sammengehörige Verhaltensaspekte (vokal vs. nonvokal, s. o.) oder durch das Empfängersensorium definierte Abgrenzungen – akustisch ⫽ Stimme, Sprechweise, visuell ⫽ Gestik, Mimik, etc., olfaktorisch ⫽ Geruch, etc. – herangezogen (Helfrich & Wallbott, 1980). Eine Übersicht über eine solche kanalorientierte Klassifikation nonverbalen Verhaltens in Abgrenzung vom Verbalverhalten gibt Abbildung 19.1. Von anderen Autoren wurden funktionale Klassifikationen gewählt, wobei die Funktion einer Verhaltensweise im gesamten Verhaltens- oder Interaktionskontext als Ordnungskriterium verwendet wird. Schon sehr früh hat Critchley (1939) bei Gesten eine Unterscheidung getroffen, die sich in grundsätzlicher Form in sehr vielen folgenden Ansätzen (s. u.) wiederfinden lässt. Er unterschied auf der einen Seite symbolische, konventionelle oder „empirische“ Gesten, deren Bedeutung kulturell vermittelt ist, und auf der anderen Seite „instinktive“ Gesten, die er als sprachund kulturunabhängig und damit universell ansieht. Eine besonders verbreitete funktionale Klassifikation wurde von Ekman und Friesen (1969) vorgeschlagen. Diese Autoren
Nonverbales Verhalten als Gegenstand wissenschaftlicher Analyse
Im Bereich des nonverbalen, d. h. nichtsprachlichen, Verhaltens wird meist unterschieden zwischen vokalem nonverbalen Verhalten, das alle Ausdruckserscheinungen erfasst, die mit der Stimme bzw. der Sprachproduktion einhergehen und sich dem Empfänger akustisch vermittelt, und nonvokalem nonverbalen Verhalten, das vom Stimmproduktionsapparat getrennte Aspekte der Motorik der übrigen Körpermuskulatur umfasst und sich dem Empfänger visuell vermittelt (Scherer & Wallbott, 1979). Zur weiteren Untergliederung wird häufig das Konzept des Verhaltenskanals herangezogen. Unter „Verhaltenskanal“ wird dabei entweder eine anatomisch abgrenzbare Körpereinheit – Hände ⫽ Gestik, Gesicht ⫽ Mimik, Augen ⫽ Blickverhalten etc. – von der Produktion her zu-
Nonverbales Verhalten
Vokal (= von den Stimmu. Sprechwerkzeugen hervorgebracht bzw. abhängig)
Zeitabhängige Aspekte z. B. Sprechdauer
Stimmabhängige Aspekte z. B. Stimmqualität
Nonvokal (= von den Stimmu. Sprechwerkzeugen unabhängig)
Kontinuitätsabhängige Aspekte z. B. Versprecher
Motorische Kanäle
Olfaktorisch Taktil gustatorisch
Mimik Gestik Blickkontakt
Körperbewegung und -haltung
Ökologische Kanäle
Physiochemische Kanäle
Territorial- Interpersonale verhalten Distanz
Thermal
Sitzverteilung, Möbelarrangement etc.
Persönliche Aufmachung, Kleidung, Haare, Make-up etc.
Abb. 19.1: Eine Gliederung nonverbalen Verhaltens nach Verhaltenskanälen (nach Helfrich & Wallbott, 1980)
264 unterscheiden Illustratoren, d. h. Verhaltensweisen, die in enger Beziehung zum Gesprochenen stehen, indem sie dies untermalen, verdeutlichen oder illustrieren (z. B. Gesten, Kopfbewegungen, betonendes AugenbrauenHochziehen); Adaptoren oder Manipulatoren, d. h. Verhaltensweisen, die der Erregungsabfuhr oder auch der Selbst-Stimulierung dienen können (z. B. sich Kratzen); Des Weiteren sog. Embleme, die Verhaltensweisen mit definierter Bedeutung sind und damit die Sprache nicht ergänzen wie Illustratoren, sondern sie ersetzen können (z. B. das Anhalterzeichen, an den Kopf tippen, Kopfnicken oder -schütteln, bestimmte Gesichtsausdrücke und schließlich auch vokale Embleme wie „huch“; (Scherer, 1977); Weiter Regulatoren, die die Interaktion und das Ineinandergreifen von Sprechbeiträgen und den Sprecherwechsel regeln und steuern helfen (u. a. Blickkontaktverhalten, Gesten, Heben der Stimme) und schließlich Affekt-Darstellungen (affect displays), die Affekte, Emotionen und Stimmungen nonverbal ausdrücken (besonders der emotionale Gesichtsausdruck, Stimme, aber auch Körperhaltungen). Ekman und Friesen (1969, 1972) gehen bei dieser Klassifikation aus vom Ursprung nonverbaler Verhaltensweisen (d. h. ist sie angeboren, ist sie als arteigene Erfahrung oder als individuell unterschiedliche Erfahrung gelernt), von der Kodierung (intrinsisch, ikonisch oder arbiträr) und von deren Verwendung im Interaktionsgeschehen. Bei der Verwendung wird weiter nach der Funktion der nonverbalen Verhaltensweisen in Bezug zur gesprochenen Sprache (d. h. unabhängig von der Sprache, sprachergänzend, sprachersetzend), nach der Intention und Bewusstheit der Ausführung dieser Verhaltensweisen („unbewusst“, „bewusst“, „intendiert“) und nach der Art der durch die Verhaltensweisen übermittelten Information (informativ, interaktiv, kommunikativ) unterschieden. Weiterhin lassen sich nach Ekman und Friesen nonverbale Verhaltensweisen danach differenzieren, unter welchen äußeren Umständen sie bevorzugt auftreten und danach, ob der Gesprächspartner in Rückmeldungen auf sie eingeht. Diese funktionale Klassifikation stellt besonders die Beziehung nonverbalen Verhaltens zu anderen Systemen, unter anderem der Sprache, heraus. Illustratoren unterstützen die Sprache, Embleme können sie ersetzen, Regulatoren steuern und gliedern das Interaktionsgeschehen wie Sprecherwechsel, Manipulatoren und Affekt-Darstellungen
III. Sprachproduktion
schließlich stehen in enger Beziehung zu Emotionen, Stimmungen und allgemeiner Erregung. Aus Ekmans und Friesens eigener Definition dieser fünf Kategorien geht nochmals die enge Beziehung dieser funktionalen Gliederung nonverbalen Verhaltens in Bezug auf die Sprache bzw. das Sprechen hervor. Nach Ekman und Friesen (1969) definieren sich Illustratoren in direkter Beziehung zur Sprache, wobei dieser direkte Zusammenhang hergestellt wird durch die Illustration des Sprachinhaltes oder aber rhythmische Zusammenhänge des nonverbalen Verhaltens mit dem Sprechablauf. Manipulatoren werden zwar weitestgehend als sprachunabhängig verstanden, können aber nach Ekman und Friesen durch verbal angesprochene Sprachinhalte ausgelöst werden. Embleme wiederum stellen eine direkte sprachliche Umsetzung von Sprachinhalten dar, indem Wörter oder Phrasen eindeutig durch Gesten ersetzt werden. Regulatoren sind gemäß ihrer Definition zwar unabhängig von spezifischen Sprachinhalten, sind aber insofern eng mit dem Sprechen verknüpft, als sie der Regulierung des Konversationsflusses dienen. Affektdarstellungen schließlich (also Emotionsausdrücke im engeren Sinne) können weitgehend sprachunabhängig sein, können aber auf indirekte Weise mit der Sprache in Zusammenhang stehen, beispielsweise bei affektiven Verbalisationen, wo solche Affektdarstellungen (beispielsweise der mimische Gesichtsausdruck) den affektiven Inhalt des Gesprochenen wiederholen, ergänzen oder aber auch in Widerspruch zum verbalen Inhalt stehen können. Kombiniert man eine Kanalklassifikation nonverbalen Verhaltens mit der funktionalen Klassifikation von Ekman und Friesen, so kann man in diese Matrix nonverbales, nonvokales (allerdings auch vokales) Verhalten gemäß dessen Funktion und gemäß dessen Lokation einordnen. In Tabelle 1 ist eine solche Kombination versucht worden. Diese Übersicht orientiert sich an Arbeiten der Gruppe um Ekman, aber auch an eigenen Überlegungen. Die Notation innerhalb der Matrix zeigt, wo entweder Zusammenhänge vermutet werden oder durch Forschungsergebnisse belegt sind oder aber wo nicht von Zusammenhängen zwischen einer Funktion einer Verhaltensweise und dementsprechenden Verhaltenskanal ausgegangen werden kann bzw. wo entsprechende Belege oder Forschungsergebnisse bisher fehlen.
265
19. Gestik und Mimik beim Sprechen
Verhaltens-„Kanäle“
Tabelle 19.1: Funktionen nonverbalen Verhaltens Illustratoren
Adaptoren/ Manipulatoren
Embleme
Regulatoren
AffektDarstellungen
Augen/ Gesicht
Betonendes Augenbrauenheben
Auf-die-LippenBeißen
Zuzwinkern, Grimassieren
Blickabwendung/ Blickzuwendung
Emotionaler Gesichtsausdruck
Hände/ Arme
Sprachillustrierende Handgesten
„nervöse“ Handbewegungen, Sich-Kratzen
Anhalter-Geste, Gesten zur An-den-Kopf- Abwehr von Tippen Unterbrechungen
Kopf/ Körper
Sprachillustrierende Kopfbewegungen
Kopf an der Schulter reiben
Fragendes Änderungen ??? Schulter-Hoch- der Körperhaltung/ ziehen, KopfKörperorientierung schütteln
Füße/ Beine
???
Füße aneinander reiben
???
So lassen sich im Bereich gestischen Verhaltens Illustratoren als sprachbegleitende Handbewegungen („Gesten“ im engeren Sinne), Adaptoren, die von der Sprache unabhängig sind, wie sich kratzen, die Hände reiben etc., Embleme, die anderen Personen eine klar umschriebene und eindeutige dekodierbare Information übermitteln wie „eine Faust ballen“, das erwähnte „Anhalterzeichen“ etc. identifizieren. Auch Regulatoren können gestisches Verhalten sein, indem einem Sprechpartner mittels Handbewegungen angezeigt wird, dass man noch nicht bereit ist, die Sprecherrolle aufzugeben bzw. dass an dieser Stelle noch nicht unterbrochen werden soll (vgl. Duncans Untersuchungen zum Sprecherwechsel, Duncan & Fiske, 1977). Auch im mimischen Verhalten, im Gesichtsaudrucksverhalten, können die verschiedenen Funktionen Ekmans und Friesens nachgewiesen werden. Im mimischen Verhalten sind besonders Affekt-Darstellungen von sehr großer Bedeutung. Mittels Affekt-Darstellungen drückt man Emotionen und Gefühle für andere sichtbar aus. Ein mimischer Illustrator ist z. B. das betonende Augenbrauen-Hochziehen. Mimische Adaptoren wären z. B. ein „auf die Lippe beißen“, mimische Embleme z. B. „die Zunge herausstrecken“. Die vorausgegangene Diskussion zeigt, dass viele nonverbale Verhaltensweisen z. B. als Illustratoren oder Regulatoren eine bedeutende Funktion im Sprechausdruck haben, allerdings auch, dass andere nonverbale Verhaltensweisen Adaptoren/Manipulatoren oder Affekt-Darstellungen vor allem weitgehend unabhängig vom sprachlichen Verhal-
???
???
???
ten sind. Im Folgenden sollen besonders solche Untersuchungen in den Mittelpunkt gestellt werden, in denen auf die Beziehungen zwischen Sprache und nonverbalem Verhalten eingegangen wird. Da die engsten Verbindungen zwischen Sprache und nonverbalem Verhalten im Bereich gestischen Verhaltens zu bestehen scheinen, wird der Schwerpunkt dieser Diskussion auf gestischem Verhalten liegen. Betrachtet man funktionale Klassifikationssysteme gestischen Verhaltens, auf denen die meisten Arbeiten zur Untersuchung der Beziehung zwischen Gestik und Sprache aufbauen, fällt die Ähnlichkeit der meisten Systeme auf. Im Anschluss an Arbeiten von Krout (z. B. 1931, 1935, 1937) und Efron (1941) wird meist eine grundsätzliche Unterscheidung zwischen Handbewegungen, die eng mit der gesprochenen Sprache zusammenhängen, diese illustrieren, unterstützen oder verdeutlichen und die damit nur während des Sprechens auftreten, und zwischen Handbewegungen, die auf den eigenen Körper hin „zentripetal“ gerichtet sind, die keinen offensichtlichen Bezug zur Sprache haben und die daher sowohl während des Sprechens als auch während des Zuhörens oder wenn eine Person allein ist, auftreten, getroffen. Die ersteren meist „zentrifugalen“, weg vom eigenen Körper in den Raum gerichteten Handbewegungen (d. h. Gesten im klassischen Sinne der Rhetorik, vgl. Efron, 1941) werden von Ekman und Friesen (1969, 1972) Illustratoren, von Freedman und Mitarbeitern (z. B. 1967, 1973) objektgerichtete Bewegungen, von Mahl (1968) kommunika-
266
III. Sprachproduktion
Tabelle 19.2: Funktionale Klassifikation gestischen Verhaltens Krout (1936)
Rosenfeld (1966) Mahl (1968)
konventionelle Gestikulationen Gesten
autistische Gesten
Selbstmanipulation
kommunikative Gesten
autistische Bewegungen
tive Gesten oder von Rosenfeld (1966) Gestikulationen genannt. Die zweite Gruppe von Handbewegungen wird von Ekman und Friesen als Adaptoren oder als Manipulatoren (Friesen, Ekman & Wallbott, 1979), von Freedman und Mitarbeitern als körpergerichtete Bewegungen, von Mahl als autistische Aktionen und von Rosenfeld als Selbstmanipulationen bezeichnet. Tabelle 2 gibt einen schematischen Überblick über diese verschiedenen Klassifikationen gestischen Verhaltens, die funktional zwei grundsätzliche Gruppen von Gesten unterscheiden. Das System zur Klassifikation gestischen Verhaltens von Freedman und Mitarbeitern (vgl. beispielsweise Freedman & Hoffman, 1967; Freedman, Blass, Rifkin & Quitkin, 1973; Freedman, O’Hanlon, Oltman & Witkin, 1972) geht noch expliziter als Ekmans theoretische Überlegungen von der Beziehung zwischen Gestik und Sprache aus. Dabei wird von zwei Prämissen ausgegangen: Erstens, Handbewegungen lassen sich auf einer Dimension der Abhängigkeit bzw. Unabhängigkeit von der gesprochenen Sprache anordnen. Und zweitens, Handbewegungen lassen sich auf einer zweiten Dimension der zunehmenden bzw.
Freedman et al. (1967)
Ekman & Friesen (1972)
Ï Bewegungen Ô mit SprachÔ Ô dominanz ObjektÔ gerichtete Ì Bewegungen ÔÔ Bewegungen Ô mit motoriÔ scher Domi- IllustraÔ nanz toren Ó
Ï Batons Ô Ô Ideographs Ô Ô deiktische Ô Bewegungen Ô Ô spatiale Ô Ô Bewegungen Ì Ô rhythmische Ô Bewegungen Ô Ô Kinetographs Ô Ô Piktographs Ô Ô emblemaÔ Ô tische BeweÔ gungen Ó ---------------------------------Embleme
Ï kontinuierliÏ SelbstÔ Ô Ô che BeweÔ adaptoren Ô gungen körperÔ Ô AdaptoÔ Objektgerichtete Ì Ì adaptorenren Ô Bewegungen ÔÔ diskrete Ô Ô KörperbeÔ FremdÔ rührungen Ô adaptoren Ó Ó
abnehmenden Strukturiertheit, Integriertheit oder Undifferenziertheit und Amorphität des Bewegungsaufbaus anordnen. Nach einer ersten Unterscheidung zwischen objektgerichteten (Illustratoren) und körpergerichteten Handbewegungen (Adaptoren bzw. Manipulatoren) werden daher auf einer zweiten Stufe objektgerichtete Handbewegungen in Kategorien der zunehmenden Integration bzw. Desintegration zwischen Sprache und Gestik bzw. zunehmende Autonomie des gestischen Verhaltens von der Sprache unterschieden als „speech primacy-“ bzw. „motor primacy-“ Bewegungen. Auf einer dritten Stufe schließlich werden diese Unterscheidungen noch weiter differenziert. Auch die körpergerichteten Bewegungen werden auf ähnliche Weise differenziert (vgl. Tabelle 3). In Tabelle 3 werden diese verschiedenen, sehr differenzierten Kategorien der Gruppe um Freedman, die dann auch in Untersuchungen zur Beziehung zwischen Gestik und Sprache eingesetzt wurden, anhand von Zitaten aus den Arbeiten von Freedman im Überblick dargestellt, um den jeweiligen Bezug dieser einzelnen Bewegungskategorien zur
267
19. Gestik und Mimik beim Sprechen
Tabelle 19.3: Funktionale Klassifikation gestischen Verhaltens nach Freedman, Blass, Rifkin und Quitkin (1973; zit. nach der deutschen Übersetzung in Scherer & Wallbott (1979) pp. 129⫺131) Kategorie
Definition (Zitate aus Freedman et al.)
Object focussed
(objekt-gerichtet)
... Handbewegungen ..., die einen starken Bezug zu Rhythmus und/oder Inhalt der Sprache aufweisen ... die Bedeutung der Handbewegungen für die verbale Aussage kann von untergeordneter bis zu tragender Funktion reichen.
Speech primacy
(Bewegungen mit sprachlicher Dominanz)
diese Handbewegungen folgen den formalen und rhythmischen Aspekten der Sprache ... dienen in erster Linie dem gesprochenen Wort.
Punctuating
(betonend)
Als Beispiel kann die betonende Bewegung ... ausgeführt werden. Die Hand beschreibt einen geraden Weg, an dessen Ende sie punktförmig das Gesagte unterstreicht.
Minor qualifying
(kleiner Qualifizierer)
... Gesten, die das Gesagte qualifizieren, ohne es dabei zu vertreten oder inhaltliche Eigenschaften zu besitzen. Es handelt sich um kleine Bewegungen, wie z. B. eine Drehung des Handgelenks.
Motor primacy
(Bewegungen mit motorischer Dominanz)
... können ebenfalls eng mit den rhythmischen Aspekten der Sprache zusammenhängen; charakteristisch ist aber, dass ein Teil des Inhalts der Botschaft motorisch ausgedrückt wird. Ein teilweise artikuliertes Bild, Gefühl oder Konzept wird durch Bewegungen verständlicher gemacht. Ob eine Bewegung mit sprachlicher oder motorischer Dominanz vorliegt, lässt sich damit immer nur in Bezug auf das Gesprochene entscheiden.
Representational
(sprach-ergänzend)
... bringen einen klar definierten Raum-Zeit-Bezug, einen Gefühlszustand oder einen abstrakten Gedanken motorisch zum Ausdruck ... vermitteln mehr Informationen als das gesprochene Wort allein ...
Nonrepresentational
(sprach-ersetzend)
... haben keinen verbalen Bezug. Zwei Fälle ... sind „Zeigen“ und „Sprachversagen“ ... Zeigen wird nicht als sprachergänzende Geste benutzt, sondern es wird motorisch ... verwiesen. Beim Sprachversagen verdeutlichen die Verlegenheitsgesten des Sprechers seine Bemühungen, das richtige Wort zu finden oder Unstimmigkeiten zwischen Worten und Gesten zu eliminieren.
Body-focussed
(körper-gerichtet)
... die Hände in irgendeiner Form den Körper oder die Kleidung manipulieren oder stimulieren ... keinen Bezug zum Rhythmus oder Inhalt der Sprache, haben bis auf eine Ausnahme kontinuierlichen Charakter.
Continuous hand-to-hand
(kontinuierlichhandbezogen)
... alle Handbewegungen, bei denen die Hände aneinander gerieben werden oder bei denen die Finger beider Hände oder einer Hand sich gegenseitig stimulieren ... repetitiv und stereotyp ... kann man nicht ... zwischen handelnder Hand und manipuliertem Körperteil unterscheiden.
Continuous body-touching
(kontinuierliche Körperberührung)
... bestimmte Teile des Körpers oder der Bekleidung mit der Hand berührt werden ... repetitive und kontinuierliche Bewegungen ... kann eine funktionale Trennung zwischen der Hand als handelnden Agenten und dem Körper als Objekt durchgeführt werden.
268
III. Sprachproduktion
Tabelle 19.3: (Fortsetzung) Kategorie
Definition (Zitate aus Freedman et al.)
Direct
(direkte Hautreizung)
Selbstreizung ... der Körperoberfläche ...
Indirect
(indirekte Körperberührung/ Objektreizung)
... körperorientierte Bewegungen auf Objekte wie Kugelschreiber, Ring oder Halskette gerichtet ... symbolische Formen der Selbstreizung ..., bei der die Körperoberfläche durch andere Objekte ersetzt wird.
Discrete body touching
(diskrete Körperberührung)
... diskreten Charakter ..., z. B. Rockzupfen, Augenberühren, Kinnreiben. Diese Bewegungen sind zielgerichtet und dauern meist nicht länger als drei Sekunden ... ähneln den kontinuierlichen Körperberührungen insofern, als ein bestimmter Körperteil für die Selbstreizung gewählt wird; sie sind aber durch ihre zeitliche und örtliche Begrenztheit klarer voneinander abgegrenzt.
Sprache im Sinne der theoretischen Überlegungen deutlich zu machen. Erwähnt werden sollte, dass sich neben solchen funktionalen Klassifikationen nonverbalen Verhaltens als zweiter Zugang eine eher anatomisch bzw. physikalisch orientierte Beschreibung nonvokalen (und auch vokalen) Verhaltens etabliert hat. Im Bereich der Gestik werden dabei frühe Versuche zur Koordinatenmessung von Handbewegungen in ihrem raum-zeitlichen Ablauf von Wallbott (1982) berichtet. Neuere Ansätze in ähnlicher Richtung finden sich beispielsweise bei Frey (1987) oder bei Bente et al. (im Druck). Im Bereich der Untersuchung des Gesichtsausdrucks hat besonders das „Facial Action Coding System“ (FACS) von Ekman und Friesen als anatomisch orientiertes und damit objektiv definiertes Beobachtungsverfahren erhebliche Bedeutung (zu einer aktuellen Übersicht über Forschungsergebnisse mit diesem System vgl. Ekman & Rosenberg, 1997). Daher soll es im Folgenden kurz dargestellt werden. Die grundlegende Idee dieses Systems ist es, im Gegensatz zu anderen Verfahren mimisches Ausdrucksverhalten durch Beobachter möglichst exhaustiv zu beschreiben und zum anderen Interpretationen auf Seiten der Beobachter möglichst zu vermeiden. Dies bedeutet, dass nicht von vornherein eine Interpretation im Sinne bestimmter Emotionen oder anderer Konstrukte vorgenommen werden sollte. Es sollte ein Beobachtungsverfahren entwickelt werden, das durch Beobachter visuell unterscheidbare Verhaltensänderungen im mimischen Ausdruck widerspiegeln
konnte. Ausgangspunkt ist die Überlegung, dass jegliches mimisches Ausdrucksverhalten auf der Aktivität der jeweils beteiligten mimischen Muskeln im Gesicht zurückzuführen ist. Zur Entwicklung ihres Kategoriensystems sind die Autoren daher – kurz gefasst – wie folgt vorgegangen: Nach dem Studium der anatomischen und muskulären Grundlagen der Gesichtsaktivitäten, wobei eine Arbeit eines weitgehend unbekannten Anatomen (Hjörstö, 1970) sehr hilfreich war, wurde versucht, die einzelnen Muskeln, die in der anatomischen Literatur beschrieben sind, unabhängig von jeweils anderen zu innervieren. Da dies bei einzelnen Muskeln nicht ohne weiteres möglich ist, wurden auch Hilfsmittel wie Nadelelektroden zu Hilfe genommen. Diese Einzelinnervationen einzelner Muskeln bei Personen wurden fotografiert, um dann zu untersuchen, ob das visuelle Abbild der Muskelinnervationen tatsächlich von Beobachtern voneinander unterscheidbar ist. Muskelinnervationen, die nicht visuell voneinander unterscheidbar waren, wurden dann zu sogenannten „Aktionseinheiten“ (action units) zusammengefasst. Dieses System resultiert damit schließlich in 44 Beobachtungskategorien, mit denen angestrebt wird, in der Tat alle möglichen sichtbar unterscheidbaren mimischen Ausdrücke klassifizieren zu können. Die sogenannten „Aktionseinheiten“ sind dabei nummerisch willkürlich bezeichnet. Wichtig ist es noch einmal zu betonen, dass bei diesem Beobachtungsverfahren auf eine Zuordnung in Gestalt z. B. zu bestimmten Emotionsausdrucken völlig verzichtet
19. Gestik und Mimik beim Sprechen
wird. Ziel der Forschung sollte es also sein, mimisches Verhalten so objektiv wie möglich zu kodieren, um dann im Sinne geplanter Versuchsdesigns und entsprechender Untersuchungen zu Aussagen über mimische Ausdrucksmuster zu kommen. Nachteile eines solchen Verfahrens mögen darin gesehen werden können, dass es einer sehr langen und intensiven Beobachterschulung bedarf, dass die Beobachtungsarbeit selber sehr zeitintensiv ist und zu großen Teilen nicht ohne die Zuhilfenahme technischer Hilfsmittel (wie Videorekorder mit Zeitlupe, Standbild etc.) durchgeführt werden kann. Auf der anderen Seite besteht der Vorteil darin, dass nicht von vorneherein unzulässige Interpretationen vorgenommen werden. Es hat sich beispielsweise gezeigt, dass eine globale Kategorie wie „Lächeln“, die sich in verschiedenen vorausgegangenen und anderweitig verwendeten Kategoriensystemen findet, mit Hilfe des FACSVerfahrens aufgelöst werden kann in eine Vielzahl sehr unterschiedlicher Lächel-Typen, die dann möglicherweise auch unterschiedliche Funktionen erfüllen und an den Rezipienten unterschiedliche Informationen vermitteln (vgl. Bänninger-Huber, 1996). Im Folgenden soll nun auf die Beziehung zwischen Sprache und Gestik, soweit diese im Rahmen theoretischer Überlegungen und empirischer Untersuchungen thematisiert worden ist, eingegangen werden. Zu Anfang des Kapitels wurde anekdotisch auf die frühen Arbeiten von Dobrogaev eingegangen, die offensichtlich zeigen, dass Unterdrückung von Gesten bzw. illustrativen Handbewegungen anscheinend in der Lage ist, den Sprachausdruck in großem Maße zu beeinflussen. Dies deutet natürlich sofort auf die enge Beziehung dieser Gruppe von Gesten mit der Sprache hin. Dies soll im Folgenden näher ausgeführt werden.
3.
Einige Theorien zum Verhältnis zwischen gestischem Verhalten und Sprache
3.1. Das „Central Organizer“-Konzept Den engsten Zusammenhang zwischen Sprache und gestischem Verhalten (Illustratoren) postuliert Kendon in seinen Arbeiten (Kendon, 1977). Er nimmt an, dass Gesten nicht nur ein „Abfallprodukt“ der Sprachproduktion sind oder nur Hilfsfunktionen erfüllen, sondern dass Sprache und Gestik intrinsisch
269 zusammenhängen, ja sogar eigentlich nur Aspekte des gleichen Prozesses darstellen, der von denselben Arealen des Cortex gesteuert wird. Interessanterweise konnten auch neuroanatomisch enge Zusammenhänge zwischen Sprache und Illustratoren nachgewiesen werden. Kimura (1973, 1974) konnte zeigen, dass beim Sprechen häufiger laterale Illustratoren auftreten, die kontra-lateral zur sprachdominierenden Hirn-Hemisphäre sind. Weiterhin konnte sie zeigen (Kimura, 1976), dass Illustratoren und Sprachproduktionsmechanismen von den gleichen Arealen gesteuert zu werden scheinen. Personen, die sprachlich Links-Lateralisation zeigten, gestikulierten sehr viel häufiger mit der rechten als mit der linken Hand, während Links-Händer die linke und die rechte Hand etwa gleich häufig zum Illustrieren verwendeten (für Adaptoren dagegen traten weder bei Links- noch bei RechtsHändern Lateralisationstendenzen auf). Dies stimmt sehr gut mit Befunden überein, die nahelegen, dass bei Links-Händern eine Lateralisation bezüglich der Sprache weniger deutlich ausgeprägt ist als bei Rechts-Händern (Leischner, 1980). Dalby, Gibson, Grossi und Schneider (1980) fanden entsprechend bei rechtshändigen Versuchspersonen eine deutliche Bevorzugung der rechten Hand für Gestikulationen, allerdings keine Lateralisierung bei Adaptoren oder Manipulatoren. Wolff und Gutstein (1972) sowie Graham und Heywood (1973) fanden, dass das Einschränken oder Verhindern von Gesten während des Sprechens den semantischen Inhalt von Aussagen deutlich beeinflusst (vgl. das eingangs erwähnte Zitat von Dobrogaev). Es wird berichtet, dass die Elimination von Handgesten während des Sprechens zu einer deutlichen Reduktion der Sprachflüssigkeit führt, zu einer Reduktion des verwendeten Vokabulars bzw. seiner Breite und auch zu einer Beeinträchtigung der Artikulationsgenauigkeit (Schlauch, 1936; bezugnehmend auf die Untersuchung von Dobrogaev). Rauscher, Krauss und Chen (1996) fanden, dass die Sprache besonders dann an Flüssigkeit verlor und vermehrt gefüllte Pausen auftraten, wenn Versuchspersonen beim verbalen Darstellen räumlicher Inhalte und räumlicher Konzepte am Gestikulieren gehindert wurden. Sie gehen davon aus, dass Einschränkungen der Gestik die Schwierigkeit des lexikalischen Zuganges erhöht, wie er auch durch andere Methoden hervorgerufen werden kann, dass sich Einschränkungen der
270 Gestik allerdings besonders auf den Bereich der Darstellung räumlicher Konzepte und Inhalte auswirken. Gesten (besonders Illustratoren) hängen damit für Kendon besonders eng mit der gesprochenen Sprache zusammen. Kendon (1977) nimmt an, dass Gesten sowohl syntaktische, aber auch intonatorische und semantische Aspekte des Sprachgebrauchs widerspiegeln. Im Anschluss an Birdwhistell (1970) weist er darauf hin, dass beispielsweise bei Hebung der Betonung auch die Hände im Verlauf von Gesten oft angehoben werden, bei gleichhaltender Internation auch die Hände in gleicher Höhe gehalten werden und schließlich bei senkender Internation häufig auch die Hände gesenkt werden (bei Bewegungen der Augenbrauen werden übrigens ähnliche Zusammenhänge vermutet). Daneben konnte Kendon beobachten, dass während Zögerungspausen beim Sprechen Gesten nicht unterbrochen werden, sondern weiter ablaufen. Dies spricht seiner Meinung nach dafür, dass während Sprechpausen der sprachliche Enkodierungsprozess nicht unterbrochen wird, sondern weiter abläuft. Nach Kendon scheint es damit: „as if the speech production process is manifested in two forms of activities simultaneously: in the vocal organs and also in body movement …“ (Kendon, 1972: 205). Schließlich sprechen für Kendons Annahme die frühen Befunde und Beobachtungen von Condon (Condon & Ogston, 1966; Condon, 1976), der bei sehr detaillierten Analysen von Tonfilmen, die von ihm sog. „Selbstsynchronizität“ und „Interaktionssynchronizität“ fand. Er konnte zeigen, dass Änderungen im Sprechen wie Veränderungen der Intonation, Pausen oder Veränderungen der Lautstärke sehr eng mit Änderungen im nonverbalen Verhalten synchronisiert sind. Dies gilt für den Sprecher („Selbstsynchronizität“) wie auch für den Zuhörer („Interaktionssynchronizität“). Sollte dieses Phänomen wirklich existieren, dass Condon sogar bei Neugeborenen in Interaktionen mit ihren Eltern nachgewiesen zu haben glaubt, während allerdings andere Forscher wie beispielsweise Rosenfeld (1982) dessen Existenz bestreiten, so würde das bedeuten, dass der Sprechausdruck die Organisation nonverbalen Verhaltens bestimmt oder aber, wie Kendon annimmt, dass Sprechen und nonverbales Verhalten eigentlich nur Ausdruck desselben zugrundeliegenden Prozesses sind.
III. Sprachproduktion
3.2. Gestik als Regulator der Sprachproduktion Eine etwas andere Theorie vertreten Freedman und Mitarbeiter (Freedman, 1977). Sie nehmen an, dass gestisches Verhalten nicht eine intrinsische Komponente des Sprachproduktionsprozesses ist, sondern mittels Erregungsregulation und Selbststimulierung dazu dient, den Sprachproduktionsprozess besonders in schwierigen Phasen aufrechtzuerhalten und die Selbstaufmerksamkeit auf diesen Prozess zu konzentrieren. Hier wird die angesprochene Unterscheidung zwischen Illustratoren und Adaptoren/Manipulatoren wieder bedeutsam. Freedman (1977) nimmt an, dass Illustratoren ein Ausdruck des Repräsentationsprozesses in Sprache und Denken sind, während Adaptoren dazu dienen, eben diesen Prozess durch Fokussierung der Aufmerksamkeit und der Konzentration aufrechtzuerhalten. Wird beispielsweise die Aufmerksamkeit einer Person während des Sprechens abgelenkt, so helfen Adaptoren, diese Aufmerksamkeit wieder auf die Sprachplanung, d. h. den sprachlichen Repräsentationsprozess, zu konzentrieren. Unterstützung findet diese Annahme in einigen Befunden. Jedem dürfte schon aufgefallen sein, dass man sich oft bei Wortfindungsschwierigkeiten oder Formulierungsschwierigkeiten am Kopf kratzt oder andere Arten von Adaptoren zeigt. Entsprechend konnten Freedman und Mitarbeiter in Experimenten nachweisen, dass zweisprachige Personen, wenn sie in der für sie geläufigeren ersten Sprache sprechen, mehr Manipulatoren zeigen, als wenn sie in ihrer Zweitsprache sprechen. Freedman und Mitarbeiter nehmen an, dass, bedingt durch die in der ersten Sprache leichtere Wortfindung und Artikulation, die Aufmerksamkeit der Person leichter nachlassen oder eher abge1enkt werden kann und somit vermehrt Adaptoren nötig sind, um die Aufmerksamkeit des Sprechenden wieder auf das Thema und das Auszusagende zu richten. In der zweiten Sprache dagegen ist man wegen der Sprachschwierigkeiten ohnehin bei Wortwahl und Artikulation voll auf den Sprachprozess konzentriert, ohne dass diese Konzentration durch Adaptoren herbeigeführt oder wiederhergestellt werden müsste. Im Gegensatz zu anderen Theorien und Überlegungen sind damit in der Theorie von Freedman nicht nur Illustratoren eng mit der Sprache verbunden, sondern auch Adaptoren bzw. Manipulatoren. Während Illustratoren nach Freedman (1977) ein „kinesic system or-
19. Gestik und Mimik beim Sprechen
ganized toward the representing of thought“ bilden, sind Adaptoren oder Manipulatoren ein anderes „kinesic system organized toward the attaining of focal attention“. Illustratoren sind damit ein Ausdruck des Repräsentationsprozesses in Sprache und Denken, während Adaptoren dazu dienen, diesen Prozess durch Fokussierung der Aufmerksamkeit und der Konzentration aufrecht zu erhalten. Wird die Aufmerksamkeit einer Person während des Sprechens abgelenkt, helfen Adaptoren, die Aufmerksamkeit wieder auf die Sprachplanung, d. h. den sprachlichen Repräsentationsprozess zu konzentrieren. Sie helfen: „… staying on the beam, while at the same time warding off intrusive cues …“ (Freedman, 1977: 116). Interessant ist, dass Freedman dabei verschiedenen Typen von Adaptoren oder Manipulatoren unterschiedliche Funktionen zuweist. Bestimmte dieser motorischen Aktivitäten wie „tippen mit den Fingern“ (tapping) dienen danach primär dazu, Erregung abzuleiten. Andere Adaptoren dagegen, die neben der motorischen Aktivierung gleichzeitig eine taktile Stimulations-Komponente enthalten wie Sichkratzen, Spielen mit einem Objekt etc. sind es, die helfen, Erregung nicht abzubauen, sondern zu regulieren und zu kanalisieren. Die Untersuchungen der Freedman-Gruppe zeigen dabei, dass: „… the more circumscribed … and the more patterned the activity, the more likely is self-stimulation so orchestrated that it sustains attention and facilitates verbal representation“ (Freedman, 1977: 117). Blinde Personen (Blass, Freedman & Steingart, 1974) zeigen in Gesprächen sehr häufig Adaptoren/Manipulatoren. Wieder nehmen Freedman und Mitarbeiter an, dass bei Blinden eine fortwährende Selbststimulierung durch Reiben und Manipulieren der Hände nötig ist, um den Sprachprozess flüssig zu halten bzw. die Aufmerksamkeit in der für Blinde besonders schwierigen und erregenden Interaktionssituation auf den Sprachprozess zu konzentrieren. Schließlich konnte in anderen Untersuchungen gezeigt werden, dass bei Wortfindungsschwierigkeiten oder Formulierungsschwierigkeiten Sprecher vermehrt Handbewegungen zeigten (Elzinga, 1978), dass komplexe geometrische Muster besser sprachlich übermittelt werden konnten, wenn Illustratoren durchgeführt werden konnten (Graham & Argyle, 1975) und dass beim Sprechen einer nicht so geläufigen Zweitsprache vermehrt auch Illustratoren auftreten, da der sprachliche Repräsentati-
271 onsprozess hier erschwert ist und durch Illustratoren verdeutlicht werden muss (Grand, 1977). Ein recht schlagendes Beispiel für die Rolle von Illustratoren bei der Darstellung sprachlich schwer enkodierbarer Begriffe (besonders räumlicher oder raum-zeitlicher Relationen bzw. komplexer räumlicher Gebilde) kann leicht geführt werden, wenn man Versuchspersonen bittet, Begriffe wie „Wendeltreppe“ sprachlich zu definieren. Mit großer Sicherheit wird die Versuchsperson nicht nur versuchen, die vorgegebenen Begriffe verbal zu definieren, sondern zusätzlich sprachillustrierende Handbewegungen (bei diesem Beispiel in Gestalt einer helixförmigen auf- oder absteigenden Handbewegung) zeigen. Während die beiden bisher dargestellten theoretischen Ansätze von einer engen, teilweise intrinsischen Beziehung zwischen Gestik und Sprache ausgehen, postuliert der folgende Ansatz eine weniger direkte Beziehung, indem hier die Rolle genereller Erregungsprozesse und deren Einfluss sowohl auf die Sprache als auch auf den gestischen Verhaltensbereich in den Mittelpunkt des Interesses gestellt wird. 3.3. Gestische Aktivität als Erregungsindikator Dieser theoretische Ansatz, der beispielsweise von Dittmann (1962) oder Ekman und Friesen (1969, 1972) vertreten wird, nimmt an, dass nonverbales Verhalten, besonders gestisches Verhalten, nicht ein der Sprachproduktion intrinsisch zugeordneter Prozess ist, sondern oft „nur“ Ausdruck der allgemeinen Erregung, die beim Sprachproduktionsprozess entsteht. So zeigen Untersuchungen, dass Illustratoren und andere Handbewegungen eng mit Erregungsprozessen zusammenhängen. Wenn ein Sprecher (positiv) erregt ist oder enthusiastisch reagiert, treten vermehrt Illustratoren auf (Baxter, Winters & Hammer, 1968; Ekman & Friesen, 1972). Auf der anderen Seite aber zeigen Personen unter hoher „negativer“ Erregung verminderte Gestik. Sainsbury und Wood (1977) fanden, dass affektiv negativ erregendes Material in Gesprächen zu einer Abnahme der Gestikulationshäufigkeit führt. Auch in Täuschungssituationen, in denen Personen die Aufgabe hatten, einen Versuchsleiter über ihren wahren Gefühlszustand zu täuschen, zeigten sich weniger illustrierende Gesten als in Kontrollbedingungen (Ekman & Friesen, 1972).
272 Der Zusammenhang zwischen Gestik und Erregung wird nicht zuletzt in Untersuchungen zum psychopathologischen Bereich thematisiert. Hier wird zum einen die Frage gestellt, ob die Untersuchung gestischen Verhaltens Aussagen zulässt über den Schweregrad psychischer Störungen innerhalb des schizophrenen oder depressiven Formenkreises, oder aber ob gestische Verhaltensweisen Symptomcharakter für die verschiedenen Störungsgruppen haben. Übersichten über Ergebnisse finden sich in Wallbott (1982) oder in Ellgring (1989). Freedman und Mitarbeiter (s. o.) fanden, dass schizophrene Patienten mehr kontinuierliche, handbezogene Adaptoren bzw. Manipulatoren im Vergleich zu depressiven und zu Kontrollgruppen zeigten, während depressive Patienten insgesamt weniger objektgerichtete Handbewegungen, d. h. Illustratoren, durchführten. Wichtig dabei ist allerdings auch zu betonen, dass insgesamt Depressive eine geringere verbale Aktivität im Vergleich zu Kontrollgruppen zeigen (vgl. Ellgring, 1989), was sicher mit für das verminderte Auftreten von Illustratoren bei dieser Patientengruppe verantwortlich zu machen ist. Mit zunehmender Besserung können sowohl bei schizophrenen als auch bei depressiven Patienten vermehrt Illustratoren (und damit verbunden größere Sprechaktivität) beobachtet werden und komplementär dazu weniger kontinuierliche, handbezogene Adaptoren bzw. in einigen Untersuchungen auch generell weniger Adaptoren bzw. Manipulatoren (vgl. Wallbott, 1982). Eine weitere Darstellung dieses Ansatzes würde zu weit führen, da hier nicht unbedingt auf direkte Art und Weise die Beziehung zwischen Sprache und Gestik thematisiert wird. Übersichten über Befunde zur Zuund Abnahme von gestischem Verhalten bzw. bestimmter Gruppen von Gesten finden sich auch im Bereich der Stress- und Arousal-Forschung sowie in der Emotionsforschung (vgl. beispielsweise Wallbott, 1998). Es scheint allerdings gesichert, dass sich genereller Arousal oder auch emotionale Erregung zumindest auf die Frequenz von Illustratoren und auch Adaptoren/Manipulatoren auswirkt. 3.4. Psychoanalytisch orientierte Überlegungen Einen vierten, theoretisch allerdings völlig anders gelagerten Ansatz zum Zusammenhang zwischen Sprechausdruck und gestischem Verhalten liefern psychoanalytisch orientierte Forscher, wie z. B. Loeb (1968), der
III. Sprachproduktion
in klinischen Interviews beobachtete, dass kurzzeitige Handbewegungen wie Faustballen, die kaum wahrzunehmen sind, im verbalen Kontext von Ärger auftraten. Ein Modell für den Zusammenhang zwischen Sprache und gestischem Verhalten aus psychoanalytischer Sicht hat Mahl (1977) ausgearbeitet. Er geht von der Annahme aus, der psychoanalytischen Annahme folgend, dass nonverbales Verhalten oft eher als verbales Verhalten Aussagen über Personen und deren Probleme zulässt, dass besonders das Bewegungsverhalten und hier gerade auch gestisches Verhalten unterliegende psychologische Probleme und Komplexe widerspiegelt. Besonders wichtig ist seine Annahme, dass oft im Bewegungsverhalten Probleme ihren Ausdruck finden, die erst sehr viel später von den Personen verbalisiert werden können. Er nimmt weiter an, dass der zeitliche Abstand zwischen Ausdruck eines Problems im Bewegungsverhalten und verbalem Ausdruck einen Indikator für die Intensität des gegebenen psychologischen Problems darstellt. Je länger es dauert, bis sich ein Patient in der Lage sieht, seine Probleme zu verbalisieren, obwohl er sie vorher schon nonverbal „deutlich gemacht“ hat, als desto gravierender kann das Problem für den Patienten angesehen werden. Für diese interessante Idee existieren allerdings bisher weitgehend nur klinische Beobachtungen psychoanalytisch orientierter Untersucher. 3.5. Ein kurzer Vergleich der Modelle In Abbildung 19.2 wird versucht, schematisch die hier behandelten vier Modelle zur Beziehung zwischen Sprache und Gestik darzustellen. Es handelt sich dabei zum einen um das Modell, das postuliert, dass Sprache und Gestik letztlich als Ausdruck ein und desselben zugrundeliegenden Prozesses (nämlich der Sprachproduktion) verstanden werden müssen. Dies gilt im Besonderen für sogenannte illustrative Handbewegungen. Belege für dieses Modell werden vor allem in den genannten Untersuchungen gesehen, die demonstrieren, dass das Unterdrücken von Illustratoren während des Sprechens Sprachinhalte und Sprachweise signifikant verändert. Außerdem deuten einige neuro-anatomische Überlegungen und Befunde in die entsprechende Richtung. Allerdings müssen gerade die experimentellen Untersuchungen mit einiger Vorsicht betrachtet werden. Wenn man beispielsweise Versuchspersonen bittet, aktiv ihr gestisches Verhalten zu unterdrücken, oder sie sogar durch experimentelle Manipu-
273
19. Gestik und Mimik beim Sprechen
Abb. 19.2: Einige Modelle des Zusammenhangs zwischen Sprache und Gestik
lationen (im Extremfall Fixieren der Hände) am Durchführen sprachbegleitender Gesten hindert, kann die resultierende Veränderung der Sprache möglicherweise nicht nur Ausdruck der engen Verknüpfung zwischen beiden Verhaltenssystemen sein, sondern auch aus den Manipulationen direkt resultieren. Die Aufmerksamkeit, die nötig ist, um die eigene Gestik zu unterdrücken bzw. zu reduzieren, kann dazu führen, dass Aufmerksamkeit vom Sprachplanungs- und Repräsentationsprozess abgezogen werden, was die Sprache verändert. Auch könnten fixierte Hände beispielsweise mit negativ erlebter Erregung einhergehen, die dann wiederum den Sprachplanungsprozess beeinträchtigt. Das zweite dargestellte Modell ist insofern interessant, als hier nicht nur für Illustratoren eine enge Beziehung zur Sprache postuliert wird, sondern auch Adaptoren und Manipulatoren hier eine Rolle spielen. Die zugehörigen Befunde sind nicht zuletzt deswegen von Interesse, weil sie in der Lage scheinen, ansonsten weitgehend unverstandene Phänomene, wie beispielsweise das Sich-Kratzen bei Wortfindungsschwierigkeiten oder das teilweise schwer nachvollziehbare Selbst-Manipulationsverhalten blinder Personen beim Sprechen versuchen zu erklären. Die Haupt-
these – um dies zu wiederholen – besteht darin, dass gerade Selbstmanipulationen dazu dienen, das eigene (auch kortikale) Erregungsniveau zu regulieren und damit letztendlich auch den Sprachproduktionsprozess zu beeinflussen bzw. zu fokussieren. Das dritte Modell stellt nicht im eigentlichen Sinne eine direkte Beziehung zwischen Sprache und Gestik her, sondern sieht als vermittelnde Variable die Rolle von Erregungsprozessen oder von emotionalen Prozessen bzw. psychopathologischen Abläufen, die sich dann sowohl in Änderungen der Sprache als auch in Änderungen der Gestik niederschlagen. Hier wird also nicht davon ausgegangen, dass beide Prozesse Ausdruck eines identischen Phänomens darstellen, sondern betont, dass physiologische Erregung beide Prozesse beeinflusst bzw. beeinträchtigen kann. Das vierte, psychoanalytische Modell schließlich, geht wiederum allerdings auf allgemeinerer Ebene von einer engen Beziehung zwischen Sprache und Gestik aus, da sprachliche Inhalte gleichsam durch nonverbale Verbalisationen vorweggenommen werden können. Die an sich zu verbalisierenden kognitiven Inhalte in Gestalt von Konflikten oder Problemen, deren Verbalisation aber,
274 psychoanalytisch gesprochen, Widerstände entgegenstehen, werden in den weniger kontrollierbaren nonverbalen Verhaltenskanälen, beispielsweise in der Gestik, im Vorhinein „verbalisiert“, bevor sie erst dann, wenn der therapeutische bzw. psychoanalytische Prozess weit genug fortgeschritten ist, ihren Ausdruck auch explizit im Verbalverhalten finden können. Dies bedeutet implizit, dass auch gestisches Verhalten sozusagen den Ausdruck kognitiver und sprachlicher Inhalte ermöglicht, jedoch einer entsprechenden Interpretation bedarf. 3.6. Neues (und Altes) zu Gestik und Sprechen Auch neuere Arbeiten schließen sich prinzipiell der ausführlich dargestellten Unterscheidung in zwei große Gruppen von Gesten an. Die Terminologie ist allerdings wiederum etwas unterschiedlich. In neueren Arbeiten wird teilweise von „repräsentationalen“ gegenüber „non-repräsentationalen“ Gesten gesprochen (vgl. beispielsweise Feyereisen, 1997). Rime´ und Schiaratura (1991) geben einen historischen Überblick über Arbeiten zur Beziehung zwischen Gestik und Sprache. Non-repräsentionale Gesten werden von anderen Autoren beispielsweise „beats“ genannt (McNeill, 1992) oder „motor-movements“ (Rauscher, Krauss & Chen, 1996). Damit sind Gesten gemeint, die die Sprache interpunktieren oder Teile der Äußerungen akzentuieren. Auf der anderen Seite werden repräsentationale Gesten wiederum von den erwähnten Autoren unterteilt, beispielsweise in deiktische Gesten (also zeigende Gesten), ikonische Gesten (die beispielsweise Größe, Form oder Bewegung eines sprachlich angesprochenen Gegenstandes illustrieren) oder metaphorische Gesten (die eher abstrakte Elemente der verbal übermittelten Bedeutung verdeutlichen sollen). Rauscher et al. (1996) nehmen an, dass repräsentationalen und nicht-repräsentationalen Gesten verschiedene Prozesse zugrundeliegen. Während repräsentationale Gesten durch Informationen über räumliche oder dynamische Features eines verbal angesprochenen Gegenstandes aus dem Arbeitsgedächtnis aktiviert werden und vor allen Dingen visuellen Vorstellungsinhalten folgen, sind diesen Überlegungen zufolge nicht-repräsentationale Gesten Ausdruck der phonologischen Enkodierung von Sprache und Sprachinhalten. Auch hier wird betont, dass beispielsweise Taktgesten (beats) zeitlich mit der Lokation betonter Silben im Sprach-
III. Sprachproduktion
produktionsprozess synchronisiert sind, obwohl, wie schon angemerkt, die Evidenz dafür bisher noch nicht völlig überzeugend scheint (vgl. auch McClave, 1994). Teilweise werden auch entwicklungspsychologische Befunde zur Argumentation für oder gegen verschiedene Modelle der Beziehung zwischen Sprache und Gestik herangezogen. So konnte beispielsweise gezeigt werden (Cohen & Borsoi, 1996), dass ältere Personen bei der Beschreibung dreidimensionaler Objekte weniger Gesten, besonders weniger ikonische Gesten, verwenden als jüngere Personen. Auf der anderen Seite war der relative Anteil von „beats“ bei älteren Personen höher. Es wird spekuliert, dass die Rolle visueller Hinweisreize, die sich direkt auf bestimmte Gruppen von Gesten auswirken, mit dem Alter an Bedeutung verliert, da ältere Personen zu komplexerer sprachlicher Gestaltung fähig sind. Dafür spricht vielleicht auch, dass die Häufigkeit repräsentationaler Gesten mit zunehmendem Alter absinkt, während non-repräsentationale Gesten mit dem Alter an Bedeutung gewinnen. Auch hier ist das Argument, dass mit der Entwicklung abstrakteren Denkens und komplexerer syntaktischer Gestaltung und Sprachplanung Gesten, die konkrete Aspekte des zu verbalisierenden wiedergeben, weniger Bedeutung zukommt und damit umgekehrt eher „abstrakte“ Gesten eine größere Rolle spielen (vgl. auch Feyereisen & Havard, 1999). In gewisser Weise wird damit wieder ein Modell der Beziehung zwischen Sprache und Gestik postuliert, das von einer immanenten Beziehung zwischen beiden Teilkommunikationssystemen ausgeht. Dabei wäre eine Hypothese, dass Inhalte sowohl sprachlich als auch gestisch vermittelt werden können. Während bei jüngeren Kindern aufgrund geringerer Komplexität des Denkens und der Sprache der repräsentationalen Gestik ein großes Gewicht zukommt, stellt sich später eine Art „Wettbewerb“ zwischen Gestik und der Sprache ein. Bei älteren Personen wird komplexeres Denken und komplexere Sprache zum dominierenden Kommunikationssystem, mit einer einhergehenden Reduktion repräsentationaler Gesten, aber auch einem Zunehmen der einfacheren und abstrakteren non-repräsentationalen Gesten (Feyereisen, 1997). Solche Altersunterschiede in der Verwendung oder Nichtverwendung von Gesten verschiedenen Typs wurden in einer Vielzahl von Untersuchungen festgestellt. Cohen und Borsoi (1996) beispielsweise fanden ebenfalls,
19. Gestik und Mimik beim Sprechen
dass ältere im Gegensatz zu jüngeren Versuchspersonen bei der Aufgabe, Objekte zu beschreiben, weniger deskriptive Gesten verwendeten. Für einen gemeinsamen Mechanismus scheint auch zu sprechen, dass gehörlose Kinder anscheinend spontan Gestensysteme entwickeln, denen grammatikalische Charakteristika zugesprochen werden können, wie sie auch in konventionellen Zeichensprachen aufgefunden werden. Solche Charakteristika finden sich allerdings nicht in spontanen Gesten, die in Zusammenhang mit Sprache gebraucht werden (Goldin-Meadow, McNeill & Singleton, 1996). Die möglicherweise extremste Position in dieser Hinsicht nimmt Hewes (1992) ein, der postuliert, dass die Entwicklung der vokalen Sprache eigentlich auf die Entwicklung einer vorher existierenden Gestensprache aufbaut und damit Gestik im Gegensatz zu Sprache den ursprünglicheren Kommunikationsprozess darstellt. Ein früher Vorläufer dieser Überlegungen stellt Johannesson (1950) dar, dessen Theorie es ist, dass die menschliche Sprache hauptsächlich aus so genannten „Gestiklauten“ besteht, das heißt, sich die Sprache ursprünglich aus Imitationen von Formen oder Abläufen gestisch dargestellter Phänomene entwickelt hat, indem die sprachproduzierenden Organe diese Gesten „imitiert“ haben. Diese Theorie war gerade in den fünfziger Jahren sehr populär (vgl. auch Licklider, 1949). Ein etwas eigenartiges Argument für die Annahme, dass sich Sprache aus Gestik entwickelt hat, lieferte 1936 Paget, der errechnete, dass Hände und Arme mehr als 700.000 mögliche distinktive Gesten zeigen können und damit die Hand angeblich 20.000 Mal so flexibel benutzt werden kann wie die Sprachorgane. Einen der intensivsten Proponenten des „Central Organizer“-Konzepts in neuerer Zeit stellt McNeill dar (z. B. 1985). Er nimmt dabei an, dass Sprache und begleitende Gestik „share a common computational stage“, das sehr früh im Sprachproduktionsprozess lokalisiert ist. Obwohl einige, auch schon hier erwähnte Untersuchungen in diese Richtung weisen (vgl. auch die Überlegungen von Kendon), ist dieser Ansatz nicht ohne Kritik geblieben. Butterworth und Hadar (1989) argumentieren, dass keine der beiden zugrundeliegenden Annahmen bisher wirklich ausreichende empirische Evidenz gefunden hat: Dies gilt sowohl für die Annahme, dass Gesten mit linguistischen Einheiten der Sprache synchronisiert sind als auch für die An-
275 nahme, dass Gesten semantische und pragmatische Funktionen haben, die parallel zu den Sprachinhalten verlaufen. Während die Annahme, dass sich Sprache letztlich aus Gestik phylogenetisch entwickelt hat und ontogenetisch entwickelt, durchaus auf Kritik gestoßen ist, und auch der „Central Organizer“ teilweise recht kritisch gesehen wird, deutet doch vieles auf eine enge, möglicherweise teilweise kompensatorische Beziehung hin, die schon angesprochen wurde (vgl. Singleton, Goldin-Meadow & McNeill, 1995). Dabei kann allerdings nicht davon ausgegangen werden, dass die Sprache im Zuge der ontogenetischen Entwicklung die Gestik ersetzt (Dobrich & Scarborough, 1984), aber vielleicht spricht einiges für die von Feyereisen (1997) vertretene Annahme, dass es sich hier um zwei Systeme mit geteilten Ressourcen handelt, wobei Gestik und Sprache aufgrund dieser geteilten Ressourcen unter Umständen in einer Art „Wettbewerb“ treten können (Feyereisen, 1997). Dies stellt nicht unbedingt eine Abkehr von der Annahme eines „Central Organizer“ dar, sondern eine etwas gelockerte Formulierung dahingehend, dass Gestik und Sprache zwar distinkte Systeme darstellen, die aber eng miteinander verknüpft sind und in Interaktion miteinander stehen (Feyereisen & de Lannoy, 1991). Auch neueste Arbeiten zu dem Bereich zeigen damit, dass nicht unbedingt Einigkeit über die Art der Beziehung zwischen Sprache und Gestik besteht, obwohl gerade in neuerer Zeit dem „Central Organizer“-Konzept, wie es schon Kendon vertreten hat, wieder verstärkte Aufmerksamkeit geschenkt wird. Die Modelle des Zusammenhangs zwischen Sprechausdruck und nonverbalem Verhalten wurden hier am Beispiel gestischen Verhaltens expliziert. Nichtsdestotrotz lassen sich die berichteten Modelle prinzipiell auch auf andere Verhaltensbereiche beziehen, sofern illustrative Funktionen dieser Verhaltensbereiche nachgewiesen werden können. Dazu gehört z. B. das betonende Augenbrauen-Hochziehen oder auch illustrierende Kopfbewegungen, die sehr häufig mit dem Rhythmus oder der Intonation des Gesprochenen eng synchronisiert scheinen. Um die Beziehungen zwischen sprachlichem und nonverbalem Verhalten näher klären zu können, sind jedoch noch viele Schritte zurückzulegen. Einmal dürfte es für die nonverbale Kommunikationsforschung nicht ausreichen, in Untersuchungen nur einen „Kanal“, wie
276
III. Sprachproduktion
beispielsweise gestisches Verhalten, zu untersuchen. Der Mensch kommuniziert und interagiert nie (oder nur höchst selten) „einkanalig“, sondern immer „mehrkanalig“ (Birdwhistell, 1970). Darum scheinen sog. Multikanal-Untersuchungen wichtig, denn die einzelnen nonverbalen Kanäle können sich in ihren Funktionen als Ausdrucksmedium oder in der Interaktionssteuerung nicht nur ergänzen, sondern auch ersetzen. Dies beinhaltet, dass bei der Konzentration auf nur einen Verhaltenskanal wertvolle Informationen verlorengehen können. Die hier berichteten Ergebnisse zu gestischem Verhalten können damit nur einen Anfang darstellen, um die Rolle nonverbalen Verhaltens in der Beziehung zur Sprache verstehen zu lernen.
4.
Literatur
Bänninger-Huber, E. (1996). Mimik-Übertragung – Interaktion. Die Untersuchung affektiver Prozesse in der Psychotherapie. Bern: Huber. Baxter, J. C., Winters, E. P. & Hammer, R. (1968). Gestural behavior during a brief interview as a function of cognitive variables. Journal of Personality and Social Psychology, 8, 303⫺307. Bellugi, U. & Klima, E. S. (1972). The roots of language in the sign talk of the deaf. Psychology Today, 6, 60⫺64. Bente et al. (im Druck). Integrative Registrierung verbaler, paraverbaler und nonverbaler Äußerungen. In T. Herrmann & J. Grabowski (Hrsg.). Enzyklopädie der Psychologie: Band Sprachproduktion. Göttingen: Hogrefe. Birdwhistell, R. L. (1970). Kinesics and context. Philadelphia: University of Pennsylvania Press. Blass, T., Freedman, N. & Steingart, L. (1974). Body movement and verbal encoding in the congenitally blind. Perceptual and Motor Skills, 39, 279⫺293. Brun, T. (1969). The international dictionary of sign language. London: Wolfe. Butterworth, B. & Hadar, U. (1989). Gesture, speech and computational stages: A reply to McNeill. Psychological Review, 96, 168⫺174. Carpenter, R. L., Matergeorge, A. M. & Coggins, T. E. (1983). The acquisition of communicative intentions in infants eight to fifteen months of age. Language and Speech, 26, 101⫺116. Cicone, M. et al. (1979). The relation between gesture and language in aphasic communication. Brain and Language, 8, 324⫺349.
Cohen, R. L. & Borsoi, D. (1996). The role of gestures in description-communication: A cross-sectional study of aging. Journal of Nonverbal Behavior, 20, 45⫺63. Condon, W. S. (1976). An analysis of behavioral organization. Sign Language Studies, 13, 285⫺318. Condon, W. S. & Ogston, W. D. (1966). Sound film analysis of normal and pathological behavior patterns. Journal of Psychiatric Research, 143, 338⫺ 347. Critchley, M. (1939). The language of gesture. London, NY: Erward Arnold. Dalby, J. T., Gibson, D., Grossi, V. & Schneider, R. D. (1980). Lateralized hand gesture during speech. Journal of Motor Behavior, 12, 292⫺297. Dittmann, A. T. (1962) The relationship between body movements and moods in interviews. Journal of Consulting Psychology, 26, 480. Dobrich, W. & Scarborough, H. S. (1984). Form and function in early communication: Language and pointing gestures. Journal of Experimental Child Psychology, 38, 475⫺490. Dobrogaev, S. M. (1931). The study of reflex in problems of linguistics. In W. A. Marr (Ed.), Lazykovedenie i Materializm (Vol. 2, pp. 105⫺173). Moskau: State Social Economic Publishing House, (zit. nach Kendon, 1977). Duncan, S. D. & Fiske, D. W. (1977). Face to face interaction. New York: Wiley. Efron, D. (1941). Gesture and environment. New York: King’s Crown. Wiederveröff. als: Gesture, race, and culture. Den Haag: Mouton (1972). Ekman, P. & Friesen, W. V. (1969). The repertoire of nonverbal behavior: Categories, origins, usage, and coding. Semiotica, 1, 49⫺98. Ekman, P. (1976). Movements with precise meaning. Journal of Communication, 26, 14⫺26. Ekman, P. & Friesen, W. V. (1972). Hand movements. Journal of Communication, 22, 353⫺374. Ekman, P. & Rosenberg, E. (Eds.) (1997). What the face reveals. Basic and applied studies of spontaneous expression using the Facial Action Coding System. New York: Oxford University Press. Ellgring, H. (1989). Nonverbal communication in depression. Cambridge: University Press. Elzinga, R. A. (1978). Temporal aspects of Australian and Japanese conversation. PhD. Thesis, Australian National University. Feyereisen, P. (1997). The competition between gesture and speech production in dual-task paradigms. Journal of Memory and Language, 36, 13⫺ 33.
19. Gestik und Mimik beim Sprechen Feyereisen, P. & de Lannoy, J. D. (1991). Gestures and speech: Psychological investigations. New York, NY: Cambridge University Press. Feyereisen, P. & Havard, I. (1999). Mental imagery and production of hand gestures while speaking in younger and older adults. Journal of Nonverbal Behavior, 23(2), 153⫺172. Freedman, N. & Hoffman, S. P. (1967). Kinetic behavior in altered clinical states: Approaches to objective analysis of motor behavior during clinical interviews. Perceptual and Motor Skills, 24, 527⫺ 539. Freedman, N., O’Hanlon, J., Oltman, P. & Witkin, H. A. (1972). The imprint of psychological differentiation on kinetic behavior in varying communicative contexts. Journal of Abnormal Psychology, 79, 239⫺258. Freedman, N., Blass, T., Rifkin, A. & Quitkin, F. (1973). Body movement and the verbal encoding of aggressive affect. Journal of Personality and Social Psychology, 26, 73⫺83. Freedman, N. (1977). Hands, words and mind: On the structuralization of body movements during discourse and the capacity for verbal representation. In N. Freedman & S. Grand (Eds.), Communicative structures and psychic structures (pp. 109⫺ 132). New York: Plenum. Frey, S. (1987). Analyzing patterns of behavior in interaction. Göttingen: Hogrefe. Friesen, W. V., Ekman, P. & Wallbott, H. G. (1979). Measuring hand movements. Journal of Nonverbal Behavior, 1, 97⫺112. Goldin-Meadow, S., McNeill, D. & Lingleton, J. (1996). Silence is liberating: Removing the handcuffs on grammatical expression in the manual modality. Psychological Review, 103, 34⫺55. Graham, J. A. & Argyle, M. (1975). A cross-cultural study of the communication of extra-verbal meaning by gestures. International Journal of Psychology, 10, 57⫺67.
277 der Germanistischen Linguistik (pp. 267⫺275). Tübingen: Niemeyer. Hewes, G. W. (1992). Primate communication and the gestural origin of language. Current Anthropology, 33, 65⫺84. Hjörstjö, C. H. (1970). Man’s face and mimic language. Lund: Student-Literatur. Ikegami, Y. (1971). A stratificational analysis of the hand gestures in Indian classical dancing. Semiotica, 4, 365⫺391. Johannesson, A. (1950). The gestural origin of language: Evidence from six ‘unrelated’ languages. Nature, 166, 60⫺61. Johnson, H. G., Ekman, P. & Friesen, W. V. (1976). Communicative body movements: American emblems. Semiotica, 15, 335⫺353. Kendon, A. (1977). Gesticulation and speech: Two aspects of the process of utterance. Unveröff., Australian National University. Kendon, A. (1972). Some relationships between body motion and speech: An analysis of an example. In A. Siegman & B. Pope, (Eds.), Studies in dyadic communication (pp. 177⫺210). New York: Pergamon Press. Kimura, D. (1973). Manual activity during speaking: 1. Right-handers. 2. Left-handers. Neuropsychologica, 11, 45⫺50, 51⫺55. Kimura, D. (1974). The asymmetry of the human brain. Scientific American, 228, 70⫺78. Kimura, D. (1976). The neural basis of language qua gesture. In H. Whitaker & H. A. Whitaker (Eds.), Studies in neurolinguistics (Vol. 2, pp. 145⫺ 156). New York: Academic Press. Krout, M. H. (1931). Symbolic gestures in the clinical study of personality. Transactions of the Illinois State Academy of Science, 24, 519⫺523. Krout, M. H. (1935). Autistic gestures: An experimental study in symbolic movement. Psychological Monographs, 46, 119⫺120.
Graham, J. A. & Heywood, S. (1973). The effects of elimination of hand gestures and of verbal codability on speech performance. European Journal of Social Psychology, 5, 189⫺195.
Krout, M. H. (1937). Further studies on the relation of personality and gesture: Nosological analysis of autistic gestures. Journal of Experimental Psychology, 20, 279⫺287.
Grand, S. (1977). On hand movements during speech: Studies in the role of self-stimulation under conditions of psychopathology, sensory deficit, and bilingualism. In N. Freedman & S. Grand (Eds.), Communicative structures and psychic structures (pp. 199⫺222). New York: Plenum,
Leischner, A. (1980). Neurolinguistik. In H. P. Althaus, H. Henne & H. E. Wiegand (Hrsg.), Lexikon der Germanistischen Linguistik (pp. 406⫺420).Tübingen: Niemeyer.
Helfrich, H. & Wallbott, H. G. (1980). Theorien der nonverbalen Kommunikation. In H. P. Althaus, H. Henne & H. E. Wiegand (Hrsg.), Lexikon
Licklider, J. C. R. (1949). The intelligibility and information-content of quantized speech. American Psychologist, 4, 234. Loeb, F. R. (1968). The fist: The microscopic film analysis of the function of a recurrent behavioral
278 pattern in a psychotherapeutic session. Journal of Nervous and Mental Disease, 147, 605⫺618. Mahl, G. F. (1968). Gestures and body movements in interviews. In J. H. Shlien (Ed.), Research in psychotherapy (pp. 295⫺346). Washington: APA. Mahl, G. F. (1977). Body movement, ideation, and verbalization during psychoanalysis. In N. Freedman & S. Grand (Ed.), Communicative structures and psychic structures (pp. 291⫺310). New York: Plenum. McClave, E. (1994). Gestural beats: The rhythm hypothesis. Journal of Psycholinguistic Research, 23, 45⫺66. McNeill, D. (1985). So you think gestures are nonverbal? Psychological Review, 92, 350⫺371. McNeill, D. (1992). Hand and mind: What gestures reveal about thought. Chicago: Chicago University Press.
III. Sprachproduktion Scherer, K. R. (1977). Affektlaute und vokale Embleme. In R. Posner & H. P. Heinecke (Hrsg.), Zeichenprozesse – Semiotische Forschung in den Einzelwissenschaften (pp. 199⫺214). Wiesbaden: Athenaion. Scherer, K. R. & Wallbott, H. G. (1979). Nonverbale Kommunikation: Forschungsberichte zum Interaktionsverhalten. Weinheim: Beltz. Schlauch, M. (1936). Recent Soviet studies in linguistics. Science and Society, 1, 152⫺167. Singleton, J. L., Goldin-Meadow, S. & McNeill, D. (1995). The cataclysmic break between gesticulation and sign: Evidence against a unified continuum of gestural communication. In K. Emmorey & J. S. Reilly, (Eds.), Language, gesture, and space (pp. 287⫺311). Hillsdale, NJ: Lawrence Erlbaum Associates. Stokoe, W. C. (1972). Semiotics and human sign languages. Den Haag: Mouton.
Paget, R. (1936). Sign language as a form of speech. Nature, 137, 384⫺388.
Stokoe, W. C. (1979). A field guide for sign language research. Silver Spring, Md.: Linstok Press.
Rauscher, F. H., Krauss, R. M. & Chen, Y. (1996). Gesture, speech, and lexical access: The role of lexical movements in speech production. Psychological Science, 7, 226⫺231.
Stokoe, W. C. (1993). Sign language structure: An outline of the visual communication systems of the American deaf.
Rime´, B. & Schiaratura, L. (1991). Gesture and speech. In R. S. Feldman & B. Rime´ (Eds.), Fundamentals of nonverbal behavior (pp. 239⫺281). New York & Cambridge: Cambridge University Press. Rosenfeld, H. M. (1982). Measuring body motion and orientation. In K. R. Scherer & P. Ekman (Eds.), Handbook of methods in nonverbal behavior research (pp. 199⫺286). Cambridge: Cambridge University Press.
Wallbott, H. G. (1982). Bewegungsstil und Bewegungsqualität. Untersuchungen zum Audruck und Eindruck gestischen Verhaltens. Weinheim und Basel: Beltz Verlag. Wallbott, H. G. (1984). Nonverbales Verhalten und Sprechausdruck. In L. Berger (Ed.), Sprechausdruck (pp. 57⫺68). Frankfurt: Scriptor. Wallbott, H. G. (1998). Bodily expression of emotion. European Journal of Social Psychology, 28, 879⫺896.
Sainsbury, P. & Wood, E. (1977). Measuring gesture: lts cultural and clinical correlates. Psychological Medicine, 17, 458⫺469.
Wolff, P. & Gutstein, J. (1972). Effects of induced motor gestures on vocal output. Journal of Communication, 22, 277⫺288.
Saitz, R. L. & Cervenka, E. J. (1972). Handbook of gestures. Den Haag: Mouton.
Harald G. Wallbott Universität Salzburg (Österreich)
279
20. Situiertes Sprechen
20. Situiertes Sprechen 1. 2. 3. 4. 5.
1.
Einleitung: Situationsbezug des Sprechens Situationsmerkmale Situationseinflüsse auf das Sprechen Theoretische Ansätze und Kontroversen zum Situiertheitsbegriff Literatur
Einleitung: Situationsbezug des Sprechens
„Sprache ist aus der Situation heraus geboren, situatives Sprechen ist daher die Urform jeglicher Sprachverwendung“ (Scherer, 1989: 59). Die situative Einbettung von Sprechhandlungen spielt eine große Rolle im Spracherwerb. Durch sie kann das Kind im beginnenden Spracherwerb mit einem einzigen, holophrastisch gebrauchten Wort (‘Ein-WortSatz’; Stern, 1907) ganz verschiedene Sachverhalte und Wünsche zum Ausdruck bringen. Ebenso erfordert das Verstehen von Einoder später auch Zwei- und Drei-Wort-Sätzen in der Regel die Kenntnis und Berücksichtigung der Gesamtsituation, in der diese Äußerungen hervorgebracht werden (vgl. z. B. Grimm, 1982: 534; Wygotski, 1987: 178, 189). Ein Charakteristikum der weiteren kindlichen Sprachentwicklung ist die zunehmende Situationsentbindbarkeit der Äußerungen (vgl. bereits Bühler, 1934/1982). Parallel dazu geht der ontogenetische Spracherwerb aber auch mit einer wachsenden Situationsdifferenzierung sowie Fähigkeit zur situationsspezifischen Sprachproduktion und Beurteilung der Situationsadäquatheit von Äußerungen einher (vgl. Grimm, 1982: 554⫺562). Diese beiden, auf den ersten Blick widersprüchlich erscheinenden Momente der Sprachentwicklung – zunehmende Situationsentbindbarkeit auf der einen Seite, zunehmende Situiertheit der Äußerungen auf der anderen – stehen insofern in engem Zusammenhang, als sie beide auf einem mit der kognitiven Entwicklung wachsenden Situationsverständnis beruhen. In diesem Sinne kann die etwa von Bühler (1934/1982) als Spezifikum der menschlichen Sprache hervorgehobene Situationsentbindbarkeit (unter dem Aspekt des Partnerbezugs) als Spezialfall der Fähigkeit zur situationsspezifischen Sprachproduktion aufgefasst werden, da sie die Berücksichtigung partnerseitiger Situationsmerkmale, etwa hinsichtlich der perzeptiven Unzugänglichkeit bestimmter gegenständli-
cher Situationsmerkmale für den Partner, voraussetzt. Die Situationsentbindbarkeit als mit der höher entwickelten Sprache gegebene Möglichkeit, über räumlich und zeitlich Entferntes wie auch über Abstraktes zu kommunizieren (vgl. auch Klix, 1985; Luria, 1987), bezieht sich denn auch vor allem auf die nichtpersonbezogenen Situationsbedingungen, weniger auf sprecher- und hörerseitige Situationseinflüsse. Gerade der adressatenbezogene Sprachgebrauch aber ist ein zentraler Aspekt situierten Sprechens. Die Beeinflussung der Sprachproduktion durch spezifische Situationsmerkmale ist vielfältig und in ganz unterschiedlichen Phänomenbereichen nachweisbar. Beispiele situationsabhängiger Äußerungsvarianten sind in den Sätzen (1) bis (3) gegeben. (1) Könnten Sie das Fenster, bitte, schließen? (2) Mach mal das Fenster zu! (3) Das zieht aber sehr. Weitere Beispiele sind Objektbenennungen, welche in komplexer Weise von situativen Bedingungen des Sprechens abhängen können. So kann ein Kind je nach Objektkontext ein und dasselbe Spielzeug als das rote, das große oder das Auto bezeichnen. Ein und derselbe Gegenstand kann der Lehrerin gegenüber als Radiergummi, einem Mitschüler gegenüber als Ratzefummel benannt werden. Ein Kind kann im Gespräch mit seiner Cousine aus Berlin auf seine Schultasche bzw. den Ranzen referieren, während es in einer Unterhaltung mit seinen westfälischen Schulkameraden von Tornister oder ,Tonne‘ reden würde. In alltäglichen Sprechsituationen wird oft über Dinge gesprochen, die beide Gesprächspartner in der Situation wahrnehmen bzw. auf die man zeigen kann (vgl. auch Bühler 1934/1982: „Zeigfeld der Sprache“). Spezifische Benennungen oder Beschreibungen dieser Sachverhalte werden damit in der Regel nicht nur unnötig, sondern auch als unangemessen empfunden. Dies entspricht der Grice’schen Kommunikationsmaxime der Informativität (Quantität): Sage soviel wie nötig, aber nicht mehr als notwendig! (Grice, 1975). So könnte der Sprecher die in Beispiel (4) formulierte Frage stellen, ohne das etwa plötzlich auftretende Geräusch näher zu beschreiben. (4) Hörst du das?
280
III. Sprachproduktion
Erst bei Verneinung der Frage durch den Gesprächspartner würde möglicherweise eine genauere Beschreibung erfolgen (z. B. Da ist so ein …). Das Bestreben, Redundanz möglichst zu vermeiden, führt auch zu fragmentarischen Äußerungen, Satzabbrüchen, Ellipsen und Nachfragen zum Kenntnisstand des Adressaten. Besonders deutlich wird der Situationsbezug des Sprechens auch in der Verwendung deiktischer Ausdrücke (z. B. du, hier, jetzt) zur sprachlich nicht explizierten Orts-, Zeit- und Personenangabe, deren präzise Interpretation Situations- oder Kontextwissen erfordert. Die folgenden Abschnitte geben einen (exemplarischen) Überblick über empirische Befunde zum Zusammenhang zwischen Situation und Sprachproduktion, insbesondere über verschiedene Komponenten der Kommunikationssituation und deren Einfluss auf unterschiedliche Aspekte der Erzeugung sprachlicher Äußerungen. Anschließend werden verschiedene Konzeptionen von ‘Situation’ sowie theoretische Ansätze zur Situiertheit von Kognition und Kommunikation diskutiert.
2.
Situationsmerkmale
In zahlreichen psycholinguistischen wie auch ethnomethodologischen, gesprächsanalytischen, sprechakttheoretischen, allgemein-, differentiell- und sozialpsychologischen, soziolinguistischen sowie sprachsoziologischen Ansätzen wurde versucht zu bestimmen, wie – und durch welche Merkmale – Situationen sprachliches Verhalten beeinflussen (für eine Übersicht vgl. Deppermann & SpranzFogasy, 2001; Forgas, 1985). Geht man zunächst von einem ganz allgemeinen Situationsbegriff aus, wie er etwa in Wörterbüchern erläutert wird als ‘die Umstände und Bedingungen, unter denen Ereignisse und Geschehnisse stattfinden’ bzw. als ‘Sach- oder Lebenslage zu einem bestimmten Zeitpunkt’, so wird bereits verständlich, dass es je nach Forschungsgegenstand und Fragestellung sehr unterschiedliche Definitionen und Auffassungen von ‘Situation’ gibt (siehe auch Abschnitt 4). ‘Situation’ ist ein relationaler Begriff. Phänomene bzw. Untersuchungseinheiten, deren situative Determinanten bestimmt werden, können in einer anderen Untersuchung mit einer anderen Forschungsfrage selbst Bestandteil der Situation sein (z. B. Thematik, Kommunikationskanal). Aus Sicht einer prozessorientierten Psycholinguistik und im Hinblick auf die Sprachpro-
duktion interessieren die situativen Bedingungen, die die Erzeugung sprachlicher Äußerungen beeinflussen: ob und wann gesprochen wird, was zum Ausdruck gebracht und wie es gesagt wird. Zu diesen gehören (a) nichtpersonbezogene Situationseinflüsse (Herrmann, 1982) bzw. die ‘physische Umgebungssituation’ (b) sprecherseitige und partnerseitige Situationseinflüsse und deren Interaktion (Herrmann, 1982) sowie weitere Parameter der sozialen Beziehungen zwischen den Kommunikanten (Marwell & Hage, 1970; Porsch, 1984; Wish, Deutsch & Kaplan, 1976) bzw. die ‘soziale Situation’ (Argyle, Furnham & Graham, 1981), (c) Handlungszusammenhänge (Rickheit & Strohner, 1993a) bzw. die ‘Tätigkeitssituation’. Äußerungen bzw. Merkmale von Äußerungen können auch auf Wechselwirkungen zwischen verschiedenen Parametern der Situation zurückzuführen sein (vgl. Herrmann, 1982). 2.1. Objektbezug und Wahrnehmungsraum Wahrgenommene Ereignisse, Prozesse, Objekte und deren Eigenschaften etc. beeinflussen Sprachproduktionsprozesse auf vielfältige Weise. Sie können einerseits Anlass und Gegenstand sprachlicher Äußerungen bilden, andererseits elliptische, fragmentarische, allgemeine oder vage Formulierungen bewirken, da der Sprecher von einer wechselseitigen Ergänzung der sprachlichen und der perzeptiv gegebenen Information ausgehen kann. Der Sprecher kann weiterhin annehmen, dass Wahrnehmungsgegebenheiten zur Desambiguierung von Wort- und Satzbedeutungen sowie zum Verständnis dessen, was mit einer Äußerung gemeint ist, beitragen. Die situative Anwesenheit von Objekten und anderen wahrnehmbaren Entitäten (z. B. Melodien, Rhythmen, Ereignissen) und Eigenschaften kann eine definite Artikelwahl oder den Gebrauch von Pro-Formen (z. B. Pronomina, Adverbien, Pronominaladverbien und Demonstrativpronomina) determinieren. Der Kontext gleichzeitig vorhandener Objekte beeinflusst in mehrfacher Hinsicht die Benennung eines Zielobjekts (vgl. Herrmann & Deutsch, 1976; Olson, 1970). Nichtpersonbezogene Situationsmerkmale sind auf vielfältige Weise mit partnerbezogenen verflochten und interagieren mit diesen. 2.2. Adressatenbezug und soziale Relationen Von einer wechselseitigen Ergänzung sprachlich und perzeptiv gegebener Information kann der Sprecher nur ausgehen, wenn er
20. Situiertes Sprechen
weiß oder annimmt, dass die jeweiligen Gegebenheiten der außersprachlichen Realität dem Gesprächspartner auch perzeptiv zugänglich sind. Der Sprecher antizipiert beispielsweise auch zu erwartende perzeptive Unterscheidungsprobleme des Partners (Herrmann, 1985). Darüber hinaus berücksichtigt der Sprecher auch die mutmaßliche Fähigkeit und Bereitschaft des Hörers, Teile des Gemeinten zu inferieren (zu Inferenzen beim Sprachverstehen siehe Egg, Gardent & Kohlhase, 1998; Rickheit & Strohner, 1993a, 1999; Singer, 1994) sowie Zeigegesten (vgl. Beattie & Shovelton, 1999; Metzing, Milde, Rae & Ritter, 1999) und Blickbewegungen (vgl. Velichkovsky, 1994) zu interpretieren. Dies kann beispielsweise zu einer Benennung führen, welche bei Verarbeitung allein der sprachlich gegebenen Information nicht eindeutig bzw. kontextdiskriminativ wäre (z. B. Guck mal, was da für ’n tolles Auto ist! – im Kontext belebten Straßenverkehrs). Wahrnehmungsverben und lokale Deiktika wirken dabei aufmerksamkeitssteuernd, indem sie den Adressaten zu einer perzeptiven Suche veranlassen (vgl. Bühler, 1934/1982; Clark & Murphy, 1982; Schu, 1989). Voraussetzung für eine partnerbezogene Selektion und Enkodierung sprachlich zu übermittelnder Inhalte ist (neben anderen) die kognitive Fähigkeit, partnerseitige Wissens- und Wahrnehmungsvoraussetzungen einzuschätzen. So wird bei jüngeren Kindern sowohl die soziale Sprache als auch die ‘egozentrische’ Sprache (mit der das Kind nur für sich spricht, ‘als ob es laut denkt’; Piaget, 1923; nach Wygotski Übergangsform zwischen der kommunikativen Sprache für andere und der inneren Sprache) begleitet von der ‘Illusion, verstanden zu werden’ und der Annahme, dass Gedanken, die nicht oder ungenügend ausgedrückt werden, dennoch Gemeingut seien (Wygotski, 1964: 324; vgl. auch Weissenborn & Stralka, 1984). Aber auch beim erwachsenen Sprecher kann die Fähigkeit, sich auf z. B. den kindlichen Gesprächspartner einzustellen – insbesondere in Abhängigkeit von Wissen, Erfahrung und Inferenzprozessen – unterschiedlich ausgeprägt sein. Zu den Merkmalen des Adressaten, die den Prozess der Spracherzeugung beeinflussen (soweit sie im Partnermodell des Sprechers repräsentiert sind; vgl. Herrmann, 1989), gehören neben Vorwissen und Wahrnehmbarkeit auch Alter, Geschlecht, Bekanntheit und Vertrautheit (soziale Nähe),
281 sozialer Status und Autorität, soziale und kommunikative Rolle. In der Regel sind diese partnerseitigen Faktoren vor allem in ihrer Relation zu sprecherseitigen Bedingungen relevant bzw. interagieren mit diesen (vgl. Blum-Kulka, Danet & Gherson, 1985; Herrmann, 1982). Ein wesentlicher Gesichtspunkt ist dabei die Asymmetrie versus Symmetrie der sozialen Beziehung zwischen Sprecher und Hörer (z. B. Kind und Erwachsene; Lehrer und Schüler; Verkäuferin und Kundin; Redner und Zuhörer; gleicher oder ungleicher Wissensstand; vgl. Porsch, 1984). Weitere Parameter interpersonaler Relationen, die die Äußerungserzeugung beeinflussen, sind der Öffentlichkeitsgrad und der Institutionalisiertheitsgrad bzw. die Offizialität einer Situation sowie Stimmung und Atmosphäre. Einige der genannten Situationsbedingungen sind mit dem Handlungskontext eng verbunden. 2.3. Handlungszusammenhänge Sprecherziele und Sprachproduktionsprozesse sind partiell durch ihre Einbettung in Handlungszusammenhänge determiniert. Sie sind zum einen wesentlich an der Festlegung und Erkennung bestimmter Adressatenmerkmale beteiligt (z. B. soziale und kommunikative Rollen). Zum anderen sind insbesondere globale, übergeordnete Handlungsziele und mögliche Konsequenzen und Ergebnisse wirksame Einflussfaktoren auf die Sprechplanung, da die Instrumentalität und die Relevanz von Äußerungen und Äußerungsvarianten im Hinblick auf sie bestimmt sein können. So sind Höflichkeitsfloskeln in Gefahrensituationen wenig angebracht. In bestimmten Handlungszusammenhängen sind klare und direkte Aufforderungen erforderlich, in anderen höfliche Andeutungen und Umschreibungen, in wieder anderen möglicherweise flehentliches Bitten oder überzeugendes Argumentieren. 2.4. Situation und Situationsauffassung Die Bedingungen einer Situation werden nur insoweit als Einflussfaktoren des Sprechens wirksam, als sie vom Sprecher als solche aufgefasst, d. h. entsprechend kogniziert und interpretiert werden (zur Unterscheidung zwischen realer und interpretierter Situation siehe bereits Koffka, 1935). Zum Verhältnis von ‘objektiver’ und ‘subjektiver’ Situation gibt es zwei Extremauffassungen. Eine Position, die häufig innerhalb der Ethnographie der Kommunikation und der ethnomethodo-
282 logischen Diskursanalyse (vgl. Atkinson, 1988; Kallmeyer & Schütze, 1976) wie auch in der verstehenden Soziologie vertreten wird, fasst ‘Situation’ und allgemein die Welt oder Wirklichkeit als subjektiv und interpretativ oder auch sprachlich konstituiert auf (z. B. Moerman, 1988; Psathas & Kozloff, 1976; Walsh, 1975; vgl. auch Roderburg, 1995: 186: „zur Schaffung von Welt und Wirklichkeit … im Ereignis des Gesprächs“). Im Gegensatz dazu konzentrieren sich vor allem einige Situiertheits-Ansätze, die innerhalb der KI (Künstlichen Intelligenz) als ‘situated action’ oder ‘situated cognition’ bezeichnet werden, auf Strukturen der realen Welt und deren Beschränkung und Bestimmung menschlichen (zum Teil auch allgemein organismischen) Verhaltens (vgl. Norman, 1993; z. B. Suchman, 1993: 74: „behavior can only be understood in its relations with realworld situations“). Kognitive Aktivitäten werden danach primär als Interaktionen zwischen Akteuren und physikalischen Systemen sowie mit anderen Menschen verstanden, welche nach dieser Auffassung (in Anlehnung an die ökologische Psychologie Gibsons, 1979) auch ‘direkt’, d. h. ohne Beteiligung mentaler Repräsentationen, erfolgen können (Greeno & Moore, 1993). In ähnlicher Weise legt die philosophische Situationssemantik (Barwise & Perry, 1983) das Hauptgewicht auf die ‘externe Signifikanz der Sprache’ und fasst Situationen als Ausschnitte der Wirklichkeit auf (welche unmittelbar wahrgenommen werden bzw. bekannt sein können, d. h. ohne die vermittelnde Rolle interner Kognition zu betrachten). Eine dritte Position geht davon aus, dass Äußerungen auch davon abhängen, wie Menschen die aktuelle (objektiv bestehende) Situation, in der sie sich äußern, auffassen. Diese Situationsauffassung kann – wie auch die Zielsetzung des Sprechens – partiell auf das erworbene Wissen des Sprechers zurückgeführt werden (Herrmann, 1982). Die wahrgenommene Situation wird auf der Grundlage aktivierten Wissens einer Äquivalenzklasse von Situationen zugeordnet und emotionalkognitiv bewertet (Lantermann, 1980). Für die Bewältigung situativer Anforderungen ist entscheidend, wie die Umwelt repräsentiert wird (Rickheit & Strohner, 1993b, 1994). Relevante Abweichungen der Situationsauffassung von der realen Situation erweisen sich in nicht erwarteten Ereignissen und Konsequenzen eigenen Handelns, wenn etwa die Entfernung eines herannahenden Fahrzeugs,
III. Sprachproduktion
die Absichten anderer Personen oder auch deren soziale Rollen falsch eingeschätzt wurden und die kognitive Repräsentation der Situation daraufhin korrigiert oder modifiziert wird. Die Situationsauffasssung wird partiell determiniert durch (individuell repräsentierte) kulturelle und soziale InterpretationsMuster (Bayer, 1977; Schütz, 1974) und ist Ergebnis einer Auseinandersetzung mit der materiellen und gesellschaftlichen Umgebung (Lantermann, 1980). Ontogenetisch verläuft die Entwicklung der ‘subjektiven Struktur’ infolge des von der Gesellschaft ausgehenden Situations-Drucks in Richtung auf Herstellung von Isomorphie zur ‘objektiven Struktur’ (Oerter, Dreher & Dreher, 1977). Das Verhalten des Sprechers kann seinerseits die Situation verändern bzw. zu einer neuen Situation führen (siehe Abschnitt 4). 2.5. Situation und Ziele Sprechen ist ein andere Verhaltenskomponenten ergänzendes Mittel zur Regulation des menschlichen Verhaltenssystems bzw. zur Zielerreichung (Herrmann, 1985; Herrmann & Grabowski, 1994; zur regulatorischen Rolle der Sprachproduktion in der Ontogenese und ihrer Störung bei verschiedenen pathologischen Hirnbedingungen siehe Luria, 1961). Ziele können aus verschiedenen Bedürfnissen sowie intrinsischen und extrinsischen Motiven entstehen. In typischen Alltagssituationen haben Menschen oft mehrere Ziele gleichzeitig, die somit um die verfügbare Handlungskapazität konkurrieren (Beckmann, 1985). Zielsetzungen können sich unmittelbar aus der Situationseinschätzung ergeben, aber auch umgekehrt die Situationsauffassung beeinflussen (Herrmann, 1982). Diese Argumentation ist keineswegs ‘zirkulär’ (Hundsnurscher, 1989, S. 131), sondern weist lediglich darauf hin, dass Beeinflussungen in beiden Richtungen und darüber hinaus auch Wechselwirkungen möglich sind. Situative Faktoren können individuelle Zielsetzungen auf verschiedene Weise beeinflussen oder bedingen. Gerät eine Person in eine bedrohliche Lage, ergibt sich unmittelbar das Ziel, sich aus dieser Situation – gegebenenfalls auch durch Reden – zu befreien. Situationsfaktoren können die Realisationsmotivation beeinflussen (z. B. Misserfolg, Schwierigkeiten der Realisierung) oder konkurrierende Handlungstendenzen stärken (z. B. sonniges Wetter) oder Handlungsziele bedingen (Arbeitsaufgaben, leerer Kühlschrank). Nach der Feldtheorie Lewins
20. Situiertes Sprechen
(1963) können Gegenstände unserer Umwelt für uns ‘Aufforderungscharakter’ oder ‘Vermeidungscharakter’ haben. Andererseits bilden Motive (z. B. Leistungsmotiv, Anschlussmotiv, Bedürfnis nach Sicherheit; aber auch epistemische Neugier, Berlyne, 1974) als individuelle, relativ dauerhafte Verhaltensbedingungen in der Person liegende Grundlagen für Zielsetzungen, welche jedoch nur in bestimmten Situationen wirken – wobei ein Motiv in recht unterschiedlichen Situationen wirksam sein kann – und sich während der Entwicklung in bestimmten Grundsituationen herausbilden (Oerter, 1982). Das Prozessmodell der Motivation von Heckhausen (1977) sieht Situation zum einen unter dem Gesichtspunkt der Ausgangssituation, deren Aufforderungsgehalt einen Motivationsprozess zum Handeln anregt, und zum anderen im Hinblick auf die Konsequenzen der ausgeführten Handlung, welche sich in einer veränderten Situation niederschlagen. Umgekehrt kann die Bewertung einer Situation mit dem Eintritt einer Person in diese Situation auch eine Einschätzung anhand der aktuellen Zielhierarchie beinhalten (Lantermann, 1980). Zielspezifische Aufforderungsgehalte der Situation und aktuelle (evtl. auch generelle) Oberziele werden in Beziehung zueinander gesetzt. Der Situation übergeordnete Motivationen und Handlungsintentionen tragen zur Strukturierung der Situationsauffassung, zur Aufmerksamkeitssteuerung, zur Akzentuierung und Interpretation von Situationselementen bei.
3.
Situationseinflüsse auf das Sprechen
Eine (Ko-)Determination des Sprechens durch situative Bedingungen zeigt sich auf allen Ebenen des Sprachproduktionsprozesses und in verschiedenen Phänomenbereichen und Aspekten sprachlicher Äußerungen. 3.1. Anlass, Gegenstand, Funktion Situative Momente haben einen Einfluss darauf, ob jemand überhaupt spricht. Es gibt ebenso Situationen, die eine verbale Kommunikation (z. B. normativ) erfordern, wie Situationen, die eine verbale Kommunikation nicht zulassen (z. B. aufgrund verinnerlichter Verhaltensregeln oder aufgrund äußeren Drucks). In einem Gerichtssaal oder einem Klassenzimmer können Äußerungen bestimmter Personen (status- und rollenabhän-
283 gig) untersagt sein, während von einem Zeugen Aussagen und von einem Schüler gegebenenfalls Antworten verlangt werden können. Eine wesentliche Rolle bei der Regelung, wann gesprochen wird, spielen kulturabhängige gesellschaftliche Normen (zur Konventionsgeleitetheit des Sprechens vgl. Herrmann & Grabowski, 1994). So ist es höflich, Fragen zu beantworten und Grüße zu erwidern. Gesprächspartner sollte man nicht unterbrechen und in einer geleiteten Diskussion nur dann sprechen, wenn der Diskussionsleiter einem das Wort erteilt. In anderen Situationen wägen Sprecher aufgrund der verfügbaren Information und des aktivierten Wissens Instrumentalität und Adäquatheit von Sprechhandeln und anderen Handlungsalternativen ab. Konventionen regeln auch partiell Inhalt und Gegenstände einer Äußerung. Beispielsweise sind Grüße von der Tageszeit abhängig (z. B. Guten Morgen). Die Antwort auf eine Frage sollte auf diese Frage bezogen sein, etwa die von der fragenden Person gewünschte Information enthalten oder Mitteilungen darüber, dass und warum der Sprecher diese Information nicht geben kann oder will. Dies entspricht der übergeordneten Grice’schen Konversationsmaxime ‘Sei kooperativ!’. Die Antwort sollte sich auf das vom Partner Gemeinte (Hörmann, 1976) beziehen, nicht auf das wortwörtlich Gesagte und beruht daher oft auf Inferenzen über die Intentionen des Adressaten. Wenn jemand etwa auf die Frage, wo die Post sei, antwortet: „Die hat jetzt schon geschlossen“, liegt die Annahme zugrunde, die fragende Person habe in der Post etwas zu erledigen. Hätte er Wissen darüber, dass es um eine Verabredung vor der Post geht, wäre die Antwort inadäquat und nicht kooperativ. Ob ein Sprecher beispielsweise eine Wegbeschreibung gibt, hängt stärker von den vermuteten bzw. situativ erschlossenen Hörerintentionen ab als von der Frageform. Selbst eine explizit gestellte Frage der Art „Wie kommt man von hier zum Einkaufszentrum?“ wird nicht mit einer Wegbeschreibung, sondern sehr allgemein („ja, mit der Straßenbahn …“ oder „man kann leicht mit dem Fahrrad hinkommen“) beantwortet, wenn sie im Rahmen eines Interviews zur Wohnsituation im Studentenwohnheim gestellt wird und der antwortende Sprecher keinen Grund zu der Annahme hat, dass der Interviewer tatsächlich dorthin gelangen möchte (Ullmer-Ehrich, 1982).
284 Verschiedene situative Elemente können als Themenauslöser fungieren. Dazu gehören Handlungsziele und Realisierungsschritte ebenso wie partnerseitige Befindlichkeiten, soziale Beziehungen und physikalische Objekte und Ereignisse aus dem aktuellen Wahrnehmungsraum. Insbesondere thematische Initiativen von Kindern werden (altersabhängig) häufig von Elementen des unmittelbaren Wahrnehmungsraumes angeregt (vgl. Schu, 1989). Dazu gehört unter anderem auch das Aufmerksam-Machen auf wahrgenommene Gegebenheiten bzw. deren Feststellung, ‘Bemerkung’. Ein solches Notiz-Nehmen von Ausschnitten der wahrgenommenen Welt kann – auch in der Kommunikation Erwachsener – sehr unterschiedlichen Funktionen dienen. Es kann beispielsweise durch die Bildung einer gemeinsamen Erfahrungsbasis soziale Nähe schaffen oder verstärken, Einstellungen, Gefühle oder Kenntnisse beeinflussen, Verhalten erklären oder Reaktionen ermöglichen. Die beim Notiz-Nehmen bzw. Aufmerksam-Machen (Guck mal!) gegebene Legitimation zur Unterbrechung sowohl einer eigenen als auch einer partnerseitigen Äußerung gibt beispielsweise die Möglichkeit zu einem Themenwechsel (Moerman, 1988). Eine allgemeine Typologie der Zwecke sprachlichen Handelns hat Searle (1969) in Weiterentwicklung der Sprechakttheorie von Austin (1962) aufgestellt (zur Sprechakttheorie siehe auch z. B. Harras, 1983; Wunderlich, 1976, 1986). Die Sprechakttheorie betont, dass eine sprachliche Äußerung zugleich eine Handlung ist, der eine bestimmte Intention zugrunde liegt (Illokution) und mit der die angesprochene Person zu einem bestimmten Verhalten veranlasst werden soll (Perlokution). Die Klassifikation der Sprechakte nach Searle erfolgt im Hinblick auf ihre illokutionäre Rolle anhand des jeweiligen zugrunde liegenden Bedingungsgefüges. Searle unterscheidet fünf Grundtypen von Sprechakten: ⫺ ⫺ ⫺ ⫺ ⫺
Repräsentativa (z. B. aussagen, behaupten) Direktiva (z. B. bitten, fragen, auffordern) Kommissiva (z. B. versprechen, drohen) Expressiva (z. B. danken, grüßen) Deklarativa (z. B. kündigen, ernennen)
3.2. Selektion und Linearisierung Nur ein kleiner Teil der situativen und der aus dem Gedächtnis aktivierten Information, die die kognitive Grundlage der sprachlichen Äußerung bildet, wird zur sprachlichen Verschlüsselung ausgewählt. Der Sprecher expli-
III. Sprachproduktion
ziert das Gemeinte sprachlich pars pro toto (Herrmann, 1982; Herrmann & Laucht, 1977). Die Nicht-Selektion von Wissensbestandteilen ist oft auf Präsumtionen zurückzuführen, die Sprechende machen, wenn sie voraussetzen, dass ihre Gegenüber diese Inhalte kennen oder inferieren können, oder auch, um Zusammenhänge zu implizieren (indirekt mitzuteilen oder zu suggerieren). Wenn beispielsweise ein Beifahrer zur Person am Steuer eines Fahrzeugs sagt: „Oh, da ist ein Restaurant“, könnte diese Äußerung pars pro toto für unter anderem folgende aktualisierte Komponenten stehen: „Wir sind schon lange unterwegs. Die Kinder haben bestimmt Hunger. Ich habe heute keine Lust zu kochen. Du solltest mal eine Pause machen. Im Restaurant können wir uns ausruhen und etwas essen. Ich möchte, dass Du zu dem Restaurant fährst und anhältst. Du bist in der Lage und möglicherweise bereit anzuhalten.“ Die Instrumentalität einer Äußerung hängt – je nach Situation – in starkem Maße davon ab, welche Wissenskomponenten zur Versprachlichung selektiert werden. Ob etwa die im Beispiel gegebene Intention erfüllt wird, wird auch durch partnerseitige Merkmale determiniert, die zum Inferieren dieser Absicht befähigen. Aufforderungen, die in Searles Klassifikation zum Äußerungstyp der Direktiva gehören, setzen – vor dem Hintergrund normativer und anderer Wissensbestandteile – das Vorliegen einer Reihe sprecherseitiger und vom Sprecher kognizierter situativer Bedingungen voraus. Die Direktheit von Aufforderungen hängt davon ab, welche der kognitiv repräsentierten Bedingungskomponenten selektiert wird. Sie steigt von Verbalisierungen partnerseitiger Könnens- und Bereitschaftsbedingungen (kannst/würdest du) über Verweise auf Wunsch- und Ausgangslagen (ich wäre froh, wenn; schade, dass) oder die Legitimation (du bist dran mit) bis hin zur Verpflichtung zur Ausführung (hol mal; ich bitte dich, …) kontinuierlich an (Herrmann & Grabowski, 1994; Winterhoff-Spurk & Grabowski-Gellert, 1987; vgl. auch Blum-Kulka et al., 1985; Garvey, 1975; Gibbs, 1985; Gordon & Lakoff, 1979). Eine weitere Möglichkeit, insbesondere in hochstandardisierten institutionalisierten oder routinisierten Situationen sind Aufforderungsellipsen (ein Bier, bitte). Welche Aufforderungsvariante gewählt wird, hängt vom Standardisierungsgrad der Situation, den vom Sprecher kognizierten Situationsausprägungen (sprecherseitig Dring-
20. Situiertes Sprechen
lichkeit und Legitimation sowie partnerseitig Können und Bereitschaft) sowie von übergeordneten Zielen ab (Herrmann, 1982; Winterhoff-Spurk, Mangold & Herrmann, 1982). Weitere Einflussfaktoren sind Alter des Adressaten, Statusrelation, soziale Distanz und Öffentlichkeitsgrad (Blum-Kulka et al., 1985) sowie die Salienz situativ zu erwartender Hindernisse (Gibbs, 1985, 1994). Zwischen Standardisierungsgrad und anderen, von Rollenverständnis und Statusrelationen bestimmten, Situationsparametern (Legitimation, Können und Bereitschaft) besteht ein enger Zusammenhang (Herrmann, Winterhoff-Spurk, Mangold & Nirmaier, 1984; Mangold & Herrmann, 1987). Die Instrumentalität verschiedener Aufforderungsvarianten ist unterschiedlich und von der sozialen Situation (Engelkamp, Mohr & Mohr, 1985) sowie nonverbalen Verhaltenskomponenten (Winterhoff-Spurk, 1985) abhängig. Objektbenennungen werden wesentlich vom aktuellen Wahrnehmungsraum beeinflusst, um kontextdiskriminativ zu sein. Zur Benennung werden diejenigen Attribute ausgewählt, in denen sich ein Objekt von Kontextobjekten unterscheidet (Olson, 1970). Sprecher berücksichtigen weiterhin die Wahrnehmbarkeit von Attributen; perzeptiv saliente Objektattribute, z. B. die Farbe, werden bevorzugt thematisiert, auch wenn sie nicht zur eindeutigen Spezifikation des Zielobjekts beitragen (Mangold & Pobel, 1988). Bei multipler Benennbarkeit (d. h. Unterscheidung auf mehr als einer Dimension von den Kontextobjekten) wird die Selektion derjenigen Attributdimension präferiert, auf der sich das Zielobjekt am stärksten von den Kontextobjekten unterscheidet (Herrmann & Deutsch, 1976). Seltener benannt werden – selbst bei perzeptiver Salienz – Attribute, welche aufgrund ihrer Typikalität für eine Objektklasse präsupponiert werden können (Weiß & Mangold, 1997), oder solche, die aufgrund vorausgegangener ausführlicherer Benennungen nicht mehr erwähnt werden müssen (Clark & Clark, 1977; Krauss & Glucksberg, 1977; Krauss & Weinheimer, 1964). Ereigniswiedergaben werden hinsichtlich der Selektion kognitiver Inhalte (z. B. Episoden des Ereignisses, Detaillierungen, Eigenschaften und Handlungen des Sprechers oder Partners, allgemeines Weltwissen) wesentlich von der Kommunikationssituation (soziale Nähe, Statusrelation, Institutionalisiertheit) und den Kommunikationszielen beeinflusst
285 (Rummer, Grabowski, Hauschildt & Vorwerg, 1993). Die zur Versprachlichung selektierte Information kann auf verschiedene Weise aufbereitet (kognitiv verändert) werden (Aebli, 1981; Herrmann & Grabowski, 1994). Auch die Aufbereitung (z. B. Abstraktion, ironische Umkonzeptualisierung oder Fremdlob als Form der Kritik) ist Situationseinflüssen unterworfen. So dienen Abstraktionen oder Differenzierungen dazu, eine dem Kenntnisstand des Partners angemessene Spezifitätsebene der Bezeichnung zu finden (Grosser & MangoldAllwinn, 1989; Wintermantel, 1991). In sprachlichen Lokalisationen kann eine mentale Blickpunkttransformation in die Perspektive des Partners dessen Lokalisationsaufwand minimieren (Herrmann, Bürkle & Nirmaier, 1987). Die Häufigkeit partnerbezogener Lokalisationen hängt vom Alter und sozialen Status des Adressaten sowie von der kommunikativen Zielstellung ab (vgl. Herrmann, 1990; Herrmann & Schweizer, 1998). Häufig müssen die zu versprachlichenden Inhalte in eine bestimmte Reihenfolge gebracht werden (vgl. Herrmann, 1985; Levelt, 1982; Linde & Labov, 1975). Die Linearisierung von Raumbeschreibungen beispielsweise kann unter Nutzung verschiedener Strategien erfolgen. Die Modellierungstechnik, bei der der Raum, in dem das Gespräch stattfindet, als Modell für den beschriebenen Raum dient, beruht auf der gemeinsamen Situiertheit von Sprecher und Hörer in einer räumlichen Umgebung; die imaginäre Wanderung oder Blickwanderung dagegen ist davon unabhängig (Ullmer-Ehrich, 1982). 3.3. Wortwahl und grammatische Schemata Einige situative Faktoren der Wortwahl wurden bereits im vorangegangenen Abschnitt angesprochen, da ein enger Zusammenhang zu Selektions- und Aufbereitungsprozessen besteht (so bedingt eine konzeptuelle Abstraktion eine Benennung mit einem Hyperonym). Benennungsunterschiede ergeben sich auch durch vorgeordnete Konzeptualisierungs- und Kategorisierungsprozesse (vgl. Talmy, 1983), denen Bezugssysteme zugrunde liegen, welche u. a. durch situativ vorhandene Vergleichswerte gebildet bzw. beeinflusst werden (Haubensak, 1985; Helson, 1948; Metzger, 1954; Stevens, 1958) und teilweise vom Vorhandensein von Bezugsgrößen in der Situation abhängen (Vorwerg, 2001a). So reflektieren Benennungen von Raumrelationen
286 (vor; nah) oder Objektattributen (lang; blau) partiell eine Verortung in Relation zu situativen Bezugswerten (vgl. Vorwerg & Rickheit, 2000; Vorwerg, 2001b). Ähnliches gilt für die Beurteilung und Benennung von Fähigkeiten und Verhaltensweisen (welche beispielsweise sprachlich als deviant gekennzeichnet werden können, vgl. Hester, 1992). Perzeptive Faktoren sowie globale Handlungszusammenhänge sind weiterhin von Relevanz für die (initiale) Verwendung von Deiktika (Bühler, 1934/1982; Graumann, 1994; Lyons, 1983; Fillmore, 1997), unspezifischen Nomina, definiten Artikeln (Clark & Murphy, 1982), Demonstrativa und Pro-Formen (Barwise & Perry, 1983) sowie die Produktion von Ellipsen. Derartige Benennungen sind ökonomisch, da die spezifischen Bezeichnungen nicht bekannt sein (Schu, 1989) oder aktiviert werden müssen und gegebenenfalls auf grammatische Konstruktionen, die das Arbeitsgedächtnis belasten, verzichtet werden kann. Gleichzeitig entsprechen sie der Grice’schen Maxime der Quantität. Die lexikalische Spezifität verwendeter Nomina hängt außerdem vom kommunikativen Ziel und hörerseitigen Merkmalen ab (vgl. Mangold-Allwinn, Barattelli, Kiefer & Koelbing, 1995). Von der sozialen Beziehung zwischen Sprecher und Hörer werden sowohl die Verwendung von Höflichkeitsformen (Brown & Levinson, 1987), die Adressierung von Gesprächspartnern (Friedrich, 1972) als auch der Gebrauch von Intensivierungs- und Heckenausdrücken (Lakoff, 1973; Markkanen & Schröder, 1997) beeinflusst; inkonsistent sind die Ergebnisse zu der Frage, ob das Geschlecht des Gesprächspartners einen Einfluss auf die Verwendung von Intensivierungs- und Heckenausdrücken hat oder nicht (Bradac, Mulac & Thompson, 1995). Unterschiedliche Verbformen (z. B. ‘geben’/‘bekommen’) werden im Japanischen je nach identischer vs. verschiedener Gruppenzugehörigkeit verwendet (Wetzel, 1985). Situative Faktoren beeinflussen auch die grammatische Regelung der Spracherzeugung. Die Generierung von Ellipsen etwa kann auf Wissen über Handlungszusammenhänge oder Partnermerkmale beruhen (z. B. Frage im Freibad: Kalt?); in anderen Situationen wiederum, z. B. im Schulunterricht, sind Ellipsen oft nicht zugelassen. Die Wahl grammatischer Schemata (z. B. S-P-O vs. OP-S oder Anapher vs. Katapher) kann durch Partnermerkmale (z. B. Kenntnis konzeptuel-
III. Sprachproduktion
ler Relationen) beeinflusst werden (vgl. Herrmann & Grabowski, 1994). Äußerungslänge und syntaktische Komplexität unterscheiden sich zwischen Gesprächen im Freundeskreis, im Unterricht oder in der Pause (Weiss, 1975). Erwachsene Bezugspersonen verwenden Kindern gegenüber oft vereinfachte syntaktische Konstruktionen in Anpassung an den kindlichen Entwicklungsstand. Weitere Merkmale dieses vereinfachten Registers (‘Motherese’, ‘Ammensprache’ bzw. ‘baby talk’; Ferguson, 1964) betreffen die phonologische, die morphologische und die semantische Ebene. Unterschiedliche interaktive Funktionen im Gespräch können Konstruktionen am Satzrand haben (syntaktische Konstruktionen, in denen Konstituenten vor oder nach einen vollständigen Satz gestellt werden). Nachstellungen können beispielsweise bei vermuteten Verstehensproblemen seitens des Hörers oder zur expliziten Übergabe des Turns an den Rezipienten verwendet werden (Selting, 1994). Die Position eines Pronomens im Satz kann durch situierten Verweis auf eine wahrgenommene Person, in Verbindung mit Zeigegeste, bedingt sein (Lenerz, 1994). Die Partnerbezogenheit des Sprechens zeigt sich weiterhin in einer sprachlichen Akkommodation an den Kommunikationspartner (Giles, Coupland & Coupland, 1991), in der Abhängigkeit der Äußerungen von Rückmeldungen des Adressaten (Clark & WilkesGibbs, 1986), Syntax- und Sematikkoordination (Kindt & Rieser, 1999) sowie Perspektivenabstimmungen zwischen Sprecher und Hörer (Herrmann, 1990; Schober, 1993). 3.4. Prosodie, Phonetik und Lautstärke Intonation, Betonung, Aussprache und Lautstärke variieren situationsabhängig und interagieren in komplexer Weise mit den Äußerungsaspekten der Komponentenselektion, der Wortwahl und der Wortstellung. Ein solcher Zusammenhang besteht beispielsweise zwischen situationsdeiktischer Verwendung, Betonung und Position im Satz bei Pronomina (Lenerz, 1994). Konstruktionen am Satzrand (Voran- und Nachstellungen), welche interaktiven Funktionen dienen, bestimmen sich aus dem Zusammenspiel prosodischer und syntaktischer Signalisierungsmittel (Selting, 1994). In Aufforderungssituationen, die als reaktanzgefährdet eingeschätzt werden (geringe Bereitschaft des Adressaten bei hoher Legitimation des Sprechers) wird eine vergleichsweise tiefere Tonlage gewählt (Gra-
287
20. Situiertes Sprechen
bowski-Gellert & Winterhoff-Spurk, 1986). Die variable Direktheit von Äußerungen, die für das situationsspezifische Auffordern von großer Bedeutung ist, ergibt sich aus dem Zusammenwirken von Komponentenselektion (siehe 3.2), Satzmodus, Intonation und Mimik (Herrmann & Grabowski, 1994). Variationen der phonetischen Präzision zeigen sich in Abhängigkeit von beispielsweise der Offizialität einer Situation (Labov, 1972), Variationen der Lautstärke in Abhängigkeit davon, ob der Adressat dem eigenen oder dem entgegengesetzten Geschlecht angehört (Markel, Prebor, & Brandt, 1972). 3.5. Varietäten, Stile und Register Die Verwendung zweier Varietäten (z. B. Mundart und Standardsprache in der deutschsprachigen Schweiz) oder Sprachen (z. B. Spanisch und Guarani in Paraguay; Fishman, 1972; Rubin, 1968) in einer Sprachgemeinschaft erfolgt oft situationsabhängig, insbesondere in Abhängigkeit von Offizialität und Institutionalisiertheitsgrad. Situationales ‘codeswitching’ kann z. B. auch in Beziehung zu einer Veränderung der sozialen Rollen und Handlungen stehen (z. B. Lehrerin und Schüler im Unterricht oder in der Pause; privates Gespräch oder Kreditverhandlung in einer Bank; vgl. Blom & Gumperz, 1972). Register, d. h. an bestimmte, rekurrente Situationstypen gebundene Formen des Sprechhandelns (Hymes, 1979), werden je nach Handlungseinbettung sowie Adressaten und weiteren anwesenden Personen aktualisiert. Selbst innerhalb eines Registers können situationsabhängig Variationen auftreten (Levin & Snow, 1985). Kinder lernen bereits ab dem Vorschulalter, dass Vulgärausdrücke in bestimmten Situationen und bei ganz bestimmten Personengruppen nicht verwendet werden dürfen (vgl. Herrmann, 1978). In spezifischen Situationen können unterschiedliche Stile vorkommen und zum Teil bewusst eingesetzt werden (z. B. Humor, Ironie, gewählte Ausdrucksweise, exakte Terminologie, gehäufte Nominalisierungen, ‘political correctness’, feierlicher, emotionaler, aggressiver oder sachlich-nüchterner Stil).
4.
Theoretische Ansätze und Kontroversen zum Situiertheitsbegriff
Kompetenter Sprachgebrauch beinhaltet die auf verschiedenen Wissensbeständen und Fertigkeiten beruhende Fähigkeit, Wörter so
zu verwenden, dass der Adressat (a) zu den richtigen Inferenzen veranlasst wird darüber, was gemeint ist (Informativitätsaspekt) und (b) so reagiert bzw. handelt, wie beabsichtigt (Instrumentalitätsaspekt) (Herrmann, 1982). Die bloße Kenntnis der Bedeutung der einzelnen Wörter und der Regeln ihrer Verknüpfung zu grammatischen Sätzen ist nicht ausreichend, um ein entsprechendes Verstehen und Reagieren des Partners zu erreichen (Gibbs, 1985). In diesem Punkt sind sich alle Ansätze, die die Situiertheit des Sprechens berücksichtigen, einig. Viel diskutierte Beispiele dafür, dass sprachliche Oberflächenstruktur und kommunikative Absichten in unterschiedlichen Situationen nicht korrespondieren müssen, sind indirekte Sprechakte (Searle, 1975) und konversationelle Implikaturen (Grice, 1975). Weniger Übereinstimmung besteht hinsichtlich der Frage, was von all den weiteren Faktoren und Bedingungen der Sprachproduktion, deren Einfluss auf die Äußerungserzeugung in der Regel unstrittig ist, zur Situation zu rechnen sei, wie diese aufzufassen ist und in welcher Weise sie wirksam wird. Der Situationsbegriff bewegt sich dabei im Spannungsfeld mehrerer Dichotomien (dialektisch aufeinander bezogener Kategorien): ⫺ ⫺ ⫺ ⫺
intern (Person) versus extern (Umgebung) sprachlich versus außersprachlich überdauernd versus momentan geplant versus reaktiv
Ebenso wie andere Verhaltensformen resultieren Sprechhandlungen sowohl aus personalen als auch aus situativen Faktoren und deren Interaktion. In diesem Sinne wird der Situationsbegriff oft gleichbedeutend mit ‘Umwelt’ oder ‘Umgebung’ verwendet (siehe z. B. Lantermann, 1980). Die Abgrenzung situativer von personalen Determinanten ist für individuenzentrierte Untersuchungen und Ansätze von Relevanz, wie sie etwa in der prozessorientierten Psycholinguistik im Mittelpunkt stehen. Andere Begriffsbestimmungen können sich je nach Untersuchungsgegenstand ergeben (z. B. bei Analyse einer Kommunikationsdyade, wie sie vielleicht ein externer Beobachter wahrnimmt). Umgebungszustände und -ereignisse beeinflussen Sprachproduktionsprozesse nicht unmittelbar, sondern vermittelt durch individuelle kognitive und bewertende Prozesse. Verschiedene Situiertheitsansätze unterscheiden sich danach, ob sie die objektiv-reale oder die subjektiv-interpretierte Situation in den Mittelpunkt der Überlegungen stellen
288 (z. T. auch einseitig verabsolutieren) oder aber gerade den Repräsentationscharakter der individuellen Situationsauffassung betonen und damit auch gerade das Verhältnis von realer und interpretierter Situation betrachten (vgl. 2.4). Grundlegend für verschiedene Ansätze zur Situiertheit menschlicher Sprachverarbeitung, Kognition und Handlung ist der Gedanke, kognitive Systeme nicht isoliert, sondern in der für sie konstitutiven Interaktion mit ihrer Umwelt zu betrachten. Zu berücksichtigen sind die Fähigkeiten der Person, die Situation, in der sie sich befindet, wahrzunehmen, zu verstehen und auf ihre Umwelt einzuwirken sowie Rückmeldungen über Konsequenzen des Handelns zu verarbeiten. Bei einigen der Arbeiten, die den Ausgangspunkt ihrer Überlegungen in der materiellen, physikalischen Umgebung sehen, besteht eine Tendenz zum ‘naiven Realismus’, d. h. dem Ausgehen von einer objektiv-realen Existenz der materiellen Welt, ohne jedoch in deren Erkenntnis ein Problem zu sehen. Dabei besteht die Gefahr nicht nur einer Reduktion kognitiver Verarbeitungsprozesse auf die Wahrnehmung, sondern auch einer extrem vereinfachenden Behandlung der an der Wahrnehmung beteiligten komplexen Verarbeitungsprozesse unterschiedlicher Ebenen des kognitiven Systems, bis hin zu einer zum Teil völligen Vernachlässigung oder Negierung des Anteils der eigenen Aktivität des kognitiven Systems bzw. des eigenen Erfahrungshintergrunds an der Situationsauffassung. Ganz im Gegensatz dazu nehmen einige der von der sozialen Situation und kulturellen Einflüssen ausgehenden Ansätze eine ‘Konstruktion der Wirklichkeit durch die Aktivität des Gesprächs über sie’ an und tendieren eher dazu, die bestehende Realität sowie die Fähigkeit zu deren Wahrnehmung und die so gegebene Möglichkeit der situativen Beschränkung und Beeinflussung des (auch sprachlichen) Handelns zu vernachlässigen oder zu negieren. Demgegenüber scheint es notwendig, bei der Untersuchung der situationsspezifischen Erzeugung sprachlicher Äußerungen sowie der dabei ablaufenden kognitiven Prozesse sowohl deren Ko-Determination durch physische, soziale und tätigkeitsbezogene Aspekte der (real bestehenden) Situation als auch Verarbeitungsprozesse und Aktivität der sprechenden (und allgemein handelnden) Person zu berücksichtigen. Die Interaktion zwischen personalen und situativen Faktoren
III. Sprachproduktion
erweist sich dabei sowohl in der ‘Brechung’ der Situation durch deren Auffassung durch das Individuum als auch in der möglichen Rückwirkung von Handlungen der Person auf die Situation. Das Situationsverständnis entsteht aus dem Zusammentreffen bestimmter objektiver Umgebungsbedingungen und bereits vorhandener Personenbedingungen, z. B. aktiviertes Wissen und Erfahrungen, erlernte Situationsschemata (Herrmann, 1982), aber auch Motive, Bewertungshaltungen, kognitive Voraussetzungen zur Situationsanalyse und Bewältigungsstile. Emotionen liefern Informationen dazu, dass etwas an der Situation wichtig ist, und über den eigenen allgemeinen Standpunkt zum Geschehen (Cranach & Kalbermatten, 1982). Die produzierte Äußerung ist danach eine Funktion der sprechenden Person, der Situation und der Wechselwirkung von Person und Situation (vgl. Lewin, 1963). Ergebnisse eigenen (auch Sprech-)Handelns verändern Situationen über die Antizipation künftiger Resultate und deren Speicherung als Ziele der Handlung; damit gehen mentale Veränderungen situativen Veränderungen voraus (vgl. Hacker, 1982); dies gilt auch für Aspekte sozialer Situationen (z. B. über kommunikatives Feedback oder durch entsprechende Sprachverwendung; vgl. Gumperz, 1992, zur ‘Kontextualisierung’). Die Instrumentalität einer Äußerung lässt sich danach anhand der Verringerung der Ist-Soll-Diskrepanz bewerten (vgl. Herrmann, 1985). Umgekehrt können situative Anforderungen auch persönliche Veränderungen, z. B. Erweiterungen des Verhaltenspotentials oder Wissenserwerb, bewirken. Darüber hinaus sind Situationen nicht nur von außen gegeben, sondern können auch von der Person aktiv aufgesucht oder gemieden werden. Es wird deutlich, dass zwischen Situation und Person vielfältige reziproke Beziehungen und Wechselwirkungen bestehen. Die Abgrenzung zwischen Person und Situation ist insofern schwierig, als zum einen die soziale Situation vor allem in Relation zu Sprechermerkmalen wirksam wird (vgl. 2.2) und zum anderen Sprechermerkmale situativ mitbestimmt sein können (z. B. soziale Rolle). Andere Ansätze sehen den Situationsbezug vor allem darin, dass auch nichtsprachliche Faktoren Aspekte der sprachlichen Äußerung beeinflussen, und bemühen sich in erster Linie, das Verhältnis von Situation und Äußerung zu klären (z. B. Terbuyken, 1976). Die Situation ist unter diesem Gesichtspunkt die ‘Schnittstelle’ relevanter außersprachlicher
289
20. Situiertes Sprechen
Parameter, zu denen oft auch Weltwissen und andere Merkmale seitens des Sprechers gerechnet werden. Die Unterscheidung zwischen Person und Situation ist damit im Extremfall völlig aufgehoben. Gleichwohl ist auch die Differenzierung zwischen sprachlichen und situativen Faktoren nicht immer unproblematisch. So können Bezugselemente für Pro-Formen sowohl im sprachlichen (textlichen) wie auch im situativen Kontext zu suchen sein. In diesem Sinne wird ‘Kontext’ gleichsam als Oberbegriff verwendet. Andere Autoren unterscheiden ‘Kontext’ und ‘Situation’ (z. B. Bühler, 1934/1982); in weiteren Arbeiten werden beide Begriff synonym verwendet. Der Abgrenzung sprachlichen und situativen Kontexts steht die Auffassung gegenüber, dass jede Äußerung, sobald sie ausgesprochen ist, zur Situation gehört, da sie nachfolgende Äußerungen beeinflussen kann. Darüber hinaus sind in vielen Bereichen Sprache und Situation eng verflochten, so dass z. B. Textsorten auch über die Kommunikationssituation, in die ein Text eingebettet ist, klassifiziert werden. Eine weitere Nuance des Situationsbegriffs betrifft den Zeitbezug, d. h. die Abgrenzung ‘momentan’, zum Zeitpunkt der Sprachproduktion präsenter bzw. wirksamer Faktoren gegenüber relativ überdauernden, situationsübergreifenden Momenten. Dabei können Situationen als punktuell aufgefasst werden oder aber als zeiterstreckt. In diesem Fall stellt sich die Frage, wie Situationen voneinander abgegrenzt werden können. Definiert man kommunikative Situationen über Gesprächsthemen, kann dieses Vorgehen als komplementär zur Bestimmung von Textsorten aus Kommunikationssituationen aufgefasst werden und zeigt wiederum das Ineinandergreifen von Sprache und Situation. Unter dem Gesichtspunkt des Zeitbezugs wird ‘Situation’ oft in Abgrenzung von länger zurückliegenden oder permanenten Einflussfaktoren und Gegebenheiten aufgefasst (siehe z. B. Coˆte´ & Cle´ment, 1994, zur Interaktion soziostruktureller und situativer Variablen), unter Betonung von Simultaneität und Bezug zum hic und nunc (z. B. Scherer, 1989). Die einzelnen Bestandteile einer Situation können vergleichsweise überdauernd sein (anders ausgedrückt: situationsinvariant); aus ihrer Konstellation und den möglichen Beziehungen (z. B. räumlicher, kausaler oder sozialer Art), die sie zu einem bestimmten Zeitpunkt eingehen, ergibt sich die Situation (vgl. z. B. Barwise & Perry, 1983).
Ein weiterer Gesichtspunkt von Situiertheit betrifft das Reagieren auf unvorhergesehene Anforderungen und Veränderungen im Unterschied zu komplettem Planen vor Handlungsbeginn (Hert, 1995; Suchman, 1987). Jedoch können auch Reaktionen auf mögliche spezifische Situationen geplant werden. So kann auch die Antizipation möglicher Einwände, Fragen oder Folgerungen des Gesprächspartners Bestandteil der Sprechplanung sein. Unter dem Reaktivitätsgesichtspunkt werden beispielsweise bestimmte Äußerungsformen wie Predigten oder Vorträge als weniger situiert im Vergleich zu anderen beschrieben. In der Regel ergänzen sich Voraus-Planen und situatives Reagieren. So wird häufig nur grob geplant (z. B. jemanden zu überreden oder eine Aussprache zu einem bestimmten Problem zu führen), während die eigentliche Ausführungshandlung (z. B. Wortwahl, Argumente, Einleitung, Kontaktaufnahme) zunächst noch unbestimmt bleibt (vgl. Lewin, 1926). Darüber hinaus ist zu beachten, dass Sprecher, wie bereits erwähnt, auf Situationen nicht nur reagieren, sondern diese auch aktiv aufsuchen oder herbeiführen können. Weitere Fragestellungen, die in Zusammenhang mit dem Situationsbegriff diskutiert oder unterschiedlich akzentuiert werden, betreffen unterschiedliche Aspekte von Situiertheit. Die Frage der Situationsentbindbarkeit der Sprache (vgl. z. B. Bühler, 1934/1982: 23, zu ‘situationsfernen Reden’, bezieht sich vor allem auf den Verständlichkeitsaspekt (ohne Kenntnis situativer Momente) und wird beispielsweise im Hinblick auf Unterschiede zwischen geschriebener und gesprochener Sprache oder auch zwischen Umgangs- und Fachsprache diskutiert. Die Situationsadäquatheit sprachlicher Äußerungen bezieht sich dagegen auf die (auch normabhängige) Angemessenheit sprachlicher Mittel und damit auch auf die Instrumentalität von Äußerungen und spielt beispielsweise für Übersetzungsfragen oder den Zweitsprachenerwerb eine bedeutende Rolle (vgl. z. B. Markkanen & Schröder, 1997, zum Problem der situationsadäquaten Verwendung von Heckenausdrücken).
5.
Literatur
Aebli, H. (1981). Denken. Das Ordnen des Tuns (Bd. 2). Stuttgart: Klett-Cotta. Argyle, M., Furnham, A. & Graham, J. (1981). Social situations. Cambridge: Cambridge Univ. Press.
290 Atkinson, P. (1988). Ethnomethodology. A critical review. Annual Review of Sociology, 14, 441⫺465. Austin, J. L. (1962). How to do things with words. Oxford: Oxford Univ. Press (dt. 1979). Barwise, J. & Perry, J. (1983). Situations and attitudes. Cambridge, MA: MIT Press/Bradford (dt. 1987). Bayer, K. (1977). Sprechen und Situation. Aspekte einer Theorie der sprachlichen Interaktion. Tübingen: Niemeyer. Beattie, G. L. & Shovelton, H. (1999). Mapping the range of information contained in the iconic hand gestures that accompany spontaneous speech. Journal of Language and Social Psychology, 18, 438⫺462. Beckmann, J. (1985). Handlungs- und Lageorientierung. In Herrmann, T. & Lantermann, E. D. (Hrsg.), Persönlichkeitspsychologie. Ein Handbuch in Schlüsselbegriffen (pp. 277⫺284). München: Urban & Schwarzenberg. Berlyne, D. E. (1974). Konflikt, Erregung, Neugier. Zur Psychologie der kognitiven Motivation. Weinsberg: Ernst Klett (Original 1960). Blom, J. P. & Gumperz, J. J. (1972). Social meaning in linguistic structures. Code switching in Norway. In J. J. Gumperz & D. Hymes (Eds.), Directions in sociolinguistics (pp. 407⫺434). New York: Holt, Rinehart & Winston. Blum-Kulka, S., Danet, B. & Gherson, R. (1985). The language of requesting in Israeli society. In J. P. Forgas (Eds.), Language and social situations (pp. 113⫺139). New York: Springer. Bradac, J. J., Mulac, A. & Thompson, S. A. (1995). Men’s and women’s use of intensifiers and hedges in problem-solving interaction. Molar and molecular analyses. Research on language and social interaction, 28, 93⫺116.
III. Sprachproduktion Cranach, M. v. & Kalbermatten, U. (1982). Zielgerichtetes Alltagshandeln in der sozialen Interaktion. In Hacker, W., Volpert, W. & Cranach, M. v. (Hrsg.), Kognitive und motivationale Aspekte der Handlung (pp. 59⫺75). Bern: Huber. Deppermann, A. & Spranz-Fogasy, T. (2001). Aspekte und Merkmale der Gesprächssituation. In K. Brinker, G. Antos, W. Heinemann & S. F. Sager (Hrsg.), Text- und Gesprächslinguistik. Ein internationales Handbuch zeitgenössischer Forschung (Bd. 2). (pp. 1148⫺1161) Berlin: de Gruyter. Egg, M., Gardent, C. & Kohlhase, M. (1998). Steuerung der Inferenz in der Diskursverarbeitung. Kognitionswissenschaft, 7, 106⫺110. Engelkamp, J., Mohr, G. & Mohr, M. (1985). Zur Rezeption von Aufforderungen. Sprache & Kognition, 4, 65⫺75. Ferguson, C. A. (1964). Baby talk in six languages. American Anthropologist, 66, 103⫺114. Fillmore, C. (1997). Lectures on deixis. Stanford: CSLI. Fishman, J. A. (1972). The relationship between micro- and macro-sociolinguistics in the study of who speaks what language to whom and when. In J. B. Pride & J. Holmes (Eds.), Sociolinguistics (pp. 15⫺32). Hammondsworth: Penguin. Forgas, J. P. (1985). Language and social situations: An introductory review. In J. P. Forgas (Eds.), Language and social situations (pp. 1⫺28). New York: Springer. Friedrich, P. (1972). Social context and semantic feature. In J. J. Gumperz & D. Hymes (Eds.), Directions in sociolinguistics (pp. 270⫺301). New York: Holt, Rinehart and Winston. Garvey, C. (1975). Requests and responses in children’s speech. Journal of Child Language, 2, 41⫺63.
Brown, P. & Levinson, S. C. (1987). Politeness. Some universals in language usage. Cambridge: Cambridge Univ. Press.
Gibbs, R. W. (1985). Situational conventions and requests. In J. P. Forgas (Ed.), Language and social situations (pp. 97⫺110). New York: Springer.
Bühler, K. (1934). Sprachtheorie. Jena: Gustav Fischer (Neudruck 1982).
Gibbs, R. W. (1994). Figurative thought and figurative language. In M. A. Gernsbacher (Ed.), Handbook of psycholinguistics (pp. 411⫺446). San Diego: Academic Press.
Clark, H. H. & Clark, E. V. (1977). Psychology and language. New York: Harcourt Brave Jovanovich. Clark, H. H. & Murphy, G. L. (1982). Audience design in meaning and reference. In J. F. LeNy & W. Kintsch (Eds.), Language and comprehension (pp. 287⫺289). Amsterdam: North Holland. Clark, H. H. & Wilkes-Gibbs, D. (1986). Referring as a collaborative process. Cognition, 22, 1⫺39. Coˆte´, P. & Cle´ment, R. (1994). Language attitudes: An interactive situated approach. Language and Communication, 14, 237⫺251.
Gibson, J. J. (1979). The ecological approach to visual perception. Boston: Houghton-Mifflin. Giles, H., Coupland, J. & Coupland, N. (Eds.). (1991). Contexts of accommodation. Cambridge: Cambridge Univ. Press. Gordon, D. & Lakoff, G. (1979). Konversationspostulate. In G. Meggle (Hrsg.), Handlung, Kommunikation, Bedeutung (pp. 327⫺353). Frankfurt/ M.: Suhrkamp.
20. Situiertes Sprechen
291
Grabowski-Gellert, J. & Winterhoff-Spurk, P. (1986). Sprechen, Betonen, Lächeln. Teil I: Zur Interaktion verbaler und nonverbaler Äußerungskomponenten beim Auffordern (Arbeiten der Forschergruppe ‘Sprechen und Sprachverstehen im sozialen Kontext’ Heidelberg/Mannheim, Bericht Nr. 5). Universität Mannheim: Lehrstuhl Psychologie III.
Herrmann, T. (1978). Zur Entwicklung der Sprachschichtrepräsentation in der späten Kindheit. In G. Augst (Hrsg.), Spracherwerb von 6 ⫺ 16 (pp. 209⫺ 219). Düsseldorf: Schwann.
Graumann, C. F. (1994). Wieviel Zeigen steckt im Nennen? In H. J. Kornadt, J. Grabowski & R. Mangold-Allwinn (Hrsg.), Sprache und Kognition. Perspektiven moderner Sprachpsychologie (pp. 55⫺ 69). Heidelberg: Spektrum Akademischer Verlag.
Herrmann, T. (1985). Allgemeine Sprachpsychologie. Grundlagen und Probleme. München: Urban & Schwarzenberg.
Greeno, J. G. & Moore, J. L. (1993). Situativity and symbols: Response to Vera and Simon. Cognitive Science, 17, 49⫺59. Grice, H. P. (1975). Logic and conversation. In P. Cole & J. L. Morgan (Eds.), Syntax and semantics. Vol. 3: Speech acts (pp. 41⫺58). New York: Academic Press. Grimm, H. (1982). Sprachentwicklung. Voraussetzungen, Phasen und theoretische Interpretationen. In R. Oerter & L. Montada (Hrsg.), Entwicklungspsychologie (pp. 506⫺566). München: Urban & Schwarzenberg. Grosser, C. & Mangold-Allwinn, R. (1989). Zur Variabilität von Objektbenennungen in Abhängigkeit von Sprecherzielen und kognitiver Kompetenz des Partners (Arbeiten aus dem Sonderforschungsbereich 245 ‘Sprechen und Sprachverstehen im sozialen Kontext’ Heidelberg/Mannheim, Bericht Nr. 12). Universität Mannheim: Lehrstuhl Psychologie III. Gumperz, J. J. (1992). Contextualization revisited. In P. Auer & A. di Luzio (Eds.), The contextualization of language (pp. 39⫺53). Amsterdam: Benjamins. Hacker, W. (1982). Gibt es eine Grammatik des Handelns? Kognitive Regulation zielgerichteter Handlungen. In Hacker, W., Volpert, W. & Cranach, M. v. (Hrsg.), Kognitive und motivationale Aspekte der Handlung (pp. 18⫺25). Bern: Huber.
Herrmann, T. (1982). Sprechen und Situation. Eine psychologische Konzeption zur situationsspezifischen Sprachproduktion. Berlin: Springer.
Herrmann, T. (1989). Sprachpsychologische Beiträge zur Partnerbezogenheit des Sprechens. In H. Scherer, (Hrsg.), Sprache in Situation. Eine Zwischenbilanz (pp. 179⫺204). Bonn: Romanistischer Verlag. Herrmann, T. (1990). Das partnerbezogene Lokalisieren von Objekten in der Kommunikation. Ein neues Forschungsthema zwischen Sprachpsychologie und Linguistik. Zeitschrift für Semiotik, 12, 115⫺131. Herrmann, T., Bürkle, B. & Nirmaier, H. (1987). Zur hörerbezogenen Raumreferenz: Hörerposition und Lokalisationsaufwand. Sprache & Kognition, 6(3), 126⫺137. Herrmann, T. & Grabowski, J. (1994). Sprechen. Psychologie der Sprachproduktion. Heidelberg: Spektrum Akademischer Verlag. Herrmann, T. & Laucht, M. (1977). Pars pro toto. Überlegungen zur situationsspezifischen Variation des Sprechens. Psychologische Rundschau, 28, 247⫺265. Herrmann, T. & Schweizer, K. (1998). Sprechen über Raum. Sprachliches Lokalisieren und seine kognitiven Grundlagen. Bern: Huber. Herrmann, T. & W. Deutsch. (1976). Psychologie der Objektbenennung. Bern: Huber. Herrmann, T., Winterhoff-Spurk, P., Mangold, R. & Nirmaier, H. (1984). Auffordern und Informationsnutzung. Sprache und Kognition, 1, 41⫺53.
Harras, G. (1983). Handlungssprache und Sprechhandlung. Eine Einführung in handlungstheoretische Grundlagen. Berlin: de Gruyter.
Hert, C. A. (1995). Information retrieval as situated action. Proceedings of the ASIS annual meeting, 32, 172⫺180.
Haubensak, G. (1985). Absolutes und vergleichendes Urteil. Eine Einführung in die Theorie psychischer Bezugssysteme. Berlin: Springer.
Hester, S. (1992). Recognizing references to deviance in talk. In G. Watson & R. M. Seiler (Eds.), Text in context. Contributions to ethnomethodology (pp. 156⫺174). Newbury Park: Sage.
Heckhausen, H. (1977). Motivation: Kognitionspsychologische Aufspaltung eines summarischen Konstrukts. Psychologische Rundschau, 28, 175⫺ 189.
Hörmann, H. (1976). Meinen und Verstehen. Grundzüge einer psychologischen Semantik. Frankfurt/M.: Suhrkamp.
Helson, H. (1948). Adaptation-level as a basis for a quantitative theory of frames of reference. Psychological Review, 55, 297⫺313.
Hundsnurscher, F. (1989). Sprachliche Äußerungen als Bindeglieder zwischen Sprechsituationen und Kommunikationszwecken. In H. Scherer H.
292 (Hrsg.), Sprache in Situation. Eine Zwischenbilanz (pp. 115⫺153). Bonn: Romanistischer Verlag. Hymes, D. (1979). Soziolinguistik. Zur Ethnographie der Kommunikation. Frankfurt/M.: Suhrkamp. Kallmeyer, W. & Schütze, W. (1976). Konversationsanalyse. Studium Linguistik, 1, 1⫺28. Kindt, W. & Rieser, H. (1999). Syntax- und Semantikkoordination im Dialog. Kognitionswissenschaft, 8, 123⫺128. Klix, F. (1985). Erwachendes Denken. Eine Entwicklungsgeschichte der menschlichen Intelligenz. Berlin: Deutscher Verlag der Wissenschaften. Koffka, K. (1935). Principles of gestalt psychology. New York: Harcourt, Brace & World. Krauss, R. M. & Glucksberg, S. (1977). Social and nonsocial speech. Scientific American, 236, 100⫺ 105. Krauss, R. M. & Weinheimer, S. (1964). Changes in reference phrases as a function of frequency of usage in interaction. Psychonomic Science, 1, 113⫺114. Labov, W. (1972). Sociolinguistic patterns. Philadelphia: Univ. of Philadelphia Press. Lakoff, G. (1973). Hedges: A study in meaning criteria and the logic of fuzzy concepts. Journal of Philosophical Logic, 2, 458⫺508. Lantermann, E. D. (1980). Interaktionen. Person, Situation und Handlung. München: Urban & Schwarzenberg. Lenerz, J. (1994). Pronomenprobleme. In B. Haftka (Hrsg.), Was determiniert Wortstellungsvariation? Studien zu einem Interaktionsfeld von Grammatik, Pragmatik und Sprachtypologie (pp. 161⫺173). Opladen: Westdeutscher Verlag. Levelt, W. J. M. (1982). Linearization in describing spatial networks. In S. Peters & E. Saarinen (Eds.), Processes, beliefs, and questions: Essays on formal semantics of natural language and natural language processing (pp. 199⫺220). Dordrecht: Reidel. Levin, H. & Snow, C. (1985). Situational variations within social speech registers. In J. P. Forgas (Ed.), Language and social situations (pp. 47⫺57). New York: Springer. Lewin, K. (1926). Untersuchungen zur Handlungsund Affektpsychologie. II. Vorsatz, Wille und Bedürfnis. Psychologische Forschung, 7, 330⫺385.
III. Sprachproduktion Luria, A. R. (1961). The role of speech in the regulation of normal and abnormal behavior. New York: Liveright Publishing Corporation. Luria, A. R. (1987). Die historische Bedingtheit individueller Erkenntnisprozesse. Berlin: Deutscher Verlag der Wissenschaften. Lyons, J. (1983). Semantik (Bd. 2). München: Beck. Mangold, R. & Herrmann, T. (1987). Schemata for requests. In G. Semin & B. Krahe´ (Eds.), Issues in contemporary social psychology (pp. 203⫺217). London: Sage. Mangold, R. & Pobel, R. (1988). Informativeness and instrumentality in referential communication. Journal of Language and Social Psychology, 7, 181⫺191. Mangold-Allwinn, R., Barattelli, S., Kiefer, M. & Koelbing, H. G. (1995). Wörter für Dinge. Von flexiblen Konzepten zu variablen Benennungen. Opladen: Westdeutscher Verlag. Markkanen, R. & Schröder, H. (1997). Hedging: A challenge for pragmatics and discourse analysis. In R. Markkanen & H. Schröder (Eds.), Hedging and discourse: Approaches to the analysis of a pragmatic phenomenon in academic texts (pp. 3⫺18). Berlin: Walter de Gruyter. Markel, N. N., Prebor, L. D. & Brandt, J. F. (1972). Biosocial factors in dyadic communication: Sex and speaking intensity. Journal of Personality and Social Psychology, 23, 11⫺13. Marwell, G. & Hage, J. (1970). The organization of role relationships. A systematic description. American Sociological Review, 35, 884⫺900. Metzger, W. (1954). Psychologie. Darmstadt: Steinkopff. Metzing, D., Milde, J. T., Rae, R. & Ritter, H. (1999). Kommunizierende Agenten: Gestische und natürlichsprachliche Interaktion. Kognitionswissenschaft, 8, 129⫺136. Moerman, M. (1988). Talking culture. Ethnography and conversation analysis. Pennsylvania: Univ. of Pennsylvania Press. Norman, D. A. (1993). Cognition in the head and in the world: An introduction to the special issue on situated action. Cognitive Science, 17, 1⫺6.
Lewin, K. (1963). Feldtheorie in den Sozialwissenschaften. Bern: Huber.
Oerter, R. (1982). Zur Entwicklung der Motivation und Handlungssteuerung. In R. Oerter & L. Montada (Hrsg.), Entwicklungspsychologie (pp. 567⫺ 632). München: Urban & Schwarzenberg.
Linde, C. & Labov, W. (1975). Spatial networks as a site for the study of language and thought. Language, 51, 924⫺939.
Oerter, R., Dreher, E. & Dreher, M. (1977). Kognitive Sozialisation und subjektive Struktur. München: Oldenbourg.
20. Situiertes Sprechen Olson, D. R. (1970). Language and thought: Aspects of a cognitive theory of semantics. Psychological Review, 77, 257⫺273. Piaget, J. (1923). Le langage et la pense´e chez l’enfant. Neufchaˆtel-Paris: Delachaux et Niestle´. (deutsch: Sprechen und Denken des Kindes. Düsseldorf: Schwann 1972). Porsch, P. (1984). Außersprachliche Determinanten der sprachlichen Kommunikation aus soziolinguistischer Sicht. Wissenschaftliche Zeitschrift der KarlMarx-Universität Leipzig, Gesellschafts- und Sprachwissenschaftliche Reihe, 33, 464⫺469.
293 Schütz, A. (1974). Der sinnhafte Aufbau der sozialen Welt. Frankfurt: Suhrkamp. Searle, J. R. (1969). Speech acts. Cambridge: Cambridge Univ. Press (dt. 1971). Searle, J. R. (1975). Indirect speech acts. In P. Cole & L. Morgan (Eds.), Syntax and semantics. Vol. 3: Speech acts (pp. 59⫺82). New York: Academic Press.
Psathas, G. & Kozloff, M. (1976). The structure of directions. Semiotica, 17, 111⫺130.
Selting, M. (1994). Konstruktionen am Satzrand als interaktive Ressource in natürlichen Gesprächen. In B. Haftka (Hrsg.), Was determiniert Wortstellungsvariation? Studien zu einem Interaktionsfeld von Grammatik, Pragmatik und Sprachtypologie (pp. 299⫺318). Opladen: Westdeutscher Verlag.
Rickheit, G. & Strohner, H. (1993a). Zu einer kognitiven Theorie konzeptueller Inferenzen. In F. Beckmann & G. Heyer (Hrsg.), Theorie und Praxis des Lexikons (pp. 141⫺163). Berlin: de Gruyter.
Singer, M. (1994). Discourse inference processes. In M. A. Gernsbacher (Ed.), Handbook of psycholinguistics (pp. 479⫺515). San Diego: Academic Press.
Rickheit, G. & Strohner, H. (1993b). Grundlagen der kognitiven Sprachverarbeitung. Tübingen: Francke Verlag.
Stern, C. & Stern, W. (1907). Die Kindersprache. Eine psychologische und sprachtheoretische Untersuchung. Leipzig: Barth.
Rickheit, G. & Strohner, H. (1994). Kognitive Grundlagen situierter künstlicher Kommunikatoren. In H. J. Kornadt, J. Grabowski & R. Mangold-Allwinn (Hrsg.), Sprache und Kognition. Perspektiven moderner Sprachpsychologie (pp. 73⫺92). Heidelberg: Spektrum Akademischer Verlag.
Stevens, S. S. (1958). Adaptation-level vs. relativity of judgment in psychophysics. American Journal of Psychology, 71, 633⫺646.
Rickheit, G. & Strohner, H. (1999). Von der Proposition zur Situation. In A. D. Friederici (Hrsg.), Enzyklopädie der Psychologie. C. Theorie und Forschung. III Sprache (pp. 271⫺306). Göttingen: Hogrefe.
Suchman, L. A. (1987). Plans and situated actions. The problem of human-machine communication. New York: Cambridge Univ. Press.
Roderburg, S. (1995). ‘Kommunikation als Ereignis’ – Kommunikation über ein Ereignis. Kolloquium des SFB 245: Sprache und Situation. Deutsche Sprache, 23, 178⫺187. Rubin, J. (1968). National bilingualism in Paraguay. The Hague: Mouton. Rummer, R., Grabowski, J., Hauschildt, A. & Vorwerg, C. (1993). Reden über Ereignisse. Der Einfluss von Sprecherzielen, sozialer Nähe und Institutionalisiertheitsgrad auf Sprachproduktionsprozesse (Arbeiten aus dem Sonderforschungsbereich 245 ‘Sprache und Situation’ HD/MA, Bericht Nr. 56). Mannheim: Universität, Lehrstuhl Psychologie III. Scherer, H. (1989). Situationsgebundene Kommunikation. In H. Scherer (Hrsg.), Sprache in Situation. Eine Zwischenbilanz (pp. 56⫺80). Bonn: Romanistischer Verlag. Schober, M. F. (1993). Spatial perspective taking in conversation. Cognition, 47, 1⫺24. Schu, J. (1989). Thema und Situation in Kind-Erwachsenen-Dialogen. In H. Scherer (Hrsg.), Sprache in Situation. Eine Zwischenbilanz (pp. 223⫺ 246). Bonn: Romanistischer Verlag.
Suchman, L. (1993). Response to Vera and Simon’s ‘Situated action: A symbolic interpretation’. Cognitive Science, 17, 71⫺75.
Talmy, L. (1983). How language structures space. In H. Pick & L. Acredolo (Eds.), Spatial orientation: Theory, research and application (pp. 225⫺ 282). Stanford: Stanford Univ. Press. Terbuyken, G. (1976). Sprechform, Sozialstruktur und Verstehensprozess. Zur kommunikativen Funktion formaler Merkmale gesprochener Sprache. Bochum: Brockmeyer. Ullmer-Ehrich, V. (1982). The structure of living space descriptions. In R. J. Jarvella & W. Klein (Eds.), Speech, place, and action (pp. 219⫺249). Chichester: Wiley. Velichkovsky, B. M. (1994). Sprache, Evolution und funktionale Organisation der menschlichen Erkenntnis. In H. J. Kornadt, J. Grabowski & R. Mangold-Allwinn (Hrsg.), Sprache und Kognition. Perspektiven moderner Sprachpsychologie (pp. 113⫺131). Heidelberg: Spektrum Akademischer Verlag. Vorwerg, C. (2001a). Raumrelationen in Wahrnehmung und Sprache. Kategorisierungsprozesse bei der Benennung visueller Richtungsrelationen. Wiesbaden: Deutscher Universitätsverlag. Vorwerg, C. (2001b). Objektattribute: Bezugssysteme in Wahrnehmung und Sprache. In L. Sichel-
294
III. Sprachproduktion
schmidt & H. Strohner (Hrsg.), Sprache, Sinn und Situation (pp. 59⫺74). Wiesbaden: Deutscher Universitätsverlag. Vorwerg, C. & Rickheit, G. (2000). Repräsentation und sprachliche Enkodierung räumlicher Relationen. In C. Habel & C. von Stutterheim (Hrsg.), Räumliche Konzepte und sprachliche Strukturen (pp. 9⫺44). Tübingen: Niemeyer. Walsh, D. (1975). Soziologie und soziale Welt. In P. Filmer, M. Phillipson, D. Silverman & D. Walsh (Hrsg.), Neue Richtungen in der soziologischen Theorie (pp. 23⫺43). Wien: Böhlau.
Winterhoff-Spurk, P. & Grabowski-Gellert, J. (1987). Nonverbale Kommunikation und die Direktheit von Direktiva: Der Ton macht die Musik! Sprache & Kognition, 6, 138⫺149. Winterhoff-Spurk, P., Mangold, R. & Herrmann, T. (1982). Zur kognitiven Rekonstruktion von Aufforderungssituationen (Arbeiten der Forschungsgruppe ‘Sprache und Kognition’ am Lehrstuhl Psychologie III der Universität Mannheim, Bericht Nr. 23). Universität Mannheim: Lehrstuhl Psychologie III.
Weiss, A. (1975). Syntax spontaner Gespräche. Einfluss von Situation und Thema auf das Sprachverhalten. Düsseldorf: Schwann.
Wintermantel, M. (1991). Dialogue between expert and novice. On differences in knowledge and their reduction. In I. Markova & K. Foppa (Eds.), Asymmetries in dialogue (pp. 124⫺142). Hemel Hempstead: Harvester Wheatsheaf.
Weiß, P. & Mangold, R. (1997). Bunt gemeint, doch farblos gesagt: Wann wird die Farbe eines Objektes nicht benannt? Sprache und Kognition, 16, 31⫺47.
Wish, M., Deutsch, M. & Kaplan, S. (1976). Perceived dimensions of interpersonal relations. Journal of Personality and Social Psychology, 33, 409⫺420.
Weissenborn, J. & Stralka, R. (1984). Das Verstehen von Missverständnissen. Eine ontogenetische Studie. Zeitschrift für Literaturwissenschaft und Linguistik, 55, 113⫺134. Wetzel, P. (1985). In-group/out-group deixis: Situational variation in the verb of giving and receiving in Japanese. In J. P. Forgas (Ed.), Language and social situations (pp. 141⫺157). New York: Springer. Winterhoff-Spurk, P. (1985). Die Mimik in Aufforderung und Bericht. Zum Zusammenhang verbaler und nonverbaler Kommunikation. Studium Linguistik, 19, 48⫺60.
Wunderlich, D. (1976). Studien zur Sprechakttheorie. Frankfurt/M.: Suhrkamp. Wunderlich, D. (1986). Wie kommen wir zu einer Typologie der Sprechakte? Neuphilologische Mitteilungen, 498⫺509. Wygotski, L. S. (1964). Denken und Sprechen. Berlin: Akademie-Verlag (russische Originalausgabe 1934). Wygotski, L. S. (1987). Die Krise der Einjährigen. In Ausgewählte Schriften. Berlin: Volk und Wissen, 2.
Gert Rickheit und Constanze Vorwerg Universität Bielefeld (Deutschland)
21. Produktion von Syntagmen 1. 2. 3. 4. 5. 6.
Das Standardmodell Klassische Erweiterungen des Modells Semantik im Formulator Interaktive Variationen Fazit Literatur
Das psycholinguistische Standardmodell zum kognitiven Prozess der Sprachproduktion ist gegeben durch Levelts Werk Speaking: From intention to articulation von 1989 (vgl. auch Kapitel 5 und 15). In diesem Modell ist der Sprachproduktionsprozess in drei Teilprozesse unterteilt. Dies sind zum Ersten der Prozess der Konzeptualisierung, in dem das
als Nächstes zu Äußernde vorsprachlich festgelegt wird, zum Zweiten der Teilprozess der Formulierung, in dem dieses in linguistische Strukturen umgeformt wird, und zum Dritten der Teilprozess der Artikulation, in dem aus dem Resultat des Formulierungsprozesses über die Ansteuerung des Sprechapparates die hörbare Äußerung entsteht. Die in diesem Kapitel zu behandelnde syntaktische Enkodierung als Grundlage der Produktion von Phrasen und satzwertigen Äußerungen erfolgt durch den Teil des Formulierungsprozesses, der die vorsprachliche sogenannte „Botschaft“ in eine syntaktische Struktur umformt. Sie arbeitet Hand in Hand mit den
21. Produktion von Syntagmen
in Kapitel 23 beschriebenen lexikalischen Prozessen der grammatischen Enkodierung. Insgesamt resultiert aus diesem Zusammenwirken die Eingabe für die Prozesse der phonologischen Enkodierung (vgl. dazu Kapitel 28), die ebenfalls dem Formulator zugeordnet sind. Wir werden in diesem Kapitel zunächst ausführlich und anhand von Beispielen nachzeichnen, wie der Aufbau von Phrasen und satzwertigen Äußerungen durch den Teilprozess der grammatischen Enkodierung (bezogen auf das Standardmodell) beschrieben ist. Anschließend werden wir unterschiedliche Vorschläge für die Präzisierung, die Erweiterung und die Änderung der Standardbeschreibung der grammatischen Enkodierung vorstellen und kritisch diskutieren. Das Kapitel mündet in einer Zusammenfassung der gewonnenen Erkenntnisse und einem sich daraus ergebenden Ausblick, in dem wir aufzeigen, in welche Richtung sich die zukünftige Forschung zur grammatischen Enkodierung bewegen könnte.
1.
Das Standardmodell
Der Teilprozess der grammatischen Enkodierung bildet zusammen mit dem Teilprozess der phonologischen Enkodierung den Formulierungsprozess, also den aus psycholinguistischer Sicht interessantesten Teil der Sprachproduktion. Nach dem Standardmodell von Levelt (1989) wird in dem entsprechend als zweistufig präsentierten sogenannten „Formulator“ eine durch den Teilprozess der Konzeptualisierung bereitgestellte vorsprachliche Botschaft zunächst (durch die grammatische Enkodierung) in eine syntaktische Struktur und diese dann (durch die phonologische Enkodierung) in einen String von Phonemen bzw. nach der aktuellen Version (s. Levelt, Roelofs & Meyer, 1999) in eine Sequenz von silbischen Routinen umgewandelt (vgl. auch Kapitel 23 und 28). Als Eingabe in den Teilprozess der grammatischen Enkodierung dient also eine vom Konzeptualisator erzeugte vorsprachliche Botschaft. Den Aufbau dieser Botschaft beschreibt Levelt (1989) in den Kapiteln 2, 3 und 4; eine alternative Darstellung zu den Leistungen und der Arbeitsweise des Konzeptualisators bieten Herrmann und Grabowski (1994). Als sprachpsychologische Darstellung und weniger als psycholinguistische Darstellung liegt bei diesen Autoren, anders als bei
295 Levelt, der Schwerpunkt auf der Konzeptualisierung, so dass sich die beiden Werke in vielerlei Hinsicht ideal ergänzen (vgl. auch Kapitel 15). Vorsprachliche Botschaften werden zumeist der Einfachheit halber als linearisierte „propositionale“ Repräsentationen angesehen. Dies greift in mehrerer Hinsicht zu kurz. Levelt (1989: 71) diskutiert etwa am am Beispiel der Äußerungen „Congratulations!“ bzw. „What?“ das Problem des propositionalen Charakters der Botschaften. Des Weiteren ist zu beachten, dass die Botschaften zusätzliche Informationen enthalten müssen, bei Levelt etwa diskursspezifische Annotationen zur Topikalität, Verfügbarkeit („accessibility“), Modus, Aspekt und Deixis. Schließlich muss auch ein prozeduraler Aspekt berücksichtigt werden, der darin liegt, dass die Botschaft dem Formulator nicht als Einheit, sondern in Inkrementen zur Weiterverarbeitung zugestellt wird (vgl. Dietrich, 1999). Wir wollen die Funktionsweise des Formulators und damit den Ablauf der grammatischen Enkodierung, so wie ihn Levelt (1989) auf der Grundlage von Kempen und Hoenkamp (1987) beschreibt, anhand zweier Beispiele illustieren. Das erste Beispiel gehört zu der Äußerung „Die rote Schraube liegt neben der langen Leiste.“ und das zweite zu „Chaplin wird aus dem Gefängnis entlassen.“ Die Beispiele sind so gewählt, dass sie in den nachfolgenden Abschnitten als Grundlage der Diskussionen zu vorgeschlagenen Änderungen, Erweiterungen und Präzisierungen des Standardmodells herangezogen werden können. 1.1. Beispiel 1 Die grammatische Enkodierung nach Levelt (1989) bzw. Kempen und Hoenkamp (1987) ist lexikongetrieben; das heißt, aufgrund einer vorliegenden vorsprachlichen Botschaft bzw. aufgrund weiterverarbeitbarer vorliegender Teile einer Botschaft wird im Lexikon nach Einträgen gesucht, die zu den Teilen der Botschaft passen. Die Selektion dieser Lexikoneinträge bedingt dann den Aufbau der syntaktischen Gesamtstruktur. Im ersten Beispiel, dessen angenommene vorsprachliche Botschaft (der propositionale Anteil) in Abbildung 21.1 zu sehen ist, werden bei diesem Zugriff auf das Lexikon Einträge für „Schraube“, für „Leiste“ und für „liegen-neben“ aktiviert. Aktiviert werden dabei zunächst die Lemmata, also die Anteile der ent-
296
III. Sprachproduktion
pred: cat: head:
Abb. 21.1: Der propositionale Anteil einer vorsprachlichen Botschaft, die durch „Die rote Schraube liegt neben der langen Leiste“ verbalisiert werden kann.
NP pred: cat: agr:
lex(schraube) N kas: num: gen: fem pers: 3 def:
spec: sprechenden Lexikoneinträge, die die syntaktischen Informationen beinhalten. Die Aktivierung der Lemmata erfolgt parallel. Sobald das erste Lemma selektiert ist, beginnen Prozeduren mit dem Aufbau der syntaktischen Gesamtstruktur aus der Struktur heraus, die das selektierte Lemma zur Verfügung stellt. Nehmen wir für unser Beispiel zunächst an, dass das zuerst selektierte Lemma das Lemma zu „Schraube“ ist. Die Kernstruktur, die das Lemma zur Verfügung stellt, zeigt in Matrixform Abbildung 21.2.
pred: cat: agr:
lex(schraube) N kas: num: gen: fem pers: 3 def:
Abb. 21.2: Die Lemmamatrix des Lexikonelements „Schraube“ enthält als Einträge den Verweis auf die Wortform (pred: lex(schraube)), die Information zur Kategorie (cat: N) und Informationen zur Sicherung von Kongruenz. Letztere sind zusammengefasst in einer Matrix, die dem Merkmal agr (für „agreement“) zugeordnet ist.
In der Matrix stehen die Information zur Kategorie, in diesem Fall N für Nomen, zum Genus, in diesem Fall fem für feminin, und zur Person. Die kategoriale Information wird durch eine kategoriale Prozedur ausgewertet, die die Matrix für eine Phrase aufbaut, welche die gefundene Kategorie als Head enthält. In diesem Fall entsteht also die Matrix einer Nominalphrase (Abbildung 21.3).
mod: Abb. 21.3: Die Matrix der Nominalphrase „die rote Schraube“ direkt nach ihrer Initiierung
Durch den Aufbau der NP-Matrix werden Inspektionsprozeduren aufgerufen, die aus der vorsprachlichen Botschaft Informationen entnehmen, um die Merkmale der NP-Matrix mit Werten zu füllen: Da Schraube kein Massennomen ist, wird etwa aus der Botschaft die Numerusinformation entnommen, so dass dem Merkmal num der Wert sing für „Singular“ zugewiesen werden kann. Ausgewertet wird auch, welche Informationen der Botschaft dem Konzept von Schraube zugeordnet bzw. untergeordnet sind: Die diskursspezifische Annotation zur Verfügbarkeit beispielsweise könnte den Wert „⫹accessible“ haben. Das bewirkt, dass eine Untermatrix für einen Spezifikator angelegt wird, die mit dem Lemma des bestimmten Artikels zu füllen ist. Aufgrund des untergeordneten Eigenschaftskonzepts („property ⫽ rot“) wird eine weitere Untermatrix aufgebaut, in diesem Fall für das Lemma der Farbe. Der Aufbau der untergeordneten Matrizen erfolgt parallel durch spezielle so genannte „funktionale“ Prozeduren. Das Ergebnis all dieser Prozeduren zeigt Abbildung 21.4. Um die der grammatischen Enkodierung nachfolgenden Prozesse der phonologischen Enkodierung anstoßen zu können, ist nun nicht mehr viel zu leisten. Zunächst werden die einzelnen Lemmata der Nominalphrasenmatrix entsprechend der syntaktischen Restriktionen der benutzten Sprache angeordnet. Dies geschieht durch die kategoriale Prozedur der Nominalphrase. Im Prinzip gilt dabei
21. Produktion von Syntagmen
pred: cat: head:
NP pred: cat: agr:
lex(schraube) N 1 kas: num: sg gen: fem pers: 3 + def:
spec:
pred: cat: agr:
lex(d) DET 1
mod:
pred: cat: agr:
lex(rot) ADJ 1
Abb. 21.4: Die Matrix der Nominalphrase „die rote Schraube“ nach ihrer Auffüllung
das Motto: Wer zuerst kommt, bekommt einen Platz möglichst weit links. In dem „möglichst“ verstecken sich dabei die erwähnten syntaktischen Beschränkungen: Im Deutschen erzwingt das die Anordnung ArtikelLemma vor Farbadjektiv-Lemma vor NomenLemma; wäre die Zielsprache aber beispielsweise Spanisch oder Französisch, würde das Farbadjektiv-Lemma dem Nomen-Lemma folgen und nicht vorangehen. Wird jedoch bei der angenommenen Zielsprache Deutsch die Untermatrix eines Adjektivs zu spät fertiggestellt, so dass die phonologische Enkodierung bereits begonnen hat, die schon vorliegenden Lemmata (zum Artikel und zum Nomen) auszuwerten, kann es geschehen, dass die Eigenschaftsinformation, die über das verzögerte Adjektiv auszudrücken ist, in einem Nachtrag nachgeschoben werden muss („Die Schraube, die rote, …“ statt „die rote Schraube …“). Bevor die fertiggestellte Phrasenmatrix (mitsamt der Anordnungsinformation zu den eingebetteten Untermatrizen) der phonologischen Enkodierung zur Verfügung gestellt werden kann, ist ihre Einbettung in eine übergeordnete grammatische Kategorie, im
297 einfachsten Fall der des Satzes, sicherzustellen. Dazu ermittelt die kategoriale Prozedur ihre sogenannte „funktionale Bestimmung“. Faktisch wird damit die Kontrolle an eine übergeordnete kategoriale Prozedur übergeben, die die aufgebaute Matrix als Kopf oder Komplement nutzen kann. Ist die entsprechende übergeordnete Matrix noch nicht angelegt, so wird durch diese Anforderung defaultmäßig eine solche Matrix aufgebaut. Die Anforderung durch die Matrix zu Schraube würde im Beispielfall eine Satzmatrix induzieren, in der der NP zu Schraube die Subjektsfunktion zugestanden wird. Liegt die Satzmatrix einmal vor, kann ihre kategoriale Prozedur einerseits den Aufbau obligatorischer Untermatrizen einleiten, etwa den Aufbau einer Verbalphrasenmatrix; sie muss aber andererseits auch fertiggestellte Untermatrizen akzeptieren und einbauen bzw. zurückweisen. Die kategoriale Prozedur der Satzmatrix versucht dabei, die Untermatrix, von der sie aufgerufen wurde, so zu verwenden, dass diese Untermatrix die erste Position in der Sequenz der Untermatrizen einnimmt. Im Beispiel ist dies dadurch möglich, dass die rote Schraube als Subjekt des zu bildenden Satzes genutzt wird. Entsprechend wird in der NP-Matrix zu Schraube, dem letzten unspezifizierten Merkmal (head:agr:kas) der Wert nom (für Nominativ) zugewiesen. Damit sind alle Voraussetzungen für die Weiterverarbeitung dieser NP-Matrix durch die phonologische Enkodierung erfüllt, welche dementsprechend auch sogleich erfolgt. Während der phonologischen Enkodierung werden die Wortformen zu den in der Matrix spezifizierten Lemmata ermittelt und anhand der gegebenen Nebenkategoriewerte der Flektion unterzogen. Es folgen die Selektionen für die notwendigen Morpheme, Phoneme und silbischen Artikulationsroutinen. Währenddessen wird durch die grammatische Enkodierung die grammatische Struktur vervollständigt (vgl. Abbildung 21.5), indem etwa die Matrizen zu „liegen-neben“ bzw. zu „Leiste“ aufgebaut und in die Satzmatrix integriert werden. Die gleichzeitige Ausführung von Prozessen der grammatischen und der phonologischen Enkodierung illustriert das dem Levelt-Modell zugrundeliegende Prinzip der inkrementellen Produktion. Sollte in dem gegebenen Beispiel das Lemma von „Leiste“ vor dem Lemma von „Schraube“ ausgewählt werden und sollte daraufhin auch die Matrix der Präpositional-
298
pred: cat: head:
III. Sprachproduktion
[ 2 ,1 , 3 ] S pred: 1 cat: agr: tense:
subject: pred: 2 cat: head: spec: mod: loc:
lex(liegen) V ... präsens [..., ..., ...] NP [ ... ] [ ... ] [ ... ]
pred: 3 [..., ..., ..., ...] cat: PP ...
Abb. 21.5: Die Struktur der Matrix zur Äußerung „die rote Schraube liegt neben der langen Leiste“
phrase neben der langen Leiste vor der NPMatrix zu „Schraube“ fertiggestellt sein, kann es dazu kommen, dass die kategoriale Prozedur der Satzmatrix aufgrund dieser Fertigstellung aktiviert wird, was zu einer Voranstellung der Präpositionalphrase führt. Das Produktionsresultat könnte dann etwa der Satz „Neben der langen Leiste liegt die rote Schraube“ sein. Derartige Topikalisierungen ergeben sich normalerweise aber nur aus einer deutlich größeren Zugreifbarkeit auf das topi-
kalisierte Element im Vergleich zum Subjekt des Satzes. Steht also etwa die Leiste im Fokus, wohingegen die rote Schraube noch nicht eingeführt ist und daher die diskursspezifische Verfügbarkeitsannotation „–accessible“ trägt, so ist das Produktionsresultat „Neben ihr liegt eine rote Schraube“ sogar zu erwarten. In diesem Fall erfolgt natürlich die Referenz auf die Leiste über ein Personalpronomen (die Leiste ist im Fokus) und die Referenz auf die Schraube mittels eines indefiniten Artikels, da die Schraube noch nicht eingeführt ist. Eine stärkere Auswirkung der Reihenfolge von Lemmaselektionen aufgrund ihrer jeweiligen Zugriffszustände wird im folgenden zweiten Beispiel diskutiert. 1.2. Beispiel 2 Im zweiten Beispiel, welches zu dem Produktionsresultat „Chaplin wird aus dem Gefängnis entlassen“ führt, ist in der umzusetzenden vorsprachlichen Botschaft (siehe Abbildung 21.6) kein Agens spezifiziert. Die Aktivation von Lexikonelementen aufgrund der konzeptuellen Informationen der Botschaft führt zur Selektion der Lemmata zu „Chaplin“, „Gefängnis“ und „entlassen (X, Y)“. Dabei wird das Lemma, das Charlie Chaplin denotiert, als erstes selektiert, da der entsprechende Eintrag in der Botschaft die höchste Zugreifbarkeit hat. Natürlich beschleunigen bzw. verzögern weitere Faktoren die Selektion der Lemmata; so wird etwa davon ausgegangen, dass Lemmata zu belebten Objekten aufgrund ihrer dichteren Verankerung im konzeptuellen Raum schneller selektierbar sind als Lemmata zu unbelebten Objekten. Auf diese Weise ergibt sich ein einfacher Erklärungsansatz für die Präferenz für belebte Subjekte (Bock & Warren, 1985). Im hier zu diskutierenden Beispielfall weist
Abb. 21.6: Der propositionale Anteil einer vorsprachlichen Botschaft, die durch „Chaplin wird aus dem Gefängnis entlassen“ verbalisiert werden kann.
299
21. Produktion von Syntagmen
die Beschleunigung durch Belebtheit allerdings in dieselbe Richtung wie die Beschleunigung aufgrund der erhöhten Zugreifbarkeit, so dass ganz sicher davon ausgegangen werden kann, dass das Lemma zu „Chaplin“ als erstes selektiert wird. Die frühe Selektion des Lemma zu „Chaplin“ bewirkt den Aufbau einer entsprechenden NP-Matrix und die Einsetzung einer Satzmatrix, die diese NP als Subjekt enthält. Dieses hat zwei weitreichende Folgen. Zum einen kann die phonologische Enkodierung schon relativ rasch einsetzen, und zum anderen erfolgt eine Anpassung der anderen Lemmata, sobald sie nach ihrer Selektion in die schon vorliegende Satzmatrix integriert werden müssen. Denkbar ist dabei eine Passivierung des Satzes unter Beibehaltung des eventuell schon ausgewählten, besonders gut passenden Lemmas für die Relation oder die Wahl einer Satzmatrix für den Aufbau eines Aktivsatzes, wobei dann jedoch ein Lemma für die Relation auszuwählen ist, das dem konzeptuellen Gehalt der Relation etwas weniger gut entspricht. Im Deutschen wird in aller Regel die Passivisierung des Satzes bevorzugt.
2.
Klassische Erweiterungen des Modells
Ein direkt auf der Inkrementellen Prozeduralen Grammatik (IPG) von Kempen aufbauender Formalismus ist der sogenannte „Inkrementelle Parallele Formulator“ (IPF) von Koenraad de Smedt (1990, 1994, 1996). Mit dem IPF wird, wie sich schon aus der Bezeichnung „Formulator“ entnehmen lässt, der Prozess der grammatischen Enkodierung nachgebildet, wohingegen die inkrementelle Grammatik prinzipiell auch für Modellierungen von Rezeptionsprozessen eingesetzt werden kann. Der IPF bildet viele Einzelheiten der grammatischen Enkodierung detailliert so nach, wie es schon in Levelt (1989) angedacht, aber in den Implementationen eines mit der IPG arbeitenden Formulators noch nicht ausgeführt wurde. Insbesondere erhält der IPF Fragmente der vorsprachlichen Botschaft nach und nach, so dass die Parallelität der Verarbeitung, die damit verbundenen Schwierigkeiten und die möglichen Lösungsansätze (insbesondere zur Integration von Teilen in schon aufgebaute Strukturbäume) mit dem IPF besonders gut verdeutlicht werden konnten.
In einigen Versionen wurden die durch den IPF aufgebauten Merkmal-Wert-Matrizen mit Konfidenzwerten versehen, die mit den Aktivierungswerten vergleichbar sind, mit denen in Aktivierungsflussmodellen bzw. lokal-konnektionistischen Produktionsmodellen (vgl. Abschnitt 24.5) operiert wird. Auf diese Weise können konkurrierende Matrizen aufgebaut werden, wobei dann zu einem bestimmten Zeitpunkt diejenige der konkurrierenden Matrizen zur weiteren Verarbeitung ausgewählt wird, die dann den höchsten Wert aufweist. Es ist eine der Kerneigenschaften der IPF, dass aus einer einzigen zugrundeliegenden vorsprachlichen Botschaft unterschiedliche Äußerungen entstehen können, die etwa syntaktische Varianten von einander sind (Beispiel Passivierung). Welche der Varianten produziert wird, hängt dabei maßgeblich von der zeitlichen Abfolge ab, in der die einzelnen Fragmente der Botschaft für die syntaktische Enkodierung zur Verfügung stehen. Nach demselben Prinzip arbeitet auch der Formulator des SYMPHONICS-Systems (vgl. Abb, Herweg & Lebeth, 1993; Günther, Habel, Schopp & Ziesche, 1996), wobei dort die zeitliche Abfolge auch durch die Prominenz der konzeptuellen Fragmente mitbestimmt wird.
3.
Semantik im Formulator
Das SYMPHONICS-System enthält im Gegensatz zum Standardmodell ein Semantikmodul im Formulator. Begründet ist ein solches Modul in der sogenannten „Zwei-Ebenen-Konzeption“ der Semantik (Bierwisch, 1983; Härtl, 1999; Wunderlich, 1997). Dabei wird ganz im Sinne der Linguistik angenommen, dass Lexikonelemente, entsprechend der kompositionellen Sichtweise (Bierwisch & Schreuder, 1992), semantische Informationen beinhalten. Denkbar ist die Zwei-EbenenKonzeption natürlich auch unter einer nichtkompositionellen Sichtweise (Roelofs, 1992), wobei man dann annehmen müsste, dass die Lemmata sprachspezifisch mit semantischen Informationen gekoppelt sind. In der ZweiEbenen-Konzeption von Semantik stehen Konzepte und Lexikonelemente in einer Relation zueinander, die zum einen angibt, unter welchen Umständen ein vorgegebenes Konzept durch einen bestimmten Lexikoneintrag verbalisiert werden kann, und aus der zum anderen abgelesen werden kann, welches Konzept in einem vorgegebenen Kontext
300 durch ein vorliegendes Wort ausgedrückt werden sollte. Bierwisch und Schreuder (1992) nutzen für diese Relation den Begriff „many-to-many mapping“. Im Gegensatz zu einer sprachpsychologischen Sichtweise (Levelt, 1989; Levelt, Roelofs & Meyer, 1999), bei der aufgrund aktivierter Konzepte ein passendes Lemma ausgewählt wird, welches lediglich mit syntaktischer Information (etwa der zugehörigen Wortklasse) gekoppelt ist, enthalten die Lexikonelemente, die unter der Zwei-EbenenKonzeption von Semantik angenommen werden, also sprachspezifische semantische Informationen. Der Abgleich dieser sprachspezifischen semantischen Information mit den konzeptuellen Vorgaben erfordert ein zusätzliches Modul. Dieses Modul ist angedacht in Bierwisch und Schreuder (1992) sowie in Herweg und Maienborn (1992). Diese Autoren sehen – wie Levelt – die vorsprachliche Botschaft als eine konzeptuelle Struktur, CS genannt, die – und darin unterscheiden sich die Autoren von Levelt – zunächst in eine semantische Struktur, SF genannt, umgeformt wird, damit die semantische Information der Lexikonelemente für die weitere Verarbeitung genutzt werden kann. Erst aus dieser semantischen Struktur sowie aus der zugehörigen Argumentstruktur und den grammatischen Merkmalen der selektierten Lexikoneinträge wird dann die syntaktische Struktur aufgebaut. Für die Umformung der konzeptuellen Struktur in die semantische Struktur ist nach Bierwisch und Schreuder das sogenannte „Vbl“ (für „verbalization“ zuständig. Eingeführt wird Vbl als Abbildung („mapping“) (1992: 34). Diese Abbildung hat allerdings den Charakter einer Relation und nicht etwa den einer Funktion („both Int and Vbl are many-to-many-mappings“; (Bierwisch & Schreuder, 1992: 35). Sie wird durch ein eigenes Modul realisiert („there is a mechanism that takes CS as input and realizes the mapping Vbl“; ebd.: 43). Dieses Modul nennen Bierwisch und Schreuder dann auch Vbl („Vbl, a processing system that transforms a non-linguistic conceptual structure into a representation containing an SF“; ebd.: S. 48). In aktuelleren Versionen heißt das Semantikmodul des Formulators „Semantischer Enkodierer“ (Günther, Habel, Schopp & Ziesche, 1996) oder „thematischer Prozessor“ (Härtl, 1999). Außer der konzeptuellen Struktur verfügen diese Module aber auch noch über kontextuelle Informationen, die
III. Sprachproduktion
ebenfalls der Formulator bereitstellen muss. Dieses kontextuelle Hintergrundwissen ist in etwa mit den diskursspezifischen Annotationen vergleichbar, die sich in den vorsprachlichen Botschaften des Levelt’schen Konzeptualisators finden lassen. In jedem Fall wird der thematische Prozessor, liegt er auch faktisch zwischen Konzeptualisator und Formulator, zum Formulator gerechnet, da er mit sprachspezifischer Information operiert. Vorstellbar ist aber auch, dass die Operationen des Konzeptualisators schon auf die Zielsprache hin ausgerichtet sind (Slobin, 1991). Dies kann über eine Interaktion zwischen Konzeptualisator und Formulator geschehen (vgl. Abschnitt 4) oder durch Zugriff des Konzeptualisators auf sprachspezifisches Regel- und Lexikonwissen (Murcia-Serra, 1999; von Stutterheim, 1999). Die Annahme eines thematischen Prozessors bzw. die Annahme der Zugänglichkeit sprachspezifischer Informationen für den Konzeptualisator hat Auswirkungen auf den Aufbau der syntaktischen Struktur. Betrachten wir dazu nochmals den Beispielsatz „Chaplin wird aus dem Gefängnis entlassen“. Die schnelle Verfügbarkeit des Lemmas zu „Charlie Chaplin“ bedingt den raschen Aufbau der zugehörigen Nominalphrase und deren Positionierung als Satzsubjekt. Im Deutschen hat dies, wie bereits erwähnt, in der Regel die Passivierung des Satzes zur Folge. Anders stellt sich die Situation für das Spanische dar, dessen Sprecher bei einer entsprechenden Verbalisierung allenfalls in der Schriftsprache das Passiv benutzen würden (Murcia-Serra, in Vorbereitung). Als Folge ergeben sich Äußerungen, in denen das schon gewählte Subjekt, „Chaplin“, als Subjekt eines Aktivsatzes genutzt wird: „Chaplin salio´ de la ca´rcel“ („Chaplin ging aus dem Gefängnis“). Unter der Annahme, dass schon der Konzeptualisator über sprachspezifische Informationen verfügt, wird beim Aufbau des Konzeptualisatorresultats beachtet, dass die Verwendung der Relation „entlassen“ zu einem Problem bei der Formulierung führen wird. Entsprechend wird die problematische Relation durch die unproblematische Relation „gehen“ ersetzt, und die anschließende syntaktische Enkodierung kann ohne Probleme abgewickelt werden. Unter der Annahme eines thematischen Prozessors ergibt sich die vorsprachliche Botschaft wie in Abbildung 21.6. Der Prozessor muss daraus eine semantische Repräsentation erstellen, die den lexikalischen Eintrag
21. Produktion von Syntagmen
für „gehen“ nutzt. Wie dies explizit geschehen kann, wäre durch entsprechende Simulationen (vgl. Kapitel 9) aufzuzeigen. In dem von Levelt (1989) vorgestellten Ansatz von Kempen erfolgt eine parallele Aktivierung von mehreren Lemmata aufgrund der Vorgaben aus der vorsprachlichen Botschaft. Für das meistaktivierte Lemma zur Relation „entlassen“ scheitert die Unifikation der Lemmamatrix mit der durch die schnelle Selektion des Lemmas zu „Chaplin“ aufgebauten Satzmatrix. Damit muss das Lemma zu „entlassen“ deaktiviert und das nächstbeste Lemma ausprobiert werden. Das Lemma zu „gehen“ schließlich erfüllt die Unifikationsbedingungen, wenn es auch die durch die vorsprachliche Botschaft spezifizierten Vorgaben weniger gut erfüllt.
4.
Interaktive Variationen
Das klassische Stufenmodell, von dem Levelts 1989er Version als Standard gelten kann, stand seit dem Beginn der 80er Jahre (Dell & Reich, 1980) in einem fruchtbaren Wettbewerb mit dem interaktiven sogenannten „lokal-konnektionistischen“ Modell, dessen Grundannahmen durch Dell (1986) gegeben sind. Interaktive Modelle erlauben einen Informationsaustausch zwischen den angenommenen Modulen, so dass das Problem von sprachspezifischen Anteilen in Resultaten des Konzeptualisators dadurch erklärt werden kann, dass der Konzeptualisator Zugriff auf formulatorspezifische und damit sprachspezifische Informationen hat. Die interaktiven Sprachproduktionsmodelle basieren auf Versprecherdaten und zielen hauptsächlich auf eine Simulation von Effekten, die sich aus diesen Daten ergeben (vgl. Dell & Juliano, 1996). Einer der wichtigsten dieser Effekte ist der Kategorieneffekt, der besagt, dass die sprachlichen Einheiten, die beim Entstehen eines Versprechers interagieren, überwiegend derselben Kategorie angehören (vgl. auch Kapitel 23). Dieser Effekt betrifft alle linguistischen Ebenen von der Phonemebene herauf bis zur Ebene der Syntagmen. Wenn also bei einem Versprecher Wörter vertauscht werden, dann normalerweise nur solche aus derselben Kategorie, also Nomen mit Nomen, Verben mit Verben usw. Gerät allerdings dabei ein Wortstamm an die syntaktische Position einer Kategorie, der er nicht angehört, wird sogar die Flektion an die Kategorie angeglichen: „I am not in the
301 read for mooding“ ist eines der Beispiele von Garrett (1975) für solche „morpheme stranding errors“. Nach Berg (1987) erfolgt dabei eine Anpassung der fehlerhaften Elemente an die korrekte Umgebung (vgl. auch Levelt, 1989: 249). Die Modellierung dieser Anpassung gelingt nur mit Modellen, die von ihrer Konstruktion her robust sind. Zum gegenwärtigen Zeitpunkt sind dies die lokal-konnektionistischen Modelle. Das Problem bei der Anpassung ist, dass sie den üblichen grammatischen Regeln der Kategorie folgt, aber auf sprachliche Einheiten angewendet wird, die unter Umständen einer anderen Kategorie angehören. Die Information für solche Anpassungen kann also nicht im Lexikon stehen. Die konnektionistischen Modelle benutzen einen Aktivationsfluss über mehrere unabhängige Pfade, der auch dann noch zu einem Resultat führt, wenn nicht alle Bedingungen für die Anwendung einer „Regel“ erfüllt sind. Sie sind ebenfalls in der Lage, mit Hilfe eines Monitors Indizien für solch ein „fehlerhaftes“ Verhalten zu sammeln und gegebenenfalls die Äußerung abzubrechen und eine Reparatur des Fehlers anzustoßen (vgl. Berg, 1986; MacKay 1992; Schade & Laubenstein, 1993). Im Vordergrund des Wettstreits zwischen dem Standardmodell und den interaktiven Modellen steht die Frage des Informationsflusses. Dabei wird vor allem diskutiert, zu welchem Zeitpunkt ein Lemma seine Wortform aktiviert und ob von aktivierten Formen auch Information an die Lemmata zurückfließt. Zu dieser Diskussion sei der Leser auf das Kapitel 23 verwiesen. Für das vorliegende Kapitel ist dagegen in erster Linie die Frage relevant, welcher Art die Information ist, die weitergereicht wird. Levelt (1989) beschreibt in Anlehnung an Kempen und Hoenkamp (1987) ein modulares symbolisches Modell, in dem partielle symbolische Strukturen von einem Modul zum nächsten gereicht werden. Die interaktiven konnektionistischen Modelle gehen dagegen von einem Aktivationsfluss zwischen Knoten eines Netzwerks aus. Während im Standardmodell also symbolische Ausdrücke unterschiedlichen Typs (vgl. die Matrizen aus Abschnitt 1) weitergereicht werden, ist der Aktivationsfluss in einem Netzwerk ungetypt. Entscheidend bei dieser Modellierung ist, zwischen welchen Knoten des Netzwerks die Aktivation fließt. Eine offene theoretische Frage betrifft den Kategorieneffekt: Muss er durch entspre-
302
III. Sprachproduktion
chende Annahmen in ein Sprachproduktionsmodell eingebaut werden, oder ergibt er sich aus der Interaktion anderer Konstruktionsprinzipien? Dell, Burger und Svec (1997) kommen zu dem Schluss, dass nur solche Modelle erfolgreich sind, die Muster von Kategorien sprachlicher Einheiten als integralen Bestandteil des Modells postulieren. Solche Muster repräsentieren dann die Restriktionen, die in der modellierten Sprache in Bezug auf die lineare Reihenfolge von Kategorien bestehen. Solche Reihenfolgerestriktionen werden in der Linguistik klassisch mit Hilfe von Phrasenstrukturregeln wie beispielsweise „np J det (adj) n“ formuliert. Diese Regel besagt, dass eine Folge aus einem Determiner, möglicherweise einem Adjektiv und einem Nomen, eine wohlgeformte Reihe von Wörtern bildet, die ihrerseits den Typ einer Nominalphrase hat. Andere Regeln auf einer höheren Hierarchiestufe geben an, an welcher Stelle in komplexeren Ausdrücken Nominalphrasen vorkommen können. Daraus folgt, dass bei der Sprachproduktion mehrere Strukturmuster auf unterschiedlichen Ebenen beteiligt sind. Interaktive Modelle gehen davon aus, dass die Produktion auf allen Ebenen von der Silbenstruktur aufwärts bis zur grammatischen Struktur der Syntax mit denselben Techniken modelliert wird.
folgerestriktionen realisieren (zu den Einzelheiten und einem Vergleich der Lösungen vgl. Dell, Burger & Svec, 1997). Als gemeinsames Prinzip aller dieser Lösungen kann jedoch festgehalten werden, dass die Reihenfolgerestriktionen der Kategorien letztlich dazu führen, dass die Kategorie des jeweils aktuell zu produzierenden Ausdruckes dafür sorgt, dass alle Wörter dieser Kategorie Aktivierung bekommen. Zur vorliegenden Darstellung verwenden wir das Verfahren aus Schade und Eikmeyer (1998) bzw. Eikmeyer, Schade, Kupietz und Laubenstein (1999). Danach werden Restriktionen, wie sie die oben erwähnte Nominalphrasenregel formuliert, als ein Netzwerk aus Kontrollknoten wie in Abbildung 21.7 (a) repräsentiert. Dieses vereinfachte Netzwerk erlaubt zwei mögliche Pfade, einen Pfad mit der Reihenfolge „det J adj J n“ und einen kürzeren mit der Reihenfolge „det J n“. Die Knoten eines solchen Pfades sind nacheinander hoch aktiviert und senden während dieser Zeit Aktivierung an alle Wörter der jeweiligen Kategorie. Ist ein Wort dieser Kategorie produziert, geht die Aktivation an den Kontrollknoten der in der linearen Reihenfolge nächsten Kategorie über. Gibt es, wie in dem Beispielnetzwerk vorgesehen, mehrere Pfade, bestimmt das Ergebnis des Konzeptualisators den aktuell zu wählenden Pfad. Der Aktivationsfluss aus dem Kontrollnetz allein bestimmt nur, zu welcher Kategorie ein Wort gehört, das produziert wird. Es bleibt also noch die Frage zu klären, welches Wort dieser Kategorie produziert wird. Dieses be-
4.1. Beispiel 1 in einem interaktiven Modell Interaktive Modelle (Berg, 1988; Dell, 1986, 1988; Dell & Reich, 1980; MacKay, 1982, 1987; Schade, 1992, 1999; Stemberger, 1985) unterscheiden sich darin, wie sie die Reihen-
(a) NP-Start
DET
ADJ
N
NP-Ende
S-Start
NP
V
PP
S-Ende
(b)
PP
NP
(c) PP-Start
PREP
NP
PP-Ende
Abb. 21.7: Ausschnitte aus einem vereinfachten Netzwerk, mit dem die Produktion von Phrasen und satzwertigen Äußerungen in einem konnektionistischen Modell gewährleistet wird.
21. Produktion von Syntagmen
stimmt ebenfalls der Konzeptualisator, der zunächst die zu verbalisierenden Konzepte aktiviert. Diese aktivieren ihrerseits dann alle Wörter, die zur Verbalisierung des Konzeptes möglich sind. Dieser zweifache Aktivationsfluss (zum einen über die Kontrollketten zu allen Wörtern einer Kategorie und zum anderen über die Konzepte zu den Wörtern) wird im normalen Verlauf der Produktion dafür sorgen, dass ein bestimmtes Wort hoch aktiviert ist und alle anderen deutlich schwächer. Dieses hoch aktivierte Wort wird dann der phonologischen Enkodierung unterworfen (vgl. Kapitel 25). Für den satzwertigen Ausdruck „Die rote Schraube liegt neben der langen Leiste“ gehen wir hier wieder von der vorsprachlichen Botschaft aus, deren propositionale Anteile aus Abbildung 21.1 bekannt sind. In einem lokalkonnektionistischen Netz wäre die Botschaft allerdings nicht in der in Abbildung 21.1 dargestellten Form gegeben, sondern mit Hilfe von aktivierten Knoten in einem Netzwerk repräsentiert. Die Botschaft drückt eine räumliche Relation „liegen-neben“ zwischen zwei Objekten, einer Schraube und einer Leiste, aus, und wir nehmen für die Zwecke unserer Darstellung an, dass sowohl die Relation als auch die beiden Objekte durch jeweils einen aktivierten Knoten repräsentiert sind. Die Produktion eines satzwertigen Ausdrucks wird durch ein Kontrollnetzwerk wie in Abbildung 21.7 (b) gesteuert. Der Knoten s-start wird aktiviert, und er gibt diese Aktivation unmittelbar an einen seiner möglichen Folgeknoten np oder pp weiter. Die Folgeknoten stehen zueinander in Konkurrenz, was in der Abbildung durch den Bogen angedeutet ist. Welcher Knoten im Einzelfall der Nachfolger ist, hängt von der Aktivationsverteilung im Netzwerk ab. Machen wir – ähnlich wie in Abschnitt 1 – die Annahme, dass der Knoten, der die Schraube repräsentiert, früher aktiviert ist als die Knoten, die die Leiste bzw. die Relation repräsentieren. Da ein sprachlicher Bezug auf die Schraube mit einer Nominalphrase zu realisieren ist, gehen wir davon aus, dass dann der Knoten np der Nachfolgeknoten ist. Dieser Knoten ist in Abbildung 21.7 (b) gestrichelt gezeichnet, womit angedeutet wird, dass er eine Phrasenkategorie repräsentiert und dass an dieser Stelle wieder ein ganzes Kontrollknotennetzwerk für die entsprechende Kategorie eingebunden wird, beispielsweise das Netz aus Abbildung 21.7 (a).
303 Die Aktivation geht folglich von dem Anfangsknoten des s-Netzes direkt über zum Anfangsknoten des np-Netzes und von dort zum ersten Knoten det, der einer lexikalischen Kategorie entspricht. Damit ist bestimmt, dass jetzt ein Wort der Kategorie det selektiert und anschließend phonologisch enkodiert wird. Welches Wort dieses ist, bestimmt wiederum die Aktivationsverteilung. Nehmen wir an, dass die Schraube ein bereits bekanntes Objekt ist, wird dies ein definiter Artikel sein. Da dieses Objekt ein Einzelobjekt ist, wird der Artikel im Singular stehen. Da die aufzubauende Nominalphrase zu Schraube die erste des satzwertigen Ausdrucks ist und da die Schraube in diesem Ausdruck die Subjektrolle einnehmen kann, wird die Phrase und damit der Artikel im Nominativ stehen. Bleibt die Frage, welches Genus der Artikel hat. Die Schraube, auf die mit der Nominalphrase Bezug genommen wird, aktiviert alle ihre Eigenschaften wie die Farbe und die Objektklasse (vgl. Abbildung 21.1). Alle diese Konzepte aktivieren ihrerseits die Wörter, mit denen sie verbalisiert werden können. U. a. ist dieses das Wort Schraube mit dem Genus Femininum. Dieses Wort aktiviert also den Knoten Genus-Femininum (vgl. Berg, 1992), der wieder alle Femininformen aktiviert, unter ihnen den definiten Artikel im Nominativ singular. Somit wird das Wort die phonologisch enkodiert. Für den det-Knoten gibt es in dem Beispielnetz in Abbildung 21.7 (a) zwei mögliche Folgeknoten, den adj- und den n-Knoten. Wenn der Konzeptualisator zu dem Resultat gelangt, dass die Farb- oder Größeneigenschaft eines der Objekte verbalisiert werden soll, wird der adj-Knoten als Folgeknoten bestimmt und mit Hilfe der Aktivierung aus der konzeptuellen Ebene eine entsprechende Wortform wie rote selektiert. Für die Nebenkategorien Kasus, Numerus und Genus dieses Adjektivs gilt entsprechend das, was im Zusammenhang mit dem Artikel ausgeführt wurde. Die Selektion des Nomens erfolgt ebenfalls nach den gleichen Prinzipien. Damit ist die Produktion der Nominalphrase abgeschlossen, die Aktivation geht in den v-Knoten des Satznetzwerkes über. Das Verb liegen, das von der Relation „liegen-neben“ aktiviert wird, wird im nächsten Schritt selektiert und phonologisch enkodiert. Bei der Bestimmung des Folgeknotens des vKnotens wird die Relation „liegen-neben“ für die Produktion einer Präpositionalphrase mit
304
III. Sprachproduktion
neben plädieren. Die Einbindung des PPNetzwerkes und des darin einzubindenden NP-Netzes geschieht nach der oben bereits erläuterten Konvention. Mit Erreichen des Knotens s-Ende endet die Produktion des satzwertigen Ausdruckes. Neben dem bisher diskutierten satzwertigen Ausdruck können mit den Kontrollnetzwerken aus Abbildung 21.7 auch andere Varianten erzeugt werden, wie z. B. „Die lange Leiste liegt neben der roten Schraube“, für den Fall, dass die Leiste eher aktiviert wird als die Schraube. Zieht man die Thema-RhemaStruktur zusätzlich in Betracht, ist auch die Produktion von „Neben der roten Schraube liegt die lange Leiste“ beschreibbar.
5.
Fazit
Das von Levelt (1989) vorgestellte Standardmodell enthält ein Modul zur grammatischen Enkodierung, welches auf den experimentellen Arbeiten und den Simulationen von Kempen zur sogenannten „Incremental Procedural Grammar“ (IPG) beruht. In den vorangehenden Abschnitten wurde diese Modellvorstellung an Beispielen diskutiert, insbesondere in Abschnitt 1.1., wobei auch auf Weiterentwicklungen der IPG und damit auf die Entwicklung des sogenannten „Incremental Parallel Formulator“ (IPF) eingegangen wurde (Abschnitt 2). Des Weiteren wurde die linguistisch motivierte Vorstellung eines semantischen Submoduls im Formulator diskutiert (Abschnitt 3), der der Ansatz entgegengestellt wurde, dass der Konzeptualisator bedingt sprachspezifisch arbeitet bzw. auf sprachspezifische Information zugreifen kann. Bedenkt man die genannten Modifikationsvorschläge zum Standardmodell, ist zu berücksichtigen, dass die Modellvorstellungen zum lexikalischen Zugriff weiterentwickelt worden sind. Levelt, Roelofs und Meyer (1999) stellen ein durch Experimente und Simulationen (vgl. dazu Roelofs, 1997) gut validiertes Modell vor (vgl. Kapitel 18 und Kapitel 23), welches auf „spreading activation“Mechanismen beruht, die mit einem Produktionssystem kontrolliert werden. Das Produktionssystem garantiert dabei die Abgeschlossenheit der angenommenen Module. Diese Abgeschlossenheit der Module ist, wie gezeigt, auch für die grammatische Enkodierung ein im Standardmodell verwirklichtes Postulat, welches aufgegeben wird, wenn
man dem Konzeptualisator Zugriff auf sprachspezifische Informationen erlaubt bzw. wenn man einen interaktiven konnektionistischen Modellierungsansatz wählt, in welchem allerdings ebenfalls „spreading activation“Mechanismen genutzt werden. Aufgrund der Metapher sich ausbreitender Aktivierung sind die aktuellen Vorstellungen zum lexikalischen Zugriff nicht mehr integrierbar in eine Vorstellung der grammatischen Enkodierung, die wie die von Kempen auf unifikationsbasierten Mechanismen, angelehnt an die „Lexical Functional Grammar“ (Kaplan & Bresnan, 1982), beruht. Eine Reformulierung der grammatischen Enkodierung, passend zur Modellvorstellung vom lexikalischen Zugriff, ist somit notwendig. Diese Reformulierung wird auf Erkenntnisse zurückgreifen, die im Bereich der lokal-konnektionistischen Modellierung des Sprachproduktionsprozesses derzeit gewonnen werden (vgl. Abschnitt 4), da, wie gesagt, in beiden Fällen mit „spreading activation“-Mechanismen gearbeitet wird. Die Modellvorstellungen klassischer Art und die, die aus einem konnektionistischen Modellierungsansatz entstammen, werden sich in ihrer Weiterentwicklung aufeinander zu bewegen, insbesondere dann, wenn über die Verwendung spezieller konnektionistischer Techniken wie der laterelen Inhibition (vgl. Berg & Schade, 1992) auch im konnektionistischen Paradigma eine bedingte Abgeschlossenheit der angeommenen Module erreicht wird. Kritisch bleiben die unterschiedlichen Vorstellungen zur Orientierung und zur Regelung des Aktivationsflusses dann lediglich für die Fälle, in denen es zur Produktion fehlerbehafteter Äußerungen kommt. Dies ist ein Feld, in dem die Erklärungen, die die klassische Variante der grammatischen Enkodierung anbietet, weiterhin mit denen der konnektionistischen Variante konkurrieren. Dabei ist zu hoffen und zu erwarten, dass aus dieser Konkurrenz der Modellansätze, wie schon in der Vergangenheit bei den Diskussionen zum lexikalischen Zugriff, Erkenntnisse zum Gegenstand der Modellierung, hier also zum kognitiven Prozess der grammatischen Enkodierung bei der Sprachproduktion, gewonnen werden.
6.
Literatur
Abb, B., Herweg, M. & Lebeth, K. (1993). The incremental generation of passive sentences. Proceedings of the 6th EACL. Utrecht.
21. Produktion von Syntagmen Berg, T. (1986). The problems of language control: Editing, monitoring, and feedback. Psychological Research, 48, 133⫺144. Berg, T. (1987). The case against accomodation: Evidence from German speech error data. Journal of Memory and Language, 26, 277⫺299. Berg, T. (1988). Die Abbildung des Sprachproduktionsprozesses in einem Aktivationsflussmodell: Untersuchungen an deutschen und englischen Versprechern. Tübingen: Niemeyer. Berg, T. (1992). Prelexical and postlexical features in language production. Allied Psychologingustics, 13, 119⫺235. Berg, T. & Schade, U. (1992). The role of inhibition in a spreading-activation model of language production. Part I: The psycholinguistic perspective. Journal of Psycholinguistic Research, 21, 405⫺434. Bierwisch, M. (1983). Semantische und konzeptuelle Repräsentation lexikalischer Einheiten. In R. Ruzicka & W. Motsch (Eds.), Untersuchungen zur Semantik (pp. 61⫺99). Berlin: Akademie der Wissenschaften. Bierwisch, M. & Schreuder, R. (1992). From concepts to lexical items. Cognition, 42, 23⫺60. Bock, J. K. & Warren, R. K. (1985). Conceptual accessibility and syntactic structure in sentence formulation. Cognition, 21, 47⫺67. De Smedt, K. (1990). IPF: An incremental parallel formulator. In R. Dale, C. Mellish & M. Zock (Eds.), Current research in natural language generation (pp. 167⫺192). London: Academic Press. De Smedt, K. (1994). Parallelism in incremental sentence generation. In G. Adriaens & U. Hahn (Eds.), Parallel natural language processing (pp. 421⫺447). Norwood, NJ: Ablex. De Smedt, K. (1996). Models of incremental grammatical encoding. In T. Dijkstra & K. de Smedt (Eds.), Computational psycholinguistics (pp. 279⫺ 307). London: Taylor & Francis. Dell, G. S. (1986). A spreading-activation theory of retrieval in sentence production. Psychological Review, 93, 283⫺321. Dell, G. S. (1988). The retrieval of phonological forms in production: Tests of predictions from a connectionist model. Journal of Memory and Language, 27, 124⫺142. Dell, G. S., Burger, L. K. & Svec, W. R. (1997). Language production and serial order: A functional analysis and a model. Psychological Review, 104, 123⫺147. Dell, G. & Juliano, C. (1996). Computational models of phonological encoding. In T. Dijkstra & K.
305 de Smedt (Eds.), Computational psycholinguistics (pp. 328⫺359). London: Taylor and Francis. Dell, G. S. & Reich, P. A. (1980). Toward a unified model of slips of the tongue. In V. A. Fromkin (Ed.), Errors in linguistic performance: Slips of the tongue, ear, pen, and hand (pp. 273⫺286). New York: Academic Press. Dietrich, R. (1998). On the production of word order and the origin of incrementality. In R. Klabunde & C. von Stutterheim (Eds.), Representations and processes in language production (pp. 57⫺ 87). Wiesbaden: Deutscher Universitäts-Verlag. Eikmeyer, H.-J., Schade, U., Kupietz, M. & Laubenstein, U. (1999). A connectionist view of language production. In R. Klabunde & C. von Stutterheim (Eds.), Representations and processes in language production (pp. 205⫺236). Wiesbaden: Deutscher Universitäts-Verlag. Garrett, M. (1975). The analysis of sentence production. In G. Bower (Ed.), Psychology of learning and motivation (pp. 133⫺177). New York, NY: Academic Press. Günther, C., Habel, C., Schopp, A. & Ziesche, S. (1996). Perspektivierungsprozesse in SYNPHONICS. In C. Habel, S. Kanngießer & G. Rickheit (Eds.), Perspektiven der Kognitiven Linguistik: Modelle und Methoden (pp. 127⫺159). Opladen: Westdeutscher Verlag. Härtl, H. (1999). Worin sich „begeistern“ und „bewundern“ unterscheiden: Implizite Verbkausalität und Situationsreferenz bei psychischen Verben. In C. Habel & T. Pechmann (Eds.), Sprachproduktion. Wiesbaden: Deutscher Universitäts-Verlag. Herrmann, T. & Grabowski, J. (1994). Sprechen: Psychologie der Sprachproduktion. Heidelberg: Spektrum. Herweg, M. & Maienborn, C. (1992). Konzept, Kontext, Bedeutung: Zur Rolle der Zwei-EbenenSemantik in einem Modell der Sprachproduktion. In M. Herweg (Ed.), Hamburger Arbeitspapiere zur Sprachproduktion (pp. 7⫺36) (⫽ Arbeitspapiere des Graduiertenkollegs „Kognitionswissenschaft“ 9). Universität Hamburg. Kaplan, R. M. & Bresnan, J. (1982). Lexical-functional grammar: A formal system for grammatical representation. In J. Bresnan (Ed.), The mental representation of grammatical relations (pp. 173⫺ 281). Cambridge, MA: MIT Press. Kempen, G. & Hoenkamp, E. (1987). An incremental procedural grammar for sentence production. Cognitive Science, 11, 201⫺258. Levelt, W. J. M. (1989). Speaking: From intention to articulation. Cambridge, MA: MIT Press.
306
III. Sprachproduktion
Levelt, W. J. M., Roelofs, A. & Meyer, A. S. (1999). A theory of lexical access in speech production. Behavioral and Brain Science, 22, 1⫺75. MacKay, D. G. (1982). The problem of flexibility, fluency, and speed-accuracy trade-off in skilled behaviors. Psychological Review, 89, 483⫺506.
Schade, U. & Eikmeyer, H.-J. (1998). Modeling the production of object specifications. In J. Grainger & A. Jacobs (Eds.), Localist connectionist approaches to human cognition (pp. 257⫺282). Mahwah, NJ: Erlbaum.
MacKay, D.G. (1987). The organization of perception and action: A theory for language and other cognitive skills.New York: Springer.
Schade, U. & Laubenstein, U. (1993). Repairs in a connectionist language-production model. In R. Köhler & B. Rieger (Eds.), Contributions to quantitative linguistics, (pp. 79⫺90). Dordrecht: Kluwer.
MacKay, D.G. (1992). Awareness and error detection: New theories and research paradigms. Consciousness and Cognition, 1, 199⫺225.
Slobin, D. I. (1991). Learning to think for speaking: Native language, cognition, and rhetorical style. Pragmatics, 1, 7⫺25.
Murcia-Serra, J. (1999). Subject, topic, and agent: Accounting for the addressee in instructions in English, German, and Spanish. Linguistics, 37, 13⫺40.
Stemberger, J.P. (1985). An interactive activation model of language production. In A. W. Ellis (Ed.), Progress in the psychology of language (pp. 143⫺ 186). London: Erlbaum.
Roelofs, A. (1992). A spreading activation theory of lemma retrieval in speaking. Cognition, 42, 107⫺142.
von Stutterheim, C. (1999). How language specific are processes in the conceptualiser? In R. Klabunde & C. von Stutterheim (Eds.), Representations and processes in language production (pp. 153⫺179). Wiesbaden: Deutscher Universitäts-Verlag.
Roelofs, A. (1997). The WEAVER model of wordform encoding in speech production. Cognition, 64, 249⫺284. Schade, U. (1992). Konnektionismus. Opladen: Westdeutscher Verlag.
Wunderlich, D. (1997). CAUSE and the structure of verbs. Linguistic Inquiry, 28, 27⫺68.
Ulrich Schade, Hans-Jürgen Eikmeyer Universität Bielefeld (Deutschland)
Schade, U. (1999). Konnektionistische Sprachproduktion. Wiesbaden: Deutscher Universitäts-Verlag.
22. Ellipsen und andere syntagmatische Aspekte 1. 2. 3. 4. 5.
1.
Untersuchungsgegenstände und ihre Relevanz Grammatiktheoretische Voraussetzungen Diskontinuierliche Kookkurrenzbeziehungen Strukturbildung bei Ellipsen Literatur
Untersuchungsgegenstände und ihre Relevanz
In diesem Beitrag geht es um Sätze mit der Sammelbezeichnung „Ellipsen“, bei denen bestimmte Äußerungsteile zu fehlen scheinen und die trotzdem grammatisch korrekt sind. Ein prototypisches Beispiel hierfür bilden Gapping-Konstruktionen. (1)
Hans fährt nach München und Max nach Berlin
Den im zweiten Teil von (1) dargestellten Sachverhalt versteht man wie Max fährt nach Berlin; das Verb fährt „fehlt“ dort aber.
Ellipsen sollte man im Zusammenhang mit anderen Konstruktionen diskutieren, bei denen die syntagmatischen Beziehungen (auch Kookkurrenzbeziehungen genannt) eine ähnliche Rolle spielen. Hierzu gehört z. B. die noch wenig untersuchte Nachtragskonstruktion. (2)
Heinz hat das kleine Mädchen geärgert, dieser Lümmel
In (2) wird die zum Subjekt gehörige Nominalphrase (NP) dieser Lümmel am Satzende im sog. Nachfeld (vgl. Abschnitt 3.3.) formuliert. Derartige Nachträge haben eine restriktive oder eine explikative Funktion; d. h. entweder tragen sie zur Bestimmung des Referenzobjekts bei, oder sie geben wie in (2) eine zusätzliche Information über den Referenten. Formal identische Kookkurrenzbeziehungen können also mit unterschiedlichen Verknüpfungsoperationen verbunden sein. Diese Einsicht ist auch für die Behandlung von (1)
307
22. Ellipsen und andere syntagmatische Aspekte
wichtig, weil sich herausstellt, dass in (1) z. B. zwischen der NP Hans und der NP Max eine syntagmatische Beziehung besteht. Der so umrissene und hier am Beispiel des Deutschen behandelte Gegenstandsbereich ist für eine prozessorientierte Psycholinguistik aus mehreren Gründen von Interesse. Erstens enthält er verschiedene Konstruktionen, die für die Untersuchung von inkrementeller Sprachverarbeitung einschlägig sind. Dies betrifft z. B. den Fall, dass man die Produktion eines Satzes nicht als ganze vorgeplant hat, sondern bestimmte Formulierungsentscheidungen erst während der Äußerung trifft oder zwischendurch den Äußerungsplan modifiziert. Entsprechende Planungs- und Entscheidungsprozesse werden teilweise verbal transparent, wie folgende nachtrags- bzw. ellipsenähnliche Reparaturkonstruktionen aus einem Datenkorpus mit Montageinteraktionen zeigen. (3)
Die stellen wir auf ehm auf ihre kurze Seite ehm wie nennt man das auf die Querseite und zwar hochkant
(4)
Das sind zwei ku eh relativ kurze Säulen
Zweitens ist auch der wichtige Aspekt der Verarbeitungsökonomie angesprochen. Bei Ellipsen wie (1) gilt dies zunächst für die Sprachproduktion, weil der Verzicht auf eine Wiederholung des Verbs Zeit spart. In Günther et al. (1993) wurde aber auch ein Ökonomieeffekt für die Rezeption nachgewiesen. Ähnliche Ergebnisse sind z. B. für ApokoinuKonstruktionen zu erwarten. (5)
Morgen sehe ich meinen Freund will ich im Krankenhaus besuchen
In (5) bildet die NP meinen Freund das sog. Koinon (das Gemeinsame) und fungiert aufgrund einer Doppelverknüpfung für beide Äußerungsteile als Akkusativobjekt. Neben Konstruktionen, bei denen man sich eine Wiederholung bestimmter Äußerungsteile ersparen kann, gibt es auch Konstruktionen, bei denen Formulierungswiederholungen zwar nicht notwendig, aber verständigungsökonomisch zweckmäßig sind. Dies gilt z. B., wenn bei diskontinuierlichen Verknüpfungen größere Distanzen überbrückt werden müssen. Den Effekt einer solchen Wiederholung zeigt folgender Vergleich zweier Reparaturen. (6)
a. Also sechs Klötzchen grüne die stehen auf ihrer Querseite auf der breiten auf der breiten auf der hochkant
b.
Also sechs Klötzchen grüne die stehen auf ihrer Querseite auf der breiten auf der stehen hochkant
Ein dritter psycholinguistisch relevanter Aspekt bezieht sich darauf, dass für bestimmte Ellipsen die Einbeziehung visueller Informationen konstitutiv ist. Z. B. kann man ein gefülltes Schnapsglas an seine Nase führen und dann sagen (7)
Riecht gut
Bei (7) lässt sich die der Äußerung vorausgehende Handlung des Heranführens als nonverbaler Akt der Referenzherstellung auffassen, der die Formulierung einer NP (der Schnaps) ersetzt. Zugleich macht (7) auf einen vierten Aspekt aufmerksam: Die Verwendung elliptischer Formulierungen kann davon abhängen, welche Objekte momentan für die Sprachverarbeitung zugänglich sind. Fünftens schließlich wird durch die besondere Fokussierung syntagmatischer Beziehungen ein Sachverhalt deutlich, der in Linguistik und Psycholinguistik erstaunlicherweise bisher nicht bemerkt wurde. Auch für die grammatische Strukturbildung gelten die bekannten Gestaltprinzipien der Wahrnehmungspsychologie (vgl. Kindt, 2001), und sie können zur Erklärung von Akzeptabilität (vgl. Abschnitt 2) und Lesartenwahl (vgl. Abschnitt 3.3) bei Äußerungen herangezogen werden. So ist z. B. unmittelbar plausibel, dass bei (7) das Prinzip der Nähe, bei (2) das Prinzip der Ähnlichkeit (Person- und Kasuskongruenz) und bei (4) das Prinzip der guten Fortsetzung zum Tragen kommen. Insgesamt gesehen, zeigt die bisherige Diskussion: Es würde sich lohnen, den skizzierten Gegenstandsbereich psycholinguistisch intensiver als bisher zu untersuchen. Der vorliegende Beitrag soll hierzu Grundlagen und Ansatzpunkte aufzeigen.
2.
Grammatiktheoretische Voraussetzungen
Die Durchführung psycholinguistischer Experimente z. B. über die Verarbeitung von Ellipsen kann nur auf der Grundlage einer angemessenen Grammatiktheorie erfolgreich sein. Nun werden aber in den vorliegenden Grammatikmodellen wichtige Aspekte der hier zu diskutierenden Konstruktionen nicht erfasst. Ein erstes Problem bezieht sich darauf, dass für diese Konstruktionen der traditionelle Satzbegriff nicht ausreicht. Im An-
308
III. Sprachproduktion
schluss an Bloomfield (1926) kann man Sätze als kleinste selbstständige sprachliche Äußerungen definieren (vgl. Kindt, 1994). Bei konsequenter Anwendung dieser Definition zeigt sich, dass man nicht nur monologische, sondern auch kooperativ produzierte Sätze zu untersuchen hat (vgl. auch Wilkes-Gibbs, 1995; Clark, 1996). So könnte der Nachtrag in (2) von einer anderen Person geäußert sein als der erste Äußerungsteil, und dies würde nichts am Satzstatus von (2) ändern, weil sich (2) nicht weiter in selbstständige Teiläußerungen zerlegen lässt. Eine besonders überraschende Konsequenz der obigen Satzdefinition bildet die Tatsache, dass auch FrageAntwort-Ellipsen als Sätze aufgefasst werden müssen (vgl. Kindt, 1985). (8)
a. A: Wer hat das gesagt? B: Ich
Die Einstufung von (8a) als Satz beruht darauf, dass die Antwort Ich aufgrund der Formabhängigkeit vom Fragepronomen Wer keine selbstständige Äußerung darstellt. Unselbstständigkeit und Formabhängigkeit der Antwort werden noch deutlicher, wenn man die Ausgangsfrage variiert. (8)
b. A: B: c. A: B:
Zu wem hat Adam das gesagt? Ich Wer hat das zu wem gesagt? Ich
Im Unterschied zu (8a) ist (8b) syntaktisch nicht korrekt; denn eine regelgerechte Antwort müsste etwa Zu mir heißen. Demgegenüber ist (8c) zwar korrekt, aber syntaktisch unvollständig, und deshalb kann die Antwort in (8c) z. B. zu Ich zu Hans vervollständigt werden. Die Analyse von Frage-Antwort-Ellipsen macht noch ein zweites Problem vorliegender Grammatikmodelle deutlich: Sie behandeln jeweils nur einen Teil der relevanten syntagmatischen Beziehungen. Einerseits beschränken sich phrasenstrukturelle Ansätze im Allgemeinen auf die Betrachtung von Kookkurrenzbeziehungen, die für zwei Äußerungssegmente vorliegen, wenn sie gemeinsame Bestandteile einer Konstituente des jeweiligen Satzes sind. Dieser Fall liegt aber bei der konstituentenunabhängigen Kookkurrenzbeziehung zwischen Fragepronomen und Antwort-NP in (8a) nicht vor. Andererseits gehört diese Beziehung auch nicht zu den in der Dependenzgrammatik betrachteten syntagmatischen Relationen. Insgesamt gesehen, ist in letzter Zeit zwar eine Tendenz zur Entwick-
lung integrierter theoretischer Ansätze, wie z. B. der HPSG (vgl. Pollard & Sag, 1994), zu beobachten, eine systematische Diskussion über die Rolle von Kookkurrenzbeziehungen steht aber noch aus. Ein weiteres Problem bisheriger Grammatikmodelle besteht darin, dass der Zusammenhang zwischen Informationsstrukturen und grammatischen Eigenschaften von Äußerungen nicht ausreichend untersucht ist. Gerade für die hier zu diskutierenden Konstruktionen wäre dies aber notwendig, wie folgendes Beispiel zeigt. (9)
a. Jörg hat das Buch dem Mädchen geschenkt, aber nicht die Rosen b. Jörg hat dem Mädchen das Buch geschenkt, aber nicht die Rosen
Die diskontinuierliche Phrasenkoordination in (9a) ist im Unterschied zu (9b) nur eingeschränkt akzeptabel, weil die Voranstellung des direkten Objekts vor das indirekte im Standardfall eine Thema-Rhema-Struktur induziert, bei der das Buch als thematisch und dem Mädchen als rhematisch eingestuft wird; zum thematischen direkten Objekt passt dann aber nicht die rhematisch zu interpretierende koordinative Ergänzung aber nicht die Rosen. Schließlich ist das Problem des Akzeptabilitätsbegriffs anzusprechen. In der Psycholinguistik ist seit langem bekannt, dass es einen Typ von syntaktischer Inakzeptabilität gibt, der mit Verarbeitungsschwierigkeiten bei der Äußerungsrezeption zusammenhängt und hier stilistische Inakzeptabilität genannt werden soll (vgl. Kindt, 1985). So sind Sätze mit mehrfach links eingebetteten Relativsätzen nur schwer erfolgreich zu rezipieren. Dies gilt z.B: für (10) Die beiden Frauen, die das Kind, das im Garten des Politikers, der im Spendenskandal verwickelt war, spielte, beobachteten, haben laut gelacht Stilistische Inakzeptabilität lässt sich auch bei anderen Konstruktionen mit diskontinuierlichen Verknüpfungen beobachten (vgl. (6a)). Dementsprechend liegt eine der möglichen Ursachen dieser Art von Inakzeptabilität darin, dass die Distanz zwischen zwei zu verknüpfenden Äußerungsteilen zu groß ist, d. h. dass in entscheidender Weise gegen das Prinzip der Nähe verstoßen wird. Eine andere Ursache für stilistische Inakzeptabilität ist bei Garden-Path-Sätzen zu beobachten (vgl. Bader et al., 2000).
22. Ellipsen und andere syntagmatische Aspekte
309
(11) a. Fritz hat die Oma nicht geholfen b. Fritz hat die Oma nicht angerufen
zu betrachten. Von den bisher behandelten Beispielen gehören hierzu die drei Nachfeldkonstruktionen Nachtrag, Ausklammerung und diskontinuierliche Phrasenkoordination.
Beim wortweisen Lesen von (11a) (von links nach rechts) stuft man die NP Fritz aufgrund eines nichtmonotonen Schlusses zunächst als Subjekt ein und die NP die Oma als direktes Objekt; nach Rezeption des satzfinalen Partizips muss diese Einstufung im Unterschied zu (11b) aber revidiert werden. Entsprechende Reanalysen sind immer aufwendig und je nach Rezeptionsbedingungen evtl. nicht mehr durchführbar. Grammatiktheoretisch hat das Phänomen der stilistischen Inakzeptabilität die Konsequenz, dass neben syntaktischer Korrektheit und Vollständigkeit noch zwei weitere Akzeptabilitätsdimensionen, nämlich Angemessenheit/strukturelle Stabilität und Relevanz, berücksichtigt werden müssen; dies belegen auch verständigungstheoretische Untersuchungen (vgl. Kindt, 2001). Für die linguistische Methodik ergibt sich hieraus die Notwendigkeit, das Verfahren der systematischen Äußerungsvariation konsequenter als bisher anzuwenden und mit Akzeptabilitätstests zu kombinieren, damit man die intuitiv nicht eindeutig unterscheidbaren Fälle von Inakzeptabilität gegeneinander abgrenzen kann. Z. B. scheint es auf den ersten Blick evident zu sein, dass die Ausklammerungskonstruktion (12) a. Helga hat gestern besucht uns als syntaktisch inkorrekt einzustufen ist und dass obligatorische Satzglieder nicht ausgeklammert werden dürfen. Dem widerspricht aber die größere Akzeptabilität von (12) b. Helga hat gestern besucht uns, Elisabeth und ihre früheren Nachbarn Tatsächlich handelt es sich bei (12a) um ein Relevanzproblem der Art, dass ein Satzglied nicht an einer der üblichen Positionen vorkommt, wobei die Erwartbarkeit von Positionen auch von der Satzgliedlänge abhängt.
3.
Diskontinuierliche Kookkurrenzbeziehungen
Ein entscheidender Ansatz zur Aufklärung des Ellipsenphänomens besteht in einer Einbeziehung bestimmter, bisher unberücksichtigt gebliebener diskontinuierlicher Kookkurrenzbeziehungen. Allerdings ist es zweckmäßig, zunächst relativ einfache nichtelliptische Konstruktionen mit ähnlichen Eigenschaften
3.1. Die Modellierung sog. diskontinuierlicher Konstituenten Wissenschaftshistorisch gesehen, wurde das Problem von Diskontinuität zum ersten Mal im Zusammenhang mit Sätzen folgender Art diskutiert: (13) Hans hörte Max aufmerksam zu Der Vorteil einer Abtrennung des Präfixes auf vom Verbbestandteil hörte liegt darin, dass auf diese Weise die rechte Grenze des Mittelfelds (die sog. rechte Satzklammer) eindeutig bestimmt ist (vgl. Abschnitt 3.3). Allerdings muss dann bei der Rezeption die Zusammengehörigkeit von auf und hörte erkannt werden, was sich aber aufgrund des einschlägigen lexikalischen Wissens als unproblematisch erweist. Grammatiktheoretisch wurde das Phänomen der sog. diskontinuierlichen Konstituenten als Beleg dafür gewertet, dass Phrasenstrukturgrammatiken für die Beschreibung natürlicher Sprachen inadäquat seien (vgl. etwa Bartsch et al., 1977), weil man Überschneidungen von Kanten in Konstituentenstrukturgraphen nicht zulassen dürfe. Letztlich hat man aus diesem Grund in den gängigen grammatiktheoretischen Ansätzen bis heute darauf verzichtet, die Zusammengehörigkeit diskontinuierlicher Konstituenten unmittelbar strukturell zu repräsentieren. Einerseits kann aber für Ansätze, die Diskontinuität über einen Transformationsprozess auf benachbartes Vorkommen in einer Tiefenstruktur zurückführen, kein Anspruch auf psychologische Realität erhoben werden; andererseits erscheint auch die u. a. in der HPSG (Pollard & Sag, 1994) gewählte Lösung eines Informationstransfers über die Kanten von Konstituentenstrukturen als Umweg. Die Zusammengehörigkeit der beiden Verbbestandteile in (13) wird durch eine syntagmatische Beziehung nach dem Prinzip der guten Fortsetzung etabliert und sollte dementsprechend direkt repräsentiert werden. Dazu führt man einen neuen Kantentyp, die Kookkurrenzkanten, ein (vgl. Kindt, 1998; 2003). Einerseits bildet Kookkurrenz – wie in Abschnitt 2 erläutert – ohnehin eine von Konstituenz partiell unabhängige Relation; tatsächlich werden syntagmatische Beziehungen in Grammatiken manchmal informell geson-
310 dert dargestellt (vgl. Eisenberg, 1989). Andererseits hat bei (13) das Präfix aufgrund seiner Funktion als Grenzmarkierung den Status einer eigenständigen, unmittelbaren Satzkonstituente, so dass im Fall einer diskontinuierlichen Platzierung gar nicht von der Existenz einer aus hört und zu gebildeten gemeinsamen syntaktischen Konstituente auszugehen ist. Im Fazit ergibt sich folgende Strukturdarstellung für (13):
Diese Lösung kann generell auf Konstruktionen mit diskontinuierlichen Kookkurrenzbeziehungen übertragen werden. 3.2. Verknüpfungs- oder Reduktionsansatz? Diskontinuierliche Phrasenkoordinationen werden oft als Auslassungsphänomen behandelt (vgl. Klein, 1985). Dementsprechend wäre ein Satz wie (14) a. Uwe trinkt morgens Kaffee und nachmittags
III. Sprachproduktion
native Verknüpfungsprozesse zustande kommen. Dafür stellt die diskontinuierliche Phrasenkoordination einen einfachen Modellfall dar: So wird z. B. in (14a) die Sequenz und nachmittags einerseits wie bei (14c) direkt mit morgens koordinativ verknüpft; hieraus resultiert andererseits nach einem Transitivitätsgesetz aufgrund der Verknüpfung zwischen trinkt und morgens indirekt auch eine analoge Verknüpfung zwischen trinkt und nachmittags, so dass auf diese Weise eine Sachverhaltsdarstellung entsteht, die semantisch (14b) entspricht. Aus Reduktions- und Verknüpfungsansatz lassen sich jeweils unterschiedliche Voraussagen über Produktions- und Rezeptionsprozesse ableiten (vgl. Abschnitt 4). Man kann aber zunächst auch die strukturellen Eigenschaften diskontinuierlicher Phrasenkoordinationen geltend machen. Exemplarisch sei vorerst ein Argument gegen den Reduktionsansatz genannt. Er erklärt nicht, warum (14) d. Uwe trinkt vormittags Kaffee, nachmittags inakzeptabel ist und dies trotz grammatischer Korrektheit der asyndetischen Variante von (14b) (14) e. Uwe trinkt vormittags Kaffee, Uwe trinkt nachmittags Kaffee
(14) b. Uwe trinkt vormittags Kaffee und Uwe trinkt nachmittags Kaffee
Zugleich steht dieses Ergebnis im Kontrast zur Tatsache, dass bei Gapping-Konstruktionen auch die asyndetischen Varianten korrekt sind.
Man kann aber im Sinne von 3.1 auch argumentieren, dass (14a) nur eine Variante von
(15) Uwe trinkt vormittags Kaffee, Ulrich nachmittags
(14) c. Uwe trinkt morgens und nachmittags Kaffee
3.3. Die Rolle der Gestaltprinzipien Bei allen drei Nachfeldkonstruktionen bestehen spezifische Kookkurrenzbeziehungen zwischen der Konstituente im Nachfeld und einer Konstituente im Vor- oder Mittelfeld. Dabei geht man für eine Unterteilung von Hauptsätzen im Deutschen (vgl. etwa Grewendorf, 1991) davon aus, dass links vom finiten Verb das (evtl. leere) Vorfeld liegt, dass das Mittelfeld mit dem finiten Verb beginnt und (sofern vorhanden) mit dem infiniten Verbkomplex endet und dass anschließend das Nachfeld folgt. Bei Ausklammerungen wie (12b) liegt der syntagmatischen Beziehung die Rektionsrelation zugrunde, und die Rückverknüpfung der Nachfeldkonstituente erfolgt nach dem Prinzip der guten Fortsetzung. Bei koordinativ anzuschließenden
zurückzuführen auf
bildet und dass weder (14a) noch (14c) elliptisch sind. Letztlich lässt sich an (14a⫺c) die Rolle zweier konkurrierender Erklärungsansätze verdeutlichen. Der in der Grammatikforschung hauptsächlich vertretene Reduktionsansatz (vgl. v. Oirsouw, 1987) versucht, Ellipsen grundsätzlich durch geeignete Konstruktionsergänzungen auf bedeutungsgleiche, nicht-elliptische Konstruktionen zurückzuführen. Entsprechende Verarbeitungshypothesen wurden z. B. von Murphy (1985) sowie Sag und Hankamer (1984) aufgestellt. Im Unterschied dazu argumentiert der Verknüpfungsansatz (Günther et al., 1993), dass bestimmte Ellipsentypen durch spezifische, auf Kookkurrenzbeziehungen basierende koordi-
311
22. Ellipsen und andere syntagmatische Aspekte
Nachträgen wird die Rückverknüpfung, wie schon erwähnt, aufgrund von Kongruenzbeziehungen nach dem Prinzip der Ähnlichkeit vorgenommen. Bei Phrasenkoordinationen schließlich werden beide Prinzipien miteinander kombiniert. Z. B. verlangt in (14a) die Konjunktion und, mit der die Nachfeldkonstituente eingeleitet wird, nach dem Prinzip der guten Fortsetzung eine Verknüpfung mit einer geeigneten Konstituente im Vor- oder Nachfeld; zugleich muss diese Konstituente nach dem Prinzip der Ähnlichkeit zur Konstituente rechts von der Konjunktion passen. In (14a) ist dies durch die gemeinsame Kategorisierung als Temporalangabe gegeben; demgegenüber wäre die Kombination mit einer Lokalangabe nicht akzeptabel. Bei der Konjunktion von Nominalphrasen wird das Prinzip der Ähnlichkeit demgegenüber durch Kasuskongruenz realisiert; dementsprechend ist z. B. (16) a. Der Lehrer friert und ich korrekt, aber nicht (16) b. Der Lehrer friert und mich (16b) stellt übrigens ein weiteres Gegenbeispiel gegen den Reduktionsansatz dar, weil man nach ihm (16b) aus (16) c. Der Lehrer friert und mich friert herleiten könnte. Auch das Prinzip der Nähe spielt bei der Rückverknüpfung der Nachfeldkonstituente eine wichtige Rolle, falls es mehrere Anknüpfungsmöglichkeiten gibt. Beispielsweise interpretiert man (17) a. Mozart hat Haydn bewundert und Beethoven mit Präferenz im Sinne von (17) b. Mozart hat Haydn und Beethoven bewundert Dies gilt sogar dann, wenn man weiß, dass Mozart Beethoven nicht gekannt hat (vgl. Klein, 1981). Grund hierfür ist, dass die Distanz von Beethoven zu Haydn geringer ist als zu Mozart. Eine Rückverknüpfung zu Mozart wird aber sofort möglich, wenn eine geeignete Kasusspezifikation vorgenommen wird. (17) c. Mozart hat Haydn bewundert und der berühmte Beethoven Da eine nicht kasusmarkierte NP in Erstposition mit Präferenz als Subjekt analysiert
wird, betrachtet man in (17c) die NominativNP der berühmte Beethoven als zu Mozart gehörig. 3.4. Inkrementalität Das Nachfeld bietet die Möglichkeit, ursprünglich nicht geplante Informationen zu ergänzen, Korrekturen vorzunehmen etc. Bei einer Anwendung von Regeln für die Produktion von Vor- und Mittelfeld kann man aber im Allgemeinen noch keine Rücksicht darauf nehmen, ob und ggf. wie der Satz im Nachfeld fortgeführt wird. Deshalb sollte sich bei diskontinuierlichen Phrasenkoordinationen die Forderung nach Subjekt-Verb-Kongruenz nicht auf das Nachfeld erstrecken. Tatsächlich ist es in (16a) nicht erforderlich und auch nicht korrekt, analog zum kontinuierlichen Fall die Verbform der 3. Person Plural zu wählen. (16c) Der Lehrer frieren und ich Außerdem zeigt (16a), dass es erlaubt ist, als rechtes Konjunktionsglied eine NP zu wählen, die – für sich genommen – nicht zur Verbform passt; die NP ich würde nämlich die Verbform friere verlangen. Beide Ergebnisse lassen sich ohne Schwierigkeiten mit dem Verknüpfungsansatz erklären. 3.5. Verarbeitungsökonomie Das eben illustrierte Inkongruenzphänomen verbindet bereits den Aspekt der Inkrementalität mit dem der Verarbeitungsökonomie. Noch relevanter ist die Verbindung beider Aspekte bei der Frage, wie viel Aufwand für eine eventuelle Restrukturierung des bisherigen Verarbeitungsresultats bei Nachfeldkonstruktionen erforderlich wird. Einerseits sollte dieser Aufwand möglichst gering sein, d. h. dass im günstigsten Fall keine Strukturrevision, sondern nur eine Strukturexpansion durchzuführen wäre. Andererseits ist nach gängigen grammatiktheoretischen Modellierungen aufgrund stark hierarchischer Konstituentenstrukturen ein erheblicher Restrukturierungsaufwand zu erwarten. Z. B. müsste bei (2) in die für Vor- und Mittelfeld ermittelte Struktur eine hierarchiehöhere NP eingebaut werden, die aus dem bisherigen Subjekt Heinz und dem Nachtrag dieser Lümmel besteht. Über den tatsächlichen Restrukturierungsaufwand muss in Experimenten entschieden werden. Im Sinne der Annahme eines geringen Verarbeitungsaufwands liegt es aber nahe, wie in Abschnitt 3.1 von flachen Konstituentenstrukturen und einer Ausnut-
312
III. Sprachproduktion
zung konstituentenunabhängiger Kookkurrenzbeziehungen auszugehen. Für die konkrete Strukturierung z. B. von (2) bedeutet dies, dass der Nachtrag dieser Lümmel als unmittelbare Satzkonstituente angesetzt und mit der NP Heinz nur über eine Kookkurrenzkante koordinativ verknüpft wird. 3.6. Zugänglichkeit Im Nachfeld ist die diskontinuierliche Anknüpfung an vorausgehende Konstituenten leichter möglich als im Mittelfeld, wie der Vergleich von (17c) z. B. mit folgender Variante zeigt. (17) d. Mozart hat und der berühmte Beethoven immer Haydn bewundert Eine Erklärung für dieses Phänomen könnte sein: Mit dem Erreichen der rechten Satzklammer ist ein erster potenzieller Satzabschluss gegeben, d. h. es steht fest, welche Äußerungsteile als unmittelbare Konstituenten des Satzes gelten, und diese Konstituenten sind deshalb über den Satzknoten der Konstituentenstruktur zugänglich. Umgekehrt sind auch Spezialfälle der drei Nachfeldkonstruktionen zu untersuchen, die nur als eingeschränkt akzeptabel gelten können und bei denen vermutlich Zugänglichkeitsprobleme vorliegen. Dies betrifft u. a. die Ausklammerung von Genitivattributen. Zunächst scheint eine solche Ausklammerung sogar grammatisch inkorrekt zu sein. (18) a. Der Hund hat gebellt des Mannes Insbesondere bei geeigneter prosodischer Realisierung wirkt folgende Variante schon partiell akzeptabel. (18) b. Eben hat der Hund gebellt des Mannes Einen vergleichbaren nennt Müller (1999).
empirischen
Beleg
(19) Da wurde das Porzellan drin aufbewahrt der Familien Intuitiv beurteilt, handelt es sich bei (18b) und (19) um Reparaturen, weil jeweils die Referenzherstellung für das Subjekt modifiziert wird. Unklar ist allerdings, ob für diese Reparatur eine syntaktische Umstrukturierung erforderlich wird oder ob die syntagmatische Rückanknüpfung des Genitivattributs an das Subjekt ausreicht, um die gewünschte semantische Reanalyse zu bewirken. Wie dem auch sei, die Beispiele (18a, b) und (19) legen die Annahme nahe, dass sowohl die lineare Dis-
tanz als auch die Einbettungstiefe relevante Faktoren für die Schwierigkeit einer Rückverknüpfung darstellen.
4.
Strukturbildung bei Ellipsen
In den vorigen Abschnitten wurden Grundlagen für die grammatische Analyse und experimentelle Untersuchung von Ellipsen dargestellt. Sie sollen jetzt für eine systematische Behandlung der Frage nach den zugrunde liegenden syntaktischen Strategien genutzt werden. 4.1. Kontextunabhängige Ellipsen Den einfachsten Typ von Ellipsen bilden Äußerungen, die syntaktisch unvollständig sind, die sich aber aufgrund syntaktischer Redundanz problemlos vervollständigen lassen. Man kann sie kontextunabhängige Ellipsen nennen. Prototypische Beispiele hierfür bilden Überschriften, Schlagzeilen, Telegrammtexte wie (20) Oma gut angekommen u. ä. Zu den kontextunabhängigen Ellipsen gehören auch Äußerungen wie (21) a. Schon möglich b. Quatsch; sie sind jeweils durch Das ist zu ergänzen. Erwähnt sei schließlich eine für Erzählungen charakteristische Sonderform, die dem Muster von (22) Ich raus aus dem Bett folgt und eine Verbergänzung (hier springe) erfordert. Kontextunabhängigen Ellipsen liegt offensichtlich das Prinzip der Gestaltschließung zugrunde, und insofern ist eine Modellierung mit dem Reduktionsansatz einschlägig. Zugleich können solche Ellipsen trotz syntaktischer Unvollständigkeit als selbstständig gelten; sie bilden also Sätze. 4.2. Situationsellipsen Eine Gestaltschließung darf teilweise auch bei Situationsellipsen unterstellt werden, bei denen sich eine geeignete Vervollständigung aus Situationsinformationen erschließen lässt. Z. B. ist die Äußerung (23) Jetzt den Hammer je nach Situation auf verschiedene Weise (u. a. durch Gib mir oder Nimm o. ä.) zu ver-
22. Ellipsen und andere syntagmatische Aspekte
vollständigen. (23) ist nur situativ selbstständig und somit kein Satz. Weniger eine Äußerungsergänzung als eine Verknüpfung mit einem Situationselement scheint bei Situationsellipsen wie (7) vorzuliegen. Für diese Möglichkeit spricht auch der Umstand, dass es grammatische Restriktionen für die Verknüpfung von nonverbalen und verbalen Handlungen gibt: Vermutlich ist eine gestische Referenzherstellung als Ersatz für ein Subjekt akzeptabler als für Objekte. 4.3. Nomen-Ellipsen Bei sog. Nomen-Ellipsen wie in (24) Gib mir mal den blauen geht man zunehmend davon aus, dass die elliptisch erscheinende NP den blauen in Wirklichkeit syntaktisch vollständig ist. Denn das Fehlen etwa des Nomens Stift behindert allenfalls die Interpretation der NP, sofern kein eindeutiger Referenzbereich durch den aktuellen Aufmerksamkeitsfokus bzw. durch Vorerwähnung (z. B. die Stifte auf dem Schreibtisch) gegeben ist. Dies schließt aber nicht aus, dass die betreffende NP entweder in einer Gestaltschließung mental ergänzt oder mit einem zugehörigen vorerwähnten Nomen aufgrund der Genus-Kongruenzbeziehung verknüpft wird. Es gibt sogar Fälle, bei denen eine solche Verknüpfung obligatorisch zu sein scheint. (25) Das gegen Monika dauerte lange (25) lässt sich gut an verbale Kontexte anschließen, in denen vorher z. B. von Gerichtsverfahren oder Tennismatches, nicht aber von Mittagessen die Rede war. 4.4. Subjektbinnenellipsen Präzise Aussagen über die verwendete syntaktische Strategie zu machen ist besonders wichtig für Koordinationsellipsen. Einen ersten interessanten Fall stellen die Subjektbinnenellipsen dar. (26) a. Aus Baden kommt dieser Wein und schmeckt mir Im zweiten Teil von (26a) fehlt sozusagen das Subjekt und wird aus der Mittelfeldposition im ersten Teil übernommen. Solche Ellipsen mit dem Reduktionsansatz zu erklären ist nicht plausibel; denn sonst müsste auch folgendes Beispiel grammatisch korrekt sein. (26) b. Aus Baden kommt dieser Wein und mir schmeckt
313 Folglich ist, ähnlich wie bei Apokoinu-Konstruktionen, von einer Doppelverknüpfung des Subjekts auszugehen. Zugleich fallen bestimmte Parallelen zu Ellipsen des Typs (7) auf. Einerseits sind die Prinzipien der Nähe und der guten Fortsetzung erfüllt, andererseits sind Binnenellipsen auf den Fall der Subjektanknüpfung beschränkt, wie u. a. folgendes Beispiel belegt. (26) c. Ich trinke diesen Wein und empfehle ich meinen Freunden Deshalb liegt es nahe, Subjektbinnenellipsen mit den besonderen Zugänglichkeitseigenschaften des Subjekts zu erklären. Eine erste experimentelle Untersuchung zu dieser Frage wurde in Günther et al. (1993) mit dem Nachweis durchgeführt, dass sich die Verarbeitungszeiten nicht verringern lassen, wenn das Subjekt als globales Thema eingeführt ist. Dies stützt die Annahme, dass lokale Verknüpfungsstrukturen für die Verarbeitung von Koordinationskonstruktionen zentral sind (vgl. auch Crawley, 1986). Allerdings sind noch bestimmte semantische Restriktionen für Subjektbinnenellipsen zu berücksichtigen. (26) d. Mir schmeckt dieser Wein und kommt aus Baden (26d) ist vermutlich deshalb nur eingeschränkt akzeptabel, weil im Zentrum der Aufmerksamkeit nicht das grammatische Subjekt dieser Wein, sondern das logische Subjekt mir steht. 4.5. Gapping-Konstruktionen Nun fragt sich, ob alle Typen von Koordinationsellipsen die Strategie der Doppelverknüpfung anwenden. Tatsächlich stellt sich heraus, dass noch von einer anderen, nämlich der schon für Phrasenkoordinationen aufgezeigten Strategie Gebrauch gemacht wird. Speziell bei Gapping-Konstruktionen ist diese Strategie eindeutig nachzuweisen. Zunächst kann man zeigen, dass der Reduktionsansatz Gapping-Konstruktionen nicht angemessen erklärt. (27) a. Gert fährt seine Kinder zur Schule und Michael seine Frau nach Kassel b. Gert fährt seine Kinder zur Schule und Michael mit dem Sportwagen zu schnell Dass die Satzglieder im zweiten Konstruktionsteil von (27b) nicht parallel zum ersten Teil gewählt sind, dürfte nach dem Redukti-
314 onsansatz keine Rolle spielen. Dem widerspricht aber die eingeschränkte Akzeptabilität von (27b). Mit demselben Argument ist auch eine Strategie der direkten Mehrfachverknüpfung mit dem Verb auszuschließen, da nach ihr kein Akzeptabilitätsunterschied zwischen (27a) und (27b) bestehen sollte. Außerdem würde eine Rückanknüpfung des zweiten Konstruktionsteils an das Verb einen Wechsel zur Fragesatzwortstellung bedeuten. Insofern liegt es nahe, analog zu den Verhältnissen bei Nachtrag und Phrasenkoordination davon auszugehen, dass man gemäß dem Prinzip der Ähnlichkeit die jeweils korrespondierenden Satzglieder im ersten und zweiten Konstruktionsteil koordinativ miteinander verknüpft und dass eine Verbindung zwischen Verb und Satzgliedern im zweiten Teil nur indirekt zustande kommt. Mit dieser Strategie lässt sich auch ein zur Phrasenkoordination analoges (und mit der Strategie der Mehrfachverknüpfung inkompatibles) Inkongruenzphänomen erklären. (28) a. Hans fährt nach München und ich nach Berlin Bei Formulierung eines Subjekts in Erstposition braucht generell nicht auf Kongruenz zum Verb geachtet zu werden; deshalb besteht im zweiten Teil von (28a) kein Anlass, die Produktion von ich zu vermeiden. Schließlich zeigt auch die experimentelle Überprüfung, dass der Reduktionsansatz und die Strategie der direkten Mehrfachverknüpfung bei Gapping-Konstruktionen nicht zutreffen. Ihnen zufolge müsste nämlich bei der Rezeption einer solchen Konstruktion an der Stelle im zweiten Konstruktionsteil, bei der das Fehlen eines Verbs bemerkt wird, eine zusätzliche Verarbeitungszeit für die Übernahme des Verbs aus dem ersten Teil (vgl. Grober et al., 1978; Murphy, 1985; Bever & McElree, 1988) bzw. für entsprechende Rückanknüpfungen erforderlich werden. Entgegen dieser Prognose ist keine erhöhte Verarbeitungszeit zu beobachten, und dies stützt die Hypothese, dass von vornherein eine koordinative Verknüpfung korrespondierender Satzglieder beider Konstruktionsteile stattfindet (vgl. Günther et al., 1993). Auf diese Weise lässt sich auch der mehrfach nachgewiesene Sachverhalt erklären, dass Satzgliedparallelität in Koordinationskonstruktionen die Verarbeitung des zweiten Konstruktionsteils erleichtert (vgl. Grober et al., 1978; Frazier et al., 1984; Tanenhaus & Carlson, 1986; Gernsbacher et al., 1989). Besonders interes-
III. Sprachproduktion
sant ist jedoch, dass der Verknüpfungsansatz eine plausible Erklärung für neuere Ergebnisse über den Einfluss von Parallelität auf die Verarbeitung von Anaphern (Chambers & Smyth, 1998; Streb et al., 1999) liefert: Wenn korrespondierende Satzglieder in Koordinationskonstruktionen bzw. asyndetisch aneinander angeschlossenen Sätzen syntaktisch koordinativ verknüpft sind, dann besteht nach dem Prinzip der Nähe eine Präferenz, eine evtl. erforderliche Koreferenzbeziehung zwischen ihnen herzustellen. Auch wenn man für die Frage nach der Strukturbildung bei Ellipsen vom Grundsätzlichen her schon einschlägige Antworten geben kann, müssen im vorliegenden Beitrag sehr viele interessante und insbesondere die informationsstrukturellen Aspekte undiskutiert bleiben. Auch für Gapping-Konstruktionen gibt es weitere, genauer zu untersuchende Phänomene. Z. B. ist bei (28) b. Hans fährt nach München und Max zu einer Tagung nach Berlin von einer direkten Rückverknüpfung der Präpositionalphrase zu einer Tagung an das Verb fährt auszugehen. Dass eine solche Rückverknüpfung im Unterschied zu (27b) ohne Schwierigkeiten möglich ist, kann damit zusammenhängen, dass bei (28b) das Verb aufgrund der Verknüpfung der korrespondierenden Satzglieder zugänglicher geworden ist. Allerdings hat dies evtl. Auswirkungen auf die Kongruenzerwartung für das Subjekt im zweiten Konstruktionsteil. (28) c. Hans fährt nach München und ich zu einer Tagung nach Berlin Intuitiv beurteilt, scheint bei der Rezeption von (28c) eine gewisse Inakzeptabilität aufgrund der nicht erfüllten Kongruenzbedingung zu bestehen; ein solcher Effekt müsste aber experimentell nachgewiesen werden. 4.6. Adjazenzellipsen, Links- und Rechtsausklammerungen Abschließend sind noch andere wichtige Ellipsentypen anzusprechen. Zunächst fällt sofort die Analogie zwischen Gapping-Konstruktionen und Frage-Antwort-Ellipsen auf. (28) d. Wer fährt wohin? Hans nach München und Max nach Berlin Insofern liegt es nahe, auch bei Frage-Antwort-Ellipsen von einer koordinativen Rückverknüpfung korrespondierender Satzglieder
315
22. Ellipsen und andere syntagmatische Aspekte
auszugehen, und dies gilt generell für alle Arten sog. Adjazenz-Ellipsen (vgl. Klein, 1985). Eine besondere Rolle für Rückschlüsse auf Sprachverarbeitungsprozesse spielen Linksund Rechtsausklammerungsellipsen. Der Name beider Ellipsentypen ist motiviert durch die formale Analogie zu arithmetischen Gesetzen. a (b ⫹ c) ⫽ ab ⫹ bc Linksausklammerung (b ⫹ c) a ⫽ ba ⫹ ca Rechtsausklammerung Zwei hierzu korrespondierende Sätze sind: (29) a. In Bielefeld wohnt Max und arbeitet Hans b. Max wohnt und Hans arbeitet in Bielefeld Obschon die Analogie zu den arithmetischen Gesetzen bei beiden Konstruktionen die Anwendung einer Strategie der direkten Doppelverknüpfung nahe legt, ist von komplexeren Verhältnissen auszugehen. Zunächst erweisen sich Rechtsausklammerungen oft als inakzeptabel, wenn keine Satzgliedparallelität bei den beiden Konstruktionsteilen vorliegt. (30) a. Max überarbeitet im Zug und Eva zeigt ihrem Freund den Forschungsbericht Und selbst für weniger ausgeprägte Beispiele vom Typ (31) a. … wenn Ute mit dem Auto und Anna an die Ostsee fährt lässt sich experimentell zeigen, dass die Nichtparallelität der Satzglieder zu deutlichen Verlängerungen der Verarbeitungszeit führt (vgl. Günther et al., 1993). Insofern kann eine koordinative Verknüpfung der korrespondierenden Satzglieder angenommen werden. Diese Annahme wird auch gestützt durch das Ergebnis von Kindt et al. (1995), dass nach der Rezeption des ausgeklammerten Satzglieds nur eine vergleichsweise schwache Aktivierung des ersten Konstruktionsteils vorliegt, was eine direkte Rückverknüpfung unwahrscheinlich macht. Allerdings muss gleichzeitig erklärt werden, warum die Inkongruenz in
rung hinsichtlich der Person führt und somit den Anschluss des Verbs stört. Bei Linksausklammerungen ist zwar Subjekt-Verb-Kongruenz, nicht aber Satzgliedparallelität erforderlich. (31) c. Fährt Ute in die Alpen und du an die Ostsee? (30) b. Den Forschungsbericht überarbeitet Max im Zug und zeigt Eva ihrem Freund Dementsprechend könnte man eine direkte Rückverknüpfung des zweiten Konstruktionsteils an das ausgeklammerte Satzglied annehmen. Allerdings wird bei vorliegender Parallelität wahrscheinlich immer von der Möglichkeit einer koordinativen Verknüpfung korrespondierender Satzglieder Gebrauch gemacht. In diesem Fall lässt sich die Inakzeptabilität von (31c) evtl. dadurch erklären, dass bei Subjekten im Mittelfeld generell auf Kongruenz zum vorausgehenden Verb geachtet werden muss. Außerdem spricht möglicherweise gegen eine direkte Rückverknüpfung als alleinigem Erklärungsansatz, dass es auch bei Linksausklammerungen Akzeptabilitätseinschränkungen gibt, falls die Verben der beiden Konstruktionsteile funktional nicht zueinander passen. (32) a. Dem Lehrer gefällt das Mädchen und misstraut der Junge Anders als bei Subjektbinnenellipsen ist die eingeschränkte Akzeptabilität von (32a) nicht auf eine prinzipiell erschwerte Zugänglichkeit (in diesem Fall für ein Dativobjekt) zurückzuführen, wie folgende Beispiele zeigen. (32) b. Dem Lehrer gefällt das Mädchen und schmeckt der Wein c. Dem Lehrer hilft der Direktor und misstraut der Junge Trotzdem bleibt unklar, ob die Verarbeitungsschwierigkeit bei (32a) darauf beruht, dass im Unterschied zu (29a) und (30b) die beiden Verben nicht koordinativ miteinander verknüpft werden können oder ob es bei einer direkten Rückverknüpfung des zweiten Verbs Probleme macht, dass dem Dativobjekt bei der Verknüpfung mit dem ersten Verb eine andere Funktion zugewiesen wurde.
(31) b. … wenn ich in die Alpen und Anne an die Ostsee fährt
5.
im Unterschied zu (28a) eine Akzeptabilitätseinschränkung bedeutet. Denkbar wäre z. B., dass die koordinative Verknüpfung der beiden Subjekte zu einer instabilen Kategorisie-
Bader, M., Meng, M., Bayer, J. & Hopf, J.-M. (2000). Syntaktische Funktions-Ambiguitäten im Deutschen. Zeitschrift für Sprachwissenschaft, 19, 34⫺102.
Literatur
316 Bartsch, R., Lenerz, J. & Ullmer-Ehrich, V. (1977). Einführung in die Syntax. Kronberg/Ts.: Scriptor. Bever, T. G. & McElree, B. (1988). Empty categories access their antedecents during comprehension. Linguistic Inquiry, 19, 35⫺43. Bloomfield, L. (1926). A set of postulates for the science of language. Language, 2, 153⫺164. Chambers, C. G. & Smyth, R. (1998). Structural parallelism, and discourse coherence: A test of centering theory. Journal of Memory and Language, 39, 593⫺608. Clark, H. H. (1996). Using language. Cambridge: Cambridge University Press. Crawley, R. A. (1986). Some factors influencing the comprehension of pronouns in text. In Proceedings of the Eighth Annual Conference of the Cognitive Science Society (pp. 613⫺620). Hillsdale, NJ: Erlbaum. Eisenberg, P. (1989). Grundriß der deutschen Grammatik. Stuttgart: Metzler. Frazier, L., Taft, L., Toeper, T., Clifton, C. & Ehrlich, K. (1984). Parallel structure: A source of facilitation in sentence comprehension. Memory and Cognition, 12, 421⫺430. Gernsbacher, M. A., Hargreaves, D. J. & Beeman, M. (1989). Building and accessing clausal representations: The advantage of first mention versus the advantage of clause recency. Journal of Memory and Language, 28, 735⫺737. Grewendorf, G. (1991). Aspekte der deutschen Syntax. Tübingen: Narr. Grober, E. H., Beardsley, W. & Caramazza, A. (1978). Parallel function strategy in pronoun assignment. Cognition, 6, 117⫺133. Günther, U. Kindt, W., Schade, U., Sichelschmidt, L. & Strohner, H. (1993). Elliptische Koordination: Strukturen und Prozesse lokaler Textkohärenz. Linguistische Berichte, 146, 312⫺342. Kindt, W. (1985). Grammatische Prinzipien sogenannter Ellipsen und ein neues Syntaxmodell. In R. Meyer-Hermann & H. Rieser (Eds.), Ellipsen und fragmentarische Ausdrücke Vol. 1 (pp. 161⫺ 290). Tübingen: Niemeyer.
III. Sprachproduktion Kindt, W. (2001). Syntax und Pragmatik: Eine zu entdeckende Verwandtschaft. In F. Hundsnurscher & F. Liedtke (Eds.), Pragmatische Syntax (pp. 5⫺29). Tübingen: Niemeyer. Kindt, W. (2003). Grundlagen der Grammtiktheorie. In Vorb. Kindt, W., Strohner, H., Günther, U. & Müsseler, J. (1995). Wie man Bücher und Erbsen liest: Zur Interaktion von Syntax und Semantik bei der Ellipsenverarbeitung. Linguistische Berichte, 160, 447⫺ 469. Klein, W. (1981). Some rules of regular ellipsis in German. In W. Klein & W. J. M. Levelt (Eds.), Crossing boundaries in linguistics (pp. 51⫺78). Dordrecht: Reidel. Klein, W. (1985). Ellipse, Fokusgliederung und thematischer Stand. In R. Meyer-Hermann & H. Rieser (Eds.), Ellipsen und fragmentarische Ausdrücke (pp. 1⫺24). Tübingen: Niemeyer. Müller, S. (1999). Deutsche Syntax. Tübingen: Niemeyer. Murphy, G. L. (1985). Processes of understanding anaphora. Journal of Memory and Language, 24, 290⫺303. Pollard, C. & Sag, I. A. (1994). Head-driven phrase structure grammar. Chicago: The University of Chicago Press. Sag, I. A. & Hankamer, J. (1984). Toward a theory of anaphoric processing. Linguistics and Philosophy, 7, 325⫺345. Streb, J., Roesler, F. & Henninghausen, E. (1999). Event-related responses to pronoun and proper name anaphors in parallel and nonparallel discourse structures. Brain and Language, 70, 273⫺ 286. Tanenhaus, M.K. & Carlson, G.N. (1986). Processing verb phrase anaphors. In Proceedings of the Eighth Annual Conference of the Cognitive Science Society (pp. 90⫺95). Hillsdale, NJ: Erlbaum. van Oirsouw, R. R. (1987). The syntax of coordination. London: Croom Helm.
Kindt, W. (1994). Satzbegriff und gesprochene Sprache. Lingua, 94, 25⫺48.
Wilkes-Gibbs, D. (1995). Coherence on collaboration: Some examples from conversation. In M. A. Gernsbacher & A. Anderson (Eds.), Coherence in spontaneous text (pp. 239⫺267). Amsterdam: Benjamins.
Kindt, W. (1998). Integrative Phrasenstrukturgrammatik. Teil I. Report 98/3 Sonderforschungsbereich 360. Universität Bielefeld.
Walther Kindt Universität Bielefeld (Deutschland)
317
23. Versprecher und ihre Reparaturen
23. Versprecher und ihre Reparaturen 1. 2. 3. 4. 5. 6. 7.
Klassifikation der Versprecher Argumentation mit Versprecherdaten „Mixed errors“ Versprecher im Sprachvergleich Reparaturen Fazit Literatur
Erkenntnisse über Fehlleistungen sind eine wichtige Informationsquelle hinsichtlich des Prozesses, aus dem die jeweiligen Fehlleistungen resultieren. Untersucht man nämlich, etwa mit statistischen Methoden, welche Fehlleistungen besonders häufig bzw. welche Fehlleistungen nur sehr selten auftreten, kann man auf den zugrundeliegenden Prozess schließen. Eine solche Strategie ist besonders dann von Bedeutung, wenn der zu untersuchende Prozess selbst der direkten Beobachtung nicht zugänglich ist. Für den kognitiven Prozess der Sprachproduktion gewähren die Versprecher Einblicke in Repräsentations- und Verarbeitungsaspekte. Die wissenschaftliche Beschäftigung mit Versprechern beginnt spätestens mit dem im Jahre 1895 erschienenen Werk „Versprechen und Verlesen“ von Rudolf Meringer und Karl Mayer. Insbesondere Meringer gilt als Pionier auf dem Gebiet der Versprecherforschung, da er in seinen Werken (siehe auch Meringer, 1908) Versprecher aus linguistischer Sicht kategorisiert. Dies steht im Gegensatz etwa zu den Versuchen von Freud und dessen Nachfolgern, in den Versprechern psychopathologische Alltagsphänomene zu sehen, und erlaubt den Bezug auf den kognitiven Prozess der Sprachproduktion, wie er am richtungsweisendsten von Fromkin (1971) und Garrett (1975) vollzogen wurde. Eine Würdigung von Meringer findet sich in Güntert (1932). In dem folgenden Kapitel werden wir zunächst näher auf die Versprecher eingehen und untersuchen, wie sie klassifiziert werden können. Auf dieser Grundlage werden wir dann diskutieren, wie mit der Hilfe von Versprecherdaten Aussagen über den Sprachproduktionsprozess abgeleitet werden können. Dieses wird mit Beispielen illustriert, welche auch die Grenzen dieses Ansatzes aufzeigen.
1.
Klassifikation der Versprecher
Grundlage für die Klassifikation von Versprechern ist der Vergleich eines tatsächlichen Äußerungsresultats mit der geplanten Äuße-
rung. Diese beabsichtigte, aber nicht verwirklichte Äußerung ist zwar nicht direkt zugänglich, in der überwiegenden Mehrzahl der Fälle lässt sie sich jedoch leicht erschließen; oft korrigiert sich auch der Sprecher selbst und ermöglicht so Rückschlüsse auf die Äußerungsabsicht (zu den Problemen für die Auswertung, die sich durch die Abbrüche ergeben, vergleiche Abschnitt 2.2). Die sich zunächst anbietenden Vergleichskriterien bezüglich der Versprecher sind zum einen die Größe der betroffenen Einheit und zum anderen die Art der Veränderung. Die auf den ersten Blick am wenigsten kontroverse Dimension scheint dabei die der linguistischen Größeneinheit zu sein. Die Einheiten, die in Versprechern typischerweise involviert sind, sind im Folgenden illustrierend in einigen Beispielen angeführt. Dabei greifen wir, sozusagen als Hommage an Rudolf Meringer, zumeist auf von ihm gesammelte Beispiele zurück. (1)
… für jauter lauter Jubiläen … (Meringer, 1908: 29).
(2)
Es ist bloß eine Funktion der Geschnelligkeit … Schnelligkeit, dieses Gefühl (Meringer & Mayer, 1895: 30).
(3)
Die Milo von Venus (ebd.: 30).
In (1) ist durch den Versprecher ein Phonem betroffen, in (2) wird das Präfix „ge“ hinzugefügt, die betroffene Einheit ist also ein Morphem, und im Beispiel (3) werden die Wörter „Venus“ und „Milo“ vertauscht. Die durch diese Beispiele illustrierten Größenkategorien Phonemfehler, Morphemfehler und Wortfehler bilden die wichtigsten und unstrittigsten der Größenkategorien. Allerdings ist die Klassifikation nicht immer so eindeutig, wie es diese Beispiele nahelegen. Betrachten wir den (konstruierten) Fall (4)
Fischers Fritz fischt fische Fische (statt: … fischt frische Fische).
Hier könnte es sich um einen Fehler auf Phonemebene (Auslassung des /r/ von „frische“) oder auf einer Ebene von Phonemclustern (Ersetzung von „fr“ durch „f“) oder auf Silbenebene („fi“ statt „fri“) oder auf Wortebene („fische“ statt „frische“) handeln. Ähnliche Probleme diskutiert auch Dell (1986: 298) anhand der Beispiele
318
III. Sprachproduktion
(5)
glear plue sky (statt: clear blue sky).
(6)
gall the curl (statt: call the girl).
die sowohl als Merkmalsfehler (stimmhaft vs. stimmlos) wie auch als Phonemfehler klassifiziert werden könnten. (5) ist dabei nach Dell als Merkmalsfehler (Vertauschung der Stimmhaftigkeit der betroffenen Phoneme), (6) aber als Phonemfehler einzustufen. Bei der Beschreibung des Versprechertyps sollte man – auch wenn das in der Literatur nicht immer konsequent geschieht – zwei weitere Beschreibungsebenen unterscheiden: eine deskriptive Ebene, die um eine möglichst theoriefreie Erfassung der Unterschiede zwischen tatsächlicher und geplanter Äußerung bemüht ist, und eine interpretative Ebene, die mit Kategorien wie „Antizipation“ oder „Perseveration“ Zusammenhänge zwischen verschiedenen Teilen der Äußerung postuliert. Auf der deskriptiven Ebene sind folgende Unterscheidungen vorzunehmen: ⫺ Substitution: Die Ersetzung eines korrekten Elements durch ein falsches; ⫺ Addition: Die Hinzufügung eines Elementes; ⫺ Elision/Deletion: Die Auslassung eines Elementes. Beispiel (1) wäre nach diesem Klassifikationsraster eine Substitution auf der Phonemebene, bei (2) handelt es sich um eine Addition auf der Morphemebene und bei Beispiel (3) um eine Substitution auf der Wortebene. Beispiele für Elisionen („Auslassungen“) aus dem Korpus von Meringer und Mayer (1895: 96 bzw. 83) erscheinen in (7) und (8): (7)
(8)
Euch ist bekannt, was wir bedürfen, Wir wollen starke Tränke schlürfen, So baut mir unverzüglich dran (statt: braut). Im Stitut (statt: im Institut).
(10) bei Etten und Lesten (statt: bei Letten und Esten) (Meringer, 1908: 21). Die genauere Analyse der Versprecher zeigt, dass es offensichtlich bestimmte Kontexte gibt, die versprecherfördernd wirken. So ist z. B. in (1) der Versprecher „jauter“ anstelle von „lauter“ dadurch begünstigt worden, dass kurz nach dem Versprecherwort die Äußerung mit dem Wort „Jubiläen“ fortgesetzt werden sollte: Das /j/ von „Jubiläen“ ist also in diesem Fall offensichtlich antizipiert worden. Analog dazu kann man (9) und (10) als Permutationen (Vertauschungen) interpretieren: Im Fall (9) tauschen das /ts/ und das /h/ ihre Plätze, und im Fall (10) wechselt das /l/ seine Position. Eine Beschreibung von Versprechern mit einem Bezug auf den versprecherbegünstigenden Kontext ist eine Beschreibung auf der explikativen Ebene. Weitere Vertauschungsfehler zeigen die Beispiele (11) und (12), (11) wiederum auf der Phonemebene und (12) auf der Wortebene. Beispiel (13) ist eine Antizipation auf der Morphemebene und Beispiel (14) eine auf der Wortebene. (11) Eine Sorte von Tacher (statt: eine Torte von Sacher) (Meringer & Mayer, 1895: 20); (12) Da steht der Einsatz nicht für den Gewinn (Meringer & Mayer, 1985: 15); (13) ungehallt verhallen (statt: ungehört verhallen) (Meringer & Mayer, 1985: 29); (14) Der riecht noch nach Kuchen, der Kuchen – der Ofen (Berg, 1988: 71); (15) Wenn der Minister sich nicht aufrauft (statt: aufrafft) (Meringer & Mayer, 1895: 49);
Weitere deskriptive Kategorien, wie z. B. „Doppelsubstitution“ (siehe Beispiel 9) oder „Addition-Elision“ (siehe Beispiel 10) (vgl. Berg, 1988: 16), lassen sich durch Kombination der drei Basiskategorien bilden. Allerdings wird immer dann, wenn ein Zusammenhang zwischen den Störungen an zwei unterschiedlichen Orten angenommen wird, die rein deskriptive Ebene bereits verlassen.
(16) Machen Sie sich auf einen spannenden Krimi gespannt (statt: gefasst) (Leuninger, 1996: 58);
(9)
(19) Ich kann nicht zwei Fliegen auf einmal dienen (Meringer & Mayer, 1895: 55);
Ich bitte herzlich um Verheizung – Verzeihung (Berg, 1988: 17).
(17) Ich bin das latt – satt (Berg, 1988: 106) (18) Heute wird ja über zwei Dinge abgeschieden, äh, entschieden, abgestimmt (Leuninger, 1998: 55);
319
23. Versprecher und ihre Reparaturen
Die Perseveration stellt das Gegenstück zur Antizipation dar: Ein bereits an der richtigen Position produziertes Element wird später an unpassender Stelle noch einmal produziert. Entsprechende Beispiele sind (15) und (16); (15) bezieht sich auf die Phonemebene, wobei der Diphthong /au/ von „auf“ den Vokal /a/ in der nachfolgenden Silbe ersetzt. Beispiel (16) zeigt eine Perseveration des Morphems „spann“. Im Gegensatz zu Vertauschungen, Antizipationen und Perseverationen, bei denen das Fehlerelement im sprachlichen Kontext auftritt, werden bei Kontaminationen die Produktionspläne zweier konkurrierender Elemente vermischt: Die beteiligten Elemente werden anscheinend an der jeweils für sie richtigen Position produziert, allerdings wechselt nach der Produktion eines ersten Teils der Produktionsplan; der zweite Teil wird entsprechend des konkurrierenden Plans geäußert. Auch Kontaminationen lassen sich anhand der Dimension Größe klassifizieren, wenn man danach fragt, welche linguistische Einheit noch vollständig nach dem ersten der Produktionspläne vollendet wird, wenn der Wechsel auf den zweiten Plan erfolgt (vgl. dazu auch Berg, 1992a, bzw. MacKay, 1992). In diesem Sinne ist (17) als Phonemfehler einzustufen (die Kontamination betrifft die Wortpläne von „leid“ und „satt“, und der Wechsel findet nach der Produktion des /l/ statt), wohingegen (18) einen Morphemfehler und (19) einen Wortfehler zeigt. Berg (1988: 16) hat die verschiedenen Kriterien für die Klassifikation von Versprechern im folgenden dreidimensionalen Raster zusammengefasst:
Tab. 23.1: Ein Klassifikationsschema für Versprecher Deskription 1. Dimension Substitution Addition Elision Doppelsubstitution AdditionElision
Größe der modifizierten Einheit 2. Dimension Merkmal Phonem Phonemsequenz Cluster Morphem Wortform
Explikation 3. Dimension Antizipation Perseveration Permutation Verschiebung Kontamination Interferenz Kontraktion Assoziation Maskierung
Dieses Klassifikationsschema ist so zu verstehen, dass mit den Begriffen der ersten Dimension eine möglichst objektive und theoriefreie Beschreibung der Versprecher erfolgen soll. Die zweite Dimension beschreibt die Größe der Modifikation, und die dritte Dimension schließlich umfasst theorieabhängige, interpretative Kategorien. Die Aufzählung, insbesondere in der Dimension „Größe“, ist nicht vollständig (weil prinzipiell jede sprachliche Einheit „Opfer“ eines Versprechers werden kann), und die Relevanz der verschiedenen Versprechertypen ist unterschiedlich; auch mag die Klassifikation einzelner Beispiele im Hinblick auf die drei Dimensionen nicht immer eindeutig sein, jedoch hat sich obenstehendes Klassifikationsschema weitgehend bewährt.
2.
Argumentation mit Versprecherdaten
Wie bereits erwähnt, werden Versprecherdaten in der Psycholinguistik bzw. in der Sprachpsychologie dafür genutzt, um Einsichten in den kognitiven Prozess der Sprachproduktion zu gewinnen. Dabei werden einerseits auffallende Fehlerverteilungen modelltheoretisch interpretiert, um Produktionsmodelle zu entwickeln. Andererseits werden Vorhersagen zu Fehlerverteilungen, die sich aufgrund der vorgeschlagenen Modelle bzw. aufgrund von Simulationen dieser Modelle ergeben haben, anhand von Versprecherkorpora evaluiert. Die modelltheoretische Interpretation von Versprecherdaten kann dabei auf der Grundlage unterschiedlicher Argumentationsmuster erfolgen. Cutler (1981) nennt etwa drei derartige Muster: die sogenannten „Einige Fehler“-Argumente, die sogenannten „Mehr Fehler“-Argumente und die sogenannten „Kein Fehler“-Argumente. Diese drei Argumentmuster sollen im Folgenden anhand von Beispielen erläutert werden. Allen Beispielen ist gemeinsam, dass eine jeweils vorliegende Fehlerverteilung als Argumentprämisse genutzt wird, um daraus als Schluss eine Aussage zur Modellierung des Sprachproduktionsprozesses abzuleiten. Bei dieser Art von Argumentation gehen jedoch, sozusagen als zusätzliche und nicht genannte Prämissen, auch Eigenschaften des Produktionsmodells mit ein, von dem der jeweilige Autor ausgeht, so dass die Folgerungen, die sich aus den Fehlerverteilungen ableiten las-
320 sen, je nach Modellart (vgl. zu den Arten von Produktionsmodellen Artikel 15) unterschiedlich ausfallen. 2.1. „Einige Fehler“-Argumente „Einige Fehler“-Argumente haben gewöhnlich die Form „Es gibt in den Daten Versprecher der folgenden Art, also …“. Das klassische Beispiel eines solchen Arguments findet sich bei Fromkin (1971: 29), die so kognitive Relevanz linguistischer Einheiten belegt: „What is apparent, in the analyses and conclusions of all linguists and psychologists dealing with errors in speech, is that, despite the semi-continuous nature of the speech signal, there are discrete units at some level of PERFORMANCE which can be substituted, omitted, transposed, or added“. Damit wird die in Abschnitt 1. diskutierte Versprecherdimension „Größe“ ausgenutzt, um auf die kognitive Relevanz der betroffenen Größen (also in erster Linie Wort, Morphem und Phonem) für den Prozess der Sprachproduktion zu schließen. In ähnlicher Weise argumentiert auch Barsalou (1992, Abschnitt 9.7.2), der die von ihm diskutierten Prozessebenen bei der Sprachproduktion jeweils mit einem Versprecherbeispiel „belegt“. Eine spezielle Art von „Einige Fehler“-Argumenten bildet der Bezug auf Beispiele, in denen Teile der Äußerung an auftretende Fehler angepasst werden. (19) an istory of a hideology (statt: a history of an ideology) (Fromkin, 1971: 41). (20) Bis er es bei Dir abholt (statt: Bis Du es bei ihm abholst) (Meringer, 1908: 16). Aus dem Auftreten von Versprechern wie (19) und (20) können unter der zusätzlichen Annahme einer streng seriellen Verarbeitung (vgl. Artikel 15.3.3) Schlüsse über die zeitliche Abfolge von Teilprozessen der Sprachproduktion gezogen werden. So nutzt Fromkin (1971: 41 f., 51) unter anderem Beispiel (19), um darzulegen, dass die phonetischphonologische Gestalt einer Äußerung erst nach der Selektion der Phoneme festgelegt werde. Beispiel (20) verwendet Levelt (1989: 248), um zu argumentieren, dass durch einen Fehler bei der Zuordnung von Nominalphrasen zu den thematischen Rollen die Kasusmarkierung (im Gegensatz zur Numerusmarkierung) der zugeordneten Rolle angepasst
III. Sprachproduktion
werde. Dieser morphologische Teilprozess müsse dementsprechend nach der Rollenzuordnung stattfinden. Wie Levelt weiter unter Rückgriff auf Berg (1987b) ausführt, seien aber Anpassungen nur für die Fehler selbst, jedoch nicht für deren Umgebung erwartbar. Ein Beispiel hierfür ist (21), in welchem die Ersetzung einer Präposition durch eine andere nicht zu einer Kasusanpassung des nachfolgenden Personalpronomens führt. (21) Das war sehr schön von mich – für mich gemacht von (Eigenname) (Berg, 1987b: 284). Zu den Schlussfolgerungen über die zeitliche Abfolge von Teilprozessen der Sprachproduktion aus der Existenz von „angepassten“ Versprechern ist anzumerken, dass sie unter der zusätzlichen Annahme einer strikten seriellen Verarbeitung erfolgten. Gerade die Prozesse zur Herstellung und Gewährleistung von Kongruenz werden derzeit verstärkt erforscht (vgl. Artikel 21), so dass die genannten Schlüsse aus dieser Sicht ebenso wie unter der Annahme einer interaktiven Modellierung der Produktion als vorläufig anzusehen sind. Insgesamt ist zu den „Einige Fehler“-Argumenten zu sagen, dass ihre Prämissen nicht angreifbar sind, da diese lediglich auf der Existenz einzelner schon nachgewiesener und belegter Fehler beruhen. Dagegen kann man diskutieren, ob die aus der Existenz von einzelnen Versprechern jeweils gezogenen Schlussfolgerungen tatsächlich gezogen werden können. Insbesondere ist zu beachten, dass häufig bestimmte Modellvorstellungen als nicht explizit ausgeführte, zusätzliche Prämissen in die Argumentation mit einfließen. 2.2. „Mehr Fehler“-Argumente „Mehr Fehler“-Argumente beruhen auf dem Vergleich zweier Fehlerarten. Gemessen an dem zufallsbedingten Verhältnis des Auftretens dieser beiden Fehlerarten weicht dabei das Verhältnis der in den Daten tatsächlich zu findenden Vorkommen signifikant ab. Vereinfacht könnte man sagen, eine der Arten kommt in den Daten zu häufig vor, korrekterweise ist jedoch ein Vergleich zweier Fehlerarten notwendig. Das typische Beispiel einer Prämisse in einem „Mehr Fehler“-Argument ist die folgende Aussage von Shattuck-Hufnagel, welche den sogenannten „Initialeffekt“ betrifft: „In the 1984 count of the MIT corpus, 66 % of the 1520 consonantal errors occured
321
23. Versprecher und ihre Reparaturen
in word onset. This is twice the 33 % rate at which consonants occur in word onset in running speech“ (Shattuck-Hufnagel, 1987: 28). Diese Beobachtung von Shattuck-Hufnagel bildet die Grundlage für die eigentliche Argumentation. Die Autorin schließt nach weiteren gründlichen Analysen des Effekts auf einen speziellen Status des Wortonsets: „The evidence reviewed […] shows that the majority of consonant interaction errors occur in word-onset consonants. This is true even when the target words are polysyllabic […], and it is true even for word-onset consonants that are not prestressed. This pattern of results suggests that word onsets are represented and processed separately from other aspects of words, at some point during production planning.“ (Shattuck-Hufnagel, 1987: 45). Wir werden in Abschnitt 4 genauer auf den Initialeffekt, auch „Wortonseteffekt“ genannt, eingehen. An dieser Stelle soll der Effekt lediglich dazu dienen, den spezifischen Aufbau und die Probleme von „Mehr Fehler“-Argumenten zu verdeutlichen. Auch für diese Argumente ist natürlich zu prüfen, ob die behauptete Schlussfolgerung aus der Prämisse ableitbar ist. In dieser Hinsicht gleichen „Mehr Fehler“-Argumente den „Einige Fehler“-Argumenten. Des Weiteren ist bei „Mehr Fehler“-Argumenten aber auch die Gültigkeit der Prämisse selbst zu überprüfen. Probleme können bei der Bestimmung der Zufallswahrscheinlichkeit ebenso auftreten wie bei der Berücksichtigung möglicher verborgener Abhängigkeiten und Korrelationen. So hat Shattuck-Hufnagel (1987) überprüft, ob der Initialeffekt bei mehrsilbigen Wörtern (und nicht nur bei Wörtern mit nur einer Silbe) auftritt und ob dieser auch für Wörter gilt, bei denen die erste Silbe unbetont ist. Auf diese Weise konnte die Autorin mögliche Abhängigkeiten des Effekts von der Silbenanzahl bzw. von der prosodischen Struktur ausschließen. Ein spezielles Abhängigkeitsproblem besteht darin zu überprüfen, ob alle Versprecher, die einer Art zugerechnet werden, auch tatsächlich Versprecher dieser Art sind. Dieses Problem kann an einer sehr bekannten und viel diskutierten Aussage von Nooteboom (1969: 147) verdeutlicht werden, in der auf die Verteilung zwischen antizipatorischen und perseveratorischen Fehlern Bezug genommen wird:
„Anticipations far outnumber perseverations and transpositions. […] This predominance of anticipations gives us the impression that the speaker’s attention is normally directed to the future.“ Bei dieser Aussage ist zu diskutieren, welche Versprecher als Antizipationen zählen. Viele Versprecher werden nämlich vom Sprecher selbst korrigiert, wobei die Korrektur oftmals erfolgt, bevor ersichtlich ist, ob der Versprecher tatsächlich als Antizipation oder statt dessen als Vertauschung (bei Nooteboom „transposition“) zu klassifizieren ist. Dieses Problem illustriert Beispiel (1), dem hier zur Verdeutlichung mit (1a) und (1b) zwei aus (1) konstruierte Variationen gegenübergestellt werden: (1)
… jauter lauter Jubiläen … a. … jauter Jubiläen … b. … jauter Lubiläen …
Wenn der Sprecher von (1), Rudolf Meringer selbst, seinen Versprecher nicht korrigiert hätte und so fortgefahren wäre, wie dies in (1a) zum Ausdruck kommt, so wäre der Versprecher als Antizipation zu klassifizieren. Hätte er jedoch statt der Korrektur eine Äußerung wie (1b) produziert, so wäre eine Vertauschung zu konstatieren gewesen. Die korrigierten Versprecher, die sowohl eine unvollendete Antizipation wie auch den ersten Teil einer Vertauschung darstellen könnten, werden häufig als „abgebrochene Antizipationen“ bezeichnet, wohingegen die vollendeten Antizipationen auch „genuine Antizipationen“ genannt werden. Genuine Antizipationen sind in den Versprecherkorpora vergleichsweise selten; Berg (1988: 85) findet etwa für jede genuine Antizipation zehn abgebrochene Antizipationen. Erst dadurch, dass Nooteboom (1969) die abgebrochenen Antizipationen und die genuinen Antizipationen zusammengenommen den Perseverationen (und auch den Vertauschungen) gegenüberstellt, ergibt sich die Grundlage für das angeführte „Mehr Fehler“-Argument. Nootebooms Argument dient hier als Beispiel dafür, wie genau jeder einzelne Versprecher eingeschätzt werden muss, wenn ein „Mehr Fehler“-Argument formuliert werden soll. Das Argument selbst ist gültig, sofern man den Begriff des antizipatorischen Fehlers im Sinne Nootebooms unter Rückgriff auf ein Produktionsmodell präzisiert. So zeigt etwa Dell (1986), dass für sein Sprachproduktionsmodell sowohl genuine Antizipationen als auch Vertauschungen (und damit
322 auch abgebrochene Antizipationen) aus einer antizipatorischen Fehlleistung resultieren. Ob aus dieser antizipatorischen Fehlleistung (in einem angenommenen unkorrigierten Fall) eine genuine Antizipation wird oder ob sie zu einer Vertauschung führt, indem die verdrängte Einheit den Platz des Verdrängers einnimmt, liegt nicht an der antizipatorischen Fehlleistung selbst, sondern an den Faktoren, die den Versprecher begünstigt haben, etwa am Abstand zwischen den beiden interagierenden Elementen in der geplanten Äußerung. Aus der Sicht des Dell’schen Modells können also die antizipatorischen Fehler in ihrer Gesamtheit den Perseverationen gegenübergestellt werden, was letztlich zu Nootebooms Argument führt. Untersucht man bei „Mehr Fehler“-Argumenten die Gültigkeit der Prämisse, sind, wie bereits erwähnt wurde, auch Probleme mit der Zufallswahrscheinlichkeit zu beachten. Eine erste Fehlerquelle liegt darin, dass Menschen bei der Einschätzung von Zufallswahrscheinlichkeiten oft falsch liegen (Nisbett & Ross, 1980). Entsprechend ist es notwendig, in „Mehr Fehler“-Argumenten die jeweilige Zufallswahrscheinlichkeit zu nennen und deren Berechnung zu erläutern. In dem Beispiel zum Initialeffekt erfüllt Shattuck-Hufnagel diese Anforderung, indem sie die Häufigkeit, mit der konsonantische Phoneme im Wortonset in der Sprachstruktur zu finden sind, bestimmt und dieses Ergebnis in ihr Argument integriert. Eine weitere Fehlerquelle besteht darin, dass sich die berichtete Häufigkeitsverteilung aus perzeptiven Gründen ergeben hat. Sind etwa Fehler der Art A in einem Versprecherkorpus häufiger zu finden als Versprecher der Art B und sind die Versprecher der Art A auch leichter zu bemerken als Versprecher der Art B, so ist nicht auszuschließen, dass sich das Ungleichgewicht in der Verteilung nur aus dem Unterschied in der Erkennung ergibt. So berichten Tent und Clark (1980) von Experimenten, bei denen Versuchspersonen Fehler in manipulierten Äußerungen bemerken sollten. Dabei nahm die Anzahl der bemerkten Fehler mit der Größe der fehlerhaften Einheit ab (Phonemfehler wurden deutlich häufiger überhört als Morphemoder Wortfehler), wobei aber phonologische Perseverationen (Erkennrate 13 %) gegenüber den genuinen Antizipationen (Erkennrate 28 %) bzw. den Vertauschungen (Erkennrate 26 %) noch einmal abfielen. Entsprechend könnte die Verteilungshäufigkeit, die Noote-
III. Sprachproduktion
booms Argument zugrunde liegt, durch die besonders schlechte Erkennleistung des Versprechersammlers bei perseveratorischen Phonemfehlern geprägt sein. Die überzeugendste Antwort auf dieses Reliabilitätsproblem hat Stemberger (1992) gegeben. Er verglich die Häufigkeitsverteilungen, die man bei der Durchsicht von Korpora naturalistischer Versprecher gefunden hat, mit entsprechenden Verteilungen bei experimentell, etwa mit der SLIPS-Technik (Baars, Motley & MacKay, 1975; Motley & Baars, 1975), erzeugten Versprechern. Das Perzeptionsproblem kann für Korpora elizitierter Versprecher ausgeschlossen werden, da die in den Experimenten produzierten Äußerungen aufgezeichnet werden und somit auch für vielfache (Re-)Analysen zur Verfügung stehen. Korpora elizitierter Fehler aber haben ihrerseits das Problem, dass sie in Äußerungen auftreten, die sich nicht aus einer natürlichen Sprechsituation ergeben haben. Insofern spiegeln sie eventuell nicht reale Häufigkeitsverteilungen wider. Die Analyse von Stemberger zeigt allerdings, dass nahezu alle als Grundlage für „Mehr Fehler“-Argumente diskutierten Häufigkeitsverteilungen und -auffälligkeiten unabhängig von der Art des jeweiligen Korpus sind. Dies bedeutet, dass sich die Schwächen der beiden Ansätze gegenseitig aufheben. 2.3. „Kein Fehler“-Argumente „Kein Fehler“-Argumente haben gewöhnlich die Form „Es gibt in den Daten keine Versprecher der folgenden Art, also …“. Das von Cutler (1981: 565) gegebene Standardbeispiel für ein „Kein Fehler“-Argument stammt von Wells (1951): „A slip of the tongue is practically always a phonetically possible noise.“ Nach Cutler lässt sich aus dieser Beobachtung ableiten, dass die Sprachproduktion einem internen Monitoring unterliege, welches phonetisch nicht zur Zielsprache gehörende Artikulationsbefehle herausfiltere. Cutlers Klasse der „Kein Fehler“-Argumente unterliegt einer spezifischen Besonderheit, die wir wiederum an einer Aussage von Nooteboom über seine niederländischen Daten verdeutlichen wollen: „In the collection no errors are found in which a prevocalic consonant exerts influence on a postvocalic consonant or vice versa. If the origin element is prevocalic then the target element is also prevocalic and the same holds for postvocalic elements.“ (Nooteboom, 1969: 149)
323
23. Versprecher und ihre Reparaturen
Diese kategoriale Konstanz der Versprecher kann als Argument dafür verwendet werden, eine regelgeleitete Verarbeitung während der Produktion anzunehmen. Ein solcher Schluss ist allerdings nicht zwingend, es genügt, eine Verarbeitung anzunehmen, deren Resultat den gegebenen Regularitäten entspricht, auch wenn keine explizite Repräsentation von Regeln gegeben ist (zu der entsprechenden Diskussion siehe etwa Dell, Burger & Svec, 1997). Nootebooms Aussage illustriert darüber hinaus – und das ist der hier wichtigere Punkt – das formale Problem, welches allen „Kein Fehler“-Argumenten zueigen ist. Ein einziges Gegenbeispiel genügt, um das Argument außer Kraft zu setzen. In Bezug auf Nootebooms Aussage finden sich etwa in dem von Berg (1988) gesammelten Korpus Versprecher wie (22), in denen ein Onsetkonsonant mit einem Codakonsonanten interagiert und in denen damit die kategoriale Konstanz verletzt ist. Obwohl diese Beispiele relativ selten sind, in Bergs Korpus machen sie 4.9 % der konsonantischen Phonemsubstitutionen aus (Berg & Abd-El-Jawad, 1996), genügen diese Beispiele, um das zugehörige „Kein Fehler“-Argument zu widerlegen. Auch in Bezug auf das von Cutler angeführte Argument der stets in ihrer jeweiligen Sprache phonetisch legalen Versprecher finden sich Gegenbeispiele, siehe etwa Beispiel (23) für das Deutsche. (22) Das wär doch Selbstmord, wenn man da jetzt Schiff – Fisch reintun würde. (23) … die Dlei – Dreigliederung des Dialogs (Berg, 1988: 162). In „Kein Fehler“-Argumenten steckt ein prinzipielles Problem. Es genügt, wie bereits ausgeführt wurde, ein einziges Gegenbeispiel zur Widerlegung des Arguments. Da die Existenz eines solchen Gegenbeispiels in einem bereits existierenden oder einem zukünftig zu erstellenden Korpus nicht ausgeschlossen werden kann, ist es nicht zweckmäßig, „Kein Fehler“-Argumente zu formulieren. Da diese Argumente als „Mehr Fehler“-Argumente reformuliert werden können, sollte Cutlers Einteilung zugunsten einer Einteilung in nur zwei Klassen – „Einige Fehler“-Argumente und „Mehr Fehler“-Argumente aufgegeben werden. Das oben genannte Beispiel aufgreifend, würde eine Umformulierung des Arguments von Cutler und Wells zu der Aussage
führen, dass phonotaktisch legale Versprecher deutlich häufiger als phonotaktisch illegale Versprecher sind.
3.
„Mixed errors“
Im vorangehenden Abschnitt haben wir verdeutlicht, wie aus Häufigkeitsverteilungen in Versprecherkorpora Rückschlüsse auf den Prozess der Sprachproduktion gezogen wurden, was zur Entwicklung von Sprachproduktionsmodellen führte. Darüber hinaus werden Häufigkeitsverteilungen aus Korpora auch dazu genutzt, bereits formulierte bzw. etablierte Modellvorstellungen zum kognitiven Prozess der Sprachproduktion zu evaluieren. Ein Beispiel dafür sind die sogenannten „mixed errors“, die dann vorliegen, wenn ein Wort durch ein semantisch ähnliches Wort ersetzt wird und darüber hinaus beide Wörter auch phonologisch ähnlich sind. Ein Beispiel für einen derartigen Substitutionsfehler ist (24): (24) Damon Coulthard vor Eddie Irvine (statt: David) (Kommentator des Großen Preises von Silverstone, 11. Juli 1999, RTL). Psycholinguistische Modelle im Bereich der Sprachproduktion (vgl. Artikel 15) unterscheiden sich in den Annahmen, die sie zum lexikalischen Zugriff machen, wobei besonders intensiv der Übergang von der syntaktischen Enkodierung zur morphophonologischen Enkodierung diskutiert wird (vgl. auch Artikel 18). Prinzipiell lassen sich drei Klassen von Modellen unterscheiden: diskrete Stufenmodelle, Kaskadenmodelle und interaktive Modelle. In Stufenmodellen wird für ein selektiertes Lemma erst nach der Selektion mit dessen morphophonologischer Enkodierung begonnen. Lemmata, die mit dem ausgewählten Lemma in Konkurrenz standen, aber für die weitere Produktion nicht gebraucht werden, werden dagegen nicht weiterverarbeitet. In Kaskadenmodellen beginnt die morphophonologische Verarbeitung von Lemmata, die um die Verbalisierung konkurrieren, schon vor der Selektion, so dass auch solche Lemmata zumindest ansatzweise morphophonologisch aktiviert werden, welche dann doch nicht für die Produktion selektiert werden. In interaktiven Modellen wirkt diese „frühzeitige“ Aktivierung von phonologischen Einheiten zurück auf die Lemmaselek-
324
III. Sprachproduktion
tion. Entsprechend kann die Lemmaselektion durch phonologische Mittel beeinflusst werden. Die experimentelle Evidenz, die zwischen den Modellklassen unterscheiden sollte, ist nicht eindeutig zu interpretieren. In sogenannten „Bild-Wort-Interferenz“-Experimenten (s. etwa Schriefers, Meyer & Levelt, 1990) findet man eine deutliche zeitliche Abfolge von semantischer Verarbeitung und phonologischer Verarbeitung, was ein diskretes Stufenmodell nahelegt. Priming-Experimente (s. etwa Peterson & Savoy, 1999) zeigen, dass zumindest auch diejenigen Lexikoneinträge phonologisch enkodiert werden, die sehr eng mit dem Produktionsresultat verwandt sind (etwa Frosch bei der Produktion von Kröte). Dieses Resultat entspricht den Vorhersagen eines Kaskadenmodells. Daten über Versprecher zeigen, dass bei semantisch bedingten Wortsubstitutionen Fehler und Zielwort überzufällig häufig auch phonologisch ähnlich sind. Dies gilt für die Versprecher von Normalsprechern (vgl. Dell & Reich, 1981; Martin, Gagnon, Schwartz, Dell & Saffran, 1996) ebenso wie für die Fehlleistungen von Aphasikern (vgl. Blanken, 1998; Martin et al., 1996). Damit zeigen die Versprecherdaten die Notwendigkeit einer interaktiven Verarbeitung auf. Die Erklärung dieser scheinbar widersprüchlichen Daten liegt in der Annahme einer interaktiven Verarbeitung, wobei die Auswirkungen der Interaktivität nicht in jeder experimentellen Untersuchung erkennbar sind (vgl. Schade, 1999, für einen entsprechenden Modellvorschlag).
4.
Versprecher im Sprachvergleich
Wie wir gesehen haben, lassen sich die Häufigkeitsverteilungen, die man in Versprecherkorpora vorfindet, auf Modelle des Sprachproduktionsprozesses beziehen. In dem Maße, in dem die Häufigkeitsverteilungen auf Aspekte der Sprachproduktion bezogen werden, die nicht von der jeweils untersuchten Sprache abhängen, sollten sie sich ebenfalls als sprachunabhängig erweisen, also prinzipiell in Versprecherkorpora aller Sprachen auftreten. Der hier folgende Vergleich von Versprechern aus verschiedenen Sprachen schreitet von allgemeinen zu speziellen Fragestellungen und konzentriert sich dabei auf die Frage nach der Sprachunabhängigkeit von Versprechern und deren Häufigkeitsverteilungen.
Die allgemeinste Frage, nämlich ob Versprecher überhaupt in allen Sprachen auftreten, erscheint auf den ersten Blick wie selbstverständlich mit „ja“ zu beantworten zu sein. Versprecher sind Ausdruck einer momentanen Funktionsstörung des menschlichen Sprachproduktionssystems, und es besteht zunächst kein Grund zu der Annahme, dass Sprecher der einen Sprache vor solchen Entgleisungen gefeit sein sollten, Sprecher einer anderen Sprache jedoch nicht. Wenn dem so wäre, wäre man nicht weit von der abwegigen Behauptung entfernt, die eine Sprachgemeinschaft sei der anderen kognitiv überlegen. Mehr als Plausibilitätsannahmen zählen jedoch die folgenden beiden Tatsachen. Zum einen sind viel zu wenig Sprachen erforscht, um auch nur annähernd universell gültige Aussagen zu treffen. Zum anderen deuten erste, noch vorläufige empirische Befunde darauf hin, dass nicht automatisch von Versprechern in allen Sprachen auszugehen ist. So behaupten Ohala und Ohala (1988a: 241), dass sublexikalische, d. h. phonologische, Fehler in der natürlichen Spontansprache des Hindi nicht vorkommen (obwohl das Hindi natürlich über eine Phonologie verfügt!). Sollte sich diese Behauptung bestätigen, hätten wir es mit einem außerordentlich erstaunlichen Phänomen zu tun. Die Frage, ob sich Menschen in allen Sprachen versprechen, ist also keineswegs so eindeutig zu beantworten, wie man zunächst meinen könnte. Die Frage nach dem Vorkommen von Fehlern ist letztlich eine Frage nach der Häufigkeit, da das Fehlen eines Versprechertyps in einer Datensammlung die Folge einer gegen Null konvergierenden Auftretenswahrscheinlichkeit sein kann. So wollen auch Ohala und Ohala (1988a) nicht ausschließen, dass phonologische Versprecher im Hindi einfach nur seltener als beispielsweise im Englischen auftreten. Zur Überprüfung dieser These haben sie mit verschiedenen Methoden versucht, Versprecher im Hindi experimentell zu erzeugen, nachdem sich diese Verfahren bereits für das Englische bewährt hatten (Motley & Baars, 1976). Ohala und Ohala (1988a, b) fanden heraus, dass es durchaus möglich ist, muttersprachliche Sprecher des Hindi dazu zu bringen, sich phonologisch zu versprechen, allerdings taten sie dieses deutlich seltener als Anglophone in vergleichbaren experimentellen Situationen. Das bedeutet, dass phonologische Versprecher im Hindi nicht prinzipiell unmöglich sind.
325
23. Versprecher und ihre Reparaturen
Bisher nicht ganz geklärt ist der Unterschied zwischen den naturalistischen und den experimentellen Daten. Eine Möglichkeit wäre, dass phonologische Fehler auch in natürlichsprachlichen Kommunikationssituationen auftreten, dieses jedoch so selten tun, dass sie sich bisher der Beobachtung durch Versprechersammler entzogen haben. In jedem Fall lassen sich die vorliegenden Daten so deuten, dass die Frage nach der unterschiedlichen Häufigkeit von ganz allgemein definierten Versprecherklassen wie den phonologischen Fehlleistungen in verschiedenen Sprachen zu bejahen ist. Bisher war von phonologischen Versprechern generell die Rede, nicht von einzelnen Versprechertypen. Wenn wir uns nun letzteren zuwenden, stellt sich die Frage, welche Unterschiede in den Korpora aus verschiedenen Sprachen zu erwarten sind. Diese Frage hängt unmittelbar mit der Frage der Häufigkeit zusammen, da mögliche Unterschiede zwischen den Sprachen eher im quantitativen als im qualitativen Bereich zu vermuten sind. Wir wollen insgesamt acht Themenkomplexe behandeln und an ihnen neben den Schwierigkeiten vor allem den Erkenntniswert des sprachvergleichenden Ansatzes herausarbeiten. 4.1. Onset und Coda Zunächst gibt es eine Reihe von mehr oder weniger trivialen Unterschieden, die deswegen trivial erscheinen, weil sie unmittelbar durch unterschiedliche Sprachstrukturen bedingt sind. Greifen wir dazu die Unterscheidung in offene (CV) und geschlossene (CVC) Silben heraus. Sprachen mit geschlossenen Silben (z. B. Deutsch und Arabisch) verzeichnen konsonantische Versprecher sowohl im prävokalischen wie im postvokalischen Bereich. Demgegenüber erlauben Sprachen mit ausschließlich offenen Silben (z. B. Maori und Rapanui) nur prävokalische Fehlleistungen. Da es keine Codakonsonanten gibt, können diese auch nicht versprochen werden. So stehen dann Onsetfehler in der einen Sprache neben Onset- und Codafehlern in der anderen. Ganz so trivial, wie dieser Unterschied erscheinen mag, ist er jedoch nicht. Denn die Tatsache, dass Silben in fehlerfreier Sprache immer offen sind, bedingt nicht automatisch die Abwesenheit von Codas in der fehlerhaften Sprache. Immerhin könnte durch den Versprecher ja auch gerade eine vom Normalfall abweichende Struktur entstehen.
Dass dem, nach allem, was wir bisher wissen, nicht so ist, relativiert bis zu einem gewissen Grad die angebliche Trivialität dieses interlingualen Unterschieds und stellt nicht-triviale Anforderungen an eine Theorie der sprachlichen Fehlleistungen. 4.2. Onset und Körper (CV) Beim zweiten Problemfeld stehen Fragen der Klassifikation im Vordergrund. Die (eindeutige) Klassifikation der Versprecher erweist sich als ein grundsätzliches Problem, da sie, wie oben gezeigt, häufig mehrdeutig sind. So können in dem Versprecher (24) Das ist alles mass und natschig entweder die Anfangskonsonanten /n/ und /m/ oder die Konsonant-Vokal-Folgen /na/ und /ma/ ihre Positionen getauscht haben. Wie unschwer zu erkennen ist, entsteht die Mehrdeutigkeit durch die Identität der Tonvokale in den beiden Adjektiven. Die Entscheidung zugunsten der einen oder anderen Interpretation hat weitreichende Konsequenzen für das Verarbeitungsvokabular, das für die jeweilige Einzelsprache angenommen wird. Fällt nun bei ähnlicher Datenlage die Entscheidung zugunsten der einen Lesart in der einen Sprache, jedoch zugunsten der anderen Lesart in der anderen, erscheint die Entstehung fragwürdiger Thesen hinsichtlich empirischer wie auch theoretischer Unterschiede vorprogrammiert. Tatsächlich sind solche Fälle in der Literatur belegt. Während beispielsweise Dell (1984) für das Englische in Fällen wie (24) von Einzelsegmentmodifikationen ausgeht, klassifizieren Magno Caldognetto und Tonelli (1985) diese in ihren italienischen Daten als CV-Versprecher (vgl. ihre erste Tabelle), wobei sie allerdings in ihrem Text die Zweideutigkeit anerkennen. So führt ihre Klassifikation zu der Annahme, dass die CV-Sequenz eine relevante Größeneinheit im Italienischen bildet. Aufgrund der alternativen Klassifikation ist diese Behauptung für das Englische jedoch nicht aufgestellt worden. Dass eine so gegensätzliche Klassifikation problematisch ist, liegt auf der Hand. Sie erscheint nur dann gerechtfertigt, wenn sie auch einzelsprachlich motiviert ist. Dieses ist im vorliegenden Fall jedoch nicht zu erkennen. Somit erweist sich das Postulat unterschiedlicher Verarbeitungsvokabulare im Englischen und Italienischen als unhaltbar. Viel wahrscheinlicher ist, dass der analoge Versprechertyp zu (24) in beiden Sprachen
326 auf die gleiche Weise zu deuten ist: u. a. aufgrund der Tatsache, dass eindeutige CV-Fehler kaum vorkommen, ist die Interpretation von (24) als Einzelsegmentmodifikation für beide Sprachen die naheliegende. 4.3. Die Silbe Die folgende Kontroverse hat ebenfalls mit Klassifikationsproblemen zu tun, ist aber vermutlich nicht auf selbige zu reduzieren. In einer bahnbrechenden Arbeit haben Cutler, Mehler, Norris und Segui (1986) gezeigt, dass frankophone Versuchspersonen in der Sprachrezeption eine silbische Repräsentationsebene aufbauen, die den englischsprachigen Hörern so nicht zur Verfügung steht. Wenn man von einer prinzipiellen Parallelität von Sprachproduktion und -rezeption ausgeht (Allport, 1984; Deutsch, 1986), wäre zu erwarten, dass die Silbe für Sprecher des Französischen eine größere Rolle als für Sprecher des Englischen spielt. Auf die Fehlleistungen bezogen, sollten silbische Versprecher in französischen Datensammlungen vertreten sein, in englischen jedoch nicht. In der Tat gibt es auf den ersten Blick eine empirische Bestätigung für diese Vorhersage. Rossi und Peter-Defare (1998:72) behaupten, dass die Silbe im Französischen den gleichen Status wie das Phonem hat, sie also eine relevante Größe im Verarbeitungssystem ist, und sich darin das Französische vom Englischen unterscheidet. Grundlage für diese These ist eine Analyse ihres französischen Versprecherkorpus, in dem Silbenfehler nach ihren Angaben immerhin 90 mal verzeichnet sind. Dieses ist ein bemerkenswert hoher Anteil, der von den großen englischen Korpora nicht annähernd erreicht wird. Bevor man hieraus weitgehende Schlüsse zieht, ist allerdings eine gründliche Prüfung dieser Zahl geboten. Die Silbe hat eine außerordentlich komplexe Funktion im Sprachproduktionsprozess inne, die es erforderlich macht, Silbenfehler sauber auf einzelne Unterkategorien zu verteilen und den Aussagewert jeder Unterkategorie einzeln zu bestimmen. So ist die Klasse der silbischen Elisionsfehler von den übrigen abzusondern und zwischen kontextuellen und nonkontextuellen Versprechern zu unterscheiden (vgl. Berg, 1992b). Silbenelisionen wie in (25) kommen zumindest im Deutschen ungefähr so häufig vor wie im Französischen. Diese Unterkategorie könnte auf einer relativ späten Verarbeitungsstufe zustande kommen, die für beide Sprachen gleichermaßen gilt. Ein echtes Indiz für die Rolle
III. Sprachproduktion
der Silbe im Zentrum des Produktionsprozesses sind diese Versprecher daher nicht. Aussagekräftiger in dem vorliegenden Zusammenhang sind vor allem die kontextuellen Silbenfehler. Erst sie belegen, dass die Silbe eine serialisierbare Größeneinheit darstellt. Schließlich führen Rossi und Peter-Defare noch die Kategorie der silbischen Additionen ein (vgl. (26)). Zur Veranschaulichung der Klassifikationsproblematik folgt eine kleine Auswahl aus dem französischen Datensatz mit deutschen Übersetzungen. (25) le pinot -nier ⫺ pinot Meunier. ‘die Weinrebe Müller’ (26) Le Portulugal n’en a qu’un million. statt: Portugal. ‘Portugal hat nur eine Million.’ (27) C’e´tait pas l’orcar ⫺ l’orchestration qu’on entendait sous Giscard. ‘Propaganda hörte man unter Giscard nicht.’ (28) Aujourd’hui c’est la saint Caprice ⫺ la saint Prisca. ‘Heute ist der Tag der heiligen Prisca.’ (29) Son traveau ⫺ son cerveau fait un travail tout a` fait normal. ‘Sein Arbeiten ⫺ sein Gehirn arbeitet völlig normal’. In (25) liegt eine im Vergleich zum Deutschen unauffällige Anfangssilbenelision vor. Im Beispiel (26) wird die Silbe /ly:/ in das Zielwort [p rty:gal] eingefügt, wobei allerdings der Kontext keine derartige Silbe bereitstellt. Es ist insofern problematisch, hier von einer kontextuellen Silbenaddition zu sprechen. Offenbar bezieht nicht die ganze Silbe ihre Motivation aus dem Kontext, sondern die beiden sie konstituierenden Phoneme einzeln (beide aus dem Zielwort). Dann haben wir es aber nicht mit einem silbischen Versprecher zu tun. In (27) ist es aufgrund des identischen Onsets /k/ durchaus denkbar, dass der Reim /a:r/ und nicht die Silbe /ka:r/ antizipiert wurde. Etwas überzeugendere Beispiele finden wir in (28) und (29). In (28) wurden die beiden Silben des Worts „Prisca“ vertauscht (vorausgesetzt, die Silbengrenze folgt auf das /s/). Zwei kleinere Einschränkungen sind allerdings zu machen. Zum einen ist das Fehlerwort Bestandteil des französischen Wortschatzes (‘Laune’), so dass eine Substitution auf der Wortebene nicht auszuschließen ist. Zum anderen handelt es sich bei dem Zielwort um einen Eigennamen. Berg (1987b)
23. Versprecher und ihre Reparaturen
hatte aufgrund der Sichtung deutscher und englischer Fälle die Vermutung geäußert, dass die phonologische Verarbeitung von Eigennamen etwas anders verlaufen könnnte als die von Appellativa. Nr. (29) sieht wie ein klares Beispiel für eine silbische Antizipation aus. Allerdings ist auch hier nicht zu verkennen, dass es das Zielwort [travo:] im Französischen gibt, so dass auch hier letzte Zweifel einer Fehlklassifikation nicht auszuräumen sind. Wir stellen also fest, dass viele Fälle, die Rossi und Peter-Defare (1998) als Belege für Silbenfehler anführen, nicht überzeugend sind. Das heißt wohlgemerkt nicht, dass damit alle Beispiele entkräftet sind. Dazu müsste der vollständige Datensatz geprüft werden. Die Sichtung eines anderen französischen Versprecherkorpus (Arnaud, 1993, 1994), das nahezu vollständig vorliegt, ergibt jedoch wenig Anhaltspunkte für die These, dass die Silbe in französischen Versprechern eine grundlegend andere Rolle spielt als in deutschen oder englischen Versprechern. Als Resümee ist daher festzuhalten, dass bisher wenig stichhaltige Argumente vorliegen, die für eine silbische Repräsentationsstufe im Französischen (im Gegensatz zum Deutschen) sprechen. Andererseits ist bisher auch nicht auszuschließen, dass silbische Versprecher im Französischen (und eventuell auch im Chinesischen, vgl. Chen, 2000) häufiger auftreten könnten als in den germanischen Sprachen. 4.4. Die Lexikalisierung Der nächste Fall liegt ähnlich wie der vorherige, ist aber von erheblich größerer Tragweite, falls er sich als echter interlingualer Unterschied entpuppen sollte. Für das Englische haben Dell und Reich (1981) sowie Frisch und Wright (2002) statistisch nachgewiesen, dass sich die Auftretenswahrscheinlichkeit von phonemischen Versprechern dadurch erhöht, dass die neu entstandene Phonemsequenz ein reales Wort ist. Vergleichen wir dazu die beiden Beispiele (30) und (31). (30) in seinem Jeben nach ⫺ Leben nach Jerusalem pilgern. (31) dass der Rahmen ⫺ Namen keineswegs „Reagan“, sondern „Ryan“ hieß. Durch eine Phonemantizipation entsteht in (30) die sinnlose Lautfolge „Jeben“, in (31) hingegen entsteht dadurch ein neues Wort. Dieser Lexikalisierungseffekt ist von beson-
327 derem theoretischen Interesse, da er von Dell und Reich durch ein grundlegendes Verarbeitungsprinzip erklärt wird: Sie postulieren einen Rückfluss der Aktivation von einer tieferen zu einer höheren Verarbeitungsstufe. Dieser Rückfluss (Feedback) beeinflusst Selektionsentscheidungen auf beiden Ebenen. Durch die Aktivität der Wortebene findet ein Fall wie (31) also mehr Bestätigung als ein Fall wie (30). Der Feedbackmechanismus ist eine so grundlegende Eigenschaft des Sprachverarbeitungssystems, dass es schwer vorstellbar ist, dass er für Sprecher des Englischen gilt, für andere jedoch nicht. So wäre die Vorhersage, dass sich der Lexikalisierungseffekt in anderen Sprachen ebenfalls nachweisen lassen sollte. Einspruch gegen die Annahme der Universalität des Feedbackmechanismus ist inzwischen aus allen drei Hauptsprachen der Romania laut geworden. Sowohl Rossi und Peter-Defare (1998) als auch Del Viso, Igoa und Garcı´a-Albea (1991) und Magno Caldognetto, Tonelli und Panzeri (1997) sehen in ihren französischen, spanischen bzw. italienischen Versprecherdaten keinen Anhaltspunkt für einen Lexikalisierungseffekt. Rossi und Peter-Defare gelangen zu dieser Einschätzung aufgrund einer bloßen Berechnung des prozentualen Anteils an Phonemfehlern mit lexikalisiertem Resultat. Dieser Anteil von 11 % erscheint ihnen zu wenig, um von einem Lexikalitätseffekt sprechen zu können. Ein solches Verfahren ist aber unzulässig, da es die Autoren versäumen, diesen Prozentsatz mit einer Nullhypothese zu vergleichen. Der Prozentsatz als solcher hat überhaupt keinen Aussagewert. Für Magno Caldognetto et al. (1997) gilt genau die gleiche Kritik. Ein zweites Problem betrifft – wieder einmal – die Klassifikation. Die entscheidenden Fälle wie (31) sind per definitionem mehrdeutig: Theoretisch könnten sie alle sowohl als lexikalische wie auch als phonologische Versprecher gelten. Daher besteht die Gefahr, dass Rossi und Peter-Defare viele Fehler wie (31) als Wortfehler klassifiziert und so den Prozentsatz an relevanten Fällen heruntergedrückt haben. Dass diese Vermutung nicht ganz abwegig ist, zeigt eine Durchsicht der französischen Daten von Arnaud (1993, 1994), in denen solche mehrdeutigen Fälle häufig belegt sind. (Im Übrigen wird die unscharfe Grenze zwischen Wort- und Phonemfehlern auch von Rossi und Peter-Defare (1995) hervorgehoben.) Dieses gibt zu der Schlussfolgerung Anlass, dass Rossi und Peter-Defares (1998) ab-
328
III. Sprachproduktion
lehnende Haltung gegenüber dem Lexikalitätseffekt im Französischen nicht ausreichend begründet ist. Anders sieht es dagegen bei Del Viso et al. (1991) aus, die in ihren spanischen Daten einen Lexikalitätsgrad von 37 % vorfanden. Aufgrund einer Nullhypothese von 33 %, die sie in Anlehnung an das Verfahren von Dell und Reich (1981) aufstellten, gelangten sie zu der gleichen Einschätzung wie Rossi und Peter-Defare. Ohne eine größere Detailkenntnis ist dieser Fall schwer zu beurteilen. Bemerkenswert ist zumindest, dass der Prozentsatz deutlich höher als im Französischen und ähnlich hoch wie im Englischen liegt und dass es eine (nicht signifikante) Tendenz in Richtung auf einen Lexikalitätseffekt gibt. Das letzte Wort ist hier also noch nicht gesprochen. So ist bisher nicht auszuschließen, dass der Lexikalitätseffekt in verschiedenen Sprachen unterschiedlich stark ausgeprägt sein könnte ⫺ beispielsweise stärker im Englischen als im Spanischen. Stichhaltige Hinweise auf einen qualitativen Unterschied zwischen germanischen und romanischen Sprachen bezüglich der Lexikalität phonologischer Versprecher gibt es jedoch kaum. So ist auch bisher nicht davon auszugehen, dass es den Feedbackmechanismus im Englischen, nicht aber im Französischen oder Spanischen gibt. 4.5. Die Silbenstruktur Nach den zweifelhaften, unklaren oder strittigen Fällen kommen nun die weniger kontroversen zur Sprache. Als besonders brauchbar haben sich die Versprecher bei der Bestimmung der internen Struktur der Silbe erwiesen. Generell unterscheidet man drei mögliche Bauformen der Silbe, die der besseren Anschaulichkeit wegen in (32) am Beispiel einer CVC-Silbe graphisch dargestellt werden. (32)
Modell A
Modell B
Modell C
Silbe
Silbe
Silbe
C V C
C V C
C V C
Nach dem flachen Modell A sollten Onsetund Codaversprecher (ebenso wie CV- und VC-Fehler) gleichhäufig auftreten. Das hierarchisch rechtsverzweigte Modell B sagt ein häufigeres Vorkommen von Onset- im Vergleich zu Codafehlern voraus, ebenso ein häufigeres Auftreten von VC- als von CV-Se-
quenzen in Versprechern. Die dazu spiegelbildlichen Prognosen ergeben sich aus dem hierarchisch linksverzweigten Modell C. Zu beachten ist, dass sich die flache und die hierarchische Struktur nicht notwendigerweise ausschließen. In der Aktualgenese ein und derselben Sprache entwickelt sich nämlich der Silbenaufbau allmählich von einer flachen hin zu einer hierarchischen Struktur (Berg und Abd-El-Jawad, 1996). Es ist bemerkenswert, dass sich für alle drei theoretischen Modelle (weitgehend) passende Sprachen, sprich: Versprecherdaten finden lassen. Am klarsten ist die empirische Evidenz hinsichtlich des rechtsverzweigten Modells B, das auf Sprachen wie das Englische, Deutsche und Französische (vgl. dazu auch Bertinetto, 2000, der die Möglichkeit einer unterschiedlich starken Rechtsverzweigung in verschiedenen Sprachen in Erwägung zieht) und auch das Chinesische (Shen, 1993) zutrifft. VC-Versprecher sind in diesen Sprachen eindeutig häufiger als CV-Versprecher. Für das flache Modell A haben sich das Arabische und das Hindi als weitgehend passend erwiesen. Berg und Abd-El-Jawad (1996) kamen zu dem Ergebnis, dass das Arabische über weite Strecken seines Repräsentationsaufbaus flach strukturiert ist, sich allerdings ansatzweise in Richtung auf eine hierarchische Struktur entwickelt. So kann das statische Modell A mit gewissen Einschränkungen, die sich aus der Dynamik der Sprachproduktion ergeben, als angemessen angesehen werden. Für das Hindi wurde eine solche Lösung ebenfalls vorgeschlagen, allerdings nicht auf der Basis von Versprecherdaten (vgl. Ohala, 1999). Links ist offenbar die bevorzugte Verzweigungsrichtung des Japanischen, Koreanischen und des Finnischen. Niemi und Laine (1997) fanden in ihren finnischen Versprecherdaten keine Onsetfehler, die nicht gleichzeitig einen identischen Folgevokal im Zielund Fehlerwort hatten, dafür aber eine Reihe von CV-Fehlern wie in (33). Sie interpretierten diesen Befund als Indiz dafür, dass die CV-Sequenz eine subsilbische Größeneinheit im Finnischen ist. (33) vamput. (vanttunt x tumput) ‘Fausthandschuhe’ Wie erkennbar, wurden in diesem Versprecher die beiden Zielwörter an der Grenze zwischen dem Vokal und dem Codakonsonanten aufgebrochen und zu einem Fehlerwort verschmolzen.
23. Versprecher und ihre Reparaturen
Für das Koreanische liegen zwar keine naturalistischen Versprecherkorpora (allerdings einige Einzelfälle, vgl. Ahn, 1998) vor, dafür aber Daten zur metalinguistischen Beurteilung der Natürlichkeit von künstlich konstruierten Überblendungsfehlern (Derwing, Yoon & Cho, 1993) und Silbengrenzen (Derwing, Cho & Wang, 1991). In beiden Fällen bevorzugten die koreanischen Versuchspersonen ein Aufbrechen der Silbe nach dem Vokal. Dieses Ergebnis steht mit dem linksverzweigten Modell C im Einklang (vgl. auch Yoon & Derwing, im Druck). In die gleiche Richtung gehen die Versprecherdaten, die Kubozono (1989) für das Japanische ausgewertet hat. Der Bruch erfolgte vornehmlich zwischen Vokal und Endkonsonanten. Bei der Deutung dieser Daten als Evidenz für Linksverzweigung gibt es jedoch ein Problem. Japanisch ist eine morazählende Sprache, d. h. sie verfügt über eine Moraebene zwischen der Silben- und der Phonemebene. Wenn nun, wie Kubozono (1989) annimmt, der Onsetkonsonant und der Folgevokal von demselben Moraknoten dominiert werden, erfolgt der Bruch nicht mehr an der Vokal-Coda-Grenze, sondern an der Moragrenze. Dann ist es jedoch nicht mehr zulässig, die Versprecher als Bestätigung für eine linksverzweigte Silbenstruktur zu werten. Streng genommen ist dann die Fragestellung verkehrt, da keines der drei Silbenmodelle A, B und C auf diese Sprachen anzuwenden wäre. Schlüssigere Evidenz für Linksverzweigung liefert daher das Koreanische, das keine morazählende Sprache ist. 4.6. Der Abstand interagierender Elemente Der folgende interlinguale Unterschied ist aus einem direkten Vergleich des Arabischen mit dem Englischen und Deutschen ermittelt worden. Untersuchungsgegenstand ist der Abstand zwischen Quell- und Fehlerelement in kontextuell bedingten Phonemfehlern. Hier gibt es im Großen und Ganzen zwei Möglichkeiten. Die interagierenden Phoneme stammen aus demselben Wort (intraverbal) (vgl. (22)) oder aus unterschiedlichen Wörtern (interverbal) (vgl. (11)). Berg und AbdEl-Jawad (1996) fanden heraus, dass im Deutschen und Englischen interverbale Versprecher der Normalfall sind, während im Arabischen intraverbale Versprecher die Mehrheit bilden. Das Arabische scheint in diesem Punkt der Ausnahmefall zu sein, da sich viele andere Sprachen entsprechend dem Englischen verhalten (z. B. Französisch und
329 Schwedisch). Allerdings weicht das Spanische etwas von dieser Regel ab. Garcı´a-Albea, Del Viso und Igoa (1989) stellten fest, dass bipositionale Versprecher (Permutationen und Verschiebungen) zumeist intraverbal sind, während bei monopositionalen Fehlern (Antizipationen und Perseverationen) die interverbalen Fälle überwiegen. Garrett (1993) formuliert diesen Unterschied anders. Er behauptet, dass der Anteil der intraverbalen im Vergleich zu den interverbalen Versprechern im Spanischen höher als im Englischen ist, ohne dafür allerdings einen statistischen Nachweis zu erbringen. Garretts Behauptung lässt sich anhand des Korpus von Del Viso, Igoa und Garcı´a-Albea (1987) bestätigen. In der Klasse der konsonantischen, kontextuell bedingten Einzelsegmentsubstitutionen befinden sich 215 (27.5 %) intraverbale und 568 (72.5 %) interverbale Versprecher. Mit diesen Zahlen wird zunächst einmal klar, dass wie in allen anderen Sprachen (bis auf das Arabische) auch im Spanischen die interverbalen Fehlleistungen überwiegen. Wenn man dieses Verhältnis mit den in Berg und Abd-El-Jawad (1996) veröffentlichten Daten zum Englischen und Deutschen in Beziehung setzt, wird allerdings deutlich, dass das Spanische in der Tat stärker zur Intraverbalität neigt als z. B. das Englische (χ2 (1) ⫽ 74.4, p ⬍ 0.001). Zu dieser Neigung tragen in besonderem Maße die Permutationen und Verschiebungen bei, die im Spanischen häufiger als z. B. im Deutschen auftreten. Andererseits sollte aber nicht übersehen werden, dass auch in den anderen Sprachen eine Tendenz zu einem geringeren Abstand zwischen Quell- und Fehlerphonem bei bipositionalen im Vergleich zu monopositionalen Fehlleistungen besteht (vgl. dazu Nooteboom (1969) für das Holländische, Linell (1982) für das Schwedische und Berg (1988) für das Deutsche). Der Unterschied ist also ein quantitativer und scheint echt zu sein. Es sieht daher so aus, als wenn folgende Interverbalitätsskala gültig ist: Englisch/Deutsch ⬎ Spanisch ⬎ Arabisch. 4.7. Die Silbenpositionskonstanz Ein Effekt, der immer wieder als allgemeingültig angesehen wird, ist die Silbenpositionskonstanz. Diese besagt, dass solche Phoneme vornehmlich miteinander interagieren, die aus den gleichen strukturellen Positionen stammen. Onsetkonsonanten interagieren also überwiegend mit anderen Onsetkonsonanten (wie in (6)) und nur selten mit Codakonsonanten (wie in (22)). Dieser Effekt ist
330
III. Sprachproduktion
in vielen Sprachen beobachtet worden (z. B. Italienisch (Magno Caldognetto & Tonelli, 1991) und Spanisch (Garcı´a-Albea, Del Viso und Igoa, 1989)), im Arabischen existiert er allerdings nur in ganz beschränktem Maße (Berg & Abd-El-Jawad, 1996). Von großer Bedeutung ist hier die Unterscheidung in intraverbale und interverbale Fehlleistungen. Letztere zeigen nämlich den zur Diskussion stehenden Effekt, erstere in ihrer Gesamtheit jedoch nicht. Zerlegt man die intraverbalen Fälle in Untergruppen, ergeben sich weitere Unterschiede in der Sensitivität bezüglich der Silbenpositionskonstanz. Diese Feinanalyse macht deutlich, dass der Unterschied zwischen dem Arabischen und dem Englischen ein quantitativer, kein qualitativer ist, da selbst die arabischen Versprecher die Silbenpositionskonstanz nicht völlig ignorieren. Sie reagieren insgesamt nur weniger sensitiv. Wie bei der Distanz zwischen Fehler- und Quellelement ist das Arabische bisher die einzige Sprache, die eine solch geringe Sensitivität aufweist.
Wortonseteffekt auch im Englischen, mit großer Wahrscheinlichkeit ebenso im Holländischen und Schwedischen. Es könnte also sein, dass dieser Effekt ein Charakteristikum germanischer Sprachen schlechthin ist. Wenn er nun aber im Spanischen fehlt, stellt sich die Frage, ob dieses eine Eigentümlichkeit des Spanischen oder eine allgemeine Eigenschaft romanischer Sprachen ist. Dazu haben wir zwei weitere romanische Sprachen, das Französische und das Italienische, im Hinblick auf die Existenz des Wortonseteffekts untersucht. Die Korpora aus beiden Sprachen sind ungefähr gleich groß: 2500 italienische Versprecher (Magno Caldognetto, Panzeri & Tonelli 1997) neben 2400 französischen (Arnaud 1999). Die ersten 2000 französischen Versprecher liegen vollständig vor (Arnaud, 1993, 1994), die italienischen Daten jedoch nur ausschnittsweise. Insofern sind zum Französischen auch genauere Analysen als zum Italienischen möglich. Zunächst wurden alle Einzelkonsonantsubstitutionen im Korpus von Arnaud entsprechend der üblichen Versprecherkategorien erfasst (vgl. Tabelle 2). Die Versprecher in der Codaposition sind der Vollständigkeit halber mitaufgeführt worden. Bei einem Vergleich der wortinitialen und der silbeninitialen Substitutionsfehler muss berücksichtigt werden, dass Substitutionen immer einen Konsonanten zum Verdrängen voraussetzen und dass Silben- und Wortonsetpositionen nicht notwendigerweise gleichhäufig mit Konsonanten besetzt sind. Eine eventuell unterschiedliche Häufigkeit in der Besetzung dieser Position macht die Auftretensmöglichkeit von Versprechern ungleich und muss daher beseitigt werden. Zu diesem Zweck wurden die Zielwörter in den ersten 100 phonologischen Versprechern in den Daten von Arnaud auf ihre Onsetbesetzung geprüft. Dabei ergab sich, dass 13 % der Wortonsets und 1 % der Silbenonsets unbesetzt
4.8. Der Wortonseteffekt Der letzte Punkt soll ausführlicher behandelt werden, da sich in den letzten Jahren die Datenlage merklich verbessert hat und es insofern möglich ist, das Ausmaß des interlingualen Unterschieds besser zu bestimmen. Es geht um den Wortonseteffekt, demzufolge phonologische Substitutionsfehler die Neigung haben, vornehmlich am Anfang eines Wortes aufzutreten, wie beispielsweise in (5) und (11). In einer kontrastiven Studie konnte Berg (1991) zeigen, dass der Wortonseteffekt im Deutschen, aber nicht im Spanischen existiert. Allerdings gibt es im Spanischen (wie auch im Englischen (Vousden, Brown & Harley, 2000) und im Deutschen (Berg, 1990)) einen Silbenonseteffekt, der besagt, dass Silbenonsetfehler häufiger als Silbencodafehler vorkommen. Wie im Deutschen existiert der
Tab. 23.2: Häufigkeit von Einzelkonsonantsubstitutionen im Französischen wortinitial
silbeninitial
final
unvollständige Antizipation vollständige Antizipation Perseveration Antizipation ⫹ Perseveration Permutation
26 4 12 3 7
34 4 18 2 9
19 6 9 1 1
Σ
52
67
36
23. Versprecher und ihre Reparaturen
waren. Insofern wurden 13 % bei den wortinitialen Versprechern und 1 % bei den silbeninitialen Versprechern dazugeschlagen. Aufgrund dieser Normalisierung ergab sich ein Verhältnis von 59 wortinitialen zu 68 silbeninitialen Fällen. Zur Erstellung der Nullhypothese wurde die Länge der französischen Wörter ermittelt. Hierzu bot es sich an, auf die Wörter zurückzugreifen, die in den Versprechern modifiziert wurden. Die Analyse der Zielwörter der ersten 100 Versprecher im Arnaud-Korpus erbrachte eine durchschnittliche Länge von 1,95 Silben. Die Nullhypothese liegt somit bei 100/195 ⫽ 0.513. Das heißt, dass in 51.3 % der Fälle eine Modifikation des Wortonsets per Zufall zu erwarten ist. Tatsächlich beläuft sich der Anteil der Wortinitialfehler an allen Initialfehlern auf 46.5 %. Wie der χ2-Test zeigt, bewegt sich dieses Ergebnis innerhalb der Zufallsmarge: χ2 (1) ⫽ 0.65, p ⬎ 0.3. Wortinitiale Versprecher treten also nicht überzufällig häufig auf: Der Wortonseteffekt existiert folglich im Französischen ähnlich wie im Spanischen nicht. Dieses Ergebnis deckt sich mit den experimentellen Befunden von Crow (1991a, b). Wir kommen zum Italienischen. Magno Caldognetto, Panzeri und Tonelli (1997) ermittelten in ihren Daten einen Anteil von 33.8 % an Wortinitialfehlern (N ⫽ 362), bezogen auf den gesamten Datensatz an konsonantischen Versprechern. Wie bei der Analyse der französischen Fehlleistungen wurde zunächst ein Ausgleich zwischen der unterschiedlich häufigen Besetzung der Wort- und der Silbenonsetposition in der Struktur des Italienischen geschaffen. Alle Versprecher, die in den Publikationen von Magno Caldognetto et al. (1985, 1997) verzeichnet sind, wurden dazu auf „Onsetleere“ in den Zielwörtern geprüft. In 105 Wörtern war der Wortonset 15 mal unbesetzt, der Silbenonset jedoch nie. Zu den 362 Wortonsetfehlern kommen somit noch 52 (15/105 ⫻ 362) dazu, so dass von 414 Wortonsetfehlern auszugehen ist. Ihr Anteil steigt damit auf 36.9 %. Dieser Prozentsatz erhöht sich weiterhin dadurch, dass der gesamte Datensatz auch Coda- und sonstige Fehler enthält, die bei einem Vergleich von Wortonset und Silbenonset herauszurechnen sind. Wie die Tabelle 1 von Magno Caldognetto et al. (1997) zeigt, machen diese Fälle 10.1 % aus. Eine Verminderung der Gesamtdaten von 1071 ⫹ 52 ⫽ 1123 um 10.1 % ergibt 1010 (1123 ⫺ 113). Der An-
331 teil der Wortonsetfehler an den Onsetfehlern insgesamt beträgt somit 41.0 %. Im nächsten Schritt wurde die Nullhypothese ermittelt. Die durchschnittliche Länge italienischer Wörter wurde auf der Grundlage der Zielwörter in den in Magno Caldognetto et al. (1985, 1987, 1997) verzeichneten Versprechern berechnet. Sie beträgt 3,36 Silben. Die Zufallswahrscheinlichkeit, mit der ein Onsetfehler auf den Wortonset trifft, beläuft sich somit auf 100/3.36 ⫽ 29.8 %. Ein Vergleich zwischen per Zufall zu erwartender und tatsächlicher Fehlerhäufigkeit ergibt, dass Phonemversprecher signifikant häufiger im Wortonset als im Silbenonset auftreten: χ2 (1) ⫽ 4.6, p ⬍ 0.05. Im Italienischen lässt sich also der Wortonseteffekt statistisch nachweisen, auch wenn er, nach dem χ2-Wert zu urteilen, insgesamt nicht sehr stark ausgeprägt ist. Betrachtet man die drei romanischen Sprachen im Vergleich, so fällt auf, dass der Wortonseteffekt in seiner empirischen Manifestation kein Entweder-Oder-Phänomen, sondern ein graduelles ist. Es gibt offenbar ein Kontinuum an wortinitialer Fehlerresistenz, die in dieser Sprachfamilie im Spanischen am stärksten, im Französischen weniger stark und im Italienischen am schwächsten ausgeprägt ist. Empirisch stellt sich dieser Unterschied so dar, dass im Spanischen eine Wortonsetstabilität (Berg, 1991), im Französischen eine Wortonsetneutralität und im Italienischen eine (relativ schwache) Wortonsetinstabilität vorliegt. Vor diesem Hintergrund erscheint es gerechtfertigt, die romanischen Sprachen insgesamt als wortonsetstabiler als die germanischen zu bezeichnen, wobei allerdings zu betonen ist, dass dieser Unterschied kein kategorialer, sondern ein fließender ist. Auch wenn wir seit Bergs (1991) Dokumentation der Wortonsetstabilität im Spanischen mehr über die Allgemeingültigkeit des Wortonseteffekts wissen, so liegen doch die Ursachen für die interlingualen Unterschiede nach wie vor weitgehend im Dunkeln. Wir wollen kurz auf vier Gründe eingehen. Wilshire (1998) argumentierte anhand experimentell erhobener Versprecherdaten, dass der Wortonseteffekt, obwohl er sich auf der phonologischen Ebene manifestiert, nicht auf der phonologischen Ebene entsteht, sondern durch eine Interaktion zwischen der lexikalischen und der phonologischen Verarbeitungsstufe zustande kommt. Es ist offenkundig, dass der oben diskutierte interlinguale Unterschied damit nicht zusammenhängen
332 kann, da es kein Indiz dafür gibt, dass die lexikalische Ebene bei der Sprachproduktion im Spanischen ausgeschaltet, im Italienischen jedoch eingeschaltet ist. Zusätzlich zu seiner lexikalischen Verankerung ist der Wortonseteffekt auch strukturell motiviert. Wie Berg und Abd-El-Jawad (1996) argumentiert haben, korreliert seine Stärke mit dem Aufbau einer strukturellen phonologischen Repräsentation. Je stärker diese strukturelle Repräsentation entwickelt ist, desto geringer ist die Wortonsetstabilität. Auch diese Ursache hilft nicht bei der Erklärung der interlingualen Variation. Bisher gibt es keine Anhaltspunkte dafür, dass das Spanische in der Aktualgenese eine schwächere strukturelle Repräsentation aufbaut als das Italienische. Berg und Abd-El-Jawad stellten einen Zusammenhang zwischen einer schwachen strukturellen Repräsentation und der diskontinuierlichen Morphologie einer Sprache her. Da das Spanische wie das Italienische über eine kontinuierliche Morphologie verfügt, scheidet diese Erklärungsmöglichkeit aus. Wir haben mit Hilfe von Computersimulationen eine mögliche dritte Ursache für den Wortonseteffekt ausfindig gemacht. Onsets können in verschiedenen Sprachen unterschiedlich schwer sein. Vereinfacht gesagt, verstehen wir unter Schwere die durchschnittliche Anzahl an Konsonanten pro Position. Je clusterhaltiger eine Sprache ist, desto schwerer ist sie. Unsere Simulationen haben gezeigt, dass sich die Fehlerwahrscheinlichkeit mit zunehmender Schwere erhöht. Es könnte also theoretisch sein, dass die unterschiedliche Fehlerresistenz des Wortonsets durch seine unterschiedliche Schwere in verschiedenen Sprachen bedingt ist. Danach sieht es aufgrund der bisher vorliegenden Evidenz jedoch kaum aus. Nach den Analysen von Hess (1975) ist der Onset im Italienischen etwas leichter als im Französischen (wobei Hess allerdings nicht zwischen Wort- und Silbenonsets unterscheidet). Genau das Gegenteil wäre nach den psycholinguistischen Unterschieden zu erwarten gewesen. So bleibt die Frage, ob es eventuell typologische Unterschiede zwischen den romanischen und den germanischen Sprachen gibt, die für die unterschiedliche Stärke des Wortonseteffekts verantwortlich sein könnten. Aus dem phonologischen Bereich ist hier vor allem an Folgendes zu denken: Während die drei romanischen Sprachen silbenzählend
III. Sprachproduktion
sind, neigen die germanischen Sprachen zur Betonungszählung. Es ist denkbar, dass dieser rhythmische Unterschied zu einer stärkeren Verteilung der Versprecher auf die einzelnen (Wort- und) Silbenonsets in den romanischen Sprachen und zu einer stärkeren Konzentration der Versprecher auf den Wortonset in den germanischen Sprachen (die generell erstsilbenbetont sind) führt. Wie man sich diesen Zusammenhang von Versprecherdistribution und Rhythmus genau vorzustellen hat, bleibt dabei offen. Ebenso unklar ist, ob dieser Ansatz die psycholinguistischen Unterschiede innerhalb der romanischen Sprachen erklären kann. 4.9. Schlussfolgerungen Betrachtet man die obigen Punkte in der Gesamtschau, so fällt zunächst auf, dass längst nicht jeder postulierte interlinguale Unterschied auch tatsächlich einer ist. Nur allzu oft fußen diese Unterschiede auf unterschiedlichen Klassifikationsstrategien und können daher nicht einer näheren Prüfung standhalten. Generell ist all denjenigen Unterschieden mit Skepsis zu begegnen, die angeblich auf grundsätzlich unterschiedlichen Verarbeitungsprinzipien basieren. So erscheint es gänzlich unwahrscheinlich, wenn auch nicht unmöglich, dass der Feedbackmechanismus in der einen Sprache vorzufinden ist, in der anderen aber nicht. Ein solcher Verarbeitungsunterschied würde im Übrigen erheblich größere Unterschiede in den Versprecherdaten der verschiedenen Sprachen nach sich ziehen, als tatsächlich vorhanden sind. Wenn man also die Spreu vom Weizen trennt und sich nur auf die wirklichen Unterschiede besinnt, stellt sich die Frage nach einem möglichen inneren Zusammenhang zwischen ihnen. Wir haben festgestellt, dass mit einer gewissen Wahrscheinlichkeit folgende Bereiche interlingualer Variation unterworfen sind: Silben, Moren, Reime, Wortonsetpositionen, die Silbenpositionskonstanz und der Abstand zwischen Fehler- und Quellelement. Gibt es nun etwas, das all diese Erscheinungen verbindet? Es sieht ganz danach aus: Silben, Moren und Reime sind strukturelle Größeneinheiten, und der Wortonseteffekt, die Silbenpositionskonstanz sowie der Abstand sind strukturbedingte Phänomene. Dieses wurde für den Wortonseteffekt bereits ausgeführt. Für die Silbenpositionskonstanz liegt diese Behauptung auf der Hand, da die einzelnen Silbenpositionen strukturell definiert sind. Dass der Abstand zwischen Feh-
23. Versprecher und ihre Reparaturen
ler- und Quellphonem strukturell bedingt ist, wurde in Berg und Abd-El-Jawad (1996) erläutert. Je weiter der Strukturaufbau fortgeschritten ist, desto größer wird der Abstand zwischen den interagierenden Einheiten. In Berg (2003) wurde die Unterscheidung in Inhalts- und Strukturgrößen systematisch auf die gesamte Bandbreite der Versprecher angewendet. Vornehmlich aufgrund einer Häufigkeitsanalyse wurde dafür plädiert, Merkmale, Phoneme, Morpheme und Wörter als Inhaltseinheiten und alle übrigen linguistischen Größen als strukturelle Einheiten zu betrachten. Danach gehören die Silbe, der Reim (oder Körper) und die Mora zu den strukturellen Elementen einer Sprache. Mit dieser Unterscheidung in Inhalts- und Strukturgrößen lässt sich die interlinguale Versprechervariation wie folgt erfassen. Was die Versprecherregularitäten betrifft, variieren Sprachen überwiegend im strukturellen, kaum hingegen im Inhaltsbereich. Wenn man Versprecher als repräsentativ für die Sprache schlechthin ansieht, gelangt man zu der weitreichenden These, dass Sprachen generell eine stärkere Variation im strukturellen als im inhaltlichen Bereich aufweisen. Hier kann die vergleichende Versprecherforschung der Sprachtypologie wichtige Impulse geben.
5.
Reparaturen
Die überwiegende Mehrzahl von Versprechern wird vom Sprecher bemerkt und korrigiert (vgl. Berg, 1992a). Die dabei entstehenden sogenannten „selbsteingeleiteten Selbstreparaturen“ sind zu unterscheiden von Reparaturen, bei denen auch der Hörer einen Anteil hat, indem er die Reparatur anfordert bzw. ausführt. Schegloff, Jefferson und Sacks (1977) unterscheiden entsprechend vier Klassen von Reparaturen. Die erste Klasse bilden die schon genannten selbsteingeleiteten Selbstreparaturen, bei denen der Sprecher aufgrund eines selbstbemerkten Problems die Reparatur selbst ausführt. (Beispiel (25a); die Beispiele (25a) bis (25d) sind anhand realer Beispiele konstruiert. Auf diese Weise können sich die unterschiedlichen Reparaturarten auf denselben Fehler beziehen, was ihre Vergleichbarkeit erhöht.) Zur zweiten Klasse gehören die sogenannten „fremdeingeleiteten Selbstreparaturen“. Diese werden vom Hörer angefordert und vom Sprecher ausgeführt, vgl. Beispiel (25b). In der dritten Klasse finden sich die „selbsteingeleiteten Fremdrepa-
333 raturen“. Dies sind diejenigen Reparaturen, bei denen der Sprecher den Hörer explizit auffordert, statt seiner die Reparatur zu vollziehen, vgl. Beispiel (25c). Die vierte Klasse schließlich besteht aus den Reparaturen, die der Hörer von sich aus beisteuert, den sogenannten „fremdeingeleiteten Fremdreparaturen“, vgl. Beispiel (24d). (25) a. S: Ich hab mir auf Sizilien den Vesuv ähh den Ätna angesehen. b. S: Ich hab mir auf Sizilien den Vesuv angesehen. H: Den Vesuv? S: Ähh … den Ätna, natürlich. c. S: Ich hab mir auf Sizilien den den wie heißt der noch gleich? H: Ätna? S: Ja, genau, den Ätna hab ich mir angesehen. d. S: Ich hab mir auf Sizilien den Vesuv angesehen. H: Den Ätna! S: Ja … den Ätna. 5.1. Klassifikation der Selbstreparaturen Für Aussagen über den kognitiven Prozess der Sprachproduktion sind in erster Linie die selbsteingeleiteten Selbstreparaturen interessant. Zum einen kann nur über die Analyse von selbsteingeleiteten Reparaturen auf ein produktionsspezifisches Monitoring rückgeschlossen werden, zum anderen zeigen Selbstreparaturen deutlicher die Mechanismen, mit denen der Sprecher versucht, dem Hörer verständlich zu machen, dass eine Reparatur (oder genauer ein Reparaturversuch) vorliegt. Entsprechend werden wir im Folgenden nur auf selbsteingeleitete Selbstreparaturen näher eingehen. Dabei bietet die Art der zur Reparatur führenden Fehlleistung eine Möglichkeit der weiteren Klassifikation. Levelt (1983) unterscheidet dabei „error repairs“, „appropriateness repairs“, „different messages repairs“ und „covert repairs“. Die nichtklassifizierbaren Fälle werden in einer Restkategorie angeführt. Als typische „error repairs“ können die Beispiele (25a) und (26) dienen. Ein „appropriateness repair“ liegt vor, wenn die produzierte Äußerung zwar ohne Fehler ist, der Sprecher jedoch annimmt, dass der Hörer evtl. zusätzliche Informationen benötigt; siehe Beispiel (27). Ein „different message repair“ entsteht, wenn sich der Sprecher während der Äußerung entscheidet, zunächst und vorrangig einen anderen Gedanken zu verbalisieren; vgl. Beispiel
334 (28). „Covert repair“ werden diejenigen Reparaturen genannt, bei denen die Störquelle nicht zur Äußerung kommt. In diesen Fällen produzieren Sprecher Pausen, Hesitationssignale und Wiederholungen; siehe Beispiel (29). (26) Ingang naar geel eh naar grijs. Doorgaan naar geel. (Eingangs nach gelb äh nach grau. Weiter nach gelb.) (27) We beginnen in het midden met … in het midden van het papier met een blauw rondje. (Wir beginnen in der Mitte mit … in der Mitte von dem Papier mit einer blauen runden [Scheibe].) (28) … und zwar mit der . die müssen längs stehn ne’ mit der kurzen Seite nach unten. (29) Ich weiß ich weiß ich weiß ich weiß ich weiß ich weiß jetzt wir habn ich eh habe Sie zu schnell unterbrochen ’s war meine Schuld aber ich weiß jetzt, was ich Sie k wo eh in welchem Sinn welchem Sinn nach ich Sie unterbrechen wollte … Die Beispiele (26) und (27) stammen aus Levelt (1983: 66 bzw. 52), Beispiel (28) aus Schade und Laubenstein (1993: 80), und Beispiel (29) produzierte Klaus Kinski in einer denkwürdigen Talkshow „gegen“ Reinhard Münchehagen. 5.2. Die Phasen einer Selbstreparatur Am Beispiel der Fehlerreparatur (26) können wir die sich in der Äußerung widerspiegelnden Phasen einer Selbstreparatur aufzeigen. Die Terminologie, mit der die jeweiligen Phasen bezeichnet werden, orientiert sich dabei an der von Levelt (1983). In Beispiel (26) bildet naar geel die Bezugssequenz der Reparatur, wobei geel von Levelt (1983) als das (eigentliche) Reparandum bezeichnet wird. Das eh ist der sogenannte „editing term“ (vgl. auch Hockett, 1967). Es ist eine Art Signal, mit dem der Sprecher erstens den Abbruch der Äußerung unterstreicht, mit dem er zweitens Zeit für den folgenden Reparaturversuch gewinnt und mit dem er drittens dem Hörer hilft, die Reparatur als solche zu erkennen und evtl. besser einzuschätzen. Der Ausdruck naar grijs schließlich bildet den Reparaturversuch. Der Ausdruck „Reparaturversuch“ erscheint uns deshalb adäquat, weil es nicht garantiert ist, dass dieser Versuch gelingt.
III. Sprachproduktion
Der Beschreibung der Reparaturphasen und ihrer Auswertung hinsichtlich der Erkenntnisse, die sie in Bezug auf den Prozess der Sprachproduktion liefern, liegen einige theoretische, zumeist kontrovers diskutierte Annahmen zugrunde, auf die wir im Folgenden kurz eingehen wollen. Die erste dieser Annahmen betrifft das sogenannte „Monitoring“. Diskutiert werden zwei Möglichkeiten dazu, wie ein Sprecher bemerken könnte, dass seine aktuelle Äußerung problembehaftet ist und somit einer Reparatur bedarf. Die erste ergibt sich aus der Fähigkeit, Resultate von Teilprozessen der Sprachproduktion mit den Mitteln des Sprachverstehens zu analysieren und auf ihre Korrektheit hin zu überprüfen. Für eine solche „perceptual theory of monitoring“ argumentiert etwa Levelt (1983: 46). Eine zweite Möglichkeit ist eine „production theory of monitoring“, wobei die Resultate von Teilprozessen der Produktion hinsichtlich bestimmter Kriterien, die in der Produktion vorgegeben sind, überprüft werden. Ein entsprechender Vorschlag, der eine interaktive Modellierung des Sprachproduktionsprozesses voraussetzt, findet sich bei MacKay (1992). Die zweite der theoretischen Annahmen zu Reparaturen betrifft den Abbruch der aktuellen Äußerung in dem Fall, dass der Monitor eine Fehlleistung bemerkt bzw. glaubt, eine solche zu bemerken. Nooteboom (1980) und Levelt (1983, 1989) argumentieren, dass bei einer derartigen Fehlermeldung der Abbruch der Produktion unmittelbar erfolgt („main interruption rule“). Eine dem widersprechende Argumentation findet man bei Berg (1986a). Reparaturversuche werden zumeist mit Reparatursignalen („editing terms“) angekündigt und im Allgemeinen so durchgeführt, dass es dem Hörer gelingt, den Reparaturversuch als solchen zu erkennen und im Sinne des Sprechers zu verstehen. Dabei ist es nicht notwendig, den Fehler, der vermeintlicherweise gemacht worden ist, zu analysieren (Berg, 1986a). Für die Durchführung eines Reparaturversuches genügt es, die geplante Produktion erneut zu initiieren. Da Versprecher vergleichsweise selten sind, sollte die erneute Produktion und damit der Reparaturversuch gelingen. Eine solche im Normalfall sehr ökonomische Behandlung eines Fehlers führt dann zu Problemen, wenn, etwa im Fall einer Broca-Aphasie, die Anzahl der Fehlleistungen erheblich zunimmt, so dass
335
23. Versprecher und ihre Reparaturen
Reparaturversuche gewöhlich nicht gelingen (vgl. dazu Kolk, 1995). Wird eine Reparatur dadurch durchgeführt, dass die geplante Produktion neu initiiert wird, ist zu fragen, an welchem Punkt der Äußerung die erneute Produktion ansetzt. Die theoretische Annahme hierzu bezieht sich auf das Prinzip der Inkrementalität bei der Produktion (Kempen & Hoenkamp, 1987, bzw. Artikel 21 und Artikel 22) und besagt, dass die Produktion am Beginn derjenigen Einheit einsetzt, die von dem Teilprozess aktuell fertiggestellt wird, auf welchen sich die Fehlermeldung durch den Monitor bezieht. Wird beispielsweise ein phonologischer Fehler erkannt, während das fehlerhafte Wort produziert wird, so genügt es für den Reparaturversuch, mit der Produktion dieses Wortes einzusetzen. Wird aber ein lexikalischer Fehler bemerkt, so beginnt der Reparaturversuch am Beginn der entsprechenden Phrase, in Beispiel (26) etwa am Beginn der Präpositionalphrase. Der Bezug des Beginns des Reparaturversuchs auf die Inkrementalität der Produktion erlaubt eine stark automatisiert arbeitende Reparaturkomponente, die sowohl in diskreten Stufenmodellen mit Inkrementalität (vgl. de Smedt & Kempen, 1987) als auch in interaktiven Modellen (vgl. Schade & Laubenstein, 1993) integriert werden kann. Darüber hinaus wird durch den Rückgriff auf den Beginn der jeweiligen Produktionseinheit auch dem Hörer die Möglichkeit gegeben, die Reparatur im Sinne des Sprechers zu erkennen und zu verstehen. 5.3. Reparaturen aus sprachbeschreibender und prozessorientierter Sicht Aus einer sprachbeschreibenden Sicht haben Reparatursequenzen häufig das Aussehen von Koordinationskonstruktionen, wobei das Reparatursignal die Rolle des Konjunkts einnimmt. Dieses Aussehen einer gelungenen Reparatur erfasst Levelt (1983, 1989) in seiner Wohlgeformheitsregel für Reparaturen. Aus einer prozessorientierten Sicht laufen Selbstreparaturen in allen Modellvorschlägen zum Prozess der Sprachproduktion automatisch ab. Obwohl die inhaltliche Funktion von Reparaturen auf den Hörer bezogen ist und obwohl der jeweilige Einsatz von Reparaturversuchen Vorteile für den Hörer bietet, bedeutet die hohe Automatizität, dass bei der Durchführung einer Reparatur die Ressourcen des Sprechers so wenig wie möglich beansprucht werden. Selbsteingeleitete Selbstreparaturen sind also primär sprecherorientiert.
Der Eindruck der Hörerfreundlichkeit von Reparaturen ergibt sich lediglich aus dem konventionalisierten Sprachgebrauch. Die Sprecherorientierung der selbsteingeleiteten Selbstreparaturen lässt sich belegen durch die Analyse von Reparaturen nach Kontaminationen (Berg, 1992a). Sie entspricht den Erkenntnissen zum partnerbezogenen Sprechen, die besagen, dass unter kognitiver Belastung die Berücksichtigung der Hörerposition entfällt.
6.
Fazit
Daten über Versprecher und auch über deren Reparaturen waren in der Vergangenheit Ausgangspunkt für die Entwicklung von Modellen zum kognitiven Prozess der Sprachproduktion. Diese Daten und insbesondere die Häufigkeitsverteilungen, die daraus entnommen werden können, sind stets sorgfältig zu hinterfragen und zu analysieren. Andere inzwischen vorliegende empirische und experimentell erhobene Daten können den Versprecherdaten zum Teil zur Seite und zum Teil gegenüber gestellt werden, so dass sich die empirische Grundlage für die Evaluation von Sprachproduktionsmodellen deutlich verbreitert hat. Die Versprecherdaten bleiben jedoch auch weiterhin eine der wichtigsten empirischen Evaluationsgrundlagen, zumal sich, wie wir am Beispiel des Initialeffekts verdeutlicht haben, in diesen Daten noch mancherlei Überraschendes und für die derzeitigen Produktionsmodelle nicht trivial zu Interpretierendes verbirgt.
7.
Literatur
Ahn, S.-C. (1998). An introduction to Korean phonology. Seoul: Hanshin. Allport, D. A. (1984). Speech production and comprehension: One lexicon or two? In W. Prinz & A. F. Sanders (Eds.), Cognition and motor processes (pp. 209⫺228). Berlin: Springer. Arnaud, P. J. L. (1993). Mille lapsus. Ms., Universite´ Lumie`re, Lyon, France. Arnaud, P. J. L. (1994). Mille lapsus (Deuxie`me Se´rie). Ms., Universite´ Lumie`re. Lyon, France. Arnaud, P. J. L. (1999) Target-error resemblance in French word substitution speech errors and the mental lexicon. Applied Psycholinguistics, 20, 269⫺287. Baars, B. J., Motley, M. T. & MacKay, D. G. (1975). Output editing for lexical status from artifi-
336 cially elicited slips of the tongue. Journal of Verbal Learning and Verbal Behavior, 14, 382⫺391. Barsalou, L. W. (1992). Cognitive psychology: An overview for cognitive scientists. Hillsdale, NJ: Lawrence Erlbaum Associates. Berg, T. (1986a). The aftermath of error occurrence: Psycholinguistic evidence from cut-offs. Language and Communication, 6, 195⫺213. Berg, T. (1986b). The problems of language control: Editing, monitoring, and feedback. Psychological Research, 48, 133⫺144. Berg, T. (1987a). A cross-linguistic comparison of slips of the tongue. Bloomington: Indiana University Linguistics Club. Berg, T. (1987b). The case against accommodation: Evidence from German speech error data. Journal of Memory and Language, 26, 277⫺299. Berg, T. (1988). Die Abbildung des Sprachproduktionsprozesses in einem Aktivationsflußmodell. Tübingen: Niemeyer. Berg, T. (1990). The differential sensitivity of consonants and vowels to stress. Language Sciences, 12, 65⫺84. Berg, T. (1991). Phonological processing in a syllable-timed language with pre-final stress: Evidence from Spanish speech error data. Language and Cognitive Processes, 6, 265⫺301. Berg, T. (1992a). Productive and perceptual constraints on speech-error correction. Psychological Research, 54, 114⫺126. Berg, T. (1992b). Umrisse einer psycholinguistischen Theorie der Silbe. In P. Eisenberg, K. H. Ramers & H. Vater (Eds.), Silbenphonologie des Deutschen (pp. 44⫺99). Tübingen: Narr. Berg, T. (2003). Sprechfehler. In T. Herrmann & J. Grabowski (Eds.), Sprachproduktion (pp. 247⫺ 264). Göttingen: Hogrefe. Berg, T. & Abd-El-Jawad, H. (1996). The unfolding of suprasegmental representations: A crosslinguistic perspective. Journal of Linguistics, 32, 291⫺324. Bertinetto, P. M. (2000). Blends and syllable structure: A four-fold comparison. In M. Lorente, N. Alturo, E. Boix, M. R. Lloret & L. Payrato´ (Eds.), La grama´tica i la sema´ntica per en l’estudi de la variacio´ (pp. 55⫺112). Barcelona: Promociones y Publicaciones Universitaries. Blanken, G. (1998). Lexicalisation in speech production: Evidence from form-related word substitutions in aphasia. Cognitive Neuropsychology, 15, 321⫺360.
III. Sprachproduktion Chen, J.-Y. (2000). Syllable errors from naturalistic slips of the tongue in Mandarin Chinese. Psychologia, 43, 15⫺26. Crow, C. G. (1991a). Phonological organization in bilinguals: Evidence from speech error data. Proceedings of the XIIth international congress of phonetic sciences (Vol. 4, pp. 30⫺33). Aix-en-Provence. Crow, C. G. (1991b). A comparison of elicited speech errors in monolingual and bilingual speakers of French and English. Unpublished Ph.D. thesis. University of Texas at Austin. Cutler, A. (1981). The reliability of speech error data. Linguistics, 19, 561⫺582. Cutler, A., Mehler, J., Norris, D. & Segui, J. (1986). The syllable’s differing role in the segmentation of French and English. Journal of Memory and Language, 25, 385⫺400. Dell, G. S. (1984). Representation of serial order in speech: Evidence from the repeated phoneme effect in speech errors. Journal of Experimental Psychology: Learning, Memory, and Cognition, 10, 222⫺ 233. Dell, G. S. (1986). A spreading-activation theory of retrieval in sentence production. Psychological Review, 93, 283⫺321. Dell, G. S., Burger, L. K. & Svec, W. R. (1997). Language production and serial order: A functional analysis and a model. Psychological Review, 104, 123⫺147. Dell, G. S. & Reich, P. A. (1981). Stages in sentence production: An analysis of speech error data. Journal of Verbal Learning and Verbal Behavior, 20, 611⫺629. Del Viso, S., Igoa, J. M. & Garcı´a-Albea, J. (1987). Corpus of spontaneous slips of the tongue in Spanish. Technical Report, University of Oviedo, Spain. Del Viso, S., Igoa, J. M. & Garcı´a-Albea, J. E. (1991). On the autonomy of phonological encoding: Evidence from slips of the tongue in Spanish. Journal of Psycholinguistic Research, 20, 161⫺185. Derwing, B. L., Cho, S. W. & Wang, H. S. (1991). A cross-linguistic experimental investigation of syllable structure: Some preliminary results. Proceedings of the XIIth international congress of phonetic sciences. (Vol. 4, pp. 110⫺113). Aix-en-Provence, France. Derwing, B. L., Yoon, Y. B. & Cho, S. W. (1993). The organization of the Korean syllable: Experimental evidence. In P. M. Clancy (Ed.), Japanese/ Korean linguistics. Vol. 2 (pp. 223⫺238). Stanford: Center for the Study of Language and Information.
23. Versprecher und ihre Reparaturen De Smedt, K. & Kempen, G. (1987). Incremental sentence production, self-correction, and coordination. In G. Kempen (Ed.), Natural language generation (pp. 365⫺376). Dordrecht: Nijhoff. Deutsch, W. (1986). Language production and comprehension: Two sides of the same coin? In H. G. Bosshardt (Hrsg.), Perspektiven auf Sprache. Interdisziplinäre Beiträge zum Gedenken an Hans Hörmann (pp. 232⫺263). Berlin: Walter de Gruyter Frisch, S. A. & Wright, R. (2002). The phonetics of phonological speech errors: An acoustics analysis of slips of the tongue. Journal of Phonetics, 30, 139⫺162. Fromkin, V. A. (1971). The non-anomalous nature of anomalous utterances. Language, 47, 27⫺52. Garcı´a-Albea, J. E., del Viso, S. & Igoa, J. M. (1989). Movement errors and levels of processing in sentence production. Journal of Psycholinguistic Research, 18, 145⫺161.
337 Levelt, W. J. M. (1989). Speaking: From intention to articulation. Cambridge, MA: MIT Press. Linell, P. (1982). Speech errors and the grammatical planning of utterances: Evidence from Swedish. In W. Koch, C. Platzack & G. Tottie (Eds.), Textstrategier i tal och skrift (pp. 134⫺151). Stockholm: Almqvist & Wiksell. MacKay, D. G. (1992). Awareness and error detection: New theories and research paradigms. Consciousness and Cognition, 1, 199⫺225. Magno Caldognetto, E. & Luciani, N. (1987). Problemi di classificazione e distribuzione nell’analisi di parafasie e lapsus fonologici. Acta Phoniatrica Latina, 9, 366⫺374. Magno Caldognetto, E., Panzeri, M. & Tonelli, L. (1997). Nessi nei lapsus: evidenza esterne per un modello di sillaba in italiano. Quaderni del Centro di Studio per le Ricerche di Fonetica, 16, 227⫺240.
Garrett, M. F. (1975). The analysis of sentence production. In G. H. Bower (Ed.), The psychology of learning and motivation Vol. 9 (pp. 133⫺177). New York: Academic Press.
Magno Caldognetto, E. & Tonelli, L. (1985). Syllabic constraints on phonological speech errors in Italian. In W. U. Dressler & L. Tonelli (Eds.), Natural phonology from Eisenstadt (pp. 73⫺88). Padova: CLESP.
Garrett, M. F. (1993). Errors and their relevance for models of language production. In G. Blanken, J. Dittmann, H. Grimm, J. Marshall & C.-W. Wallesch (Eds.). Linguistic disorders and pathologies (pp. 72⫺92). Berlin: Walter de Gruyter.
Magno Caldognetto, E. & Tonelli, L. (1991). La rappresentazione mentale dell’informazione fonologica: Evidenze dai lapsus. In E. Magno Caldognetto & P. Beninca (Eds.), L’interfaccia tra fonologica e fonetica (pp. 93⫺112). Padova: Unipress.
Güntert, H. (1932). Rudolf Meringer zum Gedächtnis. Wörter und Sachen, 14, III-IV.
Magno Caldognetto, E., Tonelli, L. & Panzeri, M. (1997). Evidenze dai lapsus per modelli di produzione del parlato. In M. Carapezza, D. Gambarara & F. Lo Piparo (Eds.), Linguaggio e Cognizione. Atti del XXVIII congresso internazionale di studi della Societa` di Linguistica Italiana, Palermo, 1994 (pp. 329⫺356). Roma: Bulzoni.
Hess, Z. (1975). Typologischer Vergleich romanischer Sprachen auf phonologischer Basis. Bern: Peter Lang. Hockett, C. F. (1967). Where the tongue slips there slip I. To honor Roman Jakobson, Vol. 2 (pp. 910⫺ 936). Den Haag: Mouton. Kempen, G. & Hoenkamp, E. (1987). An incremental procedural grammar for sentence formulation. Cognitive Science, 11, 201⫺258.
Martin, N., Gagnon, D. A., Schwartz, M. F., Dell, G. S. & Saffran, E. M. (1996). Phonological facilitation of semantic errors in normal and aphasic speakers. Language and Cognitive Processes, 11, 257⫺282.
Kolk, H. (1995). A time-based approach to agrammatic production. Brain and Language, 50, 282⫺ 303.
Meringer, R. (1908). Aus dem Leben der Sprache: Versprechen, Kindersprache, Nachahmungstrieb. Berlin: Behrs.
Kubozono, H. (1989). The mora and syllable structure in Japanese: Evidence from speech errors. Language and Speech, 32, 249⫺278.
Meringer, R. & Mayer, K. (1895). Versprechen und Verlesen: Eine psychologisch-linguistische Studie. Stuttgart: Göschen.
Leuninger, H. (1996). Reden ist Schweigen, Silber ist Gold: Gesammelte Versprecher. München: Deutscher Taschenbuchverlag.
Motley, M.T. & Baars, B. J. (1975). Encoding sensitivities to phonological markedness and transitional probability: Evidence from spoonerisms. Human Communication Research, 2, 351⫺361.
Leuninger, H. (1998). Danke und Tschüs fürs Mitnehmen: Neue gesammelte Versprecher. München: Deutscher Taschenbuchverlag. Levelt, W. J. M. (1983). Monitoring and self-repair in speech. Cognition, 14, 41⫺104.
Motley, M. T. & Baars, B. J. (1976). Laboratory induction of verbal slips: a new method for psycholinguistic research. Communication Quarterly, 24, 28⫺34.
338
III. Sprachproduktion
Niemi, J. & Laine, M. (1997). Slips of the tongue as linguistic evidence: Finnish word initial segments and vowel harmony. Folia Linguistica, 31, 161⫺175.
Schegloff, E. A., Jefferson, G. & Sacks, H. (1977). The preference for self-corrections in the organization of repair in conversation. Language, 53, 361⫺382.
Nisbett, R. & Ross, L. (1980). Human inference: Strategies and shortcomings of social judgement. Englewood Cliffs, NJ: Prentice-Hall.
Schriefers, H., Meyer, A. S. & Levelt, W. J. M. (1990). Exploring the time course of lexical access in language production. Journal of Memory and Language, 29, 86⫺102.
Nooteboom, S. G. (1969). The tongue slips into patterns. In A. G. Scarione, A. J. van Essen & A. A. van Raad (Eds.), Nomen. Leyden studies in linguistics and phonetics (pp. 114⫺132). The Hague: Mouton. Nooteboom, S. G. (1980). Speaking and unspeaking: Detection and correction of phonological and lexical errors in spontaneous speech. In V. A. Fromkin (Ed.), Errors in linguistic performance (pp. 87⫺95). New York: Academic Press. Ohala, M. (1999). The syllable in Hindi. In H. van der Hulst & N. A. Ritter (Eds.), The syllable. Views and facts (pp. 93⫺111). Berlin: Mouton de Gruyter. Ohala, M. & Ohala, J. J. (1988a). The scarcity of speech errors in Hindi. In L. M. Hyman & C. N. Li (Eds.), Language, speech and mind. Studies in honour of Victoria A. Fromkin (pp. 239⫺253). London: Routledge. Ohala, M. & Ohala, J. J. (1988b). Why don’t Hindi speakers make speech errors? Paper presented at the 6th international phonology meeting, Krems, Austria. Peterson, R. & Savoy, P. (1999). Lexical selection and phonological encoding during language production: Evidence for cascaded processing. Journal of Experimental Psychology: Learning, Memory, and Cognition, 24, 539⫺557. Rossi, M. & Peter-Defare, E. (1995). Lapsus linguae: Word errors or phonological errors? International Journal of Psycholinguistics, 11, 5⫺38. Rossi, M. & Peter-Defare, E. (1998). Les lapsus ou comment notre fourche a langue´. Paris: Presses Universitaires de France. Schade, U. (1999). Konnektionistische Sprachproduktion. Wiesbaden: Deutscher Universitätsverlag. Schade, U. & Laubenstein, U. (1993). Repairs in a connectionist language-production model. In R. Köhler & B. Rieger (Eds.), Contributions to quantitative linguistics (pp. 79⫺90). Dordrecht: Kluwer.
Shattuck-Hufnagel, S. (1987). The role of word-onset consonants in speech production planning: New evidence from speech error patterns. In E. Keller & M. Gopnik (Eds.), Motor and sensory processes of language (pp. 17⫺51). Hillsdale, NJ: Erlbaum. Shen, J. (1993). Slips of the tongue and the syllable structure of Mandarin Chinese. In S.-C. Yau (Ed.), Essays on the Chinese language by contemporary Chinese scholars (pp. 139⫺162). Paris: Editions Langages Croise´s. Stemberger, J. P. (1992). The reliability and replicability of naturalistic speech error data: A comparison with experimentally induced errors. In B. J. Baars (Ed.), Experimental slips and human errors: Exploring the architecture of volition (pp. 195⫺ 215). New York: Plenum Press. Tent, J. & Clark, J. E. (1980). An experimental investigation into the perception of slips of the tongue. Journal of Phonetics, 8, 317⫺325. Vousden, J. I., Brown, G. D. A. & Harley, T. A. (2000). Serial control of phonology in speech production: A hierarchical model. Cognitive Psychology, 41, 101⫺175. Wells, R. (1951). Predicting slips of the tongue. Yale Scientific Magazine, 26, 9⫺30. Wilshire, C. E. (1998). Serial order in phonological encoding: an exploration of the ‘word onset effect’ using laboratory-induced errors. Cognition, 68, 143⫺166. Yoon, Y. B. & Derwing, B. L. (im Druck). The demise of the rime: Syllable structure experiments in Korean. Canadian Journal of Linguistics.
Ulrich Schade, Universität Bielefeld Thomas Berg, Universität Hamburg Uwe Laubenstein, Universität Bielefeld (Deutschland)
339
24. Prosodie
24. Prosodie 1. 2. 3.
5. 6.
Funktion der Prosodie Akustik Neuropsychologische Untersuchungen mittels ereignis- korrellierter Hirnpotentiale Neurokognitive Untersuchungen mittels bildgebender Verfahren – Lokalisierung von prosodischen Anomalien Schlussfolgerung Literatur
1.
Funktion der Prosodie
4.
Zu den herausragendsten Erscheinungsformen der menschlichen Spezies gehört zweifellos die Fähigkeit zur sprachlichen Kommunikation. Diese Art von Kommunikation ist an die Fähigkeit des Sprechens gebunden, mithin an die Fähigkeit der Enkodierung sprachlicher Information auf der Sprecherseite. Prosodische Eigenschaften stehen bei der Enkodierung im Mittelpunkt: Sprachliche Information wird mittels der drei wichtigsten prosodischen Parameter, dem Tonhöhenverlauf, der Lautheit und der Dauersteuerung speziell in einer Sprache wie dem Deutschen übertragen. Ausgehend von der Intention des Sprechers, der zugleich linguistische und pragmatische Eigenschaften adäquat zu enkodieren hat, werden diese vom Sprecher artikuliert mit dem Ergebnis, dass ein physikalisches Schallereignis produziert wird. Dieses Schallereignis ist wiederum vom Hörer bezüglich seines Informationsgehaltes zu dekodieren. Damit sind die verschiedenen Ebenen der sprachlichen Kommunikation genannt, die je nach Untersuchungsgegenstand und Fragestellung Priorität bekommen können. Intention # Artikulation # Akustik # Perzeption Abb. 24.1: Die Zustandsformen sprachlicher Kommunikation
Sprecher
Z N S
neuromuskuläre Prozesse
Artikulation
Zugleich sind die drei klassischen Gebiete phonetischer Forschung benannt -Artikulation, Akustik und Perzeption. Während des Sprechvorganges – der Artikulation – bewirken die physiologischen und biomechanischen Eigenschaften unseres Sprechapparates eine Umsetzung neuromuskulärer Aktivierung in artikulatorische Bewegungen. Das Ergebnis der dabei stattfindenden Veränderungen des Luftstromes ist ein an den Lippen abgestrahltes komplexes physikalisches Ereignis – ein Sprech- bzw. Schallsignal. Um diesen rein phonetischen Vorgang zu veranschaulichen und zugleich die Unterschiedlichkeit der Untersuchungsbereiche und der damit verbundenen variierenden Betrachtungsweisen zu verdeutlichen, wird in der folgenden Abbildung 24.2 auf den weitestgehend von der intentionalen bzw. linguistischen Ebene losgelösten Bereich der Phonetik verwiesen. Das sogenannte „signalphonetische Band“, wie es in Tillmann und Mansell (1980) und auch in PompinoMarschall (1995) vorgestellt wird, problematisiert genau denjenigen Bereich, der vordergründig für phonetische Untersuchungen relevant ist. So betrachtet, lässt sich eine Verbindung zwischen dem Zentralnervensystem (ZNS) des Sprechers und dem des Hörers herstellen. Beide bilden sozusagen die Pole sprachlicher Kommunikation. Die dazwischen liegenden Bereiche sind aufgrund ihrer Spezifität und Zuordnung zu verschiedenen Bereichen der Analyse von Sprechvorgängen nicht unmittelbar miteinander korrellierbar. Selbiges lässt sich für eine Korrelierung formal-linguistischer Kriterien mit phonetischen Messwerten im Allgemeinen sagen – phonetische Ereignisse nehmen nicht unmittelbar auf linguistische Beschreibungskriterien Bezug.
Schall
Hörer
Akustik
Gehörsorgan
Reiztransformation im Ohr
neuronale Prozesse
Abb. 24.2: Vereinfachte Darstellung des „Signalphonetischen Bandes“ (nach Pompino-Marschall, 1995)
Z N S
340 Prinzipiell sind die mittels eines Mikrophons aufgenommenen und mit entsprechenden technischen Möglichkeiten darstellbaren physikalischen Vorgänge (vgl. Oszillogramme als Darstellung des Schalldruckpegelverlaufes über die Zeit) analysierbar. Das akustische Kontinuum kann dabei in verschiedene Bestandteile dekomponiert werden (z. B. in den Grundfrequenzverlauf (F0) und die Amplitudenhülle). Hierbei stellt sich nun die Frage, welchen Platz die „Prosodie“ einnimmt. Fasst man die gängigen Ansichten über Prosodie zusammen, zeichnet sich ab, dass sowohl die Phonetik mit ihren drei klassischen Forschungsgebieten als auch die bislang noch nicht genannte Phonologie in einen Zusammenhang miteinander gebracht werden. Im Weiteren soll davon ausgegangen werden, dass die Phonologie eine relative selbstständige Ebene des Sprachsystems neben den Ebenen der Syntax und Semantik darstellt. Die phonologische Ebene verfügt über eigene Regularitäten sowie über eigene Domänen, für die spezifischen Regularitäten gelten (vgl. Prosodische Hierarchie von Nespor & Vogel, 1986). Als veranschaulichendes Beispiel möge die Domäne der Silbe gelten, die nicht unmittelbar in einen Zusammenhang mit syntaktischen Konstituenten oder semantischen Eigenschaften gebracht werden kann. Die Domäne der Silbe ist nur mittels Einbettung in einen komplexeren Zusammenhang mit syntaktischen und semantischen Eigenschaften in Verbindung zu setzen. Hierbei sei auf Korrektur oder Kontrast in Beispielen wie den folgenden verwiesen: „Bezüglich der Stadt am Bodensee heißt es nicht ‘konsTANZ’, sondern ‘KONStanz’“ (vgl. Dogil & Williams, 1999). Großbuchstaben geben die jeweils akzentuierte Silbe an. Die relevanten phonologischen Eigenschaften auf der Satzebene lassen sich mit Erscheinungen wie Satzakzent, Phrasierung etc. beschreiben. Die konkret-akustische Realisierung dieser phonologischen Eigenschaften resultieren in messbaren akustischen Parametern, wobei die wichtigsten die Grundfrequenz, die Amplitudenhülle sowie die Dauer sind. Die folgende Darstellung soll zeigen, wie phonologische Eigenschaften und deren akustische Umsetzung unter einem weit gefassten Begriff der Prosodie subsumiert werden können. Ein für das Deutsche als Intonationssprache wichtiger Faktor ist die Grundfrequenz (F0). Die Variation der F0 signalisiert die Position des Satzakzentes, den Typ
III. Sprachproduktion
eines Akzentes (steigend, fallend oder kombiniert steigend-fallend). Der Akzenttyp beispielsweise ist wichtig für die Markierung von Fokusakzenten (vgl. Uhmann, 1991; Fe´ry, 1993; Mayer, 1997). Prosodie
phonologisch
akustisch
Satzakzent Akzenttyp Phrasierung
F0-Gipfel F0-Verlauf F0-Verlauf
Abb. 24.3: Der weit gefasste Begriff der Prosodie umfasst sowohl phonologische Eigenschaften als auch akustische Korrelate, hier exemplifiziert am F0-Parameter.
Zu beachten ist allerdings, dass es nicht in jedem Fall eine eindeutige Beziehung zwischen phonologischen Eigenschaften und akustischer Realisierung gibt. Das wird deutlich am Beispiel der Grenzmarkierung von phonologischer Phrasierung. Grenzen von sogenannten Intonationsphrasen (IPh) können durch ein ganzes Bündel akustischer Parameter angezeigt werden: Intonationsphrasengrenze Grenzton
präfinale Dehnung
Pauseninsertion
Abb. 24.4: Mögliche akustische Parameter, die das Vorhandensein einer Intonationsphrasengrenze signalisieren.
Intonationsphrasen werden im Deutschen zumeist an ihrem Ende, an ihrer rechten Grenze akustisch markiert (vgl. Fe´ry, 1993). Häufig geschieht das mit Mitteln der F0-Variation. Unmittelbar am rechten Ende einer IPh können die F0-Werte hoch oder niedrig sein, womit ein hoher bzw. niedriger Grenzton angezeigt wird. So enden Aussagesätze im Deutschen mit einem tiefen Grenzton. Besteht ein Satz aus mehreren IPh, können die nichtsatzfinalen IPh-Grenzen auch mit einem hohen Grenzton signalisiert werden. Damit stellt sich eine weitere Frage: Wenn die Abbildung einer syntaktischen Struktur auf eine artikulatorische Form nicht direkt erfolgt, welche phonologischen Repräsenta-
341
24. Prosodie
tionen sind notwendig, um eine syntaktische Struktur phonologisch zu enkodieren und Vorhersagen über das Verhalten prosodischer Parameter im akustischen Sprachsignal zu treffen? Im Folgenden soll an Beispielen eine Möglichkeit der Syntax-Phonologie-Abbildung dargestellt werden. Man vergleiche zwei Sätze mit oberflächlich gleicher linearer Wortfolge, die sich jedoch in der Argumentstruktur der Infinitive „zu arbeiten“ vs. „zu entlasten“ unterscheiden. (1) [PEter]NP1 verspricht [Anna]NP2 [zu ARbeiten]infinitiv und das BÜRO]NP3 zu putzen. (2) [PEter]NP1 verspricht [ANna]NP2 [zu entlasten]infinitiv und das BÜRO]NP1 zu putzen. Abb. 24.5: Syntax-Phonologie-Abbildung
Die syntaktische Struktur in (2) erfordert ein von (1) differierendes Anbinden der zweiten Nominalphrase (NP2) „Anna“, da NP2 in Beispiel (2) das direkte Objekt des Infinitives „zu entlasten“ ist. In (1) hingegen ist NP2 das indirekte Objekt des finiten Verbs „verspricht“. Dieser Unterschied in der Argumentstruktur bezüglich NP2 wird auch in der syntaktischen Struktur beider Beispiele deutlich, auf die hier nicht näher eingegangen werden soll (vgl. Steinhauer, Alter & Friederici, 1999; Alter & Steinhauer, 1999). Ausgehend von den strukturellen Unterschieden zwischen (1) und (2), ergeben sich auch unterschiedliche Verteilungen der Akzente: in (1) ist der Infinitiv „zu arbeiten“, in (2) die NP2 „Anna“ Träger der Hauptakzentposition. Im jeweils zweiten Teilsatz erhält die NP3 „Büro“ ebenfalls einen Akzent. Zusätzlich wird die satzinitiale NP1 „Peter“ akzentuiert (vgl. Alter & Pirker, 1997). Derzeit existieren verschiedene Algorithmen zur Ableitung der Akzentpositionen aus der syntaktischen Struktur (vgl. Jacobs, 1993; Cinque, 1993; Selkirk, 1995). Auf die kontrovers geführte Diskussion zu diesen Ableitungen wird hier nicht näher eingegangen. Die akzentuier-
ten Bestandteile sind in (1/2) mit Großbuchstaben markiert. Die in (1/2) gekennzeichneten potenziellen Akzentpositionen können mit Tonsequenzen assoziiert werden (vgl. Pierrehumbert, 1980; Beckmann, 1986; Fe´ry, 1993; Mayer, 1997). Gleichzeitig können anhand der syntaktischen Struktur die Positionen von IPh-Grenzen vorhergesagt werden (vgl. Nespor & Vogel, 1986; Hirst, 1993; Selkirk, 1995). Eine mit Tonsequenzen assoziierte Struktur für (1/2) ist dann folgendermaßen vorstellbar. Die hier verwendete Notation orientiert sich an einer dem Tonsequenzansatz (vgl. Pierrehumbert, 1980) angelehnten Notationsform für das Deutsche (vgl. Reyelt, Grice, Benzmüller, Mayer & Batliner, 1996). Mittels dieser Notation können Tonverläufe beschrieben werden, wobei „L“ für „low“, „H“ für „high“ steht. Eine Sequenz wie „L ⫹ H*“ kennzeichnet einen steigenden F0-Verlauf über der akzentuierten Silbe, „H%, L%“ bezeichnen einen hohen bzw. tiefen Grenzton. Die annotierten Beispiele (1/2) sind dann wie folgt zu interpretieren: In (1) ist die NP1 „Peter“, der Infinitiv „zu arbeiten“ sowie die NP3 „Büro“ akzentuiert. Der Beispielsatz (1) ist in zwei Intonationsphrasen unterteilt, wobei die letzte Silbe des Infinitvs „zu arbeiten“ mit einem hohen Grenzton und das Satzende mit einem tiefen Grenzton assoziiert sind. In Beispiel (2) dagegen ändert sich das tonale Muster dahingehend, dass die NP2 „Anna“ und nicht der Infinitiv „zu entlasten“ akzentuiert wird. Zusätzlich dazu erfährt Beispiel (2) eine differierende Intonationsphrasierung. Unmittelbar vor dem finiten Verb „verspricht“ wird eine zusätzliche IPh-Grenze mit dem entsprechenden hohen Grenzton eingefügt, alle anderen IPh-Grenzen befinden sich an den gleichen Positionen wie in (1). Für alternative strukturelle Darstellungen, die auf Analysen von Aufnahmen mit gesunden, untrainierten Sprechern und auch Patienten mit Hirnschädigungen beruhen, sei auf Alter, Steinhauer und Friederici (1998) sowie Schirmer (1999) verwiesen.
(1) LⴙH* LⴙH* H% LⴙH* L% (PEter verspricht Anna zu ARbeiten)IPh (und das BüRO zu putzen)Iph (2) LⴙH* H% LⴙH* H% LⴙH* L% (PEter verspricht)IPh (ANna zu entlasten)IPh (und das BüRO zu putzen)Iph Abb. 24.6: Tonverläufe nach dem Tonsequenzansatz
342
2.
III. Sprachproduktion
Akustik
Gemäß der syntaktischen Struktur der Beispiele (1) und (2) wurden jeweils 48 Sätze konstruiert und von einer trainierten Sprecherin eingesprochen. Die Sprachsignale wurden anschließend digitalisiert und einer exhaustiven akustischen Analyse unterzogen. In der folgenden Darstellung sind die F0Mittelwerte über alle jeweils 48 Sätze für die Beispiele (1/2) aufgeführt. Zu erkennen ist, dass die Vorhersagen für die Akzentpositionen, Akzenttypen und für die Grenztöne mit dem F0-Verlauf korrelieren. Hier nicht dargestellt ist die Dauerstruktur der einzelnen Konstituenten (vgl. Steinhauer et al., 1999). Die Dauerstruktur zeigt zusätzlich zum Grenzton eine signifikante präfinale Dehnung für (2) für das Verb „verspricht“, gefolgt von einer deutlichen Pauseninsertion, Effekte, die an selbiger Position in (1) nicht zu beobachten waren. Daraus kann geschlussfolgert werden, dass in (2) unmittelbar hinter „verspricht“ tatsächlich eine zusätzliche IPh-Grenze vorhanden ist. Die hier analysierten Sprachdaten einer Sprecherin verweisen darauf, dass das in Abildung 4 genannte Bündel der Möglichkeiten zur akustischen Markierung von IPh-Grenzen vollständig umgesetzt wurde. Zusammenfassend ist festzustellen, dass bezüglich der aus der syntaktischen Struktur
ableitbaren phonologischen Eigenschaften für potenzielle Akzentpositionen, Akzenttypen sowie IPh-Grenzen und deren tonaler Beschreibung eindeutige Korrelate im akustischen Sprachsignal existieren. Die in den Beispielen (1/2) zugrundeliegende syntaktische Struktur ist somit aus prosodischer Sicht optimal realisiert worden. Die daran anzuschließende Frage ist, ob sich die hier dargestellten voneinander abweichenden Strukturen bei ihrer Verarbeitung auch in unterschiedlichen neuronalen Prozessen widerspiegeln. Zu diesem Zweck werden im Weiteren psycholinguistisch orientierte Studien mit dem oben diskutierten Material vorgestellt. Ein exzellenter Überblick über psycholinguistische Studien zu zahlreichen Aspekten der Prosodieverarbeitung wird in Cutler, Dahan und van Donselaar (1997) gegeben. Die Fragestellung nach der Lokalisierung der Verarbeitung prosodischer Parameter im menschlichen Gehirn (vgl. Baum & Pell, 1999) verdeutlicht jedoch, dass bis dato noch ein wissenschaftliches Defizit bezüglich der neuronalen Mechanismen bei prosodischer Verarbeitung existiert. Im Weiteren sollen daher zwei Untersuchungen vorgestellt werden, die ein Fenster zur neuronalen Verarbeitung von Prosodie, speziell des F0-Parameters, auf der Satzebene anhand der o. g. Beispiele öffnen.
Abb. 24.7: Die mittleren F0-Werte mit den dazugehörigen Zeitwerten für jeweils 48 Sätze der Beispiele (1) und (2). Nur in Beispiel (2) gibt es eine zusätzliche tonale Markierung einer IPh-Grenze. In (1) ist der Infinitiv „zu arbeiten“, in (2) die NP2 „Anna“ mit einem tonal ansteigenden Akzent realisiert.
24. Prosodie
3.
Neuropsychologische Untersuchungen mittels ereigniskorrellierter Hirnpotentiale
In einer kürzlich publizierten Studie konnte mittels ereigniskorrelierter Hirnpotentiale (EKP) gezeigt werden, dass Intonationsphrasen eine entscheidende Rolle bei der Satzverarbeitung spielen (Steinhauer et al., 1999). Jeweils 48 Sätze der Beispiele (1) und (2) wurden auditorisch 40 Versuchspersonen präsentiert, die die Aufgabe hatten, zu 20 % aller dargebotenen Sätze eine Inhaltsfrage zu beantworten. Das Resultat dieser Untersuchung zeigte ein spezifisches Muster im EKP in Form einer signifikanten Positivierung exakt an den Positionen in den Beispielsätzen, an denen satzinterne IPh-Grenzen im akustischen Signal auftraten. Diese Positivierung wurde als Closure Positive Shift (CPS) bezeichnet. Wie oben bereits diskutiert, kommt in Beispiel (1) eine satzinterne IPhGrenze vor, während in Beispiel (2) zwei satz-
343 interne IPh-Grenzen auftreten. In Abbildung 24.8 werden anhand des EKP-Verlaufs über den gesamten Satz an der parietozentralen Elektrode gemittelt über 40 Versuchspersonen die Positionen der CPS gezeigt. In Beispiel (1) tritt nur ein CPS nach dem Infinitv „zu arbeiten“ auf, in Beispiel (2) dagegen treten 2 CPS auf – einer nach dem Verb „verspricht“ und ein weiterer nach dem Infintiv „zu entlasten“. In diese Studie wurde eine weitere experimentelle Bedingung aufgenommen. In Beispiel (3) wurde die Prosodie des Satzes derart verändert, dass aus Beispiel (2) ein Teil des akustischen Sprachsignals bis unmittelbar vor dem Infinitivmarker „zu“ extrahiert wurde und mit dem Teil des akustischen Sprachsignals ab „zu“ aus Beispiel (1) kombiniert wurde (vgl. Abbildung 24.9). Daraus resultiert eine prosodische Verletzung derart, dass der Hörer durch die IPhMarkierung nach „verspricht“ und die Akzentuierung von NP2 „Anna“ erwartet, dass
Abb. 24.8: Mittelung der ereigniskorrelierten Hirnpotentiale aus zwei Experimenten (n ⫽ 40). Die Konstituentenlängen der jeweils 48 Beispielsätze (1) und (2) sind mit der Zeitachse synchronisiert (vgl. Steinhauer et al., 1999). Beide Bedingungen (1) und (2) zeigen den Closure Positive Shift an der entsprechenden IPh-Grenze.
344
III. Sprachproduktion (3) LⴙH* H% LⴙH* LⴙH* H% LⴙH* L% (PEter verspricht)IPh (ANna zu ARbeiten)IPh (und das BüRO zu putzen)Iph Abb. 24.9: Veränderter Tonverlauf mit prosodischer Verletzung
ein transitiver Infinitiv vom Typ „zu entlasten“ folgt. Der Hörer wird dabei bis zur Verarbeitung des Infinitivs „zu arbeiten“ auf den Holzweg geführt und wird während der Integration des Infinitivs zu einer Reanalyse des Satzes veranlasst. Die elektrophysiologische Reaktion von 20 Versuchspersonen beim Verarbeiten dieser prosodisch inkorrekten Sätze zeigt, wie in Abbildung 24.10 dargestellt, ein biphasisches Muster einer N400, gefolgt von einer P600. Dieses Muster wird dahingehend interpretiert, dass die N400 hörerseitige Probleme bei der semantischen Integration anzeigt. Die folgende P600 reflektiert die vom Hörer vollzogene Reanalyse der prosodisch inadäquaten Information.
Abb. 24.10: Mittelung der Ereigniskorrelierten Hirnpotentiale für 20 Versuchspersonen vom Zeitpunkt des Beginns des Infinitives „zu arbeiten/zu entlasten“ für die prosodisch korrekte Bedingung (2) im Vergleich zur prosodisch inkorrekten Bedingung (3) an der parietozentralen Elektrode.
Festzuhalten ist, dass bei der auditorischen Verarbeitung die Prosodie eine vermittelnde Rolle spielt. Syntaktische und semantische Eigenschaften werden phonologisch enkodiert und vom Sprecher entsprechend artikuliert. Prosodische Eigenschaften wie Tonhöhenverläufe lassen sich im akustischen Sprachsignal detektieren und mit phonologischen Eigenschaften korrelieren. Dies wurde hier am Beispiel von Akzentpositionen und Intonationsphrasen demonstriert. Bei der Verarbeitung von prosodischen Informationen dient die Intonationsphrasierung und die Akzentuierung dazu, den syn-
taktischen und semantischen Gehalt von Sätzen zu interpretieren. Ist die prosodische Information nicht korrekt, wird dies vom Hörer sofort wahrgenommen.
4.
Neurokognitive Untersuchungen mittels bildgebender Verfahren – Lokalisierung von prosodischen Anomalien
Für eine Intonationssprache wie das Deutsche löst die Verletzung des F0-Parameters und mithin die Anomalie eines der wichtigsten prosodischen Parameter spezifische Verarbeitungsprozesse aus. Wird dem F0-Verlauf – ein wichtiger Parameter für die Markierung von Akzentposition, Akzenttyp und teilweise für die Grenzmarkierung – seine Variation entzogen, indem die F0-Kontur mittels Resynthese verflacht wird, ist der Hörer gezwungen, die nun fehlende Information aus den verbleibenden prosodischen Parametern zu rekapitulieren. In einer bildgebenden Studie mittels funktioneller Magnet-Resonanz-Tomographie konnte gezeigt werden, dass eine derartige prosodische Anomalie mit einer Erhöhung der Hirnaktivität einhergeht. In dieser Studie wurden 12 Versuchspersonen u. a. je 36 Sätze der Beipiele (1/2) mit der ursprünglichen, korrekten Prosodie und auch mit einer künstlich verflachten F0-Kontur dargeboten (vgl. Steinhauer, Alter, Meyer, Friederici & von Cramon, 1999; Alter, Meyer, Steinhauer, Friederici & von Cramon, 1999).
Bedingung 4: korrekte Prosodie
Bedingung 5: verflachte F0-Kontur
Abb. 24.11: Horizontalansicht der linken und rechten Hemisphäre bei der Verarbeitung von korrekter Satzprosodie (links) und bei verflachtem F0Verlauf (rechts) gemittelt über 12 Versuchspersonen.
24. Prosodie
In Abbildung 24.11 wird deutlich, dass die Verarbeitung einer solchen Anomalie mit einer deutlichen Zunahme in den bilateralen dorso-frontalen Hirnarealen einhergeht. Zusätzlich erhöht sich bei verflachter F0-Kontur die Aktivierung (siehe Bedingung 5) in den temporalen Arealen.
5.
Schlussfolgerung
Die Intonationsphrasierung steuert die Verarbeitung von Sätzen. Sind die prosodischen Parameter, insbesondere die F0 nicht optimal realisiert, sei es durch eine inkorrekte Intonationsphrasierung und falsche Akzentuierung oder durch das gänzliche Ausbleiben von F0Variation, ist der Hörer gezwungen, zusätzlichen Aufwand zu leisten. Dies verdeutlichen die Daten der oben beschriebenen EKP-Studie in Form des biphasischen N400-P600 Musters sowie die Aktivierung zusätzlicher Hirnareale bei der Verarbeitung von verflachten F0-Verläufen in der hier beschriebenen fMRT-Studie.
6.
Literatur
Alter, Kai, Meyer, Martin, Steinhauer, Karsten, Friederici, Angela D. & von Cramon, Yves D. (2002). Brain responses related to prosodic information in natural speech: An event-related fMRI study. Proceedings of the 34th Colloquium of Linguistiks (FASK’99) Sprachwissenschaft auf dem Weg in das dritte Jahrtausend Teil II: Sprache, Computer, Gesellschaft, Reinhard Rapp (Hrsg.) 21⫺26. Alter, Kai & Pirker, Hannes (1997). On the specification of sentence initial F0-patterns in German. In A. Bolinis, G. Kouroupetroglou & G. Carayannis (Eds.), Proceedings of the ESCA workshop ‘Intonation: Theory, models and applications’ (25⫺29), Athens: University of Athens. Alter, Kai & Steinhauer, Karsten (2000). When the brain meets prosody. Linguistische Arbeitsberichte, 74, 9⫺24. Alter, Kai, Steinhauer, Karsten & Friederici, Angela D. (1998). De-accentuation: Linguistic environments and prosodic realizations. Proceedings of the 5th International Conference on Spoken Language Processing, CD-ROM, Sydney: Causal Productions, 258. Baum, Shari R. & Pell, Marc D. (1999). Neural bases of prosody: Insights from lesion studies and neuroimaging. Aphasiology, 13, 581⫺608.
345 Beckmann, Mary E. (1986). Stress and non-stress accent (Netherlands Phonetic Archives, Vol. 7). Dordrecht: Floris. Cinque, Guiliemo 1993: A null theory of phrase and compound stress. Linguistic Inquiry, 24, 239⫺ 298. Cutler, Anne, Dahan, Delphine & van Donselaar, W. (1997). Prosody in the comprehension of spoken language: A literature review. Language and Speech, 40, 141⫺201. Dogil, Grzegorz & Williams, B. (1999). The phonetic manifestation of word stress. In Harry v. d. Hulst (Ed.), Word prosodic systems in the languages of Europe (pp. 273⫺334). New York: de Gruyter. Fe´ry, Cardine (1993). German intonational patterns. Tübingen: Niemeyer. Hirst, Daniel (1993). Peak, boundary and cohesion characteristics of prosodic grouping. In David House & Pierre Touati (Eds.), ESCA Workshop on prosody (pp. 32⫺37). Lund: Lund-University Press. Jacobs, Joachim (1993). Integration. In M. Reis (Hrsg.), Wortstellung und Informationsstruktur (pp. 63⫺116). Tübingen: Niemeyer. Mayer, Jörg (1997). Intonation und Bedeutung. Aspekte der Prosodie-Semantik-Schnittstelle im Deutschen (Dissertation). Arbeitspapiere des Instituts für Maschinelle Sprachverarbeitung/Phonetik (Phonetik-AIMS), 3 (4). Universität Stuttgart. Nespor, Marina & Vogel, Irene (1986). Prosodic phonology. Dordrecht: Foris. Pierrehumbert, Janet (1980). The phonology and phonetics of English intonation (Doctoral dissertation). Cambridge, MA: The MIT Press. Pompino-Marschall, Bernd (1995). Einführung in die Phonetik. Berlin, New York: de Gruyter. Reyelt, Matthias, Grice, Martine, Benzmüller, Ralf, Mayer, Jörg & Batliner, Anton (1996). Prosodische Etikettierung des Deutschen mit ToBI. In Dafydd Gibbon (Ed.), Natural Language Processing and Speech Technology (pp. 144⫺155), Berlin: Mouton de Gruyter. Schirmer, Annett (1999). Prosodie und Hemisphärenasymmetrie: Eine Untersuchung prosodischer Sprachproduktionsleistungen bei Patienten mit Hirnschädigung (Diplomarbeit). Universität Leipzig. Selkirk, Elisabeth (1995). Sentence prosody: Intonation, stress, and phrasing. In John A. Goldsmith (Ed.), The Handbook of Phonological Theory (pp. 550⫺569). Oxford: Blackwell. Steinhauer, Karsten, Alter, Kai & Friederici, Angela D. (1999). Brain potentials indicate immediate
346
III. Sprachproduktion
use of prosodic cues in natural speech processing. Nature Neuroscience, 2, 191⫺196.
sprachlicher Klett-Cotta.
Steinhauer, Karsten, Alter, Kai, Meyer, Martin, Friederici, Angela D. & von Cramon, D. Y. (1999). Brain activation related to prosodic processing in natural speech: An event-related fMRI study. Journal of Cognitive Neuroscience, Supplement, 54.
Uhmann, Susanne (1991). Fokusphonologie. Eine Analyse deutscher Intonationskonturen im Rahmen der nicht-linearen Phonologie. Tübingen: Niemeyer.
Tillmann, Hans G. & Mansell, P. (1980). Phonetik: Lautsprachliche Zeichen, Sprachsignale und laut-
Kommunikationsprozeß.
Stuttgart:
Kai Alter Max-Planck-Institut für neuropsychologische Forschung, Leipzig (Deutschland)
25. Die phonologische Realisierung 1. 2. 3. 4. 5. 6. 7. 8.
Einleitung Morphologische Kodierung Die segmentale Struktur Die metrische Struktur Das Zusammenführen der metrischen und segmentalen Information Phonetische Kodierung Zusammenfassung Literatur
1.
Einleitung
Das vorliegende Kapitel behandelt die phonologische Realisierung von Wörtern. Die meisten Modelle der Sprachproduktion nehmen an, dass ein Sprecher („Sprecher“ ist als Abkürzung für „Sprecher“ oder „Sprecherin“ zu verstehen) bei der Planung eines Wortes zunächst bestimmt, welches Konzept realisert werden soll und die entsprechende semantisch-syntaktische Worteinheit (das Lemma) im mentalen Lexikon aufsucht. In einem weiteren Planungsschritt wird die phonologische Form des Wortes aufgebaut (z. B. Dell, 1986; Dell et al., 1997; Levelt, Roelofs & Meyer, 1998; siehe aber Caramazza, 1997; Caramazza & Miozzo, 1997). Eine Beobachtung, die die Unterscheidung von Lemmas und Wortformen stützt, ist das Auftreten sogenannter TOT-Zustände („tip-of-the-tongue“; „es-liegt-mir-auf-der-Zunge“). Ein Sprecher im TOT-Zustand ist sicher, ein bestimmtes Wort zu kennen, kennt auch seine syntaktischen Eigenschaften, kann aber die phonologische Form vorübergehend nicht oder nicht vollständig abrufen (z. B. Vigliocco, Antonini & Garrett, 1997). Dies zeigt, dass Lemma und Form eines Wortes keine Einheit bilden, sondern voneinander trennbar sind. Serielle Modelle der Sprachproduktion (z. B. Levelt, Roelofs & Meyer, 1999) nehmen
an, dass Sprecher zunächst ein Lemma auswählen und nur zu diesem die phonologische Form abrufen. Dagegen nehmen Kaskadenmodelle zeitlich überlappende Verarbeitungsschritte an (z. B. Dell et al., 1997; Humphreys, Riddoch & Quinlan, 1988; MacKay, 1987). Dies bedeutet, dass bei der Planung eines Wortes mehrere Lemmas und die entsprechenden Wortformen gleichzeitig aktiviert sein können und dass Rückkopplung von der Wortformebene zur semantisch/syntaktischen Ebene möglich ist. Die Unterschiede zwischen diesen Modelltypen und die relevanten Untersuchungsbefunde können hier nicht dargestellt werden (siehe aber Kapitel 15). Die angenommene Ausgangssituation für die folgende Darstellung ist, dass der Sprecher ein einziges Lemma oder eine Gruppe von Lemmas, die einem morphologisch komplexen Wort entsprechen, ausgewählt hat. Besprochen wird, wie die zugehörige Wortform abgerufen wird. Dieser Prozess kann in vier Komponenten unterteilt werden: die morphologische, segmentale und metrische Kodierung sowie das Zusammenführen segmentaler und metrischer Information. Das Ergebnis dieser Prozesse ist eine abstrakte phonologische Repräsentation. Sie ist die Eingabe für phonetische Kodierungsprozesse. Diese erstellen eine detailliertere kontextabhängige Formrepräsentation, die die Artikulationsziele für die Aussprache des Wortes bestimmt.
2.
Morphologische Kodierung
Der erste Schritt bei der phonologischen Kodierung ist der Abruf morphologischer Information. Für viele monomorphemische Wörter (z. B. für Gabel, Hund) wird zu einem ein-
347
25. Die phonologische Realisierung
zigen Lemma ein einziges Morphem abgerufen. Die morphologische Struktur anderer Wörter wird durch ein Lemma und ein oder mehrere diakritische Merkmale (z. B. Plural, Vergangenheit) bestimmt. In manchen dieser Fälle (z. B. für die Vergangenheitsformen regelmäßiger Verben wie verkauften, heulte) werden mehrere Morpheme abgerufen. In anderen Fällen (z. B. für die Vergangenheitsformen unregelmäßiger Verben wie ging) entsprechen ein Lemma und seine diakritischen Merkmale einem einzigen Morphem. Derivationen (wie Kindergarten und Ärgernis) haben eigene lexikalische Konzepte und Lemmas und entsprechen mehreren Morphemen. Wie lässt sich die Annahme morphologischer Einheiten im Produktionslexikon begründen? Ein erster Grund für diese Annahme ist, dass die Silbenbildung von der morphologischen Struktur der Wörter beeinflusst wird. Silben sind metrische Einheiten; sie können betont oder unbetont sein (Nespor & Vogel, 1986). Jede Silbe hat einen vokalischen Nukleus und kann außerdem prävokalische Onsetkonsonanten und postvokalische Codakonsonanten beinhalten. Bei der Silbenbildung werden Konsonanten vorzugsweise einem Onset zugeordnet; daher ergibt sich Di.rektor und nicht Dir.ektor. Allerdings werden bei der Silbenbildung bestimmte morphologische Grenzen respektiert; wir sagen zum Beispiel ver.edeln und nicht ve.redeln. Dies zeigt, dass die morphologische Struktur bei der Silbenbildung zugänglich sein muss. Ein weiterer Grund für die Annahme morphologischer Einheiten ergibt sich aus der Analyse spontan auftretender und experimentell induzierter Versprecher (z. B. hast Du den Putz- geeimert?), die sich am besten als Morphemfehler analysieren lassen (Cutler, 1980; Pillon, 1998). Drittens hat Roelofs (1996) in Wortproduktionsexperimenten gezeigt, dass ein phonologisch ähnlicher Prime, der einem Morphem des Zielwortes entspricht (z. B. /bei/ in Beifall), einen stärkeren Erleichterungseffekt (relativ zu einem unähnlichen Prime) erzeugt als ein gleich langer Prime, der lediglich einer Silbe des Zielwortes entspricht (z. B. /bei/ in Beize). Schließlich können Sprecher Wörter, die in der Sprache häufig auftreten, besser und schneller abrufen als weniger häufige Wörter (Oldfield & Wingfield, 1965; Snodgrass & Yuditsky, 1996). Studien zur Produktion von Homophonen haben gezeigt, dass dieser Worthäufigkeitseffekt auf der Morphemebene anzusiedeln ist (Dell, 1990; Jescheniak & Levelt, 1994). Ho-
mophone (Bank (Sitzmöbel, Geldinstitut)) haben getrennte lexikalische Konzepte und Lemmas, aber ein gemeinsames Morphem. Die Fehlerhäufigkeiten und Sprechlatenzen für Homophone werden durch die Auftretenshäufigkeit der Morpheme, nicht der Lemmas bestimmt, was die Trennung von Lemmas und Morphemen stützt. All diese Belege weisen also darauf hin, dass die morphologische Struktur der Wörter im Lexikon des Sprechers repräsentiert ist. Die bereits erwähnten Experimente von Roelofs (1996) zeigen, dass bei der Planung morphologisch komplexer Wörter die Morpheme nacheinander, entsprechend ihrer Reihenfolge im Wort, abgerufen werden.
3.
Die segmentale Struktur
Auf den Aufbau der morphologischen Struktur folgt die phonologische Kodierung. Während dieses Prozesses werden die phonologischen Segmente des Wortes abgerufen. Dass Wortformen nicht als Ganze abgerufen, sondern aus individuellen Segmenten aufgebaut werden, zeigt sich in dem häufigen Auftreten von Segmentfehlern wie guten Gorgen. Solche Fehler sind weit häufiger als Wortfehler. Wenn Wortformen als Ganze zur Aussprache gebracht würden, sollten sie aber gar nicht auftreten. Schätzungsweise 60 bis 90 % aller sublexikalen Fehler betreffen einzelne Segmente (Boomer & Laver, 1968; Fromkin, 1971; Nooteboom, 1973; Shattuck-Hufnagel, 1979; 1983), was den Status von Segmenten (im Vergleich zu Silben, Halbsilben und phonologischen Merkmalen) als Verarbeitungseinheiten belegt. Die meisten Segmentfehler lassen sich nicht als artikulatorische Fehler ansehen, weil ihr Ergebnis den phonotaktischen Regeln der Sprache entspricht. Eine vielzitierte Beobachtung für das Englische, die die phonotaktische Wohlgeformtheit von Segmentfehlern illustriert, ist, dass bei Vokalzu-Konsonantveränderungen am Wortanfang der vorangehende unbestimmte Artikel entsprechend angepasst wird, wie etwa in a meeting arathon (statt an eating marathon; Fromkin, 1971). Dies stützt die Annahme, dass die Zerlegung in Segmente ein relativ früher phonologischer Prozess ist, dem phonetische Anpassungsprozesse folgen. In etwa 10 % der Lautfehler sind zwei Segmente, meistens Konsonantengruppen am Wortanfang (z. B. /st/ oder /br/), betroffen (Berg, 1989; Dell, 1986). Fehler, in denen
348
III. Sprachproduktion
zwei nicht benachbarte Segmente gleichzeitig gegen andere ausgetauscht werden, treten dagegen so gut wie nie auf. Demnach muss man neben einzelnen Segmenten auch Einheiten annehmen, die bestimmte Konsonantengruppen als Ganze repräsentieren. Fehler, die einzelne phonologische Merkmale betreffen, wie etwa Wenn das Gremskabel ⫺ Bremskabel an ’n Strom kommt (Berg, 1985: 911) sind selten; sie machen höchstens 5 % aller sublexikalischen Fehler aus (Berg, 1989; Shattuck-Hufnagel, 1983). Trotzdem muss die Merkmalsstruktur der Segmente repräsentiert sein, denn in Segmentfehlern sind die geplanten und geäußerten Segmente einander viel ähnlicher, teilen also mehr Merkmale, als auf der Grundlage von Zufallsschätzungen zu erwarten wäre (Berg, 1991; Fromkin, 1971; Garcı´aAlbea, del Viso & Igoa, 1989; Garrett, 1975; Nooteboom, 1973; Stemberger, 1991a, b). Die Repräsentation phonologischer Merkmale ist auch aus theoretischen Gründen zu fordern, weil spätere Kodierungsprozesse, etwa die Silbenbildung und die Anwendung phonologischer Regeln zum Aufbau verbundener Sprache, auf diese Information zurückgreifen.
4.
Die metrische Struktur
Nach den meisten Theorien der phonologischen Kodierung wird neben der segmentalen Struktur der Wörter auch ihre metrische Struktur aus dem Lexikon abgerufen. Diese bestimmt das Betonungsmuster der Wörter, ihre Gliederung in Silben und die innere Struktur der Silben. Das Betonungsmuster muss zumindest für einen Teil der Wörter des Deutschen (und vieler anderer Sprachen) im Lexikon gespeichert sein, weil es sich nicht zuverlässig aus der segmentalen Struktur ableiten lässt. Die meisten Autoren nehmen an, dass das Betonungsmuster Teil aller Lexikoneinträge ist. Allerdings gibt es Grundbetonungsregeln, nach denen die meisten Inhaltswörter betont werden. Im Deutschen wie im Englischen und Niederländischen wird zumeist die erste Silbe mit Vollvokal betont (Cutler & Norris, 1988, für das Englische). Levelt et al. (1999) schlugen daher vor, dass nur die Lexikoneinträge der Wörter, die von der Grundregel abweichen, eine Spezifikation der Betonung beinhalten. Für die übrigen Wörter wird das Betonungsmuster während des Sprechplanungsprozesses aus der segmentalen Struktur abgeleitet.
Das Hauptargument für die Annahme von gespeicherten Silben und Silbenkonstituenten ist, dass in Versprechern fehlplatzierte Segmente nahezu immer von ihren ursprünglichen Silbenpositionen zu entsprechenden Positionen in anderen Silben wandern. In Kann die Spanne ⫺ Pfanne in die Spülmaschine betrifft der Fehler zum Beispiel zwei Segmente in Silbenanlautpositionen, und in aus eigener Kroft konnte er ja nicht betrifft er zwei Segmente in Nukleusposition (beide Beispiele aus Wiedenmann, 1995: 15). Dies legt nahe, dass die Silbenpositionen in metrischen Rahmen spezifiziert sind, die unabhängig von den Segmenten abgerufen werden, und dass die Segmente hinsichtlich der Positionen, die sie einnehmen können, markiert sind (Dell, 1986). Shattuck-Hufnagel (1987, 1992; siehe auch Wilshire, 1998) hat allerdings darauf hingewiesen, dass es sich bei den Belegen für den Silbenpositionseffekt im Englischen zu etwa 80 % um Wortanlautfehler handelt. Konsonantenfehler in anderen Wortpositionen treten zu selten auf, um zu bestimmen, ob sie einer Wort- oder Silbenpositionsbeschränkung unterliegen. Vokale behalten zwar nahezu immer die Nukleuspositionen bei, aber das kann daran liegen, dass in Versprechern, wie oben schon erwähnt, meistens phonologisch ähnliche Segmente miteinander interagieren, die in homologen Silbenpositionen stehen. Bergs (1988) Analysen eines deutschen Versprechercorpus bestätigen, dass Segmente im Wortanlaut häufiger fehlplatziert werden als Segmente in anderen Wortpositionen und dass sie bevorzugt neue Wortanlautpositionen einnehmen. Zusätzlich fand Berg, dass wortinterne Fehler viel häufiger Silbenanlautals Ablautpositionen betrafen. Garcı´a-Albea, del Viso und Igoa (1989) fanden, dass in ihrem spanischen Corpus Segmentfehler häufiger wortintern als am Wortanfang auftraten, was das spanische Corpus von den englischund deutschsprachigen Corpora unterscheidet. Weiter fanden sie, dass fehlplatzierte Silbenanlaute nahezu immer zu neuen Silbenanlautpositionen wanderten. Diese Beobachtungen sprechen für die Annahme einer Silbenpositions-, statt einer Wortpositionsbeschränkung, und damit für die Annahme von metrischen Rahmen, in denen Silbenpositionen spezifiziert sind. Allerdings bleibt noch zu klären, ob die Beschränkung nicht auch durch Rückgriff auf die phonologische Ähnlichkeit der beteiligten Segmente zu erklären ist.
25. Die phonologische Realisierung
Manche Modelle nehmen an, dass in Lexikoneinträgen die CV-Struktur der Wörter festgelegt ist (Dell, 1988; Sevald, Dell & Cole, 1995; Stemberger, 1990). CV-Strukturen bestimmen die Abfolge konsonantischer (C) und vokalischer (V) Segmente und ihre phonologische Länge; ein langer Vokal wird an zwei V-Positionen und ein kurzer an eine gebunden (Goldsmith, 1990). Stemberger (1990) berichtet, dass in einigen (aber nicht in allen) seiner Versprecheranalysen die an Segmentvertauschungen beteiligten Wortpaare (also das Wort, aus dem ein fehlplatziertes Segment stammte, und seine neue Bestimmung) sich bezüglich ihrer CV-Struktur ähnlicher waren als auf der Basis von Zufallsschätzungen zu erwarten gewesen wäre. Priming-Experimente zur Repräsentation der CVStruktur im Niederländischen und Spanischen lieferten uneinheitliche Befunde (Costa & Sebastian-Galle´s, 1998; Meijer, 1996; Roelofs & Meyer, 1998). Sevald, Dell und Cole (1995) fanden dagegen klare Belege für die Repräsentation der CV-Struktur im Englischen. Sie bestimmten, wie häufig Sprecher Pseudowortpaare (z. B. tem ⫺ kil.fer) innerhalb einer bestimmten Zeitspanne aussprechen konnten. Sie fanden, dass die Sprechgeschwindigkeit höher war, wenn die erste und zweite Silbe (tem und kil im Beispiel) dieselbe CV-Struktur hatten, als wenn sie sich in der CV-Struktur unterschieden (wie in tem ⫺ kilf.ner). Dies zeigt, dass die CV-Struktur von Wörtern in irgendeiner Weise repräsentiert sein muss. Allerdings ist damit nicht bewiesen, dass sie Teil des metrischen Rahmens eines Wortes ist. Der beobachtete Effekt könnte auch daher stammen, dass Wörter mit derselben CVStruktur nach denselben Regeln syllabifiziert werden, oder er könnte während des phonetischen Kodierens oder der artikulatorischen Vorbereitung entstehen. Somit lässt sich nur feststellen, dass der konsonantische oder vokalische Charakter von Segmenten sowie ihre Reihenfolge und Länge repräsentiert sein müssen. Ob diese Information in einer von anderen phonologischen Merkmalen getrennten Repräsentationsebene gespeichert ist, ist ungeklärt.
5.
Das Zusammenführen der metrischen und segmentalen Information
Wenn die segmentalen und metrischen Eigenschaften von Wörtern zunächst unabhängig voneinander abgerufen werden, muss erklärt
349 werden, wie sie zu einer einheitlichen phonologischen Repräsentation zusammengeführt werden. Naturgemäß hängen die Annahmen dazu eng mit denen über die metrischen und segmentalen Einheiten zusammen. Dell (1986) nahm z. B. an, dass Segmente hinsichtlich ihrer Silbenpositionen markiert sind und dass die Segmente einer Silbe parallel aktiviert und an ihre Silbenpositionen gebunden werden. Die Segmente aufeinander folgender Silben werden nach dem Modell nacheinander aktiviert. Nach den meisten neueren Modellen des phonologischen Kodierens können die Segmente eines Wortes gleichzeitig oder in beliebiger Reihenfolge aktiviert werden, aber ihre Anbindung an Positionen in metrischen Rahmen ist ein sequentieller Prozess, der vom Wortanfang zum Ende fortschreitet (z. B. Levelt, Roelofs & Meyer, 1999; Sevald & Dell, 1984; Roelofs, 1997). Belege für die Annahme, dass Segmente in beliebiger Reihenfolge aktiviert werden können, stammen aus Priming-Experimenten. Meyer und Schriefers (1991) verwendeten zum Beispiel das Bild-Wort-Interferenz-Paradigma. Die Versuchspersonen mussten so schnell wie möglich Bilder einfacher Objekte benennen. Gleichzeitig hörten sie Störwörter. Die Objekte wurden schneller benannt, wenn die Störwörter ihren Namen phonologisch ähnlich waren, als wenn sie ihnen unähnlich waren. Dies galt sowohl, wenn Bildname und Störwort mit den gleichen Segmenten begannen (wie in Haut-Haus) als auch, wenn sie sich reimten (wie in Maus-Haus). Vergleichbare Ergebnisse fanden Collins und Ellis (1992). Belege dafür, dass die Anbindung von Segmenten an Silbenpositionen sequentiell ist, stammen unter anderem aus sogenannten „impliziten Priming“-Experimenten (Meyer, 1990, 1991; Roelofs & Meyer, 1998). In solchen Experimenten produzieren die Teilnehmer wiederholt bestimmte Zielwörter. Vor Beginn einiger Testblöcke erhalten sie Information über die phonologische Form der Zielwörter. Sie wissen dann z. B., dass alle Wörter des folgenden Testblocks in einer bestimmten Silbe (z. B. /mer/) beginnen oder enden. Es zeigt sich, dass Sprecher nur Vorinformation über den Anfang, aber nicht über das Ende der Wörter zur Vorbereitung ihrer Äußerungen nutzen können. Sie erstellen offenbar eine partielle phonologische Repräsentation des Zielwortes, in der die konstanten Segmente bereits an Silbenpositionen gebunden sind. Diese Repräsentation kann nur
350 vom Wortanfang an beginnend aufgebaut werden. Weitere Befunde, die die Sequentialitätsannahme stützen, stammen aus Experimenten, in denen Versuchspersonen ihre innere Sprache auf das Vorkommen bestimmter Segmente hin überwachten (Wheeldon & Levelt, 1995). Die Entdeckungszeiten für Segmente in verschiedenen Wortpositionen zeigten, dass die Segmente nacheinander, entsprechend ihrer Reihenfolge im Wort, verfügbar wurden, wobei beim Überschreiten einer Silbengrenze extra Verarbeitungszeit erforderlich war (siehe auch van Turennout, Hagoort & Brown, 1997). Schließlich stützen auch Analysen von induzierten Versprechern die Sequentialitätsannahme (Sevald & Dell, 1994). Die Sequentialitätsannahme sagt vorher, dass die Sprechlatenzen für lange Wörter länger sein sollten als für kurze, vorausgesetzt der Sprecher plant das ganze Wort, bevor er mit der Aussprache beginnt. Die Ergebnisse einiger älterer Untersuchungen entsprechen dieser Vorhersage (Eriksen, Pollock & Montague, 1970; Klapp, Anderson & Berrian, 1973), aber Bachoud-Le´vi et al. (1998) fanden in Wortproduktionsexperimenten mit englischen und französischen Sprechern keinen Wortlängeneffekt. Dies könnte allerdings daran liegen, dass die Sprecher zu sprechen begannen, bevor sie das ganze Wort geplant hatten (zur Diskussion der Kriterien für den Einsatz der Artikulation siehe Kawamoto et al., 1998; Schriefers & Teruel, 1999; Wheeldon & Lahiri, 1997). Insgesamt kann die Sequentialitätsannahme also als gut gesichert angesehen werden. Wie dargestellt, nehmen die meisten Modelle an, dass Sprecher erst aus dem Lexikon Segmente und metrische Rahmen abrufen und dann den Segmenten Positionen in den Rahmen zuweisen. Eine Ausnahme bildet das Modell von Levelt, Roelofs und Meyer (1999). Sie wiesen darauf hin, dass die Zuordnung von Segmenten zu Silben immer aus der segmentalen Struktur abgeleitet werden kann und dass viele Wörter nach einer Grundregel betont sind. In ihrem Modell enthalten die Lexikoneinträge der regelmäßig betonten Wörter lediglich segmentale Information; die Silbenbildung und Zuweisung der Betonung geschieht während des Sprechplanungsprozesses unter Anwendung der phonologischen Regeln der Sprache. Für die übrigen Wörter sind einfache metrische Strukturen gespeichert, die nur das Betonungsmuster festlegen.
III. Sprachproduktion
Die Zuweisung von Segmenten zu Silben geschieht regelgeleitet. Bleibt die Frage, warum Wortformen auf diese scheinbar umständliche Weise aufgebaut werden. Warum werden sie erst in ihre Komponenten zerlegt und dann wieder zusammengefügt? Der Grund ist, dass Sprecher normalerweise keine isolierten Wörter produzieren, sondern verbundene Sprache, in der Wörter oft anders ausgesprochen werden als in Isolation (z. B. Booij, 1995; Schiller et al., 1996; Vennemann, 1988). So kann etwa eines von zwei identischen aufeinander folgenden Segmenten wegfallen (etwa eines der beiden /m/ in im Mund); Vollvokale können zum Schwa reduziert werden, und Segmente können assimilieren (z. B. in Rennbahn, ausgesprochen als Rembahn). Diese Veränderungen der Aussprache folgen phonologischen Regeln, deren Anwendung nur möglich ist, wenn die interne Struktur der Wörter während des Sprechplanungsprozesses zugänglich ist. Dies bedeutet, dass die Wortformen in ihre Komponenten zerlegt werden müssen. Viele kontextabhängige Veränderungen von Wortformen ergeben sich aus der Tatsache, dass verbundene Sprache auf der phonologischen Ebene nicht aus lexikalischen, sondern aus phonologischen Wörtern besteht, und dass diese die Domäne der Silbenbildung sind (z. B. Nespor & Vogel, 1986). In einem phonologischen Wort kann ein Segment einer anderen Silbenposition zugewiesen werden als in der Zitierform (wie etwa in der Verb ⫹ Clitic-Gruppe kommt ihr auch? gesprochen als kom.tihr.auch?). Wortformen werden also nicht in Segmente aufgeteilt und anschließend in gleicher Weise zusammengefügt; sondern im Äußerungskontext werden phonologische Wörter gebildet, in denen die Segmente anders als in der Zitierform realisiert werden und neue Silbenpositionen einnehmen können.
6.
Phonetische Kodierung
Das Ergebnis des phonologischen Kodierens, die phonologische Repräsentation, ist abstrakt in dem Sinn, dass sie aus diskreten, d. h. sich nicht überlappenden Segmenten, besteht, dass sie statisch ist (d. h. dass die phonologischen Merkmale Positionen des Vokaltrakts oder Zustände des akustischen Signals beschreiben) und dass die Segmente kontextunabhängig sind (d. h. dass ihre Merkmale stets dieselben sind, unabhängig von dem Kontext, in dem sie erscheinen). Ar-
351
25. Die phonologische Realisierung
tikulatorische Gesten können sich dagegen zeitlich überschneiden; der Vokaltrakt ist kontinuierlich in Bewegung; und wie ein Segment realisiert wird, hängt unter anderem davon ab, welche Segmente ihm vorangehen und folgen (z. B. Browman & Goldstein, 1990, 1992). Die phonologische Repräsentation muss also zu einer phonetischen Repräsentation spezifiziert werden, die die artikulatorischen Gesten zur Aussprache des Wortes festlegt. Was sind die Eigenschaften der phonetischen Repräsentation? Obwohl Sprecher letztlich Artikulationsbewegungen ausführen, beschreibt die phonetische Repräsentation nicht Bewegungswege, sondern Artikulationsziele oder akustische Ziele, die durch artikulatorische Gesten erreicht werden müssen (Fowler et al., 1980; Guenther, Hampson & Johnson, 1998). Beispiele für Artikulationsziele sind Lippenschluss (z. B. am Anfang von Buch) oder Zungenverschluss (am Anfang von Tuch). Auch die phonetische Repräsentation hat also noch einen gewissen Abstraktheitsgrad. Die Annahme solcher abstrakter Beschreibungen artikulatorischer Ziele und der entsprechenden Gesten ist sinnvoll, weil viele Segmente auf verschiedene Weisen realisiert werden können. Ein /b/ kann man z. B. aussprechen, indem man beide Lippen oder nur eine Lippe bewegt, und man kann dies mit oder ohne Kieferbewegung tun (Abbs & Gracco, 1984). Wie werden phonetische Repräsentationen aufgebaut? Die phonologische Repräsentation kann als Gruppe von Verweisen auf Artikulationsziele aufgefasst werden. Die phonologischen Einheiten, die unabhängig auf Artikulationsziele verweisen, könnten Merkmale, Segmente oder Silben sein. Crompton (1982) und Levelt (1992; Levelt & Wheeldon, 1994) haben vorgeschlagen, dass Sprecher für häufig auftretende Silben vollständige Silbenroutinen gespeichert haben Die Programme für seltenere Silben werden aus kleineren Routinen aufgebaut. Zugriff zu einem solchen Speicher von Programmen für häufige Silben würde den Planungsaufwand beim Aufbau der phonetischen Form relativ zur Konstruktion aus einzelnen Segmenten erheblich verringern. So hat Schiller (pers. Mitteilung) geschätzt, dass 500 hochfrequente Silben ausreichen, um 80 % aller niederländischen Wörter zu produzieren. Vergleichbare Werte sind für das Deutsche zu erwarten. Ein experimenteller Beleg für die Annahme, dass Sprecher auf ein Silbarium zugreifen, stammt aus
einer Studie von Levelt und Wheeldon (1994), in der ein vom Wortfrequenzeffekt unabhängiger Silbenfrequenzeffekt gefunden wurde. Andere Untersuchungen zur Rolle von Silbeneinheiten bei der Wortproduktion haben allerdings uneinheitliche Ergebnisse erbracht. Die Ergebnisse von Priming-Experimenten von Ferrand, Segui und Grainger (1996; siehe auch Ferrand, Segui & Humphreys, 1997) legen nahe, dass Silben Verarbeitungseinheiten auf der phonetischen Ebene sind, aber die in diesen Untersuchungen gefundenen Silbenprimingeffekte wurden in vergleichbaren Untersuchungen von Schiller (1998) nicht repliziert.
7.
Zusammenfassung
Bei der phonologischen Realisierung eines Wortes baut der Sprecher zunächst dessen morphologische Repräsentation auf. Anschließend ruft er die Segmente des Wortes und, nach den meisten Modellen, die metrische Struktur ab. Dann werden den Segmenten Positionen im metrischen Rahmen zugewiesen. Dies geschieht strikt sequentiell, vom Beginn des Wortes zum Ende hin fortschreitend. Die meisten Modelle nehmen an, dass alle Lexikoneinträge metrische Information enthalten. Eine Ausnahme ist das Modell von Levelt, Meyer und Roelofs (1999), wo dies nur für Wörter mit unregelmäßigem Betonungsmuster gilt. Für die übrigen Wörter ist im Lexikon nur die segmentale Struktur gespeichert, und die Silbenbildung und Betonung geschehen ‘on-line’ nach den phonologischen Regeln der Sprache. In allen Fällen ist das Ergebnis des phonologischen Kodierens eine recht abstrakte Beschreibung der Form des Wortes, die in phonetischen Prozessen weiter spezifiziert werden muss. In dem vorliegenden Kapitel wurde versucht herauszuarbeiten, welche Annahmen über das phonologische Kodieren von den meisten Modellen geteilt werden. Das soll nicht darüber hinwegtäuschen, dass sich die Modelle in den angenommenen Verarbeitungseinheiten und Kodierungsprozessen unterscheiden. Das Modell von Levelt, Roelofs und Meyer (1999; siehe auch Roelofs, 1997) ist beispielsweise ein strikt serielles Modell. Andere Modelle nehmen dagegen an, dass aktivierte Segmente Aktivierung an übergeordnete Verarbeitungsebenen zurücksenden (z. B. Dell, Burger & Svec, 1997). Manche Modelle (z. B. Berg & Schade, 1992;
352
III. Sprachproduktion
Schade & Berg, 1992) postulieren hemmende laterale Verbindungen zwischen Wörtern und/oder Segmenten. Die hier genannten Modelle sind in Computersimulationen überprüft worden. Einige Autoren (etwa Roelofs, 1997) sind der Meinung, dass die ihnen am wichtigsten erscheinenden empirischen Befundmuster (etwa Reaktionszeiten in Wortproduktionsexperimenten) ohne laterale Hemmung oder Rückkoppelung zufriedenstellend modellierbar sind. Sie verzichten unter Berufung auf Prinzipien theoretischer Sparsamkeit auf die Einführung dieser Mechanismen. Andere Autoren (z. B. Dell, 1986, 1988; Berg & Schade, 1992) finden eben diese Mechanismen zur Modellierung ihrer Schlüsselbefunde (etwa bestimmter Merkmale von Versprechern) unabdingbar. Darüber hinaus besteht keine Einigkeit darüber, nach welchen Kriteren theoretische Sparsamkeit zu bestimmen ist (siehe Ferrand, 1999; Jacobs & Grainger, 1999). Zwischen den verschiedenen Modellen des phonologischen Kodierens kann gegenwärtig allenfalls auf der Grundlage metatheoretischer Prinzipien entschieden werden.
8.
Literatur
Abbs, J. H. & Gracco, V. L. (1984). Control of complex motor gestures: Orofacial muscle responses to load perturbations of lip during speech. Journal of Neurophysiology, 51, 705⫺723. Bachoud-Le´vi, A.-C., Dupoux, E., Cohen, L. & Mehler, J. (1998). Where is the length effect? A cross-linguistic study of speech production. Journal of Memory and Language, 39, 331⫺346. Berg, T. (1985). Is voice a suprasegmental? Linguistics, 23, 883⫺915. Berg, T. (1988). Die Abbildung des Sprachproduktionsprozesses in einem Aktivationsflußmodell: Untersuchungen an deutschen und englischen Versprechern. Tübingen: Niemeyer. Berg, T. (1989). Intersegmental cohesiveness. Folia Linguistica, 23, 245⫺280.
Boomer, D. S. & Laver, J. D. M. (1968). Slips of the tongue. British Journal of Disorders of Communication, 3, 2⫺12. Browman, C. P. & Goldstein, L. (1992). Articulatory phonology: An overview. Phonetica, 49, 155⫺180. Browman, C. P. & Goldstein, L. (1990). Representation and reality: physical systems and phonological structure. Journal of Phonetics, 18, 411⫺424. Caramazza, A. (1997). How many levels of processing are there in lexical access? Cognitive Neuropsychology, 14, 177⫺208. Caramazza, A. & Miozzo, M. (1997). The relation between syntactic and phonological knowledge in lexical access: evidence from the tip-of-thetongue⫽ phenomenon. Cognition, 64, 309⫺343. Collins, A. & Ellis, A. W. (1992). Phonologicacl priming of lexical retrieval in speech production. British Journal of Psychology, 83, 375⫺388. Costa, A. & Sebastian-Galle´s, N. (1998). Abstract phonological structure in language production: Evidence from Spanish. Journal of Experimental Psychology: Learning, Memory, and Cognition, 24, 886⫺903. Crompton, A. (1982). Syllables and segments in speech production. In A. Cutler (Ed.), Slips of the tongue and language production (pp. 109⫺162). Berlin: Mouton de Gruyter. Cutler, A. (1980). Errors of stress and intonation. In V. Fromkin (Ed.), Errors of linguistic performance. Slips of the tongue, ear, pen, and hand (pp. 67⫺80). New York: Academic Press. Cutler, A. & Norris, D. (1988). The role of strong syllables in segmentation for lexical access. Journal of Experimental Psychology: Human Perception and Performance, 14, 113⫺121. Dell, G. S. (1986). A spreading-activation theory of retrieval in sentence production. Psychological Review, 93, 283⫺321. Dell, G. S. (1988). The retrieval of phonological forms in production: Tests of predictions from a connectionist model. Journal of Memory and Language, 27, 124⫺142.
Berg, T. (1991). Redundant-feature coding in the mental lexicon. Linguistics, 29, 903⫺925.
Dell, G. S. (1990). Effects of frequency and vocabulary type on phonological speech errors. Language and Cognitive Processes, 5, 313⫺349.
Berg, T. & Schade, U. (1992). The role of inhibition in a spreading-activation model of language production. Part 1. The psycholinguistic perspective. Journal of Psycholinguistic Research, 22, 405⫺434.
Dell G. S., Burger, L. K. & Svec, W. (1997). Language production and serial order: A functional analysis and a model. Psychological Review, 104, 123⫺147.
Booij, G. (1995). The phonology of Dutch. Oxford: Oxford University Press.
Dell, G. S., Schwartz, M. F., Martin, N., Saffran, E. M. & Gagnon, D. A. (1997). Lexical access in
25. Die phonologische Realisierung normal and aphasic speech. Psychological Review, 104, 801⫺838. Eriksen, C. W., Pollock, M. D. & Montague, W. E. (1970). Implicit speech: Mechanisms in perceptual encoding? Journal of Experimental Psychology, 84, 502⫺507. Ferrand, L., Segui, J. & Grainger, J. (1996). Masked priming of word and picture naming: The role of syllable units. Journal of Memory and Language, 35, 708⫺723. Ferrand, L., Segui, J. & Humphreys, G. W. (1997). The syllable’s role in word naming. Memory & Cognition, 25, 458⫺470. Ferrand, L. (1999). Applying Ockham’s chainsaw in modeling speech production. Behavioral and Brain Sciences, 22, 42⫺43. Fowler, C. A., Rubin, P., Remez, R. E. & Turvey, M. T. (1980). Implications for speech production of a general theory of action. In B. Butterworth (Ed.), Language production: Vol. I. Speech and talk (pp. 373⫺420). London: Academic Press.
353 on speech onset latency and initial phoneme duration. Journal of Experimental Psychology: Learning, Memory, and Cognition, 24, 862⫺885. Klapp, S. T., Anderson, W. G. & Berrian, R. W. (1973). Implicit speech in reading, reconsidered. Journal of Experimental Psychology, 100, 368⫺374. Levelt, W. J. M. (1989). Speaking: From intention to articulation. Cambridge: MIT Press. Levelt, W. J. M. (1992). Accessing words in speech production: Stages, processes and representations. Cognition, 42, 1⫺22. Levelt, W. J. M., Roelofs, A. & Meyer, A. S. (1999). A theory of lexical access in speech production. Behavioral and Brain Sciences, 22, 1⫺75. Levelt, W. J. M. & Wheeldon, L. (1994). Do speakers have access to a mental syllabary? Cognition, 50, 239⫺269. MacKay, D. (1987). The organizatiion of perception and action: A theory for language and other cognitive skills. New York: Springer.
Fromkin, V. A. (1971). The non-anomalous nature of anomalous utterances. Language, 47, 27⫺52.
Meijer, P. J. A. (1996). Suprasegmental structures in phonological encoding: The CV structure. Journal of Memory and Language, 35, 840⫺853.
Garcı´a-Albea, J. E., del Viso, S. & Igoa, J. M. (1989). Movement errors and levels of processing in sentence production. Journal of Psycholinguistic Research, 18, 145⫺161.
Meyer, A. S. (1990). The time course of phonological encoding in language production: The encoding of successive syllables of a word. Journal of Memory and Language, 29, 524⫺545.
Garrett, M. F. (1975). The analysis of sentence production. In G. H. Bower (Ed.), The psychology of learning and motivation: Vol. 9 (pp. 133⫺177). New York: Academic Press.
Meyer, A. S. (1991). The time course of phonological encoding in language production: Phonological encoding inside a syllable. Journal of Memory and Language, 30, 69⫺89.
Goldsmith, J. A. (1990). Autosegmental and metrical phonology. Cambridge, MA: Blackwell.
Meyer, A. S. & Schriefers, H. (1991). Phonological facilitation in picture-word interference experiments: Effects of stimulus onset asynchrony and types of interfering stimuli. Journal of Experimental Psychology: Language, Memory, and Cognition, 17, 1146⫺1160.
Guenther, F. H., Hampson, M. & Johnson, D. (1998). A theoretical investigation of reference frames for the planning of speech movements. Psychological Review, 105, 611⫺633. Humphreys, G. W., Riddoch, M. J. & Quinlan, P. T. (1988). Cascade processes in picture identification. Cognitive Neuropsychology, 5, 67⫺103. Jacobs, A. & Grainger, J. (1999). Modeling a theory without a model theory, or, computational modeling „after Feyerabend“. Behavioral and Brain Sciences, 22, 46⫺47. Jescheniak, J. D. & Levelt, W. J. M.(1994). Word frequency effects in speech production: Retrieval of syntactic information and of phonological form. Journal of Experimental Psychology: Language, Memory, and Cognition, 20, 824⫺843. Kawamoto, A. H., Kello, C. T., Jones, R. M. & Bame, K. A. (1998). Initial phoneme versus whole word criterion to initiate speech: Evidence based
Nespor, M. & Vogel, I. (1986). Prosodic phonology. Dordrecht: Foris. Nooteboom, S. (1973). The tongue slips into patterns. In V. A. Fromkin (Ed.), Speech errors as linguistic evidence (pp. 114⫺132). Den Haag: Mouton. Oldfield, R. C. & Wingfield, A. (1965). Response latencies in naming objects. The Quarterly Journal of Experimental Psychology, 17, 273⫺281. Pillon, A. (1998). Morpheme units in speech production: Evidence from laboratory-induced verbal slips. Language and Cognitive Processes, 13, 465⫺ 498. Roelofs, A. (1996). Serial order in planning the production of successive morphemes of a word. Journal of Memory and Language, 35, 854⫺876.
354
III. Sprachproduktion
Roelofs, A. (1997). The WEAVER model of wordform encoding in speech production. Cognition, 64, 249⫺284.
Shattuck-Hufnagel, S. (1992). The role of word structure in segmental serial ordering. Cognition, 42, 213⫺259.
Roelofs, A. & Meyer, A. S. (1998). Metrical structure in planning the production of spoken words. Journal of Experimental Psychology: Learning, Memory, and Cognition. 24, 922⫺939.
Snodgrass, J. G. & Yuditsky, T. (1996). Naming times for the Snodgrass and Vanderwart pictures. Behavioral Research Methods, Instruments, & Computers, 28, 516⫺536.
Schade, U. & Berg, T. (1992). The role of inhibition in a spreading-activation model of language production. Part 2: The simulation perspective. Journal of Psycholinguistic Research, 22, 435⫺462.
Stemberger, J. P. (1990). Wordshape errors in language production. Cognition, 35, 123⫺157.
Schiller, N. (1998). The effect of visually masked syllable primes on the naming latencies of words and pictures. Journal of Memory and Language, 39, 484⫺507. Schiller, N., Meyer, A. S., Baayen, R. H. & Levelt, W. J. M. (1996). A comparison of lexeme and speech syllables in Dutch. Journal of Quantitative Linguistics, 3, 8⫺28. Schriefers, H. & Teruel, E. (1999). Phonological facilitation in the production of two-word utterances. European Journal of Cognitive Psychology, 11, 17⫺50. Sevald, C. A. & Dell, G. S. (1994). The sequential cuing effect in speech production. Cognition, 53, 91⫺127. Sevald, C. A., Dell, G. S. & Cole, J. S. (1995). Syllable structure in speech production: Are syllables chunks or schemas? Journal of Memory and Language, 34, 807⫺820. Shattuck-Hufnagel, S. (1979). Speech errors as evidence for a serial-ordering mechanism in sentence production. In W. E. Cooper & E. C. T. Walker (Eds.), Sentence processing: Psycholinguistic studies presented to Merrill Garrett (pp. 295⫺342). Hillsdale: Lawrence Erlbaum. Shattuck-Hufnagel, S. (1983). Sublexical units and suprasegmental structure in speech production planning. In P. F. MacNeilage (Ed.), The production of speech (pp. 109⫺136). New York: Springer. Shattuck-Hufnagel, S. (1987). The role of word-onset consonants in speech production planning: New evidence from speech error patterns. In E. Keller & M. Gopnik (Eds.), Motor and sensory processes of language (pp. 17⫺51). Hillsdale: Lawrence Erlbaum.
Stemberger, J. P. (1991a). Radical underspecification in language production. Phonology, 8, 73⫺ 112. Stemberger, J. P. (1991b). Apparent anti-frequency effects in language production: The addition bias and phonological underspecification. Journal of Memory and Language, 30, 161⫺185. Van Turennout, M., Hagoort, P. & Brown, C. (1997). Electrophysiological evidence on the time course of semantic and phonological processes in speech production. Journal of Experimental Psychology: Language, Memory, and Cognition, 23, 787⫺806. Venneman, T. (1988). Preference laws for syllable structure and the explanation of sound change. With special reference to German, Germanic, Italian, and Latin. Berlin: Mouton de Gruyter. Vigliocco, G., Antonini, T. & Garrett, M. F. (1997). Grammatical gender is on the tip of Italian tongues. Psychological Science, 8, 314⫺317. Wheeldon, L. & Lahiri, A. (1997). Prosodic units in speech production. Journal of Memory and Language, 37, 356⫺381. Wheeldon, L. R. & Levelt, W. J. M. (1995). Monitoring the time course of phonological encoding. Journal of Memory and Language, 34, 311⫺334. Wiedenmann, N. (1992). A corpus of German speech errors. Forschungsberichte des Instituts für Phonetik und Sprachliche Kommunikation der Universität München. Wilshire, C. E. (1998). Serial order in phonological encoding: an exploration of the ‘word onset effect’ using laboratory-induced errors. Cognition, 68, 143⫺166.
Antje S. Meyer University of Birmingham (United Kingdom)
26. Bedingungen und Prozesse der schriftlichen Sprachproduktion
355
26. Bedingungen und Prozesse der schriftlichen Sprachproduktion 1. 2. 3. 4. 5. 6.
Einleitung Schriftlichkeit und Sprachproduktion Bedingungsklassen schriftlicher Sprachproduktion Prozesse schriftlicher Sprachproduktion Informationsquellen Literatur
1.
Einleitung
In der Psycholinguistik bildet die schriftliche Sprachproduktion im Vergleich zur mündlichen Sprachproduktion den seltener untersuchten Gegenstand (Kellogg, 2003). So sind auch die meisten genuin psycholinguistisch bzw. sprachpsychologisch formulierten Modelle der Sprachproduktion im Wesentlichen Modelle des Sprechens (z. B. Herrmann & Grabowski, 1994; Levelt, 1989: Art. 15). In den 34 Beiträgen des Handbook of Psycholinguistics (Gernsbacher, 1994) wird das Schreiben beispielsweise gar nicht adressiert. Dieser Primat des Sprechens gegenüber dem Schreiben entspricht der Verfügbarkeit der beiden verbalen Ausdrucksmodalitäten in der Phylogenese wie in der Ontogenese. Schrift ist eine relativ junge Errungenschaft unserer Spezies (Gelb, 1963), wie auch der – in der Regel gesteuerte – Schriftspracherwerb mit Eintritt in die Schule zu einem Zeitpunkt einsetzt, an dem wesentliche Kompetenzen des Erzeugens (und erst recht des Verstehens) mündlicher Äußerungen bereits vorhanden sind (Art. 57, 58, 59). Aktualgenetisch hat das Sprechen dem Schreiben als Untersuchungsgegenstand jedoch nicht notwendigerweise etwas voraus. Als erwachsene Teilhaber unserer Kulturgemeinschaft mit zumindest Standard-Schulbildung verfügen wir, wenn auch in interindividuell unterschiedlichem Maße, über die Fähigkeiten, Sprachproduktionsprozesse beider Äußerungsmodalitäten erfolgreich zum Abschluss zu bringen. Allein an der Auftretenshäufigkeit oder der Relevanz schreibenden Verhaltens und Handelns kann die bevorzugte Untersuchung des Mündlichen also nicht liegen. (Mögliche methodische bzw. methodologische Gründe nennen Schriefers, 2003, sowie Grabowski, 2003.) Im Gegensatz zur Sprachpsychologie bzw. Psycholinguistik wurde der Umgang des Menschen mit Schrift in den Sprach-, Literatur- und Kulturwissenschaften sehr ausführlich untersucht. Dieser Forschungslage trägt
der Umstand Rechnung, dass in der Reihe der Handbücher zur Sprach- und Kommunikationswissenschaft zwei umfangreiche Bände zum Thema „Schrift und Schriftlichkeit“ bereits erschienen sind (Günther & Ludwig, 1994, 1996). Verschiedene Aspekte und Teilfragestellungen der Psycholinguistik des Schreibens werden dort in Teil VII: Psychologische Aspekte von Schrift und Schriftlichkeit behandelt, insbesondere die Geschichte der psychologischen Schreibforschung (Knobloch, 1996), Grundlagen der Produktion und Perzeption schriftlicher Äußerungen (Günther & Pompino-Marschall, 1996), kognitive Prozesse beim Schreiben (Molitor-Lübbert, 1996), die Psychomotorik der Handschrift (Thomassen, 1996) sowie Methoden der Textproduktionsforschung (Eigler, 1996). Angesichts dieser Literaturlage konzentriert sich der vorliegende Beitrag vor allem auf einige Spezifika der schriftlichen Sprachproduktion gegenüber der mündlichen Sprachproduktion und auf die Herausstellung von Gemeinsamkeiten, wo vielleicht substanzielle Unterschiede erwartet würden. Was ist beim Schreiben anders als beim Sprechen? An welchen Stellen bedarf das Phänomen der Sprachproduktion als solcher spezieller Beschreibungen und (Teil-) Theorien, die nur das Schreiben, nicht aber das Sprechen kennzeichnen? (Die Produktion gebärdensprachlicher Äußerungen als dritte vollsprachliche Äußerungsmodalität kann in diesem Zusammenhang keine Berücksichtigung finden: s. Art. 53). Dazu werden zunächst einige Phänomene und Facetten dessen, was im sprachwissenschaftlichen Zusammenhang als Schriftlichkeit gekennzeichnet wird, psycholinguistisch eingeordnet.
2.
Schriftlichkeit und Sprachproduktion
Typischerweise verfertigen wir als Resultat eines schriftlichen Sprachproduktionsprozesses einen Text, der sich von den verwendeten sprachlichen Formen und Gestaltungsmitteln her in einigen Aspekten von mündlichen Äußerungen unterscheidet und der dazu bestimmt ist, von einem oder mehreren Rezipienten gelesen zu werden. Tatsächlich handelt es sich hierbei aber um mindestens drei koin-
356 zidenziell in der Regel konfundierte, potenziell aber unabhängig variierende Parameter (vgl. auch Antos, 1982; Ludwig, 1980). Erstens muss die Modalität der Produktion nicht notwendigerweise mit der Modalität der Rezeption übereinstimmen. So verfertigen wir einerseits schriftliche Manuskripte mit dem Ziel, diese als Rede oder Vortrag – also mündlich – den Adressaten zur Kenntnis zu geben; andererseits besprechen wir das Band eines Diktiergerätes, um dem Adressaten auf dem Umweg über die Transkription dieses Bandes einen schriftlichen Text zukommen zu lassen. Zweitens haben sich in Sprachgemeinschaften Text- bzw. Äußerungsmuster herausgebildet, die als mehr oder wenig typisch für Mündlichkeit bzw. Schriftlichkeit gelten. Koch und Oesterreicher (1994) sprechen hier von der Dimension der konzeptuellen Mündlichkeit/Schriftlichkeit bzw. der Sprache der Nähe gegenüber der Sprache der Distanz. So ist konzeptionelle Schriftlichkeit u. a. dadurch gekennzeichnet, dass längere und vollständige Sätze gebildet werden, dass im Gegensatz zur Mündlichkeit, bei der meistens nur Präsens und Perfekt zum Einsatz kommen, alle sechs Tempora verwendet werden oder dass bestimmte Wortwahlen bevorzugt oder vermieden werden (z. B. „kaputt“ vs. „entzwei“, „trotzdem“ vs. „dennoch“). Beispielsweise kann ein persönlicher Brief konzeptuell eher mündlich, eine mündlich vorgetragene Predigt konzeptionell eher schriftlich beschaffen sein. Insbesondere die neueren Medien der Invidualkommunikation (s. Artikel 62) lassen Tendenzen der Vermündlichung von schriftlichen Äußerungen und der Verschriftlichung mündlicher Äußerungen erkennen. So sind in E-Mails praktisch alle Normen der Schriftlichkeit (dazu detailliert Klein, 1985: 24 ff.) bis hin zur Maßgabe, offensichliche Schreibfehler zu korrigieren, weitestgehend dispensiert, während eine – wenn auch aus psychologischen Gründen in der Regel nicht erfolgreiche (Grabowski, 2000) – Strategie im Umgang mit Anrufbeantwortern darin besteht, eine Art druckreifen Text aufzusprechen. In psycholinguistischem Zusammenhang ist der primäre Merkmalsträger der wissenschaftlichen Untersuchung das sprachproduzierende (und in anderen Problemfeldern das sprachverstehende bzw. spracherwerbende) Individuum. Welche Rolle spielen die soeben in supra-individueller Weise beschriebenen Phänomene im individuellen Prozess der Sprachproduktion? Wenn man annimmt,
III. Sprachproduktion
dass jegliche Sprachproduktion – wie andere intendierte Verhaltensweisen auch – der Handlungsregulation des Sprachproduzenten dient (Herrmann & Grabowski, 1994), sollte eine theoretische Behandlung des Sprachproduktionsprozesses mit der Frage beginnen, unter welchen Bedingungen die Produktion von Sprache überhaupt als zielführend erachtet wird. So mag ein Ziel darin bestehen, einen Gast, den man zum ersten Mal zu sich nach Hause eingeladen hat, in die Lage zu versetzen, die Wohnung überhaupt zu finden. Dazu könnte man dem Eingeladenen den Weg am Telefon beschreiben, man könnte ihm einige Tage zuvor eine schriftliche Wegbeschreibung zukommen lassen, man könnte ihm aber auch den relevanten Auszug aus dem Stadtplan zufaxen oder ihn an einem vereinbarten Treffpunkt abholen und ihn – wortlos – zur eigenen Wohnung lotsen. Die Psycholinguistik hat sich bislang kaum mit der Frage beschäftigt, unter welchen Bedingungen überhaupt Sprache produziert wird und nicht andere Handlungsweisen gewählt werden (Herrmann, 1985). Gegeben, Sprachproduktion wird in einer Situation als zielführendes Mittel gewählt, stellt sich als nächstes die Frage, wovon es abhängt, ob schriftliche oder mündliche Äußerungen produziert werden. In diesem Zusammenhang beziehen sich „schriftlich“ und „mündlich“ allein auf die Wahl des Exekutionssystems, also im einen Fall der phonetischen und im anderen Fall der grapho-motorischen Realisierung geplanter, formulierter und enkodierter Sequenzen sprachlicher Einheiten. Die Frage, ob das Resultat dieses Sprachproduktionsprozesses, der beobachtbare phonetische oder graphemische Output, dazu bestimmt ist, von dem oder den Adressaten in der einen oder anderen Modalität letztlich wahrgenommen (also gelesen oder gehört) zu werden, gehört demgegenüber zu den kognitiven Ausgangsbedingungen des Sprachproduktionsprozesses, die neben dem Wissen über die eigenen Absichten und Fähigkeiten, über die beim Adressaten vorhandenen oder gerade nicht vorhandenen Vorkenntnisse und Verarbeitungskompetenzen, über die verfügbare Zeit usw. die frühen Planungsprozesse des Informationsabrufs aus dem Langzeitgedächtnis, der Informationsaufbereitung durch Inferenzprozesse, der Auswahl (Selektion) der zu verbalisierenden Information und deren Linearisierung determinieren (vgl. Grabowski, 1996; Herrmann & Grabowski, 1994: s. Art. 15).
26. Bedingungen und Prozesse der schriftlichen Sprachproduktion
Man stelle sich mehrere jüngere Rechtsanwälte vor, die in ihren jeweiligen Sozietäten Überstunden machen, weil ein wichtiger Schriftsatz am nächsten Morgen unbedingt vorliegen muss. Alle haben das Ziel, diesen Schriftsatz zu verfertigen, als für sie verbindlich akzeptiert, und alle wollen diese Arbeit möglichst schnell erledigt haben, um ihre Abendverabredungen einhalten zu können. Ein erster Anwalt mag sich in dieser Situation entscheiden, den Schriftsatz zu diktieren. Er hat sich als Student bereits im Diktieren geübt, die Ausbildung seiner Tastaturbeherrschung dagegen vernachlässigt, so dass er auf der Basis selbstbezogener Information zu dem Schluss kommt, dass ihn die Produktion mündlicher Äußerungen am schnellsten ans Ziel bringt, auch wenn der zu produzierende Text letztlich ein Format konzeptioneller Schriftlichkeit aufweisen wird. Der zweite Anwalt hat demgegenüber das Diktieren nicht geübt und weiß, dass es ihm schwer fällt, einen längeren Text auf diese Weise normgerecht zu gestalten. Obwohl auch er auf eine Schreibkraft zurückgreifen könnte, entschließt er sich, den Text gleich selbst am Computer zu schreiben. Ein dritter Anwalt mag den Text in dieser Situation ebenfalls selbst schreiben – dies nun aber nicht, weil er nicht im Diktieren sogar schneller wäre, sondern weil er weiß, dass im Schreibbüro derzeit nur eine unerfahrene Aushilfskraft sitzt, der er eine fehlerfreie Umsetzung seines Diktats nicht zutraut. Ein vierter mag unter sonst gleichen Bedingungen vielleicht sogar von Hand schreiben, da er Tastaturen nicht mächtig ist, sonst immer zu Diktieren pflegt, aber im Moment beim besten Willen keine Batterien für sein Diktiergerät auftreiben kann. Ein fünfter entschließt sich vielleicht sogar, dem Kollegen, an den der Schriftsatz gerichtet ist, die wesentlichen Informationen noch schnell auf dessen Anrufbeantworter zu sprechen und sich zu entschuldigen, dass der zugehörige Schriftsatz erst einen Tag später eintreffen wird. Dieses Beispiel soll illustrieren, dass die Frage der Entscheidung für die eine oder die andere Output-Modalität der Sprachproduktion kein Spezifikum des Sprechens oder Schreibens darstellt, sondern lediglich eine Teilmenge der Informationen betrifft, die auf einer frühen Stufe der Planung und Initiierung generell das Was und Wie der Sprachproduktion determinieren. Angesichts der Flexibilität der bei der Sprachproduktion beteiligten Prozessinstanzen – es gelingt uns
357
durchaus, eine mündlich konzipierte Äußerung via E-Mail zu verschriftlichen oder ein Kochrezept druckfertig am Telefon durchzusagen – ist davon auszugehen, dass es dasselbe Sprachproduktionssystem ist, das fallweise schriftliche oder mündliche Äußerungen produziert, dass es sich also bei den präterminalen (d. h. vor der Phonation bzw. Graphomotorik liegenden) Prozessstufen nicht um separate, input- und outputspezifische Module des Sprechens oder Schreibens handelt (vgl. Herrmann & Grabowski, 1995; Velichkovsky, 1994). So ließen beispielsweise Hidi und Hildyard (1983) ihre Probanden sowohl eine Geschichte als auch einen Kommentar entweder mündlich oder schriftlich wiedergeben und fanden, dass die Beschaffenheit der Sprachproduktionsresultate viel stärker vom wiederzugebenden Inhalt als von der zu verwendenden Output-Modalität determiniert ist. Auch in der linguistischen Textklassenforschung wurde gezeigt, dass es sich bei der Zuordnung von Textsorten zur mündlichen oder schriftlichen Äußerungsmodalität nur zuweilen um definierende Merkmale, oft dagegen um lediglich probabilistische Koinzidenzen handelt (z. B. Dimter, 1981; Gülich & Raible, 1975). Das muss aber nicht bedeuten, dass das Sprachproduktionssystem bei der Erzeugung mündlicher und schriftlicher Outputs (immer) in gleicher Weise operiert. Schon frühe sprachstatistische Arbeiten (Blass & Siegman, 1975; Horowitz & Newman, 1964; Portnoy, 1973) haben gezeigt, dass bei gleicher Aufgabenstellung (zum Beispiel der Wiedergabe eines Erlebnisses) schriftliche Äußerungen oft kürzer sind als mündliche, dabei aber längere Sätze mit komplexeren syntaktischen Strukturen enthalten. Es stellen sich für die Behandlung der schriftlichen Sprachproduktion somit zwei Fragen: (1) Unter welchen Bedingungen wählt jemand die schriftliche Sprachproduktion als mutmaßlich zielführende Verhaltensmaßnahme? (2) Gegeben, es wird geschrieben: Welche Besonderheiten gelten dann für die Tätigkeit der am Sprachproduktionsprozess beteiligten Instanzen? Diesen Fragen sind die beiden folgenden Abschnitte gewidmet. Es sei aber noch einmal betont, dass sich Phänomene schriftlicher Sprachproduktion – als Prozess in Individuen – nicht auf die typischen Fälle beschränken müssen, in denen ein in der Regel umfangreicheres konserviertes Sprachproduktionsresultat für einen räumlich und zeitlich nicht kopräsenten Ad-
358
III. Sprachproduktion
ressaten hergestellt wird. Beispiele schriftlicher Sprachproduktion sind auch: Das im Japanischen zuweilen hilfreiche In-die-HandSchreiben eines Wortes, um ein homophones Wort für den Gesprächspartner durch das zugehörige bedeutungsdifferenzierende Zeichen zu desambiguieren. Dieser Vorgang hinterlässt keine sichtbare Spur, vielmehr muss der Rezipient anhand des Bewegungsablaufs das logographische Zeichen vor seinem „inneren Auge“ entstehen lassen. Kommunikativ erfolgreiches Schreiben impliziert also nicht notwendigerweise ein langfristig konserviertes Schreibprodukt, wie die folgenden Beispiele zeigen. „Klausi ist doof“ an die beschlagene Windschutzschreibe schreiben: Mit dem Betreiben des Ventilators „verschwindet“ das Geschriebene sofort wieder. Geschriebenes kann wie Gesprochenes in Abhängigkeit vom physikalischen Träger der Verhaltensspur flüchtig sein. Dem Sitznachbarn etwas auf einen Zettel schreiben, was der Lehrer nicht hören soll: Schreiben kann auch in Situationen raum-zeitlicher Kopräsenz zielführend sein. Chatten: Auch für Situationen, in denen die Kommunikationspartner zeitlich on-line, aber räumlich distant sind, wurden mittlerweile schriftliche Medien entwickelt.
3.
Bedingungsklassen schriftlicher Sprachproduktion
Sprachproduktion dient der Regulation des kognitiven, motivationalen und affektiven Systems eines Individuums in dem Sinne, dass der in einer Situation kognizierte Zustand der Welt oder des Individuums selbst (der Ist-Zustand) von einem (gewünschten oder auch nur gesollten) Ziel-Zustand abweicht und dass die Produktion sprachlicher Äußerungen für die Behebung oder Verringerung dieser Abweichung als zielführend erachtet wird. Von der Informationskonstellation im kognitiven System eines Individuums hängt es ab, ob überhaupt ein Sprachproduktionsprozess initiiert wird, welche Inhalte verbalisiert werden und in welcher Weise dies erfolgt. Was die Entscheidung für mündliche oder schriftliche Sprachproduktion betrifft, kann angenommen werden, dass die Menge der prozessauslösenden Informationskonstellationen, die im Sprechen resultieren, und die Menge der Informationskonstellationen, die zum Schreiben führen, nicht identisch sind, dass nicht eine der beiden Mengen Teilmenge
der anderen ist, dass ihre Vereinigungsmenge eine echte Teilmenge der Menge aller möglichen Informationskonstallationen ist und dass ihre Schnittmenge nicht die leere Menge ist (Grabowski, 1995). Daraus folgt, dass bei einigen Informationskonstellationen sowohl die mündliche als auch die schriftliche Sprachproduktion, bei anderen Informationskonstellationen weder die mündliche noch die schriftliche Sprachproduktion der erfolgreichen Systemregulation dienen kann. Daraus folgt weiter, dass die Möglichkeit zu schreiben gegenüber dem Sprechen die Menge der Situationen erweitert, in denen die Produktion von Sprache zielführend ist. 3.1. Absolute Einschränkungen Alle Arten partnerorientierter mündlicher Sprachproduktion sind davon abhängig, dass der Sprecher sich mit dem Adressaten zur gleichen Zeit am gleichen Ort befindet (Faceto-face-Kommunikation) oder dass der Adressat über eine fernmündliche Adresse (Telefonnummer) verfügt, dass der Sprecher diese kennt und sich der Adressat zum Zeitpunkt des Kontaktversuchs am Ort der Fernsprecheinrichtung aufhält (oder, im Fall des Handys, sich das Gerät am Ort des Adressaten befindet) oder dass der Adressat die Voraussetzung zeitlicher Kopräsenz durch die Bereitstellung einer Sprachkonservierungseinrichtung (Anrufbeantworter) aufgehoben hat. Ist dies alles nicht gegeben und kann der Sprachproduzent auch keine dieser Bedingungen herstellen, so kann er dem Adressaten immer noch schreiben. Dies liegt natürlich nicht am Schreiben selbst, sondern daran, dass sich ein (mehr oder weniger) funktionierender Postdienst herausgebildet hat (mit dem man aber durchaus auch besprochene Tonbandkassetten versenden könnte). Nimmt man den Umstand hinzu, dass traditionelle Schreibgerätschaften für die Konservierung von Sprachproduktionsprodukten technologisch weniger aufwendig sind als akustische Speicher, ergibt sich für die schriftliche Übermittlung von Botschaften die geringste Menge an Bedingungsvoraussetzungen: Man muss einen Ort kennen, an dem sich der Adressat in einem bestimmten Zeitraum zumindest einmal aufhalten wird und/ oder Vorkehrungen für eingehende Post getroffen hat. 3.2. Ökonomie der Systemregulation Ob ein Sprachproduzent seinen Adressaten anspricht oder anschreibt, bringt unterschiedliche Kosten und Vorteile mit sich. Ei-
26. Bedingungen und Prozesse der schriftlichen Sprachproduktion
nen Brief zu versenden oder E-Mail zu benutzen, kommt den Sprachproduzenten billiger als zu telefonieren. Die partnerseitige Antwort auf Geschriebenes erhält man jedoch in der Regel später, als es beim Telefonieren der Fall ist. Schreiben mag für den Produzenten zeitlich aufwendiger sein, kann aber zu jedem beliebigen Zeitpunkt und unabhängig von aktuellem Aufenthaltsort, partnerseitiger Kommunikationsbereitschaft und Funktionieren von Kommunikationseinrichtungen erfolgen. Eine Notiz dringt zu vielbeschäftigten Vorgesetzten vielleicht leichter durch als man selbst. Man kann dem Mitbewohner, dem man etwas ausrichten soll, eine Notiz hinterlassen und sich selbst dadurch von einer Memorieraufgabe entlasten. Der Zettel hinter der Windschutzscheibe eines Autos, das man beschädigt hat, erspart dem Sprachproduzenten Wartezeit. Ob und über welchen Äußerungskanal Sprache produziert wird, entscheidet sich oft auf der Basis einer Aufwands- und Ertragskalkulation. 3.3. Konventionen In bestimmten Klassen von Situationen ist das Verfertigen von Geschriebenem geboten. Man kondoliert in der Regel schriftlich, legt oft auch einem Geburtstagsgeschenk, das man persönlich überreicht, noch ein Kärtchen bei. Schreiben ermöglicht die unsanktionierte Kommunikation in Situationen, in denen die Produktion von Lauten nicht geboten ist, beispielsweise im Schulunterricht oder in formalen Situationen, in denen jemand anderes zu allen Anwesenden spricht. Da Geschriebenes als Konserve nicht die augenblickliche Aufmerksamkeit und Reaktion des Rezipienten erfordert, ist es oft höflicher, sein kommunikatives Anliegen schriftlich vorzubringen. Hinzu kommen die vielen Situationen, in denen Geschriebenes qua Norm Rechtsverbindlichkeit impliziert. Informierte Sprachproduzenten berücksichtigen solche konventionellen Maßgaben bei der Planung ihrer Sprachproduktion. 3.4. Zwischenziele Schreiben kann dazu dienen, ein Ziel, das man mit Hilfe der mündlichen Sprachproduktion oder vielleicht auch ganz unsprachlich verfolgen will, zwar nicht schon zu erreichen, aber der Zielerreichung näher zu kommen, indem zum Beispiel ein raum-zeitliches Zusammentreffen zwischen Personen befördert wird.
359
3.5. Instrumentalität Das Schreiben ist für bestimmte Ziele besser oder weniger gut geeignet als das Sprechen. Unangenehme Dinge schreibt man vielleicht lieber, als dass man sie sagt. (Wie heißt es bei Lichtenberg: „Seit der Erfindung der Schreibekunst haben die Bitten viel von ihrer Kraft verloren, die Befehle hingegen gewonnen. Das ist eine böse Bilanz. Geschriebene Bitten sind leichter abgeschlagen, und geschriebene Befehle leichter gegeben als mündliche. Zu beidem ist ein Herz erforderlich, das oft fehlt, wenn der Mund der Sprecher sein soll.“) Geschriebenes wirkt in vielen Fällen formeller oder distanzierter als Gesprochenes. Geschriebenes lässt dem Adressaten meistens mehr Freiraum und erfordert keine situationsunmittelbare Reaktion. Dagegen sind Überrumpelungs- und Überredungseffekte leichter mündlich zu erzielen. Ein Sprachproduzent kann den Fortgang seiner schriftlichen Äußerungen zumeist nicht an den äußerungsbegleitenden Reaktionen des Partners orientieren. Vortragende halten zur bestmöglichen Vermittlung ihrer Thematik oft eine Kombination aus mündlicher Rede und Schreiben (an der Tafel oder auf Overheadfolien) für instrumentell. Bei der Einführung in sehr abstrakt-formale Inhalte ist es oft üblich, dass Lehrende dasselbe gleichzeitig sagen und schreiben, zum Beispiel Formeln. Will man jemanden, den man nicht kennt, vom Flugplatz abholen, ist es schließlich wenig zielführend, dessen Namen zu rufen, weil es dort sehr laut ist oder wäre, wenn alle so verfahren würden. 3.6. Neben- oder übergeordnete Ziele Da der Partner zumeist weiß, welche verschiedenen Kommunikationsweisen dem Sprachproduzenten zur Verfügung stehen (die er vielleicht nicht gewählt hat), kann mit der Wahl des Schreibens selbst ein Teilziel verfolgt werden. (Man denke nur an Jean Gabin in Simenons „Die Katze“, der seine Verachtung für seine Frau kaum trefflicher zum Ausdruck bringen könnte, als ihr – gemeinsam vorm Kamin sitzend – nur beschriebene Zettel zuschnippt). Indem man seine Liebeserklärung schreibt (und nicht ausspricht), ist man nicht gezwungen, seine Schüchternheit zu überwinden. Indem man eine Nachricht an die Tür eines Freundes heftet, statt auf den Anrufbeantworter zu sprechen, erweist man seine besondere Aufmerksamkeit. Das Schreiben konspirativer
360
III. Sprachproduktion
Inhalte auf einer Schiefertafel, die sofort wieder abgewischt werden können, kann dem Nebenziel dienen, in einer abhörgefährdeten Situation die Gruppe der potenziellen Rezipienten einer Äußerung unter Kontrolle zu halten. Bei vorliegendem Regulationsbedarf im kognitiven System des Sprachproduzenten wird auf der Basis der genannten und weiterer Informationen über die aktuelle Situation, über frühere Erfahrungen und über die Welt im Allgemeinen entschieden, ob Sprachproduktion überhaupt zielführend ist und welche Art der Sprachproduktion mutmaßlich, unter Berücksichtigung der neben- und übergeordneten Ziele, höchste Instrumentalität aufweist.
4.
Prozesse schriftlicher Sprachproduktion
Prozessuntersuchungen des Schreibens, die für eine psycholinguistische Behandlung der schriftlichen Sprachproduktion relevant sind, stammen vor allem aus allgemeinpsychologischen und pädagogisch-psychologischen Forschungstraditionen. Bei aller Heterogenität der Ansätze und Befunde ist diesen Forschungen überwiegend gemeinsam, dass sie das Schreiben intra-individuell aus dem Kontext der Handlungsregulation und interaktiv aus dem kommunikativen Kontext weitgehend herauslösen. (Das gilt allerdings auch für viele Untersuchungsparadigmen zur mündlichen Sprachproduktion: Art. 8, 9, 13.) 4.1. Phasen und Modelle der Textproduktion Modelle der Textproduktion beziehen sich vorrangig auf den typischen Fall des Schreibens, wie er in pädagogischen oder beruflichen Kontexten verlangt wird: Das Individuum ist mit der Aufgabe konfrontiert, einen Text über ein bestimmtes Thema oder als Antwort auf eine bestimmte Fragestellung zu verfassen. Gegenüber den beim Sprechen beteiligten Teilprozessen ergeben sich dabei mehrere Erweiterungen: Während beim Sprechen die Planung in der Regel unter einem gewissen zeitlichen Kommunikationsdruck erfolgt und unmittelbar an die Sprachproduktionssituation gebunden ist, kann das Planen eines Textes weitaus umfangreichere und zeitlich sehr erstreckte Prozesse umfassen, bevor das erste Wort auch nur geschrieben wird. Am anderen Ende des Prozesses
müssen geschriebene Sprachproduktionsresultate als Prozessergebnis nicht verbindlich sein, sondern können mehrfach überarbeitet werden. Anders als beim physikalisch flüchtigen Sprechen liegen alle ausformulierten Zwischenresultate als externe, konservierte Verhaltensspuren vor, die durch Lesen als externe Information wieder kogniziert und verarbeitet werden können. Dabei ist das Lesen im Kontext der Textüberarbeitung vom „normalen“ verstehenden Lesen zu unterscheiden, da hier auf ganz verschiedene Ebenen – vom Tippfehler bis zur Globalstruktur – geachtet werden muss (Hayes et al., 1987). Maße des Leseverständnisses korrelieren dementsprechend mit der Textproduktionsfähigkeit nur mäßig (Ransdell & Levy, 1996). Schreibende sind also weit weniger an die Sequenzierung der Sprachproduktion von der Planung bis zur Enkodierung gebunden als Sprechende. Das Ziel der schriftlichen Sprachproduktion liegt bei diesen Ansätzen in der Verfertigung des Textes selbst, der dementsprechend auch vorwiegend hinsichtlich seiner qualitativen Beschaffenheit bewertet wird, wie sie etwa durch Normen für bestimmte Textsorten (Erörterungen, argumentative Texte, Ereigniswiedergaben, Sachverhaltsdarstellungen) vorgegeben sind. Eines der einflussreichsten Modelle der Textproduktion stammt von Hayes und Flower (1980). (Ein verwandtes Modell wurde von de Beaugrande, 1984, vorgelegt.) Im Zentrum des Schreibprozesses stehen die drei Teilprozesse des Planens, Formulierens und Überarbeitens, zwischen denen keine feste Abfolge vorausgesetzt wird, sondern die durch eine Kontroll- bzw. Steuerungsinstanz, den Monitor, nach Bedarf eingesetzt werden. Dieser Monitor bestimmt die Strategie der Textproduktion und wird als Produktionensystem sensu Anderson (1983) konzipiert. Die Texterstellung wird als Problemlöseprozess aufgefasst, der wesentlich durch Informationen im Langzeitgedächtnis und durch das Aufgabenumfeld (den Schreibauftrag und den bislang geschriebenen Text) bestimmt wird. In Analogie zur Problemlöseforschung wird bei der Untersuchung der Prozesse und ihres Zusammenspiels die Methode des Lauten Denkens vorgeschlagen (Ericsson & Simon, 1984; Kluwe, 1988). Daraus wird ersichtlich, dass vorrangig solche Prozesse untersucht wurden, zu denen der Schreibende bewussten Zugang hat. Das sind die allgemeine Planung der Textstruktur und der einbezogenen Inhalte sowie die Überarbeitung,
26. Bedingungen und Prozesse der schriftlichen Sprachproduktion
im Wesentlichen also außer- oder zumindest metasprachliche kognitiven Prozesse. Die bei geübten Sprechverwendern weitgehend automatisierten Prozesse der eigentlichen Formulierung (darunter Satzbildung und Kohärenzgenerierung), der Enkodierung und der grapho-motorischen Ausführung finden demgegenüber wenig Beachtung (s. Abschn. 4.2). In einer neueren Fassung des Modells hat Hayes (1996) vor allem die Rolle motivationaler und affektiver Variablen integriert sowie die relevanten Informationsklassen im Langzeitgedächtnis stärker differenziert. Mit der zweiten Maßnahme trägt er vor allem einem Sachverhalt Rechnung, den besonders Bereiter und Scardamalia (1987) betonen: Um einen guten Text zu schreiben, muss man nicht nur wissen, was dargestellt werden soll (⫽ inhaltsbezogener Problemraum), sondern auch, wie dies erfolgen kann (⫽ rhetorischer Problemraum). Neben dem Wissen über den behandelten Sachverhalt bedarf es also auch sprachlichen Wissens über die Beschaffenheit bestimmter Texte bzw. Textsorten und der zugehörigen Fähigkeiten zur angemessenen Strukturierung, Formulierung etc. In Abhängigkeit vom Erkennen und Bewältigen des rhetorischen Problemraums variieren die Strategien des Schreibens: Besonders bei Kindern wurde die Strategie des „knowledge telling“ beschrieben, bei der die Inhalte so, wie sie einem einfallen, und weitgehend ungefiltert und unorganisiert unmittelbar versprachlicht werden (vgl. McCutchen, 1995: Art. 69). Erfahrenere Schreiber können dagegen die Strategie des „knowledge transforming“ einsetzen, die durch Problemlöseprozesse gekennzeichnet ist, die den Funktionen eines Textes, der Ausrichtung am Andressaten, der inhaltlichen Klarheit und Wohlstrukturiertheit gerecht zu werden versuchen. Das kann beispielsweise dazu führen, dass man erkennt, dass die darzustellenden Sachverhalte noch ergänzungs- und/oder elaborationsbedürftig sind und dass der eigentliche Schreibprozess zugunsten von Prozessen der Informationssuche und -strukturierung vorläufig verschoben wird. Nach Kellogg (2003) ist das Verfertigen von Endfassungen ohnhin weit stärker durch Abgabetermine determiniert als durch befriedigende Bewertungen des eigenen Textproduktes. Insgesamt fokussieren Modelle der Textproduktion aber mehr die Beschaffenheit und Bewältigung der Aufgabe, einen – guten – Text zu schreiben, und weniger die schriftliche Sprachproduktion als solche. Dass man
361
sich durch längere Problemlöseprozesse über eine Sache und über die Möglichkeiten ihrer verbalen Darstellung mehr Klarheit verschafft, dabei Notizen anfertigt, vielleicht Gliederungspunkte notiert und zu ordnen versucht, Wissensbestände über das Was und das Wie solcher Darstellungen zum Einsatz bringt (die zudem bei geübten Sprachproduzenten schematisiert und unter Prozessgesichtspunkten damit auch (teil-) automatisiert vorliegen können; vgl. Herrmann & Grabowski, 1994; Herrmann et al., 1992; Oberauer & Hockl, 2003; Rummer, 1996) – das alles kann etwa auch die Vorbereitung einer mündlichen Prüfung kennzeichnen. Die Beiträge des von Torrance und Galbraith (1999) herausgegebenen Bandes versuchen, die frühen Problemlöseprozesse bei der Textproduktion stärker mit den Resultaten von Schreibprozessen im engeren Sinne zu verknüpfen. Im Übrigen finden sich auch, nicht nur bei Kindern, Situationen, in denen wir in nicht-kommunikativer Weise vor uns hinsprechen, um die Ausführung einer bestimmten komplizierten Tätigkeit unterstützend zu begleiten, unser zukünftiges Handeln zu planen oder uns über eine Problemlage und ihre – auch nicht-verbalen – Lösungsmöglichkeiten klarer zu werden (vgl. Bartl & Dörner, 1998). Eine sprachproduktionsbezogene Besonderheit beim Schreiben liegt jedoch in der Möglichkeit, das Sprachproduktionsresultat sozusagen mehrere Male auszuprobieren bzw. in mehreren Schritten anzunähern, bevor es eine endgültige Form erreicht. Kellogg (1988) ließ Studenten bei einer Textproduktionsaufgabe entweder eine Gliederung anfertigen oder nicht und von diesen beiden Gruppen wiederum jeweils die Hälfte eine Rohfassung des Textes schreiben oder nicht, bevor die endgültige Textfassung geschrieben wurde. Dabei unterbrach er die Probanden in unregelmäßigen Abständen, wobei sie angeben sollten, ob sie gerade mit Planen, Formulieren, Überarbeiten oder anderem beschäftigt seien. Es zeigte sich, dass das Anfertigen einer Gliederung einen weit stärkeren Einfluss auf den Schreibprozess hatte als das Schreiben einer Vorversion: Es erhöhte die Formulierungsflüssigkeit und die geschriebene Textmenge sowie die resultierende Textqualität. Dieser Effekt ließ sich in einer anderen Untersuchung replizieren, in der an einer Vergleichsgruppe gezeigt wurde, dass ein grafisches Sortierverfahren der geplanten Textinhalte allein nicht in derselben Weise wirkt
362 (Kellogg, 1990). Allerdings genügt es bei der Planung von kürzeren Texten im Bereich von bis zu 300 Wörtern, die Gliederung im Geiste vorzunehmen; sie muss nicht schriftlich externalisiert werden, um die beschriebenen Effekte zu erzielen (Kellogg, 1994: 125 ff.). Ob und in welcher Weise Planungsprozesse (und zum Beispiel nicht einfach nur die aufgewandte Zeit) die Qualität von Texten erhöhen, ist allerdings noch strittig (Hayes & Nash, 1996; Torrance, Thomas & Robinson, 2000), zumal der themenrelevante Wissensvorrat des Schreibenden im Langzeitgedächtnis eine vorgeordnete Determinante guter Textresultate zu sein scheint (Langer, 1984; Voss, Vesonder & Spillich, 1980). Das methodische Problem, die kognitiven Aktivitäten von Schreibern und deren Zugehörigkeit zu den einzelnen Phasen des Prozesses überhaupt zu identifizieren, wurde mit der beschriebenen Unterbrechungs-Technik bei Kellogg (für ein elaborierteres Verfahren vgl. auch Levy & Ransdell, 1994) so gelöst, dass die natürlichen Prozesse weniger gestört werden als mit der Methode des Lauten Denkens, durch die Reflexionen über Textinhalt und Darstellungsstrategie ggf. erst hervorgerufen werden (Hayes & Nash, 1996: 45). Der Versuch, Planungsprozesse durch die Pausen zu indizieren, in denen der Schreibende weder schreibt noch den schon geschriebenen Text liest, geht auf Gould (1978a, b, 1980; vgl. auch Matsuhashi, 1981, 1987) zurück. Seine Zeitverlaufsanalysen waren darauf gerichtet, die Effektivität des Einsatzes unterschiedlicher Schreibwerkzeuge (Diktieren, Handschrift, Computer) bei der professionellen Abfassung von Briefen zu untersuchen. Er fand, dass trotz der gravierenden Unterschiede in der Produktionsgeschwindigkeit der für die Planung aufgewandte Zeitanteil ziemlich konstant bleibt (etwa zwei Drittel der Gesamtzeit) und sich auch die Qualität der Textprodukte nicht unterscheidet. Allerdings wurde die Methode der Pausenforschung dahingehend kritisiert, dass Pausen nicht notwendigerweise Planungsprozesse indizieren, sondern auch durch Ablenkungen, Konzentrationstiefs u. a. verursacht sein können und dass man selbst bei einer gegebenen Indikationsbeziehung nichts darüber erfährt, was oder in welcher Weise gerade geplant wird. So bezweifelt Knobloch (1996: 990), „ob Schreibpausen über das Schreiben mehr verraten als Trinkpausen über das Trinken“.
III. Sprachproduktion
Ein Grund für die Bevorzugung der mündlichen Sprachproduktion bei der Untersuchung von Planungsprozessen auf Enkodierebene, also im Bereich von Phrasen, Wörtern, Morphemen und Silben, dürfte darin liegen, dass die Sprechgeschwindigkeit diesen Prozessen sozusagen nachkommt, während die Schreibmotorik der Hand mutmaßlich viel zu langsam ist, um diese schnell wechselnden Prozesse zu reflektieren (Thomassen, 1996). Nottbusch, Weingarten und Will (1998) nutzten die Schreibgeschwindigkeit erfahrener Tastaturbenutzer, um anhand der Latenzen zwischen getippten Buchstaben zu zeigen, dass sich insbesondere zusammenfallende Morphem- und Silbengrenzen im Schreibrhythmus niederschlagen; in abgeschwächter Form findet sich dieser Effekt auch im handschriftlichen Bewegungsverlauf. In Abhängigkeit vom berücksichtigten Zeitfenster des Schreibverlaufs werden also einmal Planungsprozesse auf globaler Makroebene, das andere Mal elementare Mikro-Planungsprozesse zu indizieren versucht. Seit den Zeiten Goulds, dessen Probanden in den Computer-Bedingungen seiner Untersuchungen nur die frühen einfachen ZeilenEditoren zur Verfügung standen, haben sich Textverarbeitungssysteme vor allem hinsichtlich grafischer Benutzeroberflächen in ihrer Handhabung erheblich vereinfacht. Allerdings scheint auch nach heutigem Forschungsstand kein förderlicher Einfluss der Benutzung von Textverarbeitungsprogrammen auf die Formulierungsflüssigkeit, die beurteilte Textqualität und die Produktivität nachweisbar zu sein (Kellog, 1994, 2003; Bangert-Drowns, 1993). Zwar wird der entstehende Text deutlich häufiger modifiziert als beim Schreiben von Hand (Card, Robert & Keenan, 1984), was aber vor allem hinsichtlich der konzeptionellen Qualität der Texte nicht notwendigerweise zu Verbesserungen, teilweise aber zu Verschlechterungen führt (Bridwell-Bowles, Johnson & Brehe, 1987). 4.2. Schreiben und kognitive Ressourcen Einen intensivierten Bezug zu allgemeinpsychologischen Prozessannahmen erfuhr die Schreibforschung durch die Untersuchung der mit den beteiligten Teilprozessen einhergehenden Belastung der begrenzten kognitiven Ressourcen eines Individuums. Im Modell von Kellogg (1996) wird der Schreibprozess – unter Bezug auf die Modellgliederungen von Hayes und Flower (1980) zur Text-
26. Bedingungen und Prozesse der schriftlichen Sprachproduktion
produktion und von Garrett sowie Bock und Levelt zur mündlichen Sprachproduktion (z. B. Garrett, 1980; Bock & Levelt, 1994) – in sechs Teilprozesse untergliedert: (1) Planen, (2) Formulieren, (3) Programmieren bzw. Enkodieren, (4) die motorische Ausführung, (5) das Lesen des geschrieben Textes und (6) dessen Überarbeitung. Durch viele eigene Experimente (Kellogg, 1999, 2003) und Nachfolgeuntersuchungen (z. B. Piolat et al., 1996) wird gezeigt, in welcher Weise diese Teilprozesse die Zentrale Exekutive eines kapazitätsbegrenzten Arbeitsgedächtnisses sensu Baddeley (1986) sowie dessen räumliches und verbales Subsystem (phonologische Schleife bzw. räumlich-visueller Notizblock) differenziell in Anspruch nehmen. Als Messmethode für die zentrale kognitive Belastung gibt Kellogg zu wiederholten Zeitpunkten akustische Testreize vor, auf die die Schreibenden mündlich möglichst schnell reagieren und danach durch Druck der jeweiligen Taste angeben sollen, welche Art von Prozess sie gerade ausführten. Eine Verlängerung der Reaktionszeit kann dann als Indikator für hohe Kapazitätsauslastung des Arbeitsgedächtnisses interpretiert werden (Kahneman, 1973). Dabei erwiesen sich vor allem die Planung und die Überarbeitung als besonders ressourcenintensive Prozesse. Ein großes Ausmaß an themenspezifischem Wissen scheint die Schreibenden dabei dadurch zu unterstützen, dass dieses Wissen aus einem Langzeit-Arbeitsgedächtnis im Sinne von Ericsson und Kintsch (1995) dauerhaft abrufbar und nutzbar ist und die Planungsprozesse in der kapazitätsbegrenzten Zentralen Exekutive dadurch entlastet (Kellogg, 1999). Auch verfügen sehr erfahrene bzw. geübte Schreiber über (teil-) automatiserte Schemata über das Was und Wie der Produktion bestimmter Arten von Texten. Die Ressourcenentlastung durch Schematisierung ist aber wiederum nicht spezifisch für den Schreibprozess, sondern findet sich auch bei der mündlichen Sprachproduktion (z. B. Rummer, 1996; Rummer, Grabowski & Vorwerg, 1995) und anderen Fähigkeitsbereichen (Fitts & Posner, 1967). Die von Kellogg angenommene Belastung des räumlichen Subsystems des Arbeitsgedächtnisses durch Planungsprozesse und des phonologischen Subsystems durch die Prozesse des Formulierens und des Lesens wurde durch geeignete Doppelaufgaben-Experimente von Levy und Marek (1999) sowie Lea und Levy (1999) nachgewiesen. Die Zusam-
363
menhänge zwischen verschiedenen Gedächtnisspannenmaßen und der Textproduktionsfähigkeit untersuchten Ransdell und Levy (1999). Die Prozesse der sprachlichen Umsetzung geplanter Gedankeninhalte und ihrer graphomotorischen Exekution gelten als weitestgehend automatisiert und damit von kognitiven Ressourcen unabhängig. Fayol, Largy und Lemaire (1994) konnten jedoch zeigen, dass sich durch eine aufmerksamkeitsbelastende Zweitaufgabe – das Memorieren von fünf Wörtern als (Teil-) Auslastung des Arbeitsgedächtnisses – auch die reine Umsetzung akustisch vorgegebener Sätze in geschriebene Sprache beeinträchtigen lässt. Sie nutzten dabei den Umstand, dass die französische Orthographie Flexionsendungen erfordert, die phonologisch nicht expliziert werden, und konnten durch die Zweitaufgabenbelastung grammatische Übereinstimmungsfehler zwischen Subjektnomen und Verb hervorrufen, wobei das Verb in dem Numerus flektiert wurde, der dem nächststehenden Nomen – nicht aber dem regierenden Subjekt – entspricht. (Zur Rolle semantischer Information bei grammatischen Subjekt-VerbÜbereinstimmungsfehlern vgl. Negro & Chanquoy, 1999.) Auch die bloße Transkription von Sätzen kommt also offenbar nicht ohne verbale und vermutlich auch zentrale Arbeitsgedächtnisressourcen aus. Selbst die grapho-motorische Exekution ist nicht generell vollständig automatisiert (Jones & Christensen, 1999). Bourdin und Fayol (1994) zeigen, dass die Gedächtnisspanne (das ist die Anzahl von Wörtern, die nach einmaliger Darbietung korrekt und in der richtigen Reihenfolge wiedergegeben werden können; Daneman & Carpenter, 1980) bei Kindern, nicht aber bei Erwachsenen, bei schriftlicher Reproduktion deutlich geringer ist als bei mündlicher Reproduktion. Diesen Effekt schreiben sie den Aufmerksamkeitsressourcen zu, die das Schreiben von Hand bei Kindern noch in Anspruch nimmt. (Dabei sind neben der Motorik allerdings mutmaßlich auch noch Orthographieprobleme beteiligt.) Durch geeignete Kontrollexperimente wird ausgeschlossen, dass dieser Effekt allein auf die langsamere Exekution des Schreibens im Vergleich zum Sprechen zurückzuführen ist. Zwingt man Erwachsene dazu, die memorierten Wörter in einem grafisch ungewohnten Schrifttyp niederzuschreiben, lässt sich ihre Gedächtnisspanne ebenfalls verringern, was dafür spricht, dass es auch bei den Kin-
364 dern tatsächlich die Motorik der Handschrift ist, die kognitiv belastet und mit der Gedächtnisaufgabe somit interferiert (vgl. auch Bourdin & Fayol, 2000). Die Implikationen dieser Befunde für die Aufgabenstellung und -bewertung im Grundschulunterricht sind m. E. gravierend und pädagogisch bislang überwiegend weder erkannt noch umgesetzt (Ossner, 1995). Für den Wissensabruf bei Erwachsenen berichtet Grabowski (1999a, b; Grabowski, Vorwerg & Rummer, 1994) demgegenüber über einen Schriftlichkeitsüberlegenheitseffekt, der an episodischen, enzyklopädischen und bildhaften Wissensbeständen nachgewiesen werden konnte: Bei kontrollierter Wissensbasis können schriftlich signifikant mehr Wissenselemente reproduziert werden als mündlich. Durch geeignete Kontrollbedingungen mit „unsichtbarer Tinte“ konnte dabei ausgeschlossen werden, dass der Effekt auf einer Arbeitsgedächtnisentlastung durch die externe Verfügbarkeit des bereits Geschriebenen beruht. Vielmehr wird angenommen, dass infolge der höheren Exekutionsgeschwindigkeit beim Sprechen pro verbalisiertem Wissenselement weniger kognitive Ressourcen aufgewendet werden können. Soweit bei (akademischen ) Prüfungen die Reproduktion von Wissen im Vordergrund steht, dürften sich diesen Befunden zu Folge schriftliche Prüfungen auch als inhaltsvalider erweisen als mündliche Prüfungen. Methodisch bleibt für die prozessbezogene Untersuchung des Schreibens das implizit bereits dargestellte Dilemma wahrscheinlich bestehen: Entweder werden die am Schreiben beteiligten Teilprozesse etwa durch die Vorgabe der zu verbalisierenden Elemente (die damit keine inhaltliche Planung mehr erfordert) so reduziert, dass bestimmte Teilprozesse (etwa die Formulierung oder die Exekution) zuverlässig indizierbar sind; die Interaktion aller schreibspezifischen Prozesse bleibt dadurch aber außer Betracht. Oder man untersucht das Schreiben bei globalen Aufgabenstellungen, kann dadurch die Beschaffenheit der einzelnen Prozesse aber nicht immer präzise ansteuern. Das Modell von Kellogg (1996) mit seiner Nähe zu allgemeinpsychologischen Gedächtnistheorien und seinen methodischen Innovationen scheint unter diesem Aspekt für die laborexperimentelle Erforschung des Schreibprozesses derzeit am vielversprechendsten zu sein.
III. Sprachproduktion
5.
Informationsquellen
Als einschlägiger institutioneller Ort, an dem die weltweit am Schreiben interessierten Psychologen und Psychologinnen regelmäßig zusammenkommen, kann die Special Interest Group „Writing“ der European Association for Research on Learning and Instruction (EARLI) gelten. Die Proceedings der zweijährlichen Konferenzen vermitteln einen Überblick über die aktuellen Forschungsinteressen und ihre Entwicklung (Boscolo, 1989; Eigler & Jechle, 1993; Cre´te´ & Espe´ret, 1999). Themenspezifisch gruppierte Forschungsbeiträge erscheinen in den Bänden der von Rijlaarsdam bei Kluwer Academic Press herausgegebenen Reihe „Studies in Writing“ („www.wkap.nl/prod/s/STUW“). Als Meilenstein der in Formation begriffenen psychologischen Schreibforschung galt lange Zeit Gregg und Steinberg (1980); analoge aktuelle Übersichten geben Levy und Ransdell (1996), Rijlaarsdam, van den Bergh und Couzijn (1996) sowie Alamargot und Chanquoy (2001). Wesentliche Impulse bekommt die linguistische wie psychologische Schreibforschung auch aus Untersuchungen zum professionellen Schreiben, beispielsweise im Zusammenhang mit dem Berufsfeld der technischen Redaktion. In Deutschland ist hier besonders die von Eva-Maria Jakobs, Dagmar Knorr und Sylvie Molitor-Lübbert initiierte Arbeitsgemeischaft PROWITEC (Produktion wissenschaftlicher Texte mit und ohne Computer; „www.sign-lang.uni-hamburg.de/ prowitec“) zu nennen, die zweijährliche Fachtagungen abhält und die Buchreihe „Textproduktion und Medium“ herausgibt. International ist hier die EATAW (European Association for the Teaching of Academic Writing; „www.hum.kn.dk/formidling/eataw“) zu nennen. Antos und Pogner (1995) haben eine thematisch gegliederte Bibliographie zur schriftlichen Sprachproduktion zusammengestellt, die zwar keinen Anspruch auf Vollständigkeit erhebt, für den Bereich deutschsprachiger Literatur im Erfassungszeitraum aber weitgehend flächendeckend ist.
6.
Literatur
Alamargot, D. & Chanquoy, L. (2001). Through the models of writing. Dordrecht: Kluwer. Anderson, J. R. (1983). The architecture of cognition. Cambridge, MA: Harvard University Press.
26. Bedingungen und Prozesse der schriftlichen Sprachproduktion Antos, G. (1982). Grundlagen einer Theorie des Formulierens: Textherstellung in geschriebener und gesprochener Sprache. Tübingen: Niemeyer. Antos, G. & Pogner, K.-H. (1995). Schreiben (Studienbibliographien Sprachwissenschaft, Band 14). Heidelberg: Groos. Baddeley, A. D. (1986). Working memory. Oxford: Oxford University Press. Bangert-Drowns, R. L. (1993). The word processor as an instructional tool: A meta-analysis of word processing in written instruction. Review of Educational Research, 63, 69⫺93. Bartl, C. & Dörner, D. (1998). Sprachlos beim Denken – zum Einfluß von Sprache auf die Problemlöse- und Gedächtnisleistung bei der Bearbeitung eines nicht-sprachlichen Problems. Sprache & Kognition, 17, 224⫺238. Beaugrande, R. de (1984). Text production: Toward a science of composition. Norwood, NJ: Ablex. Bereiter, C. & Scardamalia, M. (1987). The psychology of written composition. Hillsdale, NJ: Erlbaum. Blass, Th. & Siegman, A. W. (1975). A psycholinguistic comparison of speech, dictation and writing. Language & Speech, 18, 20⫺34. Bock, K. & Levelt, W. (1994). Language production: Grammatical encoding. In M. A. Gernsbacher (Ed.), Handbook of psycholinguistics (pp. 945⫺984). San Diego, CA: Academic Press. Boscolo, P. (Ed.) (1989). Writing: Trends in European research. Padua: Upsel editore. Bourdin, B. & Fayol, M. (1994). Is written language production more difficult than oral language production? A working memory approach. International Journal of Psychology, 29, 591⫺620. Bourdin, B. & Fayol, M. (2000). Is graphic activity cognitively costly? A developmental approach. Reading and Writing: An Interdisciplinary Journal, 13, 183⫺196. Bridwell-Bowles, L. S., Johnson. P. & Brehe, S. (1987). Composing and computers: Case studies of experienced writers. In A. Matsuhashi (Ed.), Writing in real time (pp. 81⫺107). New York: Ablex. Card, S. K., Robert, J. M. & Keenan, L. N. (1984). On-line composition of text. In B. Shackel (Ed.), Human-computer interaction (pp. 51⫺56). Amsterdam: North-Holland. Cre´te´, M.-F. & Espe´ret, E. (Eds.) (1999). Writing and learning to write at the dawn of the 21st century. Poitiers: LaCo-CNRS. Daneman, M. & Carpenter, P. A. (1980). Individual differences in working memory and reading.
365
Journal of Verbal Learning and Verbal Behavior, 19, 450⫺466. Dimter, M. (1981). Textklassenkonzepte heutiger Alltagssprache. Tübingen: Niemeyer. Eigler, G. (1996). Methoden der Textproduktionsforschung. In H. Günther & O. Ludwig (Hrsg.), Schrift und Schriftlichkeit (pp. 992⫺1004). Berlin: de Gruyter. Eigler, G. & Jechle, Th. (Eds.) (1993). Text production: Current trends in European research. Freiburg: Hochschul-Verlag. Ericsson, K. A. & Kintsch, W. (1995). Long-term working memory. Psychological Review, 102, 211⫺245. Ericsson, K. A. & Simon, H. A. (1984). Protocol analysis. Cambridge, MA: MIT Press. Fayol, M., Largy, P. & Lemaire, P. (1994). When cognitive overload enhances subject-verb agreement errors. Quarterly Journal of Experimental Psychology, 47A, 437⫺464. Fitts, P. M. & Posner, M. I. (1967). Human performance. Belmont, CA: Brooks Cole. Garrett, M. F. (1980). Levels of processing in sentence production. In B. Butterworth (Ed.), Language production (pp. 177⫺220). London: Academic Press. Gelb, I. J. (1963). A study of writing. Chicago: University of Chicago Press. Gernsbacher, M. A. (Ed.) (1994). Handbook of psycholinguistics. San Diego, CA: Academic Press. Gould, J. D. (1978a). How experts dictate. Journal of Experimental Psychology: Human Perception and Performance, 4, 648⫺661. Gould, J. D. (1978b). An experimental study of writing, dictating and speaking. In J. Requin (Ed.), Attention and performance VII (pp. 299⫺319). Hillsdale, NJ. Erlbaum. Gould, J. D. (1980). Experiments on composing letters: Some facts, some myths, and some observations. In L. Gregg & E. Steinberg (Eds.), Cognitive processes in writing (pp. 97⫺128). Hillsdale, NJ: Erlbaum. Grabowski, J. (1995). Schreiben als Systemregulation. In E.-M. Jakobs, D. Knorr & S. Molitor-Lübbert (Hrsg.), Wissenschaftliche Textproduktion. Mit und ohne Computer (pp. 11⫺34). Frankfurt/M.: Lang. Grabowski, J. (1996). Writing and speaking: Common grounds and differences toward a regulation theory of written language production. In C. M. Levy & S. Ransdell (Eds.), The science of writing: Theories, methods, individual differences, and applications (pp. 73⫺91). Mahwah, NJ: Erlbaum.
366 Grabowski, J. (1999a). Verbal modes of knowledge diagnosis: The writing superiority effect. In M.-F. Cre´te´ & E. Espe´ret (Eds.), Writing and learning to write at the dawn of the 21st century (pp. 11⫺16). Poitiers: LaCo-CNRS. Grabowski, J. (1999b). Verbale Wissensdiagnose: High-Level-Prozesse der Sprachproduktion. In I. Wachsmuth & B. Jung (Hrsg.), KogWis99. Proceedings der 4. Fachtagung der Gesellschaft für Kognitionswissenschaft (pp. 37⫺42). St. Augustin: infix. Grabowski, J. (2000). How to succeed with telephone answering machines: Leaving a message from a psycholinguistic perspective. Vortrag, gehalten auf dem 10th Annual Meeting of the Society for Text and Discourse, Lyon (F). Grabowski, J. (2003). Die Evozierung und Analyse komplexer monologischer Sprachproduktionsresultate. In Th. Herrmann & J. Grabowski (Hrsg.), Sprachproduktion (Enzyklopädie der Psychologie, Band C/III/1) (pp. 121⫺150). Göttingen: Hogrefe. Grabowski, J., Vorwerg, C. & Rummer R. (1994). Writing as a tool for control of episodic representation. In G. Eigler & Th. Jechle (Eds.), Text production: Current trends in European research (pp. 55⫺ 68). Freiburg: Hochschul-Verlag. Gregg, L. & Steinberg, E. (Eds.) (1980). Cognitive processes in writing. Hillsdale, NJ: Erlbaum. Gülich, E. & Raible, W. (Hrsg.) (1975). Textsorten. Differenzierungskriterien aus linguistischer Sicht. Wiesbaden: Athenaion. Günther, H. & Ludwig, O. (Hrsg.) (1994). Schrift und Schriftlichkeit: Ein interdisziplinäres Handbuch internationaler Forschung (HSK, Band 10.1). Berlin: de Gruyter. Günther, H. & Ludwig, O. (Hrsg.) (1996). Schrift und Schriftlichkeit: Ein interdisziplinäres Handbuch internationaler Forschung (HSK, Band 10.2). Berlin: de Gruyter. Günther, H. & Pompino-Marschall, B. (1996). Basale Aspekte der Produktion und Perzeption mündlicher und schriftlicher Äußerungen. In H. Günther & O. Ludwig (Hrsg.), Schrift und Schriftlichkeit (pp. 903⫺917). Berlin: de Gruyter. Hayes, J. R. (1996). A new framework for understanding cognition and affect in writing. In C. M. Levy & S. Ransdell (Eds.), The science of writing: Theories, methods, individual differences, and implications (pp. 1⫺27). Mahwah, NJ: Erlbaum. Hayes, J. R. & Flower, L. S. (1980). Identifying the organization of writing processes. In L. W. Gregg & E. R. Steinberg (Eds.), Cognitive processes in writing (pp. 3⫺30). Hillsdale, NJ. Erlbaum. Hayes, J. R., Flower, L. S., Schriver, K. S., Stratman, J. & Carey, L. (1987). Cognitive approaches
III. Sprachproduktion in revision. In S. Rosenberg (Ed.), Advances in applied psycholinguistics. Vol. 2: Reading, writing, and language processing (pp. 176⫺240). New York: Cambridge University Press. Hayes, J. R. & Nash, J. G. (1996). On the nature of planning in writing. In C. M. Levy & S. Ransdell (Eds.), The science of writing: Theories, methods, individual differences, and applications (pp. 29⫺55). Mahwah, NJ: Erlbaum. Herrmann, Th. (1985). Allgemeine Sprachpsychologie. München: Urban & Schwarzenberg. Herrmann, Th. & Grabowski, J. (1994). Sprechen – Psychologie der Sprachproduktion. Heidelberg: Spektrum Akademischer Verlag. Herrmann, Th. & Grabowski, J. (1995). Pre-terminal levels of process in oral and written language production. In U. Quasthoff (Ed.), Aspects of oral communication (pp. 67⫺87). Berlin: de Gruyter. Herrmann, Th., Kilian, E., Dittrich, S. & Dreyer, P. (1992). Was- und Wie-Schemata beim Erzählen. In H. P. Krings & G. Antos (Hrsg.), Textproduktion. Neue Wege der Forschung (pp. 147⫺158). Trier: WVT. Hidi, S. E. & Hildyard, A. (1983). The comparison of oral and written productions in two discourse types. Discourse Processes, 6, 91⫺105. Horowitz, M. & Newman, J. (1964). Spoken and written expression: An experimental analysis. Journal of Abnormal and Social Psychology, 68, 640. Jones, D. & Christensen, C. A. (1999). Relationship between automaticity in handwriting and students’ ability to generate written text. Journal of Educational Psychology, 91, 44⫺49. Kahneman, D. (1973). Attention and effort. Englewood Cliffs, NJ: Prentice-Hall. Kellogg, R. T. (1988). Attentional overload and writing performance: Effects of rough draft and outline strategies. Journal of Experimental Psychology: Learning, Memory, and Cognition, 14, 355⫺ 365. Kellogg, R. T. (1990). Effectiveness of prewriting strategies as a function of task demand. American Journal of Psychology, 103, 327⫺342. Kellogg, R. T. (1994). The psychology of writing. New York: Oxford University Press. Kellogg, R. T. (1996). A model of working memory in writing. In C. M. Levy & S. Ransdell (Eds.), The science of writing: Theories, methods, individual differences, and applications (pp. 57⫺71). Mahwah, NJ: Erlbaum. Kellogg, R. T. (1999). Components of working memory in text production. In M. Torrance & G. Jeffery (Eds.), The cognitive demands of writing:
26. Bedingungen und Prozesse der schriftlichen Sprachproduktion Processing capacity and working memory in text production (Studies in writing, Vol. 3) (pp. 43⫺61). Amsterdam: Amsterdam University Press. Kellogg, R. T. (2003). Schriftliche Sprachproduktion. In Th. Herrmann & J. Grabowski (Hrsg.), Sprachproduktion (Enzyklopädie der Psychologie, Band C/III/1) (pp. 531⫺560). Göttingen: Hogrefe. Klein, W. (1985). Gesprochene Sprache – geschriebene Sprache. Zeitschrift für Literaturwissenschaft und Linguistik, 59, 9⫺35. Kluwe, R. H. (1988). Methoden der Psychologie zur Gewinnung von Daten über menschliches Wissen. In H. Mandl & H. Spada (Hrsg.), Wissenspsychologie (pp. 359⫺385). München: PVU. Knobloch, C. (1996). Historisch-systematischer Aufriß der psychologischen Schreibforschung. In H. Günther & O. Ludwig (Hrsg.), Schrift und Schriftlichkeit (pp. 983⫺992). Berlin: de Gruyter. Koch, P. & Oesterreicher, W. (1994). Schriftlichkeit und Sprache. In H. Günther & O. Ludwig (Hrsg.), Schrift und Schriftlichkeit (pp. 587⫺604). Berlin: de Gruyter. Langer, J. A. (1984). The effects of available information on responses to school writing tasks. Research in the Teaching of English, 18, 27⫺44. Lea, J. & Levy, C. M. (1999). Working memory as a resource in the writing process. In M. Torrance & G. Jeffery (Eds.), The cognitive demands of writing: Processing capacity and working memory in text production (Studies in writing, Vol. 3) (pp. 63⫺82). Amsterdam: Amsterdam University Press. Levelt, W. J. M. (1989). Speaking: From intention to articulation. Cambridge: MIT Press. Levy, C. M. & Marek, P. (1999). Testing components of Kellogg’s multicomponent model of working memory in writing: The role of the phonological loop. In M. Torrance & G. Jeffery (Eds.), The cognitive demands of writing: Processing capacity and working memory in text production (Studies in writing, Vol. 3) (pp. 25⫺41). Amsterdam: Amsterdam University Press. Levy, C. M. & Ransdell, S. (1994). Computer-aided protocol analysis of writing processes. Behavior Research Methods, Instruments, & Computers, 26, 219⫺223. Levy, C. M. & Ransdell, S. (Eds.) (1996). The science of writing: Theories, methods, individual differences, and applications. Mahwah, NJ: Erlbaum. Ludwig, O. (1980). Geschriebene Sprache. In H. P. Althaus, H. Henne & H. E. Wiegand (Hrsg.), Lexikon der Germanistischen Linguistik (pp. 323⫺328). Tübingen: Niemeyer. Matsuhashi, A. (1981). Pausing and planning: The tempo of written discourse production. Research in the Teaching of English, 15, 113⫺134.
367
Matsuhashi, A. (Ed.) (1987). Writing in real time: Modelling production processes. New York: Ablex. McCutchen, D. (1995). Cognitive processes in children’s writing: Developmental and individual differences. Issues in Education, 1, 123⫺160. Molitor-Lübbert, S. (1996). Schreiben als mentaler und sprachlicher Prozeß. In H. Günther & O. Ludwig (Hrsg.), Schrift und Schriftlichkeit (pp. 1005⫺ 1027). Berlin: de Gruyter. Negro, I. & Chanquoy, L. (1999). Subject-verb agreement errors in writing: Phonological and semantic control in adults. In M. Torrance & G. Jeffery (Eds.), The cognitive demands of writing: Processing capacity and working memory in text production (Studies in writing, Vol. 3) (pp. 83⫺98). Amsterdam: Amsterdam University Press. Nottbusch, G., Weingarten, R. & Will, U. (1998). Schreiben mit der Hand und Schreiben mit dem Computer. Osnabrücker Beiträge zur Sprachtheorie, 51, 11⫺27. Oberauer, K. & Hockl, I. (2003). Sprachproduktion und kognitive Ressourcen. In Th. Herrmann & J. Grabowski (Hrsg.), Sprachproduktion (Enzyklopädie der Psychologie, Band C/III/1) (pp. 361⫺392). Göttingen: Hogrefe. Ossner, J. (Hrsg.) (1995). Schriftaneignung und Schreiben. Osnabrücker Beiträge zur Sprachtheorie, 51. Piolat, A., Roussey, J. Y., Olive, T. & Farioli, F. (1996). Charge mental et mobilisation des processus re´dactionels: examen de la proce´dure de Kellogg. Psychologie Franc¸aise, 41, 339⫺354. Portnoy, S. (1973). A comparison of oral and written verbal behavior. In K. Salzinger & R. Feldmann (Ed.), Studies in verbal behavior (pp. 99⫺ 151). New York: Pergamon. Ransdell, S. & Levy, C. M. (1996). Working memory constraints on writing quality and fluency. In C. M. Levy & S. Ransdell (Eds.), The science of writing: Theories, methods, individual differences, and implications (pp. 93⫺101). Mahwah, NJ: Erlbaum. Ransdell, S. & Levy, C. M. (1999). Writing, reading, and speaking memory spans and the importance of resource flexibility. In M. Torrance & G. Jeffery (Eds.), The cognitive demands of writing: Processing capacity and working memory in text production (Studies in writing, Vol. 3) (pp. 99⫺ 113). Amsterdam: Amsterdam University Press. Rijlaarsdam,, G., van den Bergh, H. & Couzijn, M. (Eds.) (1996). Theories, models and methodology in writing research (Studies in writing, Vol. 2). Amsterdam: Amsterdam University Press.
368
III. Sprachproduktion
Rummer, R. (1996). Kognitive Beanspruchung beim Sprechen. Weinheim: Beltz. Rummer, R., Grabowski, J. & Vorwerg, C. (1995). Kontrollprozesse beim Sprechen: Flexibilität und Determination der ereignisbezogenen Äußerungsplanung. Zeitschrift für Psychologie, 203, 25⫺51. Schriefers, H. (2003). Methodologische Probleme. In Th. Herrmann & J. Grabowski (Hrsg.), Sprachproduktion (Enzyklopädie der Psychologie, Band C/III/1) (pp. 1⫺26). Göttingen: Hogrefe. Thomassen, A. J. W. M. (1996). Writing by hand. In H. Günther & O. Ludwig (Hrsg.), Schrift und Schriftlichkeit (pp. 1027⫺1035). Berlin: de Gruyter. Torrance, M. & Galbraith, D. (Eds.) (1999). Knowing what to write: Conceptual processes in text production (Studies in writing, Vol. 4). Amsterdam: Amsterdam University Press.
Torrance, M., Thomas, G. V. & Robinson, E. J. (2000). Individual differences in undergraduate essay-writing strategies: A longitudinal study. Higher Education, 39, 181⫺200. Velichkovsky, B. M. (1994). Sprache, Evolution und die funktionale Organisation der menschlichen Erkenntnis. In H.-J. Kornadt, J. Grabowski & R. Mangold-Allwinn (Hrsg.), Sprache und Kognition (pp. 113⫺131). Heidelberg: Spektrum Akademischer Verlag. Voss, J. F., Vesonder, G. T. & Spillich, G. J. (1980). Text generation and recall by high-knowledge and low-knowledge individuals. Journal of Verbal Learning and Verbal Behavior, 17, 651⫺667.
Joachim Grabowski Pädagogische Hochschule Heidelberg (Deutschland)
27. Sprechen über Objekte 1. 2. 3. 4. 5. 6.
1.
Einleitung: Beschreiben und Benennen Determination der Attributspezifikation Determination der Objektklassenbezeichnung Modelle der Produktion von Objektbenennungen Ausblick Literatur
Einleitung: Beschreiben und Benennen
Das Sprechen über Objekte ist dadurch charakterisiert, dass mit Hilfe sprachlicher Ausdrücke ein Bezug zu Gegenständen der externen Welt hergestellt wird. Die Bezugnahme auf ein Objekt kann mit Hilfe einer ausführlicheren Beschreibung oder einer kürzeren Objektbenennung erfolgen. Das deutsche Wort „Benennung“ bezieht sich nicht auf denselben Sachverhalt wie das englische Wort „naming“, das den Vorgang bezeichnet, bei dem ein Objekt mit einem neuen Namen belegt wird. Diese „Namengebung“ ist beispielsweise bei der Vergabe von Dateibezeichnungen („file names“; vgl. Carroll, 1982, 1985) oder bei der Wahl von Bezeichnungen für Funktionen im Menü einer grafischen Benutzungsoberfläche (vgl. Wandmacher, 1993) zu beobachten. Sie tritt aber auch beim Sprechen über Objekte auf; so zeigen Krauss und
Weinheimer (1964), dass Kommunikationspartner dazu tendieren, über neuartige und mehrdeutige Objekte zunächst mit Hilfe ausführlicher Beschreibungen zu sprechen, bevor sie im fortgesetzten Verlauf der Interaktion den Objekten zunehmend kürzere Bezeichnungen zuordnen und sich unter Verwendung dieser Bezeichnungen auf die Objekte beziehen. Dieser Konstruktionsprozess wird ausführlicher von Clark und Wilkes-Gibbs (1986) diskutiert (vgl. auch Krauss, 1987; Horton & Keysar, 1996). In beiden Fällen werden Eigenschaften des Objektes aufgegriffen und sprachlich verschlüsselt. Im Folgenden wird die Vermittlung von Objektinformation primär unter der Vorgabe erörtert, dass dem Partner des Sprechers die vermittelte Objektidentifikation dazu dienen soll, das beschriebene bzw. benannte Objekt zu identifizieren. Dies muss jedoch keinesfalls das im Vordergrund stehende oder gar einzige Ziel sein, das mit einer Objektbenennung verbunden ist (vgl. Donellan, 1974; Carroll, 1980, 1985; Mangold-Allwinn, von Stutterheim, Barattelli, Kohlmann & Koelbing, 1992). Als referentielle Nominalphrasen bestehen Objektbenennungen häufig aus einem Artikel, einer im Nomen gegebenen Objektklassenbezeichnung und optionalen weiteren Attributverschlüsselungen (z. B. „das Fahrrad“, „der große rote Ball“). Selten umfasst eine
27. Sprechen über Objekte
Benennung alle sprachlich enkodierbaren Eigenschaften des Zielobjektes; vielmehr ist die Zusammensetzung und Formulierung referentieller Nominalphrasen interindividuell und intersituativ variabel und hängt von einer Reihe von Faktoren ab. Bei der Suche nach diesen Determinanten lassen sich zwei Forschungstraditionen danach unterscheiden, ob untersucht wird, (i) welche und wie viele Objektattribute für eine Benennung gewählt werden (Attributspezifikation) und (ii) auf welchem Spezifitätsniveau die Objektklasse verschlüsselt wird (Kategorienspezifikation). (Auf das Problem der lexikalischen Determiniertheit referentieller Nominalphrasen gehe ich hier nicht ein; vgl. hierzu Mangold-Allwinn et al., 1992; Mangold-Allwinn, Barattelli, Kiefer & Koelbing, 1995).
2.
Determination der Attributspezifikation
Die Überlegungen von Olson (1970) zur Rolle des Kontextes beim Sprechen über Objekte werden den Anfängen der Benennungsforschung zugerechnet (vgl. Deutsch, 1994; Mangold-Allwin, 1994). In Olsons Aufsatz „Language and thought“ (1970) wird die Annahme entwickelt, dass ein Sprecher bei der Benennung solche Objektattribute – auch die Objektkategorie wird hier als Objekteigenschaft aufgefasst – enkodiert, die sich in dieser Kombination nur bei dem intendierten Objekt, nicht jedoch bei den Kontextobjekten wiederfindet. Im Anschluss an Pechmann (1984) können referentielle Nominalphrasen mit genau der für eine eindeutige Objektidentifikation erforderlichen Anzahl von Objektattributen als Minimalspezifikationen gelten. Lassen sich mehrere (alternative) diskriminative Attribute oder Attributkombinationen finden, ist das Objekt multipel benennbar. Enthalten Objektbenennungen weniger als die notwendige Anzahl von Attributspezifikationen, sind sie unterspezifiziert, enthalten sie mehr, sind sie überspezifiziert. Anders formuliert, besagt Olsons (1970) Hypothese demnach, dass Objektbenennungen im Allgemeinen weder unter- noch überspezifiziert, sondern vielmehr minimalspezifiziert sind. Eine solche Formulierung erinnert an das informationstheoretische Konzept einer Nachricht, deren Informationsgehalt danach bestimmt wird, in welchem Ausmaß sie Unsicherheit beim Empfänger reduziert: Eine minimalspezifizierte
369 Objektbenennung hat als Nachricht den maximalen Informationsgehalt, eine unterspezifizierte einen geringeren als den maximalen Informationsgehalt, und eine überspezifizierte ist redundant. Zwar beobachteten Ford und Olson (1975) bei Kindern ein Benennungsverhalten, das die These Olsons (1970) zu bestätigen scheint, doch zeigte sich in der Vergangenheit in einer Vielzahl von Untersuchungen immer wieder, dass Objektbenennungen zwar nur in seltenen Fällen unterspezifiziert (vgl. hierzu aber Pechmann, 1984), deutlich häufiger jedoch überspezifiziert sind, als dies aufgrund der theoretischen Überlegungen zu erwarten wäre. Eine nähere Betrachtung der Beschaffenheit überspezifizierter Benennungen klärt die Situation. Einmal treten überspezifizierte Benennungen häufig dann auf, wenn die Objektkategorie zwar (im Nomen der referentiellen Nominalphrase) kodiert ist, ohne aber als diskriminative Information erforderlich zu sein. Unterschiede zu den Daten von Ford und Olson (1975) sind unter anderem darauf zurückzuführen, dass im Englischen Konstruktionen wie „the red one“ durchaus möglich sind, während im Deutschen vollständige Nominalphrasen vorherrschen. Weiterhin ist zu beobachten, dass zusätzlich zu den diskriminativen vorzugsweise perzeptuell auffällige, also für den Sprecher und den Hörer gut und rasch erkennbare Objektattribute spezifiziert sind (Mangold & Pobel, 1988). Zur Erklärung der Überspezifikation dürfte demnach ein theoretischer Ansatz, der auf die Funktion von Redundanz bei der Sicherstellung der Informationsübertragung bei der referentiellen Kommunikation beruht, weniger zutreffend sein (vgl. Deutsch, 1976; Mangold, 1987); vielmehr wurden vor dem Hintergrund der genannten Beobachtung zwei alternative Ansätze diskutiert: Einmal wird die Überspezifikation darauf zurückgeführt, dass die zusätzlich gebotenen perzeptuell auffälligen Objektinformationen dem Hörer die Objektidentifikation erleichtern. Für diese Annahme spricht, dass im Unterschied zu Deutsch (1976), der von einer generellen Identifikationserleichterung durch Überspezifikation ausgeht, Mangold (1986, 1987) einschränkend zeigen konnte, dass eine raschere Objektidentifikation nur bei einer zusätzlichen Spezifikation perzeptuell auffälliger Objektattribute auftritt. Überspezifikation nicht auffälliger Attribute dagegen erleichtert die Objektsuche nicht, sondern kann sie sogar
370 (geringfügig) verzögern. Zudem fanden Mangold und Pobel (1988) eine gute Übereinstimmung zwischen den bei der Benennung häufig zusätzlich spezifizierten und den bei der Identifikation die Suche erleichternden Attribute. Bei einer zweiten Erklärungsalternative wird die Überspezifikation auf Eigenschaften des Sprechersystems zurückgeführt. Danach treten für die eindeutige Objektidentifikation nicht erforderliche Attribute bei der Produktion einer Objektbenennung deshalb auf, weil deren Unterdrückung für den Sprecher kognitiv zu aufwendig wäre. So berichtet Deutsch (1986) beispielsweise über Befunde, wonach Sprecher für minimalspezifizierte Benennungen eine längere Zeitdauer benötigen als für überspezifizierte, was auf eine erforderliche intensivere Sprechplanung und -vorbereitung hindeuten könnte. Pechmann (1984, 1989; Pechmann & Zerbst, 1990) hebt hervor, dass bei der Produktion einer Benennung, die eine eindeutige Objektidentifikation durch den Partner erlaubt, die Eigenschaften des intendierten Objektes mit denen seiner Kontextobjekte verglichen werden müssen. Er nimmt an, dass es sich bei dem Prozess des Objektvergleichs und dem Prozess der Sprachproduktion zwar um unterschiedliche, jedoch zeitlich überlappend ablaufende Vorgänge handelt und dass die Sprachproduktion im Allgemeinen bereits einsetzt, bevor der Attributvergleich vollständig abgeschlossen ist. Zur Überspezifikation kommt es dann, wenn bereits zu einem frühen Zeitpunkt (teildiskriminative) Attribute sprachlich verschlüsselt werden, die für eine eindeutige Objektbenennung nicht notwendig sind, und wenn sich dieser Sachverhalt erst gegen Ende des perzeptuellen Vergleichsprozesses herausstellt. Ein Indiz für diese These ergibt sich aus folgender Beobachtung: Im Deutschen entspricht die Adjektivreihenfolge von Größen- und Farbattributen nicht der perzeptuellen Salienz dieser Attribute. Beispielsweise wird nach den Regeln der Adjektivreihung das Größenattribut in der referentiellen Nominalphrase vor dem Farbattribut spezifiziert (z. B. „der große rote Ball“; vgl. Martin, 1969a, b), doch liegt beim Attributvergleich wegen der größeren Salienz im Allgemeinen die Information über diskriminative Farbeigenschaften zu einem früheren Zeitpunkt vor als über diskriminative Größeneigenschaften (vgl. aber Mangold, 1986). In Untersuchungen konnte Pechmann (1984, 1989, Pechmann & Zerbst, 1990) beobachten,
III. Sprachproduktion
dass es bei Benennungen gar nicht so selten zu Vertauschungen der vorgesehenen Adjektivreihenfolge (z. B. bei „der blaue große Ball“) oder zu Korrekturen kommt (z. B. „der rote, äh, der große rote Ball“). Dies kann als Indiz für ein kompliziertes Wechselspiel von perzeptuellen, kognitiven und sprachlichen Prozessinstanzen bei der Bennungsproduktion gewertet werden. Ob die Überspezifikation referentieller Nominalphrasen aufgrund einer Partnerorientierung oder aufgrund von Besonderheiten des Sprachproduktionsprozesses zustande kommt, kann vor dem Hintergrund der gegenwärtigen Befundlage nicht eindeutig entschieden werden. Eine Integration beider Ansätze führt zu der Annahme, dass zumindest einige Prozesskomponenten sowohl bei der Produktion als auch bei der Rezeption von Objektbenennungen beteiligt sind (vgl. aber Deutsch, 1986) und auf diese Weise die zuvor beschriebenen Ähnlichkeiten auf Sprecherund Hörerseite bedingen. Außerdem kann die referentielle Kommunikation als interaktiver Vorgang gesehen werden, bei dem Sprecher und Hörer einen „common ground“ etablieren und die Intentionen und Wirkungen von Objektbenennungen „aushandeln“ (vgl. Clark & Wilkes-Gibbs, 1986). Sprecher können sich z. B. dadurch „partnerorientiert“ verhalten, dass sie dem Hörer durch die Betonung ausgewählter Wörter Hinweise auf die für die Objektidentifikation relevanten Komponenten der referentiellen Nominalphrase vermitteln. Dieser kann so für die Objektsuche unwesentliche, jedoch aufgrund sprachlicher Normen oder Gewohnheiten oder aufgrund der Besonderheiten des Sprechersystems in die Benennung eingeflossene Bestandteile der Benennung ignorieren. Wie Pechmann (1984, 1989) zeigt, spielt in diesem Zusammenhang die Betonung eine wichtige Rolle: Wenn Sprecher nacheinander ähnliche Objekte benennen, betonen sie die neu hinzugekommene Information (z. B. „der rote Ball … und jetzt der blaue Ball“). Es wurde bereits berichtet, dass nur unter bestimmten Bedingungen zusätzlich genannte Objektattribute die Objektsuche des Partners erleichtern, erschwert wird dagegen die Objektidentifikation durch die Nennung von Farbattributen, die sowohl beim Zielobjekt als auch bei allen Kontextobjekten vorkommen und so dem Partner keinen Suchvorteil bieten. Wie verhält es sich aber bei Attributen, die der Kommunikationspartner aus der Bezeichnung der Objektklasse inferieren
27. Sprechen über Objekte
kann? Dies ist etwa der Fall, wenn einer Objektkategorie eindeutig eine Farbeigenschaft zugeordnet ist (z. B. Feuerwehrfahrzeugen die Farbe „rot“ und Briefkästen die Farbe „gelb“). Weiß und Mangold (1997) konnten in ihrer Untersuchung einmal den bereits berichteten Befund replizieren, dass die Spezifikationswahrscheinlichkeit für das Farbattribut dann hoch ist, wenn diese Eigenschaft bei einer Teilmenge der Kontextobjekte nicht auftritt (⫽ teildiskriminatives Attribut). Ist die Farbe jedoch für die Klasse des Zielobjektes charakteristisch (und kann sie daher vom Partner aus der Information zur Objektkategorie erschlossen werden), wird sie signifikant seltener spezifiziert. Dieser Effekt bleibt auch dann erhalten, wenn die Sprecher (aufgrund experimenteller Settings) Zweifel über die leichte Erschließbarkeit der Farbeigenschaft durch den Partner haben konnten. Zusammenfassend ist festzustellen, dass es sich bei der Wahl von Attributspezifikationen beim Sprechen über Objekte um einen Vorgang handelt, bei dem sowohl sprecherseitige Faktoren als auch hörerseitige Verstehensbedingungen zusammenwirken. Die Komplexität dieses Sprachproduktionsprozesses nimmt weiter zu, wenn (vollständig diskriminative) Benennungen nicht auf einmal („one shot“) erfolgen, sondern wenn das gemeinte Objekt in der ausgedehnten Interaktion mit dem Partner isoliert wird. In diesem Zusammenhang spielen auch Zeigegesten (Deutsch & Clausing, 1979, Deutsch & Pechmann, 1982) oder sprachliche Lokalisationen von Objekten (Herrmann & Grabowski, 1994, S. 107 ff.) eine besondere Rolle. Wie in der alltäglichen referentiellen Kommunikation die unterschiedlichen Möglichkeiten der Vermittlung identifikationsrelevanter Objektinformationen eingesetzt bzw. kombiniert werden, ist allerdings bislang nur wenig erforscht.
3.
Determination der Objektklassenbezeichnung
Im vorhergehenden Abschnitt wurde die Angabe der Objektklasse wie andere Objektattribute behandelt. Insbesondere bei diesem Objektattribut spielt jedoch die Ebene, auf der eine Kategorisierung des Zielobjektes vorgenommen wird, eine besondere Rolle. Beispielsweise kann ein Sprecher einen Pudel als „Pudel“, als „Hund“ oder als „Tier“ bezeichnen. Dabei ist zu vermuten, dass die Vermittlung der für eine verwechslungsfreie
371 Identifikation erforderlichen diskriminativen Informationen auch die Wahl der Objektklassenbezeichnung beeinflusst. Beispielsweise ist eine spezifischere Bezeichnung als „Hund“ dann erforderlich, wenn ein Pudel von einem Schäferhund unterschieden werden muss. Alle weniger spezifischen Bezeichnungen (z. B. „Hund“) wären in dieser Situation nicht hinreichend diskriminativ und könnten allenfalls durch attributive Ergänzungen wie „schwarz“ einen diskriminativen Status erreichen. Andererseits ist es nicht erforderlich, eine Objektklassenbezeichnung zu wählen, die spezifischer ist als der für eine eindeutige Identifikation erforderliche Allgemeinheitsgrad (z. B. „Pudel“, um einen Pudel von einer Siamkatze abzugrenzen). Dieses Prinzip gilt nur, solange als Ziel die Vermittlung diskriminativer Information im Vordergrund steht (vgl. Kiefer, Barattelli & Mangold-Allwinn, 1995). Im üblichen („usual“; vgl. Cruse, 1977) Sprachgebrauch ist eine Präferenz für einen mittleren Spezifitätsgrad der Bezeichnung der Objektklasse zu beobachten (z. B. „Hund“). Eine besondere Stellung von Kategorien eines mittleren Allgemeinheitsgrades findet sich auch bei der Verarbeitung begrifflicher Kategorien; dabei zeichnet sich diese „Basisebene“ unter anderem (und experimentell nachweisbar) dadurch aus, dass auf ihr die Kategorienexemplare noch in einer großen Anzahl von Merkmalen übereinstimmen, dass hier gegebenenfalls noch gemeinsame Bewegungsmuster für die Exemplare bestehen, dass es für die Exemplare noch eine ähnliche Gestalt (⫽ Umriss) gibt und dass der durchschnittliche Umriss aller Exemplare noch eine Identifikation der Kategorienmitgliedschaft erlaubt (vgl. Rosch, Mervis, Gray, Johnson & Boyes-Braem, 1976: 385 ff.). Diese Ausführungen deuten schon an, dass sich einerseits eine kognitionspsychologische und andererseits eine kommunikationslogische Erklärung für die Bevorzugung einer Ebene mittlerer Spezifität beim Sprechen über Objekte finden lässt. Im Rahmen eines kognitionspsychologischen Ansatzes beruht die Präferenz für die Basisebene auf der Tatsache, dass beim Kategorisieren Objekte zuerst auf dieser Ebene einer Klasse zugeordnet werden (und so vom Sprecher bevorzugt auch auf dieser Ebene benannt werden; vgl. Rosch et al., 1976). Eine ähnliche Erklärung bietet der Primärbegriffs-Ansatz von Hoffmann (1986; Hoffmann & Kämpf, 1985), wonach für Kategorisierungen auf untergeord-
372 neten (z. B. Küchenstuhl) und auf der Primärbegriffsebene (z. B. Stuhl) vorrangig visuelle Objektmerkmale von Bedeutung sind, wohingegen übergeordnete Kategorien (z. B. Möbel) durch funktionale Eigenschaften bestimmt sind. Die Primärbegriffsebene kann durch die geringste mögliche Zahl visueller Merkmale identifiziert werden, sie liegt somit bei der Kategorisierung zeitlich zuerst im Arbeitsgedächtnis vor und kann am einfachsten und raschesten sprachlich enkodiert werden. Beim kommunikationslogischen Ansatz ergänzt Cruse (1977) das Kooperationsprinzip bei der sprachlichen Interaktion (vgl. Grice, 1979) durch die Annahme, dass bei der (referentiellen) Kommunikation auf der Ebene mittlerer Spezifität (⫽ „level of usual utitility“) weder zu wenig noch zu viel Information vermittelt wird und dass die Verwendung von Bezeichnungen auf dieser Ebene kommunikativ am nützlichsten ist (vgl. Brown, 1958). Weicht ein Sprecher von den Standardbenennungen mittlerer Spezifität ab und ist diese Abweichung nicht durch den Kontext gerechtfertigt (z. B. wenn es erforderlich ist, einen Pudel von einem Terrier durch die Benennung „Pudel“ zu unterscheiden), dann ist eine solche Benennung markiert und transportiert zusätzliche Bedeutungselemente für den Partner. Beispielsweise kann durch eine solche Markierung eine affektive Tönung hervorgerufen werden („Nehmen Sie das Tier weg“ statt „Nehmen Sie den Hund weg“), oder es können ausgewählte Objektmerkmale akzentuiert werden („Er saß im Schatten einer Eiche“ statt „Er saß im Schatten eines Baumes“). Untersuchungen zeigen jedoch, dass nicht immer die Basisebene (bzw. die Primärbegriffsebene) die bevorzugte Ebene der Benennung ist und dass in manchen Situationen beträchtliche Abweichungen hin zu einer spezifischeren oder einer abstrakteren Benennung auftreten. So konnten folgende Faktoren als Determinanten der lexikalischen Spezifität von Objektklassenbezeichnungen identifiziert werden (vgl. Mangold-Allwinn, Barattelli, Kiefer & Koelbing, 1995): (i) Die Typikalität der Objekte: Für die übergeordnete Kategorie untypische Objekte werden eher auf einer der Basisebene untergeordneten Ebene bezeichnet als typische (z. B. ein Pinguin als „Pinguin“ und nicht als „Vogel“; vgl. Hoffmann & Zießler, 1982; Hoffmann & Klein, 1988). Auf diesen Zusammenhang wirken jedoch weitere Faktoren wie die für die Benennung zur Verfügung stehende Zeit, der Be-
III. Sprachproduktion
kanntheitsgrad der Objekte und die Expertise des Sprechers ein. (ii) Die Verarbeitungseigenschaften für visuelle Objektmerkmale: Visuelle Objekteigenschaften haben für ihre Verarbeitung im kognitiven System einen unterschiedlichen Kapazitätsbedarf und nur, wenn die benötigte Verarbeitungszeit zur Verfügung steht, wird das Objekt auf einer untergeordneten Ebene benannt. (iii) Das Vorwissen: Bei einem hohen Vertrautheitsgrad der Objekte (für Experten) und bei einer langen Darbietungszeit nimmt die Häufigkeit untergeordneter Benennungen zu. (iv) Das übergeordnete kommunikative (Diskurs-) Ziel: Bei der Beschreibung von Objektanordnungen (z. B. einem aus Teilen eines Holzbaukastens bestehenden Flugzeug) werden häufiger untergeordnete Benennungen produziert als bei Instruktionen des Zusammenbaus dieser Objektkomplexe. Bei Instruktionen werden jedoch häufiger untergeordnete Bezeichnungen produziert, wenn die Sprecher bereits für den Zusammenbau relevante Vorerfahrungen sammeln konnten. (v) Die kognitive und sprachliche Kompetenz des Hörers: Erwachsene Sprecher produzieren Kindern gegenüber häufiger Objektbenennungen auf der Basisebene als bei erwachsenen Partnern. Der Anteil spezifischer Bezeichnungen nimmt insbesondere dann zu, wenn die Sprecher den Kategorien- und Spracherwerb ihres kindlichen Gesprächspartners unterstützen wollen. (vi) Der Diskurskontext: Im Diskursverlauf bezieht sich der Sprecher entweder zum ersten Mal (⫽ Neueinführung) oder erneut (⫽ Wiederaufnahme der Referenz) auf ein Objekt. (Die unmittelbare Fortführung der Referenz nach der Neueinführung wird als „Erhalt“ bezeichnet.) Die Wahrscheinlichkeit untergeordneter Objektklassenbezeichnungen ist bei Neueinführungen höher als bei Wiederaufnahmen und bei Erhalten. Sie dominieren insbesondere dann, wenn die spezifischere Ebene für das kommunikative Ziel instrumentell ist. Bisher wurde eine Reihe von Faktoren erörtert, die den Sprecher zu einer Abweichung von der Basisebene hin zur untergeordneten Ebene beeinflussen. Weder die Notwendigkeit zur erforderlichen Diskriminativität noch die hier erörterten Einflussfaktoren können jedoch erklären, warum Sprecher gelegentlich auch Benennungen produzieren, die der Basisebene übergeordnet sind. So sind bei der Neueinführung von Objekten in Diskursen übergeordnete Bezeichnungen in beträchtlicher Häufigkeit zu beobachten. Eine
27. Sprechen über Objekte
Erklärung hierfür ist, dass es Sprechern zunächst schwer fällt, eine zutreffende Bezeichnung zu finden, und sie daher erst im Verlauf des Diskurses eine spezifischere Benennung wählen. Zudem können – wie bereits angedeutet – übergeordnete Benennungen auch positive („Welch ein schönes Tier!“) oder negative affektive Bewertungen („Nimm das Tier weg!“) signalisieren. Schließlich kommen übergeordnete Benennungen häufiger bei Referenzen auf Objektmengen („die roten und grünen Klötze“) vor. Bezeichnungen von Objektklassenbezeichnungen variieren nicht nur im Hinblick auf die (kognitive bzw. lexikalische) Spezifität, also ihren Allgemeinheitsgrad in der taxonomischen Hierarchie der Objekte. So berichtet Herrmann (1976; vgl. auch Herrmann & Deutsch, 1976) über Experimente zur Variation der Sprachschichthöhe, bei denen als abhängige Variable erfasst wurde, ob ein Objekt auf einer hohen oder einer niedrigen Sprachebene (⫽ Sprachschichtniveau; z. B. „Fußball vs. Pille“, „Gewehr vs. Knarre“) benannt wurde. Es konnte gezeigt werden, dass bei einer engen sozialen Beziehung zwischen Sprecher und Partner und einem engen Bezug des Sprechers zum Objekt Bezeichnungen auf niedrigem Niveau häufiger vorkommen. Pobel (1991) ließ Versuchspersonen Benennungen für Objekte mit unterschiedlichen (vorgegebenen) Nebenzielen produzieren. Während beispielsweise in einem neutralen Kontext ein Stuhl überwiegend als „Stuhl“ bezeichnet wird, wird die Benennung „Holzstuhl“ oder „Küchenstuhl“ bevorzugt, wenn für den Sprecher die Tatsache im Vordergrund steht, dass der Stuhl nur ein unbequemes Sitzen ermöglicht. Befindet sich der Stuhl dagegen in schlechtem Zustand und droht unter dem Sitzenden zusammenzubrechen, so wird als Benennung eher „Schrottstuhl“ oder „Krücke von einem Stuhl“ gewählt. Es ist ersichtlich, dass durch solche Bezeichnungen eine spezifische Eigenschaft in den Vordergrund gebracht werden soll.
4.
Modelle der Produktion von Objektbenennungen
Zur Modellierung von Teilaspekten bei der Produktion von Objektbenennungen wurde bereits auf theoretische Vorstellungen von Herrmann und Deutsch (1976; vgl. auch Herrmann, 1976), Deutsch (1986) oder Pechmann (1989) hingewiesen. In weiteren Mo-
373 dellansätzen wird versucht, den Prozess von der Wahrnehmung des Zielobjektes (und seiner Kontextobjekte) bis zur sprachlichen Enkodierung der gewählten Benennung möglichst detailliert zu beschreiben. Hierfür bieten sich Simulationsmodelle an, in denen versucht wird, die in empirischen Studien beobachteten Regelmäßigkeiten bei der Benennung nachzubilden. Die lauffähige Simulation eines Sprachproduktionsmodells auf dem Computer gewährleistet die Vollständigkeit und Widerspruchsfreiheit dieses Modells und zwingt zu einem hohen Detailliertheitsgrad der Modellspezifikation. Während im Paradigma des Symbolverarbeitungsansatzes die Prinzipien des Benennens in Form expliziter Regeln im Simulationsprogramm vorgegeben sind, die bei der Sprachproduktion im zentralen Prozessor zur Anwendung kommen, gibt es solche (symbolischen) Regeln in einem konnektionistischen Modell nicht. Hier sind bei der Produktion einer Benennung ablaufenden Prozesse das Resultat einer Wechselwirkung von externer oder interner Systemanregung (Aktivierung) und der Netzwerkarchitektur (Verbindungsstruktur, Knotenverhalten). Eikmeyer, Schade und Kupitz (1994) beschreiben ein konnektionistisches Netzwerk, das aus insgesamt vier Teilnetzwerken (sog. „Räumen“) zusammengesetzt ist. In der ersten Komponente („Objektraum“) liegt eine Repräsentation des Zielobjektes und der Kontextobjekte vor, in der zweiten („Merkmalsraum“) ist die Information über die (wahrnehmbaren) Eigenschaften aller Objekte kodiert. Erregende und hemmende Verbindungen zwischen den Knoten im Merkmalsraum sorgen dafür, dass die diskriminativen Eigenschaften des Zielobjektes stärker aktiviert werden und die zugehörigen sprachlichen Komponenten im „Lexemraum“ (Wörter, Wortbestandteile) aktivieren können. Für die Sequentialisierung der Bestandteile der referentiellen Nominalphrase sorgen die Knotenketten im „Sequentialisierungsraum“. Die Leistungsfähigkeit der von Eikmeyer, Schade und Kupitz (1994) vorgeschlagenen Simulation ergibt sich aus dem Verhalten bei Überspezifikationen und bei Reparaturen, wenn beispielsweise der Sprecher aufgrund äußerer Umstände im Verlauf der Sprachproduktion ein Kontextobjekt in seine Planung einbeziehen muss, das zu Beginn noch nicht von Bedeutung war, das aber eine Änderung der Benennung erforderlich macht.
374
III. Sprachproduktion
Mangold-Allwinn, Baratelli, Kiefer und Koelbing (1995) legen zwar keine vollständige Simulation der Benennung von Gegenständen vor, aber sie stellen grundsätzliche Überlegungen zur Simulation der Objektbenennung in einem konnektionistischen Netzwerk an. Hier wird (im Anschluss an Herrmann (1985) und Herrmann & Grabowski (1994)) zwischen der kognitiven Repräsentation der Objekte (Nichtwort-Marken) und der Repräsentation der sprachlichen Komponenten (Wort-Marken) unterschieden. Mangold-Allwinn et al. (1995) stellen in Frage, dass die begriffliche Repräsentation eines (Ziel-) Objektes stets in unverändert gleicher Weise im Arbeitsgedächtnis vorliegt, und sie basieren ihre Überlegungen auf der Annahme einer aktuellen Generierung eines (flexiblen und dynamischen) Objektkonzeptes (vgl. auch Mangold-Allwinn, 1993). Nach diesem Ansatz wirken Kontextfaktoren nicht nur auf die Beschaffenheit der sprachlichen Repräsentation der Objektbenennung ein, sondern sie beeinflussen bereits im Stadium der Generierung die (jeweils unter Abruf von Langzeitwissen und dem Einfluss situativer Determinanten neu erzeugten) mentalen Repräsentationen von Objekten im Arbeitsspeicher. (Solche Überlegungen stehen auch den Ausführungen von Olson (1970) nahe, der am Beispiel der kontextabhängigen Objektbenennung eine Theorie der flexiblen Semantik entwickeln wollte, sich damit jedoch nicht durchsetzen konnte.) Gerade das konnektionistische Paradigma hat dabei den Vorzug, die rasche und wenig ressourcenintensive Aktualgenese von Informationsstrukturen auch unter dem Einfluss einer umfangreichen Zahl von Einflussfaktoren plausibel machen zu können. Diese (intersituativ in gewissen Grenzen variablen) Objektrepräsentationen stellen dann die Grundlage für die (ebenfalls variable) Objektbenennung dar.
5.
Ausblick
Zusammenfassend kann festgehalten werden, dass das Sprechen über Objekte gegenwärtig keinen intensiv betriebenen Bereich sprachpsychologischer oder psycholinguistischer Forschung darstellt und nur an wenigen Instituten (etwa im Sonderforschungsbereich 360 „Situierte künstliche Kommunikatoren“ an der Universität Bielefeld) im Zentrum der wissenschaftlichen Aktivitäten steht. Andererseits wäre es interessant, etwa folgenden
Fragestellungen intensiver nachzugehen, da die dabei erzielten Ergebnisse nicht nur die Vorgänge bei der sprachlichen Referenz auf Objekte erhellen würden, sondern auch neue Erkenntnisse für benachbarte Disziplinen (Psychologie, Linguistik, Philosophie, Neurowissenschaften) liefern könnten: (i) Die Fortführung der Simulationen zwingt dazu, sich weiterhin intensiv mit Fragen zur Repräsentation von (gegenständlichen) Objekten und von sprachlichen Entitäten und zur Schnittstelle zwischen beiden Informationsarten zu befassen. Simulationen können weiterhin dabei helfen, unsere Vorstellungen von der Prozesskette, die von der Aufnahme visueller Objektinformationen hin zur motorischen Produktion einer Benennung führt, zu vervollständigen. (ii) Der (in den hier kurz beschriebenen Simulationen vorherrschende) konnektionistische Ansatz steht naturgemäß den neuronalen Vorgängen im Gehirn bei der Produktion einer Objektbenennung näher als das Paradigma der regelbasierten Symbolverarbeitung. In neuerer Zeit bieten die verbesserten hirndiagnostischen Verfahren die Möglichkeit, Einblicke in die Hirntätigkeit bei der Wahrnehmung der Objekte und der Produktion einer Benennung zu gewinnen. Beispielsweise sollten in einer Untersuchung von Zelkowicz, Herbster, Nebes, Mintun und Becker (1998) die Versuchspersonen Objekte entweder lediglich ansehen oder sie aber benennen. Mit Hilfe der Positronen-Emissions-Tomographie (PET) wurde der regionale Blutfluss in ausgewählten Hirnarealen bestimmt. Ein mit diesem Verfahren beobachteter erhöhter Blutfluss stellt einen Hinweis auf eine verstärkte neuronale Aktivität in umgrenzten Hirnregionen dar. Mit der genannten Studie kann aufgezeigt werden, dass Gebiete im Schläfenbereich primär an der semantischen Verarbeitung der Objektinformation beteiligt sind, während der frontale Kortex für die Generierung von Wortformen von Bedeutung ist. (iii) Objektbenennungen treten selten isoliert auf, werden jedoch in experimentellen Settings im Allgemeinen als solche untersucht (vgl. Mangold-Allwinn et al., 1992; MangoldAllwinn, 1994). Hier sollten vermehrt Objektreferenzen im Kontext von Diskursen (mit den jeweils unterschiedlichen zugrundeliegenden globalen und lokalen Zielen) erforscht werden. In diesem Zusammenhang bietet es sich an, auch Daten zur Interaktion zwischen
375
27. Sprechen über Objekte
Sprecher und Partner beim Sprechen über Objekte zu erheben und zu analysieren. (Wird die benötigte Objektinformation zu einem Zeitpunkt oder verteilt im Verlauf der Interaktion vermittelt? Auf welche Weise steuert der Sprecher die Verarbeitung der gegebenen Information durch den Partner? Wie unterscheiden sich diese Prozesse bei unterschiedlichen Diskurszielen?)
6.
Literatur
Brown, R. (1958). How shall a thing be called? Psychological Review, 65, 14⫺21. Carroll, J. M. (1980). „Purpose“ in a cognitive theory of reference. Bulletin of the Psychonomic Society, 16, 37⫺40. Carroll, J. M. (1982). Creative names for personal files in an interactive computing environment. International Journal of Man-Machine Studies, 16, 405⫺438. Carroll, J. M. (1985). What’s in a name? New York: W. Freeman & Co. Clark, H. H. & Wilkes-Gibbs, D. (1986). Referring as a collaborative process. Cognition, 22, 1⫺39. Cruse, D. A. (1977). The pragmatics of lexical specificity. Journal of Linguistics, 13, 153⫺164. Deutsch, W. (1976). Sprachliche Redundanz und Objektidentifikation. Dissertationsdruck: Marburg/Lahn. Deutsch, W. (1986). Sprechen und Verstehen: Zwei Seiten einer Medaille? In H.-G. Bosshardt (Hrsg.), Perspektiven auf Sprache. Interdisziplinäre Beiträge zum Gedenken an Hans Hörmann (pp. 232⫺263). Berlin: Walter de Gruyter. Deutsch, W. (1994). Mit dem Zeitgeist gegen den Zeitgeist – Die Anfänge des Forschungsprogramms „Objektbenennung“. In H. J. Kornadt, J. Grabowski & R. Mangold (Hrsg.), Sprache und Kognition. Perspektiven moderner Sprachpsychologie (pp. 15⫺35). Heidelberg: Spektrum Akademischer Verlag. Deutsch, W. & Clausing, H. (1979). Das Problem der Eindeutigkeit sprachlicher Referenz. In H. Ueckert & D. Rhenius (Hrsg.), Komplexe menschliche Informationsverarbeitung (pp. 369⫺377). Bern: Huber. Deutsch, W. & Pechmann, Th. (1982). Social interaction and the development of definite descriptions. Cognition, 11, 159⫺184. Donellan, K. (1974). Reference and definite descriptions. In D. D. Steinberg & L. A. Jacobovits
(Eds.), Semantics (pp. 100⫺114). Cambridge University Press.
Cambridge:
Eikmeyer, H.-J., Schade, U. & Kupietz, M. (1994). Ein konnektionistisches Modell für die Produktion von Objektbenennungen (Berichte aus dem SFB 360 „Situierte künstliche Kommunikatoren“, Report 94/5). Bielefeld: Universität Bielefeld. Ford, W. & Olson, D. (1975). The elaboration of the noun phrase in children’s description of objects. Journal of Experimental Child Psychology, 19, 371⫺382. Grice, H. P. (1979). Logik und Konversation. In G. Meggle (Hrsg.), Handlung, Kommunikation, Bedeutung (pp. 243⫺265). Frankfurt/Main: Suhrkamp. Herrmann, Th. (1976). Zur situativen Determination der Sprachschichthöhe. Zeitschrift für Sozialpsychologie, 7, 355⫺371. Herrmann, Th. (1985). Allgemeine Sprachpsychologie. München: Urban & Schwarzenberg. Herrmann, Th. & Deutsch, W. (1976). Psychologie der Objektbenennung. Bern: Huber. Herrmann, Th. & Grabowski, J. (1994). Sprechen. Psychologie der Sprachproduktion. Heidelberg: Spektrum Akademischer Verlag. Hoffmann, J. & Kämpf, U. (1985). Mechanismen der Objektbenennung – parallele Verarbeitungskaskaden. Sprache & Kognition, 4, 217⫺230. Hoffmann, J. & Klein, R. (1988). Kontexteffekte bei der Benennung und Entdeckung von Objekten. Sprache & Kognition, 7, 25⫺39. Hoffmann, J. & Zießler, M. (1982). Begriffe und ihre Merkmale. Zeitschrift für Psychologie, 190, 46⫺77. Horton, W. S. & Keysar, B. (1996). When do speakers take into account common ground? Cognition, 59, 91⫺117. Kiefer, M., Mangold-Allwinn, R. & Barattelli, S. (1995). Vom generierten Konzept zum enkodierten Wort: Zur Determination der lexikalischen Spezifität von Objektbenennungen. Linguistische Berichte, 159, 381⫺411. Krauss, R. M. (1987). The role of the listener: Addressee influences on message formulation. Journal of Language and Social Psychology, 6, 81⫺98. Krauss, R. M. & Weinheimer, S. (1964). Changes in reference phrases as a function of frequency of usage in social interaction: A preliminary study. Psychonomic Science, 1, 113⫺114. Mangold, R. (1986). Sensorische Faktoren beim Verstehen überspezifizierter Objektbenennungen. Bern: Lang.
376
III. Sprachproduktion
Mangold, R. (1987). Schweigen kann Gold sein – über förderliche, aber auch nachteilige Effekte von Überspezifikation. Sprache & Kognition, 4, 165⫺ 176. Mangold, R. & Pobel, R. (1988). Informativeness and instrumentality in referential communication. Journal of Language and Social Psychology, 7, 181⫺191. Mangold-Allwinn, R. (1993). Flexible Konzepte: Experimente, Modelle, Simulationen. Frankfurt: Lang. Mangold-Allwinn, R. (1994). Das Forschungsprogramm „Objektbenennung“: Neuere Entwicklungen. In H. J. Kornadt, J. Grabowski & R. Mangold (Hrsg.), Sprache und Kognition. Perspektiven moderner Sprachpsychologie (pp. 209⫺232). Heidelberg: Spektrum Akademischer Verlag.
Pechmann, Th. (1984). Überspezifizierung und Betonung in referentieller Kommunikation. Unveröffentlichte Dissertation, Universität Mannheim. Pechmann, Th. (1989). Incremental speech production and referential overspecification. Linguistics, 27, 89⫺110. Pechmann, Th. & Zerbst, D. (1990). Zum Einfluss kognitiver Prozesse auf die Produktion komplexer Nominalphrasen. In S. W. Felix, S. Kanngießer & G. Rickheit (Hrsg.), Sprache und Wissen. Studien zur Kognitiven Linguistik (pp. 207⫺221). Opladen: Westdeutscher Verlag. Pobel, R. (1991). Objektrepräsentation und Objektbenennung. Situative Einflüsse auf die Wortwahl beim Benennen von Gegenständen. Regensburg: Roderer.
Mangold-Allwinn, R., Barattelli, S., Kiefer, M. & Koelbing, H. G. (1995). Wörter für Dinge. Von flexiblen Konzepten zu variablen Benennungen. Opladen: Westdeutscher Verlag.
Rosch, E., Mervis, C. B., Gray, W. D., Johnson, D. M. & Boyes-Braem, P. (1976). Basic objects in natural categories. Cognitive Psychology, 8, 382⫺ 439.
Mangold-Allwinn, R., von Stutterheim, Ch., Barattelli, S., Kohlmann, U. & Koelbing, H. G. (1992). Objektbenennung im Diskurs: Eine interdisziplinäre Untersuchung. Kognitionswissenschaft, 3, 1⫺11.
Wandmacher, J. (1993). Software-Ergonomie. Berlin: de Gruyter.
Martin, J. E. (1969). Semantic determinants of preferred adjective order. Journal of Verbal Learning and Verbal Behavior, 8, 697⫺704.
Weiß, P. & Mangold, R. (1997). Bunt gemeint, doch farblos gesagt: Wann wird die Farbe eines Objektes nicht benannt? Sprache & Kognition, 16, 31⫺47.
Martin, J. E. (1969). Some competence-process relationships in noun phrases with prenominal and postnominal adjectives. Journal of Verbal Learning and Verbal Behavior, 8, 471⫺480.
Zelkowicz, B., Herbster, A., Nebes, R., Mintun, M. & Becker, J. (1998). An examination of regional cerebral blood flow during object naming tasks. Journal of the International Neuropsychological Society, 4, 160⫺166.
Olson, D. R. (1970). Language and thought: Aspects of a cognitive theory of semantics. Psychological Review, 77, 257⫺273.
Roland Mangold Universität Stuttgart (Deutschland)
28. Sprechen über Raum 1. 2. 3. 4. 5. 6. 7. 8.
Einleitung Ontogenetischer Erwerb von Lokativen Richtungsangaben Distanzangaben Orientierungsangaben Lokalisationssequenzen Ausdehnung im Raum: Größe und Form Literatur
1.
Einleitung
In sprachlichen Äußerungen wird oft auf Erfahrungen und Kenntnisse aus der räumlichen Wahrnehmung Bezug genommen. Es
werden Größe, Form, Orientierung und Position von Objekten oder auch ihre Bewegung sprachlich wiedergegeben. Beim sprachlichen Lokalisieren wird die Lage eines Objekts im Raum sprachlich ausgedrückt. Zur Lage eines Objekts gehören sowohl seine Orientierung (d. h. seine Ausrichtung) im Raum (z. B. quer, hochkant, schräg, gerade) als auch seine Position (d. h. sein Ort) im Raum. Die räumliche Position lässt sich weiter nach Richtung (z. B. links, vor, dahinter, über, landeinwärts) und Distanz (z. B. bei, nahe, weit weg, dicht dran) differenzieren. Er-
377
28. Sprechen über Raum
gebnisse aus verschiedenen Forschungsbereichen zeigen, dass bei der Repräsentation und Benennung einer räumlichen Position (entgegen früheren Annahmen, z. B. H. Clark, 1973; Olson & Hildyard, 1977) spontan polare Koordinaten zugrunde gelegt werden (z. B. Gapp, 1995; Huttenlocher, Hedges & Duncan, 1991). Richtung und Distanz können damit als Richtungswinkel und Betrag eines Ortsvektors (eines vom Koordinatenursprung ausgehenden Vektors) aufgefasst werden (siehe Abbildung 28.1).
Abb. 28.1: Richtung und Distanz: Die Position eines Punktes P ist durch den Richtungswinkel α 0P gegeben. und den Betrag tat des Ortsvektors ı
Ebenso wie die Richtung als Winkelabweichung zwischen Bezugsrichtung und imaginärer Verbindungslinie (zwischen Punkt und Origo) betrachtet werden kann, lässt sich auch die Orientierung einer physikalisch vorhandenen Linie oder Kante als Winkelabweichung bestimmen. Das entsprechende Analogon zur Distanz bildet die Länge einer Linie oder Kante (siehe Tabelle 28.1). Tab. 28.1: Klassifikation grundlegender räumlicher Merkmale durch Kombination der Kriterien ‘Richtung vs. Betrag des Vektors’ und ‘imaginäre vs. reale Linie’.
Winkel Abstand
imaginäre Verbindung
reale Linie oder Kante
Richtung Distanz
Orientierung Länge
Die Veränderung räumlicher Relationen kann als Bewegung wahrgenommen und beschrieben werden. Analog zur Unterscheidung von Richtung und Distanz bei der räumlichen Position können Richtung und Geschwindigkeit einer Bewegung unterschieden werden. Allgemein können Thematisierungen von Ortsveränderungen als dynamische Lokalisationen – im Unterschied zu statischen Lokalisationen – bezeichnet werden (Herskovits, 1986; Klein, 1991). Objekte sind nicht nur im Raum lokalisiert, sie besitzen auch eine Ausdehnung im
Raum. Die Größe und die Form von Objekten sind weitere grundlegende räumliche Merkmale, die häufig sprachlich wiedergegeben werden.
2.
Ontogenetischer Erwerb von Lokativen
Sprachentwicklungsdaten verschiedener Untersuchungen zeigen übereinstimmend und für sehr unterschiedliche Sprachen (Gentner, 1982; Tomasello, 1987), dass Raumausdrücke (z. B. lokative Präpositionen und Adverbien) später erworben werden als Nomina (Objektbezeichnungen und Namen). Für die Lokative besteht zwischen verschiedenen Sprachen eine starke Übereinstimmung im typischen Erwerbsalter, in der Erwerbsreihenfolge und in der zeitlichen Erstreckung des Erwerbs der grundlegenden Raumausdrücke über mehr als vier Jahre (Johnston, 1981; 1988; Johnston & Slobin, 1979; Parisi & Antinucci, 1970). Die aus diesen Befunden gezogene Schlussfolgerung, dass die nonverbale kognitive Entwicklung eine wesentliche Voraussetzung für den Erwerb lokalisierender Ausdrücke ist, wurde durch experimentelle Untersuchungen bestätigt, in denen sprachliche und nonverbale Leistungen, die die Kenntnis einer bestimmten räumlichen Relation voraussetzen, verglichen wurden (Halpern, Corrigan & Aviezer, 1981; Johnston, 1981, 1988; Wanska, 1984). Die kognitive Repräsentation von Relationen zwischen Objekten ist generell komplexer als die (mit Nomen assoziierten) einfachen und kognitiv grundlegenden Objektkonzepte (Gentner, 1982). Im Einzelnen betreffen die ersten vom Kind beherrschten lokalisierenden Ausdrücke die Relationen in1, auf und etwas später (in geozentrischer Auffassung) unter (E. Clark, 1973; Grieve, Hoogenraad & Murray, 1977; Thiel, 1985) – Relationen, bei denen die Berücksichtigung eines Blickpunktes nicht notwendig ist (Johnston, 1988; Parisi & Antinucci, 1970). In der Phase der Zwei-Wort-Sätze kann die gemeinte (also offensichtlich mental repräsentierte) Relation vom Hörer oft kontextuell und situativ erschlossen werden (z. B. ‘mama [sitzt im] auto’), vom Kind selbst aber noch nicht explizit benannt werden (Grimm, 1973; Schmidt, 1981; Tomasello, 1987). Es folgen Lokative
1
Kapitälchen stehen für Konzepte bzw. Begriffe.
378 für die Relationen bei und als ‘Verdeckung durch ein höheres Objekt’ aufgefasstes hinter (Grimm, 1975; Johnston, 1984; Pie´rart, 1977; Washington & Naremore, 1978). Später werden auch Bezeichnungen für Relationen verwendet, die die Berücksichtigung zweier Referenzobjekte (zwischen; zu Verwendungsbedingungen von zwischen siehe Habel, 1989) oder eine Differenzierung des Referenzobjekts in Vorder- und Rückseite (egozentrisch oder intrinsisch aufgefasstes hinter und vor) erfordern (Johnston & Slobin, 1979). Später erst (in der zweiten Hälfte des fünften Lebensjahres) werden Lokative wie vor und hinter bei Referenzobjekten ohne inhärente Vorder- und Rückseite und ohne Verdeckung des einen durch das andere Objekt verwendet (Johnston, 1984; 1988). Der kompetente Gebrauch dieser Richtungsausdrücke erfordert es, drei Instanzen in Beziehung zu setzen: das lokalisierte Objekt, das Relatum (Referenzobjekt) und den Blickpunkt als gerichtete Instanz (Herrmann, 1990). Je nach gewähltem Blickpunkt und Relatum sind sehr unterschiedliche Lokalisationsvarianten möglich (siehe Abschnitt 3). Dies gilt ebenso für die Relation neben [in der Lesart ‘auf der zweiten Horizontalen liegend’; siehe Leech, 1969] (Grimm, 1975; Kuczaj und Maratsos, 1975; Washington & Naremore, 1978). Besonders spät (vom 6. bis hin zum 12. Lebensjahr) entwickelt sich die Fähigkeit zur flexiblen und generalisierten Verwendung von Richtungsausdrücken für die Relationen links und rechts (Benton, 1959; Boone & Prescott, 1968; Corballis & Beale, 1976; Elkind, 1961; Piaget, 1926). Eine wesentliche Voraussetzung ist die Fähigkeit zur mentalen Rotation (Ghysselinckx-Janssens & Vandenplas-Holper, 1991; Herrmann & Graf, 1991; Roberts & Aman, 1993). Die Ergebnisse zum Spracherwerb zeigen, dass eine perzeptive Kategorisierung von Raumrelationen (zu der bereits Säuglinge in der Lage sind; für eine Übersicht siehe Vorwerg, 2001a) grundlegende Voraussetzung für die Herausbildung räumlicher Konzepte, jedoch nicht mit ihr gleichzusetzen ist. Vielmehr sind an der konzeptuellen Vermittlung zwischen räumlicher Wahrnehmung und sprachlicher Benennung kognitive Operationen unterschiedlicher Komplexität beteiligt; dazu gehören Abstraktion und Vergleich, reflexives Denken, mentale Rotationen und Blickpunkttransformationen. Darüber hinaus ist eine Reihe konventionalisierter Wort-Konzept-Zuordnungen zu beachten,
III. Sprachproduktion
die im Spracherwerb inferiert und gelernt werden müssen, wie beispielsweise die Benennung von Rotationen im Uhrzeigersinn als ‘nach rechts’ und entgegen dem Uhrzeigersinn als ‘nach links’ (obwohl dabei eigentlich nur die Ober- resp. Vorderseite in die genannte Richtung gedreht wird).
3.
Richtungsangaben
3.1. Sprachliche Mittel zur Raumreferenz Die sprachlichen Mittel zur Raumreferenz sind vielfältig. In vielen Sprachen wird die Lage eines Objektes relativ zu anderen Objekten primär durch Adpositionen (Prä- oder Postpositionen) (ung. a Palatinus mögött ⫽ dt. hinter dem Palatinusbad; gegenüber dem Rathaus ⫽ dem Rathaus gegenüber) oder Relationssuffixe (ung. Berlinben ‘in Berlin’) ausgedrückt. Weitere Ausdrucksmittel für statische räumliche Relationen sind lokative Nomina oder nominale Postpositionen in Verbindung mit einem generellen Lokationssuffix (Quechua -pi ‘in/an/auf’ ⫹ qepa ‘Rückseite/Hinteres’: qaqakunapa qepanpi ‘hinter den Felsen’), einem allgemeinen Existenzausdruck (chin. za`i [an einem Ort] ‘sein’ ⫹ qia´n ‘Vorderseite/vorn’ ⫹ mia`n ‘Seite/Oberfläche/ Außenseite’: za`i fa´ngzi de qia´nmia`n ‘vor dem Haus’) oder einer Präposition (dt. in der Nähe, zur Linken, an der Seite) oder auch Adjektive (dt. am vorderen Ende) (Vorwerg, 2001a; zur Syntax der Lokalisierungsausdrücke siehe Wunderlich & Herweg, 1991). Wird das Relatum nicht explizit genannt, kann die Präpositionalphrase durch ein (anaphorisches) Präpositionaladverb oder ein anderes Adverb ersetzt werden (z. B. dahinter; hinten). Je nachdem, ob Präpositionen selbst als einoder zweistellig betrachtet werden, können lokative Adverbien demnach syntaktisch als ‘null-’ (Bierwisch, 1988; Klein, 1991) bzw. ‘einstellige’ Präpositionen (Wunderlich & Herweg, 1991) – mit implizitem Relatum – aufgefasst werden und verhalten sich (bei kontextuell oder situativ gegebenem Relatum) semantisch wie Präpositionen (Wunderlich, 1986). Sie können aber auch partitiv verwendet werden (vgl. Carroll, 1993; Klabunde, 1998). Innerhalb der statischen Ortsreferenz sind Richtungs- von Distanzangaben (siehe Abschnitt 4) zu unterscheiden (Gapp, 1997; Landau & Jackendoff, 1993; Vorwerg & Rickheit, 2000). Richtungsangaben lassen sich im Deutschen wie auch in vielen anderen Sprachen paarweise den drei orthogonal zuei-
379
28. Sprechen über Raum
nander stehenden Raumdimensionen zuordnen, der Vertikalen und den beiden Horizontalen (siehe Tabelle 28.2). Tab. 28.2: Richtungsausdrücke verschiedener Wortarten im Deutschen für die drei Dimensionen des Raumes. oben/unten vorn/hinten links/rechts
über/unter vor/hinter links/rechts (von)
darüber/darunter davor/dahinter links/rechts (davon)
Weitere Richtungspräpositionen im Deutschen sind oberhalb/unterhalb sowie neben. Die Richtungspräpositionen in ihrer heutigen Verwendung sind (ebenso wie die Distanzpräpositionen) Ergebnis eines Entwicklungsprozesses der Vereinheitlichung und Vereindeutigung des Gebrauchs (Schildt, 1970; siehe auch Harnisch, 2000) sowie der Bedeutungserweiterung der einen auf Kosten der anderen (Fraenkel, 1929). So dienten im ostmitteldeutschen Raum in der Zeit von 1200 bis 1400 die Präpositionen an, bevor, vor, zu und zuvor zum Ausdruck der räumlichen vor-Relation, im Zeitraum 1500⫺1550 dagegen nur noch vor (Schildt, 1970). In dynamischen Lokalisationen (Herskovits, 1986; Klein, 1991) wird der Ausgangsoder Zielort einer Ortsveränderung spezifiziert. Dies kann durch Kasusmarkierungen (z. B. vor die Tür vs. vor der Tür), Suffixe (z. B. -hin, -her), Verben (z. B. schultern, stranden, span. ascender), Verbalpartikel (hineingehen) oder Präpositionen (wie nach, zu, aus, von) – welche auch mit Richtungsausdrücken kombiniert werden können (z. B. von links; nach oben; zum vorderen Ende) – erfolgen. Dynamische Richtungsausdrücke können auch für statische Relationen verwendet werden, indem ein Objekt am Zielort einer hypothetischen Bewegung lokalisiert wird (z. B. Die Apotheke ist um die Ecke; Wunderlich, 1986). Welche Art von Richtungsausdrücken in einer Lokalisation verwendet wird, hängt u. a. von der Gegebenheit des Relatums, der Winkelabweichung von einer idealtypischen Bezugsrichtung und vorausgegangenen Lokalisationen ab (Carroll & Stutterheim, 1993; Klabunde, 1998; Vorwerg & Rickheit, 2000). 3.2. Bezugssystemauswahl Die Anwendung eines Richtungsausdrucks setzt ein zugrunde gelegtes Bezugssystem [engl. frame of reference] voraus. Sprachli-
ches ebenso wie perzeptives Lokalisieren sind nicht möglich ohne eine Vergleichsgröße, zu der die Lage des intendierten Objekts in Beziehung gesetzt werden kann. Zur Richtungsbestimmung sind Vergleichsrichtungen als Achsen eines Koordinatensystems erforderlich, relativ zu denen andere Richtungen bestimmt werden können. Eine solche gerichtete Instanz, relativ zu der die Lage eines Objekts relativ zu einem Relatum bestimmt werden kann, wird auch als Blickpunkt (Herrmann, 1990) bezeichnet. Der Blickpunkt, von dem aus eine Richtungsrelation beurteilt wird, kann die Perspektive des Sprechers oder des Adressaten einer Äußerung sein; ebenso kann die Ausrichtung eines Gebäudes, eines Fahrzeugs oder anderer Instanzen zugrunde gelegt werden. Da Richtungsrelationen vom gewählten Blickpunkt (gegebenenfalls auch der physikalischen Position des Betrachters) abhängen (auch O’Keefe & Nadel, 1978), werden sie auch als projektive Relationen bezeichnet (Herskovits, 1986; Moore, 1976). Als Blickpunkt kann auch die Perspektive bzw. Ausrichtung des Relatums selbst gewählt werden. Die Kombination der beiden Unterscheidungskriterien ‘Blickpunkt’ (Sprecher- vs. Hörer- vs. Dritt-Perspektive) und ‘Relatum-Blickpunkt-Übereinstimmung’ (Zweipunkt- vs. Dreipunktlokalisation) ergibt eine Klassifikation der grundlegenden sprachlichen Lokalisationsvarianten (Herrmann, 1990; siehe Tabelle 28.3). Der Blickpunkt wird dabei nur selten explizit genannt. Der Taxonomie sprachlicher Lokalisierungsvarianten mit Richtungsausdrücken nach Herrmann (1990) lassen sich die in der
Tab. 28.3: Varianten des sprachlichen Lokalisierens mit Richtungsausdrücken (Herrmann, 1990). Kursiv sind Beispielsätze angegeben. Blickpunkt
Zweipunktlokalisation
Dreipunktlokalisation
Sprecher
Der Schlüssel liegt vor mir.
Der Schlüssel liegt [von mir aus gesehen] vor dem Baum.
Hörer
Der Schlüssel liegt vor dir.
Drittes
Der Schlüssel liegt vor dem Auto.
Der Schlüssel liegt [von dir aus gesehen] vor dem Baum. Der Schlüssel liegt [vom Haus aus] vor dem Baum.
380
III. Sprachproduktion
psycholinguistischen Literatur mit ‘egozentrisch’, ‘deiktisch’, ‘intrinsisch’ und ‘extrinsisch’ bezeichneten raumsprachlichen Bezugssysteme und die ihnen zugrunde liegenden Bezugssysteme der Raumwahrnehmung, wie in Tabelle 28.4 dargestellt, zuordnen (Vorwerg, 2001a; zu Terminologien und Klassifikationen vgl. auch Klatzky, 1998; Levinson, 1996; Retz-Schmidt, 1988). Tab. 28.4: Zuordnung raumsprachlicher Bezugssysteme der Richtungsangabe zur Taxonomie nach Herrmann (1990). In Klammern sind die zugrunde liegenden perzeptiven Bezugssysteme angegeben. Blickpunkt
Zweipunktlokalisation
Dreipunktlokalisation
Sprecher
egozentrisch (körperzentriert) ⫺ intrinsisch (objektzentriert)
deiktisch (betrachterzentriert) ⫺ extrinsisch (umgebungszentriert)
Hörer Drittes
Die (in der Regel nicht bewusste) Wahl des räumlichen Bezugssystems bei der sprachlichen Richtungsspezifikation wird von verschiedenen Faktoren beeinflusst. Dazu gehören perzeptive, sozial-situative, kommunikative und funktionale Faktoren sowie Konsistenzbestrebungen und vor allem auch die Verfügbarkeit perzeptiver Größen zur Richtungsverankerung. So setzen intrinsische Lokalisationen ein Relatum mit einer gerichteten Orientierungsachse voraus (Grabowski, 1994; zur phänomenalen Gerichtetheit von Objekten siehe Herrmann & Schweizer, 1998). Bei Abwesenheit von Schwerkraftinformation können auch egozentrische (insbesondere kopfzentrierte) oder deiktische (betrachterzentrierte) Koordinaten als Bezugssystem zur Zuordnung vertikaler Richtungsausdrücke (z. B. über, unter) dienen (Friederici & Levelt, 1990). Jedoch dominiert unter den Bedingungen des Lebens auf der Erde das (durch die Gravitationsrichtung bestimmte und in der Wahrnehmung u. a. von visuellen Umgebungsstrukturen beeinflusste) geozentrische Bezugssystem (ein extrinsisches Bezugssystem), während die intrinsische Vertikale nur selten, die deiktische kaum verwendet wird (Carlson-Radvansky & Irwin, 1993). Die egozentrische Vertikale (Körperlängsachse)
dient als Bezugsgröße, wenn Orte auf dem Körper relativ zu eigenen Körperteilen lokalisiert werden sollen (z. B. über dem Knöchel). Zu den perzeptiven Bedingungen, die die Bezugssystemwahl beeinflussen können, gehört auch die (partielle) Verdeckung des intendierten Objekts durch das Relatum, welche für die deiktische hinter-Relation eine große Rolle spielt (Vandeloise, 1991). Umgekehrt kann das Fehlen einer Verdeckung auch zu einer quasi zweidimensionalen Konzeptualisierung einer räumlichen Konfiguration führen, so dass vertikale (z. B. über, oberhalb) statt sagittaler (z. B. hinter) Richtungsausdrücke verwendet werden (Vorwerg & Rickheit, 1999a; vgl. auch Vorwerg & Rickheit, 2000). Situative Gründe (z. B. geringe kognitive oder sprachliche Kompetenz oder auch höherer sozialer Status und Autorität des Adressaten, Offizialität der Situation; siehe Rickheit & Vorwerg, in diesem Band) können zu einer Präferenz hörerbezogener Lokalisationen führen, um den mit einer Blickpunkttransformation verbundenen Verarbeitungsaufwand (für horizontale Richtungsangaben wie vor, hinter, links, rechts) für den Kommunikationspartner zu reduzieren (siehe Herrmann & Schweizer, 1998). Überwiegend adressatenbezogen wird auch in dynamischen Lokalisationen (siehe Abschnitt 6.2) sowie unter der Zielstellung der Identifikation eines von mehreren identischen Objekten durch den Gesprächspartner lokalisiert (Craton, Elicker, Plumert & Pick, 1990; Schober, 1993). Intrinsische Lokalisationen werden bei Bestehen einer funktionalen Beziehung zwischen intendiertem Objekt und Relatum präferiert (Carlson-Radvansky & Radvansky, 1996; vgl. auch Ehrich, 1985). Bei entsprechenden räumlichen Konfigurationen bevorzugen Sprecher oft dasjenige von zwei möglichen Bezugssystemen, in dem sagittale (z. B. vor/hinter) statt lateraler (z. B. links/rechts) Richtungsausdrücke verwendet werden können (Graf & Herrmann, 1989; zit. in Herrmann & Schweizer, 1998; Pie´rart, 1977; vgl. auch Craton et al., 1990, zur Verwendung von Distanzausdrücken anstelle lateraler Richtungsausdrücke bei jüngeren Kindern). Dieser Effekt kann auf das Primat der Sagittalen innerhalb der horizontalen Richtungsbestimmung und die größere Schwierigkeit der Zuordnung lateraler Richtungsausdrücke (links/rechts) zurückgeführt werden (siehe weiter unten zu kognitiven Bezugsrichtungen).
28. Sprechen über Raum
Die Bezugssystemverwendung ist (beim sprachlichen ebenso wie beim perzeptiven Lokalisieren) durch Änderungsresistenz bzw. ein Konsistenzprinzip charakterisiert. Daher wird die Bezugssystemwahl von vorausgegangenen Lokalisierungen beeinflusst (Harris & Strommen, 1972). Im Dialog lokalisieren Sprecher umso häufiger hörerzentriert, je häufiger ihr Gesprächspartner zuvor ihre Perspektive übernommen hatte (Schober, 1993). Bei Beschreibungen räumlicher Anordnungen ermöglicht das deiktische Bezugssystem eine Beibehaltung der Perspektive über die gesamte Lokalisationssequenz hinweg (siehe Abschnitt 6). Eine Art Default stellt der egozentrische/ betrachterzentrierte Bezugsrahmen sowohl für das sprachliche (Herrmann & Schweizer, 1998) als auch für das perzeptive (Pelz & Hayhoe, 1995) Lokalisieren dar. Einzelsprachliche Bezugssystem-Präferenzen können kulturell, konventionell-historisch oder auch etymologisch (Transparenz) bedingt sein (z. B. Carroll, 1993; Hill, 1982; Levinson, 1996; Pederson, 1995). Die zur sprachlichen Richtungsspezifikation verwendeten räumlichen Bezugssysteme stützen sich auf diejenigen zur Richtungswahrnehmung. Jedoch können sie ebenso für Richtungsangaben zu mnestischen oder imaginären Raumkonfigurationen genutzt werden (Bühler, 1934: ‘Deixis am Phantasma’). 3.3. Kognitive Bezugsrichtungen Als kognitive Bezugsrichtung, relativ zu der andere Richtungen beurteilt werden, kann im Prinzip jede eindeutig gerichtete Orientierung verwendet werden; und es besteht eine außerordentlich große Flexibilität bei der Spezifikation eines Ortes relativ zu einer Bezugsrichtung sowohl in der Wahrnehmung als auch in der Sprache. Beim egozentrischen Lokalisieren beispielsweise können sowohl die Kopf- als auch Standpunkts- oder Blickkoordinaten (Müller, 1916; Paillard, 1991) oder auch die Bewegungsrichtung (Klein, 1979; Marcq, 1971) verwendet werden; die Körperlängsachse bestimmt die egozentrische Vertikale. Beim intrinsischen Lokalisieren definiert die gerichtete Orientierungsachse (siehe z. B. Klatzky, 1998) des Relatums die sagittale (die vor/hinter-) Richtung, deren Gerichtetheit (Polarität) sich aus einer perzeptiven und/oder funktionalen Differenzierung oder der (aktualen oder kanonischen) Bewegungsrichtung des Objekts bei gleichzeitiger bilateraler Symmetrie ergibt (Allan,
381 1995; Harris & Strommen, 1974; Herrmann, 1990; Leech, 1969; Retz-Schmidt, 1988). Es zeigt sich hier, dass zwischen verschiedenen Faktoren der Vorderseitenbestimmung ein evolutionär bedingter [lineare Bewegungen können am effizientesten durch bilateral symmetrische Systeme ausgeführt werden; Weyl, 1952)] korrelativer Zusammenhang besteht. Gleiches gilt für die verschiedenen egozentrischen Bezugsrichtungen. Stimmen die normalerweise konvergenten Merkmale oder Bezugsrichtungen bei bestimmten Relata oder in bestimmten Situationen nicht überein, kann die sagittale Ausrichtung durch einen Teil der normalerweise kovariierenden Merkmale bestimmt sein. Allgemein können bei Vorliegen voneinander abweichender potentieller Bezugsrichtungen (z. B. zur Bestimmung der Vertikalen) auch Kompromisse, Interferenzen und unterschiedliche Gewichtungen auftreten (Friederici & Levelt, 1990; Haustein, 1992; Lechner-Steinleitner, Schöne & Wade, 1979; Mann, 1952; Mittelstaedt, 1988), welche sich z. B. in Neigungseffekten bei der Vertikalen (Asch & Witkin, 1948; Aubert, 1861) oder der Sagittalen (Vorwerg, 2001a) manifestieren. Umgekehrt steigt die Wahrscheinlichkeit der Verwendung eines Richtungsausdrucks bei übereinstimmenden Bezugssystemen (Carlson-Radvansky & Irwin, 1993; Ehrich, 1985). Darüber hinaus können (über Top-downProzesse) willentlich gesteuert auch andere als die spontan verwendeten Bezugsgrößen gewählt werden (z. B. aufgrund einer entsprechenden Instruktion); dies führt jedoch zu verlängerten Verarbeitungszeiten im Vergleich zum spontan genutzten Bezugssystem (Attneave & Olson, 1967; Rock & Leaman, 1963). Im visuellen Raum werden bestimmte Bezugsrichtungen gegenüber anderen bevorzugt, insbesondere die Medianebene des Betrachters, die Blickrichtung und die Augenhöhe-Horizontale (Matin, 1986). Weitere Hauptbezugsrichtungen sind die scheinbare bzw. subjektive Vertikale, welche durch die Schwerkraftrichtung und andere Einflussfaktoren bestimmt wird, und die Grundebene (Howard & Templeton, 1966; Schöne & Udo de Haes, 1971). Generell wird die visuelle Richtungswahrnehmung stark beeinflusst von Mustern und Regularitäten im visuellen Informationsstrom in Hintergrund und Umgebung (Conti & Beaubaton, 1980; Gibson, 1966; Matin, 1986; Pelz & Hayhoe, 1995).
382 In der visuellen Wahrnehmung scheinen die spontan genutzten Bezugsrichtungen solche zu sein, relativ zu denen andere visuelle Richtungen mit größter Genauigkeit wiedergegeben werden (Matin, 1986). In Gedächtnisleistungen können die Bezugsrichtungen am genauesten reproduziert werden, und die Enkodierung anderer Richtungen relativ zu ihnen führt zu charakteristischen Bias-Mustern (Franklin, Henkel & Zangas, 1995; Hayward & Tarr, 1995). In der Sprache werden die Bezugsrichtungen am leichtesten und mit größter (intra- und interindividueller) Konsistenz benannt und bilden damit die Prototypen der jeweiligen Richtungskategorien (Franklin, Henkel & Zangas, 1995; Hayward & Tarr, 1995; Vorwerg & Rickheit, 1999a). Ein Vergleich der Ergebnisse lässt den Schluss zu, dass im Prinzip die gleichen Arten von Bezugswerten in Wahrnehmung, Sprache und Gedächtnis verwendet werden (Vorwerg, 2002). Dies gilt für verschiedene Bezugssysteme. So kann beim egozentrischen Lokalisieren sowohl die Medianebene des Kopfes als auch des Rumpfes (Standpunkts) als Bezugsrichtung verwendet werden, sowohl in der Wahrnehmung (Matin, 1986) als auch für das Gedächtnis (Müller, 1916) als auch in der Sprache (bisher für Rumpf gezeigt: Franklin et al., 1995). Im dreidimensionalen Raum ist die Blickrichtung für das deiktische (bzw. betrachterzentrierte) Lokalisieren von grundlegender Bedeutung, in der Wahrnehmung (Haustein, 1992; Matin, 1986) und in der Sprache (Vorwerg, 2001a; Vorwerg & Rickheit, 1999a; Vorwerg, Socher, Fuhr, Sagerer & Rickheit, 1997). Im zweidimensionalen Raum dienen die vertikale und die horizontale Achse als Bezugsrichtungen für Wahrnehmung (vgl. Literaturübersicht in Vorwerg, 2001a), Gedächtnis (Hayward & Tarr, 1995; Vorwerg, 2002) und Sprache (Crawford, Regier & Huttenlocher, 2000; Gapp, 1995; Hayward & Tarr, 1995; Logan & Sadler, 1996; Regier & Carlson, 2001; Zimmer, Speiser, Baus, Blocher & Stopp, 1998). Im Gegensatz zur Annahme struktureller Ähnlichkeiten zwischen der visuellen Repräsentation und der sprachlichen Enkodierung (visuell wahrgenommener) räumlicher Relationen (Hayward & Tarr, 1995) gehen Huttenlocher, Hedges und Duncan (1991) sowie Crawford, Regier und Huttenlocher (2000) davon aus, dass sprachliche und nichtsprachliche Raumkategorien in einer inversen Relation zueinander stehen, so dass die Prototypen sprachlicher Kategorien die Grenzen
III. Sprachproduktion
nicht-sprachlicher Kategorien darstellen. Diese Annahme beruht auf einer Interpretation der auftretenden systematischen Fehlermuster bei Reproduktionen aus dem Gedächtnis (Bias weg von vertikaler und horizontaler Achse; vgl. auch Franklin et al., 1995) als Ergebnis einer Verrechnung mit angenommenen prototypischen Mittelwerten, welche demnach auf den Diagonalen liegen müssten. Alternativ können die systematischen Fehlerkurven, bei denen die Größe des Bias von der Nähe zur Achse abhängt, auch als Neigungskontrast gegenüber der Achse als kognitiver Bezugsrichtung erklärt werden. Derartige Kontrasteffekte sind für die Reproduktion von Winkeln (Jastrow, 1893) oder Linien verschiedener Orientierung innerhalb eines Bezugsrahmens aus vertikaler und horizontaler Linie (Schiano & Tversky, 1992; Tversky & Schiano, 1989) oder Punkten innerhalb eines solchen Rahmens (Bryant & Subbiah, 1993) bekannt. Für eine Interpretation als Neigungskontrast sprechen der zusätzlich auftretende (kleinere) Bias weg von den Diagonalen, wenn vertikale und horizontale Linien auf den Achsen eingezeichnet werden und der größere Bias in der Nähe der Vertikalen im Vergleich zur Horizontalen liegt (Vorwerg, 2002). Ein weiteres Argument ist die auf verschiedene empirische Befunde gestützte Überlegung, dass für die Richtung als qualitative Attributdimension Mittelwerte keine Rolle als prototypische Bezugswerte spielen, sondern vielmehr perzeptiv saliente Orientierungen genutzt werden (siehe Abschnitt 7). 3.4. Kategorisierung von Richtungsrelationen Die kognitiven Bezugsrichtungen dienen als Vergleichswerte zur Kategorisierung von Richtungsrelationen. Jede sprachliche Richtungsspezifikation beinhaltet eine Zuordnung zu einer Richtungskategorie, welche mit einem Richtungsausdruck assoziiert ist. Damit wird eine Abbildung einer Vielzahl von Raumpositionen bzw. Richtungsrelationen auf wenige Richtungsausdrücke ermöglicht. Die Kategorisierung von Ausprägungen perzeptiver Attributdimensionen, wie z. B. Länge, Schwere, Distanz oder Richtung (zum Dimensionsbegriff siehe Vorwerg & Rickheit, 1999a), erfordert ein kategoriales Bezugssystem: ein im Allgemeinen nicht bewusst wirkendes Maßstabsystem aus Standard- oder Vergleichswerten, relativ zu denen eine Dimensionsausprägung beurteilt werden kann.
28. Sprechen über Raum
Bei Richtungsrelationen dienen räumliche Bezugssysteme auf der Basis kognitiver Referenzrichtungen zugleich als kategoriale Bezugssysteme (Vorwerg & Rickheit, 1998, 1999b). Dabei gelten die Hauptbezugsrichtungen als ideal- oder prototypische Ausprägungen einer Richtungskategorie; alle anderen Richtungen werden relativ zu diesen betrachtet und sind je nach Abweichung von einer Bezugsrichtung mehr oder weniger typisch für eine Richtungskategorie (zur Repräsentativität idealtypischer Relationen für Raumkategorien vgl. z. B. Hayward & Tarr, 1995; Herskovits, 1986; Regier, 1996; Talmy, 1983; für eine Übersicht zu Typikalitätseffekten siehe Vorwerg & Rickheit, 1998). Die Richtung gehört damit zu jenen Wahrnehmungsdomänen, innerhalb derer Rosch (1975) zufolge perzeptiv saliente, ‘ausgezeichnete’ Punkte auf einer Dimension oder Skala (‘cognitive reference points’) Kristallisationspunkte zur Herausbildung kognitiver Kategorien und zugleich deren prototypische Repräsentanten bilden (Vorwerg & Rickheit, 1999b). Die besondere Relevanz dieser kognitiv herausgehobenen Werte zur Verankerung von Wahrnehmung und Denken zeigt sich darin, dass sie auch zum Ausdrücken und zur Approximation anderer, ihnen naher Werte herangezogen werden (Wertheimer, 1912a). Kognitive Bezugspunkte zeichnen sich dadurch aus, dass andere Werte in Relation zu ihnen gesehen werden und daher Asymmetrien in der Ähnlichkeitsbeurteilung entstehen, wie für Farben, Zahlen und Orientierung von Linien gezeigt werden konnte (Rosch, 1975). Die Typikalität einer wahrgenommenen Richtungsrelation für eine mit einem Richtungsausdruck assoziierte Richtungskategorie wie auch die Wahrscheinlichkeit ihrer Zuordnung zu dieser Richtungskategorie hängt von der Richtungsabweichung zur jeweiligen Achse durch den Massenmittelpunkt (Regier & Carlson, 2001; Vorwerg, 2001; Vorwerg & Rickheit, 1999a) und zur nahe gelegenen Kante des Relatums (Regier & Carlson, 2001; Vorwerg, 2001; Vorwerg & Rickheit, 1999a) ab und wird von funktionalen Relationen beeinflusst (Carlson-Radvansky, Covey & Lattanzi, 1999; Coventry & Prat-Sala, 1998). Dabei toleriert die laterale Richtungszuweisung eine größere Abweichung als die sagittale (Vorwerg, 2001; Vorwerg & Rickheit, 1999a). Dies ist möglicherweise auf das Primat der Sagittalen beim Lokalisieren auf der horizontalen Ebene zurückzuführen, während die Laterale aufgrund ihres abgelei-
383 teten Charakters (Miller & Johnson-Laird, 1976) oder des Fehlens unmittelbarer Bezugsrichtungen nicht mit gleicher Genauigkeit bestimmt werden kann. Die Zuweisung von lateralen Richtungen wie links und rechts basiert auf der Händigkeit des Menschen. Ihre Übertragung auf andere Bezugssysteme durch mentale Transformationen setzt die Bestimmung der vorRichtung voraus (Ghysselinckx-Janssens & Vandenplas-Holper, 1991; Rigal, 1996). Die erforderliche mentale Rotation kann entweder das intendierte Objekt oder das Bezugssystem betreffen (Robertson, Palmer & Gomez, 1987). Richtungsrelationen der zweiten Horizontalen unterscheiden sich von vertikalen und sagittalen Richtungsrelationen sowohl durch einen erhöhten Verarbeitungsaufwand (Bryant, 1995; Corballis & Cullen, 1986; de Vega, 1994; Franklin & Tversky, 1990; Jolicoeur, Ingleton, Bartram & Booth, 1993; Logan, 1994, 1995) als auch durch lexikalische Besonderheiten wie gemeinsame Wörter für beide laterale Richtungen (z. B. neben), das Fehlen lexikalischer Mittel für rechts und links in vielen Sprachen und die späte Entwicklung bzw. häufige Erneuerung der Ausdrücke für rechts und links in den indogermanischen Sprachen mit einer entsprechenden etymologischen Transparenz (‘richtig’ vs. ‘linkisch’; Kluge, 1999) sowie den geringeren Präpositionalisierungsgrad (Lindqvist, 1994). Um links und rechts aus einer anderen als der eigenen Sicht zuordnen zu können, ist eine mentale Rotation in die Orientierung des jeweiligen Relatums (eine Selbstrotation; Graf, 1996) nötig, die bei großem Rotationswinkel zu deutlich erhöhten Verarbeitungszeiten führt. So bringt das partnerbezogene Lokalisieren bei Vis-a`-visPosition des Hörers (im Vergleich zu maximal 90∞ Orientierungsabweichung) einen erhöhten Lokalisationsaufwand für links und rechts mit sich, jedoch nicht für vor und hinter (Herrmann & Schweizer, 1998). Die Winkelabweichung einer Richtungsrelation von einer kognitiven Bezugsrichtung kommt nicht nur in der Häufigkeit der Benennung mit einem singulären Richtungsausdruck oder der Bewertung der Typikalität für eine Richtungskategorie zum Ausdruck, sondern kann auch unmittelbar sprachlich kenntlich gemacht werden durch die Verwendung von Heckenausdrücken (Lakoff, 1973), wie z. B. fast, ein bisschen, [ganz/sehr] leicht, (Franklin et al., 1995; Vorwerg & Rickheit, 1999a). Mitunter wird die Abweichung von
384
III. Sprachproduktion
der kognitiven Bezugsrichtung auch durch dynamische Adverbien (z. B. nach vorn, nach links) für statische Konfigurationen ausgedrückt (Vorwerg & Rickheit, 2000). Ist die kognizierte Abweichung einer Richtung von beiden benachbarten Bezugsrichtungen zu groß, um sie einer einzigen Richtungskategorie zuzuordnen, werden oft kombinierte Richtungsangaben produziert (z. B. links vor der Leiste, rechts dahinter, vorne links, vorne leicht links). Die Reihenfolge der produzierten Richtungsangaben in Kombinationen hängt im Deutschen von der verwendeten Wortart, individuellen Verwendungsmustern und der jeweiligen Richtungsabweichung ab sowie außerdem davon, ob beide Richtungsausdrücke parataktisch nebeneinander stehen oder als syntaktische Einheit (durch Modifikation des einen durch den anderen) auftreten (Vorwerg & Rickheit, 2000). Keinen Einfluss auf die Richtungskategorisierung hat die (radiale) Distanz zwischen intendiertem Objekt und Relatum (Gapp, 1995; Logan & Sadler, 1996; Vorwerg & Rickheit, 1999a; Vorwerg et al., 1997). Offenbar werden Richtung und Distanz unabhängig voneinander kategorisiert.
4.
Distanzangaben
Im Unterschied zur Richtung ist die Distanz blickpunktunabhängig und eine quantitative Attributdimension (Vorwerg & Rickheit, 2000; Vorwerg, 2001). Die zur Kategorisierung auftretender Distanzwerte erforderlichen kategorialen Bezugssysteme (vgl. Abschnitt 3) stützen sich daher auf Kennwerte empirischer Verteilungen wie Rand- und Mittelwerte (Künnapas, 1960; Vorwerg, 2002). Je nach Spannweite und Häufigkeitsverteilung vorkommender Ausprägungen kann daher ein und dieselbe physikalische Distanz ganz unterschiedlich kategorisiert werden. (Man vergleiche: extrem enge Doppelsterne und sehr weit auseinander stehende Buchstaben). Aufgrund ihrer Blickpunkt-Invarianz werden Distanzrelationen oft auch als topologische Relationen bezeichnet (Coventry, 1995; Herweg, 1989; Herskovits, 1986; Parisi & Antinucci, 1970). Jedoch handelt es sich im mathematischen Sinne nicht um topologische, sondern eher um metrische Relationen (Herskovits; zu topologischen Relationen im eigentlichen Sinne siehe Renz, Rauh & Knauff, 2000). Piaget und Inhelder (1948), auf die bei der Unterscheidung projektiver und topolo-
gischer Präpositionen oft Bezug genommen wird, analysierten topologische Relationen vor allem im Hinblick auf Objektkonzepte (Vorwerg, 2001). Experimentell erhobene Daten zum unrestringierten sprachlichen Lokalisieren (Vorwerg & Rickheit, 2000) zeigen, dass bei drei vorkommenden Distanzausprägungen Bezeichnungen für geringen, mittleren und grossen Abstand unabhängig von der Ausdehnung des Relatums in den jeweiligen Raumdimensionen gewählt werden (z. B. [ganz/sehr] nah; nicht sehr weit/etwas entfernt; [ganz/ziemlich] weit [weg/entfernt]). Als sprachliche Mittel stehen dieselben Wortarten wie für Richtungsrelationen zur Verfügung (siehe Abschnitt 3). Richtungs- und Distanzangaben können auch kombiniert werden (z. B. nah vor der Leiste, ganz weit dahinter). Beispiele für Distanzpräpositionen sind an, auf (in der richtungsunabhängigen Lesart), bei, nächst, nahe, fern, fernab. Es lassen sich mindestens vier Distanzkategorien unterscheiden (Gapp, 1997; Landau & Jackendoff, 1993): (1) innen (engl. in, inside; dt. in, innerhalb), (2) unmittelbar proximal (engl. on, against; dt. an), (3) proximal (engl. near, dt. bei, nahe), (4) distal (engl. far, dt. fern). Während an eine Kontaktrelation nicht ausschließt und ebenso wie auf einen Oberflächenbezug erlaubt, wird bei (außer in feststehenden Redewendungen) eher in Bezug auf die nahe Umgebung verwendet (Li, 1994; vgl. auch Herweg, 1989). Im Vergleich dazu wird nahe vermutlich bei etwas größerer Distanz verwendet (Gapp, 1997). Generell können die verschiedenen Distanzkategorien einander partiell überlappen und Instanzen unterschiedlicher Typikalität enthalten (Herskovits, 1986; Regier, 1996). Die Verwendung von Distanzausdrücken wird auch von der Verbsemantik (Herweg, 1989; Li, 1994; Lutzeier, 1985) und funktionalen Zusammenhängen zwischen intendiertem Objekt und Relatum (Coventry, 1995; Coventry, Carmichael & Garrod, 1994) beeinflusst. Die der Benennung zugrunde liegende Distanzbeurteilung (in der Wahrnehmung oder aus dem Gedächtnis) wird von einer Reihe kognitiver Faktoren beeinflusst. Dazu gehören das Vorhandensein von Barrieren (Canter & Tagg, 1975; Kosslyn, Pick & Fariello, 1974), die Anzahl dazwischen liegender Objekte (Thorndyke, 1981), die Zugehörigkeit
28. Sprechen über Raum
zu Regionen (Gogel & Tietz, 1992; Loomis, Da Silva, Philbeck & Fukusima, 1996; McNamara, 1986), Normalisierungstendenzen (Überschätzung geringer und Unterschätzung großer Distanzen; z. B. McNamara, 1986), die aufzuwendende Kraftanstrengung zum Zurücklegen einer Entfernung (Corlett, Byblow & Taylor, 1990) und verschiedene kognitive Heuristiken (Hirtle & Mascolo, 1991).
5.
Orientierungsangaben
Die Benennung einer Orientierung (bzw. Ausrichtung) im Raum beinhaltet einen Vergleich mit einer Referenzorientierung, entweder einer perzeptiv salienten kognitiven Bezugslinie (z. B. der scheinbaren Vertikalen; vgl. Abschnitt 3.3) oder der Orientierung eines Vergleichsobjekts. Die Orientierung wird oft durch Adjektive und Adverbien (z. B. quer, längs, hochkant, schräg, schief, gerade, diagonal, parallel, aufrecht, senkrecht, waagerecht) sowie durch statische und dynamische Ortsverben (z. B. liegen, legen, stehen, stellen) und Partizipien (z. B. geneigt, gekippt, gedreht) zum Ausdruck gebracht. Nur wenige lexikalisierte Ausdrücke kodieren die Polarität einer gerichteten Orientierung (z. B. kopfüber, engl. head-on ‘mit der Vorderseite nach vorn’, seitenverkehrt). Einige Orientierungsausdrücke werden in ihrer Verwendung mehr oder weniger stark von weiteren Raummerkmalen beeinflusst, wie z. B. Bewegung (kopfüber), Form (hochkant) und Position (parallel). Vorliegende Daten aus unrestringierten Sprachproduktionsaufgaben (zur Objektlokalisation) deuten darauf hin, dass parallel bevorzugt bei genau nebeneinander liegenden Objekten, die in ihrer Orientierung von extrinsischen Bezugsorientierungen (wie Vertikale, Sagittale oder Laterale) abweichen, verwendet wird (Vorwerg & Rickheit, 2000).
6.
Lokalisationssequenzen
Einzelne sprachliche Lokalisationen können miteinander verknüpft werden, um komplexere räumliche Strukturen (aus Wahrnehmung, Gedächtnis oder Vorstellung) wiederzugeben. Charakteristische Beispiele für Lokalisationssequenzen sind Beschreibungen von Raumkonfigurationen sowie Wegauskünfte.
385 6.1. Beschreibung räumlicher Anordnungen Die Beschreibung einer räumlichen Anordnung dient dem Ziel, den Adressaten zum Aufbau einer Repräsentation der Anordnung zu veranlassen, die einer aus unmittelbarer Anschauung gewonnenen Repräsentation in bestimmten Aspekten möglichst nahe kommt, um die effektive Ausführung kognitiver Operationen zu ermöglichen (Denis, Carite´ & Robin, 1991; zum Aufbau mentaler Raummodelle beim Adressaten siehe Rinck, in diesem Band). Der Produzent der Beschreibung muss dabei eine zwei- oder dreidimensionale Konfiguration in eine lineare Abfolge beim sprachlichen Output umsetzen. Die Linearisierung unterliegt hierbei kaum strukturell bedingten Restriktionen (im Gegensatz etwa zur Verbalisierung zeitlich strukturierter Sachverhalte wie bei Ereigniswiedergaben oder Anleitungen). In empirischen Untersuchungen wurden verschiedene Faktoren und Prinzipien der Linearisierung räumlicher Beschreibungen identifiziert. Ein häufig angewendetes Prinzip besteht darin, den Hörer in einer Art Rundgang imaginär durch die Umgebung zu führen, d. h. die Anordnung aus der Sicht eines imaginären (bzw. generischen; Herrmann & Schweizer, 1998) Wanderers zu beschreiben (Linde & Labov, 1975; Ullmer-Ehrich, 1982). Sofern die beschriebene Raumregion einen Eingang besitzt, beginnt die imaginäre Tour bei diesem (z. B. bei Beschreibungen von Wohnungen oder Vergnügungsparks; Linde & Labov, 1975; Taylor & Tversky, 1992). Handelt es sich um einen Bereich, der von einem bestimmten Standort aus überblickt werden kann, entspricht die Linearisierung häufig einer Blickwanderung (bei Zimmerbeschreibungen von der Tür aus gesehen; vgl. Ullmer-Ehrich, 1982) oder der Drehung eines imaginären Betrachters im Zentrum der Anordnung (z. B. in der Mitte des Zimmers; Ehrich, 1985). Andere mögliche Linearisierungsstrategien basieren auf einer mentalen Aufteilung in Teilbereiche (Grundriss einer Wohnung, Linde & Labov, 1975; Themenbereiche eines Vergnügungsparks, Taylor & Tversky, 1992) oder einer kognitiven Organisation des Raumes in parallele sagittale Linien (3D, Zimmer; Ullmer-Ehrich, 1982) oder horizontale oder vertikale Reihen von Objekten (2D, Landkarte; Denis, 1996). Die Objekte werden entweder, den Reihen folgend, nacheinander lokalisiert (Denis, 1996) oder zwischen den Li-
386 nien springend jeweils von [deiktisch] vorn nach hinten (Ullmer-Ehrich, 1982). Schließlich können Linearisierungen auch Konventionen wie der Schreib- und Leserichtung (von oben nach unten und von links nach rechts) oder dem Uhrzeigersinn folgen (Taylor & Tversky, 1992). Ein wesentlicher Einflussfaktor auf die Anwendung eines Linearisierungsprinzips ist die von der Art des Wissenserwerbs abhängige kognitive Repräsentation der Raumkonfiguration. So kann das Wissen über räumliche Umgebungen primär (durch eigene Erkundung) oder durch das Studium sekundärer Quellen (z. B. Karten oder Modellen) erworben werden (zu Unterschieden hinsichtlich Orientierungspräferenz und Richtungsverfügbarkeit vgl. Sholl, 1987). Wird Raumwissen als Routenwissen erworben, entspricht die sprachliche Linearisierung häufig der sequentiellen Struktur dieser Repräsentation (Geneseeffekt), und dabei insbesondere der Ersterfahrung (Ankereffekt) – im Falle mehrerer Erwerbsrouten (Buhl, Katz, Schweizer & Herrmann, 2000; Herrmann, Buhl & Schweizer, 1995; Herrmann & Schweizer, 1998; zur Repräsentation von Blickpunktsequenzen bei der Wahrnehmung von Eigenbewegung siehe Janzen & Katz, 2000). Ein weiterer Faktor der Auswahl eines Linearisierungsprinzips ist das Bestehen von Funktionszusammenhängen zwischen Objekten bestimmter Teilanordnungen (z. B. Tisch mit zwei Sesseln und Sofa). Funktionale Arrangements führen zu einer kognitiven Gruppierung mit Verwendung ein und desselben Objekts als Relatum für mehrere Lokalisationen im Gegensatz zur sequentiellen Verknüpfung durch Lokalisation jedes Elements mit Bezug auf das jeweils zuvor erwähnte Objekt bei disfunktionalen Arrangements (Ehrich, 1985). Das Gruppierungsprinzip führt im Unterschied zum Sequenzierungsprinzip zu Abweichungen von der imaginären Blickwanderung (wie z. B. einem Springen zwischen parallelen Linien; Ullmer-Ehrich, 1982). Außerdem wird die Linearisierung auch von Merkmalen des räumlichen Ambiente (z. B. Vorhandensein von Wegen; musterartige Konfiguration; Anordnung in klar abgegrenzten Untergruppen) sowie insbesondere von kognitiven Wie- und Was-Schemata (Herrmann & Schweizer, 1998) beeinflusst. Sprecher verfügen über strukturelles Wissen sowohl darüber, wie man beispielsweise eine Wohnung beschreibt (Diskursschema), als
III. Sprachproduktion
auch darüber, was eine Wohnung ist bzw. was zu einer Wohnung gehört. Linde und Labov (1975) stellten fest, dass die imaginäre Tour nicht nur der dominierende Typ Wohnungsbeschreibung, sondern auch beeindruckend wohlgeformt hinsichtlich der Durchwanderung des räumlichen Netzwerks aus Vektoren und Räumen ist: (1) Der imaginäre Rundgang beginnt an der Wohnungstür (Haupteingang). (2) Ein-Raum-Zweige werden nicht betreten. (3) Verzweigungen mit Räumen jenseits des ersten werden immer betreten. (4) Am Ende eines Zweiges wird der Weg (ohne Umkehr) ggf. unmittelbar am Gabelpunkt zu neuen Verzweigungen fortgesetzt. In Raumbeschreibungen bietet das Wissen über den Aufbau von Räumen oft eine Art Grundgerüst, von dem der Sprecher ausgehen kann. Ist das Gesamtarrangement (z. B. nach dem Prinzip der räumlichen Nähe) in Untergruppen aufgeteilt, können diese unter Bezugnahme auf Schema-Elemente (wie Wände und Ecken auf der obersten, Fenster und Türen auf nächsten Hierarchieebene) eingeführt werden (Shanon, 1984). Innerhalb der von diesen Rahmenelementen ausgehenden Linearisierungsstränge der jeweiligen Untergruppen besteht eine Progression vom Großen und Allgemeinen zum Kleinen und Speziellen (siehe Shanon, 1984). Eine hierarchische Organisation auf der Basis von Größe, jeweils ausgehend von salienten Landmarken (Berge, Fluss), fanden auch Taylor und Tversky (1992) für die Beschreibung einer Stadt. Darüber hinaus sind einige grundlegende Prinzipien wirksam (Levelt, 1982), die ggf. bei verschiedenen Linearisierungsstrategien zum Tragen kommen können. Dazu gehören die aufeinander folgende Verbalisierung räumlich benachbarter Komponenten und die Rückkehr zu Verzweigungspunkten nach Abarbeitung einer der Strecken. Dabei wird bevorzugt die weniger komplexe (z. B. lineare oder kürzere) Strecke zuerst beschrieben, um den kognitiven Aufwand zu minimieren, der damit verbunden ist, die Lage des Verzweigungspunktes während der Abarbeitung der ersten Teilstrecke im Gedächtnis behalten zu müssen (Levelt, 1982; Robin & Denis et al., 1991). Ebenso werden große Cluster (Gruppierungen zu einem Relatum) erst nach klei-
28. Sprechen über Raum
neren Clustern beschrieben (Links-rechtsAsymmetrie im Strukturbaum; Shanon, 1984). Jede einzelne Lokalisation erfordert die Wahl eines Relatums, relativ zu dem das intendierte Objekt lokalisiert werden kann. Insbesondere in Zweipunktlokalisationen (siehe Abschnitt 3.2) kann das Relatum implizit bleiben (z. B. dann ist links der Schrank; siehe auch Abschnitt 3.1). Dies gilt besonders für Lokalisationen in Relation zum imaginären Wanderer. Externe Relata sind im Vergleich zu intendierten Objekten durch Größe, Ortsstabilität, periphere Lage, Bekanntheit, Relevanz, Diskriminierbarkeit und/oder perzeptive Salienz gekennzeichnet (Ehrich, 1985; Herrmann & Grabowski, 1994; Miller & Johnson-Laird, 1976; Talmy, 1978, 1983). Häufig wird dabei das intendierte Objekt der vorangehenden (oder selten auch einer früheren) Beschreibungseinheit zum Relatum der neuen. Für die Wahl des Bezugssystems ist die Tendenz zur weitgehenden Konsistenz bzw. Perspektivenkonstanz von großer Bedeutung. Dementsprechend wird das deiktische Bezugssystem oft präferiert, da es die konsistente Verwendung von Richtungsausdrücken innerhalb einer räumlichen Konfiguration ermöglicht (Ehrich, 1985). Auch die unmittelbare Fortsetzung der Beschreibung am Verzweigungspunkt (ohne Umkehr) nach Abarbeitung einer Teilstrecke bei Wohnungsbeschreibungen erlaubt es, eine (meist quasiegozentrische) Perspektive beizubehalten (Linde & Labov, 1975). In Übereinstimmung damit wird der Blickpunkt in Lokalisationssequenzen seltener expliziert als in Einzellokalisationen (Schober, 1993). Die sprachliche Enkodierung der wahrgenommenen oder erinnerten Raumkonfigurationen wird partiell von der kognitiven Raumrepräsentation und dem Format der linearen Diskursorganisation determiniert. So wird der definite Artikel zur Referenz auf zuvor noch nicht erwähnte Objekte dann verwendet, wenn sie einem kognitiven WasSchema entsprechen bzw. zur konzeptuellen Repräsentation im semantischen Gedächtnis gehören (z. B. die Küche als Teil der Wohnung, der Fußboden als Teil eines Zimmers; Linde & Labov, 1975; Shanon, 1984). Existentielle Negationen kennzeichnen Schemaabweichungen. Existenzaussagen und Ortsverben werden vor allem in Verbindung mit Objekten mittlerer Hierarchiebenen gebraucht; Relativsätze (z. B. Tisch, der auf dem Teppich steht) und
387 Mit-Phrasen (z. B. Regal mit Büchern; Schlafzimmer mit Bad) dagegen treten vor allem in Verbindung mit (kleineren und unbedeutenderen) Objekten unterer Hierarchieebenen auf und kennzeichnen oft Zugehörigkeit oder eine Teil-von-Relation (Linde & Labov, 1975; Shanon, 1984). Bei einer Linearisierung im Format der Blickwanderung können Richtungsausdrücke zum Teil durch temporale Ausdrücke (z. B. dann; im Anschluss daran) ersetzt werden (Ehrich, 1985; Ullmer-Ehrich, 1982). Beim Linearisierungstyp der imaginären Tour können neben statischen auch dynamische Ortsangaben (siehe Abschnitt 3.1) verwendet werden (Linde & Labov, 1975). Statische Ortsangaben werden meist in Verbindung mit Zustandsverben, dynamische Ortsangaben in Verbindung mit Bewegungs- und Handlungsverben verwendet. Dynamische Richtungsangaben werden vor allem bei der Beschreibung des Beginns der Tour oder bei der Rückkehr zu einem Verzweigungspunkt verwendet und können danach über weitere Lokalisationen hinweg beibehalten werden, bis der Sprecher zu einer statischen Lokalisation übergeht (Linde & Labov). Das Verb kommen kann (je nach Satzsubjekt) sowohl mit statischen als auch mit dynamischen Ortsangaben kombiniert werden (z. B. dann kommt der Kleiderschrank direkt anschließend vs. dann kommt man direkt ins Wohnzimmer) und kommt daher auch bei imaginärer Blickwanderung häufig vor (Ullmer-Ehrich, 1982). Innerhalb einer Lokalisation, oft in Kopulasätzen, wird in der Regel das intendierte Objekt erst nach der Ortsangabe genannt (vgl. Linde & Labov, 1975; Ullmer-Ehrich, 1982): Lokativ ⬍ Nominalphrase, wenn es sich beim intendierten Objekt um ein Element der beschriebenen Anordnung handelt (z. B. rechts ist die Küche; neben dem Tisch steht der Kühlschrank). Dies gilt nicht für die oben erwähnten marginalen Objekte, die in Nebensätzen oder Mit-Phrasen eingeführt werden. Diese Konstituentenstellung entspricht der von Clark und Haviland (1977) beschriebenen Platzierung neuer Information nach vorausgesetzter Information in einfachen Sätzen mit normaler Intonation, wobei der Satzakzent auf ein Element der Konstituente fällt, die die neue Information enthält. Dabei spielt eine eventuelle Vorerwähntheit oder Schemazugehörigkeit des intendierten Objekts keine Rolle, da die neue Information darin besteht, dass das Objekt als dasjenige in einer bestimmten Relation zum Relatum
388 (z. B. Was ist rechts? Was ist hinter X?) identifiziert wird. Im Gegensatz dazu wird das intendierte Objekt vor dem Lokativ genannt, wenn seine Bewegung (z. B. die des imaginären Wanderers oder des Adressaten im Falle von Wegauskünften, siehe Abschnitt 6.2) durch die Anordnung beschrieben wird (z. B. wenn man nach rechts geht). 6.2. Wegbeschreibung Wegbeschreibungen dienen dazu, eine Person über die Handlungen zu instruieren, die notwendig sind, um einen bestimmten Zielort von einem Ausgangsort aus zu erreichen. Sie enthalten daher sowohl beschreibende als auch instruierende Aussagen (Vanetti & Allen, 1988); beide Aspekte können auch kombiniert sein (z. B. Folgen Sie der nach rechts abbiegenden Hauptstraße). Als Bestandteil einer Wegauskunft geht der Wegbeschreibung die Einleitung zur Kontaktaufnahme und Klärung der Aufgabe (ggf. mit Rückfragen der antwortenden Person) voraus und folgt ihr der Abschluss zur Bestätigung der Aufgabenlösung und Beendigung des Kontakts (mit Danksagung und Verabschiedung) (Klein, 1979). Zu Wegauskünften gehören häufig auch Rückfragen zum Kenntnisstand und Verstehensfragen (Vanetti & Allen, 1988), insbesondere in der Einleitung resp. im Abschluss, sowie Kommentare (z. B. über die Schwierigkeit der Strecke). Die Wegbeschreibung erfordert drei Stufen miteinander verschränkter Verarbeitungsprozesse (Denis, Daniel, Fontaine & Pazzaglia, 2001). Der erste Schritt ist die Aktivierung einer internen Repräsentation des Territoriums, in dem Ziel- und Ausgangsort liegen. Durch eigene Exploration gut bekannte räumliche Umgebungen sind als ‘kognitive Karten’ repräsentiert, die auf der Konstruktion eines ‘Überblicks’ über implizite (nicht nur explizit erfahrene) räumliche Relationen in einer Region beruhen (Tolman, 1948) und es erlauben, die Umgebung von beliebigen Blickpunkten aus mental zu betrachten (O’Keefe & Nadel, 1978). Überblickswissen entsteht durch Integration erfahrener wie auch inferierter Routen (Herrmann, Schweizer, Janzen & Katz, 1998; siehe auch Thorndyke & Hayes-Roth, 1982) oder wird aus Karten (McNamara, 1984; Thorndyke & Stasz, 1980) oder verbalen Beschreibungen (Denis & Cocude, 1997) gewonnen. Kognitive Karten ermöglichen es, auch für noch nicht erfahrene Strecken Abkürzungen und Umgehungen zu planen sowie Distanzen und
III. Sprachproduktion
Richtungen zu schätzen (Acredolo, 1988; McNamara, 1986; Pick, 1993). Distanz- und Richtungsschätzungen unterliegen dabei charakteristischen Verzerrungen aufgrund einer partiell hierarchischen Organisation der räumlichen Repräsentation (Hirtle & Jonides, 1985; Holding, 1992; McNamara, 1986; Stevens & Coupe, 1978) und aufgrund von Unterschieden zwischen euklidischer und Routendistanz (McNamara, 1984) sowie Normalisierungs- und Idealisierungstendenzen (Byrne, 1979; Pailhous, Lepecq & Pe´ruch, 1987; Sadalla & Montello, 1989; Tversky, 1981). Neben Überblickswissen sind an der Umgebungsrepräsentation auch prozedurales Streckenwissen und visuelles Szenenwissen beteiligt (McNamara, Halpin & Hardy, 1992). Nach der Aktivierung einer mentalen Raumrepräsentation besteht der zweite Verarbeitungsschritt in der Planung einer Route, die den Ausgangsort mit dem Zielort verbindet, wobei die Abfolge der Routensegmente unmittelbar die Abfolge der Handlungen des Nutzers der Wegbeschreibung bestimmt (Denis et al., 2001). Die Selektion einer spezifischen Route aus einer Menge von Alternativen wird von verschiedenen Faktoren beeinflusst, wie z. B. der Länge des Wegs und der Schwierigkeit des Findens (Golledge, 1995). Die Segmentierung von Routen erfolgt anhand von Entscheidungspunkten (Verzweigungen, Richtungsänderungen), an denen eine Reorientierung (oder zumindest eine Entscheidung zwischen mehreren Alternativen) erforderlich ist (Denis et al., 2001; Habel, 1988; Herrmann & Schweizer, 1998). Entscheidend ist dabei, welche Punkte zugänglich miteinander verbunden sind (Habel, 1988). Zur Routenplanung gehören auch die Bestimmung der Richtungsrelationen zwischen den Entscheidungspunkten und die Routenzuordnung besonders relevanter oder markanter bzw. salienter Objekte (Habel, 1988; Klein, 1979, 1983), die auch als ‘Landmarken’ (Lynch, 1960) bezeichnet werden und bei der Organisation räumlichen Wissens eine besondere Rolle spielen (Holding, 1992; Sadalla, Burroughs & Staplin, 1980). Der dritte Verarbeitungsschritt ist die sprachliche Umsetzung der Routenplanung. Die Linearisierung folgt dabei der impliziten temporalen Struktur des Themas (Denis et al., 1991); die Makrostruktur des meist hierarchisch organisierten Routenplans wird nur selten verbalisiert (Denis et al., 2001). Ausgehend vom Startort beschreibt der Sprecher
389
28. Sprechen über Raum
Schritt für Schritt die zum Erreichen des Zielorts erforderliche Abfolge von Routensegmenten. Grundlegende Elemente der Beschreibung sind Nennungen von Landmarken, Richtungsangaben und Angaben von Handlungen (Klein, 1979). Bei den Handlungen handelt es sich meist um Bewegungen zur Überbrückung der Entfernung zwischen Landmarken oder zur Reorientierung entsprechend einer Richtungsangabe an einem Entscheidungspunkt. Landmarken werden meistens an Entscheidungspunkten erwähnt; die nur seltenen Thematisierungen von Landmarken entlang eines Wegsegments dienen der Absicherung (noch auf der richtigen Route zu sein), vor allem bei sich länger erstreckenden linearen Segmenten (Denis, 1997; Denis, Pazzaglia, Cornoldi & Bertolo, 1999; Klein, 1979; Lovelace, Hegarty & Montello, 1999). Mit dem gleichen Ziel können auch längere Wegabschnitte als solche gekennzeichnet werden (Habel, 1988). Generell kommen Distanzangaben nur selten vor (Denis et al., 2001; Klein, 1979; zum gleichen Befund bei anderen Textsorten siehe Shanon, 1984; Vorwerg & Rickheit, 1999a). Die Selektion der geeigneten Wegbeschreibungs-Elemente (vor allem Landmarken und Richtungsangaben) bestimmt wesentlich die Güte bzw. Effektivität der Wegbeschreibung (Denis et al., 2001) und wird von situativen Bedingungen (wie beispielsweise Zeitdruck; Wahlster, Blocher, Baus, Stopp & Speiser, 1998) beeinflusst. Zu den verwendeten sprachlichen Mitteln zum Ausdruck der genannten Elemente gehören neben Richtungsangaben (siehe Abschnitt 3), Distanzangaben (siehe Abschnitt 4) und Orientierungsangaben (siehe Abschnitt 5) vor allem lokale und temporale Deiktika (Bühler, 1934/1982; Ehrich, 1985; Kemmerer, 1999; Klein, 1978; 1983; Sichelschmidt, 1989), Objektbenennungen und -beschreibungen (vgl. Klein, 1983; siehe Mangold, in diesem Band), Wahrnehmungsverben (Schepping, 1989) sowie Bewegungsverben, ggf. in Verbindung mit Präpositionen, lokalen Kasusmarkierungen oder Verbalpartikeln (Carroll, 2000; Habel, 1999). Die Wahl des Bezugssystems ist bei Wegbeschreibungen stark vom dynamischen Charakter der Lokalisationen bestimmt. Dieser führt dazu, bevorzugt aus Sicht derjenigen Person (oder desjenigen Objektes) zu lokalisieren, welche(s) eine Positionierung oder eigene Ortsveränderung vornimmt (Beschreibung) oder vornehmen soll (Instruktion; z. B.
Stell die Lampe rechts neben das Sofa) (Wunderlich, 1982; Graf, Dittrich, Kilian & Herrmann, 1991). Besonders stark wirkt der Dynamikfaktor, wenn eine Veränderung der eigenen Haltung, Position oder Orientierung des intendierten Objekts beschrieben wird (z. B. Das Auto biegt nach links ab; Dreh dich mal links!; Guck mal nach rechts!; Das Pferd schlägt nach hinten aus); in diesen Fällen sind intendiertes Objekt, Relatum und Blickpunkt durch die gleiche Instanz belegt. Da eine Bewegung zugleich auch zeitlichen Charakter hat, hängt die Verwendung von Richtungsausdrücken auch davon ab, ob das Präpositioneninventar einer Sprache eine Bedeutungsdifferenzierung zwischen dynamischen und statischen Lokalisationen zulässt (Grabowski & Weiß, 1996). Bei der Wegbeschreibung erlaubt die Beibehaltung der Perspektive des Wegbenutzers der Auskunft gebenden Person, durch Hineinversetzung in die Route konsistent den eigenen Blickpunkt zugrunde zu legen und gleichzeitig aus Sicht des Adressaten zu lokalisieren (Perspektivenkoinzidenz). Jede einzelne Richtungsbestimmung erfolgt dabei in Relation zum jeweiligen imaginären Standort und in Abhängigkeit von der jeweiligen imaginären Orientierung, d. h. Bezugsrichtung, auf der Route (Klein, 1983).
7.
Ausdehnung im Raum: Größe und Form
Die räumliche Ausdehnung eines Objekts in verschiedenen Dimensionen und das Verhältnis, in dem Ausdehnungen entlang verschiedener Dimensionen zueinander stehen, bestimmen die Wahrnehmung und Versprachlichung von Größe und Form des Objekts (Labov, 1973; Vorwerg, 2001b). Größen- und Formspezifikationen spielen bei Objektbenennungen eine besondere Rolle (siehe Mangold sowie Vorwerg in diesem Band), kommen aber auch in vielen anderen Sprachproduktionsbereichen vor, wie z. B. Zimmerbeschreibungen (z. B. das Zimmer ist auch nicht schlauchförmig, aber auch ziemlich rechteckig; Ullmer-Ehrich, 1982) und Wohnungsbeschreibungen (z. B. you walk into a long, narrow foyer, leading into a smaller, squarer foyer; Linde & Labov, 1975). Die sprachliche Spezifikation eines räumlichen Objektattributs erfordert die Extraktion einer perzeptiven Eigenschaft bzw. Dimension (z. B. Hˆhe, L‰nge, Tiefe, Breite, Di-
390 cke, Weite, Fl‰cheninhalt, Volumen, Rundheit, eckigkeit und anderer Formcharakteristika) aus der ganzheitlichen Objektwahrnehmung unter selektiver Aufmerksamkeitszuwendung. Einige dieser Attributdimensionen beziehen sich unmittelbar auf eine der Dimensionen des Raumes. Der ursprünglich nur für die drei Messgrößen des Raumes verwendete Begriff der Dimension [lat. dimensio ‘Ausmessung’] wird inzwischen zur Bezeichnung jeder wohl definierten quantitativen Serie verwandt. Dazu gehören z. B. Fähigkeitsund Eigenschaftsdimensionen, wie Helligkeit, Schwere (Vorwerg & Rickheit, 1999a). Für dreidimensionale Objekte werden den Dimensionsausdehnungen bedingungsabhängig Tripel aus {L‰nge, Hˆhe, Breite, Weite, Tiefe, Dicke} in bestimmten Kombinationen zugeordnet (Lang, 1989). Die Dimensionsauszeichnung hängt vor allem von den Hauptachsen eines Objekts ab, welche von Gestalteigenschaften des Objekts (z. B. Symmetrieeigenschaften; relative Größe der Abmessungen), von der momentanen oder kanonischen Lage im Raum (oft relativ zur extrinsischen Vertikalen oder zum Betrachter), von der Fortbewegungsrichtung im Raum oder funktionalen Faktoren bestimmt sein können (Lang, 1987; Vandeloise, 1988). Insbesondere werden L‰nge und Dicke gestaltabhängig, Hˆhe und Tiefe orientierungsabhängig zugeordnet; die Breite bestimmt sich (sekundär) in Relation zu einer primären Achse (Lang). Verschiedene Sprachen unterscheiden sich nach der Bedeutsamkeit von Gestalteigenschaften und der Orientierung für die Dimensionsauszeichnung (Lang, 1996; Stolz, 1996). Die sprachliche Attributspezifikation erfordert weiterhin die Zuordnung eines wahrgenommenen Ausprägungsgrades der Attributdimension zu einer benennbaren Kategorie (z. B. lang, kurz, mittellang). Wahrnehmung und Beurteilung einer einzelnen Dimensionsausprägung erfolgen stets in Relation zu Vergleichswerten, welche ein Bezugssystem (Metzger, 1954) bilden, in dem ein Dimensionswert verortet werden kann. Zum Bezugssystem gehören zum einen in der Situation simultan vorhandene oder voraus gegangene Vergleichswerte. Zum anderen sind aber auch langfristig repräsentierte Vergleichswerte wirksam. Diese bestehen für quantitativ variable Attributdimensionen, deren Ausprägungsgrade sich in der Wahrnehmung lediglich in der Stärke unterscheiden, aus Kennwerten empirischer Verteilungen
III. Sprachproduktion
(z. B. Rand- oder Mittelwerten; Helson, 1947; Parducci, 1965), während für qualitativ variable Attributdimensionen, deren Ausprägungsgrade in der Anschauung von verschiedener Art sind, besonders saliente Dimensionswerte kognitive Bezugswerte bilden (Rosch, 1975; Vorwerg, 2001a, 2001b). Größenattribute gehören zu den quantitativen Attributdimensionen. Sie werden im Deutschen und anderen indogermanischen Sprachen mit polaren Adjektiven bezeichnet (z. B. dick – dünn; groß – klein, in anderen Sprachen aber auch mit Verben und Adverbien (z. B. Ewe) oder Numeralklassifikatoren (z. B. Yukatekisch; Stolz, 1996). Formattribute gehören zu den qualitativen Attributdimensionen. Sie werden in der Regel mit heteronymen Wortreihen bezeichnet (z. B. rund, eckig; quadratisch, rechteckig, schlauchförmig). Die Kategorisierung beruht auf einem Vergleich mit den jeweils gegebenen Vergleichswerten des Bezugssystems. Zusätzlich zu den durch Extremwerte (quantitativ) oder Idealwerte (qualitativ) bestimmten Hauptkategorien können weitere Kategorien gebildet werden (z. B. nach dem Äquisektionsprinzip, d. h. der Teilung des Variationsbereichs in anschaulich gleich große Abstände; Witte, 1960). Sprachlich können dafür Zusammensetzungen mit mittel-, halb- oder über- sowie Modal- und Graduierungsattribute (z. B. sehr, ziemlich, fast, etwas) verwendet werden (zu hedges bzw. Heckenausdrücken siehe auch Lakoff, 1973). Extremwerte außerhalb der gewohnten Bandbreite werden mitunter durch spezielle Ausdrücke (wie z. B. riesig und winzig) benannt. Im Gegensatz zu Vergleichsurteilen (im Komparativ; z. B. länger als X; siehe Carstensen, 1998; Bierwisch, 1987; Klein, 1980) treten die Vergleichswerte in sog. Absoluturteilen (im Positiv; z. B. a medium-sized foyer; a tiny bedroom) anschaulich und sprachlich nicht in Erscheinung (Haubensak, 1985). Bei einigen Adjektiven kann auch der absolute Komparativ verwendet werden (z. B. ein größeres Haus). Grundlegendes Prinzip der Wahrnehmung von Dimensionsausprägungen ist die Verhältnisbildung; d. h. wir sind wesentlich besser in der Lage zu beurteilen, in welchem Verhältnis zwei Werte zueinander stehen, als, welche Differenz zwischen ihnen besteht (auch wenn das wahrgenommene Verhältnis nicht dem physikalischen Verhältnis entsprechen muss; so kann beispielsweise zur Verdopplung eines
391
28. Sprechen über Raum
wahrgenommenen Werts eine Vervierfachung der physikalischen Größe notwendig sein; Stevens, 1975). Dagegen bemühen sich Sprecher, zur Kategorisierung der Werte das vorhandene Spektrum in anschaulich gleich große Intervalle einzuteilen. Bei der Abbildung der perzeptiven auf eine kategoriale Skala kommt es daher zu einer Art Kompromissbildung; d. h. der Unterschied zwischen 2 und 4 Längeneinheiten wird größer wahrgenommen als der Unterschied zwischen 12 und 14 Längeneinheiten (und schneller erkannt, Cattell, 1902); jedoch nicht ganz so groß, wie es den Verhältnissen beider Wertepaare entsprechen würde. Darüber hinaus gibt es einen ebenfalls von Cattell gefundenen Distanzeffekt; d. h. größere Unterschiede werden schneller erkannt als kleinere. Dieser Effekt tritt auch beim Vergleich symbolischer Größen auf. Bei qualitativen Dimensionen gibt es eine solche Kompromissbildung zwischen Verhältnis- und Intervallbildung nicht (Stevens, 1975). Mann kann annehmen, dass dies darauf zurückzuführen ist, dass Werte qualitativer Dimensionen bereits auf einer Verhältnisbildung zwischen Subdimensionen beruhen (Vorwerg, 2001a, 2001b). So bestimmen sich etwa die Idealtypen von Formattributen wie rund, oval, quadratisch oder rechteckig aus dem Verhältnis der Achsenausprägungen. Ein weiteres Zuordnungskriterium ist die Begrenzung des Objekts (mit vs. ohne abrupte Krümmungswechsel; z. B. rund vs. quadratisch; Eschenbach, Habel, Kulik & Leßmöllmann, 1998; Leßmöllmann, 2000). Werden Formadjektive mit Nomen kombiniert, die über die assoziierten Objektkonzepte selbst Formmerkmale beinhalten, modifizieren sie diese lediglich in den durch die Objektklasse vorgegebenen Grenzen (z. B. ein ovales Blatt; Heidorn; 1995). Die Zuordnung von Formadjektiven toleriert gewisse Abweichungen von Proto- bzw. Idealtypen, welche als Vagheit und Flexibilität in der Anwendbarkeit von Formausdrücken in Erscheinung tritt (Eschenbach et al., 1998). Daher kann auch die Zuweisung von Formausdrücken (innerhalb der durch die Idealtypen vorgegebenen Grenzen) kontextabhängig sein (Vorwerg, 2001b). Zwischen verschiedenen Größen- und Formdimensionen können Zusammenhänge bestehen; d. h. ihre Kategorisierung erfolgt nicht unabhängig voneinander. Dies gilt beispielsweise für die Dicke und L‰nge von Schrauben oder die Breite und L‰nge von
Leisten (Vorwerg, 2001b). Hier wird deutlich, dass die Zuordnung von Größenattributen auch von der Relation zu jeweils anderen Dimensionsabmessungen des Objektes beeinflusst werden kann. Insgesamt zeigen die Erkenntnisse zu Größen- und Formattributen ebenso wie die Ergebnisse zum sprachlichen Lokalisieren, dass das Relationsprinzip (Sarris & Lauterbach, 1980), welches zu einer weitgehenden Skaleninvarianz (Chater & Brown, 1999) führt, von grundlegender Bedeutung für die Verarbeitung und sprachliche Benennung räumlicher Relationen und Objektattribute ist.
8.
Literatur
Acredolo, L. P. (1988). Infant mobility and spatial development. In J. Stiles-Davis, M. Kritchevsky & U. Bellugi (Eds.), Spatial cognition. Brain bases and development (pp. 157⫺166). Hillsdale, NJ: Erlbaum. Allan, K. (1995). The anthropocentricity of the English word(s) back. Cognitive Linguistics, 6, 11⫺31. Asch, S. E. & Witkin, H. A. (1948). Studies in space orientation. II. Perception of the upright with displaced visual fields and with body tilted. Journal of Experimental Psychology, 38, 455⫺477. Attneave, F. & Olson, R. K. (1967). Discriminability of stimuli varying in physical and retinal orientation. Journal of Experimental Psychology, 74, 149⫺157. Aubert, H. (1861). Eine scheinbare bedeutende Drehung von Objecten bei Neigung des Kopfes nach rechts oder links. Virchows Archiv für pathologische Anatomie und Physiologie, 20, 381⫺393. Benton, A. L. (1959). Right-left discrimination and finger localization, development and pathology. New York: Hoeber-Harper. Bierwisch, M. (1987). Semantik der Graduierung. In M. Bierwisch & E. Lang (Hrsg.), Grammatische und konzeptuelle Aspekte von Dimensionsadjektiven (pp. 91⫺286). Berlin: Akademie-Verlag. Bierwisch, M. (1988). On the grammar of local prepositions. In M. Bierwisch, W. Motsch & I. Zimmermann (Hrsg.), Syntax, Semantik und Lexikon (pp. 1⫺65). Berlin: Akademie-Verlag. Boone, D. R. & Prescott, T. E. (1968). Development of left-right discrimination in normal children. Perceptual and Motor Skills, 26, 267⫺274. Bryant, D. J. (1995). Human spatial concepts reflect regularities of the physical world and human body. In P. L. Olivier (Ed.), Representation and
392 processing of spatial expressions. IJCAI-95 Workshop (pp. 21⫺32). Montre´al:. Bryant, D. J. & Subbiah, I. (1993). Strategic and perceptual factors producing tilt contrast in dot localization. Memory and Cognition, 31, 773⫺784. Bühler, K. (1934). Sprachtheorie. Jena: Gustav Fischer (Neudruck 1982). Buhl, H., Katz, S., Schweizer, K. & Herrmann, T. (2000). Einflüsse räumlichen Wissenserwerbs auf die Linearisierung beim Sprechen über räumliche Anordnungen. Zeitschrift für Experimentelle Psychologie, 47, 17⫺33. Byrne, R. W. (1979). Memory for urban geography. Quarterly Journal of Experimental Psychology, 31, 147⫺154. Canter, D. & Tagg, S. (1975). Distance estimation in cities. Environment & Behavior, 7, 59⫺80. Carlson-Radvansky, L. A., Covey, E. S. & Lattanzi, K. M. (1999). ‘What’ effects on ‘where’: Functional influences on spatial relations. Psychological Science, 10, 516⫺521. Carlson-Radvansky, L. A. & Irwin, D. E. (1993). Frames of reference in vision and language: Where is above? Cognition, 46, 223⫺244. Carlson-Radvansky, L. A. & Radvansky, G. A. (1996). The influence of functional relations on spatial term selection. Psychological Science, 7, 56⫺60. Carroll, M. (1993). Deictic and intrinsic orientation in spatial descriptions: A comparison between English and German. In J. Altarriba (Ed.), Cognition and culture – A cross-cultural approach to psychology (pp. 23⫺43). Amsterdam: Elsevier. Carroll, M. (2000). Representing path in language production in English and German: Alternative perspectives on figure and ground. In C. Habel & C. v. Stutterheim (Hrsg.), Räumliche Konzepte and sprachliche Strukturen (pp. 97⫺118). Tübingen: Niemeyer. Carroll, M. & Stutterheim, C. v. (1993). The representation of spatial configurations in English and German and the grammatical structure of locative and anaphoric expressions. Linguistics, 31, 1011⫺ 1041. Carstensen, K. (1998). A cognitive science approach to the semantics of spatial gradation. In P. Ludewig & B. Geurts (Hrsg.), Lexikalische Semantik aus kognitiver Sicht. Perspektiven im Spannungsfeld linguistischer und psychologischer Modellierungen (pp. 73⫺94). Tübingen: Gunter Narr. Cattell, J. McK. (1902). The time of perception as a measure of differences in intensity. Philosophische Studien, 19, 63⫺68.
III. Sprachproduktion Chater, N. & Brown, G. D. A. (1999). Scale-invariance as a unifying psychological principle. Cognition, 69, B17-B24. Clark, E. V. (1973). Non-linguistic strategies and the acquisition of word meanings. Cognition, 2, 161⫺182. Clark, H. H. (1973). Space, time, semantics, and the child. In T. Moore (Ed.), Cognitive development and the acquisition of language (pp. 27⫺63). New York: Academic Press. Clark, H. H. & Haviland, S. E. (1977). Comprehension and the given-new contract. In R. O. Freedle (Ed.), Discourse production and comprehension (pp. 1⫺40). Norwood: Ablex. Conti, P. & Beaubaton, D. (1980). Role of structured visual field and visual reafference in accuracy of pointing movements. Perceptual and Motor Skills, 50, 239⫺244. Corballis, M. & Beale, I. (1976). The psychology of left and right. Hillsdale, NJ: Erlbaum. Corballis, M. C. & Cullen, S. (1986). Decisions about the axes of disoriented shapes. Memory & Cognition, 14, 27⫺38. Corlett, J. T., Byblow, W. & Taylor, B. (1990). The effect of perceived locomotor constraints on distance estimation. Journal of Motor Behavior, 22, 347⫺360. Coventry, K. R. (1995). Spatial prepositions, functional relations and lexical specification. In P. L. Olivier (Ed.), Representation and processing of spatial expressions (pp. 41⫺52). Montre´al:. Coventry, K. R., Carmichael, R. & Garrod, S. C. (1994). Spatial prepositions, object-specific function, and task requirements. Journal of Semantics, 11, 289⫺309. Coventry, K. R. & Prat-Sala, M. (1998). Geometry, function, and the comprehension of ‘over’, ‘under’, ‘above’, and ‘below’. In M. A. Gernsbacher & S. J. Derry (Eds.), Proceedings of the Twentieth Annual Conference of the Cognitive Science Society (pp. 261⫺266). Mahwah, NJ: Erlbaum. Craton, L. G., Elicker, J., Plumert, J. M. & Pick, H. L., Jr. (1990). Children’s use of frames of reference of spatial location. Child Development, 61, 1528⫺1543. Crawford, L. E., Regier, T. & Huttenlocher, J. (2000). Linguistic and non-linguistic spatial categorization. Cognition, 75, 209⫺235. De Vega, M. (1994). Characters and their perspectives in narratives describing spatial environments. Psychological Research 5, 56, 116⫺126. Denis, M. (1996). Imagery and the description of spatial configurations. In M. de Vega, M. J. In-
28. Sprechen über Raum
393
tons-Peterson, P. N. Johnson-Laird, M. Denis & M. Marschak (Eds.), Models of visuospatial cognition (pp. 128⫺197). New York: Oxford University Press.
Friederici, A. D., & Levelt, W. J. (1990). Spatial reference in weightlessness: Perceptual factors and mental. Perception and Psychophysics, 47, 253⫺ 266.
Denis, M. (1997). The description of routes: A cognitive approach to the production of spatial discourse. Current Psychology of Cognition, 16, 409⫺458.
Gapp, K. (1995). An empirically validated model for computing spatial relations. In I. Wachsmuth, C. Rollinger & W. Brauer (Eds.), KI-95: Advances in Artificial Intelligence. Proceedings of the 19th Annual German Conference on Artificial Intelligence (pp. 245⫺256). Berlin: Springer.
Denis, M., Carite´, L. & Robin, F. (1991). Cognitive approaches to the processing of descriptions. Zeitschrift für Psychologie. Suppl., 11, 148⫺154. Denis, M. & Cocude, M. (1997). On the metric properties of visual images generated from verbal descriptions: Evidence for the robustness of the mental scanning effect. European Journal of Cognitive Psychology, 9, 353⫺379. Denis, M., Daniel, M. P., Fontaine, S. & Pazzaglia, F. (2001). Language, spatial cognition, and navigation. In M. Denis, R. H. Logie, C. Cornoldi, M. de Vega & J. Engelkamp (Eds.), Imagery, language and visuo-spatial thinking (pp. 137⫺160). Hove: Psychology Press. Denis, M., Pazzaglia, F., Cornoldi, C. & Bertolo, L. (1999). Spatial discourse and navigation: An analysis of route directions in the city of Venice. Applied Cognitive Psychology, 13, 145⫺174. Ehrich, V. (1985). Zur Linguistik und Psycholinguistik der sekundären Raumdeixis. In H. Schweizer (Hrsg.), Sprache und Raum. Psychologische und linguistische Aspekte der Aneignung und Verarbeitung von Räumlichkeit. Ein Arbeitsbuch für das Lehren von Forschung. Stuttgart: Metzler. Elkind, D. (1961). Children’s conceptions of right and left: Piaget replication study IV. The Journal of Genetic Psychology, 99, 269⫺276. Eschenbach, C., Habel, C., Kulik, L. & Leßmöllmann, A. (1998). Shape nouns and shape concepts. A geometry for ‘corner’. In C. Freksa, C. Habel & K. F. Wender (Eds.), Spatial cognition. An interdisciplinary approach to representing and processing spatial knowledge (pp. 177⫺201). Berlin: Springer.
Gapp, K. (1997). Objektlokalisation. Ein System zur sprachlichen Raumbeschreibung. Wiesbaden: Deutscher Universitätsverlag. Gentner, D. (1982). Why nouns are learned before verbs: Linguistic relativity versus natural partitioning. In S. A. Kuczaj (Ed.), Language development. Vol. 2: Language, thought and culture (pp. 301⫺ 334). Hillsdale, NJ: Erlbaum. Ghysselinckx-Janssens, A. & Vandenplas-Holper, C. (1991). The development of left-right decentration in four- to seven-year-old children. European Journal of Psychology of Education, 6, 303⫺324. Gibson, J. J. (1966). The senses considered as perceptual systems. Boston: Houghton Mifflin. Gogel, W. C. & Tietz, J. D. (1992). Absence of compensation and reasoning-like processes in the perception of orientation in depth. Perception & Psychophysics, 51, 309⫺318. Golledge, R. G. (1995). Path selection and route preference in human navigation: A progress report. In A. U. Frank & W. Kuhn (Eds.), Spatial information theory: A theoretical basis for GIS (pp. 207⫺ 222). Berlin: Springer. Grabowski, J. (1994). Kommunikative Unschärfen. Zur Rezeption und Produktion von Richtungspräpositionen am Beispiel von ‘vor’ und ‘hinter’. In H. J. Kornadt, J. Grabowski & R. Mangold-Allwinn (Hrsg.), Sprache und Kognition. Perspektiven moderner Sprachpsychologie (pp. 183⫺208). Heidelberg: Spektrum Akademischer Verlag.
Fraenkel, E. (1929). Konkurrenz von Präpositionen und Bedeutungserweiterung der einen auf Kosten der anderen in den indogermanischen Sprachen. Donum natalicum Schrijnen 356⫺363. Nijmegen: Dekker & Van de Vegt.
Grabowski, J. & Weiß, P. (1996). Das Präpositioneninventar als Determinante des Verstehens von Raumpräpositionen: ‘vor’ und ‘hinter’ in fünf Sprachen. In E. Lang & G. Zifonun (Hrsg.), Deutsch – typologisch (pp. 289⫺311). Berlin: Walter de Gruyter.
Franklin, N., Henkel, L. A. & Zangas, T. (1995). Parsing surrounding space into regions. Memory and Cognition, 23, 397⫺407.
Graf, R. (1996). Mentale Rotation und Blickpunkttransformation. Sprache und Kognition, 15, 178⫺202.
Franklin, N. & Tversky, B. (1990). Mental spatial frameworks for different perspectives. Paper presented at 31st Annual Meeting of the Psychonomic Society.
Graf, R., Dittrich, S. Kilian, E. & Herrmann, T. (1991). Lokalisationssequenzen: Sprecherziele, Partnermerkmale und Objektkonstellationen (Teil II): Drei Erkundungsexperimente (Arbeiten aus dem
394
III. Sprachproduktion
Sonderforschungsbereich 245 „Sprechen und Sprachverstehen im sozialen Kontext“ Heidelberg/ Mannheim, Bericht Nr. 11). Mannheim: Universität, Lehrstuhl III.
Heidorn, P. B. (1995). Shapes from natural language in verbal image. In P. L. Olivier (Ed.), Representation and processing of spatial expressions (pp. 83⫺92). Montre´al.
Grieve, R., Hoogenraad, R. & Murray, D. (1977). On the young child’s use of lexis and syntax in understanding locative instructions. Cognition, 5, 235⫺250.
Helson, H. (1947). Adaptation-level as a frame of reference for prediction of psychophysical data. American Journal of Psychology, 60, 1⫺29.
Grimm, H. (1973). Strukturanalytische Untersuchung der Kindersprache. Bern: Huber. Grimm, H. (1975). On the child’s acquisition of semantic structure underlying the wordfield of prepositions. Language and Speech, 18, 97⫺119. Habel, C. (1988). Prozedurale Aspekte der Wegplanung und Wegbeschreibung. In H. Schnelle & G. Rickheit (Hrsg.), Sprache in Mensch und Computer. Kognitive und neuronale Sprachverarbeitung (pp. 107⫺133). Opladen: Westdeutscher Verlag. Habel, C. (1989). ‘zwischen’-Bericht. In C. Habel, M. Herweg & K. Rehkämper (Hrsg.), Raumkonzepte in Verstehensprozessen. Interdisziplinäre Beiträge zu Sprache und Raum (pp. 37⫺69). Tübingen: Niemeyer. Habel, C. (1999). Drehsinn & Reorientierung. Modus und Richtung beim Bewegungsverb ‘drehen’. In G. Rickheit (Hrsg.), Richtungen im Raum (pp. 101⫺128). Wiesbaden: Deutscher Universitätsverlag. Halpern, E., Corrigan, R. & Aviezer, O. (1981). Two types of ‘under’? Implications for the relationship between cognition and language. International Journal of Psycholinguistics, 8, 37⫺56. Harnisch, R. (2000). Morphosemantik und Paradimenstruktur von Lokaladverbien. In C. Habel & C. v. Stutterheim (Hrsg.), Räumliche Konzepte und sprachliche Strukturen (pp. 181⫺189). Tübingen: Niemeyer.
Herrmann, T. (1990). Vor, hinter, rechts und links: das 6H-Modell. Zeitschrift für Literaturwissenschaft und Linguistik, 78, 117⫺140. Herrmann, T., Buhl, H. M., & Schweizer, K. (1995). Zur blickpunktbezogenen Wissensrepräsentation: Der Richtungseffekt. Zeitschrift für Psychologie, 203, 1⫺23. Herrmann, T. & Grabowski, J. (1994). Sprechen. Psychologie der Sprachproduktion. Heidelberg: Spektrum Akademischer Verlag. Herrmann, T. & Graf, R. (1991). Ein dualer Rechts-Links-Effekt. Zeitschrift für Psychologie, Suppl. 11, 137⫺147. Herrmann, T. & Schweizer, K. (1998). Sprechen über Raum. Sprachliches Lokalisieren und seine kognitiven Grundlagen. Bern: Huber. Herrmann, T., Schweizer, K., Janzen, G. & Katz, S. (1998). Routen- und Überblickswissen – konzeptuelle Überlegungen. Kognitionswissenschaft, 7, 145⫺159. Herskovits, A. (1986). Language and spatial cognition: An interdisciplinary study of the prepositions in English. Cambridge: Cambridge University Press. Herweg, M. (1989). Ansätze zu einer semantischen Beschreibung topologischer Präpositionen. In C. Habel, M. Herweg & K. Rehkämper (Hrsg.), Raumkonzepte in Verstehensprozessen (pp. 99⫺ 127). Tübingen: Niemeyer.
Harris, L. J. & Strommen, E. A. (1972). The role of front-back features in children’s ‘front’, ‘back’, and ‘beside’ placement of objects. Merrill-Palmer Quarterly, 18, 259⫺271.
Hill, C. (1982). Up/down, front/back, left/right: A contrastive study of Hausa and English. In J. Weissenborn & W. Klein (Eds.), Here and there: Crosslinguistic studies on deixis and demonstration (pp. 13⫺42). Amsterdam: Benjamins.
Harris, L. J. & Strommen, E. A. (1974). What is the „front“ of a simple geometric form? Perception & Psychophysics, 15, 571⫺580.
Hirtle, S. C. & Jonides, J. (1985). Evidence of hierarchies in cognitive maps. Memory and Cognition, 13, 208⫺217.
Haubensak, G. (1985). Absolutes und vergleichendes Urteil. Eine Einführung in die Theorie psychischer Bezugssysteme. Berlin: Springer.
Hirtle, S. C. & Mascolo, M. F. (1991). The heuristics of spatial cognition. Thirteenth Annual Conference of the Cognitive Society, 629⫺634. Hillsdale, NJ: Lawrence Erlbaum.
Haustein, W. (1992). Head-centric visual localization with lateral body tilt. Vision Research, 32, 669⫺673. Hayward, W. G. & Tarr, M. J. (1995). Spatial language and spatial representation. Cognition 55, 39⫺84.
Holding, C. S. (1992). Clusters of reference points in cognitive representations of the environment. Journal of Environmental Psychology, 12, 45⫺55. Howard, I. P. & Templeton, W. B. (1966). Human spatial orientation. New York: Wiley.
28. Sprechen über Raum Huttenlocher, J., Hedges, L. & Duncan, S. (1991). Categories and particulars: Prototype effects in estimating spatial location. Psychological Review, 98, 352⫺376. Jammer, M. (1969). Concepts of space. Cambridge, MA: Harvard University Press. Janzen, G. & Katz, S. (2000). Die Wahrnehmung von Eigen- und Fremdbewegung und ihr Ausdruck in der Sprache. In C. Habel & C. v. Stutterheim (Hrsg.), Räumliche Konzepte und sprachliche Strukturen (pp. 45⫺67). Tübingen: Niemeyer. Jastrow, J. (1893). On the judgment of angles and positions of lines. The American Journal of Psychology (Reproduktion 1966, hrsg. von G. S. Hall), 5, 214⫺248. Johnston, J. (1981). On location: Thinking and talking about space. Topics in Language Disorders, 2, 17⫺32. Johnston, J. R. (1984). Acquisition of locative meanings: ‘behind’ and ‘in front of’. Journal of Child Language, 11, 409⫺422. Johnston, J. R. (1988). Children’s verbal representation of spatial location. In J. Stiles-Davis, M. Kritchevsky & U. Bellugi (Eds.), Spatial cognition. Brain bases and development (pp. 195⫺205). Hillsdale, NJ: Lawrence Erlbaum. Johnston, J. R. & Slobin, D. I. (1979). The development of locative expressions in English, Italian, Serbo-Croatic and Turkish. Journal of Child Language, 6, 529⫺545. Jolicoeur, P., Ingleton, M., Bartram, L. & Booth, K. S. (1993). Top-bottom and front-behind decisions of rotated objects. Canadian Journal of Experimental Psychology, 47, 657⫺677. Kemmerer, D. (1999). ‘Near’ and ‘far’ in language and perception. Cognition, 73, 35⫺63. Klabunde, R. (1998). Zur Wahl dimensionaler Präpositionen und Adverbien in der Sprachproduktion. In P. Ludewig & B. Geurts (Hrsg.), Lexikalische Semantik aus kognitiver Sicht. Perspektiven im Spannungsfeld linguistischer und psychologischer Modellierungen (pp. 41⫺71). Tübingen: Gunter Narr. Klatzky, R. (1998). Allocentric and egocentric spatial representations: Definitions, distinctions, and interconnections. In C. Freksa, C. Habel & K. F. Wender (Eds.), Spatial cognition. An interdisciplinary approach to representing and processing spatial knowledge (pp. 1⫺17). Berlin: Springer. Klein, W. (1978). Wo ist hier? Präliminarien zu einer Untersuchung der lokalen Deixis. Linguistische Berichte, 58, 18⫺40.
395 Klein, W. (1979). Wegauskünfte. Zeitschrift für Literaturwissenschaft und Linguistik, 9, 9⫺57. Klein, W. (1980). A semantics for positive and comparative adjectives. Linguistics and Philosophy, 4, 1⫺45. Klein, W. (1983). Deixis and spatial orientation in route directions. In H. L. Pick & L. P. Acredolo (Eds.), Spatial orientation. Theory, research and application (pp. 282⫺311). New York/London: Plenum Press. Klein, W. (1991). Raumausdrücke. Linguistische Berichte, 132, 77⫺114. Kluge, F. (1999). Etymologisches Wörterbuch der deutschen Sprache. Berlin: Walter de Gruyter. Kosslyn, S. M., Pick, H. L. & Fariello, G. (1974). Cognitive maps in children and men. Child Development, 45, 707⫺716. Kuczaj, S. A. & Maratsos, M. P. (1975). On the acquisition of ‘front’, ‘back’ and ‘side’. Child Development, 46, 202⫺210. Künnapas, T. (1960). Scales for subjective distance. Scandinavian Journal of Psychology, 1, 187⫺192. Labov, W. (1973). The boundaries of words and their meanings. In C. N. Bailey & R. W. Shuy (Hrsg.), New ways of analyzing variation in English (pp. 340⫺373). Washington, D.C.: Georgetown University Press. Lakoff, G. (1973). Hedges: A study in meaning criteria and the logic of fuzzy concepts. Journal of Philosophical Logic, 2, 458⫺508. Landau, B. & Jackendoff, R. (1993). „What“ and „where“ in spatial language and spatial cognition. Behavioral and Brain Sciences, 16, 217⫺265. Lang, E. (1987). Semantik der Dimensionsauszeichnung räumlicher Objekte. In M. Bierwisch & E. Lang (Hrsg.), Grammatische und konzeptuelle Aspekte von Dimensionsadjektiven (pp. 287⫺458). Berlin: Akademie-Verlag. Lang, E. (1989). Primärer Orientierungsraum und inhärentes Proportionsschema: Interagierende Kategorisierungsraster bei der Konzeptualisierung räumlicher Objekte. In C. Habel, M. Herweg & K. Rehkämper (Hrsg.), Raumkonzepte in Verstehensprozessen. Interdisziplinäre Beiträge zu Sprache und Raum (pp. 150⫺173). Tübingen: Niemeyer. Lang, E. (1996). Lexikalisierung und Wortfeldstruktur – typologisch betrachtet. Räumliche Dimensionsausdrücke als Fallstudie. In E. Lang & G. Zifonun (Hrsg.), Deutsch – typologisch (pp. 312⫺ 355). Berlin: de Gruyter. Lechner-Steinleitner, S., Schoene, H. & Wade, N. J. (1979). Perception of the visual vertical: Utricu-
396 lar and somatosensory contributions. Psychological Research, 40, 407⫺414. Leech, G. N. (1969). Towards a semantic description of English. London: Longman. Leßmöllmann, A. (2000). Der Ball ist rund: Formadjektive und Objektkonzepte. In C. Habel & C. v. Stutterheim (Hrsg.), Räumliche Konzepte und sprachliche Strukturen (pp. 217⫺236). Tübingen: Niemeyer.
III. Sprachproduktion Präpositionen. In H. Schweizer (Hrsg.), Sprache und Raum. Psychologische und linguistische Aspekte der Aneignung und Verarbeitung von Räumlichkeit (pp. 90⫺110). Stuttgart: J.B. Metzlersche Verlagsbuchhandlung. Lynch, K. (1960). The image of the city. Cambridge: MIT and Harvard University Press. Mann, C. W. (1952). Visual factors in the perception of verticality. Journal of Experimental Psychology, 44, 460⫺464.
Levelt, W. J. M. (1982). Linearization in describing spatial networks. In S. Peters & E. Saarinen (Eds.), Processes, beliefs, and questions: Essays on formal semantics of natural language and natural language processing (pp. 199⫺220). Dordrecht: Reidel.
Marcq, P. (1971). Structure d’un point particulier du syste`me des pre´positions spatiales en latin classique. La Linguistique. Revue Internationale de Linguistique Ge´ne´rale, 7, 81⫺92.
Levinson, S. C. (1996). Frames of reference and Molyneux’s question: Crosslinguistic evidence. In P. Bloom, M. A. Peterson, L. Nadel & M. F. Garrett (Eds.), Language and space (pp. 109⫺169). Cambridge, MA: MIT Press.
Matin, L. (1986). Visual localization and eye movements. In K. R. Boff, L. Kaufman & J. P. Thomas (Eds.), Handbook of perception and human performance, Vol. 1: Sensory processes and perception (pp. 20/1⫺20/45). New York: Wiley.
Li, J. (1994). Räumliche Relationen und Objektwissen am Beispiel ‘an’ und ‘bei’. Tübingen: Gunter Narr.
McNamara, T. P. (1984). The mental representation of knowledge acquired from maps. Journal of Experimental Psychology: Learning, Memory, and Cognition, 10, 723⫺732.
Linde, C. & Labov, W. (1975). Spatial networks as a site for the study of language and thought. Language, 51, 924⫺939. Lindqvist, C. (1994). Zur Entstehung von Präpositionen im Deutschen und Schwedischen. Tübingen: Niemeyer. Logan, G. D. (1994). Spatial attention and the apprehension of spatial relations. Journal of Experimental Psychology: Human Perception and Performance, 5, 1015⫺1036. Logan, G. D. (1995). Linguistic and conceptual control of visual spatial attention. Cognitive Psychology, 28, 103⫺174. Logan, G. D. & Sadler, D. D. (1996). A computational analysis of the apprehension of spatial relations. In P. Bloom, M. A. Peterson, L. Nadel & M. F. Garrett (Eds.), Language and space (pp. 493⫺ 529). Cambridge, MA: MIT Press. Loomis, J. M., Da Silva, J. A., Philbeck, J. W. & Fukusima, S. S. (1996). Visual perception of location and distance. Current Directions in Psychological Science, 3, 72⫺77. Lovelace, K. L., Hegarty, M. & Montello, D. R. (1999). Elements of good route directions in familiar and unfamiliar environments. In C. Freksa & D. M. Mark (Eds.), Spatial information theory: Cognitive and computational foundations of geographic information science (pp. 65⫺82). Berlin: Springer. Lutzeier, P. R. (1985). Sprachliche Vermittler von Räumlichkeit. Zur Syntax und Semantik lokaler
McNamara, T. P. (1986). Mental representations of spatial relations. Cognitive Psychology, 18, 87⫺ 121. McNamara, T. P., Halpin, J. A. & Hardy, J. K. (1992). The representation and integration in memory of spatial and nonspatial information. Memory & Cognition, 20, 519⫺532. Metzger, W. (1954). Psychologie. Darmstadt: Steinkopff. Miller, G. & Johnson-Laird, P. N. (1976). Language and perception. Cambridge: Cambridge University Press. Mittelstaedt, H. (1988). The information processing structure of the subjective vertical. A cybernetic bridge between its psychophysics and its neurobiology. In H. Marko, G. Hauske & A. Struppler (Eds.), Processing structures for perception and action (pp. 217⫺264). Weinheim: VCH. Moore, G. T. (1976). Theory and research on the development of environmental knowing. In G. T. Moore & R. G. Golledge (Eds.), Environmental knowing (pp. 138⫺164). Stroudsburg, Penn.: Dowden, Hutchinson & Ross. Müller, G. E. (1916). Über das Aubertsche Phänomen. Zeitschrift für Psychologie und Physiologie der Sinnesorgan, 49, 109⫺244. O’Keefe, J. & Nadel, L. (1978). The hippocampus as a cognitive map. Oxford: Oxford University Press. Olson, D. R. & Hildyard, A. (1977). The mental representation of oblique orientation. Canadian Journal of Psychology, 31, 3⫺13.
28. Sprechen über Raum Pailhous, J., Lepecq, J.Claude & Pe´ruch, P. (1987). Human spatial reference systems. In P. Ellen & C. T.Blanc (Eds.), Cognitive processes and spatial orientation in animal and man (pp. 233⫺249). Dordrecht: Martinus Nijhoff Publishers. Paillard, J. (1991). Motor and representational framing of space. In J. Paillard (Ed.), Brain and space (pp. 163⫺182). Oxford: Oxford University Press. Parducci, A. (1965). Category judgment: A rangefrequency model. Psychological Review, 72, 407⫺ 418.
397 imagine what people see from their own viewpoint? Perceptual and Motor Skills, 83, 831⫺842. Roberts, R. J. & Aman, C. J. (1993). Developmental differences in giving directions: Spatial frames of reference and mental rotation. Child Development, 64, 1258⫺1270. Robertson, L. C., Palmer, S. E. & Gomez, L. M. (1987). Reference frames in mental rotation. Journal of Experimental Psychology Learning, Memory, and Cognition, 13, 368⫺379.
Parisi, J. & Antinucci, F. (1970). Lexical competence. In G. B. Flores d’Arcais & W. J. M. Levelt (Eds.), Advances in psycholinguistics (pp. 197⫺210). Amsterdam: North-Holland.
Robin, F. & Denis, M. (1991). Description of perceived or imagined spatial networks. In R. H. Logie & M. Denis (Eds.), Mental images in human cognition (pp. 141⫺152). Amsterdam: North-Holland.
Pederson, E. (1995). Language as context, language as means: Spatial cognition and habitual language use. Cognitive Linguistics, 6, 33⫺62.
Rock, I. & Leaman, R. (1963). An experimental analysis of visual symmetry. Acta Psychologica, 21, 171⫺183.
Pelz, J. B. & Hayhoe, M. M. (1995). The role of exocentric reference frames in the perception of visual direction. Vision Research, 35, 2267⫺2275.
Rosch, E. (1975). Cognitive reference points. Cognitive Psychology, 7, 532⫺547.
Piaget, J. (1926). La repre´sentation du monde chez l’enfant. Paris: Alcan. Piaget, J. & Inhelder, B. (1948). La repre´sentation de l’espace chez l’enfant. Paris: PUF (dt.: Die Entwicklung des räumlichen Denkens beim Kinde. Stuttgart: Klett, 1971). Pick, H. L. (1993). Organization of spatial knowledge in children. In N. Eilan, R. McCarthy & B. Brewer (Eds.), Spatial representation. Problems in philosophy and psychology (pp. 31⫺42). Oxford: Blackwell. Pie´rart, B. (1977). L’acquisition du sens des marqueurs de relation spatiale ‘devant’ et ‘derrie`re’. Anne´e psychologique, 77, 95⫺116. Regier, T. (1996). The human semantic potential. Spatial language and constrained connectionism. Cambridge, MA: MIT Press.
Sadalla, E. K., Burroughs, W. J. & Staplin, L. J. (1980). Reference points in spatial cognition. Journal of Experimental Psychology: Human Learning and Memory, 6, 516⫺528. Sadalla, E. K. & Montello, D. R. (1989). Remembering changes in direction. Environment and Behavior, 21, 346⫺363. Sarris, V. & Lauterbach, W. (1980). Zur konzeptuellen Bedeutung von psychologischen Bezugssystemen: Wahrnehmungspsychologische Grundlagen. In W. Lauterbach & V. Sarris (Hrsg.), Beiträge zur psychologischen Bezugssystemforschung (pp. 15⫺ 54). Bern: Huber. Schepping, M. (1989). Bewegung und Wahrnehmung. In C. Habel, M. Herweg & K. Rehkämper (Hrsg.), Raumkonzepte in Verstehensprozessen. Interdisziplinäre Beiträge zu Sprache und Raum (pp. 283⫺309). Tübingen: Niemeyer.
Regier, T. & Carlson, L. A. (2001). Grounding spatial language in perception: An empirical and computational investigation. Journal of Experimental Psychology: General, 130, 273⫺298.
Schiano, D. J. & Tversky, B. (1992). Structure and strategy in encoding simplified graphs. Memory and Cognition, 20, 12⫺20.
Renz, J., Rauh, R. & Knauff, M. (2000). Towards cognitive adequacy of topological spatial relations. In C. Freksa, W. Brauer, C. Habel & K.F. Wender (Eds.), Spatial cognition II. Integrating abstract theories, empirical studies, formal methods, and practical applications (pp. 184⫺197). Berlin: Springer.
Schmidt, H.D. (1981). Entwicklungswunder Mensch. Leipzig: Urania-Verlag.
Retz-Schmidt, G. (1988). Various views on spatial prepositions. AI Magazine, 9, 95⫺105. Rigal, R. (1996). Right-left orientation, mental rotation, and perspective-taking: When can children
Schildt, J. (1970). Die Ausbildung einer ostmitteldeutschen Norm im Gebrauch lokaler Präpositionen. Berlin: Akademie-Verlag.
Schober, M. F. (1993). Spatial perspective taking in conversation. Cognition, 47, 1⫺24. Schöne, H. & Udo De Haes, H. A. (1971). Space orientation in humans with special reference to the interaction of vestibular, somaesthetic and visual inputs. Biokybernetik. III. Materialien des II. Inter-
398 nationalen Symposiums Biokybernetik (pp. 172⫺ 191). Jena: Gustav Fischer Verlag. Shanon, B. (1984). Room descriptions. Discourse Processes, 7, 225⫺255. Sholl, M. J. (1987). Cognitive maps as orienting schemata. Journal of Experimental Psychology: Learning, Memory and Cognition, 13, 615⫺628. Sichelschmidt, L. (1989). Wo hier dort ist. Primärund sekundärdeiktische Raumreferenz. In C. Habel, M. Herweg & K. Rehkämper (Hrsg.), Raumkonzepte in Verstehensprozessen. Interdisziplinäre Beiträge zu Sprache und Raum (pp. 339⫺359). Tübingen: Max Niemeyer. Stevens, A. & Coupe, P. (1978). Distortions in judged spatial relations. Cognitive Psychology, 10, 422⫺437. Stevens, S. S. (1975). Psychophysics. Introduction to its perceptual, neural, and social prospects. New York: John Wiley & Sons. Stolz, C. (1996). Spatial dimensions and orientation of objects in Yucatec Maya. Bochum: Universitätsverlag Dr. N. Brockmeyer. Talmy, L. (1978). Figure and ground in complex sentences. In J. H. Greenberg (Ed.), Universals of human language (pp. 625⫺649). Stanford/CA: Stanford University Press. Talmy, L. (1983). How language structures space. In H. Pick & L. Acredolo (Eds.), Spatial orientation: Theory, research and application (pp. 225⫺ 282). Stanford: Stanford University Press. Taylor, H. A. & Tversky, B. (1992). Spatial mental models derived from survey and route descriptions. Journal of Memory and Language, 31, 261⫺291. Thiel, T. (1985). Räumliches Denken und das Verständnis von Lokativen beim Spracherwerb. In H. Schweizer (Hrsg.), Sprache und Raum. Psychologische und linguistische Aspekte der Aneignung und Verarbeitung von Räumlichkeit (pp. 184⫺208). Stuttgart: J.B. Metzlersche Verlagsbuchhandlung. Thorndyke, P. W. (1981). Distance estimations from cognitive maps. Cognitive Psychology, 13, 526⫺550. Thorndyke, P. W. & Hayes-Roth, B. (1982). Differences in spatial knowledge acquired from maps and navigation. Cognitive Psychology, 14, 560⫺ 589. Thorndyke, P. W. & Stasz, C. (1980). Individual differences in procedures for knowledge acquisition from maps. Cognitive Psychology, 12, 137⫺ 175. Tolman, E. C. (1948). Cognitive maps in rats and men. Psychological Review, 55, 189⫺208.
III. Sprachproduktion Tomasello, M. (1987). Learning to use prepositions: A case study. Journal of Child Language, 14, 79⫺98. Tversky, B. (1981). Distortions in memory for maps. Cognitive Psychology, 13, 407⫺433. Tversky, B. & Schiano, D. (1989). Perceptual and conceptual factors in distortions in memory graphs and maps. Journal of Experimental Psychology: General, 118, 387⫺398. Ullmer-Ehrich, V. (1982). The structure of living space descriptions. In R. J. Jarvella & W. Klein (Eds.), Speech, place, and action (pp. 219⫺249). Chichester: Wiley. Vandeloise, C. (1988). Length, width, and potential passing. In B. Rudzka-Ostyn (Ed.), Topics in cognitive linguistics (pp. 403⫺427). Amsterdam: John Benjamins. Vandeloise, C. (1991). Spatial propositions: A case study from French. Chicago: Chicago University Press. Vanetti, E. J. & Allen, G. L. (1988). Communicating environmental knowledge: The impact of verbal and spatial abilities on the production and comprehension of route directions. Environment and Behavior, 20, 667⫺682. Vorwerg, C. (2001a). Raumrelationen in Wahrnehmung und Sprache. Kategorierungsprozesse bei der Benennung visueller Richtungsrelationen. Wiesbaden: Deutscher Universitätsverlag. Vorwerg, C. (2001b). Objektattribute: Bezugssysteme in Wahrnehmung und Sprache. In L. Sichelschmidt & H. Strohner (Hrsg.), Sprache, Sinn und Situation (pp. 59⫺74). Wiesbaden: Deutscher Universitätsverlag. Vorwerg, C. (2002). Use of reference directions in spatial encoding (eingereicht zur Veröffentlichung). Vorwerg, C. & Rickheit, G. (1998). Typicality effects in the categorization of spatial relations. In C. Freksa, C. Habel & K. F. Wender (Eds.), Spatial cognition. An interdisciplinary approach to representing and processing spatial knowledge (pp. 203⫺ 222). Berlin: Springer. Vorwerg, C. & Rickheit, G. (1999a). Richtungsausdrücke und Heckenbildung beim sprachlichen Lokalisieren von Objekten im visuellen Raum. Linguistische Berichte, 178, 152⫺204. Vorwerg, C. & Rickheit, G. (1999b). Kognitive Bezugspunkte bei der Kategorisierung von Richtungsrelationen. In G. Rickheit (Hrsg.), Richtungen im Raum (pp. 129⫺165). Wiesbaden: Westdeutscher Verlag. Vorwerg, C. & Rickheit, G. (2000). Repräsentation und sprachliche Enkodierung räumlicher Relationen. In C. Habel & C. von Stutterheim (Hrsg.),
399
29. The Interpretation of Quantified Statements Räumliche Konzepte und sprachliche Strukturen (pp. 9⫺44). Tübingen: Niemeyer.
Genese von Bezugssystemen. Psychologische Beiträge, 4, 218⫺252.
Vorwerg, C., Socher, G., Fuhr, T., Sagerer, G. & Rickheit, G. (1997). Projective relations for 3D space: Computational model, application, and psychological evaluation. Proceedings of AAAI-97.
Wunderlich, D. (1982). Sprache und Raum. Studium Linguistik, 12/13, 1⫺19, 37⫺59.
Wahlster, W., Blocher, A., Baus, J., Stopp, E. & Speiser, H. (1998). Ressourcenadaptierende Objektlokalisation: Sprachliche Raumbeschreibung unter Zeitdruck. Kognitionswissenschaft, 7, 111⫺117. Wanska, S. (1984). The relationship of spatial concept development to the acquisition of locative understanding. The Journal of Genetic Psychology, 145, 11⫺21. Washington, D. S. & Naremore, R. C. (1978). Children’s use of spatial prepositions in two- and three-dimensional tasks. Journal of Speech and Hearing Research, 21, 151⫺165. Wertheimer, M. (1912). Über das Denken der Naturvölker. Zahlen und Zahlgebilde. Zeitschrift für Psychologie, 60, 321⫺378. Weyl, H. (1952). Symmetry. Princeton, NJ: Princeton University Press. Witte, W. (1960). Experimentelle Untersuchungen von Bezugssystemen. I. Struktur, Dynamik und
Wunderlich, D. (1986). Raum und Struktur des Lexikons. In H. G. Bosshardt (Hrsg.), Perspektiven auf Sprache. Interdisziplinäre Beiträge zum Gedenken an Hans Hörmann (pp. 212⫺231). Berlin: de Gruyter. Wunderlich, D. & Herweg, M. (1991). Lokale und Direktionale. In A. v. Stechow & D. Wunderlich (Hrsg.), Semantik. Ein internationales Handbuch der zeitgenössischen Forschung (pp. 758⫺785). Berlin: de Gruyter. Zimmer, H. D., Speiser, H. R., Baus, J., Blocher, A. & Stopp, E. (1998). The use of locative expressions in dependence of the spatial relation between target and reference object in two-dimensional layouts. In C. Freksa, C. Habel & K. F. Wender (Eds.), Spatial cognition. An interdisciplinary approach to representing and processing spatial knowledge (pp. 223⫺240). Berlin: Springer.
Constanze Vorwerg Universität Bielefeld (Deutschland)
29. The Interpretation of Quantified Statements 1. 2. 3. 4. 5. 6.
Introduction Quantifiers within a syllogistic framework Denotations of quantifiers Problems of scope and interpretation Conclusion References
1.
Introduction
This chapter is a description of psycholinguistic work on the interpretation of quantified sentences. Three main problems will be addressed. First, there is a large body of work which has been carried out on what we shall term the standard quantifiers. These are the ones used in classic work on syllogistic reasoning: all, some, none, and some ⫺ not. Most of the psycholinguistic research on these expressions has been within the context of syllogistic reasoning. Secondly, there has been a steady stream of research on the interpretation of nonstandard quantifiers, such as many, few, a lot, and so on. One part of this
research has largely been concerned with the amounts the quantifiers denote, rather than with their use in reasoning, although there are some recent exceptions. The second part has explored the relationship between quantifiers and the inferences which readers or listeners tend to make as a result of their interpretation. The third main problem is the disambiguation of scope in the case of multiplyquantified sentences. The three problem areas are not simply different aspects of the problem of quantifier interpretation, they also reflect rather distinct literatures and areas of study. Thus syllogistic reasoning has been typically treated as part of the psychology of logical reasoning, while the denotations of nonstandard quantifiers are a problem in applied psychology (such as in questionnaire design). Disambiguation of scope has been treated as a problem in conventional psycholinguistics. The literatures are thus disparate, and tend to meet very different goals and criteria. We will describe work in each area in turn.
400
2.
III. Sprachproduktion
Quantifiers within a syllogistic framework
Quantifiers are central to the nature of classical syllogisms, in which premises comprising quantified statements are combined to determine valid and informative conclusions. The quantifiers studied are the classical (or “logical”) ones: all, some, no, and some ⫺ not. There is a vast literature on the psychology of syllogisms, detailing the many errors in reasoning which people can make, and attempting to unravel the causes of these errors (see, for instance, Garnham & Oakhill, 1994; Johnson-Laird, 1983). For the present purpose, research focussing on the way in which the premises themselves are interpreted is of the most relevance, since this is the part of syllogistic reasoning which corresponds to the representation of quantified statements, rather than other aspects of reasoning. It is important to distinguish between the logical (semantic) representation of a quantified statement, and the pragmatic implicatures which constitute their normal interpretation. For instance, if Some X are Y, then three sets are necessary to capture its meaning: (1) A necessary set of Xs which are Ys. This set cannot be empty, but must have at least one member). (2) A possible set of Xs which are not Ys. (3) A possible set of Ys which are not Xs.
While the only logically necessary thing is that there is at least one X which is a Y (set 1), this does not rule out the possibility that there may be Xs which are not Ys (set 2). In fact, in normal conversation, if I said Some of the schoolchildren did their homework you would expect that as far as I know, not all of the children did their homework. If I had intended to say that they all did, then I would have said All of the children did their homework. In short, what you infer about speaker meaning is different from what is required to specify its logical meaning. Speaker meaning is based on assumptions which aren’t logically necessary, but only pragmatically implicated. Obviously, if participants in syllogistic reasoning studies made the pragmatic assumptions that go with speaker meaning, then logical errors would result (e. g., Newstead, 1989). There have been several attempts to determine just what ordinary listeners and readers infer when they are presented with quantified statements (e. g., Chapman & Chapman, 1958; Newstead, 1989). The main task which has been used relies on Euler circles (Figure 29.1). The task requires participants to say which quantified statements are true with respect to each diagram. One type of error is called a conversion error. When this is made, all Xs are Ys is taken to lead to the conclusion that all Ys are Xs. This is tantamount to leaving out the possible set of Ys which are not Xs. A similar conversion error can occur with
Fig. 29.1: Euler Circle representation of the possible intersections of two sets, A and B. There is a total of 5 possible diagrams, (a)⫺(e).
401
29. The Interpretation of Quantified Statements
Some Xs are not Ys, the error being that some Ys are not Xs. This doesn’t follow, because it is possible that no Y is an X, but people may not realise this (e. g., Newstead & Griggs, 1983). Early studies found errors of this sort to hold for about 25 % of cases (Fisher, 1981; Johnson-Laird, 1970; Neimark & Chapman, 1975). The Euler circle task has also been used to evaluate the contention that implicatures form part of participants’ understanding of quantified statements. The predicted choice patterns often occur. For instance, diagrams (a) and (b) are not chosen for some, and diagram (e) will not be chosen for some ⫺ not. A failure to choose these logical possibilities is consistent with the implicatures found in normal speaker meaning. Neimark and Chapman (1975) found that more than half of their participants chose diagram (c) and (d) for some and some-not. Their study is particularly informative, since they did tell their participants about the logical meaning of the quantifiers. In most studies of syllogistic reasoning, the need to think of the logical meaning is stressed. In a more recent study, Newstead (1989) used the Euler circle task to evaluate both conversion and the influence of implicatures. He found good evidence for the conversion of all, but little evidence for the conversion of some ⫺ not. He found evidence supporting the implicature position, in that some implied the truth of some ⫺ not on some occasions, and some implied the falsity of all. So, even when participants were instructed to use logical (necessary) interpretations, there was still evidence for conversion and the influence of implicatures. Newstead also used another index of interpretation, the Immediate Inference task (Newstead & Griggs, 1983). In this, participants see a statement, followed by eight test statements. They had to indicate which of the eight statements would be true given the truth of the initial statement. For example: S Some As are Bs Therefore: All As are Bs No As are Bs Some As are Bs Some As are not Bs All Bs are As No Bs are As Some Bs are As Some Bs are not As
Using this task, Newstead found that participants showing conversion errors occurred with a high frequency (57 % believing that all X are Y implies all Y are X). He also found that more than 80 % of the time some was taken to imply some ⫺ not, and vice-versa, the expected pattern if interpretations bring in implicatures. Newstead did find important differences between performance on the tasks, but they do not affect the basic claim that quantifiers are not always represented as logical models even when participants are instructed to take that particular perspective. Of course, in everyday communication, it is sensible to take into account implicatures in making interpretations, even if this can cause problems with adopting a strictly logical interpretation in syllogistic reasoning. A rather different claim has been made that the quantifier all is interpreted non-logically, in that it appears to have fuzzy characteristics. To illustrate: if All As are Bs, and All Bs are Cs then it plainly follows that All As are Cs. Also, if we add to that All Cs are Ds, All Ds are Es, and All Es are Fs, then All As are Fs. But, interestingly, human participants do not readily accept these transitive relations. Newstead and Griggs (1984; Newstead, Pollard & Griggs, 1986) showed that at one step (All A are C), the probability of rejection was 0.11. But after three steps (All A are E), the rejection rate had risen to .19. A similar pattern accrued when the quantifier nearly all was used, and Newstead and his colleagues suggest that All is treated as meaning nearly all (i. e., is fuzzy) in normal life, and that this fact gives rise to the observed rejection pattern. The theory is otherwise untested, however. For a further discussion of nonlogical aspects of all, see Moxey and Sanford (1993a).
3.
Denotations of quantifiers
How many is many? How many are a few, few, a lot? These questions are applicable to generalized quantifiers, and have practical implications, because people use expressions such as these frequently and easily in all kinds of discourse, and because they figure in the design of questionnaires. This is especially true of frequency adverbs, which quantify over time or events. Participants are often given the choice of checking one of several options given a question like How often do you feel anxious? (never, rarely, sometimes,
402 often, usually, always). In order to design optimally discriminating (interval) scales, numerous experiments have been carried out to establish how many a given quantifier denotes, or how often a given frequency adverb denotes (e. g., Hammerton, 1976; Pohl, 1981; Schriesheim & Gardiner, 1992). However, this is a difficult, and perhaps impossible task, because quantifying expressions are typically given denotations which are highly context dependent (see Moxey & Sanford, 1993a; Pepper, 1981, for reviews). One major factor is the baserate frequency with which an event might be expected to occur. For instance, out of a hundred lectures, one might suppose that missing 10 of them (10 %) could be described as missing a few lectures. But if out of 100 students, 10 became pregnant because of contraceptive failure, this might well be described as a lot. If baserate expectation is high, then the numerical denotations assigned to quantifiers by participants tend to be higher, while if baserate is low, then the numbers assigned tend to be low (e. g., Pepper & Prytulak, 1974; Wallsten, Budescu, Zwick & Kemp, 1993 for frequency adverbs; Moxey & Sanford, 1993b, for quantifiers of amount). Quantifiers denoting larger quantities (many, a lot) tend to be more affected by baserate than those denoting smaller amounts (few, a few), but this may be due to experimental sensitivity (Moxey & Sanford, 1993b). Earlier work has revealed other context effects. Thus Hörmann (1983) argued that a few people standing up would denote less than a few snowflakes coming down, and that a few people in front of a small building would denote less than a few people in front of a large building. These observations have received some support elsewhere (Moxey, Tuffield & Temple in Moxey & Sanford, 1993b: 29), though for Moxey and Sanford (1993b: 29), they amount to baserate expectation effects, occuring through an initial interpretation of the situation depicted in the sentence. For instance, if the large building is one in front of which few people would be expected to stand (e. g. a fire station) then many people is given a lower denotation than it is for a small building where many people would be expected (such as a cafe)). Moxey and Sanford (1993a, b; 2000) take the view that representing quantifier meaning in terms of numerical denotations has produced a rather biased idea of how they are used in communication. When participants
III. Sprachproduktion
are given only one quantified expression to translate into a number or proportion in an experiment, the evidence is that many quantifiers do not reliably denote different amounts (Moxey & Sanford, 1993b: Experiment1). In fact, it can be argued that many of the finer distinctions that can be made result from contrast effects because participants are typically tested on more than one value (O’Muicheartaigh, Gaskell & Wright, 1993; Wright, Gaskell & O’Muircheartaigh, 1995). For instance, if one had to assign values to few and very few, one would assign a lower number to very few; however, if different groups of people assign values to these two, no difference is apparent. Of course, in normal communications, people only get one value in a statement made by a speaker. This suggests that the amount denoted is not the only thing quantifiers convey, and that other functions should be examined. One example is a demonstrable effect of quantifier polarity on interpretation. 3.1. The effects of quantifier polarity on interpretation Some quantifiers are considered positive, e. g. a few, while others are considered negative e. g. few. The classification of quantifiers into positive and negative is not straightforward, because it tends to be made on the basis of linguistic tests, which rely on slightly different aspects of negation. For example, a simple test for negation involves adding a tag to a quantified statement: A few people came, did they?/didn’t they? If did they? sounds good as a tag to the quantified statement, then the quantifier is negative; if didn’t they? sounds good, then the quantifier is positive (as in this case). Downward monotonicity is a core feature of negativity, which is thought to influence the interpretation of quantifiers. Tests for monotonicity depend on the conclusions which can be drawn about a subset on the basis of information about the whole set, and vice versa. Thus, if a few people came to the party, then a few people came to the party early, draws a conclusion about a subset (people who came early) on the basis of information about the whole set (of people who came to the party). This is a test for downwards monotonicity and it shows that a few is not monotone decreasing (since the conclusion cannot, in this case be drawn). On the other hand, if few people came to the party, then few people came early, does lead to a sat-
403
29. The Interpretation of Quantified Statements
isfactory conclusion, indicating that few is monotone decreasing. In a series of investigations, the authors and their colleagues have shown a relationship between downward monotonicity and the patterns of focus induced by quantifiers. Typically, monotone increasing quantifiers facilitate reference to that subset picked out by the predicate of the quantified sentence: (1) Many of the students went to the big game. (2) They cheered as their team came out of the tunnel. (3) *They watched it on TV at home instead. Here, in (2) They refers to the group of students who went to the big game. This reference pattern is entirely felicitous; Moxey and Sanford (1987) termed it the Reference Set pattern. If, as in (3), They refers to the fans who didn’t go to the game, then monotone increasing quantifiers block the reference, and make the sentence infelicitous. So, the focus pattern induced by many is to the reference set, as indexed by ease of pronominal reference. However, with monotone decreasing quantifiers like Not many, the opposite reference pattern is possible: (4) Not many of the students went to the big game. (5) They watched it on TV at home instead. (6) ?They cheered as their team came out of the tunnel. Here, in (4 ⫹ 5), reference to the fans who did not attend the game is possible, and while reference to those who did is not ruled out, it is certainly less felicitous than it is following a monotone increasing quantifier. We term the pattern of reference in (5) Complement Set reference because, on the surface at least, it appears to be a reference to fans who did not go to the match (the complement of those who did). Several studies have been carried out in which participants were presented with quantified sentences which were either monotone increasing or decreasing, and asked to complete a next sentence which began with the pronoun They (Moxey & Sanford, 1987; 1993a; Sanford, Moxey & Paterson, 1996). The complement set pattern was shown to occur with monotone decreasing quantifiers, but not with monotone increasing ones. Furthermore,
while the complement pattern was blocked for monotone increasing expressions, for monotone decreasing ones, the reference set pattern was not always blocked (though it was mostly a minority category of responses). This supports the intuitions surrounding examples (1) through (6). It is certainly the case that referential focus pattern is a function of quantifier polarity. Examination of the content of the continuations that were produced by participants also showed that where complement set references occur, the continuations provide reasons why the focussed subset does not conform to the predicate. For instance, if Few fans went to the game, a typical continuation might be They watched it on TV instead. Moxey and Sanford (1993a; 1993b) have argued that this focussing effect is a major function served by certain negative quantifiers. What triggers the reference pattern associated with negativity? Kibble (1997a; 1997b) has suggested that downward monotonicity can be a licensing condition for complement set reference. He argued that monotone decreasing quantifiers could be modelled as negations of their monotone increasing counterparts (c.f. Van den Berg, 1996). Furthermore, for any monotone increasing quantifier, two types of negations are possible: internal and external (Zwarts, 1996). External negation can be described as follows, where Q is monotone increasing and Qd is the negated counterpart: Q (A, B) J -Qd (A, B) Thus a statement Q of the A are B may be interpreted as It is not the case Qd of the A are B. So, if Q is less than 40 % of the As, then Qd is 40 % or more of the As. Kibble argues that this translation supports pronominal reference to the reference set, or to the set of As generally. Internal negation can be described as: Q (A, B) J Q’ (A, A-B) where Q’ is the contradual of Q. Thus Q of the A are B translates as Q’ of the A are not B. So, if Q is less than 40 % of the As, then Q’ is 60 % or more of As. Kibble’s argument is that this translation supports reference to either the general set, or to the complement set. This account is a purely semantic one. An alternative account, favoured by the authors (Moxey & Sanford, 2000; Paterson, Sanford & Moxey, 1998; Sanford, Moxey & Paterson, 1996) is based on the idea that ne-
404 gation is often associated with denial, and that this might provide a suitable basis for explaining the focus effects. It has long been supposed that a simple negation (such as I didn’t go to the cinema last night) introduces the presupposition that someone might believe that I would have gone to the cinema last night, and then denies that presupposition (see Horn, 1989, for a full description). Horn argues that this is because bald negative statements are uninformative relative to positive sentences, and so require the presupposition to be brought to bear in order to conform to the Maxim of Informativeness (Grice, 1975). Extrapolating to quantifiers, the sentence Not many people went to the lecture could be taken as bringing in the supposition that there was reason to suppose that many would have gone, and then denying that this was indeed the case. In a direct test where participants were invited to indicate what speakers had expected when they used a number of negative quantifiers, the results showed that more had been expected than was being asserted (Moxey & Sanford, 1993b). In the Inference Theory of quantifier focus (Moxey, Sanford & Dawydiak, submitted), the proposal is that negative quantifers which form denials lead people to ask (unconsciously) Why was the condition in the supposition not supported?. So, given Not many people went to the lecture, the question is why did more not go?. In searching for answers to this question, focus is put on those people who did not go, or the complement set. To test this account against the semantic account given by Kibble (1997a;1997b), Moxey, Sanford and Dawydiak (submitted) compared the proportions of complement set continuations produced by participants in response to sentences containing quantifiers that form denials (such as No more than 10 % of the (x)) with counterparts forming affirmations (such as At most 10 % of the (x)). Tests for affirmation and denial were based on tag constructions of the type described by Klima (1964), and subsequently taken as tests of denial and affirmation by Clark (e. g., 1976). The contrast can be illustrated by one example: (7) No more than 10 % of the men went, and no more than 10 % of the women went either. (either is diagnostic of a denial)
III. Sprachproduktion
(8) At most 10 % of the men went, and at most 10 % of the women went too. (too is diagnostic of affirmation). The results showed that while quantifiers forming denials produced high rates of complement set continuations, quantifiers forming affirmations produced a much reduced rate (although both sets of quantifiers were monotone decreasing). This lends clear support to the Inference Theory. Studies have also been carried out on the consequences of quantifier polarity for reading. Thus Sanford, Moxey and Paterson (1996) showed that sentence (11) was read more quickly following (10) than following (9): (9) Few of the football fans went to the local match. (10) A few of the football fans went to the local match (11) Their presence gave the players confidence. This is because the term Their presence is referential on the reference set and not on the complement set. Precisely the opposite pattern is found if Their absence reduced the players confidence is substituted for (11). So globally, the results of the continuation studies are reflected in the reading time patterns. 3.2. Is complement set focus real? There is absolutely no doubt that the focus patterns induced by denials and affirmations are different. But there has been dispute over the idea of complement set reference. The nub of the issue is the claim that the complement set is simply not part of the discourse representation set up by a quantifier (a central tenet of Discourse Representation Theory [DRT; Kamp and Reyle, 1993: 307]). The original example in support of this position is well-known: (12) Nine of the ten marbles are in the bag. (13) It is under the sofa. The infelicity of the pronominal reference in (13) is taken as evidence that the complement set (marbles not in the bag) is not in focus. However, Nine of the ten(x) is not a monotone decreasing expression and it is not a denial, so we would not expect to obtain felicitous pronominal reference. Nevertheless, some critics (e. g., Corblin, 1997) find exam-
405
29. The Interpretation of Quantified Statements
ples like (14) and (15) unconvincing regarding complement set focus: (14) Few of the fans went to the match. (15) They watched it on TV instead. One argument is that what look like complement set references are in fact generalizations. That is, They watched it on TV. is short for something like: (16) In general, they watched it on TV. Moxey and Sanford (1999) bring to bear several arguments against this position. First, participants were asked to indicate to what the pronoun referred in their continuations. This included the possibility of all fans or fans in general, but participants overwhelmingly chose the fans who did not go to match. Secondly, there were no instances of spelledout generalisations, like (16). Finally, similar patterns occur with quantifiers where the complement set is very small: (17) Not quite all of the fans went to the match. They watched it on TV instead. In this case, it is simply not possible for They to mean They in general. Thus we have shown that while quantifiers provide information about the quantity of a set involved in a relationship, this quantity information relies in part on the context. Furthermore, it is not possible to associate quantifiers with quantity information in a straightforward and reliable way. In any case it seems that quantifiers provide us with information which is not directly related to the amounts they may denote. In fact these expressions focus our processing attention towards inferences about the relationship being quantified by the quantifier. Unlike numerical quantities, natural language quantifiers can be negative (or positive) and can implicitly comment in various ways on the amount being conveyed.
4.
Problems of scope and interpretation
Scope refers to the range of effects that a logical element, such as negation, or a quantifier, has on the remaining members of an expression. Scope problems become particularly complex in the case of sentences containing more than one quantifier. A muchcited example is the following:
(18) Every man loves a woman. Logically, this could be represented by several models. First, for any given man, it must be the case that he loves at least one woman. However, it could be the case that all of the men love just one woman, or it could be that each man loves a different woman. Or it could be that some men love different women, and some men love the same woman (the possible mappings between men and women here are very large indeed). What governs the interpretations we make? Here we discuss two sources of information which influence interpretation: world-knowledge, and linguistic cues. 4.1. World-knowledge and interpretation There is little doubt that world-knowledge is brought to bear in the normal interpretation of multiply-quantified statements. For example, what might the bald statement Every man loves a woman be about? It is effectively a statement about men: it carries the claim that there is no man who does not love some woman. To this extent, the intention behind uttering this statement might be taken as not being about whether two or more men love the same woman, or whether all men love the same woman. Indeed, this latter suggestion would have to be rejected as having a vanishingly small probability! None of this means that the meaning of the sentence does not admit these possibilities, of course. Rather, we are suggesting that our ultimate, normal interpretation, is focussed on what is true for any given man. Consider two possible interpretations for Every X has a Y in a different situation: (19) Every hotel room has its own bath. When booking into a hotel, and being faced with this statement, we would be surprised to find a large sign on the back of the door saying: Your bath is at the end of the corridor, and to discover that every other room carried the same sign! It is ruled out by what is normally expected about hotel rooms and baths. Contrast this with: (20) At the University, every student has their own tutor. It would come as no surprise if as a student you found that other people were assigned your tutor too. What would be a surprise is if you were given more than one tutor. Sanford and Garrod (1981, 1998) have suggested
406 that quantified sentences, like other sentences, are processed by initially mapping them onto any situationally-relevant world-knowledge that the hearer possesses. In the two cases above, this knowledge is either about the convenience of having a bath in your hotel room, or the convenience of knowing that just one person is your tutor. Thus the other aspects of the logical possibilities of interpretation are less important. There is an alternative view that the differences come about from differences in what is meant by the verb have. However, Sanford and Garrod (1998) have argued that this amounts to the same thing: to interpret have in the two contexts is to invoke world-knowledge which automatically constrains the interpretation of quantifier scope. 4.2. Linguistic cues to disambiguation Cues for interpretation within linguistic form come from two sources: the structural positions of the quantified phrases in the syntactic or semantic representation of the sentence, and lexical biases of particular quantifier terms to take wide or narrow scope. A number of researchers have argued that the order of quantifiers in the preferred logical representation is the same as that in the surface form of the sentence (Fodor, 1982; Johnson-Laird, 1970; Lakoff, 1972). This amounts to the leftmost NP taking scope over the rightmost NP. Thus for Every man loves a woman, the preferred reading should be: (∀m) (苹w) (loves, m, w), i. e., each of the men loves a woman but this need not be the same woman. Other researchers have argued that interpretation preference depends on other aspects of syntax. For example, Ioup (1975) suggested that a hierarchy of grammatical relations is the primary factor. She claims that a phrase occupying a surface or deep-structure subject position has preferential scope. So, in the case of an active sentence, like (18), every man takes wide scope, while for a passive sentence, such as (21), there is no such preference: (21) A woman is loved by every man Finally, Reinhart (1983) claimed that one phrase will tend to have wide scope over another if it c-commands that phrase. This theory contradicts Ioup on (21), in that it is the leftmost nounphrase which should take wide scope in this case. Kurtzman and MacDonald (1993) examined evidence at that date for one position or another, and found contradictory
III. Sprachproduktion
data. They also found that the methods used to elicit the data were faulted. For instance, judgements were made using just a few or even one sentence, so that generalizing across stimuli is not valid. Where larger samples were used, they claim that the plausibility of various constructions was not controlled for, and this too may influence interpretations. Finally, but just as important, participants had to make conscious choices as to which interpretations they made. Such choices hardly typify normal comprehension. Kurtzman and MacDonald therefore carried out experiments in which participants saw a quantified sentence, followed by a continuation sentence. They had to judge whether the continuation sentence fitted with the preceding sentence. The task thus avoids participants being specifically aware of ambiguities. In one experiment, they compared (22) with (23): (22) Every kid climbed a tree. The tree was full of apples. (23) Every kid climbed a tree. The trees were full of apples. The use of the singular tree in (22) conforms to the one-tree interpretation, where a tree takes wide scope, while the use of the plural trees in (23) conforms to Every kid taking wide scope. Participants patterns of speeded ‘yes’ and ‘no’ responses in these cases indicate the preferences in interpretations. They found that there was a preference for the leftmost noun phrase to take the wide scope in the case of active constructions, while for passives, there was an equal split between a preference for the left and rightmost phrases to take equal scope. These results fit the suggestions of Ioup (1975), for example, that both a surface preference for the leftmost NP to take wide scope, and a preference for the deep-structure subject position to do the same. Other results which they found do not fit any existing account: in particular, with complex sentences such as George has every photograph of an admiral, there is a preference for the lower NP to have wider scope. This contradicts all available principles, but appears to be a reliable phenomenon. The Kurzman and MacDonald data (1993) support the view that structural constraints influence quantifier scope preferences. What of lexical constraints? Fodor (1982), and Link (1987) have argued that verbs can exert preferences in terms of which quantifier will take wide scope. Paterson and Edden (1997)
407
29. The Interpretation of Quantified Statements
carried out experimental work to investigate this proposal. When a collective verb, like surrounded appears in a sentence like (24), then the most likely interpretation, intuitively, is that the men surrounded the same castle: (24) All of the men surrounded a castle. On the other hand, when a distributive verb like visited is used instead, then either one castle or a number of castles is equally likely, intuitively: (25) All of the men visited a castle. In the case of (24), a singular pronoun should be best in referring back to a castle, while in (25), either a plural or a singular pronoun should do. Paterson and Edden (1997) tested this idea by comparing reading times for sentences like It/They were made of granite following the use of a collective or a distributive verb. The results showed the expected pattern. In the case of the verbs with a collective bias, reading times for sentences containing plural pronominal anaphors were longer then those for sentences containing singular pronominal anaphors. This was not true for the distributive set, but there was a slight (albeit nonsignificant) trend in the opposite direction. It is clear from this that verb-type is a constraint operating on the interpretation process. The evidence suggests that linguistic constraints (order, linguistic hierarchy), verbtype (distributive or collective) and referent situation, or scenario (Sanford & Garrod, 1998) may influence the resolution of multiply-quantified sentences. Just how this takes place, and under what conditions one cue outweighs another remains to be established. In particular, soft-constraint satisfaction models allow the interaction of all of these sources, but precisely when each source comes into play is at present unknown. Although constraints behind scope ambiguities in declarative sentences have been examined to some extent, the similar problems which arise with questions have received less attention. A notable exception is the work of Villalta (1999) on How many questions. Consider the following: In the music department, three trumpet players had to take an exam last week. Every student had to play six pieces. The only requirement they had was that everybody had to play two pieces: Round Midnight, and Days of wine and Roses. For the rest, the students were free to choose what they preferred.
How many pieces did every student have to play at the exam? (a) Six pieces (b) Two pieces One logical interpretation (LF1) gives the answer 6 pieces, and the other (LF2) gives the answer 2 pieces. In experiments on English and French particpants, there was a preference for LF1 answers over LF2 answers, which contradicted the Economy Hypothesis. Villalta proposed an alternative model in which evaluations are made against context in order to explain the data pattern.
5.
Conclusion
Our review of the interpretation of quantifiers has really been concerned with two major points. First, there is a question of how single quantifers are interpreted. This includes how well people’s interpretations match the logical (semantic) interpretetion of quantifiers, and it is clear that although they can match, typically they are influenced by both pragmatic implicatures and by conversion errors. These can be thought of as erroneous extensions to what is taken as necessary, or to erroneous restrictions on what is possible. These questions can only be asked of logical quantifiers, and have typically arisen in the context of interpreting the premises of syllogisms during reading. The interpretation of the broader range of generalised quantifiers is typified by two literatures. The first concerns the amounts which may be denoted by quantifiers (for instance, how many is many?), and this turns out to be very context-dependent. The second concerns the sets which are made prominent by quantifiers, and here, negative quantifiers were shown to put focus on a different set (the complement set) than do positive quantifiers. The second broad issue is how multiplyquantified sentences are interpreted, and here both pragmatic (contextual) and linguistic factors were shown to have an effect. Although several influences have been identified, it remains for a thorough explanation to be developed, and this is well-illustrated by studies of How Many-type questions.
6.
References
Chapman, K. J. & Chapman, J. P. (1959). The atmosphere effect re-examined. Journal of Experimental Psychology, 58, 220⫺226.
408 Clark, H. H. (1976). Semantics and comprehension. The Hague: Mouton. Corblin, F. (1997). Quantification et anaphore discursive: la reference aux complementaires. Langages, 123, 51⫺74. Fisher, D. L. (1981). A three-factor model of syllogistic reasoning: The study of isolable stages. Memory and Cognition. 9, 496⫺514. Fodor, J. D. (1982). The mental representation of quantifiers. In S. Peters & E. Saarinen (Eds.), Process, beliefs, and questions, Dordecht: Reidel. Garnham, A. & Oakhill, J. (1994). Thinking and reasoning. Oxford: Blackwells. Grice, H. P. (1975). Logic and conversation. In P. Cole & J. L. Morgan (Eds.), Syntax and semantics, vol. 3, Speech acts. New York: Seminar Press. Hammerton, M. (1976) How much is a large part? Applied Ergonomics, 7, 10⫺12. Hörmann, H. (1983). The calculating listener or how many are einige, mehrere, and ein paar (some, several, and a few)? In R. Bauerle, C. Schwarze & A. van Stechow (Eds.), Meaning, use, and interpretation of language. Berlin: Walter de Gruyter. Horn, L. R. (1989). A natural history of negation. Chicago: University of Chicago Press. Ioup, G. (1975). Some universals for quantifier scope. In J. Kimball (Ed.), Syntax and semantics, 4 (pp. 37⫺58). New York: Academic Press. Johnson-Laird, P. N. (1970). The interpretation of quantified sentences. In G. B. Flores D’Arcais and W. J. M. Levelt (Eds.), Advances in psycholinguistics. Amsterdam: North-Holland. Johnson-Laird, P. N. (1983). Mental models. Cambridge: Cambridge University Press. Kamp, H. & Reyle, U. (1993). From discourse to logic: Introduction to model-theoretic semantics of natural language, formal logic and discourse representation theory. Dordecht: Kluwer Academic. Kibble, R. (1997a). Complement anaphora and monotonicity. In G. J. M. Kruijff, G. V. Morrill & R. T. Oerle (Eds.), Formal grammar (pp. 125⫺136). Kibble, R. (1997b). Complement anphora and dynamic binding. Proceedings of the 7th Conference of SALT (Semantics and Linguistic Theory). Klima, E. S. (1964). Negation in English. In J. A. Fodor & J. J. Katz (Eds.), The structure of language. Englewood Cliffs, NJ: Prentice-Hall. Kurtzman, H. S. & MacDonald, M. C. (1993). Resolution of quantifer scope ambiguities. Cognition, 48, 243⫺279. Lakoff, G. (1972). Linguistics and natural logic. In G. Harmann & D. Davidson (Eds.), Semantics for natural language. Dordrecht: Reidel.
III. Sprachproduktion Link, G. (1987). Generalised quantifiers and plurals. In P. Gardenförs (Ed.), Generalised quantifiers: Linguistic and logical approaches. Dordrecht: Reidel. Moxey, L. M. & Sanford, A. J. (1987). Quantifiers and focus. Journal of Semantics, 5, 189⫺206. Moxey, L. M. & Sanford, A. J. (1993a). Prior expectation and the interpretation of natural language quantifiers. European Journal of Cognitive Psychology, 5, 73⫺91. Moxey, L. M. & Sanford, A. J. (1993b). Communicating quantities: A psychological perspective. Hove, UK: Lawrence Erlbaum Associates. Moxey, L. M. & Sanford, A. J. (2000). Focus effects associated with negative quantifiers. In M. Crocker and M. Pickering (Eds.), Proceedings of first conference on Architectures and Mechanisms of Language Processing (AMLaP). Cambridge: Cambridge University Press. Moxey, L. M., Sanford, A. J. & Dawydiak, E. (2001). Denials as controllers of negative quantifier focus. Journal of memory and language, 44, 427⫺442. Neimark, E. D. & Chapman. R. H. (1975). Development of the comprehension of logical quantifiers. In R. J. Falmagne (Ed.), Reasoning: Representation and processing children and adults. Hillsdale, NJ: Erlbaum. Newstead, S. E. (1989). Interpretational errors in syllogistic reasoning. Journal of Memory and Language, 28, 78⫺91. Newstead, S. E. & Griggs, R. A. (1983). Drawing inferences from quantified statements: A study of the square of opposition. Journal of Verbal Learning and Verbal Behavior, 22, 535⫺546. Newstead, S. E. & Griggs, R. A. (1984). Fuzzy quantifiers as an explanation of set inclusion performance. Psychological Research, 46, 377⫺388. Newstead, S. E., Pollard, P. & Griggs, R. A. (1986). Response bias in relational reasoning. Bulletin of the Psychonomic Society, 24, 95⫺98. O’Muicheartaigh, C. A., Gaskell, G. D. & Wright, D. B. (1993). Intensifiers in behavioral frequency questions. Public Opinion Quarterly, 57, 552⫺565. Paterson, K. & Edden, R. (1997). In Approaches to discourse anaphora. Proceedings of the discourse anaphora and resolution symposium, Lancaster University, July 17⫺18, 1996. Paterson, K. B., Sanford, A. J., Moxey, L. M. & Dawydiak, E. (1998). Quantifier polarity and referential focus during reading. Journal of Memory and Language, 39, 290⫺306.
409
30. The Production of Anaphoric Pronouns Pepper, S. (1981). Problems in the quantification of frequency expressions. In D. Fiske. (Ed.), New directions for methodology of social and behavioural Science, 9. Pepper, S. & Prytulak, L. S. (1974). Sometimes frequently means seldom: Context effects in the interpretations of quantitative expressions. Journal of Research in Personality, 8, 95⫺101. Pohl, N. F. (1981). Scale considerations using vague quantifiers. Journal of Experimental Education, 49, 235⫺240. Reinhart, T. (1983). Anaphora and semantic interpretation. London: Croom Helm. Sanford, A. J. & Garrod, S. C. (1981). Understanding written language. John Wiley & Sons. Sanford, A. J. & Garrod, S. C. (1998). The role of scenario mapping in text comprehension. Discourse Processes, 26, 159⫺190. Sanford, A. J., Moxey, L. M. & Paterson, K. B. (1996). Attentional focussing with quantifiers in production and comprehension. Memory and Cognition, 24, 144⫺155. Schriesheim, C. & Gardiner, C. (1992). A comparative test of magnitude estimation and pair-comparison treatment of complete ranks for scaling a small number of equal interval frequency response
anchors. Educational and Psychological Measurement, 52, 867⫺877. Van den Berg, M. (1996). Dynamic generalised quantifiers. In J. van der Does & J. van Eijk (Eds.), Quantifiers, logic and language. Stanford: CSLI. Villalta, E. (1999). Quantifier scope ambiguity and context. Paper presented at the 12th Annual CUNY Conference on Human Sentence Processing, CUNY Graduate School, March, 1999. Von Klopp, A. (1998) An alternative view of polarity items. Linguistics and Philosophy, 21, 393⫺432. Wallsten, T. S., Budescu, D. V., Zwick, R. & Kemp, S. M. (1993). Preference and reasons for communicating probabilistic information in numerical or verbal terms. Bulletin of the Psychonomic Society, 31, 135⫺138. Wright, D. B., Gaskell, G. D. & O’Muircheartaigh, C. A. (1995). Testing the multiplicative hypothesis of intensifiers. Applied Cognitive Psychology, 9, 167⫺177. Zwarts, F. (1996). Facets of negation. In J. van der Does & J. van Eijk (Eds.), Quantifiers, logic, and language. Stanford: CSLI.
Linda M. Moxey & Anthony J. Sanford University of Glasgow Scotland (United Kingdom)
30. The Production of Anaphoric Pronouns 1. 2. 3. 4. 5. 6. 7.
Introduction The pronoun problem Discourse processing influences message encoding Lexical access of pronouns Empirical evidence Conclusions References
1.
Introduction
Pronouns are among the most frequently used words in all languages. For example, in a million printed words the personal pronoun “it” in English occurs 11168 times. In comparison, common nouns such as “weather” or “vacation” count 65 or 15 (Baayen, Piepenbrock & van Rijn, 1993). The high frequency counts for pronouns in texts show that a writer frequently makes use of pronoun constructions. This in turn means that the reader is continuously busy with interpre-
ting these constructions. The same probably holds for daily conversations between speaker and listener. The use of pronouns does not create problems during conversation. This means, speaker and listener must have similar representations and rules about the interpretation of pronouns during discourse processing, otherwise they would not understand each other. But, the use of pronouns might also differ. Whereas a listener is confronted with how to interpret a pronoun with regard to possible referents in the discourse, the speaker generates the pronoun, and therefore, he or she usually has the interpretation of the pronoun already available prior to going into the speech planning phase. [In this review, the reader will frequently be confronted with terms such as “representation”, “rules” and “processing”. Research colleagues from different fields usually interpret these terms differently, depending on dif-
410
III. Sprachproduktion
ferent underlying theories. In order to minimize variation, I have tried to take one psycholinguistic perspective, based on the working model by Levelt (1989), in combination with the view from cognitive neuroscience. Most recently, researchers from cognitive neuroscience investigated psycholinguistic models with regard to the underlying neurobiological structure and function (e. g. Brown & Hagoort, 1999; Indefrey & Levelt, 2000). And although cognitive neuroscience of language is still in its early stages, I would like to adapt the general terms from there: “Representation” can be seen as assemblies of neurons in the cortex that have specific interconnections. These neurons fire or “become activated” during a specific cognitive task. This firing means “processing” of information. The pattern of fire-rates in combination with specific connection structure and connection weights might reflect the “rules”.] Pronouns have been investigated in comprehension research in the context of the processing of co-reference in discourse (Gordon & Hendrick, 1998; Garnham, 2001). So far, only a few psycholinguistic studies addressed pronoun processing in the speaker, and these studies usually focused on anaphoric pronouns. I will therefore focus here on this type of pronoun only. From a psycholinguistic point of view, it is interesting to ask, why a speaker is using pronouns at all. This aspect will be addressed in Section 3 of this review in the context of discourse processing. Another question is, how are pronouns generated, and which information is processed during the use of a pronoun? The generation of a pronoun might involve discourse processing, as well as activation of lexical access in a “standard” speech production model (for example, Levelt, Roelofs & Meyer, 1999). One such working model is introduced and applied to the generation of pronouns (see Section 4). Finally, some empirical investigations of lexical access during pronoun generation are reviewed in Section 5. But first, I would like to introduce Levelt’s (1989) ideas on how a standard speech production system might generate pronouns – to give us a common ground.
2.
The pronoun problem
Most recent and elaborated theories on language production (Bock, 1995; Dell & O’Sheaghda, 1992; Levelt, 1989; Levelt, Roe-
lofs & Meyer, 1999) agree that while going from intention to articulation a speaker runs through different levels of information processing, involving conceptual, syntactic and phonological encoding. The theories have been developed mainly by investigating single word processing. However, Levelt (1989: 144ff) addressed the issue of establishing coreference as well. He introduced the notion of co-reference by focusing on two different kinds of reductions in the speech output: the use of pronouns and the omission of parts of the message (ellipsis). These reduced forms are also referred to as anaphora (see for example, Hankamer & Sag, 1976; Sag & Hankamer, 1984; Schmitt Chapter 51, this volume for a summary). These reductions occur in situations where the speaker wants to refer to something that has been mentioned before in the current discourse (see Section 3 for details). Levelt (1989) takes the omission as an example to formulate the “problem”. Omissions, also called ellipsis, are often generated in adjacent question-answer pairs. When someone asks, for example, Whom did the dog bite?, the answer can be for example, Henk. Levelt asked what the underlying message is of this answer. Following Jackendoff’s (1983, 1999) notion of conceptual encoding, the message might be PAST(BITE(DOG, HENK)) as in a complete utterance. It might also be HENK, the mere PERSON concept. If it is the complete variant, the concepts of all items have to be activated first. As in a complete utterance, the information of the activated concepts is sent further to the level of grammatical and phonological encoding. However, because the reduced form misses parts of the complete message, at some point some information is deleted. The cancellation might take place during grammatical encoding or during phonological encoding, and on a first view seems to be a redundant procedure. Alternatively, the reduced variant of conceptualization, which chooses only the PERSON concept HENK, sounds more efficient. Only those concepts that are later to be articulated become activated. Omitted or reduced forms are not conceptually activated and therefore, will not activate corresponding grammatical or phonological information. However, this solution is not without problems. Under certain circumstances the answer to the question Whom did the dog bite? might not be Henk but him. Note, that the pro-
30. The Production of Anaphoric Pronouns
nominalized answer in this context cannot be he. The pronoun has to take accusative case. But how does the grammatical encoding system know this? The conceptual fact that the person here is the patient of the action is not sufficient to mark the pronoun accusative. There are also cases where the patient does not receive the accusative case, for example, in the German utterance Ich helfe ihm (I help him, dative case) vs. Ich unterstütze ihn (I support him, accusative case). Somehow, the grammatical encoding has to have access to the information as to which verb is involved, because the verb carries the information about the case to be used for its grammatical object. This so-called “ellipsis problem” was first mentioned by Bühler (1934) and is still a serious issue in linguistic research (Klein, 1984, 1993). Taken together, the speaker, and thereby the speech production system, have to have discourse information available and “rules” that tell the system when to reduce speech. In addition to discourse processing, during the generation reductions, i. e. the lexical access of pronouns or ellipsis, not all information related to the reduced antecedent is deleted. Some information, for example gender marking or case marking of the antecedent, is still available. Details of lexical access during pronoun generation are discussed in Section 4. Now, some aspects of the discourse processes are described that lead to reduced speech. They involve “bookkeeping of a discourse record”, perspective taking, and accessibility of a referent. The section ends with an example of how a coherent discourse is established.
3.
Discourse processing influences message encoding
The generation of an utterance, regardless of whether it is complete or reduced, initially involves the transformation of communicative intentions into preverbal conceptual messages (Jackendoff, 1999: 50 ff.). Levelt (1989: 123 ff.) assumes that this conceptualization involves two processes: macro- and microplanning. During macroplanning the speaker’s intention is encoded. Among other things, he or she has to select the information to be expressed. An example for selection is a situation where the speaker is addressed by another person with a sentence such as I think your boyfriend is not happy with you. The speaker can decide to go on with the cur-
411 rent topic ‘the boyfriend’ by answering, for example, Yeah, he thinks our relations have become a bit dusty lately. And the listener would try to find out whether DUST is related to “emotion” or to “home reconstruction”, knowing that the couple is currently busy with that. The speaker can also decide to make a shift towards a new topic, signaling that at the moment he or she is not interested in talking about this. During microplanning the speaker fits the message into the current discourse. 3.1. The discourse model and the discourse record During discourse, speaker and listener have to address the basic background information, the so-called discourse model. It can be based on what the speaker and the listener believe to be shared knowledge or common ground (Clark, 1994). It is probably stored in longterm memory. The access of the discourse model can be seen as accessing ‘mental models’ (Johnson-Laird, 1983, 1989) of persons, facts, their relations, and their properties. During on-going discourse, both speaker and listener mentally move through this model. The speaker must keep track of these moves on-line by remembering what has been said already. Levelt (1989) called this ‘bookkeeping’ of a discourse record. The discourse record consists of short-lived information, comparable to short-term memory (Baddeley, 1986). The record is necessary for the speaker to take perspective in the discourse and to evaluate the accessibility status of specific entries in the discourse (see below). Evidence for the interplay of accessing long-term knowledge and message planning (short-term processing) on the one hand, and phases of fluent speech production on the other hand, came from pause analyses during monologues (Beattie, 1983; Butterworth, 1980; Henderson, Goldman-Eisler & Skarbek, 1966). The authors observed rhythmic alternations between speech phases that included frequent and long pauses and phases where nearly no pauses were present. The authors assumed that the observed hesitation phases were due to information retrieval processes. For a model on the interplay between long-term and short-term memory during reading see Ericsson and Kintsch (1995). 3.2. Perspective taking The speaker takes perspective in the discourse by choosing an anchoring point. Usually, the anchoring point is speaker-centric (Levelt,
412 1989). This means that personal, spatial, and temporal relations in the discourse context are seen from the speaker’s point of view. He or she usually sees the world as Me here and now. Following Bühler (1934) this anchoring is called deixis. Deixis is expressed linguistically. Examples are the use of you and me in person deixis, here and there in space deixis, and yesterday or tomorrow in time deixis. An additional form of deictic expressions is the so-called discourse deixis. In the example You have asked me that 42 times already! the entry that refers to a question the partner in the communication asked before. By using that in this case, the speaker points to an earlier part of the discourse. Deictic perspective taking can be seen as a device for the speaker to chose concepts during his or her message encoding that helps the listener to follow the discourse. By using deictic terms, the speaker creates a coordinate system with his or her anchoring point as the starting position. During the utterance, the speaker then leads the listener through this coordinate system of time and space dimensions of the mental model. 3.3. The accessibility status of a referent Speaker and listener usually attend to one aspect of the complex discourse model. The selection of a particular element might have different reasons. One may be that speaker and listener do not have the capacity to make the usually very complex discourse model available. The cognitive skill of selectively attending in order to circumvent capacity limitations has been addressed extensively in classical psychology (Broadbent 1958; Miller, 1956; James, 1890). A different reason for selection, the selection-for-action hypothesis, has been proposed more recently (Allport, 1987, 1993; Neumann, 1987, 1992). According to this view, selection is not due to capacity limitation, but it is necessary because action can be carried out only sequentially. Allport (1987) gave the example of picking apples. Many fruits are within reach, and clearly visible, yet for each individual reach of the hand, for each act of plucking, information about just one of them must govern the particular pattern and direction of movements. The availability of other apples, already encoded in the brain, must be in some way temporarily de-coupled from the direct control of reaching the target. The same may hold for speaking: Because the speaker can only talk about one thing at a time, he or she
III. Sprachproduktion
has to select a particular fragment from the discourse model. The selectively attended fragment of the discourse model is called the focus of the current discourse. The term focus is closely related to the accessibility status of the particular referent (Levelt, 1989: 144 ff.). It is the speaker’s task to assign this status, and he or she does that during microplanning of the message by estimating, a) whether the referent is accessible to the listener or not; b) whether the referent is in the discourse model of the listener, and c) whether the referent is in the listener’s focus. These three aspects can be depicted in the form of embedded sets (see Figure 30.1).
Fig. 30.1: Accessibility status of referents in discourse (Levelt, 1989: 145).
The assignment of accessibility is relevant for further grammatical encoding of the speaker’s message. The following examples illustrate the syntactic consequences of the four types of accessibility depicted in the figure. First, if the speaker assumes a referent to be inaccessible in the listener’s discourse model he or she would encode this referent as ‘indefinite’, as in Henk is having some trouble with a dog. Here the referent dog is introduced as ‘new’ (Prince, 1981; Chafe, 1976; Gordon & Hendrick, 1998). Second, if a referent is not in the discourse model, but the speaker assumes that the addressee can infer the referent and make it accessible, the speaker can use a ‘definite’ expression, for instance, Henk is having some trouble with the dog. Here, the speaker might assume that the listener already focused on Henk in a particular visual scene. Therefore, the listener can probably also access the referent dog, because it is also visible. Third, if the speaker assumes that the referent is in the current discourse model of the listener he or she can mark it ‘definite’, as in, Gosh, the dog is really big. But, because the referent is in the discourse
30. The Production of Anaphoric Pronouns
model it has no news value. This marking of ‘old’ information may then receive prosodic de-accentuation. Empirical evidence for this comes, for example, from a study by Fowler and Housum (1987). The authors analyzed monologues from radio programs with regard to the first and second mentioning of a word. They found that in a second naming of the referent, the duration of the word was shorter and not as loud (see also MacWhinney & Bates, 1978; Marslen-Wilson et al., 1982; Terken, 1984). Finally, if the speaker assumes that the listener has the target referent in the current discourse focus, the speaker will de-accent this referent and make it definite, because it is also in the discourse model and accessible, as in the third example. But in addition, the ‘in focus’ feature leads to the reduction of the referring expression. An example of a reduction is the use of a pronoun, as in The dog is really big. It even frightens our cat. These four examples show a referent’s status concerning the accessibility features ‘accessible’, ‘in the discourse model’, and ‘in focus’. The speaker might assign the accessibility status by marking the referent with the particular features. The assignment might take place in terms of a procedural IF/THEN rule, such as, “IF the referent is in focus, THEN assign (⫹)‘in focus’, ELSE assign (⫺)‘in focus’ ” (Appelt, 1985; Levelt, 1989). The assignment might also be a specific configuration of distributed representation of conceptual and discourse information, as assumed by parallel distributed processing models (e. g. Rumelhart & McClelland, 1986). A hybrid model using both, rules and distributed representation, will be described briefly in the third section. However, apart from how exact the assignments look, common to all is the idea that the accessibility status ‘in focus’ leads to the generation of pronouns. 3.4. Centering Theory A formal way to describe how these linguistic devices affect discourse coherence has been developed within the framework of centering theory in computational linguistics (Joshi & Weinstein, 1981; Grosz, Joshi & Weinstein, 1983; Gordon, Grosz & Gilliom, 1993; Chambers & Smyth, 1998). According to the Centering Theory, the conceptual referents of an utterance serve as discourse centers, which are linked across utterances to create a coherent discourse. In the Centering Theory, an ut-
413 terance in a discourse can contain two kinds of centers, a backward-looking center (Cb) and a set of forward-looking centers (Cf). The backward-looking center determines how the current utterance is to be incorporated into the preceding discourse. It is intended to capture the role of given information and corresponds roughly to the linguistic notion of the ‘topic’ of a sentence (Joshi & Weinstein, 1981). For example, in the utterance Henk kissed Gizmo the backward-looking center is Henk (if Henk was mentioned before), which is also the topic of the sentence. According to the Centering Theory, each utterance has only one backward-looking center. This center must be realized linguistically. Joshi and Weinstein (1981) define appropriateness rules that state what the linguistic form of an utterance must be in order to fit into the on-going discourse context. For example, an utterance is appropriate if the backward-looking center is identical to one of the forward-looking centers of the preceding sentences, and, if the Cb is linguistically realized as a pronoun rather than a name or a definite description (Grosz et al., 1983). Gordon et al. (1993) found empirical evidence for this assumption in reading experiments. Reading time is elongated when the backward-looking center is linguistically realized as a name rather than a pronoun (namename vs. name-pronoun), as in Henk was happy. Henk/he(Cb) kissed Gizmo. This phenomenon is sometimes referred to as the repeated-name-penalty. Gordon and Hendrick (1998: 402) summarized the empirical findings and propose a hierarchy for the ease of co-reference with the sequence ‘name-pronoun’ being easier than ‘name-name’ which again is easier than the sequence ‘pronounnoun’. The forward-looking centers provide potential links to the subsequent utterance. In the example Henk kissed Gizmo, the forwardlooking centers are Henk and Gizmo. The members of a set of forward-looking centers can be ranked according to their prominence. Psychologically, prominence might reflect differences in accessibility from memory (Bock & Warren, 1985; Gordon et al., 1993). Linguistically, prominence is thought to be expressed by factors such as surface position in the utterance, grammatical role, and pitch accent (see Levelt, 1989: 149ff). This ranking is thought to provide default values for the interpretation of pronouns by the listener: The first pronoun in a sentence is usually in-
414 terpreted as referring to the highest ranking member of the forward-looking center of the previous utterance (Gordon & Scearce, 1995). The prominence ranking might also give a default rule for the speaker’s message planning, such as ‘Take the most prominent forward-looking center of the previous discourse, put it in the first place of the next utterance, and reduce it to a pronoun’. Empirical evidence for this assumption during language production came from MarslenWilson et al. (1982). The authors analyzed a speaker’s telling of a story. They found that a speaker first introduces and establishes a highly focused entity (one forward-looking center), such as the actor of a particular scene. Once the topic is defined, the speaker tends to realize this topic with less marked forms, such as pronouns and ellipsis. In contrast, the speaker tends to realize non-focused entities with more marked forms, such as definite descriptions. The theory describes how a speaker can create coherence by looking forward and backward in time. During on-going discourse, a speaker marks entities of his or her message as being backward- or/and forwardlooking centers. These preverbal markers lead to a specific linguistic realization of the message that has the goal of making the discourse “well-formed” (Joshi & Weinstein, 1981). For a more recent formal elaboration on the ‘basic mechanism of coreference’ see Gordon and Hendrick (1998). This short introduction to the speaker’s ability to establish and maintain reference in
III. Sprachproduktion
on-going discourse should give an idea of why a speaker uses reduced forms, such as pronouns. Reductions serve as cues for the listener to get optimal access to the referring entry in his or her own discourse model. By improving access to the discourse model, the speed and quality of understanding each other is increased. The question I next address is how the discourse dependent messages are transformed into their linguistic forms.
4.
Lexical access of pronouns
The encoded message, as discussed above, specifies which concepts should be expressed. In addition, each concept is marked with its accessibility format. It, therefore, carries discourse dependent information about how it can be expressed linguistically, for example, as a full noun or as a reduction. This discourse-marked message serves as input for the grammatical encoding stage (Levelt, 1989). It activates corresponding lemmas, which in turn deliver the syntactic information needed to generate an utterance that matches the required discourse constraints. The steps involved, from lemma access to pronoun generation, are outlined next according to a working model proposed by Schmitt, Meyer, and Levelt (1999), see Figure 30.2. 4.1. Lexical selection One main step during grammatical encoding is lexical selection. Lexical selection is the re-
Fig. 30.2: A lexical access view of the generation of the pronoun sie in Die Blume ist rot. Sie wird blau. (The flower is red. It turns blue.) M ⫽ masculine, F ⫽ feminine, N ⫽ neuter (Schmitt et al., 1999).
30. The Production of Anaphoric Pronouns
trieval of lemmas, i. e. syntactic words, from the mental lexicon (Kempen & Huibers, 1983). The message activates the corresponding lemmas, which in turn give access to syntactic information about words. Lemmas specify the syntactic categories (noun, verb, etc.) of words. Many lemmas carry diacritic parameters that must be set. English verbs, for instance, have parameters for number, person, tense, and mode. German nouns are specified for grammatical gender; they are either masculine, feminine, or neuter. Selected lemmas are to be put together into a syntactic structure of a sentence. Although I will not go into the details of syntactic encoding here (please see Bock & Levelt, 1994), one basic idea of sentence construction should be mentioned. It follows a slots-and-filler approach by Shattuck-Hufnagel (1979; see also Bock, 1982; Fromkin, 1971, 1973). Dell (1986: 286) assumes that linguistic rules create sentence frames. These rules only allow for acceptable combinations of items at the syntactic level. The constructed frames initially consist of empty slots. These slots than are to be filled with lexical items, that is, with the retrieved lemmas and their syntactic information. To this linguistic-rule driven slot-and-filler approach we could now add the aspect of discourse processing. For example, a preverbal message that marks a particular concept as (⫺)‘in focus’ in the current discourse might lead to a specification of a ‘noun-slot’ at the syntactic level which has to be filled with the appropriate noun. A message that marks a particular concept as (⫹)‘in focus’ in the current discourse might lead to a specification of a ‘pronoun-slot’ at the syntactic level which has to be filled with the corresponding pronoun. 4.2. Gender access A personal pronoun is gender marked, and therefore we should have ideas about how the gender information becomes available. Though there are certain correlations between conceptual properties of the referents and the grammatical gender of their names, and between grammatical gender and phonological form of nouns, the gender of a noun cannot be reliably predicted on the basis of these properties. Therefore, theories of lexical access commonly assume – at least for syntactic gender-marked languages – that the grammatical gender is part of the stored syntactic information about the nouns (Jescheniak & Levelt, 1994; Roelofs, 1992a, b;
415 Schriefers, 1993; Van Berkum, 1996, 1997). In these models, as well as in our working model (Figure 30.2), gender is represented in gender nodes, which are linked to lemmas. The connection from the noun lemma to the gender node means that gender information becomes activated when a noun lemma is activated. 4.3. Pronoun access One of the cases where a gender node must be selected is the generation of German pronouns. Access to the gender node is necessary because the gender of the pronoun must correspond with the gender of the antecedent. If the antecedent is feminine, the appropriate pronoun in the nominative case in German is feminine ‘sie’, as in ‘Die Blume ist rot. Sie wird blau.’ (The flowerFEM is red. ItFEM turns blue). A masculine noun, such as ‘der Klee’ (the clover), must be referred to by ‘er’ (he), and a neuter noun, such as ‘das Veilchen’ (the violet), by ‘es’ (it). Schmitt et al. (1999) proposed that the pronoun nodes are stored at the lemma level, and that they are accessed from gender nodes (see Figure 30.2). Figure 30.2 depicts the situation of pronoun access, taken from an experiment by Schmitt et al., (1999). In a picture-word-interference paradigm, a sequence of two pictures was presented, for example, a picture of a red flower followed by a picture of a blue one. Participants were asked to describe the event. They described it as Die Blume ist rot. Sie wird blau. [The flower is red. It turns blue.] Figure 30.2 depicts the situation when the flower is presented for the second time. Now, the concept of BLUME (flower) becomes activated for the second time. In the discourse record, this reappearance is registered in terms of an accessibility assignment of (⫹)‘in focus’. The (⫹)‘in focus’ feature should activate a procedure to produce a linguistically reduced form for the current concept. How can this be realized? According to the lexical access model of speech production by Roelofs (1992a, b), the activated concept automatically activates its corresponding lemma blume. According to Schriefers (1993), the lemma, in turn, leads to the activation of its gender. So far, there seems to be no difference from the overt generation of the noun ‘Blume’ [flower]. However, because the discourse record signals the feature (⫹)‘in focus’, the selection of the noun for overt generation should be prevented and the pronoun should be activated instead. This discourse
416 dependent switch in the processing mode is depicted in Figure 30.2 as a gate between the connections of lexical gender and pronoun information. If the accessibility status in the discourse is (⫹)‘in focus’, the gate is open and allows the spread of activation from gender nodes to pronoun nodes. This leads to the selection of the appropriate pronoun sie (itFEM). The selected pronoun activates its corresponding phonemes at the phonological level. The phonemes /z//i/ will be pronounced. Alternatively (not depicted in the figure), if the discourse record signals that the current concept is not accessible by previous discourse [with (⫺)‘in focus’ ] the gate is closed, and access to pronoun information is not possible. It has to be mentioned here that the proposed gating function is speculative in nature. The gating is one idea to explain how the speech system generates different kinds of speech output given nearly identical visual input (‘nearly’ here relates to an experimental situation in which an identical object reappears, but is depicted in a different color). Confronted with a picture, for instance of a flower, the system activates its concept, lemma, and phonemes so that the noun flower will be named overtly. The information might be taken from stored conceptual and lexical information. The assumption of having such representations of stored knowledge in long-term memory at hand is generally accepted in current pycholinguistic research. But, if a naming process were to use stored knowledge only, the network would always deliver the same output given the same input (with regard to object naming). In our particular case, confronted with a sequence of two pictures that depict the same object, the network would always come up with the overt noun generation of this object, such as The flower is red. The flower is blue. As discussed above, this is not what speakers do. The speaker’s skill in continuously implementing variable discourse information into the planning of his or her utterance should interact with the stored knowledge. The proposed gating mechanism enables such an interplay between procedural rules and stored conceptual and linguistic information within the same network architecture. Note that this working model was also realized as a parallel-distributed-processing (PDP) model that consisted of several layers (concept, discourse, lemma, and phonological form). It learned distributed representa-
III. Sprachproduktion
tion of words given dummy visual and acoustic input. In addition to trained connections, a procedural rule IF/THEN was implemented by means of a gate unit and its connection to all the connections between gender and pronoun nodes. The activation state of the gate unit was based on the representation within the discourse layer. Whenever the discourse activation signaled that the incoming visual information was new, i. e. (⫺)‘in focus’, the gate unit closed the connections between gender and pronoun nodes. Whenever the discourse signaled (⫹)‘in focus’ the gate unit kept the connections open, allowing activation of pronoun nodes via activated gender nodes. The PDP model was tested by presenting visual and/or pseudo acoustic input, to simulate the picture-word-interference results by Schmitt et al. (1999). For a detailed description see Schmitt (1997).
5.
Empirical evidence
The proposed working model assumes that for pronoun access specific discourse information is needed in parallel to the standard lexical access of the noun, e. g. the availability of conceptual and syntactic information of the reference noun. The model represents a first idea on how pronouns might be assessed. Empirically this model has not yet been tested with regard to all its assumptions. Schmitt et al. (1999) focused on only one feature of the model, namely the availability of the referent noun during lexical access. The model assumes that the noun and the corresponding gender information have to be available for accessing the correct gender marked pronoun. Therefore, one should be able to find information of this noun back in the system. The authors focused on phonological information of the noun, because phonological encoding reflects the latest phase of lexical access. Finding phonological activation of the noun would indicate that lexical access took place for the noun during pronoun generation. In the experiment, sequences of pictures were presented, which the speakers described in utterances such as ‘The flower is green. It turns red.’ (Die Blume ist grün. Sie wird rot). In half the trials, at the onset of the second picture probes were presented that were either words or pseudowords. The probes were either phonologically related to the target noun (e. g. Bluse [blouse] for Blume [flower]) or were unrelated. The
30. The Production of Anaphoric Pronouns
participants had to carry out a lexical decision. The results showed that the lexical decisions were slower to probe words that were related in form to the target noun (that was replaced by the pronoun in overt speech) than to unrelated probes. These results implied that the noun’s form was activated during pronoun generation, and that the noun’s form interfered with the lexical decision to the related probe. A control experiment showed that the form of the noun was indeed reactivated during the generation of the pronoun rather than still being activated from the preceding utterance. Jescheniak, Schriefers and Hantsch (2001) tested the lexical access hypothesis by conducting a series of picture-word-interference experiments. In these experiments they compared semantic and phonological activation of nouns and pronouns. Participants were asked to name pictures either by using the full name (noun condition) or by using a German pronoun (pronoun condition). They were asked to ignore presented distractor words, which were either semantically or phonologically related or unrelated to the picture names. In the noun condition, semantic interference and phonological facilitation was observed, as expected in this paradigm (see for example Schriefers et al., 1990). Interestingly, in the pronoun condition, semantic interference but no phonological effects on the naming latencies were observed. Whereas the results of the phonological condition seem to contradict the findings of Schmitt et al. (and await further empirical clarification), the results of the semantic condition supports the above proposed lexical access model of pronouns. The semantic interference effect is assumed to reflect competition during lexical access, i. e. lemma access, due to simultaneously activated related words (see Levelt et al., 1991a, b; Schriefers et al., 1990). The authors argue that the effect cannot be located at the pre-linguistic conceptual level because of findings in earlier studies. Schriefers et al. (1990) showed that the interference disappeared when, instead of naming, a non-linguistic (conceptual) task was carried out. For example, instead of naming the picture, an old/new push-button decision about the pictures had to be carried out. Because the semantic interference was absent in a non-linguistic task, but was present in the linguistic one, Schriefers et al. (1990) concluded that the effect should be ex-
417 plained by lexical selection processes, i. e. competition during lemma selection. Meyer and Bock (1999) explored the kinds of representations that speakers consult in order to determine the form of the pronoun by explicitly testing three hypotheses of pronoun selection: the conceptual hypothesis, the lexical hypothesis and the morpho/phonological hypothesis. The conceptual hypothesis suggests that the speaker identifies the intended referent within a representation of the message, and directly accesses the relevant features of a word from the concept. The speaker selects the corresponding pronoun without accessing the lexical information of the referent at all. The lexical hypothesis assumes that in addition to conceptual information the speaker accesses discourse information and grammatical features of the referent, such as grammatical gender. The morpho/phonological hypothesis suggests that in addition to conceptual and grammatical information the speaker uses a memory record of the prior discourses that includes traces of words actually produces in their phonologically encoded forms. The authors tested the hypothesis by means of gender agreement errors in sentence completion tasks in Dutch. Dutch is, as is German, a gender marked language, with two grammatical genders (the neuter “het-words”, and the masculine/feminine “de-words”). The corresponding neuterand common-gender pronouns include the singular demonstratives “dat” for het-words, and “dit” for de-words. They serve to introduce relative clauses, as the English “that”. And when they do they carry the grammatical gender of the head noun, as in het meisjeN datN lang is [the girl who is tall] or in de jongeD dieD lang is [the boy who is tall]. In the experiments, the participants heard a preamble sentence, for example, Kijk, daar ligt een aardappelD bij een badpakH [Look, there’s a potato lying next to a swimsuit]. Shortly after the presentation of the sentence, a printed adjective appeared on the screen that was related to only one of the two items (for example, gaar [cooked], related to potato. The participants reproduced the sentence and appended a second sentence by using the adjective (for example, dieD is gaar). The authors varied two aspects of the first sentence: (1) The gender of the interloper was either the same or different to the referent. (2) The gender of the items were not marked in the surface structure (using an indefinite determiner “een” for both), or it was marked
418 (using a definite determine “de” or “het”). Using the gender-interference effect (Schriefers, 1993), that shows that two different syntactic genders can interfere with each other, the authors made three different assumptions. According to a conceptual hypothesis a different syntactic gender of the interloper should not influence the correct use of the gender marked pronoun, because the pronoun selection is independent of any kind of grammatical encoding. According to the lexical hypothesis, gender incongruent interlopers should increase incorrect gender assignment during pronoun generation, because the gender interference effect is supposed to hamper grammatical encoding (i. e. gender access). According to the morpho/phonological hypothesis, the different gender of the interloper should only play a role in the condition in which the genders of the nouns are overtly marked. This is assumed because only in the overtly marked gender case, would a phonological/surface memory trace be available in the system that could interfere with the correct selection of the appropriate pronoun of a different gender due to a different surface structure. The results favored the lexi-
III. Sprachproduktion
cal hypothesis. Speakers made more pronoun-gender mistakes when antecedent and interloper differed in grammatical gender than when they had the same gender. Overt gender-marking had no significant impact on the error rates. Taken together, these findings support a lexical access view of pronoun generation, at least for gender marked languages such as German or Dutch.
6.
Conclusions
In summary, the generation of pronouns involves the interaction of several components of the speaker’s production system. First, during discourse processing the speaker establishes co-reference, in the same way as the listener does. Second, the co-reference devices (e. g. the accessibility status of a referent) together with the conceptual information about the message is input for the process of lexical access. Third, during lexical access the lemma of the referent is accessed as usual, but a reduced form, e. g. the pronoun, is generated if the discourse information allows this.
Fig. 30.3: A hypothetical lexical access view of the generation of the pronoun ihr in Die Tochter baut ein Haus um. Der Vater hilft ihr. (The daughter is reconstructing a house. The father is helping her.) M ⫽ masculine, F ⫽ feminine, N ⫽ neuter gender, A ⫽ accusative, D ⫽ dative, N ⫽ nominative, G ⫽ genitive case.
30. The Production of Anaphoric Pronouns
Locating the access of pronouns at the level of lexical access may reveal a solution to the “ellipsis problem” mentioned in the introduction. The question addressed by Levelt (1989) was where the case-marking of pronouns might come from, for example in an utterance such as Der Vater hilft ihrdative-case/ der Vater unterstützt sieaccusative-case [the father helps her], or in the elliptic correction Der Vater hilft ihrdative-case …nein … ihmdative-case [the father helps her … no … him]. According to theories of lexical access (e. g. Roelofs, 1992a, b), the case information is linked to the lemma of the verb. If we now extend this theory in such a way that the pronoun node has access to the case node, pronoun access involves the following steps (see also Figure 30.3): (1) For generating the example sentence the concepts and the discourse information has to be available first. (2) During lexical access, the lemmas of the concepts get selected: the verb lemma gets accessed, as well as the noun lemmas for the subject and the object of the sentence. (3) The verb lemma automatically activates the case information linked to it. (4) The noun lemmas activate gender information. (5) The activation of the corresponding pronoun is dependent on at least three kinds of information: a) the case information that is available via connections from the case node, b) the gender information, coming from the activated gender node of the object noun lemma, and finally, c) the appropriate (⫹)‘in focus’ discourse information. Of course, at the moment, this is purely theoretical speculation. However, the assumptions are testable. As mentioned earlier, the research on pronoun generation in language production is only in its early stages. However, I hope this review showed that there are already some psycholinguistic ideas and testable assumptions available on how pronouns are generated by the speaker.
7.
References
Allport, A. (1987). Selection for action: Some behavioral and neurophysiological considerations of attention and action. In H. Heuer & A. F. Sanders (Eds.), Perspectives of perception and action (pp. 395⫺419). Hillsdale, NJ: Erlbaum. Allport, A. (1993). Attention and control: Have we been asking the wrong questions? A critical review of twenty-five years. In Attention and Performance 14: Synergies in experimental psychology, artificial
419 intelligence, and cognitive neuroscience (pp. 183⫺ 218). Cambridge, MA: MIT Press. Appelt, E. A. (1985). Planning English sentences. Cambridge: Cambridge University Press. Baayen, R. H., Piepenbrock, R. & Van Rijn, H. (1993). The CELEX Lexical Database. Linguistic Data Consortium, University of Pennsylvania, Philadelphia. Baddeley, A. (1986). Working memory. Oxford: Clarendon Press. Beattie, G. (1983). Talk: An analysis of speech and non-verbal behavior in conversation. Milton Keyes: Open University Press. Bock, J. K. (1982). Toward a cognitive psychology of syntax: Information processing contributions to sentence formulation. Psychological Review, 89, 1⫺47. Bock, J. K. (1995). Sentence production: From mind to mouth. In J. L. Miller & P. D. Eimas (Eds.), Handbook of perception and cognition: Vol. 11. Speech, language, and communication (pp. 181⫺ 216). San Diego: Academic Press. Bock, J. K. & Warren, R. K. (1985). Conceptual accessibility and syntactic structure in sentence formulation. Cognition, 21, 47⫺67. Bock, K. & Levelt, W. (1994). Language production: Grammatical encoding. In M. A. Gernsbacher (Ed.), Handbook of psycholinguistics (pp. 945⫺984). San Diego: Academic Press. Broadbent, D. E. (1958). Perception and communication. London: Pergamon Press. Brown, C. M. & Hagoort, P. (1999). The neurocognition of language. Oxford: Oxford University Press. Bühler, K. (1934). Sprachtheorie. Jena: Gustav Fischer. Butterworth, B. (1980). Evidence from pauses in speech. In B. Butterworth (Ed.), Language production: Vol. 1. Speech and talk (pp. 155⫺176). London: Academic Press. Chafe, W. L. (1976). Givenness, contrastiveness, definiteness, subjects, topics, and points of view. In C. N. Li (Ed.), Subject and topic (pp. 25⫺56). New York: Academic Press. Chambers, G. G. & Smyth, R. (1998). Structural parallism and discourse coherence: A test of centering theory. Journal of Memory and Language, 39, 593⫺608. Clark, H. H. (1994). Discourse in production. In M. A. Gernsbacher (Ed.), Handbook of psycholinguistics (pp. 985⫺1021). San Diego: Acadamic Press.
420 Dell, G. S. (1986). A spreading-activation theory of retrieval in sentence production. Psychological Review, 93, 283⫺321. Dell, G. S. & O’Seaghdha, P. G. (1991). Mediated and convergent lexical priming in language production: A comment on Levelt et al. (1991). Psychological Review, 98, 604⫺614. Dell, G. S. & O’Seaghdha, P. G. (1992). Stages of lexical access in language production. Cognition, 42, 287⫺314. Ericsson, K. A. & Kintsch, W. (1995). Long-term working memory. Psychological Review, 102 (2), 211⫺245. Fowler, C. A. & Housum, J. (1987). Talkers’ signalling of “new” and “old” words in speech and listeners’ perception and use of the distinction. Journal of Memory and Language, 26, 489⫺504. Fromkin, V. A. (1971). The nonanomalous nature of anomalous utterances. Language, 47, 27⫺52. Fromkin, V. A. (Ed.) (1973). Speech errors as linguistic evidence. The Hague: Mouton. Garnham, A. (2001). Mental models and the interpretation of anaphora. Philadelphia, PA: Psychology Press. Gordon, P. C. (1999). Naming versus referring in the selection of words. Commentary to Levelt et al. (1999): Lexical access in speech production. Behavioral and Brain Sciences, 22, 44⫺45. Gordon, P. C. & Hendrick, R. (1997). Intuitive knowledge of linguistic co-reference. Cognition, 62, 325⫺370. Gordon, P. C. & Hendrick, R. (1998). The representation and processing of coreference in discourse. Cognitive Science, 22, 389⫺424. Gordon, P. C. & Scearce, K. A. (1995). Pronominalization and discourse coherence, discourse structure and pronoun interpretation. Memory and Cognition, 23, 313⫺323. Gordon, P. C., Grosz, B. J. & Gilliom, L. A. (1993). Pronouns, names, and the centering of attention in discourse. Cognitive Science, 17, 311⫺ 347.
III. Sprachproduktion Indefrey, P. & Levelt, W. J. M. (2000). The neural correlates of language production. In M. Gazzaniga (Ed.), The new cognitive neurosciences (pp. 845⫺865). Cambridge, MA: The MIT Press. Jackendoff, R. (1983). Semantics and cognition. Cambridge, MA: MIT Press. Jackendoff, R. (1999). The representational structures of the language faculty and their interactions. In C. M. Brown & P. Hagoort (Eds.), The neurocognition of language (pp. 37⫺79). Oxford: Oxford University Press. James, W. (1890/1950). The principles of psychology (Vol. 1). Authorized edition, Dover Publications, Inc. Jescheniak, J. & Levelt, W. J. M. (1994). Word frequency effects in speech production: Retrieval of syntactic information and of phonological form. Journal of Experimental Psychology: Learning, Memory, and Cognition, 20, 824⫺843. Jescheniak, J., Schriefers, H. & Hantsch, A. (2001). Semantic and phonological activation in noun and pronoun production. Journal of Experimental Psychology: Learning, Memory and Cognition, 2, 1058⫺1078. Johnson-Laird, P. N. (1983). Mental models. Cambridge: Cambridge University Press. Johnson-Laird, P. N. (1989). Mental models. In M. I. Posner (Ed.), Foundations of cognitive science (pp. 469⫺499). Cambridge, MA: MIT Press. Joshi, A. & Weinstein, S. (1981). Control of inference: Role of some aspects of discourse-structured centering. Proceedings of the International Joint Conference on Artificial Intelligence (pp. 385⫺387). Kempen, G. & Huijbers, P. (1983). The lexicalization process in sentence production and naming: Indirect election of words. Cognition, 14, 185⫺209. Klein, W. (1984). Bühlers Ellipse. In C. F. Graumann & Th. Herrmann (Hrsg.), Karl Bühlers Axiomatik. Fünfzig Jahre Axiomatik der Sprachwissenschaften. Frankfurt: Klostermann.
Grosz, B. J., Joshi, A. & Weinstein, S. (1983). Providing a unified account of definite noun phrases in discourse. Proceedings of the 21st Annual Meeting of the Association of Computational Linguistics (pp. 41⫺50). Cambridge, MA: ACL.
Klein, W. (1993). Ellipse. In J. Jacobs, A. von Stechow, W. Sternefeld & Th. Vennemann (Hrsg.), Syntax. Ein internationales Handbuch zeitgenössischer Forschung, Vol. 1 (pp. 763⫺799). Berlin: De Gruyter.
Hankamer, J. & Sag, I. A. (1976). Deep and surface anaphora. Linguistic Inquiry, 7, 391⫺426.
Levelt, W. J. M. (1989). Speaking: From intention to articulation. Cambridge, MA: MIT Press.
Henderson, A., Goldman-Eisler, F. & Skarbek, A. (1966). Sequential temporal patterns on spontaneous speech. Language and Speech, 9, 207⫺216.
Levelt, W. J. M., Roelofs, A. & Meyer, A. S. (1999). A theory of lexical access in speech production. Behavioral and Brain Sciences, 22, 1⫺75.
30. The Production of Anaphoric Pronouns Levelt, W. J. M., Schriefers, H., Vorberg, D., Meyer, A. S., Pechmann, T. & Havinga, J. (1991a). The time course of lexical access in speech production: A study of picture naming. Psychological Review, 98, 122⫺142. Levelt, W. J. M., Schriefers, H., Vorberg, D., Meyer, A. S., Pechmann, T. & Havinga, J. (1991b). Normal and deviant lexical processing: Reply to Dell and O’Seaghdha (1991). Psychological Review, 98, 615⫺618. MacWhinney, B. & Bates, E. (1978). Sentential devices for conveying givenness and newness: A cross-cultural developmental study. Journal of Verbal Learning and Verbal Behaviour, 17, 539⫺558. Marslen-Wilson, W., Levy, E. & Tyler, L. K. (1982). Producing interpretable discourse: The establishment and maintenance of reference. In R. Jarvella & W. Klein (Eds.), Speech, place and action. Studies in deixis and related topics (pp. 339⫺ 378). Chichester: John Wiley. Meyer, A. S. & Bock, K. (1999). Representations and processes in the production of pronouns: Some perspectives from Dutch. Journal of Memory and Language, 41, 281⫺301. Miller, G. A. (1956). The magical number seven, plus or minus two: Some limits on our capacity for processing information. Psychological Review, 63, 81⫺97. Neumann, O. (1987). Beyond capacity: A functional view of attention. In H. Heuer & A. F. Sanders (Eds.), Perspectives of perception and action (pp. 361⫺394). Hillsdale, NJ: Erlbaum,. Neumann, O. (1992). Theorien der Aufmerksamkeit: Von Metaphern zu Mechanismen. Psychologische Rundschau, 43, 83⫺101.
421 Roelofs, A. (1992b). Lemma retrieval in speaking: A theory, computer simulations, and empirical data. Doctoral dissertation, NICI Technical Report 92⫺ 08, University of Nijmegen. Rumelhart, D. E. & McClelland, J. L. (1986). On learning the past tense of English verbs. In J. L. McClelland & D. E. Rumelhart (Eds.), Parallel distributed processing: Explorations in the microstructure of cognition. Vol. 2: Psychological and biological models (pp. 216⫺271). Cambridge: MIT Press. Sag, I. A. & Hankamer, J. (1984). Toward a theory of anaphoric processing. Linguistics and Philosophy, 7, 325⫺345. Schmitt, B. M., Meyer, A. S. & Levelt, W. J. M. (1999). Lexical access in the production of pronouns. Cognition, 69, 313⫺335. Schriefers, H. (1993). Syntactic processes in the production of noun phrases. Journal of Experimental Psychology: Learning, Memory, and Cognition, 19, 841⫺850. Schriefers, H., Meyer, A. S. & Levelt, W. J. M. (1990). Exploring the time course of lexical access in language production: Picture-word interference studies. Journal of Memory and Language, 29, 86⫺102. Shattuck-Huffnagel, S. (1979). Speech errors as evidence for a serial-order mechanism in sentence production. In W. E. Cooper & E. C. T. Walker (Eds.), Sentence processing: Psycholinguistic studies presented to Merrill Garrett (pp. 295⫺342). Hillsdale, NJ: Erlbaum. Terken, J. M. B. (1984). The distribution of pitch accents in instructions as a function of discourse structure. Language and Speech, 27, 269⫺289.
Power, M. J. (1983). Are there cognitive rhythms in speech? Language and Speech, 26, 253⫺261.
Van Berkum, J. J. A. (1996). The psycholinguistics of grammatical gender. Doctoral dissertation, University of Nijmegen, The Netherlands.
Prince, E. (1981). Toward a taxonomy of givennew information. In P. Cole (Ed.), Radical pragmatics (pp. 223⫺256). New York: Academic Press.
Van Berkum, J. J. A. (1997). Syntactic processes in speech production. The retrieval of grammatical gender. Cognition, 64, 115⫺152.
Roelofs, A. (1992a). A spreading-activation theory of lemma retrieval in speaking. Cognition, 42, 107⫺142.
Bernadette Schmitt University of Maastricht (The Netherlands)
422
III. Sprachproduktion
31. Processes of Question Answering 1. 2. 3. 4. 5.
Introduction Processing stages of question answering Parallel processing in question answering Conclusions References
1.
Introduction
People’s ability to answer questions is a central criterion of successful comprehension and learning, arguably even more crucial than paraphrasing and summarization (Lehnert, 1978). Questions and their answers play a central role across discourse domains, including the retrieval of information from texts of different genres, the measurement of people’s knowledge, and speakers’ and listeners’ assessments of one another’s respective goals (e. g., Graesser & Murachver, 1985; Lehnert, 1978). In the development of theory in this realm, the similarity between answering Does a giraffe have a long neck? and recognizing or verifying A giraffe has a long neck has been noted (Graesser, Lang, & Roberts, 1991; Reder, 1982; Singer, 1990). The complexity of question answering is revealed by the following excerpt from a mystery set in ancient Rome. “I squatted by the body while Hermes held the lantern near the face. Sure enough, the man wore a tunic with a senator’s wide, purple stripe. He was middle-aged, bald and beak nosed, none of which were distinctions of note. And he had at least one enemy, who had stabbed him through the heart.” (Roberts, 1993) After reading this passage, readers should readily be able to answer Who held the lantern? and What did the stabbed man wear? The answers are stated explicitly in the passage, and failure to answer them correctly would raise doubt about the reader’s attention to or grasp of the story. However, the question answering capability of the reader is much greater. If asked, Who is describing the murder scene?, familiarity with the mystery genre would permit many readers to provide an answer such as “the detective”. Likewise, most people would likely provide a sensible answer to What instrument was used to kill the man?, even though the weapon is not identified. If, in contrast, one were asked, Who murdered the man?, one would have to reply “don’t know”, in view of the sparse in-
formation provided by the passage. How readers decide whether or not they can provide a sensible answer to a question is itself an important issue. This chapter includes two main sections. Section 2 identifies, and presents evidence about, a series of processing stages that have been proposed to contribute to successful question answering. Section 3 provides an overview of parallel processing models that address the role of interactive processing and global memory search in question answering. First, however, an outline of current discourse comprehension theory is provided. 1.1. Discourse comprehension and representation The present emphasis on answering questions about discourse requires an outline of contemporary theories of comprehension. According to the influential construction-integration theory (CI) of Kintsch (1988, 1998), comprehension proceeds in cycles. During the construction phase of a CI cycle, the current text segment is analyzed into idea units called “propositions”. For example, I squatted by the body might be analyzed as: P1 (SQUAT, I), P2 (LOCATION:BY, P1, BODY) (Kintsch, 1974). The propositions are organized into a coherence network that also includes a small number of (a) coherence-preserving inferences (Haviland & Clark, 1974) and (b) close associates of the explicit text ideas (Swinney, 1979). The network specifies the strengths of the connections among all of these components. Then, during the integration phase, activation is settled in the network, following connectionist principles (Rumelhart & McClelland, 1986). As a result, only those components that are highly interconnected effectively remain in the network. These processes modify the original network to yield a long-term memory (LTM) representation of the text. At the end of each cycle, a small number of highly active propositions are retained in working memory (e. g., Baddeley, 1986) for further processing. The LTM representation captures multiple levels of discourse, including its surface features, a textbase network of its propositions, and a model of the situation to which the discourse refers (Schmalhofer & Glavanov, 1986; van Dijk & Kintsch, 1983; Zwaan &
31. Processes of Question Answering
423
Theorists have identified and investigated numerous processing stages of question processing. This theoretical approach has guided the inspection of many phenomena of text retrieval and question answering.
LANTERN) conveys that HERMES is the queried concept. However, identifying the question focus also involves the relevant knowledge possessed by the listener. Why did Susan phone the Prime Minister? appears to focus on Prime Minister; whereas a question with similar grammatical structure, Why did Susan yodel to the dog?, seems to interrogate the role of yodelling. Lehnert (1978) observed that people interpret questions to query their unusual elements (Prime Minister, yodel), which in turn depends on the listener’s knowledge.
2.1. Question encoding Answering a question first requires the encoding of its meaning. The predominant treatment of this problem involves the propositional analysis of the question statement. Using Kintsch’s (1974) notation, the proposition underlying Hermes held the lantern is (HOLD, AGENT:HERMES, PATIENT: LANTERN), in which AGENT and PATIENT name the semantic roles (Fillmore, 1968) of the arguments in relation to the predicate. The propositional representation of the question, Who held the lantern?, can be written as (HOLD, AGENT:?, PATIENT: LANTERN) (Singer, 1990). The notation, AGENT:?, is meant to convey that the questioner wishes to know the identity of the agent of the proposition. Identifying the element that the questioner wishes to know about (e. g., AGENT:?) is a critical feature of question comprehension. The simple active sentence, Hermes held the lantern, is relatively neutral in its “given-new structure” (Clark & Haviland, 1977): The speaker might either have (a) assumed that the listener knew that Hermes held something (given), and identified the thing as a lantern (new); or (b) assumed that the listener knew that someone held the lantern, and identified the holder as Hermes. Successful question comprehension and answering, in contrast, depend on the clear distinction between the given, or presupposed, information; and the new, or focal, idea. Wh- questions are unambiguous in this regard. It is clear that Who held the lantern? presupposes that someone held the lantern, and requests the identity of the holder. Many yes-no questions, such as Was the lantern held by Hermes?, also clearly signal which element the speaker is querying. The notation (HOLD, AGENT:HERMES?, PATIENT:
2.2. Question categories Many researchers have compiled inventories of question categories (Graesser & Murachver, 1985; Lehnert, 1978; Trabasso, Secco & van den Broek, 1984). Some question categories can be linked to analyses of semantic roles and cases (Fillmore, 1968), such as agents, patients, instruments, and locations. Thus, one can ask Who held the lantern?, How was the man stabbed?, and Where was the man stabbed? Other question categories correspond to the discourse relations of causality and temporal organization (Graesser & Murachver, 1985; Trabasso et al., 1984). One can ask about the causal antecedents (Why was the man stabbed?) and consequences of a discourse event and about its significance. Both wh- and yes-no questions can be formulated about any of these categories (Singer, 1986, 1990). For example, one can ask either What did the man wear? or Did the man wear a tunic?; and either Why was the man stabbed? or Was the man stabbed to prevent him from going to the authorities? A central difference between the processing of wh- and yes-no questions is that only yes-no questions involve the comparison of the retrieved information and the focal information of the question (Singer, 1984, 1986). These comparison operations will be examined in section 2.5. Interrogative pronouns and adverbs provide cues about the category of a question. Unambiguous signals of question category are provided by interrogative terms such as who (agent) and where (location). In other instances, the relation between the interrogative term and question category is more complex. For example, How can introduce the questions How did Bill open the window? and How many oranges did you buy? In general,
Radvansky, 1998). The situation model integrates discourse information and general knowledge, and may take a form very distinct from the original text.
2.
Processing stages of question answering
424 question category must often be derived from a combination of the interrogative term, syntax, and semantics. Question categorization has a direct bearing on the processes of searching memory for the queried information. These effects will be considered in the section 2.4. 2.3. Strategies of question answering Strategy selection has been proposed to form a distinct processing stage of question answering and text retrieval (Graesser & Murachver, 1985; Reder, 1987; Singer, 1990). People can evaluate a question by directly retrieving it (Reder, 1982) from a specific knowledge representation; or by judging its plausibility (Camp, Lachman & Lachman, 1980; Lehnert, 1977; Reder, 1982, 1987, 1988; Singer, 1991a). In the context of the mystery excerpt (section 1.), consider the question, Was the man killed with a dagger? One might either attempt to retrieve the answer from the representation of the passage, which in this case would fail; or to judge its probability with reference to one’s world knowledge about stab wounds. Answering strategy is guided by factors intrinsic and extrinsic to the question statement (Reder, 1987). The prototype extrinsic factor is the answering task that one adopts, perhaps as a result of explicit instructions. Intrinsic factors are illustrated by the relative activation of question statement at the time it is encountered, due either to its high familiarity or a recent presentation. The effects of several variables on answering strategy were explored by Reder (1982). The subjects read stories; and, in a subsequent test, were instructed either to recognize the test items or judge their plausibility. The test occurred 0 minutes, 20 minutes, or 2 days after reading. The test statements were either of high or medium plausibility with reference to their stories. For example, in the context of the mystery excerpt, The man was stabbed with a dagger might be of high plausibility whereas The man was stabbed with a letter opener might be of medium plausibility. Finally, each test item was either stated or unstated in the story. Reder (1982) reasoned that direct retrieval ought to be more efficient than plausibility judgment only at short delays, when the verbatim details of the passage are still relatively intact. Consistent with this proposal, correct recognition took less time than plausibility judgments in immediate testing, but the opposite was true after a two-day delay (see
III. Sprachproduktion
also Singer, 1979). Other features of the data likewise suggested that, independent of the instructions, people favour a retrieval strategy at short delays and plausibility at long delays. In the plausibility instruction condition, for example, judgment time should be the same for stated and unstated test items, on the assumption that the test item is evaluated only with reference to relevant knowledge. However, in immediate testing only, plausibility judgment time was .93 sec less for stated than unstated test items. This indicated that, contrary to their instructions, the plausibility judges had retrieved the stated test items (see also Reder, 1987). Associations have sometimes between drawn between (a) direct retrieval and the search of a message representation, and (b) plausibility judgment and evaluation on the basis of pertinent world knowledge (e. g., Lehnert, 1977: 57; Yekovich & Walker, 1986). This relationship probably holds for question answering about stories that refer to stereotypical situations, such as going skiing or doing the laundry (Yekovich & Walker, 1986). However, there is evidence that either strategy can be applied to either type of knowledge representation (Singer, 1991a; see also Lehnert, 1978; Lorch, 1981). 2.4. Memory search in question answering 2.4.1. Fact retrieval: The fan effect After the encoding and categorization of the question and strategy selection, memory may be searched for the requested information. Important clues about the character of these processes stem from the well-known fanning paradigm (Anderson, 1974, 1976). In this procedure, subjects memorize a list of facts, illustrated by set (1): (1) a. b. c. d.
A pilot is in the garage. A doctor is in the store. A doctor is in the bank. A tailor is in the store.
Recognition time for test items varies with the total number of facts in which the concepts of the test item participated. The test item A pilot is in the garage is a 1⫺1 fact, because pilot and garage each participated in exactly one fact (1a). Likewise, according to this scheme, A doctor is in the bank is a 2⫺1 test item, and A doctor is in the store is a 2⫺ 2 test item. Of these three test items, recognition time is least for (1a) and greatest for (1b) (Anderson, 1974). This outcome is called the
31. Processes of Question Answering
fan effect because answer time is regulated by the number of links fanning out from each concept in a network that interrelates the facts. One explanation of the fan effect takes the form of the representational and processing assumptions of the ACT model (Anderson, 1976, 1983, 1993), which will be examined in section 3.1. 2.4.2. Question answering, the fan effect, and focused memory search Anderson’s (1976) fact retrieval procedure was extended to question answering (Singer, Parbery & Jakobson, 1988). The subjects memorized complex facts such as (2a), and, one day later, answered questions such as (2b) and (2c). (2) a. The teacher watered the peas, the corn, and the lettuce with the hose. b. Did the teacher water some corn? (patient focus) c. Did the teacher use a hose? (instrument focus) In one experiment, each question presupposed the participation of the agent (e. g., teacher) and focused on either the patient or instrument case. Each question could then be categorized in terms of the number of concepts that had been learned in the queried case and the other, non-presupposed, case. Following this scheme, (2b) is a 3⫺1 question: It asks about the accuracy of the patient, corn, and fact (2a) included three patients and one instrument. Question (2c), in contrast, was a 1⫺3 item. Singer et al. (1988) reported systematically lower answering times for 1⫺3 questions than 3⫺1 questions, even though both types involved exactly four related concepts. This indicated that people can focus their memory search on the queried case, such as the instrument in (2c). These results were similar to focused-search results in the realm of questions about taxonomic categories (McCloskey & Bigler, 1980) and theme-related actions (Reder & Anderson, 1980). 2.4.3. Strategies of fact retrieval In section 2.3, it was proposed that question statements may be evaluated by retrieving them from a knowledge representation (be it the discourse textbase or general knowledge) or by a plausibility judgment. The extrinsic and intrinsic factors that guide the choice of answering strategy exert parallel effects in
425 fact retrieval. For example, Reder and Anderson’s (1980) subjects learned sets of theme-related facts such as (3). (3) a. Alan bought a ticket for the 10:00 A.M. train. b. Alan heard the conductor call, “All aboard”. c. Alan arrived on time at Grand Central station. In an inspection of the extrinsic factor of test composition, some test lists included distractor items that were related to the learned sets (e. g., Alan checked the railway schedule); and, in other lists, all of the distractor items were about unrelated themes (e. g., Alan lifted the car with the jack). Reder and Anderson reasoned that, in the presence of related distractors, a correct decision depends on the direct retrieval of the test item, which permits its content to be scrutinized. This would result in the usual fan effect. With unrelated distractors, in contrast, it is not necessary to compare the test fact with all of the facts learned about the character – rather, one can accept a test fact as long as it is consistent with a theme associated with that character. Consistent with this analysis, a significant fan effect was measured only in the presence of related distractors. Other results confirmed that people perform plausibility judgments in the fanning paradigm when instructed to do so (Reder & Ross, 1983) and at long test delays (Reder & Wible, 1984). These outcomes converge with the findings about answering strategies. 2.4.4. Question search procedures and focused memory search Section 2.4.2 presented evidence that people can use information about the type of link between concepts to focus their memory search on a queried category. There is another research tradition which has examined people’s versatile use of both the type and direction of conceptual links to answer questions (e. g., Goldman, 1985; Graesser & Murachver, 1985; Graesser et al., 1991; Graesser, Robertson, & Anderson, 1981; Trabasso et al., 1984). This analysis has emphasized text statement categories, such as the physical events and actions of stories; plus directional links that connect those categories, such as links of reason, consequence, and enablement (Graesser, 1981; Schank & Abelson, 1977). Consider sequence (4):
426 (4) a. b. c. d. e.
III. Sprachproduktion
The burglar climbed the drainpipe. He pried the window with a crowbar. The lock broke. The burglar opened the window. He entered the house.
Of these statements, (4c) is an event and the others are actions. Sentence (4a) enables (4b) (a forward enablement link), (4b) causes (4c), and (4c) enables (4d). However, (4b) is also directly connected to (4d) by a forward reason link – the burglar pried the window in order to open it. Likewise, (4e) is the reason for (4d) (Graesser & Murachver, 1985). Graesser proposed that each combination of an interrogative term plus a story statement category is associated with a distinct question search procedure (Graesser & Clark, 1985; Graesser & Murachver, 1985; Graesser et al., 1981). Combining the interrogative why with a story event (e. g., Why did the lock break?) asks about the cause of the story statement. Why-action questions, in contrast, query a character’s reason for performing the action. The search procedure for a combination corresponds to the tracing of a particular link type in a particular direction. Why-action questions require the tracing of a Reason link in the forward direction. Thus, Why did the burglar pry the window? is reasonably answered, “To open it”. Conversely, how-action questions require the tracing of a Reason link in the backward direction. How did the burglar open the window? can be answered, “He pried it”. A corollary is that satisfactory answers may be derived from a combination of legal paths. Thus, Why did the burglar pry the window? can be answered either “To open the window” (one forward Reason link) or “To enter the house”, (two forward Reason links) (Goldman, 1985; Graesser & Murachver, 1985). This analysis was supported by the results that a high proportion of people’s answers to questions are consistent with the proposed question search procedures, and that people give higher “goodness-of-answer” ratings to those answers that conform with the analysis than to those that do not (Graesser & Murachver, 1985; Graesser et al., 1981). This proposal also addresses an issue raised in section 2.2. – namely, that interrogative terms do not bear a one-to-one relationship with question categories.
2.4.5. Feeling-of-knowing and question search processes The decisions of whether and how long to search for a queried fact are governed by the familiarity of the question. As a result, people will execute a lengthy search for a question involving familiar concepts, such as What is the capital of Australia?, but will answer “don’t know” rapidly for the unfamiliar question, What is the capital of Zaire? (Collins, Brown, & Larkin, 1980; Costermans, Lories, & Ansay, 1992; Glucksberg & McCloskey, 1981; Nelson & Narens, 1980; Reder, 1987). A person’s assessment of question familiarity has been called the feeling-ofknowing (Hart, 1967). In her analysis of answering strategies, Reder (1987) proposed that the feeling-ofknowing of a question statement is a function of its familiarity and the recency with which it was encountered. She characterized both familiarity and recency as intrinsic factors that influence the duration of question search. In one experiment, Reder “primed” some questions by preexposing their concepts to the subjects, in a preexperimental task. Then, some of the subjects were instructed to answer each question; whereas others were told simply to estimate, as quickly as possible, whether they believed that they could answer the question. The estimators were influenced by the priming manipulation – their estimation difference between easy and difficult questions was smaller for primed than unprimed items. The “answerers,” in contrast, were not affected in this way by the priming manipulation. 2.5. Question comparison Answering the yes-no question, Did the man wear a tunic?, depends on the comparison of the focal question concept, tunic, and the retrieved information. Question comparison processes have been studied with reference to verifying sentences like An elephant is not small. Clark and Chase (1972) proposed that this test sentence is propositionally encoded as NOT(SMALL, ELEPHANT) and is compared with the corresponding general knowledge (LARGE, ELEPHANT). The modifier NOT of NOT(SMALL, ELEPHANT) mismatches the implicitly affirmative modification of (LARGE, ELEPHANT); and the concepts SMALL and LARGE also mismatch. The first mismatch results in the change of a response index from its initial
31. Processes of Question Answering
427
value “yes,” to “no”; and the second mismatch causes the response to revert back to “yes,” the correct answer. This analysis was extended to question answering about discourse (Singer, 1984, 1986). Consider sentence set (5):
sentences (see also Graesser et al., 1991). Therefore, two theoretical models that accommodate the parallel processes of question answering will next be outlined and compared. The merits of such models will then be identified.
(5) a. The doctor ate the chicken on the patio. b. The doctor ate the fish on the patio. c. The doctor ate on the patio. d. Did the doctor eat some chicken?
3.1. Parallel processing answering models The TEXTR model of text retrieval (Kintsch, 1998; Singer & Kintsch, 2001) combines existing successful theories of (a) text comprehension, namely the construction-integration (CI) theory (Kintsch, 1988, 1998) and (b) recognition, namely SAM (Gillund & Shiffrin, 1984). As described in section 1.1, the CI model addresses the construction of a discourse representation in long-term memory (LTM). According to TEXTR, questions are initially processed in the same manner as the rest of the text (Lehnert, 1978). As a result, the question itself modifies the LTM discourse representation and becomes a part of it. Then, the familiarity of the question is assessed using the computations of the SAM recognition model. Because the question has been integrated with the discourse representation, the familiarity computation takes into account the connection strength between the question statement and every other element in the representation. Comparing a test item with the entire contents of memory is called global matching, and is characteristic of modern theories of memory (Clark & Gronlund, 1996). Finally, familiarity is converted to a yes-no decision by comparing it to a response criterion. Simulation analyses revealed that TEXTR can predict complex patterns of people’s “yes” replies to questions as a function of retrieval variables such as assigned task (recognition, verification), test delay, question type (explicit, paraphrase, implicit), and the importance, in the text, of the questioned idea (Kintsch, 1998; Singer & Kintsch, 2001). Consider next the application of the wellknown ACT theory (Anderson, 1976, 1983, 1993; Anderson & Reder, 1999b) to question answering and fact retrieval. According to ACT, the activation of a test fact, such as A lawyer is in the park, is derived from its resting activation level plus the sum of the strengths of its links to its concepts (lawyer, park). These link strengths are determined by a person’s exposure to the facts in learning, according to a connectionist learning rule (Anderson & Reder, 1999b). In particular, the more facts that a concept has participated in,
Question (5d) can reasonably be answered “yes,” “no,” and “don’t know” in the contexts of (5a), (5b), and (5c), respectively. Singer (1984, 1986) proposed that question (5d) is encoded as (EAT, AGENT:DOCTOR, PATIENT:CHICKEN?). Search then focuses on the queried case, the patient (McCloskey & Bigler, 1980; Singer et al., 1988). A preliminary search (Reder, 1987) reveals whether the antecedent representation (5a, 5b, or 5c) includes any information in the queried case. Sentences (5a) and (5b) include patients, which then must be retrieved and compared with the focal question component. When (5d) follows (5c), in contrast, the preliminary search reveals (5c) to include no information in the patient case. This permits the response index to be immediately changed to “don’t know”. Consistent with this hypothesis, answer times are consistently faster in the “don’t know” than the “no” condition (Singer, 1984, 1986).
3.
Parallel processing in question answering
The stage analysis of question answering is justified because some answering processes, such as retrieval, arguably must precede others, such as comparison. As a research strategy, stage analysis has permitted the clarification of numerous answering processes. However, a strictly serial analysis of question answering is inconsistent with the emphasis, in contemporary cognitive theory, on parallel processing (e. g., Rumelhart & McClelland, 1986). In this regard, Robertson, Weber and Ullman (1993) reasoned that the appearance of an interrogative word at the beginning of a sentence should initiate retrieval of the queried concept in parallel with the encoding of the sentence. In fact, they measured longer reading times for sentences beginning with interrogatives than for control declarative
428 the weaker its links to those facts. At test time, one category of link (e. g., person) may be more heavily weighted than another (e. g., location) (Anderson & Reder, 1999b). Fact activations are ultimately converted to predicted judgment times using an exponential formula – greater activation results in faster judgments. The ACT model can account for (a) the basic fan effect (section 2.4.1), (b) the similar magnitude of the fan effect for target and distractor items (Anderson, 1974, 1976), and (c) numerous other fact retrieval phenomena (Anderson & Reder, 1999b). Parallel processing occurs in TEXTR when activation is settled in the coherence network during the integration phase of comprehension. Then, a question accumulates familiarity in parallel from all elements of the LTM discourse representation. In ACT, activation likewise spreads in parallel from all of the concepts in a text fact, until a fact is retrieved from memory. 3.2. Comparing the models There appear to be several fundamental differences between TEXTR and ACT. However, they may reflect differences in the current implementations of the models rather than their inherent properties. 3.2.1. Memory matching TEXTR uses global memory matching (section 3.1): Its familiarity values are based on the connection strengths between a question and all of the elements of the discourse representation. In contrast, the activation of a fact in ACT is derived only from its links to its component facts (Anderson & Reder, 1999b), a local memory match (Clark & Gronlund, 1996). However, ACT could readily be modified to incorporate global matching. If two unrelated facts, such as A lawyer is in the park and A teacher is in the church, appeared consecutively during learning, it is plausible that each would have links of at least modest strength to the other’s concepts. The computation of ACT activation could then incorporate these extra-fact connections. 3.2.2. Learning As discussed in 3.1, ACT connection strengths are derived using a connectionist learning rule. The situation seems quite different in TEXTR, because connection strengths in the coherence networks are fixed by the experimenter. This is consistent with the practice in construction-integration mod-
III. Sprachproduktion
elling (e. g., Kintsch et al., 1990). However, in TEXTR, question activation is governed not by the initial coherence network but by the resulting LTM discourse representation. The connection strengths in the TEXTR LTM representation are determined by the reader’s experience, such as the number of cycles during which a given proposition is processed. As in ACT, this experience is captured by connectionist learning rules (Kintsch & Welsch, 1991). 3.2.3. Representations TEXTR is predicated on a multilevel discourse representation whereas, at least for the fanning paradigm, ACT posits a simple, well-defined representation. A recent debate about ACT’s representations focused on the finding that when people learned facts linking inanimate objects and locations, such as The desk is in the lobby, a fact retrieval test revealed that the number of objects appreciably influenced judgment time but the number of locations did not (Radvansky, Spieler, & Zacks, 1993). Radvansky (1999; Radvansky et al., 1993) attributed this differential fan effect to the representations that were constructed during comprehension: He proposed that when a place (lobby) was associated with several objects, the subjects represented a location-based situation model, in which the objects occurred in a single location (the lobby). In contrast, an object name (e. g., desk) associated with three locations is suggestive of three distinct desks. The differential fan effect was attributed to this difference in the representations. Anderson and Reder (1999b), in contrast, denied the necessity of positing situational representations: Rather, they analyzed these results in terms of differential weightings, within the ACT model, for object links and location links (see section 3.1). However, there is no reason, in principle, that ACT processes could not be applied to representations quite different from the typical fanning network (e. g., Anderson & Reder, 1999b, Figure 1). Even for fact lists, it is plausible that people would derive different representations depending on whether or not the list suggested that each instance of an object referred to the same entity. 3.3. Significance of the parallel processing analyses Parallel processing analyses of question answering have several benefits. First, they can address processing interactions among the
429
31. Processes of Question Answering
stages of question answering, defined in terms of the mutual influence of higher and lower level processes (Rumelhart & McClelland, 1986). Empirical evidence reveals numerous interactions of this sort. For example, memory retrieval has been shown to occur concurrently with question encoding (Robertson et al., 1993). Likewise, when people answered intermixed questions about recent and earlier stories, there was evidence that different strategies were applied to the immediate and delayed questions (Reder, 1988; Singer, Gagnon & Richards, 2002). This strongly favours the mutual influence of strategy selection and memory search upon one another over the serial execution of strategy selection and then memory search. Second, these parallel processing models have the capacity to accommodate additional variables in this realm. Consider the impact of test composition on question strategies. Test sets that include (a) distractors that are related to the original items (Lorch, 1981; Reder & Anderson, 1980; Singer, 1991b) or (b) many test items that appeared verbatim among the original stimuli (Reder, 1987) favour the answering strategy of direct retrieval over plausibility judgment. Test composition could be incorporated to the computations of both TEXTR and ACT by comparing strong (related) and weak (unrelated) connection strengths between the learned material (a text or a fact set) and the distractor items (Anderson & Reder, 1999a; Gillund & Shiffrin, 1984; Reder & Anderson, 1980). As a corollary, parallel processing models also offer alternative ways to address a given variable. In TEXTR, for example, differences between recognition and verification answering tasks can be treated either as a difference (a) between the response criterion associated with the tasks (e. g., Kamas, Reder & Ayers, 1996; Miller & Wolford, 1995; Singer & Kintsch, 2001) or (b) in the relative weighting assigned to the surface, textbase, and situational discourse representations (Hasher & Griffin, 1978).
4.
Conclusions
Advances in the study of question answering have stemmed from a combination of serial and parallel processing theories. Serial analyses have identified and clarified the stages of question answering. Parallel processing analyses have incorporated fundamental cog-
nitive principles such as interactive processing and global memory search. Progress in this field will likely continue to accumulate from a blend of these two approaches. At the same time, many other subtleties of question answering need to be addressed. (a) For example, in section 2.1, it was explained that people interpret the unusual element of a question, such as Why did Susan YODEL to the dog?, as the queried concept. (b) People’s answers depend on their perception of the knowledge that they share with the questioner. Thus, one’s answer to Where is the Empire State Building? will be different if the question is posed in Paris or in mid-town Manhattan (Norman, 1973). (c) People’s replies are likewise affected by pragmatic factors such as politeness (Clark & Schunk, 1980). To reply with a simple “no” to Are there any interesting sights in this city? would be rather blunt. Phenomena of this sort offer major challenges in the refinement of question answering theory.
5.
References
Anderson, J. R. (1974). Retrieval of propositional information from long-term memory. Cognitive Psychology, 4, 451⫺474. Anderson, J. R. (1976). Language, memory, & thought. Hillsdale, NJ: Erlbaum. Anderson, J. R. (1983). The architecture of cognition. Cambridge, MA: Harvard. Anderson, J. R. (1993). Rules of the mind. Hillsdale, NJ: Erlbaum. Anderson, J. R. & Reder, L. M. (1999a). Process, not representation: Reply to Radvansky (1999). Journal of Experimental Psychology: General, 128, 207⫺210. Anderson, J. R. & Reder, L. M. (1999b). The fan effect: New results and new theories. Journal of Experimental Psychology: General, 128, 186⫺197. Baddeley, A. D. (1986). Working memory. Oxford: Clarendon Press. Camp, C. J., Lachman, J. L. & Lachman, R. (1980). Evidence for direct-access and inferential retrieval in question-answering. Journal of Verbal Learning and Verbal Behavior, 19, 583⫺596. Clark, H. H. & Chase, W. G. (1972). On the process of comparing sentences against pictures. Cognitive Psychology, 3, 472⫺517. Clark, H. H. & Clark, E. V. (1977). Psychology and language. New York: Harcourt Brace Jovanovich.
430
III. Sprachproduktion
Clark, H. H. & Haviland, S. E. (1977). Comprehension and the given-new contract. In R. Freedle (Ed.), Discourse production and comprehension (pp. 1⫺40). Hillsdale, NJ: Erlbaum.
Hasher, L. & Griffin, M. (1978). Reconstructive and reproductive processes in memory. Journal of Experimental Psychology: Human Learning and Memory, 4, 318⫺330.
Clark, H. H. & Schunk, D. (1980). Polite responses to polite requests. Cognition, 8, 111⫺143.
Haviland, S. E. new? Acquiring comprehension. Verbal Behavior,
Clark, S. E. & Gronlund, S. D. (1996). Global matching models of recognition memory: How the models match the data. Psychonomic Bulletin & Review, 3, 37⫺60. Collins, A., Brown, J. S. & Larkin, K. M. (1980). Inference understanding. In R. Spiro, B. Bruce & B. Brewer (Eds.), Theoretical issues in reading comprehension. Hillsdale, NJ: Erlbaum. Costermans, J., Lories, G. & Ansay, C. (1992). Confidence level and feeling of knowing in question answering: The weight of inferential processes. Journal of Experimental Psychology: Learning, Memory, and Cognition, 18, 142⫺150. Fillmore, C. J. (1968). The case for case. In E. Bach & R. T. Harms (Eds.), Universals of linguistic theory (pp. 1⫺90). New York: Holt, Rinehart and Winston. Gillund, G. & Shiffrin, R. M. (1984). A retrieval model for both recognition and recall. Psychological Review, 91, 1⫺67. Glucksberg, S. & McCloskey, M. (1981). Decisions about ignorance: Knowing that you don’t know. Journal of Experimental Psychology: Human Learning and Memory, 7, 311⫺325. Goldman, S. R. (1985). Inferential reasoning in and about narrative texts. In A. Graesser & J. Black (Eds.), The psychology of questions (pp. 247⫺276). Hillsdale, NJ: Erlbaum. Graesser, A. C. (1981). Prose comprehension beyond the word. New York: Springer-Verlag. Graesser, A. C. & Clark, L. F. (1985). The structures and procedures of implicit knowledge. Norwood, NJ: Ablex. Graesser, A. C., Lang, K. L. & Roberts, R. M. (1991). Question answering in the context of stories. Journal of Experimental Psychology: General, 120, 254⫺277. Graesser, A. C. & Murachver, T. (1985). Symbolic procedures of question answering. In A. Graesser & J. Black (Eds.), The psychology of questions (pp. 15⫺88). Hillsdale, NJ: Erlbaum. Graesser, A. C., Robertson, S. P. & Anderson, P. A. (1981). Incorporating inferences in narrative representations: A study of how and why. Cognitive Psychology, 13, 1⫺26. Hart, J. T. (1967). Memory and the memory-monitoring process. Journal of Verbal Learning and Verbal Behavior, 6, 685⫺691.
& Clark, H. H. (1974). What’s new information as a process in Journal of Verbal Learning and 13, 512⫺521.
Kamas, E. N., Reder, L. M. & Ayers, M. S. (1996). Partial matching in the Moses illusion: Response bias not sensitivity. Memory & Cognition, 24, 687⫺699. Kintsch, W. (1974). The representation of meaning in memory. Hillsdale, NJ: Erlbaum. Kintsch, W. (1988). The role of knowledge in discourse comprehension: A construction-integration model. Psychological Review, 95, 163⫺182. Kintsch, W. (1998). Comprehension. New York: Cambridge University Press. Kintsch, W. & Welsch, D. M. (1991). The construction-integration model: A framework for studying memory for text. In W. E. Hockley & S. Lewandowsky (Eds.), Relating theory and data: Essays on human memory in honor of Bennet B. Murdock (pp. 367⫺385). Hillsdale, NJ: Erlbaum. Kintsch, W., Welsch, D., Schmalhofer, F. & Zimny, S. (1990). Sentence memory: A theoretical analysis. Journal of Memory and Language, 29, 133⫺159. Lehnert, W. (1977). Human computational question answering. Cognitive Science, 1, 47⫺73. Lehnert, W. G. (1978). The process of question answering. Hillsdale, NJ: Erlbaum. Lorch, R. F. Jr. (1981). Effects of relation strength and semantic overlap on retrieval and comparison processes during sentence verification. Journal of Verbal Learning and Verbal Behavior, 20, 593⫺611. McCloskey, M. & Bigler, K. (1980). Focused memory search in fact retrieval. Memory & Cognition, 8, 253⫺264. Miller, M. B. & Wolford, G. L. (1999) Theoretical commentary: The role of criterion shift in false memory. Psychological Review, 106, 398⫺405. Nelson, T. O. & Narens, L. (1980). Norms of 300 general information questions: Accuracy of recall, latency of recall, and feeling of knowing ratings. Journal of Verbal Learning and Verbal Behavior, 19, 338⫺368. Norman, D. A. (1973). Memory, knowledge, and the answering of questions. In R. Solso (Ed.), Contemporary issues in cognitive psychology: The Loyola symposium (pp. 135⫺165). Washington DC: V. H. Winston & Sons.
31. Processes of Question Answering Radvansky, G. A. (1999). The fan effect: A tale of two theories. Journal of Experimental Psychology: General, 128, 198⫺206. Radvansky, G. A., Spieler, D. H. & Zacks, R. T. (1993). Mental model organization. Journal of Experimental Psychology: Learning, Memory, and Cognition, 19, 95⫺114. Reder, L. M. (1982). Plausibility judgments versus fact retrieval: Alternative strategies for sentence verification. Psychological Review, 89, 250⫺280.
431 Singer, M. (1984). Toward a model of question answering: Yes-no questions. Journal of Experimental Psychology: Learning, Memory, and Cognition, 10, 285⫺297. Singer, M. (1986). Answering wh- questions about sentences and text. Journal of Memory and Language, 25, 238⫺254. Singer, M. (1990). Answering questions about discourse. Discourse Processes, 13, 261⫺277.
Reder, L. M. (1987). Strategy-selection in question answering. Cognitive Psychology, 19, 90⫺134.
Singer, M. (1991a). Independence of question answering strategy and searched representation. Memory & Cognition, 19, 189⫺196.
Reder, L. M. (1988). Strategic control of retrieval strategies. In G. Bower (Ed.), The psychology of learning and motivation, Vol. 22, (pp. 227- 259). San Diego: Academic Press.
Singer, M. (1991b). Question answering strategies and conceptual knowledge. Bulletin of the Psychonomic Society, 29, 143⫺146.
Reder, L. M. & Anderson, J. R. (1980). A partial resolution of the paradox of interference: The role of integrating knowledge. Cognitive Psychology, 12, 447⫺472. Reder, L. M. & Ross, B. H. (1983). Integrated knowledge in different tasks: The role of retrieval strategy on fan effects. Journal of Experimental Psychology: Learning, Memory, and Cognition, 9, 55⫺72. Reder, L. M. & Wible, C. (1984). Strategy use in question answering: Memory strength and task constraints on fan effects. Memory & Cognition, 12, 411⫺419. Robertson, S. P., Weber, K. & Ullman, J. (1993). Parallel question parsing and memory retrieval. Journal of Memory and Language, 32, 155⫺168. Rumelhart, D. E. & McClelland (1986). Parallel distributed processing: Explorations in the microstructure of cognition, (Vol. I). Cambridge, MA: Bradford Books. Schank, R. C. & Abelson, R. (1977). Scripts, plans, goals, and understanding. Hillsdale, NJ: Erlbaum. Schmalhofer, F. & Glavanov, D. components of understanding a manual: Verbatim, propositional, representations. Journal of Memory 25, 279⫺294.
(1986). Three programmer’s and situation and Language,
Singer, M. (1979). Temporal locus of inference in the comprehension of brief passages: Recognizing and verifying implications about instruments. Perceptual and Motor Skills, 49, 539⫺550.
Singer, M., Gagnon, N. & Richards, E. (2002). Question answering strategy: The effect of mixing test delays. Canadian Journal of Experimental Psychology, 56, 41⫺57. Singer, M. & Kintsch, W. (2001). Text retrieval: A theoretical exploration. Discourse Processes, 31, 27⫺59. Singer, M., Parbery, G. & Jakobson, L. S. (1988). Focused search of semantic cases in question answering. Memory & Cognition, 16, 147⫺157. Swinney, D. A. (1979). Lexical access during sentence comprehension: (Re)consideration of context effects. Journal of Verbal Learning and Verbal Behavior, 18, 645⫺659. Trabasso, T., Secco, T. & van den Broek, P. (1984). Causal cohesion and story coherence. In H. Mandl, N. Stein & T. Trabasso (Eds.), Learning and comprehension of text (pp. 83⫺111). Hillsdale, NJ: Erlbaum. van Dijk, T. A. & Kintsch, W. (1983). Strategies of discourse comprehension. New York: Academic Press. Yekovich, F. R. & Walker, C. H. (1986). Retrieval of scripted concepts. Journal of Memory and Language, 25, 627⫺644. Zwaan, R. A. & Radvansky, G. A. (1998). Situation models in language comprehension and memory. Psychological Bulletin, 123, 162⫺185.
Murray Singer, University of Manitoba Winnipeg (Canada)
432
III. Sprachproduktion
32. Auffordern 1. 2. 3. 4. 5.
Einleitung Modelle und Phänomenbereiche Dimensionen zur Klassifikation von Aufforderungen Determinanten von Aufforderungsklassen Literatur
1.
Einleitung
Auffordern (requesting) als Handlungsklasse kann dadurch charakterisiert werden, dass in einer kommunikativen Situation seitens eines Sprechers der Versuch unternommen wird, einen (oder mehrere) Kommunikationspartner zu einer vom Sprecher intendierten Handlungsweise zu veranlassen (vgl. Herrmann, 1982; Herrmann & Grabowski, 1994; Kasper, 1990). Aufforderungen spiegeln die Erwartungen des Sprechers an ein in der Zukunft liegendes Handeln des Partners wider (Blum-Kulka, House & Kasper, 1989; Herrmann, 2003; Herrmann & Grabowski, 1994; vgl. auch Austin, 1962; Searle, 1980). Als Hauptkennzeichen kann hierbei gelten, dass (i) der Partner erkennen muss, dass es sich um eine Aufforderung (und nicht beispielsweise um die Konstatierung eines Sachverhalts) handelt und (ii) dass der Partner wahrnimmt, was er tun soll (Searle, 1969; Paulson & Roloff, 1997). Insofern sprachliches Auffordern davon betroffen ist, ist das Ausmaß, in dem sich diese beiden Kennzeichen in der sprachlichen Oberfläche feststellen lassen, durchaus unterschiedlich: So kann ein Partner die Äußerung „Offene Fenster verursachen Zugluft.“ in einer gegebenen Situation ohne weiteres als „Der Sprecher wünscht, dass ich das Fenster schließe.“ interpretieren, während andererseits eine Äußerung wie „Würden Sie bitte die Zugluft abstellen!“ zwar den Aufforderungscharakter der Äußerung deutlich widerspiegelt, der Partner jedoch im Unklaren gelassen wird, ob das Fenster (oder vielleicht besser die Tür) zu schließen sei. Wodurch eine Äußerung zur Aufforderung wird, ist ein komplexes Geschehen der Situationsinterpretation durch Sprecher und Partner auf der Grundlage des sprachlichen und nichtsprachlichen Kontextes sowie der die sprachliche Äußerung begleitenden paraverbalen und nonverbalen Anteile (ein Blick zum Fenster kann Bände sprechen); in Grenzfällen kann eine Äußerung zuweilen nur post hoc als Aufforderung
klassifiziert werden, da der Partner eine Handlungsweise ausführt, die wir dem Sprecher als gewünscht unterstellen. Die vorliegenden Arbeiten zum Auffordern unterscheiden sich nicht nur darin, inwiefern eine Taxonomie von Aufforderungsvarianten Verwendung findet und gegebenenfalls welche Dimensionen (beispielsweise Direktheit, Höflichkeit, face-management) dieser Taxonomie zugrunde gelegt werden, sie unterscheiden sich auch darin, inwiefern die sprachliche Äußerung als Indikator für zugrundeliegende kognitive Prozesse betrachtet wird (vgl. AUFF-Schema; Herrmann, 1983), und sie unterscheiden sich darin, inwiefern Bedingungsabhängigkeiten der Verwendung von Aufforderungsvarianten aufgezeigt werden (vgl. Herrmann & Grabowski, 1994) bzw. ob eine spezifische Aufforderungsvariante vorgegeben und deren Konsequenzen untersucht wurde (vgl. u. a. Gibbs, 1981; Santos, Leve & Pratkanis, 1994; Paulson & Roloffs, 1997).
2.
Modelle und Phänomenbereiche
2.1. Auffordern als Systemregulation Wenn der Sprecher den Partner durch eine sprachliche Aufforderung zur Ausführung einer Handlung verpflichten will, so ist dies beispielsweise in einem Systemregulationsmodell beschreibbar (vgl. Herrmann & Grabowski, 1994; Stachowiak, 1973, 1982). Auffordern geschieht dann, weil für den Sprecher eine Ist-Soll-Diskrepanz zwischen momentanem Zustand und gewünschtem Zustand herrscht, der Sprecher also ein Handlungsziel verfolgt, weil der Partner als kompetent für den Ausgleich dieser Diskrepanz angesehen wird, weil die sprachliche Realisierung zur Erreichung des Zielzustandes geeignet erscheint und weil Regeln bekannt sind, nach denen der Partner verpflichtet werden darf. Regeln (Konventionen) existieren dabei auf unterschiedlich hierarchischen Ebenen: So existiert z. B. das Gebot, dass Jüngere Älteren Hilfe leisten oder dass man wiedergrüßt, wenn man selbst gegrüßt wurde. Die Regeln, auf die wir uns beim Auffordern beziehen, sagen etwas darüber aus, welche Personen gegenüber welchen Personen zu welchen Handlungen legitimiert sind (vgl. auch Engelkamp & Mohr, 1986) – sie bestimmen den
32. Auffordern
Erfolg der geplanten Äußerung mit (siehe auch Abschnitt 3.2). Herrmann und Grabowski (1994: 167 ff.) entwickeln in diesem Zusammenhang ein Schema, das sie AUFF nennen und das Bedingungen des Aufforderns systemtheoretisch auffasst (siehe Abschnitt 3.2). 2.2. Auffordern als Sprechakt Die Sprechakttheorie entstammt der Sprachphilosophie (s. z. B. Austin, 1962; Grice, 1957; Searle, 1980). Die Grundannahme besteht darin, Sprachverwendung als sprachliches Handeln aufzufassen, was in dem Begriff Sprechakt zum Ausdruck kommt. Sprache dient nach Austin (1962) nicht ausschließlich dazu, über die Welt zu reden (deskriptiver Fehlschluss), vielmehr gibt es Äußerungen, die durch den Vollzug der sprachlichen Handlung Tatsachen schaffen. Ein Satz wie „Ich erkläre die Verhandlungen für gescheitert.“ schafft Tatsachen (man kann beispielsweise nicht mit „Das ist nicht wahr.“ darauf reagieren), zumal wenn der Satz vom Vorsitzenden einer Schlichtungskommission nach Ablauf der Einigungsfrist geäußert wird. Sprechakte können nach Searle (1969) durch das jeweilige Bedingungsgefüge, das ihnen zugrunde liegt, klassifiziert werden. Aufforderungen sind einer Klasse von Sprechakten zuzuordnen, die als Direktiva (befehlen, auffordern, erlauben, raten, usf., mit dem illokutionären Zweck, einen Hörer dazu zu veranlassen, etwas zu tun) bezeichnet werden. Andere Sprechaktklassen sind Kommissiva (versprechen, ankündigen, drohen usf., mit dem illokutionären Zweck, den Sprecher auf einen zukünftigen Handlungsverlauf festzulegen), Expressiva (danken, gratulieren, sich entschuldigen usf., mit dem illokutionären Zweck, eine psychische Einstellung zu einem Sachverhalt anzugeben), Deklarativa (kündigen, den Krieg erklären, heiraten usf., mit dem illokutionären Zweck, Übereinstimmung zwischen dem Ausgesagten und der Realität herzustellen) sowie Repräsentativa (behaupten, feststellen, beschreiben usf., mit dem illokutionären Zweck, den Sprecher darauf festzulegen, dass etwas Bestimmtes der Fall ist). Aufforderungen können in recht unterschiedlicher Weise formuliert werden. Eine erste Zweiteilung ergibt sich durch die Klassifikation in direkte und indirekte Sprechakte. Direkte Aufforderungen liegen dann vor, wenn entweder eine explizite Performativkonstruktion („Ich hätte gerne, dass du dies
433 tust.“) verwendet wird oder Imperative („Tue dies!“) eingesetzt werden. Indirekte Aufforderungen können als Frage („Wäre es nicht schön, wenn es hier weniger zugig wäre?“), als subtiler Hinweis, als Feststellung usf. formuliert werden. Die Illokution des Sprechaktes ist nicht an den grammatischen Satztyp gebunden (vgl. auch Herrmann & Grabowski, 1994). Wunderlich (1984) ist der Ansicht, dass „die Klasse der aufforderungsgeeigneten Sätze kaum exhaustiv angebbar ist“. Da die Form der Äußerung also kaum Aufschluss darüber gibt, ob es sich um eine Aufforderung handelt oder nicht, werden im Rahmen der Sprechakttheorie Bedingungen formuliert, die für eine Aufforderung gelten müssen, sogenannte Gelingensbedingungen (vgl. dazu auch Abschnitt 2.1; Searle, 1969). Herrmann und Grabowski (1994: 163) geben folgende Bedingungen an (vgl. auch Gordon & Lakoff, 1971): (i) Es handelt sich um eine zukünftige Handlung des Partners. (ii) Der Sprecher will, dass der Partner diese Handlung ausführt. (iii) Der Sprecher glaubt, dass der Partner diese Handlung ausführen kann. (iv) Der Sprecher glaubt, dass der Partner zur Ausführung der Handlung bereit oder willens ist. (v) Der Sprecher unterstellt, dass der Partner die Handlung nicht ohnedies ausführt. 2.3. Auffordern im Interkulturvergleich Es gibt verschiedene Ansätze, Sprechen im Interkulturvergleich zu untersuchen, in der Regel wird allerdings dem Zusammenhang zwischen (sprachlicher) Sozialisation und Identitätsentwicklung nachgegangen. Untersuchungen, die im Zusammenhang mit der Klasse der Aufforderungen vorgenommen wurden, betreffen dabei sowohl die Kulturspezifität des Interaktionsstils (vgl. Gumperz, 1982) als auch lokale Bedingungen des Sprachgebrauchs bzw. der sprachlichen Form (vgl. House, 1982; Önnerfors, 1993; Walters, 1981). Ein Faktor, der bei Interkulturvergleichen eine wichtige Rolle zu spielen scheint, ist dabei der Grad der Direktheit, mit der eine Aufforderung formuliert wird. Dies zeigt sich sowohl bei der Formulierung von Aufforderungen (bzw. den Aufforderungsstrategien) zwischen Sprechern unterschiedlicher Sprachen (amerikanisch vs. griechisch: Tannen, 1981; deutsch vs. englisch: House & Kasper,
434 1981; hebräisch vs. englisch: Blum-Kulka, 1982; Levenston, 1968; amerikanisch vs. koreanisch: Holtgraves & Yang, 1990; deutsch vs. russisch und ukrainisch: Dorodnych, 1995; deutsch vs. schwedisch: Önnerfors, 1993) als auch bei einem Vergleich der Interaktionsstile (vgl. Gumperz, 1982; Kim & Wilson, 1994). So zeigte sich beispielsweise, dass Sprecher von Amerikanischem Englisch direktere Aufforderungsvarianten verwenden als Sprecher des Griechischen (Tannen, 1981). House (1979) sowie House und Kasper (1981) finden, dass Sprecher des Deutschen direktere Aufforderungen verwenden als Sprecher des Englischen. Eine vergleichende Beurteilung der Direktheit von Aufforderungen bei unterschiedlichen Sprachgemeinschaften scheint allerdings dadurch erschwert, dass neben der Analyse der Äußerungen selbst, auch die kulturabhängig unterschiedlichen Kommunikationsstrategien, die zu einer unterschiedlichen Bewertung von Direktheit führen, zu berücksichtigen sind (vgl. Blum-Kulka et al., 1989; Fraser, 1985; Leech, 1983; Wierbizcka, 1985). 2.4. Auffordern in unterschiedlichen Medien Ein Großteil der Untersuchungen zum Auffordern fokussiert auf gesprochene Aufforderungen in Face-to-face-Situationen. In diesem Sinne wurden auch die in Abschnitt 1 gegebenen Beispiele gewählt. (Zu nonverbalen Komponenten gesprochener Aufforderungen vgl. z. B. Grabowski-Gellert & WinterhoffSpurk, 1989.) Zu einer wichtigen Kategorie situationaler Faktoren gehört aber auch das Medium, in dem die Aufforderung abgegeben wird (Blum-Kulka et al., 1989). Mit Weidenmann (1996) unterscheiden wir hierbei weiter zwischen dem Code, der Modalität und dem technischen Hilfsmittel zur Produktion der Aufforderung. Darüber hinaus ist ein wichtiges Kennzeichen medial vermittelter Aufforderungen, ob die Kommunikationskanäle synchronisiert sind. Offensichtlich kann den Partner eine Aufforderung in unterschiedlicher Zeit- und /oder Ortsasynchronizität zum Sprecher erreichen: (i) Zeit- und ortssynchrone Situation: Faceto-face-Situation; (ii) Zeitsynchrone und ortsasynchrone Situation: Telefongespräch, Chat-System; (iii) Zeitasynchrone und ortssynchrone Situation: hinterlegte Nachricht, Aufzeichnungen (gesprochen oder schriftlich);
III. Sprachproduktion
(iv) Zeitasynchrone und ortsasynchrone Situation: email, Brief, per Internet verschickte Tonaufnahme, Anrufbeantworter usf. Unterschiede zwischen mündlicher und schriftlicher Kommunikation bestehen nach Blum-Kulka et al. (1989) vor allem in der Direktheit des Geäußerten: Geschriebene Aufforderungen sind im Gegensatz zu gesprochenen Aufforderungen direkter, expliziter und unverschlüsselter. Ein Grund hierfür ist sicherlich, dass bei schriftlichen Nachrichten generell weniger Fehler toleriert werden als bei mündlichen (Clark & Brennan, 1996), da die Kosten für ein Repair u. a. aufgrund des asymmetrisch zur Verfügung stehenden Kommunikationskanals höher sind (Grounding-Kosten). Da sich solche Grounding-Kosten mit dem verwendeten Medium verändern, lassen sich auch unterschiedliche Strategien beim Auffordern beobachten. So berichtet z. B. Cohen (1984), dass am Telefon produzierte Aufforderungen in Instruktionssituationen zunächst eine Phase der Objektidentifikation (gegenseitige Versicherung darüber, dass man über das gleiche Objekt spricht) enthalten, bevor die eigentliche Handlung thematisiert wird. Im Gegensatz dazu wird bei einer geschriebenen Aufforderung Objektidentifikation und Aufforderung zur Handlung in einem einzigen „turn“ thematisiert (vgl. auch Grabowski, 1995; Grabowski-Gellert, 1988).
3.
Dimensionen zur Klassifikation von Aufforderungen
Eine umfassende sprachpsychologisch-theoretisch fundierte Systematisierung der Aufforderungsvarianten steht derzeit noch aus, es stellen sich allerdings vornehmlich zwei Dimensionen heraus, anhand derer sich tentativ eine Systematisierung anbietet: Höflichkeit und Direktheit/Indirektheit von Aufforderungen. 3.1. Höflichkeitsdimension Im Zusammenhang mit dem Auffordern ist das Konzept der Höflichkeit (vgl. Brown & Levinson, 1978, 1987) eng verbunden mit dem Konzept des „face-work“ (vgl. Goffman, 1967). „Face-work“ ergibt sich unter dem Aspekt, dass Sprechern einerseits der Wunsch zugeschrieben wird, in einer Kommunikation Achtung und Anerkennung zu erfahren (positives face), sowie andererseits
32. Auffordern
Furcht vor Herabsetzung und Ansehensverlust (negatives face). Gleiches gilt in Bezug auf den Partner, was der Sprecher entsprechend zu berücksichtigen hat (vgl. auch Blum-Kulka et al., 1985). Für das Auffordern bedeutet dies, dass der Sprecher im Wesentlichen zwei Aufgaben zu bewältigen hat (Meyer, 1992): Er muss (i) den Partner dazu bewegen, die gewünschte Handlung auszuführen, und gleichzeitig (ii) die Bedrohung des „face“ von Sprecher und Partner zu minimieren suchen. Höflichkeit kann als in diesem Sinne zielführendes „face-work“ angesehen werden. Höflichkeit interagiert zudem mit anderen Variablen wie Macht und Statusüberlegenheit, wobei sich in der Regel ein inverser Zusammenhang ergibt (vgl. Baxter, 1984; Blum-Kulka, Danet & Gherson, 1985; Brown & Gilman, 1989; Holtgraves & Yang, 1990). Des Weiteren wird Höflichkeit moduliert durch soziale Distanz. Die Befundlage ist hier allerdings uneinheitlich: Während nach Blum-Kulka et al. (1985) die Höflichkeit mit steigender sozialer Distanz zunimmt, nimmt sie nach Baxter (1984) entsprechend ab. Erweiternd konstatiert Herrmann (1982: 98 ff.) einen Zusammenhang von Höflichkeit mit einer Wechselwirkung zwischen sozialer Distanz und der emotionalen Involviertheit des Sprechers; Winterhoff-Spurk (1986) stellt einen Zusammenhang her zwischen variablen Höflichkeitsformulierungen und der Tatsache, dass es sich um eine kommunikative „Einmalbegegnung“ oder eine über den Aufforderungszeitpunkt hinausreichende soziale Beziehung handelt. Unterschiedliche Grade von Höflichkeit korrelieren nach Brown und Levinson (1987; vgl. auch Holtgraves & Yang, 1990) mit der Direktheit (vgl. Abschnitt 3.2) von Aufforderungen: Als am wenigsten höflich (hohe Face-Bedrohung des Partners) gelten direkte Aufforderungen („Schließe das Fenster!“). Sprachliche Referenzen auf beispielsweise gemeinsame Interessen von Sprecher und Partner können als höflicher gelten („Wäre doch eine schöne Sache, wenn du für unseren Bericht die Literaturangaben übernehmen würdest.“). Als noch höflicher gelten Aufforderungen, die die Face-Bedrohung des Partners kothematisieren („Würde es dir etwas ausmachen, die Literaturangaben zu übernehmen?“). Bloße Andeutungen („Ziemlich heiß hier!“) können allerdings nicht per se als höflich gelten, obwohl sie durch die Indirektheit die Face-Bedrohung des Partners minimieren (vgl. auch Herrmann. 1983: 55 f.). Was als
435 höflich gilt, ist zudem stark kulturellen Normen unterworfen (vgl. Held, 1996; Wierzbicka, 1985) und von der jeweiligen Kommunikationssituation abhängig. Nach Blum-Kulka (1985) gelten beispielsweise Imperative in Israel im Gegensatz zum angelsächsischen Sprachgebrauch nicht per se als unhöflich. Engelkamp, Mohr und Mohr (1985) zeigten für den deutschen Sprachgebrauch, dass Imperative nicht in allen Aufforderungssituationen gleichermaßen als unhöflich eingeschätzt werden. Für Kommunikationssituationen mit hohem Schematisiertheitsgrad (beispielsweise Essensausgabe in der Mensa) kann die Verwendung sprachlicher Ellipsen durchaus als adäquat und nicht unhöflich angesehen werden („Salat!“), während eine Ellipse wie „Vodka!“ in einer weniger schematisierten Situation (beispielsweise spätes Erscheinen auf einer Party nur weitläufig bekannter Gastgeber) als unhöflich gilt (vgl. auch WinterhoffSpurk & Frey, 1983). 3.2. Dimension der Direktheit/Indirektheit und die AUFF-Struktur Die Direktheit-/Indirektheitsdimension von Aufforderungen wurde von verschiedenen Autoren hervorgehoben (vgl. u. a. BlumKulka, 1987; Garvey, 1975; Gordon & Lakoff, 1971; Herrmann, 1980, 1981, 1983; Herrmann & Grabowski, 1994; Weizman, 1989). Die Direktheit von Aufforderungen drückt sich unter anderem in der Form der Aufforderung sowie in den thematisierten Inhalten aus. Gordon und Lakoff (1971) unterscheiden (i) explizite, direkte Aufforderungen („Gib mir bitte meine Platten zurück!“) von (ii) Aufforderungen in Frageform, die partnerseitige Bedingungen thematisieren („Kannst Du mir meine Platten zurückgeben?“), und diese wiederum von (iii) Äußerungen, die sprecherseitige Bedingungen thematisieren („Ich wünsche, dass Du mir meine Platten zurückgibst.“). Eine weitere (iv) Kategorie wurde hinzugefügt (vgl. Garvey, 1975 sowie Blum-Kulka, 1987; Weizman, 1989), die als Andeutungen (hints) beschrieben werden kann („Alte Platten hören ist wie Urlaub.“). Hier werden weder der Sprecher noch der Partner, noch die auszuführende Handlung direkt thematisiert, vielmehr werden allgemeine Aussagen und Situationen versprachlicht. Herrmann (1980, 1981) fügt (v) eine weitere explizite und direkte Kategorie des Aufforderns hinzu, die die sprecherseitige Legitimation kothematisiert („Wir hatten ausgemacht, dass Du mir bis Ende des Mo-
436 nats meine Platten wiedergibst.“). Hier behauptet der Sprecher das Vorliegen deontischer Bedingungen des Müssens, Sollens oder bindender Normen usf. Im Gegensatz zu (iii) handelt es sich hier nicht nur um die Behauptung des Vorliegens ausschließlich sprecherseitiger Bedingungen, sondern vielmehr um die Behauptung sprecher- und partnerseitiger Bedingungen, die einer konventionalen oder normativen Regelung unterliegen. Diese fünf Kategorien lassen sich unter geringer Modifikation unter einem Klassifikationssystem des Aufforderns subsumieren, das als AUFF-System oder als Implikationssystem AUFF bezeichnet wird (Herrmann, 1983: 112 ff.; Herrmann & Grabowski, 1994: 169 ff.). AUFF teilt die Aufforderungsvarianten ein in die Kategorien I, V, A, E und H (vgl. Herrmann, 2003): I: Imperative und performative Aufforderungen (direkte Verpflichtung des Partners); V: Bezugnahme auf die Legitimation des Sprechers; A: Bezugnahme auf die sekundäre Zielsetzung des Sprechers und deren partnersei-
III. Sprachproduktion
tige Bedingungen (Der Sprecher will, dass der Partner eine bestimmte Handlung ausführt, und der Partner kann und will die Handlung ausführen). E: Bezugnahme auf die primäre Zielsetzung des Sprechers und deren sprecherseitige Bedingungen (Der Sprecher will durch die partnerseitige Handlung in einen bestimmten Sollzustand gelangen); H: Keine Bezugnahme auf Sprecher, Partner, deontische Bedingungen und die vom Partner gewünschte Handlung („hints“). Die Klassifikation der sprachlichen Aufforderungen erfolgt hier unter dem Gesichtspunkt aufforderungsbezogener Sachverhaltsklassen (Legitimation, auszuführende Handlung usf.). Die Interrelationen der einzelnen Sachverhaltsklassen sind durchaus unterschiedlich, so können beispielsweise einige Sachverhaltsklassen als notwendige Bedingungen für andere aufgefasst werden. Die Sachverhaltsklassen stehen somit in einem (partiellen) Implikationszusammenhang (vgl. Abbildung 32.1) Implikative Strukturen entstehen beispielsweise dadurch, dass in A-Aufforderungen das
H (PRÄFERIEREN (S (Z vor non-Z))) (WOLLEN (S (Z)))
E
(WOLLEN (S (P (h))))
A
(UNTERSTELLEN (S (non-Z)))
(UNTERSTELLEN (S (KÖNNEN (P (h))))) (UNTERSTELLEN (S (WOLLEN (P (h)))))
(UNTERSTELLEN (S (N [X, Y])))
(DÜRFEN (S (VERPFLICHTEN (S (P (h))))))
V
(VERPFLICHTEN (S (P (h))))
I
(UNTERSTELLEN (S (S ist ein X))) (UNTERSTELLEN (S (P ist ein Y)))
Abb. 32.1: Das AUFF-Schema als (partielle) Implikationsstruktur von propositional dargestellten Sachverhaltsklassen, auf die mit sprachlichen Aufforderungen der Kategorien I, V, A, E und H Bezug genommen wird. Die Pfeile weisen von bedingten auf bedingende Sachverhalte. S ⫽ Sprecher, P ⫽ Partner, h ⫽ Handlung, Z ⫽ Zustand, N ⫽ Norm, X und Y ⫽ Akteure. (Abbildung nach Herrmann, 2003)
32. Auffordern
Vorliegen einer sekundären Zielsetzung des Sprechers S das Vorliegen einer primären Zielsetzung (vgl. E-Aufforderungen) impliziert. In A-Aufforderungen will der Sprecher S, dass der Partner P die Handlung h ausführt. Diese Zielsetzung hat wiederum zur notwendigen partnerseitigen Bedingung, dass P, wie S unterstellt, h überhaupt ausführen kann und ausführen will. Ein Beispiel zur Veranschaulichung: „Ich hätte gerne, dass Du mir heute die Platten zurückgibst.“ (AAufforderung) impliziert das primäre Handlungsziel, die Platten wieder in Besitz haben zu wollen. Wer will, dass der Partner die Platten zurückgibt, will auch die Platten wieder in Besitz haben. Für das Vorliegen des primären Handlungsziels ist es notwendig, dass der Sprecher überhaupt den angestrebten Sollzustand Z vor dem gegebenen Istzustand non-Z präferiert: Der Sprecher muss, um die Platten wiederbesitzen zu wollen, das Wiederbesitzen der Platten dem Nichtwiederbesitzen bevorzugen, und er muss kognizieren, dass ein vom Sollzustand abweichender Istzustand vorliegt; weiterhin muss der Sprecher wissen, dass der Partner die Platten überhaupt besitzt. Ersichtlich wird hier (in einer Terminologie der Steuer- und Regelungstechnik) eine kognitive Dynamik zum Gegenstand gemacht, deren Endprodukt in sprachlichem (ggfs. auch nichtsprachlichem) Auffordern (oder gerade dem Unterlassen von Aufforderungen) besteht. Im Falle von V-Aufforderungen wird die Legitimation des Sprechers S für eine Verpflichtung des Partners P zur Ausführung der Handlung h thematisiert. S darf von P die Handlung h verlangen, da eine formell oder informell geltende Norm N (Konvention, gesetzliche Regelung usf.) besteht, die sowohl Akteur X als auch Akteur Y mit einer Handlungsklasse a verbindet (vgl. allgemein Geiger, 1964). Die Norm N befugt X, Y zu einer Handlung der Handlungsklasse a zu verpflichten. Und der Sprecher S ist ein X, der Partner P ist ein Y, und die Handlung h, zu der S den P auffordert, ist ein Element der Handlungsklasse a. Ein Beispiel für eine VAufforderung stellt folgender Satz dar: „Wir hatten doch ausgemacht, dass du mir heute die Platten zurückgibst.“ Die Aufforderungsvarianten I, V, A, E und H sind in oben genannter Darstellung nach sinkender Direktheit geordnet, die sich hier allerdings nicht über die variable Höflichkeit (vgl. Abschnitt 3.1) definiert, sondern über
437 Implikationsbeziehungen von Sachverhaltsklassen, auf welche die Aufforderungsvarianten referieren. Wird die Implikationsstruktur aufforderungsbezogener Sachverhalte als Graph aufgefasst (vgl. Abbildung 32.1), so sinkt die Direktheit einer Aufforderungsvariante mit der Anzahl der Knoten, die zwischen dem Sachverhalt des Verpflichtens (vgl. IAufforderungen: maximale Direktheit) und dem jeweils für die Verbalisierung einer Aufforderung gewählten Sachverhalt vorhanden sind (Herrmann, 2003). Beispielsweise ist in dem Graphen in Abbildung 32.1 die Distanz zwischen dem Verpflichten und dem Präferieren des Sollzustands Z größer als zwischen dem Verpflichten und dem Unterstellen einer Norm N. Somit ergibt sich, dass eine E-Aufforderung (beispielsweise Verbalisierung der Diskrepanz zum Sollzustand „Meine Platten fehlen mir sehr.“) indirekter ist als eine VAufforderung (beispielsweise Verbalisierung der Norm „Ich kann von dir verlangen, dass du mir die Platten zurückgibst.“). Aus der Konstruktion der Implikationsstruktur AUFF als kognitives Schema ergeben sich theoretische Konsequenzen (vgl. Herrmann, 2003), die u. a. beinhalten, dass nicht das gesamte AUFF-Schema zur Versprachlichung ansteht, sondern nach dem Pars-pro-toto-Prinzip (vgl. Laucht, 1979; Herrmann & Grabowski, 1994) immer nur eine (oder wenige) Komponenten (z. B. das Können des Partners). Verbalisiert ein Sprecher eine Aufforderungsvariante, so aktiviert sowohl der Sprecher als auch der Partner jeweils die gesamte Implikationsstruktur AUFF. Beispielsweise bedeutet dies, dass der Partner, indem er die Sprecheräußerung „Schließe bitte mal die Tür!“ versteht, (auch) inferiert oder inferieren kann, dass der Sprecher davon ausgeht, der Partner könne die Tür schließen. Und er inferiert zum Beispiel mit dem Verstehen der Äußerung „Ist es nicht ziemlich kalt hier?“, dass ihn der Sprecher verpflichtet, die Tür zu schließen (Herrmann, 2003; vgl. auch Mohr, 1990). Was die Verwendung von Aufforderungsvarianten im Hinblick auf Direktheit/Indirektheit betrifft, so ergibt sich für den Sprecher ein Trade-Off zwischen kommunikativer Eindeutigkeit (hohe Direktheit) und Reaktanzrisiko (vgl. auch Brehm, 1972). Aufforderungen mittlerer Direktheit bergen in diesem Sinne das geringste kommunikative Gesamtrisiko und werden am häufigsten verwendet (vgl. auch Blum-Kulka et al., 1989).
438
4.
III. Sprachproduktion
Determinanten von Aufforderungsklassen
Neben der Frage, wie Aufforderungsvarianten zu klassifizieren sind (vgl. Abschnitt 3.), stellt sich das Problem, wovon es abhängt, welche Aufforderungsvariante ein Sprecher wählt. Die empirischen Untersuchungen zu den Determinanten von Aufforderungsklassen ergeben ein heterogenes Bild. Wir stellen zunächst mit Herrmann und Grabowski (1994) die vier Determinanten Bereitschaft, Können, Legitimation und Dringlichkeit dar, um anschließend auf weitere Einzelbefunde zur Bedingungsabhängigkeit von Aufforderungsklassen einzugehen. Dies betrifft Faktoren wie die soziale Distanz und soziale Macht (vgl. Blum-Kulka et al., 1989), den Grad der Bürde oder Last (imposition), die dem Partner auferlegt wird (vgl. Brown & Levinson, 1978; Gordon & Ervin-Tripp, 1984) sowie, ob es sich um Standard- oder Non-Standardsituationen handelt (vgl. Blum-Kulka et al., 1989; Hoppe-Graff, Herrmann & WinterhoffSpurk et al., 1985; Santos et al., 1994). Nach Herrmann und Grabowski (1994) stellen sich im Wesentlichen vier Determinanten von Aufforderungsklassen heraus: (i) die vom Sprecher kognizierte Bereitschaft des Partners, die gewünschte Handlung auszuführen; (ii) das vom Sprecher kognizierte Können des Partners, die Handlung auszuführen; (iii) die vom Sprecher kognizierte Legitimation, den Partner zur Ausführung der Handlung aufzufordern; (iv) die vom Sprecher kognizierte Dringlichkeit, das primäre Handlungsziel zu erreichen. Die Ausprägungen dieser vier Determinationsparameter bestimmen, welche Aufforderungsklasse Verwendung findet bzw. ob überhaupt sprachlich aufgefordert wird. Kogniziert der Sprecher die Ausprägung auf einem der Parameter als gering (beispielsweise glaubt der Sprecher, keine Legitimation zur Aufforderung zu besitzen), so wird nicht aufgefordert. Kogniziert der Sprecher die Ausprägungen jedoch als hoch oder fraglich, so entscheidet dies über die Wahl der Aufforderungsvariante (vgl. Herrmann & Grabowski, 1994: 186 ff. sowie Winterhoff-Spurk, Mangold & Herrmann, 1982). Als Hauptergebnisse aus Feld- und Laborexperimenten (vornehmlich Rollenspielen) konnten folgende Ausprägungsmuster der Determinanten Be-
reitschaft, Können, Legitimation und Dringlichkeit im Hinblick auf Aufforderungsklassen statistisch gesichert werden (vgl. Herrmann & Grabowski, 1994: 186 ff.): (i) Werden die Bereitschaft des Partners und die eigene Legitimation hoch eingeschätzt, so dominieren E-Aufforderungen und Ellipsen (zur Unterscheidung von I-, V-, A-, E- und H-Aufforderungen vgl. Abschnitt 3 sowie Herrmann, 2003). Dies ist vornehmlich in Standardsituationen (beispielsweise Zeitungskauf am Kiosk: „Ich hätte gerne den Spiegel.“, „Spiegel bitte!“) der Fall; A-Aufforderungen („Haben Sie noch den Spiegel von letzter Woche?“) treten hinzu, falls in Standardsituationen das Können des Partners fraglich erscheint. (ii) Ist die Bereitschaft des Partners fraglich und schätzt der Sprecher die eigene Legitimation als hoch ein, so dominieren I- und V-Aufforderungen („Gib mir bitte meine Platten zurück!“, „Du hast mir versprochen, die Platten nur eine Woche zu behalten.“), während fragliche Bereitschaft des Partners und fragliche Legitimation des Sprechers zur Dominanz von A-Aufforderungen führen („Kannst du mir die Platten zurückgeben?“); die unter (ii) genannten Fälle treten vornehmlich in Non-Standardsituationen auf. (iii) Wird die Dringlichkeit durch den Sprecher hoch eingeschätzt, so werden Ellipsen („Achtung!“) bevorzugt, zudem nehmen auch expressive Laute sowie nonverbale Äußerungen zu; die Ausprägungen der restlichen Determinationsparameter sind hierbei nicht diskriminativ im Hinblick auf die Aufforderungsvariante. Einzelbefunde zur Bedingungsabhängigkeit von Aufforderungsvarianten betreffen u. a. die situativen Determinanten soziale Distanz (familiarity) und soziale Dominanz (social power). Der Einfluss dieser Determinanten auf die Verwendungshäufigkeit von Aufforderungsvarianten unterschiedlicher Direktheit (dreigestuft in impositives vs. conventionally indirect vs. hints; vgl. auch Ervin-Tripp, 1982) konnte in Interkulturvergleichen (Blum-Kulka et al., 1989; Blum-Kulka & House, 1989) nachgewiesen werden. Beispielsweise fanden Blum-Kulka und House (1989), dass in vergleichbaren Situationen im Spanischen eine höhere Direktheit der Aufforderungen zu beobachten ist als im Deutschen. Die Autoren führen dies unter anderem auf die unterschiedliche Wahrnehmung
439
32. Auffordern
sozialer Faktoren zurück. So nahmen Mitglieder der spanischen Sprachgemeinschaft eine Lehrer-Schüler-Situation stärker unter dem Aspekt sozialer Dominanz wahr, als dies für Mitglieder der deutschen Sprachgemeinschaft der Fall war (Blum-Kulka & House, 1989: 151). Meyer (1992) untersuchte u. a. die Auswirkungen vom Ausmaß der Bürde (imposition) und der Schematizität der Situation auf die Flüssigkeit (fluency) der vorgetragenen Aufforderung. Die sprachlichen Aufforderungen wurden analysiert im Hinblick auf Zögern (Start-Latenz, Pause-PhonationsVerhältnis und gefüllten Pausen („ähm“)) sowie auf Fehlstarte und Wiederholungen. Das Befundmuster ist komplex, besteht im Wesentlichen aber aus Effekten der Bürde auf die abhängigen Variablen. Beispielsweise treten Wiederholungen öfter auf, wenn das Ausmaß der Bürde (im vorliegenden Fall kann durch die experimentelle Operationalisierung Bürde mit Dringlichkeit gleichgesetzt werden) hoch ist. Ein anderes methodisches Vorgehen besteht darin, spezifische Aufforderungsvarianten vorzugeben und die kommunikativen Auswirkungen auf den Partner zu untersuchen. Paulson und Roloff (1997) untersuchten den Einfluss unterschiedlicher Aufforderungsvarianten auf das Auftreten von Hindernissen (obstacles) am Beispiel des SichVerabreden-Wollens. Hindernisse werden hier als spezifische Form der Ablehnung eines Verabredungsanliegens verstanden. Im Falle des Sich-Verabreden-Wollens besteht nach Paulson und Roloff (1997: 266) eine voll explizierte Aufforderung aus folgenden vier Elementen: „Würdest Du gerne heute Abend (Zeit) mit mir (Zielobjekt) im El Chico (Kontext) Essen gehen (Handlung)?“ Eine Ablehnung (Hindernis) auf dieses Angebot hin kann sich nun auf jedes der vier Elemente beziehen. Beispielsweise „Heute Abend nicht.“ (Zeit), „Ich bin bereits mit Gary und Susanne verabredet“ (Zielobjekt), „Im El Chico ist es immer so laut.“ (Kontext), „Lass uns lieber ins Kino gehen.“ (Handlung). Paulson und Roloff (1997) variierten in Anlehnung an Folkes (1982) nun die Form wie auch den Inhalt der Aufforderungsvarianten. Die Variation der Form bezog sich in Erweiterung der vier o.g. Elemente auf das im Satzanfang antizipierte Hindernis („Hast Du Lust, mit mir ins Kino zu gehen?“ (antizipiertes Hindernis: Wollen/Nichtwollen) vs. „Kannst du mit mir ins Kino gehen?“ (antizipiertes Hindernis: Können/Nichtkönnen) vs. „Warum gehst Du
nicht mit mir ins Kino?“ (antizipiertes Hindernis: nicht spezifiziert). Zudem wurde der Inhalt der Formulierung im Hinblick auf eine genaue Zeitangabe variiert („Hast Du Lust, heute Abend mit mir ins Kino zu gehen?“ vs. „Hast Du Lust, mit mir ins Kino zu gehen?“). Paulson und Roloff (1997) fanden Zusammenhänge zwischen Form und Inhalt der Aufforderungsvariante und der Zahl und Art der produzierten Hindernisse (zur Klassifikation von Hindernissen vgl. auch Ifert & Roloff, 1998). Beispielsweise hatten Aufforderungen, die ein spezifisches Hindernis antizipierten (Formvariable), höflichere Ablehnungen zur Folge als im nicht spezifizierten Fall. Wurde in der Aufforderung kein konkreter Zeitpunkt (Inhaltsvariable) thematisiert, so hatte dies verstärkt Ablehnungen zur Folge, die auf überdauernde Sachverhalte rekurrieren (beispielsweise „Tut mir leid, ich stehe in einer festen Beziehung.“). Santos et al. (1994) fanden am Beispiel des Bittens um Geld, dass unkonventionelle Aufforderungen („Hast Du mal ne Mark siebzehn?“) eher zielführend sind als typische Aufforderungen („Hast Du mal ne Mark?“), da sie stärker das Interesse des Partners erregen. Überraschenderweise findet sich bislang nach unserem Kenntnisstand kein sprachpsychologisches Modell, das die vom Sprecher kalkulierten Erfolgsaussichten (beispielsweise Erwartungswertmatrix des möglichen Ausgangs) als Determinante zur Wahl einer Aufforderungsklasse miteinbezieht. Zwar finden sich Ansätze zu einer Formalisierung von Erwartungswertmatrizen im Hinblick auf Aufforderungen (vgl. Rapoport, Budescu & Suleiman, 1993) im Rahmen von Ressourcen-DilemmaSituationen (vgl. auch Hardin, 1968), diese bleiben allerdings unverbunden mit sprachpsychologischen Konzeptionen.
5.
Literatur
Austin, J. L. (1962). How to do things with words. Oxford, UK: Calderon Press. Baxter, L. A. (1984). An investigation of compliance-gaining as politeness. Human Communication Research, 10, 427⫺456. Blum-Kulka, S. (1982). Learning to say what you mean in a second language: A study of the speech act performance of learners of Hebrew as a second language. Applied Linguistics, 3 (1), 29⫺60. Blum-Kulka, S. (1985). The multifunctionality of discourse markers: The case of requests. Theoretical Linguistics, 12 (213), 213⫺229.
440
III. Sprachproduktion
Blum-Kulka, S. (1987). Indirectness and politeness in requests: Same or different? Journal of Pragmatics, 11, 145⫺160.
Folkes, V. S. (1982). Communicating reasons for social rejection. Journal of Experimental Social Psychology, 18, 235⫺252.
Blum-Kulka, S. & House, J. (1989). Cross-cultural and situational variation in requesting behavior. In S. Blum-Kulka, J. House & G. Kasper (Eds.), Cross-cultural pragmatics: Requests and apologies (pp. 123⫺154). Norwood NJ: Ablex Publishing Corporation.
Fraser, B. (1985). On the universality of speech act strategies. In S. George (Ed.). From the linguistic to the social context (pp. 43⫺49). Bologna: CLUEB.
Blum-Kulka, S., Danet, B. & Gherson, R. (1985). The language of requesting in Israeli society. In J. Forgas (Ed.), Language and social situation (pp. 113⫺141). New York: Springer. Blum-Kulka, S., House, J. & Kasper, G. (Eds.) (1989). Cross-cultural pragmatics: Requests and apologies. Norwood NJ: Ablex Publishing Corporation. Brehm, J. W. (1972). Responses to loss of freedom: A theory of psychological reactance. Morristown NJ: General Learning Press. Brown, P. & Levinson, S. (1978). Universals of language usage: Politeness phenomena. In E. Goody (Ed.), Questions and politeness (pp. 56⫺324). Cambridge, UK: Cambridge University Press. Brown, P. & Levinson, S. (1987). Politeness: Some universals in language usage. Cambridge, UK: Cambridge University Press. Brown, R. & Gilman, A. (1989). Politeness theory and Shakespeare’s four major tragedies. Language in Society, 18, 159⫺212. Clark, H. H. & Brennan, S. E. (1996). Grounding in communication. In L. B. Resnick, J. M. Levine & S. D. Teasleys (Eds.), Perspectives on socially shared cognition (pp. 127⫺149). Washington: American Psychological Association. Cohen, P. R. (1984). The pragmatics of referring and the modality of communication. Computational Linguistics, 10, 97⫺146. Dorodnych, A. (1995). A study of requests in English, Russian and Ukrainian. Papers and Studies in Contrastive Linguistics, 30, 55⫺63. Engelkamp, J. & Mohr, G. (1986). Legitimation und Bereitschaft bei der Rezeption von Aufforderungen. Sprache & Kognition, 5 (3), 127⫺139. Engelkamp, J., Mohr, G. & Mohr, M. (1985). Zur Rezeption von Aufforderungen. Sprache & Kognition, 2, 65⫺75. Ervin-Tripp, S. (1982). Ask and it shall be given to you: Children’s request. In H. Byrnes (Ed.), Georgetown University Roundtable in Language and Linguistics (pp. 235⫺245). Washington DC: Georgetown University Press.
Garvey, C. (1975). Requests and responses in children’s speech. Journal of Child Language, 2, 41⫺63. Geiger, Th. (1964). Vorstudien zu einer Soziologie des Rechts. Neuwied: Luchterhand. Gibbs, R. W. Jr. (1981). Your wish is my command: Convention and context in interpreting indirect requests. Journal of Verbal Learning and Verbal Behavior, 20, 431⫺444. Goffman, E. (1967). Interaction ritual: Essays on face-to-face behavior. New York: Anchor Books. Gordon, D. & Ervin-Tripp, S. (1984). The structure of children’s requests. In R. Schieffelbusch & J. Pickas (Eds.), The acquisition of communicative competence (pp. 83⫺106). Baltimore MD: University Book Press. Gordon, D. & Lakoff, G. (1971). Conversational postulates. Papers from the Seventh Regional Meeting (pp. 63⫺84). Chicago: Chicago Linguistic Society. Grabowski, J. (1995). Schreiben als Systemregulation – Ansätze einer psychologischen Theorie der schriftlichen Sprachproduktion. In E.-M. Jakobs, D. Knorr & S. Molitor-Lübbert (Hrsg.), Wissenschaftliche Textproduktion. Mit und ohne Computer (pp. 11⫺34). Frankfurt/M.: Lang. Grabowski-Gellert, J. (1988). „In diesem Ton lasse ich nicht mit mir reden!“ Einige psychologische Überlegungen zu Aufforderungsinteraktionen zwischen Mensch und Computer. In I. S. Batori, U. Hahn, M. Pinkal & W. Wahlster (Hrsg.), Computerlinguistik und ihre theoretischen Grundlagen (pp. 54⫺78). Berlin: Springer. Grabowski-Gellert, J. & Winterhoff-Spurk, P. (1989). Your smile is my command: Interaction between verbal and nonverbal components of requesting specific to situational characteristics. In C. F. Graumann & Th. Herrmann (Eds.), Speakers: The role of the listener (pp. 71⫺84). Clevedon: Multilingual Matters. Grice, H. P. (1957). Meaning. Philosophical Review, 66, 377⫺388. Gumperz, J. J. (1982) (Ed.). Language and social identity. Cambridge, UK: Cambridge University Press. Hardin, G. R. (1968). The tragedy of commons. Science, 162, 1243⫺1248:
32. Auffordern Held, G. (1996). Two polite speech acts in contrastive view: Aspects of the realization of requesting and thanking in French and Italian. In M. Hellinger & U. Ammon (Eds.), Contrastive sociolinguistics (pp. 363⫺384). Berlin: Mouton de Gruyter. Herrmann, Th. (1980). Sprechhandlungspläne als handlungstheoretische Konstrukte. In H. Lenk (Hrsg.), Handlungstheorien interdisziplinär. Band 1 (pp. 361⫺379). München: Fink. Herrmann, Th. (1981). Zur situativen Determination der Handlungsaufforderung. Experimentalpsychologische Analyse eines Dialogsegments. In P. Schröder & H. Steger (Hrsg.), Dialogforschung (⫽ Sprache der Gegenwart, Bd. 54) (pp. 472⫺492). Düsseldorf: Schwann. Herrmann, Th. (1982). Language and situation: The pars pro toto principle. In C. Fraser & K. Scherer (Eds.), Advances in the social psychology of language (pp. 123⫺158). Cambridge, UK: Cambridge University Press. Herrmann, Th. (1983). Speech and situation. A psychological conception of situated speaking. Berlin: Springer. Herrmann, Th. 2003. Auffordern. In Th. Herrmann & J. Grabowski (Hrsg.), Sprachproduktion (Enzyklopädie der Psychologie, Themenbereich C, Serie III, Band 1) (pp. 713⫺732). Göttingen: Hogrefe. Herrmann, Th. & Grabowski, J. (1994). Sprechen. Psychologie der Sprachproduktion. Heidelberg: Spektrum Akademischer Verlag. Holtgraves, Th. & Yang, J.-N. (1990). Politeness as universal: Cross-cultural perceptions of request strategies and inferences based on their use. Journal of Personality and Social Psychology, 59 (4), 719⫺729. Hoppe-Graff S., Herrmann, Th., WinterhoffSpurk, P. & Mangold R. (1985). Speech and situation: A general model for the processes of speech production. In J. P. Forgas (Ed.), Language and social sitiuations (pp. 81⫺97). New York: Springer. House, J. (1982). Opening and closing phases in German and English dialogues. Grazer Linguistische Studien, 16, 52⫺83.
441 Kim, M.-S. & Wilson, S.R. (1994). A cross-cultural comparison of implicit theories of requesting. Communication Monographs, 61, 210⫺235. Laucht, M. (1979). Untersuchungen zur sprachlichen Form des Aufforderns. In W. Tack (Hrsg.), Bericht über den 31. Kongreß der Deutschen Gesellschaft für Psychologie (pp. 89⫺91). Göttingen: Hogrefe. Leech, G. N. (1983). Principles of pragmatics. London: Longman. Levenston, E. (1968). Only for telling a man he was wrong. English Language Teaching, 23, 43⫺47. Meyer, J. R. (1992). Fluency in the production of requests: Effects of degree of imposition, schematicity and instruction set. Journal of Language and Social Psychology, 11 (4), 233⫺251. Mohr, G. (1990). Kontexteffekte beim Verstehen wesentlicher und unwesentlicher Aufforderungen. Sprache & Kognition, 9, 26⫺26. Önnerfors, O. (1993). Kleine Bitte und Deklarativsatz – ein Vergleich Schwedisch-Deutsch. In I. Rosengren (Hrsg.), Satz und Illokution. Band 2 (pp. 79⫺107). Tübingen: Niemeyer. Paulson, G. D. & Roloff, M. E. (1997). The effect of request form and content on constructing obstacles to compliance. Communication Research, 24 (3), 262⫺290. Rapoport, A. Budescu, D. V. & Suleiman, R. (1993). Sequential requests from randomly distributed shared resources. Journal of Mathematical Psychology, 37, 241⫺265. Santos, M. D., Leve, C. & Pratkanis, A. R. (1994). Hey Buddy, can you spare seventeen cents? Mindful persuasion and the pique technique. Journal of Applied Social Psychology, 24 (9), 755⫺764. Searle, J. (1969). Speech acts. Cambridge, UK: Cambridge University Press. Searle, J. (1980). Eine Klassifikation der Illokationsmerkmale. In P. Kußmaul (Hrsg.), Sprechakttheorie: Ein Reader (pp. 82⫺108). Wiesbaden: Athenaion. Stachowiak, H. (1973). Allgemeine Modelltheorie. Berlin: Springer.
House, J. & Kasper, G. (1981). Politeness markers in English and German. In F. Coulmas (Ed.), Conversational routine (pp. 157⫺185). Den Haag: Mouton
Stachowiak, H. (1982). Rezente Gedanken zur Kybernetik. Grundlagenstudien aus Kybernetik und Geisteswissenschaften/Humankybernetik, 23, 95⫺ 110.
Ifert, D. E. & Roloff, M. E. (1998). Understanding obstacles preventing compliance. Communication Research, 25 (2), 131⫺153.
Tannen, D. (1981). Indirectness in discourse: Ethnicity as conversational style. Discourse processes, 3, 221⫺238.
Kasper, G. (1990). Linguistic politeness: Current research issues. Journal of Pragmatics, 14, 193⫺ 218.
Walters, J. (1981). Variation in the requesting behavior of bilingual children. International Journal of the Sociology of Language, 27, 77⫺92.
442
III. Sprachproduktion
Weidenmann, B. (1996). Ist der Begriff „Multimedia“ für die Medienpsychologie ungeeignet? Medienpsychologie, 7, 256⫺261. Weizman, E. (1989). Requestive hints. In S. BlumKulka, J. House & G. Kasper (Eds.), Cross-cultural pragmatics: Requests and apologies (pp. 71⫺93). Norwood NJ: Ablex Publishing Company. Wierzbicka, A. (1985). Different cultures, different languages, different speech acts. Journal of Pragmatics, 9, 145⫺178.
Mannheim, Bericht Nr. 28). Universität Mannheim: Lehrstuhl Psychologie III. Winterhoff-Spurk, P., Mangold, R. & Herrmann, Th. (1982). Zur kognitiven Rekonstruktion von Aufforderungssituationen (Arbeiten der Forschungsgruppe „Sprache und Kognition“ am Lehrstuhl Psychologie III der Universität Mannheim, Bericht Nr. 20). Universität Mannheim: Lehrstuhl Psychologie III.
Winterhoff-Spurk, P. (1986). Psychologische Untersuchungen zum Auffordern. Studium Linguistik, 19, 48⫺60.
Wunderlich, D. (1984). Was sind Aufforderungssätze? In G. Stickel (Hrsg.), Pragmatik in der Grammatik. Jahrbuch des Instituts für deutsche Sprache 1983 (Sprache der Gegenwart, Bd. 60) (pp. 92⫺117). Düsseldorf: Schwann.
Winterhoff-Spurk, P. & Frey, Ch. (1983). Auffordern am Zeitungskiosk: Eine Feldstudie (Arbeiten der Forschungsgruppe „Sprache und Kognition“ am Lehrstuhl Psychologie III der Universität
Ralf Graf, Universität Eichstätt Karin Schweizer, Universität der Bundeswehr München (Deutschland)
33. Erzählen und Berichten 1. 2. 3. 4. 5.
Psychologie der Textproduktion Texttypologie Erzählen und Berichten Weiterführende Fragestellungen Literatur
1.
Psychologie der Textproduktion
Psycholinguistische und sprachpsychologische Arbeiten zur Sprachproduktion beschäftigen sich vorrangig mit sprachlichen Ausdrücken auf der Wort- und Satzebene. Ein Großteil unserer sprachlichen Kommunikation vollzieht sich jedoch im Austausch von komplexeren sprachlichen Einheiten. Erst in jüngerer Zeit hat die einschlägige Forschung begonnen zu untersuchen, wie Texte als satzübergreifende sprachliche Einheiten geplant und produziert werden. (vgl. zur Übersicht Rickheit & Strohner, 1993; Herrmann & Grabowski, 1994; v. Stutterheim, 1997). In diesen Rahmen soll die Thematik Erzählen und Berichten in den folgenden Betrachtungen eingebunden werden. In einer Reihe von Aspekten decken sich Wort-, Satz- und Textproduktion. Fragen, die sich auf Prozesse wie die des lexikalischen Zugriffs, der Syntax-Semantik-Interaktion, dem Zugriff auf eine Morphologiekomponente oder den gesamten Artikulationsvorgang beziehen, stellen sich für Satz- wie Text-
produktion in gleicher Weise. In welcher Hinsicht unterscheidet sich die Sprachplanung komplexer sprachlicher Äußerungen von der Wort- oder Satzplanung? Stellen wir zur Illustration zwei Fragen einander gegenüber. (a) Wo wohnen deine Eltern? (b) Wie wohnen deine Eltern? Zur Beantwortung der ersten Frage muss der Sprecher – grob gesprochen – über eine entsprechende Wissensbasis verfügen, er muss diejenige Raumreferenz aus dieser Wissensbasis selegieren, die auf die Situation wohnen (meine Eltern) zutrifft, er muss dann auf Lexikon und Syntax zugreifen, um eine Präpositionalphrase zu generieren, wie in München, und sie letztendlich artikulieren. Diese Prozesse werden der Ebene der Mikroplanung zugeordnet. Frage (b) zu beantworten erfordert über diese prinzipiellen Schritte hinaus eine Reihe weiterer Planungsprozesse. Da es einen ganzen Informationskomplex zu verbalisieren gilt, muss der Sprecher Selektionskriterien haben, nach denen er Teile seiner Wissensbasis für die Verbalisierung auswählt. So muss er sich für ein Granularitätsniveau entscheiden und in diesem Rahmen Informationskomponenten selegieren (vgl. Habel & Tappe, 1999). Er muss den Gesamtkomplex der zur Verbalisierung anstehenden Information so strukturieren, dass eine kohärente, für einen Hörer nachvollziehbare Botschaft pro-
443
33. Erzählen und Berichten
duziert werden kann. Die Erzeugung einer Makrostruktur beruht auf einer Reihe von Prinzipien, die die inhaltliche Konsistenz einer Informationsstruktur gewährleisten (vgl. Levelt, 1989; Herrmann & Grabowski, 1994). Hierzu zählt die Perspektivierung, die beispielsweise durch die Setzung eines raumzeitlichen Referenzrahmens eine Beziehung zwischen den einzelnen Informationssegmenten etabliert. So kann man zur Beantwortung der Frage (b) einen räumlichen Referenzrahmen einführen, in den dann anhand eines Linearisierungskriteriums die Einzelinformationen eingefügt werden. Ein Linearisierungskriterium ist erforderlich, um die aus einer nicht linear strukturierten Wissensbasis selegierten Informationen in linearer Folge zu bearbeiten (Levelt, 1982, 1989). Die Linearisierung kann als eine Teilaufgabe der Kohärenzherstellung angesehen werden. Um Kohärenz zu erreichen, sind weitere inhaltliche Anbindungen notwendig, die als Beschränkungen auf der Ebene der referentiellen Bewegung (v. Stutterheim, 1997) oder auch als thematische Organisation (Lötscher, 1991) beschrieben werden (vgl. hierzu die Begriffe referential links, coreference, Halliday & Hasan, 1976; topic continuity, Brown & Yule, 1983; Anderson et al., 1983; Givon, 1992). In unserem Beispiel wird dies vermutlich so aussehen, dass die Verankerungen in der Zeit und in Bezug auf eine Welt, die Modalität, für den Gesamttext konstant bleiben. Neue Informationen werden sich auf Objekte und ihre Eigenschaften im weitesten Sinne beziehen. Diese im Zusammenhang mit dem Begriff der Makrostruktur genannten Planungsaufgaben sind zu erfüllen, wenn Sprecher einen kohärenten Text produzieren. Müsste der Sprecher in jedem Falle für alle Planungsgrößen und deren Interaktionen Entscheidungen ad hoc fällen, so wäre Redeplanung immer mit einem sehr großen kognitiven Aufwand verbunden (Herrmann & Grabowski, 1994). Dieser Aufwand kann minimiert werden, indem bestimmte Aspekte der makrostrukturellen Planung selbst standardisiert, als Strategiewissen abgespeichert und im gegebenen Fall aktiviert werden können. Unter diesem Gesichtspunkt lässt sich das, was in der linguistischen Forschung aus der Sicht des fertigen Produktes als Texttyp oder Textsorte beschrieben wird, als Resultat eines schema-gesteuerten Produktionsprozesses ansehen (vgl. zum Begriff ‘Wie’-Schema Herrmann et al., 1992).
2.
Texttypologie
Im Rahmen der Textlinguistik geht es darum, das Repertoire globaler Textstrukturen innerhalb einer Sprachgemeinschaft zu erfassen oder, anders gesagt, das Wissen von Sprechern über Textmuster bzw. Vertextungsstrategien nachzuzeichnen. Bei aller Verschiedenheit im Einzelnen herrscht weitgehend Einigkeit darüber, dass makrostrukturelle Texteigenschaften nicht nur im Hinblick auf textinterne Merkmale zu beschreiben sind, sondern dass eine Textsorte als konventionell etablierte Verbindung situativer Faktoren und bestimmter Form- und Inhaltsaspekte zu gelten hat (vgl. zum Überblick Rolf, 1993; Adamzik, 2000). Die zentralen Dimensionen hinsichtlich derer Textsorten in den vorliegenden Texttypologien charakterisiert werden, lassen sich bereits in den alltagsprachlichen Textbenennungen erkennen. Kriterien zur Differenzierung sind das Handlungsziel (Kommentar, Gebrauchsanleitung), die fokussierte Information (Wettervorhersage) und die Kommunikationsbedingungen (Fernsehkommentar, Brief). Betrachten wir die genannten Ordnungskriterien etwas genauer. Schemata für komplexe Sprechhandlungen lassen sich zunächst hinsichtlich der ausgedrückten Kommunikationsabsicht klassifizieren (vgl. Brinker, 1992; Heinemann & Viehweger, 1991; Motsch, 1987; Rolf, 1993). Ein Ansatzpunkt für die Klassifizierung von Textexemplaren unter dieser Perspektive liefert die von Searle (1976) entwickelte Taxonomie elementarer Illokutionstypen. Analog zur Sprechaktklassifizierung werden assertive (oder repräsentative), direktive, kommissive, expressive und deklarative Texte als Großklassen von Textsorten unterschieden. Eine so gewonnene Gliederung allein ist jedoch wenig diskriminativ. Aufgrund der gemeinsamen dominanten Illokution zu informieren sind etwa die Textsorten Rezension, Sachbuch, Wettervorhersage, Bericht, Nachricht, Beschreibung, wissenschaftlicher Text der Klasse der assertiven Texte zuzuordnen (vgl. Große, 1976; Brinker, 1992). Weitere Differenzierungsmöglichkeiten ergeben sich hinsichtlich der Merkmale der Diskurssituation, in die ein Text eingebettet ist. Textrelevante Merkmale ergeben sich hier in Bezug auf die Kategorien der Kommunikationsform (gesprochene oder geschriebene Texte, öffentlicher oder privater Raum etc.) und die Merkmale und sozialen Rollen der Interagierenden (z. B. symmetrische/asym-
444
III. Sprachproduktion
metrische Beziehung, bekannt/unbekannt). Die je besonderen Ausprägungen und Kombinationen externer Merkmale erlauben allerdings nur eine grobe Bestimmung von Textcharakteristika (Sandig, 1972). Eine weitere Dimension der Textsortenbestimmung bezieht sich auf die Art der kognitiven Bearbeitung von Inhalten. Texttypologien, die in diesem Rahmen entwickelt werden, gehen in der Regel von wenigen Grundtypen der Sachverhaltsdarstellung aus, zum Beispiel einem narrativen, deskriptiven, instruktiven und argumentativen Typus (vgl. Werlich, 1975; Kallmeyer & Schütze, 1977; Brinker, 1992). In einer bestimmten Textsorte können diese Grundtypen der Perspektivierung zweckgebunden gewählt und kombiniert werden (vgl. etwa die Verknüpfung von instruktiven und deskriptiven Textelementen in Werbeanzeigen). Die Beschreibungskategorien, mit denen Merkmale auf der Ebene der Bedeutungsorganisation erfasst werden, sind u. a. der Typ des dargestellten Sachverhaltes, die Art der Linearisierung sowie der referentiellen Bewegung oder auch der Grad der Normiertheit bestimmter globaler Strukturen (s. u.). Wie diese kurze Skizze zeigt, lassen sich ganz unterschiedliche Kriterien zur Abgrenzung verschiedener Kommunikationsformen heranziehen. Je nachdem, auf welcher Ebene der Kommunikationsprozess analysiert wird, ergeben sich unterschiedliche Kriterien für die Erstellung einer Typologie (vgl. Adamzik, 1991). Systematisch bearbeitet finden sich: Konstellation der Vorgeschichte, Konstellation der Sprechsituation, Handlungszweck, Illokution, Formwahl (vgl. Rehbein, 1984: 72). Auf welcher dieser Ebenen Erzählungen und Berichte zu unterscheiden sind, ist im Folgenden genauer zu betrachten.
3.
Erzählen und Berichten
Im übrigen will ich keines Menschen Urteil, ich will nur Kenntnisse verbreiten, ich berichte nur, auch Ihnen, hohen Herren von der Akademie, habe ich nur berichtet. F. Kafka, Bericht für eine Akademie, Erzählungen.
3.1. Erste Annäherung an die Unterscheidung Die klassischen Formen der sprachlichen Bearbeitung von Erfahrung sind Erzählung, Beschreibung und Argumentation. Zu diesen
Redetypen können wir auf eine in der Antike begründete Forschungstradition aufbauen (vgl. Lausberg, 1979). Sie lassen sich als gedankliche Bearbeitungsformen von Wissen relativ klar von einander abgrenzen. Für die Unterscheidung der beiden Redetypen Erzählen und Berichten sind die Abgrenzungskriterien nicht in gleicher Weise evident. In vielen Arbeiten werden sie in einen Texttyp zusammengefasst (vgl. Weinrich, 1964; van Dijk, 1977; Kallmeyer & Schütze, 1977; Hundsnurscher, 1994), oder sie werden nicht auf dieser allgemeinen Ebene kontrastiert, sondern vielmehr in bereits differenzierterer Weise, wie z. B. in den journalistischen Gattungsbezeichnungen. Wir wollen daher eine erste Annäherung versuchen, indem wir aus ganz verschiedenen Bereichen Indizien für eine solche Unterscheidung zusammenstellen. Betrachten wir zunächst die Etymologie der beiden Verben berichten und erzählen: – berichten, ahd. zu recht, eigentlich zurecht machen, in Ordnung bringen; einen (in Bezug auf etw.) unterweisen, belehren; – erzählen, ahd. zunächst wie zählen, auch der Reihe nach aufzählen. (H. Paul, Deutsches Wörterbuch) In den beiden Paraphrasen in Ordnung bringen und der Reihe nach aufzählen lassen sich bereits unterschiedliche Schwerpunkte erkennen. Das Berichten muss danach Wissen zu einem bestimmten Sachverhalt in geordneter Weise präsentieren, wobei das Ordnungskriterium nicht festgelegt ist. Als kommunikative Funktion wird die Wissensvermittlung angegeben. Das Erzählen wird dagegen an einem klaren Ordnungskriterium festgemacht. Die Dinge müssen der Reihe nach, in der Folge ihres Auftretens dargestellt werden. In welchen Kontexten kommen heute die Begriffe erzählen und berichten typischerweise vor? Man spricht von der Erzählung als literarischer Gattung im Bereich des schriftlichen Sprachgebrauchs und von der mündlichen Erzählung als Form der Unterhaltung, bei der bemerkenswerte Geschehnisse mitgeteilt werden (Weinrich, 1964; Quasthoff, 1980). Damit wird auch bereits klar, dass die Faktizität der dargestellten Ereignisse keine für die Erzählung konstitutive Bedingung ist, dass es deshalb ein erzählendes Subjekt geben muss, das die erzählte Welt zumindest in gewissen Aspekten selbst erzeugt (vgl. zum Begriff der Erzählperspektive Canisius, 1987). Von Berichten spricht man dagegen in Zusammenhängen wie Geschäftsbericht, Wet-
33. Erzählen und Berichten
terbericht, Forschungsbericht, Krankenbericht, Unfallbericht, Zeugenbericht. Medium können hierbei sowohl gesprochene als auch geschriebene Sprache sein. Als gemeinsames Ziel aller Berichtsformen kann das Informieren über Fakten angesehen werden. Maßgeblich für die Charakterisierung eines Textes als Bericht im alltagssprachlichen Sinn ist somit die Erfüllung zweier Kriterien: eine neutrale Perspektive auf das Dargestellte und der Wahrheitsanspruch in Bezug auf das Gesagte. So kann man beispielweise nicht davon sprechen, über eine geplante Reise (allenfalls über einen Reiseplan als Resultat bereits vollzogener Planungshandlungen) oder über denkbare Alternativen zu einem abgeschlossenen Geschehen zu berichten. Umgekehrt wäre es höchst merkwürdig, eine Erzählung über das vergangene Geschäftsjahr einer Firma oder über die Ergebnisse metereologischer Forschungen zu produzieren. Dieser in der Alltagssprache evidenten Unterscheidung scheint Kafkas oben zitierte Erzählung zu widersprechen. Hier haben wir es mit einer Erzählung zu tun, die als Bericht vorgestellt wird. Gerade dieser literarische Kunstgriff, der gegen die pragmatischen Prinzipien der alltagssprachlichen Kommunikation verstößt, kann jedoch für die hier vorliegende Fragestellung erhellend wirken. Die Absicht dieses Kunstgriffs soll hier nicht interessieren. Interessant ist, wie der Autor seine Erzählung als Bericht kenntlich macht. Dazu zählt neben sprachlichen Kennzeichnungen, wie der Anrede und dem expliziten, metasprachlichen Kommentar (vgl. das Zitat), der scheinbare Verzicht auf eine übergreifende, die einzelnen Inhaltskomponenten motivierende Perspektive. Die Auswahl der dargestellten ‘Fakten’ richtet sich aus an der berichtseinleitenden Frage, und damit ist ein oberster Kohärenzrahmen geschaffen, innerhalb dessen unterschiedliche lokale Ordnungen möglich sind. Was haben diese unterschiedlichen Annäherungen an die Texttypen Erzählen und Berichten deutlich gemacht? Erstens ist festzuhalten, dass eine klare Intuition darüber vorhanden ist, dass sich die Referenzbereiche dieser beiden Begriffe nicht decken. Zweitens hat sich gezeigt, dass Unterschiede hinsichtlich der Inhalte und der Perspektive bestehen. Berichtet werden kann nur über Faktisches, diese Beschränkung gilt nicht für Erzählungen. Erzählen erfordert eine interpretierende Perspektive, Berichten impliziert eine neutrale Perspektive. Im literarischen Umgang
445 kann gegen eines dieser Kriterien verstoßen werden (im Falle der Kafka-Erzählung gegen das zuerst genannte), die Erfüllung des zweiten führt dann dazu, eine bestimmte künstlerische Wirkung zu erzielen. In der Alltagskommunikation ist jedoch beiden Kriterien zu genügen. 3.2. Die Textformen Erzählen und Berichten In der textlinguistischen und konversationsanalytischen Erzählforschung steht der Texttyp Erzählung traditionell im Vordergrund der Betrachtung. Es gibt eine sehr umfangreiche Literatur zu den verschiedensten Aspekten des Erzählens und der Erzähltexte (vgl. z. B. Rumelhart, 1975; van Dijk, 1977 zu globalen Erzählstrukturen; Bamberg, 1987; Stein & Trabasso, 1982 zum Erwerb komplexer Kommunikationsschemata; Bliesner, 1980; Ehlich & Rehbein, 1980 zum Sprachverhalten in Institutionen). Zu dem Texttyp Bericht gibt es demgegenüber nur einige wenige Arbeiten (zur Übersicht Carroll & Timm, i. Dr.). Diejenigen linguistischen Arbeiten, die sich mit der Subklassifizierung narrativer Texte in Berichten und Erzählungen beschäftigen, ziehen hierfür Merkmale heran, die auf unterschiedlichen Ebenen der Textkonstitution angesiedelt sind. Betrachtet werden der Handlungszweck und textsortenspezifische Diskursbedingungen im Zusammenhang mit Inhalts- und Formaspekten. Zwecke. Rehbein (1984) geht von der unterschiedlichen kommunikativen Zielsetzung der beiden Redeformen aus. Berichten dient dem Zweck, einen Hörer mit entscheidungsrelevanten Informationen über einen bestimmten Geschehensablauf zu versehen. Der Hörer soll in die Lage versetzt werden, den mitgeteilten Inhalt anschließend beurteilen zu können. Das Urteil soll nicht von dem Berichtenden selbst ausgesprochen und auch nicht nahegelegt werden. Die gesellschaftlichen Bereiche, in denen diese Kommunikationsform relevant ist, sind häufig formalisierte Kontexte wie Wirtschaft, Gesundheitswesen, Rechtssprechung. Alltagserzählungen („konversationelle Erzählungen“ im Sinne von Quasthoff, 1980) streben „im Unterschied zum Bericht (…) eher eine szenisch vorführende, weniger eine sachlich darstellende Repräsentation vergangener Handlungen/Ereignisse“ an (Quasthoff, 1980: 27).
446 Erzählungen sind keinem institutionsspezifischen Zweck zugeordnet und folgen damit auch nicht in gleichem Maße standardisierten Vorgaben. Quasthoff (1980) unterscheidet unabhängig von Situationsparametern kommunikative und interaktive Intentionen, die ein Sprecher mit einer Erzählung verfolgen kann. Die kommunikative Funktion wird in der Hauptsache durch den Inhalt der erzählten Geschichte erfüllt. Eine typische kommunikative Funktion haben Erzählungen etwa im Zusammenhang mit argumentativen Diskursen, wo sie im Rahmen der übergeordneten Struktur Belegfunktion übernehmen. Sprecher- oder hörerorientierte Funktionen wie unterhalten oder beeindrucken sind auf der Ebene der sozialen Beziehungen der Diskursteilnehmer angesiedelt. Erzählungen stellen eine Realisierungsmöglichkeit interaktionsbezogener Bedürfnisse dar. Erzählt werden solche Geschichten, die eine erwartbare oder erhoffte Wirkung zu erzielen vermögen. Die unterschiedlichen Zwecke der beiden narrativen Textformen spiegeln sich auch in den Beschreibungen der Sprecherrollen wider (vgl. Rehbein, 1984; Hoffmann, 1984). Der Berichtende ist „Zeuge“ und „Vermittler“ von Information; der Erzähler entwirft und verarbeitet Erfahrung. Textaufbau. Berichte und Erzählungen gelten als Subkategorien narrativer Verbalisierungsmuster, denen jeweils diskursspezifische Strukturmuster zu Grunde liegen, die Art, Abfolge und Verknüpfung von Textteilen vorstrukturieren. Nach Labov und Waletzky (1967) und anderen bildet eine interessante Begebenheit den Kern (plot) der Erzählungen, der, einem strikten Aufbauschema folgend, – von der Rahmengebung („scene setting“ als Orientierungsphase für den Adressaten, in der ein Vorstellungs- oder auch Fiktionsraum aufgebaut wird) bis zur Bewertung der Ereignisse (Evaluation) – chronologisch dargestellt wird. Der Plot selbst ist wiederum untergliedert in sprachlich markierte Episoden (Gülich, Heger & Raible, 1975), die den Weg von der Versetzung in die Komplikation bis zur Auflösung nachzeichnen. Dieser Makrostruktur entsprechend, sind auf der Ebene der einzelnen Äußerungen zwei Sprechhandlungstypen dominant: Referentielle Äußerungen über die Erscheinungen und Veränderungen in der Zeit (Labov & Waletzky, 1967; Werlich, 1975) und evaluative expressive Sprechhandlungen, die die affektive Haltung des Sprechers gegenüber dem Bezugsobjekt zum Ausdruck bringen.
III. Sprachproduktion
Das Grundmodell für Berichte unterscheidet sich in zwei Aspekten. Durch die Rückschauperspektive des Berichtens ist die Raum-Zeitsituierung zu Beginn des Textes mit keiner Versetzungsanforderung (Rehbein, 1984) an den Hörer verbunden. Die Sprechsituation bleibt in allen Segmenten des Textes relevant: Im Zentrum eines Berichtes steht relevantes faktisches oder vermutetes Geschehen, das nicht notwendiger Weise in der chronologischen Folge wiedergegeben werden muss. Zeitliche Strukturierungsprinzipien stehen neben sachlichen oder objektbezogenen Gliederungsstrategien. Heinemann und Viehweger (1991) nehmen in ihrem Strukturmodell zusätzlich eine Komponente CONS (⫽ Konsequenzen) an. Die dominierenden Sprechhandlungen beim Berichten sind folglich registrierende Äußerungen und epistemische Qualifizierungen (Rolf, 1993). 3.3. Kognitive Prozesse beim Erzählen und Berichten Der konversationsanalytische Ansatz befasst sich mit unterschiedlichen Textsorten als Trägern sprachlicher Interaktion. Beschreibungskonstrukte werden – wie oben dargestellt – aus der Sprechakttheorie übernommen. Der textlinguistische Ansatz analysiert und beschreibt Textsorten unter dem Blickpunkt des Struktur- und Formkontrastes. Im Folgenden soll das Phänomenfeld, eingegrenzt auf die beiden Texttypen Berichten und Erzählen, unter einer psycholinguistischen Perspektive betrachtet werden. Es geht um Fragen, die den Sprecher als Sprachplanenden und Spracherzeugenden thematisieren. Welche Wissensvoraussetzungen müssen gegeben sein, wenn einer der beiden Texttypen produziert wird? Lassen sich textspezifische Ausprägungen der den Produktionsprozess steuernden Faktoren annehmen? Gibt es Evidenzen für textspezifische Steuerungsprozesse im Rahmen der Sprachproduktion? Zur Diskussion dieser Fragen liegen nur sehr wenige Arbeiten vor. Die Darstellung im Folgenden wird daher in manchen Punkten nur Forschungsdesiderata aufzeigen können. Sachverhalt und Perspektive. Sachverhalte, die den Inhalt von Erzählung und Bericht bilden können, müssen dynamischer Natur sein. So werden in Herrmann und Grabowski (1994) Erzählen und Berichten als zwei Formen des Sprechens über Ereignisse eingeführt, Rehbein (1984) spricht von Geschehnissen und Handlungen, auf die Sprecher Be-
33. Erzählen und Berichten
zug nehmen. Über ein Bild oder eine schöne Landschaft kann man weder berichten noch erzählen. Man kann allerdings über die Entstehung eines Bildes oder die Wahrnehmung einer Landschaft berichten oder davon erzählen. Unterschiede zwischen den beiden Darstellungsperspektiven Erzählen und Berichten ergeben sich im Hinblick auf den Modalstatus der thematisierten Ereignisse. Berichtet wird von zur Sprechzeit abgeschlossenen oder unmittelbar sich vollziehenden, singulären Geschehnissen. Diese Beschränkung gilt nicht für das Erzählen. Erzählt werden können faktische und fiktive Sachverhalte. Wissen über singuläre Geschehnisse kann unter unterschiedlicher Perspektive versprachlicht werden. Der Fokus kann auf dem Geschehensablauf als Ganzem liegen, was den Handelnden oder den von der Handlung Betroffenen mit in den Blick rückt. Oder er kann auf einzelnen Phasen des Geschehens liegen, beispielsweise dem Beginn oder dem Nachzustand. Während eine Erzählung die sprachliche Darstellung von Ereignissen fordert, ist der Bericht mit einer Perspektive verträglich, die den Nachzustand von Ereignissen fokussiert. Versprachlicht werden in diesem Fall Zustände. Unter dieser Perspektive kann der Agent des Geschehens vollkommen ausgeblendet werden. Dies gilt beispielsweise für Geschäftsberichte oder Operationsberichte. Erzählen und Berichten unterscheiden sich folglich darin, welche Eigenschaften das versprachlichte Sachverhaltswissen aufweisen muss und unter welcher temporalen Perspektive die Ereignisse präsentiert werden können (vgl. Herrmann & Grabowski, 1994; Rehbein, 1984). Selektion. Ist ein Sprecher aufgefordert, einen Ausschnitt seiner Wissensbasis zu erzählen bzw. zu berichten, so muss er über Kriterien verfügen, die ihm die selektive Versprachlichung seines Wissens in einer der Fragestellung angemessenen Weise ermöglichen. Worin unterscheiden sich die Selektionsprozesse, die der Planung einer Erzählung bzw. einem Bericht zu Grunde liegen? Um dieser Frage nachzugehen, müssen methodisch andere Wege eingeschlagen werden als die, die traditionell in der Textsortenforschung eingesetzt wurden und werden. Es müssen Methoden sein, die eine Kontrolle über die Bedingungen, unter denen das sprachliche Produkt entstanden ist, erlauben. Ein Ansatz wie der konversationsanalytische
447 ist auf Grund seines Gegenstandsverständnisses einem empirischen Vorgehen verpflichtet, in dem ausschließlich Daten zu Grunde gelegt werden, die in natürlicher Kommunikation gewonnen wurden. Dadurch weist das empirische Material eine sehr hohe Varianz auf. Die steuernden Faktoren können zum großen Teil nicht kontrolliert und damit nicht systematisch zu dem sprachlichen Produkt in Relation gesetzt werden (z. B. das bei Sprecher und Hörer verfügbare Wissen zu dem dargestellten Sachverhalt). Ein experimenteller Zugang ermöglicht demgegenüber eine systematische Variation und Kontrolle bestimmter Faktoren und erlaubt so, Einblicke in die steuernde Funktion dieser Faktoren im Rahmen der Sprachproduktion zu gewinnen. Herrmann und Grabowski (1994: 241 ff.; vgl. auch Rummer et al., 1993) haben eine Reihe von Experimenten durchgeführt, in denen sie der Frage nachgehen, inwiefern Erzählen und Berichten unterschiedliche Selektionsprozesse erfordern. Ausgehend von einem heuristischen Verständnis der beiden Kommunikationsformen Erzählen und Berichten werden Situationen definiert, die als konstitutiv für beide Redeformen angesehen werden. Die Wissensbasis, die in der Textproduktion versprachlicht werden soll, wird den Versuchspersonen durch einen Film vermittelt. Dann werden sie zur Rede aufgefordert, wobei für unterschiedliche Gruppen von Versuchspersonen eine berichtende bzw. erzählende Perspektive auf das Sachverhaltswissen induziert wird. Die Kontrolle über den verbalisierten Inhalt ermöglicht eine genaue Bestimmung und einen Vergleich der jeweils im Prozess der Sprachplanung selegierten Wissensausschnitte. Ein Vergleich der thematisierten Sachverhaltskomponenten unter den beiden Bedingungen Berichten (B) und Erzählen (E) zeigt, dass die nachweisbaren Unterschiede nicht in Quantität und Qualität der dargestellten Ereignisse liegen (vgl. Herrmann & Grabowski, 1994: 252). Sie liegen vielmehr dort, wo Sprecher über die im Film dargestellten Ereignisse hinaus etwas thematisieren. Unter der E-Bedingung werden mehr sprecher-verankerte Kommentare gegeben sowie Informationen, die durch Inferenzen erschlossen und assoziiert wurden. Interessant ist eine Fortsetzung dieses Versuches, bei der Sprecher in der im Prinzip gleichen Situation zusätzlich einem Zeitdruck ausgesetzt wurden. Hier konnte gezeigt werden, dass unter der E-Bedingung ein größerer
448 Effekt entstand, während unter der B-Bedingung weitgehend konstant produziert wurde. Die Erzählungen enthielten erheblich weniger Ereigniswiedergaben in Relation zu kommentierendem und erläuterndem Material. Herrmann und Grabowski (1994) nehmen an, dass die Selektionsprozesse, die unter den beiden Bedingungen in unterschiedlichem Maße stabil sind, unterschiedlichen Steuerungsmodalitäten unterliegen: Schema-Steuerung für das Berichten, Ad-hoc-Steuerung für das Erzählen. Dadurch lässt sich erklären, dass Berichte weniger variabel sind und damit in geringerem Maße durch externe Faktoren in ihrer Struktur modifiziert werden können. Dieses Ergebnis konvergiert mit der These des textlinguistischen Ansatzes, indem Berichten im Vergleich zum Erzählen als stärker standardisierte Textsorte charakterisiert wird (vgl. Rehbein, 1984). Der Aspekt der Schematizität im Hinblick auf die Textproduktion betrifft nicht nur Fragen der Informationsselektion, sondern ebenso die Frage der Kohärenzherstellung in einem Text. Kohärenzmuster. Wenn ein Sprecher einen Text produziert, beispielsweise als Antwort auf die Frage Was ist dir gestern bei der Rückmeldung passiert? oder auf die Aufforderung Stellen sie den Unfallhergang genau dar!, so muss er die selegierte Information so präsentieren, dass der Adressat eine Vorstellung von einem Geschehen entwickeln kann. Der Adressat muss in die Lage versetzt werden, aus einzelnen Informationsbausteinen ein sinnvolles Ganzes zusammenzufügen. Die hierfür geforderten Beziehungen zwischen den einzelnen inhaltlichen Komponenten werden unter dem Begriff der Kohärenz gefasst. Die Planungsaufgabe des Sprechers besteht darin, ausgehend von einer den globalen Rahmen festlegenden Redeintention, die einzelnen Angaben so anzuordnen, dass ein Sinnzusammenhang sowohl auf der lokalen Ebene, das heißt zwischen unmittelbar angrenzenden Äußerungen entsteht, als auch auf Episodenund letztlich Textebene. Linearisierung. Eine Kohärenz konstituierende Planungsgröße liegt im Linearisierungskriterium (vgl. Levelt, 1982; 1989). Um einen Ausschnitt seiner Wissensbasis zu versprachlichen, muss der Sprecher eine nicht linear geordnete Struktur in eine lineare übertragen. Der sequenzielle Informationsabruf wird als Linearisierung bezeichnet. Das Linearisierungskriterium liefert so etwas wie den roten Faden, der den gesamten Text durch-
III. Sprachproduktion
zieht. Für den Planungsprozess bedeutet dies nicht nur, ein Kriterium für den Zugriff auf die Wissensbasis zu haben, sondern darüber hinaus ein Kriterium, das eine Hierarchisierung der Information erlaubt. In der Literatur spricht man in diesem Zusammenhang von Vordergrund/Hintergrund (Hopper, 1979) oder Hauptstruktur-/NebenstrukturGliederung (Klein & v. Stutterheim, 1992). Diejenigen Informationen, die nicht durch das Linearisierungskriterium eingebunden werden, sind einer sekundären Strukturebene zuzuordnen, die durch lokale Kohärenzbeziehungen mit der Informationsstruktur der primären Ebene verknüpft sind. Narrative Texte werden als exemplarisch für die Wirkungsweise eines Linearisierungskriteriums angesehen (vgl. Levelt, 1982; v. Stutterheim, 1997; Klein & v. Stutterheim, 1992). Die konzeptuelle Domäne, die für die Sequenzierung der Information in Erzählungen maßgeblich ist, ist die Zeit. In einer Erzählung werden die einzelnen Ereignisse in chronologischer Folge versprachlicht, Abweichungen von dieser ‘Und-dann-Relation’ können unterschiedlich motiviert sein. Es kann sich um die Darstellung von NichtEreignissen handeln, die als Hintergrundinformationen den Ereignisreferenzen lokal zugeordnet sind. Es kann sich um Korrekturen handeln, beispielsweise den Nachtrag einer Information. In diesem Falle muss die zeitreferentielle Einbindung explizit gekennzeichnet werden. Es kann sich auch um stilistisch motivierte Verstöße gegen das Linearisierungskriterium handeln, die in literarischen Erzählungen als markierte Strukturtypen besondere Effekte beim Leser hervorrufen. In spontanen Erzählungen findet man eine relativ strikte Umsetzung des Linearisierungskriteriums, das auch als Prinzip der natürlichen Abfolge bezeichnet wird. Berichte sind im Hinblick auf mögliche Linearisierungsmuster heterogener. Es gibt den Typ des Ereignisberichtes, der – genau wie die Erzählung – die chronologische Folge des Geschehens in die chronologische Folge der Äußerungen abbildet. Die zweite Möglichkeit der Linearisierung stützt sich auf bestimmte Eigenschaften der Gegenstände, die aus Handlungen oder Ereignissen resultieren. Der Operationsbericht beinhaltet nicht die Operationsereignisse in chronologischer Folge, sondern thematisiert unter resultativer Perspektive den Zustand des Patienten unter heilungsrelevanten Gesichtspunkten. Hier greift – wie oben bereits angesprochen – für
33. Erzählen und Berichten
zahlreiche Berichtsformen ein kanonisiertes Linearisierungsmuster, das die sequentielle Organisation der Informationen festlegt. Referentielle Bewegung. Die Wahl eines aufgabenadäquaten Linearisierungskriteriums würde allein noch keinen kohärenten Text gewährleisten. Der Sprecher muss darüber hinaus entscheiden, welche inhaltlichen Komponenten einer Äußerung er aus der vorangehenden beibehält, welche er referentiell anbindet und wo er neues Material einführt. Zu den Faktoren, die das Muster der referentiellen Bewegung determinieren, gehört die spezifische kommunikative Aufgabenstellung (vgl. v. Stutterheim & Klein, 1989). So gilt beispielsweise für Erzählungen und Berichte, dass neben der Vorgabe im Bereich der Zeitreferenz im Bereich der Modalität ein und derselbe Modalstatus für den gesamten Text erhalten bleibt. Unterschiede zwischen den beiden Texttypen lassen sich für diejenige Komponente feststellen, die die Funktion des prädizierten Elementes erfüllt. Während in Erzählungen hier in der Regel ein Agens (oder mehrere) in der Rolle des Protagonisten eingeführt wird, der auf Textebene den Referenten mit dem höchsten Grad der Thematizität darstellt (vgl. Goldman & Varma, 1995), ist diese Position im Bericht nicht notwendigerweise mit einem Agens besetzt. Auf Grund der für den Bericht möglichen resultativen Perspektive kann hier ein Objekt oder Sachverhalt eingeführt werden, der nicht durchgehend für den gesamten Text thematisch ist. In beiden Texttypen liefert das Prädikat mit seinen Argumenten die entscheidende neue Information. Zur Frage der mikrostrukturellen Planung in Abhängigkeit von spezifischen makrostrukturellen Vorgaben liegen kaum experimentelle Untersuchungen vor. Eine Studie, die sich mit dieser Frage in Bezug auf die beiden Texttypen Berichten und Erzählen befasst, wurde bisher nicht durchgeführt. Es liegen Ergebnisse einzelner Experimente vor – in denen Erzähl- bzw. Berichtstexte die empirische Basis liefern –, die einige den Planungsprozess steuernden Einflussgrößen in ihrem relativen Stellenwert überprüfen. So konnte gezeigt werden, dass unter variierten situativen Bedingungen (online/offline produzierte Erzählungen) Kohärenzplanung in systematischer Weise affiziert ist. Produziert ein Sprecher eine Erzählung, während sich das Geschehen vor seinen Augen vollzieht, so zeigt sich in seinem sprachlichen Produkt
449 eine weitgehend lokal organisierte Kohärenz. Sprachliche Kennzeichnungen makrostruktureller Zusammenhänge wie die Kennzeichnung von Episodengrenzen, von Vordergrund/Hintergrund-Gliederung fehlen im Unterschied zur Offline- Bedingung. Für den Texttyp des Berichtens konstitutiv bleiben unter beiden Bedingungen die Eigenschaften des dargestellten Sachverhaltes und das temporale Linearisierungskriterium (vgl. v. Stutterheim, i. Dr.) In einer anderen Studie, in der es um die Produktion von Ereignisberichten geht, konnte gezeigt werden, dass die Entscheidung für ein Linearisierungskriterium nur erklärt werden kann, wenn man die Gesamtheit der die Textplanung steuernden Faktoren in den Blick nimmt. (vgl. z. B. den Faktor Hierarchisierung von Wissen in Habel & Tappe, 1999). Untersuchungen dieser Art zeigen die Komplexität der für die Textproduktion notwendigen Planungsprozesse, sie zeigen aber auch einen Weg, wie man einzelne Faktoren herausgreifen und in ihrem Stellenwert bestimmen kann. Auf diesem Wege müsste auch ein differenziertes Bild über diejenigen Planungsschritte gewonnen werden können, die sich bei die Planung eines Berichtes bzw. einer Erzählung tatsächlich von einander unterscheiden. So könnte man am Ende die in der textlinguistischen Forschung beschriebenen Strukturen aus der Perspektive ihrer Entstehensdynamik rekonstruieren. 3.4. Sprachliche Ausdrucksmittel In den Arbeiten zur sprachlichen Form von narrativen Texten finden sich zwei Analyseperspektiven. Unter der einen Perspektive (a) werden sprachliche Formen als Indikatoren für bestimmte Texttypen angesehen. Unter der anderen Perspektive (b) werden sprachliche Mittel in ihrer jeweiligen Funktion im kommunikativen Kontext analysiert. Ad a) Hier geht es um die Frage, ob es sprachliche Ausdrucksformen gibt, die als Indikatoren für einen bestimmten Texttyp angesehen werden können. Für Erzählungen werden beispielsweise die Verwendung der direkten Rede, die Tempuswahl (historisches Präsens, Präteritum) oder der diskursorganisierende Gebrauch von hypo- und parataktischen Konstruktionen als charakteristische Formeigenschaften angeführt (Gülich, 1986; Bamberg, 1987; Ehlich, 1980; Quasthoff, 1980; Rehbein, 1984). Solche formalen Textmerkmale können jedoch nicht als eindeutige
450 Kriterien für die Abgrenzung von Textsorten angesehen werden. Dies zeigt etwa das Beispiel der Tempussetzung in Berichten und Erzählungen. Funktionsdifferenzierungen hinsichtlich der Pragmatik der Tempora (vgl. die Unterscheidung in erzählte Welt und besprochene Welt bei Weinrich, 1964) fallen nicht mit bestimmten Textmustern zusammen. Sowohl in Berichten als auch in Erzählungen finden sich präsentische und Vergangenheitstempora. Ad b) Im Sinne einer textfunktionalen Sprachanalyse interessanter sind die Arbeiten, die sprachlichen Phänomenen auf der Grundlage der inhaltlichen und strukturellen Eigenschaften von Texten nachgehen. In welcher Weise sind Alternativentscheidungen in Lexik und Grammatik funktional für die Inhaltstruktur und reflektieren folglich globale Perspektivierungen der Sachverhaltsdarstellungen? Welche Rückschlüsse können wir auf die Funktion bestimmter grammatischer Kategorien ziehen, wenn wir ihre Verwendungskontexte betrachten? Betrachten wir zunächst Form-Funktionsanalysen im Bereich der Referenztypen. In der Regel stehen dem Sprecher zur Bezugnahme auf Personen oder Objekte referentiell äquivalente Varianten zur Verfügung. Als Referenzmittel können lexikalisch elaborierte Nominalphrasen, Pronomen, Demonstrativa oder elliptische Konstruktionen dienen. Die Funktion der Referenzdomäne (Agens, Protagonist) und das Muster der referentiellen Anbindung (konstante referentielle Verknüpfung) legen einen Rahmen für die Wahl einer Ausdrucksform fest. Referenzen mit einem geringen Grad an Thematizität benötigen generell lexikalisch spezifischere Ausdrücke; Referenzen mit einem hohen Grad an Thematizität können elliptisch, pronominal oder durch eine inhaltlich elaborierte Nominalphrase ausgedrückt werden (Marslen-Wilson et al., 1982; Ariel, 1990; Ehrich & Koster, 1983; Hawkins, 1978; Gernsbacher, 1989). In Erzählungen reflektiert der Wechsel des Explizitheitsgrads (Ellipse zu Pronomen oder voller NP) die äußerungsübergreifende Segmentierung des komplexen Geschehens in hierarchisch geordnete Informationseinheiten. Mit Hilfe elliptischer oder pronominaler Ketten werden Ereignisse zu Ereignissegmenten verknüpft. Textsegmentgrenzen werden durch lexikalisch spezifische Referenzmittel (definite Nominalphrasen oder Namen) markiert (vgl. v. Stutterheim, i. Dr.).
III. Sprachproduktion
die Figur hört das Wasser Ø erinnert sich an den Durst und Ø geht auf die Suche nach dem Wasser und Ø findet eine Wasserlache als sie jedoch ankommt und Ø die Hände nach dem Wasser ausstreckt kommt kein Tropfen die Figur wühlt wieder nach dem Wasser und Ø gräbt dabei ein Loch (…) Ein vergleichbarer textfunktionaler Gebrauch von Referenztypen in Berichtstexten ist in Abhängigkeit von dem jeweils gewählten Linearisierungskriterium erwartbar. Empirische Untersuchungen hierzu stehen noch aus. Der Zusammenhang zwischen der Wahl eines Ausdrucksmittels und Merkmalen makrostruktureller Planung zeigt sich auch im Bereich der Verwendung hypotaktischer Konstruktionen. In Erzähltexten wird Hintergrundinformation vielfach durch hypotaktische Konstruktionen in der Hauptstruktur verankert. Das Mittel der Subordination erlaubt dem Sprecher Kommentare, Bewertungen oder Situationsbeschreibungen, ohne den Fluss der Ereigniskette zu unterbrechen. Eine funktionale Zuordnung der Subordination zur Hintergrundinformation (vgl. Hopper, 1979; Tomlin, 1985) ist jedoch nicht immer möglich. Umfangreiche Analysen zur Subordination in unterschiedlichen Texttypen (vgl. v. Stutterheim, 1997; Gutfleisch-Rieck, 2000) konnten zeigen, dass textsortenunabhängig die Funktion subordinierender Äußerungen darin besteht, einen so kodierten Sachverhalt aus der Ebene des globalen Kohärenzmusters auszugliedern. In narrativen Texten kann dies für Hintergrundinformation, aber auch für Teile der Ereigniskette gewünscht sein, z. B. wenn Ereignisse aus einer veränderten Perspektive erzählt oder berichtet werden sollen. Festzuhalten ist, dass sprachliche Ausdrucksmittel in Abhängigkeit von textstrukturellen Merkmalen funktional eingesetzt werden. Diese Relation gilt es zu bestimmen, eine unmittelbare Zuordnung bestimmter sprachlicher Formen zu bestimmten Texttypen ist nicht möglich.
4.
Weiterführende Fragestellungen
Der Begriff der Textsorte oder des Texttyps ist traditionell im Rahmen strukturbezogener Sprachbetrachtung verankert. Analysegegenstand sind die Strukturen auf den verschiede-
451
33. Erzählen und Berichten
nen Ebenen der Kommunikation zwischen sozialem Kontext und sprachlichem Produkt (vgl. Abschnitt 2.2). Inwiefern kann eine psycholinguistische, prozessbezogene Perspektive neue Aspekte in die Diskussion der Texttypologie einführen? Eine psycholinguistische Analyse stellt den einzelnen Sprecher an den Ausgangspunkt der Betrachtungen. Der Prozess der Textproduktion sollte unter dieser Perspektive als ein Problemlöseprozess rekonstruiert werden, in den die Gesamtheit der Faktoren, seien sie sozialer, kognitiver oder sprachlicher Natur, eingeht. Den Stellenwert des einzelnen Faktors in Relation zu anderen Faktoren, die jeweils spezifische Ausprägung und Gewichtung der einzelnen Faktoren zu bestimmen, ist die Aufgabe dieser Forschung. Gelingt es, den Gesamtprozess der Sprachproduktion zu modellieren, so kann die in der strukturellen Betrachtungsweise zwingende Trennung der unterschiedlichen Ebenen aufgehoben werden. In der einzelnen Realisation einer Redeabsicht werden alle relevanten Faktoren, die unter textlinguistischer Perspektive unterschiedlichen Ebenen zuzuordnen sind, zusammengeführt und aufeinander bezogen. Die Frage der Texttypen kann daher auch nicht am Ausgangspunkt psycholinguistischer Betrachtungen stehen. Texttypen lassen sich vielmehr im Resultat als spezifische Muster der Bearbeitung kommunikativer Aufgaben beschreiben. Ob man annimmt, dass diese Muster als Teil unseres prozeduralen, sprachbezogenen Wissens anzusehen sind, die gegebenenfalls als Schemata abgerufen werden können (vgl. Herrmann et al., 1992) oder ob man sie eher als jeweils aus der Aufgabenstellung resultierende abstraktere Prinzipien der Bedeutungsorganisation fasst (vgl. Carroll, 1993; v. Stutterheim, 1997), ist derzeit eine offene Frage. Wege zu einem Erkenntnisfortschritt liegen auch in der sprachvergleichenden Sprachproduktionsforschung und der Spracherwerbsforschung. Der Sprachvergleich kann Einsichten darüber geben, welche Rolle der Einzelsprache und dem kulturspezifischen Wissen bei der Lösung spezifischer kommunikativer Aufgaben zukommt (vgl. Carroll, 1993; v. Stutterheim & Lambert, i. Dr.). Der Spracherwerb, vor allem in späteren Phasen des Erwerbs, zeigt uns im Prozess der Ausdifferenzierung der verbalen Fähigkeiten den komplexen Planungsprozess in eine Abfolge stetig komplexer werdender Phasen zerlegt (Berman & Slobin, 1994; Hendriks, 1998).
5.
Literatur
Adamzik, K. (Hrsg.) (2000). Textsorten. Reflexionen und Analysen. Tübingen: Stauffenberg. Adamzik, K. (1991). Forschungsstrategien im Bereich der Textsortenlinguistik. Zeitschrift für Germanistik I, 1, 99⫺109. Anderson, A., Garrod, S. C. & Sanford, A. J. (1983). The accessibility of pronominal antecedents as a function of episode shifts in narrative text. Quarterly Journal of Experimental Psychology, 35A, 427⫺440. Ariel, M. (1990). Accessing noun-phrases antecedents. London: Routledge. Bamberg, M. (1987). The acquisition of narratives. Learning to use language. Berlin: de Gruyter. Berman, R. & Slobin, D. I. (Eds.) (1994). Relating events in narratives. A crosslinguistic developmental study. Hillsdale, NJ.: Erlbaum. Bliesner, T. (1980). Erzählen unerwünscht. Erzählversuche von Patienten. In K. Ehlich (Hrsg.), Erzählen im Alltag (pp. 143⫺178). Frankfurt a. M.: Suhrkamp. Brinker, K. (1992). Linguistische Textanalyse. Eine Einführung in die Grundbegriffe und Methoden. Berlin: Schmidt. Brown, G. & Yule, G. (1983). Discourse analysis. Cambridge: Cambridge University Press. Canisius, P. (Hrsg.) (1987). Perspektivität in Sprache und Text. Bochum: Brockmeyer. Carroll, M. (1993). Deictic and instrinsic orientation in spatial description. In J. Altarriba (Ed.), Cognition and culture. A cross-cultural approach to cognitive psychology (pp. 23⫺44). Amsterdam: North Holland. Carroll, M. & Timm, C. (i. Dr.). Erzählen, Berichten, Instruieren. In Enzyklopädie der Psychologie. Göttingen: Hogrefe. Dijk, T. A. van (1977). Text and context. Explorations in the semantics and pragmatics of discourse. London: Longman. Ehlich, K. (Hrsg.) (1980). Erzählen im Alltag. Frankfurt a. M.: Suhrkamp. Ehlich, K. & Rehbein, J. (1980). Sprache in Institutionen. In H. P. Althaus, H. Henne & H. E. Wiegand (Hrsg.), Lexikon der germanistischen Linguistik. Studienausgabe II (pp. 339⫺345). Tübingen: Niemeyer. Ehrich, V. & Koster, C. (1983). Discourse organization and sentence form: The structure of room descriptions in Dutch. Discourse Processes, 6, 169⫺195.
452 Gernsbacher, M. A. (1989). Mechanisms that improve referential access. Cognition, 32, 99⫺156. Givo´n, T. (1992). The grammar of referential coherence as mental processing instruction. Linguistics, 30, 5⫺55. Goldmann, S. R. & Varma, S. (1995). CAPing the construction-integration model for discourse comprehension. In C. Weaver, S. Mannes & C. Fletcher (Eds.), Discourse comprehension: Models of processing revisted (pp. 337⫺358). Hillsdale, NJ: Erlbaum. Große, E. U. (1976). Text und Kommunikation. Eine linguistische Einführung in die Funktionen der Texte. Stuttgart: Kohlhammer. Gutfleisch-Rieck, I. (2000). Zur Funktion von Subordinationen in deutschen und griechischen Erzählungen. Frankfurt a. M.: Peter Lang. Gülich, E. (1986). Textsorten in der Kommunikation. In W. Kallmeyer (Hrsg.), Kommunikationstypologie. Handlungsmuster, Textsorten, Situationstypen. (Jahrbuch 1985 des IDS) (pp. 15⫺46). Düsseldorf: Schwann. Gülich, E., Heger, K. & Raible, W. (1975). Linguistische Textanalyse: Überlegungen zur Gliederung von Texten. Hamburg: Buske. Habel, C. & Tappe, H. (1999). Processes of segmentation and linearisation in describing events. In R. Klabunde & C. v. Stutterheim (Eds.), Representations and processes in language production (pp. 117⫺152). Wiesbaden: Deutscher Universitätsverlag. Halliday, M. A. K. & Hasan, R. (1976). Cohesion in English. London: Longman. Hawkins, J. (1978). Definiteness and indefiniteness. A study in reference and grammatical prediction. London: Croom Helm. Heinemann, W. & Viehweger, D. (1991). Textlinguistik. Eine Einführung. Tübingen: Niemeyer. Hendriks, H. (1998). Reference to person and space in narrative discourse. A comparison of adult second language and child first language acquisition. Studi italiani di Linguistica Teorica e Applicata, nume´ro spe´cial, 67⫺87. Herrmann, T. & Grabowski, J. (1994). Sprechen. Psychologie der Sprachproduktion. Heidelberg: Spektrum. Herrmann, T., Kilian, E., Dittrich, S. & Dreyer, P. (1992). Was- und Wie-Schemata beim Erzählen. In G. Antos & H. P. Krings (Hrsg.), Textproduktion. Neue Wege der Forschung (pp. 147⫺158). Trier: Wissenschaftlicher Verlag. Hoffmann, L. (1984). Berichten und Erzählen. In K. Ehlich (Hrsg.), Erzählen in der Schule (pp. 55⫺ 66). Tübingen: Narr.
III. Sprachproduktion Hopper, P. J. (1979). Aspect and foregrounding in discourse. In T. Givo´n (Ed.), Discourse and syntax (pp. 213⫺241). New York: Academic Press. Hundsnurscher, F. (1994). Dialog-Typologie. In G. Fritz & F. Hundsnurscher (Hrsg.), Handbuch der Dialoganalyse (pp. 203⫺238). Tübingen: Niemeyer. Kallmeyer, W. & Schütze, F. (1977). Zur Konstitution von Kommunikationsschemata der Sachverhaltsdarstellung. In D. Wegner (Hrsg.). Gesprächsanalysen. Vorträge, gehalten anläßlich des 5. Kolloquiums des Instituts für Kommunikationsforschung und Phonetik, Bonn, 14.⫺16. Oktober 1976 (pp. 159⫺274). Hamburg: Buske. Klein, W. & Stutterheim, C. v. (1992). Textstruktur und referentielle Bewegung. Zeitschrift für Literaturwissenschaft und Linguistik, 86, 67⫺92. Labov, W. & Waletzky, J. (1967). Narrative analysis. In J. H. MacNeisch (Ed.), Essays on the verbal and visual arts (pp. 12⫺44). Seattle: American Ethnological Society. Lausberg, H. (1979). Elemente der literarischen Rhetorik. Eine Einführung für Studierende der klassischen, romanischen, englischen und deutschen Philologie. München: Hueber. Levelt, W. J. M. (1982). Linearization in describing spatial networks. In S. Peters & E. Saarinen (Eds.), Processes, beliefs and questions (pp. 199⫺200). Dordrecht: Reidel. Levelt, W. J. M. (1989). Speaking. From intention to articulation. Cambridge: MIT Press Lötscher, A. (1991). Thematische Textorganisation in deskriptiven Texten als Selektions-/Linearisierungsproblem. In K. Brinker (Hrsg.), Aspekte der Textlinguistik. (pp. 73⫺101). Hildesheim: Olms. Marslen-Wilson, W., Levy, E. & Tyler, L. K. (1982). Producing interpretable discourse. The establishment and maintenance of reference. In R. J. Jarvella & W. Klein (Eds.), Speech, place and action. Studies in deixis and related topics (pp. 339⫺ 378). Chichester: Wiley. Motsch, W. (Hrsg.) (1987). Satz, Text, sprachliche Handlung. (Studia Grammatica XXV) (pp. 11⫺ 79). Berlin: Akademie-Verlag. Paul, H. (1992). Deutsches Wörterbuch. Tübingen: Niemeyer. Quasthoff, U. (1980). Erzählen in Gesprächen. Tübingen: Narr. Rehbein, J. (1984). Beschreiben, Berichten und Erzählen. In K. Ehlich (Hrsg.), Erzählen in der Schule. (pp. 67⫺124). Tübingen: Narr. Rickheit, G. & Strohner, H. (1993). Grundlagen der kognitiven Sprachverarbeitung. Tübingen: Francke. Rolf, E. (1993). Die Funktionen von Gebrauchstextsorten. Berlin: de Gruyter.
34. Sprechen und Singen im Vergleich
453
Rumelhart, D. E. (1975). Notes on a schema for stories. In D. G. Bobrow & A. Collins (Eds.), Representation and understanding. Studies in cognitive science (pp. 211⫺236). New York: Academic Press.
Stutterheim, C. v. (i. Dr.). Zur Konzeptualisierung von Ereignissequenzen. In C. Habel & T. Pechmann (Hrsg.), Sprachproduktion. Wiesbaden: Deutscher Universitätsverlag.
Rummer, R., Grabowski, J., Hauschildt, A. & Vorwerg, C. (1993). Reden über Ereignisse. Der Einfluß von Sprechzielen, sozialer Nähe und Institutionalisiertheitsgrad auf Sprachproduktionsprozesse (Arbeiten aus dem Sonderforschungsbereich 245: Sprache und Situation, Bericht Nr. 56). Heidelberg.
Stutterheim, C. v. & Klein, W. (1989). Referential movement in descriptive and narrative discourse. In R. Dietrich & C. F. Graumann (Eds.), Language processing in social context (pp. 39⫺76). Amsterdam: North Holland.
Sandig, B. (1972). Zur Differenzierung gebrauchssprachlicher Textsorten im Deutschen. In E. Gülich & W. Raible (Hrsg.), Textsorten. Differenzierungskriterien aus linguistischer Sicht. (pp. 113⫺ 124). Frankfurt a. M.: Athenaeum-Verlag. Searle, J.R. (1976). A classification of illocutionary acts. Language in Society, 5, 1⫺24. Stein, N. L. & Trabasso, T. (1982). Children’s understanding of stories. In C. J. Brained & M. Pressley (Eds.), Verbal processes in children. Progress in cognitive development research. Berlin/New York: Springer. Stutterheim, C. v. (1997). Einige Prinzipien des Textaufbaus. Empirische Untersuchungen zur Produktion mündlicher Texte. Tübingen: Niemeyer.
Stutterheim, C. v. & Lambert, M. (i. Dr.). Crosslinguistic analysis of temporal perspective. Erscheint in H. Hendrix (Ed.). The structure of learner language. Tomlin, R. S. (1985). Foreground-background information and the syntax of subordination. Text, 5 (1/2), 85⫺112. Weinrich, H. (1964). Tempus. Besprochene und erzählte Welt. Stuttgart: Kohlhammer. Werlich, E. (1975). Typologie der Texte. Entwurf eines textlinguistischen Modells zur Grundlegung einer Textgrammatik. Heidelberg: Quelle & Meyer.
Christiane v. Stutterheim, Ute Kohlmann Universität Heidelberg (Deutschland)
34. Sprechen und Singen im Vergleich 1. 2.
6. 7.
Das Thema und sein Rahmen Ein bleibendes Experiment: „Pierrot Lunaire“ op. 21 von Arnold Schönberg Gemeinsame Wurzeln, getrennte Wege Singen ja, sprechen nein: Erworbene Sprachstörungen Singen ja, sprechen nein: Entwicklungsstörungen Fazit Literatur
1.
Das Thema und sein Rahmen
3. 4. 5.
Menschen räuspern sich und knirschen mit den Zähnen. Menschen klatschen in die Hände und scharren mit den Füßen. Menschen schmatzen beim Essen und rülpsen, wenn sie gegessen haben. Menschen brechen in schallendes Gelächter aus und schnipsen mit den Fingern. Auf vielfältige Art und Weise erzeugen Menschen Luftdruckschwankungen, die als Schall und Laut, Lärm und Geräusch von ihnen selbst und anderen Menschen wahrgenommen werden können. So
tragen Menschen zusammen mit vielen anderen Lebewesen und Dingen dazu bei, sich in der Welt akustisch bemerkbar zu machen. Da Menschen ihre Ohren nicht auf natürliche Weise schließen können, sind Momente der absoluten Stille im Wachzustand selten. Zwei Arten der Lautproduktionen zeichnen den Menschen vor anderen Lautproduzenten aus: Sprechen und Singen. In beiden Fällen setzt der Mensch seinen Vokaltrakt ein, um absichtsvoll Laut- oder Tonfolgen zu produzieren, die andere Menschen entweder als Bedeutungen gesprochener Sprache und/ oder als Melodien von Gesungenem erkennen (können). Sprache und Musik sind seit Mitte des 20. Jahrhunderts stärker technischen Neuerungen und in jüngster Vergangenheit einer immer stärkeren Medialisierung ausgesetzt. So stellt es kein technisches Problem mehr dar, Sprache und auch Musik zu synthetisieren. Die dann künstlich produzierte Stimme kann z. B. Laut- und Tonfolgen von sich geben, die schwer zu unterscheiden sind von ihrer natürlichen Vorlage und sich als
454 sprachliche und musikalische Partner zum Vergnügen oder fürs Geschäft anbieten. Die Kommunikation als solche ist kein menschliches Privileg. Einzigartig bleibt, dass der Mensch im ausgewachsenen Zustand selbst bestimmen kann, ob er eine an ihn gerichtete Frage mit Schweigen quittiert oder sie wie aus der Pistole geschossen nach bestem Wissen und Gewissen wahrheitsgemäß oder gegen bestes Wissen und Gewissen unwahrheitsgemäß beantwortet. Die Sprache des Menschen unterliegt der willkürlichen Kontrolle. Sie wird erst dann zu einem Privileg, wenn ihr Einsatz zur Disposition steht. Nur Menschen können nach Ploog (1994) ihre Stimme in einer doppelten Funktion einsetzen: als Laute für Gedanken und als Töne für Melodien. Bezogen auf die Evolution des Stimmapparates resümiert er: „Zum einen besteht bei bestimmten Tiergattungen über sehr lange Zeiträume hinweg ein Selektionsdruck auf die sich ständig verfeinernde audio-vokale Kommunikation, insbesondere bei sozial lebenden Säugetieren. Zum andern spiegeln die Transformationen im peripheren Organ die koevoluierenden zentralnervösen bzw. zerebralen Transformationen wider, die das zunehmend komplexere Effektor-Organ zu seiner Leistung bringen und in der arteigenen menschlichen Fähigkeit gipfeln, sprechen und singen zu können.“ (Ploog, 1994: 42)
Die Grenze zwischen Sprechen und Singen ist nicht einfach zu ziehen, weil gesprochene Sprache fast immer Anteil an Musik hat und Gesang in seiner elementaren Form mit einem sprachlichen Text verwoben ist. Die Musik in und an der Sprache ist die als Prosodie bezeichnete Sprechmelodie, durch die Sprachlaute nicht monoton wie Perlen an einer Kette aufgezogen werden. Die Sprache in und an der Musik lässt sich z. B. an dem Singen von Silben festmachen, die in bestimmten Tonabständen aufeinanderfolgen und durch ihre sprachspezifischen Betonungsmuster den musikalischen Rhythmus mitbeeinflussen können. Je nachdem, in welchem Kulturkreis der Mensch aufgewachsen ist, wird er ein eigenes Gespür für Harmonie und Disharmonie entwickelt haben (Bruhn, 1988) und Bekanntes und Unbekanntes in Sprache und Musik unterscheiden können. In unserem Beitrag geht es um Grenzverläufe, die noch weitgehend unbekannt sind. Sprechen und Singen sind besondere menschliche Fähigkeiten, die Gemeinsamkeiten und Unterschiede besitzen. Wo hören ihre Ge-
III. Sprachproduktion
meinsamkeiten auf, und wo fangen ihre Unterschiede an? Die Grenze zwischen Sprechen und Singen sieht nicht immer gleich aus. Sie ändert ihren Verlauf, je nachdem, wie wir auf sie zugehen. Der menschliche Sprechapparat und die zentralnervösen Bedingungen für seinen Einsatz erlauben – im Normalfall – sowohl Sprechen als auch Singen. Wenn wir, auf der Suche nach einer Grenze, mit der Evolution des Menschen starten, dann verraten Knochenfunde, dass erst seit etwa 150000 Jahren der Sprechapparat so wie bei den heutigen Menschen ausgebildet ist. Vor dem Hintergrund der evolutionsgeschichtlichen Entwicklung der aufsteigenden Wirbeltierreihe sind beim Menschen u. a. die morphologischen Veränderungen am Kehlkopf und die Veränderungen des Sprechapparates im Vokaltrakt dafür verantwortlich, dass eine äußerst präzise Feinabstimmung der sogenannten Stimmbänder möglich ist (vgl. Lieberman, 1984; Klix & Lanius, 1999). Allerdings kann der Sprechapparat allein nicht dafür verantwortlich sein, dass der Homo sapiens überlebt hat und andere Formen der Spezies Mensch wie der Neanderthaler ausgestorben sind. Auch wenn bei Menschen vom Typ Neanderthaler der Abstieg des Kehlkopfes im Sprechapparat noch nicht das Ausmaß heutiger ausgewachsener Menschen erreicht hatte, dürfte eine Lautproduktion möglich gewesen sein, die vom Menschenaffen deutlich verschieden war. Welchen Schluss können wir daraus für die Frage ziehen, ob in der Evolution des Menschen das Sprechen dem Singen oder das Singen dem Sprechen vorausgegangen ist? Erinnert sei hier an die aneinander anknüpfenden Mutmaßungen der Philosophen J. J. Rousseau und J. G. Herder über den Ursprung der menschlichen Sprache und Musik. Rousseau als ein Vertreter der französischen Nachahmungsästhetik begriff Musik als eine „natürliche Sprache“, die nicht nur Naturlaute nachahmt, sondern auch die menschlichen Affekte. Nach dieser Auffassung lassen sich laut Rousseau die emotionalen Lautäußerungen des Menschen bis hin zu einer „Ursprache“ zurück verfolgen. Herder (1772) spann diesen Gedanken in seiner Abhandlung über den „Ursprung der Sprache“ weiter, indem er die These vertrat, dass sich Musik aus der Sprache bzw. dem erregten Sprechen entwickelte. In seiner Betrachtung „Kritische Wälder“ schrieb Herder dazu:
34. Sprechen und Singen im Vergleich „Und wenn nun bewiesen werden kann, daß die Menschen nicht anders, als durch den Weg der Sprache auf die Tonkunst gekommen sind: so folgt eben damit, daß Accente einzelner Machttöne Ursprung der Musik gewesen.“ (Herder, 1769: 115)
Auch genetische Analysen über den Verwandtschaftsgrad von Sprachgemeinschaften dürften bei der Frage nach der Entwicklungsgeschichte von Sprechen und Singen nicht entscheidend weiterführen (vgl. CavalliSforza, 2001). Vielleicht ist die Frage nach der Priorität falsch gestellt, weil beide Formen der vokalen Aktivität aus einer gemeinsamen Form hervorgegangen sind und sich schrittweise ausdifferenziert haben. So kommt es, dass die ungeklärte und ungesicherte Datenlage immer wieder Anlass zu wilden Spekulationen über den singenden oder sprechenden Menschen im „Urzustand“ gegeben hat und noch gibt. Darüber hinaus ist Vorsicht geboten, die Vokalmusik – das Singen – zur alleinigen Urform des musikalischen Ausdrucks der Spezies Mensch zu erklären. Beim sprechenden Menschen ist die Instrumentalmusik sicherlich jüngeren Datums als die Vokalmusik. Folgt daraus, dass der noch nicht sprechende Mensch musikalisch abstinent gewesen ist? Sehr wohl können Homo erectus und Homo habilis mit ihren Gliedmaßen musikalisch tätig gewesen sein. Die Bearbeitung von Werkzeugen aus Stein und Knochen lassen feinmotorische Fertigkeiten erkennen, die auch anderen Zwecken wie rhythmischem Klatschen gedient haben könnten. Auch das sind Mutmaßungen, die eine gewisse Plausibilität an sich haben, aber empirisch nicht eindeutig geklärt werden können. Günstiger sieht die Datenlage aus, wenn wir statt des phylogenetischen (vgl. Rösing & Roederer, 1985) einen ontogenetischen Ausgangspunkt für die Grenzfrage wählen. Nach der Geburt ist das Schreien der erste stimmliche Ausdruck eines jeden Menschen, gefolgt von Lallen und Babbeln. Diese stimmlichen Aktivitäten erlangen im ersten Lebensjahr einen hohen Differenzierungsgrad. Mütter meinen, aus der Art des Schreiens ihrer Babies erschließen zu können, ob diese beispielsweise hungrig oder einfach nur quengelig sind. Die Babies entdecken auch, wie lustvoll die Betätigung der eigenen Sprechorgane ist. Vor dem Einschlafen führen sie funktionslos und dennoch lustvoll endlos erscheinende
455 Lallmonologe. Dabei sind die entstehenden Lautfolgen noch nicht mit Konzepten verbunden, die einer anderen Person als Botschaft übermittelt werden sollen. Schreien, Lallen und Babbeln sind im ersten Lebensjahr Meilensteine der vokalen Entwicklung, die überall auf der Welt gleichartig in Erscheinung treten. In diesem Entwicklungsstadium gehören alle Babies der Welt einer Kontinente und Länder sprengenden Lautgemeinschaft an, die keine Grenze zwischen sprachlicher und musikalischer Betätigung kennt. Die Lautproduktionen folgen eigenen Gesetzen, die noch nicht geprägt sind von den Besonderheiten sprachlicher und musikalischer Kulturen. Beim Übergang zur kultivierten Lautproduktion verlassen Kinder das Land der unbegrenzten Möglichkeiten. Sie stellen sich auf die Laute ein, die in ihrer sozialen Umgebung bevorzugt als Bausteine für die verschiedenen Ebenen sprachlicher Einheiten gebraucht werden. So gerät die Lautproduktion unter das Diktat von Konventionen und Regeln einer Sprachgemeinschaft, denen sich kein Kind entziehen kann. Leitet dieser Vorgang des Hineinwachsens in eine Sprachkultur auch eine gewisse Trennung von Sprache und Musik ein? Wie sieht der weitere Entwicklungsverlauf bis hin zum ausgewachsenen Zustand eines sprechenden und singenden Menschen aus? Gibt es Menschen, denen das Tor zur Sprache in ihrer Entwicklung verschlossen bleibt und die sich trotzdem musikalisch weiterentwickeln? Gibt es Menschen, die durch Hirnschädigung die Kontrolle über ihre gesprochene Sprache verlieren, aber trotzdem weiterhin singen können? Gibt es auch den umgekehrten Fall, die Kontrolle über das Singen zu verlieren, ohne dass Einbußen im Gebrauch gesprochener Sprache zu verzeichnen sind? Diese Fragen führen uns zur Lokalisation der Bereiche, die im menschlichen Gehirn für die Lautproduktion von gesprochener und gesungener Sprache verantwortlich sind. Sie führen uns auch zu den Modellen, mit denen die Vorgänge des Sprechens und Singens im zeitlichen Ablauf dargestellt werden. Kann es ein gemeinsames Modell für beide Formen lautlicher Produktion geben? Oder sind beim erwachsenen Menschen Sprechen und Singen so verschieden, dass auch unterschiedliche Produktionsmodelle notwendig sind? Die Erörterung über Gemeinsamkeiten und Unterschiede von Sprechen und Singen beginnen wir mit der Betrachtung eines musi-
456
III. Sprachproduktion
kalischen Werkes, dem Opus 21 „Pierrot Lunaire“ des Komponisten Arnold Schönberg. In dieser Komposition wird dem künstlerischen Interpreten eine besondere Art und Weise des musikalischen Sprechens abverlangt. Es wirft ein Licht auf die Fragen, an denen die wissenschaftliche Untersuchung von Sprache und Musik im Allgemeinen und Sprechen und Singen im Besonderen nicht vorbeigehen sollte.
2.
Ein bleibendes Experiment: „Pierrot Lunaire“ op. 21 von Arnold Schönberg
Beim alltäglichen Sprechen reden wir, „wie uns der Schnabel gewachsen ist“. Der Vorgang des Sprechens besteht darin, dass gedankliche Inhalte in sprachliche Formen umgesetzt werden. So wird aus dem freien Gedankenspiel eine festgefügte Form, die bestimmten Regeln folgt. Sprachliche Bausteine verschiedener „Korngröße“ werden aus dem Gedächtnis abgerufen und so miteinander kombiniert, dass daraus konventionelle Strukturformen entstehen, deren Bedeutungen in einer Sprachgemeinschaft geteilt werden. Die sprachliche Strukturform hat zwei Ebenen: Die lexikalisch-grammatische, bei der es um Wörter geht, die zu größeren sprachlichen Einheiten wie Phrasen und Sätzen verbunden werden, und die lautlich-akustische Seite, bei der die lexikalisch-grammatische Struktur in einem Zeitabschnitt motorisch ausgeführt, d. h. artikuliert wird. Natürliches Sprechen ist nicht bis in das letzte Detail festgelegt, sondern wird improvisiert. So entsteht eine individuelle Sprechmelodie in einem individuell gewählten Tempo. Das Sprachprodukt – die gesprochene Äußerung – wird nicht wie die Partitur eines Musikstückes festgehalten. Das Produkt kommt und geht wieder, während hinter dem notierten Musikstück die Idee steht, es mehr als einmal zum Erklingen zu bringen. Der Psychologe und Philosoph Carl Stumpf (1924) hat innerhalb seiner Tonpsychologie den grundlegenden Unterschied zwischen Sprechen und Singen sinngemäß so auf den Punkt gebracht: Beim Singen besteht die Melodie aus – im Allgemeinen – genau definierten Tonintervallen. Beim Sprechen kommt es nicht auf die Intervalle zwischen aufeinander folgenden Tönen an, sondern auf den kontinuierlichen Fluss von Tonhöhen-
veränderungen, deren Ausmaß von der individuellen Stimme des Sprechers und seinen Vorstellungen von wichtigen und unwichtigen Teilen der Äußerung abhängt. Was der Sprecher stärker oder schwächer betont, bleibt ihm nicht vollständig selbst überlassen, sondern ist innerhalb eines Wortes bereits durch sprachspezifische Akzentregeln festlegt. „Beim Sprechen benützen wir außer sprunghaften fortwährend stetige Tonveränderungen, beim Singen – prinzipiell wenigstens – nur spru nghafte. Beim Sprechen sind gerade die stetigen Veränderungen, auch die ganz geringfügigen, ein wichtiges Ausdrucksmittel, sie beseelen die Sprache. Beim Singen dagegen, wie in der Musik überhaupt (abgesehen von den primitiven Formen), dürfen sie nur ausnahmsweise vorkommen.“ (Stumpf, 1924: 2)
Diese Aussage kann durch das Werk „Pierrot Lunaire“ des Komponisten Arnold Schönberg aus dem Jahre 1912 veranschaulicht werden. Der Zyklus erschien 1914 unter folgendem Titel: Dreimal sieben Gedichte aus Albert Girauds Pierrot Lunaire op.21. Deutsch von Otto von Hartleben. Für eine Sprechstimme, Klavier, Flöte (auch Piccolo), Klarinette (Bassklarinette), Geige (auch Bratsche) und Violoncell. Im Vorwort zur Partitur gibt der Komponist genaue Anweisungen, wie die Sprechstimme das Notierte in eine Sprechmelodie umwandeln soll. „Die in der Sprechstimme durch Noten angegebene Melodie ist (bis auf einige einzelne besonders bezeichnete Ausnahmen) nicht zum Singen bestimmt. Der Ausführende hat die Aufgabe, sie unter guter Berücksichtigung der vorgezeichneten Tonhöhen in eine Sprechmelodie umzuwandeln.[…] Es wird zwar keineswegs ein realistisch-natürliches Sprechen angestrebt. Im Gegenteil, der Unterschied zwischen gewöhnlichem und einem Sprechen, das in einer musikalischen Form mitwirkt, soll deutlich werden. Aber es darf auch nie an Gesang erinnern.“ (Schönberg, 1914: 1)
Ist das, was Schönberg von der Sprechstimme einfordert, überhaupt realisierbar? Die Sprechmelodie, die Schönberg notiert, ist im Notentext formal nicht von einer Gesangsmelodie zu unterscheiden. Schönberg vermengt die jeweiligen Charakteristika von Sprechen und Singen im Fluss der Komposition, was bedeutet, dass sprunghafte wie auch stetige Tonhöhenveränderungen gleichermaßen zum Einsatz kommen.
34. Sprechen und Singen im Vergleich
Die Stimme soll im Zusammenspiel mit den anderen Instrumenten weitgehend gesprochen klingen. Tonhöhenverlauf, Rhythmus und die Dynamik des Stimmeinsatzes sind festgelegt. Eine Erklärung für die Forderung nach einer Sprechstimme im Musikstück liegt in der zeitbezogenen kritischen Abkehr des Komponisten vom vorherrschenden Gesangsideal seiner Epoche – dem Belcanto. Dieser sogenannte Schöngesang ist für Schönberg in dem angestrebten künstlerischen Ausdruck zum hohlen Pathos geworden. Ein scheinbar unantastbares ästhetisches Klangideal wurde damit in Frage gestellt. Der nach Wahrhaftigkeit ringende Ausdruck liegt für Schönberg mehr im gesprochenen Wort als in der schön gesungenen Melodielinie. Der alleinige natürliche Ausdruck des gesprochenen Wortes reicht darüber hinaus aber nicht aus, weil in Verbindung mit den mitwirkenden Instrumenten keine ausreichend präzise festliegende musikalische Struktur gewonnen werden kann. Deshalb nimmt er aus der Musik in die Sprechstimme das hinein, was für eine überzeugende musikalische Gestaltung des Instruments Sprechstimme aus seiner Sicht notwendig ist: die festgelegt wiederholbare Kontrolle des Tonhöhenverlaufs. Schönberg war in der Musikgeschichte nicht der erste, der die Grenze zwischen Rede und Gesang im vokalen Werk überschreiten wollte. Engelbert Humperdinck hat in der
Abb. 34.1
457 Oper „Königskinder“ (1897) 15 Jahre vor Schönbergs „Pierrot Lunaire“ die üblich verwendete Notierungsform für die Singstimme so erweitert, dass der Deklamationsrhythmus einer sprechenden Singstimme genau festgeschrieben ist, die Tonhöhe jedoch – anders als bei Schönberg – nur ungefähr angegeben wird. Wie groß bleibt bei einer Aufführung der Abstand zwischen Ideal und Wirklichkeit? Anhand dieses kurzen Notenbeispiels aus dem dritten Pierrot-Melodram mit dem Titel „Der Dandy“ ist zu ersehen, dass der Tonumfang für diesen Ausschnitt über einen Oktavabstand hinausgeht. Der verlängerte Notenwert, wie hier auf der Silbe „ta“ des Wortes phantastischen mit der vorgegebenen Tonhöhe f 2, liegt weit außerhalb des normal gebräuchlichen Sprechstimmenbereiches. Erschwerend ist die dynamische Forderung eines forte-piano auf diesem einzelnen Ton. Soll sich der gesprochene Ausdruckscharakter für die Silbe „ta“ auf f 2 erhalten, dann müsste „ta“ entweder tiefer intoniert werden und der Notenwert behält seine dynamische Entwicklung weitestgehend bei, oder aber der Ton wird zielsicher, aber zeitlich verkürzt intoniert. Bereits im Jahre 1925 ist der Musikwissenschaftler Wilhelm Heinitz anhand zweier Tondokumente der Frage nachgegangen, inwiefern die erreichten Tonhöhen der Sprechstimme mit dem vorgegebenen Notentext
458
III. Sprachproduktion
übereingestimmt haben. Begutachtet wurden zwei Aufnahmen der „Serenade“ (Nr.19) aus „Pierrot Lunaire“. Das Ergebnis ist aufschlussreich. Die exakte Übereinstimmung war nur in 5 % der Vergleichsfälle gegeben. Etwas günstiger sah es aus, wenn nicht das genaue Treffen der Tonhöhe, sondern die gesungene Melodierichtung als der relative Tonhöhenverlauf zum Vergleichsmaßstab herangezogen wurde. Die Interpretation stimmte bei dem weicheren Kriterium wesentlich besser mit der Notation überein. Heinitz schreibt dazu: „Die eine Sprecherin (ein exzentrischer Sprechtypus) bewegte sich durchwegs zwei bis vier Halbtöne über oder unter der Notierung. Immerhin zeigt sich in vier Fünfteln aller Fälle wenigstens noch gleichsinniger Wechsel der Auf- und Niederbewegungen der Notenreihe mit Schönberg. Die andere Sprecherin hatte bei der öffentlichen Aufführung unter Schönbergs Leitung ebenfalls sehr starken Erfolg. Die genaue Feststellung ihrer Sprechtonbewegung zeigte jedoch, daß sie überhaupt nur fünf Prozent der Tonhöhen des Notentextes genau wiedergab, und daß sie sich im Durchschnitt zwischen vier und sechs Halbtönen davon entfernte.“ (Heinitz, 1926).
Sind die Interpretationen ein dreiviertel Jahrhundert nach der Untersuchung von Heinitz exakter geworden, ohne dass aus dem Sprechen ein Singen geworden ist? Aufnahmen, mit denen diese Frage empirisch beantwortet werden könnte, gibt es in Hülle und Fülle, von professionellen Gesangs- wie Sprechstimmen, jedoch bemerkenswerter Weise mehr von Frauenstimmen als von Männerstimmen. An diesem Punkt ergibt sich noch ein weiteres Problem. Eine geschulte Singstimme spricht erfahrungsgemäß auch eher sängertypisch, und eine geschulte Sprechstimme singt meist nicht gänzlich wie eine geschulte Singstimme. Dieser Umstand wirkt sich zwingend auf die künstlerische Umsetzung aus. Wer alte Aufnahmen von rezitierenden Schauspielern aus den Anfangszeiten elektrischer Schallaufzeichnungen anhört, wundert sich über das stark Pathetische im Sprechen. Hauptmerkmal sind die Vokalverlängerungen, die das Sprechen in einen Sing-Sang verwandeln. Dieses Pathos ist uns heutzutage – zumindest im Deutschen – fremd, ja sogar suspekt geworden. Die zu transportierende Emotionalität scheint zu überhöht und wirkt
deshalb oft lächerlich und unecht. Dieses sich verändernde ästhetische Empfinden hat das Pathetische beim Sprechen auf der Bühne ins Abseits gedrängt. Natürlichkeit wird angestrebt, auch wenn sich dabei das akustische Sprachverständnis für die Zuhörerschaft verringert. Das durch Vokaldehnung getragene gesangliche Pathos wirkt dagegen raumfüllend bis hinein in die letzte Reihe der obersten Ränge. Ermöglicht wurde die Abkehr vom Pathos auf der Bühne und in der Öffentlichkeit entscheidend durch die bahnbrechenden audiotechnischen Möglichkeiten des 20. Jahrhunderts. Jede Stimme, und sei sie noch so dünn, kann heutzutage, mikrofonal verstärkt, groß gemacht und manipuliert werden, indem ihr Volumen, ihre Klangfarbe und ihre Dynamik künstlich ausgestaltet werden. Denkbar wäre also eine Aufnahme von „Pierrot Lunaire“ mit rein synthetisierter Stimme, um damit eine perfekte Tonhöhenwiedergabe der Notationsvorlage zu gewährleisten. Fraglich bleibt, ob sich das ausdrucksstarke Moment der an ihre Grenzen gehenden Stimme erhalten lässt. Wir sind gespannt, ob und wann eine solche Interpretation vorgelegt werden wird. Das künstlerische Experiment mit der Sprechstimme in Schönbergs Werk ist in dieser weiter entwickelten Form des Melodrams zu Beginn des 20. Jahrhunderts ein vereinzeltes Experiment geblieben. In späteren Werken, wie z. B. der unvollendeten Oper „Moses und Aron“ (1930⫺32) wie auch „A survivor from Warsaw“ op. 46 (1947), hat Schönberg die Sprech- und Singstimme bewusst kontrastiv zueinander eingesetzt. Die Erfahrungen aus den Aufführungen von „Pierrot Lunaire“ können wissenschaftlich bedeutsam werden, wenn einem klar wird, dass der Grenzverlauf zwischen Sprechen und Singen in die eine oder andere Richtung verschiebbar sein kann. Trotz des hohen Anspruchs von Virtuosität an die Sprechstimme dokumentieren viele Tonaufnahmen und Aufführungskritiken die erfolgreiche und ausdrucksstarke künstlerische Umsetzung des Werkes, die immer auch ein zeitgebundenes Zeugnis des ästhetischen Geschmacks von Singen und Sprechen ist. Ganz aufheben können wir Menschen die Grenze zwischen Sprechen und Singen nicht. Wir können Sprache in Musik und Musik in Sprache verwandeln, jedoch nicht gleichmachen. Ein Punkt des Hinüberwechselns in eine andere Qualität bleibt letztendlich bestehen, wie es speziell auch auf das Sprechen und Singen zutrifft.
34. Sprechen und Singen im Vergleich
3.
Gemeinsame Wurzeln, getrennte Wege
Von zwei Richtungen aus kann man die Entwicklung von menschlichen Individuen erforschen (Deutsch, 1984). Die eine Richtung führt von oben von den Zielzuständen aus, auf die die Entwicklung hinführt, nach unten zu den Wurzeln, aus denen Entwicklung hervorgeht. Die andere Richtung schlägt den umgekehrten Weg ein. Sie beginnt bei den Wurzeln und versucht zu beschreiben und zu erklären, wie aus Anfängen nach und nach Zustände entstehen, die entweder ohne einschneidende Veränderungen überdauern oder sich zurück entwickeln. Welche Richtung wollen wir einschlagen, wenn wir die Entstehung von Sprache und Musik in der Ontogenese miteinander vergleichen wollen? Ist nicht der Weg von oben nach unten nur die logische Umkehrung des Weges von unten nach oben? Führen beide Wege nicht zu annähernd gleichen Ergebnissen? Aus entwicklungspsychologischer Sicht sind die beiden Wege nicht austauschbar. Wie sehen die Zielzustände für die Entwicklung von Sprache und Musik in unserer und anderen Kulturen aus? Sprechenkönnen ist eine Grundvoraussetzung, um als Individuum an sozialen Prozessen teilnehmen zu können. An der Art, wie ein Mensch seine Sprache(n) beherrscht, wird seine Zugehörigkeit zu sozialen Gruppierungen festgemacht, beispielsweise wenn er da, wo er wohnt, als Einheimischer oder aber als Zugezogener angesehen wird. Der „native speaker“ – so wollen wir hier verkürzt das Erreichen eines Zielzustandes in der Sprachentwicklung kennzeichnen – fühlt sich in einer (oder mehreren) Sprache(n) zu Hause und trägt sie überallhin mit sich herum. Wie heißt das musikalische Gegenstück zum „native speaker“? Gibt es einen „native musician“? Der Begriff ist vermutlich neu und dürfte keine Chance haben, in die Wissenschafts- oder Alltagssprache einzugehen. In unserer Kultur wird die Musik als eine Art Luxus betrachtet. Sie gehört in den Bereich des künstlerisch- ästhetischen Vergnügens und ist nicht zuletzt auch durch gesellschaftliche Gründe des Konsums zu einem profitablen Geschäft geworden. Niemand erwartet, dass alle, die sprechen können, sich auch aktiv oder passiv mit Musik beschäftigen. Gesprochen wird immer und überall, gesungen am häufigsten noch in den Medien, manchmal in der Kirche und bei Geburtstagsfesten.
459 Der ontogenetische Zielzustand von Sprechen und Singen ist grundverschieden. Fast jeder wird zum „native speaker“, nur wenige werden zum „native musician“. Die musikalische Betätigung, vor allem das Singen, hält sich bei ausgewachsenen Individuen in unserer Kultur in Grenzen, während Sprechen eine Grundvoraussetzung für den sozialen Verkehr ist. Hierbei wird noch ein weiterer Unterschied zwischen Sprechen und Singen deutlich. Sprechen ist eine Tätigkeit, die eine einzelne Person meistens in Interaktion mit anderen Personen ausübt. Das individuelle und das soziale Moment gehen beim Sprechen eine wechselseitige Verbindung ein. Jeder Sprecher ist ein Solist, der ein Auditorium braucht. Wenn ihm keine andere Person zuhört, kann er sich immerhin noch selbst sprechen hören. Auch Singen kann eine solistische Tätigkeit sein. Sie ist jedoch stärker mit Gefühlen der Scham und Hemmung verbunden, die dann entstehen, wenn der Singende sich durch Zuhörer beobachtet und vielleicht auch bewertet fühlt. Wenn Erwachsene überhaupt noch singen, dann eher nicht solistisch, sondern in der Gruppe als z. B. grölende Fangemeinde im Fußballstadion (vgl. Kopiez, 1998), als ad hoc Ensemble beim Geburtstagsständchen oder als semiprofessioneller Extrachor in einer Opernaufführung. In der Gruppe kann nicht jeder singen, wie „ihm der Schnabel gewachsen ist“. Im Gegensatz zum solistischen Sprechen müssen die gesanglichen Aktivitäten koordiniert werden durch einen gemeinsamen Takt, feststehende Melodien und einen vereinbarten Text. Neben der Idee, dass ein Musikstück im Vergleich zu einer sprachlichen Äußerung mehr als einmal erklingen soll, gibt es also einen zweiten Grund, warum sich die Motive beim Singen und Sprechen mit der Zeit unterschiedlich entwickeln. Wer die musikalische und sprachliche Entwicklung vergleichend von oben nach unten analysieren will, steht vor einer doppelten Aufgabe. Er muss nicht nur erklären wollen, ob und wie es zu relativ überdauernden Zielzuständen kommt, sondern wie die großen interindividuellen Unterschiede zwischen den Bereichen Sprache und Musik entstehen. Daran schließt sich noch eine weitere Frage an. Ist das ungleiche Verhältnis, in dem die Tätigkeiten des Sprechens und Singens stehen, ein kulturübergreifendes Phänomen, oder lässt sich beispielsweise zeigen, dass dieses Verhältnis ausgewogen ist bzw. war, wenn die Mög-
460 lichkeiten zur technischen Reproduktion und Produktion von Musik fehlen? Wir machen uns die Aufgabe etwas leichter, wenn wir die andere Richtung einschlagen, um das ontogenetische Verhältnis von Sprechen und Singen zu beleuchten. Von unten betrachtet, entwickeln sich Sprechen und Singen aus den gleichen Wurzeln. Der sprechende und der singende Mensch ist kein reines Naturprodukt, sondern eine Differenzierung, die das Zusammenspiel von biologischen Faktoren und sozial-kulturellen Rahmenbedingungen betrifft. Biologische Faktoren sind hier die Fähigkeiten zum stimmlichen Eindruck und stimmlichen Ausdruck. Sozial-kulturelle Rahmenbedingungen betreffen vor allem die zwischenmenschliche Interaktion mit Partnern, die sich intensiv um das Wachsen und Gedeihen eines Kindes kümmern. Bereits im ersten Lebensjahr ist das Kind kein Spielball von Einflüssen, denen es auf Gedeih und Verderb ausgeliefert ist. Es kann – in Grenzen – seine Entwicklung selbst mitbestimmen. Die Stimme ist in der Entwicklung der natürliche Weg, aber keineswegs der einzige Weg zur Sprache. Kinder, die ohne ein funktionstüchtiges Gehör geboren werden, schreien, lallen und babbeln. Dies ist ein Beleg dafür, dass die Lauterzeugung in den ersten Lebensmonaten sich weitgehend unabhängig von der Lautwahrnehmung entwickelt. Doch von einem bestimmten Zeitpunkt an, noch vor Ende des ersten Lebensjahres, verkümmert die Lauterzeugung. In der Entwicklung springt dann die visuelle Modalität ein, wenn der Weg über die Stimme in eine Sackgasse führt, weil der expressive Ausdruck kein passendes modalitätsgleiches Gegenstück in der Rezeption hat. Die Sprachentwicklung hält verschiedene Wege offen, die zielführend sind. Allerdings läuft der primäre Weg über die Stimme. Die rezeptive und die expressive Seite entwickeln sich zunächst zeitlich versetzt unabhängig voneinander, bis sie miteinander in Kontakt treten. Dieser Kontakt hat weitreichende Folgen. Etwa von der Mitte des ersten Lebensjahres an beginnen Babies, gehörte Laute nachzuahmen. So stellt sich nach und nach die eigene Lauterzeugung auf ein bestimmtes Lautrepertoire ein. Es ist das Lautrepertoire, das die Sprache(n), mit denen ein Baby in Kontakt kommt, aus der Fülle möglicher Sprachlaute anbietet. Die Auswahl geschieht, bevor die Laute neben ihrer expressiven Funktion auch als Wort eine referentielle Funktion erhalten, d. h. symbolischer Aus-
III. Sprachproduktion
druck von Bedeutungen und Platzhalter von Objekten und Ereignissen sind. Dieser Meilenstein in der Sprachentwicklung eines jeden Menschen wird dadurch vorbereitet, dass die Lautformen die Oberhand gewinnen, die von einer Sprachgemeinschaft geteilt und in bestimmter Gestalt als Wort bedeutungstragend eingesetzt werden (MacNeilage et al., 2000). So stellt das Kind anhand seiner bereits kultivierten Lautproduktion unter Beweis, dass es die Eintrittskarte zur Bedeutung von Wörtern schon erworben hat. Mit Stimme allein ist allerdings das Problem, wie Laute und Bedeutungen über die Form von Wörtern miteinander verbunden sind, nicht lösbar. Die Lautentwicklung muss mit anderen Entwicklungsvorgängen Kontakt aufnehmen, damit über Synergien Neues entstehen kann. Welches sind die relevanten anderen Entwicklungsvorgänge? Hier sind an erster Stelle die kognitive und die soziale Entwicklung zu nennen, die als Paten der Wortentwicklung und später auch der Grammatikentwicklung auftreten. Beim ersten Wort, das ein Kind nicht gedankenlos nachplappert, sondern bedeutungsvoll artikuliert, tritt ein kultivierter Stimmlaut in Kontakt mit einem Konzept, das etwas Wahrgenommenes oder Vorgestelltes festhält. So entsteht im Verlauf des zweiten Lebensjahres beim Kind die Idee, dass jedes Ding seinen Namen hat, also die erfahrbare Welt in Sprache (Worten) darstellbar ist. Die Beziehungen zwischen Wort und Konzept konstruiert das Kind nach Maßgabe der Möglichkeiten, sich anderen Personen gegenüber verständlich zu machen und andere Personen zu verstehen. Das soziale Feld des Sprachgebrauchs unterstützt also auch auf der Ebene der Beziehung zwischen Wörtern und Konzepten die Konventionalisierung des Ausdrucks. Die für die Entwicklung so notwendigen Ecken und Kanten, die am Beispiel von Wortneubildungen deutlich in Erscheinung treten, werden mehr und mehr abgeschliffen. Nicht alle Idiosynkrasien verschwinden. Doch der Entwicklungstrend geht dahin, dass Idiosynkratisches im Konventionellen aufgeht. Auch jenseits der Kindersprache bleibt die Sprachentwicklung offen für Neues, allerdings in einem Flussbett, das durch Konventionen und Regeln stark reguliert ist. Das gilt insbesondere für die Verbindung von Worten zu größeren Spracheinheiten wie Phrasen und Sätzen, d. h. die grammatische Seite des Sprachgebrauchs. In der Entwicklung fällt sie nicht als Geschenk vom Himmel, sondern wird vom Kind konstru-
34. Sprechen und Singen im Vergleich
iert, nachdem es das Wort-Konzept-Problem im ersten Anlauf gemeistert hat. Wie schreitet die Sprachentwicklung, von unten betrachtet, voran? Die Sprachentwicklung ist eine Reise, die, zeitlich versetzt, von unterschiedlichen Startpunkten aus beginnt. Ein Startpunkt liegt vor der Geburt, der andere gleich nach der Geburt. Die Reise geht nur dann voran, wenn die beiden Wege sich später kreuzen können. Ist das nicht möglich, werden Sonderwege eröffnet, die allerdings einen spezifischen Anstoß erfordern. Im weiteren Verlauf müssen die aufeinander bezogenen rezeptiven und expressiven Wege Kontakt mit anderen Wegen aufnehmen. Durch die Vernetzung entstehen Synergieeffekte wie bedeutungstragende Wörter und Konstruktionsprinzipien von grammatischen Strukturen. Hierbei gerät die Sprachproduktion wie schon bei der Lauterzeugung immer mehr unter die Kontrolle der Sprachrezeption. Die Produktion verliert bis auf die individuelle Stimme weitgehend ihre Eigenart, die nur noch bei Störungen oder in der Kunst besonders in Erscheinung tritt. Der Sprachgebrauch bleibt produktiv, doch er folgt den Konventionen und Regeln, die eine (imaginäre) Sprachgemeinschaft teilt. So entsteht allmählich der ‘native speaker’. Er ist in einer Sprachgemeinschaft zu Hause und durch seinen Tonfall sofort als Mitglied einer mehr oder minder eingrenzbaren Sprachgemeinschaft erkennbar. Aber er ist auch ein unverwechselbares Individuum, das sich durch seinen spezifischen Tonfall von allen anderen Mitgliedern der Sprachgemeinschaft abhebt. Auch die musikalische Entwicklung fängt mit der Stimme an. Sie beruht auf den gleichen Wurzeln wie die Sprachentwicklung, wobei die rezeptive Wurzel, der Stimmeindruck, einen Vorsprung vor der expressiven, dem Stimmausdruck, hat. Noch bis in das zwanzigste Jahrhundert hinein wurde bezweifelt, ob neugeborene Babies überhaupt hören können. Heute wissen wir, dass Hören bereits vorgeburtlich etwa ab der zwanzigsten Woche nach der Konzeption möglich ist. Mit Hilfe von psychophysiologischen Untersuchungsverfahren lässt sich auch feststellen, welcher Frequenzbereich beim Fötus im Mutterleib zu Höreindrücken führt (vgl. die einschlägigen Beiträge in Delie`ge & Sloboda, 1996). Es ist das Frequenzspektrum der menschlichen Stimme. Unter den hochgefilterten intrauterinen Bedingungen ist das Erkennen einzelner Laute (vermutlich) nicht möglich,
461 doch diese Fähigkeit tritt gleich nach der Geburt in Erscheinung. Der kontinuierliche Lautstrom der menschlichen Stimme wird, wie Habituationsexperimente zeigen (Eimas et al., 1971), in kategorial verschiedene Laute gegliedert. Die Wahrnehmung ist also in der Entwicklung zunächst holistisch ausgerichtet. Sie orientiert sich an den melodischen Konturen der menschlichen Stimme, d. h. den musikalischen Parametern des Sprechens und Singens, bevor der Höreindruck analytisch aufgebaut wird. Genau analog, wenn auch zeitlich versetzt, entwickelt sich der Ausdruck der eigenen Sprechstimme, nämlich vom (holistischen) Schreien zum (analytischen) Babbeln, indem Laute (Silben) repetitiv miteinander verbunden werden. Der vorgeburtliche stimmliche Eindruck und der nachgeburtliche stimmliche Ausdruck sind noch weit entfernt von dem, was menschliche Sprache letztendlich auszeichnet: ihrem Bedeutungsgehalt, ihrer grammatischen Struktur und ihrem kommunikativen Verkehrswert. Was Musik im Allgemeinen und Singen im Besonderen auszeichnet und von Sprache unterscheidet, sind tonale Strukturen, die in ihrem zeitlichen Ablauf genauer als Sprache gegliedert sind. Genau wie Sprache unterliegen sie Regeln und Konventionen, die allerdings anders als bei der Sprache keine symbolisch ausgedrückten Bedeutungen vermitteln, sondern einen unmittelbaren Zugang zur Welt der Gefühle im Menschen haben. Nach Hanusˇ Papousˇek (1997) bahnt die nachgeburtliche Entwicklung des stimmlichen Ausdrucks nicht nur den Weg zur Sprache, sondern auch zur Musik. Dieser Weg verläuft in drei Stufen. In den ersten acht Lebenswochen folgen die Grundlaute des Säuglings dem Rhythmus und Tempo seiner Atmung. Danach verlängern sich diese Laute zu wohlklingenden Gurrlauten. So entsteht eine erste Grundlage dafür, dass Säuglinge mit ihrer Stimme spielen können und durch Modulationen von Tonhöhen erste Melodien hervorbringen. Die Melodien sind Improvisationen, die kommen und wieder gehen. Sie haben nicht das Ziel, ein Musikstück, das im Kopf gespeichert ist oder später durch eine Notation entschlüsselt wird, aufzuführen. Wie jedes spontane Spiel von der Stimmung des Augenblicks bestimmt ist, verfolgt es über die Betätigung hinaus keinen weiteren Zweck. In einer zweiten Entwicklungsstufe lernen Säuglinge, den Strom der Lautbildungen in Silben einzuteilen. Am Ende dieses Lernvor-
462 gangs steht die Möglichkeit, durch das Verdoppeln von Silben repetitive Lautmuster zu erzeugen. Zur melodischen Modulation tritt die rhythmische Gestaltung von Lautfolgen, die zunächst auch als Spiel betrieben wird. In der dritten Entwicklungsstufe tauchen im letzten Drittel des ersten Lebensjahres Silben auf, die von der Form her den Lauten entsprechen, aus denen die Wörter der Sprache und der Lieder in der sozialen Umgebung des Kindes gebaut sind. Damit wird die Grenze gebahnt, die musikalische und sprachliche Entwicklung voneinander zu trennen beginnt. Melodie und Rhythmus bleiben bevorzugte Domänen der Musik, die in der weiteren Entwicklung immer mehr unter die Kontrolle von Konventionen bereits etablierter musikalischer Praxis geraten. Die symbolische Bedeutung von einzelnen Wörtern und von grammatisch verbundenen Wortketten wird die bevorzugte Domäne der Sprache. In der normalen Entwicklung entsteht eine nach beiden Seiten offene Grenze, die von der Sprache zur Musik und von der Musik zur Sprache führen kann. Die erste überwiegend sprachliche Ausdrucksform von Kindern ist, von wenigen Ausnahmen wie der Gebärdensprache abgesehen, gesprochene Sprache. Der erste überwiegend musikalische Ausdruck von Kindern sind Lieder, zu denen auch ein einfacher Text gehört. Ob Kinder den Text, den sie singen, auch wortwörtlich verstehen, ist fraglich. Worauf es ankommt, ist die musikalische Übereinstimmung von Text und Melodie. Zur Not stutzen sie den Text zurecht, so dass er rhythmisch zur Melodie passt. Auch die Sprechmelodie gesprochener Sprache lädt zu Variationen ein, bei denen mal das eine, mal das andere Wort einer Äußerung stärker hervorgehoben wird oder die Kontur einer Satzmelodie mal steigend wie bei einer Frage und mal fallend wie bei einer Aussage gesprochen wird. Kinder nutzen intensiv die Möglichkeiten zur spielerischen Variation und entdecken so Spielräume, die sprachliche und musikalische Regeln und Konventionen einerseits eröffnen und andererseits verschließen (StadlerElmer, 2000). Bei den meisten Kindern geht die persönliche Gestaltung eines Liedes – seiner Melodie oder auch seines Textes – im Laufe der Entwicklung zurück, weil Lieder als fertige Stücke betrachtet werden, die nicht mehr offen zu sein scheinen für eigene Veränderungen. Mit der Zeit verändert sich das zunächst improvisierende Singen zur Reproduktion einer Komposition, die ihren Platz in
III. Sprachproduktion
einem musikalischen Gedächtnis hat, in dem Musikstücke gespeichert sind und aus denen sie bei Bedarf wieder abgerufen werden. Singen wird zur immer genaueren Reproduktion von Gesungenem, insbesondere dann, wenn Kinder in der Musik, die von der Welt des Quintenzirkels bestimmt ist, ein Verständnis für die ihnen geläufige tonale Struktur von Musik erworben haben (Davidson, 1985; Schwarzer et al., 1993). Welcher Input wird für die Entwicklung des Sprechens und Singens benötigt, damit aus gemeinsamen Anfängen die Sprache und Musik einer oder mehrerer Kulturen erworben werden kann? In beiden Fällen geht es nicht nur um den geeigneten Input, sondern auch um die Art der Vermittlung. Im Laufe der menschlichen Evolution hat sich die dyadische Interaktion zwischen einem heranwachsenden menschlichen Individuum und einem Erwachsenen, der diese Entwicklung schon ganz oder in Teilen hinter sich hat, als Erfolgsmodell herausgestellt. Diese Interaktion läuft weitgehend auf einer intuitiven Basis ab, bei der Erwachsene ihr Verhalten nicht bewusst auf vorher festgelegte Ziele ausrichten, sondern im passenden Moment genau das Richtige für ein Kind tun (Papousˇek, 1996). Hierbei stellen sich die Partner des Kindes, vor allem die Mutter oder auch schon ältere Geschwister, auf seine entwicklungsspezifischen Besonderheiten ein. Sie sprechen in höherer Tonlage mit aus der Sicht der Erwachsenen übertriebenen Intonationskonturen und häufigen Wiederholungen gleicher Wörter oder Wortsequenzen. Auch wenn dieser Sprechstil, der früher Ammensprache hieß und heute „motherese“ oder „baby talk“ genannt wird, keine absolut notwendige Voraussetzung für die Sprachentwicklung ist (vgl. Grimm, 1999), trägt er sicherlich dazu bei, dass die Sprachentwicklung für das Kind leichter gemacht wird. Die übertriebene Sprechmelodie hilft, Grenzen zwischen Wörtern und Silben zu erkennen, die beim normalen Sprechen in gleichförmiger Tonlage untergehen würden. Wiederholungen sind bewährte Mittel, um die Aufmerksamkeit von Säuglingen immer wieder aufs Neue zu fesseln. Es sind die musikalischen Bestandteile des Sprechens und das Singen von bestimmten Melodieverläufen wie Wiegenliedern, durch die Schlaf- und Wachzustände höchstwirksam von außen beeinflusst werden können. Nach Trehub (1994) haben Säuglinge ein besonderes Interesse an der Musik, die sie in ihrem Alltag häufig hö-
34. Sprechen und Singen im Vergleich
ren. Das sind Spiel- und Wiegenlieder, die von jungen Frauen und Kindern gesungen werden. Dieser Input kann die musikalische Entwicklung von Kindern ideal fördern, weil er den Möglichkeiten der kindlichen Wahrnehmung von Sprechkonturen und Melodieverläufen am besten gerecht wird. Die an Säuglinge und Kinder gerichteten Lieder sind nicht über alle Kulturen hinweg gleich. Sie sind jedoch nach einer Untersuchung von Trehub, Unyk und Trainor (1997) in allen Kulturen als der Input erkennbar, der an Säuglinge gerichtet ist. In dieser Untersuchung konnten Erwachsene bei Liedern aus fremden Kulturen typische Wiegenlieder von anderen Liedern unterscheiden. Bei untypischen Wiegenliedern gelang die Unterscheidung nicht. In unserer Kultur wird der sprachlichen Entwicklung mehr Aufmerksamkeit geschenkt als der musikalischen. Wer nicht singen kann, kann es bleiben lassen oder es im Schutz einer Gruppe versuchen. Dadurch entsteht kein gesellschaftlicher Nachteil. Anders beim Sprechen. Die Sprachentwicklung fördert oder hemmt die schulische und später dann auch die berufliche Laufbahn. So kommt es, dass die musikalische Entwicklung immer wieder durch eine angemessene Förderung angestoßen werden muss, wenn sie nicht stagnieren oder zurückgehen soll. Im Vergleich dazu ist die sprachliche Entwicklung geradezu ein Selbstläufer. Sie kann auch dann vorankommen, wenn die äußeren Umstände nicht besonders günstig sind. Unterschiede zwischen Sprache und Musik sind nicht nur an ihren verschiedenartigen Entwicklungsverläufen, sondern auch an Störungen zu erkennen, die durch Schädigungen im und am Gehirn hervorgerufen werden. Der Verlust von Sprache ist normalerweise schwieriger zu verkraften als der Verlust von Musik. Beide Ausfälle können unabhängig voneinander auftreten: Es gibt Menschen, die sprechen, aber nicht (mehr) singen, und es gibt Menschen, die singen, aber nicht (mehr) sprechen können. Darüber mehr im nächsten Abschnitt.
4.
Singen ja, sprechen nein: Erworbene Sprachstörungen
„Musik und Sprache vermitteln Bedeutung und Emotionen. Gemeinsamkeiten beider Kommunikationssysteme sind die akustische Gestaltung von Zeitund Tonhöhenstrukturen“ (Altenmüller, 2000: 1).
463 Gemeinsam haben Musik und Sprache eine oral-aurale Schleife. Sowohl Vokaltrakt als auch Gehör werden für beide Systeme benötigt. Häufig liegen jedoch nach Hirnschädigungen dissoziierte Beeinträchtigungen vor. Offenbar ist die anatomische Lokalisation beider Systeme unterschiedlich. So finden sich in der Literatur oft Angaben darüber, dass die Sprachverarbeitung linkshemisphärisch, die Musikverarbeitung jedoch rechtshemisphärisch erfolge. Altenmüller (2000) bezeichnet diese Vereinfachung als falsch. Für die Musikverarbeitung existierten unterschiedliche Läsionsstudien, die nach linksoder rechtshemisphärischen Schädigungen Ausfälle dokumentieren. Dennoch sind zahlreiche Fälle beschrieben, bei denen es zu einem selektiven Ausfall musikalischer Leistungen ohne sprachliche Beeinträchtigungen kommt (Amusie). Mann (1898) beschrieb einen Patienten, der, als ursprünglich guter Sänger, nach einem rechtshemisphärisch-frontalen Eingriff, plötzlich nicht mehr singen konnte. Es wurde jedoch keine Aphasie beobachtet. Ein Kriegsverwundeter wurde von Mann (1917) beschrieben, der auf Grund einer Verletzung rechtsparietal intakte sprachliche Leistungen aufwies, jedoch unfähig war zu singen. Jossmann (1927) schilderte einen Fall von vokalmotorischer Amusie auf Grund einer Resektion der rechten Arteria carotis. Auch durch die Wada-Methode ließ sich nachweisen, dass nach Injektion eines Narkotikums in die rechte Arteria carotis das Singen, nach Injektion in die linke Arterie jedoch die Sprache beeinträchtigt wird. Durch dichotische Hörtests konnte ebenso die bevorzugte Rolle der rechten Hemisphäre bei der Verarbeitung tonaler Stimuli nachgewiesen werden (Hartje et al., 1997). Der russische Komponist Shebalin war trotz einer schweren linkshemisphärischen Schädigung und Aphasie in der Lage, Kompositionen anzufertigen (Wertheim, 1977, zit. nach Altenmüller, 2000). Ein von Smith (1966) beschriebener Patient, bei dem links eine Hemisphärektomie durchgeführt wurde, war fünf Monate nach der Operation in der Lage, bekannte Lieder zu singen, obwohl die Sprache schwer beeinträchtigt war. Für die Zuordnung einzelner musikalischer Komponenten zur linken bzw. rechten Hemisphäre gibt es jedoch auch zahlreiche, sich widersprechende Erkenntnisse. In Untersuchungen an musikalisch nicht vorgebildeten Schlaganfallpatienten (Schuppert,
464 Münte, Wieringa & Altenmüller, 1998) ergab sich, dass die Musikwahrnehmung auf hochgradig individuellen und weit verzweigten neuronalen Netzwerken beruht. Ein großes Problem bei den Untersuchungen stellt die große interindividuelle Variabilität des Musikhörens dar. Ein Musiker nimmt ein Konzert anders wahr als ein Laie. Eine Studie von Altenmüller et al. (1986) lässt Erkenntnisse zu, dass bei Berufsmusikern sehr viel häufiger die linke Hemisphäre beteiligt ist. Die Hirnaktivierung während des Musikhörens, so Altenmüller, spiegelt auch die individuelle Lernbiographie wider. Die Variabilität der zerebralen Organisation der Musikwahrnehmung wird nach Altenmüller von ausgelösten Emotionen (negativ oder positiv bewerteter Musik), von der individuellen Lernbiographie (verbal vs. musikalisch) sowie durch unterschiedliche Hörweisen (u. a. analytisch vs. ganzheitlich) erklärbar. Fazit: Die Sprachverarbeitung erfolgt vorwiegend linkshemisphärisch in den klassischen Sprachzentren, die Musikverarbeitung dagegen in weit verzweigten Netzwerken. Wie können nun die Fallbeschreibungen erklärt werden, dass Aphasiker besser singen als sprechen können? Handelt es sich dabei um Ausnahmen? Eine Untersuchung von Hirnaktivierungsmustern während der Wahrnehmung des Affekts in der Sprachmelodie (Sprachprosodie) von Pihan, Altenmüller und Ackermann (1997) mittels Elektroenzephalographie zeigte eine starke Aktivierung rechtshemisphärischer frontaler und zentraler Rindenregionen, unabhängig davon, welcher Affekt (traurig, freudig oder neutral) vorlag. Beim innerlichen Mitsprechen jedoch zeigte sich eine linkshemisphärische Beteiligung. Womöglich spielt die Prosodie als Komponente von Musik und Sprache die entscheidende Rolle (Alter et al., 2000). Ein Aphasiker, der durch linkshemisphärische Schädigung Sprachstörungen erleidet, ist zunehmend auf Ressourcen der rechten Hemisphäre und damit auf die Prosodie angewiesen. Einige Autoren vermuten einen sog. „Melodieprozessor“ in der rechten Hemisphäre, der für die Verarbeitung aller prosodischer Komponenten zuständig ist (z. B. Ackermann, 1998). Die klinische Beobachtung, dass Aphasiker oft besser singen als sprechen, ist so alt wie die Aphasieforschung selbst. Sie ist bislang jedoch in nur wenigen Studien unter-
III. Sprachproduktion
sucht worden. Yamadori, Osumi, Masuhara und Okubo (1977) untersuchten die Singfähigkeit an 24 Broca-Aphasikern. Untersucht wurden nur Patienten, die neben einer BrocaAphasie und einer Hemiparese rechts keine Hinweise auf eine rechtshemisphärische Beteiligung aufwiesen. 21 der 24 Patienten sangen trotz schwerster Sprachbeeinträchtigung gut. Sechs der Patienten waren dabei nicht in der Lage, korrekte Wörter zu produzieren. Sie summten die Melodie richtig. Drei Patienten wiesen Paraphasien auf. Fünf Patienten sangen spontan, bei den übrigen war ein ‘cueing’ erforderlich. Eine Korrelation zwischen der Textproduktion und der Singfähigkeit war nicht zu erkennen. Aufgrund der klinischen Beobachtung, dass Aphasiker oft besser singen als sprechen können, wurde die Melodische Intonationstherapie (MIT) entwickelt (Sparks et al., 1974). Die Melodische Intonationstheraphie ist ein hierarchisches Programm, das aus vier Phasen besteht. In den ersten beiden Phasen werden zunächst mehrsilbige Wörter musikalisch intoniert. Dann folgen längere und komplexere Sätze. In jeder Phase wird das Material zunächst mit übertriebener Prosodie geübt. Dabei gibt der Therapeut dem Patienten mit dessen Hand den Rhythmus für jede Silbe vor. Die Items werden langsam intoniert. Es werden einfache „hoher Ton/tiefer Ton“-Muster verwendet. Nach Sparks et al. (1974) ist die MIT insbesondere für Broca-Aphasiker geeignet, die ein gutes Sprachverständnis besitzen und an einer nichtflüssigen Sprachproduktion mit verringerter Artikulationsfähigkeit leiden. Die positive Wirkung dieser Therapie ist 1994 nach Experteneinschätzungen bestätigt worden. Sie stuften die MIT in die Class 3 der „Quality of evidence ratings“ ein. Die empirischen Belege erstrecken sich bis jetzt jedoch nur auf nicht-randomisierte Studien bzw. Fallbeschreibungen. Diskutierenswerte Ergebnisse erbrachte eine PET-Studie zur Untersuchung der Melodischen Intonationstherapie von Belin (1996). Es wurden sieben bereits erfolgreich mit der MIT behandelte Aphasiker untersucht. Alle Patienten hatten initial eine linkshemisphärische Schädigung. Gemessen wurde der relative cerebrale Blutfluss (rCBF), während die Patienten entweder Wörter mit bzw. ohne MIT-Betonung hören und nachsprechen sollten. Ohne MIT wurden rechts-hemisphärische Strukturen angesprochen. Bei einer Wie-
34. Sprechen und Singen im Vergleich
derholung von Wörtern mit MIT hingegen war eine Reaktivierung des links-hemisphärischen Broca-Areals sowie linker präfrontaler Cortex-Bereiche zu beobachten. Die überraschende Aktivierung der rechten Gehirnhälfte während der Durchführung einfacher Sprachaufgaben scheint mit den initialen Ausfällen der Aphasie in Zusammenhang zu stehen. Darüber hinaus wird die Hypothese gestützt, dass ungewöhnliche Aktivitäten in geschädigten Bereichen des Gehirns nicht unbedingt mit dem Heilungsprozess in Beziehung stehen. Die Anwendung der MIT bewirkt wahrscheinlich eine „Normalisierung“ von Aktivationsmustern durch Reaktivierung von essentiellen Sprachzentren. Welche Rolle spielt die Prosodie? Kann die nach Pihan (1995) rechtsfrontal lokalisierte Prosodie auch linke Hirnareale beeinflussen, und zwar dann, wenn sie wie im Falle der MIT neben einer hauptsächlich melodischen Komponente auch „überbetonte“ Sprachprosodie-Elemente beinhaltet?
5.
Singen ja, sprechen nein: Entwicklungsstörungen
Bei erwachsenen Sprechern kommen erworbene Störungen in den Bereichen Sprache und Musik gemeinsam und getrennt vor. Je nach Lokalisation der Schädigungsorte können Ausfälle verbunden oder unverbunden sein. Gilt das auch für Störungen in der ontogenetischen Entwicklung? Kann es Sprachentwicklung ohne musikalische Entwicklung und musikalische Entwicklung ohne Sprachentwicklung geben? Wenn Sprache und Musik aus gemeinsamen Wurzeln entstehen, dann lässt sich ihre Dissoziation in der Ontogenese erst dann zeigen, wenn ihre Differenzierung begonnen hat, d. h. dann, wenn Sprachlaute zum Träger von Bedeutungen werden und Töne zu Melodien verbunden werden. Es gibt eine Reihe von Kindern, die als musikalische „Brummer“ abgestempelt werden und doch „nur“ das Opfer einer unzureichenden oder mangelnden musikalischen Förderung sind. Fehlende oder eingeschränkte musikalische Fähigkeiten können viele Ursachen haben. Es dürfte ohne den Einsatz von bildgebenden Verfahren schwierig sein, die verschiedenen Arten von Beeinträchtigungen, die entweder auf mangelnde Voraussetzungen für die Entwicklung oder auf fehlende Anregungen in der Entwicklung zurückgehen, voneinander zu trennen. Stö-
465 rungen der musikalischen Entwicklung werden, wenn sie sich nicht in gestörten Formen des Sprechens äußern, als etwas Normales betrachtet. Sie erzeugen keinen Leidensdruck und werden deshalb weder diagnostiziert noch einschlägig therapiert. Deshalb kommen musikalische Entwicklungsstörungen in den gängigen Diagnoseschemata nicht vor. Anders sieht die Situation aus, wenn die Sprachentwicklung ausfällt oder gestört ist. Hier tritt Erklärungs- und Handlungsbedarf auf, wie bei den tiefgreifenden Entwicklungsstörungen vom Typ des frühkindlichen Autismus. Etwa die Hälfte autistisch gestörter Kinder lernt überhaupt nicht sprechen. Anhand eines Einzelfalls, den Markus Wenglorz vom dritten Lebensjahr an dokumentiert hat (vgl. Wenglorz & Deutsch, 1997; 1999), kann die Frage entschieden werden, ob in Analogie zur Dissoziation von Störungen im sprachlichen und musikalischen Ausdruck die musikalische Entwicklung voranschreiten kann, wenn die sprachliche Entwicklung nicht in Gang gekommen ist. Es handelt sich um ein autistisches und zudem geistig behindertes Kind namens Samantha. Die kommunikativen Beeinträchtigungen durch die autistische Störung vom Typ Kanner-Syndrom gehen bei Samantha so weit, dass sie in ihrer bisherigen Entwicklung keine Sprache erworben hat. Im Vergleich zu dieser schwerwiegenden sprachlichen Entwicklungsstörung ist bei Samantha ein auffällig intensives Verhältnis zur Musik zu beobachten. Sie bleibt dabei nicht nur Rezipient, sondern wird selbst musikalisch aktiv. Sie singt einfache Kinderlieder und artikuliert dabei sprachähnliche Laute, die keine bedeutungstragenden Einheiten bilden. Dieser besondere Umstand führt zu der Frage, welchen Einfluss das Fehlen von Sprache zum einen auf die lautliche, zum anderen auf die musikalische Gestaltung haben kann. Aus den Daten der längsschnittlichen Einzelfallstudie wurde zunächst die musikalische Kompetenz des autistischen Mädchens eingeschätzt. Fokussiert wurden z. B. Intonationssicherheit, Tonalitätsstabilität, Umfang und Ausdrucksmittel der Stimme. Die phonetische Analyse der gesungenen Laute untersuchte das Lautinventar, die Silbenstruktur und die Korrespondenz zwischen Samanthas Lauten und denen des Liedtextes. Erste Ergebnisse, dargestellt auf der Jahrestagung der Deutschen Gesellschaft für Musikpsychologie (Deutsch et al., 2001), legen den Schluss nahe, dass die lautliche Struktur bei fehlendem Sprachsystem u. a. durch musikalische
466
III. Sprachproduktion
Beweggründe gesteuert wird. So steht ein differenziertes Vokalinventar einem sehr reduzierten Konsonanteninventar gegenüber. Die vokalorientierte Lautauswahl unterstützt deutlich das Singen, wie auch sich wiederholende gebundene Silbenstrukturen das Phrasieren von Melodien. Die linguistischen und musikalischen Analysen zeigen, dass die Artikulation sprachähnlicher Laute bei fehlendem Sprachsystem durch den musikalischen Impuls ermöglicht und gesteuert wird. Die Entwicklung des Singens wird durch die fehlende Sprachentwicklung nicht behindert. Da Samantha ihre Lautauswahl ausschließlich dem Singen anpasst, entsteht ein unerschöpflich kreatives Moment in der Reproduktion der Lieder. „Singen ja, Sprechen nein“ lässt sich also nicht nur da beobachten, wo lokalisierbare Schädigungen in der Funktion des menschlichen Gehirns zu umschriebenen Ausfällen führen, sondern auch bei der ontogenetischen Differenzierung der Laute in Sprache und Musik. Die musikalische Entwicklung kann voranschreiten, ohne dass die sprachliche Entwicklung überhaupt irgendeinen Schritt vorankommt.
6.
Fazit
Die beiden wichtigsten Vokalisationsarten des Menschen Sprechen und Singen werden im Alltag und in der Forschung unterschiedlich gewürdigt. Sprechen ist für die meisten Menschen das wichtigste Vehikel zum Ausdruck und Austausch von Gedanken. Wenn gesprochene Sprache ausfällt, dann können andere Wege sprachlichen Ausdrucks an ihre Stelle treten, wie die Gebärdensprache oder symbolische Kommunikationssysteme, die Bildkarten verwenden. Im Vergleich zum Sprechen ist Singen eine Tätigkeit, die auf besondere Anlässe beschränkt und mit auffälligen interindividuellen Unterschieden verbunden ist. Die Grenzen zwischen Sprechen und Singen sind fließend. Typisches Sprechen ist eine Einzelaktivität. Ihr Rhythmus ist frei, die Tonhöhenübergänge beim Sprechen sind fließend, und die sprachliche Form folgt dem gedanklichen Inhalt. Typisches Singen ist eine Gruppenaktivität. Ihr Rhythmus ist festgelegt, die Tonhöhenabstände (die Tonintervalle) sind fixiert, und die Form (Gesangsmelodie) hat Vorrang gegenüber dem Inhalt (Text). Es gibt verschiedene Zwischenformen, bei denen sich die Grenze von der Sprache
zur Musik und von der Musik zur Sprache verschiebt. Bei der Rezitation eines Gedichtes ist der Rhythmus gebunden, und bei einem Rapgesang werden die Tonhöhenabstände so gering wie möglich gehalten. Bis jetzt gibt es unseres Wissens kein Modell, in dem die Gemeinsamkeiten und Unterschiede zwischen Sprechen und Singen angemessen dargestellt werden. Die Forschung hat sich auf Sprachproduktionsmodelle (z. B. Herrmann & Grabowski, 1994 ; Levelt, 1989) konzentriert, die auf der Ebene der Konzepte immer von Gedanken in Form von Propositionen oder Bildern, aber nie von Melodien ausgehen. Die musikalische Seite der Sprachproduktionsmodelle beschränkt sich auf die Prosodie. Die Prosodie erfüllt viele Funktionen: Sie generiert den Sprechrhythmus, entwickelt die Sprechmelodie und interagiert mit anderen Sprachkomponenten wie Wortschatz und Grammatik. Zudem kann der Adressat einer sprachlichen Äußerung (manchmal) aus der Prosodie auch heraushören, ob ein Sprecher etwas wirklich ernst meint oder nur so tut als ob. Grob gesprochen, nimmt die Prosodie bei der Sprachplanung Partei für die Reste an Gefühlen, die in rationales Sprechen eindringen. Die Einordnung eines solchen multifunktionalen Systems in Standardmodelle des Sprechens gestaltet sich schwierig. Die Prosodie wird zu einem Anhängsel, das bei Levelt (1989) einen Platz in einem sogenannten „Prosody Generator“ erhält, mit Zugängen zum Lexikon (citation segmental/metrical spellout), zur Grammatik (surface structure) und zur bedeutungshaltigen Intonation (intonational meaning). Wenn bei der Erzeugung einer sprachlichen Äußerung die Sprechmelodie erst so spät an die Reihe kommt, wie ist es dann möglich, dass der ernste, sarkastische, ironische, gelangweilte, interessante, heuchlerische, bewundernde Ton des Sprechens auch rechtzeitig angemessen vom Adressaten erkannt wird? Könnte die Sprechmelodie beim Sprechen und erst recht die Gesangsmelodie beim Singen nicht schon weiter oben in der Instanz entstehen, die die konzeptuelle Steuerung vokaler Aktivitäten besorgt? Die Modellbildung, die der Sprache in der Musik und der Musik in der Sprache beim Sprechen und Singen gleichermaßen gerecht wird, ist Zukunftsmusik und wird vielleicht noch eine ganze Weile Zukunftsmusik bleiben. In diesem Beitrag haben wir uns einstweilen damit begnügt, die Grenze zwischen Sprechen und Singen von unterschiedlichen Standpunkten aus zu erkunden. Wie lange
34. Sprechen und Singen im Vergleich
wird das Grenzgebiet von Sprechen und Singen noch ein weißer Fleck auf den wissenschaftlichen Landkarten bleiben?
7.
Literatur
Ackermann, H., Dogil, G., Grodd, W., Haider, H., Mayer, J. & Wildgruber, D. (1997). Neuroanatomische Grundlagen der Sprachproduktion: Bildgebende Untersuchungen mittels funktioneller Kernspintomographie. Antrag an die Deutsche Forschungsgemeinschaft, 1997. Altenmüller, E. (1986). Hirnelektrische Korrelate der cerebralen Musikverarbeitung beim Menschen. Arch. Psychiatr. Neurol. Sci ., 235, 342⫺354. Altenmüller, E. (2000). Unterschiede und Gemeinsamkeiten der zerebralen Organisation von Musikund Sprachwahrnehmung. In J. Pahn (Hrsg.), Sprache und Musik, Beiträge der 71. Jahrestagung der Deutschen Gesellschaft für Sprach- und Stimmheilkunde e.V., Berlin, 12.⫺13. März 1999 (pp. 23⫺ 33). Stuttgart: Steiner.
467 Grimm, H. (1999). Störungen der Sprachentwicklung. Göttingen: Hogrefe. Hartje, W. & Poeck, K. (Hrsg.) (1997). Klinische Neuropsychologie (3. Auflage). Stuttgart, New York: Georg Thieme Verlag. Heinitz, W. (1925). Die Sprechtonbewegungen in Arnold Schönbergs „Pierrot Lunaire“. Vox. Mitteilungen aus dem Phonetischen Institut der Universität Hamburg, 1. Heinitz, W. (1926). Kunst, Sprechmelodie und Maschine. Musikblätter des Anbruch, 8, 36⫺38. Herder, J. G. (1769). Kritische Wälder. Oder Betrachtungen, die Wissenschaft und Kunst des Schönen betreffend. Viertes Wäldchen. In B. Suphan (Hrsg.), Sämtliche Werke IV (pp. 1⫺198). Hildesheim: Georg Olms. Herder, J. G. (1772). Abhandlung über den Ursprung der Sprache. Berlin: Voß. Herrmann, T. & Grabowski, J. (1994). Sprechen. Psychologie der Sprachproduktion. Heidelberg: Spektrum Akademischer Verlag.
Alter, K. & Steinhauer, K. (2000). When brain meets prosody. Linguistische Arbeitsberichte, 74, 9⫺14.
Jossmann, P. (1927). Die Beziehungen der motorischen Amusie zu den apraktischen Störungen. Monatsschrift für Psychiatrie und Neurologie, 63, 239⫺274.
Belin, P. (1996). Recovery from nonfluent aphasia after melodic intonation therapy (MIT). A PET study. Neurology, 47, 1504⫺1511.
Klix, F. & Lanius, K. (1999). Wege und Irrwege der Menschenartigen: wie wir wurden, wer wir sind. Stuttgart: Kohlhammer.
Bruhn, H. (1988). Harmonielehre als Grammatik der Musik ⫺ Propositionale Schemata in Musik und Sprache. München/Weinheim: Psychologie Verlags Union. Cavalli-Sforza, L. L. (2001). Gene, Völker und Sprachen: die biologischen Grundlagen unserer Zivilisation. München: dtv. Davidson, L. (1985). Tonal structures of children’s early songs. Music Perception, 2(3), 361⫺374. Delie`ge, I. & Sloboda, J. (1996). Musical beginnings. Origins and development of musical competence. Oxford: Oxford University Press. Deutsch, W. (1984). Language control processes in development. In H. Bouma & D. G. Bouwhuis (Eds.), Attention and performance X, (pp. 395⫺ 416). Hillsdale: LEA. Deutsch, W., Wenglorz, M., Sommer, G., El Mogharbel, C. & Lauffs, I. (2001). Singen ja, sprechen nein. Poster auf der Jahrestagung der Deutschen Gesellschaft für Musikpsychologie. Universität Hildesheim. Eimas, P., Siqueland, F., Jusczyk, P. & Vigorito, J. (1971). Speech perception in early infancy. Science, 171, 303⫺306.
Kopiez, R. (1998). Fußball-Fangesänge: eine FANomenologie. Würzburg: Königshausen und Neumann. Levelt, W. J. M. (1989). Speaking: From intention to articulation. Cambridge, Mass.: MIT Press. Lieberman, F. (1984). The biology and evolution of language. Cambridge, Mass.: Harvard University Press. MacNeilage, P. F. & Davis, B. L. (2000). On the origin of internal structure of word forms. Science, 288, 527⫺531. Mann, L. (1898). Casuistische Beiträge zur Hirnchirurgie und Hirnlocalization. Monatsschrift für Psychiatrie und Neurologie, 4, 369⫺378. Papousˇek, M. (1996). Intuitive parenting: A hidden source of musical stimulation in infancy. In I. Delie`ge & J. Sloboda (Eds.), Musical beginnings. Origins and development of musical competence (pp. 88⫺112). Oxford: Oxford University Press. Papousˇek, H. (1997). Anfang und Bedeutung der menschlichen Musikalität. In H. Keller (Hrsg.), Handbuch der Kleinkindforschung (pp. 565⫺585). Bern: Huber. Pihan, H., Altenmüller, E., Hertrich, I. & Ackermann, H. (1995). Right-hemispheric processing of
468
III. Sprachproduktion
prosodic information: A DC-potential study. In N. Elsner & R. Menzel (Eds.), Learning and Memory (p. 161). Stuttgart: Thieme.
Sparks, R. W. & Holland, A. L. (1976). Method: Melodic Intonation Therapy for aphasia. Journal of Speech and Hearing Disorders, 41, 287⫺297.
Ploog, D. (1994). Evolutionäre Vorbedingungen menschlicher Kommunikationsfähigkeit im Lichte der Neuroethologie. In K. F. Wessel & F. Neumann (Hrsg.), Kommunikation und Humanontogenese (pp.41⫺52). Bielefeld: Kleine.
Stadler-Elmer, S. (2000). Kinder Singen Lieder: Über den Prozess der Kultivierung des Vokalen Ausdrucks. Habilitationsschrift, Universität Zürich.
Rösing, H. & Roederer, J. C. (1985). Musik in der Entwicklung der Menschheit. In H. Bruhn, R. Oerter & H. Rösing (Hrsg.), Musikpsychologie. Ein Handbuch in Schlüsselbegriffen (pp. 351⫺359). München: Urban & Schwarzenberg. Rousseau, J. J. (1782). Essai sur l’origine des langues ou` il est parle´ de la me´lodie et de l’imitation musicale. In Collection complette des Ouevres de J-J Rousseau, Citoyen de Gene`ve. Contennent diverses pieces sur la musique. Aux Deux-Ponts: Sanson et Comp. Schoenberg, A. (1914). Pierrot Lunaire op. 21. Wien: Universal Edition. Schuppert, M., Münte, T. F., Wieringa, B. M. & Altenmüller, E. (1998). Receptive amusia: Evidence for cross-hemispheric neural networks underlying music processing strategies. Brain, A Journal of Neurology, 123 (3), 546⫺559. Schwarzer, G., Siegismund, D. & Wilkening, F. (1993). Entwicklung des Tonalitätsverstehens bei der Beurteilung und Produktion von Liedschlüssen. Jahrbuch der Deutschen Gesellschaft für Musikpsychologie (Band 10). Smith, A. (1966). Speech and other functions after left (dominant) hemispherectomy. Journal of Neurology, Neurosurgery and Psychiatry, 29, 467⫺471.
Stumpf, C. (1924). Singen und Sprechen. Zeitschrift für Psychologie und Physiologie der Sinnesorgane, 24, 2⫺36. Trehub, S. E. (1994). Developmental perspectives on music perception. In I. Delie`ge (Ed.), ESCOM Proceedings of the 3rd International Conference for Music Perception and Cognition (pp. 15⫺17), July, 23⫺27. Lie`ge: Univ. of Lie`ge, Belgium. Trehub, S. E., Unyk, A. M., Kamenetsky, S. B., Hill, D. S., Trainor, L. J., Henderson, J. L. & Saraza, M. (1997). Mothers and fathers singing to infants. Developmental Psychology, 33(3), 500⫺507. Wenglorz, M. & Deutsch, W. (1997). Samantha. Die Entwicklung eines Mädchens mit einer autistischen Störung. Film D 1997. Göttingen: Institut für den wissenschaftlichen Film. Wenglorz, M. & Deutsch, W. (1999). Samantha. Die Entwicklung eines Mädchens mit einer autistischen Störung. Publ. Wiss. Film, Med., 8,161⫺187. Yamadori, A., Osumi, Y., Masuhara, S. & Okubo, M. (1977). Preservation of singing in Broca’s aphasia. Journal of Neurology, Neurosurgery and Psychiatry, 40, 221⫺224.
Werner Deutsch, Grit Sommer und Cornelia Pischel Technische Universität Braunschweig (Deutschland)
35. Emotion und Sprachproduktion 1. 2.
6. 7.
Einleitung Eingrenzung des Problembereiches aus linguistischer Sicht Emotion: Grundannahmen und Definition Zum Zusammenhang von Emotion und Kognition Die sprachliche Kommunikation emotionaler Inhalte Zusammenfasung und Ausblick Literatur
1.
Einleitung
3. 4. 5.
Schon eine unabhängige Betrachtung der Sprachverarbeitung und des emotionalen Systems beinhaltet derart komplexe Phäno-
mene, dass der Versuch, ihre Interaktionen in zwei kurzen Kapiteln (siehe auch Kap. 52 zu rezeptiven Prozessen) angemessen zu behandeln, anmaßend erscheinen muss. Dennoch wird es aus psycholinguistischer Perspektive zunehmend wichtig, den häufig ausgesparten Bereich affektiv bewertender und emotionaler Einflüsse auf sprachliche Verarbeitungsprozesse näher zu beleuchten, zumal eine Modellierung von Sprachproduktion oder -rezeption langfristig nicht ohne affektive Komponenten auskommen wird. Hier ist es auch nicht damit getan, zwischen einem global-holistischen, die gesamte Person mit all ihren Sinnen und Emotionen umfassenden
469
35. Emotion und Sprachproduktion
Sprachverarbeitungsmodus, und einem partikularistischen, analytisch-isolierenden Modus zu unterscheiden, wie schon Bally (1913, repr. 1965, mode ve´cu vs. mode pur) als einer der ersten modernen Linguisten, die sich speziell mit der expressiven Funktion von Sprache befasst haben, dies postulierte. Jakobson (1960) vertritt die These, dass die emotive Funktion der Sprache immer zu einem gewissen Grad sowohl die phonische, die grammatische und die lexikalische Ebene des Gesagten färbt und Bewertungen und Einstellungen des Sprechers in direkter Weise zum Ausdruck bringt. Dies bedeutet nicht, dass die inhaltliche Seite der Äußerungen außer Acht gelassen werden sollte; es ist jedoch genauer zu analysieren und empirisch zu prüfen, welche sprachlichen Mittel zum Ausdruck welcher emotionalen Aspekte eingesetzt werden. Der Emotionsausdruck in sprachlichen Äußerungen lässt sich unter mindestens drei Aspekten betrachten: erstens können Emotionen direkt das Thema der Äußerung darstellen (Ich habe Angst vor der bevorstehenden Prüfung!). Zweitens und häufiger werden Emotionen jedoch als Inhalte einer bewertenden Stellungnahme oder einer Situationsbeschreibung kommuniziert. Hierbei kann die Bewertung wiederum direkt formuliert sein (Ich wünschte, die Prüfung wäre schon vorbei!), oder sie muss aus der Form und Prosodie der Äußerung erschlossen werden (Wäre doch die Prüfung schon vorbei!) (vgl. z. B. Foolen, 1997; Hübler, 1998). Drittens schließlich können aktuell vorliegende Emotionen des Sprechers seine Äußerungen auf verschiedenen Ebenen beeinflussen. So wird z. B. aktuell erlebte Trauer die Sprechgeschwindigkeit senken und eine charakteristische Prosodie und Stimmlage erzeugen. Auch wird der Inhalt des Geäußerten negativ verzerrt sein. Wie die Wortwahl und die gewählte Satzstruktur in spezifischer Weise verändert werden, ist bislang nicht geklärt. Nur im letzten Fall handelt es sich also um emotionale Äußerungen im engeren Sinne, die ersten beiden Aspekte befassen sich dagegen mit sprachlichen Äußerungen über Emotionen bzw. über emotional relevante Sachverhalte und Bewertungen. Unter den beiden erstgenannten Aspekten können „emotionale“ Äußerungen untersucht werden, ohne dass der Produzent in dem Moment der Produktion diese Emotion tatsächlich empfindet. Die Emotionalität des Produzenten wird im Rahmen einer rein deskriptiv linguistischen
Beschreibung der interessierenden sprachlichen Variationen gewöhnlich vernachlässigt. Speziell der dritte Aspekt des Zusammenhanges zwischen aktueller Emotion oder Stimmungslage des Produzenten und Sprachproduktionsprozessen erfordert jedoch eine Verknüpfung emotionstheoretischer und psycholinguistischer Modellvorstellungen. Im vorliegenden Kapitel muss daher auch eine kurze Einführung in die Emotionspsychologie und in aktuelle Vorstellungen über die Verbindung des kognitiv-sprachlichen Systems mit emotionalen Verarbeitungskomponenten gegeben werden.
2.
Eingrenzung des Problembereiches aus linguistischer Sicht
Will man aus linguistischer Sicht die Bereiche Sprachproduktion und Emotion zusammenbringen, so ist zu fragen, welche sprachlichen Ausdrucksmittel eigentlich die emotionale Beteiligung oder Bewertung des Sprechers transportieren können. Emotionen als „linguistische Kategorie“, wie Fries (1995) dies bezeichnet, sind bis heute kaum erforscht, auch wenn das Interesse an der emotionalen Ausdruckskomponente von Sprache in den vergangenen Jahren erfreulich zugenommen hat und ganze Symposien zu diesem Thema stattfanden (z. B. das LAUD-Symposium zu Ehren von Anna Wierzbicka in Duisburg; vgl. Niemeier & Dirven, 1997). In der deskriptiv linguistischen Tradition steht der externe Beurteiler immer irgendwann vor dem Problem, Äußerungen als mehr oder weniger „emotional“ einzuordnen. Dieses Problem stellt sich in der lexikalischen Semantik, wenn „Wortfelder“ analysiert (z. B. Neppl & Boll, 1991; Wierzbicka, 1973, 1995) oder „affektive Diktionäre“ (z. B. Hölzer et al., 1992) erstellt werden sollen. Aber auch auf den anderen sprachlichen Ebenen stellt sich die nicht triviale Frage, welche Äußerungen durch welche Mittel emotionale bzw. affektiv-bewertende Inhalte transportieren. In seinen Arbeiten von 1995 und 1996 fordert Fries ein Überdenken aller linguistischen Bedeutungsexplikationen, welche möglicherweise Bezug auf Emotionen nehmen, die gleichermaßen das Lexikon, die Morphologie, die Syntax und die Phonologie und Phonetik betreffen. Der Autor diskutiert überblicksartig verschiedene sprachsystematische Mittel, die zum Ausdruck von Emotionen eingesetzt
470 werden. Als Emotionen fasst er „ausschließlich dem Menschen verfügbare, mittels Sprache systematisch ausdrückbare spezifische Bedeutungen“ (Fries, 1995: 143) und grenzt diese gegen Gefühle als subjektive Gestimmtheiten mit einer psychophysiologischen Komponente ab. Er skizziert auf den traditionellen sprachlichen Ebenen unter anderem folgende sprachliche Variationen: Als lexikalische Mittel diskutiert Fries einerseits die Interjektionen als eine ausgezeichnete Gruppe von Äußerungen, die nach Meinung vieler Autoren nahezu ausschließlich expressiven Charakter haben und zum Ausdruck von Emotionen eingesetzt werden (vgl. Ehlich, 1986; Jakobson, 1994). Des Weiteren sind hier Emotionswörter, Metaphern und eine Vielzahl von Phraseologismen, affektiv-markierte Formen in Minimalpaaren (Weib/Frau) und gradierende Adverbien (gern, gut, schlechter) zu betrachten. Im Bereich der Wortbildungsmittel ist auf morphologische Strukturen zu schauen wie diminuitive oder augmentative Flexionskategorien (Frauchen, Herzchen), gradierende Präfixbildungen (z. B. super-, mist-, ultra-) und Personenbeschreibungen mit Suffigierungen auf -ler (Umstürzler, Schmeichler) und -ling (Schönling, Weichling), die häufig Wertungen transportieren. Als phonetisch-phonologische Mittel werden unter linguistischer Sicht vorrangig suprasegmentale Phänomene der Akzentrealisierung betrachtet, hier vor allem die Längung von Lauten und Intonationsaspekte. Grammatische Strukturen sind nach Fries (1995) in den meisten Sprachen im Allgemeinen nicht für den emotionalen Ausdruck spezifiziert, sondern erhalten einen expressiven Charakter erst durch lexikalische und/oder phonetisch-phonologische Mittel. Allerdings betrachtet er spezielle, nach kerngrammatischen Prinzipien unvollständige syntaktische Strukturen des Deutschen, die unmittelbar ein Begehren (etwas leiser!, Raus!) und/oder eine spezielle Erregung des Sprechers ausdrücken (Wie groß Peter geworden ist!, Feuer!). Allein aufgrund der Form lässt sich allerdings nur feststellen, dass die Äußerungen nicht neutral gemeint sind. Erst durch andere Mittel (z. B. Prosodie) wird die spezifische emotionale Qualität (Angst, Schreck, Freude) ausgedrückt. Andere Autoren gehen mit ihrer Interpretation syntaktischer Formen weiter. So werden z. B. intensivierende Genitivkonstruktionen mit Lexemwiederholung (das Buch der Bücher), die Verwendung bestimm-
III. Sprachproduktion
ter Dativkonstruktionen (Hübler, 1998) oder auch die Verwendung von Exklamativ- und Wunschsätzen (Rosengren, 1994) als affektiv markiert angeführt (siehe Abschnitt 5.2.2). Des Weiteren sind textuale Mittel hinsichtlich ihrer typisch emotionalen Bedeutungskomponente zu betrachten, so z. B. Kontrastierungen, Deixis und andere emotionale Cues (Ungerer, 1997). Schließlich werden pragmatische Mittel diskutiert wie die Wahl bestimmter Sprechakte, die Verwendung wörtlicher Rede (Günthner, 1997) und Regeln über Manifestationsmöglichkeiten von Emotionen im kommunikativen Handeln (vgl. z. B. Fiehler, 1990). All diesen linguistischen Kategorien wird ein expressiver, emotionaler Bedeutungsaspekt zugeschrieben, der nicht (notwendigerweise) aufgrund aktuell vorliegender emotionaler Zustände des Sprachproduzenten zustande kommt. Die Mittel können mehr oder weniger bewusst eingesetzt werden.
3.
Emotion: Grundannahmen und Definitionen
Will man nun die aktuelle Emotion oder Stimmungslage des Produzenten als Einflussgröße auf die Sprachproduktion berücksichtigen, so wird eine Verknüpfung emotionstheoretischer und psycholinguistischer Modellvorstellungen erforderlich. Hierfür muss jedoch zunächst eine kurze Einführung zu aktuellen Vorstellungen über die Funktion eines „emotionalen Systems“ in Verbindung mit kognitiven Prozessen gegeben werden, denn nach wie vor ist der Begriff der Emotion in der Psychologie nicht einheitlich gebraucht, und die Phänomene, die gemeint sind, wenn von Emotionen die Rede ist, sind nur schwer zu definieren. Vor allem muss zunächst angenommen werden, dass es Emotionen als eigenständiges Phänomen tatsächlich gibt – eine These, die für die psychologische Forschung der 50er bis 70er Jahre durchaus umstritten war und die angesichts der Heterogenität und Eklektizität der auch heute noch existierenden Emotionsdefinitionen nicht als selbstverständlich angesehen werden kann. Seit Kleinginna und Kleinginna (1981) in einem Überblick mehr als hundert Definitionen systematisch verglichen und ausgewertet haben, werden Emotionen üblicherweise im Zusammenkommen verschiedener Komponenten definiert. Danach umfasst eine Emotion z. B. nach Ulich und Mayring (1992: 35)
35. Emotion und Sprachproduktion
bestimmte „leib-seelische Zuständlichkeiten einer Person, an denen sich […] je nach Betrachtungsebene verschiedene Komponenten unterscheiden lassen: eine subjektive Erlebniskomponente, eine neurophysiologische Erregungskomponente, eine kognitive Bewertungskomponente und eine interpersonale Ausdrucks- und Mitteilungskomponente“. Diese verschiedenen Komponenten einer Emotion stehen in unterschiedlichem Maße und in unterschiedlicher Form in Zusammenhang mit sprachlichen Ausdrucksformen. So weist speziell der vierte Aspekt direkt auf die Relevanz der pragmatischen Ebene bei der Kommunikation von Emotionen hin. Die kognitive Bewertungskomponente hängt eng mit Vorstellungen zur Repräsentation emotionaler Konzepte und deren sprachlich-propositionaler Fassung zusammen. In linguistischen Ansätzen zum Themenbereich wird der Begriff der Emotion daher häufig auf diese kognitivbewertende Komponente beschränkt. Die neurophysiologische Erregungskomponente beeinflusst vermutlich sprechmotorische Faktoren und damit den vokalen Ausdruck. Bezug nehmend auf Arbeiten von LeDoux (1989, 1994), betonen aktuelle neuropsychologische Ansätze neben diesen deskriptiven Komponenten des Verhaltens und Erlebens bestimmte zentralnervöse Regelkreise, die maßgeblich an der emotionalen Verarbeitung beteiligt sein sollen. Es handelt sich vereinfachend um zwei Regelkreise emotionaler Verarbeitung: ein ontogenetisch früh entwickeltes System, das auf thalamische Strukturen in Verbindung mit der Amygdala und dem Hippocampus im limbischen System zurückgreift und eine schnelle automatische Verarbeitung sensorischer Daten ermöglicht, sowie ein sich später herausbildender Regelkreis kortikaler Strukturen in Verbindung mit Kernen der Amygdala, der bewusste kognitive Bewertungsprozesse höherer Ordnung mit dem subjektiv-emotionalen Erleben verknüpft. Die Strukturen beider Regelkreise sind allerdings an weiteren kognitiven Prozessen, speziell des Lernens und der Motivation, beteiligt, so dass in ihnen keine „Emotionszentrale“ eineindeutig identifiziert werden kann. Weitere Verwirrung entsteht, betrachtet man die spezifischen Vorstellungen verschiedener Autoren zu Qualität und Quantität emotionalen Erlebens. Für eine terminologische Präzisierung des Emotionsbegriffes wird heute gewöhnlich zwischen Emotionen, Stimmungen und affek-
471 tiven Bewertungen unterschieden. Emotionen sind definiert als zeitlich begrenzte, intensive, auf ein Ziel oder Objekt gerichtete affektive Zustände, die der betroffenen Person gewöhnlich bewusst sind, wohingegen Stimmungen als länger andauernde, weniger intensive und nicht notwendigerweise bewusste affektive Zustände beschrieben sind, für die häufig keine konkrete Ursache und kein Objekt angegeben werden kann (vgl. Morris, 1989; Parkinson et al., 2000). Beide Begriffe beziehen sich auf affektive Zustände der Person, die subjektiv eine emotionale Erlebenskomponente beinhalten (auch als „hot emotions“ bezeichnet). Hiervon zu trennen sind emotionale Bewertungen, die rein kognitiv anhand konzeptuell-schematischer Informationen getroffen werden können (auch „cold emotions“). Des Weiteren wird die Qualität einzelner emotionaler Zustände entweder über qualitativ unterscheidbare Basisemotionen und eine Hierarchie darauf aufbauender spezifischer Emotionen definiert (z. B. Izard, 1977; Johnson-Laird & Oatley, 1989; Fisher et al., 1990; Plutchik, 1984) oder über die Einordnung jedes emotionalen Zustandes in einen Erlebensraum, der durch bestimmte Grunddimensionen aufgespannt wird (Wundt 1901; Traxel, 1983; vgl. Tischer, 1993). Formal lassen sich diese Beschreibungsformen, von denen speziell letztere sehr stark semantisch motiviert ist (Osgood et al., 1957), bis zu einem gewissen Grad ineinander überführen. Allerdings bergen die Dimensionsanalysen nach wie vor erhebliche methodische Mängel und Differenzen in ihren Ergebnissen, so dass einige Autoren diesen Ansatz ablehnen (z. B. Schmidt-Atzert, 1987). Auch lassen sich qualitativ unterschiedlich empfundene Emotionen nicht eindeutig über diese Dimensionen klassifizieren, so dass in dieser Arbeit der kategoriale Ansatz verfolgt wird, der die Existenz einer Reihe spezifischer, qualitativ differenzierbarer Basisemotionen annimmt. Hierzu zählen die meisten Autoren Freude/Glück, Ärger, Angst und Traurigkeit. Diese Basisemotionen (ich freue mich über, ich ärgere mich über, ich fürchte mich vor, ich trauere um) und ihre zugehörigen Stimmungszustände (ich bin glücklich, ärgerlich/verärgert, ängstlich/furchtsam, traurig/niedergeschlagen) können durch alltagssprachliche Emotionswörter bezeichnet werden (vgl. Asendorpf, 1984; Neppl & Boll, 1991), und ihre kognitive Komponente kommt auf den verschiedenen
472
III. Sprachproduktion
sprachlichen Ebenen in spezifischer Form zum Ausdruck. Eine Frage, die angesichts der vielschichtigen und eklektischen Definitionen von Emotionen bleibt, betrifft die Existenz eines klar umgrenzbaren emotionalen Systems, das unabhängig von kognitiven Prozessen konzeptualisiert werden kann. Hierzu liegt eine Vielzahl von Vorstellungen vor, die im Rahmen dieses Artikels nicht sinnvoll zu diskutieren sind. Eine knappe Übersicht findet sich zum Beispiel bei Battacchi, Suslow und Renna (1996), die ihre Betrachtungen mit folgender Metapher schließen: „Unsere Einführung zum Thema Emotion und Kognition endet mit dem Bild des Januskopfes: obwohl beide „Gesichter“ als separate Formen einer Gestalt zu erkennen sind, fällt es schwer, ihre Begrenzungen eindeutig festzulegen, und obwohl beide in eine Umwelt gerichtet sind, nimmt jedes Augenpaar zumindest teilweise diverse Aspekte wahr.“ (Battacchi et al., 1996: 34).
4.
Zum Zusammenhang von Emotion und Kognition
Während eine Vielzahl von Modellvorstellungen und Theorien den Zusammenhang zwischen verschiedenen kognitiven Prozessen und Emotionen behandelt, wird speziell der Zusammenhang zwischen Sprache und Emotion seltener thematisiert, oder es werden sprachliche Prozesse auf ihre lexikalisch-konzeptuelle Repräsentation im Rahmen von Gedächtnistheorien reduziert (vgl. Dalgleish & Power, 1999). Ein Zusammenhang zwischen Emotion und Sprache wird dann auf der Ebene der kognitiven Repräsentation von Ereignissen und Gefühlen sowie ihren jeweiligen Konzepten und sprachlichen Labels im Rahmen assoziativer Netzwerkmodelle hergestellt wie im folgenden Modell. 4.1. Das Netzwerkmodell von Bower (1981) Speziell die Arbeiten von Gordon Bower und seiner Gruppe haben diesen Ansatz berühmt gemacht und eine Vielzahl empirischer Studien angeregt (für einen Überblick siehe Bower, 1987; Singer & Salovey, 1988; Morris, 1989; Forgas, 1999). In der Grundkonzeption von Bower (1981) werden Repräsentationen der Emotionen als Knoten in ein Netzwerk kognitiver Repräsentationen integriert. An einen solchen Emotionsknoten sind Repräsentationen typischer Ursachen, assoziierter
Ereignisse, sprachlicher Label und expressiver Verhaltensweisen geknüpft. (Dabei waren die Repräsentationen als abstrakt propositionale Konzepte gedacht. Heutige Modellvorstellungen, z. B. Modelle mit verteilten und modalitätsnahen Repräsentationen oder Modelle flexibler Konzepte (Mangold-Allwinn, 1993) könnten vermutlich eine sinnvolle Modifikation der ursprünglichen Konzeption beinhalten.) Da zwischen Emotion und Emotionsrepräsentation nicht klar getrennt wird, stoßen kognitive Prozesse immer auch emotionales Erleben und Bewerten an. Emotionen beeinflussen ihrerseits die Auswahl und Verarbeitung kognitiver Inhalte. Forgas (1999: 593) beschreibt die Rolle affektiver Strukturen wie folgt: „… affect is not an incidental, but inseparable part of how we see and represent the world around us, the way we select, store and retrieve information, and the way we use stored knowledge structures in the performance of cognitive tasks.“ Die Forschung zu dem Netzwerkmodell emotionaler Verarbeitung hat sich weitgehend mit dem Einfluss von Emotionen auf kognitive Verarbeitungsprozesse befasst, so dass die entsprechenden Hypothesen und Befunde stark kognitionslastig geblieben sind. Der elegante Netzwerkansatz behandelt das komplexe Phänomen Emotion damit nur unvollständig und beinhaltet eine Reihe von Schwachpunkten (vgl. Teasdale & Barnard, 1993; Hielscher, 2001), unter anderem die mangelnde Möglichkeit der Trennung sogenannter „hot emotions vs. cold emotions“. Im Rahmen eines alle Informationen integrierenden Netzwerkes ist nicht zufriedenstellend zu modellieren, dass Menschen bestimmte Ereignisse erinnern oder kognitiv repräsentieren können, ohne selbst starke emotionale Empfindungen zu erleben. Auch ist die empirische Befundlage nur zur Hypothese des stimmungskongruenten Abrufs autobiographischer Inhalte als gesichert anzusehen. Probleme des Nachweises stimmungsabhängiger Lern- und Rezeptionseffekte ließen immer wieder Zweifel an dem Gesamtmodell aufkommen (für eine Diskussion der empirischen Befunde vgl. Bower, 1987; Hielscher, 1996; Forgas, 1999). Schließlich berücksichtigt das Modell nicht, dass sich qualitativ unterschiedliche Affekte und Stimmungen (z. B. Freude vs. Niedergeschlagenheit vs. Angst) in ihrem Einfluss auf die Verarbeitung stimmungskongruenter sprachlicher Informationen (vgl. Hielscher 1996) und auf allgemeine kognitive Verarbeitungs- und Leistungs-
473
35. Emotion und Sprachproduktion
aspekte (vgl. Abele, 1995) unterscheiden. Um diesen Kritikpunkten angemessen zu begegnen, ist ein prozessorientiertes, modulares Modell zu Einflüssen des emotionalen Erlebens und der affektiven Bewertung auf den Inhalt sowie auf Art und Form kognitiver Prozesse zu formulieren (vgl. Teasdale, 1999a). 4.2. Das ICS-Modell von Barnard und Teasdale (1993) In ihrem Modell interagierender Subsysteme affektiver und kognitiver Prozesse (Interacting Cognitive Subsystems, ICS) berücksichtigen Teasdale und Barnard (1993) eine Reihe der wichtigsten Probleme und liefern eine Rahmenstruktur, die zur Einbettung der Einflüsse emotionaler Prozesse auf die Sprachproduktion (und -rezeption, vgl. Kap. 52) besser geeignet erscheint. Das ICS-Modell, das vorrangig zur Beschreibung und Erklärung depressiver Störungen entwickelt wurde (Teasdale, 1999b), kann einen großen Teil der empirischen Daten zu Einflüssen emotionaler Komponenten auf kognitive Prozesse erklären. Die kognitive Verarbeitung sensorischer Informationen sämtlicher Modalitäten bis
Akustisches Analysesystem
hin zu ihrer bedeutungsmäßigen Erfassung und emotionalen Bewertung sowie ihren efferenten Auswirkungen geschieht in Subsystemen (siehe Abbildung 35.1), für die eine gewisse Unabhängigkeit in ihrer jeweiligen Funktion zu postulieren ist. Über die genaueren Funktionsweisen und Teilprozesse innerhalb der Module sagen die Autoren wenig. Dies gilt leider auch speziell für die sprachrelevanten Systeme, das sog. „morphonolexical system“ (MPL), das auf der Rezeptionsseite seinen Input aus dem akustischen System (AC) erhält und seinen Output an das artikulatorische System (ART) zur Produktion weiterleitet. Während im Modell von Bower (1981) ein einheitliches Repräsentationsformat alle Bedeutungskomponenten eines Ereignisses direkt mit den Repräsentationen der zugehörigen Emotion verknüpft, wird hier die Unterscheidung zwischen einem propositionalen und einem implikationalen Repräsentationssystem (PROP vs. IMPLIC) getroffen. PROP erhält seinen Input aus Modulen, in denen visueller oder akustischer Input einer Objektund Situationsanalyse (OBJ) oder einer sprachlichen Kodierung unterzogen werden, und enkodiert die Einheiten und ihre Relatio-
Lexikalische und morphophonologische Kodierung
Propositionales Bedeutungssystem mit Emotionswissen Somatosensorisches System
Motorisches System
Somatisches System
Implikationales Bedeutungssystem mit emotionalem Erleben
Visuelles Analysesystem
Artikulatorische Planung
Objektidentifikation
Viszerales System
Bewegungsplanung der Skelettmuskulatur
Abb. 35.1: Komponenten eines modularen Modells zur Integration kognitiver und emotionaler Informationsverarbeitung nach Teasdale und Barnard (1993)
474 nen in ein semantisches Format. IMPLIC erhält Input sowohl aus PROP als auch aus peripheren Systemen visueller (VIS) und akustischer (AC) Verarbeitung sowie somatosensorischer und kinästhetischer Körperwahrnehmung (Body-State BS), die der Sprach- und Objektverarbeitung vorgeschaltet sind. Damit ist dieses Bedeutungssystem sensibel für frühe modalitätsnahe Verarbeitungsstufen. Bei Repräsentationen im Implikationalen System handelt es sich nach Ausführungen der Autoren um die Enkodierung einer abstrakten Beschreibung des individuell Erlebten, die sowohl sensorische und propriozeptive wie auch abstrakte, propositionale Repräsentationen zu einem Erlebenseindruck verknüpft, dessen Dimensionen affektiven und ideationalen Inhalts sind. Nun ist das Implikationale System nicht mit einem „Emotionsmodul“ gleichzusetzen, sondern entspricht eher dem, was andere Autoren (z. B. Baddeley, 1984; Tulving, 1983, 1984) unter dem episodischen Gedächtnis verstehen, so dass die Frage bleibt, wo in diesem Modell emotionale Verarbeitung stattfindet. Neben Transformationsprozessen, die innerhalb jedes Subsystems die Auswertung des spezifischen Inputs leisten und diesen in einen entsprechenden Output für die nachgeschalteten Verarbeitungsebenen umwandeln, postulieren die Autoren ebenfalls in jedem Subsystem sogenannte COPY-Prozesse, über die eine Gedächtnisrepräsentation des jeweiligen Musters erstellt wird. Diesen Prozessen wird ein wichtiger Beitrag zur bewussten Reflektion von Erinnerungen zugeschrieben. Im Falle des Implikationalen Systems können diese COPY-Prozesse mit emotionalem Erleben einhergehen: der subjektive Eindruck bei der Aktivierung entsprechender Repräsentationen entspricht einem holistischen „sense of knowing (e. g. of familiarity or causal relatedness of ideas) or of affect (e. g. apprehension, confidence)“ (Teasdale & Barnard, 1993: 52). Das Erleben von Emotionen entspricht auf dieser Ebene den „hot emotions“. Dagegen entspricht nach Angabe der Autoren der subjektive Eindruck, der mit bewussten Verarbeitungsprozessen auf der Repräsentationsebene des propositionalen Systems verbunden ist, dem des Wissens um Objekte, Sachverhalte und logisch-semantische Relationen und damit auch dem semantischen Wissen um emotionale Begriffe und Schemata („cold emotions“).
III. Sprachproduktion
Emotionales Erleben und Reagieren ist im Modell von Teasdale und Barnard somit keinem einzelnen Modul zugeordnet, sondern entspricht einem verteilten Muster auf verschiedenen Verarbeitungsebenen mit jeweils spezifischen Aktivierungsmustern in den verschiedenen relevanten Modulen. Eine verteilte emotionale Reaktion stellt sich, wie in Abbildung 35.2 skizziert, dar. Aus Situationen, die mehrfach ein bestimmtes emotionales Erleben ausgelöst haben, werden die wiederkehrenden Merkmale des Informationscodes extrahiert und in einem „Implicational schematic model“ integriert, das als Kernthema die jeweilige Emotion charakterisiert. Erhält das Implikationale System dann Informationsinput, der ein entsprechendes emotionales Kernthema aktiviert, so entsteht als subjektives Erleben die entsprechende Emotion. In dieser Erklärung steckt leider eine gewisse Rekursivität, und es ist zu fragen, warum und wie bestimmte Situationen erstmalig emotionales Erleben ausgelöst haben. Die Autoren sprechen von einer wiederholten „co-occurrence“ peripherer Stimuluseigenschaften zusammen mit semantischen Bewertungen und situationalem Erleben, wobei die peripheren Eindrücke automatisch das emotionale Erleben auslösen sollen. Nach heutigem Wissen würde man diese frühe und eher ungenaue, emotional bewertende Funktion einem subkortikalen Analysemechanismus zuordnen, den Teasdale und Barnard nicht explizit berücksichtigen. Emotionales Erleben wird also ausgelöst durch bestimmte Aktivierungsmuster im Implikationalen System. Es enthält andererseits implizite Informationen und löst expressive Muster aus: So impliziert z. B. ein Erleben von Depressionen und Hoffnungslosigkeit das Wissen, dass die eigenen Anstrengungen zur Erreichung eines Zieles fehlschlagen müssen, während Zuversicht impliziert, dass man schon mit der Situation fertig werden kann und sich alles zum Guten wenden lässt. Solche „holistischen Empfindungen“ oder Gefühle korrespondieren mit Bedeutungen im propositionalen System. IMPL wird aber von den Autoren zusätzlich ein direkter Einfluss auf periphere Systeme zugeschrieben wie das viszerale und das somatische System sowie auf motorische Prozesse (vgl. Abbildungen 35.1 und 35.2). So sind nur „hot emotions“ eng verbunden mit Reaktionen und Empfindungen physiologischer Natur, also mit subjektiven Erlebnisqualitäten des „Body-
475
35. Emotion und Sprachproduktion
Input aus Akustischem Analysesystem
Input aus Visuellem Analysesystem
Input aus BS / Somatosensorik
Input aus Propositionalem Bedeutungssystem
Input
Aktivierungsmuster mit affektbezogener Bedeutung im Implikationalen
Bedeutungssystem Emotionales Erleben mit implikationalem Bedeutungsgehalt
copy
Output
Somatisches System
Viszerales System
Propositionales System
(z.B. Gesichtsausdruck, Muskeltonus, Haltung)
(z.B. autonomes NS, neuroendokrine Effekte)
(z.B. spezifische Erwartungen, Attributionen, Abrufvorschriften)
BS / Somatosensorischer Eindruck der k rperlichen Ver nderungen
ªVer teilte Reaktion
emotionale
Abb. 35.2: Die Aktivierung emotionaler Empfindungen und Reaktionsmuster getriggert über ein Aktivierungsmuster im Implikationalen System. Darstellung nach Teasdale und Barnard (1993: 87, mit kleinen Änderungen.).
State“-Systems, wie erhöhter Anspannung oder Entspannung, Kraftlosigkeit, Zittern, Wärmeempfinden etc. 4.3. Emotionale Einflüsse auf sprachliche Prozesse im ICS Liegt nun eine Emotion beim Sprachproduzenten vor, die aktuell intensiv erlebt wird („hot emotion“) und mit entsprechenden implikationalen, propositionalen und physiologischen Mustern korrespondiert, so wird nach vorliegendem Modell eine sprachliche Äußerung sowohl hinsichtlich ihres konzeptuellen Inhaltes (IMPL), ihrer propositionalen Aspekte (PROP), wie auch ihrer prosodischen und stimmlichen Form in direkter Weise beeinflusst. Die Äußerungsform wird hinsichtlich ihrer lexikalischen, morphosyntaktischen und phonologischen Aspekte (MPL) jedoch nur indirekt über Repräsentationen in PROP beeinflusst. Handelt es sich dagegen um eine sog. „cold emotion“, so entfällt die Aktivierung bestimmter implikationaler Schemata und des entsprechenden emo-
tionalen Erlebens. Auch direkte Einflüsse auf Variationen der peripheren Systeme (VIS, SOM und MOT) bleiben aus. Eine emotionale Äußerung wird in diesem Fall allein aufgrund konnotativ-bewertender Informationen im propositionalen System produziert und sollte sich in der Ausführlichkeit und Fokussierung der Inhalte, wie auch in der vokalen Ausführung von einer Äußerung unterscheiden, die im Rahmen aktuell vorliegenden emotionalen Erlebens produziert wird („hot emotion“). Kritisch ist hier zu hinterfragen, ob Wortwahl und morphosyntaktische Form nur unter der Kontrolle des propositionalen Systems und nicht auch unter direktem Einfluss des Implikationalen Systems stehen sollten, was zum Beispiel die Verwendung von Interjektionen als direkten Affektausdruck vernachlässigt. Einzelne Verarbeitungsprozesse im MPL werden nicht unterschieden, so dass das Modell auch keine differenzierten Vorhersagen über die Art des Einflusses machen kann. In solchen Detailproblemen wird deut-
476
III. Sprachproduktion
lich, dass das beschriebene System nur bedingt zur Beschreibung der Interaktion von Emotionen und Sprache herangezogen werden kann. Unberücksichtigt bleiben außerdem die genannten frühen Bewertungsqualitäten auf subkortikaler Ebene (vgl. LeDoux, 1989) und die Modellierung qualitativ unterschiedlicher Einflüsse verschiedener Basisemotionen oder Stimmungen auf kognitive Prozesse und Verarbeitungsstile (siehe Kapitel 52). Solche qualitativen Unterschiede in der Repräsentation und Verhaltensregulation lassen sich vermutlich im Rahmen differentieller neurophysiologischer Muster erklären, die mit modulierenden Einflüssen auf subkortikaler Ebene, speziell mit Strukturen im limbischen System zusammenhängen, denen eine Schaltfunktion zwischen Großhirnaktivität und der Steuerung vegetativer, viszeraler und somatischer Prozesse zugeschrieben wird (vgl. z. B. LeDoux, 1989, 1996; Hülshoff, 1999). Sie werden vor allem für Einflüsse auf die artikulatorischen Prozesse relevant. Eine vollständigere Repräsentation eines Emotionskonzeptes sollte damit mindestens die Verknüpfung von Informationen dreier Gedächtnisrepräsentationsformate vorsehen, wie in Abbildung 35.3 dargestellt. Ein Emotionsschema oder Emotionskonzept umfasst beim gesunden Erwachsenen neben Aspekten propositionalen und implikati-
onalen Wissens (in anderer Terminologie: Speicherinhalte des lexikalisch-semantischen und des episodischen Gedächtnisses) auch ein bestimmtes emotionstypisches Erleben. Diese qualitativ unterscheidbare Färbung kann vermutlich Aktivierungsmustern im limbischen System, speziell der Amygdala, zugeschrieben werden, die von Hülshoff (1999) auch plakativ als „Mischpult der Gefühle“ bezeichnet wird. Im Folgenden soll vorsichtiger von einem Affektiv-regulatorischen System (AFFREG) gesprochen werden, das frühe Bewertungen aufgrund subkortikal erkannter Inputqualitäten vornimmt, Stimmungen reguliert und primäre, schnelle Reaktionsmuster sowie neurophysiologische Veränderungen triggert.
5.
Die sprachliche Kommunikation emotionaler Inhalte
Der Einfluss verschiedener Komponenten des emotionalen Systems auf die Ebenen der Kodierung einer sprachlichen Äußerung kann am besten in Anlehnung an das sehr umfassende Modell von Levelt (1989) und entsprechende Überarbeitungen (Levelt, Roelofs & Meyer, 1999) charakterisiert werden. Grob skizziert sind drei Verarbeitungsebenen oder Module zu unterscheiden:
Propositionales Bedeutungssystem (semantisch, explizit)
Emotionales Bewerten und Erleben
Affektiv-regulatorisches Bedeutungssystem (ungenau archaisch wertend, implizit)
Implikationales Bedeutungssystem (episodisch, explizit)
Abb. 35.3: Drei relevante Repräsentationsebenen emotionaler Informationen in expliziten und impliziten Gedächtnissystemen.
477
35. Emotion und Sprachproduktion
I. Konzeptualisierung einer Äußerung: Auf einer bedeutungsrelevanten übergeordneten Ebene wird ausgewählt, über welche Ereignisse gesprochen werden soll. Eine Linearisierung der Informationen wird im sog. Konzeptualisator festgelegt, und die Form der Sprechakte sowie ihre prosodische Realisierung im kommunikativen Zusammenhang und Kontext werden geplant. II. Formulierung des Darzustellenden: Über einen Zugriff auf „lexikalische Einträge“ ist die geplante Botschaft sprachlich umzusetzen. Es handelt sich um Prozesse der Aktivierung von Lemmata gemäß ihrer semantischen Inhalte und syntaktischen Funktionen, die in ausgewählte Satzrahmen eingepasst werden müssen. Die einzelnen Lemmata sind morpho-phonologisch zu enkodieren, die Äußerungen, Sätze und Phrasen sind dann unter Berücksichtigung silbischer und prosodischer Aspekte in einen phonetischen Code zu trans-
formieren, der als Artikulationsvorschrift verstanden werden kann. III. Artikulation einer Äußerung: Schließlich ist die konkrete artikulatorische Ausführung zu planen und zu steuern. Die Geschwindigkeit, Lautstärke und Grundfrequenz sind festzulegen, die die vorgegebenen prosodischen Muster modulieren. Die Präzision der Artikulation und stimmliche Qualitäten ergeben sich unter anderem aus allgemeinen Einstellungen (Tonus, Spannung) der Artikulatoren. Ein modular konzipiertes emotionales System, wie in Abschnitt 4.2 ausgeführt, nimmt in unterschiedlicher Weise Einfluss auf die verschiedenen sprachlichen Verarbeitungsschritte. In den folgenden Abschnitten werden einige interessante Forschungsergebnisse zu den drei Stufen der Produktion einer Äußerung dargestellt. Die Ausführungen müssen im Rahmen dieses Beitrags natürlich knapp und punktuell bleiben. Eine Integra-
Konzeptuelle Vorbereitung Fokussierung Selektion Linearisierung Perspektivenwahl Implikationales Bedeutungssystem
ªL exika
Formulierung
Lemmas
Lemmaauswahl und grammatikalische Enkodierung
Lexeme
Propositionales Bedeutungssystem
Emotion
Morphologische Enkodierung Silben Intonationsmuster
Phonologische Enkodierung und Syllabifikation Prosodische Enkodierung
Laute
Phonetische Enkodierung
Affektivregulatorisches Bedeutungssystem
Phonetische Beschreibung der Lautgesten
Artikulation Planung und Programmierung der artikulatorischen Gesten Vokaler Ausdruck
Abb. 35.4: Interaktionen sprachlicher und emotionaler Verarbeitungsmechanismen im Rahmen der Sprachproduktion. Modell in Anlehnung an modulare Systeme zur Emotion (Teasdale & Barnard, 1993) und Sprachverarbeitung (Levelt et al., 1999).
478 tion der wesentlichen Komponenten emotionaler und sprachlicher Repräsentationen und Prozesse skizziert Abbildung 35.4. Bevor die Prozesse der Konzeptualisierung, Formulierung und Artikulation emotionaler Äußerungen im Weiteren genauer behandelt werden, wäre in einem Exkurs der Aspekt der Repräsentation von Emotionskonzepten und ihren sprachlichen Bezeichnungen näher zu betrachten. Speziell im Rahmen der lexikalischen Semantik existiert hierzu eine recht ausführliche Forschungstradition. Da die Studien zur semantisch-lexikalischen Repräsentation von Emotionskonzepten jedoch gewöhnlich rezeptive Aufgaben (Ratings, semantisches Differential etc.) verwenden, wird dieser Aspekt in Kapitel 52 näher erörtert. 5.1. Konzeptualisierung emotionaler Äußerungen Liegt eine kommunikative Intention vor, so betrifft die zentrale Frage der Planung einer Äußerung die Auswahl und Generierung der zu übermittelnden Botschaft. Nach Levelt (1989) sind Prozesse der Fokussierung bestimmter Themen zu betrachten, denen eine Selektion geeigneter Inhalte und ihre Linearisierung folgt. Die Konzeptualisierung berücksichtigt referentielle sowie kommunikative Aspekte und findet statt vor dem Hintergrund a) des aktuellen Situationsmodells, das die Sprechsituation, ein Modell des Kommunikationspartners, der eigenen Person und der Beziehung zwischen Rezipient und Sprecher beinhaltet, b) der insgesamt gerade aktiven Gedächtnisinhalte des Sprechers, c) seiner derzeitigen Motive, Bedürfnisse und der aktuellen Stimmungslage, die wiederum selektiv bestimmte Gedächtnisinhalte präferieren lassen, und d) des konventionellen Wissens über die Adäquatheit bestimmter Inhalte und Intentionen. Zu unterscheiden ist weiterhin zwischen der Makroplanung, die allgemeine Ziele des Gesprächs berücksichtigt, und der Mikroplanung, die eine Planung der korrekten propositionalen Einheiten umfasst. Erst in neueren Arbeiten (z. B. Roelofs, 1992; Levelt, 1996; Levelt et al., 1999) wird hier speziell dem Aspekt der Perspektivensetzung bei der Gestaltung der Botschaft Beachtung geschenkt, wobei es sich in den empirischen Arbeiten gewöhnlich um Fragen räumlicher Perspektive handelt. Allerdings scheint dieser Aspekt auch speziell für die Gestaltung emotionaler Äußerungen von Bedeutung. So sollte die konzeptuelle Repräsentation einer
III. Sprachproduktion
geplanten Äußerung berücksichtigen, wie der Sprecher die emotionale Bewertung des Berichteten durch seinen Kommunikationspartner einschätzt. Das Endprodukt der Konzeptualisierung stellt einerseits die sogenannte präverbale Botschaft dar. Hierbei handelt es sich um propositionale Inhalte, die lexikalisch nahe Konzepte beinhalten und die dann entsprechende Lemmata im mentalen „Lexikon“ aktivieren. Andererseits liefert die Konzeptualisierung die pragmatische Funktion der Äußerungsabsicht (z. B. Aussage, Frage, Bekräftigung, Befehl), die Sprecherhaltung zu dem Geäußerten bzw. seine Bewertung (z. B. Zweifel, Betonung, Kritik) sowie auch emotionale Aspekte hinsichtlich des Berichteten und der Kommunikationssituation (z. B. Ärger, Zuneigung, Traurigkeit, Angst). Damit sind Anweisungen für paraverbale, die zu setzende Intonation betreffende Aspekte verbunden. Im Modell emotionaler Verarbeitung sind an diesen Generierungsprozessen somit das implikationale wie auch das propositionale System beteiligt, indirekt vermutlich auch latente Stimmungen und Bewertungen im konnotativ-regulativen System. Liegen bewusst wahrgenommene Emotionen (IMPL) vor, so sind assoziierte implikationale Schemata präaktiviert und sollten relativ häufig fokussiert werden. Ob sie aber ausgewählt und zum Thema einer Äußerung werden, hängt von einer Reihe kultureller, sozialer und aus der persönlichen Lerngeschichte abgeleiteter Faktoren ab (vgl. Benthien, Fleig & Kasten, 2000). Diese spielen eine bedeutende Rolle dafür, ob und in welcher Form tatsächlich über (die eigenen) Gefühle geredet wird, ob sie indirekt in den Äußerungen zum Ausdruck kommen oder möglichst völlig aus der verbalen, vokalen und/oder mimischen Kommunikation getilgt werden. Auch wenn es sich hier um ein sehr interessantes Forschungsfeld handelt, sind psycholinguistische Untersuchungen zur Auswahl und Gestaltung emotionaler Inhalte in unterschiedlichen kommunikativen Situationen erstaunlich rar, was vermutlich unter anderem auf die erheblichen methodischen Probleme solcher Untersuchungen zurückzuführen ist. Hier addieren sich Probleme der Auswertung freier Sprachproduktion zu Problemen der experimentellen Induktion oder validen und reliablen Erfassung emotionaler Zustände der Produzenten. Einige Forschungsbereiche las-
35. Emotion und Sprachproduktion
sen sich jedoch zu diesen Planungsschritten nennen: ⫺ Zum einen handelt es sich im Rahmen der Fokussierungs- und Selektionsprozesse um Studien zur Frage: Was wird berichtet? Methodisch handelt es sich um die Analyse autobiographischer Angaben und um inhaltsanalytische Verfahren. ⫺ Zum anderen betrachten einige Forscher die generelle Form affektiv-bewertender Äußerungen, Prozesse der Linearisierung und Einführung. Methodisch sind diese Untersuchungen im Rahmen der Gesprächsanalyse und Sprechaktforschung angesiedelt. Zur Frage, WAS berichtet wird, zeigten schon frühe Untersuchungen, dass emotional gefärbte Alltagsereignisse mit höherer Frequenz reproduziert werden als neutrale Ereignisse, wenn Personen aufgefordert sind, über eigene Erlebnisse zu erzählen (z. B. Weiner, 1966) oder zu Stichwörtern zu assoziieren (Hunter, 1957). Sind keine Tendenzen durch das Stimulusmaterial nahegelegt, so ist die Auswahl berichteter Ereignisse üblicherweise zugunsten positiver Erlebnisse verschoben (z. B. Schwartz & Garamoni, 1986). Eine Beobachtung, die im Rahmen der intensiven Forschung zur Stimmungskongruenz (Bower, 1981) als relativ gesichert gelten kann (vgl. Überblicksarbeiten von Singer & Salovey, 1988; Morris, 1989 oder Parkinson et al., 2000), ist eine deutliche Häufung positiver Berichte von Personen mit positiver Stimmungslage und eine dagegen verschobene Häufung negativer Berichte von Personen mit depressiver Stimmungslage. Unklar bleibt in vielen Untersuchungen, ob das Verhältnis berichteter positiver vs. negativer Ereignisse die Realität widerspiegelt oder ob es tatsächlich zu Verzerrungseffekten durch die Befindlichkeit kommt. Einige Untersuchungen legen den Schluss nahe, dass positive Stimmung einen positiv verzerrenden Einfluss auf die Aktivierung und/oder Auswahl von zu berichtenden Ereignissen bewirkt, dass eine depressive Stimmungslage dagegen die „fairere“ Berücksichtigung der Ereignisse fördert, die dann negativ verzerrt wirkt (Alloy & Abramson, 1979, 1988). Für hoch ängstliche Personen finden sich nicht eindeutig vermehrt auftretende angstbesetzte Ereignisberichte (für einen Überblick siehe Hielscher, 1996), allerdings sind Angst oder auch Ärger als negative Stimmungslagen oder aktuelle Emotionen sel-
479 tener untersucht worden. Eine Ausnahme bilden die Arbeiten von Gottschalk und Gleser (1969, Gottschalk, 1995), die in Form einer affektiven Sprachinhaltsanalyse Rückschlüsse speziell auf Angst- und Ärger- bzw. Aggressionskomponenten des Produzenten ziehen. Es handelt sich um ein Verfahren, das stark interpretativ bleibt und dessen Objektivität, Reliabilität und Validität in Frage zu stellen sind. Neben der Qualität der einflussnehmenden Stimmung oder Emotion werden als weitere Faktoren, die das Auftreten eines Kongruenzeffektes zu beeinflussen scheinen, unter anderem diskutiert (vgl. Parkinson et al., 2000): ⫺ die Bewusstheit der Emotion, ⫺ die persönliche Relevanz und Involviertheit, ⫺ die Intensität der Emotion/Stimmung und ⫺ der Einsatz stimmungskorrigierender Strategien. Neben dem emotionalen Inhalt der untersuchten Äußerungen ist unter psycholinguistischer Sicht auch das WIE der Einführung und Gestaltung entsprechender Äußerungen im Gespräch interessant: Wie werden emotionale Äußerungen eingeleitet, wie sind Aspekte der Äußerung linearisiert etc. In diesem Zusammenhang ist zum Beispiel auf die Arbeiten von Fiehler (1990) zu verweisen, der vorrangig die kommunikative Funktion von Emotionen als bewertende Stellungnahmen betrachtet. Dabei wird (zunächst) als unerheblich angesehen, ob aktuell vorliegendes emotionales Erleben (Aktivierung in IMPL und AFFREG) oder ob Ereignisse und Emotionen auf der konzeptuellen Ebene (PROP) kommuniziert werden. Der Autor betont den Aspekt der Emotion als öffentliches Phänomen in sozialen Situationen interpersoneller Interaktion. Emotionale Stellungnahmen sind zu beschreiben nach der Formel: „Emotion A ist eine bewertende Stellungnahme zu X auf der Grundlage von Y als Z.“ (Fiehler, 1990: 42). Dabei steht X für Situationen, andere Personen (ihre Handlungen oder Eigenschaften), die eigene Person (eigene Handlungen oder Eigenschaften), Ereignisse/Sachverhalte, Gegenstände oder mentale Produktionen. Y bezieht sich auf Erwartungen, Interessen und Wünsche, (akzeptierte) soziale Normen und Moralvorstellungen, das Selbstbild oder das Bild des Anderen. Für Z sind schließlich als mögliche Belegungen „entsprechend“/gut oder „nicht entsprechend“/ schlecht aufgeführt. Qualitative Differenzie-
480 rungen des subjektiven Erlebens sollen sich aus dem Gesamtmuster ergeben. Äußerungen über Emotionen beinhalten nach den Ergebnissen der Gesprächsanalysen gewöhnlich Realisierungen dieser Aspekte. Damit werden ähnliche Aspekte und Bewertungsdimensionen ermittelt, wie sie auch von kognitiv orientierten, klassifikatorischen Emotionstheoretikern zur qualitativen Unterscheidung von Emotionen selbst genannt werden, so z. B. von Scherer (1988). Erzählungen von Emotionsgeschichten lieferten ein noch differenzierteres Raster (Scherer, 1993), das eine genauere Charakterisierung qualitativ unterschiedlicher Basisemotionen erlaubt. Ein weiterer wichtiger Befund der Untersuchungen betrifft die Struktur der Emotionsgeschichten bzw. der kommunikativen Sequenzen über emotional relevante Ereignisse. Die untersuchten Dialoge folgten bestimmten Mustern in Abhängigkeit von der Qualität der kommunizierten Emotion, so zum Beispiel für die Bekundung von „Anteilnahme“ an den dargestellten affektiven Inhalten durch den Kommunikationspartner. Ebenfalls im Rahmen diskursanalytischer Studien findet Günthner (1997), dass z. B. die Verwendung sowohl direkter Rede als auch indirekter Rede zur Betonung des affektiven Gehalts eigener und gehörter Klagen/Beschwerden häufig zu finden ist. Mit beiden Formen gelingt es den untersuchten Sprechern, speziell durch prosodische Variation und Stimmqualität sowohl den Inhalt als auch die ursprüngliche affektive Wertung und ihre eigene Übereinstimmung oder ablehnende Haltung zu der Klage ausdrücken. Interessant wären unter psycholinguistischer Perspektive aber auch speziell Einflüsse aktuell vorliegender Stimmungen oder Emotionen auf die Wahl bestimmter Sprechakttypen (z. B. Bitte vs. Aufforderung oder Drohung) unter Berücksichtigung des appelativ/conativen, des representativ/referentialen, des expressiv/emotiven und des beziehungsdefinierenden Aspektes. Hypothesen hierzu finden sich bislang vorwiegend in der psychologischen Literatur zu kommunikativen Strukturen in Therapie und Beratung, z. B. bei Schulz von Thun (1981, 1989) oder auch schon bei Satir (1975). Die genannten Autoren postulieren globale kommunikative Stile, die mit bestimmten Grundemotionen und frühkindlich erworbenen „seelischen Axiomen“ von Angst, Hilflosigkeit, Wertlosigkeit und Schwäche in Zusammenhang gebracht werden. Diese Verbindung bestimmter Emo-
III. Sprachproduktion
tionen mit entsprechenden kommunikativen Mustern ist bislang jedoch meines Wissens nicht in kontrollierten Studien überprüft und einer genaueren linguistischen Analyse unterzogen worden. 5.2 Die Prozesse der Formulierung emotionaler Äußerungen Nach Levelt (1989) sind als zwei basale Teilprozesse der Formulierung die grammatikalische und die phonologische Enkodierung einer Äußerung zu unterscheiden. Neuere Modellvarianten unterscheiden hier noch feinere Prozesskomponenten, wie sie in Abbildung 4 angedeutet sind und kurz wie folgt zusammengefasst werden können: (1) grammatical encoding: beinhaltet die Lemmaauswahl mit Prozessen der lexikalischen und grammatikalischen Enkodierung, die als Endprodukt eine Oberflächenstruktur der Äußerung mit einer Kodierung der grammatischen Formen liefert; (2) phonological encoding: beinhaltet den Aufbau morphosyntaktischer Strukturen, ihre phonologische Enkodierung und silbische Umsetzung, die als Endprodukt aus dem segmentalen Kode, der Metrik und der Intonation der Äußerung einen genauen phonetischen Plan, eine genaue Spezifikation der phonetischen Gesten in Raum und Zeit für die weitere Artikulation zur Verfügung stellt. Im Modell Levelts (1989) wird die lexikalische Auswahl durch die konzeptuelle Repräsentation der präverbalen Botschaft determiniert. Die zu verwendenden syntaktischen Formen werden dann hauptsächlich durch die aktivierten lexikalischen Einheiten bestimmt. Die Informationen der präverbalen Botschaft werden gecheckt, um diverse Annotationen auszuwerten. Im Zusammenhang mit emotionalen Komponenten sind dies z. B. die Relevanz und konzeptuelle Prominenz, die eine erhöhte Zugreifbarkeit („accessibility“) auf bestimmte Formen bedingen. Auch Battacchi, Suslow und Renna (1996), die sich an dem Modell Levelts orientieren, halten zumindest eine emotionale Beeinflussung der lexikalischen und phonologischen Enkodiermechanismen für denkbar (wenn auch noch nicht hinreichend empirisch belegt), einen Einfluss auf die syntaktischgrammatischen Enkodierprozesse schließen sie aus. Da jedoch in der linguistischen Lite-
35. Emotion und Sprachproduktion
ratur einige Hypothesen zur Verwendung spezieller syntaktischer Formen als phatisch ausgezeichnete Strukturen existieren, soll hier ein Zusammenhang zwischen emotionalen Aspekten und grammatischer Ausdrucksform nicht von vorn herein außer Acht gelassen werden. 5.2.1. Lemmaauswahl Hat der potentielle Sprachproduzent den Inhalt seiner Botschaft geplant, so ist eine entsprechende sprachliche Form zu erstellen. Nach Levelt et al. (1999) wird zunächst die Auswahl der zu verwendenden lexikalischen Einheiten (Lemma-Auswahl) durch die jeweils am höchsten aktiven Konzepte der Botschaft bestimmt. Ein sogenanntes Lemma macht Informationen über die lexikalische Semantik des sprachlichen Items wie auch über syntaktische Merkmale zugänglich. Bei der Vielzahl möglicher Variationen des emotionalen Ausdrucks in der Sprache stellt sich an dieser Stelle die Frage nach Faktoren des Lemmazugriffs und den daran anschließenden Formulierungsprozessen. Ist zum Beispiel das eigene Gefühl des Ärgers über eine andere Person bewusst und stark fokussiert und spricht keine Konvention oder kein anderer kommunikativer Zwang dagegen, dieses Gefühl anzusprechen, so wird möglicherweise diese Tatsache einleitend direkt formuliert („Ich bin stinksauer!“), da die Emotion selbst Teil der zu übermittelnden präverbalen Botschaft ist. Wird aber der Auslöser des Ärgers fokussiert, vielleicht ohne dass sich die Person über ihre Gefühle bewusst ist, so sollte es zu Darstellungen kommen, die das Ereignis schildern und die Emotion eher indirekt transportieren. Für die Umsetzung einer generierten Botschaft in ihre konkrete Formulierung sind verschiedene individuelle und kontextuelle Faktoren zu berücksichtigen. Nach Levelt (1989) gehört hierzu unter anderem die generelle Verfügbarkeit einzelner Wortrepräsentationen im „mentalen Lexikon“, z. B. aufgrund ihrer Gebrauchshäufigkeit. Es lässt sich aber aufgrund rezeptiver Studien (siehe Kap. 52) auch vermuten, dass emotional konnotierte Wörter schneller und leichter verfügbar sind, emotional negative, tabuisierte Items dagegen einen höheren Schwellenwert haben. Auch spielt die kontextuelle Einbindung und die Verknüpfung der Wortrepräsentationen innerhalb semantischer Felder eine Rolle für den jeweiligen Abruf. Da empirische Untersuchungen zur Struktur und
481 zu Zugriffsprozessen auf lexikalischer Ebene gewöhnlich im Rahmen von rezeptiven Studien vorliegen, ist diese Diskussion in Kapitel 52 zu führen. Schließlich sollten kulturelle und soziolektale Regeln für den jeweiligen Verwendungskontext das jeweils zur Verfügung gestellte Vokabular oder Register (Levelt, 1989: 183) einschränken. So werden Jugendliche untereinander zum Ausdruck ihres Ärgers über einen Polizisten stark negativ besetzte Wörter wie Cop, Bulle etc. verwenden, während sie in Gegenwart eines Lehrers, Richters etc. vielleicht gemäßigtere Formulierungen wählen. Auch sind interessante kulturelle Unterschiede in der Stärke und Direktheit des emotional-bewertenden Ausdrucks in der Sprache zu beobachten, die nichts mit der Stärke der tatsächlich empfundenen Emotionen zu tun haben, sondern allein mit der Verknüpfung bestimmter emotionaler Konzeptualisierungen und zugehöriger Lemmas mit sprachlichen Formulierungen (z. B. Györi, 1998). In der alltäglichen Sprachproduktion scheint die direkte Verwendung von Emotionsbezeichnungen im Deutschen selten. In freien kommunikativen Situationen (z. B. Fiehler, 1990) wie auch in Texten (z. B. Zeitungsmeldungen, Ungerer, 1997) werden eher Situationsbeschreibungen und Beschreibungen des Ereignisses gegeben, die auch nur selten durch eine direkte Bewertung („Ich bin enttäuscht, dass Peter so spät nach Hause kam.“), häufiger durch indirektere Formen kommentiert (wie z. B. „Leider kam Petra so spät nach Hause…“ / „Schade, dass …“) oder prosodisch markiert werden. Möglicherweise ist in unserem Kulturkreis die direkte Formulierung unserer Emotionen relativ unüblich, so dass wir ihre Bezeichnungen auch eher mühsam abrufen können. Aufgabenstellungen zur Überprüfung der Wortflüssigkeit geben eine grobe Einschätzung sprachlicher Manipulationen und der Verfügbarkeit bestimmter lexikalischer Elemente. Hier zeigten sprachgesunde deutsche Muttersprachler in eigenen Untersuchungen (Hielscher, 2001) ein deutlich eingeschränktes Vokabular, wenn sie aufgefordert wurden, so viele Gefühle zu benennen, wie ihnen gerade einfielen. Im Mittel konnten sie hierzu nur 4,7 Begriffe nennen, während ihnen zu anderen semantischen Kategorien im Schnitt sehr viel mehr Begriffe einfielen. Auch wenn zu kurzen Emotionsgeschichten jeweils besonders gut passende Gefühle des Protagonisten frei benannt werden sollen, zeigen sich Versuchsper-
482 sonen wenig kreativ, sondern beschränken sich auf sehr allgemeine Beurteilungen (X geht es gut/schlecht, X freut sich, X ist wütend, X hat Angst), obwohl ihnen in rezeptiven Aufgaben sehr viel genauere Klassifikationen möglich sind. Die emotionale Bewertung des Dargestellten drückt sich also selten in einer konkreten Bezeichnung des Empfundenen aus, sondern sehr viel indirekter, z. B. in der Konnotation der gewählten Nomen (Biest, Töle, Hund) und Verben (kritisieren, meckern) oder der gradierenden Adjektive (eine nette Party, eine tolle Party) (siehe 4.1.1). Um die emotionale Bewertung in Nachrichtenmeldungen zu vermitteln, werden nach Ungerer (1997) evaluative Adjektive, affektiv „geladene“ lexikalische Items bzw. Items mit positiver vs. negativer Konnotation oder auch Items, die Prozesse der Bewertung beim Rezipienten auslösen, verwendet. Um die Intensität des emotionalen Gehaltes zu steigern, werden z. B. häufig metaphorische Ausdrücke eingesetzt, relevante Aspekte werden durch lebhaft dargestellte Details drastisch verstärkt. Als gesonderter Bereich sei auf dieser Stufe kurz die Verwendung von Interjektionen und idiomatischen Wendungen erwähnt, deren Status in der Linguistik nicht ganz eindeutig ist. Die Entstehung und Verwendung von Metonymien und Metaphern zur Beschreibung emotionalen Erlebens stellt einen ganz eigenen Bereich affektlinguistischer Forschung dar. Ausdrücke wie „kochen vor Zorn“, „explodieren vor Wut“ oder „Schreck fährt ihr in die Glieder“, „kalte Angst überkommt sie“ etc. werden von einigen Autoren auf ihren gemeinsamen Kern hin untersucht (z. B. Kövecses, 1990, 1998) und als komplexe Schemata oder Stereotype interpretiert, die Rückschlüsse auf die mentale Repräsentation dieser Emotionen und ihrer psychophysischen Komponenten zulassen sollen. Interjektionen werden im Modell Levelts als grammatikalische Invariante ganzheitlich im Lexikon aktiviert und beinhalten im Rahmen der mündlichen Kommunikation verschiedene Funktionen. Während die traditionelle linguistische Sichtweise Interjektionen als direkte verbale Manifestationen des emotionalen Erlebens des Sprechers sieht (vgl. Ehlich, 1986; Jakobson, 1994), scheint diese Sichtweise nach heutigen Ansätzen verkürzt. Es sollte immer auch ihre Funktion im Rahmen der kommunikativen Situation Berücksichtigung finden. Zum Beispiel Drescher (1997) konnte eine Reihe von Regularitäten
III. Sprachproduktion
in der Verwendung primärer und sekundärer Interjektionen in verschiedenen Turn-Positionen aufzeigen, die dem primären Sprecher zur Betonung des affektiven Gehaltes dienen, dem sekundären Sprecher gewöhnlich zur Bekundung von Zustimmung, Ablehnung oder Verwunderung bezüglich der ausgedrückten emotionalen Bewertungen. Die Verwendung von Interjektionen nimmt zu, wenn einer der beiden Kommunikatoren Gesprächsinhalte thematisiert, die eine erhöhte emotionale Beteiligung aufweisen. Dabei beinhalten besonders die hochfrequenten primären Interjektionen (z. B. ah, eh) keine eindeutige inhärente emotionale Qualität. Sie zeigen allein den phatischen Charakter der folgenden Äußerung und werden durch Prosodie und Kontext qualitativ interpretierbar. Allgemein werden Interjektionen jedoch auch funktionell eingesetzt, um die Beziehung zwischen den Kommunikatoren positiv zu gestalten. 5.2.2. Syntaktisch-grammatische Enkodierung Über die feinere Gestaltung der jeweiligen Formulierungen in Abhängigkeit von emotionalen Zuständen und Bewertungen lassen die bislang verwendeten Modelle keine Aussagen zu. Die syntaktische Struktur bestimmt sich im Produktionsmodell von Levelt (1989) durch die Auswahl der Lemmata. Abhängig von der genauen Kernbedeutung der präverbalen Botschaft stehen zum Beispiel für die Emotion Ärger das reflexive Verb „sich ärgern“ oder das transitive Verb „jemand ärgert mich“ oder auch die Nominalisierung „(mein) Ärger“ sowie eine Reihe von Adjektiven wie „ärgerlich“, „verärgert“ oder auch verwandte Begriffe wie „gereizt“ „zornig“ oder „wütend“ zur Verfügung und bedingen jeweils andere syntaktische Strukturen. Es gibt bislang nur wenige Ansätze, die hier Vorhersagen über die jeweils zu wählende Form wagen würden. Andererseits weisen jedoch einige Autoren im Rahmen von Diskursanalysen einen gehäuften Gebrauch bestimmter grammatischer Formen zur Betonung der affektiven Relevanz des Gesagten nach, so z. B. den Einsatz von direkter und indirekter Rede in der Kommunikation reproduzierter Beschwerden bzw. Vorwürfe als Ausdruck der ursprünglichen Emotion (Ärger oder Empörung) sowie deren heutiger Bewertung durch den Sprecher (Günthner, 1997). Außerdem hat der Sprecher in vielen Sprachen eine Reihe von Freiheitsgraden z. B. hinsichtlich
483
35. Emotion und Sprachproduktion
Modus und Wortstellung der zu erstellenden syntaktischen Struktur, die nicht unmittelbar durch die Lemmaauswahl bestimmt wird. Zwei generelle Forschungsansätze sind hier zu unterscheiden: (1) Es wird untersucht, welche grammatischen Strukturen eine generell erhöhte emotionale Beteiligung des Sprechers (Schreibers) ausdrücken und ob es Strukturen mit einem unmittelbar expressiven Charakter gibt (Foolen, 1997). Keinesfalls lässt sich z. B. nach Fries (1995) mehr aus der Analyse syntaktischer Formen für die emotionale Interpretation erwarten. (2) Weitergehend wäre zu fragen, ob es typische grammatische Strukturen gibt, die auf die Qualität der zugrundeliegenden Emotionen des Sprechers schließen lassen? Hier wäre zu untersuchen, ob die Verwendungshäufigkeit bestimmter Formen unter qualitativ unterscheidbaren emotionalen Zuständen unterschiedlich ist. Die wenigen empirischen Ansätze, die sprachstrukturelle Varianten des emotionalen Ausdrucks behandeln, bleiben bei einer Beschreibung möglicher Ausdrucksmittel hinsichtlich ihres allgemeinen expressiven Ausdrucks stehen. Foolen (1997) unterscheidet „konzeptuelle“ Formen des affektiven Ausdrucks („I wish he were here!“ „I fear he won’t go!“) vs. entsprechende „expressive“ Formen („If only he were here!“ „If only he would go!“), die in ihrer primären grammatischen Funktion als Konditionalsätze verwendet wurden, heute aber eindeutig emotional bewertenden Charakter erhalten, nicht zuletzt über eine entsprechende prosodische Gestaltung. Als grammatische Strukturen, die indirekt eine (unreflektierte) emotionale Beteiligung des Sprechers zum Ausdruck bringen sollen, befasst sich Nissenbaum (1984) mit der Syntax von Emotionsverben, Guo (1999) weist für bestimmte Satzstellungsvarianten im Chinesischen (Mandarin) eine emotionale Funktion nach, und Fries (1995) diskutiert eine Reihe von Satzstrukturen, die emotionale Erregung zum Ausdruck bringen sollen (siehe auch Abschnitt 2). Hübler (1998) diskutiert Dativ- und Verb-Formen des Englischen und Altenglischen hinsichtlich ihrer affektiven Bedeutung. Die beiden Dative werden auch in der deutschen Sprache gebraucht, wie in den
Beispielen 1⫺4 demonstriert, und sollen hier etwas näher erläutert werden. Der Dativ wird als die markierte Form angesehen, die gewöhnlich ein Besitzverhältnis anzeigt (Beispiel 1). Ähnlich gilt dies für die Verwendung des Reflexivpronomens in Sätzen wie 2: (1) Sie schlug ihm (ihn) auf den Kopf. (2) Ich habe mir das (mein) Bein gebrochen In einer linguistischen Interpretation koreferiert das Dativ-Objekt (jedenfalls partiell) mit dem Akkusativ-Objekt oder dem durch die Präposition angebundenen Nomen, und es ist dann die Frage, warum nicht der Genitiv verwendet wird, um die Besitzverhältnisse kürzer und mit weniger (kognitivem?) Aufwand auszudrücken. Hübler erklärt die Verwendung des possessiv gebrauchten Dativs in Anlehnung z. B. an Havers (1911), der dem Dativ eine subjektiv wärmere, innerlichere Interpretation zuspricht als dem einfach ein Besitzverhältnis konstatierenden Genitiv. Der sog. Dativus sympathicus soll danach die innere Teilnahme an der betroffenen Person widerspiegeln. Ähnlich soll der sog. ethic dative, der im 17ten und 18ten Jahrhundert im Englischen als Markierung verbreitet war, besonderes Interesse und eine affektive Beteiligung des Sprechers ausdrücken. Diese Form wird (umgangssprachlich) unter anderem in der deutschen Sprache noch verwendet (Beispiele 3 und 4). Es handelt sich um die Einfügung der Personalpronomen „mir“ oder „dir“, die in komplementärer Distribution auftreten. (3) Lauf (mir) nicht weg! (4) Er kann (dir) alle Haltestellen aufsagen! Hübler bezieht seine Ausführungen auf Charakterisierungen von Visser (1963) und Jespersen (1954), die von einem „dative of interest“ oder „sympathetic interest“ sprechen (nach Hübler, 1998: 42). Auch wenn es sich bei den von Hübler diskutierten grammatischen Formen um interessante Strukturen handelt, deren affektiver Aspekt möglicherweise unbewusst und sehr indirekt vom Sprecher eingesetzt (und vom Rezipienten entsprechend verstanden?) wird, gibt es bislang leider keine empirischen Untersuchungen, die eine Häufung ihres Gebrauchs als Ausdruck affektiver Bewertung oder emotionaler Erregung anhand von konkreten Zahlen nachweisen würde. Alle genannten Zusammenhänge ermangeln aus psycholinguistischer Sicht einer em-
484 pirischen Überprüfung anhand kontrollierter experimenteller Produktionsdaten. Sie beziehen sich in dieser Form auch nur auf Einflüsse des propositionalen Bedeutungssystems (PROP) auf das morpho-phonologische System. Ob emotionales Erleben und Stimmungen (IMPL und AFFREG) direkt Einfluss auf syntaktische Formulierungsprozesse nehmen, wurde bislang nicht empirisch geprüft. Der Schluss einiger Autoren (vgl. z. B. Battacchi, Suslow & Renna, 1996), dass Emotionen und Stimmungen keine Entsprechungen in strukturellen Ausformungen der Äußerungen zeigen, wird jedoch als verfrüht angesehen. So versuchen z. B. Bandler und Grinder (1981) anhand von Analysen effektiver psychotherapeutischer Kommunikationsformen Verbindungen zwischen den mentalen Vorstellungen des Sprechers und seinen konkreten sprachlichen Formulierungen herzustellen. Auch wenn der damals herangezogene Ansatz der Transformationsgrammatik heute überholt ist und an einigen Stellen falsch verwendet wurde, bleiben interessante Hypothesen über Zusammenhänge zwischen Emotionen, kognitiven Repräsentationen der Welt und ihren sprachlichen Beschreibungen bestehen. So lässt sich z. B. ableiten, dass depressive Patienten häufiger zu Passivkonstruktionen neigen sollten, wenn sie sich selbst als hilflos und den Ereignissen ausgeliefert erleben. Auch lässt das Modell vermuten, dass Angstpatienten häufig Nominalisierungen zur Beschreibung der eigenen Angst oder bedrohlicher Ereignisse verwenden sollten, da das Gefühl der Angst als unkontrollierbar und externalisiert erlebt wird. Schließlich ließe sich aufgrund differentieller Befunde kognitiver Leistungen unter positiver vs. depressiver Stimmung (z. B. Abele, 1995) vermuten, dass positiv gestimmte Personen längere und komplexer geschachtelte Satzstrukturen aufbauen (können), während depressive Personen aufgrund einer eingeschränkten Kapazität ihres Arbeitsspeichers zu kurzen, wenig komplexen Sätzen neigen sollten. Ob eine derart enge Verknüpfung zwischen Stimmung, emotionaler Empfindung, implikationalem Schema und der sprachlichen Realisierung in Inhalt, Wortwahl und Struktur der Äußerung besteht, kann mit Recht in Frage gestellt werden, da viele sprachliche Formulierungen eher konventionalisiert verwendet werden. Allerdings wäre eine empirische Überprüfung einiger der sinnvoll ableit-
III. Sprachproduktion
baren Hypothesen aus dem genannten Sprachmodell für die Kommunikations- und Therapieforschung überaus relevant. 5.2.3. Morpho-phonologische Enkodierung Ist die Lemma-Auswahl getroffen und der syntaktische Satzrahmen aufgebaut, folgt eine Reihe hochautomatisierter Prozesse der morpho-phonologischen Enkodierung. In mehreren Verarbeitungsschritten werden als Output dieser Prozesse Repräsentationen erstellt, die als phonetische Vorlagen oder artikulatorische Pläne bezeichnet werden können und die schließlich zur motorischen Ausführung gebracht werden. Für Prozesse der Erstellung einer morphologischen Struktur der gewählten Wortformen bzw. der Wörter im Äußerungszusammenhang sollten affektive Bewertungen kaum eine Rolle spielen, da nach dem Modell von Levelt (1989) angenommen wird, dass schon mit der Auswahl lexikalischer Elemente affektiv relevante morphologische Formen festgelegt wurden, so z. B. Komparativformen (es geht mir gut, besser, …), gradierende Präfixe zur Abschwächung oder Steigerung von Adjektiven oder Nomen (supertoll, Ätztag) oder Diminuitivformen (Hündchen, Fräulein). Interessant sind jedoch emotionale Einflüsse auf prosodische Komponenten, die durch Zusammenführung metrischer, segmentaler und intonaler Informationen entstehen. Dies geschieht nach Levelt (1989) in einem eigenständigen Modul, dem Prosodiegenerator. Gefiltert über den Prosodie-Generator wird die Vorlage für die phonetische Enkodierung erstellt, anhand derer dann ein Plan für die Realisierung der einzelnen Laute im Wort- und Äußerungskontext entsteht. Die Metrik zusammenhängender Äußerungen basiert einerseits auf der Metrik der einzelnen Wörter und ist andererseits überlagert durch die Sprechrate, die Gruppierung und Länge der jeweils gewählten Sprecheinheiten (phonologischen Phrasen). Außerdem sind für die Prosodieplanung Informationen über die Gruppierung größerer Einheiten notwendig, die Oberflächenstrukturregeln folgen und für die aufgrund der zuzuweisenden Bedeutung unterschiedliche Hauptakzente gesetzt werden können. Hierzu gehören auch Informationen affektiv bewertender Art, die sich aus der zu übermittelnden Botschaft ableiten. Auf der Grundlage dieser unterschiedlichen Informationen wird der geplanten Äu-
35. Emotion und Sprachproduktion
ßerung eine Intonationskontur zugeordnet (z. B. Aussageform, Frage, Rückfrage, Versprechen), die weitgehend sprachspezifischen Konventionen folgt, aber auch einen gewissen expressiv bewertenden Inhalt transportiert. Vermutlich bestimmen emotionale oder affektiv bewertende Aspekte der Botschaft z. B. die Intensität der Akzente oder die prosodische Realisierung einer Aussageform als Frage zum Ausdruck von Verwunderung, Überraschung oder Zweifel. Emotionen und persönliche Charakteristika des Sprechers äußern sich nach Levelt (1989) noch deutlicher in der Variation der Tonhöhenbewegung innerhalb einer intonalen Phrase (key) und der mittleren Tonhöhe der Sprechfrequenz (register). Durch eine Variation der Grundfrequenz werden wichtige oder neue Informationen durch Anhebung der Tonhöhe für die entsprechenden Akzente gekennzeichnet. Eine Anhebung des Registers soll Erregung, Anspannung und erhöhte Emotionalität ausdrücken, aber auch auf Hilflosigkeit hinweisen. Ein tieferes Register soll einerseits Entspannung anzeigen, andererseits auch für einen drohenden Unterton stehen (vgl. z. B. Scherer, 1986). „Key“ und „Register“ können bewusst gesetzt werden, stehen damit einerseits unter dem Einfluss emotionaler Repräsentationen im propositionalen oder implikationalen System. Andererseits spielen gerade bei der Wahl des Registers vermutlich auch unbewusste, schwer steuerbare stimmliche Variationen eine Rolle, die über das affektiv-regulative System beeinflusst werden (s. Abschnitt 5.3.). Das Endprodukt der komplexen morphologischen, silbischen, phonetischen und prosodischen Prozesse liefert schließlich den phonetischen Plan für verbundene vokale Sprachäußerungen, den artikulatorischen Plan. 5.3. Zur Artikulation und stimmlichen Variation emotionaler Äußerungen In einem letzten Planungsabschnitt sind Muskelbewegungen des Artikulations-, Phonations- und Respirationstraktes in komplexer Weise zu koordinieren. Wenn der Sprecher die Entscheidung getroffen hat, die offene Äußerung zu beginnen, so greift der Artikulator auf Einheiten einer bestimmten Größe aus dem artikulatorischen Buffer zurück, in dem der artikulatorische Plan vorübergehend zwischengespeichert werden kann, und bringt sie zur Ausführung. Als ausführende Organe des Sprechens fungieren die Artikulationsor-
485 gane: Kiefer, Lippen, Zunge, Zähne und Gaumen, die die Formung der Laute übernehmen. Maßgeblich beteiligt sind daneben das laryngeale und das respiratorische System. Speziell über das affektiv-regulative System und seinen Einfluss auf neurophysiologische und vegetative Prozesse können aktuell erlebte Emotionen oder Stimmungen die Muskulatur des vokalen Systems vermutlich sehr direkt modulieren. Veränderungen der Grundspannung der Stimmlippen, der Enge des Ansatzrohres und eine erhöhte Spannung z. B. in der Kiefermuskulatur beeinflussen den generellen Stimmklang hinsichtlich der Stimmhöhe, der Klangfülle, der Sprechgeschwindigkeit und -präzision. Diese Parameter unterliegen nur bedingt der willkürlichen Kontrolle des Sprechers. Die Frage nach der Produktion emotionaler artikulatorischer Parameter ist theoretisch natürlich von ihrer akustischen Wirkung und Interpretation trennbar. In der empirischen Forschung, die zu diesem Bereich erfreulich intensiv betrieben wurde, sind die Aspekte der Produktion und Rezeption leider häufig vermischt, was unter anderem auf erhebliche methodische Probleme der Datenerhebung und -auswertung zurückgeführt werden kann. Diese Probleme, die zum Teil so auch für die Untersuchung der Formulierung und Konzeptualisierung emotionaler Äußerungen gelten, umfassen unter anderem folgende Aspekte: Wie sind emotionale Äußerungen eines Sprechers zu evozieren? Gewöhnlich machen ethische und methodische Probleme eine hinreichende experimentelle Variation emotionaler Zustände der Sprecher unmöglich. Dagegen lässt die Untersuchung bewusst artikulierter emotionaler Äußerungen von professionellen Sprechern keine validen Rückschlüsse auf spontane emotionale Äußerungen des Normsprechers zu. Es bleibt also häufig die Frage, ob die erhaltenen Äußerungen überhaupt die gewünschte emotionale Färbung zeigen. Hierzu müssen häufig Rezeptionsdaten/Ratings von Kontrollpersonen zur Validierung der experimentellen Variation der Produktionsdaten herangezogen werden. Schließlich bleiben die modelltheoretisch wichtigen Fragen offen, welche qualitativ und quantitativ unterschiedlichen emotionalen Zustände in ihrem Einfluss betrachtet werden sollen, welche theoretischen Vorhersagen sich über den genauen Einfluss emotio-
486 naler Zustände auf das artikulatorische System aus den bestehenden Modellen herleiten lassen und welche akustischen Variablen in diesem Zusammenhang als relevant erachtet und erfasst werden sollten. In der Literatur finden sich leider viele Untersuchungen, die relativ theorielos Differenzen zwischen qualitativ und/oder quantitativ unterschiedlichen Emotionsäußerungen suchen. Nur wenige Autoren versuchen, dezidierte Ableitungen im Rahmen psychologischer Modelle (z. B. Scherer, 1984, 1986; Tischer, 1993) zu treffen. Ein sehr differenzierter Ansatz wurde von Scherer und Kollegen formuliert. Seine Ableitungen im Rahmen der „component process theory“ werden daher im Folgenden kurz dargestellt. Der Ansatz von Scherer (1993; Leventhal & Scherer, 1987) geht von einer ständigen Prüfung eintreffender externaler (und internaler) Stimuli hinsichtlich ihrer emotionalen Bedeutung für den Organismus aus. Diese Überprüfung wird in verschiedenen Modulen in hierarchisch aufeinander aufbauenden Stimulus Evaluation Checks (SECs) vollzogen und liefert Informationen über die affektive Bedeutsamkeit gerade ablaufender Ereignisse. Wird ein emotionstypisches Muster entdeckt, d. h. kommt es zu einer Übereinstimmung mit einem prototypischen Muster für eine Emotion, so wird der Organismus in einen synchronisierten Ausnahmezustand versetzt, der als Emotion erlebt und mit den jeweils typischen Anpassungen des Gesamtsystems an die Anforderungen des wahrgenommenen Ereignisses beantwortet wird. Für jeden emotionsspezifischen Ausgang eines SECs werden entsprechende Auswirkungen auf das zentralnervöse somatosensorische Nervensystem und das autonome Nervensystem angenommen, die generelle Veränderungen in der Muskelspannung und im Tonus bewirken. Neben diesen unwillkürlichen Veränderungen werden willkürlich einsetzbare Monitoringprozesse angenommen, die bestimmte Muster einsetzen oder wahrgenommenen Veränderungen, z. B. einer bei Angst erhöhten Grundfrequenz der Stimme, entgegenwirken können. Es können dann sekundär andere Symptome wie eine rauhe oder schwankende Stimmlage entstehen. Die Vorhersagen für eine Reihe von qualitativ unterschiedlichen Basisemotionen werden über ihre Ausprägungen auf den einzelnen Bewertungsebenen abgeleitet. So sollte ein hoher Neuigkeitswert zum Beispiel bei der Emotion Überraschung kurzfristig die Ar-
III. Sprachproduktion
tikulation stoppen, es kann zu hörbarem Einatmen kommen oder zu einem frikativen Laut mit folgendem glottalen Verschluss. Gut gesichert sind auch Scherers (1986, 1993) Vorhersagen zu heißer Wut vs. Angst/ Panik. In beiden Fällen führt eine Bewertung der intrinsischen Valenz der Situation als negativ zu einer Stimmgebung, die als eng (narrow) bezeichnet wird: durch ein Zusammenziehen der Muskulatur und eine Verengung des Ansatzrohres resultieren Energieschwerpunkte bei höheren Frequenzen, steigende F1 und eher fallende F2 und F3 und eine eher geringe Bandbreite bei F1. Da es sich ebenfalls in beiden Fällen um zieldiskrepante Ereignisse handelt, die eigenes Handeln erforderlich machen, wird für beide Emotionsmuster eine Erhöhung der Aktivierung vorhergesagt, die sich in einer gespannten Stimmgebung (Anstieg der F0-Amplitude, Jitter und Schimmer auf der Stimme, Anstieg hoher Frequenzenergien, F1 Bandbreite gering, ausgeprägte Formantenfrequenzdifferenzen) niederschlagen sollte. Schließlich wird die Bewertung des eigenen Coping-Potentials/Power im Falle des ÄrgerMusters als hoch eingeschätzt, im Falle des Angst-Musters jedoch niedrig. Dieser Unterschied sollte sich in eher voller Stimmgebung bei Ärger (tiefe Einatmung und Sprechen im Brustregister: niedrige F0, hohe Amplitude und starke Energieschwerpunkte im gesamten Frequenzbereich) und dünner Stimmgebung bei Angst (flache Einatmung und Sprechen im Kopfregister: angehobene F0, weit gestreute Frequenzschwerpunkte mit relativ geringer Energie) niederschlagen. Die vorgestellten Dimensionen der stimmlichen Eigenschaften und Artikulation sind nach Scherer (1986; Banse & Scherer, 1996) über folgende Variablen zu erfassen: die Grundfrequenz (F0) und Variabilität der Grundfrequenz, die Lautstärke (Amplitude) und Variabilität der Lautstärke, das Sprechtempo und Pausen, eine offene vs. geschlossene Sprechweise (Höhe der beiden ersten Formanten im Vokalspektrum) und die Verteilung der Schwerpunkte im Frequenzspektrum. Damit berücksichtigen die Autoren mehr Variablen als die meisten Studien zu diesem Thema. Eine Ausnahme bildet die Untersuchung von Tischer (1993). Hinzu kommen die eher bewusst beeinflussbaren Variablen des prosodischen Affektmusters, die oben schon genannt wurden: Ort und Stärke des Akzentes, tune und tone, key und register sowie Sprechtempo und Pausen.
35. Emotion und Sprachproduktion
Die Befunde des Literaturüberblicks, den Scherer (1986) anhand von 39 sehr heterogenen und häufig schwer zu klassifizierenden Studien aus den Jahren 1930⫺1984 gibt, ließen erste Einschätzungen der Gültigkeit des vorgestellten Ansatzes zu. Allerdings unterscheiden sich die zur Analyse herangezogenen Studien nicht nur bezüglich der verwendeten Methode der Erhebung emotionaler Äußerungen, sondern auch hinsichtlich der jeweils untersuchten Emotionen. Am häufigsten finden sich die als Basisemotionen betrachteten Zustände: Angst, Ärger, Traurigkeit, Freude und Ekel, aber auch Langeweile vs. Erregung. Hierbei muss natürlich bedacht werden, dass z. B. unter dem Label „happiness“ sehr unterschiedliche positive Emotionszustände von ruhiger Zufriedenheit bis hin zur exaltierten Freude gefasst werden können, unter dem Label „anger“ sowohl heiße Wut wie auch leichte Gereiztheit verstanden werden kann, so dass eine Zuordnung zu den 16 von Scherer definierten Emotionskategorien mit Vorsicht behandelt werden muss. Mit Vorbehalt ergaben sich in dieser Übersicht Bestätigungen für die vorhergesagten Muster für elation/joy, sadness/dejection, worry/anxiety, fear/terror und rage/hot anger, nur wenige Studien fanden sich für enjoyment/happiness, contempt/scorn, grief/desperation, irritation/cold anger, boredom/indifference und shame/guilt, so dass zu diesen Mustern nichts Genaueres ausgesagt werden kann. Eher widersprüchliche bzw. gegensätzliche Befunde liegen für displeasure/disgust vor (Scherer, 1986: 160⫺162). Aufgrund der damals sehr unbefriedigenden empirischen Datenlage wurde in den 80er und 90er Jahren eine Reihe umfassenderer Studien mit besser definierten Erhebungsbedingungen, mit einer besseren akustischen Analyse und gewöhnlich auch mit einer Kreuzvalidierung akustischer und auditiver Bewertungen des affektiv enkodierten Materials durchgeführt, so z. B. von Banse und Scherer (1996) oder Tischer (1993), die die früheren Ergebnisse für eine Reihe von qualitativ unterschiedlichen Emotionen stützen und das Wissen über den vokalen Gefühlsausdruck um einiges erweitert haben.
6.
Zusammenfassung und Ausblick
Sprachliche und emotionale Prozesse sind in einer komplexen, noch wenig erforschten Weise miteinander verwoben. Der vorlie-
487 gende Artikel stellt dabei zunächst vermutete Einflüsse des emotionalen Systems auf Prozesse der Sprachproduktion dar. Wie jedoch deutlich wurde, sind viele der postulierten Zusammenhänge bislang nicht oder methodisch nur unzulänglich durch Produktionsdaten belegt. Für eine differenzierte Überprüfung der vielschichtigen Zusammenhänge erschien es zunächst notwendig, den Begriff der „Emotion“ zu explizieren. Es wurde dargestellt, wie heutige Emotionstheorien verschiedene Komponenten einer Emotion beschreiben. Das hier gewählte, integrative Modell untersucht drei Systemebenen emotionaler Verarbeitung: ein früh entwickeltes Modul (AFFREG), das auf der Grundlage einer sehr rudimentären, schnellen Reizauswertung arbeitet und bewertende und regulierende Prozesse ermöglicht, die von den übergeordneten kortikalen Modulen beeinflusst werden können. Diese kortikalen Module sind stark kognitiv orientiert. Es wird eine konzeptuell-implikational bewertende Systemebene (IMPL) von einer semantisch-propositionalen Systemebene (PROP) unterschieden, wobei erstere von peripheren akustischen, visuellen und anderen Sinnesreizen direkt angesprochen wird und die Bedeutung von Ereignissen repräsentiert. Dieses Modul beinhaltet die subjektive Repräsentation emotionalen Erlebens (hot emotion). PROP arbeitet dagegen auf abstrakterer sprachnaher Bedeutungsebene und repräsentiert Emotionskonzepte und konnotative Bewertungen, ohne dass diese subjektiv erlebt werden müssen (cold emotion). Alle drei Module nehmen in verschiedenen Phasen der Planung, Formulierung und Artikulation Einfluss auf den Inhalt und die Form sprachlicher Äußerungen. Aufgrund der noch mageren Datenlage können bislang nur einige dieser Einflussrichtungen mit gewisser Sicherheit postuliert werden (vgl. auch Battacchi, Suslow & Renna, 1996). Hierzu gehören (1) Einflüsse des Implikationalen Moduls auf den Inhalt, die lexikalische Selektion, Prosodie und Artikulation einer Äußerung, (2) Einflüsse des Propositionalen Moduls auf Inhalt und Gestaltung einer Äußerung, auf die lexikalische Selektion und grammatische Form sowie auf ihre prosodische Umsetzung und (3) Einflüsse des Affektiv-regulierenden Moduls über Stimmungskongruenzeffekte auf die zu thematisierenden Inhalte und auf artikulatorische Prozesse.
488
III. Sprachproduktion
Weitere Einflussrichtungen sind denkbar, aber bislang nicht empirisch belegt. Auch ist bislang die Rückkoppelung sprachlicher Äußerungen auf emotionales Erleben und Bewerten kaum reflektiert oder untersucht worden. So ließen sich sicher interessante Fragen stellen nach der emotionalen Wirkung, die zum Beispiel mit dem Aussprechen von Tabu-Wörtern verbunden ist, nach dem Erleben, das ein Angstpatient mit dem Sprechen über angstbesetzte Inhalte verbindet, oder nach den Gefühlen, die allgemein mit einer Thematisierung affektiver Inhalte einhergehen. Die Forschung zu diesen und ähnlichen Fragestellungen steckt noch in den Anfängen, ihre Relevanz ist bislang eher in der Psychotherapieforschung gesehen worden als in der Psycholinguistik, so dass auf eine nähere Erörterung dieser Aspekte in der vorliegenden Abhandlung verzichtet wurde. Die Vielschichtigkeit des Problembereiches ist deutlich, die große Zahl offener empirischer Fragestellungen hinsichtlich direkter und indirekter sprachlicher Hinweise auf Qualität und Intensität der auszudrückenden affektiven Bewertung oder Emotion sollte den Leser jedoch nicht abschrecken, sondern zu einer eingehenderen Beschäftigung mit dem Thema anregen.
Battacchi, M. W., Suslow, Th. & Renna, M. (1996). Emotion und Sprache. Frankfurt: Lang. Benthien, C., Fleig, A. & Kasten, I. (2000) (Hrsg.). Emotionalität. Zur Geschichte der Gefühle. Köln: Böhlau. Bower, G. (1981). Mood and memory. American Psychologist, 36, 129⫺148. Bower, G. (1987). Commentary on mood and memory. Invited essay. Behaviour Research and Therapy, 25, 443⫺455. Dalgleish, T. & Power, M. J. (Eds.) (1999). Handbook of cognition and emotion. Chichester: Wiley. Drescher, M. (1997). French interjections and their use in discourse. In S. Niemeier & R. Dirven (Eds.), The language of emotions: Conceptualization, expression, and theoretical foundation (pp. 233⫺246). Amsterdam: John Benjamins Publishing. Ehlich, K. (1986). Interjektionen. Tübingen: Niemeyer. Fiehler, R. (1990). Kommunikation und Emotion. Berlin: de Gruyter. Fischer, K. W., Shaver, P. R. & Carnochan, P. (1990). How emotions develop and how they organize development. Cognition and Emotion, 4, 81⫺ 127.
Abele, A. (1995). Stimmung und Leistung. Göttingen: Hogrefe.
Foolen, A. (1997). The expressive function of language: Towards a cognitive semantic approach. In S. Niemeier & R. Dirven (Eds.), The language of emotions (pp. 15⫺31). Amsterdam: John Benjamins Publishing.
Alloy, L. B. & Abramson, L. Y. (1979). Judgement of contingency in depressed and nondepressed students: Sadder but wiser? Journal of Experimental Psychology: General, 108, 441⫺485.
Forgas, J. P. (1999). Network theories and beyond. In T. Dalgliesh & M. J. Power (Eds.), Handbook of cognition and emotion (pp. 591⫺611). Chichester: Wiley.
Alloy, L. B. & Abramson, L. Y. (1988). Depressive realism: Four theoretical perspectives. In L. B. Alloy (Ed.), Cognitive processes in depression (223⫺ 265). New York: Guilford.
Fries, N. (1995). Emotionen in der Semantischen Form und in der Konzeptuellen Repräsentation. MetaLinguistica. Debrecener Arbeiten zur Linguistik, 1, 139⫺181.
Asendorpf, J. (1984). Lassen sich emotionale Qualitäten im Verhalten unterscheiden? Pschologische Rundschau, 35, 125⫺134.
Fries, N. (1996). Grammatik und Emotion. Zeitschrift für Literaturwissenschaft und Linguistik, 101, 37⫺69.
Baddeley, A. (1984). Neuropsychological evidence and the semantic/episodic distinction. Behavioral and Brain Sciences, 7, 238⫺239.
Gottschalk, L. A. (1995). Content analysis of verbal behavior. Hillsdale: Erlbaum.
7.
Literatur
Bally, Ch. (1965). Le langage et la vie. Gene`ve: Librairie Droz. (Repr.; Erstausg. von 1913). Bandler, R. & Grinder, J. (1981). Metasprache und Psychotherapie. Die Struktur der Magie I. Paderborn: Junfermann Banse, R. & Scherer, K. R. (1996). Acoustic profiles in vocal emotion expression. Journal of Personality and Social Psychology, 70, 614⫺636.
Gottschalk, L. A. & Gleser, G. C. (1969). The measurement of psychological states through content analysis of verbal behavior. Berkeley: California Press. Günthner, S. (1997). The contextualization of affect. In S. Niemeier & R. Dirven (Eds.), The language of emotions: Conceptualization, expression, and theoretical foundation. (pp. 247⫺275). Amsterdam: John Benjamins Publishing.
35. Emotion und Sprachproduktion
489
Guo, J. (1999). From information to emotion: The affective function of right-dislocation in Mandarin Chinese. Journal of Pragmatics, 31, 1103⫺1128.
LeDoux, J. E. (1989). Cognitive-emotional interactions in the brain. Cognition and Emotion, 3, 267⫺289.
Györi, G. (1998). Cultural variation in the conceptualisation of emotions: A historical study. In A. Athanasiadou & E. Tabakowska (Eds.), Speaking of emotions. Conceptualisation and expression (pp. 99⫺1124). Berlin: de Gruyter.
LeDoux, J. E. (1994). Emotion, memory and the brain. Scientific American, 270 (6) 32⫺39.
Havers, W. (1911). Untersuchungen zur Kasussyntax der indogermanischen Sprachen. Straßburg: Trübner. Hielscher, M. (1996). Emotion und Textverstehen. Eine Untersuchung zum Stimmungskongruenzeffekt. Opladen: Westdeutscher Verlag. Hielscher, M. (2001). Emotionskonzepte und Prozesse emotionaler Sprachverarbeitung. Habilitationsschrift. Universität Bielefeld. Hölzer, M., Scheytt, N. & Kächele, H. (1992). Das Affektive Diktionär Ulm als eine Methode der quantitativen Vokabularbestimmung. In C. Züll & P. Mohler (Hrsg.), Textanalyse. Anwendungen der computergestützten Inhaltsanalyse. Opladen: Westdeutscher Verlag. Hübler, A. (1998). The expressivity of grammar. Grammatical devices expressing emotion across time. Berlin: de Gruyter.
LeDoux, J. E. (1996). The emotional brain. New York: Simon and Schuster. Levelt, W. J. M. (1989). Speaking. From intention to articulation. Cambridge: MIT Press. Levelt, W. J. M. (1996). Perspective taking and ellipsis in spatial descriptions. In P. Bloom, M. A. Peterson, L. Nadel & M. F. Garrett (Eds.), Language and space. Cambridge: MIT Press. Levelt, W. J. M., Roeloffs, A. & Meyer, A. S. (1999). A theory of lexical access in speech production. Behavioural and Brain Sciences, 23, 1⫺75. Leventhal, H. & Scherer, K. (1987). The relationship of emotion to cognition. A functional approach to a semantic controversy. Cognition and Emotion, 1, 3⫺28. Mangold-Allwinn, R. (1993). Flexible Konzepte: Experimente, Modelle, Simulationen. Frankfurt/ Main: Lang. Morris, W. N. (1989). Mood. The frame of mind. New York: Springer.
Hülshoff, Th. (1999). Emotionen. Eine Einführung für beratende, therapeutische, pädagogische und soziale Berufe. München: Ernst Reinhardt.
Neppl, R. & Boll, Th. (1991). Analyse der Bedeutungsstrukturen alltagssprachlicher Emotionswörter. Sprache und Kognition, 10, 85⫺96.
Hunter, I. M. L. (1957). Memory. Facts and fallacies. Baltimore: Penguin.
Niemeier, S. & Dirven, R. (Eds.) (1997). The language of emotions. Amsterdam: John Benjamins Publishing.
Izard, C. E. (1977). Human emotions. New York: Plenum. Jakobson, R. (1960). Closing statement. Linguistics and poetics. In Th. A. Seboek (Ed.), Style in language (pp. 350⫺377). Cambridge, Mass.: MIT Press. Jespersen, O. (1954). A modern English grammar. London: Allen & Unwin. Johnson-Laird, P. M. & Oatley, K. (1989). The language of emotions: An analysis of a semantic field. Cognition and Emotion, 3, 81⫺123. Kleinginna P. R. & Kleinginna A. M. (1981). A categorized list of emotion definitions, with suggestions for a consensual definition. Motivation and Emotion, 5, 345⫺379. Kövecses, Z. (1990). Emotion concepts. New York: Springer. Kövecses, Z. (1998). Are there any emotion-specific metaphors? In A. Athanasiadou & E. Tabakowska (Eds.), Speaking of emotions. Conceptualisation and expression (pp. 127⫺151). Berlin/New York: de Gruyter.
Nissenbaum, H. F. (1985). Emotion and focus. Stanford: CSLI. Osgood, C. E., Suci, G. J. & Tannenbaum, P. H. (1957). The measurement of meaning. Urbana, Illinois: University of Illinois Press. Parkinson, B., Totterdell, P., Briner, R. B. & Reynolds, S. (2000). Stimmungen. Struktur, Dynamik und Beeinflussung eines psychologischen Phänomens. Stuttgart: Klett-Cotta. Plutchik, R. (1984). Emotions. A general psychoevolutionary theory. In K. Scherer & P. Ekman (Eds.), Approaches to emotion. (pp. 197⫺200). Hillsdale: Erlbaum. Roelofs, A. (1992). A spreading-activation theory of lemma retrieval in speaking. Cognition, 42, 107⫺142. Rosengren, I. (1994). Expressive sentence types: A contradiction in terms. The case of exclamation. Sprache und Pragmatik, 33, 38⫺68. Satir, V. (1975). Selbstwert und Kommunikation. München: Pfeiffer.
490
III. Sprachproduktion
Scherer, K. R. (1984). On the nature and function of emotion: A component process approach. In K. R. Scherer & P. Ekmann (Eds.), Approaches to emotion (pp. 293⫺318). Hillsdale, NJ.: Erlbaum.
Teasdale, J. D. (1999b). Emotional processing, three modes of mind and the prevention of relapse in depression. Behaviour Research and Therapy, 37, 53⫺77.
Scherer, K. R. (1986). Vocal affect expression: A review and a model for future research. Psychological Bulletin, 99, 143⫺165.
Tischer, B. (1993). Die vokale Kommunikation von Gefühlen. Weinheim: PVU.
Scherer, K. R. (1988). Criteria for emotion-antecedent appraisal: A review. In V. Hamilton, G. H. Bower & N. H. Frijda (Eds.), Cognitive perspectives on emotion and motivation (89⫺126). Dordrecht: Kluwer. Scherer, K. R. (1993). Studying the emotion-antecendent appraisal process: An expert system approach. Cognition and Emotion, 7, 325⫺355. Schmidt-Atzert, K. (1987). Zur umgangssprachlichen Ähnlichkeit von Emotionswörtern. Psychologische Beiträge, 29, 140⫺163. Schulz von Thun, F. (1981). Miteinander reden I. Störungen und Klärungen. Hamburg: Rowohlt. Schulz von Thun, F. (1989). Miteinander reden II. Stile, Werte und Persönlichkeitsentwicklung. Hamburg: Rowohlt. Schwartz, R. M. & Garamoni, G. L. (1986). A structural mode of positive and negative states of mind – asymmetry in the internal dialogue. In P. C. Kendall (Ed.), Advances in cognitive behavioral research and therapy (Vol. 5). New York: Academic Press. Singer, J. A. & Salovey, P. (1988). Mood and memory: Evaluating the network theory of affect. Clinical Psychology Review, 8, 211⫺251. Teasdale, J. D. & Barnard, P. J. (1993). Affect, cognition and change: Remodelling depressive thought. Hove: Erlbaum. Teasdale, J. D. (1999a). Multi-level theories of cognition-emotion relations. In T. Dalgliesh & M. J. Power (Eds.), Handbook of cognition and emotion (pp. 591⫺611). Chichester: Wiley.
Traxel, W. (1983). Emotionsdimensionen. In H. A. Euler & H. Mandl (Hrsg.), Emotionspsychologie (pp. 19⫺27). München: Urban & Schwarzenberg. Tulving, E. (1983). Elements of episodic memory. London: Oxford University Press. Tulving, E. (1984). Pre´cis of „Elements of episodic memory“. Behavioral and Brain Sciences, 7, 223⫺ 237. Ulich, D. & Mayring, P. (1992). Psychologie der Emotionen. Stuttgart: Kohlhammer. Ungerer, F. (1997). Emotions and emotional language in English and German news stories. In S. Niemeier & R. Dirven (Eds.), The language of emotions: Conceptualization, expression, and theoretical foundation. (pp. 307⫺328). Amsterdam: John Benjamins Publishing. Visser, F. Th. (1963). An historical syntax of the English language. (Vol.1). Leiden: Brill. Weiner, B. (1966). Effects of motivation on the availability and retrieval of memory traces. Psychological Bulletin, 65, 24⫺37. Wierzbicka, A. (1973). The semantic structure of words for emotions. In R. Jakobson, C. H. Van Schooneveld & D. S. Worth (Eds.), Slavic poetics: Essays in honor of Taranovsky. Den Haag: Mouton. Wierzbicka, A. (1995). The relevance of language to the study of emotions. Duisburg: Manuskript. Wundt, W. (1901). Grundriß der Psychologie. Berlin: Springer.
Martina Hielscher Universität Bielefeld (Deutschland)
IV. Sprachrezeption/Language Reception 36. Theorien und Modelle der Sprachrezeption 1. 2. 3. 4. 5.
Worterkennung Satzrezeption Diskursrezeption Ausblick Literatur
Sprachverstehen ist weit mehr als eine bloße Umkehr des Sprachproduktionsprozesses. Dies wird schon daran deutlich, dass der gleiche Satz von zwei Rezipienten ganz unterschiedlich verstanden werden kann. Ebenso kann ein Rezipient den gleichen Satz in verschiedenen Situationen unterschiedlich interpretieren. Verstehen erscheint vor diesem Hintergrund als ein konstruktiver und kontextabhängiger Prozess: Der Rezipient gewichtet die erhaltenen Sprach- und Kontextinformationen und passt sie in seine individuellen Wissensstrukturen ein (vgl. Rickheit, 1995). Die psycholinguistische Sprachrezeptionsforschung fragt nach den kognitiven Prozessen, die mit dem Verstehen verbunden sind. In Anlehnung an die klassische Aufgliederung der Linguistik in Phonologie, Morphologie, Syntax, Semantik und Pragmatik werden dabei im Allgemeinen die Ebenen des perzeptuellen Verstehens, des morpho-syntaktischen Verstehens, des semantischen und des pragmatischen (Sinn-)Verstehens unterschieden (z. B. Rickheit & Strohner, 1993). Unterschiedliche Auffassungen gibt es zu der Frage, ob und wie diese einzelnen Ebenen interagieren: Die Verfechter autonomer Prozessmodelle der Sprachrezeption gehen davon aus, dass die Verarbeitung auf den einzelnen Ebenen isoliert (also autonom) abläuft und nur die vollständigen Ergebnisse einer Ebene an andere Ebenen weiter gegeben werden. Erst nach Abschluss der rein sprachlichen Verarbeitung wird das Weltwissen des Rezipienten hinzugezogen, um die erhaltene Sprachinformation einzuordnen und zu gewichten. Die Vertreter interaktiver Prozessmodelle nehmen hingegen einen ständigen Austausch (also eine Interaktion) der einzel-
nen Ebenen noch während der laufenden Verarbeitung an. Das Weltwissen spielt dabei von Anfang an eine wichtige Rolle und beeinflusst direkt die phonologische, morpho-syntaktische, semantische und pragmatische Analyse des sprachlichen Inputs. Die langjährige Dichotomie von autonomen und interaktiven Ansätzen wird seit kurzem durch situierte Modelle der Sprachverarbeitung ergänzt, die der situativen Einbettung der Kommunikation einen weit reichenden Einfluss zuschreiben. Naturgemäß lässt sich die Situiertheit nur dann angemessen berücksichtigen, wenn statt einzelner Sprachfragmente der Diskurs in seiner Gesamtheit betrachtet wird. Andererseits ist die detaillierte, experimentelle Untersuchung insbesondere der morpho-syntaktischen Sprachverarbeitung oft nur anhand von einzelnen Wörtern oder Sätzen möglich. Im Folgenden soll deshalb zunächst ein kurzer Überblick über Theorien und Modelle zur Worterkennung (Abschnitt 1) und zur Satzrezeption (Abschnitt 2) gegeben werden, bevor nach der Diskursrezeption gefragt wird (Abschnitt 3).
1.
Worterkennung
Im Mittelpunkt von Untersuchungen zur Worterkennung steht das lexikalische Verarbeitungssystem, mit dessen Hilfe aus dem sensorischen Input – also einer Reihe von Lauten bzw. Schriftzeichen – eine bedeutungshaltige Interpretation ermittelt wird (Frauenfelder & Floccia, 1999). Die Literatur zur lexikalischen Verarbeitung behandelt zwei zentrale Problemfelder: Der eine Forschungsstrang betrifft den Aufbau des mentalen Lexikons und damit die Frage nach der internen lexikalischen Repräsentation im menschlichen Sprachverarbeitungssystem. Der zweite Forschungsstrang befasst sich mit dem Prozess der Worterkennung.
492 1.1. Die lexikalische Repräsentation Psycholinguisten gehen davon aus, dass erwachsene Sprachbenutzer in ihrem mentalen Lexikon das Wissen über etwa 30.000 bis 50.000 Wörter gespeichert haben (Aitchison, 1994). Wie sich ein solches Lexikon in eine kognitive Gesamtarchitektur einfügen lässt, kann an dieser Stelle nicht diskutiert werden (für einen diesbezüglichen Vorschlag siehe Engelkamp & Rummer, 1999). Mit Blick auf den inneren Aufbau des mentalen Lexikons lautet die zentrale Frage, auf welche Weise die morphologische Struktur von Wörtern berücksichtigt wird. Allerdings ist dabei zu bedenken, dass keine vollständige Übereinstimmung von linguistischer und psycholinguistischer Morphologie besteht (McQueen & Cutler, 1998; Schriefers, 1999) – nicht jedes im linguistischen Sinne morphologisch komplexe Wort muss bei der Spracherkennung auch als solches behandelt werden. Grundsätzlich lassen sich drei verschiedene Modelle der Repräsentation morphologischer Strukturen im mentalen Lexikon unterscheiden (vgl. Schriefers, 1999): (i) Morphemzentrierte Modelle (z. B. Taft & Forster, 1975; Taft, 1979, 1981; Taft, Hambly & Kinoshita, 1986): Diesen Modellen zufolge enthält das mentale Lexikon keine ganzen Wörter, sondern nur Morpheme, wobei sich alle Wörter mit demselben Stamm- oder Wurzelmorphem einen Eintrag teilen. Bei der Sprachrezeption muss also zunächst im Rahmen einer prälexikalischen morphologischen Analyse der Wortstamm isoliert werden, unter dem sich dann der fragliche Eintrag finden lässt. Zum Aufbau solcher gemeinsamen Einträge gibt es zwei verschiedene Vorschläge: Die Auflistungsmodelle besagen, dass unter dem Wortstamm alle morphologischen Verwandten in zerlegter Form aufgeführt sind. In Netzwerkmodellen hingegen ist der Wortstamm positiv mit denjenigen Affixen verbunden, mit denen er kombinierbar ist, während die Verbindungen zu allen anderen Affixen gehemmt sind. (ii) Wortzentrierte Modelle: Hier sind alle Wörter, egal ob morphologisch einfach oder komplex, mit einem eigenen Eintrag im mentalen Lexikon aufgeführt. Anders als bei den Modellen mit gemeinsamen Einträgen ist somit keine prälexikalische morphologische Analyse erforderlich. Zu der Frage, wie morphologische Verwandtschaften repräsentiert werden, gibt es wiederum verschiedene Vor-
IV. Sprachrezeption
schläge: Den Auflistungsmodellen (z. B. Butterworth, 1983) zufolge sind solche Informationen überhaupt nicht im mentalen Lexikon enthalten – bei der Sprachrezeption wird einfach direkt auf den entsprechenden Worteintrag zugegriffen. In Netzwerkmodellen (z. B. Fowler, Napps & Feldman, 1985; Andrews, 1986; Schreuder et al., 1990; Grainger, Cole & Segui, 1991; Schriefers, Zwitserlood & Roelofs, 1991; Schriefers, Friederici & Graetz, 1992) werden morphologische Beziehungen durch Verbindungen in einem Netzwerk dargestellt, das – im Gegensatz zu den oben genannten Netzwerkmodellen mit gemeinsamen Einträgen – nicht Stämme und Affixe, sondern ganze Wörter verbindet. Modelle mit Satelliteneinträgen (Lukatela et al., 1980; Feldman & Fowler, 1987; Günther, 1988; für eine kritische Diskussion vergleiche jedoch Kostic, 1995) hingegen nehmen für jede Gruppe morphologisch verwandter Wörter einen sogenannten Nucleus an, das ist diejenige Form, die am schnellsten erkannt wird. Von diesem Nucleus aus existieren Verbindungen zu allen Verwandten, die aber – anders als in den Netzwerkmodellen – untereinander nicht verbunden sind. (iii) Zwei-Routen-Modelle: Mit den ZweiRouten-Modellen existiert eine Integration von Modellen mit gemeinsamen und solchen mit separaten Einträgen. Demnach enthält das mentale Lexikon sowohl die ganzen Wörter als auch die einzelnen Morpheme, so dass zwei alternative Prozesse der Worterkennung möglich sind: entweder der direkte Zugriff auf das Wort im Sinne der Modelle mit separaten Einträgen oder die prälexikalische Analyse mit anschließendem Zugriff auf den Wortstamm und die damit kombinierbaren Affixe im Sinne der Modelle mit gemeinsamen Einträgen. Wie sich diese beiden Prozesse zueinander verhalten, ist umstritten. Das Augmented Addressed Morphology Model (z. B. Burani & Caramazza, 1987; Caramazza, Laudanna & Romani, 1988; Chialant & Caramazza, 1995; Laudanna & Burani, 1995) besagt, dass zuerst der direkte Zugriff auf das ganze Wort versucht wird; die prälexikalische morphologische Analyse kommt nur dann zum Einsatz, wenn dieser Zugriff fehlschlägt (z. B. bei dem Rezipienten bislang unbekannten Wörtern). Das Morphological Race Model (Frauenfelder & Schreuder, 1992; Schreuder & Baayen, 1995) geht hingegen von einer Art Wettlauf aus: Beide Routen werden parallel beschritten; welche schneller zum Ziel führt, hängt unter
36. Theorien und Modelle der Sprachrezeption
anderem von der Worthäufigkeit und der semantischen Transparenz ab. Empirische Befunde zur visuellen Worterkennung belegen, dass eine prälexikalische morphologische Analyse unter bestimmten Bedingungen stattfindet (z. B. Rubin, Becker & Freeman, 1979; Taft, 1981), aber nicht obligatorisch ist (z. B. Taft & Forster, 1975; Caramazza, Laudanna & Romani, 1988), was für die Zwei-Routen-Modelle spricht. Innerhalb dieser Modelle wird das Morphological Race Model empirisch dadurch gestützt, dass semantisch intransparente Komposita (d. h. zusammengesetzte Wörter, deren Bedeutung nicht aus den Bedeutungen ihrer Teile ermittelt werden kann; z. B. Traumtänzer ⫽ unrealistischer Mensch) mit größerer Wahrscheinlichkeit auf der direkten Route verarbeitet werden als semantisch transparente Komposita (z. B. Balletttänzer ⫽ Tänzer in einem Ballett) (Sandra, 1990; Marslen-Wilson et al., 1994; Baayen, Dijkstra & Schreuder, 1997). 1.2. Prozessmodelle der Worterkennung Die Worterkennung umfasst die drei Grundfunktionen Zugriff, Auswahl und Integration (Marslen-Wilson, 1987; Tyler, 1990; Zwitserlood, 1989, 1994, 1999; für eine leicht abweichende Terminologie siehe aber Frauenfelder & Floccia, 1999). Als lexikalischer Zugriff wird die Aktivierung der zum sensorischen Input passenden Einträge im mentalen Lexikon bezeichnet. Der Abgleich von Input und Lexikon kann direkt erfolgen, wenn man annimmt, dass das mentale Lexikon ganze Wortformen enthält (vgl. Abschnitt 1.1). Die meisten Modelle gehen aber davon aus, dass als Zwischenschritt eine prälexikalische Inputrepräsentation gebildet wird. Aus welchen Einheiten diese Repräsentation besteht, ist jedoch umstritten (Frazier, 1987; Pisoni & Luce, 1987; Cutler & McQueen, 1995; zu einzelnen Vorschlägen siehe Klatt, 1980; Grosjean & Gee, 1987; Pisoni & Luce, 1987; Samuel, 1989; Segui, Dupoux & Mehler, 1990; Marslen-Wilson & Warren, 1994). Bei der sogenannten Auswahl wird aus der Menge der aktivierten Lexikoneinträge dasjenige Wort bestimmt, das mit dem Input (bzw. der Inputrepräsentation) am besten übereinstimmt. Unter lexikalischer Integration versteht man schließlich die Einbindung der mit den Lexikoneinträgen assoziierten syntaktischen und semantischen Information im Rahmen der gesamten Äußerung; spätestens an dieser Stelle wird also die Ebene isolierter Wörter verlassen.
493 Die Prozessmodelle der Worterkennung unterscheiden sich im Hinblick auf die Frage, ob Zugriff, Auswahl und Integration sequentiell erfolgen oder ob Kontextinformation die Verarbeitung bereits frühzeitig beeinflusst. Den autonomen Modellen (z. B. Forster, 1976, 1979, 1981, 1989; Seidenberg, 1985; Tanenhaus, Carlson & Seidenberg, 1985; Bradley & Forster, 1987) liegt die Annahme zugrunde, dass für Zugriff und Auswahl nur zwei Informationsquellen relevant sind: der sprachliche Input und das mentale Lexikon. Zur Art des Abgleichs der Informationen aus Input und Lexikon gibt es zwei verschiedene Auffassungen: Den Suchmodellen (z. B. Forster, 1976; Bradley & Forster, 1987) zufolge ermöglicht der sensorische Input den Zugriff auf eine nach Häufigkeit geordnete Liste von Wortformen; ausgehend von den häufigsten Formen, wird dann die Liste so lange abgesucht, bis eine Form vollständig mit dem Input übereinstimmt. Erst danach werden die mit dieser Wortform verbundenen syntaktischen und semantischen Informationen aktiviert. Suchmodelle bieten eine Erklärung für den empirisch belegten Häufigkeitseffekt, d. h. für das schnellere Erkennen häufig vorkommender Wörter (z. B. Forster & Chambers, 1973; Balota & Chumbley, 1984; Inhoff & Rayner, 1986). Im Gegensatz zu den Suchmodellen wird in Modellen der direkten Aktivation ein paralleler Abgleich mehrerer Lexikoneinträge mit dem Input bzw. der Inputrepräsentation angenommen. Beim Zugriff werden alle Einträge aktiviert, die mit dem Onset übereinstimmen; weitere Teile des Inputs führen dann zur Desaktivierung der nicht mehr passenden Wörter und damit letztlich zur Auswahl. Die bekanntesten Modelle der direkten Aktivation sind Cohort I (Marslen-Wilson & Welsh, 1978), Cohort II (MarslenWilson, 1987) und Shortlist (Norris, 1994); empirische Evidenz für eine parallele Überprüfung mehrerer Lexikoneinträge liefern Allopenna, Magnuson und Tanenhaus (1998). Von den autonomen Modellen zu unterscheiden sind die interaktiven Modelle der Worterkennung, die keine strenge Differenzierung zwischen prälexikalischen und postlexikalischen Prozessen (vgl. Seidenberg, 1990) vornehmen, sondern von der frühzeitigen Interaktion sensorischer, lexikalischer, syntaktischer, semantischer und pragmatischer Information ausgehen und dabei auch top-downgerichtete Aktivierungsflüsse annehmen. Die interaktiven Modelle sind in der Mehrzahl konnektionistisch (z. B. McClelland & Ru-
494
IV. Sprachrezeption
melhart, 1981; Rumelhart & McClelland, 1982); zu den bekanntesten Vertretern gehört das Modell Trace (McClelland & Elman, 1986). Mit Priming-Experimenten fanden Borsky, Shapiro und Tuller (2000) heraus, dass die Verarbeitung des sensorischen Inputs zunächst isoliert erfolgt, der Kontext dann aber sehr schnell berücksichtigt wird. Experimente zur lexikalischen Disambiguierung (d. h. zu der Frage, ob der Satzkontext den Zugriff auf eine bestimmte Bedeutung von Homonymen von vornherein beeinflusst) haben bislang keine wirklich eindeutigen Ergebnisse erbracht. Einerseits gibt es eine Vielzahl empirischer Belege zu Gunsten der autonomen Prozessannahme (z. B. Swinney, 1979; Tanenhaus, Leiman & Seidenberg, 1979;Onifer & Swinney, 1981; Seidenberg et al., 1982; Kintsch & Mross, 1985; Till, Mross & Kintsch, 1988). Andererseits sprechen neuere Untersuchungen durchaus für eine differenzierte interaktive Sichtweise: Der Kontexteinfluss scheint unter anderem davon abzuhängen, ob die dominante oder die untergeordnete Bedeutung eines Homonyms die kontextuell passende ist. Nur im ersten Fall erfolgt direkt ein selektiver Zugriff auf die passende Bedeutung (Tabossi, Colombo & Job, 1987; Tabossi, 1988, 1991; Tabossi & Zardon, 1993). Zudem konnten Kontexteffekte durch cross-modale Priming-Experimente (Simpson & Krueger, 1991; Tabossi & Zardon, 1993) und ereigniskorrellierte Potentiale (van Petten & Kutas, 1987) nachgewiesen werden.
2.
Satzrezeption
Mit der Frage nach Kontexteffekten bei der Worterkennung befinden wir uns bereits auf der Ebene der Satzrezeption. Spätestens hier spielen nun neben der lexikalischen auch syntaktische und semantische Informationen eine Rolle. Obwohl manchen Modellen zufolge lexikalische und syntaktische Mehrdeutigkeiten mit einem einheitlichen Ansatz aufgelöst werden (Waltz & Pollack, 1985; Kintsch, 1988; MacDonald, Pearlmutter & Seidenberg, 1994), sprechen neuropsychologische Untersuchungen (z. B. Chapman, 1989; Garnsey, Tanenhaus & Chapman, 1989; Hagoort, Brown & Groothusen, 1993; Linebarger, 1989; Neville et al., 1991; Caplan, 1992; Osterhout & Holcomb, 1992; Münte, Heinze & Mangun, 1993; Rösler et al., 1993; Friederici, Hahne & Mecklinger, 1996; Frie-
derici & Mecklinger, 1996) dafür, Worterkennung und syntaktische Analyse als zwei unterschiedliche Mechanismen zu betrachten (Ferstl & Flores d’Arcais, 1999). Die Modelle der Satzverarbeitung unterscheiden sich im Hinblick auf die Beziehung von syntaktischer und semantischer Analyse. Die autonomen Modelle, beispielsweise das Garden-path-Modell (Frazier & Fodor, 1978; Frazier, 1979, 1987; Frazier & Rayner, 1982) und die Lexical Functional Grammar (Bresnan, 1978; Bresnan & Kaplan, 1982; Ford, Bresnan & Kaplan, 1982), nehmen zwei unabhängige Verarbeitungsschritte an. Im Garden-path-Modell beruht der erste, syntaktische Analyseschritt auf zwei Prinzipien: Nach dem Prinzip der minimalen Anbindung wird die Interpretation mit der einfachsten (Phrasen-) Struktur bevorzugt. Das Prinzip des späten Abschlusses besagt, dass ein neues Wort möglichst in die aktuelle Phrase integriert wird. Diese Regel hängt mit der begrenzten Sprachverarbeitungskapazität zusammen (Frazier & Fodor, 1978). Erst danach kommen semantische und pragmatische Informationen ins Spiel: Der Output der syntaktischen Analyse wird auf seine Kompatibilität mit der nicht-syntaktischen Information geprüft, was bei unbefriedigendem Ergebnis einen Revisionsprozess nach sich zieht. Auch bei der Lexical Functional Grammar (LFG) erfolgt zuerst die syntaktische Verarbeitung, die hier aber nicht auf Phrasenstrukturregeln, sondern auf lexikalischen Informationen basiert. Die Lexikoneinträge von Verben enthalten in diesem Modell nämlich Angaben über sogenannte Subkategorisierungsrahmen, d. h. über diejenigen syntaktischen Kontexte, in denen das Verb vorkommen kann. Innerhalb der interaktiven Modelle der Satzverarbeitung werden gelegentlich schwach interaktive und stark interaktive Modelle unterschieden (z. B. Altmann & Steedman, 1988; Kintsch, 1988). Bei genauerer Betrachtung sind die als schwach interaktiv bezeichneten Modelle jedoch mit der Autonomieannahme kompatibel (vgl. Ferstl & Flores d’Arcais, 1999). Die wirklich interaktiven Ansätze hingegen (z. B. MacDonald, Pearlmutter & Seidenberg, 1994; Trueswell, Tanenhaus & Garnsey, 1994) gehen von der Existenz bestimmter Constraints, d. h. einschränkender Vorgaben über Kombinationsmöglichkeiten, aus. Jeder Eintrag im mentalen Lexikon beinhaltet demnach Informationen über die möglichen Argumente des Wortes, seine mögli-
495
36. Theorien und Modelle der Sprachrezeption
chen syntaktischen Strukturen, und über die Häufigkeit, mit denen die Argumente und syntaktischen Strukturen bei diesem Wort vorkommen (vgl. McKoon & Ratcliff, 1998). Über eine etwaige Reihenfolge der Verwertung sind keine Vorgaben gemacht, so dass ein freier Informationsfluss stattfinden kann (z. B. Marslen-Wilson, 1975; Waltz & Pollack, 1985; McClelland, 1987; MacWhinney & Bates, 1989; MacDonald, Pearlmutter & Seidenberg, 1994; Trueswell & Tanenhaus, 1994). Für die empirische Untersuchung der Satzverarbeitung lassen sich die unterschiedlichen Voraussagen nutzen, die die Prozessmodelle im Hinblick auf den Kontexteinfluss treffen. Den autonomen Modellen zufolge wird Kontextinformation grundsätzlich erst nach der syntaktischen Verarbeitung genutzt; die interaktiven Modelle sagen hingegen keine solche feste Abfolge voraus. Die Resultate entsprechender Experimente sind – wie schon bei der Worterkennung – wiederum nicht eindeutig: Für eine autonome Verarbeitung spricht, dass in mehreren Untersuchungen zur Syntaxrezeption keine Hinweise auf erleichternde Kontexteffekte gefunden wurden (Ferreira & Clifton, 1986; Rayner, Garrod & Perfetti, 1992; Murray & Liversedge, 1994). Auch die syntaktische Reanalyse erfolgt den Ergebnissen von Sturt, Pickering und Crocker (2000) zufolge autonom und seriell. Mittels ereigniskorrellierter Potentiale stellten Ferstl und Friederici (1997) fest, dass Kontextinformation zwar sofort verfügbar ist, sich aber anfangs nicht gegen die syntaktische Präferenz durchsetzt. Widersprüchliche Resultate erbrachten mehrere Untersuchungen zur Mehrdeutigkeit der lexikalischen Kategorisierung (z. B. kann das englische Wort „study“ sowohl lesen als auch Arbeitszimmer heißen und damit ein Verb oder ein Substantiv sein): Laut Frazier und Rayner (1987) haben Satzkontexte, die eine Lesart eindeutig nahe legen, keine Auswirkung auf die syntaktische Verarbeitung. Mit cross-modalen Benennungsaufgaben (Tyler & Marslen-Wilson, 1977) und zeitlich selbst gesteuerten Leseaufgaben (Farrar & Kawamoto, 1993) wurden jedoch gegenteilige Ergebnisse erzielt, die die interaktiven Modelle stützen. Ebenfalls für eine interaktive syntaktische Verarbeitung sprechen Kontexteffekte bei der Verarbeitung von mehrdeutigen reduzierten Relativsätzen (Trueswell & Tanenhaus, 1991; SpiveyKnowlton, Trueswell & Tanenhaus, 1993; Ni, Crain & Shankweiler, 1996; McRae, Spivey-
Knowlton & Tanenhaus, 1998). Untersuchungen mit ereigniskorrellierten Potentialen (van Berkum, Brown & Hagoort, 1999) und Augenbewegungsmessungen (Altmann et al., 1998) zeigen zudem, dass referenzielle Information unmittelbar in die Satzverarbeitung einfließt.
3.
Diskursrezeption
Die Diskursrezeption lässt sich nicht einfach aus den oben skizzierten Theorien und Modellen der Wort- und Satzverarbeitung ableiten, sondern ist ein eigener wichtiger Forschungsgegenstand (z. B. Graesser, Millis & Zwaan, 1997). Von besonderer Bedeutung sind hier die Ebenen der Semantik und Pragmatik: Zum einen muss der Rezipient für die Kohärenzherstellung (d. h. die Herstellung von Bezügen zwischen verschiedenen Textteilen) neben der reinen Textinformation oft auch sein Weltwissen verwenden und zusätzliche Informationen inferieren. Damit stellt sich die Frage, wie – d. h. mit Hilfe welcher Prozesse – Textinformation und Weltwissen integriert werden. Zum anderen zeigen neueste Arbeiten (z. B. Rickheit & Strohner, 1999a,b; Prestin, 2000), dass auch die situative Einbettung der Kommunikation systematisch in Betracht zu ziehen ist. Im Folgenden wird zunächst ein kurzer Überblick über die „klassischen“ autonomen bzw. interaktiven Modelle der Diskursrezeption gegeben. Anschließend werden anhand der wichtigsten Forschungsbereiche die Anforderungen an eine situierte Theorie aufgezeigt 3.1. Autonome und interaktive Modelle der Diskursrezeption Die autonomen Modelle der Diskursrezeption sind eng mit dem Namen Walter Kintsch verbunden. Auf der Grundlage seiner Theorie der propositionalen Textrepräsentation (Kintsch, 1974) entwickelten Kintsch und van Dijk (1978) die Theorie der zyklischen Verarbeitung. Demnach erstellt der Rezipient zunächst eine Textbasis, d. h. eine Liste von Propositionen, die die Bedeutung des Textes repräsentieren. Die Textbasis wird dann in Gruppen zyklisch auf Kohärenz überprüft. Dies geschieht im Wesentlichen auf Grund von Argumentüberlappungen, wozu ggf. Teile des Langzeitgedächtnisses reaktiviert werden. Nur wenn auch auf diesem Wege keine Kohärenz hergestellt werden kann, set-
496 zen Inferenzprozesse ein: Aufgrund des Weltwissens werden weitere Propositionen erschlossen, die die Textbasis vervollständigen. Die Strategietheorie (van Dijk & Kintsch, 1983) stellt dem gegenüber insofern einen Fortschritt dar, als nunmehr in Anlehnung an den Strategiebegriff von Bever (1970) der funktionale Aspekt der Sprachverarbeitung berücksichtigt wird. Entsprechende Parameter sind in den kognitiven und kontextuellen Annahmen der Theorie zu finden. So gehen van Dijk und Kintsch im Hinblick auf die Kognition unter anderem davon aus, dass Rezipienten im Prozess des Textverstehens externe und interne Informationen flexibel verwenden und inbesondere auch ihre Meinungen, Überzeugungen und Einstellungen in die Interprestation einfließen lassen. Zu den kontextuellen Annahmen der Strategietheorie gehört, dass bei der Rezeption die Intentionen des Produzenten, die Funktion des Textes im sozialen Kontext und die situative Einbettung der Kommunikation berücksichtigt werden. Mit der Konstruktions-Integrations-Theorie (Kintsch, 1988; Otero & Kintsch, 1992) gibt Kintsch die streng modulare Sichtweise zu Gunsten einer konnektionistischen Modellierung auf, mit deren Hilfe sich die Interaktion von Weltwissen und Textinformation explizit abbilden lässt. Allerdings wird auch hier noch eine Trennung in zwei Phasen vorgenommen: Der Input löst zunächst eine Aktivationsverteilung im Netzwerk aus (Konstruktion), bevor dann durch die Integration des Weltwissens diejenigen Konzepte selektiert werden, die am besten in den Kontext passen. Zu den ersten interaktiven Modellen der Sprachrezeption gehört die konstruktivistische Theorie (Bransford & Franks, 1971; Bransford, Barclay & Franks, 1972). Sie besagt, dass im Verstehensprozess durch die Interaktion von Textinformation und Weltwissen neue, im Text selbst nicht explizit enthaltene Sachverhalte erschlossen werden, die sich mit dem Text selbst zu einer übergreifenden Bedeutungsstruktur verbinden. Der Schematheorie (Rumelhart, 1975, 1980) zufolge enthält das Gedächtnis kognitive Strukturen („Schemata“), die nicht alle, sondern nur die wichtigsten Charakteristika eines Gegenstandes repräsentieren. Diese Annahme geht auf Bartlett (1932) zurück, der in experimentellen Studien herausgefunden hatte, dass bei der Reproduktion kurzer Texte individuelle Abweichungen auftreten.
IV. Sprachrezeption
Bartlett erklärte dies damit, dass die Rezipienten den Text aus abstrakteren, im Gedächtnis gespeicherten Einheiten rekonstruieren. In der kognitiven Psychologie der 70er und 80er Jahre wird der Schemabegriff wieder aufgegriffen und auf seine Funktionen hinterfragt (Alba & Hasher, 1983). Skripts im Sinne der Skripttheorie (Schank & Abelson, 1977; Abelson, 1981) sind im Prinzip ebenfalls Schemata, weisen aber eine größere Spezifität auf. Sie beinhalten stereotype Handlungssequenzen, deren Reihenfolge streng festgelegt (starke Skripts) oder offen (schwache Skripts) sein kann. Skripts dienen nicht nur der Einordnung von Informationen, sondern führen auch zur Bildung von Erwartungen an den Fortgang des Textes. Eine der einflussreichsten interaktiven Theorien der Sprachverarbeitung ist die Theorie mentaler Modelle (Johnson-Laird, 1980, 1983, 1989). Mentale Modelle sind übergeordnete kognitive Repräsentation, die textunabhängiges Wissen einbeziehen und mit jedem neuen sprachlichen Input verändert werden können: Wenn ein Ausdruck sich auf das aktuelle mentale Modell bezieht, so wird dieses um die neue Information erweitert. Sind zwei aktuelle Modelle involviert, werden diese nach Möglichkeit zu einem einzigen integriert. Lässt sich hingegen kein passendes Modell finden, dann wird ein neues konstruiert. In der Literatur wird der Begriff des mentalen Modells vor allem im Hinblick auf die Repräsentation räumlicher bzw. raumzeitlicher Relationen (z. B. Downs & Shea, 1977; Landau & Jackendorff, 1983; Davis, 1986; Yoshino, 1991) und Analogiebildungen (z. B. Gentner & Stevens, 1983; Dörr, Seel & Strittmatter, 1986) verwendet. Einen Überblick über den aktuellen Forschungsstand bieten Rickheit und Habel (1999). Eng verwandt mit der Theorie mentaler Modelle ist die Szenariotheorie (Sanford & Garrod, 1981; Garrod, 1995; Sanford & Moxey, 1993). Szenariorepräsentationen enthalten unter anderem Wissen über soziale Situationen und die sozialen Beziehungen der im Text vorkommenden Personen. Sanford und Garrod gehen jedoch über den Ansatz von Johnson-Laird hinaus, indem sie mit Blick auf die Textverarbeitung zwischen explizitem und implizitem Fokus unterscheiden: Der explizite Fokus umfasst die direkt im Text enthaltenen Sachverhalte; der implizite Fokus beinhaltet die Information, die auf dieser
36. Theorien und Modelle der Sprachrezeption
Grundlage inferiert wird. Ihr Forschungsinteresse gilt vor allem der Frage, wodurch der Inhalt des impliziten Fokus bestimmt wird. 3.2. Situierte Modelle der Diskursrezeption In aktuellen psycholinguistischen Arbeiten zur Sprachverarbeitung wird verstärkt die fundamentale Rolle der Pragmatik betont (z. B. Clark, 1992, 1996, 1997; Rickheit, 1995; Rickheit & Strohner, 1999a, b; Prestin, 2000, 2002). Sprache ist demnach generell in einen sozialen Kontext eingebettet, der das Verstehen in vielfältiger Weise beeinflusst. Zu solchen Kontextfaktoren gehören die Kommunikationspartner und deren Ziele (z. B. Nystrand, 1986), die Funktion der Kommunikation für den Rezipienten (z. B. Pichert & Anderson, 1977), das Wissen der Rezipienten über die im Text angesprochenen Sachverhalte (z. B. Kintsch, 1994) sowie kulturbedingte Regeln der Kommunikation (Clark & Carlson, 1981), darunter – bei schriftlicher Kommunikation – die Konventionen der verwendeten Textart (Prestin, 2000, 2002). Theorien und Modelle der Sprachrezeption sollten den Aspekt der Situiertheit sowohl im Hinblick auf die postulierten Verarbeitungseinheiten als auch auf die Verarbeitungsprozesse berücksichtigen (Rickheit & Strohner, 1999b). Wie im vorangegangenen Abschnitt skizziert, wurden als Einheiten der mentalen Repräsentation eines Textes mentale Propositionen (Kintsch, 1974) oder mentale Modelle (Johnson-Laird, 1980, 1983, 1989) vorgeschlagen. Rickheit und Strohner (1999b) regen die Erweiterung der mentalen Modelle zu mentalen Situationen an, in denen auch pragmatische Wissensaspekte berücksichtigt werden. Empirische Untersuchungen belegen, dass mentale Modelle neben räumlichen Informationen (Glenberg, Meyer & Lindem, 1987; Morrow, Greenspan & Bower, 1987; Morrow, Bower & Greenspan, 1989; Taylor & Tversky, 1992) und Wissen über Handlungsabläufe (Glenberg & Langston, 1992) auch Informationen über die Emotionen der Hauptpersonen (Gernsbacher & Robertson, 1992) und über deren Ziele (Huitema et al., 1993) enthalten können. Nimmt man mit Clark (1996) an, dass entsprechendes Wissen nicht nur in Bezug auf die Textwelt (also auf im Text genannte Personen), sondern auch in Bezug auf die Kommunikationspartner aktiviert wird, dann lassen sich die von Zwaan und Radvansky (1998) genannten fünf Dimensionen von Situationen ⫺ nämlich Zeit,
497 Raum, kausale Zusammenhänge, Intentionen, handelnde Personen (vgl. Chafe, 1979; Johnson-Laird, 1983; van Dijk, 1987; Nakhimovsky, 1988; Gernsbacher, 1990; Givon, 1992; Zwaan, Langston & Graesser, 1995) – in die mentalen Situationen im Sinne von Rickheit und Strohner (1999b) integrieren. Zentrale Prozesse der Textrezeption sind die Herstellung von Kohärenz und die Bildung von Inferenzen. Bei der Kohärenz wird im Allgemeinen zwischen lokaler und globaler Kohärenz unterschieden, die beide bei der Textverarbeitung eine Rolle spielen (Sanford & Garrod, 1981; O’Brien & Albrecht, 1992; Albrecht & O’Brien, 1993; Graesser, Singer & Trabasso, 1994; Myers et al., 1994; Singer, Graesser & Trabasso, 1994; Hakala & O’Brien, 1995; Hess, Foss & Carroll, 1995; Trabasso & Magliano, 1996). Lokale Kohärenz entsteht durch die Anbindung des aktuellen Inputs an Information, die kurz zuvor verarbeitet wurde; ein Beispiel sind koreferenzielle Bezüge. Globale Kohärenz hingegen betrifft den gesamten Text und damit auch Information, die sich nicht mehr im Arbeitsgedächtnis befindet. Nach dem Event Indexing Model (Zwaan, Langston & Graesser, 1995; Zwaan & Radvansky, 1998) überwacht der Rezipient während des Lesens die fünf oben bereits genannten konzeptuellen Dimensionen Zeit, Raum, kausale Zusammenhänge, Intentionen, handelnde Personen. Wenn durch ein neues Statement Inkongruenzen in einer oder mehrerer dieser Dimensionen auftreten, ergeben sich Probleme bei der globalen Kohärenzherstellung – die Folge sind empirisch nachweisbare längere Lesezeiten. Die Überlegungen und Untersuchungen zu lokaler und globaler Kohärenz lassen sich zu einer situierten Theorie der Kohärenz (vgl. Rickheit & Strohner, 1999b) erweitern, wenn man auf den Strategiebegriff zurückgreift, den Van Dijk und Kintsch (1983) entwickelt haben. Einem solchen funktionalen Ansatz zufolge ist die Herstellung von Kohärenz nicht nur vom Text selbst, sondern auch von der spezifischen Kommunikationssituation abhängig, etwa von den jeweiligen Zielen des Rezipienten. Um eine kohärente Interpretation zu erhalten, muss der Rezipient häufig Inferenzen bilden, d. h. mit Hilfe seines Weltwissens bestimmte Schlüsse ziehen. Grundsätzlich zu unterscheiden sind Inferenzen, die während der Textverarbeitung on-line auftreten und ggf. nur für kurze Zeit aktiviert bleiben (vgl.
498 Whitney, Ritchie & Crane, 1992; Murray, Klin & Myers, 1993; Millis & Just, 1994), und solche, die erst nachträglich unter bestimmten Bedingungen off-line hinzukommen. Die möglichen Inferenzen beim Lesen reichen von der Referenzherstellung, der Ermittlung von Ursachen und Handlungszielen bis zur kommunikativen Intention, die der Autor mit dem gesamten Text verfolgt (für einen Überblick über die Inferenztypen siehe Graesser, Singer & Trabasso, 1994). Zu der Frage, welche dieser Schlüsse tatsächlich im Einzelfall gezogen werden, gibt es mit der minimalistischen und der maximalistischen Theorie zwei konträre Ansichten. Die minimalistische Inferenztheorie (z. B. Kintsch & van Dijk, 1978; McKoon & Ratcliff, 1992) sieht Inferenzen lediglich als Reparaturmechanismus, der eingesetzt wird, wenn anders keine lokale Kohärenz hergestellt werden kann. Der maximalistischen Sichtweise zufolge sind Inferenzen hingegen unverzichtbare Grundlage des Textverstehens. Nach den interaktiven Theorien der Diskursrezeption (vgl. Abschnitt 3.1) sind sie im Rahmen von Skripts, Szenarios oder mentalen Modellen zu verorten (z. B. Schank & Abelson, 1977; Sanford & Garrod, 1981; Johnson-Laird, 1983). Angesichts der begrenzten Kapazität des Arbeitsgedächtnisses und der Tatsache, dass das Textverstehen normalerweise nur eine extrem kurze Zeit in Anspruch nimmt, ist die Annahme, der Rezipient würde stets alle möglichen Schlüsse auch wirklich ziehen, jedoch nicht haltbar. Mit der konstruktivistischen Theorie (Graesser, Singer & Trabasso, 1994; Graesser, Millis & Zwaan, 1997) wurde deshalb eine Variante entwickelt, die den empirischen Resultaten besser Rechnung trägt. Leser bilden demnach drei Arten von Inferenzen: solche, die ihre Verstehensziele betreffen, solche, die Ereignisse, Handlungen und Zustände begründen, und solche, die lokale und globale Kohärenz herstellen. Graesser, Millis und Zwaan (1997) präsentieren zwar empirische Belege für ihren Ansatz (z. B. Long, Golding & Graesser, 1992; Magliano et al., 1993; Millis & Graesser, 1994; Trabasso & Magliano, 1996; Zwaan & Brown, 1996), weisen allerdings darauf hin, dass unter bestimmten Bedingungen auch die Vorhersagen der minimalistischen oder der maximalistischen Theorie zutreffen können. Dies legt den Übergang zu einer situierten Theorie (Rickheit & Strohner, 1999b) nahe. Das Ausmaß der Inferenzbildung wird dem-
IV. Sprachrezeption
nach durch die Ziele, das Wissen und die individuellen kognitiven Voraussetzungen des Rezipienten sowie durch Prozesse der wechelseitigen Verständigungssicherung in der Kommunikation (Clark & Carlson, 1982; Clark & Murphy, 1982; Clark, 1996) bestimmt. Gestützt wird eine solche situierte Theorie durch mehrere Experimente, die den Einfluss des Vorwissens und der jeweiligen Zielsetzung belegen (z. B. Noordman & Vonk, 1992; Noordman, Vonk & Kempff, 1992). Wenn nämlich das Wissen der Rezipienten nicht ausreichte, um eine durch den Text nahe gelegte Kausalbeziehung zu erkennen, dann wurden sogar weniger Inferenzen gezogen, als die minimalistische Theorie vorhersagt. Andererseits ließ sich die Inferenzbildung erhöhen, wenn die Aufmerksamkeit der Versuchspersonen durch bestimmte Aufgabenstellungen auf die jeweils kritische Stelle gelenkt wurde.
4.
Ausblick
Mit der verstärkten Berücksichtigung des kommunikativen Kontextes hat in der Sprachrezeptionsforschung eine wichtige Neuorientierung eingesetzt. Die Auswirkungen verschiedener Situationsparameter auf die Textverarbeitung werden künftig im Detail empirisch zu überprüfen sein. Wünschenswert wäre dabei auch die Integration der unteren Ebenen der Sprachverarbeitung: Inwieweit der pragmatische Kontext das lexikalische und syntaktische Verstehen beeinflusst, ist bislang kaum untersucht worden. Ein wirkliches Verständnis des Sprachverstehens wird erst erreicht sein, wenn Wort-, Satz- und Textverarbeitung nicht nur in ihrer Funktionsweise, sondern auch in ihrem Zusammenspiel transparent sind.
5.
Literatur
Abelson, R. P. (1981). Psychological status of the script concept. American Psychologist, 7, 715⫺729. Aitchison, J. (1994). Words in the mind: An introduction to the mental lexicon. Oxford: Blackwell. Alba, J. & Hasher, L. (1983). Is memory schematic? Psychological Bulletin, 93, 203⫺231. Albrecht, J. E. & O’Brien, E. J. (1993). Updating a mental model: maintaining both local and global coherence. Journal of Experimental Psychology: Learning, Memory, and Cognition, 19, 1061⫺1070.
36. Theorien und Modelle der Sprachrezeption
499
Allopenna, P. D., Magnuson, J. S. & Tanenhaus, M. K. (1998). Tracking the time course of spoken word recognition using eye movements: Evidence for continuous mapping models. Journal of Memory and Language, 38, 419⫺439.
Butterworth, B. (1983). Lexical representation. In B. Butterworth (Ed.), Language production (pp. 257⫺294). London: Academic Press.
Altmann, G. T. M. & Steedman, M. J. (1988). Interaction with context during human sentence processing. Cognition, 30, 191⫺238.
Caramazza, A., Laudanna, A. & Romani, C. (1988). Lexical access and inflectional morphology. Cognition, 28, 297⫺332.
Altmann, G. T. M., van Nice, K. Y., Garnham, A. & Henstra, J.-A. (1998). Late closure in context. Journal of Memory and Language, 38, 459⫺484.
Carpenter, P. A., Miyake, A. & Just, M. A. (1995). Language comprehension: Sentence and discourse processing. Annual Review of Psychology, 46, 91⫺ 120.
Andrews, S. (1986). Morphological influences on lexical access: Lexical or nonlexical effects? Journal of Memory and Language, 25, 726⫺740. Baayen, R. H., Dijkstra, T. & Schreuder, R. (1997). Singulars and Plurals in Dutch: Evidence for a parallel route model. Journal of Memory and Language, 37, 94⫺117. Balota, D. A. & Chumbley, J. I. (1984). Are lexical decisions a good measure of lexical access? The role of word frequency in the neglected decision stage. Journal of Experimental Psychology: Human Perception and Performance, 10, 340⫺357. Bever, T. G. (1970). The cognitive basis for linguistic structure. In J. R. Hayes (Ed.), Cognition and the development of language (pp. 279⫺362). New York: Wiley. Borsky, S., Shapiro, P. & Tuller, B. (2000). The temporal unfolding of local acoustic information and sentence context. Journal of Psycholinguistic Research, 29, 155⫺168. Bradley, D. C. & Forster, K. I. (1987). A reader’s view of listening. Cognition, 25, 103⫺134. Bransford, J. D., Barclay, J. R. & Franks, J. J. (1972). Sentence memory: A constructive vs. interpretative approach. Cognitive Psychology, 3, 193⫺ 209. Bransford, J. D. & Franks, J. J. (1971). The abstraction of linguistic ideas. Cognitive Psychology, 2, 331⫺350. Bresnan, J. (1978). A realistic transformational grammar. In M. Halle, J. Bresnan & G. Miller (Eds.), Linguistic theory and psychological reality. Cambridge, MA: MIT Press. Bresnan, J. & Kaplan, R. M. (1982). Introduction: Grammars as mental representations of language. In J. Bresnan (Ed.), The mental representation of grammatical relations (pp. 173⫺281). Cambridge, MA: MIT Press. Burani, C. & Caramazza, A. (1987). Representation and processing of derived words. Language and Cognitive Processes, 2, 217⫺227.
Caplan, D. (1992). Language: Structure, processing and disorders. Cambridge, MA: MIT Press.
Chafe, W. L. (1979). The flow of thought and the flow of language. In T. Givo´n (Ed.), Syntax and semantics. Vol. 12: Discourse and syntax (pp. 159⫺ 181). New York: Academic Press. Chialant, D. & Caramazza, A. (1995). Where is morphology and how is it represented? The case of written word recognition. In L. B. Feldman (Ed.), Morphological aspects of language processing (pp. 55⫺76). Hillsdale, NJ: Erlbaum. Clark, H. H. (1992). Arenas of language use. Chicago: University of Chicago Press. Clark, H. H. (1996). Using language. Cambridge: Cambridge University Press. Clark, H. H. (1997): Dogmas of understanding. Discourse Processes, 23, 567⫺598. Clark, H. H. & Carlson, T. B. (1981). Context for comprehension. In J. Long & A. Baddeley (Eds.), Attention and performance IX (pp. 313⫺330). Hillsdale, NJ: Erlbaum. Clark, H. H. & Carlson, T. B. (1982). Hearers and speech acts. Language, 58, 322⫺372. Clark, H. H. & Murphy, G. L. (1982). Audience design in meaning and reference. In J. F. LeNy & W. Kintsch (Eds.), Language and comprehension (pp. 287⫺299). Amsterdam: North-Holland. Cutler, A. & McQueen, J.M. (1995). The recognition of lexical units in speech. In B. de Gelder & J. Morais (Eds.), Speech and reading: A comparative approach (pp. 33⫺47). Hove (UK): Taylor & Francis. Davis, E. (1986) Representing and acquiring geographic knowledge. Los Altos, CA: Morgan Kaufmann. Dörr, G., Seel, N. M. & Strittmatter, P. (1986). Mentale Modelle: Alter Wein in neuen Schläuchen? Unterrichtswissenschaft, 14, 168⫺189. Downs, R. H. & Shea, D. (1977). Maps in minds: Reflections on cognitive mapping. New York: Harper and Row.
500 Engelkamp, J. & Rummer, R. (1999). Die Architektur des mentalen Lexikons. In A. Friederici (Hrsg.), Sprachrezeption (pp. 155⫺201). Göttingen: Hogrefe. Farrar, W. & Kawamoto, A. (1993). The return of „visiting relatives“: Pragmatic effects in sentence processing. Quarterly Journal of Experimental Psychology, 46A, 463⫺487. Feldman, L. B. (1991). The contribution of morphology to word recognition. Psychological Research, 53, 33⫺41. Feldman, L. B. & Fowler, C.A. (1987). The inflected noun system in Serbo-Croatian: Lexical representation of morphological structure. Memory and Cognition, 15, 1⫺12. Ferstl, E. & Flores d’Arcais, G. (1999). Das Lesen von Wörtern und Sätzen. In A.Friederici (Hrsg.), Sprachrezeption (pp. 203⫺242). Göttingen: Hogrefe. Ferstl, E. C. & Friederici, A. D. (1997). Inter-sentential context effects on parsing: A study using event-related potentials. 10th Annual CUNY Conference of Sentence Processing, Santa Monica, CA. Ferreira, F. & Clifton, C. (1986). The independence of syntactic processing. Journal of Memory and Language, 25, 348⫺368. Ford, M., Bresnan, J. & Kaplan, R. M. (1982). A competence-based theory of syntactic closure. In J. Bresnan (Ed.), The mental representation of grammatical relations (pp. 727796). Cambridge, MA: MIT Press. Forster, K. I. (1976). Accessing the mental lexicon. In R. J. Wales & E. Walker (Eds.), New approaches to language mechanisms (pp. 257⫺297). Amsterdam: North Holland. Forster, K. I. (1979). Levels of processing and the structure of the language processor. In W. E. Cooper & E. Walker (Eds.), Sentence processing: Psycholinguistic studies presented to Merril Garrett (pp. 27⫺85). Hillsdale, NJ: Erlbaum. Forster, K. I. (1981). Priming and the effects of sentence and lexical contexts on naming time: Evidence for autonomous lexical processing. Quarterly Journal of Experimental Psychology, 33A, 465⫺ 495. Forster, K. I. (1989). Basic issues in lexical processing. In W. D. Marslen-Wilson (Ed.), Lexical representation and process (pp. 75⫺107). Cambridge, MA: MIT Press. Forster, K. I. & Chambers, S. M. (1973). Lexical access and naming time. Journal of Verbal Learning and Verbal Behavior, 12, 627⫺635.
IV. Sprachrezeption Fowler, C. A., Napps, S. E. & Feldman, L. B. (1985). Relations among regular and irregular morphologically related words in the lexicon as revealed by repetition priming. Memory and Cognition, 13, 241⫺255. Frauenfelder, U. H. & Floccia, C. (1999). Das Erkennen gesprochener Wörter. In A. Friederici (Hrsg.), Sprachrezeption (pp. 1⫺48). Göttingen: Hogrefe. Frauenfelder, U. H. & Schreuder, R. (1992). Constraining psycholinguistic models of morphological processing and representation: The role of productivity. In G.E. Booij & J. van Marle (Eds.), Yearbook of Morphology 1991 (pp. 165⫺183). Dordrecht: Kluwer. Frazier, L. (1979). On comprehending sentences: Syntactic parsing strategies. Bloomington: Indiana University Linguistics Club. Frazier, L. (1987). Structure in auditory word recognition. Cognition, 25, 157⫺187. Frazier, L. & Fodor, J. D. (1978). The sausage machine: A new two-stage parsing model. Cognition, 6, 291⫺325. Frazier, L. & Rayner, K. (1982). Making and correcting errors during sentence comprehension: Eye movements in the analysis of structurally ambiguous sentences. Cognitive Psychology, 14, 178⫺ 210. Frazier, L. & Rayner, K. (1987). Resolution of syntactic category ambiguities: Eye movements in parsing lexically ambiguous sentences. Journal of Memory and Language, 26, 505⫺526. Friederici, A. D., Hahne, A. & Mecklinger, A. (1996). Temporal structure of syntactic parsing: Early and late event-related brain potential effects. Journal of Experimental Psychology: Learning, Memory, and Cognition, 22, 1219⫺1248. Friederici, A. D. & Mecklinger, A. (1996). Syntactic parsing as revealed by brain responses: Firstpass and second-pass parsing processes. Journal of Psycholinguistic Research, 25, 157⫺176. Garnsey, S. M., Tanenhaus, M. K. & Chapman, R. M. (1989). Evoked potentials and the study of sentence comprehension. Journal of Psycholinguistic Research, 18, 51⫺60. Garrod, S. (1995). Distinguishing between explicit and implicit focus during text comprehension. In G. Rickheit & C. Habel (Eds.), Focus and coherence in discourse processing (pp. 3⫺17). Berlin: de Gruyter. Gentner, D. & Stevens, A. L. (Eds.) (1983). Mental models. Hillsdale, NJ: Erlbaum.
36. Theorien und Modelle der Sprachrezeption
501
Gernsbacher, M. A. (1990). Language comprehension as structure building. Hillsdale, NJ. Erlbaum.
Effects of word frequency. Perception and Psychophysics, 34, 49⫺57.
Gernsbacher, M. A. & Robertson, R. R. W. (1992). Knowledge activation versus sentence mapping when representing fictional characters’ emotional states. Language and Cognitive Processes, 7, 353⫺ 371.
Johnson-Laird, P. N. (1980). Mental models in cognitive science. Cognitive Science, 4, 72115.
Givon, T. (1992). The grammar of referential coherence as mental processing instructions. Linguistics, 30, 5⫺55. Glenberg, A. M., Meyer, M. & Lindem, K. (1987). Mental models contribute to foregrounding during text comprehension. Journal of Memory and Language, 26, 69⫺83. Glenberg, A. M. & Langston, W. E. (1992). Comprehension of illustrated text: Pictures help to build mental models. Journal of Memory and Language, 31, 129⫺151. Graesser, A. C., Millis, K. K. & Zwaan, R. A. (1997). Discourse comprehension. Annual Review of Psychology, 46, 163⫺189. Graesser, A. C., Singer, M. & Trabasso, T. (1994). Constructing inferences during narrative text comprehension. Psychological Review, 101, 371⫺395. Grainger, J., Cole, P. & Segui, J. (1991). Masked morphological priming in visual word recognition. Journal of Memory and Language, 30, 370⫺384. Grosjean, F. & Gee, J. G. (1987). Prosodic structure and spoken word recognition.Cognition, 25, 135⫺155. Günther, H. (1988). Oblique word forms in visual word recognition. Linguistics, 26, 583⫺600. Hagoort, P., Brown, C. M. & Groothusen, J. (1993). The syntactic positive shift (SPS) as an ERP measure of syntactic processing. Language and Cognitive Processes, 8, 439⫺483. Hakala, C. M. & O’Brien, E. J. (1995). Strategies for resolving coherence breaks in reading. Discourse Processes, 20, 167⫺186. Hemforth, B. & Strube, G. (1999). Syntaktische Struktur und Sprachperzeption. In A. Friederici (Hrsg.), Sprachrezeption (pp. 243⫺270). Göttingen: Hogrefe. Hess, D. J., Foss, D. J. & Carroll, P. (1995). Effects of global and local context on lexical processing during language comprehension. Journal of Experimental Psychology: General, 124, 62⫺82. Huitema, J. S., Dopkins, S., Klin, C. M. & Myers, J. L. (1993). Connecting goals and actions during reading. Journal of Experimental Psychology: Learning, Memory, and Cognition, 19, 1053⫺1060. Inhoff, A. W. & Rayner, K. (1986). Parafoveal word processing during eye fixations in reading:
Johnson-Laird, P. N. (1983). Mental models: Towards a cognitive science of language, inference, and consciousness. Cambridge: Cambridge University Press. Johnson-Laird, P. N. (1989). Mental models. In M. I. Posner (Ed.), Foundations of cognitive science (pp. 469⫺499). Cambridge, MA: MIT Press. Kintsch, W. (1974). The representation of meaning in memory. Hillsdale, NJ: Erlbaum. Kintsch, W. (1988). The role of knowledge in discourse comprehension: A construction integration model. Psychological Review, 95, 163⫺182. Kintsch, W. (1994). Text comprehension, memory, and learning. American Psychologist, 49/4, 294⫺ 303. Kintsch, W. & Mross, E. F. (1985). Context effects in word identification. Journal of Memory and Language, 24, 336⫺349. Kintsch, W. & van Dijk, T. A. (1978). Toward a model of text comprehension and production. Psychological Review, 85, 363⫺394. Klatt, D. H. (1980). Speech perception: A model of acoustic-phonetic analysis and lexical access. In R.A. Cole (Ed.), Perception and production of fluent speech (pp. 243⫺288). Hillsdale, NJ: Erlbaum. Kostic, A. (1995). Information load constraints on processing inflectional morphology. In L. B. Feldman (Ed.), Morphological aspects of language processing (pp. 317⫺344). Hillsdale, NJ: Erlbaum. Landau, B. & Jackendorff, R. (1983). „What“ and „where“ in spatial language and spatial cognition. Behavioral and Brain Sciences, 16, 217⫺265. Laudanna, A. & Burani, C. (1995). Distributional properties of derivational affixes: Implications for processing. In L. B. Feldman (Ed.), Morphological aspects of language processing (pp. 345⫺364). Hillsdale, NJ: Erlbaum. Linebarger, M. C. (1989). Neuropsychological evidence for linguistic modularity. In G. N. Carlson & M. K. Tanenhaus (Eds.), Linguistic structure in language processing (pp. 197-238). Dordrecht: Kluwer. Long, D. L., Golding, J. M. & Graesser, A. C. (1992). The generation of goal-related inferences during narrative comprehension. Journal of Memory and Language, 31, 634⫺647. Lukatela, G., Gligorijevic, G., Kostic, A. & Turvey, M. T. (1980). Representation of inflected nouns in the mental lexicon. Memory and Cognition, 8, 415⫺423.
502 MacDonald, M. C., Pearlmutter, N. J. & Seidenberg, M. S. (1994). The lexical nature of syntactic ambiguity resolution. Psychological Review, 101, 676⫺703. MacWhinney, B. & Bates, E. (Eds.) (1989). The crosslinguistic study of sentence processing. New York: Cambridge University Press. Magliano, J. P., Baggett, W. B., Johnson, B. K. & Graesser, A. C. (1993). The time course of generating causal antecedent and causal consequence inferences. Discourse Processes, 16, 35⫺53. Marslen-Wilson, W. D. (1975). Sentence perception as an interactive parallel process. Science, 189, 226⫺228.
IV. Sprachrezeption prehension. Journal of Memory and Language, 38, 283⫺312. Millis, K. K. & Graesser, A. C. (1994). The timecourse of constructing knowledge-based inferences for scientific texts. Journal of Memory and Language, 33, 583⫺599. Millis, K. K. & Just, M. A. (1994). The influence of connectives on sentence comprehension. Journal of Memory and Language, 33, 128⫺147. Morrow, D. G., Bower, G. H. & Greenspan, S. (1989). Updating situation models during narrative comprehension. Journal of Memory and Language, 28, 292⫺312.
Marslen-Wilson, W. D. (1987). Functional parallelism in spoken word recognition. Cognition, 25, 71⫺102.
Morrow, D. G., Greenspan, S. & Bower, G. H. (1987). Accessibility and situation models in narrative comprehension. Journal of Memory and Language, 26, 165⫺187.
Marslen-Wilson, W. D., W., Tyler, L.K., Waksler, R. & Older, L. (1994). Morphology and meaning in the English mental lexicon. Psychological Review, 101, 3⫺33.
Münte, T. F., Heinze, H. J. & Mangun, G. R. (1993). Dissociation of brain activity related to syntactic and semantic aspects of language. Journal of Cognitive Neuroscience, 5, 335344.
Marslen-Wilson, W. D. & Warren, P. (1994). Levels of perceptual representation and process in lexical access: Words, phonemes and features. Psychological Review, 101, 653⫺675.
Murray, J. D., Klin, C. M. & Myers, J. (1993). Forward inferences in narrative texts. Journal of Memory and Language, 32, 464⫺473.
Marslen-Wilson, W. D. & Welsh, A. (1978). Processing interactions and lexical access during word recognition in continuous speech. Cognitive Psychology, 10, 29⫺63.
Murray, W. S . & Liversedge, S. P. (1994). Referential context effects on syntactic processing. In C. Clifton, L. Frazier & K. Rayner (Eds.), Perspectives on sentence processing (pp. 359⫺388). Hillsdale, NJ: Erlbaum.
McClelland, J. L. (1987). The case for interactionism in language processing. In M. Coltheart (Ed.), Attention and performance XII: The psychology of reading (pp. 3⫺38). Hillsdale, NJ: Erlbaum.
Myers, J. L., O’Brien, E. J., Albrecht, J. E. & Mason, R. A. (1994). Maintainig global coherence during reading. Journal of Experimental Psychology: Learning, Memory, and Cognition, 20, 876⫺ 886.
McClelland, J. L. & Elman, J. L. (1986). The TRACE model of speech perception. Cognitive Psychology, 18, 1⫺86.
Nakhimovsky, A. (1988). Aspect, aspectual class, and the temporal structure of narrative. Computational Linguistics, 14, 29⫺43.
McClelland, J. L. & Rumelhart, D. E. (1981). An interactive activation model of context effects in letter perception: Part 1. An account of basic findings. Psychological Review, 88, 375⫺407.
Neville, H. J., Nicol, J., Barss, A., Forster, K. & Garrett, M. (1991). Syntactically based sentence processing classes: Evidence from event-related potentials. Journal of Cognitive Neuroscience, 3, 155⫺170.
McKoon, G. & Ratcliff, R. (1992). Inference during reading. Psychological Review, 99, 440⫺466. McKoon, G. & Ratcliff, R. (1998): Memory-based language processing: Psycholinguistic research in the 1990s. Annual Review of Psychology, 49, 25⫺ 42. McQueen, J. M. & Cutler, A. (1998). Morphology in word recognition. In A. Spencer & A. M. Zwicky (Eds.), The handbook of morphology (pp. 406⫺ 427). Oxford: Blackwell. McRae, K., Spivey-Knowlton, M. J. & Tanenhaus, M. K. (1998). Modeling the influence of thematic fit (and other constraints) in on-line sentence com-
Ni, W., Crain, S. & Shankweiler, D. (1996). Sidestepping garden paths: Assessing the contributions of syntax, semantics and plausibility in resolving ambiguities. Language and Cognitive Processes, 11, 283⫺334. Noordman, L. G. M. & Vonk, W. (1992). Reader’s knowledge and the control of inferences in reading. Language and Cognitive Processes, 7, 373⫺391. Noordman, L. G. M., Vonk, W. & Kempff, H. J. (1992). Causal inferences during the reading of expository texts. Journal of Memory and Language, 31, 573⫺590.
36. Theorien und Modelle der Sprachrezeption Norris, D. (1994). SHORTLIST: A connectionist model of continuous speech recognition. Cognition, 52, 189⫺234. Nystrand, M. (1986). The structure of written communication: Studies in reciprocity between readers and writers. Norwood, NJ: Ablex. O’Brien, J. E. & Albrecht, J. E. (1992). Comprehension strategies in the development of a mental model. Journal of Experimental Psychology: Learning, Memory, and Cognition, 18, 777⫺784. Onifer, W. & Swinney, D. A. (1981). Accessing lexical ambiguities during sentence comprehension: Effects of frequency of meaning and contextual bias. Memory and Cognition, 9, 225⫺236. Osterhout, L. & Holcomb, P. J. (1992). Event-related brain potentials elicited by syntactic anomaly. Journal of Memory and Language, 31, 785⫺806. Otero, J. & Kintsch, W. (1992). Failures to detect contradictions in an text: What readers believe versus what they read. Psychological Science, 3, 229⫺235. Pichert, J. W. & Anderson, R. C. (1977). Taking different perspectives on a story. Journal of Educational Psychology, 69, 309⫺315. Pisoni, D. & Luce, P. A. (1987). Acoustic-phonetic representations in word recognition. Cognition, 25, 21⫺52. Prestin, E. (2000). Ironie in Printmedien. Wiesbaden: DUV.
503 Rösler, F., Friederici, A. D., Pütz, P. & Hahne, A. (1993). Event-related brain potentials while encountering semantic and syntactic constraint violations. Journal of Cognitive Neuroscience, 5, 345⫺ 362. Rubin, G. S., Becker, C. A. & Freeman, R. H. (1979). Morphological structure and its effects on visual word recognition. Journal of Verbal Learning and Behavior, 18, 757⫺767. Rumelhart, D. E. (1975). Notes on a schema for stories. In D. G. Bobrow & A. M. Collings (Hrsg.), Representation and understanding: Studies in cognitive science (pp. 211⫺236). New York: Academic Press. Rumelhart, D.E. (1980). Schemata: The building blocks of cognition. In B. Spiro, B. C. Bruce & W. F. Brewer (Eds.), Theoretical issues in reading comprehension (pp. 33⫺58). Hillsdale, NJ: Erlbaum. Rumelhart, D. E. & McClelland, J. L. (1982). An interactive activation model of context effects in letter perception: Part 2. The contextual enhancement effect and some tests of the model. Psychological Review, 89, 60⫺94. Samuel, A. G. (1989). Insights form a failure of selective adaption: Syllable-initial and syllable-final consonants are different. Perception and Psychophysics, 45, 485⫺493.
Prestin, E. (2002). Optimierung schriftlicher Kommunikation. In H. Strohner & R. Brose (Hrsg.), Kommunikationsoptimierung (pp. 67⫺78). Tübingen: Stauffenburg.
Sandra, D. (1990). On the representation and processing of compound words: Automatic access to constituent morphemes does not occur. Quarterly Journal of Experimental Psychology, 42A, 529⫺ 567.
Rayner, K., Garrod, S. & Perfetti, C. A. (1992). Discourse influences during parsing are delayed. Cognition, 45, 109⫺139.
Sanford, A. J. & Garrod, S. C. (1981). Understanding written language. Chichester: Wiley.
Rickheit, G. (1995). Verstehen und Verständlichkeit von Sprache. In B. Spillner (Hrsg.), Sprache: Verstehen und Verständlichkeit (pp. 15⫺30). Frankfurt a.M.: Lang. Rickheit, G. & Habel, C. (Eds.) (1999). Mental models in discourse processing and reasoning. Amsterdam: North-Holland. Rickheit, G. & Strohner, H. (1993). Grundlagen der kognitiven Sprachverarbeitung. Modelle, Methoden, Ergebnisse. Tübingen: Francke. Rickheit, G. & Strohner, H. (1999a). Modelle der Sprachproduktion. In T. Herrmann & W. Grabowski (Hrsg.), Sprachproduktion. Göttingen: Hogrefe. In press. Rickheit, G. & Strohner, H. (1999b). Textverarbeitung: Von der Proposition zur Situation. In A. Friederici (Hrsg.), Sprachrezeption (pp. 271⫺306). Göttingen: Hogrefe.
Sanford, A. J. & Moxey, L. M. (1995). Notes on plural reference and the scenario-mapping principle in comprehension. In G. Rickheit & C. Habel (Eds.), Focus and coherence in discourse processing (pp. 18⫺34). Berlin: de Gruyter. Schank, R. C. & Abelson, R. P. (1977). Scripts, plans, goals, and understanding. Hillsdale, NJ: Erlbaum. Schreuder, R. & Baayen, R. H. (1995). Modelling morphological processing. In L.B. Feldman (Ed.), Morphological aspects of language processing (pp. 131⫺154). Hillsdale, NJ: Erlbaum. Schreuder, R., Grendel, M., Poulisse, N., Roelofs, A. & van der Voort, M. (1990). Lexical processing, morphological complexity and reading. In D. A. Balota, G. B., Flores d’Arcais & K. Rayner (Eds.), Comprehension processes in reading (pp. 125⫺141). Hillsdale, NJ: Erlbaum.
504
IV. Sprachrezeption
Schriefers, H. (1999). Morphologie und Worterkennung. In A. Friederici (Hrsg.), Sprachrezeption (pp. 117⫺153). Göttingen: Hogrefe.
Tabossi, P. (1988). Accessing lexical ambiguity in different types of sentential context. Journal of Memory and Language, 27, 324⫺340.
Schriefers, H., Friederici, A. D. & Graetz, P. (1992). Inflectional and derivational morphology in the mental lexicon: Symmetries and asymmetries in repetition priming. Quarterly Journal of Experimental Psychology, 44A, 373⫺390.
Tabossi, P. (1991). Understanding words in context. In G. B. Simpson (Ed.), Understanding word and sentence (pp. 1⫺22). Amsterdam: North Holland.
Schriefers, H., Zwitserlood, P. & Roelofs, A. (1991). The identification of morphologically complex spoken words: Continuous processing or decomposition. Journal of Memory and Language, 30, 26⫺47. Segui, J., Dupoux, E. & Mehler, J. (1990). The role of the syllable in speech segmentation, phoneme identification and lexical access. In G. T. M. Altmann (Ed.), Cognitive models of speech processing: Psycholinguistic and computational perspectives (pp. 263⫺280). Cambridge, MA: MIT Press. Seidenberg, M. S. (1985). The time course of information activation and utilization in visual word recognition. In D. Besner, T. G. Waller & G. E. MacKinnon (Ed.), Reading research: Advances in theory and practice (Vol. 5) (pp. 199⫺252). New York: Academic Press. Seidenberg, M. S. (1990). Lexical access: Another theoretical soupstone? In D. A. Balota, G. B. Flores d’Arcais & K. Rayner (Eds.), Comprehension processes in reading (pp. 33⫺72). Hillsdale, NJ: Erlbaum. Seidenberg, M. S., Tanenhaus, M. K., Leiman, J. M. & Bienkowski, M. (1982). Automatic access of the meanings of ambiguous words in contexts: Some limitations of knowledge-based processing. Cognitive Psychology, 14, 489⫺537. Simpson, G. B. & Krueger, M. A. (1991). Selective access of homograph meanings in sentence context. Journal of Memory and Language, 30, 627⫺643. Singer, M., Graesser, A. C. & Trabasso, T. (1994). Minimal or global inference during reading. Journal of Memory and Language, 33, 421⫺441. Spivey-Knowlton, M., Trueswell, J. & Tanenhaus, M. K. (1993). Context effects in syntactic ambiguity resolution: Discourse and semantic influences in parsing reduced relative clauses. Canadian Journal of Experimental Psychology, 37, 276⫺309.
Tabossi, P., Colombo, L. & Job, R. (1987). Accessing lexical ambiguity: Effects of context and dominance. Psychological Research, 49, 161⫺167. Tabossi, P. & Zardon, F. (1993). Processing ambiguos words in context. Journal of Memory and Language, 32, 359⫺372. Taft, M. (1979). Lexical access via an orthographic code: The Basic Orthographic Syllable Structure (BOSS). Journal of Verbal Learning and Verbal Behavior, 18, 21⫺39. Taft, M. (1981). Prefix stripping revisited. Journal of Verbal Learning and Verbal Behavior, 20, 263⫺ 272. Taft, M. & Forster, K. I. (1975). Lexical storage and retrieval of prefixed words. Journal of Verbal Learning and Verbal Behavior, 14, 630⫺647. Taft, M., Hambly, G. & Kinoshita, S. (1986). Visual and auditory recognition of prefixed words. Quarterly Journal of Experimental Psychology, 38A, 351⫺366. Tanenhaus, M. K., Carlson, G. N. & Seidenberg, M. S. (1985). Do listeners compute linguistic representations? In D R. Dowty, L. Kartunnen & A. M. Zwicky (Eds.), Natural language parsing: Psycholinguistic, theoretical and computational perspectives (pp. 359⫺408). Cambridge: Cambridge University Press. Tanenhaus, M. K., Leiman, J. M. & Seidenberg, M. S. (1979). Evidence for multiple stages in the processing of ambiguous words in syntactic contexts. Journal of Verbal Learning and Verbal Behavior, 18, 427⫺440. Taylor, H. A. & Tversky, B. (1992). Spatial situation models derived from survey and route descriptions. Journal of Memory and Language, 31, 261⫺ 292. Till, R. E., Mross, E. F. & Kintsch, W. (1988). Time course of priming for associate and inference words in a discourse context. Memory and Cognition, 16, 283⫺298.
Sturt, P., Pickering, M. J. & Crocker, M. W. (2000). Search strategies in syntactic reanalysis. Journal of Psycholinguistic Research, 29/2, 183⫺194.
Trabasso, T. & Magliano, J. P. (1996). Conscious understanding during comprehension. Discourse Processes, 21, 255⫺287.
Swinney, D. A. (1979). Lexical access during sentence comprehension: (Re)consideration of context effects. Journal of Verbal Learning and Verbal Behavior, 18, 645⫺659.
Trueswell, J. C. & Tanenhaus, M. K. (1991). Tense, temporal context, and syntactic ambiguity resolution. Language and Cognitive Processes, 6, 303⫺ 338.
37. Mentale Modelle Trueswell, J. C. & Tanenhaus, M. K. (1994). Towards a constraint-based lexicalist approach to syntactic ambiguity resolution. In C. Clifton, L. Frazier & K. Rayner (Eds.), Perspectives on sentence processing (pp. 155⫺179). Hillsdale, NJ: Erlbaum. Trueswell, J. C., Tanenhaus, M. K. & Garnsey, S. M. (1994). Semantic influences on parsing: Use of thematic role information in syntactic disambiguation. Journal of Memory and Language, 33, 285⫺318. Tyler, L. K. (1990). The relationship between sentential context and sensory input: Comments on Connine’s and Samuel’s chapters. In G. T. M. Altmann (Ed.), Cognitive models of speech processing (pp. 315⫺323). Cambridge, MA: MIT Press. Tyler, L. K. & Marslen-Wilson, W. D. (1977). The on-line effect of semantic context on syntactic processing. Journal of Verbal Learning and Verbal Behaviour, 16, 683⫺692. van Berkum, J. J. A., Brown, C. M. & Hagoort, P. (1999). Early referential context effects in sentence processing: Evidence from event-related brain potentials. Journal of Memory and Language, 41, 147⫺182. van Dijk, T. A. (1987). Episodic models in discourse processing. In R. Horowitz & S. J. Samuels (Eds.), Comprehending oral and written language (pp. 161⫺196). San Diego, CA: Academic Press. van Dijk, T. A. & Kintsch, W. (1983). Strategies of discourse comprehension. London: Academic Press. van Petten, C. & Kutas, M. (1987). Ambiguous words in context: An event-related potential analysis of the time course of meaning activation. Journal of Memory and Language, 26, 188⫺208.
505 Waltz, D. L. & Pollack, J. B. (1985). Massively parallel parsing: A strongly interactive model of natural language interpretation. Cognitive Science, 9, 51⫺74. Whitney, P., Ritchie, B. G. & Crane, R. S. (1992). The effect of foregrounding on reader’s use of predictive inferences. Memory and Cognition, 20, 424⫺432. Yoshino, R. (1991). A note on cognitive maps: An optimal spatial knowledge representation. Journal of Mathematical Psychology, 35, 371⫺393. Zwaan, R. A. & Brown, C. M. (1996). The influence of language proficiency and comprehension skill on situation model construction. Discourse Processes, 21, 289⫺327. Zwaan, R. A., Langston, M. C. & Graesser, A. C. (1995). The construction of situation models in narrative comprehension: An event-indexing model. Psychological Science, 6, 292⫺297. Zwaan, R. A. & Radvansky, G. A. (1998): Situation models in language comprehension and memory. Psychological Bulletin, 123/2, 162⫺185. Zwitserlood, P. (1989). The locus of the effects of sentential-semantic context in spoken word processing. Cognition, 32, 25⫺64. Zwitserlood, P. (1994). Access to phonological form representations in language comprehension and production. In C. Clifton, L. Frazier & K. Rayner (Eds.), Perspectives on sentence processing (pp. 83⫺106). Hillsdale, NJ: Erlbaum. Zwitserlood, P. (1999). Gesprochene Wörter im Satzkontext. In A. Friederici (Hrsg.), Sprachrezeption (pp. 85⫺116). Göttingen: Hogrefe.
Elke Prestin Universität Bielefeld (Deutschland)
37. Mentale Modelle 1. 2. 3. 4. 5.
Die Theorie mentaler Modelle von Johnson-Laird Das Konstrukt des mentalen Modells in der Textverstehensforschung Forschungsperspektiven: Die Beziehung zwischen Sprachverstehen und dem Erleben einer Situation Schlussbemerkung Literatur
Mit dem Terminus mentales Modell werden in verschiedenen Bereichen der Kognitionswissenschaft unterschiedliche theoretische Kon-
strukte bezeichnet (vgl. Gentner & Stevens, 1983; Halford, 1993; Oakhill & Garnham, 1996; Rickheit & Habel, 1999; Rogers, Rutherford & Bibby, 1992). In dem vorliegendem Kapitel wird nur der Begriff des mentalen Modells, wie er in der psycholinguistischen Forschung aufgefasst wird, behandelt. In diesem Forschungsbereich geht der Begriff auf Johnson-Laird (1980, 1983) zurück, dessen „Theorie mentaler Modelle“ die Forschung zum Verstehen von (gesprochenen oder geschriebenen) Texten wesentlich beein-
506
IV. Sprachrezeption
flusst hat. Die Theorie von Johnson-Laird ist eine sehr breit angelegte Theorie der menschlichen Kognition – sie macht Aussagen zum Denken, Sprachverstehen und Bewusstsein (vgl. Johnson-Laird, 1983, 1993; JohnsonLaird & Byrne, 1991). Die Textverstehensforschung hat von Beginn an nur bestimmte Teile der Theorie berücksichtigt, und im Laufe der Jahre hat sich zudem in der Textverstehensforschung das Konstrukt des mentalen Modells so sehr gewandelt, dass es heute nur noch wenig mit dem ursprünglichen Konstrukt des mentalen Modells von Johnson-Laird zu tun hat. Im Folgenden soll zunächst die Theorie mentaler Modelle von Johnson-Laird in den für die Sprachverstehensforschung relevanten Ausschnitten dargestellt werden. Im Abschnitt 2 soll dann die Entwicklung des Konstrukts des mentalen Modells in der Textverstehensforschung nachgezeichnet werden. Dabei wird deutlich werden, dass bei dieser Entwicklung leider auch Aspekte des ursprünglichen Konstrukts verlorengegangen sind, die für die psycholinguistische Forschung wichtig und interessant sind. Auf einen besonders wichtigen Aspekt, nämlich die Beziehung zwischen Sprachverstehen und nichtsprachlicher Kognition, soll im Abschnitt 3 eingegangen werden.
1.
Die Theorie mentaler Modelle von Johnson-Laird
Wie bereits erwähnt, hat Johnson-Laird das Konstrukt des mentalen Modells nicht speziell im Hinblick auf eine Theorie des Sprachverstehens entwickelt, sondern aufgrund von Überlegungen zur menschlichen Kognition insgesamt (Johnson-Laird, 1980, 1983, 1989, 1993; Johnson-Laird & Garnham, 1980). Hier soll aber zunächst Johnson-Lairds Sprachverstehenstheorie (vgl. 1982, 1983, 1989; Johnson-Laird, Herrmann & Chaffin, 1984) und die Funktion, die mentalen Modellen in diesem Zusammenhang zugeschrieben wird, dargestellt werden und erst danach dann die Perspektive erweitert werden. 1.1. Annahmen zum Sprachverstehen Traditionell wird in der Semantik die Beziehung zwischen Sprache und Welt untersucht. Aber wenn man von einem kognitionspsychologischen Ansatz ausgeht, kann diese Beziehung – so Johnson-Laird – nicht als eine direkte Beziehung angesehen werden, sondern als eine Beziehung, die erst durch die
menschliche Kognition hergestellt wird. Die Aufgabe der kognitionspsychologischen Sprachforschung ist daher, die Beziehung zwischen den mentalen Repräsentationen sprachlicher Ausdrücke (Wörtern, Satzteilen, Sätzen) und den mentalen Repräsentationen außersprachlicher Einheiten zu bestimmen. Allerdings ergeben sich bei einem solchen Ansatz – genau wie in der traditionellen Semantik – gravierende Probleme, wenn nur der extensionale Bedeutungsaspekt berücksichtigt wird (z. B. bei Äußerungen mit Einstellungsverben wie meinen oder glauben). Es muss daher eine weitere Art von Repräsentationen postuliert werden, nämlich die der Intension sprachlicher Ausdrücke. Immer wieder betont Johnson-Laird, dass zwischen diesen beiden Arten von Repräsentationen unterschieden werden muss. Gänzlich unzureichend sei, nur die Repräsentation von semantischen Relationen zwischen Wörtern oder komplexeren sprachlichen Einheiten, also den intensionalen Bedeutungsaspekt zu berücksichtigen, wie dies bei den meisten psychologischen Theorien der Fall sei (JohnsonLaird, 1982: 306 ff., 1983: 230 ff.; JohnsonLaird et al., 1984). Die Intension eines Ausdrucks (z.B. das höchste Gebäude der Stadt) sei ja offensichtlich etwas anderes als der Gegenstand selbst, der mit diesem Ausdruck in einem konkreten Fall bezeichnet werde (Referent), und so sei auch die mentale Repräsentation der Intension des Ausdrucks nicht dasselbe wie die Repräsentation der außersprachlichen Einheit, auf die mit dem Ausdruck Bezug genommen wird. Johnson-Laird teilt die in der Linguistik vorherrschende Auffassung, dass die Kenntnis der Wahrheitsbedingungen eines (Aussage-) Satzes ein entscheidendes Element der Kenntnis der Satzbedeutung ist. Allerdings ist nach Johnson-Laird das wesentliche Resultat der Verarbeitung einer Satzäußerung nicht die interne Darstellung der Wahrheitsbedingungen des Satzes oder seines Wahrheitswerts in der gegebenen Situation. Wenn Menschen eine Äußerung hören und versuchen, sie zu verstehen, so tun sie dies meist nicht mit dem Ziel, die Wahrheitsbedingungen zu spezifizieren oder den Wahrheitswert bezüglich der gegebenen Welt zu bestimmen. Vielmehr wollen sie erfahren, was der Fall ist oder sein könnte, unter der Voraussetzung, die Äußerung ist wahr. Es sei daher anzunehmen, dass das Endresultat der Verarbeitungsprozesse beim Sprachverstehen eine Repräsentation ist, in der Sachverhalte dargestellt
37. Mentale Modelle
sind, nicht Wahrheitsbedingungen oder ein Wahrheitswert. Johnson-Lairds Sprachverstehenstheorie ist deutlich von den Überlegungen der modelltheoretischen Semantik natürlicher Sprachen beeinflusst (vgl. insbesondere JohnsonLaird, 1982, 1983: Kap.8). Die wesentlichen Annahmen seiner Theorie sind wie folgt: Bei der Sprachrezeption wird, ausgehend von der phonologischen bzw. graphemischen Repräsentation des sprachlichen Inputs, auf das im mentalen Lexikon gespeicherte Wissen über die intensionale Bedeutung der Wörter zugegriffen und eine syntaktische Analyse durchgeführt. Daraus wird eine Repräsentation der Intension des gerade rezipierten Satzes konstruiert, wobei – vermutlich – das Kompositionalitätsprinzip gilt (vgl. Johnson-Laird, 1983: 167, 182, 407). Die Repräsentation der Intension beinhaltet die Information, die es ermöglicht, bei einem gegebenen Kontext die Extensionen der Ausdrücke, aus denen der Satz besteht, in jeder möglichen Welt zu bestimmen. Als Ganzes spezifiziert die intensionale Repräsentation die Wahrheitsbedingungen des Satzes (für einen gegebenen Kontext). Sie ist daher als die Repräsentation der Proposition anzusehen. (Johnson-Laird bezeichnet diese Repräsentation deshalb meist als propositional representation). Ausgehend von dieser Repräsentation, wird dann die Repräsentation eines Ausschnitts aus einer der möglichen Welten, die den Wahrheitsbedingungen genügen, konstruiert. Diese Repräsentation ist ein mentales Modell. In einem mentalen Modell sind die außersprachlichen Entitäten durch „tokens“ dargestellt, ihre Eigenschaften durch Eigenschaften dieser tokens und die Relationen zwischen Entitäten durch Relationen zwischen diesen tokens. Anders als in der modelltheoretischen Semantik werden die Extensionen also nicht als Mengen aufgefasst. Sieht man von diesem Punkt ab, kann aber ein mentales Modell, das beim Sprachverstehen gebildet wird, als die mentale Repräsentation eines „Modells des Satzes“ i. S. der modelltheoretischen Semantik aufgefasst werden. Johnson-Laird hält es für ausgeschlossen, dass die unendliche Menge möglicher Welten mental repräsentiert werden kann, und nimmt an, dass zu jedem Satz gewöhnlich nur ein einziges mentales Modell gebildet wird. Dieses mentale Modell repräsentiert einen Ausschnitt aus einer möglichen Welt, quasi exemplarisch für die Menge der möglichen Welten, in denen der Satz wahr ist (vgl. demgegenüber das Kon-
507 strukt des semantic model von Miller, 1979). Dabei wird nicht willkürlich eine der möglichen Welten ausgewählt. Vielmehr erfolgt die Konstruktion des mentalen Modells (ausgehend von der intensionalen Repräsentation) unter Rückgriff auf Weltwissen, mit Hilfe von Standardannahmen über Kommunikation, unter Beachtung der realen Situation und unter Berücksichtigung des mentalen Modells, das zu dem unmittelbar zuvor rezipierten Satz gebildet wurde. Dank dieser zusätzlichen Informationen wird zumeist die Repräsentation eines Sachverhalts aufgebaut, der nicht nur einfach den Wahrheitsbedingungen genügt, sondern auch plausiblerweise als der vom Sprecher gemeinte Sachverhalt angesehen werden kann. Wie soeben bereits angedeutet, erfolgt die Modellbildung nicht Satz für Satz separat. Vielmehr fungiert das mentale Modell, das zu einer Satzäußerung gebildet worden ist, in der Regel als Kontext für die Interpretation der nachfolgenden Äußerung. Es erlaubt also beispielsweise die Referenzauflösung der in der Äußerung enthaltenen deiktischen Ausdrücke, die sich auf die geschilderte Welt beziehen, und der satzübergreifenden Anaphern (z. B. Hier blieb er dann stehen). Entsprechend der neuen Information wird dann das ursprüngliche Modell ergänzt oder revidiert. Ein mentales Modell integriert also die Information von mehreren Satzäußerungen, sofern der Hörer/Leser diese als Aussagen über denselben Sachverhaltskomplex interpretieren kann. Nach Johnson-Laird wird bei der Sprachrezeption allerdings nicht in jedem Fall ein mentales Modell gebildet. Wenn der Text zu unspezifisch ist oder wenn dem Hörer/Leser zu wenig Hintergrundwissen zur Verfügung steht, um einen konkreten, den Wahrheitsbedingungen entsprechenden Sachverhalt zu bestimmen, ist das Endresultat des Verarbeitungsprozesses die intensionale Repräsentation. Der Hörer/Leser verfügt dann also nur über die Information über die Wahrheitsbedingungen, repräsentiert aber keinen entsprechenden Sachverhalt (vgl. insbesondere Mani & Johnson-Laird, 1982). Dies könnte beispielsweise der Fall sein, wenn der Waschmaschinen- oder Ballontext von Bransford und Mitarbeitern ohne Zusatzinformation präsentiert wird oder wenn ein Satz wie The trip was not delayed because the bottle shattered ohne Hinweis auf den adäquaten Kontext (Schiffstaufe) geboten wird (vgl. Bransford & McCarrell, 1974). Johnson-Laird selbst geht
508 in diesem Zusammenhang allerdings nicht auf die Arbeiten dieser Forschergruppe ein. Bei einem kognitionspsychologischen Ansatz zur Referenz sprachlicher Ausdrücke sollte konsequenterweise angenommen werden, dass es sich bei den Sachverhaltsrepräsentationen, die beim Sprachverstehen aufgebaut werden, um dieselbe Art von Repräsentationen handelt, in denen Menschen generell „Ausschnitte aus der realen oder einer fiktiven Welt“ im Arbeitsgedächtnis repräsentieren. Genau dies nimmt Johnson-Laird auch an. Die beim Sprachverstehen gebildeten Sachverhaltsrepräsentationen sind von derselben Art wie die Sachverhaltsrepräsentationen, die bei dem direkten Erleben einer Situation oder bei dem gedanklichen Vergegenwärtigen einer realen oder fiktiven Situation gebildet werden. Alle mentalen Sachverhaltsrepräsentationen des Arbeitsgedächtnisses – gleich welchen Ursprungs – sind mentale Modelle. Sprachverstehen hat also im Prinzip dasselbe Resultat wie das direkte Erleben einer Situation (unbeschadet möglicher Unterschiede in der Informationsmenge): „A major function of language is thus to enable us to experience the world by proxy …“ (JohnsonLaird, 1989: 471; vgl. auch Johnson-Laird, 1983: Kap. 15, 1989: 489 f.). Ein solcher Ansatz impliziert, dass die Sprachverstehensforschung bei ihren Annahmen zu den beim Sprachverstehen gebildeten Sachverhaltsrepräsentationen auch berücksichtigen muss, welche Annahmen im Hinblick auf die nichtsprachliche Kognition plausibel sind. So leitet Johnson-Laird denn auch eine seiner wesentlichen Aussagen zu den mentalen Modellen, die beim Textverstehen gebildet werden, nicht aus Überlegungen zur Sprachrezeption, sondern zur Kognition generell ab. 1.2. Die Struktur von mentalen Modellen Johnson-Laird greift die These von Craik (1943) auf, dass Menschen Vorgänge in der Welt intern durch Symbolverarbeitung darstellen können, und zwar auch Vorgänge in neuartigen, fiktiven Bedingungskonstellationen. Dies ist nach Johnson-Laird von fundamentaler Bedeutung, denn es ermöglicht Handlungsplanung: Es kann intern erprobt werden, welches Resultat die Änderung des einen oder anderen situativen Faktors hätte. Diese interne Erprobung setzt aber voraus, dass die Verarbeitung der Symbole genauso „funktioniert“ wie die Welt (wie wir sie auffassen), und dies wiederum verlangt, dass die Struktur der Symbole mit der funktionalen
IV. Sprachrezeption
Struktur der Welt (wie wir sie auffassen) übereinstimmt. Nach Ansicht von JohnsonLaird (1983: 8 ff., 410 ff.) ist daher anzunehmen, dass die Struktur des mentalen Modells eines Sachverhalts mit der funktional relevanten Struktur, die der Mensch dem betreffenden Sachverhalt zuschreibt, übereinstimmt. Seiner Ansicht nach ist ausgeschlossen, dass Sachverhalte intern durch eine Beschreibung in einer Sprache des Geistes repräsentiert werden, also propositional kodiert sind. Denn Beschreibungen haben eine andere Struktur als die darin beschriebenen Sachverhalte, und somit kann die Verarbeitung von internen Beschreibungen auch nicht der funktionalen Struktur der Sachverhalte entsprechen. Die Verarbeitung einer propositionalen Repräsentation kann selbst nichts simulieren (vgl. auch McGinn, 1989: Kap. 3). Natürlich sei es immer möglich, mentale Repräsentationen auf der Ebene des geistigen „Maschinencodes“ als propositional kodiert zu beschreiben, aber dies sei nicht die für kognitionspsychologische Theorien relevante Ebene der Analyse (Johnson-Laird, 1983: 152 ff., 381). Wie in Abschnitt 2.1 deutlich werden wird, hat Johnson-Lairds Aussage zur Struktur mentaler Modelle in der Textverstehensforschung eine große Rolle gespielt. Sie wurde meist dahingehend interpretiert, dass mentale Modelle objektive Gegebenheiten analog im Sinne Palmers (1978) repräsentieren. Diese Interpretation ist problematisch. JohnsonLaird weist immer wieder daraufhin, dass uns die Welt als solche gar nicht zugänglich ist, sondern dass es für uns nur die Welt gibt, wie wir sie auffassen (z. B. Johnson-Laird, 1982: 59 f., 1983: 156, 402 f., 1989: 470 f.; vgl. projected world bei Jackendoff, 1983). Diese Auffassung ist es, die die Struktur von mentalen Modellen bestimmt: „Mental models […] have a structure that corresponds to the perceived or conceived structure of that state of affairs“ (Johnson-Laird et al., 1984: 311). Wenn Menschen beispielsweise gemeinhin davon ausgehen, dass es Ursachen und Wirkungen gibt und dass erstere jeweils den letzteren vorangehen, so prägt dies die Struktur mentaler Modelle, und zwar ganz unabhängig davon, ob es in der physikalischen Welt Ursachen, Wirkungen und ein zeitliches Nacheinander gibt. Darüber hinaus ist die übliche Interpretation der Struktur-Annahme von Johnson-Laird auch deshalb problematisch, weil es bei mentalen Modellen nicht um die Abbildung von beliebigen Eigenschaften oder
509
37. Mentale Modelle
mehrstelligen Relationen geht, sondern um die Abbildung der Relationen zwischen den Komponenten eines Sachverhalts, die jeweils als funktional relevant erachtet werden (relation-structure bei Craik, 1943). Zusammenfassend lässt sich das Konstrukt des mentalen Modells von JohnsonLaird in den für die Psycholinguistik relevanten Aspekten wie folgt charakterisieren: (a) Ein mentales Modell ist eine Repräsentation des Arbeitsgedächtnisses, in der ein Sachverhalt dargestellt ist. (b) Ein mentales Modell, das bei der Sprachrezeption gebildet wird, ist die Repräsentation eines Sachverhalts, der den Wahrheitsbedingungen des Satzes bzw. der Sätze des Textes genügt und der in der Regel auch weitgehend mit dem vom Textproduzenten gemeinten Sachverhalt übereinstimmt. Eine Äußerung verstanden zu haben heißt, eine solche Sachverhaltsrepräsentation gebildet zu haben. (c) Die mentalen Modelle, die beim Sprachverstehen gebildet werden, sind von derselben Art wie die Sachverhaltsrepräsentationen, die bei der nichtsprachlichen Kognition, z. B. bei dem Erleben einer Situation, gebildet werden. Es handelt sich immer um mentale Modelle. (d) Ein mentales Modell, welches den Sachverhalt A repräsentiert, besitzt eine Struktur, die mit derjenigen Struktur übereinstimmt, die als funktional relevante Struktur des Sachverhalts A aufgefasst wird. 1.3. Vergleich mit anderen Theorien Die Theorie von Johnson-Laird hebt sich von anderen psycholinguistischen Bedeutungstheorien vor allem durch die prinzipielle Unterscheidung zwischen der intensionalen Repräsentation und der Repräsentation der Referenten bzw. Sachverhalte, auf die Bezug genommen wird, ab. Viele Theorien, insbesondere die älteren Theorien, richten sich nur auf die Repräsentation von Sinnrelationen zwischen Wörtern und von Beziehungen zwischen Propositionen, also auf die Repräsentation von Intensionen (z. B. Kintsch & van Dijk, 1978; Norman & Rumelhart, 1975). Doch auch bei Theorien, in denen explizit angenommen wird, dass beim Textverstehen Sachverhaltsrepräsentationen gebildet werden (z. B. Gernsbacher, 1990; Sanford & Garrod, 1981, 1998; Zwaan & Radvansky,
1998), fehlt zumeist eine derartige Unterscheidung. Eine Ausnahme bildet die Theorie von van Dijk und Kintsch (1983). In dieser Theorie wird zwischen einer „Textbasis“, die die im Text ausgedrückten Propositionen repräsentiert, und einem „Situationsmodell“, das den im Text beschriebenen Sachverhalt darstellt, unterschieden. Das Situationsmodell gilt – wie das mentale Modell in Johnson-Lairds Theorie – als referentielle Repräsentation. Van Dijk und Kintsch (1983) machen allerdings keine genaueren Aussagen über die Beziehung zwischen Situationsmodellen und den Sachverhaltsrepräsentationen, die bei dem tatsächlichen Erleben von Situationen gebildet werden. Johnson-Lairds Theorieansatz hat viel Ähnlichkeit mit der linguistischen Diskursrepräsentationstheorie von Kamp und Reyle (1993). Diese Theorie, zu der inzwischen auch eine prozessorientierte Variante entwickelt wurde (Gordon & Hendrick, 1998), ist hinsichtlich der Analyse sprachlicher Ausdrücke allerdings weitaus präziser als die Theorie mentaler Modelle, und so kann man sich fragen, welchen Wert Johnson-Lairds Theorie für die psycholinguistische Forschung noch hat. Das, was Johnson-Lairds Theorie von der Theorie von Kamp und Reyle (1993) – wie auch von der Theorie von van Dijk und Kintsch (1983) – wesentlich unterscheidet, sind die Aussagen über die Beziehung zwischen Sprachverstehen und nichtsprachlicher Kognition. Auf die für die psycholinguistische Forschung interessanten Implikationen dieser Aussagen wird in Abschnitt 3 eingegangen werden.
2.
Das Konstrukt des mentalen Modells in der Textverstehensforschung
2.1. Die erste Dekade: Der empirische Nachweis von Sachverhaltsrepräsentationen Johnson-Lairds Theorie mentaler Modelle gewann in den 80er Jahren in der Textverstehensforschung rasch große Bedeutung. Das Interesse galt dabei allerdings nicht so sehr der linguistisch-semantischen Fundierung der Theorie. Vielmehr wurde die Theorie primär als Alternative zu den damals vorherrschenden Textpropositionstheorien gesehen. In diesen Theorien (z. B. Kintsch & van Dijk, 1978; McKoon & Ratcliff, 1980) wurde angenommen, dass Textverstehen im Wesentli-
510 chen darin besteht, eine Repräsentation der im Text ausgedrückten Propositionen und ihrer Beziehungen aufzubauen. Zwar hatten schon zu Beginn der 70er Jahre Bransford und Mitarbeiter (z. B. Bransford, Barclay & Franks 1972; Bransford & McCarrell, 1974) eine solche Auffassung kritisiert und betont, dass Sätze oder Texte keine Bedeutung „enthalten“, die ihnen „entnommen“ werden kann, sondern dass Sprachverstehen ein konstruktiver Prozess ist, der darin besteht, unter Rückgriff auf Weltwissen gedanklich eine Situation zu konstruieren, auf die die sprachliche Äußerung bezogen werden kann. Aber Bransford und Mitarbeiter waren in Bezug auf ihre repräsentationalen und prozessualen Annahmen so vage geblieben, dass ihr konstruktivistischer Ansatz, der sicherlich manchem Forscher eigentlich interessant erschien, nicht mit den viel präziseren Textpropositionstheorien konkurrieren konnte. Die Theorie mentaler Modelle konnte nun jedoch als weniger radikale und kognitionspsychologisch ausgearbeitete Theorie des konstruktivistischen Ansatzes angesehen werden: Einen Text zu verstehen heißt, aufbauend auf eine Repräsentation der Textpropositionen und unter Rückgriff auf Weltwissen und Kontextinformation, eine Repräsentation des beschriebenen Sachverhalts zu bilden. Dieselbe Aussage war auch aus der Theorie von van Dijk und Kintsch (1983) abzuleiten, und so wurden diese Theorie und die Theorie mentaler Modelle als weitgehend äquivalent angesehen. Dementsprechend wurden auch das Konstrukt des mentalen Modells und das des Situationsmodells als sehr ähnlich aufgefasst. Wenn überhaupt zwischen ihnen differenziert wurde, so verband sich mit dem Begriff des mentalen Modells vor allem die Annahme eines analogen Repräsentationsformat (vgl. Abschnitt 1.2), während bei dem Konstrukt des Situationsmodells eher die Reichhaltigkeit der darin enthaltenen Information im Vordergrund stand. In der empirischen Forschung ging es nun darum zu prüfen, ob beim Textverstehen tatsächlich mentale Modelle bzw. Situationsmodelle gebildet werden. Für die empirische Differenzierung zwischen diesen Repräsentationen und Textpropositionsrepräsentationen wurden im Wesentlichen zwei Kriterien verwendet. Das eine Kriterium war das Repräsentationsformat, wobei man sich auf Johnson-Lairds (1983) Aussage zur Struktur von mentalen Modellen stützte (zur üblichen Interpretation der Aussage vgl. Abschnitt 1.2).
IV. Sprachrezeption
Mit experimentellen Methoden, die im weiten Sinne als Prüfung von Priming-Effekten auf den Rückgriff auf eine zuvor im Text erwähnte Entität angesehen werden können, versuchte man zu klären, ob die zu einem Text gebildete Repräsentation strukturell eher dem beschriebenen Sachverhalt oder eher der Propositionsstruktur des Textes entspricht (z. B. Franklin & Tversky, 1990; Glenberg, Meyer & Lindem, 1987; Morrow, Greenspan & Bower, 1987; Wagener & Wender, 1985). Als Beispiel sei ein Experiment aus der Untersuchung von Glenberg et al. (1987) geschildert, das in diesem Zusammenhang oft zitiert wird. In dem Experiment wurden den Probanden kurze narrative Texte satzweise schriftlich dargeboten. Wie in der experimentellen kognitionspsychologischen Textverstehensforschung üblich, handelte es sich dabei um Texte, die eigens für das Experiment konstruiert worden waren und fiktive Geschehnisse schilderten (vgl. Text (1a)⫺(1c)). Jeden Text gab es in zwei Versionen, wobei jedem Probanden aber nur eine Version dargeboten wurde. Die beiden Versionen eines Texts unterschieden sich nur geringfügig in der sprachlichen Oberfläche (vgl. (1b): put on/ took off) und gar nicht in der Propositionsstruktur, hingegen deutlich in Bezug auf die räumliche Struktur des geschilderten Sachverhalts am Ende der Episode: In dem einen Fall war eine sogenannte „kritische Entität“ (hier: sweatshirt) sehr nahe bei dem Protagonisten, in dem anderen Fall war sie weit von ihm entfernt. (1) a. John was preparing for a marathon in August. b. After doing a few warm-up exercises, he put on/took off his sweatshirt and went jogging. c. He jogged halfway around the lake without too much difficulty. Geht man davon aus, dass ein mentales Modell die räumliche Struktur des geschilderten Sachverhalts analog abbildet und dass es gewöhnlich so organisiert ist, dass sich der Protagonist im Fokus befindet, so sollte nach der Rezeption des Satzes (1c) die kritische Entität (sweatshirt) mental schneller verfügbar sein, wenn die Version mit put on als wenn die Version mit took off gelesen wurde. Das Ergebnis einer entsprechenden Prüfung mit der Wortwiedererkennungsmethode entsprach dieser Erwartung. Das zweite Kriterium basierte auf der Überlegung, dass in einem mentalen Modell
37. Mentale Modelle
bzw. Situationsmodell, das zu einem Text aufgebaut wird, auch solche Eigenschaften des geschilderten Sachverhalts repräsentiert sein sollten, die im Text nicht explizit beschrieben wurden, aber einem Sachverhalt der geschilderten Art notwendig oder gewöhnlich eigen sind (z. B. bestimmte Relationen zwischen den Elementen). Entsprechend wurde untersucht, inwieweit Probanden nach der Textrezeption bei einer Wiedererkennungsprüfung noch zwischen Aussagen, die der Text tatsächlich enthielt, und Aussagen über solche inferierbaren Eigenschaften unterscheiden konnten (z. B. Garnham, 1981; Mani & Johnson-Laird, 1982). Zusammengenommen erbrachten die Untersuchungen jener Jahre recht überzeugende Evidenz dafür, dass zu einem Text eine Repräsentation gebildet werden kann, deren Informationsgehalt und Struktur nicht den propositionalen Gehalt des Texts wiedergibt, sondern die Eigenschaften des geschilderten Sachverhalts (für eine Übersicht über die Befunde vgl. Dutke, 1998). Damit war das Konstrukt des mentalen Modells bzw. Situationsmodells in der Textverstehensforschung etabliert. So wichtig diese Untersuchungen für die Entwicklung der Textverstehensforschung waren, so hatte doch die ausschließliche Konzentration auf den Nachweis von mentalen Modellen bzw. Situationsmodellen auch problematische Konsequenzen. Erstens achtete man bei der Wahl der Untersuchungsmethoden kaum darauf, ob die experimentelle Situation in etwa einer „normalen“ Textrezeptionsbedingung entsprach. Zweitens beschränkte sich die Forschung – primär aus methodischen Gründen – fast ausschließlich auf die Untersuchung der Repräsentation raumbezogener Informationen. Denn um nachweisen zu können, dass nicht (nur) propositionale Repräsentationen, sondern (auch) Sachverhaltsrepräsentationen gebildet werden, mussten Effekte der Variation der geschilderten Sachverhalte von Effekten der Variation des propositionalen Gehalts bzw. der propositionalen Struktur getrennt werden können, und zu diesem Zweck eigneten sich Schilderungen von räumlichen Relationen am besten. Drittens wurde in dieser Phase der Forschung die Theoriebildung vernachlässigt. Man beschränkte sich darauf, plausible Kriterien für die empirische Differenzierung zwischen Textpropositionsrepräsentationen und Sachverhaltsrepräsentationen zu finden. Darüber hinaus wurde kaum über die bei der
511 Textrezeption ablaufenden Prozesse oder über die Funktion der beiden Arten von Repräsentationen für das Textverstehen diskutiert. Die ursprüngliche theoretische Begründung für die These, dass beim Textverstehen mentale Modelle (bzw. Situationsmodelle) aufgebaut werden, geriet in Vergessenheit. 2.2. Die zweite Dekade: Vom Nachweis zur Erforschung Anfang der 90er Jahre begann sich die Forschung zu mentalen Modellen bzw. Situationsmodellen zu wandeln. Dabei spielten verschiedene Faktoren eine Rolle – ein gewisser Überdruss an immer weiteren Belegen für mentale Modelle bzw. Situationsmodelle, Unzufriedenheit mit der inhaltlichen Beschränkung auf raumbezogene Information und der Wunsch, nun den Aufbau und die Veränderung von mentalen Modellen bzw. Situationsmodellen genauer zu untersuchen. Nicht unbedeutend für die weitere Entwicklung der Forschung war aber wohl auch eine Arbeit von McKoon und Ratcliff (1992), die sich gegen den konstruktivistischen Ansatz richtete. McKoon und Ratcliff (1992) wiesen daraufhin, dass die bisherigen Untersuchungen höchstens gezeigt hätten, dass Leser/Hörer zu einem Text Sachverhaltsrepräsentationen bilden können. Es gebe aber keinerlei empirische Evidenz dafür, dass solche Repräsentationen bei der Textrezeption automatisch gebildet werden. Das Bilden einer „full representation of the real-life situation described by the text“ (S. 458) sei daher wohl kaum Bestandteil des Textverstehens im eigentlichen Sinne, sondern bestenfalls das Resultat optionaler Verarbeitungsstrategien, die nur bei bestimmten Zielsetzungen vom Leser/Hörer verwendet werden. Normalerweise werde bei der Textrezeption lediglich eine Repräsentation der expliziten Textaussagen gebildet und nur in minimalem Ausmaß zusätzliche Information inferiert. Die Kritik von McKoon und Ratcliff (1992) basierte zwar z. T. offensichtlich auf Missverständnissen, gab aber doch Anstoß zum Nachdenken. Das Argument, es sei bisher nicht gezeigt worden, dass bei der Textrezeption „automatisch“ Sachverhaltsrepräsentationen gebildet werden, traf natürlich nicht, denn der konstruktivistische Theorieansatz besagte ja nur, dass das Verstehen eines Texts notwendig das Bilden einer Sachverhaltsrepräsentation beinhaltet, und niemand hatte die Ansicht vertreten, dass Textverstehen automatisch, ohne Bemühen erfolgt. Aber auf
512 der anderen Seite musste doch zugegeben werden, dass die Sachverhaltsrepräsentationen, die in den bisherigen Experimenten nachgewiesen worden waren, möglicherweise tatsächlich das Produkt von speziellen Behaltensstrategien oder anderen Verarbeitungsprozessen waren, die mit Textverstehen im engeren Sinne wenig zu tun haben. In einigen Experimenten waren die Probanden ausdrücklich instruiert worden, sich die Textinformation gut einzuprägen, oder die Messungen waren erst geraume Zeit nach der Textdarbietung vorgenommen worden. In anderen Experimenten waren die Texte oder die dazu gestellten Aufgaben so geartet gewesen, dass die kritische Information (meistens raumbezogene Information) deutlich im Vordergrund stand, so dass die Probanden bemerken mussten, um welche Information es in dem Experiment ging. Tatsächlich gab es im Grunde nur zwei oder drei Untersuchungen, gegen die diese Einwände nicht vorgebracht werden konnten (z. B. die in Abschnitt 2.1 geschilderte Untersuchung von Glenberg et al., 1987). In der Folgezeit achtete man nun mehr als früher darauf, die Untersuchungsbedingungen so zu gestalten, dass sie den Textrezeptionsbedingungen außerhalb des Labors möglichst nahe kamen und die Ergebnisse somit Aufschluss über „naturalistic text comprehension“ (vgl. van Oostendorp & Zwaan, 1994) geben konnten. Darüber hinaus setzte man sich aber auch genauer mit der Frage auseinander, was Textverstehen eigentlich ausmacht (Foertsch & Gernsbacher, 1994) und inwieweit das Bilden einer Sachverhaltsrepräsentation tatsächlich als essentieller Bestandteil des Textverstehens anzusehen ist. Es ging nun also um die genauere Bestimmung der Bedingungen, unter denen mentale Modelle bzw. Situationsmodelle gebildet werden. Die Ergebnisse einiger Untersuchungen – weiterhin zur Repräsentation raumbezogener Information – deuteten daraufhin, dass es wesentlich von der Aufgabenstellung und anderen Rezeptionsbedingungen abhängt, ob diese Information als Sachverhaltsaspekt repräsentiert wird oder nicht (z. B. O’Brien & Albrecht, 1992; Zwaan & van Oostendorp, 1994). Manche Forscher zogen aus diesem Befund den Schluss, dass der Aufbau mentaler Modelle während des Textverstehens wohl tatsächlich nur ein optionaler Prozess ist (z. B. Morrow, 1994; Zwaan & van Oostendorp, 1994). Dieser Schluss ist aber nicht zwingend. Denn in den Untersuchungen war ja lediglich die Re-
IV. Sprachrezeption
präsentation eines einzigen Sachverhaltsaspekts – nämlich der räumlichen Relationen – geprüft worden, so dass aus den negativen Ergebnissen nicht gefolgert werden muss, dass die Textrezipienten überhaupt keine Sachverhaltsrepräsentation gebildet hatten. Dies gilt umso mehr, als eine Untersuchung von Zwaan, Magliano und Graesser (1995) darauf hindeutet, dass Leser raumbezogenen Textinformationen weniger Aufmerksamkeit schenken als beispielsweise Textinformationen über zeitliche oder kausale Beziehungen. Allerdings führt diese Überlegung zu einem anderen wichtigen Fragenkomplex, der ebenfalls schon in der Kritik von McKoon und Ratcliff (1992) angesprochen worden war: Die Selektion der Information, die ein mentales Modell bzw. Situationsmodell enthält. Der Einwand von McKoon und Ratcliff (1992), es gebe keine empirischen Belege dafür, dass bei der Textrezeption „a full representation of the real-life situation“ gebildet werde, ging zwar ins Leere, denn niemand hatte ja behauptet, dass ein mentales Modell bzw. Situationsmodell eine Situation realistisch in allen Details abbildet. Aber der Einwand deckte doch ein recht gravierendes Problem auf: Es war eigentlich unklar, nach welchen Prinzipien die Information für eine Sachverhaltsrepräsentation ausgewählt wird. Nun erschien die Frage, mit der man sich bisher beschäftigt hatte – nämlich, ob Sachverhaltsrepräsentationen gebildet werden – viel zu grob. Zu klären war vielmehr, welche Aspekte des beschriebenen Sachverhalts in Abhängigkeit von welchen Faktoren zu welchem Zeitpunkt während der Textrezeption mental repräsentiert werden. In der Folgezeit erweiterte sich daher das Themenspektrum der Forschung beträchtlich. Neben der Repräsentation von räumlichen Relationen wurde nun auch die Repräsentation von zeitlichen und kausalen Beziehungen sowie von den Überzeugungen, Zielen und Emotionen des Protagonisten untersucht. Inzwischen liegen zahlreiche experimentelle Befunde vor, die detailliert Auskunft darüber geben, wann und wie diese Informationen in Abhängigkeit von der Textstruktur und den expliziten Textinformationen mental repräsentiert werden (vgl. die Übersichten von Dutke, 1998, und Zwaan & Radvansky, 1998). Als theoretischer Bezugsrahmen für die vielfältigen experimentellen Befunde wurde von Zwaan, Graesser und Mitarbeitern das event-indexing model vorgeschlagen (Zwaan, Langston, & Graesser,
513
37. Mentale Modelle
1995; Zwaan, Magliano & Graesser, 1995; vgl. auch Zwaan & Radvansky, 1998). Dabei handelt es sich um ein propositionales Netzwerkmodell. Die Autoren nehmen an, dass die im Text geschilderten Ereignisse vom Leser/Hörer mental in „Ereignisknoten“ repräsentiert werden, die bezüglich der fünf Dimensionen „handelnde Person“, „Ort“, „Zeit“, „Ursache“ und „Intention“ indiziert werden. Je größer die Zahl von Indizes, hinsichtlich derer zwei Ereignisknoten übereinstimmen, desto stärker ist die Verbindung zwischen den Knoten, d. h. desto enger sind die entsprechenden Ereignisse mental miteinander assoziiert. Mit der Veränderung der Fragestellung ging allerdings ein Substanzverlust des Konstrukts des mentalen Modells (wie auch des Konstrukts des Situationsmodells) einher. Dies lag u. a. daran, dass die Charakterisierung von mentalen Modellen als analoge Repräsentationen (von objektiven Sachverhalten) bei den meisten Sachverhaltsaspekten, die nun interessierten, keinen Sinn mehr machte. Was soll es schon heißen, dass Kausalbeziehungen nicht „propositional“, sondern „analog“ repräsentiert werden? Was ist eine „analoge“ Abbildung der Ziele oder der Emotionen des Protagonisten? Es wurde daher auf Aussagen zur Struktur von mentalen Modellen verzichtet. Hinzu kam, dass es nun ohnehin nicht mehr so notwendig wie früher erschien, im Vorab Annahmen über die Charakteristika von Sachverhaltsrepräsentationen zu machen, denn es sollte ja gerade erst untersucht werden, welche Sachverhaltsaspekte unter welchen Bedingungen in welcher Weise repräsentiert werden. So wurde in der Forschung immer weniger Wert darauf gelegt, mentale Modelle bzw. Situationsmodelle zu definieren und Angaben über prinzipielle und empirisch prüfbare Unterschiede zwischen diesen Repräsentationen und Repräsentationen von Textpropositionen zu machen. Heute bezeichnen die Termini mentales Modell und Situationsmodell, die inzwischen synonym verwendet werden, nur noch „eine Repräsentation dessen, wovon der Text handelt“, und es wird allgemein zugestanden, dass diese Information propositional kodiert sein kann. Zwar wird immer noch betont, dass eine solche Repräsentation von einer ganz anderen Art sei als eine Repräsentation der Textpropositionen, denn bei letzterer handele es sich ja nur um eine „Repräsentation des Textes“. Aber woran der Unterschied empirisch festgemacht werden könnte,
wird nicht gesagt. Dies gilt auch für das zuvor erwähnte event-indexing model. Zusammenfassend lässt sich sagen, dass das Konstrukt des mentalen Modells bzw. Situationsmodells, wie es in der gegenwärtigen Textverstehensforschung aufgefasst wird, nur noch wenig mit dem Begriff des mentalen Modells von Johnson-Laird (1982, 1983) zu tun hat. Bei der Charakterisierung des Konstrukts spielt heute die Unterscheidung zwischen Intension und Extension keine Rolle mehr, mentale Modelle bzw. Situationsmodelle werden als Beschreibungen in einer inneren Sprache aufgefasst, und die Beziehung zur Welt bzw. zu dem, was sich in der Wahrnehmung und höheren Kognition als Welt darstellt, wird nicht spezifiziert.
3.
Forschungsperspektiven: Die Beziehung zwischen Sprachverstehen und dem Erleben einer Situation
Nach Johnson-Laird (1983) sind die beim Sprachverstehen aufgebauten mentalen Modelle und die mentalen Modelle, die beim unmittelbaren Erleben von Situationen gebildet werden, von derselben Art, d. h. funktional äquivalent. Diese These hat in der Textverstehensforschung kaum Beachtung gefunden. Bis heute wurde in der Textverstehensforschung die Beziehung zwischen Sprachverstehen und Wahrnehmung praktisch nicht thematisiert (vgl. aber Fincher-Kiefer, 2001; Zwaan, Stanfield & Yaxley, 2002). Dies mag damit zusammenhängen, dass es in der Kognitiven Psychologie traditionell eine tiefe Kluft zwischen der Forschung zu den höheren geistigen Funktionen auf der einen Seite und der Forschung zur Wahrnehmung und Handlungssteuerung auf der anderen Seite gibt (zur Kritik vgl. Barsalou, 1999a). Doch die Textverstehensforschung muss diese Kluft überwinden und eine Theorie entwickeln, die spezifiziert, wie die sprachlich vermittelte Information zu einem Sachverhalt und Information, die sich aus der unmittelbaren Wahrnehmung einer Situation ergibt, kognitiv miteinander in Verbindung gebracht werden. Denn ohne eine Theorie zu diesem Teil der kognitiven Architektur können über wesentliche Aspekte sprachlicher Kommunikation keine Aussagen gemacht werden – es bliebe z. B. unklar, wie sprachlich vermittelte Information die Auffassung einer erlebten Situation beeinflussen und für die Handlungspla-
514 nung und -steuerung genutzt werden kann. Unter den verschiedenen möglichen Thesen, die als Ausgangspunkt der Theoriebildung gewählt werden könnten, ist Johnson-Lairds (1983) Äquivalenz-These eine der radikalsten. Die These besagt zwar nicht, dass bei dem Verstehen der Beschreibung eines Sachverhalts exakt die gleiche Repräsentation aufgebaut wird wie bei der direkten Wahrnehmung des entsprechenden Sachverhalts (nach Johnson-Laird werden z. B. im erstgenannten Fall meist mehr konzeptuelle Aspekte, im letztgenannten Fall mehr physikalische Aspekte repräsentiert). Aber sie impliziert die Annahme, dass ein Sachverhaltsaspekt, der in beiden Fällen repräsentiert wird (z. B. räumliche Relationen), in beiden Fällen im selben mentalen Subsystem repräsentiert wird. Mit anderen Worten: Es sind dieselben mentalen Subsysteme, in denen beim Textverstehen und beim unmittelbaren Erleben mentale Modelle gebildet werden. Die Äquivalenz-These ist für die psycholinguistische Forschung in zweierlei Hinsicht besonders interessant: Zum einen hat die These erhebliche Implikationen für die Hypothesenbildung zu den mentalen Modellen, die beim Textverstehen gebildet werden. Zum anderen liefert die These eine konzeptionelle Basis für Untersuchungen zum situierten Sprachverstehen. Wenn davon ausgegangen wird, dass das Resultat des Verstehens einer sprachlichen Äußerung eine Repräsentation ist, die der Repräsentation einer tatsächlich erlebten Situation äquivalent ist, sind die Befunde der Wahrnehmungsforschung und anderer kognitionswissenschaftlicher Forschungsbereiche, die sich mit der Repräsentation von erlebten Situationen beschäftigen, als eine Restriktion für die Hypothesenbildung zu den beim Sprachverstehen gebildeten mentalen Modellen anzusehen. Hypothesen, die nicht zu den einschlägigen Befunden der nichtsprachlichen Kognitionsforschung passen, sind von vornherein wenig glaubwürdig. So hätte z. B. die Hypothese, dass die beim Sprachverstehen gebildeten mentalen Modelle die objektiven, physikalischen Merkmale eines geschilderten Sachverhalts analog abbilden (vgl. Abschnitt 1.2), von vornherein als wenig aussichtsreich ausgeschieden werden können. Denn bei der Wahrnehmung werden keine wirklichkeitsgetreuen Abbildungen von Sachverhalten erzeugt. Die Wahrnehmungs-, Aufmerksamkeits- und Raumkognitionsforschung zeigen beispielsweise, dass es von der Aufmerksamkeitsverteilung abhängt, welcher
IV. Sprachrezeption
Raumausschnitt in welchem Detaillierungsgrad repräsentiert wird, dass Perzepte eine Figur/Grund-Gliederung beinhalten, dass Szenen perspektivisch repräsentiert werden (d. h. von einem bestimmten Beobachterstandpunkt aus) und dass räumliche Distanzen zwischen Objekten in Abhängigkeit von Landmarken und konzeptuellen Grenzen zwischen Gebieten „verzerrt“ repräsentiert werden. Die Tatsache, dass inzwischen die gleichen Prinzipien der Repräsentation auch für die beim Textverstehen gebildeten mentalen Modelle gefunden wurden, spricht für die Äquivalenz-These. Positiv gewendet, impliziert die These, dass die Befunde zur Wahrnehmung und zu anderen Bereichen der nichtsprachlichen Kognition dazu genutzt werden können, um aussichtsreiche Hypothesen zu den beim Textverstehen gebildeten mentalen Modellen (inkl. der Repräsentation konzeptueller, motivationaler und emotionaler Aspekte) zu entwickeln. Zur Illustration sei eine Hypothese zur Repräsentation von im Text beschriebenen Ereignissen genannt. Untersuchungen zur sogenannten implied motion (vgl. Bertamini, 1993; Freyd, 1993; Verfaillie & d’Ydewalle, 1991) deuten daraufhin, dass Menschen dazu tendieren, Dinge als dynamische Strukturen aufzufassen und die jeweils zu erwartende Veränderung bereits in der mentalen Repräsentation zu antizipieren; dabei wird eine kontinuierliche Veränderung eines Sachverhalts offenbar dynamisch repräsentiert, d. h. die kontinuierliche Veränderung wird durch eine entsprechende Veränderung der Repräsentation selbst mental „simuliert“ (Freyd, 1993). Geht man von diesen Befunden aus, erscheint es denkbar, dass ein im Text beschriebenes Geschehen nicht durch eine statische propositionale Repräsentationsstruktur mental dargestellt wird, wie dies z. B. im event-indexing model von Zwaan et al. (1995; vgl. Abschnitt 2.2) angenommen wird, sondern dynamisch repräsentiert wird (vgl. auch Johnson-Laird, 1983: 10, 423). Da dynamische Repräsentationen per definitionem zeitlich gerichtet sind und nach allgemeiner Auffassung einen antizipatorischen Charakter haben, ergeben sich aus dieser Hypothese interessante Überlegungen zur Bedeutung des Ikonizitätsprinzips von Ereignisschilderungen. Aus der Hypothese ergibt sich auch eine Reihe von neuen Fragen, so z. B. die Frage, wie die Granularität einer Ereignisschilderung (d. h. die Detailliertheit der Schilderung in Bezug auf die Unterereignisse
515
37. Mentale Modelle
des Gesamtereignisses) die Wahl des zeitlichen „Maßstabs“ der mentalen Simulation bestimmt und – damit zusammenhängend – welchen Effekt ein Wechsel der Granularitätsebene der Beschreibung (vgl. Textbeispiel (2)) auf das Verstehen hat. (2) Er ging zum Hauptgebäude der Uni, fuhr mit dem Fahrstuhl in den zweiten Stock und holte seine Immatrikulationsbescheinigung ab. Dann absolvierte er sein Psychologie-Studium mit großem Engagement. Die Äquivalenz-These impliziert aber nicht nur, dass für beschriebene und direkt erlebte Sachverhalte dieselben Repräsentationsprinzipien gelten. Bei einer kognitiven Architektur, bei der sprachlich vermittelte Information und die aus dem Erleben einer Situation entstammende Information auf dieselben mentalen Subsysteme projiziert werden, ist auch zu erwarten, dass die Textrezeption und die Wahrnehmung der realen Situation, in der sich der Hörer/Leser gerade befindet, u. U. miteinander interagieren. Mentale Subsysteme haben eine begrenzte Kapazität, und so ist als negative Konsequenz einer solchen kognitiven Architektur mit Interferenzeffekten zu rechnen: Die Verarbeitung von Textinformation und die Verarbeitung von Information aus der realen Situation, in der sich der Hörer/Leser befindet, können einander u. U. stören. Als Beispiel sei ein Interferenzeffekt genannt, bei dem die Modalität der Textdarbietung eine Rolle spielt. Geht man von der Äquivalenz-These aus, so ist zu vermuten, dass die räumlichen Aspekte eines geschilderten Sachverhalts im visuo-spatialen Arbeitsgedächtnis repräsentiert werden (vgl. Fincher-Kiefer, 2001; Glenberg & Langston, 1992). Nach Befunden zu diesem Teil des Arbeitsgedächtnisses (Baddeley, 1986; Logie, 1995) wäre dann allerdings zu erwarten, dass die Repräsentation dieser Sachverhaltsaspekte behindert wird, wenn bei der Textrezeption zugleich eine Tätigkeit durchgeführt werden muss, bei der räumliche Information über die reale Situation repräsentiert werden muss. Beim Lesen eines Textes muss aber genau eine solche Tätigkeit gleichzeitig durchgeführt werden – nämlich die Steuerung der für das Lesen notwendigen Blickbewegungen. Da beim Hören eines Textes hingegen gewöhnlich keine räumliche Tätigkeit durchgeführt werden muss, ergibt sich die Hypothese, dass es beim Lesen eines Textes schwerer fällt als beim Hören, die räumlichen Aspekte
des geschilderten Sachverhalts mental zu repräsentieren. Untersuchungsergebnisse von Kaup, Kelter, Habel und Clauser (1997) stützen diese Hypothese. Interferenzeffekte der angesprochenen Art sind allerdings ein geringer Preis für den großen Vorteil, den eine kognitive Architektur der hier postulierten Art hat – nämlich den Vorteil, dass Informationen, die denselben Sachverhalt betreffen, aber aus verschiedenen Quellen stammen (Sprache, Wahrnehmung) unmittelbar miteinander verschmolzen werden. Eine unvollständige sprachliche Angabe zu einem Sachverhalt kann durch die aus der Wahrnehmung stammende Information ergänzt werden, und die Repräsentation eines wahrgenommenen Sachverhalts kann durch sprachliche vermittelte Information angereichert werden. Diese Möglichkeit der Verschmelzung der Informationen aus verschiedenen Quellen ist z. B. im Hinblick auf die Informationsintegration von Text und Bild wichtig (vgl. Kap. 43). Aber ihre eigentliche Bedeutung liegt wohl darin, dass sie für situierte Kommunikation günstig ist: Der Hörer muss keinen besonderen „Übersetzungs“Prozess durchführen, um die Aussagen des Gesprächspartners zur gegebenen Situation mit der eigenen Repräsentation der gegebenen Situation in Kontakt zu bringen. Die kognitionspsychologische Textverstehensforschung hat sich bisher kaum mit den Verstehensprozessen bei situierter Kommunikation beschäftigt (zur Kritik vgl. Barsalou, 1999b). Johnson-Lairds These (1983), dass sprachliche und nichtsprachliche Information in Hinsicht auf den Aufbau von Sachverhaltsrepräsentationen äquivalent sind, könnte ein Ausgangspunkt für die Erforschung dieses Themas sein.
4.
Schlussbemerkung
Die Theorie mentaler Modelle von JohnsonLaird (1983) hat die Entwicklung der Textverstehensforschung entscheidend beeinflusst. Das Potential der Theorie wurde dabei aber nicht ausgeschöpft. Neben der in Abschnitt 3 erörterten Äquivalenz-These, die zweifellos das wichtigste noch ungenutzte Potential darstellt, enthält die Theorie einige interessante Aussagen zum Informationsgehalt von mentalen Modellen und zu den Bedingungen ihrer Konstruktion. Die Theorie mentaler Modelle sollte also nicht als überholt betrachtet werden. Allerdings muss auch
516
IV. Sprachrezeption
ihre Beschränkung gesehen werden: Die Theorie macht im Grunde nur Aussagen über das Verstehen der deskriptiven Bedeutung sprachlicher Ausdrücke und die mentale Repräsentation von Äußerungsbedeutungen; der kommunikative Sinn sprachlicher Äußerungen wird nicht berücksichtigt. Wenn die Verstehensprozesse bei der sprachlichen Kommunikation insgesamt modelliert werden sollen, müsste das Konstrukt des mentalen Modells mit Konzepten der Pragmatik und sozialen Interaktion in Zusammenhang gebracht werden. Ob eine solche Verknüpfung möglich ist und wie sie im Einzelnen aussehen könnte, ist gegenwärtig noch recht unklar.
5.
Literatur
Baddeley, A. (1986). Working memory. Oxford: Clarendon Press. Barsalou, L. W. (1999a). Perceptual symbol systems. Behavioral and Brain Sciences, 22, 577⫺609. Barsalou, L. W. (1999b). Language comprehension: Archival memory or preparation for situated action? Discourse Processes, 28, 61⫺80. Bertamini, M. (1993). Memory for position and dynamic representations. Memory & Cognition, 21, 449⫺457. Bransford, J. D., Barclay, J. R. & Franks, J. J. (1972). Sentence memory: a constructive versus interpretative approach. Cognitive Psychology, 3, 193⫺209. Bransford, J. D., & McCarrell, N. S. (1974). A sketch of a cognitive approach to comprehension: Some thoughts about understanding what it means to comprehend. In W. B. Weimer & D. S. Palermo (Eds.), Cognition and the symbolic processes (pp. 189⫺229). New York: Wiley. Craik, K. (1943). The nature of explanation. Cambridge: Cambridge University Press. van Dijk, T. A. & Kintsch, W. (1983). Strategies of discourse comprehension. New York: Academic Press. Dutke, S. (1998). Zur Konstruktion von Sachverhaltsrepräsentationen beim Verstehen von Texten: 15 Jahre nach Johnson-Lairds Mental Models. Zeitschrift für Experimentelle Psychologie, 45, 42⫺59. Fincher-Kiefer, R. (2001). Perceptual components of situation models. Memory & Cognition, 29, 336⫺343. Foertsch, J. & Gernsbacher, M. A. (1994). In search of complete comprehension: Getting „mini-
malists“ to work. Discourse Processes, 18, 271⫺ 296. Franklin, N. & Tversky, B. (1990). Searching imagined environments. Journal of Experimental Psychology: General, 119, 63⫺76. Freyd, J. J. (1993). Five hunches about perceptual processes and dynamic representations. In D. E. Meyer & S. Kornblum (Eds.), Attention and performance XIV: Synergies in experimental psychology, artificial intelligence, and cognitive neuroscience (pp. 99⫺119). Cambridge, MA: MIT Press. Garnham, A. (1981). Mental models as representations of text. Memory & Cognition, 9, 560⫺565. Gentner, D. & Stevens, A. L. (Eds.) (1983). Mental models. Hillsdale, NJ: Erlbaum. Gernsbacher, M. A. (1990). Language comprehension as structure building. Hillsdale, NJ: Erlbaum. Glenberg, A. M. & Langston, W. E. (1992). Comprehension of illustrated text: Pictures help to build mental models. Journal of Memory and Language, 31, 129⫺131. Glenberg, A. M., Meyer, M. & Lindem, K. (1987). Mental models contribute to foregrounding during text comprehension. Journal of Memory and Language, 26, 69⫺83. Gordon, P. C. & Hendrick, R. (1998). The representation and processing of coreference in discourse. Cognitive Science, 22, 389⫺424. Halford, G. S. (1993). Children’s understanding: The development of mental models. Hillsdale, NJ: Erlbaum. Jackendoff, R. (1983). Semantics and cognition. Cambridge, MA: MIT Press. Johnson-Laird, P. N. (1980). Mental models in cognitive science. Cognitive Science, 4, 72⫺115. Johnson-Laird, P. N. (1982). Formal semantics and the psychology of meaning. In S. Peters & E. Saarinen (Eds.), Processes, beliefs, and questions (pp. 1⫺68). Dordrecht: Reidel. Johnson-Laird, P. N. (1983). Mental models. Cambridge: Cambridge University Press. Johnson-Laird, P. N. (1989). Mental models. In M. I. Posner (Ed.), Foundations of cognitive science (pp. 469⫺499). Cambridge, MA: MIT Press. Johnson-Laird, P. N. (1993). Human and machine thinking. Hillsdale, NJ: Erlbaum. Johnson-Laird, P. N. & Byrne, R. M. J. (1991). Deduction. Hillsdale, NJ: Erlbaum. Johnson-Laird, P. N. & Garnham, A. (1980). Descriptions and discourse models. Linguistics and Philosophy, 3, 371⫺393.
37. Mentale Modelle Johnson-Laird, P. N., Herrmann, D. J. & Chaffin, R. (1984). Only connections: A critique of semantic networks. Psychological Bulletin, 96, 292⫺315. Kamp, H. & Reyle, U. (1993). From discourse to logic. Dordrecht: Kluwer. Kaup, B., Kelter, S., Habel, C. & Clauser, C. (1997). Zur Wahl des repräsentierten Raumausschnitts beim Aufbau mentaler Modelle während der Textrezeption. In C. Umbach, M. Grabski & R. Hörnig (Hrsg.), Perspektive in Sprache und Raum (pp. 61⫺79). Wiesbaden: Deutscher Universitäts-Verlag. Kintsch, W. & van Dijk, T. A. (1978). Toward a model of text comprehension and production. Psychological Review, 85, 363⫺394. Logie, R. H. (1995). Visuo-spatial working memory. Hillsdale, NJ: Erlbaum. Mani, K. & Johnson-Laird, P. N. (1982). The mental representation of spatial descriptions. Memory & Cognition, 10, 181⫺187. McKoon, G. & Ratcliff, R. (1980). The comprehension processes and memory structures involved in anaphoric reference. Journal of Verbal Learning and Verbal Behavior, 19, 668⫺682. McKoon, G. & Ratcliff, R. (1992). Inference during reading. Psychological Review, 99, 440⫺466. McGinn, C. (1989). Mental content. Oxford: Blackwell. Miller, G. A. (1979). Images and models, similes and metaphors. In A. Ortony (Ed.), Metaphor and thought (pp. 202⫺250). Cambridge: Cambridge University Press. Morrow, D. G. (1994). Spatial models created from text. In H. van Oostendorp & R. A. Zwaan (Eds.), Naturalistic text comprehension (pp. 57⫺78). Norwood: Ablex. Morrow, D. G., Greenspan, S. L. & Bower, G. H. (1987). Accessibility and situation models in narrative comprehension. Journal of Memory and Language, 26, 165⫺187. Norman, D. A., Rumelhart, D. E. (1975). Explorations in cognition. San Francisco, CA: Freeman.
517 van Oostendorp, H. & Zwaan, R. A. (Eds.). (1994). Naturalistic text comprehension. Norwood: Ablex. Palmer, S. E. (1978). Fundamental aspects of cognitive representation. In E. Rosch & B. B. Lloyd (Eds.), Cognition and categorization (pp. 259⫺303). Hillsdale, NJ: Erlbaum. Rickheit, G. & Habel, C. (1999). Mental models in discourse processing and reasoning. Amsterdam: North-Holland. Rogers, Y., Rutherford, A. & Bibby, P. A. (Eds.). (1992). Models in the mind – Theory, perspective, and application. London: Academic Press. Sanford, A. J. & Garrod, S. C. (1981). Understanding written language. Chichester: Wiley. Sanford, A. J. & Garrod, S. C. (1998). The role of scenario mapping in text comprehension. Discourse Processes, 26, 159⫺190. Verfaillie, K. & d’Ydewalle, G. (1991). Representational momentum and event course anticipation in the perception of implied periodical motions. Journal of Experimental Psychology: Learning, Memory, and Cognition, 17, 302⫺313. Wagener, M. & Wender, K. F. (1985). Spatial representations and inference processes in memory for text. In G. Rickheit & H. Strohner (Eds.), Inferences in text processing (pp. 115⫺136). Amsterdam: North-Holland. Zwaan, R. A., Langston, M. C. & Graesser, A. C. (1995). The construction of situation models in narrative comprehension. Psychological Science, 6, 292⫺297. Zwaan, R. A., Magliano, J. P. & Graesser, A. C. (1995). Dimensions of situation model construction in narrative comprehension. Journal of Experimental Psychology: Learning, Memory, and Cognition, 21, 386⫺397. Zwaan, R. A. & van Oostendorp, H. (1994). Spatial information and naturalistic story comprehension. In H. van Oostendorp & R. A. Zwaan (Eds.), Naturalistic text comprehension (pp. 97⫺114). Norwood: Ablex. Zwaan, R. A., Stanfield, R. A. & Yaxley, R. H. (2002). Language comprehenders mentally represent the shapes of objects. Psychological Science, 13, 168⫺171.
Oakhill, J. & Garnham, A. (Eds.) (1996). Mental models in cognitive science. Brighton: Psychology Press.
Zwaan, R. A. & Radvansky, G. A. (1998). Situation models in language comprehension and memory. Psychological Bulletin, 123, 162⫺185.
O’Brien, E. J. & Albrecht, J. E. (1992). Comprehension strategies in the development of a mental model. Journal of Experimental Psychology: Learning, Memory, and Cognition, 18, 777⫺784.
Stephanie Kelter Technische Universität Berlin (Deutschland)
518
IV. Sprachrezeption
38. Kategoriale Wahrnehmung von Lauten 1. 2. 3. 4. 5.
1.
Das Phänomen der kategorialen Wahrnehmung Ursprung der Kategorialität Reichweite und Bedeutung der kategorialen Lautwahrnehmung Zusammenfassung Literatur
Das Phänomen der kategorialen Wahrnehmung
Beim Verstehen gesprochener Sprache müssen aus dem kontinuierlich variierenden Lautstrom diskrete Lautmuster extrahiert werden, die zudem gegenüber Störgeräuschen robust und gegenüber Sprecher-, Kontextund Situationsvielfalt invariant sind. Als elementare Lautmuster einer Sprache gelten eine begrenzte Anzahl sinnfreier Einheiten, sog. „Phoneme“, die ausreichend sind, um bedeutungsmäßig zwischen den verschiedenen Wörtern einer Sprache zu differenzieren (vgl. Jakobson, Fant & Halle, 1967). Um trotz unterschiedlicher Aussprache die Phoneme zu erkennen, muss der Hörer bzw. die Hörerin eine Abstraktionsleistung vollziehen (vgl. Repp & Liberman, 1987). Zu deren Erklärung wird das Prinzip der kategorialen Wahrnehmung herangezogen. Es bedeutet, dass das Ausmaß der Unterscheidbarkeit zweier Laute von deren jeweiliger Klassenzugehörigkeit abhängig ist. Laute, die unterschiedlichen Phonemklassen angehören, werden besser voneinander diskriminiert als Laute, die in dieselbe Phonemklasse fallen (vgl. Repp & Liberman, 1987: 89; Liberman, 1996). Evidenz für die Kategorialität lieferten vor allem Experimente mit synthetischen Sprachstimuli. In einem typischen Experiment (Liberman, Harris, Hoffman & Griffith, 1957) wurde eine Serie von aus einem Verschlusslaut und einem Vokal bestehenden Silben so synthetisiert, dass akustisch ein gleitender Übergang von der Silbe /ba/ über /da/ nach /ga/ erzeugt wurde, d. h. also, dass künstliche Zwischenstufen zwischen den Idealausprägungen der drei Silbentypen entstanden. Die akustisch variierte Dimension war hierbei die Art des Formantübergangs, d. h. des zeitlichen Verlaufes bestimmter Energiekonzentrationen im Frequenzspektrum. Wenn Versuchspersonen mehrmals die Reize dieses Kontinuums einzeln benennen sollten, erga-
ben sich nicht etwa allmähliche Übergänge in der Benennungshäufigkeit, sondern scharfe Identifikationsgrenzen zwischen den einzelnen Kategorien. Korrespondierend dazu gelang bei gleich großem akustischem Unterschied die Diskrimination zwischen jeweils zwei Reizen deutlich besser, wenn die Stimuli verschiedenen Kategorien angehörten, als wenn sie in dieselbe Kategorie fielen.
2.
Ursprung der Kategorialität
Die Erklärungen für den Ursprung der Kategorialität unterscheiden sich zum einen darin, ob die Fähigkeit zur Sprachlautkategorisierung in der generellen Hörausstattung des Menschen verankert oder ob ein spezifischer Sprachverarbeitungsmodus postuliert wird, und zum anderen in dem Stellenwert, der Lern- und Gedächtnisfaktoren zugewiesen wird. 2.1. Auditorische Theorie Nach der auditorischen Theorie stützt sich die Fähigkeit zur Sprachlauterkennung auf angeborene Verarbeitungsmechanismen, die ähnlich einem Filter operieren und quasi automatisch zur Bildung sprachrelevanter Lautkategorien führen (vgl. Helfrich, 1992). Betrachtet man eine bestimmte akustische Dimension, z. B. eine Zeitverzögerung zwischen zwei Lautkomponenten, so gibt es Bereiche, wo der Mensch besonders feine Unterscheidungen vornehmen kann, sog. „auditorische Diskontinuitäten“ (Rosen & Howell, 1987: 146), und Bereiche, wo die Unterscheidungsfähigkeit nur schlecht ausgeprägt ist. Die Lautinventare der menschlichen Sprachen haben sich phylogenetisch so entwickelt, dass die bedeutungsunterscheidenden Lautgrenzen gerade in die sensiblen Regionen fallen, wenn auch die einzelnen Sprachen nicht von allen Regionen Gebrauch machen. Als Beleg für die angeborene Basis der Sprachlautwahrnehmung gelten Befunde, wonach bereits Säuglinge zwischen verschiedenen Phonemen, z. B. zwischen stimmhaften und stimmlosen Lauten wie /b/ und /p/ diskriminieren können (vgl. Eimas, 1990; Juszyk, 1986). Auch Säugetiere, die nie sprechen lernen, wie beispielsweise Chinchillas (Kuhl, 1981) oder Rhesusaffen (Waters & Wilson, 1976), konnten darauf trainiert werden, sol-
38. Kategoriale Wahrnehmung von Lauten
che kategorialen Unterscheidungen zu treffen. Es konnte sogar nachgewiesen werden, dass auch die in natürlicher Umgebung anzutreffenden Rufe junger Mäuse von deren Müttern kategorial wahrgenommen werden (Ehret, 1992: 100). Gegen die Angeborenheit scheint zu sprechen, dass die Ausprägung der Kategorialität in Abhängigkeit von der Muttersprache beträchtliche Unterschiede aufweist (vgl. Diehl & Kluender, 1987: 245). Beispielsweise wird ein synthetisch erzeugtes /r/-/1/-Kontinuum von erwachsenen Japanern, in deren Sprache es keinen Bedeutungsunterschied zwischen /r/ und /l/ gibt, im Gegensatz zu Versuchspersonen mit Englisch als Muttersprache nicht kategorial wahrgenommen (Miyawaki, Strange, Verbrugge, Liberman, Jenkins & Fujimura, 1975), während bei japanischen Säuglingen der Kategorieneffekt auftritt (Eimas, 1975). Zur Lösung dieses Widerspruchs werden Modifikationen der Sensitivität während des Erstspracherwerbs in der Kindheit postuliert (vgl. Aslin & Pisoni, 1980; Burnham, Earnshaw & Quinn, 1987; Werker, 1989). Diese Modifikationen können sowohl feinere Abstimmungen als auch Entdifferenzierungen beinhalten. Das Lernen der Muttersprache verändert den Wahrnehmungshorizont: Das Kind bewahrt zwar die Fähigkeit zum Spracherwerb, die auf das muttersprachliche Lautinventar ausgerichtet ist, und schärft sie sogar noch, es verliert aber das Vermögen, bedeutungsunterscheidende Einheiten zu bemerken, die in seiner Muttersprache nicht auftreten (vgl. Eimas, 1990: 127). Als neurale Analyseoperatoren, die die Phonemerkennung bewerkstelligen, gelten sog. „Merkmalsdetektoren“, die extrem empfindlich für bestimmte Ausprägungsmuster komplexer akustischer Stimuli sind (Abbs & Sussman, 1971: 28). Da sie auf mehrere physikalische Dimensionen gleichzeitig ansprechen, können Stimulus-Variationen in relativ breiten Grenzen toleriert werden. Die Wirksamkeit lateraler Hemmung bewirkt bereits auf peripherer Ebene eine Kontrastbildung, so dass für eine bestimmte Signalkonfiguration die Aktivierung ähnlicher Konfigurationen gehemmt wird. Dadurch werden die einschlägigen Merkmale selbst bei unzureichender Realisation oder starker Verzerrung erkannt. Die Existenz von Detektoren wurde zunächst aus im Tierreich gewonnenen Ergebnissen abgeleitet, wo man Detektoren gefun-
519 den hat, die auf ähnliche, wenn auch nicht ganz so komplexe Parameterkonfigurationen wie die hypostasierten Detektoren ansprechen (Whitfield & Evans, 1965). Indirekte Evidenz für die Wirksamkeit von Detektoren auch bei der menschlichen Sprachwahrnehmung sollten Experimente zur selektiven Adaptation liefern (z. B. Cooper, 1979), denen zufolge ein Detektor nach extensiver Stimulation („Adaptation“) Ermüdungserscheinungen zeigt, die sich selektiv auf ein bestimmtes phonetisches Merkmal auswirken. Die Stimuli waren wiederum synthetisch erzeugte Silben, die sich auf einem akustischen Kontinuum repräsentieren lassen. Beispielsweise wurde ein Kontinuum von /ba/ nach /pa/, also von einer Silbe mit stimmhaften zu einer mit stimmlosem Anfangskonsonanten, durch Variation der Zeitdauer bis zum Stimmeinsatz, der sog. „voice onset time“ oder „VOT“, erzeugt. Wurde der an einem der beiden Extrempunkte lokalisierte Reiz wiederholt dargeboten, verschob sich in den über das Kontinuum variierenden Testreizen die wahrnehmungsmäßige Kategoriengrenze (ausgedrückt durch die jeweilige Häufigkeit der beiden Antwortkategorien) in Richtung auf den adaptierten Endpunkt. D. h. nach häufiger Exposition von /ba/ wird bereits auf Reize mit „pa“ geantwortet, die vor der Adaptation noch als „ba“ bezeichnet wurden (Eimas & Miller, 1978: 310). Die Ergebnisse wurden als Beleg dafür genommen, dass nach extensiver Stimulation eines Detektors, also z. B. des „Stimmhaft“-Detektors, eine Ermüdung (Sättigung) desselben eintritt, die gleichzeitig dem gegenläufigen Detektor, also im Beispiel dem „Stimmlos“-Detektor, ein relativ höheres Gewicht verschafft. 2.2. Motorische Theorie Nach der sog. motorischen Theorie gibt es, vor allem aufgrund der Koartikulation ganzer Lautfolgen, keine eindeutige Entsprechung zwischen dem akustischen Signal und den wahrgenommenen Sprachlauten. Die Invarianz der wahrgenommenen Laute beruht auf der aktiven Rekonstruktion der zur Hervorbringung der Laute notwendigen Artikulationsbewegungen (Liberman, 1982; vgl. auch Garman, 1996: 228). Wird ein akustischer Reiz als „Lautgeste“ (vgl. Liberman & Mattingly, 1985: 21) identifiziert, vollzieht sich die Diskrimination unterschiedlicher Exemplare nicht mehr entsprechend den sensorischen Fähigkeiten, sondern aufgrund der
520 Zuordnung zu einer bestimmten Artikulationsbewegung. Als Beleg für die Sprachspezifität gilt vor allem die Existenz sog. phonetischer Kompromissrelationen („trading relations“; vgl. Liberman & Mattingly, 1985; Repp, 1982; Repp & Liberman, 1987). Diese treten bei der Wahrnehmung von Reizen auf, die in zwei verschiedenen akustischen Dimensionen variieren, deren jede, isoliert betrachtet, denselben phonetischen Kontrast hervorrufen kann. Beispielsweise kann der Kontrast zwischen /slit/ und /split/ sowohl durch die VOT als auch durch die Art des Formantübergangs erzielt werden („phonetische Äquivalenz“). Beide Merkmale zusammengenommen haben eine kompensatorische Wirkung: Ein für eine /slit/-Realisation typischer Formantübergang kann durch eine besonders lange VOT ausgeglichen werden, so dass der Gesamtreiz als /split/ wahrgenommen wird. Werden in einer Diskriminationsaufgabe beide Reizdimensionen orthogonal variiert (Fitch, Halwes, Erickson & Liberman, 1980), hängt bei gleich großen akustischen Reizunterschieden die Diskriminationsleistung von der unterschiedlichen Benennbarkeit der Reize ab. Zwei Reize, die sich akustisch in beiden Dimensionen um jeweils denselben Betrag unterscheiden, werden dann als „verschieden“ beurteilt, wenn die Ausprägungen beider Dimensionen funktional zusammenwirken und die beiden Reize verschieden benannt werden können. Sie werden jedoch als „gleich“ beurteilt, wenn die jeweiligen Ausprägungen beider Dimensionen gegenläufig wirken und keine unterschiedliche Benennung zulassen. Das Auftreten des Effektes soll an die Interpretation eines akustischen Signals als Sprache gebunden sein: Kann ein (synthetisch erzeugtes) identisches akustisches Reizmuster auch als nicht-sprachliche Lautkombination aufgefasst werden, treten die Kompromissrelationen nur bei denjenigen Versuchspersonen auf, die das Reizmuster als Sprache interpretieren (Best, Morrongiello & Robson, 1981). 2.3. Ökologische Theorie Nach der in Anlehnung an die handlungsorientierte Wahrnehmungstheorie von Gibson (1966, 1982) entwickelten sog. „ökologischen Theorie“ (Fowler, 1986; Tuller & Fowler, 1980; vgl. auch Garman, 1996: 237) ist die Kategorialität weder an die Sprache gebunden noch durch Lernprozesse erworben. Kennzeichnend für die Wahrnehmung ist,
IV. Sprachrezeption
dass handlungsrelevante „Objekte“ erkannt werden, diese werden „direkt“ und nicht etwa durch eine Analyse ihrer Komponenten bzw. Merkmale erfasst. Ebenso wie bei der motorischen Theorie wird die Invarianz der wahrgenommenen Sprachlaute auf der Ebene der Artikulationsbewegungen verankert. Als Beleg werden elektromyografische (⫽ EMG-) Studien herangezogen, die zeigen, dass trotz der Variabilität der Bewegungen der einzelnen Muskeln die Relationen zwischen den verschiedenen bei der Steuerung von Lippen-, Zungen- und Kieferbewegungen zusammenspielenden Muskeln erstaunlich konstant sind (Scott-Kelso, Tuller & Harris, 1983; vgl. Garman, 1996: 228). Im Unterschied zur motorischen Theorie bedarf es aber nach der ökologischen Theorie zur Wahrnehmung der Lautgesten keiner artikulatorischen Vermittlungsinstanz, sondern sie erschließen sich dem Hörer direkt aus dem Schallsignal. 2.4. Lerntheoretische Erklärung Da das sensorische Abbild eines kurzfristigen akustischen Reizes, wie z. B. einer Sprachsilbe, als Echospur nur für eine sehr kurze Zeitdauer (ca. 250 ms nach Massaro, 1975; 1998) präsent ist, verlangen sowohl die Identifikation als auch die Diskrimination von Sprachsilben nicht nur eine Wahrnehmungsleistung, sondern stellen immer auch Anforderungen an das Gedächtnis. Die Aufgabe wird erleichtert, wenn die Versuchsperson gedächtnismäßig unterschiedliche Bezeichnungen für die gehörten Reize zur Verfügung hat, mit der Konsequenz, dass zwischen Silben mit unterschiedlichen Bezeichnungen besser unterschieden werden kann als zwischen Silben, die das gleiche Etikett tragen. Für diese Erklärung spricht, dass der Kategorieneffekt um so deutlicher zutage tritt, je schwieriger die Diskriminationsaufgabe ist (van Hessen & Schouten, 1999), je länger das Zeitintervall zwischen Reizdarbietung und Aufgabenbearbeitung ist (Pisoni & Tash, 1974; Schouten & van Hessen, 1992) und je höher auf Seiten der Versuchsperson der Grad der „phonologischen Bewusstheit“ ist (Gibbs, 1996). Außerdem ist zu berücksichtigen, dass jede Diskrimination neben der Wahrnehmungsleistung immer auch ein Urteil beinhaltet. So kann ein und derselbe wahrgenommene Unterschied subjektiv unterschiedlich stark gewichtet werden, je nachdem, ob die beiden zu vergleichenden Reize unterschiedliche Be-
521
38. Kategoriale Wahrnehmung von Lauten
zeichnungen tragen oder ob sie mit derselben Bezeichnung belegt werden. Dass der Kategorieneffekt eher auf der Ebene des Urteils als auf der Ebene der Wahrnehmung zu lokalisieren ist, demonstriert eine Untersuchung mit einem synthetischen /ra/-/la/-Kontinuum, die sowohl an deutschen Probanden (in deren Sprache der Kontrast bedeutungsunterscheidend ist) als auch an japanischen Probanden (in deren Sprache er keine bedeutungsunterscheidende Funktion hat) durchgeführt wurde (Helfrich, 1991; vgl. Helfrich, 1999). Die Diskriminationsaufgabe wurde so gestaltet, dass die Aufmerksamkeit auf die akustische Information gelenkt und gleichzeitig die Tatsache, dass es sich bei den Stimuli um Sprache handelte, in den Hintergrund gedrängt wurde. Ein Kategorieneffekt in der Wahrnehmung trat weder bei den Probanden mit Japanisch als Muttersprache noch bei denen mit Deutsch als Muttersprache auf. Erst bei der anschließenden Benennungsaufgabe, die als eine Umsetzung der Wahrnehmungsaufgabe in ein sprachlich relevantes Urteil angesehen werden muss, zeigten sich die auch in früheren Untersuchungen (z. B. bei Miyawaki, Strange, Verbrugge, Liberman, Jenkins & Fujimura, 1975) beobachteten Ergebnisse, d. h. ein Kategorieneffekt bei den Probanden mit einer europäischen Muttersprache und ein gleitender Übergang bei den Probanden mit Japanisch als Muttersprache. Der Benennungs- oder Etikettierungseffekt ist – entgegen den Annahmen der motorischen Theorie – nicht auf die Unterscheidung von Sprachlauten beschränkt (vgl. Lane, 1965), er ergibt sich immer dann, wenn für die einzelnen Bereiche eines physikalischen Kontiuums unterschiedliche Bezeichnungen durch Lernen erworben werden, so z. B. von Musikern für Tonintervalle (Burns & Ward, 1978). Er ist nicht einmal auf die auditive Modalität beschränkt, sondern konnte auch in der visuellen Modalität, beispielsweise bei der Diskrimination von Farbtönen, beobachtet werden (Kay & Kempton, 1984; vgl. Thomas & Helfrich, 1993). Die Einbeziehung von Urteils- und Gedächtnisprozessen impliziert, dass es auf der Wahrnehmungsebene nicht notwendigerweise strikt voneinander abgegrenzte Kategorien geben muss, sondern dass diese auch vage oder „fuzzy“ (vgl. Massaro, 1998) sein können. Die Kategorialität stellt hierbei eher ein funktionales Erkennensprinzip dar, das abhängig vom jeweiligen Erkennenszweck und Erkennenskontext ist.
3.
Reichweite und Bedeutung der kategorialen Lautwahrnehmung
Selbst die eifrigsten Verfechter der kategorialen Sprachlautwahrnehmung bestreiten nicht, dass nicht alle Sprachlaute kategorial wahrgenommen werden. So wurde bei akustischen Kontinua, die Übergänge zwischen zwei oder mehr Vokalen beinhalteten, mehrfach demonstriert, dass hier die Wahrnehmung kontinuierlich erfolgt (vgl. Ryalls, 1996: 53). Die Interpretation dieses Befundes ist gewöhnlich, dass die Vokale weniger informationstragend sind als die Konsonanten. Aber selbst nicht alle Konsonanten werden kategorial wahrgenommen, so z. B. die Differenzen zwischen unterschiedlichen Frikativen (vgl. Garman, 1996: 199). Eine weitere Einschränkung der kategorialen Wahrnehmung von Lauten ergibt sich dadurch, dass die Sprachwahrnehmung in hohem Maße vom umgebenden Lautkontext beeinflusst ist. Selbst wenn in einer akustisch präsentierten Äußerung bestimmte Laute durch ein Rauschen ersetzt werden, fällt dies den Versuchspersonen manchmal gar nicht auf. Dieser als „phonemic restoration“ (Warren & Obusek, 1971; vgl. Warren, 1999) bekannte Effekt spricht dafür, dass die gesprochene Sprache viele Redundanzen enthält, die es ermöglichen, die Äußerung zu verstehen, ohne dass alle informationstragenden Laute zweifelsfrei erkannt werden. Auf der auditorischen Ebene spielt zudem die Prosodie, d. h. der Tonhöhen- und Lautstärkeverlauf, eine nicht unwesentliche Rolle sowohl für die Worterkennung (Cutler, 1976) als auch für die Erkennung syntaktischer Strukturen (Helfrich, 1985). In der Face-to-face-Kommunikation treten zu den auditiven Informationen noch visuelle Informationen wie die äußerlich sichtbaren Sprechbewegungen (McGurk & MacDonald, 1976) sowie Gesten und Körperhaltungen (vgl. Neppert, 1998: 293) hinzu mit der Konsequenz, dass die Kategorialität häufig erst auf cross-modaler Ebene auftritt (vgl. Massaro, 1998). In der real stattfindenden Kommunikation wird die Sprachwahrnehmung zudem auch durch die Erwartung und das Vorwissen des Hörers gesteuert, so dass das Erfassen der Bedeutung einer Äußerung immer als ein Zusammenwirken zwischen den durch den akustischen Input hervorgerufenen „Bottomup“-Prozessen und den vom Hörer eingebrachten „Top-down“-Prozessen zu betrachten ist.
522
4.
IV. Sprachrezeption
Zusammenfassung
Beim Verstehen gesprochener Sprache müssen funktionale Lautunterscheidungen getroffen werden. Sie erfordern eine Abstraktionsleistung, die impliziert, dass relevante akustische Unterschiede erkannt und irrelevante vernachlässigt werden müssen. Es wird angenommen, dass diese Abstraktionsleistung dadurch erleichtert wird, dass sich die Wahrnehmung akustischer Unterschiede bei Sprachlauten kategorial oder diskontinuierlich vollzieht, d. h. dass gleich große Unterschiede auf einer akustischen Dimension schlecht wahrgenommen werden, wenn die zu unterscheidenden Laute derselben Lautklasse angehören, und gut wahrgenommen werden, wenn die zu unterscheidenden Laute unterschiedlichen Lautklassen angehören. Zur Erklärung des Ursprungs der Kategorialität werden sowohl biologische als auch erfahrungsmäßige Faktoren herangezogen. Die theoretischen Ansätze unterscheiden sich darin, welches Gewicht sie diesen Faktoren jeweils beimessen. Sie unterscheiden sich weiterhin darin, ob die Kategorialität als sprachspezifisch betrachtet wird oder eher den allgemeinen Mechanismen der auditiven Wahrnehmung zugeschrieben wird. Keine der vorgestellten Theorien erklärt alle im Zusammenhang mit der Kategorialität beobachteten Phänomene. Für die Annahme der Sprachspezifität stellen offensichtliche Analogien zur Wahrnehmung nichtsprachlicher auditiver Muster, für die Annahme allgemeiner auditorischer Verarbeitungsmechanismen die mit Artikulationsbewegungen korrespondierenden phonetischen Kompromissrelationen eine Herausforderung dar. Am ehesten ist anzunehmen, dass es eine angeborene sensorische Verankerung der Lautwahrnehmung gibt, dass die Kategorienbildung aber durch eine funktionale Bewertung sensorisch wahrgenommener Unterschiede eine Modifikation erfährt, die zusammen mit der Muttersprache erworben wird und langfristig im Gedächtnis gespeichert ist.
5.
Literatur
Abbs, J. H. & Sussman, H. M. (1971). Neurophysiological feature detectors and speech perception: A discussion of theoretical implications. Journal of Speech & Hearing Research, 14, 23⫺26. Aslin, R. N. & Pisoni, D. B. (1980). Some developmental processes in speech perception. In G. H.
Yeni-Komshian, J. F. Kavanagh & C. A. Ferguson (Eds.), Child Phonology (pp. 67⫺96). New York: Academic Press. Best, C. T., Morrongiello, B. & Robson, R. (1981). Perceptual equivalence of acoustic cues in speech and nonspeech perception. Perception & Psychophysics, 29, 191⫺211. Burnham, D. K., Earnshaw, L. J. & Quinn, M. C. (1987). The development in the categorical identification of speech. In B. E. McKenzie & R. H. Day (Eds.), Perceptual development in early infancy: Problems and issues. Hillsdale, N.J.: Erlbaum. Burns, E. M. & Ward, W. D. (1978). Categorial perception – Phenomenon or epiphenomenon: Evidence from experiments in the perception of melodic musical intervals. Journal of the Acoustical Society of America, 63, 456⫺468. Cooper, W. E. (1979). Speech perception and production: Studies in selective adaptation. Norwood, N.J.: Ablex. Cutler, A. (1976). Phoneme-monitoring reaction time as a function of preceding intonation contour. Perception & Psychophysics, 20, 55⫺60. Diehl, R. L. & Kluender, K. R. (1987). On the categorization of speech sounds. In S. Harnad (Ed.), Categorical perception (pp. 226⫺253). Cambridge: Cambridge University Press. Ehret, G. (1992). Preadaptations in the auditory system of mammals for phonetic recognition. In M. E. H. Schouten (Ed.), The auditory processing of speech (pp. 99⫺112). Berlin: Mouton de Gruyter. Eimas, P. D. (1975). Auditory and phonetic coding of the cues for speech: Discrimination of the [r-l] distinction by young infants. Perception & Psychophysics, 18, 341⫺347. Eimas, P. D. (1990). Sprachwahrnehmung beim Säugling. In W. Singer (Hrsg.), Gehirn und Kognition (pp. 120⫺127). Heidelberg: Spektrum der Wissenschaft. Eimas, P. D. & Miller, J. L. (1978). Effects of selective adaptation on the perception of speech and visual patterns: Evidence for feature detectors. In R. D. Walk & H. L. Pick (Eds.), Perception and experience (pp. 307⫺345). New York: Plenum Press. Fitch, H. L., Halwes, T., Erickson, D. M. & Liberman, A. M. (1980). Perceptual equivalence of two acoustic cues for stop-consonant manner. Perception & Psychophysics, 27, 343⫺350. Fowler, C. A. (1986). An event approach to the study of speech perception from a direct-realist perspective. Journal of Phonetics, 14, 3⫺28.
38. Kategoriale Wahrnehmung von Lauten
523
Garman, M. (1996). Psycholinguistics. Cambridge: Cambridge University Press.
Speech: A special code (pp. 293⫺304). Cambridge, Mass.: MIT Press.
Gibbs, S. (1996). Categorical speech perception and phonological awareness. Language & Communication, 16, 37⫺60.
Liberman, A. M. & Mattingly, I. G. (1985). The motor theory of speech perception revised. Cognition, 21, 1⫺36.
Gibson, J. J. (1966). The senses considered as perceptual systems. Boston: Houghton Mifflin.
Massaro, D. W. (1975). Preperceptual images, processing time, and perceptual units in speech perception. In D. W. Massarao (Ed.), Understanding language (pp. 125⫺150). New York: Academic Press.
Gibson, J. J. (1982). Wahrnehmung und Umwelt. München: Urban & Schwarzenberg. Helfrich, H. (1985). Satzmelodie und Sprachwahrnehmung: Psycholinguistische Untersuchungen zur Grundfrequenz. Berlin: Walter de Gruyter. Helfrich, H. (1991). Zur Universalität von Lautunterscheidungen. In J. Blauert & E. Paulus (Hrsg.), Fortschritte der Akustik – DAGA ’91 (pp. 1021⫺ 1024). Bad Honnef: DPG-GmbH. Helfrich, H. (1992). Ist die Wahrnehmung der VOT sprachspezifisch? In W. Hess & W. Sendlmaier (Hrsg.), Beiträge zur angewandten und experimentellen Phonetik (pp. 45⫺55). Stuttgart: Franz Steiner. Helfrich, H. (1999). Beyond the dilemma of crosscultural psychology: Resolving the tension between etic and emic approaches. Culture & Psychology, 5, 131⫺153. Jakobson, R., Fant, G. & Halle, M. (1967). Preliminaries to speech analysis. Cambridge, Mass.: MIT Press. Jusczyk, P. W. (1986). Speech perception. In K. R. Boff, L. Kaufman & J. P. Thomas (Eds.), Handbook of perception and human performance. Volume II, Cognitive processes and performance (pp. 27⫺ 57). New York: Wiley. Kay, P. & Kempton, W. (1984). What is the SapirWhorf hypothesis? American Anthropologist, 86, 65⫺79. Kuhl, P. K. (1981). Discrimination of speech by nonhuman animals: Basic auditory sensitivities conducive to the perception of speech-sound categories. Journal of the Acoustical Society of America, 70, 340⫺349. Lane, H. (1965). The motor theory of speech perception: A critical review. Psychological Review, 72, 275⫺309. Liberman, A. M., Harris, K. S., Hoffman, H. S. & Griffith, B. C. (1957). The discrimination of speech sounds within and across phoneme boundaries. Journal of Experimental Psychology, 54, 358⫺368.
Massaro, D. W. (1998). Perceiving talking faces: From speech perception to a behavioral principle. Cambridge; Mass.: MIT Press. McGurk, H. & MacDonald, J. (1976). Hearing lips and seeing voices. Nature, 264, 746⫺748. Miyawaki, K., Strange, W., Verbrugge, R., Liberman, A. M., Jenkins, J. J. & Fujimura, O. (1975). An effect of linguistic experience: The discrimination of [r] and [l] by native speakers of Japanese and English. Perception & Psychophysics, 18, 331⫺340. Neppert, J. M. H. (1998). Elemente einer akustischen Phonetik. Hamburg: Buske. Pisoni, D. B. & Tash, J. (1974). Reaction times to comparisons within and across phonetic categories. Perception & Psychophysics, 15, 285⫺290. Repp, B. H. (1982). Phonetic trading relations and context effects: New experimental evidence for a speech mode of perception. Psychological Bulletin, 92, 81⫺110. Repp, B. H. & Liberman, A. M. (1987). Phonetic category boundaries are flexible. In S. Harnad (Ed.), Categorical perception (pp. 89⫺112). Cambridge: Cambridge University Press. Rosen, S. & Howel, P. (1987). Auditory, articulatory, and learning explanation of categorical perception in speech. In S. Harnad (Ed.), Categorical perception (pp. 113⫺160). Cambridge: Cambridge University Press. Ryalls, J. (1996). A basic introduction to speech perception. San Diego: Singular Publishing Group. Schouten, M. E. H. & van Hessen, A. J. (1992). Different discrimination strategies for vowels and consonants. In M. E. H. Schouten (Ed.), The auditory processing of speech (pp. 309⫺314). Berlin: Mouton de Gruyter.
Liberman, A. M. (1982). On finding that speech is special. American Psychologist, 37, 148⫺167.
Scott-Kelso, J. A., Tuller, B. & Harris, K. S. (1983). A ‘dynamic pattern’ perspective on the control and coordination of movement. In P. F. MacNeilage (Ed.), The production of speech. New York: Springer.
Liberman, A. M. (1996). A specialization for speech perception. In A. M. Liberman (Ed.),
Thomas, A. & Helfrich, H. (1993). Wahrnehmungspsychologische Aspekte im Kulturvergleich.
524
IV. Sprachrezeption
In A. Thomas (Hrsg.), Kulturvergleichende Psychologie (pp. 145⫺180). Göttingen: Hogrefe. Tuller, B. & Fowler, C. A. (1980). Some articulatory correlates of perceptual isochrony. Perception & Psychophysics, 27, 277⫺283. van Hessen, A. J. & Schouten, M. E. H. (1999). Categorical perception as a function of stimulus quality. Phonetica, 56, 56⫺72.
Waters, R. S. & Wilson, W. A., Jr. (1976). Speech perception by rhesus monkeys: The voicing distinction in synthesized labial and velar stop consonants. Perception & Psychophysics, 19, 285⫺289. Werker, J. (1989). Becoming a native listener. American Scientist, 77, 55⫺59.
Warren, R. M. (1999). Auditory perception. Cambridge: Cambridge University Press.
Whitfield, I. G. & Evans, E. F. (1965). Responses of auditory cortical neurons to stimuli of changing frequency. Journal of Neurophysiology, 28, 655⫺ 672.
Warren, R. M. & Obusek, C. J. (1971). Speech perception and phonemic restorations. Perception & Psychophysics, 9, 358⫺362.
Hede Helfrich Universität Hildesheim (Deutschland)
39. Parsing-Prozesse 1. 2. 3. 4. 5. 6.
Einleitung Theorien Empirische Evidenz Die Methodenfrage Schluss Literatur
1.
Einleitung
Der in weiten Bereichen der Psycholinguistik festzustellende Einfluss linguistischer Theorien wirkt sich bei der Untersuchung der Parsing-Prozesse, d. h. der Syntaxverarbeitung und ihrer Bedingungen, besonders stark aus. Im Bereich der Phrasen- und Satzverarbeitung ist es in den letzten Jahren zu einem besonders intensiven Meinungsaustausch und äußerst konstruktiven Auseinandersetzungen zwischen stärker linguistisch und stärker psychologisch orientierten Auffassungen gekommen. Ähnlich wie in anderen Bereichen der Linguistik hat sich herausgestellt, dass die empirische Forschung, die durch die miteinander konkurrierenden Theorien angeregt wurde, nicht nur zu einer Entscheidung über diese beizutragen vermag, sondern auch viele neue und noch keineswegs geklärte Fragestellungen aufgeworfen hat (z. B. Tanenhaus & Trueswell, 1995; MacDonald, 1997; Ferstl & Flores d’Arcais, 1999; Hemforth & Strube, 1999). Auf einige dieser Entwicklungen soll im vorliegenden Beitrag eingegangen werden. Der Artikel ist so aufgebaut, dass zunächst die der Forschung zugrunde liegenden theoretischen Positionen eingeführt werden. An-
schließend werden empirische Untersuchungen in einigen exemplarischen Feldern dargestellt, bevor die Konsequenzen dieser Studien für Modellbildung und Methodologie diskutiert werden. Als eine immer wichtiger werdende Aufgabe der Parsing-Forschung stellt sich die Wahl einer adäquaten Untersuchungsmethode heraus. Die abschließenden Überlegungen beziehen sich auf die Integration der Parsing-Forschung mit anderen Fragestellungen der Psycholinguistik.
2.
Theorien
Die Forschung der letzten Jahre im Bereich der Syntaxverarbeitung hat zwei Annahmen der Sprachverarbeitung aus den siebziger Jahren (z. B. Marslen-Wilson, 1973) bestätigt: Inkrementalität: Die Sprachverarbeitung geht in Einheiten vor sich, die meistens unterhalb der Satzeinheit anzunehmen sind. Als grundlegende Inkrement-Einheit wird in den letzten Jahren immer mehr das Wort angesehen. Unmittelbarkeit: Innerhalb dieser Einheiten wird so schnell wie möglich eine umfassende Interpretation der Sprachinformation angestrebt, die alle Sprachebenen, also Phonologie, Syntax, Semantik und Pragmatik, umfasst. Die meisten heute existierenden ParsingTheorien sind sich bezüglich dieser Aspekte weitgehend einig. Dennoch finden sich noch große Unterschiede zwischen ihnen darüber,
525
39. Parsing-Prozesse
wie dieser generelle Rahmen für den speziellen Fall der Parsing-Prozesse auszufüllen ist. Wie in vielen anderen Bereichen der Sprachverarbeitung lassen sich auch im Bereich des Parsing autonome und interaktive Ansätze bei der Theoriebildung unterscheiden. Mit dem Kürzel autonome Sprachverarbeitung soll hier die Unabhängigkeit des syntaktischen vom semantischen Teil der Sprachverarbeitung gemeint sein. Dass die syntaktische Verarbeitung zur Erstellung der semantischen Repräsentation beiträgt, wird von keiner psycholinguistischen Theorie abgestritten. Interaktive Sprachverarbeitung liegt dagegen dann vor, wenn die semantische Repräsentation auch die Verarbeitung der syntaktischen Information beeinflusst. 2.1. Autonome Theorien Die autonomen Theorien der Syntaxverarbeitung zeichnen sich dadurch aus, dass sie der syntaktischen Information einen eigenen, von anderen Informationstypen getrennten und zudem unabhängigen Status zuordnen. Bezüglich der zeitlichen Abfolge der einzelnen Verarbeitungsschritte gibt es innerhalb dieser Grundposition allerdings unterschiedliche Auffassungen. Die klassische Meinung geht davon aus, dass zuerst die syntaktische Information verarbeitet wird und dann erst die semantische. Dieser Ansatz wird als autonomserielle Theorie bezeichnet. Eine alternative Position, die erst in den letzten Jahren entwickelt wurde, beschreibt zwar ebenfalls die syntaktische als unabhängig von der semantischen Verarbeitung; sie hebt sich jedoch von der klassischen Position dadurch ab, dass syntaktische und semantische Verarbeitung als zeitlich parallel gesehen werden. Dieser Ansatz wird als autonom-parallele Theorie bezeichnet. 2.1.1. Autonom-serielle Theorie Die autonom-serielle Theorie ist die klassische Theorie der Syntaxverarbeitung. Sie fußt auf den Überlegungen Noam Chomskys über die Struktur des grammatischen Systems und hat zumindest in der Linguistik weite Verbreitung gefunden (z. B. Jackendoff, 1998). Die Überführung dieses Ansatzes in eine Parsing-Theorie wurde von Lyn Frazier (1978) begonnen und in Kooperation mit vielen anderen weiter ausgeführt und gegen Angriffe verteidigt (z. B. Ferreira & Clifton, 1986; Frazier 1987, 1989; Mitchell, 1987, 1994; Ferreira & Henderson, 1990). Das Modell von Frazier geht von einer ersten rein
syntaktischen Analyse aus, zu der an lexikalischem Wissen nur die syntaktischen Hauptkategorien (z. B. Nomen, Verb etc.) herangezogen werden. Erst danach wird die daraus resultierende syntaktische Struktur in einem zweiten Durchlauf semantisch interpretiert. Da beim ersten Durchlauf weitere lexikalische und kontextuelle Informationen noch nicht berücksichtigt werden, kann es leicht vorkommen, dass der Parser zeitweilig in eine syntaktische Sackgasse läuft, was dem Ansatz den Namen garden path model eingetragen hat. In Abbildung 39.1 sind die beiden Verarbeitungsphasen der autonom-seriellen Theorie veranschaulicht.
Abb. 39.1: Autonom-serielle Theorie
In einer neueren Arbeit fügten Frazier und Clifton (1996) dem klassischen garden path model eine weitere Verarbeitungskomponente, die sie construal nennen, hinzu, um die Syntaxverarbeitung flexibler in das Gesamt der Sprachverarbeitung einbetten zu können. Der Parser orientiert sich bei obligatorischen Syntaxkomponenten entsprechend der klassischen Theorie nach wie vor an strukturellen Gesichtspunkten, bei optionalen Argumenten wird dagegen ein größerer Spielraum ermöglicht. Mit diesem hybriden Modell versuchen Frazier und Clifton, die Kritik an der zu großen Starrheit des klassischen Ansatzes aufzufangen und die empirischen Befunde besser abbilden zu können. 2.1.2. Autonom-parallele Theorie Als eine andere Reaktion auf die Kritiken, die aus theoretischen und empirischen Gründen an der autonom-seriellen Theorie geübt wurden, ist in jüngster Zeit eine alternative Version der autonomen Theorie der Syntaxverarbeitung vorgeschlagen worden (z. B. Boland, 1997). Dieser neue Ansatz nimmt von der im klassischen Ansatz enthaltenen Dominanz der Syntax in der ersten Verarbeitungsphase Abschied durch die Annahme einer zeitlichen Parallelität von Syntax- und Semantikverarbeitung. Das Lexikon liefert bereits in der ersten Phase der Verarbeitung als Output nicht nur syntaktische, sondern auch
526 semantische Informationen, um einerseits eine autonome syntaktische Struktur und andererseits parallel hierzu mit Hilfe der Syntax eine semantische Repräsentation zu erstellen. Julie Boland (1997) nennt ihren Vorschlag deshalb concurrent model (siehe Abbildung 39.2).
Abb. 39.2: Autonom-parallele Theorie
Ein wesentlicher Unterschied zur klassischen autonomen Theorie besteht darin, dass das syntaktische Subsystem von vornherein nicht nur die syntaktischen Hauptkategorien, sondern auch die Subkategorien und die Worthäufigkeit verarbeitet. Auf der Basis dieser Information werden multiple syntaktische Strukturen generiert und der semantischen Weiterverarbeitung zur Verfügung gestellt. Die Konstruktion der aktuellen syntaktischen Strukturen geschieht Wort für Wort und wird durch die Elimination der zu diesem Zeitpunkt inkonsistent gewordenen Strukturen erreicht. 2.2. Interaktive Theorien Die interaktiven Theorien der Syntaxverarbeitung lehnen die Annahme einer Autonomie des syntaktischen Prozessors ab. Die syntaktische Struktur wird nicht autonom, sondern in Abhängigkeit von der semantischen Verarbeitung erstellt. Bei vielen Anhängerinnen und Anhängern interaktiver Theorien ist diese Ablehnung in ähnlicher Weise wie die entgegengesetzte Akzeptanz der Autonomie durch die Gegenposition in grundsätzlichen Überzeugungen von der Funktionsweise des menschlichen Sprachverarbeitungssystems begründet. Aus interaktiver Sicht besitzt die Grammatik nicht die Sonderrolle, wie sie ihr die autonomen Theorien zuordnen, sondern ist ein Symbolsystem unter vielen anderen, die für die sprachliche Informationsverarbeitung und Kommunikation relevant sind: „The relation between grammar and meaning is probably the most crucial issue in current linguistic theory. Even in the generative tradition, which has long and loudly proclaimed the autonomy of grammatical structure, semantic considerations have not
IV. Sprachrezeption only intruded but taken on progressively greater significance. This of course is perfectly unsurprising from the standpoint of cognitive grammar, which for many years has claimed that grammar and meaning are indissociable. This theory takes the radical position that grammar reduces to the structuring and symbolization of conceptual content and thus has no autonomous existence at all.“ (Langacker, 1999: 1)
Analog zu den autonomen Theorien können auch bei den interaktiven Ansätzen zwei große Gruppierungen unterschieden werden: Die interaktiv-parallelen Theorien nehmen eine zeitliche Parallelität der syntaktischen und der semantischen Verarbeitung an, während die interaktiv-seriellen Theorien die Syntax-zuerst-Annahme der autonom-seriellen Theorien nicht ganz aufgeben und deshalb wie die autonom-parallele Theorie als vermittelnde Position zwischen radikal autonomen und radikal interaktiven Ansätzen angesehen werden können (Boland & Cutler, 1996). 2.2.1. Interaktiv-serielle Theorien Empirische Resultate, die einen gewissen Einfluss des semantischen Kontextes auf die Syntaxverarbeitung aufzeigen, haben einige Forscher dazu bewogen, von der starken Autonomie-Annahme des klassischen Modells abzurücken (z. B. Crain & Steedman, 1985; Altmann & Steedman, 1988). Diese Forscher nehmen eine gewisse Interaktivität zwischen den modular aufgebauten Bereichen Syntax und Semantik an. Diese äußert sich darin, dass zwar die Syntax durch die lexikalische Verarbeitung zuerst aktiviert wird, diese Aktivierung unmittelbar darauf durch die Semantik jedoch korrigiert werden kann, so dass semantisch wahrscheinlichere Strukturen bereits beim ersten Parsingdurchgang favorisiert werden. Diesen Architekturtyp nennen Altmann und Steedman (1988) wegen der Beibehaltung der Serialität auch „schwach interaktiv“. Der interaktiv-serielle Informationsfluss wird in Abbildung 39.3 veranschaulicht:
Abb. 39.3: Interaktiv-serielle Theorie
39. Parsing-Prozesse
2.2.2. Interaktiv-parallele Theorien In vielen interaktiv-parallelen Ansätzen ist die syntaktische Verarbeitung nur ein Teilbereich unter vielen anderen, die bei der Sprachrezeption zu untersuchen sind. Zu diesen gehören lexikalische Information genauso wie semantische oder pragmatische Aspekte. Alle diese Informationen fließen zusammen, werden hinsichtlich ihrer Relevanz und Wahrscheinlichkeit im gegebenen Kontext abgeschätzt und ergeben durch ihre zeitlich parallele Aktivierung über mehrere Zyklen hinweg ein mehr oder weniger eindeutiges Verarbeitungsresultat (Tyler & Marlsen-Wilson, 1977). Diese interaktiv-parallelen Theorien, die auch als constraint-based models bezeichnet werden, sind nicht speziell auf die Syntaxverarbeitung ausgerichtet, sondern besitzen eine so allgemeine Architektur, dass sie für viele andere Bereiche der Sprachverarbeitung verwendet werden können. Im Zentrum stehen dabei die verschiedenen Informationen, die von jedem neuen Wort zur Verarbeitung beigesteuert werden (z. B. Tyler & Marslen-Wilson, 1977; Marslen-Wilson, Brown & Tyler, 1988; Tanenhaus, Carlson & Trueswell, 1989; Trueswell, Tanenhaus & Garnsey, 1994; Trueswell, 1996; Bever, Sanz & Townsend, 1998). Der Informationsfluss in interaktiv-parallelen Theorien verläuft, von den lexikalischen Einheiten ausgehend, ungehindert in alle Richtungen (siehe Abbildung 39.4).
Abb. 39.4: Interaktiv-parallele Theorie
3.
Empirische Evidenz
Alle vier dargestellten Ansätze der Syntaxverarbeitung können wichtige theoretische Argumente zu ihren Gunsten vorbringen und zudem auf einige empirische Fundierungen verweisen. Die Entscheidung darüber, welche Theorie die meisten Pluspunkte auf sich vereinigen kann und deshalb die Basis für die zukünftige Forschung liefern sollte, muss deshalb in ausreichend differenzierten und aussagekräftigen Experimenten gesucht werden. Julie Boland (1997) berichtet von empirischer Evidenz, die darauf hindeutet, dass die
527 vier in Abschnitt 2 vorgestellten ParsingTheorien sich nicht gegenseitig ausschließen, sondern möglicherweise verschiedene Aspekte und Phasen der Syntaxverarbeitung abbilden. Boland arbeitete unter anderem mit Sätzen, die ambige Verben, wie z. B. toss, enthielten. Das Verb toss hat nicht nur unterschiedliche Bedeutungen, nämlich in einer Lesart „mischen“ und in einer zweiten Lesart „werfen“, sondern diese Lesarten sind auch noch mit unterschiedlichen syntaktischen Subkategorien des Verbs verbunden. So besitzt toss in der Lesart „mischen“ nur zwei Argumente, z. B. Jenny tossed the salad, während toss in der Lesart „werfen“ drei Argumente umfassen kann, z. B. Jenny tossed Bill the ball oder Jenny tossed the ball to Bill. Zur Überprüfung der unterschiedlichen Vorhersagen der einzelnen Theorien bezüglich der syntaktischen und semantischen Verarbeitungsprozesse arbeitete Boland mit den beiden Priming-Prozeduren lexikalische Entscheidung und lautes Lesen (s. Kapitel 8 in diesem Band), von denen aus mehreren Untersuchungen bekannt ist, dass die lexikalische Entscheidungsaufgabe stärker als das laute Lesen durch semantische Prozesse beeinflusst wird, das stärker die syntaktische Kongruenz widerspiegelt. Mit Hilfe dieser beiden Zusatzaufgaben ist es also möglich, die beiden Teilbereiche des Parsing, die syntaktische und die semantische Verarbeitung eines Satzes, getrennt voneinander zu beobachten. Um die Einflüsse der Semantik auf das Verb erfassen zu können, verwendete Boland which-Fragesätze, bei denen das direkte Objekt-Argument vor dem Verb steht, z. B. die folgenden Satzfragmente, wobei BILL in allen Fällen das Target-Wort der PrimingProzedur darstellt: A2: Ambiges Verb mit zwei Argumenten: Which salad did Jenny toss … BILL? A3: Ambiges Verb mit drei Argumenten: Which baseball did Jenny toss … BILL? N2: Nicht ambiges Verb mit zwei Argumenten: Which necklace did Nancy inspect … BILL? N3: Nicht ambiges Verb mit drei Argumenten: Which necklace did Nancy describe … BILL? Die Vorhersagen der vier Theorien unterscheiden sich zum Teil gravierend voneinander. Zunächst soll auf die Vorhersagen der Theorien für die Methode des lauten Lesens
528 eingegangen werden, das stärker auf die syntaktische und weniger stark auf eine semantische Kohärenz des Satzes reagiert. Die autonom-serielle Theorie geht davon aus, dass beim ersten Parsing-Durchgang die einfachste syntaktische Struktur unabhängig von der Lesart des Verbs angestrebt wird. Dies ist sowohl für die ambigen als auch für die nicht-ambigen Verben eine syntaktische Struktur, bei der die wh-Phrase das direkte Objekt und das Target-Wort das indirekte Objekt darstellt. Da in allen vier Satztypen das Target-Wort als direktes Objekt erscheint, treten in allen Fällen in gleicher Weise Parsing-Probleme auf. Die Vorhersage auf der Basis der autonom-seriellen Theorie ist also, dass keine Unterschiede bei der Reaktion auf das Target-Wort zu beobachten sind: A3 ⫽ A2 ⫽ N3 ⫽ N2 Die interaktiv-parallele Theorie nimmt an, dass nur die syntaktisch und semantisch adäquate Satzergänzung akzeptiert wird, also A3. Die drei anderen Satzalternativen führen zu etwa gleichen Verarbeitungsschwierigkeiten, was zur folgenden Vorhersage führt: A3 < A2 ⫽ N3 ⫽ N2 Die autonom-parallele und die interaktiv-serielle Theorie führen zu einander entsprechenden Vorhersagen, denn beide Theorien nehmen die Aktivierung aller syntaktisch möglichen Argumentstrukturen beim Hören des ambigen Verbs toss an. Da das laute Lesen des Target-Worts BILL vor allem durch diese syntaktischen Kohärenzmöglichkeiten beeinflusst wird, sollten die beiden ambigen Verben, die diese syntaktische Kohärenz anbieten, leichter zu verarbeiten sein als die nichtambigen Verben, deren Ergänzung durch das Target-Wort aus syntaktischen Gründen nicht möglich ist: A3 ⫽ A2 < N3 ⫽ N2 Die Ergebnisse des Experiments für die mittleren Reaktionszeiten beim lauten Lesen des auf einem Bildschirm 150 ms vor dem akustischen Ende des Verbs visuell dargebotenen Target-Worts, nachdem die dazu gehörenden Satzfragmente ebenfalls wie das Verb akustisch über Kopfhörer präsentiert worden waren, bestätigen klar die Vorhersagen der autonom-parallelen und der interaktiv-seriellen Theorie (s. Tabelle 1). Für die lexikalische Entscheidungsaufgabe kommen die Theorien zu anderen Vorhersa-
IV. Sprachrezeption Tab. 39.1: Die mittleren Reaktionszeiten des lauten Lesens des Experiments von Boland (1997) in ms zwei Argumente drei Argumente ambiges Verb nicht-ambiges Verb
609
608
627
625
gen als für das laute Lesen, da jetzt vor allem die semantischen Prozesse zum Tragen kommen. Die beiden parallelen Theorien sagen ein besseres Abschneiden der Sätze mit semantisch plausiblen Ergänzungen als der unplausiblen Sätze voraus: A3 < N3 ⫽ A2 < N2 Auch die interaktiv-serielle Theorie leitet eine solche Vorhersage für die beiden ambigen Bedingungen aus ihren Annahmen ab, während die Verarbeitung der beiden nicht-ambigen Bedingungen größere Schwierigkeiten bereiten sollte, da hier keine kohärente syntaktische Struktur aufgebaut wird, die an den semantischen Prozessor weitergeleitet werden könnte: A3 < N3 ⫽ A2 ⫽ N2 Die Vorhersage der autonom-seriellen Theorie ist dagegen weniger klar, da diese davon abhängt, wie schnell die vorhergesagten Verarbeitungsprobleme auf der syntaktischen Ebene überwunden werden können. Die Ergebnisse der lexikalischen Entscheidungsaufgabe, die wie das laute Lesen ebenfalls 150 ms vor dem akustischen Ende des Target-Worts gestartet wurde, bestätigen die Vorhersagen der parallelen Theorien (s. Tabelle 2). Tab. 39.2: Die mittleren Reaktionszeiten der lexikalischen Entscheidungsaufgabe des Experiments von Boland (1997) in ms zwei Argumente drei Argumente ambiges Verb nicht-ambiges Verb
659
643
699
666
In einem weiteren Experiment untersuchte Boland den zeitlichen Verlauf der syntaktischen Aktivierung bei den vier Satzbedingungen mit Hilfe der Methode des lauten Lesens. Wie bei den anderen beiden Experimenten arbeitete sie mit einem Intervall von 150 ms
39. Parsing-Prozesse
zwischen dem Beginn der visuellen Präsentation des Target-Worts und dem akustischen Ende des Verbs. Hinzu kamen eine Experimentalbedingung, bei der das Target-Wort unmittelbar mit dem Ende des Verbs präsentiert wurde, und zwei weitere Bedingungen, in denen das Target-Wort 150 ms bzw. 300 ms nach dem Ende des Verbs dargeboten wurde. Die Ergebnisse dieses für eine Aufklärung der Parsing-Dynamik äußerst interessanten Experiments stärken die Vermutung, dass die vier diskutierten Theorien unterschiedliche Zeitpunkte der Syntaxverarbeitung fokussieren. Während die Vorhersagen der autonomparallelen und der interaktiv-seriellen Theorien am ehesten bei einem Intervall von 0 ms zutreffen, trifft dies für die interaktiv-parallele Theorie beim größten Intervall von .300 ms und für die autonom-serielle Theorie für die Intervalle von ⫺.150 ms und ⫹.150 ms zu. Diese Resultate deuten darauf hin, dass in einer frühen Phase der Verbverarbeitung die syntaktische Information unabhängig von der semantischen Information verarbeitet wird und im Laufe der weiteren Verarbeitung stärker auch die semantische Information bei syntaktischen Entscheidungen berücksichtigt wird. Dies stärkt die Sichtweise einer Unabhängigkeit der beiden Verarbeitungssysteme, aber auch einer unmittelbaren Aktivierung semantischen Wissens, wie sie in der autonom-parallelen Theorie von Boland (1997) vorgeschlagen werden. Wie das letzte Experiment von Boland allerdings zeigt, sollte dieser Ansatz durch einen Zeitparameter ergänzt werden, der Auskunft über den Beginn der Interaktion zwischen dem syntaktischen und dem semantischen Verarbeitungsbereich gibt. Hier kann eine systemische Perspektive hilfreich sein: Sowohl Syntax als auch Semantik werden als kognitive Systeme aufgefasst, die beide unabhängig voneinander und zeitlich parallel durch lexikalische Einheiten aktiviert werden. Beide kognitive Systeme integrieren die aufgenommenen Informationen so lange, bis sich hieraus eine emergente neue Qualität bildet, die dann an das jeweils andere System weitergegeben werden kann. Ein solches Parsing-Modell überwindet die zu starr gesetzten Grenzen sowohl zwischen Autonomie und Interaktivität als auch zwischen Serialität und Parallelität. 3.2. Systemische Modellierung Systemische Ansätze des Parsings gehen von wahrscheinlichen und unwahrscheinlichen Zuständen von Systemen in Abhängigkeit
529 von ihren Umwelten aus. Diese Ansätze berücksichtigen dementsprechend stärker als andere die Auftretenshäufigkeit bestimmter syntaktischer Strukturen in Abhängigkeit von ihrem lexikalischen, syntaktischen und semantischen Kontext (Tabor, Juliano & Tanenhaus, 1997). Die Syntaxverarbeitung strebt zu jedem Zeitpunkt stabile Zustände an, die als Attraktoren bezeichnet werden, wobei die Stärke der Attraktoren durch die verschiedenen Kräfte, die in ihre Richtung wirken, bestimmt wird. Lokale Ambiguitäten führen zu einem Wettbewerb zwischen verschiedenen Attraktoren. Die Verarbeitungszeit eines Satzes entspricht der Zeitdauer, die benötigt wird, um die verschiedenen lokalen Attraktoren zu durchlaufen und einen für den ganzen Satz geltenden globalen Attraktor zu erreichen. Die syntaktisch-semantische Struktur eines Satzes kann aus systemischer Sicht durch die Folge der Attraktoren, die das System während der Verarbeitung durchläuft, dargestellt werden. Um die Kontextabhängigkeit des Parsers zu demonstrieren, arbeiteten Tabor et al. mit Sätzen, deren korrekte syntaktische Struktur stark vom Kontext abhängig ist. Sie nutzten dabei die Ambiguität des Worts that aus, das unter anderem als Konjunktion oder als Demonstrativpronomen verwendet werden kann. Steht that am Satzanfang, wird es häufig als Demonstrativpronomen verwendet, steht es nach einem Verb, als Konjunktion. Die Disambiguierung kann durch den Numerus des nachfolgenden Nomens und Verbs erreicht werden, z. B. in den folgenden Beispielsätzen: Verb ⫹ Demonstrationspronomen: The lawyer insisted that cheap hotel was clean and comfortable. Verb ⫹ Konjunktion: The lawyer insisted that cheap hotels were clean and comfortable. Satzanfang ⫹ Konjunktion: That cheap hotels were clean and comfortable surprised us. Satzanfang ⫹ Demonstrativpronomen: That cheap hotel was clean and comfortable to our surprise. Die Lesezeiten vor allem des Verbs zeigten, dass die Versuchspersonen that in Abhängigkeit vom Kontext interpretierten: Stand that nach einem Verb, so waren die Lesezeiten für die Singularbedingung länger als nach der
530
IV. Sprachrezeption
Pluralbedingung, was darauf hindeutet, dass that als Konjunktion interpretiert wurde: Bei der Anfangsstellung von that verhielt es sich genau umgekehrt. Entsprechende Resultate, die die Wirkung der lexikalischen Spezifität und Vorkommenshäufigkeit demonstrieren, zeigen mehrere weitere Experimente von Tabor et al. (1997).
4.
Die Methodenfrage
Bei der Untersuchung der Parsing-Prozesse geht es um sehr schnelle und schwer zu beobachtende Vorgänge, die zum größten Teil unterhalb der Bewusstseinsschwelle ablaufen. Die Frage einer adäquaten Methodenwahl ist deshalb ausschlaggebend für die Qualität der experimentellen Ergebnisse. Mit der Entwicklung neurophysiologischer Methoden in den letzten Jahren steht inzwischen ein Instrumentarium zur Verfügung, das den hohen Anforderungen in diesem Bereich Rechnung trägt, indem nicht nur Reaktionszeiten des Prozessors, sondern auch die Qualität und die Lokalisation im Gehirn festgestellt werden können (Friederici & von Cramon, 1999). So zeigten van Berkum, Brown und Hagoort (1999a, b) in Studien mit Hilfe der auf der Basis eines Elektroenzephalogramms durchgeführten ERP-Methode (Event-Related Potentials), dass solche referentiellen Aspekte, wie sie bereits Crain und Steedman (1985) untersucht hatten, schon während der Verarbeitung des kritischen Nomens aktiviert werden, also nahezu genauso schnell wie seine syntaktischen und konzeptuellen Attribute. Dieser Befund unterstützt eine wortorientierte Theorie der Sprachverarbeitung, nach der jedes Wort unmittelbar auf allen Ebenen des Sprachsystems zumindest teilweise verarbeitet wird. Da die daran beteiligten Prozesse unterschiedlich komplex und verarbeitungsrelevant sind sowie manchmal weitere Informationen einbezogen werden müssen, können die einzelnen Teilprozesse sehr unterschiedlich lang dauern (Friederici, Steinhauer & Frisch, 1999; Friederici & von Cramon, 1999). So scheint das grammatische Geschlecht relativ vorsichtig im Parsing-Prozess Verwendung zu finden (van Berkum et al., 1999a). Zudem fanden van Berkum et al. (1999b), dass die referentielle Interpretation unmittelbar den syntaktischen Parsing-Prozess beeinflusste, so dass je nach vorgegebener Referenzalternative der Experimental-
texte die Komplementlesart oder die Relativsatzlesart favorisiert wurde. Dieser Befund widerspricht der autonomen Parsing-Theorie, nach der die Komplementlesart in allen Fällen bevorzugt werden sollte. Da der Komplementsatz in 78 % der im Experiment verwendeten Sätze ein obligatorisches Argument des Verbs darstellte und auch bei diesen Sätzen der Einfluss des referentiellen Kontextes festzustellen war, werden auch solche hybriden Parsing-Theorien wie die Construal Theory von Frazier und Clifton (1996) in Frage gestellt. Nach diesem Ansatz sollten obligatorische Argumente jedenfalls die präferierte Richtung des Parsers bestimmen, während bei optionalen Argumenten der semantische Kontext eine größere Rolle spielt. In Zukunft muss die feinkörnige Auflösung der am Parsing beteiligten Prozesse, wie sie durch neurophysiologische Methoden sehr viel besser beobachtet werden kann, das Fundament der Modellierung bilden. Erst auf dieser Grundlage hat die Parsing-Theorie die Chance, sich von ihrer zunächst weitgehend spekulativen und empirisch inadäquaten Vorgehensweise der letzten Jahrzehnte zu lösen.
5.
Schluss
Ein wichtiges Kriterium für eine Entscheidung über eine psycholinguistische Teiltheorie stellt neben ihrer empirischen Adäquatheit die Integrationsmöglichkeit dieser Theorie in benachbarte Bereiche der Psycholinguistik dar. Für eine Parsing-Theorie ist neben der Sprachproduktion vor allem der Erstspracherwerb relevant, da in den einzelnen Entwicklungsschritten, die ein Kind bis zur vollständigen Syntaxkompetenz macht, einige der Teilprozesse der Syntaxverarbeitung möglicherweise deutlicher beobachtbar sind als im Erwachsenenalter. Zunehmend wichtiger werden zudem neurolinguistische Untersuchungen, mit deren Hilfe die Aktivitäten des Gehirns bei der Syntaxverarbeitung analysiert werden können. Eine Durchsicht von Studien zum Spracherwerb ergibt, dass der Syntaxerwerb eng verbunden ist vor allem mit dem Erwerb lexikalischen Wissens (Bates & Goodman, 1997). Je komplexer, situierter und dynamischer die Theorien der syntaktischen Verarbeitung werden, umso wichtiger wird die Implementierung dieser Theorien in Computermodelle, um Vorhersagen aus diesen Theorien ableiten und sie so empirisch überprüfen zu können.
39. Parsing-Prozesse
Hinzu kommt eine weitere wichtige Forschungsdimension, die durch Computermodelle eröffnet wird. Mit ihrer Hilfe lassen sich streng kontrollierte Experimente mit Maschinen durchführen, deren Resultate mit entsprechenden Experimenten mit Menschen verglichen werden können. Rickheit und Strohner (1993) nennen diese Verbindung menschlicher und maschineller experimenteller Forschung die experimentell-simulative Methode. Mit ihrer Hilfe ist es möglich, sowohl zu einer neuen Präzision der Empirie als auch zu einer neuen Qualität von Theoriebildung in der Sprachverarbeitung zu gelangen, in der die immer deutlicher werdende Differenziertheit und komplexe Dynamik der Sprachverarbeitung adäquat berücksichtigt werden kann. Zudem ist es möglich, die große Aufgabe der Psycholinguistik – nicht nur die Verarbeitung von Sprache, sondern auch ihre ständige Veränderung im Individuum zu erklären – mit einem geeigneten methodischen Rüstzeug anzugehen. Die Antwort auf die Frage, wie solche Computermodelle im Einzelnen aussehen sollten, kann nicht unabhängig von der neuronalen Grundlage der Sprachverarbeitung entschieden werden.
6.
Literatur
Altman, G. T. M. & Steedman, M. (1988). Interaction with context during human sentence processing. Cognition, 30, 191⫺238. Bates, E. & Goodman, J. C. (1997). On the inseparability of grammar and the lexicon: Evidence from acquisition, aphasia and real-time processing. Language and Cognitive Processes, 12, 507⫺584. Berkum, J. J. A. van, Brown, C. M. & Hagoort, P. (1999a). When does gender constrain parsing? Evidence from ERPs. Journal of Psycholinguistic Research, 28, 555⫺571. Berkum, J. J. A. van, Brown, C. M. & Hagoort, P. (1999b). Early referential context effects in sentence processing: Evidence from event-related brain potentials. Journal of Memory and Language, 41, 147⫺182. Bever, T. G., Sanz, M. & Townsend, D. J. (1998). The emperor’s psycholinguistics. Journal of Psycholinguistic Research, 27, 261⫺284. Boland, J. E. (1997). The relationship between syntactic and semantic processes in sentence comprehension. Language and Cognitive Processes, 12, 423⫺484. Boland, J. E. & Cutler, A. (1996). Interaction with autonomy: Multiple output models and the inadequacy of the great divide. Cognition, 56, 309⫺320.
531 Crain, S. & Steedman, M. (1985). On not being led up the garden path: The use of context by the psychological syntax processor. In D. R. Dowty, L. Karttunen & A. R. Zwicky (Eds.), Natural language parsing (pp. 320⫺358). Cambridge, UK: Cambridge University Press. Ferreira, F. & Clifton, C. (1986). The independence of syntactic processing. Journal of Memory and Language, 25, 348⫺368. Ferreira, F. & Henderson, J. M. (1990). Use of verb information in syntactic parsing: Evidence from eye movements and word-by-word self-paced reading. Journal of Experimental Psychology: Learning, Memory and Cognition, 16, 555⫺568. Ferstl, E. & Flores d’Arcais, G. (1999). Das Lesen von Wörtern und Sätzen. In A. D. Friederici (Ed.), Sprachrezeption (pp. 203⫺242). Göttingen: Hogrefe. Frazier, L. (1978). On comprehending sentences: Syntactic parsing strategies. Bloomington, IN: Indiana University Linguistics Club. Frazier, L. (1987). Theories of sentence processing. In J. L. Garfield (Ed.), Modularity in knowledge representation and natural language processing (pp. 291⫺308). Cambridge, MA: MIT Press. Frazier, L. (1989). Against lexical generation of syntax. In W. D. Marslen-Wilson (Ed.), Lexical representation and process (pp. 505⫺528). Cambridge, MA: MIT Press. Frazier, L. & Clifton, C., Jr. (1996). Construal. Cambridge, MA: MIT Press. Friederici, A. D. & von Cramon, D. Y. (1999). Neurobiologische Grundlagen des Sprachverstehens. In A. D. Friederici (Ed.), Sprachrezeption (pp. 307⫺349). Göttingen: Hogrefe. Friederici, A. D., Steinhauer, K. & Frisch, S. (1999). Lexical integration: Sequential effects of syntactic and semantic information. Memory & Cognition, 27, 438⫺453. Hemforth, B. & Strube, G. (1999). Syntaktische Struktur und Sprachperzeption. In A. D. Friederici (Ed.), Sprachrezeption (pp. 243⫺270). Göttingen: Hogrefe. Jackendoff, R. (1998). The architecture of the language faculty: A neominimalist perspective. In P. W. Culicover & L. McNally (Eds.), Syntax and semantics, Vol. 29: The limits of syntax (pp. 19⫺46). San Diego. Academic Press. Langacker, R. W. (1999). Grammar and conceptualization. Berlin: Mouton de Gruyter. MacDonald, M. C. (1997). Lexical representation and sentence processing: An introduction. Language and Cognitive Processes, 12, 123⫺136.
532
IV. Sprachrezeption
Marslen-Wilson, W. D. (1973). Linguistic structure and speech shadowing at very short latencies. Nature, 244, 522⫺523. Marslen-Wilson, W. D., Brown, C. & Tyler, L. K. (1988). Lexical representation in language comprehension. Language and Cognitive Processes, 3, 1⫺6. Mitchell, D. C. (1987). Lexical guidance in human parsing: Locus and processing characteristics. In M. Coltheart (Ed.), Attention and performance XII (pp. 601⫺618). Hove, UK: Lawrence Erlbaum. Mitchell, D. C. (1994). Sentence parsing. In M. A. Gernsbacher (Ed.), Handbook of Psycholinguistics (pp. 375⫺409). San Diego: Academic Press. Rickheit, G. & Strohner, H. (1993). Grundlagen der kognitiven Sprachverarbeitung. Tübingen: Francke (UTB). Tabor, W., Juliano, C. & Tanenhaus, M. K. (1997). Parsing in a dynamical system: An attractor-based account of the interaction of lexical and structural constraints in sentence processing. Language and Cognitive Processes, 12, 211⫺271.
Tanenhaus, M. K., Carlson, G. N. & Trueswell, J. C. (1989). The role of thematic structures in interpretation and parsing. Language and Cognitive Processes, 4, 211⫺234. Tanenhaus, M. K. & Trueswell, J. C. (1995). Sentence comprehension. In J. L. Miller & P. D. Eimas (Eds.), Speech, language and communication (pp. 217⫺262). San Diego: Academic Press. Trueswell, J. C. (1996). The role of lexical frequency in syntactic ambiguity resolution. Journal of Memory and Language, 35, 566⫺585. Trueswell, J. C., Tanenhaus, M. K. & Garnsey, S. M. (1994). Semantic influences on parsing: Use of thematic role information in syntactic ambiguity resolution. Journal of Memory and Language, 33, 285⫺318. Tyler, L. K. & Marslen-Wilson, W. D. (1977). The on-line effects of semantic context on syntactic processing. Journal of Verbal Learning and Verbal Behavior, 16, 683⫺692.
Hans Strohner Universität Bielefeld (Deutschland)
40. Verstehen von Diskursen 1. 2. 3. 4.
Zum Text- und Diskursbegriff Konzeptionen zum Textverstehen und zur Textverständlichkeit Zusammenfassung zentraler Fragestellungen Literatur
Die bisherigen Ausführungen im Kapitel 36 Sprachverstehen haben sich eher mit elementaren Prozessen und kürzeren sprachlichen Äußerungen beschäftigt, mit der Wahrnehmung von Lauten, dem Erkennen und Verarbeiten von Worten sowie dem Satzverstehen. In natürlichen Situationen haben wir es jedoch in der Regel mit komplexeren und längeren sprachlichen Gebilden zu tun, etwa in Form von längeren Gesprächen mit Rede und Gegenrede, mit Zeitungstexten, Lehrbüchern, Vorlesungsmitschriften, Romanen oder in zunehmendem Maße auch mit per Computer vermittelten Texten zu unterschiedlichsten Themen unter Verwendung sehr variabler Gestaltungstechniken. Die wissenschaftliche Auseinandersetzung mit derartigen sprachlichen Mitteilungen hat in den letzten 30 Jahren eine recht rasante Entwicklung genommen. Orientierte sich die Forschung zunächst auf die Untersuchung
der Struktur und der Wirkung von Textkomponenten auf das Verstehen, so wurden zu Beginn der 70er Jahre insbesondere durch den Einfluss kognitionspsychologischer Theorien die Frage nach der mentalen Repräsentation von Text bzw. Diskurs und nach dem Prozess, der zum Aufbau solcher Textrepräsentationen führt, in den Mittelpunkt des Interesses gerückt (Ballstaedt, Mandl, Schnotz & Tergan, 1981; Kintsch & v. Dijk, 1978; Thorndyke, 1977). Als wesentlicher Mangel erster umfassender Konzeptionen (Kintsch & v. Dijk, 1978; Thorndyke, 1977) stellte sich die ungenügende Betrachtung von Textverstehen als Sprecher-Hörer- bzw. Text(autor)-LeserInteraktion heraus. Dem tragen neuere Theorien z. B. durch die explizite Einbeziehung von Lesereigenschaften (Vorwissen, Zielstellungen, Einstellungen) sowie eher funktional orientierte Konzeptionen Rechnung, die Text oder Diskurs als Mittel zur Realisierung sprachlicher Handlungen, als Instrument in der sprachlichen Kommunikation zur Durchsetzung spezifischer Ziele etwa gegenüber einem oder mehreren Rezipienten der Äußerung betrachten (Kintsch, 1988; Schnotz, 1986; Strohner, 1990; Herrmann & Gra-
40. Verstehen von Diskursen
bowski, 1994; Rickeit & Strohner, 1999). Nach einigen allgemeinen Bemerkungen zum Text- und Diskursbegriff wollen wir mit einer konkreteren Beschreibung einiger Herangehensweisen und Modellkonzeptionen diese Entwicklung nachvollziehen, ehe wir am Ende auf einige modellübergreifende zentrale Fragestellungen und die Beiträge der dargestellten Konzeptionen zu deren Beantwortung zurückkommen (Verarbeitungseinheiten, Verhältnis von Text- und Lesereigenschaften, Kohärenz).
1.
Zum Text- und Diskursbegriff
Die große Variabilität der Begriffsbestimmungen hängt mit der Unterschiedlichkeit der eingangs kurz erwähnten Konzeptionen zusammen (Titscher, Wodack, Meyer & Vetter, 1998: 37). Die Auffassung, alle Äußerungen, die über die Länge eines Satzes hinausgehen, können als Text klassifiziert werden, wäre sicherlich zu kurz gegriffen. Einen wesentlichen Aspekt benennt van Dijk, wenn er davon ausgeht, dass „nur die Satzsequenzen, die eine Makrostruktur besitzen, … als Texte bezeichnet werden“ (van Dijk, 1980: 41). Sie sollten einem Rahmenthema oder einer Überschrift zuzuordnen sein. Einen recht differenzierten Kriterienkatalog formulieren de Beaugrande und Dressler (1981: 10 ff.). Texte sollten sich danach durch die Merkmale Kohäsion, Kohärenz, Intentionalität, Akzeptabilität, Informativität, Situationalität und Intertextualität auszeichnen (Titscher, Wodack, Meyer & Vetter, 1998: 39 ff.). Mit Kohäsion ist die Verbundenheit von sprachlichen Sequenzen nach grammatischen Regeln, die über die Satzstrukturen hinausgehen, gemeint. Kohäsionsstiftende Mittel sind beispielsweise die Wiederholung (Rekurrenz) von Satzteilen, Rückverweise (Anaphern) oder Konjunktionen. Kohärenz zielt hier dagegen eher auf eine semantische Verbundenheit ab, etwa dass das im Text Gemeinte zusammengehörigen begrifflichen Strukturen im Weltwissen bzw. beim Leser zugeordnet werden kann (Rickheit, 1991). Eine Intentionalität liegt vor, wenn der Sprachproduktion ein Motiv zugrundeliegt. Der Rezipient muss dabei die aufgenommene Folge sprachlicher Einheiten auf der Basis der Kenntnis entsprechender Konventionen als Text akzeptieren können. Ein Text sollte ein hinreichendes Maß an neuen Informationen in Qualität und Quantität für den Leser aufweisen (Informa-
533 tivität). Texte oder Diskurse sind eigentlich in jedem Fall in eine spezifische Kommunikationssituation eingebettet, die wiederum die Art der Produktion eines Textes, die Interpretation in der Rezeptionsphase oder deren Kenntnis die Akzeptanz eines Textes als solchen beeinflussen (Situationalität). Intertextualität spiegelt sowohl den Aspekt wider, dass Texte sich immer, oft unausgesprochen, auf andere beziehen, wie auch die Existenz spezifischer Texttypen, deren Aufbau wiederum besonderen Strukturierungsregeln folgt. Titscher, Wodack, Meyer und Vetter (1998: 41) unterscheiden beispielsweise narrative Textsorten (Erzählungen, Geschichten) von argumentativen Texten (wissenschaftliche Artikel), deskriptiven Texten (Gegenstandsoder Ortsbeschreibungen) und instruktiven Texten (Lehrbücher, Handanweisungen). Rickheit und Strohner favorisieren eine funktional orientierte Definition des Textbegriffs, in der Texte in Beziehung zu übergeordneten Systemen in Beziehung gebracht werden. Danach ist ein Text beispielsweise als sprachliche Einheit aufzufassen, die der Realisierung einer sprachlichen Handlung dient (Rickeit & Strohner, 1999: 272). Diese Bindung an den Begriff der sprachlichen Handlung bringt den Vorteil der Integration des Textbegriffs in eine umfassendere Konzeption sprachlicher Kommunikation, erfordert andererseits eine Berücksichtigung von weit mehr Variablen bei einer Modellierung von Textverstehensprozessen. Einige Bemerkungen zum Verhältnis von Text und Diskurs und zum Diskursbegriff: Eine klare Abgrenzung insbesondere in der empirischen Forschung wird zunehmend schwierig, zumal vor allem zum Diskursbegriff sehr unterschiedliche Auffassungen zu finden sind. In Begriffsdefinitionen für ‘Diskurs’ finden sich solche Aspekte wie: in Form mündlicher Sprache vermittelt, gesprochen im Dialog, argumentative und kontroverse Diskussion, unter Beteiligung mehrerer Teilnehmer, gedankliche Folgerung, gebunden an sprachliches Genre und soziale Situationen, Text im Kontext, Fassung als sprachliche Handlung usw. (Titscher, Wodack, Meyer & Vetter, 1998: 43 f.; Vass, 1992: 9; van Dijk & Kintsch, 1983: 2). Die Quelle der Variabilität liegt im sehr unterschiedlich motivierten Gebrauch des Begriffs, zum Beispiel umgangssprachlich, linguistisch oder philosophisch. Bemerkenswert erscheint die zunehmende Überschneidung von Text- und Diskursbegriff. Dies äußert sich beispielsweise in dem
534
IV. Sprachrezeption
eingangs erwähnten, funktionalen und damit komplexeren Textbegriff von Rickheit und Strohner (1999: 272), aber auch in den textexternen Merkmalen Intentionalität, Akzeptabilität, Informativität, Situationalität und Intertextualität von de Beaugrande und Dressler (1981: 10 ff.). In den nachfolgenden Darstellungen werden wir uns eher auf Konzeptionen beziehen, die sich aus der textanalytischen und kognitionspsychologischen Tradition entwickelt haben.
2.
Konzeptionen zum Textverstehen und zur Textverständlichkeit
2.1. Textverständlichkeitsformeln und expertenorientierte Ansätze zur Textverständlichkeit Die hier darzustellenden Konzeptionen folgen primär angewandten Fragestellungen, nämlich der Bereitstellung von praktikablen und zuverlässigen Methoden zur Bestimmung der Verständlichkeit von Texten, aus denen gegebenenfalls auch Strategien zur gezielten Verbesserung von bereits vorliegenden Texten abgeleitet werden können. Zwei Verfahrenstypen haben sich im Anfangsstadium der modernen Textforschung herausgebildet und erfreuen sich auch heute noch einer beachtlichen, ihrer Vorteile geschuldeten Beliebtheit: Lesbarkeits- bzw. Verständlichkeitsformeln und sog. expertenorientierte Verständlichkeitsmessmethoden (Beyer, 1987: 8 f.; Ballstaedt, Mandl, Schnotz & Tergan, 1981: 212; Rickheit, 1995; Rickheit & Strohner, 1999: 296 f.). Vor allem aus praktischen Erwägungen konzentrierte man sich bei der Konstruktion von Lesbarkeitsformeln auf die Auszählung und die anschließende Verrechnung von Satzund Textoberflächenmerkmalen zu einem Lesbarkeits- bzw. Verständlichkeitsindex. Die Formeln unterscheiden sich in der Anzahl, Art und Gewichtung von derartigen Merkmalen. Beispielsweise bezieht Briest (1974: 520 ff.) die Merkmale Satzlänge, Anzahl der Satzglieder, Fremdwörter, abstrakte Wörter, substantivische Attribute, die Wortdistanz im Satzrahmen und die Verbintensität in seine Formel ein, gewichtet die Merkmale und unterscheidet zwischen negativen und positiven Komponenten bei vorliegender hoher Merkmalsausprägung. Mit wenigen und relativ leicht auszählbaren Textmerkmalen kommt die Formel von Flesch (1948: 225 ff.) aus, die von Amstad (1978: 20 ff.) für den deutschpra-
chigen Raum adaptiert wurde (Abbildung 40.1). Anzahl Wörter
Verständlichkeitsindex = 180
Anzahl Sätze +
Anzahl Silben Anzahl Wörter.
*58,5
Abb. 40.1: Formel von Flesch (1948) und Amstadt (1978) zur Beurteilung der Textverständlichkeit
Der Index kann Werte zwischen 0 und 100 annehmen, wobei Werte nahe 100 sehr leichte Texte signalisieren. Dickes und Steiwer (1977: 22 ff.) ergänzen zu einer ähnlichen Formel noch eine sog. Typ-Token-Ratio, ein Redundanzmaß, das sich aus dem Verhältnis der Anzahl unterschiedlicher Wörter zur Anzahl der Wörter insgesamt ergibt. Die Vorteile dieser Methoden liegen auf der Hand: Sie sind objektiv, reliabel und leicht zu handhaben. Die Nachteile, die den Autoren durchaus bewusst sind, liegen vor allem in der alleinigen Konzentration auf Textoberflächenmerkmale und die Ausblendung von Textsemantik, Kontext und von Lesereigenschaften (Vorwissen, Motive usw.), ganz abgesehen vom Mangel einer kognitionspsychologisch fundierten Begründung der erwarteten Effekte (Schulz von Thun, Goebel & Tausch, 1973: 224 f., Rickheit & Strohner, 1999: 297). Mit ihrer sogenannten Hamburger Verständlichkeitskonzeption und einem Verfahren, das auf Expertenurteilen beruhte, wollten Langer, Schulz von Thun und Tausch (1974) einigen dieser Kritikpunkte begegnen. Dabei geben die Experten mit Hilfe von bipolaren, siebenstufigen Ratingskalen Urteile bezüglich verschiedener Merkmale ab (z. B.konkret-abstrakt, folgerichtig-zusammenhangslos, zu kurz-zu lang, persönlich-unpersönlich), die faktorenanalytisch auf die vier Dimensionen Einfachheit, Gliederung, Kürze-Prägnanz und zusätzliche Stimulanz reduziert werden können. Ein Vorzug dieser Methode ist zweifellos die Berücksichtigung satzübergreifender Merkmale und von Aspekten, die über die sprachlich-stilistische Gestaltung hinausgehen (Gliederung-Ordnung). Insgesamt dominiert jedoch ähnlich wie bei den Formeln der Bezug auf Textmerkmale. 2.2. Textgrammatiken und Top-down-Konzepte Weitaus interessanter für die Textforschung aus psycholinguistischer Sicht sind Modellansätze, die versuchen, Vorhersagen bezüglich
40. Verstehen von Diskursen
der Textverständlichkeit oder bezüglich der zu erwartenden Behaltensleistungen als Konsequenz aus einer kognitions- bzw. gedächtnispsychologischen Theorie der Text- und Diskursverarbeitung abzuleiten. Zwei Typen von derartigen Konzeptionen bestimmten in den 70er Jahren das Bild: sog. Top-downund Bottom-up-Modelle (Thorndyke, 1977: 77 ff.; Mandler, 1982: 130 f.; Klein & v. Stutterheim, 1987: 163 f.; Kintsch & van Dijk, 1978). Der erste Ansatz geht von bereits vorhandenen Gedächtnisstrukturen zum Textinhalt beim Leser aus, die den Prozess der Textverarbeitung leiten, beim zweiten Ansatz initiiert in erster Linie die eingehende Textinformation spezifische Prozessschritte. Als Beispiel für ein Top-down-Modell gilt die Konzeption von Thorndyke (1977: 77 ff.), die insbesondere auf das Verstehen von narrativen Texten bzw. Geschichten zugeschnitten ist. Grundlage ist die These, dass sich zumindest dieser Texttyp durch eine relativ konstante, hierachisch geordnete Struktur, eine sog. Superstruktur, auszeichnet: Einleitung, Thema, Fabel, Auflösung. Die Einleitung besteht aus Informationen zu Personen, Zeit und Ort. Das Thema ist zerlegbar in Ereignis(se) und Ziel(e). Die Fabel setzt sich aus Episoden zusammen usw. Akzeptable Varianten solcher Strukturen können ähnlich wie bei einer generativen Grammatik auf der Satzebene durch eine definierte Menge von zum Teil rekursiven Ersetzungsregeln produziert werden. Den Prozess des Aufbaus einer Textrepräsentation und des Textverstehens kann man sich folgendermaßen vorstellen: Eine erste Information aus dem expliziten Text (z. B. „Es war einmal …“) signalisiert dem Leser den Texttyp, was die Aktivierung der Geschichtensuperstruktur auslöst. Diese Struktur erleichtert sowohl den effektiven Aufbau einer mentalen, hierarchisch geordneten und kohärenten Organisation der aufgenommenen Textinformation als auch die Bildung von Erwartungen bezüglich später eingelesener Textinformation. Zwei Konsequenzen sind wesentlich: a) Texte, die der typischen Struktur des Genres entsprechen, werden als leichter verständlich eingeschätzt und sind besser reproduzierbar. b) Textinhalte, die höheren Hierarchieebenen zuzuordnen sind, werden besser behalten. Eine Reihe von Experimenten bestätigt diese These (Thorndyke, 1977: 85 ff.; Beyer, 1987: 42 ff.). Zumindest zwei Probleme sind jedoch kaum zu lösen: Nicht für alle Textarten kann
535 eine so stabile schematische Struktur wie bei traditionellen Geschichten und Märchen unterstellt werden. Auch aus diesem Grund konzipieren Herrmann und Grabowski (1994) die Schemasteuerung der Sprachproduktion als nur eine Produktionsvariante unter anderen (vergleiche dazu auch Kapitel 15 in diesem Band). Eine zweite Schwierigkeit besteht in einer objektiven Zuordnung von einzelnen Textaussagen zu den postulierten Hierarchieebenen der Superstruktur. Letzteres deutet auf eine geringe Präzision sowohl bei der Definition von Verarbeitungseinheiten als auch bei der Modellierung von elementaren Textverarbeitungsprozessen hin. Ein Vorzug des Modells, der sich auch in moderneren Konzeptionen wiederfindet, ist die explizite Integration von Leser- und Genrewissen. 2.3. Textgeleitete bzw. Bottom-up-Modelle Der Prototyp eines Bottom-up-Ansatzes ist das Modell von Kintsch und van Dijk in der Version von 1978 (Kintsch & van Dijk, 1978: 367 ff.). Ein entscheidender Ausgangspunkt ist die präzise Definition der elementaren Verarbeitungseinheit: Es wird angenommen, dass die explizite Textinformation in Propositionen transformiert und repräsentiert wird. Eine Proposition besteht aus einem Prädikat und einem oder mehreren Argumenten. Das Prädikat hat in der Regel die Funktion, eine Relation zwischen den Argumenten abzubilden. Beispielsweise könnte man den Satz „Der Junge bastelt ein Flugzeug“ in die Proposition BASTELN (JUNGE, FLUGZEUG) überführen. Für diese Repräsentationsannahme sprechen verschiedene experimentelle Befunde. Zum Beispiel wird bei einer Cued-recall-Anforderung das auf einen Cue im Lerntext folgende Wort besser reproduziert, wenn Cue-Wort und nachfolgendes Wort der gleichen Proposition im zuvor gelesenen Text zuzuordnen sind (Lesgold, 1972: 318 ff.; Wanner, 1975: 15 ff.). Ein anderer Befund zeigt, dass Sätze schneller gelesen werden, wenn sie bei identischer Wort- und Silbenanzahl weniger Propositionen enthalten (Kintsch & Keenan, 1973: 260 ff.). Die Propositionen eines Textes weisen Verbindungen auf, kenntlich durch Argumentwiederholungen und Propositionseinbettungen. Diese Verbindungen werden genutzt, so eine zentrale Prozessannahme, um eine hierarchische Textrepräsentation zu konstruieren, den sog. Kohärenzgraphen. Dabei erhält eine Proposition, die Verbindungen zu vielen
536
IV. Sprachrezeption Text: Der Junge bastelt ein Flugzeug. Er benutzt eine große Säge. Das Flugzeug ist fast fertig. Der Junge ist froh. Propositionsliste: 1. (BASTELN, JUNGE, FLUGZEUG) 2. (BENUTZEN, ER (=JUNGE), SÄGE) 3. (GROSS, SÄGE) 4. (FERTIG, FLUGZEUG) 5. (FAST, (4)) 6. (FROH, JUNGE) Kohärenzgraph:
1. Hierarchieebene
2. H.ebene
3. H.ebene
1
2
3
4
5
6
Abb. 40.2: Beispiel für die Transformation eines Textes in Propositionen und die Konstruktion des Kohärenzgraphen nach Kintsch und van Dijk (1978)
anderen Propositionen hat, den Spitzenplatz. Propositionen, die durch Argumentüberlappung oder Einbettung mit ihr in Beziehung stehen, werden ihr direkt untergeordnet. Propositionen, die keine Verbindung zur Spitzenproposition aufweisen, aber mit einer Proposition der zweiten Ebene ein Argument teilen, werden der dritten Hierarchieebene zugeordnet usw. Ein Beispiel soll diesen Teilprozess veranschaulichen (Abbildung 40.2). Ganz entscheidend für die Begründung von Vorhersagen für die Textverständlichkeit und vor allem für die Behaltensleistung spezifischer Textaussagen ist die Annahme einer zyklischen Konstruktion des Kohärenzgraphen. Ein erster Textabschnitt, in der Regel der erste Satz, wird in ein Arbeitsgedächtnis eingelesen, in Propositionen transformiert, in einem Teilkohärenzgraphen organisiert und ins Langzeitgedächtnis (LZG) kopiert. Einige Propositionen, die hierarchiehöchsten und neuesten (sog. leading-edge strategy), werden in einem Kurzzeitbuffer für die gemeinsame Bearbeitung mit den nächsten Textinformationen, dann wieder im Arbeitsgedächtnis, aufbewahrt. Im Ergebnis des zweiten Zyklus wird die Textrepräsentation im LZG vervollständigt und erneut eine Propositionengruppe für den nächsten Zyklus selektiert usw. Parallel zu diesen Prozeduren findet ebenfalls in mehreren Etappen eine Makropropositionsbildung statt. Darunter wird die Reduktion der gesamten Textrepräsentation (Textbasis) auf wesentliche Inhalte mit Hilfe von Makrooperatoren (Generalisierung, Aus-
lassung und Selektion) verstanden. Eine steuernde Funktion übernehmen hier Vorwissensschemata. Durch diese angenommenen Prozeduren können mindestens zwei Vorhersagen abgeleitet werden: 1. Hierarchiehohe Propositionen sollten stabiler im Gedächtnis eingetragen und besser behalten werden, da sie mit höherer Wahrscheinlichkeit, die leading-edge strategy unterstellt, in mehreren Zyklen bearbeitet werden. 2. Die Textverständlichkeit hängt von der Anzahl auftretender Kohärenzlücken ab. Kohärenzlücken führen zu zusätzlichem kognitiven Aufwand. Sie können durch Suche im LZG nach verbindenden, aber in früheren Zyklen ausgesonderten Propositionen und deren Reintegration in den aktiven Arbeitsprozess (Reinstatements) oder durch die Suche und Integration von verbindenden Vorwissenselementen (Inferenzen) behoben werden. Diese Konzeption gilt als das erste umfassende Modell des Textverstehens, hat wie kein anderes die kognitive Textforschung beeinflusst. Ein wesentlicher Vorteil liegt in der relativen Präzision der Repräsentations- und Prozessannahmen. Dies erlaubt die Ableitung empirisch gut prüfbarer Modellvorhersagen, macht das Modell aber auch angreifbar. Die Befundlage zur Prüfung der Hypothesen ist differenziert. Hierarchieeffekte zum Beispiel in Reproduktionsexperimenten und auch negative Einflüsse von Kohärenzlücken sind durchaus nachweisbar (Kintsch & Vipond, 1979: 340 ff.; Miller & Kintsch, 1980: 338 ff.; Schnotz, 1986: 32 f.; Beyer, 1987:
40. Verstehen von Diskursen
20 ff.). Es zeigt sich jedoch, dass die Ergebnismuster durch die gezielte Variation weiterer Variablen ganz wesentlich modifiziert werden können (Textlänge, Vorwissen, Motive, Einstellungen des Lesers, situative Einbettung, Textgenre). Dies signalisiert einige, zum Teil erhebliche Defizite des Modells. Ein ganz wesentlicher Punkt ist die Ungenauigkeit der Kriterien bei der Auswahl der Spitzenproposition, der Selektionsstrategie im zyklischen Prozess und bei der Makropropositionsbildung. Dass diese Vorgänge primär textgeleitet sind, ist sicherlich eine grobe und vorläufige Vereinfachung. Gerade hier sollten Vorwissen und Zielstellungen des Lesers sowie die situative Einbindung des Textes eine wesentliche Rolle spielen (Schnotz, 1986: 34 f.; Beyer, 1987: 14). Im Ansatz wird dies im Modell durch die Einbeziehung von Inferenzen und schemageleitete Makropopositionsbildung berücksichtigt. Insbesondere diese Kontroverse war Motor für die Weiterentwicklung des Modells von Kintsch und van Dijk und anderer Konzeptionen. 2.4. Modelle zur Interaktion von Text- und Leserwissen Verschiedene Autoren schlugen Konzeptionen vor, die das Ziel hatten, eine Brücke zwischen bisher alternativ orientierten Forschungslinien – top-down vs. bottom-up, elementaristisch vs. holistisch oder textgeleitet vs. vorwissensgeleitet – zu schlagen (MarslenWilson & Tyler, 1980: 10 ff.; Glowalla, 1981: 20 ff.; van Dijk & Kintsch, 1983: 10 ff.; Johnson-Laird, 1983: 6 ff.; Schnotz, 1986: 23 ff.; Sanford & Garrod, 1981: 3 ff.; Kintsch, 1988: 166 ff.; Strohner, 1990: 15 ff.; Beyer, Guthke & Artz, 1990: 10 ff.; Klix, 1992: 239 ff.). Wir wollen einige Grundideen dieses neuen Trends anhand der Weiterentwicklung des Modells von Kintsch und van Dijk diskutieren (van Dijk & Kintsch, 1983: 61 ff.; Kintsch, 1988: 164 ff.; Kintsch, Welsch, Schmalhofer & Zimny, 1990: 134 ff.; Kintsch, 1998: 11 ff.). Drei Leitaussagen dieser Weiterentwicklung sind hervorzuheben: (1) Textverstehen ist als strategiegeleiteter Prozess zu verstehen. (2) Die Repräsentation von Texten erfolgt auf verschiedenen Niveaustufen und evtl. in unterschiedlichen Repräsentationsformaten. (3) Die Interaktion von Textwissen und Leserwissen muss explizit in die Modellierung von Teilverarbeitungsprozessen in-
537 tegriert werden, möglichst so präzise, dass eine empirische Prüfung und eine Simulation der Verarbeitung möglich ist. Verarbeitungsstrategien. Mit der Einführung des Strategiebegriffs durch van Dijk und Kintsch (1983: 61 ff.) wird Textverstehen als zielorientierte Handlung begriffen, die sich zum Beispiel auf Vorwissen und Erfahrungen im Umgang mit Sätzen und Texten stützen kann, die sich aus Einstellungen und Wünschen ergibt oder auf der Einbettung des Textes in eine Kommunikationssituation mit spezifischem sozialen Kontext beruht. Diese heuristischen Strategien beziehen sich auf die Konstruktion der Propositionen, die Sicherung von lokaler (Satzebene) und globaler Kohärenz (Makropropositionen auf Textebene) oder die Nutzung von Schemawissen zur Selektion und Organisation von Textwissen. Durch die Integration derartiger Annahmen gelingt es, die formalen Kriterien zur Gewichtung und Auswahl von Propositionen (Spitzenproposition, Selektionsstrategie, Makropropositionsbildung) der Modellversion von 1978 durch inhaltliche oder vorwissensgeleitete zu ersetzen oder zu ergänzen. Bemerkenswert ist, dass sich van Dijk und Kintsch vom traditionellen Propositionsbegriff abwenden, indem sie sog. „atomic Propositons“, die als elementare Verarbeitungseinheit gelten und in der Regel den Worteinheiten zuzuordnen sind, und sogenannte „complex propositions“, die eine erste Organisation von atomic propositions auf lokaler Ebene abbilden, einführen (zum Beispiel wird die Proposition MALEN (JUNGE, BAUM) zum Satz „Der Junge malt den Baum“ in die atomic Propositions „JUNGE“, „MALEN($)“, „BAUM“ aufgelöst. Ein Beispiel für eine komplexe Proposition ist in Abbildung 40.3 dargestellt). Dies hat zwei Konsequenzen: Einerseits kann das sog. Parsingproblem (die nicht eindeutige Zuordnung von Wortgruppen im Text zu Prädikat-Argumentstrukturen) etwas umgangen werden, andererseits kommt dadurch dem formalen Kriterium Argumentüberlappung weit weniger Gewicht zu. Repräsentationsebenen und Situationsmodell. In der Modellvariante von 1978 wurde lediglich der Aufbau einer semantischen bzw. propositionalen Repräsentation differenzierter in die Überlegungen einbezogen. Darunter war eine begriffliche Abbildung des Textes, und zwar der gesamten Textinformation, in Form
538
IV. Sprachrezeption ACTION PREDICATE give (a, b, c) (g) MODIFYER inadvertently (g) ARGUMENTS AGENT John (a) PROPOSITION
OBJECT book (b) MODIFYER old (b) GOAL Peter (c) CIRCUMSTANCES TIME yesterday PLACE in the library
Abb. 40.3: Komplexe Proposition nach van Dijk und Kintsch (1983: 115).
propositionaler Netzwerke zu verstehen (Textbase Level). In der modifizierten Modellvariante werden zwei weitere Repräsentationsebenen unterstellt: eine Oberflächenrepräsentation (Surface oder Linguistic Level) und eine sog. Situationsmodellebene (Situation Model Level (van Dijk & Kintsch, 1983: 336 ff.; Kintsch, Welsch, Schmalhofer & Zimny, 1990: 135 f.)). Zwischen diesen beiden Ebenen ist die Propositionale Ebene (Textbase Level) angesiedelt. Eine Oberflächenrepräsentation berücksichtigt die plausible Annahme von Prozessen der Worterkennung und einer zumindest kurzfristigen Speicherung von Textinhalten auf der Wortebene sowie die interne Abbildung syntaktischer Strukturen. Unter Situationsmodellebene wird ein eher ganzheitliches mentales Modell des Ereignistyps verstanden. Die Situationsmodellebene impliziert eine Reorganisation und z. T. massive Reduktion der semantischen Textrepräsentation (Propositionale Ebene) auf der Basis von bereits vorhandenen Gedächtnisabbildungen typischer Ereignisklassen (z. B. Schemata). Insbesondere im Aufbau des Situationsmodells manifestiert sich eine Integration von Textinhalten und der Vorwissensrepräsentation. Bei der Konzeption des Situationsmodells lehnen sich die Autoren an das vor allem von Johnson-Laird (1983: 2 ff.) in die psychologische Diskussion eingeführte Konstrukt des Mentalen Modells an. Abgesehen von der Plausibilität dieses Mehrebenenkonzepts sprechen zahlreiche Be-
funde für eine derartige Differenzierung. Ein solcher Befund sei exemplarisch genannt. Kintsch, Welsch, Schmalhofer und Zimny (1990: 138 f.) präsentierten ihren Probanden Texte, in denen typische Alltagssituationen beschrieben wurden. Anschließend wurden den Probanden Testsätze dargeboten, über deren Zugehörigkeit zum Text zu entscheiden war. Variiert wurde der Testsatztyp in fünf Abstufungen (Originalsätze, Paraphrasen, Inferenzsätze, negative Testsätze mit globalem Bezug zum Text und negative Testsätze ohne Bezug zum Text) sowie die zeitliche Distanz zur Textdarbietung (sofort, 40 Minuten, zwei Tage, vier Tage). Unterstellt man die oben erwähnte Repräsentation des Textes auf drei Ebenen im Verlauf des Lesevorganges, so sollten von den Versuchspersonen am ehesten die positiven Testsätze als zugehörig akzeptiert werden, gefolgt von Paraphrasen, Inferenzen, Testsätzen mit unspezifischem Bezug und von negativen Testsätzen ohne Bezug, da in unterschiedlichem Maße Evidenz für eine Akzeptanz aus den vermuteten drei Repräsentationsebenen des jeweiligen Testsatzes entsteht. Inferenzsätze stimmen nur auf der Ebene des Situationsmodells mit dem Originaltext überein, Paraphrasensätze auf zwei Ebenen (Situationsmodell, Textbasis) und die Originalsätze auf allen drei Ebenen. Die Ergebnisse bezüglich der Auswertung der mittleren Akzeptanz (JA-Antworthäufigkeiten) der Testsätze bestätigen diese Hypothese. Fast interessanter ist die bedeutsame Interaktion zwischen Testsatztypeffekt und zeitlicher
539
40. Verstehen von Diskursen
Abb. 40.4: Modellierung der Verarbeitungsprozesse des Construction-Integration Models
Distanz. Sie äußert sich insbesondere in der gravierend zunehmenden Akzeptanz von Inferenzsätzen schon nach 40 Minuten. Dieser Befund kann sowohl als Argument für die Differenzierung von Repräsentationsebenen gelten als auch für deren Dynamik im Sinne einer zunehmenden Gewichtung einer relativ textfernen, wissenskontrollierten Repräsentation. Abbildung 40.4 illustriert diese Interpretation (nach Kintsch, Welsch, Schmalhofer & Zimny, 1990: 139). In der überarbeiteten Modellvariante von 1988 – dem sogenannten Construction-Integration Model – unterscheidet Kintsch (1988: 166 ff.) zwei wesentliche Verarbeitungsschritte beim Text- bzw. Satzverstehen: (1) den Aufbau einer internen Repräsentation der Textinformation unter Einbeziehung von Vorwissen (Konstruktion), (2) die Reduktion der Textrepräsentation auf die mit dem Situationskontext kohärenten Bestandteile (Integration). In der Konstruktionsphase sind vier Komponenten wesentlich: die Transformation der sprachlichen Information in Propositionen, die Aktivierung von im Gedächtniswissensnetz benachbarten Knoten (Assoziationen), die Ableitung von Inferenzen auf der Basis von Vorwissen und die Zuordnung von Verbindungsstärken zwischen den Knoten in der erzeugten Textrepräsentation und damit die Spezifizierung der Beziehungen zwischen deren Elementen. Im Ergebnis der Konstruktion liegt im Unterschied zur Modellvariante von 1978 eine in hohem Maße durch Vorwissen elaborierte Textrepräsentation vor. Die Bereitstellung von vorwissensgeleiteten Ergänzungen der
expliziten Textinformation (Assoziationen, Inferenzen) wird nicht wie im Modell von 1978 als „Krisenfalloperation“ bei Kohärenzlücken, sondern eher als autonom und spontan ablaufender Vorgang betrachtet. Zu Anlass, Umfang und Quellen derartiger Inferenzprozesse ist in der Literatur eine kontroverse Diskussion festzustellen (McKoon & Ratcliff, 1992: 442 ff.; Till, Mross & Kintsch, 1988: 290 ff.; Guthke & Beyer, 1992: 322 ff.; Gernsbacher, 1993: 294 f.; Graesser, Singer & Trabasso, 1994: 373 ff.; Kintsch, 1998: 188 ff.; Rickheit & Strohner, 1999: 285 ff.; vgl. dazu auch Kapitel 42 in diesem Band). Der Integrationsprozess hat die Aufgabe, nicht notwendige Elemente der Textbasis auszuschließen, Kohärenz zu erzeugen sowie eine Gewichtung aller einbezogenen Verbindungen sowie jedes einzelnen Elementes der konstruierten Repräsentation vorzunehmen. Dieser Integrationsprozess wird in Anlehnung an konnektionistische Modelle durch eine wiederholte Multiplikation der sog. Verbindungsmatrix (enthält die paarweisen Verbindungsstärken aller Oberflächen-, Testbasis- und Situations-Elemente) mit einem intialen Aktivierungsvektor (fixiert den Ausgangsaktivierungszustand jedes Elementes bzw. jeder Atomic Proposition zu Beginn des Prozesses) simuliert. Ein hoher Aktivierungswert eines Elementes oder einer Verbindung von Elementen spricht für eine hohe Gewichtung und einen hohen Grad an Verfügbarkeit zum Beispiel bei Reproduktionsanforderungen (Kintsch, 1988: 168; Kintsch, Welsch, Schmalhofer & Zimny, 1990: 145). Dieser Prozess erfolgt wie in der alten Modellvariante in Zyklen, also in mehreren Etappen. Der entscheidende Unterschied, der die neue
540 Qualität dieses und vergleichbarer Ansätze ausmacht, liegt in der mehrere Repräsentationsebenen betreffenden zyklischen Konstruktion, der Steuerung von Selektionsprozessen nach einzelnen Zyklen primär durch Vorwissensstrukturen bzw. Motivlagen, im höheren Gewicht von situationskonstituierenden Elementen und in neuartigen Kohärenzkriterien, beispielsweise der Integrierbarkeit einzelner Textpassagen in einen situativen Kontext. Ein entscheidendes Problem, dies sollte nicht unterschlagen werden, liegt natürlich in der exakten Beschreibung von Vorwissensstrukturen. Im konkreten Fall dieses Modelles muss die Beschreibung so genau sein, dass potentielle Aktivierungen von benachbarten Begriffsknoten oder Situationskonstituenten graduell geschätzt werden können. Aus ihnen leiten sich die Werte der oben genannten Verbindungsstärkematrix ab, die Herzstück des simulierten Integrationsprozesses ist und maßgeblich die Prädiktion bezüglich der Speicherstabiltät einzelner Textaussagen und bezüglich des Grades der Schwierigkeit bei der Konstruktion einer kohärenten Textrepräsentation bestimmt. Aus diesem Grund beziehen sich empirische Untersuchungen vornehmlich auf gut beschreibbare und mit anderen Paradigmen gut untersuchte Wissensdomänen und typische Alltagssituationen. Außerdem erfolgt die Beschreibung derartigen Wissens und auch von Textinhalten in der Regel in Form von Propositionen. Diese Transformation von Wissen in Propositionen ist zwar eine bewährte Vorgehensweise, sie hat jedoch einige entscheidende Nachteile: a) Sie ist kaum zu automatisieren, wird deshalb „per Hand“ realisiert und unterliegt somit subjektiven Einflüssen. b) Bei der propositionalen Bechreibung von langen Texten oder umfangreichen Wissensausschnitten kommt es zu praktisch unüberwindlichen Problemen. Ein Ausweg aus diesem Dilemma könnte die von Kintsch, Landauer, Dumais und Mitarbeitern entwickelte sogenannte Latente Semantische Analyse (LSA) sein. Hier werden Propositionen nicht als Knoten in einem semantischen Netz, sondern als Vektoren in einem hochdimensionierten semantischen Raum aufgefasst. Dieser semantische Raum und die Struktur dieser Vektoren entwickelt sich bei jedem Individuum im Verlauf der Ontogenese. Landauer und Dumais (1997) versuchten, diesen exakt schwer nachzuvollziehenden Vorgang folgendermaßen zu simu-
IV. Sprachrezeption
lieren: Ein Computersystem verarbeitet („liest“) ein sehr umfangreiches Textmaterial (30 000 Textabschnitte einer Enzyklopädie mit 35 000 verschiedenen Worten). Das System ermittelt auf der Basis gemeinsamer Auftrittshäufigkeiten von Worten in einem Textabschnitt riesige Matrizen, die das Vorkommen eines Wortes in den einzelnen Abschnitten und seine Kombination mit anderen Worten abbildet. Um diese Riesenmatrizen handhabbar zu machen und vor allem um einer semantischen Repräsentation nahezukommen, die sich von der Wortebene abhebt, werden die Matrizen einer spezifischen Dekompositionstechnik unterworfen, die ähnlich wie eine Faktorenanalyse arbeitet. Dadurch wird die Vielzahl von Einzelverbindungen an der Wortoberfläche auf eine begrenzte Anzahl von Dimensionen reduziert. Die beste Anpassung zwischen empirischen und simulierten Daten (z. B. bei Lern-,Wissens- und Vokabeltests unter Verwendung der Enzyklopädietexte) ergaben sich bei einer Begrenzung auf 300 Dimensionen. Diese Dimensionen könnte man sich als einen Merkmalssatz vorstellen, mit dem man die Bedeutung des jeweiligen Begriffs beschreibt. Wesentliche Vorteile der LSA liegen in der höheren Objektivität, in der Möglichkeit zur automatischen Verarbeitung umfangreicherer sprachlicher Anforderungen und in der Vergleichbarkeit von semantischen Räumen einzelner Begriffe bezüglich ihrer Ähnlichkeit. Ein Problem mag sein, dass alle Aussagen letztlich auf gemeinsamen Auftrittshäufigkeiten von Worten an der Textoberfläche beruhen (Landauer & Dumais, 1997: 214 ff.; Kintsch, 1998: 86 ff.; Kintsch, 1999: 2 f.; Guthke & Beyer, 1995: 8 f.).
3.
Zusammenfassung zentraler Fragestellungen
3.1. Verarbeitungseinheiten, Verhältnis von Text- und Weltwissen, Zeitpunkt und Ziel der Verarbeitung Die in den meisten Modellen zunächst favorisierte Annahme einer Repräsentation von Textaussagen primär in Form von Propositionen erweist sich als zunehmend ungeeignet. Probleme sind vor allem der zu formale Charakter, die zu wenig objektiven Transformationsregeln für die Überführung von Textaussagen in Propositionen (Parsing), die Vernachlässsigung von syntaktischer Information (zum Beispiel Zeitformen) oder die Kon-
40. Verstehen von Diskursen
textunabhängigkeit (Rickheit & Strohner, 1999: 276; Turner, 1987: 15 ff.; van Dijk & Kintsch, 1983: 14, 109 ff.; Just & Carpenter, 1987: 22 ff.). Als akzeptable und zumindest vorläufige Alternative wird eine Repräsentation auf unterschiedlichen Niveaustufen angesehen (propositionale Repräsentation und mentales Modell (Johnson-Laird, 1983: 163) bzw. Textoberfläche, propositionale Textbasis, Situationsmodell (Kintsch, 1988: 163)). Damit wird sowohl der Textoberfläche und der Wortebene als auch dem Weltwissen und dem Situationskontext wesentliche Bedeutung und eine mentale Abbildung während der Konstruktion einer kohärenten Textrepräsentation zugebilligt. Bei einer derartigen Konzeption wird in der Regel eine unmittelbare Verarbeitung bei der Encodierung des ersten Wortes oder der ersten Vokal-Konsonantkombination ausgelöst (Just & Carpenter, 1987: 5 ff.; Marslen-Wilson & Tyler, 1980: 25 ff.; Terhorst, 1995: 41 ff.). Diese Verarbeitung besitzt interaktiven Charakter, d. h. es kommt zur wechselseitigen Beeinflussung von encodiertem Textinput und im Weltwissen angeregten Wort-, Situations- oder Texttypkonzepten oder zum Austausch von Analyseergebnissen unterschiedlicher Verarbeitungsebenen (phonetische, graphemische, lexikalische, syntaktische, semantische, pragmatische usw.). Konsens besteht darüber, dass der gesamte Prozess der Textverarbeitung unter zunehmend stärker werdenden und steuernden Einfluss von Welt- und Situationswissen gerät. Operationalisiert wird derartiges Wissen über sogenannte Superstrukturen, Schemata, Scripts, Fact Frames und ähnliche Konstrukte. Darunter sind das Wissen und daraus resultierende mentale Strukturen über typische Komponenten von Texttypen, Situationen, Handlungsabläufen oder auch einzelnen Konzepten zu verstehen. Ihre steuernde Funktion erlangen sie als Bezugssystem für die Bewertung, Selektion und Interpretation encodierter Textinhalte und schließlich als Rahmen für eine effektive und kohärente Organisation des Textinhaltes in seiner Gesamtheit. Vorwissensschemata dienen zudem als Quelle von kohärenzsichernden Inferenzen (Rickheit & Strohner, 1999: 277; van Dijk & Kintsch, 1983: 149 ff.). Der interaktive Ansatz bzw. die Integration sowohl von Text- als auch Weltwissen weist im Vergleich zu den reinen Bottom-upund Top-down-Modellen zweifellos eine höhere ökologische Validität auf, da eine solche Konzeption der Komplexität des zu unter-
541 suchenden Phänomens Text- bzw. Diskursverstehen in weit höherem Maße gerecht wird. Allerdings müssen dadurch bei einer Modellierung und computergestützten Simulation von Textverstehensprozessen deutlich mehr und zum Teil viel schwieriger prüfbare Annahmen investiert werden. Dies betrifft insbesondere die Annahmen zur Repräsentation von relevanten Weltwissensstrukturen, Annahmen zum Prozess der Integration dieser Vorwissensstrukturen und zu deren Wechselwirkung mit textgeleiteten Prozessen. Schon die exakte Beschreibung einer Repräsentation von Weltwissen erweist sich im konkreten Fall als problematisch. Für die Struktur bestimmter Textsorten (Superstrukturen von Geschichten oder Forschungsberichten) oder für die Beschreibung von Wissen über relativ stereotype Handlungs- und Ereignisfolgen (Restaurant-Skript nach Schank & Abelson, 1977: 30 ff.) gelingt dies recht gut. Deshalb beschränkt sich das Material empirischer Untersuchungen meist auf solch umgrenzte Wissensdomänen. Als vorläufige Lösungen des Problems bieten sich zum Beispiel die oben erwähnte sog. Latente semantische Analyse (Landauer & Dumais, 1997: 214 ff.; Kintsch, 1998: 86 ff.) oder Konzeptionen zur prinzipiellen Relevanz spezieller semantischer Relationen für die Repräsentation von Ereignissen und vor allem von Ereignis- oder Situationsfolgen an. Als kohärenzstiftende Relationen bei der Verknüpfung von Situationsfolgen kommen vor allem Agent-, Kausal-, Final-, Raum- und Zeitrelationen in Frage (Van Dijk & Kintsch, 1983: 235 ff.; Klix, 1992: 239 f., 246 f.; Klix, 1998: 195 f.; Van der Meer & Schmidt, 1992: 310 f.; Van der Meer, 1998: 233 f.; Zwaan, Magliano & Graesser, 1995: 387). 3.2. Kohärenz Als entscheidendes Ziel und Ergebnis von Textverstehensprozessen gilt die Konstruktion einer kohärenten Textrepräsentation. Darunter wird eine semantisch zusammenhängende, in der Regel hierarchisch organisierte und am Weltwissen validierte mentale Abbildung des Textes verstanden. Kohärenz kann nach der Art der Bezugsetzung differenziert, und der Grad an vorliegender Kohärenz kann nach verschiedenen Kriterien erzeugt bzw. bestimmt werden. Bezüglich des ersten Aspektes wird zumindest zwischen lokaler und globaler Kohärenz unterschieden. Lokale Kohärenz bezieht sich auf die Bildung von Relationen zwischen Textelementen in-
542 nerhalb kleinerer Textsegmente, etwa zwischen einzelnen Propositionen oder Propositionsgruppen, innerhalb oder zwischen einigen Sätzen. Globale Kohärenz liegt vor, wenn die Repräsentation des Textes als Ganzes eine semantisch zusammenhängende Struktur aufweist, kenntlich zum Beispiel dadurch, dass alle oder wenigstens die meisten Textaussagen einem Thema zuzuordnen sind (van Dijk & Kintsch, 1983: 149; Beyer, 1990: 120). Soll eine Aussage zum Grad der Kohärenz in einem Text oder Textabschnitt getroffen werden, muss man sich auf ein Maß oder entsprechende Kriterien verständigen. Das Modell von Kintsch und van Dijk in der Version von 1978 bietet, wie oben erwähnt, ein relativ eindeutiges, allerdings recht formales Kriterium an, nämlich die Anzahl von Kohärenzlücken im sog. Kohärenzgraphen, d. h. die Anzahl von Propositionen, die nicht durch Argumentwiederholung oder Propositionseinbettung mit den übrigen Propositonen verknüpft werden können. Die globale Kohärenz könnte im gleichen Sinne nach dem Grad der Realisierung einer lückenlosen Struktur von Makropropositionen beurteilt werden. Sanford und Garrod (1981: 125 ff.) würden einen Text als kohärent bewerten, wenn sich die Textaussagen problemlos in einem Szenario abbilden lassen, van Dijk und Kintsch (1983), wenn dies auf der Ebene des Situationsmodells gelingt, Thorndyke (1977: 77 ff.), wenn alle Textinhalte einer Geschichte einer entsprechenden Superstruktur zuzuordnen sind, Zwaan, Magliano und Graesser (1995: 387), Van der Meer (1998: 233) und Klix (1992: 239), wenn eine raum-zeitliche und kausale Situationskontinuität besteht. Kohärenzmaße können sich also sowohl aus dem Text als auch aus der Struktur des vom Text angeregten Weltwissens herleiten. Van Dijk und Kintsch (1983) und vor allem Rickheit und Strohner (Strohner, 1990: 66 f.; Rickheit & Strohner, 1999: 284) schlagen einen weiteren Typ von Kohärenz vor – die sogenannte situierte Kohärenz. Damit ist die Kohärenz in noch umfassenderen Sinne auf die gesamte kommunikative Situation bezogen, in der ein Text bzw. eine Textnachricht in unterschiedlichem Maße informativ und instrumentell sein kann. Durch diese neue Sichtweise, Textverstehen als spezifische Komponente im Kommunikationsprozess zu betrachten, ist eine neue Generation von systemtheoretischen Textverarbeitungsmodellen angedacht, die auch eine funktionale Definition des Textbegriffs rechtfertigen und theoretisch untersetzen (Strohner, 1990: 11 ff.).
IV. Sprachrezeption
4.
Literatur
Amstad, T. (1978). Wie verständlich sind unsere Zeitungen? Dissertation, Universität Zürich. Ballstadt, St.-P., Mandl, H., Schnotz, W. & Tergan, S.-O. (1981). Texte verstehen, Texte gestalten. München: Urban und Schwarzenberg. Beyer, R. (1987). Psychologische Untersuchungen zur Textverarbeitung unter besonderer Berücksichtigung des Modells von Kintsch und van Dijk (1978). Zeitschrift für Psychologie, 8, 1⫺80. Beyer, R. (1991). Psychologische Analyse kognitiver Prozesse bei der Textverarbeitung. Dissertation B (Habilitationsschrift), Humboldt-Universität Berlin. Beyer, R., Artz, E. & Guthke, Th. (1990). Zur Differenzierung des kognitiven Aufwandes bei der Anregung von Vorwissen. Zeitschrift für Psychologie, 198, 9⫺33. Briest, W. (1974). Kann man Verständlichkeit messen? Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung, 27, 543⫺563. De Beaugrande, R. & Dressler, W. U. (1981). Einführung in die Textlinguistik. Tübingen: Niemeyer. Dickes, P. & Steiwer, L. (1977). Ausarbeitung von Lesbarkeitsformeln für die deutsche Sprache. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 9, 20⫺28. Flesch, R. (1948). A new readability yardstick. Journal of Applied Psychology, 32, 221⫺233. Gernsbacher, M. A. (1993). Less skilled readers have less efficient suppression mechanisms. Psychological Science, 4, 294⫺298. Glowalla, U. (1981). Der Rote Faden – ein handlungstheoretisches Modell zur Textverarbeitung. Braunschweig: Universität Braunschweig. Graesser, A. C., Singer, M. & Trabasso, T. (1994). Constructing inferences during narrative text comprehension. Psychological Review, 101, 371⫺395. Guthke, Th. & Beyer, R. (1992). Inferenzen beim Satz- und Textverstehen. Zeitschrift für Psychologie 200, 321⫺344. Guthke, Th. & Beyer, R. (1995). The role of semantic relations in text-sentence recognition. Institute of Cognitive Science, University of Colorado, ICS Technical Report 95-03, Boulder. Johnson-Laird, P. N. (1983). Mental models: Towards a cognitive science of language, inference and consciousness. Cambridge: Cambridge University Press. Just, M. A. & Carpenter, P. A. (1987). The psychology of reading and language comprehension. Boston: Allyn & Bacon.
40. Verstehen von Diskursen
543
Herrmann Th. & Grabowski, J. (1994). Sprechen, Psychologie der Sprachproduktion. Heidelberg: Spektrum.
Marslen-Wilson, W. D. & Tyler, L. K. (1980). The temporal structure of spoken language understanding. Cognition, 8, 1⫺71.
Kintsch, W. (1988). The role of knowledge in discourse comprehension: A construction-integration model. Psychological Review, 95, 163⫺182.
McKoon, G. & Ratcliff, R. (1992). Inference during reading. Psychological Review, 99, 440⫺466.
Kintsch, W. (1998). Comprehension. A paradigm for cognition. Cambridge: Cambridge University Press. Kintsch, W. (1999). Predication. Institute of Cognitive Science, University of Colorado, ICS Technical Report 99-02, Boulder. Kintsch, W. & Keenan, J. M. (1973). Reading rate and retention as a function of number of the propositions in the base structure of sentences. Cognitive Psychology, 5, 257⫺274. Kintsch, W. & van Dijk, T. A. (1978). Toward a model of text comprehension and production. Psychological Review, 95, 163⫺182. Kintsch, W. & Vipond, D. (1979). Reading comprehension and readability in educational practice and psychological theory. In L. G. Nilsson (Ed.), Perspectives on memory research (pp. 329⫺365). Hillsdale: Erlbaum. Kintsch. W., Welsch, D., Schmalhofer, F. & Zimny, S. (1990). Sentence memory: A theoretical analysis. Journal of Memory and Language 29, 133⫺159. Klein, W. & v. Stutterheim, Ch. (1987). Quaestio und referentielle Bewegung in Erzählungen. Linguistische Berichte, 109, 163⫺183. Klix, F. (1992). Die Natur des Verstandes. Göttingen: Hogrefe. Klix, F. (1998). Begriffliches Wissen – episodisches Wissen. In F. Klix & H. Spada (Hrsg.), Enzyklopädie der Psychologie, Themenbereich C, Serie II, Band 6 Wissen (pp. 167⫺212). Göttingen: Hogrefe. Landauer, Th. K. & Dumais, S. T. (1997). A solution to Plato’s problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge. Psychological Review, 104, 211⫺240. Langer, L., Schulz v. Thun, F. & Tausch, R. (1974). Verständlichkeit in Schule, Verwaltung, Politik, Wissenschaft – mit einem Selbsttrainingsprogramm zur Darstellung von Lehr- und Informationstexten. München: Reinhardt. Lesgold, A. M. (1972). Pronominalizations: A device for unifying sentences in memory. Journal of Verbal Learning and Verbal Behavior, 11, 316⫺323. Mandler, J. M. (1982). An analysis of story grammars. In F. Klix, J. Hoffmann & E. van der Meer (Eds.), Cognitive research in psychology (pp. 129⫺ 138). Berlin: Verlag der Wissenschaften.
Miller, J. R. & Kintsch, W. (1980). Readability and recall of short prose passages: A theoretical analysis. Journal of Experimental Psychology: Human Learning and Memory, 6, 335⫺354. Rickheit, G. (Hrsg.) (1991). Kohärenzprozesse. Modellierung von Sprachverarbeitung in Texten und Diskursen. Opladen: Westdeutscher Verlag. Rickheit, G. (1995). Verstehen und Verständlichkeit von Sprache. In B. Spillner (Hrsg.), Sprache: Verstehen und Verständlichkeit (pp. 15⫺30). Frankfurt am Main: Lang. Rickheit, G. & Strohner, H. (1999). Textverarbeitung: von der Proposition zur Situation. In A. D. Friederici (Hrsg.), Enzyklopädie der Psychologie, Themenbereich C, Serie III, Band 2, Sprachrezeption (pp. 271⫺306). Göttingen: Hogrefe. Sanford, A. J. & Garrod, S. C. (1981). Understanding written language. Chichester: Wiley. Schank, R. & Abelson, R. (1977). Scripts, plans, goals and understanding. An inquiry into human knowledge structures. Hillsdale: Erlbaum. Schnotz, W. (1986). Kohärenzbildung beim Aufbau von Wissenstrukturen mit Hilfe von Lehrtexten. Forschungsbericht 39, Deutsches Institut für Fernstudien an der Universität Tübingen. Schulz von Thun, F., Goebel, G. & Tausch, R. (1973). Verbesserung der Verständlichkeit von Schulbuchtexten und Auswirkungen auf das Verständnis und Behalten verschiedener Schülergruppen. Psychologie in Erziehung und Unterricht, 20, 223⫺234. Strohner, H. (1990). Textverstehen. Kognitive und kommunikative Grundlagen der Sprachverarbeitung. Opladen: Westdeutscher Verlag. Terhorst, E. (1995). Textverstehen bei Kindern.Opladen: Westdeutscher Verlag. Thorndyke, P. W. (1977). Cognitive structures in comprehension and memory of narrative discourse. Cognitive Psychology, 9, 77⫺110. Till, R. E., Mross, E. F. & Kintsch, W. (1988). Time course of priming for associate and inference words in a discourse context. Memory and Cognition, 16, 283⫺298. Titscher, S., Wodak, R., Meyer, M. & Vetter, E. (1998). Methoden der Textanalyse. Opladen: Westdeutscher Verlag.
544
IV. Sprachrezeption
Turner, A. A. (1987). The propositional analysis system – Version 1.0. Institut of Cognitive Science, University of Colorado, ICS Technical Report 8703, Boulder. Van der Meer, E. & Schmidt, B.(1992). Finale, kausale und temporale Inferenzen – Analyse ihres kognitiven Hintergrundes. Zeitschrift für Psychologie, 200, 303⫺320.
Van Dijk, T. A. & Kintsch, W. (1983). Strategies of discourse comprehension. New York: Academic Press. Vass, E. (1992). Diskursanalyse als interdisziplinäres Forschungsgebiet. Universität Wien, Diplomarbeit. Wanner, E. (1975). On remembering, forgetting and understanding sentences. The Hague: Mouton.
Van der Meer, E. (1995). Inferenzen in Wissenskörpern. In F. Klix & H. Spada (Hrsg.), Enzyklopädie der Psychologie, Themenbereich C, Serie II, Band 6 Wissen (pp. 213⫺248). Göttingen: Hogrefe.
Zwaan, R. A., Magliano, J. P. & Graesser, A. C. (1995). Dimensions of situation model construction in narrative comprehension. Journal of Experimental Psychology: Learning, Memory and Cognition, 21, 386⫺397.
Van Dijk, T. A. (1980). Textwissenschaft. Eine interdisziplinäre Einführung. München: DTV.
Reinhard Beyer Humboldt Universität Berlin (Deutschland)
41. Understanding Prosody 1. 2. 3. 4. 5. 6.
Introduction Prosodic cues and frames Intonational meaning Neuroanatomical correlates of prosody Computational modelling of prosody References
1.
Introduction
Understanding language is a process of decomposition of linguistically significant cues [phonemes, syllables, morphemes, phrases] into linguistically significant frames [words, sentences, discourse units]. The analysis of individual cues has always formed a central concern of structurally oriented linguistics, while the frames (particularly the word) have become pivotal in the process oriented linguistic models. The decomposition process itself has always been based on analytical reasoning and has been successfully approached with logic and logic based calculations. Understanding prosody has been argued to be different. Helmholz (1885) was probably the first one to argue that understanding prosody is distinct from understanding of all the other aspects of language. His argument was based on an observation that prosodic cues, like for example, monotonous intonation, slow tempo, reduced pitch register, immediately signal relevant information about the message (that it is not new, and from the speaker’s point of view irrelevant to the hearer) long before this message has been lin-
guistically decomposed and logically analysed. Helmholz coined the term “unbewusstes Schließen” (unconscious reasoning) to refer to this particular aspect of interpreting prosodic cues. He argued that the iconic cues of prosody not only allowed for faster interpretation of discourse, but also often made the logical-analytical approach to understanding discourse unnecessary and spurious. This argument about the iconic and non-symbolic aspect of prosody interpretation has been backed up by many observations from language use in everyday life. In the process of language acquisition prosody seems to come first (Fromkin, 1978) and it appears to play a leading role in communication between mothers and their (linguistically still highly illiterate) offspring (Menn & Boyce, 1982). General literature on language acquisition is full of anecdotal observations concerning the eagerness and ease with which children, and their mothers, use tempo, pitch and intensity to signal their emotional state and their attitude towards what is being said (but not analysed for the lack of sufficient linguistic competence). Similarly, the literature on second language acquisition and language contact often suggests that prosody is processed differently than other aspects of language. Language learners are usually attributed much higher sensitivity to the prosody of the foreign language than its syntactic or morphological cues. The notorious anecdote of people un-
41. Understanding Prosody
consciously mimicking the accent of a waiter while ordering a meal in an Italian, Greek or Vietnamese restaurant, has its footing in a common-sense belief that rhythm, pitch and intensity variation are easier to mimic than segmental, lexical and grammatical aspects of a foreign language (Markham, 1997). Neurolinguistic research also offers a number of dramatic descriptions of jargon aphasia in which patients lose all of their capabilities of linguistic decomposition but preserve their ability to use and interpret prosodic cues (Dogil, Hildebrandt & Schürmeier, 1990). These case descriptions also record the behaviour of the doctors and nurses who apparently freely interact with the patients, although most of the structural and procedural routines of normal communication are severely distorted. The fact that patients’ jargon has an acceptable prosodic form makes their interlocutors talk to them as though the patients would understand the propositional language. These and other cases of prosodic peculiarities in language processing following brain damage have made some researchers propose a functional separation of prosodic processing from other types of linguistic processing. A radical, hemisphere-specific separation of prosodic processing from linguistic processing has been proposed (Ross & Mesulam, 1979; Ross, 1981) All these observations led to the formulation of prosody models which stress its extralinguistic, essentially emotional and attitudinal function (Liebermann, 1967; Bolinger, 1978). Within these models there is no complex relation between prosody and the rest of the grammar. Rather, it is claimed, there is a direct relation between the phonetic cues to prosody, which are duration, intensity and pitch, and a set of abstract, universal meanings signalling attention and emotion. The assumption that the meaning correlates of prosodic cues are so abstract and universal helps one understand the special role of prosody in first and second language acquisition and in cases of neurological disorders like aphasia. The universalist and extra-linguistic accounts of prosody have come under criticism by proponents of purely linguistic and phonological models of prosody in the past twenty years. According to the phonological models, prosody can be considered as a linguistic system with its own categories and processing routines, which are distinct from phonetic implementation. These categories
545 are interacting with other aspects of grammar, and allow for language specific developments and typological differences. The breakthrough has been achieved with the developments within the autosegmental phonology in the late seventies and the early eighties (Leben, 1973; Goldsmith, 1976; Bruce, 1977; van der Hulst & Smith, 1982). Autosegmental phonology provided a new descriptive language for prosody in which its phonetic cues and linguistic frames could be treated separately from the rest of the phonology (building so-called auto[nomous]-segments), and at the same time, it provided a set of wellformedness conditions (tune-to-text association conventions), which established clearly defined mappings and relations between the prosodic and the other linguistic categories. This theoretical work not only allowed the change of perspective of looking at prosodic phenomena, but it also initiated a lot of experimental work, which put into question several of the central assumptions and beliefs of the universalist model. Detailed studies of the acquisition of prosodic categories like accent, stress, and intonation have shown that young learners do not follow universal routines in applying their phonetic cues to any material they learn, but rather apply language particular, phonologically motivated choices in developing their prosodic grammars (Fikkert, 1994). This leads to highly diversified and phonologically distinct word prosodic systems (van der Hulst, 1998), and no less complex intonational systems (Ladd, 1996). Detailed investigation of the process of second language acquisition shows that foreign language learners are not better in the acquisition and use of the prosodic cues and categories than in the acquisition and use of morpho-syntactic categories. Jilka (1999) has convincingly shown that several crucial aspects of the so called intonational foreign accent can be indeed covered by the categorical, phonological representation of prosody, as well as by lower-level phonetic cue implementation of these phonological categories. The experimental investigation of prosody processing by neurologically impaired subjects motivated by the phonologically oriented accounts of prosody has also provided evidence for the multifaceted model of prosody processing (Baum & Pell, 1999). In contrast to the universalist proposals, which were arguing for the right hemisphere dominance for prosodic processing (Ross, 1981),
546
IV. Sprachrezeption
most recent experiments demonstrate that both left hemisphere-damaged and right hemisphere-damaged patients were capable of producing and perceiving affective prosody (Pell & Baum, 1997; Baum & Pell, 1997). The isolation of prosody in cases of jargon aphasia is also no more special than isolation of syntax, propositional semantics or derivational morphology after a neurological disorder. The results of experimental work exemplified above suggest that the universalist-extralinguistic theories of prosody should be dramatically losing ground to the phonological theories initiated with the autosegmental model of phonology. In this review article I will adhere to the linguistically based models. I will describe the most recent discoveries concerning the processing of prosodic cues and frames (§ 2). I will introduce a highly constrained approach to prosodic meaning (§3). Furthermore, I will present some more recent evidence on the neuroanatomical basis of prosody (§ 4). I will close this essay with the discussion of computational models of prosody (§5), their theoretical background and their potential use in language and speech technology.
2.
Prosodic cues and frames
Prosody provides the essential organization of speech by integrating the semantic information [intonational meaning], the syntactic structure [phrasing], the morphological structure [metrical spell out] and segmental sequences [segmental spell out] into a consistent set of address frames [such as syllables, metrical feet, phonological words, intonational phrases]. The systematic variation of prosody is used to direct the listener’s attention to the more and less significant elements of the message [linguistic focus], to signal the type of speech act (such as question, declarative, imperative) [linguistic modus], and to convey an emotional state of a speaker [(para-) linguistic affect], just to mention the most familiar prosodic functions. Essentially, three phonetic cues are responsible for the coding of all these functions – duration, intensity and fundamental frequency. When properly set, these cues contribute to what is perceived as length, loudness and pitch. In the sections to follow I will consider these cues and settings in greater detail.
2.1. Duration Human speech provides a great variation of acoustic and articulatory timing mechanisms, which shape phonological and prosodic distinctions in duration. Slowing down the rate of speech at the end of the phrase, speeding up at the beginning of one’s turn, and trying to establish isochrony in syllables or accent groups, have been the universal global durational phenomena often reported in literature (Lehiste, 1970). The experimental evidence for such global phenomena, however, has been difficult to come by. Actually, many of the phenomena from that universalist durational list turn out to be highly language specific, and others turn out to be methodologically misconceived. The hypothesis of the so called internal clock, a mechanism underlying all human timed behaviour, could not be corroborated either by linguistic/phonetics nor by experimental neuroscience (Ackermann, Wildgruber & Grodd, 1998). The search for universal isochrony, which evolved from the extreme positions (syllables are of equal length in syllable timed languages, feet are of equal length in stress timed languages) to a position where constituency effects prevail (the more words/feet/syllables a given constituent contains, the more reduced are the durations of these words/feet/syllables), has been often confronted with language specific findings which clearly call for methodology that does justice to language-unique prosodic patterns (D’Imperio & Rosenthall, 1999). Research shows that more promising results can be achieved by investigating the local durational differences. In particular, timing mechanisms are being discovered which allow the control of the very short durational events. It is those investigations which pave the way to a better understanding of the basis of durational relations which we interpret as prominence and rhythm. One of the best-investigated local timing mechanisms is voice onset time [VOT]. VOT establishes the contrast between the voiced and voiceless perception in stop consonants (Lisker & Abramson, 1967). Speakers appear to have a very precise control over the timing of the stop release gesture and the vowel articulation gesture. If the time lag between the release of the stop and the beginning of a vowel is long (50⫺100 ms) the stop consonant is perceived as voiceless. If the time lag is shorter (less than 20 ms) the consonant is interpreted as voiced. The implementation of the VOT timing is highly language specific,
41. Understanding Prosody
for example Spanish and French have shorter VOT’s than English, German or Dutch, however, the interpretation of the relation is categorical in all languages in which it has been investigated. Categorical perception paradigm is used to settle the linguistic status of phonetic parameters. Language users are more sensitive to acoustic differences between categories than within categories (Liberman, 1996). In categorical perception experiment listeners are asked to perform two tasks: first, listeners classify experimental tokens as exemplars of one of the categories (e. g. voiced – voiceless), and second, they are asked to discriminate tokens that are the same or slightly different. When a boundary between the two categories in the classification paradigm coincides with the peak of discriminatory certainty in the discrimination paradigm, the perception of the categories is categorical, and there is strong reason to believe that these categories belong to the core of linguistic contrasts. The categorical perception for the VOT, which is implemented by an intricate timing mechanism, has been shown beyond doubt in languages where it has been investigated, as well as in speech development studies (Eimas et al., 1971). Categorical perception of this timing relation has also been shown to be disturbed along with other linguistic categorization principles in patients suffering from agrammatism as found in Broca aphasia (Blumstein et al., 1980). This evidence suggests that understanding local timing relations is critical for language interpretation. Understanding prosody at the dimension of timing appears to take place at very low, sub-segmental levels of linguistic analysis. Additional evidence for this not yet generally appreciated conclusion has been provided in recent years. Detailed investigation of phonological vowel length contrasts has shown that the difference between long and short vowels is not simply expressed by different durational ratios. Rather it seems to be again the acoustic/articulatory timing mechanism with which this distinction is most robustly implemented. Scharf (1999) has investigated the phonological vowel quantity distinction in German by combining the data obtained from acoustic, articulatory and perceptual investigation. Long vowels are approximately double as long as short vowels in German. However, this distinction may be levelled out in many contexts (Möbius & van Santen, 1996). Apart from measuring exact duration rates, Scharf
547 (1999) has been looking at the correlation between acoustic vowel onsets and the kinematic gestures obtained through an optoelectronic movement analysis system. Her results show that the position of the vowel onset within the kinematic gesture – the VOKPOS parameter ⫺ (she investigated the lip opening gesture in /pV:pe/ ⫺ /pVpe/ token pairs) is critical for the implementation of perceptually clear vowel quantity contrast. In particular, the vowels which started early in the consonantal opening gesture were interpreted invariably as short/lax, whereas vowels which started late in the opening gesture were interpreted as long/tense. “All normal speakers without exception positioned the vowel onset of a short/lax vowel [a] remarkably earlier in the labial opening gesture than in the case of long/tense vowel [a:].” (Scharf 1999: 1798). The dysarthric (Parkinson and ataxic) speakers, who Scharf investigated with the same experimental procedure, were not in a position to implement this parameter, although the durational distinctions were not as highly distorted as could be expected from general literature on dysarthria (Darley et al., 1975). Both VOT and VOKPOS parameters illustrate how precise timing relations may be used in establishing crucial prosodic contrasts in language. Both suggest that it is the relation between categories (beat alignment) rather than absolute durational measures that form a background of prosodic interpretation of duration and timing. Evidence for this linguistic/phonetic binding (Kingston, 1990) of prosodic phenomena has been also found for more abstract prosodic categories, like stress and rhythm. Stressed units are usually longer than the unstressed ones, and on its face value duration appears to be very good predictor of stress. However, it is very much dependent on the contextual influences and on the speakers variation of speech tempo. Successful attempts to model durational differences for the purposes of speech technology very clearly show the limits of simple duration ratio calculation (Möbius & van Santen, 1996). The implementation of duration of units under stress observes language unique prosodic patterns. There is, however, one general tendency of implementing and interpreting durational differences for the purposes of linguistic stress, which appears to adhere directly to the principle of beat alignment that we found so important in the understanding
548 of durational differences at a sub-segmental level. Many languages attract stress to the socalled heavy syllables (van der Hulst, 1998). However, the phonological weight is counted only in the part of the syllable beginning with the vowel – the rhyme. Everything preceding the vowel – the syllabic onset – appears to be weightless. Goedemans (1998) has shown in a number of experiments, that this phonological generalisation has a phonetic correlate in the perception of duration. The subjects in his experiments were unable to notice the increase of duration within the syllabic onset, whereas they interpreted the syllables lengthened by the same degree in the rhyme as significantly longer. This defective perception of duration in syllabic onsets makes the consonantal clusters preceding the vowel weightless. The perceptual mechanism for duration seems to be triggered by the transition between the consonant and the vowel within the syllable. This is the area where the maximum of new spectral information coincides with rapidly rising intensity. The auditory salience of the acoustic events at the transition from a consonant to a vowel constitutes an ideal mark for the synchronization of the segmental and the prosodic stream (Ohala & Kawasaki, 1986; Dogil, 1987, 1999; Dogil & Braun, 1988). I have already pointed out the importance of the beats of prosodic alignment in several areas of duration interpretation and we will meet them even more often in the course of this essay. The auditory salience of the area of transition where both spectral information and intensity change can only be appreciated if this event is followed by an area of relative spectral stability. It appears likely that the systematic variation between the transitions and the steady states might form a solid basis of what is considered as the rhythm of speech. The evidence for this hypothesis comes from two, at first sight unrelated fields – speech technology and clinical linguistics. Clements und Hertz (1995) in their research initially motivated by rule based speech synthesis (Hertz, 1990, 1999) proposed a universal procedure to produce the phone (acoustic steady state) and transition structure in synthesized speech. They noted that a very good match between the original and the synthetic speech can be achieved when the transition durations are determined by rules that are sensitive only to the place and manner of articulation of the phones in
IV. Sprachrezeption
question. Implementing this trading relation between the set steady state durations and the predicted transition durations leads to rhythmic, natural speech. Vollmer (1997: 139⫺147), in a clinically motivated work, measured the contribution of steady states and transitions to the duration of words in four groups of subjects: normal controls, aphasic subjects (Wernicke type), dysarthric subjects and subjects suffering from apraxia of speech. The segmentation of the speech signal was done according to the procedure used by Clements und Hertz (1995). Vollmer’s results show that in fluent speech characteristic of normal controls and Wernicke aphasics the steady states make up approximately 80 % of the total segmental duration, whereas the transitions make up the remaining 20 % of the signal (exact ratio is 82,14 % : 17.86 % for normal controls, and 81.36 % : 18.64 % for aphasics). In highly dysfluent, scanned speech of subjects suffering from apraxia of speech the ratio is 98.16 % steady states to 1.84 % transitions. The dysarthic dysfluency, perceived as monotonous, arhythmic speech, is characterised by the 49.95 % : 50.05 % phone to transition ratio. Statistical analysis showed a high significance of the group factor, the measured phase factor, and a highly significant interaction of the group and the measured phase factors. The result is very clear and it strongly supports the influence of the sub segmental durational relations in the perception of the rhythm of speech (Dogil & Mayer, 1998: 161⫺163). Interestingly, the measurements of more global durational ratios of speech (segmental duration, syllabic duration, foot/accentual group durations), as well as considerations of contextual lengthening and shortening, did not lead to such significant results (Degen & Ziegler, 1998). Perceptually, dysarthric and apraxic speech are very different from the norm, and they are also different from each other. Consideration of sub-segmental local durational ratios, triggered by the anchor points for prosodic alignment, depicts the perceived difference. 2.2. Intensity The early, auditory based approaches to prosody made a distinction between the melodic and the dynamic languages (Trubetzkoy, 1939). The prosodic units of the former were supposed to correlate best with the variation of pitch and of the latter with the variation in intensity. This auditory distinction, however,
41. Understanding Prosody
could not be experimentally validated. Moreover, in the search for acoustic correlates of prosody the measured intensity appeared to play a much lesser role than measured duration and fundamental frequency variation (Dogil, 1998). Neither the peaks of air pressure intensity, nor the energy rates (intensity/ duration products) could be shown to correlate significantly with prosodic functions like stress, accent, and syllabic prominence etc. (Beckmann, 1986). This result was frustrating, because the auditory impression of loudness differences between more and less prominent syllables has always been very clear. Furthermore, there is a well-established physiological difference in sub glottal pressure between the more and the less prominent syllables. The speaker producing a prominent prosodic unit generates a much higher air pressure (Fant, 1986). This higher air pressure is filtered out by the vocal tract in such a way, that it apparently disappears as a significant correlate of prosodic prominence. Van Heuven and Sluiter (Sluiter, 1995) have to be credited for the detailed reconsideration of this filtering process, which, in the end, led to the re-establishment of intensity as a significant prosodic cue. Sluiter rightly observed that the first stage where the filtering of the air pressure takes place is the glottis, and thus has concentrated her investigation on the glottal correlates of higher air pressure. Higher sub-glottal air pressure changes the aerodynamic conditions at the glottis and modifies the vibration characteristics of the vocal folds (Nı´ Chasaide & Gobl, 1997). The vocal folds close in a more abrupt way, and create a short, strong impulse signal. The acoustic result of this strengthened glottal impulse is the rise in the higher spectral frequencies of the produced sound. That is, the lowering of spectral energy in higher frequencies (the spectral tilt), which is characteristic of all speech signals, is supressed in the cases of higher sub-glottal air pressure. The detailed measurements of spectral tilt in different prosodic categories have shown a clear correlation between this acoustic parameter and the perceived word stress in several Germanic languages (Sluiter, 1995; Classen et al., 1998). Hence, the dynamic aspect of the prosody of these languages has been re-established. It has also been shown that the most relevant correlates of intensity follow from the detailed study of glottal parameters of general voice source quality – such as rate of closure of vocal
549 folds, and skewness of glottal pulse. The correlates between voice quality parameters and prosodic categories other than word stress have not yet been established. The research in that area, however, has just begun, and it might provide many other surprising results (Marasek, 1997; Hanson, 1997). 2.3. Pitch Pitch, or perceived fundamental frequency, is the best investigated of all prosodic cues. The reason lies definitely in the multiple functions that are expressed by pitch variation. Tone and accent, intonational meaning, syntactic disambiguation, informational structure within a sentence, the structuring of discourse: all are claimed to be supported by the variation of the fundamental frequency. One may still add attitudinal and emotional expressiveness of messages to this list, and I am sure that we will still be missing somebody’s favourite prosodic function. In order to understand how one single cue can achieve so many interpretations, let us look more closely at the phonetic cue itself, and at the linguistic frames with which it is aligned. Speakers can set their fundamental frequency to a certain level (key), and let it vary within a specific set of values (register). They can consciously use the lower part of the register (low key {l}), or the higher part of the register (high key {h}) across the whole utterance or a substantial part of it. This systematic use of register for discourse segmentation will be discussed in the next section. The more thoroughly researched aspect of the role of the fundamental frequency variation is its contribution to the perception of tone. The tonal movements have a much more restricted linguistic frame, usually of a size of a syllable. If pitch is perceived in the upper part of the register, we speak of a high tone [H] or a [H*] pitch accent. The low pitch is perceived in the lower part of the register and it is marked with a [L] diacritic on the designated syllable (level low tone, or a simple low pitch accent [L*]). Pitch movements within a syllable are recognised since Pike’s (1948) seminal work as contour tones. They are labelled [LH], [HL], [HLH], etc., according to the notation introduced in Leben (1973) and taken over by autosegmental phonology. The pitch movements, which are anchored within the stressed syllable, may also be complex. They are interpreted as complex pitch accents like a fall [H* ⫹ L, H ⫹ L*], or a rise [L* ⫹ H, L ⫹ H*]. The starred tone is
550 anchored to the nucleus of the stressed syllable (Goldsmith, 1976; Ladd, 1996). The precise alignment of the pitch movement with the designated syllable is critical for the perception of tone and interpretation of the pitch accent. In a series of experiments House (1990, 1996, 1999) has shown that “… optimal pitch movement perception is possible when the tonal movement occurs across the area of relative spectral stability in the vowel or syllable rhyme. Tonal movements through areas of spectral change are recorded as pitch levels.” (House, 1999: 1823). This perceptual constraint imposed upon pitch movements in the areas of major spectral change is reminiscent of the defective perception of duration in the very same area (see 2.1). The fact that pitch movements are perceived as level tones in the areas of spectral change has important implications for the understanding of prosodic systems. Firstly, it implies the precedence of level tones over contour tones, an implication which is reflected in the distribution of tonal systems in the languages of the world (Maddieson, 1978). Secondly, it implies that the shifts in absolute timing of the same pitch movement may lead to categorical results, i. e. the classification and discrimination tasks on various accent types reveal typical categorical perception characteristics (§ 2.1). Peak shift experiments (Bruce, 1983; Ladd & Morton, 1997), as well as fall/rise shift experiments at the boundary of an intonational phrase (Bruce, 1977; House, 1990; Remijsen & van Heuven, 1999) suggest the categorical effects of those shifts. Listeners not only assign different accents to identical physical pitch movements (Bruce, 1977, 1983; Gussenhoven & Rietveld, 1988), but they also are in a position to assign different functions to these accents (Remijsen & van Heuven, 1999). The critical assignment of timing into pitch movements has been also implicated to be central in the successful modelling of prosody for purposes of speech technology (Kohler, 1991; van Santen & Möbius, 1997, 1999; Möhler, 1998). We will return to this issue in the final section of this study. The results of the research into the perception of pitch dimension presented above give support to the models of prosody with two types of units, which can be categorically interpreted – the pitch accents and the boundary tones. Both of these units are perceived categorically within the syllable that they are
IV. Sprachrezeption
assigned to. These phonetic results have always been critically interpreted and integrated into the theoretical work on intonation. In the seminal works of Bruce (1977), Pierrehumbert (1980), and Gussenhoven (1984) a set of intonational categories has been established, which, in analogy with sets of distinctive features, defines an inventory of units for intonational grammar (Ladd, 1996, for a definitive review). The central units of these, so called sequential models of intonational description, are pitch accents and boundary tones. Pitch accents followed by a boundary tone define another major constituent of the prosodic phonology – the intonational phrase. Prosodic phonology has considered a much larger set of constituents as its building blocks (Nespor & Vogel, 1986). However, it is only the two prosodic frames, the syllable and the intonational phrase, which appear to survive the tests of phonological consistency and experimental validation. Pitch accents and boundary tones, along with other, more tenuous, categories derived from the pitch dimension (e. g. register and key), are used to perform various grammatical functions. These functions contribute to the so-called intonational meaning, the topic to which I devote the next section of this essay.
3.
Intonational meaning
In addition to the regular syntactic phrase structure and the ordinary semantic values, which are derived from the morphosyntactic and lexical information, each proposition can be characterised by an additional informational structure, which has its specific syntactic and semantic properties. The first accounts of the informational structure as an integral part of linguistics have been provided by the Prague School linguistic circle (Vachek 1968). Prague views on the so called functional sentence perspective have been substantially modified in later research, however, the central categories of their investigation – focus and topic – have been preserved as central objects of investigation up to the modern work (Rooth, 1985, 1992; Büring, 1995; Selkirk, 1995; Truckenbrodt, 1999; Steedman, 1996, 1997). Also the early observation of the Praguian phonologists (Trubetzkoy, 1939), that focus and topic are immanently connected to the intonational
41. Understanding Prosody
structure, has been generally preserved (Brown, 1983; Gussenhoven, 1994). In the following, I will work out this relation more precisely. In order to preserve the highest possible consistency of the presentation I will restrict myself in the choice of focus/topic accounts and concentrate on those issues that can be captured within the restricted alternative semantics theory (Rooth, 1992; Büring, 1995; Kuhn, 1996; Mayer, 1997). 3.1. Prosody and informational structure Rooth (1992) and Büring (1995) argued that the focus/topic structure of a sentence expands the ordinary semantic value(s) of this sentence by a set of alternatives. Focus semantic values are the alternative propositions to the expression in focus. For example, the proposition in (1) has its ordinary semantic value in (2). (1) Maria likes Hammet (2) like (Maria, Hammet) In case one constituent of the proposition is placed in focus, like the noun phrase ‘Hammet’ in (3), the focus semantic values are assigned by extending the ordinary semantic values with a set of propositions containing compelling alternatives to the focused noun phrase like in (4). (3) Maria likes [Hammet]f (4) like (Maria, Hammet), like (Maria, Chandler), like (Maria, Follett) …. Focus interpretation may be induced by syntactic (Kiss, 1981) and lexical means (e. g. the particles like only, also, etc., are focus assigners (König, 1991)). However, most generally, focus is induced by the placement of the pitch accent over a stressable category. Most often the pitch accent, which is used to mark focus, contains the high pitch element anchored to the designated part of the focussed expression. So, for example, in Swedish focus is marked by adding a high tone [H] to the lexical pitch accents of the language (Bruce, 1977). German focus particles assign the [H* ⫹ L] accent to the lexical head of the subsequent phrase, which in German is the designated focus position (Müller, 1999). Some languages, for example Polish (Dogil, 1980) and Bengali (Hayes & Lahiri, 1991), have means of marking the scope of the focussed phrase by accent. In most cases, however, the scope of the focussed expression is
551 ambiguous and has to be resolved by further analysis (Selkirk, 1995; Kuhn, 1996). Topic semantic values are construed as a set of alternative questions which can be posed to the constituent in topic (Büring, 1995). The presence of the topic implies the presence of the focus, and in the set of alternative questions, the focus variable is replaced by a wh-phrase. Consider the example in (5) below with its alternative semantic analysis in (6). (5) What did the popstars wear? The [female]t popstars wore [caftans]f (6) what did the female popstars wear, what did the male popstars wear, what did the male and the female popstars wear, what did the Italian popstars wear, … Topic constructions invoke an informational structure in which one of the questions from the alternative set is still under consideration. In the construction in (5)/(6) it is the alternative {what did the male popstars wear}, which constitutes this residual topic. It is the aspect of the informational structure, which has not been settled and still remains under consideration. Topic may be marked explicitly in syntax in some languages (notably Hungarian – Kiss, 1981); however, the normal way to mark it is intonational pitch accent. Büring (1995) suggested that it is usually the rising pitch accent [L* ⫹ H], which is associated with topic. At least in German, this association appears to be consistent with the analysed data (Dogil et al., 1997), although no systematic experimental evaluation of the topic accent has been provided yet. The question to be considered is whether the two major types of complex pitch accents (the rise and the fall) are just by accident in complementary distribution with the two major types of constituents of informational structure (the topic and the focus). The openendedness and incompleteness of information implied by the topic is associated with the [L* ⫹ H] accent type. The novelty of the propositional set of alternatives implied by the focus is coded with the [H* ⫹ L] type of accent. This, and other considerations of the meaning of pitch accents, has led to the fully compositional semantics of pitch accents and boundary tones (Pierrehumbert & Hirschberg, 1990; Hobbs 1990; Mayer 1997). According to this model the pitch accents associated with the stressed syllables (* accents)
552 make the phrases containing these syllables particularly salient (cognitively present) in the domain of discourse. The elements marked with the [H*] tone are implied to be new in addition to being salient. The [L*] marked elements are interpreted as salient but not new. High pitched tonal suffixes and boundary tones [⫹H, H%] contribute the meaning of open-endedness and incompleteness to the basic pitch accent meanings, and the low pitched tonal suffixes and boundaries [⫹L, L%] mark these meanings as underspecified for completeness (Hobbs, 1990; Mayer, 1997: 52ff). The meaning of an [H* ⫹ L] pitch accent is to be understood as a composition of a meaning of an [H*] tone (the information of accent carrier is new and salient) and the meaning of the [⫹L] suffix (the information is not specified concerning its completeness). This meaning is conceptually consistent with the interpretation of focus in the alternative semantics. The meaning of an [L* ⫹ H] pitch accent, results from the meaning of the [L*] tone (the information is salient but not new) and of the [⫹H] suffix (incompleteness, residual information under consideration). This meaning is consistent with the concept of a topic in the alternative semantics. This abstract model of intonational meaning, although elegant and simple, has not been often confronted with experimental validation. It has its clear merits in the semantically well-understood cases like focus and sentence topic, beyond that, however, it has to be substantially modified to be of any empirical interest (Mayer, 1997). It comes short, for example, of any account of discourse structure relations expressed by prosody. We discuss one possible extension of the model in the following section. 3.2. Prosody and discourse structure Discourses are structured, i. e. they consist of discourse segments, each of which contributes in a specific way to a dynamic semantic representation of the discourse (Kamp, 1981; Kamp & Reyle, 1993). Individual segments in a long discourse are glued together by relations like elaboration, continuation, contrast, etc. These relations define a discourse as a coherent whole (Asher, 1993). It has been observed that the prosodic realization of the spoken discourse to some extent reflects its underlying dynamic semantic representation. Grosz und Hirschberg (1992) found the pause duration to correlate with the rough
IV. Sprachrezeption
topic structure of the discourse. Another parameter under consideration has been pitch range (Ayers, 1994). Mayer (1997, 1999) has given an explicit account of the relations between the dynamic semantic models of discourse (in particular, the ones developed under the influence of Kamp’s Discourse Representation Theory) and the phonological model of pitch range. In this model the pitch range is divided into categorical register levels {l} and {h}. These primary register features are associated with intonational phrases, and they reflect the position of the intonational phrase within a discourse segment. The analysis of some discourse types has shown that discourse-segment final phrases are associated with the established finality marker {l}, whereas the non-final phrases are associated with the register expansion {h} (Mayer, 1997; Möhler & Mayer, 1999; Clark, 1999). In the phonetic interpretation of the model, each intonational phrase will be associated with the primary register features, and thus realised at a specific overall pitch range. Primary phonological registers {h} and {l} may and do overlap in their phonetic realization. Their main role is to establish the position (final/ non-final) of a given proposition within the discourse segment. Primary registers are further subdivided into sub-registers, e. g. extra-high (which reaches the upper edge of the speaker’s range) or low-compressed (which is a narrow band at the bottom of the speaker’s range). The sub registers are represented as modifiers of primary registers. Extra-high is represented as {h, h} (first symbol – primary, second symbol – modifier register feature). Low-compressed is represented as {l, l}, i. e. low modified primary low register. In the extensive analysis of correlations between phonological register representation and the dynamic semantic structure Mayer (1997, 1999) has found that the register modifiers reflect semantic relations among the discourse segments, such as background, elaboration, continuation, contrast, etc. Figure 41.1 gives an overview of the various aspects of the model. On a more abstract level, Mayer (1999) has shown that the main correlation between the register modification and the dynamic discourse structure is the coding of the so-called discourse dominance (d-dominance). Discourse dominance has been formally defined by Asher (1993, chapter 7) and it forms a backbone of all other relations between dis-
553
41. Understanding Prosody
Fig. 41.1: Summary of Mayer’s Global Prominence Model: Discourse structure (top), intonational phrases (IP), with register features assigned (middle), and a diagrammatic illustration of the resulting pitch range expansion and position in the speaker’s overall pitch range (bottom).
course segments. Informally expressed, d-dominance means that constituents with more general semantics dominate constituents with more specific semantics. Elaborating, backgrounding, contrasting, etc., are all specific types of d-dominance. D-dominance is encoded by the modification of the primary register features. For example, given the main topic of discourse (Figure 41.1), intonational phrases that introduces a background information sequence (i. e. a sub-topic) becomes {h} modified. On the other hand, intonational phrases that terminate the sub-topic sequence become {l} modified. The development of the register model and, in particular, its correlation with the explicit semantic model, has enabled us to look at the elusive aspects of prosody like register, key and pitch range in a more linguistic and structured way. The potential of this correlation has not yet been fully exploited. However, the computer simulations of the model and tests on the large databases that it has been put to, suggest its great potential in linguistic theory as well as in speech technology (Dogil et al., 1997; Möhler & Mayer, 1999; Clark, 1999). The meaning of register features is connected to the explicitly defined categories of the discourse structure. It is much
more promising to follow this form of correlation between prosody and grammar, than to explore the notorious link between the phonetic pitch range and attitudinal ‘meanings’ like sadness, happiness, anger, fear, boredom, depth, expressiveness, harshness – or whatever attitude happens to be expressible in a human language. These correlations, if they can be established at all, are as flawed as many direct correlations between prosody and ‘the world outside’ that defy the prosody its primary linguistic character. Much of these direct relations have been supposedly supported in the neurolinguistic literature, in particular in the clinical data that showed the systematic disjunction in processing of ‘linguistic’ and ‘affective’ aspects of prosody after focal brain damage. I will devote the next section of this study to the new and emerging evidence in this fascinating area.
4.
Neuroanatomical correlates of prosody
It is a long established tradition in neuropsychology and neurolinguistics to associate the language processing centres with the left cerebral hemisphere and the emotion pro-
554 cessing centres with the right hemisphere. Prosodic features are believed to cross the boundaries of linguistic and emotional processing. Unlike other linguistic features (e. g. grammatical morphemes), they are often produced without conscious intention and are open to forms of interpretation, which rely on emotional, non-cognitive processes. The communicative content of many prosodic signals parallels that of stereotypic call vocalizations characteristic of communication systems of other species. It has been often argued that the neuroanatomical basis for these call vocalizations should be fundamentally different from the neuroanatomical basis of the symbolic aspects of human communication. But unlike calls of other species, prosodic organization of human communication is continuous and highly correlated with the semantic, syntactic, morphological and segmental organization of speech. The variety of prosody functions and cues in language processing has led to multiple hypotheses concerning the neurolinguistic and neuroanatomical basis of prosody (Baum & Pell, 1999, for a definitive critical review). 4.1. Clinical studies At least four contradictory hypotheses have been particularly influential. The right hemisphere hypothesis (Ross, 1981) contends that all aspects of prosody are independently processed by the right hemisphere and integrated with the linguistic information (which is processed by the left hemisphere) via interhemispheric connections (i. e. the fibers of the corpus callosum). The functional lateralization hypothesis (van Lancker, 1980) assumes that there is a continuum from linguistic to affective functions of prosody and processing shifts from the left hemisphere (more linguistically-based tasks) to the right hemisphere (more affectively-based tasks). The subcortical processing hypothesis (Cancelliere & Kertesz, 1990) claims that prosodic functions are highly dependent on subcortical regions and are not lateralized to one or another hemisphere. The acoustic cues hypothesis (van Lancker & Sidtis, 1992) contends that duration, pitch (and possibly intensity) may be independently lateralized. All these hypotheses find their support in the clinical observation of language and speech impaired subjects. The general uncer-
IV. Sprachrezeption
tainty in the literature is partly due to the type of data used in the studies as well as to the more general differences in methodology across studies. There are problems with the interpretation of data from patients if it is used in isolation. These data may reflect neural reorganization or the development of compensatory strategies. It cannot be simply assumed that the absence of function after a stroke means that the patient has normal cognition minus a diseased part. Moreover, most of the studies rely on clinical perceptual judgments and not on the objective phonetic measurements. The data provided by observation of patients are a product of a highly complex cognitive process (also within the judge) and it can be hardly used for comparison of individual studies. It is also often the case that control subjects, if tested at all, are tested on different tasks than the left-hemisphere-impaired and the right-hemisphereimpaired patients. The nature of the stimuli is also often poorly controlled. Prosodic functions are sometimes accompanied by semantic/syntactic material by using natural utterances. In other cases the linguistic information is digitally edited (e. g. by using lowpass filtered stimuli), or it is replaced by nonsense utterances (e. g. by using reiterrant speech or constructing word-like nonsense stimuli). It has not been investigated how these different stimuli influence the strategies of production and perception of prosody of brain damaged populations (Baum & Pell, 1999). The more recent studies of production and perception of prosody, in which all of the above mentioned problems are taken into consideration (Baum & Pell, 1997; Pell & Baum, 1997; Pell, 1998), demonstrate that the production and the comprehension of the affective tones is largely spared in all brain damaged subjects. The comparable performance of the right-hemisphere-damaged and the left-hemisphere-damaged subjects in the production and perception of the emotion stands in sharp contrast to their control of the strictly linguistic aspects of prosody like tone and stress. Here the right-hemispheredamaged subjects always score better than the left-hemisphere-damaged subjects (Pell, 1998, 711). Actually, the clinical evidence gathered to date converges on this one singular finding: the left hemisphere is active in the production and perception of prosody at the phonemic and the lexical level (Baum & Pell,
41. Understanding Prosody
1999: 602). All the other general hypotheses on the processing of prosody in the human brain have been falsified in at least one study. 4.2. Neuroimaging studies The capricious nature of pathological data has made research on the localization of prosody look into more direct evidence available from the functional Neuroimaging techniques. Zattore et al. (1992) have found a lateralization effect in the linguistic phonetic judgment task (increased activity in the Broca area) and the general pitch judgment task (right prefrontal activation). However, Gandour et al. (1997), who investigated the pitch judgments in the linguistic context, found significant activation in the Broca area for Thai (lexical tone language) subjects. Hence, the result of this PET (positron emission tracing) study appears to support the hypothesis that the lexical/phonemic control of pitch is sub served by the left hemisphere – the only hypothesis strongly supported by clinical data. The PET studies of cognition suffer from the major drawback of very poor time resolution. The subjects are required to sustain a certain activity for a relatively long time (usually in the order of minutes) which is then subtracted from the so called rest phase, in which, it is believed, their brains are at rest. There is no way of controlling what subjects actually do during the critical periods of brain activation or rest. A more recent fMRI technology allows for a much better time resolution (⬎ 50 msec.) and is, thus, much better suited to investigate the mental chronometry so essential in the investigation of language in general and its prosodic aspects in particular (Menon & Kim, 1999). The results of most recent fMRI research on prosody will be discussed in detail below. The study of Mayer et al. (1999), which we describe here in more detail, recruited healthy native German subjects (five females, four males, mean age 26.2 years, range 21⫺32 years). All participants were right-handed as determined by standardized inventory, and none of them had a history of neurological disorders. The subjects were asked to produce a word-like logatom consisting of five syllables [dadadadada] with various pitch-accent types and locations (the focus condition), with various boundary tone types (the modus condition), and with various kinds of emotional state marking (the affect condition). As a base line for the statistical analysis
555 they were asked to produces the logatomes [dadadadada, dididididi, dododododo, dududududu] in a monotonous voice (with a syllable frequency of ca. 5 Hz). The material is summarized in Figure 41.2. We used the reiterrant syllables and meaningless words in order to reduce to the minimum the influence of the syntactic, semantic, morphological and segmental factors on prosody generation. The aspects of prosody that were controlled in this experiment were in accordance with the tone sequence model of prosody correlated only with its different address frames (syllables and intonational phrases) and parameter settings (pitch, duration and intensity). Subjects lay supine in the MR scanner (1.5 T whole body scanner, Siemens Vision), the heads being secured by means of a foam rubber in order to minimize movement artifacts. The stimuli were presented visually every 15 sec. for a period of three seconds. The pauses between the stimuli were 12 sec. long. During these pauses the subjects were producing the stimulated prosodic variation. Every 60 sec. there was a paradigm change, initiated by an acoustic instruction. Each stimulus has been presented eight times. In four out of these eight presentations the ‘prosodic’ reaction was required. In the other four cases the subjects were rendering the stimulus in a monotonous manner. The event-related design of the experiment required four complete repetitions of the whole material. Figure 41.3 illustrates the data collection procedure used in the experiment. The material and the procedure have been validated in a pilot study (Mayer, 1999) performed outside of the MR scanner. FMRI [functional Magnetic Resonance Imaging] technology uses the blood oxygen level-dependent (bold) contrast effect as an indirect marker of brain activation. Local neuronal activity gives rise to a decline in blood oxygenation which, in turn, causes an increase of blood flow. The hemodynamic response outweighs the oxygen demand yielding accumulation of oxyhemoglobin within the respective region. Since oxyhemoglobin represents a less paramagnetic agent than deoxyhemoglobin, imaging sequences allow detecting the change of MR signal within the activated areas. Twenty-eight parallel axial slices (thickness ⫽ 4 mm, gap ⫽ 1 mm) were acquired across complete brain volume by means of multislice echoplanar imaging se-
556
Fig. 41.2: Summary of the presented stimuli and the reaction paradigms.
Fig. 41.3: Schematic event-related fMRI scanner protocol.
IV. Sprachrezeption
41. Understanding Prosody
quence T2*EPI (TE ⫽ 39 ms, TR ⫽ 3 s, α ⫽ 900, FOV ⫽ 192 mm, 642 matrix). The assumption, which is tested in the cognitive brain research, is that the brain is equipotential, with each behavior requiring the interaction of the entire structure. The established method is the statistical parametric mapping (SPM) (Frackowiak et al., 1997). The MRI data from our experiment was processed by means of SPM96 software package. Each mean image was coregistered and movement correction and space normalization procedures have been performed. The normalized fMRI data were filtered (Gaussian filter, six millimeter full width half maximum [FWHM]). Since prior fMRI studies of speech production (Wildgruber et al., 1997) revealed a delay of the hemodynamic response extending from three to six seconds only the images within this time window (the takes marked in bold in Figure 41.3) were considered in the analysis. For optimal localization of significantly activated areas SPM(t)-maps were superimposed on the structural MR images averaged across all nine subjects (Figure 41.4). The significant neural activity correlating with our experimental tasks is presented in the SPM scans in Figure 41.4. We found a circuit of enhanced neural activity in both left and right anterior portions of the superior temporal gyrus and in the cerebellum (also left and right) during all tasks of generating prosody. The monotonous speech is characterized by increased bilateral neural activity in the premotor cortex, and in the superior lateral hemispheres of the cerebellum. By subtracting the task 1 (i. e. simulation of focus) from task 4 (monotonous speech) we registered the enhanced activity in the left temporal superior gyrus (area 38/L, Figure 41.4a). Subtracting task 2 (i. e. simulation of linguistic modus) from the baseline revealed the neural activity enhancement in the posterior part of the right superior temporal gyrus (area 22/R, Figure 41.4b). Subtracting task 3 (i. e. simulation of affect) from the baseline revealed neural activity in the anterior part of the right superior temporal gyrus (area 22⫺42/R, Figure 41.4c). The results support the view that both hemispheres subserve the processing of prosodic features of speech. They suggest that this processing is highly localized (superior temporal gyrus). Furthermore, the lateralization is not consistent with the distinction between linguistic vs. emotional functions of
557
Fig. 41.4: Statistical Parametric Maps summarizing the significant brain activity in the focus condition (4a), the modus condition (4b), and the affect condition (4c). The orientation of the scan represents the relevant brain hemisphere (4a ⫺ left hemisphere; 4b, c right hemisphere). The dark voxels show the areas of increased hemodynamic activity.
558
IV. Sprachrezeption
prosody. Rather, it is the case that prosodic features which require a short address frame (e. g. focused syllable) are lateralized differently than prosodic features requiring a long address frame (the whole intonational phrase for linguistic modus and paralinguistic affect). Prosodic frame length and not the linguistic/affective function is a basis of lateralization (Behrens, 1989, for a similar conclusion derived from the clinical data). The fMRI studies of prosody perception support our findings. Wildgruber et al. (1999) found increased activity in the area 22/42 of the right hemisphere during the discrimination of emotional expressiveness task of digitally edited prosodic stimuli. This is exactly the area in which we found increased activity in the prosodic emotion-production task. Similarly, Dapretto et al. (1999) found increased activity in the superior temporal gyrus of the left hemisphere during the linguistic prosody perception task. Their results converge with our finding from the production experiment, Gandour’s (1997) PET study results as well as with the massive clinical data discussed by Baum & Pell (1999). Taken together, both clinical research and the emerging neuroimaging research on prosody localization and prosody processing (also Steinhauer, Alter & Friederici, 1999) provide strong empirical evidence for the linguistic ties of prosody and only anecdotal evidence for its para-communicative, emotional ties.
5.
Computational modeling of prosody
The strict links between the prosody and the linguistic structure did not remain unnoticed by the speech technological research. The fact that the morpholexical information, the syntactic structure, the informational structure and the discourse structure may be and often are coded by prosodic means like stress, intonational phrasing, pitch-accent placement, and pitch range variation has been noted in research on speech technology (Furui & Sondhi, 1992). In the area of speech recognition, Nöth (1991) has shown a significant improvement in the speech recognition rates, once the lexical prosodic information was taken into account. Wightman et al. (1992), Batliner et al. (1998a) have shown that automatically extracted prosodic information may be success-
fully used to predict syntactic structure and even to disambiguate such syntactic phenomena like empty category binding (Batliner et al., 1998b). The attempts to automatically classify the pitch accents and to use them for the prediction of the informational (i. e. topic/focus) structure turned out to be less successful (Campbell, 1996; Rapp, 1998), they led, however, to the creation of substantial, prosodically labeled data bases (Ostendorf, Price & Shattuck-Hufnagel, 1995: Rapp, 1996, 1998). These databases have been made generally available recently, and have made very interesting general modeling studies of prosody possible. Fach (1999) has investigated the correlation between the prosodic boundaries as given in the Boston Radio News Corpus (Ostendorf, Price & Shattuck-Hufnagel, 1995) and the syntactic boundaries derived from the automatic parsing of the news text. The correspondence between the intonation phrase labels and the syntactic chunks – [84 % precision/recall] – predicted by the Head-Lexicalised Probabilistic Phrase Structure Parser (Abney, 1991; Carol & Rooth, 1998) points out that prosodic boundaries do indeed mirror syntactic boundaries, at least in the specific radio announcer style. Möhler und Mayer (1999) analyzed a German Digital Radio News Corpus (Rapp, 1998) in order to recover its discourse structure from prosodic information. The database contains 67 minutes of news messages read by a professional male speaker. One message consists of 11 intonational phrases in average. The database has been labeled phonetically (phone tier and syllable tier assigned automatically using the principles of forced alignment – Rapp, 1995), morphosyntactically (by a part of speech tagger – Schmid, 1995), and prosodically. The prosody was manually annotated according with the German ToBI system (Mayer, 1995). The automatic extraction of pitch range is based on the parametric model of intonation events developed in Möhler (1998). Five parameters determine the movements of F0 within a two-syllable window around pitch accents and intonational boundaries (Figure 41.5). The shape parameter p establishes whether the F0 on the accented constituent is mainly rising (p ⫽ 1), falling (p ⫽ ⫺1) or whether it describes a concave contour (p ⫽ 0). The two parameters d and s correlate with the position and steepness of the accent slope within
41. Understanding Prosody
559
Fig. 41.5: Möhler’s F0 approximation function exemplifies by a falling F0 movement (p ⫽ ⫺0.5) with a high target in the middle of the accented syllable (d ⫽ ⫺0.5). Its slope extends over s ⫽ 0.8 of the accentual unit. The movement has its baseline at l ⫽ 100Hz and an amplitude of h ⫽ 30Hz.
the two-syllable analysis window. They capture the important accent alignment feature. The parameters l and h describe the base and height, respectively, of the particular pitch movement. Möhler und Mayer (1999) calculated the pitch range variation in the database from these two parameters. They extracted the pitch range of all intonational phrases that start a new message (N ⫽ 71) and compared them with overall distribution of pitch ranges for the whole corpus (N ⫽ 805). They found that the lower margin of the pitch range for these topic initial phrases was at the average level, but that the upper margin was clearly raised. This finding confirms the prediction of the global prominence model discussed in the section 4.2. above, which expects the {h}-modification of the {h}-register in such a case. For the intonational phrases that precede a topic change, Mayer’s (1997, 1999) global prominence model expected a low-compressed register (4.2.). Indeed, the prediction of the model has been met in the computational simulation on a large database. The 71 topic final intonational phrases were classified as having a low key and a significantly reduced upper range margin. Other discourse functions could not
be restored, because semantically labeled discourse corpora are not available. Möhler und Mayer (1999) suggest extending their work to areas such as dialog, for which discourse structure annotated speech corpora are already available. Major breakthroughs in the computational modeling of prosody have been achieved in the area of speech synthesis (Bailly, Benoit & Sawallis, 1992; Sproat, 1998). These breakthroughs are due to the well-understood role of prosody as a major contributor to the naturalness of machine made speech (Kohler, 1991; Pols, 1992). Prosodic modeling for speech synthesis has reached impetus with the development of new signal processing algorithms such as pitch synchronous overlay and add (PSOLA – Moulines & Charpentier, 1990; Moulines & Laroche, 1995). These algorithms allow the substantial modifications of duration and fundamental frequency of speech signals, without deteriorating its segmental structure. This opens quite new perspectives for the modeling of prosody, because now it can be simulated quite independently of other phonetic aspects of the signal. Modifications to PSOLA (Dutoit & Leich’s (1993) MBROLA
560 algorithm) have extended the resynthesis possibilities and they have been made available as tools to the research community (Möhler & Dogil, 1995; Dutoit et al., 1996; Boersma & Weenink, 1996). The general models of duration and pitch variation (including intonational theories) could be now immediately tested and put to work in textto-speech synthesis systems. We noted in 2.1 that the duration of a given element in a speech chain is strongly dependent on the context. The strongest contextual influences come from the syllabic stress (stressed vowels are longer, but also plosives in the onset of the stressed syllable have longer duration – Möbius, 1999: 349), the type of word class (vowels in closed class words are shorter than vowels in open class words), or the presence of a boundary in the vicinity of a constituent (codas are longer in word and phrase final position). These and other contextual influences were captured by means of sequential rule systems in the early durational models of speech (Klatt. 1973, 1976; Carlson & Grandström, 1986; Kohler, 1988). When large speech databases and computational tools for labeling and analyzing them became available, it turned out that the rule based durational models capture very little of the actual durational variation present in the database. For example, Möbius (1999: 344) observed in a German database, that the duration of a single vowel [e] varies between 35 ms (in the word jetzt ‘now’) and 252 ms (in the word Herren ‘gentlemen’). The modern durational models learn the variability directly from the database. Machine learning approaches like Artificial Neural Networks [ANN] (Campbell, 1992) and Classification and Regression Trees [CART] (Pitrelli & Zue, 1989) have been applied to databases of read and spoken speech containing between 20.000 and 200.000 segments in all possible contexts. It has been shown, however, that even huge amounts of training data do not cover all possible contextual features (van Santen, 1994). New, predictive techniques had to be developed to estimate the parameters that are underrepresented in the database. Van Santen’s (1994) estimation techniques, based on the statistical sums-of-products models, provided an elegant solution to the underestimation of rare parameters problem. Combined with the mathematical procedure for the database construction (greedy algorithms which select sentences covering the greatest amount of variation from huge
IV. Sprachrezeption
databases), these statistical-approximative duration modeling has led to astoundingly precise predictions for such diverse languages like English (van Santen, 1993), German (Möbius & van Santen, 1996; Möbius, 1999) and Mandarin Chinese (Shih & Ao, 1997). Statistical-approximative modeling is also a method of choice in the modeling of pitch variation for synthesizing intonation. Möhler (1998), whose pitch curve learning algorithm has been described in this section (Figure 41.5), has trained his intonational model on a labeled 50 min database of radio speech. The learned pitch curve matched the original to a very high degree (correlation 0.938; rms error 6.78 Hz). The correlation between the learned pitch curve and the original one was much higher than the correlation between the original curve and the one derived by a set of sequential rules, which Möhler (1998: 65⫺ 114) also implemented. In a perceptual evaluation, in which listeners were asked to assess the naturalness of the copy of the natural F0 curve, the F0 curve generated by a set of rules, and the F0 learned from the data by approximating the polynomial function (Figure 41.5), the intonational pattern learned from the data was evaluated as the best. It was assessed as significantly more natural than the pattern generated by a set of rules, but it was also considered more natural than the copy of the original F0 curve. This, ‘better than nature’, result predicted by Möhler’s model has important theoretical consequences. The curves approximated by his function pay attention exclusively to the syllable duplets at the autosegmentally-designated positions, i. e. pitch accents and boundary tones. The model is basically a sequential, autosegmental account of intonation by statistical-approximative techniques. The segmental influence on the accent position is not explicitly modeled. The high acceptance of so modeled intonational curve may mean that listeners are ready to accept the patterns that give them direct access to intonational meaning expressed as focus, topic and discourse dominance relations (3 above). It also means that listeners are ready to disregard the finetuning between the segmental structure and the pitch variation. Segmental factors can cause temporal changes and perturbations in local pitch accents (van Santen & Hirschberg, 1994; and our discussion in 2.3). These changes are not always perceptually significant. Actually most often they may be regarded as aspects
41. Understanding Prosody
of attitudinal intonational meaning, the meaning that may not be related to the general linguistic theory, and thus, should be disregarded in a model of grammar. Yet, for the speech synthesis purposes an exact alignment of the modeled pitch structure and the modeled durational structure is of utmost significance. If two models are unrelated, the mismatches will be immediately noticeable. Van Santen und Möbius, (1997, 1999) have proposed a statistical-approximative model of fundamental frequency contour alignment. Their alignment parameter matrix is sensitive to the durational information from the subsyllabic structure (the length of onset, rhyme and the rest of the syllable are weighted against each other) and to the segmental properties of the accented speech units (sonorant, voiced obstruent, voiceless). Pitch curves are assigned to accent groups in a super positional manner, i. e. pitch-accent curves, segmental perturbation curves and phrase accent curves are superposed on an accented constituent. Based on the additive decomposition concept the model allows for a greater degree of implementation control, and higher freedom in the number of levels to be considered in the model of prosody. We believe that the number of prosodic levels should be principally restricted to the linguistically founded ones (e. g. syllable and the intonational phrase). It is also likely, that the phrase accent commands of the super positional model, could be recovered from the parameters of the pitch accent model (Möhler & Mayer, 1999, on the modeling of pitch range), and would not have to be explicitly modeled. In future, the evaluation of the general models of prosody will definitely follow the research methodology accepted by the computational modeling, i. e. the confrontation of the model with the huge, carefully labeled databases. The use of stochasticapproximative techniques in the process of modeling will be fostered by the development of stochastic models of language structure and language processing.
6.
References
Abney, S. (1991). Chunks and dependencies: Bringing processing evidence to bear on syntax. Technical Report, Universität Tübingen, [http://www.sfs.nphil. uni-tuebingen.de/~abney] Ackermann, H., Wildgruber, D. & Grodd, W. (1998). Does the cerebellum contribute to the cog-
561 nitive aspects of speech production? A functional MRI study in humans. Neuroscience Letters, 247, 187⫺190. Asher, N. (1993). Reference to abstract objects in discourse. Dordrecht: Kluwer. Ayers, G. (1994). Discourse functions of pitch range in spontaneous and read speech. Ohio State University Working Papers in Linguistics, 44, 1⫺49. Bailly, G., Benoit, C. & Sawallis, T. R. (1992). Talking machines: Theories, models and designs. Elsevier: Amsterdam. Batliner, A., Kompe, R., Kiessling, A., Mast, M., Niemann, H. & Nöth, E. (1998a). M ⫽ Syntax ⫹ Prosody: A syntactic-prosodic labeling scheme for large spontaneous speech databases. Speech Communication, 25, 193⫺222. Batliner, A., Feldhaus, A., Geissler, S., Kiessling, A., Kiss, T., Kompe, R. & Nöth, E. (1998b). Integrating syntactic and prosodic information for the efficient detection of empty categories. In Proceedings of the International Confernce on Computational Linguistics, Copenhagen, 71⫺76. Baum, S. & Pell, M. (1997). Production of affective and linguistic prosody by brain-damaged patients. Aphasiology, 11, 177⫺198. Baum, S. & Pell, M. (1999). The neural bases of prosody: Insights from lesion studies and neuroimaging. Aphasiology, 13, 581⫺608. Beckmann, M. (1986). Stress and non-stress accent. Dordrecht: Foris. Behrens, S. (1989). Characterizing sentence intonation in a right hemisphere-damaged population. Brain and Language, 37, 181⫺200. Blumstein, S., Cooper, W., Goodglass, H., Statlender, S. & Gotlieb, J. (1980). Production deficits in aphasia: A voice-onset-time analysis. Brain and Language, 9, 153⫺170. Boersma, P. & Weenink, D. (1996). Praat: A system of doing phonetics by computer. Institute of Phonetic Sciences: University of Amsterdam. Bolinger, D. (1978). Intonation across languages. In J. Greenberg (Ed.), Universals of human language (pp. 471⫺524). Stanford: Stanford University Press. Brown, G. (1983). Prosodic structure and the given/new distinction. In A. Cutler & R. Ladd (Eds.) Prosody: Models and measurements (pp. 67⫺ 78). Berlin: Springer. Bruce, G. (1977). Swedish word accents in sentence perspective. Lund: Gleerup. Bruce, G. (1983). Accentuation and timing in Swedish. Folia Linguistica, 17, 221⫺238.
562
IV. Sprachrezeption
Büring, D. (1995). The 59th Street Bridge accent. On the meaning of topic and focus. Dissertation. Universität Tübingen.
Dogil, G. (1999). Acoustic landmarks and prosodic asymmetries. ICPhS’99, San Francisco, 2105⫺ 2108.
Campbell, W. N. (1992). Syllable-based segmental duration. In G. Bailly, C. Benoit & T. Sawallis (Eds.) Talking machines: Theories, models and designs (pp. 211⫺224).
Dogil, G. & Braun, G. (1988). The pivot model of speech parsing. Vienna: Academie Verlag.
Campbell, N. (1996). Autolabelling Japanese ToBI. ICSLP’96, Philadelphia, 2399⫺2402. Cancelliere, A. & Kertesz, A. (1990). Lesion localization in acquired deficits of emotional expression and comprehension. Brain and Cognition, 13, 133⫺147. Carlson, R. & Grandström, B. (1986). A search for durational rules in real-speech database. Phonetica, 43, 140⫺154. Carol, G. & Rooth, M. (1998). Valence induction with a head-lexicalized PCFG. Empirical Methods in NLP, Workshop Proceedings, Granada. Clark, R. (1999). Using prosodic structure to improve pitch range variation in text-to-speech synthesis. ICPhS’99, San Francisco, 69⫺72. Classen, K., Dogil, G., Jessen, M., Marasek, K. & Wokurek, W. (1998). Stimmqualität und Wortbetonung im Deutschen. Linguistische Berichte, 174, 202⫺245. Clements, G. N. & Hertz, S. (1995). An integrated approach to phonology and phonetics. In J. Durand & B. Laks (Eds.) Current trends in phonology: Models and methods (pp. 1⫺59). CNRS: Paris. Dapretto, M., Hariri, A., Bialik, M. & Bookheimer, S. (1999). Cortical correlates of affective vs. linguistic prosody: An fMRI study. NeuroImage, 9, 1054. Darley, F. L., Aronson, A. E. & Brown, J. R. (1975). Motor speech disorders. Philadelphia: Saunders. Degen, K. & Ziegler, W. (1998). Control of speech rate and rhythm in patients with left hemisphere lesions. In W. Ziegler & K. Degen (Eds.) Clinical phonetics and linguistics (pp. 405⫺413). London: Whurr Publ. D’Imperio, M. & Rosenthall, S. (1999). Phonetics and phonology of main stress in Italian. Phonology, 16, 1⫺28.
Dogil, G. & Mayer, J. (1998). Selective phonological impairment: A case of apraxia of speech. Phonology, 15, 143⫺188. Dogil, G., Hildebrandt, G. & Schürmeier, K. (1990). The communicative function of prosody in a semantic jargon aphasia. Journal of Neurolinguistics, 5, 353⫺369. Dogil, G., Kuhn, J., Mayer, J., Möhler, G. & Rapp, S. (1997). Prosody and discourse structure. In A. Botinis, G. Kouroupetroglou & G. Carayannis (Eds.) Intonation: Theory, models and applications (pp. 99⫺102). ESCA, Athens. Dutoit, T. & Leich, H. (1993). MBR-PSOLA: Textto-speech synthesis based on a MBE re-synthesis of the segments database. Speech Communication, 13, 435⫺440. Dutoit, T., Pagel, V., Pierret, N., Bataille, F. & van der Vreken, O. (1996). The MBROLA Project: Towards a set of high-quality speech synthesizers free of use for non-commercial purposes. ICSLP’96, Philadelphia, 1393⫺1396. Eimas, E. R., Siqueland, P., Jusczyk, P. & Vigorito, J. (1971). Speech perception in infants. Science 171, 303⫺306. Fach, M. (1999). A comparison between syntactic and prosodic phrasing. EUROSPEECH’99, Budapest, ESCA. Fant, G. (1986). Glottal flow: Models and interactions. Journal of Phonetics, 14, 393⫺399. Fikkert, P. (1994). On the acquisition of prosodic structure. The Hague: HIL. Frackowiak, R. (1997). Human brain function. San Diego: Academic Press. Fromkin, V. (1978). Tone: A linguistic review. New York: Academic Press. Furui, S. & Sondhi, M. (1992). Advances in speech signal processing. New York: Marcel Deker.
Dogil, G. (1980). Focus marking in Polish. Lingusitic Analysis, 6, 221⫺245.
Gandour, J., Wong, D., van Lancker, D. & Hutchings, D. (1997). A PET investigation of speech prosody in tone languages. Brain and Language, 60, 192⫺194.
Dogil, G. (1987). Prototypical speech events and speech perception. ICPhS’87, Tallinn, 360⫺366.
Goedemans, R. (1998). Weightless segments. Amsterdam: HIL.
Dogil, G. (1998). The phonetic manifestation of word stress. In H. van der Hulst (Ed.) Word prosodic systems in the languages of Europe (pp. 273⫺ 311). Berlin: de Gruyter.
Goldsmith, J. (1976). Autosegmental phonology. Dissertation, MIT. Goldsmith, J. (1995). A handbook of phonological theory. London: Blackwell.
41. Understanding Prosody
563
Grosz, B. & Hirschberg, J. (1992). Some intonational characteristics of discourse structure. ICSLP’92, Banff, 429⫺432.
tory phonology I: Between the grammar and the physics of speech (pp. 406⫺434). Cambridge: Cambridge University Press.
Gussenhoven, C. (1984). On the grammar and semantics of sentence accents. Dordrecht: Foris.
Kiss, K. (1981). Structural relations in Hungarian, a ‘free’ word order language. Linguistic Inquiry, 12, 185⫺213.
Gussenhoven, C. & Rietveld, A. (1988). Fundamental frequency declination in Dutch: Testing three hypotheses. Journal of Phonetics, 16, 355⫺ 369. Hanson, H. (1997). Glottal characteristics of female speakers: acoustic correlates. Journal of the Acoustical Society of America, 101, 466⫺481. Hayes, B. & Lahiri, A. (1991). Bengali intonational phonology. Natural Language and Linguistic Theory, 9, 47⫺96.
Klatt, D. (1973). Interaction between two factors that influence vowel duration. Journal of the Acoustical Society of America, 54, 1102⫺1104. Klatt, D. (1976). Linguistic uses of segmental duration in English: acoustic and perceptual evidence. Journal of the Acoustical Society of America, 59, 1209⫺1221. Kohler, K. (1988). Zeitstrukturierung in der Sprachsynthese. ITG-Fachbericht, 105, 165⫺170.
Helmholz, H. (1885). Die Lehre von Tonempfindungen [The sensation of tone] 2nd. Engl. Ed., New York: Green.
Kohler, K. (1991). Studies in German intonation. Arbeitsberichte des Instituts für Phonetik digitale Sprachverarbeitung 25. Universität Kiel.
Hertz, S. (1990). The Delta programming language: An integrated approach to non-linear phonology, phonetics and speech synthesis. In J. Kingston & M. Beckman (Eds.), Papers in laboratory phonology I: Between the grammar and the physics of speech. Cambridge: Cambridge University Press.
König, E. (1991). The meaning of focus particles. A comparative perspective. London: Routledge.
Hertz, S. (1999). The ETI-Eloquence text-to-speech system. [http://www.eloq.com]
Kuhn, J. (1996). On intonation and interpretation in context – Is there a unitary explanation of focus and deaccenting? Thesis, IMS-Stuttgart. Ladd, R. (1996). Intonational phonology. Cambridge: Cambridge University Press. Ladd, R. & Morton, R. (1997). The perception of intonational emphasis: Continuous or categorical? Journal of Phonetics, 25, 313⫺342.
Hobbs, J. R. (1990). The Pierrehumbert-Hirschberg theory of intonational meaning made simple: comments on Pierrehumbert and Hirschberg. In P. R. Cohen, J. Morgan & M. E. Pollack (Eds.), Intentions in communications (pp. 313⫺323). Cambridge: MIT Press.
Leben, W. (1973). Suprasegmental phonology. Dissertation, MIT.
House, D. (1990). Tonal perception in speech. Lund: Lund University Press.
Liberman, A. (1996). Speech: A special code. Cambridge: MIT Press.
House, D. (1996). Differential perception of tonal contours through the syllable. ICSLP’96, Philadelphia, 2048⫺2051.
Liebermann, P. (1967). Intonation, perception and language. Cambridge, MIT Press.
House, D. (1999). Perception of pitch and tonal timing: implications for mechanisms of tonogenesis. ICPhS’99, 1823⫺1826. Jilka, M. (1999). Identifying intonational foreign accent with the help of different methods of F0 generation. ICPhS’99, San Francisco, 1447⫺1450.
Lehiste, I. (1970). Suprasegmentals. Cambridge: MIT Press.
Lisker, L. & Abramson, A. (1967). The voicing dimension: Some experiments in comperative phonetics. ICPhS’67. Prague: Academia. Maddieson, I. (1978). Universals of tone. In J. Greenberg & S. Bolinger (Eds.), Universals of human language (pp. 335⫺365). Stanford: Stanford University Press.
Kamp, H. (1981). A theory of truth and semantic representation. In J. A. G. Grodendijk, T. M. V. Janssen & M. B. J. Stokhof (Eds.), Truth, interpretation and information (pp. 1⫺41). Dordrecht: Foris.
Marasek, K. (1997). Electroglottographic description of voice quality. Phonetic AIMS 3.2. IMSStuttgart.
Kamp, H. & Reyle, U. (1993). From discourse to logic. Dordrecht: Kluwer.
Mayer, J. (1995). Transcription of German intonation: The Stuttgart system. Technical Report, IMSStuttgart. [http://www.ims.uni-stuttgart.de/phonetik/joerg/labman/STGTsystem.html]
Kingston, J. (1990). Articulatory binding. In J. Kingston & M. Beckman (Eds.), Papers in labora-
Markham, D. (1997). Phonetic imitation, accent and the learner. Lund: Lund University Press.
564 Mayer, J. (1997). Intonation und Bedeutung. Phonetic AIMS 3.4. IMS-Stuttgart.
IV. Sprachrezeption
Mayer, J. (1999). Prosodische Merkmale von Diskursrelationen. Linguistische Berichte, 177, 65⫺86.
Pell, M. (1998). Recognition of prosody following unilateral brain lesion: influence of functional and structural attributes of prosodic contours. Neuropsychologia, 36, 701⫺715.
Mayer, J., Dogil, G., Wildgruber, D., Riecker, A., Ackermann, H. & Grodd, W. (1999). Prosody in speech production: A fMRI study. ICPhS’99, San Francisco, 635⫺638.
Pell, M. & Baum, S. (1997). The ability to perceive and comprehend intonation in linguistic and affective contexts by brain damaged adults. Brain and Language, 57, 80⫺99.
Menn, L. & Boyce, S. (1982). Fundamental frequency and discourse structure. Language and Speech, 25, 341⫺383.
Pierrehumbert, J. (1980). The phonology and phonetics of English intonation. Dissertation, MIT.
Menon, R. S. & Kim, S.-G. (1999). Spatial and temporal limits in cognitive neuroimaging with fMRI. Trends in Cognitive Sciences, 3, 207⫺216. Moulines, E. & Charpentier, F. (1990). Pitch-synchronous waveform processing techniques for textto-speech synthesis using diphones. Speech Communication, 9, 453⫺467. Moulines, E. & Laroche, J. (1995). Non-parametric techniques for pitch scaling and time-scale modification of speech. Speech Communication, 16, 175⫺207. Möbius, B. (1999). The Bell Labs German text-tospeech system. Computer Speech and Language, 13, 319⫺357. Möbius, B. & van Santen, J. (1996). Modeling segmental duration in German text-to-speech synthesis. ICSLP’96, Philadelphia, 2395⫺2398. Möhler, G. (1998). Theoriebasierte Modellierung der deutschen Intonation für die Sprachsynthese. Phonetik AIMS 4.1. IMS-Stuttgart.
Pierrehumbert, J. & Hirschberg, J. (1990). The meaning of intonational contours in the interpretation of discourse. In P. R. Cohen, J. Morgan & M. E. Pollack (Eds.), Intentions in communications (pp. 271⫺311). Cambridge: MIT Press. Pitrelli, J. & Zue, V. (1989). A hierarchical model for phoneme duration in American English. EUROSPEECH’89, Paris, ESCA, 324⫺327. Pols, L. (1992). Quality assessment of text-tospeech synthesis by rule. Quality assessment of text-to-speech synthesis-by-rule. In S. Furui & M. M. Sondhi (Eds.), Advances in speech signal processing (pp. 387⫺416). Marcel Dekker, New York. Rapp, S. (1995). Automatic phonemic transcription and linguistic annotation from known texts with Hidden Markov Models / An aligner for German. Proceedings of the Workshop on Integration of Language and Speech in Academia and Industry, Moscow, ELSNET. Rapp, S. (1996). Goethe for Prosody. ICSLP’96, Philadelphia, 1636⫺1639.
Möhler, G. & Dogil, G. (1995). Test environment for the two-level model of Germanic prominence. EUROSPEECH’95, Madrid, 1019⫺1022.
Rapp, S. (1998). Automatisierte Erstellung von Korpora für die Prosodieforschung. Phonetik AIMS 4.1. IMS-Stuttgart.
Möhler, G. & Mayer, J. (1999). A method for the analysis of prosodic registers. EUROSPEECH’99. Budapest, ESCA.
Remijsen, B. & van Heuven, V. (1999) Gradient and categorical pitch dimensions in Dutch: Diagnostic test. ICPhS’99, San Francisco, 1865⫺1868.
Müller, K. (1999). German focus particles and intonation. ICPhS’99, San Francisco, 1521⫺1524.
Rooth, M. (1985) Association with focus. Dissertation. Amherst: Umass.
Nespor, M. & Vogel, I. (1986). Prosodic phonology. Dordrecht: Foris.
Rooth, M. (1992)m A theory of focus interpretation. Natural Language Semantics, 1, 75⫺116.
Nı´ Chasaide, A. & Gobl, C. (1997). Voice source variation. In W. J. Hardcastle & J. Lever (Eds.), The handbook of phonetic sciences (pp. 427⫺461). Oxford: Blackwell.
Ross, E. (1981). The aprosodias: Functional-anatomic organization of the affective components of language in the right hemisphere. Archives of Neurology, 38, 561⫺569.
Nöth, E. (1991). Prosodische Information in der automatischen Spracherkennung. Tübingen: Niemeyer.
Ross, E. & Mesulam, M. (1979). Dominant language functions of the right hemisphere? Prosody and emotional gesturing. Archives of Neurology, 36, 144⫺149.
Ohala, J. & Kawasaki, H. (1986). Prosodic phonology and phonetics. Phonology, 3, 113⫺127. Ostendorf, M., Price, P. & Shattuck-Hufnagel, S. (1995). The Boston radio news corpus. Boston University.
Scharf, G. (1999). Perception of vocalic quantity in dysarthric speech – Interaction of acoustic, articulatory and perceptive timing mechanisms. ICPhS’99, San Francisco, 1797⫺1800.
41. Understanding Prosody Schmid, H. (1995). Improvements in part-ofspeech tagging with an application to German. Proceedings of the EACL SIGDAT Workshop, Dublin, ELSNET. Selkirk, E. (1995). Sentence prosody: Intonation, stress and phrasing. In J. A. Goldsmith (Ed.), The handbook of phonological theory (pp. 550⫺570). Blackwell Publishers. Shih, C. & Ao, B. (1997). Duration study for the Bell Laboratories Mandarin text-to-speech system. In J. van Santen, R. Sproat, J. Olive & J. Hirschberg, (Eds). Progress in speech synthesis. (pp. 383⫺ 399). Springer, New York. Sluiter, A. (1995). Phonetic correlates of stress and accent. The Hague: Holland Academic Graphics.
565 created equal. Journal of Speech and Hearing Research, 35, 963⫺970. van Santen, J. (1993). Timing in text-to-speech systems. EUROSPEECH’93, Berlin, ESCA, 1397⫺ 1404. van Santen, J. (1994). Assignment of segmental duration in text-to-speech synthesis. Computer Speech and Language, 8, 95⫺128. van Santen, J. & Hirschberg, J. (1994). Segmental effects on timing and height of pitch contours. ICSLP ’94, Yokohama, 719⫺722. van Santen, J. & Möbius, B. (1997). Modeling pitch accent curves. In A. Botinis, G. Kouroupetroglou & G. Carayannis (Eds.), Intonation: Theory, models and applications (pp. 321⫺324). Athens: ESCA.
Steedman, M. (1996). Surface structure and interpretation. Cambridge: MIT Press.
van Santen, J. & Möbius, B. (1999). A model of fundamental frequency contour alignment. In A. Botinis (Ed.), Intonation: Analysis, models and speech technology (pp. 269⫺290). Cambridge: Cambridge University Press.
Steedman, M. (1997). Information structure and the syntax-phonology interface. Ms. University of Pennsylvania.
van Santen, J., Sproat, R., Olive, J. & Hirschberg, J. (Eds). (1997). Progress in speech synthesis. Springer, New York.
Steinhauer, K., Alter, K. & Friederici, A. (1999). Brain potentials indicate immediate use of prosodic cues in natural speech processing. Nature Neuroscience, 2, 191⫺196.
Vollmer, K. (1997). Koartikulation und glottale Transparenz. Phonetik AIMS 3.5. IMS-Stuttgart.
Sproat, R. (1998). Multilingual text-to-speech synthesis: The Bell Labs approach. Dordrecht: Kluwer.
Trubetzkoy, N. (1939). Grundzüge der Phonologie. Göttingen: Vondenhoeck and Ruprecht. Truckenbrodt, H. (1999). On the relation between syntactic phrases and prosodic phrases. Linguistic Inquiry, 30, 219⫺255. Vachek, J. (1966). The linguistic school of Prague. Bloomington: Indiana University Press. van der Hulst, H. (1998). Word prosodic systems in the languages of Europe. Berlin: de Gruyter. van der Hulst, H. & Smith, N. (1982). The structure of phonological representations, Vol. I and II. Dordrecht: Foris. van Lancker, D. (1980). Cerebral lateralization of pitch cues in the linguistic signal. International Journal of Human Communication, 13, 227⫺277. van Lancker, D. & Sidtis, J. (1992). The identification of affective-prosodic stimuli by left- and righthemisphere-damaged subjects: All errors are not
Wightman, C., Shattuck-Hufnagel, S., Ostendorf, M. & Price, P. (1992). Segmental durations in the vicinity of prosodic phrase boundaries. Journal of the Acoustical Society of America, 91, 1707⫺1717. Wildgruber, D., Erb, M., Klose, U. & Grodd, W. (1997). Sequential activation of suplementary motor area and primary motor cortex during selfpaced finger movements in humans evaluated by functional MRI. Neuroscience Letters, 127, 161⫺ 164. Wildgruber, D., Pihan, H., Erb, M., Ackermann, H. & Grodd, W. (1999). Differential activation patterns during discrimination of affective prosody: Influence of acoustics, emotional valence, accuracy and sex. NeuroImage, 9, 1018. Zattore, R., Evans, A., Meyer, E. & Gjedde, A. (1992). Lateralization of phonetic and pitch discrimination in speech processing. Science, 256, 846⫺849.
Grzegorz Dogil Universität Stuttgart (Germany)
566
IV. Sprachrezeption
42. Inferenzen 1. 2. 3. 4. 5.
Einleitung Theorien Theorien im empirischen Test Schluss Literatur
1.
Einleitung
Viele sprachliche Äußerungen enthalten nur einen Bruchteil derjenigen Information, die eigentlich an die Kommunikationspartner übermittelt werden soll. Wenn zum Beispiel ein Handwerker möchte, dass ihm sein Gehilfe einen Bohrer von der Stärke 8 mm holt, dann sagt er in den wenigsten Fällen: „Wärst du so nett und würdest mir jetzt bitte einen Bohrer von der Stärke 8 mm aus unserem Wagen, der vor der Tür dieses Hauses steht, holen?“ Was der Gehilfe in den meisten Fällen höchstens zu hören bekommt, ist: „Ich brauche einen Achter“ oder nur „Acht“. Dennoch erfüllen diese Anfragen meistens ihren kommunikativen Zweck, da die Rezipienten auf ihr Welt- und Kommunikationswissen zurückgreifen können, um eventuelle Informationslücken zu schließen. Bei genauer Betrachtung sind solche ‘Lücken’ in allen mündlichen und schriftlichen Texten enthalten, mit denen Menschen sich untereinander verständigen. Sogar die scheinbar so exakten und unmissverständlich formulierten Texte der Wissenschaft oder der Rechtsprechung werden in der Regel nur dann verständlich, wenn sie von Experten mit ihrem umfassenden Hintergrundwissen interpretiert werden. Die oben erwähnten und ähnliche Ergänzungen der Textinformationen durch die Rezipienten werden in der Psycholinguistik Inferenzen genannt (Rickheit & Strohner, 1985; Graesser & Bower, 1990; Graesser, Singer & Trabasso, 1994). Da es sich hier um mentale Vorgänge mit einer eigenen Systematik handelt, dürfen sie auf keinen Fall mit logischen Schlüssen gleichgesetzt werden, auch wenn in einigen Fällen von einer gewissen Analogie ausgegangen werden kann (Harris & Monaco, 1978; Revlin & Hegarty, 1999). Eine weitere Beschränkung des vorliegenden Beitrags ergibt sich dadurch, dass nur semantische Inferenzen behandelt werden. Die genauso wichtigen Inferenzprozesse im Bereich der Phonologie, der visuellen Sprachverarbeitung, der Syntax oder der Pragmatik werden in den hierfür reservierten Kapiteln dieses
Bandes besprochen. Einen Überblick darüber, wie Menschen Aufgaben der Logik bearbeiten, geben Johnson-Laird und Byrne (1993), eine Verortung der Inferenzforschung im Gesamt der Textverarbeitungsforschung Rickheit und Strohner (1999). Im Folgenden werden wir zunächst einen Überblick über die wichtigsten Theorierichtungen auf dem Gebiet der Inferenzbildung geben. Danach richten wir unseren Blick auf die experimentelle Befundlage in diesem Bereich und prüfen, wie die einzelnen Theorien beim Empirietest abschneiden. Wie die Forschung immer deutlicher zeigt, sind auch in diesem Bereich wie in vielen anderen Bereichen der Psycholinguistik Fragen der methodischen Vorgehensweise resultatsentscheidend. Abschließend gehen wir auf die zukünftigen Perspektiven der Inferenzforschung ein, die wir vor allem in einer konsequenten Berücksichtigung der situativen Einbettung der Inferenztätigkeit sehen.
2.
Theorien
Die in den letzten Jahren in der Psycholinguistik diskutierten Inferenztheorien lassen sich in drei Gruppen einteilen: ersten solche, die die Inferenzbildung auf ein notwendiges Minimum beschränken und deshalb als minimalistische Theorien bezeichnet werden; zweitens solche, die zur Inferenztätigkeit das gesamte Weltwissen heranziehen und deshalb hier als maximalistische Theorien firmieren, und schließlich solche, die davon ausgehen, dass nicht allein die Äußerung die tatsächlich gebildeten Inferenzen bestimmt, sondern die gesamte Kommunikationssituation, und die daher situierte Theorien genannt werden. 2.1. Minimalistische Theorien In der minimalistischen Theorie von McKoon und Ratcliff (1992) wurden im Wesentlichen nur zwei Arten von Inferenzen angenommen: solche, die schnell leicht verfügbar sind, und solche, die für die lokale Kohärenzherstellung notwendig sind: „In the absence of specific, goal-directed strategic processes, inferences of only two kinds are constructed: those that establish locally coherent representations of the parts of text that are processed concurrently and those that rely on information that is quickly and easily available.“ (McKoon & Ratcliff, 1992: 440)
42. Inferenzen
In den Inferenzen, die schnell und leicht verfügbar sind und deshalb nach Ansicht von McKoon und Ratcliff automatisch gebildet werden, gehören vor allem Inferenzen auf der Konzeptebene, wie zum Beispiel Konzeptmodulationen und Konzeptinstanziierungen, wenn diese durch den Kontext dringend nahe gelegt werden (s. Abschn. 3.1). Weitere elaborative Inferenzen wie Handlungswerkzeug oder Handlungskonsequenzen treten nach dieser Theorie ebenfalls nur dann auf, wenn sie kontextuell bedingt leicht verfügbar sind (s. Abschn. 3.2). Hinzu kommen Inferenzen, die zur lokalen Kohärenz des Textes beitragen, wie zum Beispiel koreferenzielle Verbindungen und Kausalrelationen, nicht jedoch Inferenzen, die auf eine globale Textkohärenz abzielen, wie zum Beispiel Makropropositionen und übergreifende Handlungsziele (s. Abschn. 3.3). Wie McKoon und Ratcliff hervorheben, gilt ihre Theorie nur für automatisch gebildete Inferenzen und nicht für solche, die mittels zielorientierter Strategien erstellt werden: „It is very important not to misunderstand the goal of the minimal inference position. It is easy to see it as a rejection of all goal-based, purposeful inference processing because this article is focused on minimal inferences. This is not the case. The aim is to try to separate the inferences and relations that are automatically and rapidly produced from those that are the result of slower, goal-based strategic processes.“ (McKoon & Ratcliff, 1992: 463)
Die auf der Basis minimalistischer Überlegungen von Kintsch und van Dijk (1978) sowie von van Dijk und Kintsch (1983) entworfene Konstruktions-Integrations-Theorie von Kintsch (1988) bezieht sich besonders auf die verschiedenen Prozesse, die bei der Inferenzbildung ablaufen. Kintsch teilt die gesamte Inferenzdynamik in zwei große Phasen ein: ⫺ In der Konstruktionsphase wird eine semantische Repräsentation der neu rezipierten Textinformation hergestellt und diese mit benachbarten Konzepten des Weltwissens verknüpft. Das Ergebnis ist ein semantisches Netzwerk verbundener Konzepte sowohl aus dem Text als auch aus dem Weltwissen, in dem noch viele zeitweise aktivierte, aber für den Endzustand der Textrezeption weniger relevante Informationen enthalten sind. Für die Inferenztätigkeit bedeutet dies, dass das Modell zu diesem Zeitpunkt der Verarbeitung eine zeitweilige intensive Elaboration
567 durch Weltwissen und sogar einen Zustand vorübergehender Inkohärenz annimmt. ⫺ Die Aufgabe der Integrationsphase ist es, das durch Elaboration und Inkohärenz gekennzeichnete Ergebnis der Konstruktionsphase in ein kohärentes Netzwerk überzuführen. Dies geschieht durch wiederholte Verwendung des Inputvektors mit der aktivierten Weltwissensmatrix auf der Basis einer Vektor-Matrizen-Multiplikation. Durch dieses Verfahren werden solche Konzepte gestärkt, die von mehreren anderen Konzepten aktiviert werden, und solche geschwächt oder gar getilgt, die weniger Unterstützung erhalten. Dieses Verfahren wird so lange wiederholt, bis das Netzwerk einen stabilen Zustand erweckt hat. Diejenigen Konzepte des Weltwissens, die in diesem Endzustand im Netzwerk enthalten sind, können als die Inferenzen dieses Verarbeitungszyklus betrachtet werden. Das Konstruktions-Integrations-Modell hat einige Vorstellungen lokal konnektionistischer Ansätze übernommen. Der hauptsächliche Unterschied zu diesen Modellen liegt darin, dass in der Konstruktionsphase die Informationsverarbeitung rein bottom-up verläuft, während die meisten konnektionistischen Modelle von einer durchgehenden Interaktion zwischen Text und Weltwissen ausgehen (z. B. Rumelhart, Smolensky, McClelland & Hinton, 1986; Sharkey, 1986; Whitney, Budd, Bramucci & Crane, 1995). 2.2. Maximalistische Theorien Die maximalistische Position der Inferenztheorie hat ihren Ursprung in Untersuchungen von John Bransford und seinen Mitarbeitern zu Anfang der 70er Jahre, die den konstruktiven Charakter des Sprachverstehens nachzuweisen versuchten. Obwohl diese Experimente wegen ihrer methodischen Schwächen heute kritisch betrachtet werden müssen, öffneten sie doch das Tor für die Entwicklung der maximalistischen Position in der Inferenztheorie. Bransford, Barclay und Franks (1972) boten ihren Versuchspersonen in einer Wiedererkennungsaufgabe Kurztexte des folgenden Typs: (1) Three turtles rested on a floating log and a fish swam beneath it. (2) Three turtles rested on a floating log and a fish swam beneath them.
568 Bransford et al. nahmen an, dass die Versuchspersonen beim Hören der Sätze nicht nur die räumliche Beziehung des Fisches zum Baumstamm oder zu den Schildkröten aktivieren, sondern sowohl zum Baumstamm als auch zu den Schildkröten, da die eine räumliche Beziehung aus der anderen erschlossen werden kann. In einer anschließenden Wiedererkennungsaufgabe wurde geprüft, inwieweit die Versuchspersonen sich daran erinnern konnten, ob in dem Text it oder them stand oder ob sie diese beiden Textversionen häufiger miteinander verwechselten als die Textversionen einer Kontrollbedingung, in der die Präposition on durch beside ersetzt war. Die Ergebnisse bestätigten die Hypothese Bransfords et al. Sie schlossen daraus, dass die einzelnen Sätze eines Textes im Verstehensprozess zu einer übergreifenden Bedeutungsstruktur verbunden werden. Die Interaktion des Weltwissens mit dem Text bewirkt nach Meinung der Forscher, dass neue Sachverhalte, die explizit gar nicht im Text genannt sind, erschlossen werden. Diese erschlossenen Sachverhalte, die Inferenzen, verbinden sich mit dem explizit formulierten Text zu einer neuen Bedeutungsstruktur, in der die expliziten und impliziten Bestandteile nicht mehr ohne Weiteres von den Textrezipienten unterschieden werden können. In späteren Untersuchungen wurde immer wieder festgestellt, dass die Inferenzen, die während des Textverstehens gebildet werden, nicht alle Möglichkeiten, die sich ihnen im Text anbieten, umsetzen, sondern sehr viel sparsamer funktionieren. Aus dieser Einsicht resultiert einerseits die minimalistische Konzeption, andererseits aber auch eine moderne Version des maximalistischen Ansatzes, wie sie zum Beispiel von Graesser, Singer und Trabasso (1994) oder Singer (1994) repräsentiert wird. Diese moderne Version, die von diesen Autoren als constructionist theory bezeichnet wird, ist dadurch gekennzeichnet, dass sie nicht nur Kohärenzinferenzen lokaler Reichweite, sondern auch Inferenzen auf der globalen Textebene wie Handlungsziele, Handlungsgründe sowie thematische Zusammenhänge als regelmäßig auftretende Inferenzen anerkennt. In jüngster Zeit ist immer mehr Evidenz angesammelt worden, dass dies tatsächlich der Fall ist, jedoch vor allem dann, wenn spezielle Strategien des Textverstehens verfolgt werden. Genau das haben jedoch auch McKoon und Ratcliff im Rahmen ihrer minimalistischen Position als Möglichkeit eingeräumt.
IV. Sprachrezeption
2.3. Situierte Theorien Während die ersten maximalistischen Textverstehenstheorien von relativ fest gefügten Weltwissensstrukturen ausgingen (z. B. Schank & Abelson, 1977; Sanford & Garrod, 1981), räumen neuere Ansätze dem Kontext und der Situation größere Einflussmöglichkeiten ein. Diese sogenannten Schema-Assembly-Theorien gehen von semantischen Netzwerken aus, in denen die zu einem Schema gehörenden Konzepte besonders stark miteinander verknüpft sind (z. B. Abbott, Black & Smith, 1985; Rumelhart et al., 1986; Sharkey, 1990). Eine der Konsequenzen dieser Flexibilität ist die Möglichkeit, auch frühe Kontexteinflüsse auf die Konzeptverarbeitung zu berücksichtigen, so dass selektive Aktivierungen nur einer Lesart ambiger Wörter abgebildet werden können. Whitney, Budd, Bramucci und Crane (1995) formulierten aus der Perspektive dieser Schema-Assembly-Theorien ihr Modell der Distributed Activation Control (DAC), das dem Einfluss des Kontextes auf die inferenzielle Sprachverarbeitung einen hohen Stellenwert zuordnet. Neben nahezu automatischen Online-Prozessen umfasst dieses Modell auch vorbereitende Planungsprozesse und geht damit bezüglich ihres Geltungsbereichs über die minimalistische Theorie von McKoon und Ratcliff (1992) hinaus. Diese Planungsprozesse, die durch einen sogenannten production scheduler realisiert werden, können sich bereits zu einem frühen Zeitpunkt in die Verarbeitung einschalten und auch die Online-Prozesse beeinflussen. Erreicht wird dadurch, dass Qualität und Quantität der Inferenzbildung sich sehr flexibel einerseits nach den Kompetenzen der Textrezipienten und andererseits nach der Art der Aufgabenstellung auszurichten vermögen (Noordman & Vonk, 1992; Noordman, Vonk & Kempf, 1992; Carpenter, Miyake & Just, 1995). In jüngster Zeit vertreten auch solche Forscher, die maßgeblich an der Entwicklung maximalistischer Ansätze in der Inferenzforschung beteiligt waren, eine flexible Position, die allen Inferenztheorien in Abhängigkeit von situativen Variablen eine relative Gültigkeit zugesteht: „We suspect that each of the above models is correct in certain conditions. The textbase position and minimalist hypotheses are probably correct when the reader is very quickly reading the text, when the text lacks global coherence, and when the
42. Inferenzen reader has very little background knowledge. The constructionist theory is on the mark when the reader is attempting to comprehend the text for enjoyment or mastery at a more leisurely pace, when the text has global coherence, and when the reader has some background knowledge. The promiscuous inference generation model may even be valid when a literary scholar is savoring a good short story at a very slow cruise.“ (Graesser, Millis & Zwaan, 1997: 183)
Die Einsicht, dass es nicht eine einzige Inferenzstrategie gibt, sondern viele, die sich hinsichtlich ihrer situativen Bedingtheit voneinander unterscheiden, breitet sich auch in anderen Bereichen der Textverarbeitungsforschung aus. Mit ihr öffnet sich die Inferenzforschung der Perspektive einer umfassenden Kommunikationswissenschaft, in der die bis jetzt vorherrschende individualistische Reduktion der Theoriebildung überwunden wird (Clark, 1992, 1996; Rickheit & Strohner, 1993, 1999).
3.
Theorien im empirischen Test
Inferenzen treten auf allen Ebenen der semantischen Sprachverarbeitung auf. Da nicht ausgeschlossen werden kann, dass sich diese Ebenen bezüglich der auf ihnen ablaufenden Inferenzprozesse unterschiedlich verhalten, sollen bei der nachfolgenden Übersicht der empirischen Überprüfungen der Inferenztheorien die Wortebene, die Satzebene und die Diskursebene gesondert betrachtet werden. 3.1. Inferenzen auf der Wortebene Inferenzen auf der Wortebene können neben der wichtigen Aufgabe der lexikalischen Disambiguierung unter anderem die Funktion haben, in Abhängigkeit vom Kontext zur konzeptuellen Modulation beizutragen, oder sie können bei Vorgabe von Begriffskategorien zur Aktivierung konzeptueller Instanzen führen. 3.1.1. Konzept-Modulation Eines der ersten Experimente zur semantischen Modulation von Wortkonzepten wurde von Barclay, Bransford, Franks, McCarrell und Nitsch (1974) berichtet. Sie boten ihren Versuchspersonen einfache Sätze dar, in denen ein Konzept (z. B. das Konzept KLAVIER) in unterschiedlichen Kontexten auftrat, wie zum Beispiel (1) The man lifted the piano. (2) The man tuned the piano.
569 Die Wiedergabeleistung dieser und ähnlicher Sätze wurde anschließend mit Erinnerungshilfen, die sich entweder auf das Gewicht des Klaviers, something heavy, oder auf seinen Klang, something with a nice sound, bezogen, geprüft. Wie die Ergebnisse zeigten, konnte der Satz The man lifted the piano dann gut erinnert werden, wenn die Erinnerungshilfen auf das Gewicht des Klaviers hinwiesen. Bei dem Satz The man tuned the piano dagegen war der Hinweis auf den Klang vorteilhafter. Diese Ergebnisse wurden von Barclay et al. so interpretiert, dass die Versuchspersonen sich nicht einfach das allgemeine Konzept eines Klaviers, sondern die sprachlichen Konzepte eines Klaviers mit Gewicht oder mit Klang eingeprägt hatten. Spätere Befunde, die zum Teil mit inferenz-adäquateren Methoden arbeiteten, deuten ebenfalls darauf hin, dass bei der Wortverarbeitung im Kontext nicht alle Komponenten des Wortkonzepts in gleicher Weise aktiviert werden, sondern bestimmte Konzeptkomponenten stärker als andere zur Bildung aktiviert werden. Die Konstruktion einer kohärenten Satzbedeutung scheint mit Hilfe kontextspezifisch modulierter Konzepte leichter zu sein (Tabossi & Johnson-Laird, 1980; Tabossi, 1982, 1985; McKoon & Ratcliff, 1992). Die Modulation der Wortbedeutung durch den Kontext stellt ein großes Problem für jede einfache Kohärenztheorie der Inferenzbildung dar, sofern sie vor allem auf propositionalen Strukturen aufbaut. Die Konzeptmodulation ist für die Kohärenz eines Satzes in propositionaler Perspektive nicht unbedingt notwendig. Dennoch scheinen gewöhnlich die Attribute eines Konzepts in einer kontextspezifischen Differenzierung aktiviert zu werden (z. B. Potter & Faulconer, 1979; von Eckhardt & Potter, 1985; McKoon & Ratcliff, 1988). 3.1.2. Konzept-Instanziierung Mehrere Experimente in den 70er Jahren, die mit Reproduktionstechniken arbeiteten, schienen die mit maximalistischen Inferenztheorien gut zu vereinbarende Annahme der konzeptspezifischen Instanziierung begrifflicher Kategorien zu bestätigen. In einem der ersten Experimente von Anderson und Ortony (1975) zu dieser Frage erwiesen sich zum Beispiel die Wörter bottle und basket als jeweils bessere Reproduktionshinweise für die Sätze
570
IV. Sprachrezeption
(1) The container held the cola (2) The container held the apples als das in den Sätzen enthaltene Wort container, obwohl weder bottle noch basket im Satz genannt worden waren. Ähnliche Resultate wurden von Anderson, Pichert, Goetz, Schallert, Stevens und Trollip (1976), Dreher und Singer (1981) sowie Oakhill (1983) berichtet. Kritisch an diesen Befunden ist anzumerken, dass Reproduktionsexperimente dieser Art nur sehr wenig Auskunft darüber geben können, welche Prozesse den beobachteten Phänomenen zugrunde liegen. Es gilt zu bedenken, ob die Instanziierung wirklich der Rezeptionsphase der Textverarbeitung zuzuordnen ist oder vielleicht erst bei der durch den spezifischen Hinweis gelenkten Reproduktion konstruiert wird (Garnham, 1980, 1981; Miller, 1981). Weitere, gut kontrollierte Experimente mit präziseren Methoden konnten ebenfalls keine überzeugenden Hinweise für eine Instanziierung allgemeiner Begriffe beim Textverstehen erbringen (z. B. Whitney & Kellas, 1984). Wird der Kontext jedoch so gestaltet, dass die Instanz in den Fokus der Verarbeitung tritt, so kann es zu Instanziierungen kommen (Whitney, 1986, 1987; O’Brien, Shank, Myers & Rayner, 1988; Tabossi, 1988; Garrod, O’Brien, Morris & Rayner, 1990). Besonders leicht scheint dies dann der Fall zu sein, wenn durch den Kontext eine typische Instanz der konzeptuellen Kategorie nahe gelegt wird, wie McKoon und Ratcliff (1989a) vermuten. McKoon und Ratcliff boten ihren Versuchspersonen allgemeine Begriffe in Kontexten, die zu einer Instanziierung führen sollten und anschließend sehr wahrscheinliche oder wenig wahrscheinliche Instanzen zur Wiedererkennung, zum Beispiel: (1)
(2)
Zu instanziierender Begriff juice mit Kontext: The young attorney wanted to make sure she had fresh juice for breakfast, so she bought and squeezed the fruit herself.
suchspersonen angaben, dass dieses Wort neu war. Demnach besteht die Möglichkeit, dass orange beim Lesen von juice im Rahmen des Kontextes mehr oder weniger stark instanziiert wurde. Die zukünftige Forschung wird zu zeigen haben, zu welchem Zeitpunkt der Wortverarbeitung diese Inferenzen gebildet werden (z. B. Lucas, 1999). 3.2. Inferenzen auf der Satzebene Zu den Inferenzen auf der Satzebene, die experimentell besonders intensiv untersucht wurden, gehören die üblicherweise zu einer Handlung gehörenden Werkzeuge sowie die Konsequenzen, die ein bestimmter Einfluss in der Regel nach sich zieht. 3.2.1. Werkzeuge Wie die Frage der konzeptuellen Modulation und Instanziierung gehörte auch die Frage nach der inferenziellen Elaboration der in einer Äußerung erwähnten Handlungen zu den am intensivsten untersuchten Themen der Inferenzforschung. Es gab zum Beispiel eine intensive Diskussion darüber, ob elaborative Inferenzen, die sich auf Werkzeuge für explizit im Text genannte Tätigkeiten beziehen, bereits während der Phase der Satzrezeption oder gegebenenfalls erst in der Phase der Satzreproduktion gebildet werden (Johnson, Bransford & Solomon, 1973; Paris & Lindauer, 1976; Corbett & Dosher, 1978). Singer (1979a) konnte mit der Methode der Lesezeitmessung harte empirische Evidenz erbringen, dass Werkzeuginferenzen gewöhnlich nicht auftreten. Singer bot seinen Versuchspersonen einzelne Sätze dar, in denen entweder das zu der genannten Tätigkeit passende Werkzeug genannt wurde oder nicht. Unmittelbar im Anschluss an die Darbietung eines dieser Sätze wurde den Versuchspersonen ein Satz zur Verifikation geboten, in dem ein falsches Werkzeug genannt wurde. Beispiele für die experimentellen Sätze und einen dazugehörigen Prüfsatz sind die folgenden Sätze: (1)
a. Satz mit Nennung des Werkzeugs: The waiter lit the candle with the match. b. Satz ohne Nennung des Werkzeugs: The waiter lit the candle at the table.
(2)
Verifikationssatz: The waiter used a rock.
a. Sehr wahrscheinliche Instanz: orange b. Wenig wahrscheinliche Instanz: grapefruit
Die Wiedererkennungsresultate zeigten, dass viele Versuchspersonen bei orange nicht sicher waren, ob dieses Wort im Text enthalten war, während bei grapefruit die meisten Ver-
Wenn beim Lesen von Satz (1b) ein zur genannten Tätigkeit passendes Werkzeug, zum
42. Inferenzen
Beispiel match, elaboriert worden wäre, dann hätte die Ablehnung des Verifikationssatzes in beiden Bedingungen gleich schnell möglich sein müssen. Die Ablehnung des Verifikationssatzes war den Versuchspersonen nach dem Lesen von Satz (1a) signifikant schneller möglich als nach dem Lesen von Satz (1b). Singer (1979b, 1980) und Cotter (1984) konnten mit anderen Texten und Methoden diesen Befund bestätigen. In einer Studie von McKoon und Ratcliff (1981) wird vor allem die Wirkung des Kontextes auf Werkzeuginferenzen untersucht. McKoon und Ratcliff boten Versuchspersonen Texte dar, in denen im Kontextteil ein kritisches Instrument, in den unmittelbar daran anschließenden Sätzen entweder eine dazu passende oder nicht passende Tätigkeit und danach die Bezeichnung des zu inferierenden Werkzeugs als Prüfwort enthalten war. Nachfolgend wird ein Beispieltext des Experiments wiedergegeben: (1)
Kontext: Bobby got a saw, hammer, screwdriver, and square from his toolbox. He had already selected an oaktree as the site for the birdhouse. He had drawn a detailed blueprint and measured carefully. He marked the boards and cut them out.
(2)
a. Satz mit passender Tätigkeit: Then Bobby pounded the boards together with nails. b. Satz mit nicht passender Tätigkeit: Then Bobby stuck the boards together with glue.
(3)
Prüfwort: hammer
Die Versuchspersonen hatten die Aufgabe, bei Erscheinen dieses Testworts so schnell wie möglich anzugeben, ob es im Text aufgetreten war oder nicht. Die Ergebnisse zeigten nach dem Lesen von Satz (2a) eine kürzere Wiedererkennungszeit des Prüfworts als nach dem Lesen von Satz (2b), der eine sich nicht auf einen Hammer beziehende Tätigkeit beschreibt. Hieraus schlossen McKoon und Ratcliff, dass die Versuchspersonen beim Lesen von Satz (2a) eine Beziehung zum Kontext, in dem das Wort hammer enthalten ist, herstellten. In einem weiteren Experiment zeigten McKoon und Ratcliff auf andere Weise, dass die vermutete Inferenz nicht auf kontextfreie Elaborationen zurückzuführen ist. Hierzu modifizierten sie den ersten Satz des Kontextes so, dass zwar der Hammer erwähnt
571 wurde, er jedoch nicht als Instrument zur Ausführung der Tätigkeit dienen konnte, weil er zerbrochen war. Unter dieser Bedingung zeigte nach dem Lesen von Satz (2a) das Wort hammer keinerlei Aktivierungseffekt für das Wort boards. Dieser Befund demonstriert den Einfluss sinnvoller Kohärenzbeziehungen auf die Inferenzbildung. Werkzeuginferenzen scheinen vor allem dann aufzutreten, wenn sie für die Herstellung koreferentieller Bindungen wichtig sind. Diese Befunde stimmen gut mit der minimalistischen Theorie der Inferenzbildung überein, nach der vom Rezipienten gewöhnlich nur das an Textweltwissen aktiviert wird, was zur Herstellung der unmittelbaren Textkohärenz beiträgt. 3.2.2. Handlungskonsequenzen Viele Ereignisse, die in Erzählungen beschrieben werden, besitzen ziemlich klar vorhersagbare Konsequenzen, wie zum Beispiel ein Sturz aus dem vierzehnten Stockwerk eines Hochhauses. Werden solche Vorhersagen aber auch während der Textverarbeitung gemacht? Ein Auftreten solcher Inferenzen, die für die Textkohärenz nicht notwendig sind, wäre ein starkes Argument für die maximalistische Inferenztheorie. McKoon und Ratcliff (1986) boten ihren Versuchspersonen Sätze dar, die eine Konsequenz-Inferenz des geschilderten Ereignisses nahelegte. Das Auftreten dieser Elaboration wurde mittels einer lexikalischen Entscheidungsaufgabe getestet, zum Beispiel mit dem Prüfwort dead nach dem folgenden Satzgefüge: The director and cameraman were ready to shoot close-ups when suddenly the actress fell from the 14th story. Während die Elaborationstheorie nach diesem tragischen Ereignis den Tod der Schauspielerin vorhersagen würde, fanden McKoon und Ratcliff nur geringe Anzeichen für derartige elaborative Aktivierungen. Um zu überprüfen, ob nicht doch unter bestimmten Bedingungen Konsequenzen inferiert werden, boten McKoon und Ratcliff (1989b) ihren Versuchspersonen Sätze dar, in denen die kritische Elaboration nicht nur auf der Basis des beschriebenen Ereignisses aktiviert werden konnte, zum Beispiel: The housewife was learning to be a seamstress and needed practice so she got out the skirt she was making and threaded her needle.
572 Bei diesem Text wird das Prüfwort sew nicht nur durch die geschilderte Handlung, sondern auch durch die Wörter threaded und needle aktiviert. Tatsächlich fanden McKoon und Ratcliff unter dieser experimentellen Bedingung eine starke Aktivierung des Prüfworts, was darauf hindeutet, dass elaborative Inferenzen unter anderem bei assoziativ untereinander verbundenen Konzepten zustande kommen können, wie dies auch von der minimalistischen Theorie eingeräumt wird. 3.3. Inferenzen auf der Diskursebene Wenn in einem Gespräch oder einer Erzählung mehrere Ereignisse erwähnt werden, ist es für die Verständigung entscheidend, neben der Berücksichtigung sprachlicher Kohäsion den thematischen Vordergrund der Kommunikation von weniger relevanten Informationen zu trennen. Schließlich könnte es auch für das Verständnis hilfreich sein, weitere Aspekte der in der Erzählung angesprochenen Situationsmodelle inferenziell zu erschließen. Inwieweit dies tatsächlich beim Textverstehen geschieht, war Gegenstand einer ganzen Reihe experimenteller Untersuchungen. 3.3.1. Sprachliche Kohäsion Der Frage, mit welchen kognitiven Prozessen eine durch sprachliche Kohäsionssignale angeregte Kohärenzinferenz durchgeführt wird, gingen neben anderen Singer (1993) sowie Revlin und Hegarty (1999) nach. Besonders interessierte sie, wie die einzelnen Bauelemente beschaffen sind, mit deren Hilfe die Brücke von einem Textteil zum anderen geschlagen wird. Hierzu sind in den letzten Jahren verschiedene, sich zum Teil widersprechende Theorien formuliert worden, die sich vor allem darin unterscheiden, ob sie die Brücke überwiegend durch Aktivierungsprozesse oder auch durch zusätzliche Evaluationsprozesse herstellen: ⫺ Die Aktivierungstheorien nehmen an, dass die Kohärenz zwischen den einzelnen Textteilen durch vorhandene Verbindungen auf der konzeptuellen und propositionalen Ebene aufgebaut wird. McKoon und Ratcliff (1992) sind in ihrer minimalistischen Theorie der Meinung, dass hierfür vor allem leicht und schnell zur Verfügung stehendes Wissen eingesetzt wird. ⫺ Die Evaluationstheorien dagegen postulieren neben den Aktivierungsvorgängen zusätzliche Prozesse, durch die die herge-
IV. Sprachrezeption
stellten Verbindungen vor dem Hintergrund des Welt- und Diskurswissens abgesichert werden. Hierbei können sich Schlussfiguren ergeben, die denen der Logik ähneln. So wird angenommen, dass zusätzliche Inferenzen eingesetzt werden, um nicht explizit genannte Prämissen einer intendierten Inferenz zur Verfügung zu stellen. Auf der Basis dieser Hilfsprämissen kann dann zum Beispiel ein Schluss analog zu einem logischen Syllogismus durchgeführt werden. In der Logik werden solche Wahrscheinlichkeitsschlüsse, bei denen eine fehlende Prämisse in Gedanken ergänzt werden muss, Enthymeme genannt. Im Validation Model von Singer und Halldorson (1996) kommt für solche Enthymem-ähnliche Schlussprozesse dem Weltwissen eine entscheidende Rolle für diese „Psychologik“ zu, während das Scaffold Model von Revlin und Hegarty (1999) zusätzlich auf Diskursprozesse verweist, mit Hilfe deren die Relevanz des Wissens für eine bestimmte Kommunikation abgeschätzt wird. In ihren experimentellen Untersuchungen konnten Revlin und Hegarty (1999) nachweisen, dass selbst bei einfachsten Kohärenzbrücken nicht nur die vorhandenen Konzepte zu neuen Propositionen verknüpft werden, sondern darüber hinaus auch implizite Prämissen rekonstruiert werden, um den intendierten Schluss ähnlich wie in einem logischen Enthymem abzusichern. Für solche Kurztexte wie (1) Scott is a clown. Paul is funny too. (2) John is a doctor. Paul is funny too. fanden sie, dass neben den von der Aktivierungstheorie vorhergesagten Inferenzen für Text (1) Scott is funny und für Text (2) John is funny, sondern auch die von ihrem Scaffold Model vorhergesagten zusätzlichen Inferenzen clowns are funny bzw. doctors are funny sowohl in einem höheren Prozentsatz als auch schneller verifiziert werden konnten als für Kontrolltexte ohne den Kohäsionsmarker too. Zusätzlich beobachteten sie, dass die Versuchspersonen beim Lesen des zweiten Satzes nicht nur Regressionsfixationen auf das Subjekt des ersten Satzes, sondern auch auf das Prädikat durchführten. Alle diese Befunde legen nahe, dass sowohl für Text (1) als auch für Text (2) Prozesse der Kohärenzherstellung realisiert wurden, wie sie auf der Basis des Scaffold-Modells von
573
42. Inferenzen
Revlin und Hegarty angenommen werden können. Die Tatsache, dass diese Enthymemähnlichen Schlussprozesse auch für Satz (2) festgestellt wurden, spricht für die Annahme des Scaffold-Modells, dass es nicht Weltwissensprozesse allein, sondern auch kommunikative Diskursprozesse sind, die zu diesen Schlüssen führen. Für die minimalistische Theorie sind diese Resultate nicht ohne Zusatzannahmen zu erklären. 3.3.2. Thematischer Vordergrund Das Thema ist derjenige Wissensbereich, der meistens über den ganzen Diskurs hinweg aktiviert bleibt (z. B. Lesgold, Roth & Curtis, 1979). Hinzu kommt der durch den aktuellen Diskursteil aktivierte Diskursfokus, der etwa zwei Sätze zu umfassen scheint (Glanzer, Fischer & Dorfman, 1984; Baddeley, 1986). Diese Dauer von zwei Sätzen hängt möglicherweise mit den in diesem Zeitraum ablaufenden Diskursverstehensprozessen zusammen. Eine kürzere Dauer würde Probleme für die Bildung des Diskurs- und Diskursweltwissens mit sich bringen. Andererseits wäre auch eine längere Dauer wahrscheinlich eher störend, da in diesem Fall zu viele nebensächliche Hintergrundinformationen in einem aktivierten Zustand gehalten würden und den Blick von der wesentlichen Information des Diskurses ablenken könnten. Wie differenziert die Diskursweltmodelle in Vordergrund und Hintergrund strukturiert sein können, zeigt anschaulich eine Studie von Glenberg, Meyer und Lindem (1987). Diejenigen Objekte, die für ein gewisses Ereignis relevant sind, sollten länger im thematischen Vordergrund aktiviert bleiben als weniger relevante Objekte. Glenberg, Meyer und Lindem (1987) überprüften diese Hypothese unter anderem mit folgendem Text: (1)
Kontext: John was preparing for a marathon in August.
(2)
a. Satz mit relevantem Objekt: After doing a few warm-up exercises, he put on his sweatshirt and went jogging. b. Satz mit irrelevantem Objekt: After doing a few warm-up exercises, he put off his sweatshirt and went jogging.
(3)
Erster Füllsatz: He jogged halfway around the lake without too much difficulty.
(4)
Zweiter Füllsatz: Further along his route, however, John’s muscles began to ache.
(5)
Prüfwort: sweatshirt.
Die Ergebnisse der Studie bestätigten diese Hypothese. Während das Prüfwort sweatshirt unmittelbar nach dem Lesen von (2a) und (2b) noch gleich schnell wieder erkannt werden konnte, zeigte sich nach dem ersten Füllsatz ein deutlicher Vorteil der Wiedererkennung für die Bedingung (2a). Erst nach dem zweiten Füllsatz war kein Aktivierungsunterschied von sweatshirt zwischen den beiden experimentellen Bedingungen mehr vorhanden. Auch bei der Erklärung dieser Resultate kommt der minimalistische Ansatz der Inferenztheorie in Schwierigkeiten. 3.3.3. Situationsmodelle Ein wichtiges Ziel beim Textverstehen ist es, sinnvolle Situationsmodelle der rezipierten Ereignisse aufzubauen (z. B. Johnson-Laird, 1983; van Dijk & Kintsch, 1983; Graesser et al., 1997; Rickheit & Strohner, 1999). Die Frage, die die Inferenzforschung der letzten Jahre intensiv beschäftigt hat, bezieht sich auf die während der Rezeptionsprozesse gebildeten Situations- und Handlungsinferenzen und deren Bedingungen. Während die Vertreter der minimalistischen Theorie meinen, dass Inferenzen auch auf der Diskursebene vor allem der Kohärenzherstellung dienen, sehen die Elaborationstheoretiker die Textverarbeitung grundsätzlich als eine inferenzielle Tätigkeit. Auf der Grundlage der konstruktivistischen Überlegungen John Bransfords zu Beginn der 70er Jahre machten sich viele Forscher daran, Wissensstrukturen für Situationsmodelle zu entwerfen, die eine inferenzielle Verarbeitung nahe legen. Einer der ersten dieser Ansätze war die Skript-Theorie. Die Skript-Theorie bezieht sich auf die Verarbeitung von Wissen über stereotype Handlungssequenzen (Schank & Abelson, 1977). Mit einem Skript lässt sich genau spezifizieren, welche Handlungen zum Beispiel bei einem Restaurantbesuch auftreten und in welcher Reihenfolge. Deshalb rufen Skripts nach Meinung von Elaborationstheoretikern Erwartungen bezüglich wahrscheinlich aufeinander folgender Handlungen hervor. Sie schließen zum Beispiel aus den verkürzten Verstehenszeiten für diejenigen Sätze, die die unmittelbar benachbarten Skript-Handlungen beinhalten, dass diese Handlungen inferiert wurden.
574
IV. Sprachrezeption
Ein anderes Beispiel für die Annahme von globalen Wissensstrukturen für die Textverarbeitung ist die Szenario-Theorie von Sanford und Garrod (1981). Wenn ein Text beispielsweise die Überschrift „Vor Gericht“ trägt, so meinen Sanford und Garrod, dass dadurch das Wissen über das Gerichtsszenario mit seinen beteiligten Personen sowie räumlichen und zeitlichen Verhältnissen aktiviert wird. Die Kritik an Skripts und Szenarios setzt vor allem an dieser Erklärung der Effekte mit Hilfe von Erwartungen an. Es ist nach diesen kritischen Überlegungen möglich, dass der Skript-Effekt erst bei dem Versuch der Integration des nachfolgenden Satzes in den vorausgegangenen Skript-Kontext zustande kommt (z. B. de Uyl & van Ostendorp, 1980; Whitney et al. 1995). Eine weitere postulierte Wissensstruktur sind die sogenannten Makropropositionen (z. B. Guindon & Kintsch, 1984). Makropropositionen fassen nach dieser Auffassung die wesentlichen Inhalte eines Diskurses in propositionaler Form zusammen. Es ist jedoch zu vermuten, dass viele der scheinbar nachgewiesenen Propositionen erst zum Zeitpunkt der Abfrage gebildet werden. Auf der anderen Seite findet sicherlich im Prozess des Diskursverstehens eine generelle Reduktion auf allgemeines Wissen statt (Singer, 1994). So scheinen Geschichtenhandlungen in der Regel vor allem hinsichtlich des kausalen Zusammenhangs der einzelnen Geschichtenepisoden verarbeitet zu werden (z. B. Bower, 1982; Singer, 1994). Zusammenfassend lässt sich sagen, dass es besonders der Bereich der Herstellung inferenzieller Beziehungen auf der Textebene ist, in denen die minimalistische Theorie von McKoon und Ratcliff (1992) teilweise zu kurz greift, um der intensiven Suche der Rezipienten nach dem Sinn des gesamten Textes gerecht zu werden (Britton & Graesser, 1996; McKoon & Ratcliff, 1998).
4.
Schluss
Wie aus den vielen diskutierten Experimenten in diesem Kapitel deutlich wurde, hängt es ganz entscheidend von den verwendeten Methoden ab, ob Inferenzen festgestellt werden und unter welchen Bedingungen sie beobachtet werden konnten. Viele Kontroversen der Inferenzforschung hätten vielleicht vermieden werden können, wenn immer sol-
che Methoden eingesetzt worden wären, die eine eindeutige Interpretation der Befunde ermöglicht hätten. Es ist deshalb für die weitere Forschung in diesem subtilen Bereich der semantischen Inferenzenbildung von zentraler Bedeutung, solche Methoden zu verwenden, die einen noch klareren Einblick in die Inferenzprozesse ermöglichen (Rickheit & Strohner, 1993; Singer, 1994). In den letzten Jahren ist auch zunehmend die Bedeutung der situativen Einbettung für die Inferenztätigkeit erkannt worden. Es wird von vielen Forschern immer deutlicher gesehen, dass es nicht eine Inferenzbildung an sich gibt, sondern immer nur in Abhängigkeit von der Kommunikationssituation. So könnte es sein, dass sowohl die minimalistische als auch die maximalistische Inferenztheorie in gewisser Weise Recht haben. Während die minimalistischen Theorien eher für denjenigen Bereich der Textverarbeitung zutreffen, der die in allen Situationen notwendige Basis des Textverstehens zur Verfügung stellt – sozusagen dessen Pflichtübung ⫺, beziehen sich die maximalistischen Theorien stärker auf zusätzliche Anforderungen der Textverarbeitung, die aus dem Text selbst oder aber der Situation kommen können. Sie wären nach dieser Sichtweise also der Kür des Textverstehens zuzuordnen.
5.
Literatur
Abbott, V. Black, J. B. & Smith, E. E. (1985). The representation of scripts in memory. Journal of Memory and Language, 24, 179⫺199. Anderson, R. C. & Ortony, A. (1975). On putting apples into bottles: A problem of polysemy. Cognitive Psychology, 7, 167⫺180. Anderson, R. C., Pichert, J. W., Goetz, E. T., Schallert, D. L., Stevens, K.V. & Trollip, S. R. (1976). Instantiation of general terms. Journal of Verbal Learning and Verbal Behavior, 15, 667⫺679. Baddeley, A. (1986). Working memory. Oxford: Clarendon Press. Barclay, J. R., Bransford, J. D., Franks, J. J., McCarrell, N. S. & Nitsch, K. (1974). Comprehension and semantic flexibility. Journal of Verbal Learning and Verbal Behavior, 13, 471⫺481. Bower, G. H. (1982). Plans and goals in understanding episodes. In A. Flammer & W. Kintsch (Eds.), Discourse processing (pp.- 21⫺35.). Amsterdam: North-Holland.
42. Inferenzen Bransford, J. D., Barclay, J. R. & Franks, J. J. (1972). Sentence memory: A constructive vs. interpretative approach. Cognitive Psychology, 3, 193⫺ 209. Britton, B. & A. C. Graesser (Eds.)(1996). Models of understanding text. Hillsdale, NJ: Erlbaum. Carpenter, P. A., Miyake, A. & Just, M. A. (1995). Language comprehension: Sentence and discourse processing. Annual Review of Psychology, 46, 91⫺ 120. Clark, H. H. (1992). Arenas of language use. Chicago: University of Chicago Press. Clark, H. H. (1996). Using language. Cambridge: Cambridge University Press. Corbett, A. T. & Dosher, B. A. (1978). Instrument inferences in sentence encoding. Journal of Verbal Learning and Verbal Behavior, 17, 479⫺491. Cotter, C. A. (1984). Inferring indirect objects in sentences: Some implications for the semantics of verbs. Language and Speech, 27, 25⫺45.
575 Graesser, A. C., Singer, M. & Trabasso, T. (1994). Constructing inferences during narrative text comprehension. Psychological Review, 101, 371⫺395. Guindon, R. & Kintsch, W. (1984). Priming macropropositions: Evidence for the primacy of macropropositions in the memory for text. Journal of Verbal Learning and Verbal Behavior, 23, 508⫺518. Harris, R. J. & Monaco, G. E. (1978). The psychology of pragmatic implication: Information processing between the lines. Journal of Experimental Psychology: General, 107, 1⫺22. Johnson, M. K., Bransford, J. D. & Solomon, S. K. (1973). Memory for tacit implications of sentences. Journal of Experimental Psychology, 98. 209⫺205. Johnson-Laird, P. N. (1983). Mental models: Towards a cognitive science of language, inference, and consciousness. Cambridge: Cambridge University Press.
Dijk, T. van & Kintsch, W. (1983). Strategies of discourse comprehension. London: Academic Press.
Johnson-Laird, P. N. & Byrne, R. M. J. (1993). Pre´cis of deduction. Behavioral and Brain Sciences, 16, 323⫺380.
Dreher, M. J. & Singer, H. (1981). The validity of the instantation hypothesis. Journal of Reading Behavior, 13, 223⫺235.
Kintsch, W. (1988). The role of knowledge in discourse comprehension: A construction-integration model. Psychological Review, 95, 163⫺182.
Eckhardt, B. von & Potter, M. (1985). Clauses and the semantic representation of words. Memory & Cognition, 13, 371⫺376.
Kintsch, W. & Dijk, T. A. van (1978). Toward a model of text comprehension and production. Psychological Review, 85, 363⫺394.
Garnham, A. (1980). Default values, criteria and constructivism. Cognitive Science, 4, 427⫺433. Garnham, A. (1981). Anaphoric references to instances, instantiated and non-instantiated categories: A reading time study. British Journal of Psychology, 72, 377⫺384. Garrod, S. C., O’Brien, E. J., Morris, R. K. & Rayner, K. (1990). Elaborative inferencing as an active or passive process. Journal of Verbal Learning and Verbal Behavior, 16 77⫺90. Glanzer, M., Fischer, B. & Dorfman, D. (1984). Short-term storage in reading. Journal of Verbal Learning and Verbal Behavior, 23, 467⫺486. Glenberg, A. M., Meyer, M. & Lindem, K. (1987). Mental models contribute to foregrounding during trext comprehension. Journal of Memory and Language, 26, 69⫺83. Graesser, A. C., & Bower, G. H. (Eds.) (1990). Inferences and text comprehension. (The psychology of learning and motivation, Vol. 25). San Diego, CA: Academic Press. Graesser, A. C., Millis, K. K. & Zwaan, R. A. (1997). Discourse comprehension. Annual Review of Psychology, 46, 163⫺189.
Lesgold, A. M., Roth, S. F. & Curtis, M. E. (1979). Foregrounding effects in discourse comprehension. Journal of Verbal Learning and Verbal Behavior, 18, 291⫺308. Lucas, M. (1999). Context effects in lexical access: A meta analysis. Memory & Cognition, 27, 385⫺ 398. McKoon, G. & Ratcliff, R. (1981). The comprehension processes and memory structures involved in instrumental inference. Journal of Verbal Learning and Verbal Behavior, 20, 671⫺682. McKoon, G. & Ratcliff, R. (1986). Inferences about predictable events. Journal of Experimental Psychology: Learning, Memory, and Cognition, 12, 82⫺91. McKoon, G. & Ratcliff, R. (1988). Contextually relevant aspects of meaning. Journal of Experimental Psychology: Learning, Memory, and Cognition, 12, 82⫺91. McKoon, G. & Ratcliff, R. (1989a). Inferences about contextually defined categories. Journal of Experimental Psychology: Learning, Memory, and Cognition, 15, 331⫺343.
576 McKoon, G. & Ratcliff, R. (1989b). Semantic associations and elaborative inference. Journal of Experimental Psychology: Learning, Memory, and Cognition, 15, 326⫺338. McKoon, G. & Ratcliff, R. (1992). Inference during reading. Psychological Review, 99, 440⫺466. McKoon, G. & Ratcliff, R. (1998). Memory-based language processing: Psycholinguistic research in the 1990s. Annual Review of Psychology, 49, 25⫺ 42. Miller, J. R. (1981). Constructive processing of sentences: A situation model of encoding and retrieval. Journal of Verbal Learning and Verbal Behavior, 20, 20⫺45. Noordman, L. G. M. & Vonk, W. (1992). Readers’ knowledge and the control of inferences in reading. Language and Cognitive Processes, 7, 373⫺391. Noordman, L. G. M., Vonk, W. & Kempff, H. J. (1992). Causal inferences during the reading of expository texts. Journal of Memory and Language, 31, 573⫺590. Oakhill, J. (1983). Instantiation in skilled and less skilled comprehenders. The Quarterly Journal of Experimental Psychology, 35A, 441⫺450. O’Brien, E. J., Shank, D. M., Myers, J. L. & Rayner, K. (1988). Elaborative inferences during reading: Do they occur online? Journal of Experimental Psychology: Learning, Memory, and Cognition, 14, 410⫺420. Paris, S. G. & Lindauer, B. K. (1976). The role of inferences in children’s comprehension and memory for sentences. Cognitive Psychology, 8, 217⫺227. Potter, M. C. & Faulconer, B. A. (1979). Understanding noun phrases. Journal of Verbal Learning and Verbal Behavior, 18, 509⫺521. Revlin, R. & Hegarty, M. (1999). Resolving signals to cohesion: Two models of bridging inference. Discourse Processes, 27, 77⫺102. Rickheit, G. & Strohner, H. (Eds.) (1985). Inferences in text processing. Amsterdam: North-Holland. Rickheit, G. & Strohner, H. (1993). Grundlagen der kognitiven Sprachverarbeitung. Tübingen: Francke. Rickheit, G. & Strohner, H. (1999). Textverarbeitung: Von der Proposition zur Situation. In A. D. Friederici (Ed.), Sprachrezeption (pp. 271⫺306). Göttingen: Hogrefe. Rumelhart, D. E., Smolensky, P., McClellend, J. L. & Hinton, G. E. (1986). Schemata and sequential thought processes in PDP models. In D. E. Rumelhart, J. L. McClelland & the PDP research group (Eds.), Parallel distributed processing: Explo-
IV. Sprachrezeption rations in the microstructure of cognition: Vol. 2. Psychological and biological models (pp. 7⫺57). Cambridge, MA: MIT Press. Sanford, A. J. & Garrod, S. C. (1981). Understanding written language. Chichester: Wiley. Schank, R. C. & Abelson, R. P. (1977). Scripts, plans, goals, and understanding. Hillsdale, NJ: Erlbaum. Sharkey, N. E. (1986). A model of knowledge-based expectations in text comprehension. In J. A. Galambos, R. P. Abelson &. J. B. Black (Eds.). Knowledge structures (pp. 49⫺70). Hillsdale, NJ: Erlbaum. Sharkey, N.E. (1990). A connectionist model of text comprehension. In D. Balota, G. B. Flores d’Arcais & K. Rayner (Eds.), Comprehension processes in reading (pp. 49⫺70). Hillsdale, NJ: Erlbaum. Singer, M. (1979a). Temporal locus of inference in the comprehension of brief passages: Recognizing and verifying implications about instruments. Perceptual and Motor Skills, 49, 539⫺550. Singer, M. (1979b). Processes of inference in sentence encoding. Memory & Cognition, 7, 192⫺200. Singer, M. (1993). Causal bridging inferences: Validating consistent and inconsistent sequences. Canadian Journal of Experimental Psychology, 47, 340⫺359. Singer, M. & Halldorson, M. (1987). Constructing and validating motive bridging inferences. Cognitive Psychology, 30, 1⫺38. Tabossi, P. (1982). Sentential context and the interpretation of unambiguous words. The Quarterly Journal of Experimental Psychology, 34A, 79⫺90. Tabossi, P. (1985). Lexical information in sentence comprehension. The Quarterly Journal of Experimental Psychology, 35A, 83⫺94. Tabossi, P. (1988). Effects of context on the immediate interpretation of unambiguous nouns. Journal of Experimental Psychology: Learning, Memory, and Cognition, 14, 153⫺162. Tabossi, P. & Johnson-Laird, P. N. (1980). Linguistic context and the priming of semantic information. The Quarterly Journal of Experimental Psychology, 32A, 595⫺603. Uyl, M. de & Ostendorp, H. van (1980). The use of scripts in text comprehension. Poetics, 9, 275⫺294. Whitney, P.W. (1986). Processing category terms in context: Instantiations as inferences. Memory & Cognition, 14, 39⫺48. Whitney, P. W. (1987). Psychological theories of elaborative inferences: Implications for schema-
43. Informationsintegration mit Sprache und Bild
577
theoretic views of comprehension. Reading Research Quarterly, 22, 299⫺310.
Whitney, P. W. & Kellas, G. (1984). Processing category terms in context: Instantiation and the structure of semantic categories. Journal of Experimental Psychology: Learning, Memory, and Cognition, 10, 95⫺103.
Whitney, P. W., Budd, D., Bramucci, R. S. & Crane, R. S. (1995). On babies, bath water, and schemata: A reconsideration of top-down processes in comprehension. Dicourse Processes, 20, 135⫺166.
Gert Rickheit, Hans Strohner Universität Bielefeld (Deutschland)
43. Informationsintegration mit Sprache und Bild 1. 2. 3. 4. 5.
1.
Sprache und Bild als externe Zeichensysteme Interne Zeichensysteme: Mentale Repräsentationen Sprach- und Bild-Verarbeitung Ausblick Literatur
Sprache und Bild als externe Zeichensysteme
1.1. Historische Entwicklung von Zeichensystemen Menschen benötigen in ihrem Zusammenleben Kommunikationsinstrumente – d. h. Werkzeuge, um u. a. einander Mitteilungen über Sachverhalte zu machen (vgl. Bühler, 1934). Die gesprochene Sprache ist zweifellos das wichtigste Kommunikationsinstrument des Menschen. Seine Ursprünge reichen weit zurück bis in die biologische Evolution des homo sapiens und sind insofern historisch kaum datierbar (Müller, 1990; Pinker, 1994). Andere Kommunikationsinstrumente hingegen sind Ergebnisse der kulturellen Entwicklung und dementsprechend wesentlich jünger. Hierzu gehören vor allem (in der historischen Reihenfolge) realistische Bilder, Schriftzeichen und logische Bilder. Bereits vor zehntausenden von Jahren lernten Menschen, Sachverhalte bildlich darzustellen. Berühmte Beispiele hierfür sind Höhlenmalereien, die bereits vor 15000 bis 20000 Jahren entstanden sind. Diese Bilder waren sog. realistische Bilder. D. h.: Sie besaßen eine mehr oder weniger große Ähnlichkeit mit dem dargestellten Sachverhalt. Aus diesen bildhaften Darstellungen entstanden allmählich auch Schriftzeichen: Ausgehend von Piktogrammen wurden abstraktere Zeichen für begriffliche Einheiten – sog. Ideogramme – entwickelt. Beispiele hierfür sind die ägyptischen Hieroglyphen oder die chine-
sischen Schriftzeichen. Angesichts des hohen Lernaufwands, den solche Begriffsschriften erfordern, wurde in den meisten Kulturen jedoch allmählich zu einem anderen, wesentlich leichter zu handhabenden Schriftprinzip übergegangen. Dabei rekurrierte man auf die vorhandene Lautsprache, indem man anstelle von Ideogrammen Zeichen für lautliche Einheiten – sog. Phonogramme – verwendete. Dieses Prinzip der sprachlichen Darstellung wurde vor etwa dreitausend Jahren entdeckt und ist seither ohne wesentliche Veränderung gültig geblieben. Natürlich wurden auch die bildhaften Darstellungen weiterentwickelt, was bei den realistischen Bildern zur Entstehung von Strichzeichnungen, Stichen, naturalistischen Gemälden und schließlich von Fotos, Cartoons und Piktogrammen führte (Peeck, 1994; Weidenmann, 1994a). Eine spezielle Form der bildhaften Darstellung wurde jedoch erst sehr spät entdeckt. Gemeint sind die sog. logischen Bilder, in denen qualitative und quantitative Zusammenhänge durch geometrische Formen dargestellt sind. Diese Bilder wurden im Wesentlichen erst seit dem 18. Jahrhundert – angeregt durch die Pionierarbeiten des englischen Ökonomen William Playfair – zur Darstellung abstrakter Zusammenhänge verwendet. Logische Bilder haben keine Ähnlichkeit mit dem Gemeinten. Sie dienen zur Veranschaulichung von abstrakten Sachverhalten, die nicht unmittelbar wahrnehmbar sind. Ähnlich wie bei Texten, wo sich konventionalisierte Darstellungsformen (Textsorten) mit bestimmten Kommunikationsfunktionen herausgebildet haben, gibt es auch bei logischen Bildern konventionalisierte Darstellungsformen. Zu diesen Darstellungsformen gehören vor allem Struktur- und Flussdiagramme sowie Kreis-, Säulen-, Linien- und Streudiagramme (Schnotz, 1994a; Zelazny, 1986).
578 1.2. Symbolzeichen und ikonische Zeichen Mündliche und schriftliche Sprache sowie realistische und logische Bilder verwenden unterschiedliche Zeichenarten. Mündliche und schriftliche Sprache verwenden Symbolzeichen – d. h. Zeichen mit einer arbiträren Struktur, die mit dem durch sie bezeichneten Gegenstand durch eine Konvention verknüpft sind. Realistische und logische Bilder verwenden ikonische Zeichen – also Zeichen, die mit dem bezeichneten Sachverhalt aufgrund gemeinsamer Strukturmerkmale verknüpft sind. Bei den realistischen Bildern besteht eine konkrete Form der strukturellen Übereinstimmung mit dem repräsentierten Gegenstand, indem einfach Höhe durch Höhe, Breite durch Breite, Farbe durch Farbe usw. dargestellt wird – wobei sich diese Übereinstimmung natürlich auf die Darstellungsmöglichkeiten des zweidimensionalen Raumes beschränken muss. Logische Bilder sind demgegenüber durch eine abstrakte Form der strukturellen Übereinstimmung mit dem dargestellten Gegenstand entsprechend einer Analogierelation gekennzeichnet. So können z. B. in einem Säulen- oder Liniendiagramm durch räumliche Distanzen nichträumliche Merkmale wie etwa Geburtenzahlen, Einfuhrquoten und dgl. repräsentiert werden. D. h.: Repräsentierte und repräsentierende Merkmale können verschieden sein, so lange die Relationen zwischen diesen Merkmalen innerhalb des Bildes und des abgebildeten Sachverhalts gleich sind (vgl. Peirce, 1906; Palmer, 1978). Die Verwendung von Symbolzeichen und ikonischen Zeichen führt zu jeweils unterschiedlichen Arten der Repräsentation – zu deskriptionalen und depiktionalen Repräsentationen. Texte sind deskriptionale Repräsentationen. Wenn ein Sachverhalt durch einen Text beschrieben wird, so werden bestimmte Komponenten dieses Sachverhalts durch Nomina genannt, durch Adjektive hinsichtlich ihrer Merkmale spezifiziert und durch Verben und Präpositionen zueinander in Beziehung gesetzt. Eine Deskription mit Hilfe von Symbolen enthält also explizite Zeichen für Relationen. Palmer (1978) spricht deshalb hier von extrinsischen Repräsentationen. Realistische Bilder und logische Bilder bzw. Diagramme hingegen sind depiktionale Repräsentationen. Sie enthalten keine expliziten Relationszeichen. Vielmehr besitzen sie inhärente Struktureigenschaften, die mit bestimmten Struktureigenschaften des darzustellenden Sachverhalts übereinstimmen.
IV. Sprachrezeption
Diese Übereinstimmung wird jeweils zu Repräsentationszwecken genutzt. Repräsentationen aufgrund solcher inhärenter Struktureigenschaften sind nach Palmer intrinsische Repräsentationen. 1.3. Nutzungseigenschaften von Zeichensystemen Die oben skizzierten Zeichensysteme unterscheiden sich hinsichtlich ihrer Nutzungseigenschaften. Deskriptionale Repräsentationen sind relativ abstrakt und allgemein, während depiktionale Repräsentationen eher konkret und spezifisch sind. Deskriptionale Repräsentationen besitzen deshalb einerseits eine höhere Ausdrucksmächtigkeit als depiktionale Repräsentationen. So bereitet es keine Probleme, durch Deskriptionen allgemeine Negationen oder allgemeine Disjunktionen zu formulieren, wie z. B. „Haustiere sind nicht gestattet“ oder „Kreislaufprobleme können durch Nikotingenuss oder Bewegungsmangel bedingt sein“. Depiktionale Repräsentationen können hingegen nur spezifische Negationen (z. B. das Bild eines Hundes mit einem Verbotszeichen) darstellen, und Disjunktionen können nicht durch ein Bild, sondern nur mit Hilfe mehrerer Bilder zum Ausdruck gebracht werden. Andererseits sind depiktionale Repräsentationen meist besser geeignet, um Inferenzen zu vollziehen, da die gesuchte Information einfach abgelesen werden kann. Wenn man beispielsweise die folgende Beschreibung liest „Die Figur besteht aus zwei symmetrischen diagonalen Linien, die sich oben an der Spitze treffen und ungefähr in der Mitte durch eine horizontale Linie verbunden sind.“ und anschließend gefragt wird, ob die beschriebene Figur eine geschlossene Region enthält (und, wenn ja, welche Form diese Region hat) so fällt die Antwort relativ schwer. Erhält man hingegen eine depiktionale Repräsentation, indem man den Großbuchstaben „A“ sieht oder sich diesen vorstellt, so wird die Beantwortung sehr leicht (Kosslyn, 1994). Depiktionale Repräsentationen sind jeweils vollständig hinsichtlich einer bestimmten Informationsklasse. Wenn man beispielsweise ein Objekt zeichnet, so zeichnet man nicht nur seine Form, sondern notwendigerweise auch seine Größe und Orientierung. In einer deskriptionalen Repräsentation hingegen ist es ohne weiteres möglich, die Form eines Objekts zu spezifizieren, ohne auf seine Größe und Orientierung einzugehen (Kosslyn, 1994). Depiktionen sind hinsichtlich ih-
43. Informationsintegration mit Sprache und Bild
579
rer Repräsentationsfunktion robuster als Deskriptionen. Wenn man von einem Bild ein Stück wegschneidet, so ist der verbleibende Bildteil immer noch ein Bild – eben ein Bild des betreffenden Objektteils. Bei einer Deskription hingegen ist es möglich, dass durch Beseitigung bestimmter Teile die Repräsentationsfunktion völlig aufgehoben wird.
Wenn ein Individuum Sprachinformation in Form eines gesprochenen oder geschriebenen Texts verarbeitet oder wenn es Bildinformation in Form eines realistischen oder logischen Bilds verarbeitet und die Darstellung versteht, so konstruiert es eine mentale Repräsentation des sprachlich beschriebenen oder bildlich gezeigten Sachverhalts. Hier stellt sich die Frage, wie diese Repräsentation beschaffen ist und auf welchen Darstellungsprinzipien sie beruht.
tik war insofern sehr einseitig, als man sie ebenso gegen die Annahme propositionaler Repräsentationen hätte richten können: Auch hier könnte man argumentieren, es müsste einen Homunculus geben, der die mentale Sprache versteht bzw. der die propositionalen mentalen Repräsentationen interpretiert. Inzwischen haben Computersimulationen gezeigt, dass kognitive Systeme auch ohne einen Humunculus mit depiktionalen Repräsentationen arbeiten können (Kosslyn & Shwartz, 1977). Vor allem aber liegen Befunde aus der Neurologie und der Hirnforschung vor, die die Existenz depiktionaler mentaler Repräsentationen wahrscheinlicher gemacht haben und die darauf hinweisen, dass unser Gehirn Informationen aus unterschiedlichen Zeichensystemen auf unterschiedliche Weise verarbeitet (Kosslyn, 1994). Insofern liegt es nahe anzunehmen, dass diese Verarbeitung zu unterschiedlichen mentalen Repräsentationen führt, denen unterschiedliche kognitive Zeichensysteme zugrundeliegen.
2.1. Ein-Code-Repräsentationen Bis Anfang der 80er Jahre gingen viele Kognitionspsychologen davon aus, dass menschliches Wissen in einem einheitlichen Repräsentationsformat gespeichert ist, nämlich in Form von internen mentalen Symbolen, die als Propositionen bezeichnet werden. Propositionen sind komplexe (hypothetische) interne Symbole, die ähnlich wie die Sätze der natürlichen Sprache nach bestimmten syntaktischen Regeln aus einfacheren Symbolen zusammengesetzt sind und insofern eine bestimmte Konstituentenstruktur besitzen. Eine Proposition besteht aus einem Relationssymbol, dem sog. Prädikat, und aus einem oder mehreren Symbolen für Entitäten, die durch das Prädikat zu einer Einheit verknüpft werden. Eine propositionale Repräsentation ist also eine deskriptionale Repräsentation mit Hilfe von Symbolen – gewissermaßen eine Beschreibung des repräsentierten Gegenstands in einer hypothetischen mentalen Sprache. Demgegenüber wurde die Existenz depiktionaler mentaler Repräsentationen lange bestritten (vgl. Pylyshyn, 1981). Beispielsweise wurde argumentiert, die Annahme interner Bilder würde zu einem infiniten Regress führen, da man ein inneres Subjekt (einen „Homunculus“) annehmen müsste, das (bzw. der) diese internen Bilder betrachtet, dabei wiederum interne Bilder generiert usw. Diese Kri-
2.2. Multiple-Code-Repräsentationen Ausgehend von gedächtnispsychologischen Befunden hat Paivio eine Theorie der dualen Kodierung von Sprach- und Bildinformation entwickelt (Paivio, 1971, 1986; Clark & Paivio, 1991). Dieser Theorie zufolge werden verbale und piktoriale Informationen in unterschiedlichen, jedoch miteinander interagierenden kognitiven Subsystemen – einem verbalen System und einem imaginalen System – verarbeitet. Worte, Sätze und Texte werden demnach nur im verbalen System enkodiert, während Bilder imaginal und verbal enkodiert werden. Das meist gute Behalten von Bildern wird damit auf die Vorzüge einer doppelten gegenüber einer einfachen Kodierung zurückgeführt. Über das Repräsentationsformat der beiden Subsysteme wurden hier allerdings keine spezifischen Annahmen getroffen. Heute gehen die meisten Kognitionspsychologen davon aus, dass sowohl bei der Verarbeitung von Sprach- als auch bei der Verarbeitung von Bildinformation jeweils multiple mentale Repräsentationen gebildet werden. D. h.: Neben den bereits erwähnten propositionalen Repräsentationen werden auch sog. mentale Modelle konstruiert (Johnson-Laird, 1983; Johnson-Laird & Byrne, 1991), die zum Teil auch als Szenarien oder als Situationsmodelle bezeichnet werden (Sanford & Garrod, 1981; van Dijk & Kintsch, 1983). Unter
2.
Interne Zeichensysteme: Mentale Repräsentationen
580
IV. Sprachrezeption
einem mentalen Modell versteht man eine analoge mentale Repräsentation, gewissermaßen ein internes Quasi-Objekt, das in einer Struktur- oder Funktionsanalogie zu dem dargestellten Gegenstand steht. D. h.: Ein mentales Modell repräsentiert einen Sachverhalt aufgrund seiner inhärenten Struktureigenschaften und ist demnach den depiktionalen intrinsischen Repräsentationen zuzurechnen. Wie bei anderen analogen Modellen können dabei repräsentierte und repräsentierende Merkmale durchaus voneinander verschieden sein. Deshalb muss es sich bei mentalen Modellen keineswegs um bildhafte Vorstellungen des jeweiligen Gegenstands handeln. Es können auch Sachverhalte repräsentiert werden, die der Wahrnehmung nicht unmittelbar zugänglich sind (vgl. JohnsonLaird, 1987; Zimmer & Engelkamp, 1988). Zwischen visuellen Vorstellungen und mentalen Modellen besteht letztlich die gleiche Beziehung wie zwischen realistischen Bildern und Diagrammen: Es handelt sich jeweils um depiktionale Repräsentationen, wobei im einen Fall eine konkrete und im anderen Fall eine abstrakte Form der strukturellen Übereinstimmung zwischen Repräsentation und repräsentiertem Sachverhalt besteht. Formal kann man eine mentale Repräsentation in Form von Propositionen und mentalen Modellen ebenfalls als eine Art dualer Kodierung ansehen. Allerdings unterscheidet sich die hier vertretene Sichtweise deutlich von der oben beschriebenen dualen Kodierungstheorie. Zum einen wird hier nicht nur für die Verarbeitung von Bildern, sondern auch für die Verarbeitung von Sprache eine duale Kodierung angenommen. Zum anderen wird die Konstruktion eines mentalen Modells nicht nur als ein Hinzufügen einer weiteren Kodierung angesehen, die einen quantitativen Vorteil gegenüber einer einfachen Kodierung erbringt. Wesentlich ist hier vielmehr, dass propositionale Repräsentationen und mentale Modelle auf unterschiedlichen, jedoch einander wechselseitig ergänzenden Repräsentationsprinzipien basieren.
3.
Sprach- und Bild-Verarbeitung
3.1. Sprachverarbeitung Bei der Verarbeitung von Sprachinformation konstruiert der Leser oder Hörer eine mentale Repräsentation der sprachlichen Oberflächenstruktur, generiert auf dieser Grundlage eine propositionale Repräsentation des se-
mantischen Gehalts und konstruiert schließlich ein mentales Modell des dargestellten Sachverhalts (van Dijk & Kintsch, 1983; Graesser, Millis & Zwaan, 1997; Schnotz, 1994b). Meist wird angenommen, dass bei der Konstruktion dieser mentalen Repräsentationen kognitive Schemata aktiviert werden – also hierarchisch organisierte mentale Datenstrukturen, die die bisherigen Erfahrungen des Individuums in verallgemeinerter Form repräsentieren. Sprachverstehen basiert dieser Sichtweise zufolge auf einem Wechselspiel von auf- und absteigenden Schemaaktivierungen, das durch die jeweils vorliegende Sprachinformation angeregt wird. Das Lesen eines visuell dargebotenen Texts und das Hören eines auditiv dargebotenen Texts scheinen sich hinsichtlich der höheren kognitiven Prozesse, also der Konstruktion einer propositionalen Repräsentation und eines mentalen Modells, nicht wesentlich voneinander zu unterscheiden. Hingegen unterliegt die Konstruktion der Oberflächenrepräsentation jeweils deutlich unterschiedlichen Bedingungen. Ein visuell dargebotener schriftlicher Text wird normalerweise durch einen permanent verfügbaren, stabilen Zeichenträger (z. B. ein Printmedium) dargeboten. Der Rezipient kann somit bei Bedarf zurückgehen und die betreffende Information erneut verarbeiten, um z. B. sein Verständnis zu überprüfen oder um Bezüge herzustellen. Informationsaufnahme und Informationsverarbeitung erfolgen hier in zeitlicher Hinsicht weitgehend selbstgesteuert. Bei einem auditiv dargebotenen Text ist der Zeichenträger – die akustischen Schallwellen – dagegen flüchtiger Natur. Eine bei der Informationspräsentation versäumte kognitive Verarbeitung kann später nicht mehr nachgeholt werden. Informationsaufnahme und -verarbeitung erfolgen hier zeitlich fremdgesteuert und machen eine kontinuierliche Aufmerksamkeitszuwendung erforderlich. Angesichts der begrenzten kognitiven Verarbeitungskapazität kann sich jeweils nur eine begrenzte Informationsmenge auf den verschiedenen Repräsentationsebenen im Fokus der Aufmerksamkeit befinden. Der Hörer oder Leser muss deshalb wissen, wovon im Augenblick die Rede ist, um im Falle eines Themenwechsels den Fokus entsprechend verschieben zu können (Chafe, 1994; Gernsbacher, 1990). Die hierzu erforderlichen Steuerungssignale werden jeweils durch TopicAngaben vermittelt. In jedem Satz und jedem größeren Textsegment kann man zwei Infor-
43. Informationsintegration mit Sprache und Bild
581
mationskomponenten unterscheiden: den Topic und den Comment. Der Topic gibt an, worüber etwas ausgesagt wird; der Comment gibt an, was darüber ausgesagt wird (Halliday, 1970). Der Leser identifiziert jeweils die Topic-Angabe, vergleicht sie mit dem bisher fokussierten Referenten und behält je nach Übereinstimmung oder Nichtübereinstimmung den Fokus bei oder sucht innerhalb der mentalen Repräsentation nach einem neuen Referenten. Dabei wird dem Hörer oder Leser signalisiert, ob ein Topic-Wechsel stattgefunden hat, ob eine kleine oder große FokusVerschiebung notwendig ist, wo der neue Topic zu suchen ist und anhand welcher Merkmale er identifiziert werden kann (Givo´n, 1983). Beispielsweise signalisiert der Grad der Markiertheit eines Topics dem Leser die Größe der erforderlichen Fokus-Verschiebung (Fletcher, 1985).
wissen als auch von den Zielsetzungen des Individuums beeinflusst. Beim Verstehen realistischer Bilder kann der Betrachter auf kognitive Schemata der alltäglichen Wahrnehmung zurückgreifen. Weidenmann (1988) spricht hier von einem ökologischen Bildverstehen, bei dem der Betrachter erkennt, was auf dem Bild dargestellt ist. Nimmt der Lernende jedoch auch Überlegungen vor, warum der Bildproduzent (d. h. der Fotograf, Maler oder Zeichner) den Sachverhalt so und nicht anders dargestellt hat bzw. warum der Bildredakteur gerade dieses Bild ausgewählt hat, so spricht Weidenmann von einem indikatorischen Bildverstehen. Das Bild wird hier gewissermaßen als Indikator für eine bestimmte Mitteilungsabsicht angesehen und entsprechend analysiert. Das ökologische und das indikatorische Bildverstehen repräsentieren unterschiedliche Verstehenstiefen. Anders als beim Textverstehen ist für die semantische Analyse von Bildern keine bestimmte Sequenzierung vorgesehen. Allerdings bestehen verschiedene Möglichkeiten, Einfluss auf die Reihenfolge der Verarbeitung zu nehmen. Beispielsweise können bestimmte Bildteile durch verstärkten Kontrast zum Hintergrund oder durch Beschriftungen hervorgehoben werden (Beck, 1984). Ebenso können direktive Bildzeichen wie Pfeile, Einrahmungen oder eingebundene Lupen verwendet werden, um auf den zu fokussierenden Bildbereich zu zeigen bzw. ihn visuell einzugrenzen. Die Reihenfolge der Verarbeitung kann auch durch eine bestimmte Nummerierung der Bildteile gelenkt werden. Darüber hinaus spielen kulturspezifische Verarbeitungsgewohnheiten, wie z. B. das Lesen von links nach rechts, eine Rolle (Winn, 1994). In animierten Bildern bzw. Filmen können auch die Zoom-Technik, die Zeitlupentechnik, ein sukzessiver Bildaufbau und die Art der Kameraführung als Fokussierungshilfen verwendet werden (Salomon, 1994).
3.2. Bildverarbeitung 3.2.1. Verarbeitung realistischer Bilder Während bei der Sprachverarbeitung für den Aufbau eines mentalen Modells eine Umkodierung von einer deskriptionalen in eine depiktionale mentale Repräsentation erforderlich ist, können realistische Bilder relativ direkt in Form einer depiktionalen Repräsentation enkodiert werden. Dabei kann man zwischen einer perzeptiven und einer semantischen Enkodierung unterscheiden. Die perzeptive Enkodierung von Bildern basiert auf sog. präattentiven Prozessen (Neisser, 1976). Diese verlaufen parallel, beinhalten automatisierte visuelle Routinen, sind primär datengeleitet (d. h. verlaufen bottom-up) und sind dementsprechend relativ unabhängig vom Vorwissen sowie den Zielsetzungen des Individuums (Ullman, 1984). Um allerdings ein Bild nicht nur wahrzunehmen, sondern es auch zu verstehen, ist eine semantische Enkodierung erforderlich: An der präattentiv konstruierten perzeptuellen Repräsentation muss eine konzeptgeleitete Analyse vorgenommen werden. D. h.: Es müssen attentive Ablesebzw. Inspektionsprozesse stattfinden, um die Repräsentation zu interpretieren bzw. um ihr bestimmte Informationen zu entnehmen. Ein solches Ablesen führt zu propositional enkodierten Informationen, die der propositionalen mentalen Repräsentation hinzugefügt werden. Diese Prozesse laufen seriell ab, sind sowohl daten- als auch konzeptgeleitet – d. h. verlaufen sowohl bottom-up als auch top-down – und werden sowohl vom Vor-
3.2.2. Verarbeitung logischer Bilder Logische Bilder bzw. Diagramme repräsentieren einen Sachverhalt nicht aufgrund von Ähnlichkeit, sondern aufgrund von abstrakteren strukturellen Gemeinsamkeiten. Auch beim Verstehen eines Diagramms konstruiert der Betrachter ein mentales Modell des dargestellten Sachverhalts. Die dabei stattfindenden subsemantischen, präattentiven Prozesse bestehen in der Diskrimination und Identifikation sowie der Gruppierung grafischer
582 Komponenten – also von Punkten, Linien und Flächen – entsprechend den sog. Gestaltgesetzen und führen zur Wahrnehmung einer entsprechenden grafischen Konfiguration (Wertheimer, 1938; Winn, 1994). Die semantische, attentive Verarbeitung, mit der zum Verstehen des Diagramms übergegangen wird, besteht in der konzeptgeleiteten Analyse dieser wahrgenommenen grafischen Konfiguration. Dabei werden bestimmte visuell-räumliche Relationen und Attribute abgelesen, semantisch interpretiert und in Form von Propositionen fixiert, welche der bereits vorhandenen propositionalen mentalen Repräsentation hinzugefügt werden. Da Diagramme keine perzeptuelle Ähnlichkeit mit dem repräsentierten Gegenstand besitzen, kann der Lernende bei deren Interpretation nicht auf kognitive Schemata der alltäglichen Wahrnehmung zurückgreifen. Die Fähigkeit zum Verstehen von Diagrammen ist vielmehr eine spezifische Kulturtechnik, die jeweils erlernt werden muss. Dabei gilt es, spezielle kognitive Schemata zu konstruieren, mit deren Hilfe an den grafischen Konfigurationen eines Diagramms bestimmte Informationen abgelesen werden können (Pinker, 1990). Verfügt ein Individuum nicht über die entsprechenden GrafikSchemata, so ist es nicht in der Lage, einem Diagramm bestimmte Informationen zu entnehmen. Lernende mit geringeren kognitiven Voraussetzungen können beispielsweise einem Linien-Zeitdiagramm oft nur einzelne Werte entnehmen und keine Entwicklungstrends erkennen (vgl. Guthrie & Weber, 1991; Kirsch & Jungblut, 1986). Diagramme werden um so besser verstanden, je besser die vom Lernenden präattentiv wahrgenommene grafische Konfiguration mit der Struktur des darzustellenden Sachverhalts übereinstimmt und je besser der Lernende in der Lage ist, diese Übereinstimmung durch Aktivierung geeigneter kognitiver Schemata zu erkennen. Wie bei realistischen Bildern ist für die Analyse von Diagrammen keine bestimmte Verarbeitungssequenz vorgesehen. Allerdings bestehen auch hier Möglichkeiten, Einfluss auf die Reihenfolge der Verarbeitung zu nehmen. So können grafische Komponenten durch visuelle Merkmale (z. B. einen verstärkten Kontrast zum Hintergrund), durch Beschriftung oder durch direktive Bildzeichen hervorgehoben sein, wodurch diese eher fokussiert werden als andere Komponenten (Beck, 1984; Weidenmann, 1994b). Angesichts der Vorwissens- und Zielabhängigkeit
IV. Sprachrezeption
der semantischen Verarbeitung besteht außerdem die Möglichkeit, diese durch sprachliche Instruktion, wie z. B. Diagrammüberschriften, einen begleitenden schriftlichen Text oder durch gesprochene Kommentare zu beeinflussen. 3.2.3. Verarbeitung von Animationen Realistische Bilder und Diagramme können – z. B. mit Computerunterstützung – nicht nur in statischer, sondern auch in animierter Form dargeboten werden. Die Verwendung animierter Bilder scheint sich besonders dann anzubieten, wenn Wissen über einen sich verändernden Sachverhalt vermittelt werden soll, da sich hier dessen Dynamik unmittelbar veranschaulichen lässt und so ein größerer Grad an Realitätsnähe hergestellt werden kann. Außerdem können animierte Bilder im Sinne des Supplantationsprinzips von Salomon (1979) als visuelle Unterstützung von mentalen Simulationsprozessen dienen. Gleichzeitig steht aber im Falle eines animierten Bildes dem Lernenden nur noch eine flüchtige Reizquelle zur Verfügung, bei der die Möglichkeiten einer differenzierteren Analyse der grafischen Struktur deutlich eingeschränkt sind. Eine genaue konzeptgeleitete Bildverarbeitung und eine entsprechend intensive Interaktion zwischen mentalem Modell und propositionaler Repräsentation sind damit deutlich erschwert. Um diese Probleme zu vermeiden, sollten deshalb animierte Bilder jeweils mit der Option versehen sein, den Animationsprozess mit verschiedener Geschwindigkeit und in verschiedenen Richtungen vollziehen sowie an beliebiger Stelle anhalten zu können, um eine differenzierte Analyse der jeweiligen grafischen Konfiguration zu ermöglichen. Ein weiteres Problem der Verwendung animierter Bilder ist darin zu sehen, dass dem Lernenden hier unter Umständen eine Unterstützung kognitiver Prozesse angeboten wird, die er eventuell gar nicht benötigt. Der Lernende hat die Möglichkeit, durch Mausklick einen Simulationsprozess auszulösen und – statt diesen Prozess aktiv und selbstständig mental durchzuführen – ihn einfach zu beobachten und damit eher passiv nachzuvollziehen. Animationen können also den Prozess des Wissenserwerbs insofern beeinträchtigen, als sie die kognitiven Anforderungen für den Lernenden reduzieren und das Individuum ungewollt am Vollzug lernrelevanter mentaler Prozesse hindern.
43. Informationsintegration mit Sprache und Bild
3.3. Integrierte Sprach-Bild-Verarbeitung 3.3.1. Theoretisches Rahmenmodell Finden Sprach- und Bild-Verarbeitung in integrierter Form statt, so tragen beide zum Aufbau multipler mentaler Repräsentationen bei. Die Grundzüge eines entsprechenden Modells der integrierten Sprach- und Bildverarbeitung sind in Abbildung 43.1 dargestellt. Die Abbildung zeigt links einen deskriptionalen und rechts einen depiktionalen Repräsentationszweig. Der deskriptionale Zweig besteht aus der externen Repräsentation eines dargestellten Sachverhalts in Form einer sprachlichen Beschreibung, der internen mentalen Repräsentation der Sprachoberflächenstruktur sowie der internen propositionalen Repräsentation des semantischen Gehalts. Der depiktionale Zweig besteht aus der externen Repräsentation des dargestellten Sachverhalts in Form eines realistischen Bilds oder eines Diagramms, der internen mentalen Repräsentation der dargebotenen grafischen Struktur in Form einer visuellen Wahrnehmung oder Vorstellung sowie dem internen mentalen Modell des dargestellten Sachverhalts.
Abb. 43.1: Strukturmodell des integrierten Sprachund Bildverstehens (nach Schnotz & Bannert, 1999)
583 Die kognitive Verarbeitung geschriebener oder gesprochener Sprache basiert auf der Analyse von Symbolstrukturen. Dabei kann man zwischen subsemantischen und semantischen Verarbeitungsprozessen unterscheiden. Die subsemantische Verarbeitung beinhaltet Prozesse der Worterkennung und syntaktischen Analyse und führt zu einer mentalen Repräsentation der Sprachoberfläche. Die semantische Verarbeitung besteht in der Aktivierung einer bestimmten Konfiguration hierarchisch organisierter kognitiver Schemata und führt zum Aufbau einer kohärenten propositionalen Repräsentation des dargestellten Inhalts. Diese propositionale Repräsentation ist Ausgangspunkt für einen Prozess der mentalen Modellkonstruktion, der ebenfalls auf der Aktivierung kognitiver Schemata beruht. An dem so konstruierten mentalen Modell können dann durch Modellinspektionsprozesse neue Informationen abgelesen werden. Die Ableseergebnisse müssen jeweils explizit gemacht, d. h. in Form von Propositionen enkodiert und der propositionalen Repräsentation hinzugefügt werden. Bei Bedarf können diese Propositionen wiederum in sprachliche Äußerungen umgesetzt werden. Die kognitive Verarbeitung eines realistischen Bilds oder eines Diagrams basiert auf Prozessen der analogen Strukturabbildung. Dabei kann man zwischen subsemantischen präattentiven Prozessen der Bild- bzw. Diagrammwahrnehmung und semantischen attentiven Prozessen der Bild- bzw. Diagramminterpretation unterscheiden. Die subsemantischen Prozesse bestehen in der Wahrnehmung bestimmter grafischer Konfigurationen und visueller Attribute des Bildes bzw. Diagramms. Die semantischen Prozesse bestehen im Aufbau eines mentalen Modells des im Bild oder Diagramm dargestellten Gegenstandes anhand der wahrgenommenen grafischen Konfiguration. Das betreffende mentale Modell wird jeweils so konstruiert, dass bestimmte räumliche Strukturen innerhalb der perzeptuellen visuellen Repräsentation bestimmten semantisch interpretierbaren Strukturen des mentalen Modells entsprechen und umgekehrt. In den Prozess der Strukturabbildung bei der mentalen Modellkonstruktion wird im Allgemeinen nicht die gesamte grafische Konfiguration, sondern nur jener Teil einbezogen, der für die Bewältigung aktueller oder antizipierter Anforderungen relevant ist. D. h.: Im Rahmen des Strukturabbildungspozesses findet eine ziel- bzw.
584
IV. Sprachrezeption
anforderungsabhängige thematische Selektion statt. Sowohl beim Sprachverstehen als auch beim Bildverstehen findet eine Interaktion zwischen einer deskriptionalen und einer depiktionalen mentalen Repräsentation statt. Diese Interaktion erfolgt über Konstruktions- und Ableseprozesse. Beim Sprachverstehen ist der Ausgangspunkt der Interaktion eine deskriptionale, propositionale Repräsentation, anhand derer eine depiktionale Repräsentation bzw. ein mentales Modell konstruiert wird, woran dann wieder neue Informationen abgelesen und der propositionalen Repräsentation hinzugefügt werden. Beim Bildverstehen ist der Ausgangspunkt der Interaktion eine depiktionale Repräsentation, anhand derer durch Ableseprozesse eine ergänzende deskriptionale, propositionale Repräsentation gebildet wird. Zwischen externen und internen Zeichensystemen besteht also keine Eins-zu-eins-Zuordnung. Vielmehr führt eine sprachliche Beschreibung als externe deskriptionale Repräsentation intern sowohl zu einer deskriptionalen als auch zu einer depiktionalen Repräsentation. Umgekehrt führt ein Bild als externe depiktionale Repräsentation intern sowohl zu einer depiktionalen als auch zu einer deskriptionalen Repräsentation.
präsentation und die mentale depiktionale Repräsentation (bzw. das mentale Modell) von der Sprache sowie vom Bild her beeinflusst. Dabei können Sprachverstehen und Bildverstehen einander unterstützen, indem sie gemeinsam zur Konstruktion (Ko-Konstruktion) einer bestimmten deskriptionalen und einer bestimmten depiktionalen Repräsentation beitragen. Sprachverstehen und Bildverstehen können jedoch auch interferieren, wenn die von beiden Seiten unterstützten deskriptionalen und depiktionalen mentalen Repräsentationen nicht kompatibel sind (Schnotz & Bannert, 1999). Depiktionale und deskriptionale mentale Repräsentationen scheinen sich hinsichtlich ihrer Erinnerbarkeit über längere Zeiträume voneinander zu unterscheiden. Peeck (1989) fand, dass Probanden nach längeren Behaltensintervallen zunehmend der Meinung sind, sie hätten bestimmte Informationen den präsentierten Bildern entnommen, während diese Informationen in Wirklichkeit dem Text entstammten. Man kann hierin einen Hinweis darauf sehen, dass eine depiktionale mentale Repräsentation längerfristig leichter rekonstruierbar bleibt und dass Lernende diese Repräsentation fälschlich mit einer entsprechenden depiktionalen Repräsentation als externer Informationsquelle assoziieren.
3.3.2. Ko-Konstruktion und Interferenz Beim Wissenserwerb anhand von Texten und visuellen Darstellungen besteht eine sequentielle Asymmetrie: Wenn ein Bild vor einem entsprechenden Text präsentiert wird, führt dies zu einem höheren Lernerfolg als in der umgekehrten Reihenfolge (Kulhavy, Stock & Caterino, 1994). Man kann diese Asymmetrie dahingehend interpretieren, dass der Lernende bei einem vorausgehenden Textverstehen ein mentales Modell konstruiert, das angesichts der grundsätzlich vorhandenen referentiellen Offenheit von Deskriptionen mit hoher Wahrscheinlichkeit von dem anschließend gezeigten Bild abweicht, ohne dass dieses aus der Sicht der zugrundeliegenden verbalen Beschreibung sachlich falsch wäre. Es kommt demnach zu Interferenzen, die den Lernerfolg reduzieren. Wird hingegen zunächst ein mentales Modell anhand eines Bildes konstruiert, so kann dieses bei der anschließenden Textverarbeitung ohne Interferenzen problemlos weiter elaboriert werden. Finden Sprach- und Bildverstehen zeitlich ineinander verschränkt statt, so werden die mentale deskriptionale (propositionale) Re-
3.3.3. Koordination und Kontiguität Die Verarbeitung von verbaler Information und die Verarbeitung von piktorialer Information sind jeweils Einschränkungen durch die begrenzte Kapazität des menschlichen Arbeitsgedächtnisses unterworfen (Baddeley, 1992; Chandler & Sweller, 1991). Ein koordinierter Aufbau von propositionalen Repräsentationen und mentalen Modellen anhand von Texten, realistischen Bildern und Diagrammen verlangt zunächst, dass verbale und piktoriale Information jeweils auf den gleichen Sachverhalt Bezug nehmen bzw. semantisch zusammenhängen. Über diese Notwendigkeit der semantischen Informationskoordination hinaus ist es angesichts der begrenzten Kapazität des Arbeitsgedächtnisses außerdem erforderlich, dass sich verbale und piktoriale Information jeweils gleichzeitig im Arbeitsgedächtnis befinden. Daraus ergibt sich die Notwendigkeit einer auch zeitlichen und/oder räumlichen Koordination von verbaler und piktorialer Information. Eine zeitlich koordinierte Darbietung von verbaler und piktorialer Information erfolgt bei der gleichzeitigen Präsentation eines ani-
43. Informationsintegration mit Sprache und Bild
585
mierten Bildes oder eines Films mit einem kommentierenden Text. Eine räumlich koordinierte Darbietung von verbaler und piktorialer Information ist dann gegeben, wenn ein Bild oder ein Diagramm und ein schriftlicher Text räumlich eng benachbart dargeboten werden. Mayer (1997) bezeichnet das Prinzip der zeitlichen und räumlichen Koordination von verbaler und piktorialer Information als Kontiguitätsprinzip.
3.3.5. Metakognitive Verarbeitungsregulation Sprach- und Bildverarbeitung sind intentionale Prozesse, die vom Individuum durch Einsatz unterschiedlicher Strategien an die jeweiligen Zielsetzungen und Verarbeitungsbedingungen angepasst werden können. Diese Regulation ist bei der Sprachverarbeitung allerdings häufig defizitär, indem z. B. an das eigene Verstehen zu niedrige Maßstäbe angelegt werden. Selbst routinierte Leser merken oft nicht, dass sie einen Text nicht hinreichend verstehen (Baker, 1985). Noch gravierender ist dies bei der Bildverarbeitung. Sowohl bei realistischen Bildern als auch bei Diagrammen besteht die Gefahr, dass Lernende meinen, der visuellen Darstellung mit einem Blick genügend Information entnehmen zu können, und deshalb nur eine oberflächliche Verarbeitung vornehmen (vgl. Mokros & Tinker, 1987; Weidenmann, 1989). Es gilt deshalb, solchen Tendenzen einer oberflächlichen Verarbeitung entgegenzuwirken. Hierzu kann auf direktive Bildzeichen wie Pfeile, Einrahmungen usw. sowie auf verbale Beschreibungen des semantischen Gehalts im begleitenden Text oder auf explizite Verarbeitungshinweise in der jeweiligen Bildüberschrift zurückgegriffen werden (Bernard, 1990). Außerdem gilt es, durch Erläuterung sowie durch direkte Verarbeitungshinweise eine ausreichende Anleitung zur konzeptuellen Analyse von Bildern und Diagrammen zu gewährleisten (vgl. Mayer, 1989).
3.3.4. Modalitätseffekte Die Möglichkeiten einer integrativen SprachBild-Verarbeitung sind bei gesprochener und bei geschriebener Sprache jeweils unterschiedlich. Wird ein realistisches Bild oder ein Diagramm gemeinsam mit einer gesprochenen sprachlichen Beschreibung präsentiert, so wird die Sprachinformation im auditiven Teil des Arbeitsgedächtnisses akustisch enkodiert. Wegen der Flüchtigkeit des Zeichenträgers – der akustischen Schallwellen – muss die kognitive Verarbeitung dabei einerseits unmittelbar entsprechend der vorgegebenen Präsentationsgeschwindigkeit erfolgen, so dass für eine selbstgesteuerte Informationsverarbeitung wenig Raum bleibt. Andererseits wird so der visuelle Teil des Arbeitsgedächtnisses nicht belastet, wodurch die visuelle Verarbeitungskapazität vollständig für die Aufnahme und Enkodierung der piktorialen Information zur Verfügung steht. Dadurch bestehen hier günstige Möglichkeiten, die kognitive Bildverarbeitung durch verbale Informationen zu steuern. Wird hingegen ein Bild oder Diagramm zusammen mit einem geschriebenen Text präsentiert, so konkurrieren die verbale und die piktoriale Information um die begrenzte visuelle Verarbeitungskapazität. Das Auge muss zwischen Bild und Text hin- und herwandern, und je nach Fokussierung der Aufmerksamkeit ist aktuell eher die piktoriale oder eher die verbale Information im Arbeitsgedächtnis präsent, während die nicht fokussierte Information rasch aus dem Arbeitsgedächtnis verschwindet. Zwar kann bei einem permanent verfügbaren schriftlichen Text die kognitive Verarbeitung weitgehend selbstgesteuert erfolgen, so dass durch wiederholtes Lesen bestimmter Textstellen die verbale Information immer wieder im Arbeitsgedächtnis reaktiviert wird. Dennoch muss hier die visuelle Aufmerksamkeit notwendig geteilt werden, so dass die gemeinsame Verarbeitung von verbaler und piktorialer Information erschwert sein kann (Chandler & Sweller, 1991; Mayer, 1997).
4.
Ausblick
Die kombinierte Verwendung von Sprache und Bild ermöglicht beim Wissenserwerb Individuen mit geringerem inhaltsspezifischem Vorwissen einen höheren Lernerfolg, da diese noch nicht hinreichend in der Lage sind, anhand einer einzigen Form der Informationsdarbietung multiple mentale Repräsentationen zu konstruieren. Gleichzeitig erfordert die Verwendung von Sprache und Bild vom Individuum aber auch die Fähigkeit, verschiedene Formen der Informationsdarbietung adäquat aufeinander zu beziehen. Hierzu gehören nicht nur Fähigkeiten und Fertigkeiten im Umgang mit schriftlichem Lernmaterial, die allgemein als verbale Lesefähigkeit (engl. „verbal literacy“) bezeichnet werden. Notwendig sind auch Fähigkeiten und Fertigkeiten im Umgang mit Bildern und Diagrammen, die man als piktoriale Lesefä-
586
IV. Sprachrezeption
higkeit (im Englischen meist nicht ganz zutreffend „visual literacy“ genannt) bezeichnen kann (vgl. Petterson, 1994; Moore & Dwyer, 1994; Weidenmann, 1997). Die Verarbeitung von Sprach- und Bildinformation ist ein Forschungsthema, das an der Schnittstelle von Linguistik, Semiotik, Kognitionswissenschaft und Instruktionsforschung liegt. Insofern bietet sich für die Untersuchung dieses Forschungsgegenstandes ein multidisziplinäres Herangehen an. Sprach- und Bildverstehen sind spezifische Funktionen des kognitiven Systems, die meist im engen Verbund miteinander realisiert werden, indem das Sprachverstehen im Kontext von Bildern und das Bildverstehen im Kontext von Sprache stattfindet. Es bedarf demnach einer integrierten Theorie des Sprachund Bildverstehens, die in eine allgemeinere Rahmentheorie der menschlichen Kognition integriert ist und die dem aktiven, konstruktiven Charakter des menschlichen Wissenserwerbs Rechnung trägt.
5.
Literatur
Baddeley, A. (1992). Working memory. Science, 255, 556⫺559. Baker, L. (1985). Differences in the standards used by college students to evaluate their comprehension of expository prose. Reading Research Quarterly, 20, 297⫺313. Beck, C. R. (1984). Visual cueing strategies: Pictorial, textual, and combinational effects. Educational Communication and Technology Journal, 32, 207⫺216. Bernard, R. M. (1990). Using extended captions to improve learning from instructional illustrations. British Journal of Educational Technology, 21, 215⫺225. Bühler, K. (1934). Sprachtheorie. Jena: Fischer. Chafe, W. L. (1994). Discourse, consciousness, and time. Chicago: University of Chicago Press. Chandler, P. & Sweller, J. (1991). Cognitive load theory and the format of instruction. Cognition and Instruction, 8, 293⫺332. Clark, J. M. & Paivio, A. (1991). Dual coding theory and education. Educational Psychology Review, 3, 149⫺210. Fletcher, C. R. (1985). The functional role of markedness in topic identification. Text, 5, 23⫺37. Gernsbacher, M. A. (1990). Language comprehension as structure building. Hillsdale, NJ: Erlbaum.
Givo´n, T. (Ed.) (1983). Topic continuity in discourse: A quantitative cross-language study. Amsterdam: Benjamins. Graesser, A. C., Millis, K. K. & Zwaan, R. A. (1997). Discourse comprehension. Annual Review of Psychology, 48, 163⫺189. Guthrie, J. T. & Weber, S. (1991). Searching graphs and illustrations: Cognitive processes and deficits. Paper presented at the AERA Convention, April 1991, Chicago. Halliday, M. A. K. (1970). Language structure and language function. In J. Lyons (Ed.), New horizons in linguistics (pp. 140⫺165). Baltimore: Pinguin. Johnson-Laird, P. N. (1983). Mental models. Towards a cognitive science of language, interference, and consciousness. Cambridge, England: Cambridge University Press. Johnson-Laird, P. N. & Byrne, R. M. J. (1991). Deduction. Hillsdale, NJ: Erlbaum. Johnson-Laird, P. N. (1987). The comprehension of discourse and mental models. In M. Nagao (Ed.), Language and artificial intelligence (pp. 253⫺ 261). Amsterdam: North-Holland. Kirsch, I. & Jungblut, A. (1986). Literacy: Profiles of America’s young adults. Princeton, NJ: Educational Testing Service. Kosslyn, S. M. (1994). Image and brain. The resolution of the imagery debate. Cambridge, MA: MIT Press. Kosslyn, S. M., & Shwartz, S. P. (1977). A simulation of visual imagery. Cognitive Science, 1, 265⫺ 295. Kulhavy, R. W., Stock, W. A. & Caterino, L. C. (1994). Reference maps as a framework for remembering text. In W. Schnotz & R. W. Kulhavy (Eds.), Comprehension of graphics (pp. 153⫺162). Amsterdam: Elsevier. Mayer, R. E. (1989). Models for understanding. Review of Educational Research, 59 (1), 43⫺64. Mayer, R. E. (1997). Multimedia learning: Are we asking the right questions? Educational Psychologist, 32, 1⫺19. Mokros, J. R. & Tinker, R. F. (1987). The impact of microcomputer based labs on children’s ability to interprete graphs. Journal of Research in Science Teaching, 24, 369⫺383. Moore, M., & Dwyer, F. M. (1994). Visual literacy. A spectrum of visual learning. Englewood Cliffs, NJ: Educational Technology Publications. Müller, H. M. (1990). Sprache und Evolution: Grundlagen der Evolution und Ansätze einer evolutionstheoretischen Sprachwissenschaft. Berlin: de Gruyter.
43. Informationsintegration mit Sprache und Bild
587
Neisser, U. (1976). Cognition and reality. San Francisco: Freeman.
erwerb mit Texten. Weinheim: Psychologie Verlags Union.
Paivio, A. (1971). Imagery and verbal processes. New York: Holt, Rinehart & Winston.
Schnotz, W. & Bannert, M. (1999). Einflüsse der Visualisierungsform auf die Konstruktion mentaler Modelle beim Bild- und Textverstehen. Zeitschrift für experimentelle Psychologie, 46, 216⫺235.
Paivio, A. (1986). Mental representations: A dual coding approach. Oxford: Oxford University Press. Palmer, S. E. (1978). Fundamental aspects of cognitive representation. In E. Rosch & B. B. Lloyd (Eds), Cognition and categorization (pp. 259⫺303). Hillsdale, NJ: Erlbaum. Peeck, J. (1989). Trends in the delayed use of information from an illustrated text. In H. Mandl & J. R. Levin (Eds.), Knowledge acquisition from text and pictures (pp. 263⫺277). Amsterdam: NorthHolland. Peeck, J. (1994). Wissenserwerb mit darstellenden Bildern. In B. Weidenmann (Hrsg.), Wissenserwerb mit Bildern (pp. 59⫺94). Bern: Huber. Peirce, C. S. (1906). Prolegomena to an apology for pragmaticism. The Monist, 492⫺546.
Ullman, S. (1984). Visual routines. Cognition, 18, 97⫺159. Van Dijk, T. A. & Kintsch, W. (1983). Strategies of discourse comprehension. New York: Academic Press. Weidenmann, B. (1988). Psychische Prozesse beim Verstehen von Bildern. Bern: Huber. Weidenmann, B. (1989). When good pictures fail: An information-processing approach to the effect of illustrations. In H. Mandl & J. R. Levin (Eds.), Knowledge acquisition from text and pictures (pp. 157⫺170). Amsterdam: Elsevier. Weidenmann, B. (1994a). Informierende Bilder. In B. Weidenmann (Hrsg.), Wissenserwerb mit Bildern (pp. 9⫺58). Bern: Huber.
Pettersson, R. (1994). Visual Literacy und Infologie. In B. Weidenmann (Hrsg.), Wissenserwerb mit Bildern: Instruktionale Bilder in Printmedien, Film/ Video und Computerprogrammen (pp. 215⫺235). Bern: Huber.
Weidenmann, B. (1994b). Codes of instructional pictures. In W. Schnotz & R. Kulhavy (Eds.), Comprehension of graphics (pp. 29⫺42). Amsterdam: Elsevier.
Pinker, S. (1990). A theory of graph comprehension. In R. Freedle (Ed.), Artificial intelligence and the future of testing (pp. 73⫺126), Hillsdale, NJ: Erlbaum.
Weidenmann, B. (1997) Multicodierung und Multimodalität im Lernprozeß. In L. J. Issing & P. Klimsa (Hrsg.), Information und Lernen mit Multimedia (2. Aufl) (pp. 64⫺84). Weinheim: Psychologie Verlags Union.
Pinker, S. (1994). The language instinct. New York, NY: Morrow and Company. Pylyshyn, Z. W. (1981). The imagery debate: Analogue media versus tacit knowledge. Psychological Review, 87, 16⫺45. Salomon, G. (1979). Interaction of media, cognition, and learning. San Francisco, CA: Jossey-Buss. Salomon, G. (1994). Interaction of media, cognition, and learning. Hillsdale, NJ: Erlbaum. Sanford, A. J. & Garrod, S. C. (1981). Understanding written language: Exploration of comprehension beyond the sentence. New York: Wiley. Schnotz, W. (1994a). Wissenserwerb mit logischen Bildern. In B. Weidenmann (Hrsg.), Wissenserwerb mit Bildern (pp. 95⫺147). Berlin: Huber. Schnotz, W. (1994b). Aufbau von Wissenstrukturen. Untersuchungen zur Kohärenzbildung beim Wissens-
Wertheimer, M. (1938). Laws of organization in perceptual forms in a source book for Gestalt psychology. London: Routledge & Kegan Paul. Winn, W. D. (1994). Contributions of perceptual and cognitive processes to the comprehension of graphics. In W. Schnotz & R. Kulhavy (Eds.), Comprehension of graphics (pp. 3⫺27). Amsterdam: Elsevier. Zelazny, G. (1986). Wie aus Zahlen Bilder werden. Wiesbaden: Gabler. Zimmer, H. D., & Engelkamp J. (1988). Informationsverarbeitung zwischen Modalitätsspezifität und propositionalem Einheitssystem. In G. Heyer, J. Krems & G. Görz (Hrsg.), Wissensarten und ihre Darstellung (pp. 130⫺154). Heidelberg: Springer.
Wolfgang Schnotz Universität Landau (Deutschland)
588
IV. Sprachrezeption
44. Missverstehen 1. 2.
4. 5. 6. 7.
Begriffsklärung und Grundlagen Reziproke Perspektiven: Das Individuum in der Beziehung Reziprozität der Spiralen: Beziehungen zwischen Individuen Abweichungen Methodische Zugänge Resümee Literatur
1.
Begriffsklärung und Grundlagen
3.
1.1. Verstehen und Missverstehen in der Alltagssprache „Verstehen“ ist ein schillernder Begriff in unserer Alltagssprache: versteht jemand eine mathematische Formel, ökologische Zusammenhänge, den Ruf des Freundes aus 100 Meter Entfernung, die Aussage eines Vortrages, seinen Hund, sein Kind, seinen Partner? Verstehen wir uns? „Missverstehen“ ist ein Ableger dieses Schillerns. Die Bemerkung „ich habe Dich missverstanden“ bietet sich bei mindestens folgenden Gelegenheiten an: man hat gar nichts verstanden, man hat nicht richtig hingehört, die Botschaft ist akustisch nicht richtig herübergekommen, man konnte das Gehörte nicht nachvollziehen, man konnte das Gehörte nicht akzeptieren, man wollte eigentlich auch gar nicht hinhören, man hatte etwas anderes verstanden, als man nun versteht, man hat die versteckten Hinweise nicht entdeckt, etc. Es ist deshalb zu klären, wie im Folgenden Missverstehen zu verstehen ist.
Gegenstand / Thema Mitteilung eines Gespr chspartners Person / Gegen ber
Verstehen
Akzeptieren
Daten, Fakten Zusammenh nge
Aufbauen
?
Zustimmen
Nachvollzug der Erlebniswelt
Zuwenden
Abb. 44.1: Verstehen in der Alltagssprache
In Abbildung 44.1 ist zwischen Verstehen und Akzeptieren einerseits und verschiedenen Verstehens-Objekten andererseits unterschieden. Das freie Feld markiert den Bereich, um
den es nun gehen soll: das Verstehen von Mitteilungen eines Gesprächspartners während des Dialogs. 1.2. Forschung zu Sprachrezeption und zu Sprachproduktion Derartiges Verstehen liegt nicht in der Kompetenz des Hörers allein. Dafür bedarf es immer zweier Individuen: des Einen und des Anderen. Die historische Spaltung in Forschungen zur Sprachrezeption einerseits und zur Sprachproduktion andererseits hat diese Sichtweise nicht gefördert. Gleichwohl wäre eine wissenschaftliche Analyse von Missverstehen ohne die Ergebnisse aus beiden Forschungsrichtungen kaum denkbar. In der Sprachproduktionsforschung ist das Sprachprodukt die „abhängige Variable“; in der Sprachrezeptionsforschung ist das Sprachprodukt die „unabhängige Variable“. Aus der Verknüpfung beider (die Sprache als intervenierende Variable) erhellt sich „Missverstehen“. Schon das einzelne Individuum kann sowohl in der Sprecher- wie auch in der Hörer-Rolle gesehen werden (Herrmann, 1985: 6 ff.). Noch komplizierter wird der Sachverhalt, wenn man bedenkt, dass normalerweise ein „Sprecher-Hörer“ (A) einem anderen „Sprecher-Hörer“ (B) gegenübersteht. Der Sprecher will den Hörer auf einen Gedanken bringen, den er im Denken des anderen sehen möchte. Er versucht sich als „Gedanken-Dirigent“. Dabei geht er nicht nur von dem aus, was er selbst will, sondern auch davon, was er glaubt, dass der andere will und denken kann. Der Hörer versucht zu verstehen, was der andere sagen will. Er versucht sich als „Interpretator“. Dabei orientiert er sich nicht nur an dem, was er glaubt, dass der andere sagen wolle, sondern auch daran, was er selbst verstehen kann und will. Die Rollen des Sprechers und des Hörers sind im Dialog kontaminiert. Aus der Sprachrezeptionsforschung wissen wir, dass identische Worte unterschiedlich aufgefasst werden können. Je nach Hintergrundinformation verstehen wir Verschiedenes oder auch nichts (Anderson et. al., 1977, 1978, 1983; Goetz et al., 1983; Hörmann, 1978, 1981; Pichert & Anderson, 1977; Sjogren & Timpson, 1979). Hier kommt die Differenz zwischen Hören und Verstehen zum Tragen.
589
44. Missverstehen Person B Worte, Mimik, Gestik, etc.
Sagen Meinen Wollen Verstehen Hören
Hören
subjektiver Kontext
subjektiver Kontext
Person A
Verstehen Wollen Meinen Sagen
(Miss) - Verstehen
Abb. 44.2: Dialogmodell
1.4. Missverstehen Damit ist es möglich, Nicht-Verstehen, Richtig-Verstehen und Miss-Verstehen voneinander abzugrenzen (Abbildung 44.3).
Aus der Sprachproduktionsforschung wissen wir, dass ein Sprecher nicht alles sagt, was er denkt. Er trifft mit seinen Worten eine Auswahl: pars pro toto (Chafe, 1976: 90 f.; Schlesinger, 1977: 185; Herrmann, 1982: 27 ff.). Er äußert sich damit mehrdeutig, denn seine Worte könnten auch etwas anderes ausdrücken, als er gerade meint (Dobrick, 1985: 30). Hier kommt die Differenz zwischen Meinen und Sagen zum Tragen. Lässt man akustische und fremdsprachliche Probleme zwischen Sagen und Hören außer Acht, so lässt sich ein Grundmodell der Kommunikation skizzieren, in dem Missverstehen anzusiedeln ist (Abbildung 44.2).
Abb. 44.3: Modalitäten des Verstehens
1.3. Akte der Kommunikation In der linguistischen Literatur wird, wenn es um Meinen und Sagen geht, häufig an die Sprechakttheorie (Austin, 1979; Grice, 1979; Searle, 1979, 1980) angeknüpft. Jemand meint beispielsweise eine Bitte und stellt doch eine Frage: „Kannst Du das Fenster schließen?“. Die Unterscheidung in Illokution und Lokution (was einer will – z. B. einen Befehl – und was einer sagt – z. B. in Frageform –) trifft nur teilweise die Unterscheidung in Intention und Sachverhalt (vgl. Dobrick, 1985: 33 ff.); das Problem liegt darin, dass „es zieht“ – was genau der Betoffene auch hätte sagen können. Henne (1975) fordert analog der Sprechakttheorie eine Theorie der Hörakte. Sprechen und Hören müssen aber gemeinsam betrachtet werden. Verstehen ist nicht schlichtes Aufnehmen von Worten, sondern aktive (Re-)Konstruktion des Gemeinten. Solche Konstruktion ist verbunden mit der Verleihung eines Sinnzusammenhanges (Schütz, 1974; Hörmann, 1978), welcher ohne das Urteil des Sprechers ungeklärt bleibt.
Der Kontext ist erheblich. Die Worte „kannst du das Fenster schließen?“ haben unterschiedliche Bedeutung, wenn sie vom Fensterbauer oder von Beamten kommen – oder gar innerhalb einer Beziehungsdiskussion (vgl. auch Olson, 1970; Bransford & Johnson, 1972; Herrmann et al., 1986 zur Raumauffassung). Wenn der Kontext von zwei Dialogpartnern unterschiedlich wahrgenommen wird, ist Verstehen erschwert. Damit können wir uns nun auch der Lüge zuwenden. Spätestens seit Falkenberg (1982) ist die Lüge nicht mehr gekennzeichnet durch die Diskrepanz zwischen dem Sagen und der Wahrheit, sondern zwischen dem, was jemand sagt und was er glaubt, dass wahr sei. Die Lüge ist zwischen „Wollen“ und „Meinen“ (das Meinen soll vermittelt werden) anzusiedeln. Beispielsweise kann jemand etwas über Täuschung zu erreichen versuchen (Wollen ist dann ungleich dem Meinen). Wer auf den Lügner hereinfällt, hat ihn richtig verstanden! Wer nicht hereinfällt, hat ihn Missverstanden, aber möglicherweise seine Intention erkannt.
Sinnzusammenhang aufgebaut? NEIN
JA Übereinstim- JA mung mit dem Gemeinten? NEIN
Richtig Verstanden MissVerstanden
Nicht(s) Verstanden
590
2.
IV. Sprachrezeption
wolle. (Ich glaube, die Polizei denkt, ich würde annehmen, sie nehme an, ich wolle einbrechen.)
Reziproke Perspektiven: Das Individuum in der Beziehung
Menschen, die in Beziehung zu anderen treten, machen sich in der Regel Gedanken darüber, was die anderen wollen und denken (Kelley, 1971), wie sie in den Augen der anderen dastehen etc.; die anderen tun das ihrerseits natürlich ebenso. Dies haben Laing, Phillipson und Lee (1971) in den Begriff der Spirale reziproker Perspektiven gekleidet. Das Bild der Spirale verdeutlicht dabei, dass ein- und derselbe Inhalt auf verschiedenen Stufen der Reflexion wiederkehrt. Die Spirale ist dabei, bildlich gesprochen, zwischen den Interaktionspartnern (z. B. Eheleuten) angesiedelt: „… doch ist Jack sich nicht sicher, ob Jill Jack liebt, und Jill ist sich nicht sicher, ob Jack Jill liebt. Jack fühlt, dass er Jill liebt, aber er weiß nicht, ob Jill wirklich an seine Liebe glaubt.“ (38). Im Sinne der Autoren gerät die Spirale zu einem Charakteristikum der Dyade, oder genauer: bestimmter Dyaden; „Eine solche Spirale entwickelt sich z. B. immer dann, wenn zwei Personen einander misstrauen.“ (37). Diese systemische Betrachtungsweise mag daher rühren, dass Laing et al. ihren Ausgangspunkt in gestörten (Ehe-)Beziehungen haben. Das verstellt jedoch leicht den Blick auf den allgemeinen Fall, in dem sich zwei Individuen zu einer Dyade erst zusammenfinden. Grundlage dafür, dass es überhaupt zu der genannten Spirale kommen kann, sind zwei Spiralen, von denen je eine bei jedem der Interaktionspartner anzusiedeln ist: ich denke, dass du denkst, dass ich denke, dass du denkst, dass ich denke etc. Das nachfolgende Beispiel (nur eine Spirale) mag verdeutlichen, dass diesen Spiralen nach oben hin zwar keine logischen, wohl aber pragmatische Grenzen gesetzt sind: 1. Stufe: Ich will. (Ich will in die Bank einbrechen). 2. Stufe: Ich glaube, der will. (Ich glaube, die Polizei will verhindern, dass in Banken eingebrochen wird). 3. Stufe: Ich glaube, der denkt, ich wolle. (Ich glaube, die Polizei denkt, ich wolle in die Bank einbrechen). 4. Stufe: Ich glaube, der denkt, ich würde annehmen, er wolle. (Ich glaube, die Polizei denkt, ich würde annehmen, dass sie mich am Einbruch hindern wolle). 5. Stufe: Ich glaube, der denkt, ich würde annehmen, dass er annehme, ich
Diese Spirale scheint ab der vierten Umdrehung praktisch irrelevant zu sein, weil niemand so weit denkt … Laing et al. (1971) haben nicht die Ziele (!) einzelner Individuen im Auge, sondern die Beziehung zwischen den Partnern. Für den allgemeinen Fall des Dialogs muss dies nicht angemessen sein. So kann Jill mit Jack ins Bett gehen, Jack jedoch gerade ein Hochbett bauen wollen. Dann gibt es kein gemeinsames „Wollen“ zu diesem Zeitpunkt. Die Dialogsituation zwischen Jack und Jill lässt sich angemessener beschreiben, indem man beiden ihr je eigenes „Wollen“ belässt. Für den Vergleich individueller Perspektiven werden bei Laing et al. (1971) nur die zwei Möglichkeiten der Übereinstimmung und der Nichtübereinstimmung vorgesehen. Hinter der Nichtübereinstimmung kann sich jedoch eine Reihe relevanter Spezialfälle verbergen (z. B.: John glaubt, dass Christin niemanden liebt / seinen Bruder liebt / seinen besten Freund liebt etc.). Vor allem wenn es beiden um verschiedene Dinge geht (John um Liebe / Christin um Geld) kommt es darauf an, wie diese Dinge sich zueinander verhalten (z. B. Liebe zu Geld). Da es im Folgenden um den allgemeinen Fall der dyadischen Situation geht, wird zunächst nur von ‘Relationen’ gesprochen.
3.
Reziprozität der Spiralen: Beziehungen zwischen Individuen
Berücksichtigt man die Spiralen bis zur dritten Umdrehung, dann lässt sich die Situation für zwei Gesprächspartner A und B durch zwei Tripel darstellen: Situation für A: Ziele A, (B), ((A) B)
Situation für B: Ziele B, (A), ((B) A)
wobei:
A, B
die beiden Gesprächspartner die tatsächlichen Ziele der Partner A und B (B), (A), das dem jeweils anderen unterstellte Ziel ((A) B), ((B) A), was A und B annehmen, dass ihnen vom Partner als Ziel unterstellt werde. A, B,
In Abbildung 44.4 ist die dyadische Gesamt-
591
44. Missverstehen
Situation dargestellt. Darin sind 6 Arten von Relationen aufgeführt. Person A
6 A, ((A) B)
Person B
6⬘ B, ((B) A)
Objektive Situation 1
A
B
4
4´ 2
2´
(B)
6
(A)
6´ 5´
8 3
(A)B subjektive Situation
3´
(B)A subjektive Situation
Abb. 44.4: Relationen in der Dyade (Erläuterungen im Text)
Drei dieser Relationen (1⫺3 bzw. 3⬘) betreffen das faktische Zueinander der Ansichten der beiden Partner (aus der Sicht eines Dritten) und können deshalb „objektive Relationen“ genannt werden. 1 A, B 2 B, (B)
faktische Zielrelation Veridikalität der Zielunterstellung seitens A 2⬘ A, (A) Veridikalität der Zielunterstellung seitens B 3 ((A) B), (A) Veridikalität der B von A unterstellten Annahme über A’s Ziel 3⬘ ((B) A), (B) Veridikalität der A von B unterstellen Annahme über B’s Ziel Nicht alle der logisch möglichen Relationen zwischen den Tripeln sind dabei aufgeführt, redundante Relationen wurden weggelassen. Den Partnern selbst ist die Ausprägung der objektiven Relationen nicht bekannt. Sie verfügen nur über eigene Einschätzungen. Daraus ergeben sich die „subjektiven Relationen“, die jeweils innerhalb der Tripel lokalisiert sind: von A wahrgenommene Zielrelation 1 4⬘ B, (A) von B wahrgenommene Zielrelation 1 5 (B), ((A) B) so glaubt A, dass B die Zielrelation 1 sehe 5⬘ (A), ((B) A) so glaubt B, dass A die Zielrelation 1 sehe 4 A, (B)
von A wahrgenommene Veridikalität des ihm von B unterstellten Zieles (A glaubt, dass B sein, A’s Ziel richtig/ falsch sehe) von B wahrgenommene Veridikalität des ihm von A unterstellten Zieles (B glaubt, dass A sein, B’s Ziel richtig / falsch sehe)
Unter der Voraussetzung, dass alle eingeführten Konstrukte dieselben Inhalte aufweisen, sind alle besprochenen Relationen solche der Identität, und die Unterscheidung zwischen den Konstrukten kann entfallen: A ⫽ B ⫽ (B) ⫽ (A) ⫽ (A (B)) ⫽ (B (A)) ⫽ X; (X steht für den Inhalt). Die dyadische Situation lässt sich dann vereinfacht wie in Abbildung 44.5 darstellen: A
B X
Abb. 44.5: ABX-Modell nach Newcomb (1953)
Beide Partner wollen dasselbe, unterstellen dem jeweiligen Partner eben dies und vertrauen darauf, dass der Partner das auch von ihnen glaube. Wir sind damit in der Nähe des A-B-X-Modells von Newcomb (1953) gelandet; es liegt Koorientierung zwischen A und B in Bezug auf X vor. Die Herstellung dieser Kommunikationssituation empfiehlt sich nach Newcombs Theorie zur Verbesserung der Beziehung zwischen A und B. (Beide sollten z. B. gemeinsam gegen X Fußball spielen; dann hätten sie dasselbe Ziel, nämlich zu gewinnen). Solche „Ideal-Situationen“ sind im Alltag selten herstellbar. Deswegen stehen im Folgenden Abweichungen davon im Vordergrund.
4.
Abweichungen
In Abbildung 44.7 (übernächste Abbildung) sind dyadische Konstellationen in ihrer Abweichung von dieser Situation dargestellt. Das Ausmaß der Abweichung bestimmt sich aus der Zahl der nichtidentischen Inhalte (X, Y, Z). Objektive Abweichungen sind durch durchgezogene Linien zwischen A und B markiert. (Die Aufstellung ist nicht erschöpfend). Es ist zu vermuten, dass mit Abweichungen
592
IV. Sprachrezeption
eigenes Ziel dem anderen unterstelltes Ziel eigenes Ziel in den Augen des anderen
1
2
3
4
X Y X
X X Y
X Y Y
X Y Z
Abb. 44.6: Nichtidentität in subjetiven Relationen
höherer Ordnung eine objektiv kompliziertere Interaktionssituation gegeben ist. Das Ausmaß der Abweichungen in den objektiven Relationen vom NEWCOMB’schen Modell ist dabei nur ein Ordnungsgesichtspunkt. Ein weiterer ergibt sich aus den subjektiven Relationen. Folgende vier Fälle sind denkbar (Abbildung 44.6): Die eckige Klammer steht für Nichtidentität der Inhalte bei einem einzelnen Gesprächspartner (auch diese Zusammenstellung ist nicht vollständig). Es liegt nahe anzunehmen, dass die dyadische Situation durch das Individuum von Fall 1 bis Fall 4 als zunehmend
kompliziert erlebt wird: in Fall 1 realisiert es, dass der Partner ein anderes Ziel verfolgt, als das Individuum selbst; in Fall 2 nimmt es an, dass ihm selbst ein falsches Ziel unterstellt wird; in Fall 3 kommen die vorgenannten Fälle zusammen; und in Fall 4 gibt es nur (subjektiven) Diskonsens. Es empfiehlt sich, Abbildung 44.7 von links nach rechts zu lesen: das Ausmaß der erlebten Kompliziertheit der dyadischen Situation dürfte zunehmen. Auffallend ist, dass die subjektiv erlebte Kompliziertheit (von links nach rechts) nicht ohne weiteres einhergeht mit der objektiven Beschreibung (von
Legende: Gerade durchgezogene Linien stehen für Abweichungen zwischen den Partnern (objektive Relationen); eckige Klammern stehen für Abweichungen im Denken des einzelnen Partners (subjektive Relationen) Abb. 44.7: Abweichungen von der „idealen“ Dialogsituation
593
44. Missverstehen
oben nach unten). Das krasseste Beispiel dafür bietet sich in den Abweichungen 5. Ordnung: zur objektiv größten Differenz zwischen den Partnern gesellen sich hier im subjektiven Erleben maximale subjektive Harmonie (links) und maximale subjektive Disharmonie (rechts). Dies mag künstlich und konstruiert klingen. Doch stellt der in Abbildung 44.7 zugrundeliegende Gedanke eine Heuristik dar, dyadisches Geschehen von den beteiligten Individuen her zu verstehen. Damit sind zumindest drei Faktoren benannt, die auf das Verstehen/Missverstehen zwischen Personen Einfluss haben können: Die Ziele zwischen zwei Personen können (a) differieren, was man vom anderen glaubt, kann (b) falsch, und die Kontextwahrnehmungen können (c) unterschiedlich sein. Wer sich mit Miss-Verstehen befassen will, muss sich also um die individuellen kognitiven Repräsentationen der Situationsauffassungen (a, b und c) und um deren Verhältnis zueinander auf objektiver Ebene bemühen.
5.
Methodische Zugänge
Eines der Hauptprobleme bei der Untersuchung von Missverstehen ist, dass der Forscher selbst missverstehen kann (Dobrick, 1985: 117). Das lässt sich am einfachsten daran verdeutlichen, dass der Forscher normalerweise Dialogpartner seines Foschungsobjektes ist, womit alle Schwierigkeiten in einem Dialog auch auf ihn zutreffen. Bei Nicklas (1999: 21) heißt das dann so: „Diese Verstrickung des Forschers in seinen Forschungsgegenstand lässt keine ⬍objektive⬎, gleichsam von außen an den Lernprozess herangehende Position zu. Der Wissenschaftler ist selbst Teil des Prozesses“. Der „hermeneutische Zirkel“ (das immer wieder Angewiesen-Sein auf das eben Verstandene, um neu zu verstehen), mit dem die verstehenden Philosophen seit Jahrhunderten kämpfen, ist ein deutliches Beispiel dafür. Wagner (1999, 188): „Alles verstehende Erkennen, das elementare des Alltags ebenso wie das höhere der Wissenschaft, muss also von der unbestrittenen Tatsache ausgehen (…), dass uns die Welt als eine ⬍intersubjektive Welt⬎ ⬍gegeben und vorgegeben ist und dass die Gegenstände dieser Welt dem Wissen meiner Mitmenschen zugänglich, also entweder bekannt oder erkennbar sind ⬎“.
Die Chancen für Richtig-Verstehen stehen schlecht, wenn diese intersubjektive Welt fehlt. Sie stehen auch schlecht, wenn diese intersubjektive Welt als Rahmenbedingung da ist, in ihr aber Gesprächspartner Ziele verfolgen, die man nicht kennt. Die Verwiesenheit auf die eigenen Vorannahmen führt dann leicht in die Spiralen, von denen oben die Rede war. Die Frage ist, ob man aus diesem Zirkel nicht irgendwie herauskommen kann. 5.1. Die Rede und die Gegenrede des anderen Im linguistischen Zugang orientiert man sich vornehmlich an dem, was gesagt worden ist. Die Sprachanalyse steht im Vordergrund (Lavric, 1990; Falkner, 1997). Zwar wird auch dort registriert, dass es hinter dem Sprechprodukt etwas gibt, das ausgedrückt werden sollte (Meinen), doch bleibt das Sprachgebilde der Ausgangspunkt der Analyse. Ein Beispiel aus Falkner (1997: 126): S ⫽ De´sire´e Zapp, H ⫽ Philip Swallow. „Oh, dear!“ S sighed after they made love for the first time. H: „What’s the matter?“ S: ⬍⬍⬍„it was nice, while it lasted.“⬎⬎⬎ ⬎⬎⬎„It was tremendous“⬍⬍⬍ H said. ⬎⬎⬎„did I come too soon?“⬍⬍⬍ S: „I don’t mean that, stupid. I mean our chastity was nice while it lasted“. (Erläuterung: S ⫽ Sprecher; H ⫽ Hörer; ⬍⬍⬍…⬎⬎⬎: Auslöser eines Missverständnisses; ⬎⬎⬎…⬍⬍⬍: Manifestation eines Missverständnisses) Es geht hier um die Falschinterpretation des Pronomens „it“. An diesem Beispiel aus dem Korpus (Spracharchiv) von Falkner mag deutlich werden, dass das Wort allein nicht genügt, Missverstehen in dem Sinne zu explizieren, wie es hier gemeint ist. Falkner (1997) interpretiert aus dem reinen Sprachgebilde, ohne Zugang zu den Individuen selbst zu haben (es sei denn, er selbst sei Philip Swallow gewesen). Missverständnisse sind durch diese Methode immer nur zu erkennen, wenn sie sich sprachlich gezeigt und damit aufgelöst haben. Konsequenterweise unterscheidet Falkner (1997) zwischen Missverstehen und Missverständnis und fügt in seiner Definition des Missverständnisses den Zusatz bei, „ … und wenn sich H und/oder S dieser Differenz im weiteren Ablauf der Interaktion bewußt werden“ (82).
594 Es gibt Wortspiele an der Oberfläche des Beobachtbaren und Gedankenspiele im Hintergrund. Jeder weiß, dass Äußerungen zu Gegenäußerungen reizen können, die in sehr lockerem Verhältnis zu dem stehen, was man eigentlich denkt. Um des sprachlichen Scherzes willen kann man Dinge sagen, die man gedanklich nicht ganz vertritt. Im obigen Beispiel wäre die Frage zu klären, ob De´sire´e zufrieden war oder nicht. Dies lässt sich nicht sprachanalytisch klären. Der Vorteil der Sprachanalyse liegt zweifellos darin, dass gezeigt werden kann, welch unterschiedliche Interpretationsmöglichkeiten ein Sprachprodukt bietet. Lavric (1990: 45 ff.) stellt hierzu eine Palette von Möglichkeiten vor: Indefinite Nominalphrasen, unbestimmte Referenz, Ambiguitäten, spezifische/ beliebige Opposition, opaker Kontext usw. Der Nachteil der Beschränkung auf das geäußerte Wort liegt darin, dass der Forscher nicht zweifelsfrei auf das schließen kann, was der Sprecher meinte; er folgt allgemeinen Sprachgepflogenheiten (s. o. intersubjektive Welt). Es gibt aber Sprecher, die die Sprache falsch verwenden und solche, die trotzdem verstanden werden; es gibt Sprecher, die mit der Sprache spielen, beispielsweise Vagheit bewusst in die Wahl ihrer Worte einbauen; es gibt Sprecher, die nicht verstanden werden wollen und solche, die das, was sie meinen, nach ihren eigenen Kriterien nur unbefriedigend benennen können. Die sprachanalytische Perspektive eignet sich natürlich vorzüglich zum Studium von Witzen. Nicht umsonst baut die Arbeit von Lavric auf einem (Bild-)Witz auf (1990: 6): Lehrer: „Die Polizei sucht einen jungen Mann, der im Umkreis unserer Schule Mädchen belästigt.“ Schüler: „Wo kann ich mich melden?“. Dieser methodische Zugang orientiert sich an dem, was der Empfänger einer Nachricht verbal (oder auch nonverbal; Falkner, 1997) antwortet. Er ermöglicht den Zugang nur zu solchen Fällen, in denen sich Missverstehen aufgelöst hat. Derselbe Vorbehalt gilt auch für den „Berner Dreischritt“ (Galliker, 1991: 236; Foppa & Käsermann, 1981: 65 f.). Bei diesem Vorgehen wird die Replik (A2) des ursprünglichen Sprechers auf die Antwort (B1) seines Partners zu der ersten Äußerung (A1) zum Kriterium für das Verstehen durch den Partner erhoben. Stimmt der Sprecher mit A2 der Antwort B1 des Partners auf A1 zu, so liege
IV. Sprachrezeption
Verstehen seitens des Partners vor, wobei „Gegebenes an Vorgegebenem gemessen wird“ (Galliker, 1991: 243). Übersehen wird dabei zum einen, dass schon B1 vom ursprünglichen Sprecher missverstanden worden sein kann (z. B. im Sinne wohlwollender oder auch unwilliger Uminterpretation), womit A2 keine verlässliche Information mehr bietet, zum anderen, dass der Forscher selbst die Äußerungen beider Dialogpartner interpretieren muss und in die Not des Nachweises gerät, richtig verstanden zu haben. Auf der Ebene der Äußerungen lässt sich das Problem nicht lösen. 5.2. Die Handlungen des anderen Ein anderer Weg wird von Krauss und Glucksberg (1969) sowie von Weissenborn und Stralka (1984) gewählt. Die Autoren verfolgen die entwicklungspsychologische Fragestellung, ab welchem Alter ein Kind einem anderen Kind eine räumliche Veränderung so zu beschreiben vermag, dass das andere Kind ihm folgen kann. Thematisch geht es hierbei um den Hörerbezug beim Sprechen. Hörerbezogenheit hat im Kontext von Erwartungshaltungen damit zu tun, inwieweit der Sprecher bei der Wahl seiner Worte auf die beim Hörer erwartete/vermutete Situationsauffassung Rücksicht nimmt. Nach den oben genannten Autoren spielt das Alter des Sprechers dabei eine entscheidende Rolle. Da in beiden Arbeiten ein für die Dialogforschung richtungsweisendes Design verwendet wurde, soll zunächst der Versuchsaufbau dem Grunde nach skizziert werden. Zwei Dialogpartner sitzen sich an einem Tisch gegenüber und sind durch eine Sichtblende so getrennt, dass sie sich nicht sehen, wohl aber miteinander reden können. Einem der Partner wird die Sprecherrolle, dem anderen die Hörerrolle zugeteilt. Beide verfügen auf ihrer Tischhälfte über gleiche Materialien, die es zu manipulieren gilt. Der Sprecher hat die Aufgabe, den Hörer über die von ihm (dem Sprecher) vorgenommenen Manipulationen verbal zu informieren, so dass der Hörer seinerseits die gleichen Veränderungen vornehmen kann (z. B. Klötze in eine bestimmte Anordnung bringen – wie bei Krauss & Glucksberg; oder mit einem Spielzeugauto ein Straßennetz abfahren – wie bei Weissenborn & Stralka). Abhängige Variable ist die Diskrepanz zwischen den Handlungen des Hörers und denen des Sprechers. In diesem Design lässt sich das Alter der Versuchspersonen als quasi unabhängige Va-
44. Missverstehen
riable führen: man setzt Kinder unterschiedlichen Alters an dieselbe Aufgabe. In beiden Untersuchungen ergab sich übereinstimmend, dass die Versuchspersonen vom Alter der 7-jährigen bis zu den 14-jährigen zunehmend in der Lage waren, die Verstehensmöglichkeiten des jeweiligen Hörers bei der Wahl ihrer Worte (Benennung von Objekten) zu berücksichtigen. Doch selbst 14-jährige erreichten die Kompetenz von Erwachsenen nicht. Die Fähigkeit, um die es geht, kann darin gesehen werden, ein adäquates Partnermodell (Herrmann, 1985) auszubilden und aus der Sicht des Partners einzuschätzen, welche Formulierungen für ihn verständlich sind. Methodisch liegt hier ein Schritt in Richtung experimentelles Design vor. Zwar taugt das Alter von Personen nicht als echte unabhängige Variable, doch ist das Vorgehen deutlich näher an der Diskrepanz zwischen Meinen und Verstehen als in dem zuvor erwähnten methodischen Zugang. Leider ist dieser Ansatz auf Thematiken beschränkt, die den Zugang zu konkret beobachtbaren Ereignissen erlauben. Missverstehen in der Kommunikation über Einstellungen, Meinungen, Ansichten kann auf diese Weise nicht untersucht werden. Das ist nicht zu verwechseln mit der (Alltags)-Situation, in der eine Person A einer Person B einen Rat gibt, der nicht befolgt wird; letzteres kann nämlich sowohl daran liegen, dass B den Rat missverstanden, als auch daran, dass B ihn nicht akzeptiert hat. 5.3. Experimenteller Zugang Im experimentellen Vorgehen (vgl. Dobrick, 1984) werden vor einem Gespräch zwischen den Partnern inhaltlich differente Erwartungshaltungen geweckt (Ziele, Attributionen). Diese stellen die Eingangsbedingungen für das Gespräch dar (unabhängige Variable). Die Dialogpartner werden später zu einzelnen Äußerungen, die im Gespräch gefallen sind, in identischer Weise befragt. Je höher die Übereinstimmung in den Antworten auf die Befragung ausfällt, desto größer ist das Verstehen zwischen beiden Partnern (abhängige Variable). Erwartungshaltungen können zudem stark oder schwach ausgeprägt sein (vgl. Alloy & Tabachnik, 1984). Bei schwacher Erwartungshaltung müsste das individuelle Wahrnehmungsprodukt stärker datengesteuert (Daten ⫽ Sprache) sein; bei starker Erwartungshaltung wäre eine mehr erwartungsge-
595 steuerte Verarbeitung und eine entsprechende interpretative Verzerrung der Daten in Richtung Erwartung wahrscheinlich. Daraus folgt, dass das Ausmaß des Verstehens im Gespräch (abhängige Variable) davon abhängig sein sollte, wie dominant das jeweils eigene Ziel und wie festgefügt die Annahmen über die Sichtweise des Partners sind (unabhängige Variable). Zur Illustration wird im Folgenden ein Experiment wiedergegeben, in dem die Auswirkungen von Ziel- und Erwartungsstärke bei differierenden Inhalten zwischen Gesprächspartnern untersucht wurde (Dobrick, 1988). Je zwei Sekretärinnen sollten mittels „Neuer Medien“ (zwei vernetzte Computer in verschiedenen Räumen) kommunizieren. Eine Aufgabe, die den Lehrstuhl-Sekretärinnen keine Schwierigkeiten bereitete. Zuvor erhielten sie eine schriftliche Instruktion. Diese bestand aus einem allgemeinen Teil, der für alle gleich war, und einem speziellen Teil, über welchen die unabhängigen Variablen manipuliert wurden. Im allgemeinen Teil der Instruktion (Situationsauffassung) wurden Texte verwendet, die die Kommunikationssituation inhaltlich festlegten: Der einen Sekretärin (A) ging es um einen Konflikt mit ihrem Chef, den sie mit einer Kollegin besprechen wollte (eigenes Ziel), und zwar mit einer Kollegin, die sich immer für die sozialen Belange ihrer Kolleginnen eingesetzt hatte (unterstelltes Ziel dieser Kollegin). Diese andere Sekretärin (B) hingegen wollte an diesem Tag früher nach Hause gehen (deren eigenes Ziel) und unterstellte der ersteren, diese wolle nur einen Schwatz halten (das der Sekretärin A unterstellte Ziel). Beide wussten natürlich nichts von den wirklichen Zielen und Annahmen der jeweiligen Gesprächspartnerin. Die „starken“ vs. „schwachen“ Ziele und Erwartungshaltungen (unabhängige Variablen) wurden auf beiden Seiten durch geeignete Argumentationen erzeugt: In der „starken“ Variante wurde ein gewichtiger Beweggrund für das eigene Ziel und für das Ziel des anderen nahegelegt; in der „schwachen“ Variante wurden mehrere unerhebliche Beweggründe nahegelegt (vgl. hierzu die Hypothesentheorie der Wahrnehmung, Irle, 1975). Die Zuordnung der experimentellen Varianten war ausbalanciert, die Verteilung der Versuchspersonen auf die Bedingungen randomisiert.
596
IV. Sprachrezeption
Die Sekretärinnen „unterhielten“ sich miteinander. Während des Gespräches wurde rechnerseitig simultan für beide Partner mehrfach – nach festgelegtem Algorithmus – ein Fragenkatalog eingeblendet, der darauf abzielte, wie die jeweils vorausgegangene Äußerung gemeint (bzw. verstanden worden) war. Der Fragenkatalog war für beide Partner identisch. Die Antworten dienten zur Prüfung der Übereinstimmung (abhängige Variable). Man kann, salopp gesprochen, die Antworten der Partner wie Folien übereinanderlegen und gegen die Sonne halten: dann sieht man die Übereinstimmungen und Abweichungen. Rechnerisch ist die Sache komplizierter. Es wurde ein Maß für die Übereinstimmung berechnet (nach Dobrick, 1985: 137 ff.), das zwischen 0 und 90 variieren kann. Zu prüfen war, ob sich die Dyaden unter den verschiedenen experimentellen Bedingungen in diesem Maß unterschieden. Tab. 44.1: Mittlere Übereinstimmung in den Erwartungshaltungskombinationen
ErwartungshaltungsKombination
stark/stark
stark/schwach
52.55
67.73
Das Ergebnis ist Tabelle 44.1 zu entnehmen. Wie ersichtlich, liegen die Unterschiede zwischen „stark/stark“ und „stark/schwach“ in der erwarteten Richtung (ein höherer Wert entspricht einer besseren Übereinstimmung; p ⫽ .046, Varianzanalyse). Bei diesem Vorgehen bedarf es keiner Interpretation der im Gespräch aufgetretenen Äußerungen durch den Forscher. Natürlich kann er die aufgezeichneten Wortbeiträge im Anschluss linguistisch analysieren. Entscheidend ist aber, dass der Forscher im eigentlichen Verfahren unbeteiligt bleibt und dass die Zusammenhänge zwischen Dialog-Voraussetzungen und (Miss-) Verstehen interpretationsfrei dokumentiert werden können. 5.4. Bewertung der methodischen Zugänge Die methodische Situation ist kompliziert: es ist klar, dass der Forscher selbst Beteiligter ist oder sich heraushalten muss und dass die Erkenntnisse, die er gewinnt, auch auf ihn – sofern er sich direkt oder interpretativ am Diskurs beteiligt – zutreffen können. Er selbst hat Erwartungen, die seine Wahrneh-
mung steuern. Wenn er glaubt, den einen Gesprächspartner zu verstehen wie auch den anderen, von daher deren Missverstehen zu verstehen, so kann er beide Gesprächspartner missverstanden haben, weil er selbst Rezipient von Äußerungen ist und sich prinzipiell von den beobachteten Gesprächspartnern im Verstehen nicht unterscheidet. Man könnte dies die „Inkompetenz des Dritten“ nennen. Bei Falkner (1997: 51) führt dies so weit, dass er nach der Lektüre eines Gesprächstranskriptes behauptet, es habe kein Missverständnis stattgefunden. Er weiß aber nicht, was in den Köpfen der Gesprächspartner vorgegangen ist. Auch Mudersbach (1987), der konzeptuell die Gedanken der Beteiligten einbezieht (A hält für wahr, dass …) führt aus dieser Problematik nicht heraus. In seiner Definition 2 (S. 42) sieht er „Missverstehen aus der Sicht des außenstehenden Besserwissenden “ (sic !) dann, wenn W (der Besserwissende) für wahr hält, dass der eine Geprächspartner die Äußerung U als M1, der andere sie als M2 verstehe. Woher aber kommt das Für-Wahr-Halten seitens W? Eines der Hauptprobleme des linguistisch orientierten Zuganges zum Missverstehen über die Sprachprodukte scheint im Fehlen einer geeigneten (abhängigen) Variablen zur Erfassung von Missverstehen zu liegen. Dieses Problem hat der Ansatz über die Handlungen des Verstehenden nicht. Ob zwei Fahrzeuge in einem identischen Straßenplan den gleichen Weg fahren und am gleichen Ziel angelangen, lässt sich objektiv leicht feststellen. Genau darin liegt der Reiz dieses Designs. Leider ist das Verfahren aber zugleich auf direkt beobachtbare Handlungen beschränkt. Man denke an einen Autofahrer, der einen Fußgänger nach dem Weg zum Zielort fragt. Das Beste, was dem Autofahrer geschehen kann ist, dass der Befragte sich mit in das Auto setzt und dann sagt: „jetzt rechts, dort links, …“ usw. Setzt sich der Fußgänger aber nicht mit ins Auto, dann hängt es von der Fähigkeit des Fußgängers ab, seine kognitive Landkarte in Worte zu kleiden, von der Fähigkeit des Autofahrers, sich aus diesen Worten eine eigene kognitive Landkarte aufzubauen und nicht zuletzt von der Komplexität des Straßenplans, ob der Autofahrer sein Ziel erreicht. Ein anderes Problem ist die Wahl der unabhängigen Variablen. Das Alter der Ver-
44. Missverstehen
suchspersonen ist bekanntlich keine manipulierbare unabhängige Variable (konsequent bezeichnen die o.g. Autoren ihre Arbeit auch als „ontologische Studie“). Inwieweit andere Faktoren als ‘Ursachen’ für Missverstehen in diesem Design eingesetzt werden können, bleibt der Phantasie künftiger Experimentatoren überlassen. Denkbar wären etwa Veränderungen des Straßenplans, aber auch Einschränkungen oder Erweiterungen der Kommunikationsmöglichkeiten. So wie der sprachanalytische Ansatz auf der Ebene der Äußerungen verbleibt, beschränkt sich der Handlungsansatz auf die Ebene des beobachtbaren Tuns. Im dritten Ansatz (c) wird versucht, Ursachen für Missverstehen zu lokalisieren. In einem experimentellen Ansatz braucht man taugliche Instrumentarien sowohl für die abhängige Variable „Missverstehen“ wie für die unabhängige(n) Variable(n) . Bei der Erfassung der abhängigen Variablen Missverstehen ist es wichtig, Interpretationen des Forschers zu minimieren, um ihn als (dritten) Teilnehmer am Dialog herauszuhalten. Dies geschieht, indem die Dialogpartner mit identischem Instrumentarium standardisiert zu denselben Äußerungen aus ihrem Dialog befragt werden und dem Forscher die numerische Auswertung hinsichtlich der Übereinstimmung der Angaben überlassen bleibt. Es spielt keine Rolle, was der Forscher glaubt, dass der eine gemeint und der andere verstanden haben könnte. Die Schwierigkeiten dieses Zuganges zum Missverstehen liegen in der Konstruktion geeigneter Itemlisten, weil die Äußerungen während der Konstruktion dieser Listen noch nicht bekannt sind. Seitens der unabhängigen Variablen, den Ursachen für Missverstehen, lassen sich Ursachenausprägungen in der Form eines Rollenspiels induzieren, ohne dass damit eine sterile Laborsituation (Holzkamp, 1971) geschaffen werden muss. Man kann solche Situationen sehr lebensnah gestalten.
6.
Resümee
6.1. Einschätzungen Sprachproduktions- und Sprachrezeptionsforschung haben viele Befunde erbracht, die für das Verstehen im Dialog relevant sind, nur wurden sie selten aufeinander bezogen. Entscheidend für den Dialog ist, dass Sprechen mehrdeutig und Hören selektiv ist, wo-
597 bei es auf den Kontext des Dialogs und auf das Verhältnis der Ziele der Partner zueinander sowie auf das ankommt, was die Partner einander unterstellen und wie sicher sie sich ihrer Annahmen über den anderen sind. Missverstehen wird wahrscheinlicher, wenn die Ziele divergieren, aber nicht konträr sind (z. B. Clinton und Putin sprechen über Entspannung), wenn die Annahmen über den anderen falsch, aber nicht kontrastierend sind (z. B. Blair will Ruhe in Irland, glaubt, die IRA wolle Gewalt, diese will aber Autonomie) und wenn die Beteiligten sich ihrer Sache sehr sicher sind. Ein Beispiel zu letzterem bringt Watzlawick (1983: 37 ff.): Ein Mann will ein Bild aufhängen, benötigt aber dazu den Hammer seines Nachbarn. In die Überlegung, dass der ihm den Hammer nicht geben wolle, steigert er sich so hinein, dass er schließlich zu dem Nachbarn geht und sagt: „Behalten Sie sich Ihren Hammer, Sie Rüpel“. An diesem Beispiel wird deutlich, dass der Sprecher mit Fehleinschätzungen des Hörers zum Missverstehen beiträgt. Das Erkennen von Missverstehen durch einen Beteiligten hängt von den Kriterien ab, die ihm zur Beurteilung zur Verfügung stehen. Wenn jemand Widerrede äußert oder außerhalb des Dialogs unpassende Handlungen tätigt, dann kann er dies auch tun, weil er das, was er richtig verstanden hat, nicht akzeptiert. Unerkanntes Missverstehen kann sich möglicherweise erst nach Jahren auflösen oder gar nicht. 6.2. Forschungsprobleme Die Forschungslage ist defizitär. Dies mag daran liegen, dass der Forschungsaufwand für dyadische Experimente groß ist: doppelte Personenzahl für eine „statistische“ Versuchsperson, räumliche Verhältnisse, verschiedene Instruktionen, Hilfspersonal etc. In der Rezeptionforschung lässt sich einfacher arbeiten: man variiert das Reizmaterial und beobachtet die Wahrnehmungsresultate. Schon in der Sprachproduktionsforschung wird es schwieriger: denn Sprache wird spontan verwendet; wie schafft man systematisch unterschiedliche Bedingungen, die unterschiedliche Äußerungen bewirken könnten, und wie erfasst man systematisch das Sprachprodukt? In der dyadischen Verstehensforschung kommt beides zusammen. Der Übergang von der individuumzentrierten Forschung (Sprache produzieren oder
598 Sprache rezipieren) zur dyadischen Forschung (vom Gemeinten zum Verstandenen) beinhaltet Unbequemlichkeiten in methodischer Hinsicht, die möglicherweise nicht gerne in Kauf genommen werden. Zugleich bedeutet der Übergang vom Individuum zur Dyade einen Umbruch, der einem Paradigmenwechsel in der Psychologie vergleichbar wäre (Kuhn, 1977). 6.3. Alltag Missverstehen ist im Alltag bedeutsam. So wenig es in der wissenschaftlichen Literatur aufgegriffen wird, so sehr erscheint es doch in der Populärliteratur. Dabei spielen wissenschaftlich-methodische Kriterien offensichtlich kaum eine Rolle: Nirenberg (1989) und Enkelmann (o. J.) kommen beispielsweise ohne Literaturverweise aus. Dort findet man Vorschläge, die an Lebensphilosophien erinnern (z. B. Enkelmann, 10 ff.; sogenannte Grundgesetze): „Am Anfang jeder Tat steht die Idee. Nur was gedacht wurde, existiert.“; „Aus dem kleinsten Gedankenfunken kann ein leuchtendes Feuer werden.“ etc. Bei Nirenberg (1989: 52 ff.) findet man unter der Überschrift „Wie man Missverständnisse verhindert“ Hinweise auf vermeintliche Gründe für Missverstehen: „Niemand kann kontinuierlich zuhören“, „Der Zusammenhang geht verloren“ etc. Der wissenschaftlich-empirische Hintergrund für solche Aussagen und Empfehlungen fehlt. Selbst Deborah Tannen (1997) vermittelt in ihrem 360-seitigen Buch Einsichten, die auf persönlichen Erfahrungen, Beobachtungen, Analysen und Beispielsammlungen beruhen. 6.4. Missverstehen und das Scheitern von Verhandlungen Es liegt nahe, das Scheitern von Verhandlungen mit Missverstehen in Verbindung zu bringen. Auf Basis der hier vertretenen theoretischen Position bieten sich mehrere Erklärungsmöglichkeiten an: sie wollten von vornherein keine Einigung; sie haben einander missverstanden und fälschlicherweise keine Einigung erzielt; sie haben sich richtig verstanden, sich jedoch gegenseitig in ihren Aussagen nicht akzeptiert. Umgekehrt ist der Fall denkbar, dass sich zwei Kontrahenten einigen, obwohl sie sich missverstanden haben. Denn Einigung bedeutet die Verabredung wechselseitiger Handlungen, die vertraglich festgelegt werden kön-
IV. Sprachrezeption
nen. Die Gründe, deretwegen sich der einzelne auf eine Vereinbarung festlegt, können durchaus auf Missverstehen beruhen. 6.5. Zum Vorteil von Missverstehen Kursch hat bereits 1971 ein Loblied auf das Missverstehen gesungen: die bewusste Lüge dient häufig der Wahrung des Gesichtes; sie verleiht dem Schwachen Macht. Wortvieldeutigkeit hilft, die intime Sphäre zu schützen, und durch zuviel Klarheit legt man sich zu verbindlich fest. Demokratie kann nur über Missverstehen funktionieren, denn sonst gäbe es keine Kompromisse, die jeder nach ‘seiner’ Fac¸on treffen können muss. Schließlich bleibt noch die soziale Schmiere („social lubricants“, 197), die in Floskeln alle jene so erwärmt, die sich gar nicht mögen und sich doch verbiegen, in der Hoffnung dass der andere es nicht merkt.
7.
Literatur
Alloy, L. B. & Tabachnick, N. (1984). Assessment of covariation by humans and animals: The joint influence of prior expectations and current situational information. Psychological Review, 91, 112⫺ 149. Anderson, R. C. & Pichert, J. W. (1978). Recall of previously unrecallable information following a shift in perspective. Journal of verbal learning an verbal behavior, 17, 1⫺12. Anderson, R. C., Pichert, J. W. & Shirey, L. L. (1983). Effects of the reader’s schema at different points in time. Journal of Educational Psychology, 75, 271⫺279. Anderson, R. C., Reynolds, R. E., Schallert, D. L. & Goetz, E. T. (1977). Framework for comprehending discourse. American Educational Research Journal, 14, 367⫺381. Anderson, R. C., Spiro, R. C. & Anderson, M. C. (1978). Schemata as scaffolding for the representation of information in connected discourse. American Educational Research Journal, 15, 433⫺440. Austin, J. L. (1979). Zur Theorie der Sprechakte (How to do things with words). Stuttgart: Reclam. Bransford, J. D. & Johnson, M. K. (1972). Contextual prerequisites for understanding: Some investigations of comprehension and recall. Journal of Verbal Learning and Verbal Behavior, 11, 717⫺726. Chafe, W. L. (1976). Bedeutung und Sprachstruktur. München: Max Hueber Verlag. Dibie, P. & Wulf, C. (Hrsg.) (1999). Vom Verstehen des Nichtverstehens. Frankfurt: Campus Verlag.
44. Missverstehen Dobrick, M. (1984). Missverstehen: eine experimentelle Untersuchung. Zeitschrift für Sozialpsychologie, 15, 211⫺223. Dobrick, M. (1985). Gegenseitiges (Miss-)Verstehen in der dyadischen Kommunikation. Münster: Aschendorff. Dobrick, M. (1988). Verstehen verstehen – Grundzüge einer Theorie des Dialogs zur Erklärung von Verstehen. Habilitationsschrift Universität Mannheim.
599 Holzkamp, K. (1971). Kritische Psychologie. Stuttgart: Kröner. Irle, M. (1975). Lehrbuch der Sozialpsychologie. Göttingen: Hogrefe. Kelley, H. H. (1971). Attribution in social interaction. In E. E. Jones, D. E. Kanouse, H. H. Kelley, R. E. Nisbett, S. Valins & B. Weiner (Eds.), Attribution: Perceiving the causes of behavior (pp. 1⫺ 26). Morristown: General Learning Press, 1971.
Enkelmann, N. B. (o. J.). Rhetorik. Das ABC der Beeinflussungskunst. Wiesbaden: Panorama.
Krauss, R. M. & Glucksberg, S. (1969). The development of communication: Competence as a function of age. Child Development, 40, 255⫺266.
Falkenberg, G. (1982). Lügen. Grundzüge einer Theorie sprachlicher Täuschung. Tübingen: Niemeyer.
Kuhn, T. S. (1977). Die Entstehung des Neuen. Studien zur Struktur der Wissenschaftsgeschichte. Frankfurt: Suhrkamp.
Falkner, W. (1997). Verstehen, Missverstehen und Missverständnisse. Tübingen: Niemeyer.
Kursch, C. O. (1971). The benefits of poor communication. The Psychoanalytic Review, 58, 189⫺208.
Foppa, K. & Käsermann, M.-L. (1981). Das kindliche Wissen über die Sprache: Überlegungen zu einem ungelösten Problem. In K. Foppa & R. Groner (Hrsg.), Kognitive Strukturen und ihre Entwicklung (pp. 63⫺79). Bern: Huber.
Laing, R. D., Phillipson, H. & Lee. A. R. (1971). Interpersonelle Wahrnehmung. Frankfurt: Suhrkamp.
Galliker, M. (1991). Wer A sagt, muß auch B meinen. Schweizerische Zeitschrift für Psychologie, 50, 235⫺247. Goetz, E. T., Schallert, D. L., Reynolds, R. E. & Radin, D. J. (1983). Reading in perspective: What real cops and burglars look for in a story. Journal of Educational Psychology, 75, 500⫺510. Grewendorf, G. (Hrsg.) (1979). Sprechakttheorie und Semantik. Frankfurt/M.: Suhrkamp. Grice, P. H. (1979). Sprecherbedeutung und Intentionen. In G. Meggle (Hrsg.), Handlung, Kommunikation, Bedeutung (pp. 16⫺51). Frankfurt/M.: Suhrkamp. Henne, H. (1975). Sprachpragmatik. Nachschrift einer Vorlesung. Tübingen: Niemeyer. Herrmann, Th. (1982). Sprechen und Situation. Berlin: Springer. Herrmann, Th. (1985). Allgemeine Sprachpsychologie. München: Urban & Schwarzenberg. Herrmann, Th., Bürkle, B., Nirmaier, H. & Mangold, R. (1986). VOHILIRE: Untersuchungen zur hörerbezogenen Objektlokalisation. Arbeiten der Forschergruppe Sprechen und Sprachverstehen im sozialen Kontext. Heidelberg/Mannheim, Bericht Nr. 7. Hörmann, H. (1978). Meinen und Verstehen. Frankfurt/M.: Suhrkamp. Hörmann, H. (1981). Einführung in die Psycholinguistik. Darmstadt: Wissenschaftliche Buchgesellschaft.
Lavric, E. (1990). Missverstehen verstehen. Grazer Linguistische Monographien 7. Graz: Institut für Sprachwissenschaft der Universität. Mudersbach, K. (1987). Kommunizieren als Übersetzungsproblem. Über Missverstehen und deren Verhinderung. In F. Liedtke & R. Keller (Hrsg.), Kommunikation und Kooperation (pp. 37⫺69). Tübingen: Niemeyer. Newcomb T. M. (1953). An approach to the study of communicative acts. Excerpted in M. Fishbein (Ed.), Readings in attitude theory and measurement (pp. 293⫺300). London: Wiley, (1967). Nicklas, H. (1999). Vom kommunikativen Handeln zum Diskurs: Zur Struktur interkulturellen Lernens. In P. Dibie & C. Wulf (Hrsg.), Vom Verstehen des Nichtverstehens (pp. 19⫺28). Frankfurt: Campus Verlag. Nirenberg, J. S. (1989). Verstehen und Überzeugen. München/Landsberg: MVG – Moderne Verlagsgesellschaft. Olson, D. R. (1970). Language and thought. Aspects of a cognitive theory of semantics. Psychological Review, 77, 257⫺273. Pichert, J. W. & Anderson, R. C. (1977). Taking different perspectives on a story. Journal of Educational Psychology, 69, 309⫺315. Schlesinger, I. M. (1977). Components of a production model. In S. Rosenberg (Ed.), Sentence production (pp. 169⫺193). New York: Lawrence Earlbaum Ass. Schütz, A. (1974). Der sinnhafte Aufbau der sozialen Welt. Frankfurt/M: Suhrkamp
600
IV. Sprachrezeption
Searle, J. R. (1979). Intentionalität und der Gebrauch von Sprache. In G. Grewendorf (Hrsg.), Sprechakttheorie und Semantik (pp. 149⫺171). Frankfurt/M.: Suhrkamp. Searle, J. R. (1980). Indirekte Sprechakte. In P. Kussmaul (Hrsg.), Sprechakttheorie (pp.127⫺150). Wiesbaden: Athenaion.
American Educational Research Journal, 16, 341⫺ 346. Tannen, D. (1997). Du kannst mich einfach nicht verstehen. Warum Männer und Frauen aneinander vorbeireden. Augsburg: Bechtermünz Verlag. Watzlawick, P. (1983). Anleitung zum Unglücklichsein. München: Piper.
Selz, O. (1924). Die Gesetze der produktiven und reproduktiven Geistestätigkeit. Nachdruck in K. J. Groffman (Hrsg.), Leben und Werk von Otto Selz (pp. 31⫺61). Mannheim: Otto-Selz-Institut, (1981).
Weissenborn, J. & Stralka, R. (1984). Das Verstehen von Missverständnissen. Eine ontogenetische Studie. In W. Klein (Hrsg.), Textverständlichkeit – Textverstehen, Zeitschrift für Literaturwissenschaft und Linguistik, 55, 113⫺134.
Sjogren, D. & Timpson, W. (1979). Frameworks for comprehending discourse: A replication study.
Martin Dobrick Weisenheim am Berg (Deutschland)
45. Periphere und zentrale Prozesse beim Lesen 1. 2.
4. 5.
Einleitung Periphere und zentrale Verarbeitung: Prozesse auf der Textoberfläche Periphere und zentraler Verarbeitung: Prozesse auf der Ebene der Textinhalte Schlussbemerkung Literatur
1.
Einleitung
3.
Untersucht man periphere und zentrale Prozesse beim Lesen, so lassen sich Forschungsfragestellungen und zugehörige Befunde auf mindestens drei Ebenen analysieren: Erstens kann man danach fragen, wie es mit der Aufnahme und -verarbeitung von Informationen auf der Textoberfläche beschaffen ist – also, welche und wieviel Information der Lesende von welchem Ort der Retina zu welchem Zeitpunkt entnimmt. Zwar ist die Informationsaufnahme beim Lesen durch das Abtasten des Textes mit den Augen grundsätzlich sequentiell, der Leser nimmt aber nicht nur die Information aus dem zentralen fovealen, sondern auch – in geringerem Maße – aus dem parafovealen und zum Teil noch aus dem peripheren Gesichtsfeld auf. Dabei ist die Frage, wie diese verschiedenen Informationen integriert werden bzw. welche Auswirkung die peripher gewonnene Information auf den weiteren Leseprozess hat. Zweitens kann man zwischen peripheren und zentralen Textinhalten unterscheiden, die sich – meist intendiert durch den Textverfasser – beim konstruktiven Akt des Lesens auf Satz- und Diskursebene herauskristallisieren.
Bestimmte Aspekte des Textes werden also beim Lesen betont und rücken in den Vordergrund (zentrale Textinhalte), andere hingegen werden ignoriert oder rücken zumindest in den Hintergrund (periphere Textinhalte). Hier stellt sich die Frage, durch welche Gesetzmäßigkeiten und auf welcher kognitiven Ebene sich solche Prozesse vollziehen. Und drittens kann man die Unterscheidung peripherer und zentraler Prozesse beim Lesen auch aus neurobiologischer bzw. physiologischer Sicht betrachten. Lesen und das damit verbundene Verstehen eines Textes ist eine Fertigkeit, die sich neurophysiologisch hauptsächlich im zentralen Nervensystem – dabei hauptsächlich in kortikalen Regionen – vollzieht (Überblick bei Friederici & von Cramon, 1999). Durch das Vorhandensein sowohl primärer als auch sekundärer kortikaler Projektionsareale lässt sich aber auch innerhalb des Gehirns eine eher „periphere“ bzw. eher „zentrale“ Verarbeitung ausmachen. Darüber hinaus finden sich im peripheren Nervensystem nicht nur die Afferenzen der Rezeptoren, sondern das Lesen wird auch von einer Reihe efferenter Prozesse begleitet, die die Rezeptoren ausrichten. Daneben können auch periphere Auswirkungen zentraler Mechanismen auftreten, die funktional gar nicht im Dienste des Lesens stehen. Beispielsweise ist auch das leise Lesen häufig mit artikulatorischen Aktivierungen der Sprechmuskulatur verbunden. Abbildung 45.1 zeigt die drei Betrachtungsebenen und deren Relationen zueinan-
601
45. Periphere und zentrale Prozesse beim Lesen peripheres NS peripher Fovea Centralis
(A) Graphem, Wort, Phrase
zentral
(C)
retinale Peripherie
Mittel der Informationsübermittlung zwischen peripheren Rezeptoren (bzw. Effektoren) und zentralen Repräsentationen und Prozessen. Eine eingehendere neurobiologische und neurophysiologische Analyse der beim Lesen beteiligten Prozesse und Hirnareale findet sich in diesem Band zum Beispiel bei Rösler (2003, vgl. Kap. 11) und Meyer (2003, vgl. Kap. 12).
peripher
2. zentrale Inhalte
Satz, Diskurs (B)
periphere Inhalte
zentral zentrales NS
Abb. 45.1: Drei Betrachtungsdipole mit peripher und zentraler Ausrichtung beim Lesen: Der horizontale Dipol A beschreibt auf der Textoberfläche die periphere und zentrale Verarbeitung relativ zum momentanen Fixationsort. Er ist deshalb auf der Graphem-, Wort- bzw. Phrasenebene anzusiedeln. Der horizontale Dipol B unterscheidet periphere und zentrale Textinhalte auf der Satz- und Diskursebene in Hinblick auf deren Bedeutungshaltigkeit. Und der vertikale Dipol C bezieht sich auf die neurobiologische bzw. neurophysiologische Betrachtungsweise innerhalb des Nervensystems (NS).
der als Dipole mit jeweils peripherer und zentraler Ausrichtung. Der horizontale Dipol A repräsentiert die Informationsaufnahme auf der Textoberfläche, der ebenfalls horizontale Dipol B stellt die weitere Verarbeitung des Textes im zentralen kognitiven Apparat dar. Schließlich repräsentiert der vertikale Dipol C die neurobiologische bzw. neurophysiologische Betrachtungsweise. Die Informationsaufnahme auf der Textoberfläche beeinflusst über den vertikalen Dipol C naturgemäß die Inhalte der zentralen kognitiven Prozesse, die zum Verstehen eines Textes notwendig sind. Umgekehrt steuern diese aber das Wie und das Was der Informationsaufnahme. Dementsprechend wirken auch die horizontalen Dipole A und B wechselseitig aufeinander, vermittelt durch den vertikalen Dipol C. Das vorliegende Kapitel beschäftigt sich hauptsächlich mit den beiden horizontalen Dipolen und deren Interaktion. Es betrachtet den vertikalen Dipol nur funktional als ein
Periphere und zentrale Verarbeitung: Prozesse auf der Textoberfläche
Der Prozess der Informationsaufnahme beim Lesen wird zwar entscheidend durch die Morphologie des Auges (z. B. Tessier-Lavigne, 1996) und des okulomotorischen Bewegungsapparates geprägt (z. B. Carpenter, 1988), dennoch ist „Lesen“ auch während der kurzen Phase einer Fixation weit mehr als das mechanistische Erfassen einzelner Buchstaben an den Rezeptoren. Schon am Anfang der experimentellen Leseforschung war klar, dass zentrale Mechanismen sehr früh in den Worterkennungsprozess eingreifen. Wir betrachten deshalb zunächst die Prozesse, die sich während einer Fixation (also bei kurzzeitiger Darbietung) vollziehen und gehen danach auf die Informationsintegration beim natürlichen Lesen ein, die sich über Fixationen hinweg bildet. 2.1. „Lesen“ während einer Fixation: Wörter und Wortphrasen Die räumliche Auflösungsfähigkeit des visuellen Systems ist bei fixiertem Blick in der Fovea Centralis am höchsten – ein Gebiet, das nur etwa 2∞ des gesamten Gesichtsfeldes ausmacht. Dort ist man in der Lage, etwa 6 bis 8 Buchstaben eindeutig und scharf wahrzunehmen. Die Auflösungsfähigkeit nimmt mit zunehmender Exzentrizität vom Fixationspunkt deutlich ab (besser als 1 min arc in der Fovea, hingegen nur 5 min arc bei 10∞ Exzentrizität; Überblick bei Skavenski, 1990). Beim natürlichen Lesen kann man davon ausgehen, dass das System während einer Fixation etwa 2 bis 3 Wörter verarbeitet, wobei links vom Fixationspunkt 3 bis 4 Buchstaben und rechts 14 bis 15 Buchstaben erfasst werden (Rayner, 1978, 1998). Der präferierte Fixationspunkt innerhalb eines Wortes ist links von der Mitte positioniert (Radach & Kempe, 1993), so dass an den äußeren rechten Positionen vorrangig Informationen über Wortlänge, Wortform und Wortgrenzen auf-
602 genommen werden. In jedem Falle liegt eine Rechtsasymmetrie des funktionalen Gesichtsfeldes (des sog. Kontrollbereichs bzw. der sog. Auffassungsspanne) vor, die im Deutschen wie auch in anderen Sprachen mit alphabetischer Orthographie durch die Blickbewegungsrichtung vorgegeben wird. Sie ist folgerichtig im Hebräischen mit einer Rechtslinks-Leserichtung durch eine Linksasymmetrie gekennzeichnet (Pollatsek, Bolozky, Well & Rayner, 1981). Weiter ist eine Asymmetrie nicht nur bei Aufgaben vom Typus des Lesens zu beobachten, sondern auch bei Aufgaben vom Typus des visuellen Suchens – wenn man also beispielsweise Zielbuchstaben im Kontext zufällig aneinandergereihter Buchstaben sucht. Bei letzterem findet sich beim zeilenweisen Durchsuchen zusätzlich ein asymmetrischer Kontrollbereich in vertikaler Ausrichtung (Prinz & Nattkemper, 1986). Die Asymmetrien der Kontrollbereiche scheinen daher entscheidend durch den vom Lesenden aufgebauten intentionalen Akt der Informationsaufnahme bestimmt zu sein. Die Frage, in welchem Ausmaß peripher wahrnehmbare Worte auch semantisch verarbeitet werden, hat eine lange wissenschaftliche Tradition. Einerseits wird angenommen, dass auch im parafovealen Bereich einzelne Buchstaben identifizierbar sind, andererseits soll die dort gewonnene räumliche Information über Wortgrenzen und Wortform lediglich zur Programmierung der nachfolgenden Blickbewegung nutzbar sein (s. u.). Die alternative Position sieht in jedem Fall auch eine parallele semantische Verarbeitung vor. Die Befundlage ist hier wenig eindeutig (Rayner, 1998), allerdings scheint das kognitive System zumindest sehr flexibel auf die jeweiligen Anforderungen reagieren zu können, wie man von Studien einzelner Patienten mit einem zentralen Gesichtsfeldausfall weiß (Chung, Mansfield & Legge, 1998; Fine, Hazel, Petre & Rubin, 1999; Rubin & Turano, 1994). Auch diese Patienten sind in der Lage, einen Text – wenn auch verlangsamt – inhaltlich zu verarbeiten. Eine weitere Frage ergibt sich aus den zu unterstellenden Verarbeitungseinheiten beim Lesen. Die Einsicht, dass sich „Lesen“ (entgegen der eigentlichen Wortbedeutung) nicht auf ein „Auflesen“ einzelner Buchstaben reduzieren lässt, ist bereits am Ende des 19. Jahrhunderts mit dem Befund in Frage gestellt worden, dass man nur bis zu fünf isolierte Buchstaben, aber zwischen 15 und 20
IV. Sprachrezeption
Buchstaben im Wortkontext zu identifizieren und wiederzugeben vermag. Schon Erdmann und Dodge (1898) glaubten, dass ganze Wörter ohne eine Identifikation auf der Ebene der Einzelbuchstaben erkannt werden. Folgerichtig wurde die Vorstellung fallengelassen, Lesen als „Identifikation von Einzelbuchstaben“ aufzufassen, und statt dessen wurden ganzheitliche Vorstellungen entwickelt, nach denen allein aufgrund der visuellen Wortform ein Zugriff auf lexikalische und semantische Einheiten ermöglicht wird. Als Belege für die ganzheitliche Vorstellung werden oft der Worthäufigkeitseffekt (häufige Wörter werden schneller erkannt als seltene Wörter, z. B. Inhoff & Rayner, 1986) und der Wortüberlegenheitseffekt (ein in ein Wort eingebetteter Buchstabe wird besser erkannt als ein Einzelbuchstabe, z. B. McClelland & Rumelhart, 1981) angeführt. Zur Erklärung dieser Effekte wurden aber auch Ansätze entwickelt, nach denen nicht identifizierte Buchstaben in Wörtern durch Substitutionsprozesse vervollständigt werden. All diese Ansätze hatten zunächst übersehen, dass in einem mentalen Lexikon Worte nicht in Form isolierter Eintragungen repräsentiert sein müssen, sondern dass jedes Wort in seinem Aufbau bestimmten morphologischen Regeln folgt (Scheerer, 1978). So sind bestimmte Buchstabenabfolgen „unmöglich“, andere treten dagegen gehäuft auf (z. B. in Präfixen wie „ver-“ in „ver-binden“). Es hat sich gezeigt, dass das Lesen von Worten und damit ihr Erkennen maßgeblich durch solche Gesetzmäßigkeiten bestimmt wird (z. B. Drews & Zwitserlood, 1995; Überblick bei Schriefers, 1999). Heute gehen Modelle der visuellen Worterkennung davon aus, dass das Lesen eines Wortes eine sequentielle Aktivierung auf unterschiedlichen kognitiven Ebenen auslöst (vgl. Abbildung 45.2): Erstens werden visuelle Codes zur perzeptiven Verarbeitung von der Aktivierung erfasst. Zweitens erfolgt die Aktivierung orthographisch-lexikalischer Codes, die drittens eine phonologische Aktivierung, entsprechend den Graphem-Phonem-Korrespondenzen, nach sich ziehen kann. Schließlich wird viertens ein semantischer Code der Wortrepräsentation aktiviert, der die Wortbedeutung festlegt. Unstimmigkeiten bestehen hauptsächlich darin, ob man tatsächlich eine strikte lineare (und nicht etwa auch eine parallele) Anordnung der Verarbeitungskomponenten unterstellen muss und ob es bei visuellen Worterkennungsprozessen der phonologi-
603
45. Periphere und zentrale Prozesse beim Lesen
(1) visuelle Codes
(2) orthographisch lexikalische Codes
(4) (3)
semantische Codes
phonologische Codes Abb. 45.2: Sequentielle Aktivierung kognitiver Codes bei der Worterkennung. Strittig ist hauptsächlich, ob der Übergang vom orthographisch-lexikalischen Code zum semantischen Code immer einer phonologischen Vermittlung bedarf.
schen Vermittlung bedarf. Die empirische Befundlage ist in dieser Hinsicht wenig eindeutig (Überblick bei Humphreys & Evett, 1985). So scheint es bisweilen zu einem direkten Übergang von orthographisch-lexikalischen zu semantischen Aktivierungen zu kommen, während andererseits Evidenz für eine Aktivierung der semantischen Codes nur nach vorhergehender Aktivierung der phonologischen Wortform vorliegt. Die Befunde von Seidenberg, Waters, Barnes und Tanenhaus (1984) legen nahe, dass die Wahl zwischen beiden Routen von der Worthäufigkeit moduliert wird. 2.2. Lesen über Fixationen: Sätze und Diskurs Sequentielle Blickbewegungen sind in jedem Fall notwendig, um die Fovea jeweils auf denjenigen Textteil auszurichten, den es zu analysieren gilt. Beim Lesen geschieht dies durch sakkadische Blickbewegungen, also durch schnelle, kurze Bewegungen des Auges mit Geschwindigkeiten von bis zu 500∞/sec. Normalerweise wechseln sich beim leisen Lesen Fixationsperioden von ca. 200 bis 250 ms Dauer mit progressiven sakkadischen Blickbewegungen ab (Radach, 1994; Rayner, 1998; vgl. auch Kap. 10), bei denen jeweils 5 bis 12 Buchstaben übersprungen werden. Man kann also von einer erheblichen Überlappung der visuellen Kontrollbereiche zwischen den Fixationen ausgehen. Bei der Integration der aufgenommenen Information über mehrere Sakkaden hinweg scheinen ein abstrakter Buchstabencode (Rayner, McConkie & Zola, 1980) und der phonologische Code (Pollatsek, Lesch, Morris & Rayner, 1992) eine wichtigere Rolle zu spielen als rein visuelle, morphologische oder semantische Codes. Da die Dauer der eigentlichen okulomotorischen Bewegungsphase relativ konstant bei
30 bis 50 ms angesetzt werden kann, werden als wesentliche Variablen zur Analyse des Leseprozesses die Fixationsdauer und die sakkadische Amplitudenweite herangezogen. Beide Variablen gelten zumindest beim Lesen als nicht stark miteinander korreliert (Rayner & McConkie, 1976; siehe aber Pollatsek, Rayner & Balota, 1986), obgleich eine deutliche Abhängigkeit beider Variablen bei nichtsprachbezogenen Materialien vorzuliegen scheint (Nattkemper & Prinz, 1986). Neben diesen beiden Variablen werden auch sakkadische Regressionen (also Rücksprünge auf bereits zuvor gelesene Textpassagen) und Fixationsauslassungen (Wörter, die während des Lesens übersprungen, also nicht mit dem Blick fixiert werden) zur Analyse der Textverstehensprozesse herangezogen. Die Frage ist aber zunächst, ob Verstehensprozesse des Lesens überhaupt in Blickbewegungsvariationen zum Ausdruck kommen. Bis in die 70iger Jahre des 20. Jahrhunderts war die Vorstellung verbreitet, dass Blickbewegungen durch eine autonome okulomotorische Instanz kontrolliert werden – eine Vorstellung, die bereits zu Beginn der experimentellen Leseforschung entwickelt wurde (Erdmann & Dodge, 1898; Huey, 1908). Zwar wurde eingestanden, dass das Blickbewegungsmuster durch visuelle Merkmale wie etwa den Wortzwischenraum oder den Schrifttyp beeinflusst wird, man nahm aber nicht an, dass das Blickbewegungsmuster mit linguistischen Faktoren variiert. Erst spät hat sich mit der Verbesserung der Registrierungstechniken die Vorstellung durchgesetzt, dass Blickbewegungen maßgeblich unter linguistischer Kontrolle programmiert werden (z. B. O’Regan, 1979). So erwiesen sich die Blickbewegungsparameter beim Lesen beispielsweise abhängig von der Satzsyntax und -semantik, aber auch von Variablen wie Worthäufigkeit, Wortwiederholung, Re-
604 ferenzbeziehungen oder lexikalischen, phonologischen und syntaktischen Ambiguitäten (Überblick bei Rayner, 1998). Leider sagen auch Blickbewegungsvariablen nicht unmittelbar etwas über die Verarbeitungsprozesse beim Lesen aus (vgl. Rayner & Pollatsek, 1989). Wie jede andere abhängige Variable in einem Experiment bedürfen auch sie der Interpretation (vgl. den Überblick über die Vor- und Nachteile verschiedener On- und Off-Line-Methoden bei Grosjean & Frauenfelder, 1996; bezogen auf verschiedene Lesemethoden siehe auch Günther, 1989). Es ist sicherlich eine zu starke Vereinfachung, beispielsweise von der Fixationszeit eines Wortes unmittelbar auf dessen Verarbeitungszeit zu schließen. Dazu müssten zwei Annahmen erfüllt sein: Erstens, dass der Lesende mit der Verarbeitung eines Wortes unmittelbar beginnt, sobald er es fixiert hat (sog. „immediacy assumption“), und zweitens, dass er es so lange fixiert, bis dessen kognitive Verarbeitung und Integration abgeschlossen ist (sog. „eye-mind assumption“). Unterstellt man dies, wie es Just und Carpenter (1980) getan haben, müsste man beispielsweise Wörtern eine Verarbeitungszeit von 0 ms zuweisen, wenn sie während des Lesens übersprungen, also nicht mit dem Blick fixiert werden. Dies ist sicherlich irreführend. Auch nicht fixierte Wörter werden verarbeitet – im Allgemeinen während der Fixation vor der Auslassung. Gerade solche Auslassungen können aber sehr aufschlussreich bei der Analyse des Leseprozesses sein. Unter den Wörtern, die während des Leseprozesses des Öfteren nicht fixiert, also regelrecht „überlesen“ werden, findet man gehäuft sog. Funktionswörter (wie z. B. Artikel und Präpositionen). Sie liefern insbesondere Informationen über den satzstrukturellen und -syntaktischen Aufbau (Hemforth & Strube, 1999). Dass bei einer satzstrukturellen Verarbeitung Funktionswörtern eine zentrale Bedeutung zukommt, kann man auch aus dem sog. Missing-LetterEffekt (MLE) schließen (Überblick bei Healy, 1994; Koriat & Greenberg, 1994). Dieser sehr robuste und häufig replizierte Effekt zeigt sich darin, dass das Entdecken einzelner Buchstaben in einem zusammenhängenden Text bei Funktionswörtern deutlich schwieriger als bei weniger häufigen Wörtern ist (wie z. B. in Inhaltswörtern). Haben Lesende beispielsweise in einem deutschen Text die Aufgabe, alle D’s zu umkreisen, so übersehen sie diesen Buchstaben in den bestimmten Artikeln der/die/
IV. Sprachrezeption
das weit häufiger als in von der Anzahl der Buchstaben her gleichlangen Nomen (Müsseler, Koriat & Nißlein, 2000; Nißlein, Müsseler & Koriat, 2002). Erklären kann man den MLE damit, dass beim Lesen eines Satzes versucht wird, zunächst einen strukturellen Rahmen bereitzustellen, in den dann die rezipierten Wörter integriert werden. Die Entdeckungsleistungen von Buchstaben in Funktionswörtern und in Wortsegmenten, die für das Erkennen der Satzstruktur von Bedeutung sind, ist deshalb so gering, weil strukturunterstützende Wörter um so mehr in den Hintergrund treten, je deutlicher die Struktur des Satzes bereits ist. Dies impliziert auf der einen Seite, dass ein Satz bereits in seine konstituierenden Wörter zerlegt und zumindest die strukturelle Bedeutung der Funktionswörter erkannt wurde. Auf der anderen Seite muss dieser „Erkennensprozess“ der Funktionswörter nicht vollständig abgeschlossen sein. Vielmehr ist die Annahme die, dass die Funktionswörter durch parafoveale Prozesse zwar als solche identifiziert werden, dann aber, nachdem sie ihre Aufgabe – die Bereitstellung eines strukturellen Rahmens – erfüllt haben, in der weiteren Verarbeitung vernachlässigt werden. Übereinstimmend mit diesen Überlegungen wird – wie bereits angedeutet – durch eine Reihe von Blickbewegungsstudien belegt, dass Funktionswörter wie Artikel häufig nicht direkt fixiert und daher eher parafoveal identifiziert werden (Carpenter & Just, 1983; O’Regan, 1979). Dementsprechend ist es auch nicht verwunderlich, dass beim MLE die Buchstabenentdeckungsleistung in Funktionswörtern deutlich reduziert ist. Beide Befunde, also das Überspringen mit dem Blick und der Detektionsfehler beim MLE, können demnach als Folge der satzstrukturellen Verarbeitung angesehen werden, die dann zugunsten der weiteren inhaltlichen semantischen Verarbeitung in den Hintergrund tritt. Alternativ zu dieser Erklärung des MLE ist ein Ansatz entwickelt worden, der die unterschiedliche Häufigkeit von Funktions- und Inhaltswörtern in Texten betont (vgl. auch 2.1). Der Effekt kommt danach dadurch zustande, dass bei häufigen Worten die Verarbeitung auf den niedrigeren visuellen Enkodierungsstufen (einschließlich der Buchstabenenkodierung) nicht abgeschlossen werden muss und statt dessen eine Verarbeitung sogleich auf der Wort-, Phrasen- und Satzebene fortgeführt wird. Demzufolge wird ein vertrautes Wort eher in seiner Gesamtform visu-
45. Periphere und zentrale Prozesse beim Lesen
ell enkodiert, ohne auf die Ebene der Einzelbuchstaben zu rekrutieren („Unitization“Ansatz, Überblick bei Healy, 1994). Eine Entscheidung zwischen beiden Ansätzen sollte durch Texte erfolgen können, in denen Funktions- und Inhaltswörter unterschiedlich satzsyntaktisch eingebettet sind. Wenn Funktionswörter nur aufgrund ihrer Häufigkeit in ihrer Gesamtform visuell enkodiert werden und dadurch der MLE bedingt ist, dann sollte die satzsyntaktische Einbettung der Funktionswörter keine Auswirkungen auf den MLE haben. Die satzsyntaktische Einbettung erwies sich aber sehr wohl in einer Reihe von Untersuchungen als bedeutend (Greenberg & Koriat, 1991; Koriat & Greenberg, 1994; Koriat, Greenberg & Goldshmid, 1991; Müsseler, Koriat & Nißlein, 2000). In jedem Fall werden derartige Effekte unterhalb der semantischen Verarbeitungsebene angesiedelt.
3.
Periphere und zentrale Verarbeitung: Prozesse auf der Ebene der Textinhalte
Nach dem Lesen eines Textes hat sich beim Lesenden nicht etwa eine mentale Textrepräsentation aufgebaut, die den exakten Wortlaut entsprechend der Textoberfläche enthält. Statt dessen ist beim Rezipienten während des konstruktiven Leseaktes eine mentale Repräsentation entstanden, die einerseits von der Oberfläche abstrahiert und bestimmte Aspekte fokussiert, die andererseits aber durch Bezüge zum sogenannten Weltwissen des Rezipienten auch viel reichhaltiger geworden ist. Die Frage, wie dies geschieht und welche Inhalte die mentale Textrepräsentation umfasst, hat in den letzten Jahrzehnten zur Entwicklung von verschiedenen Modellen der kognitiven Diskursverarbeitung geführt. In ihnen wird thematisiert, wie die kognitiven Strukturen gebildet werden, die die Relationen von Konzepten in Phrasen und einzelnen Sätzen erfassen, wie die Sätze zueinander in Beziehung gestellt werden und wie die Bezüge zum Weltwissen des Rezipienten hergestellt werden (neuere Überblicke bei Rickheit & Strohner, 1999; Schnotz, 1994). Derartige Modellvorstellungen werden an dieser Stelle nicht vertieft. Sie finden sich auch bei Prestin (2003, vgl. Kap. 36). Statt dessen wird am Phänomen der anaphorischen Referenzherstellung verdeutlicht, dass man beim Lesen spezifische inhaltliche Aspekte fokussiert, an-
605 deren Inhalten dagegen weniger Aufmerksamkeit widmet. Auch wird zu zeigen sein, dass die Fokussierung die periphere Informationsaufnahme beeinflusst. Beim Lesen eines Textes werden vom kognitiven System nicht nur Bezüge zwischen den einzelnen Wörtern eines Satzes, sondern auch zwischen verschiedenen Sätzen eines Textes hergestellt. Dies wird besonders offensichtlich, wenn z. B. eine Person (bzw. ein Gegenstand oder ein Sachverhalt) in einem der folgenden Sätze durch eine Anapher wieder aufgegriffen wird. Eine herausragende Leistung des verarbeitenden Systems besteht in diesem Fall darin, trotz der oft vorhandenen syntaktischen Ambiguitäten die entspechende Person (bzw. den Gegenstand) zweifelsfrei zu identifizieren. Den anaphorischen Auflösungsprozessen wird daher besondere Aufmerksamkeit gewidmet (Givo´n, 1983, 1992; Greene, McKoon & Ratcliff, 1992; Grosz, 1977; Grosz & Sidner, 1986; Langacker, 1996; Müsseler, 1995; Müsseler & Rickheit, 1990; Müsseler & Terhorst, 1990; Sidner, 1983). Beispielsweise entwickelten Sanford und Garrod (Garrod, 1995; Sanford & Garrod, 1981) vor dem Hintergrund der Ideen von Grosz (1977) ein Rahmenmodell, in dem sie zwischen einem expliziten und einem impliziten Fokus unterscheiden. Der explizite Fokus als Teil des Arbeitsgedächtnisses enthält die Vordergrundinformation eines Textes bzw. einer Textpassage. Er spielt eine wichtige Rolle bei pronominalen Bezügen und beinhaltet Informationen über die wesentlichen Charaktere und Diskursinhalte. Der implizite Fokus enthält dagegen die Hintergrundinformation, also u. a. auch die Bezüge zum Weltwissen, und wird normalerweise bei nominalen Referenzbezügen herangezogen. Anaphorische Pronomen referieren also in der Regel auf Inhalte des expliziten Fokus als Teil des Arbeitsgedächtnisses, während sich nominale Referenzen mehr auf Inhalte des impliziten Fokus beziehen (vgl. Garrod, 1995). Wenn dies zutrifft, dann sollten Verletzungen dieser Regel zu einem erhöhten Verarbeitungsaufwand führen. Genau dies scheint der Fall zu sein: Wird mit einem Pronomen auf Inhalte des impliziten Fokus bzw. mit einem Nomen auf Inhalte des expliziten Fokus referiert (gestrichelte Linien in Abbildung 45.3), steigen die Verarbeitungszeiten im Vergleich zu den Bedingungen drastisch an, in denen mit einem Pronomen auf Inhalte des expliziten Fokus oder mit einem Nomen auf Inhalte des impliziten Fokus referiert wird (durchge-
606
IV. Sprachrezeption
zogene Linien; für Details siehe Müsseler, Hielscher & Rickheit, 1995). Damit wird demonstriert, dass beim Lesen aufgrund der bisher rezipierten Textinformation Präferenzen gebildet werden, auf welche Person oder auf welchen Gegenstand anaphorisch zurückgegriffen werden kann. Diese Präferenzen beeinflussen und steuern auf der anderen Seite die weitere Informationsaufnahme (Müsseler, 1995; Müsseler & Terhorst, 1990).
pronominal (explizite Fokus)
nominal (implizierte Fokus)
Referenzbereich „Er“
Textoberfläche
„der Baum“
Abb. 45.3: Normalerweise referiert ein Pronomen auf ein Objekt im sogenannten expliziten Fokus (pronominaler Referenzbereich), während sich ein Nomen auf ein Objekt im impliziten Fokus bezieht (nominaler Referenzbereich). Verletzungen dieser Regel (angedeutet durch die gestrichelten Pfeile) gehen mit einer Verarbeitungszeitverlängerung einher.
Anaphorische Pronomen signalisieren in der Regel eine vom Textverfasser intendierte Beibehaltung des momentanen Fokus, während anaphorische Nominalphrasen einen Fokusoder Topikwechsel andeuten (Anderson, Garrod & Sanford, 1983; Schnotz, 1994; Sidner, 1983). Wenn dem so ist, dann sollten auch weitere Auswirkungen dieser Prozesse auf die periphere Informationsaufnahme nachweisbar sein. Neben den genannten Verarbeitungszeitbefunden hat sich gezeigt, dass Pronomen – ähnlich wie die oben genannten Funktionswörter beim MLE – häufiger überlesen werden (Rayner, Carlson & Frazier, 1983; Vonk, 1985). Gemeinhin werden Pronomen zwar auch als Funktionswörter betrachtet, also als Wörter ohne eigene Inhalte, die nur im Textzusammenhang Bedeutung gewinnen. Dies trifft tatsächlich auf Pronomen zu, sie weichen aber insofern von anderen Funktionswörtern wie Artikeln und Präpositionen ab, als sie semantisch und syntaktisch stellvertretend für Nomen gebraucht werden und ggfs. durch diese ersetzt werden können. Demnach demonstrieren diese pronominalen Befunde auch, dass semantische Faktoren Auswirkungen auf periphere Prozesse ausüben.
4.
Schlussbemerkung
Mit dem vorliegenden Beitrag wurden einige der vielfältigen Interaktionen zwischen peripheren und zentralen Prozessen beim Lesen aufgezeigt. Insbesondere in den letzten Abschnitten sollte zudem deutlich geworden sein, dass das Lesen keine rein rezeptive Fertigkeit darstellt, sondern über existierende Sprachkonventionen den Intentionen des Textverfassers folgt. Demnach mögen zwar die peripheren Effektoren bei Sprachrezeptions- und Produktionsprozessen unterschiedlich sein, in ihren zentralen Komponenten dürfte aber ein weiter Bereich an Überlappung vorliegen.
5.
Literatur
Anderson, A., Garrod, S. C. & Sanford, A. J. (1983). The accessibility of pronominal antecedents as a function of episode shifts in narrative text. Quarterly Journal of Experimental Psychology: Human Experimental Psychology, 35, 427⫺440. Carpenter, P. A. & Just, M. A. (1983). What your eyes do while your mind is reading. In K. Rayner (Ed.), Eye movement in reading (pp. 275⫺307). New York: Academic Press. Carpenter, R. H. S. (Ed.). (1988). Movement of the eyes. London: Pion. Chung, S. T., Mansfield, J. S. & Legge, G. E. (1998). Psychophysics of reading. XVIII. The effect of print size on reading speed in normal peripheral vision. Vision Research, 38, 2949⫺2962. Drews, E. & Zwitserlood, P. (1995). Morphological and orthographic similarity in visual word recognition. Journal of Experimental Psychology: Human Perception & Performance, 21, 1098⫺1116. Erdmann, B. & Dodge, R. (1898). Psychologische Untersuchungen über das Lesen auf experimenteller Grundlage. Halle: Niemeyer. Fine, E. M., Hazel, C. A., Petre, K. L. & Rubin, G. S. (1999). Are the benefits of sentence context different in central and peripheral vision? Optometry and Vision Science, 76, 764⫺769. Friederici, A. D. & von Cramon, D. Y. (1999). Neurobiologische Grundlagen des Sprachverstehens. In A. D. Friederici (Ed.), Sprachrezeption. Enzyklopädie der Psychologie (pp. 305⫺349). Göttingen: Hogrefe. Garrod, S. (1995). Distinguishing between explicit and implicit focus during text comprehension. In G. Rickheit & C. Habel (Eds.), Focus and coherence
45. Periphere und zentrale Prozesse beim Lesen
607
in discourse processing (pp. 3⫺17). Berlin: de Gruyter.
from letter detection errors. Psychonomic Bulletin and Review, 1, 345⫺356.
Givo´n, T. (1983). Topic continuity in discourse: The functional domain of switch-reference. In I. Heiman & P. Munro (Eds.), Switch-reference and universal grammar (pp. 51⫺82). Amsterdam: John Benjamins.
Koriat, A., Greenberg, S. N. & Goldshmid, Y. (1991). The missing-letter effect in Hebrew: Word frequency or word function? Journal of Experimental Psychology: Learning, Memory, and Cognition, 17, 66⫺80.
Givo´n, T. (1992). The grammar of referential coherence as mental processing instructions. Linguistics, 30, 5⫺55.
Langacker, R. W. (1996). Conceptual grouping and pronominal anaphora. In B. Fox (Ed.), Studies in anaphora (pp. 333⫺378). Amsterdam: John Benjamins.
Greenberg, S. N. & Koriat, A. (1991). The missingletter effect for common function words depends on their linguistic function in the phrase. Journal of Experimental Psychology: Learning, Memory, and Cognition, 17, 1051⫺1061. Greene, S. B., McKoon, G. & Ratcliff, R. (1992). Pronoun resolution and discourse models. Journal of Experimental Psychology: Learning, Memory, and Cognition, 18, 266⫺283. Grosjean, F. & Frauenfelder, U. H. (Eds.) (1996). Spoken word recognition paradigms. Language and Cognitive Processes, 11. Grosz, B. J. (1977). The representation and use of focus in dialogue understanding. SRI Initernational Artificial Intelligence Center. Technical Note 15. Grosz, B. J. & Sidner, C. L. (1986). Attentions, intentions, and the structure of discourse. Computational Linguistics, 12, 175⫺204. Günther, U. (1989). Lesen im Experiment. Linguistische Berichte, 122, 283⫺320. Healy, A. F. (1994). Letter detection: A window to unitization and other cognitive processes in reading text. Psychonomic Bulletin and Review, 1, 333⫺344. Hemforth, B. & Strube, G. (1999). Syntaktische Struktur und Sprachrezeption. In A. D. Friederici (Ed.), Sprachrezeption. Enzyklopädie der Psychologie (pp. 243⫺270). Göttingen: Hogrefe.
McClelland, J. L. & Rumelhart, D. E. (1981). An interactive activation model of context effects in letter perception: Part 1. An account of basic findings. Psychological Review, 86, 287⫺330. Meyer, M. (2003). Spezielle Verfahren III: Bildgebende Verfahren. In G. Rickheit, T. Herrmann & W. Deutsch (Hrsg.), Psycholinguistik ⫺ Ein internationales Handbuch (pp. 181⫺190). Berlin: Walter de Gruyter. Müsseler, J. (1995). Focussing and the process of pronominal resolution. In G. Rickheit & C. Habel (Eds.), Focus and coherence in discourse processing (pp. 53⫺74). Berlin: de Gruyter. Müsseler, J., Hielscher, M. & Rickheit, G. (1995). Focussing in spatial mental models. In G. Rickheit & C. Habel (Eds.), Focus and coherence in discourse processing (pp. 35⫺52). Berlin: de Gruyter. Müsseler, J., Koriat, A. & Nißlein, M. (2000). The function disadvantage effect in German: A window to the extraction of sentence structure during reading. Memory and Cognition, 28, 993⫺1003. Müsseler, J. & Rickheit, G. (1990). The cognitive resolution of anaphoric noun references. Journal of Semantics, 7, 221⫺244.
Huey, E. B. (1908). The psychology and pedagogy of reading. New York: Macmillan.
Müsseler, J. & Terhorst, E. (1990). Pronominale Besetzung: Ein alternativer Mechanismus neben der rekursiven Auflösung? Sprache und Kognition, 9, 37⫺43.
Humphreys, G. W. & Evett, L. J. (1985). Are there independent lexical and nonlexical routes in word processing? An evaluation of the dual-route theory of reading. Behavioral and Brain Sciences, 8, 689⫺740.
Nattkemper, D. & Prinz, W. (1986). Saccade amplitude determines fixation duration: Evidence from continuous search. In J. K. O’Regan & A. LevySchoen (Eds.), Eye movements: From physiology to cognition (pp. 285⫺292). Amsterdam: Elsevier.
Inhoff, A. W. & Rayner, K. (1986). Parafoveal word processing during eye fixations in reading: Effects of word frequency. Perception and Psychophysics, 40, 431⫺439.
Nißlein, M., Müsseler, J. & Koriat, A. (2002). German capitalization and the Missing Letter effect. (submitted for publication).
Just, M. A. & Carpenter, P. A. (1980). A theory of reading: From eye fixations to comprehension. Psychological Review, 87, 329⫺354. Koriat, A. & Greenberg, S. N. (1994). The extraction of phrase structure during reading: Evidence
O’Regan, K. (1979). Saccade size control in reading: Evidence for the linguistic control hypothesis. Perception and Psychophysics, 25, 501⫺509. Pollatsek, A., Bolozky, S., Well, A. D. & Rayner, K. (1981). Asymmetries in the perceptual span for Israeli readers. Brain and Language, 14, 174⫺180.
608 Pollatsek, A., Lesch, M., Morris, R. K. & Rayner, K. (1992). Phonological codes are used in integrating information across saccades in word identification and reading. Journal of Experimental Psychology: Human Perception and Performance, 18, 148⫺162. Pollatsek, A., Rayner, K. & Balota, D. A. (1986). Inferences about eye movement control from the perceptual span in reading. Perception and Psychophysics, 40, 123⫺130. Prestin, E. (2003). Theorien und Modelle der Sprachrezeption. In G. Rickheit, T. Herrmann & W. Deutsch (Eds.), Psycholinguistik ⫺ Ein internationales Handbuch (pp. 491⫺505). Berlin: Walter de Gruyter. Prinz, W. & Nattkemper, D. (1986). Effects of secondary tasks on search performance. Psychological Research, 48, 47⫺51. Radach, R. (1994). Elementare Prozesse der Informationsaufnahme beim Lesen. Zeitschrift für Psychologie, 202, 37⫺63. Radach, R. & Kempe, V. (1993). An individual analysis of initial fixation positions in reading. In G. d’Ydewall & J. van Rensbergen (Eds.), Perception and cognition. Advances in eye movement research (pp. 213⫺225). Amsterdam: Elsevier. Rayner, K. (1978). Eye movements in reading and information processing. Psychological Bulletin, 85, 618⫺660. Rayner, K. (1998). Eye movements in reading and information processing: 20 years of research. Psychological Bulletin, 124, 372⫺422. Rayner, K., Carlson, M. & Frazier, L. (1983). The interaction of syntax and semantics during sentence processing: Eye movements in the analysis of semantically biased sentences. Journal of Verbal Learning and Verbal Behavior, 22, 358⫺374. Rayner, K. & McConkie, G. W. (1976). What guides a reader’s eye movements? Vision Research, 16, 829⫺837. Rayner, K., McConkie, G. W. & Zola, D. (1980). Integrating information across eye movements. Cognitive Psychology, 12, 206⫺226. Rayner, K. & Pollatsek, A. (1989). The psychology of reading. Englewood-Cliffs, NJ: Prentice Hall. Rickheit, G. & Strohner, H. (1999). Textverarbeitung: Von der Proposition zur Situation. In A. D. Friederici (Ed.), Sprachrezeption. Enzyklopädie der Psychologie (pp. 271⫺306). Göttingen: Hogrefe.
IV. Sprachrezeption Rubin, G. S. & Turano, K. (1994). Low vision reading with sequential word presentation. Vision Research, 34, 1723⫺1733. Sanford, A. J. & Garrod, S. C. (1981). Understanding written language. Chichester: Wiley. Scheerer, E. (1978). Probleme und Ergebnisse der experimentellen Leseforschung. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 10, 347⫺364. Schnotz, W. (1994). Aufbau von Wissensstrukturen. Untersuchungen zur Kohärenzbildung beim Wissenserwerb mit Texten. Weinheim: Verlagsunion. Schriefers, H. (1999). Morphologie und Worterkennung. In A. D. Friederici (Ed.), Sprachrezeption. Enzyklopädie der Psychologie (pp. 117⫺153). Göttingen: Hogrefe. Seidenberg, M. S., Waters, G. S., Barnes, M. A. & Tanenhaus, M. K. (1984). When does irregular spelling or pronunciation influence word recognition? Journal of Verbal Learning and Verbal Behaviour, 23, 383⫺404. Sidner, C. L. (1983). Focusing the comprehension of definite anaphora. In M. Brady & R. C. Berwick (Eds.), Computational models of discourse (pp. 267⫺330). Cambridge, MA: MIT-Press. Skavenski, A. A. (1990). Eye movement and visual localization of objects in space. In E. Kowler (Ed.), Eye movements and their role in visual and cognitive processes (pp. 263⫺287). Amsterdam: Elsevier. Streb, I. & Rösler, F. (2003). Spezielle Verfahren II: Elektrophysiologische Verfahren. In G. Rickheit, T. Herrmann & W. Deutsch (Eds.), Psycholinguistik ⫺ Ein internationales Handbuch (pp. 168⫺ 181). Berlin: Walter de Gruyter. Tessier-Lavigne, M. (1996). Die Verarbeitung visueller Information durch die Retina. In E. R. Kandel, J. H. Schwartz & T. M. Jessel (Eds.), Neurowissenschaften (pp. 413⫺430). Heidelberg: Spektrum Akademischer Verlag. Vonk, W. (1985). The immediacy of inferences in the understanding of pronouns. In G. Rickheit & H. Strohner (Eds.), Inferences in text processing (pp. 205⫺218). Amsterdam: Elsevier.
Jochen Müsseler Max-Planck-Institut für Psychologische Forschung München (Deutschland)
609
46. Verstehen von Objektbenennungen
46. Verstehen von Objektbenennungen 1. 2. 3. 4. 5. 6.
Einleitung Sprachliche Redundanz und perzeptive Salienz Unterspezifikationen und Ambiguitäten Lexikalische Spezifität und Koreferenz Vagheit und Objektkategorisierung Literatur
1.
Einleitung
Sprachliche Bezugnahmen auf Objekte können unterschiedliche kommunikative Funktionen erfüllen, z. B. bewerten, beschreiben, informieren oder erklären. Häufig werden Objektbenennungen zu dem Zweck produziert, dem Gesprächspartner eine eindeutige Objektidentifikation zu ermöglichen. Dabei steht die Übermittlung kontextdiskriminativer Objektinformation im Vordergrund, um das intendierte Objekt von möglichen (dem Adressaten bekannten oder perzeptiv zugänglichen) Alternativobjekten abgrenzen zu können. Um verstehen zu können, welches Objekt der Sprecher meint (zur Relation von Meinen und Verstehen vgl. Hörmann, 1976), benötigt der Hörer Informationen darüber, in welchen Aspekten sich dieses von Kontextobjekten unterscheidet (Olson, 1970). Sprachlich enkodiert werden die relevanten Informationen in der Regel durch Nominalphrasen, deren Bestandteile unterschiedliche Objektcharakteristika kennzeichnen. Das (im Deutschen meist von einem Determinativ, z. B. Artikel oder Possessivum, begleitete) Nomen bezeichnet die Objektklasse, welcher das Objekt durch den Sprecher zugeordnet wird (deine Tasse). Attribute des gemeinten Objekts, d. h. Werte bzw. Ausprägungen auf einer Eigenschaftsdimension (vgl. Vorwerg & Rickheit, 1999), werden häufig durch Adjektive spezifiziert (z. B. die blaue Blume). Referentielle Nominalphrasen können jedoch auch um weitere sprachliche Elemente erweitert werden. Dazu gehören u. a. Relativsätze (z. B. die Leiste, die du eben angeschraubt hast), Adverbien (z. B. der Punkt links oben), genitivische Nominalphrasen (z. B. der Henkel der Reisetasche) und Präpositionalphrasen (z. B. eine Vase aus Porzellan). Statt Nominalphrasen können auch Pro-Formen (z. B. Pronomen, Adverbien oder Präpositionaladverbien) zur Objektreferenz verwendet werden – als referentielle Erhalte bei wiederholten Benennungen oder als Situations-Deik-
tika (siehe Rickheit und Vorwerg, in diesem Band, Kap.20). Die Identifizierung eines Objekts, auf das sich eine Objektbenennung bezieht, unterliegt einer Reihe von Einflussfaktoren, welche diese Identifizierung erleichtern und beschleunigen bzw. erschweren und hemmen können.
2.
Sprachliche Redundanz und perzeptive Salienz
Im Rahmen seines Ansatzes zu einer kognitiven Semantiktheorie legte Olson (1970) dar, dass die Wortwahl in einer Äußerung nicht eine Funktion eng gefasster syntaktischer oder semantischer Selektionskriterien ist, sondern vielmehr des Sprecherwissens über Referenten. Seine Schlussfolgerung, dass Sprecher in referentiellen Objektbenennungen diejenigen Objektmerkmale spezifizieren, welche eine Abgrenzung des gemeinten Referenten von einer Menge von Alternativen erlauben, wurde in verschiedenen experimentellen Überprüfungen bestätigt (Ford & Olson, 1975; Herrmann & Deutsch, 1976; Herrmann & Laucht, 1976). So kann ein und dasselbe Objekt je nach Kontrastobjekten als Spielzeugauto, Auto oder Käfer bezeichnet werden, in Abgrenzung von größeren kann es als kleines Auto, zur Differenzierung von andersfarbigen kann es als rotes Auto benannt werden. Auf ein kleines rotes Holzauto kann referiert werden, um das intendierte Objekt von größeren roten Holzautos, kleinen grünen Holzautos und kleinen roten Plastikautos zu unterscheiden. Jedoch werden häufig mehr Objektattribute benannt, als zur Unterscheidung innerhalb der Objektmenge notwendig sind (vgl. Ford & Olson, 1975; Herrmann & Deutsch, 1976). Solche redundanten sprachlichen Benennungen werden auch als überspezifizierte Objektbenennungen bezeichnet, da sie mehr als die erforderlichen Angaben umfassen. Dagegen enthalten minimalspezifizierte Benennungen genau die zur eindeutigen Objektidentifikation notwendigen Angaben, während unterspezifizierte Benennungen keine eindeutige Objektidentifikation erlauben (Mangold-Allwinn, Barattelli, Kiefer & Koelbing, 1995; Pechmann, 1994). Wirkungen sprachlicher Redundanz (d. h. von Überspezifikationen) auf die Objektiden-
610 tifikation durch den Hörer untersuchte Deutsch (1976). In einer experimentellen Untersuchung zum Verstehen von Objektbenennungen, in denen konkret-anschauliche Eigenschaften wahrgenommener Objekte spezifiziert wurden, zeigte sich, dass sprachliche Redundanz die Objektidentifikation erleichtern kann (vgl. auch Sonnenschein, 1982; Sonnenschein & Whitehurst, 1982). Experimentelle Ergebnisse von Mangold (1986, 1987) zeigen, dass eine solche Verkürzung der Identifikationszeit durch sprachliche Redundanz dann eintritt, wenn zusätzlich perzeptiv saliente Attribute spezifiziert werden. Eine Überspezifikation nicht salienter Attribute kann die Objektsuche sogar erschweren. Ein Verarbeitungsvorteil kann beispielsweise bei der Spezifikation von Größe zusätzlich zu Formangaben entstehen. Insbesondere aber wird die Objektsuche durch eine zusätzliche Spezifikation eines Farbattributs erleichtert. (Die besondere Rolle der Farbe bei der Objektidentifikation hat ihre Entsprechung auch bei der Produktion von Objektbenennungen: die Farbe wird häufiger überspezifiziert und ihrerseits seltener durch Zusatzangaben ergänzt; Mangold & Pobel, 1988; siehe auch Pechmann, 1994). Unter perzeptiver Salienz versteht man das Herausragen bzw. Hervorstechen einzelner Stimuli oder Eigenschaften gegenüber anderen in der Wahrnehmung (vgl. z. B. Fink, Marshall, Halligan & Dolan, 1999; Nothdurft, 1993a; Rosenholtz, 1999; Wenderoth, 1994). Salientere Merkmale ziehen unsere Aufmerksamkeit auf sich und werden leichter und schneller wahrgenommen (vgl. auch Joseph & Optican, 1996; Nothdurft, 1993b, 1999; Wolfe, 1994). Da verschiedene Wahrnehmungsdimensionen parallel analysiert werden können (Treisman, 1969, 1985; Treisman, & Gelade, 1980), kann die zusätzliche Spezifikation eines salienteren Attributs die Objektsuche durch Einschränkung des Suchraums effektivieren. Eine besondere Salienz wurde insbesondere für die Farbdimension vielfach empirisch gezeigt. So führt die vorherige Kenntnis der Farbe einer gesuchten Ziffernkombination zu einer deutlichen Reduktion der Suchzeit, welche hauptsächlich von der Anzahl der Objekte gleicher Farbe abhängt (Green & Anderson, 1956; Smith, 1962). In Übereinstimmung damit ist unsere Fähigkeit zur selektiven Fixation von Objekten auf der Basis eines spezifizierten Attributs für Farbe wesentlich größer als für Größe oder Form. Werden
IV. Sprachrezeption
nicht nur ein, sondern zwei oder drei Objektmerkmale spezifiziert, erfolgen die Fixationen im Allgemeinen auf der Basis nur eines dieser Merkmale, und zwar der Farbe, sofern diese spezifiziert wurde (Williams, 1966; siehe auch Luria & Strauss, 1975). Da eine serielle Suche bei entsprechender Größe des Suchfeldes (vgl. Prinz & Rübenstrunk, 1979) oder bei erforderlicher Ausnutzung optimaler Sehschärfe (z. B. in Williams, 1966) eine Abfolge visueller Fixationen beinhaltet, zeigen diese Ergebnisse, dass die Farbe besser als andere Wahrnehmungsdimensionen in der Lage ist, fokale Aufmerksamkeit zu steuern und damit die Suchmenge einzuschränken. Diese Schlussfolgerung bestätigt eine experimentelle Studie von Peeke und Stone (1973), welche gezeigt hat, dass der Verarbeitungsvorteil von Farbe gegenüber Form nur bei simultaner, nicht jedoch bei sequentieller Präsentation der Stimuli auftritt, und von der räumlichen Position im Gesichtsfeld abhängt. Die extrafoveale (außerhalb der Stelle schärfsten Sehens) und präattentive Verarbeitung von Farben gelingt demnach in der Regel besser als die von Formen. Eine visuelle Suche kann auch ohne Blickbewegungen erfolgen – entweder parallel oder seriell: durch Verschiebung der fokalen Aufmerksamkeit von Objekt zu Objekt (Nothdurft, 1999; Treisman & Gormican, 1988). Verschiedene experimentelle Ergebnisse führen zu der Schlussfolgerung, dass Farbe im Unterschied zu anderen Dimensionen bevorzugt parallel verarbeitet wird, d. h. auch bei geringen Kontrasten zwischen Zielund Targetobjekt (Nothdurft, 1993a; Treisman & Gormican, 1988). Diese Besonderheiten der Farbverarbeitung zeigen sich etwa darin, dass die Suchzeit für ein Farbattribut (im Gegensatz zur räumlichen Orientierung) selbst bei geringem Kontrast zum Kontext kaum von der Anzahl der Kontextelemente abhängt, sowie in der Bedeutung der Ähnlichkeit für eine perzeptive Gruppierung von Texturelementen bei der Farbdimension im Gegensatz zu den Dimensionen der Orientierung oder der Bewegungsrichtung (Nothdurft, 1993a). Die Ergebnisse demonstrieren die besondere Rolle der Farbe bei der FigurGrund-Unterscheidung. Der Effekt einer Überspezifikation hängt jedoch nicht nur davon ab, welche Attributdimension benannt wird, sondern auch davon, wie stark sich das intendierte Objekt auf einer zusätzlich spezifizierten Dimension von seinen Kontextobjekten unterscheidet (Man-
46. Verstehen von Objektbenennungen
gold, 1986). Eine Überspezifikation beschleunigt die Objektidentifikation, wenn zwischen Zielobjekt und Kontext große Differenzen auf der zusätzlich spezifizierten Dimension bestehen (z. B. sechseckig ⫺ dreieckig) bei gleichzeitig geringen Unterschieden auf der kontextdiskriminativen Dimension (z. B. blau ⫺ t¸rkis). Sind die Differenzen dagegen auf der zusätzlich spezifizierten Dimension (z. B. sechseckig ⫺ f¸nfeckig) gering bei gleichzeitig großen Unterschieden auf der kontextdiskriminativen Dimension (z. B. blau ⫺ rot), führt eine Überspezifikation zu längeren Identifikationszeiten. (Dieser Effekt findet sein Pendant bei der kontextdiskriminativen Objektbenennung, welche ebenfalls davon beeinflusst wird, wie stark sich das Zielobjekt auf verschiedenen Wahrnehmungsdimensionen von seinen Kontextobjekten unterscheidet; Herrmann & Deutsch, 1976). Ergebnisse aus der Wahrnehmungsforschung bestätigen, dass perzeptive Salienz durch den Kontrast (die Größe des Unterschieds) zwischen Zielobjekt und Kontextobjekten determiniert sein kann. So wird beispielsweise eine vertikale Linie unter ausschließlich horizontalen Linien schnell und unabhängig von der Anzahl der Kontextobjekte entdeckt, während die Suchzeit bei Kontextlinien verschiedener Orientierung mit der Anzahl präsentierter Objekte ansteigt (Nothdurft, 1999). In Mustern mit kontinuierlicher Merkmalsvariation bedingen über der Gesamtvariation liegende Merkmalskontraste (d. h. Diskontinuitäten im Muster bzw. der Textur) perzeptive Salienz und visuelle Segmentierung (Nothdurft, 1993a; vgl. auch Duncan & Humphreys, 1989; Rosenholtz, 1999; Treisman & Gormican, 1988). Sowohl der dimensionsspezifische als auch der kontrastive Salienzeffekt zeigen, dass die Erkennbarkeit des zusätzlich spezifizierten Attributs von ausschlaggebender Bedeutung für die Wirkung einer Überspezifikation auf die Objektidentifikation durch den Hörer ist (Mangold, 1986). Ein weiterer Salienzeffekt kann unter den Werten einer Dimension – trotz gleichen Abstands zwischen ihnen – auftreten. Auch innerhalb einer Attributdimension gibt es saliente oder prägnante Werte. So sind z. B. Dreiecke oder Vierecke unter Fünf- und Sechsecken leichter erkennbar als umgekehrt, bestimmte Farben stechen hervor, und große Objekte sind auffallender als kleine. Deutsch (1976) stellte fest, dass die Identifikation rela-
611 tiv schwer erkennbarer Objekte stärker von sprachlicher Redundanz profitiert als die leicht erkennbarer Objekte. Perzeptive Asymmetrien der beschriebenen Art (Objekt mit Attribut a wird unter Objekten mit Attribut b leichter erkannt als b unter a) sind aus der Literatur zu visuellen Suchaufgaben z. B. für die Größe (Williams, 1966), die Länge (Treisman & Gormican, 1988), die Farbsättigung (Nagy & Cone, 1996), Bewegung (Dick, Ullman & Sagi, 1987) und die Geschwindigkeit (Ivry & Cohen, 1992) bekannt. Bei all diesen quantitativen Attributdimensionen (vgl. Vorwerg & Rickheit, 2000; siehe auch Treisman & Gormican) besteht die gefundene Asymmetrie zugunsten der jeweils stärkeren Dimensionsausprägung (für Erklärungsansätze siehe Rosenholtz, 1999; Treisman & Gormican). Weiterhin treten perzeptive Asymmetrien auch insbesondere bei solchen visuellen Merkmalen auf, die als Abweichungen gegenüber einem Normwert, einer Bezugsgröße der jeweiligen Dimension aufgefasst werden können. Dies gilt für qualitative Attributdimensionen (vgl. Vorwerg & Rickheit, 2000). So fällt eine schräge Linie unter senkrechten Linien sehr viel leichter auf als eine senkrechte unter schrägen (Treisman, 1992; Treisman & Gormican, 1988). Ähnliche Effekte gibt es für den Farbton (fokale Farben) und die Form (Kreisform). Es handelt sich jeweils um Wertepaare einer Dimension, zwischen denen eine asymmetrische Ähnlichkeitsrelation besteht (Krumhansl, 1991; Rosch 1975; Tversky, 1977; zur Rolle kognitiver Bezugspunkte in qualitativen Attributdimensionen vgl. Vorwerg, 2001). In welchem Ausmaß die Objektsuche von der zusätzlichen Spezifikation eines leichter erkennbaren Objektattributs profitiert, hängt auch von der Anzahl der Kontextobjekte (Mangold, 1987) sowie von der Diskriminativität des zusätzlich spezifizierten Attributs ab. Diskriminiert dieses das gemeinte Objekt ebenfalls eindeutig von seinen Kontextobjekten (d. h. bei multipler Benennbarkeit, vgl. Herrmann & Laucht, 1976), ist der Zeitgewinn bei der Objektsuche größer als bei einer bloßen Teildiskriminativität des zusätzlich benannten Objektmerkmals, d. h. bei Übereinstimmung mit einem Teil der Kontextobjekte in diesem Merkmal (Mangold, 1986). Der gefundene stärkere Zeitvorteil durch Überspezifikation eines Farbattributes bei einem größeren (im Vergleich zu einem kleineren) Objektkontext lässt sich darauf zurück-
612
IV. Sprachrezeption
führen, dass die Farbidentifikation weitgehend unabhängig von der Größe des Suchfeldes ist – ganz im Gegensatz zur Identifikation aufgrund von Form- oder Größenangaben.
3.
Unterspezifikationen und Ambiguitäten
Nicht immer sind die sprachlich spezifizierten Objektcharakteristika für eine eindeutige Objektidentifikation ausreichend. In vielen Fällen beinhaltet der Prozess des Verstehens von Objektbenennungen auch eine Auflösung von Ambiguitäten. Ambiguität ist ein weit verbreitetes Phänomen in natürlichen Sprachen. Wie Kess und Hoppe (1981) feststellen, gibt es kaum Sätze, die nicht in irgendeiner Weise die Möglichkeit ambiger Interpretation in sich bergen. Als Beispiel für die Annahme einer prinzipiell immer gegebenen Auswahl an Lesarten führt Garrett (1970) den sprachlichen Ausdruck walking sticks [‘Spazierstöcke’] an, welcher in bestimmten Zusammenhängen auch für ‘gehende Stöcke’ stehen könnte (z. B. Zeichentrick). Hier zeigt sich bereits, dass Objektbezeichnungen in Abhängigkeit vom Kontext unterschiedlich verstanden werden können. Olson (1970) betont, dass die Ambiguität von Sätzen in Abhängigkeit vom wahrgenommenen Kontext zu beurteilen ist. Bezogen auf referentielle Objektbenennungen kann damit eine Nominalphrase als ambig bezeichnet werden, welche mehr als eine Alternative als Referenten zulässt. So ist die Kennzeichnung das rote Auto ambig, solange es mehr als ein rotes Auto gibt. Um die Bedeutung eines sprachlichen Ausdrucks zu bestimmen, ist demnach Olson zufolge die Kenntnis der Menge der vom Hörer in Betracht gezogenen alternativen Referenten erforderlich. Eine erste Bedingung zur Erzielung referentieller Eindeutigkeit ist daher die Einführung eines Referenzbereichs (Menge gegenwärtig relevanter Alternativen) – z. B. aufgrund von Konventionen und unter Berücksichtigung der Situation oder auch aufgrund der Neuheit erhaltener Informationen und Referenten (Deutsch & Clausing, 1979). Das Prinzip der Neuheit macht bereits deutlich, dass an der Bestimmung des Referenzbereichs häufig Inferenzprozesse (vgl. Rickheit & Strohner, 1993; Singer, 1994) beteiligt sind. Der Hörer geht davon aus, dass der Sprecher sich eher auf einen Referenzbe-
reich bezieht, über den er etwas Neues mitteilen (oder auch erfragen) kann. So kann der Hörer erschließen, dass mit der Äußerung „Das Buch ist übrigens ganz toll“ ein bestimmtes, als Geschenk erhaltenes Buch gemeint ist und nicht etwa das gerade auf dem Tisch liegende Wörterbuch. Inferenzen beim Sprachverstehen beruhen sowohl auf faktischem und konzeptuellem Wissen als auch auf Annahmen über momentane situative Faktoren und übergeordnete Ziele der sprechenden Person sowie weiterhin auf der Interpretation des sprachlichen Kontexts. So wird etwa bei einer Äußerung der Art „Holst du mir mal …?“ zumindest ein Referenzbereich nicht in Greifnähe des Sprechers vermutet. Um eine Objektreferenz zu verstehen, muss der Hörer aufgrund der Dekodierung des Gesagten rekonstruieren, welches Objekt ein Sprecher mit einer Äußerung gemeint hat (Herrmann, 1982; Hörmann, 1976). Allgemein stützen sich die Inferenzen auf grundlegende Prinzipien der Kommunikation, die Konversationsmaximen nach Grice (1975). Eine wesentliche Rolle im Verstehensprozess spielt gemeinsames (und wechselseitiges) Wissen der Kommunikationsteilnehmer (‘shared knowledge’ bzw. ‘common ground ’; Clark & Marshall, 1981). Die Wechselseitigkeit spielt für den Begriff des ‘common ground’ eine große Rolle: Beide Gesprächspartner verfügen nicht nur über ein gleiches Wissen; sie haben nach subjektiver Überzeugung auch Kenntnis vom Wissen des jeweils anderen (vgl. z. B. Clark, 1992; Clark & Marshall, 1981). Mögliche Quellen einer gemeinsamen Basis an Wissen, Annahmen und Überzeugungen sind das bisherige Gespräch, die von Sprecher und Hörer geteilte wahrnehmbare Umgebung, frühere gemeinsame Erfahrungen und in einer kulturellen Gemeinschaft universelle Kenntnisse und Überzeugungen (Schober & Clark, 1989). Adressaten (im Unterschied zu am Gespräch nicht beteiligten Zuhörern) profitieren sowohl vom Zuschnitt der Äußerungen des Sprechers auf gemeinsame Wissensbestände (Clark & Marshall, 1981) als auch von der Möglichkeit einer gemeinsam mit dem Sprecher erreichten Verständnisherstellung durch Rückfragen, Ergänzungen, Verstehenssignale etc. (‘grounding’; Clark & Wilkes-Gibbs, 1986). Experimentelle Ergebnisse von Schober und Clark (1989) belegen, dass der soziale Prozess der Interaktion im Gespräch eine zentrale Rolle im kognitiven Prozess des Verstehens spielen kann.
46. Verstehen von Objektbenennungen
Eine spezifische gemeinsame Wissensgrundlage kann eine Objektbenennung desambiguieren, indem sie die Annahme eines wahrscheinlich gemeinten Referenzbereichs fundiert (wie z. B. im oben erwähnten Neuheitsprinzip). Experimentelle Ergebnisse zeigen, dass die Entscheidung über die richtige Interpretation einer ambigen Äußerung – bei Übereinstimmung mit der innerhalb einer sozialen Gruppe dominanten Interpretation dieser Äußerung ⫺, bei vertrauten Personen (mit einer stärkeren gemeinsamen Basis) schneller und mit größerer subjektiver Sicherheit getroffen wird als bei fremden Personen (Gerrig & Littman, 1990). Kontrovers diskutiert wird der kognitive Mechanismus, durch welchen eine spezifische gemeinsame Wissensbasis mögliche Referenzbereiche und Referenten eingrenzt: durch unmittelbare Gedächtnisaktivierung oder durch Inferenzprozesse? In einer Reihe von Arbeiten wird die Annahme vertreten, dass die gemeinsame Wissensbasis den Gedächtnisabruf im Sprachverstehensprozess auf eben jene Informationen eingrenzt, die Bestandteile des ‘common ground’ sind (z. B. Clark & Carlson, 1981). So stellten beispielsweise Gerrig und Littman in ihrer Untersuchung fest, dass die Entscheidungszeiten über eine gruppenspezifisch dominante Interpretation einer Äußerung bei starker gemeinsamer Basis (gleiche soziale Gruppe) ebenso kurz sind wie bei einem explizit sprachlich vorgegebenen Kontext, nicht jedoch bei schwacher gemeinsamer Basis (andere soziale Gruppe). Die Autoren interpretieren diesen Befund als Beleg für einen direkten Wissensabruf, welcher genau auf die jeweilige soziale Gruppe abgestimmt erfolgt. Im Gegensatz dazu zeigen experimentelle Ergebnisse zum Verstehen anaphorischer und demonstrativer Referenz, dass nicht zur gemeinsamen Wissensbasis gehörende Informationen bei der Interpretation durchaus interferieren können (Keysar, Barr, Balin & Paek, 1998). Reaktionszeiten, Fehlerraten und Blickrichtungsdaten werden von der Verfügbarkeit potentieller alternativer Referenten beeinflusst, auch wenn diese lediglich dem Hörer bekannt sind. Diese Befunde sprechen deutlich gegen eine Restriktion des Gedächtnisabrufs auf Common-ground-Bestandteile. Die Rolle der gemeinsamen Wissensbasis beim Verstehen definiter Referenzen könnte dagegen einem Modell von Keysar el al. (1998) zufolge eher in einer korrektiven Funktion bestehen. Dieses Meta-Wissen (Wissen über die Gemeinsamkeit von Wis-
613 sensbeständen) könnte demnach in einer Art Monitor-Prozess zur Korrektur von Interpretationsfehlern verwendet werden. Angenommen werden zwei partiell parallele Prozesse (in kaskadischer Verarbeitung, McClelland, 1979): eine schnelle, unbeschränkte Suche nach Referenten und ein langsamer Monitoring- und Korrekturprozess unter Berücksichtigung der gemeinsamen Wissensbasis. Analoge Vorstellungen für die Sprachproduktion gehen von schnellen automatischen Primingprozessen (unabhängig vom Partnerwissen) und langsameren verarbeitungsaufwändigen Inferenzprozessen (u. a. unter Einbeziehung des Partnermodells) aus (z. B. Bard et al, 2000; Brown & Dell, 1987). Eine Vielzahl von Untersuchungen widmet sich der besonderen Rolle des sprachlichen Kontexts bei der Desambiguierung sprachlicher Ausdrücke. Wörter werden in Abhängigkeit vom Kontext unterschiedlich verstanden. Die hierin zum Ausdruck kommende Flexibilität ist ein wesentliches Charakteristikum menschlicher Sprachverarbeitung. Kontextuelle Constraints sind in der Regel wirksamer zur Auflösung syntaktischer Ambiguitäten (z. B. Druckerzeugnis; mit dem Kleid aus Paris kommen) als prosodische Hinweise und können diese außer Kraft setzen (vgl. Kess & Hoppe, 1981, Kooij, 1971; MacWhinney, Bates & Kliegl, 1984; siehe zu prosodischen Mitteln z. B. Price, Ostendorf, Shattuck-Hufnagel & Fong, 1991; Schafer, Carter, Clifton & Frazier, 1996) sowie selbst phonetische Ambiguitäten auflösen (z. B. Warren, 1970). Zur Auflösung lexikalischer Ambiguitäten (z. B. Dichtung Literatur; Technik) ist der Kontext das ausschlaggebende sprachliche Mittel (neben nichtsprachlichen Faktoren, wie dem übergeordneten Handlungszusammenhang, dem Partnermodell und Parametern der sozialen Situation, dem Objektkontext und weiteren Merkmalen der wahrnehmbaren Umgebung). Der sprachliche Kontext kann sowohl (vorausgehende oder nachfolgende) einzelne Wörter als auch Sätze oder Makrostrukturen umfassen (Kess & Hoppe, 1981) und in seiner Wirksamkeit von verschiedenen Faktoren beeinflusst werden (Simpson, 1994). Die Desambiguierung durch den sprachlichen Kontext geschieht oft über die Aktivierung von allgemeinem Weltwissen (Oden, 1978) oder durch Beschreibung einer spezifischen Situation, in der eine der Interpretationsvarianten wahrscheinlicher ist (Kess & Hoppe, 1981). Strittig ist der genaue Mechanismus, durch den der Kontext eine Bedeu-
614 tungsalternative spezifiziert. Einige theoretische Modelle der Verarbeitung ambiger Wörter gehen davon aus, dass von vornherein selektiv nur die kontextangemessene Bedeutung im Gedächtnis aktiviert wird (z. B. Schvaneveldt, Meyer & Becker, 1976). Andere nehmen an, dass die Bedeutungsaktivierung zunächst unabhängig vom Kontext erfolgt und die Selektion der kontextangemessenen Bedeutung erst auf späteren Verarbeitungsstufen erfolgt (z. B. MacKay, 1966). Innerhalb der Modelle, die eine Kontextunabhängigkeit der anfänglichen Bedeutungsaktivierung vermuten, können zwei Zugänge unterschieden werden (vgl. Kess & Hoppe, 1981; Simpson, 1984). Nach dem einen dieser Modellansätze basiert die Reihenfolge der Wortbedeutungsaktivierungen auf deren relativer Häufigkeit (z. B. Hogaboam & Perfetti, 1975). Die primäre (häufigste) Bedeutung wird zuerst aktiviert. Nur wenn diese nicht zum Kontext passt, wird die zweite Bedeutung des Wortes aus dem Gedächtnis abgerufen. Der Prozess wird fortgesetzt, bis eine dem Kontext entsprechende Bedeutung gefunden wird. Nach dem zweiten der kontextunabhängigen Ansätze werden von Anfang an alle Bedeutungen eines Wortes aktiviert, ungeachtet ihrer Wahrscheinlichkeit oder des gegebenen Kontexts (z. B. Conrad, 1974; Swinney, 1979). Die Selektion der kontextangemessenen Bedeutung findet erst statt, nachdem alle Bedeutungen einer initialen Analyse unterzogen worden sind. Dieser Modellansatz wird häufig in Zusammenhang mit einer modularen Sichtweise des Sprachverstehensprozesses gesehen, welche das Lexikon als autonomes Modul betrachtet (Fodor, 1983). Im Gegensatz dazu sind die Modelle, die von einer selektiven kontextabhängigen Bedeutungsaktivierung ausgehen, kompatibel mit einer interaktiven Auffassung des Sprachverstehens (McClelland, 1987). Empirische Unterstützung findet jedes dieser Modelle der Verarbeitung von Ambiguität (für eine Übersicht siehe Kess & Hoppe, 1981; Simpson, 1984, 1994). Diese diskrepanten Ergebnisse lassen sich auch durch die Einbeziehung methodischer Faktoren nicht zufriedenstellend erklären (vgl. Simpson, 1994). Eine mögliche Schlussfolgerung aus den vorliegenden Daten ist, dass die verschiedenen Bedeutungen eines Wortes zwar zugleich – jedoch unterschiedlich stark – aktiviert werden, wobei der Grad der Aktivierung sowohl von der relativen Häufigkeit der
IV. Sprachrezeption
Bedeutungen als auch vom aktuellen Kontext beeinflusst wird (Simpson, 1984). Man kann daher annehmen, dass der sprachliche Kontext die Verarbeitung ambiger Objektbenennungen durch mehrere, auf unterschiedlichen Prozessstufen ansetzende Mechanismen beeinflusst. Dazu gehören vermutlich eine initiale Aktivierungsverstärkung sowie Aktivierungsausbreitung, spätere Hemmungen nicht kontextkonsistenter Konzepte bzw. Wortbedeutungen sowie nachfolgende Korrektur- und Inferenzprozesse auf der Basis des verarbeiteten Kontexts (zur Veränderung von Aktivierungsmustern über die Zeit vgl. Swinney, 1979; Tabossi, 1988; Till, Mross & Kintsch, 1988; Van Petten & Kutas, 1987). Diese Mechanismen interagieren mit der relativen Häufigkeit der Bedeutungsalternativen (vgl. Rayner & Duffy, 1986; Rayner & Frazier, 1989; Simpson, 1981) und hängen vom situativen Kontext sowie von Art, Umfang, Zeitpunkt und Stärke des sprachlichen Kontexts ab (vgl. z. B. Paul, Kellas, Martin & Clark, 1992; Tabossi, 1991). Der Prozess des Verstehens referentieller Objektbenennungen profitiert vom sprachlichen Kontext zum einen durch die Spezifizierung syntaktisch und lexikalisch eindeutiger Nominalphrasen, zum anderen auch durch die Auflösung referentieller Ambiguitäten, welche selbst bei syntaktischer und lexikalischer Eindeutigkeit bestehen können. So könnte es für einen Hörer mehrere potentielle Referenzbereiche geben, die einen Zug nach Hamburg, ein Kleid aus Paris oder eine kleine rote Bank enthalten. Durch den sprachlichen Kontext kann ein Referent bzw. Referenzbereich als der mit der größten Wahrscheinlichkeit vom Sprecher gemeinte selegiert werden. Es ist anzunehmen, dass hierbei im Grundsatz die gleichen kognitiven Mechanismen wirksam sind wie bei der lexikalischen Desambiguierung. Ein ausschlaggebender Faktor bei der Auflösung lexikalischer und syntaktischer Ambiguitäten in Objektbenennungen ist der wahrnehmbare Objektkontext. Vor allem die Rolle des visuellen Kontexts wurde in Experimenten zum Bild-Satz-Vergleich (z. B. Bock, 1978; Carey, Mehler & Bever, 1970; Foss, Bever & Silver, 1968) wie auch insbesondere zu Augenbewegungen bei der Verarbeitung gesprochener Sprache (Keysar, Barr, Balin & Paek, 1998; Tanenhaus, Spivey-Knowlton, Eberhard & Sedivy, 1995) untersucht. Diese Ergebnisse belegen eine enge Verknüpfung perzeptiver und sprachlicher Prozesse beim Ver-
615
46. Verstehen von Objektbenennungen
stehen (wie auch der Produktion, vgl. Meyer, Sleiderink & Levelt, 1998) einer Objektbenennung. Der visuelle Kontext beeinflusst die Bedeutungsaktivierung und die syntaktische Verarbeitung bereits auf den frühesten Stufen der Sprachverarbeitung. So wird die ambige Präpositionalphrase on the towel in dem Satz „Put the apple on the towel in the box“ anfänglich als Zielort interpretiert, wenn nur ein Referent (ein Apfel) im Kontext vorhanden ist. Gibt es dagegen zwei Referenten im Kontext (z. B. einen Apfel auf einem Handtuch und einen auf einer Serviette), wird on the towel unmittelbar als Attribut verstanden (Tanenhaus et al., 1995). (Im Deutschen wäre ein solcher Satz von vornherein syntaktisch eindeutig, da bei Präpositionen wie in, an, vor oder auf Kasusmarkierungen zwischen einer statischen Raumangabe und einer Zielortangabe differieren. Ein vergleichbares Beispiel im Deutschen wäre jedoch: „Fahre mit dem Zug nach Berlin bis Hannover“.) Die gefundene frühe Beeinflussung der syntaktischen Verarbeitung kann man als Evidenz gegen die Annahme eines autonomen, abgekapselten Syntax-Moduls (Fodor, 1983) interpretieren (Tanenhaus et al.). Für die Frage der Verarbeitung referentieller Nominalphrasen zeigt sich, dass referentielle, lexikalische und syntaktische Interpretationen sich wechselseitig einschränken und beeinflussen können. Zur Erzielung referentieller Eindeutigkeit ist neben der besprochenen Bestimmung eines Referenzbereichs als zweite Bedingung die Alternativendiskrimination innerhalb dieses Referenzbereichs erforderlich (Deutsch & Clausing, 1979). Das vom Sprecher gemeinte Objekt muss sprachlich so gekennzeichnet werden, dass es von allen Alternativen innerhalb des angenommenen Referenzbereichs unterschieden werden kann. Unvollständige bzw. unterspezifizierte Benennungen führen zu referentiellen Ambiguitäten. D. h. die sprachlich gegebene Information ist unzureichend, um das intendierte Objekt von seinen Kontextobjekten zu differenzieren. Unterspezifizierte Benennungen kommen häufig bei wiederholter, unmittelbar aufeinander folgender Referenz auf dasselbe Objekt vor (Grosser & Mangold-Allwinn, 1991). Allgemein werden Folgebenennungen mit der Zeit immer kürzer (Clark & Wilkes-Gibbs, 1986; Krauss & Glucksberg, 1977; Schober & Clark, 1989). Das Verstehen solcher verkürzten Benennungen beruht auf der Berücksichtigung der Benennungsgeschichte bzw. der vorausgehenden Benennung. Dies kann zu
idiosynkratischen (referentiell eindeutigen) Benennungen als Teil des common ground der Gesprächspartner oder aber zu (referentiell ambigen) Unterspezifikationen führen. Im Falle von unterspezifizierten Objektbenennungen gelingt die Objektidentifikation aufgrund der noch bestehenden Aktivierung einer Objektrepräsentation oder durch Inferenzprozesse. Insgesamt werden verschiedene Informationsquellen herangezogen, um zu einer möglichst eindeutigen, den Sprecherintentionen entsprechenden Interpretation zu gelangen. Die verfügbaren Informationsquellen werden evaluiert und integriert, wobei der Einfluss einer Informationsquelle umso höher ist, je ambiger andere sind (Massaro, 1987a, b).
4.
Lexikalische Spezifität und Koreferenz
Auf ein und dasselbe Objekt kann mit unterschiedlichen Bezeichnungen referiert werden. Abgesehen von Fällen von Synonymie (z. B. Rechner/Computer) oder Zugehörigkeit zu verschiedenen, z. B. regionalen, Subsystemen (z. B. Möhre/Rübe/Karotte/Mohrrübe …) ist die Variabilität möglicher Bezeichnungen vor allem darauf zurückzuführen, dass ein Objekt unterschiedlichen Objektkategorien zugeordnet werden kann. Es können sowohl unterschiedliche Klassifikationskriterien angewandt werden (z. B. Klavier: Musikinstrument/Möbelstück) als auch auf unterschiedlichen Abstraktionsebenen kategorisiert werden (z. B. Hammerhai ⫺ Hai ⫺ Knorpelfisch ⫺ Fisch ⫺ Tier ⫺ Lebewesen). Innerhalb solcher natürlichen Konzepthierarchien nehmen die allgemeinsten noch anschaulich repräsentierten Objektkategorien eine hervorgehobene Stellung ein (z. B. Baum; Auto). Man bezeichnet sie als Primärbegriffe (Hoffmann, 1986) oder Basiskategorien (Mervis & Rosch, 1981; Rosch, 1977; Rosch, Mervis, Gray, Johnson & Boyes-Bream, 1976). Übergeordnete Objektkategorien (z. B. Pflanze; Fahrzeug) lassen sich eher durch mit ihnen verbundene allgemeine Verhaltensmerkmale sowie die Angabe typischer Beispiele charakterisieren, während untergeordnete Objektkategorien (z. B. Eiche; Jeep) durch anschauliche Merkmale und gegenüber den Basiskategorien weitergehende Differenzierungen (Detailmerkmale) beschrieben werden können (vgl. Hoffmann, 1986). Basiskategorien fassen demnach Objekte mit ho-
616 her perzeptiver Ähnlichkeit bei gleichzeitiger hoher Unähnlichkeit zu Objekten nebengeordneter Kategorien zusammen (Rosch, 1977); ihre Bezeichnungen sind gewöhnlich kürzer als die untergeordneter Kategorien, die Worthäufigkeit größer als bei über- und untergeordneten Kategorien (siehe Murphy & Smith, 1982). Experimentelle Ergebnisse zur Zuordnung eines bildlich dargestellten Objekts zu einer benannten Objektkategorie zeigen, dass visuelle und sprachliche Information bei Objektbenennungen auf Basiskonzeptniveau schneller in Beziehung gesetzt werden können als bei Benennungen geringerer oder höherer Spezifität (z. B. Hoffmann & Zießler, 1981; Murphy & Smith, 1982; Rosch et al., 1976). Dieser Effekt wird darauf zurückgeführt, dass Objekte generell zuerst als Instanzen von Basiskategorien erkannt werden, während sowohl eine allgemeinere als auch eine speziellere Kategorisierung zusätzliche Prozesse erfordern (Hoffmann, 1986; Rosch et al., 1976). Eine Wortbenennung auf Basisebene kann auch unter eingeschränkten Wahrnehmungsbedingungen (z. B. sehr kurze Darbietungszeit) oft noch einem wahrgenommenen Objekt zugeordnet werden, wenn eine spezifischere Kategorisierung bereits nicht mehr möglich ist (Hoffmann, Zießler & Grosser, 1984). Treten Objektbezeichnungen nicht isoliert, sondern im Kontext auf, werden sie häufig spezifischer interpretiert, d. h. es erfolgt eine Instantiierung einer Subkategorie der benannten Objektkategorie als Funktion des Kontexts (Anderson & Ortony, 1975). So wird das Wort Fisch in dem Satz: „Der Fisch griff den Schwimmer an“ als Benennung eines aggressiven bzw. gefährlichen Fisches interpretiert. Ein spezifisches Nomen (in diesem Falle Hai) kann daher eine bessere Erinnerungshilfe an den verarbeiteten Satz als das tatsächlich im Satz vorkommende Nomen sein (Anderson et al., 1976). Folgebenennungen sind häufig unspezifischer als Erstbenennungen. Dies betrifft sowohl die Verkürzung von referentiellen Nominalphrasen durch Weglassen von Attributspezifikationen (z. B. der kleine rote Würfel J der Würfel; vgl. Abschnitt 3) als auch die Wahl eines Hyperonyms (Benennung einer allgemeineren, d. h. übergeordneten Objektkategorie). So wird etwa in dem Slogan „Pflaumenkuchen mit frischen Früchten“ auf eine Wiederholung des Wortes Pflaumen verzichtet. Dies entspricht zum einen der Grice-
IV. Sprachrezeption
schen Konversationsmaxime der Quantität, zum anderen der auch kulturell vermittelten Tendenz, Wortwiederholungen (es sei denn als rhetorisches/literarisches Stilmittel oder aus Präzisionsgründen) zu vermeiden. Eine mögliche anaphorische Form stellen auch Hyponyme (Benennung einer spezifischeren, d. h. untergeordneten Objektkategorie) dar, wenngleich sie in vielen Fällen weniger natürlich erscheinen und langsamer verarbeitet werden als allgemeinere Anaphern (z. B. Sanford, Garrod & Boyle, 1977). Die Verarbeitung verschiedener anaphorischer Formen hängt vor allem vom gegenwärtigen Diskursfokus (am stärksten saliente und aktivierte Einheit in der Diskursrepräsentation) ab (z. B. Ariel, 1990; Garrod & Sanford, 1984). Eine Rekurrenz (wörtliche Wiederholung des Antezedens durch die Anapher) führt zu einer Verlangsamung der Verarbeitung dann, wenn der Referent fokussiert ist (Almor, 1999; Gordon, Hendrick, Ledoux & Yang, 1999). Im Gegensatz dazu wird eine Koreferenz mit Substitution des Antezedens durch einen allgemeineren Ausdruck (ein Hyperonym) oder auch durch ein spezifischeres Nomen (ein Hyponym) schneller verarbeitet, wenn der Referent fokussiert ist, als wenn er nicht den Fokus bildet (Almor, 1999). Ein solcher Zusammenhang gilt insbesondere auch für pronominale Anaphern: ein pronominaler Verweis auf einen sprachlich fokussierten Referenten wird leichter verarbeitet als auf einen nicht fokussierten (Gordon, Grosz & Gilliom, 1993; Gordon et al., 1999; Sanford, Moar & Garrod, 1988). Saliente sprachliche Einheiten können auch koordinierte oder possessive Nominalphrasen sein (siehe Gordon et al., 1999). Der Effekt des Diskursfokus bei der koreferentiellen Interpretation wird auch durch die Verteilung anaphorischer Formen unterschiedlicher lexikalischer Spezifität (Nullformen, unbetonte und betonte Pronomen, Demonstrativa, definite Nominalphrasen mit und ohne Modifikation, Eigennamen mit und ohne Modifikation) gemäß Salienz ihres Antezendens reflektiert (Ariel, 1990; siehe auch Marslen-Wilson, Levy & Tyler, 1982). So werden unbetonte Pronomen meist zur Referenz auf fokussierte Referenten verwendet, während definite NP-Anaphern am häufigsten auf nicht fokussierte sprachliche Einheiten rückverweisen. Ein weiterer Faktor der koreferentiellen Auflösung ist die allgemeine Kohärenz der Interpretation als ganzer, welche die Verar-
46. Verstehen von Objektbenennungen
beitungszeiten pronominaler Anaphern bei syntaktisch eindeutiger Antezedens-Zuordnung beeinflussen kann (z. B. Caramazza, Grober, Garvey & Yates, 1977). Weiterhin wird das Verstehen einer pronominalen Koreferenz durch die mit dem Aufbau einer mentalen Diskursrepräsentation verbundenen Gedächtnisprozesse beeinflusst. So werden mit einem Referenten konzeptuell assoziierte Textelemente reaktiviert, wenn dieser Referent erneut sprachlich fokussiert wird, und sind daher auch bei längeren Zwischenpassagen ohne eigene Erwähnung zugänglich (Lea, Mason, Albrecht, Birch & Myers, 1998). Ebenso wird die Repräsentation eines benannten Zielobjekts auch ohne eigene Erwähnung aktiviert, wenn es mit einem Referenten räumlich assoziiert ist (z. B. Rose im Kopfloch eines Referenten vs. Rose in der Vase) und dieser fokussiert wird (Glenberg, Meyer & Lindem, 1987). Weiterhin kann die referentielle Zugänglichkeit durch aktive Hemmung irrelevanter Information erhöht werden (Gernsbacher, 1989; Gernsbacher & Faust, 1991).
5.
Vagheit und Objektkategorisierung
Objekte können nicht nur auf unterschiedlichen Abstraktionsebenen kategorisiert werden (vgl. Abschnitt 4), sie können einer kognitiven Kategorie auch mehr oder weniger gut entsprechen, d. h. ein besserer oder weniger guter Vertreter einer Kategorie sein und damit auch leichter oder weniger leicht zugeordnet werden. Dies gilt sowohl für Unterkategorien als Instanzen allgemeinerer Kategorien als auch für konkret wahrgenommene Objekte mit unterschiedlichen Merkmalsausprägungen als Instanzen anschaulicher Objektkategorien. So sind Schrank und Tisch typischere Möbel als Vorhänge und Kühlschrank (z. B. Rosch, 1973, 1975a; vgl. zu Typikalitätsfaktoren z. B. Barsalou, 1985). Die Wahrscheinlichkeit der Benennung eines Objekts als Tasse hängt von Form, Material, Größenverhältnissen, Funktion und Kontext ab (Labov, 1973). Die damit verbundene Vagheit der Anwendbarkeitsgrenzen einer Objektklassenbezeichnung gewährleistet die nötige Flexibilität und Adaptivität, um verschiedenste Objekte benennen zu können. Dementsprechend betrifft dieses Phänomen nicht nur den Gebrauch von Objektbezeichnungen, sondern auch Attributspezifikationen, u. a. auch Lokalisationsangaben zur Objektidenti-
617 fikation (z. B. die hintere Schraube). Die graduelle Zuordenbarkeit eines Objekts oder Attributs zu einer benannten Kategorie kann sprachlich durch sog. Heckenausdrücke bzw. hedges kenntlich gemacht werden (z. B. eigentlich, ziemlich, etwas, fast; vgl. Rosch, 1975b; Lakoff, 1973). Dabei stützt sich die Kategorisierung von Objektattributen auf zugrunde liegende Bezugssysteme und wird von verschiedenen Faktoren beeinflusst, welche sich teilweise für qualitative (z. B. Farbe, Richtung) und quantitative (z. B. Grˆsse, Entfernung) Attributdimensionen unterscheiden (siehe Vorwerg, 2001). Man kann davon ausgehen, dass bei der Objektidentifikation aufgrund einer sprachlichen Benennung dasjenige Objekt innerhalb eines Referenzbereichs ausgewählt wird, das einer Kategorie am besten zugeordnet werden kann, d. h. welches der konzeptuellen Repräsentation dieser Kategorie am besten entspricht. Geht die Objektbenennung der Wahrnehmung voraus, wird ohne zusätzliche Informationen eine typische Instanz der Objektoder Attributkategorie erwartet. Die kategoriale Zuordnung hochtypischer Items gelingt daher im Gegensatz zu untypischen Items besser bei vorheriger Benennung der Kategorie (vgl. zu Farbkategorien Rosch, 1975c; zu Objektkategorien Rosch, 1977). Insgesamt werden typische Zuordnungen schneller getroffen als untypische (siehe Rosch, 1975c, 1977). Bei der Zuordnung eines bildlich dargestellten Objekts zu einer benannten Objektkategorie interagiert die Typikalität mit dem Abstraktionsniveau (der Hierarchieebene) der Objektkategorie. Instanzen typischer Subkategorien einer Basiskategorie werden ihrer Subkategorie schneller zugeordnet als Instanzen untypischer Subkategorien; der Basiskategorie können sie jedoch gleich schnell zugeordnet werden. Dagegen erfolgt die Zuordnung zu einer abstrakten Oberkategorie (z. B. Nahrung) typikalitätsabhängig (Hoffmann & Zießler, 1982). Die Ergebnisse zu den Typikalitätseffekten auf koreferentielle Interpretationen hyperonymer Substitutionen eines Antezedens sind widersprüchlich. So fanden beispielsweise Garrod und Sanford (1977), dass definite Anaphern bei schwacher Relation zwischen Antezedens und Substitution (z. B. ein Panzer ⫺ das Fahrzeug) langsamer verarbeitet werden als bei starker Relation zwischen beiden (z. B. ein Bus ⫺ das Fahrzeug). Im Gegensatz dazu stellte Almor (1999) für den Fall fokussierter Referenten eine schnellere Verar-
618
IV. Sprachrezeption
beitung der Anapher das Fahrzeug bei Referenz auf eine untypische Instanz (ein Boot) als bei Referenz auf eine typische Instanz (ein Auto) fest. Almor führt diese Diskrepanz in den Befunden auf die Fokussierung der antezendenten Nominalphrase in seiner Untersuchung zurück, während Fokuseffekte in den anderen Studien nicht explizit untersucht wurden. Während die Vagheit referentieller Ausdrücke die Relation zwischen Konzept (als mentale Repräsentation einer kognitiven Kategorie) und möglicher Instanz (z. B. Objekt oder Objektattribut) betrifft, geht es bei der lexikalischen Ambiguität um die Zuordnung zwischen sprachlichem Ausdruck und Konzept. Referentielle Ambiguität besteht dagegen, wenn mindestens zwei Objekte im Referenzbereich einem durch eine Objektbenennung aktivierten Konzept in etwa gleich gut entsprechen. Beim Verstehen einer Objektbenennung müssen lexikalische (wie auch syntaktische) und referentielle Ambiguitäten aufgelöst und eine Entscheidung über die Zuordenbarkeit eines Objekts zu kognitiven Kategorien getroffen sowie (gegebenenfalls) ein Objekt unter einer Menge von Kontextobjekten identifiziert werden. Diese Prozesse beeinflussen und restringieren sich wechselseitig. Wirksame Einflussfaktoren und Mechanismen sind (situativer und sprachlicher) Kontext, Inferenzen, Gedächtnisaktivierungen, Wissensbasis und Meta-Wissen, sprachliche Fokussierung und perzeptive Salienz – je nach Beschaffenheit des referentiellen Ausdrucks (z. B. Über- oder Unterspezifikation, lexikalische Spezifität, pronominale oder definite Form).
6.
Literatur
Almor, A. (1999). Noun-phrase anaphora and focus: The informational load hypothesis. Psychological Review, 106, 748⫺765. Anderson, R. C. & Ortony, A. (1975). On putting apples into bottles. A problem of polysemy. Cognitive Psychology, 7, 167⫺180. Anderson, R. C., Pichert, W., Goetz, F. T., Shallert, D., Stevens, K. V. & Trollip, S. R. (1976). Instantiation of general terms. Journal of Verbal Learning and Verbal Behavior, 15, 667⫺679. Ariel, M. (1990). Accessing noun-phrase antecedents. London: Routledge. Bard, E. G., Anderson, A. H., Sotillo, C., Aylett, M., Doherty-Sneddon, G. & Newlands, A. (2000).
Controlling the intelligibility of referring expressions in dialogue. Journal of Memory and Language, 42, 1⫺22. Barsalou, L. W. (1985). Ideals, central tendency, and frequency of instantiation as determinants of graded structure in categories. Journal of Experimental Psychology: Learning, Memory and Cognition, 11, 629⫺654. Bock, M. (1978). Levels of processing of normal and ambiguous sentences in different contexts. Psychological Research, 39, 203⫺220. Brown, P. & Dell, G. (1987). Adapting production to comprehension – The explicit mention of instruments. Cognitive Psychology, 19, 441⫺472. Caramazza, A., Grober, E. H., Garvey, C. & Yates, J. B. (1977). Comprehension of anaphoric pronouns. Journal of Verbal Learning and Verbal Behavior, 16, 601⫺609. Carey, P. W., Mehler, J. & Bever, T. G. (1970). Judging the veracity of ambiguous sentences. Journal of Verbal Learning and Verbal Behavior, 9, 243⫺ 254. Carey, P. W., Mehler, J. & Bever, T. G. (1970). When do we compute all the interpretations of an ambiguous sentence? In G. B. Flores d’Arcais & W. J. M. Levelt (Eds.), Advances in psycholinguistics (pp. 61⫺75). Amsterdam: North-Holland. Clark, H. H. (1992). Arenas of language use. Chicago: The University of Chicago Press. Clark, H. H. & Carlson, T. B. (1981). Context for comprehension. In J. Long & A. Baddeley (Eds.), Attention and performance IX (pp. 313⫺330). Hillsdale, NJ: Erlbaum. Clark, H. H. & Marshall, C. R. (1981). Definite reference and mutual knowledge. In A. K. Joshi, B. Webber & I. Sag (Eds.), Elements of discourse understanding (pp. 10⫺63). Cambridge: Cambridge University Press. Clark, H. H. & Wilkes-Gibbs, D. (1986). Referring as a collaborative process. Cognition, 22, 1⫺39. Conrad, C. (1974). Context effects in sentence comprehension: A study of the subjective lexicon. Memory & Cognition, 2, 130⫺138. Deutsch, W. (1976). Sprachliche Redundanz und Objektidentifikation. Marburg: Lahn. Deutsch, W. & Clausing, H. (1979). Das Problem der Eindeutigkeit sprachlicher Referenz. In H. Ueckert & D. Rhenius (Hrsg.), Komplexe menschliche Informationsverarbeitung. Beiträge zur Tagung ‘Kognitive Psychologie’ (pp. 369⫺377). Bern: Huber. Dick, M., Ullman, S. & Sagi, D. (1987). Parallel and serial processes in motion detection. Science, 237, 400⫺402.
46. Verstehen von Objektbenennungen
619
Duncan, J. & Humphreys, G. W. (1989). Visual search and stimulus similarity. Psychological Review, 96, 433⫺458.
Green, B. F. Anderson, L. K. (1956). Color coding in a visual search task. Journal of Experimental Psychology, 51, 19⫺24.
Fink, G. R., Marshall, J. C., Halligan, P. W. & Dolan, R. J. (1999). Hemispheric asymmetries in global/local processing are modulated by perceptual salience. Neuropsychologia, 37, 31⫺40.
Grice, H. P. (1975). Logic and conversation. In P. Cole & J. L. Morgan (Eds.), Syntax and semantics. Vol. 3: Speech acts (pp. 41⫺58). New York: Academic Press.
Fodor, J. A. (1983). The modularity of mind. Cambridge, MA: MIT Press.
Grosser, C. & Mangold-Allwinn, R. (1991). ‘… und nochmal die grüne Uhr’ – Zum Einfluß des Partners auf die Ausführlichkeit von wiederholten Benennungen. Archiv für Psychologie, 142, 195⫺ 209.
Ford, W. & Olson, D. (1975). The elaboration of the noun phrase in children’s description of objects. Journal of Experimental Child Psychology, 19, 371⫺382. Foss, D. J., Bever, T. G. & Silver, M. (1968). The comprehension and verification of ambiguous sentences. Perception and Psychophysics, 4, 304⫺306. Garrett, M. F. (1970). Does ambiguity complicate the perception of sentences? In G. B. Flores d’Arcais & W. J. M. Levelt (Eds.), Advances in psycholinguistics (pp. 48⫺60). Amsterdam: North-Holland. Garrod, S. & Sanford, A. J. (1977). Interpreting anaphoric relations: The integration of semantic information while reading. Journal of Verbal Learning and Verbal Behavior, 16, 77⫺90. Garrod, S. & Sanford, A. J. (1984). The mental representation of discourse in a focused memory system: Implications for the interpretation of anaphoric noun phrases. Journal of Semantics, 1, 21⫺41. Gernsbacher, M. A. (1989). Mechanisms that improve referential access. Cognition, 32, 99⫺156. Gernsbacher, M. A. & Faust, M. E. (1991). The mechanism of suppression: A component of general comprehension skill. Journal of Experimental Psychology: Learning, Memory, & Cognition, 17, 245⫺262. Gerrig, R. J. & Littman, M. L. (1990). Disambiguation by community membership. Memory & Cognition, 18, 331⫺338. Glenberg, A. M., Meyer, M. & Lindem, K. (1987). Mental models contribute to foregrounding during text comprehension. Journal of Memory & Language, 26, 69⫺83. Gordon, P. C., Grosz, B. J. & Gilliom, L. A. (1993). Pronouns, names, and the centering of attention in discourse. Cognitive Science, 17, 311⫺ 347. Gordon, P. C., Hendrick, R., Ledoux, K. & Yang, C. L. (1999). Processing of reference and the structure of language: An analysis of complex noun phrases. Language and Cognitive Processes, 14, 353⫺379.
Herrmann, T. (1982). Sprechen und Situation. Eine psychologische Konzeption zur situationsspezifischen Sprachproduktion. Berlin: Springer. Herrmann, T. & W. Deutsch. (1976). Psychologie der Objektbenennung. Bern: Huber. Herrmann, T. & Laucht, M. (1976). On multiple codability of objects. Psychological Research, 38, 355⫺368. Hörmann, H. (1976). Meinen und Verstehen. Grundzüge einer psychologischen Semantik. Frankfurt/M.: Suhrkamp. Hoffmann, J. (1986). Die Welt der Begriffe. Psychologische Untersuchungen zur Organisation des menschlichen Wissens. Berlin: Deutscher Verlag der Wissenschaften. Hoffmann, J. & Zießler, M. (1981). Components of perceptual classification. Zeitschrift für Psychologie, 189, 14⫺24. Hoffmann, J. & Zießler, M. (1982). Begriffe und ihre Merkmale. Zeitschrift für Psychologie, 190, 46⫺77. Hoffmann, J., Zießler, M. & Grosser, U. (1984). Psychologische Gesetzmäßigkeiten der begrifflichen Klassifikation von Objekten. In F. Klix (Hrsg.), Gedächtnis, Wissen, Wissensnutzung (pp. 74⫺107). Berlin: Deutscher Verlag der Wissenschaften. Hogaboam, T. W. & Perfetti, C. A. (1975). Lexical ambiguity and sentence comprehension. Journal of Verbal Learning and Verbal Behavior, 14, 265⫺274. Ivry, R. & Cohen, A. (1992). Asymmetry in visual search for targets defined by differences in movement speed. Journal of Experimental Psychology: Human Perception and Performance, 18, 1045⫺ 1057. Joseph, J. S. & Optican, L. M. (1996). Involuntary attentional shifts due to orientation differences. Perception & Psychophysics, 58, 651⫺665. Kess, J. F. & Hoppe, R. A. (1981). Ambiguity in psycholinguistics. Amsterdam: John Benjamins.
620 Keysar, B., Barr, D. J., Balin, J. A. & Paek, T. S. (1998). Definite reference and mutual knowledge: Process models of common ground in comprehension. Journal of Memory and Language, 39, 1⫺20. Kooij, J. G. (1971). Ambiguity processing. Amsterdam: North-Holland. Krauss, R. M. & Glucksberg, S. (1977). Social and nonsocial speech. Scientific American, 236, 100⫺ 105. Krumhansl, C. L. (1991). Music psychology. Tonal structures in perception and memory. Annual Review of Psychology, 42, 277⫺303.
IV. Sprachrezeption tablishment and maintenance of reference. In R. J. Jarvella & W. Klein (Eds.), Speech, place, and action (pp. 339⫺378). Chichester: Wiley. Massaro, D. W. (1987). Categorical partition. A fuzzy-logic model of categorization behavior. In S. Harnad (Eds.), Categorical perception. The groundwork of cognition (pp. 254⫺283). Cambridge: Cambridge University Press. Massaro, D. W. (1987). Integrating multiple sources of information in listening and reading. In A. Allport, D. G. MacKay, W. Prinz & E. Scheerer (Eds.), Language perception and production: Relationships between listening, speaking, reading, and writing (pp. 111⫺129). London: Academic Press.
Labov, W. (1973). The boundaries of words and their meanings. In C. J. N. Bailey & R. W. Shuy (Eds.), New ways of analyzing variation in English (pp. 340⫺373). Washington, D.C.: Georgetown University Press.
McClelland, J. L. (1979). On the time relations of mental processes. An examination of systems of processes in cascade. Psychological Review, 86, 287⫺330.
Lakoff, G. (1973). Hedges: A study in meaning criteria and the logic of fuzzy concepts. Journal of Philosophical Logic, 2, 458⫺508.
McClelland, J. L. (1987). The case for interactionism in language processing. In M. Coltheart (Ed.), Attention and performance XII: The psychology of reading (pp. 3⫺36). Hillsdale, NJ: Erlbaum.
Lea, R. B., Mason R. A., Albrecht, J. E., Birch, S. L. & Myers, J. L. (1998). Who knows what about whom: What role does common ground play in accessing distant information? Journal of Memory and Language, 39, 70⫺84.
Mervis, C. B. & Rosch, E. (1981). Categorization of natural objects. In M. R. Rosenzweig & L. W. Porter (Eds.), Annual Review of Psychology (pp. 89⫺115).
Luria, S. M. & Strauss, M. S. (1975). Eye movements during search for coded and uncoded targets. Perception & Psychophysics, 17, 303⫺308. MacKay, D. G. (1966). To end ambiguous sentences. Perception and Psychophysics, 1, 426⫺436.
Meyer, A. S., Sleiderink, A. M. & Levelt, W. J. M. (1998). Viewing and naming objects: Eye movements during noun phrase production. Cognition, 66, B25-B33. Murphy, G. L. & Smith, E. E. (1982). Basic level superiority in picture categorization. Journal of Verbal Learning and Verbal Behavior, 21, 1⫺20.
MacWhinney, B., Bates, E. & Kliegl, R. (1984). Cue validity and sentence interpretation in English, German, and Italian. Journal of Verbal Learning and Verbal Behavior, 23, 127⫺150.
Nagy, A. & Cone, S. M. (1996). Asymmetries on simple feature searches for color. Vision Research, 36, 2837- 2847.
Mangold, R. (1986). Sensorische Faktoren beim Verstehen überspezifizierter Objektbenennungen. Frankfurt/M.: Lang.
Nothdurft, H. C. (1993a). Saliency effects across dimensions in visual search. Vision Research, 33, 839⫺844.
Mangold, R. (1987). Schweigen kann Gold sein – über förderliche, aber auch nachteilige Effekte der Überspezifizierung. Sprache & Kognition, 4, 165⫺ 176.
Nothdurft, H. C. (1993b). The role of features in preattentive vision: Comparison of orientation, motion and colour cues. Vision Research, 33, 1937⫺1958.
Mangold, R. & Pobel, R. (1988). Informativeness and instrumentality in referential communication. Journal of Language and Social Psychology, 7, 181⫺191.
Nothdurft, H.C. (1999). Focal attention in visual search. Vision Research, 39, 2305⫺2310. Oden, G. C. (1978). Semantic constraints and judged preference for interpretations of ambiguous sentences. Memory & Cognition, 6, 26⫺37.
Mangold-Allwinn, R., Barattelli, S., Kiefer, M. & Koelbing, H. G. (1995). Wörter für Dinge. Von flexiblen Konzepten zu variablen Benennungen. Opladen: Westdeutscher Verlag.
Olson, D. R. (1970). Language and thought: Aspects of a cognitive theory of semantics. Psychological Review, 77, 257⫺273.
Marslen-Wilson, W., Levy, E. & Tyler, L. K. (1982). Producing interpretable discourse: The es-
Paul, S. T., Kellas, G., Martin, M. & Clark, M. B. (1992). The influence of contextual features on the
46. Verstehen von Objektbenennungen activation of ambiguous word meanings. Journal of Experimental Psychology: Learning, Memory & Cognition, 18, 703⫺717. Pechmann, T. (1994). Sprachproduktion. Zur Generierung komplexer Nominalphrasen. Opladen: Westdeutscher Verlag. Peeke, S. C. & Stone, G. C. (1973). Focal and nonfocal processing of color and form. Perception & Psychophysics, 14, 71⫺80. Price, P. J., Ostendorf, M., Shuttack-Hufnagel, S. & Fong, C. (1991). The use of prosody in syntactic disambiguation. Journal of the Acoustical Society of America, 90, 2956⫺2970. Prinz, W. & Rübenstrunk, G. (1979). Suchen als Thema der Experimentalpsychologie: Zur Steuerung visueller Suchprozesse. Psychologische Rundschau, 30, 198⫺218. Rayner, K. & Duffy, S. A. (1986 ). Lexical complexity and fixation times in reading: Effects of word frequency, verb complexity, and lexical ambiguity. Memory & Cognition, 14, 191⫺201. Rayner, K. & Frazier, L. (1989). Selection mechanisms in reading lexically ambiguous words. Journal of Experimental Psychology: Learning, Memory, & Cognition, 15, 779⫺790. Rickheit, G. & Strohner, H. (1993). Grundlagen der kognitiven Sprachverarbeitung. Tübingen: Francke Verlag. Rickheit, G. & Strohner, H. (1993). Zu einer kognitiven Theorie konzeptueller Inferenzen. In F. Beckmann & G. Heyer (Hrsg.), Theorie und Praxis des Lexikons (pp. 141⫺163). Berlin: de Gruyter.
621 Rosch, E., Simpson, C. & Miller, R. S. (1976). Structural bases of typicality effects. Journal of Experimental Psychology: Human Perception & Performance, 2, 491⫺502. Rosenholtz, R. (1999). A simple saliency model predicts a number of motion popout phenomena. Vision Research, 39, 3157⫺3163. Sanford, A. J., Garrod, S. & Boyle, J. M. (1977). An independence of mechanisms in the origins of reading and classification related semantic distance effects. Memory & Cognition, 5, 214⫺220. Sanford, A. J., Moar, K. & Garrod, S. (1988). Proper names as controllers of discourse focus. Language and Speech, 31, 43⫺56. Schafer, A., Carter, J., Clifton, C. & Frazier, L. (1996). Focus in relative clause construal. Language and Cognitive Processes, 11, 135⫺163. Schober, M. F. & Clark, H. H. (1989). Understanding by addressees and overhearers. Cognitive Psychology, 21, 211⫺232. Schvaneveldt, R. W., Meyer, D. E. & Becker, C. A. (1976). Lexical ambiguity, semantic context and visual word recognition. Journal of Experimental Psychology: Human Perception and Performance, 2, 243⫺256. Simpson, G. B. (1981). Meaning dominance and semantic context in the processing of lexical ambiguity. Journal of Verbal Learning and Verbal Behavior, 20, 120⫺136. Simpson, G. B. (1984). Lexical ambiguity and its role in models of word recognition. Psychological Bulletin, 96, 316⫺340.
Rosch, E. (1973). On the internal structure of perceptual and semantic categories. In T. E. Moore (Ed.), Cognitive development and the acquisition of language (pp. 111⫺144). New York: Academic Press.
Simpson, G. B. (1994). Context and the processing of ambiguous words. In M. A. Gernsbacher (Ed.), Handbook of psycholinguistics (pp. 359⫺374). San Diego: Academic Press.
Rosch, E. (1975a). Cognitive representations for semantic categories. Journal of Experimental Psychology: General, 104, 192⫺233.
Singer, M. (1994). Discourse inference processes. In M. A. Gernsbacher (Ed.), Handbook of psycholinguistics (pp. 479⫺515). San Diego: Academic Press.
Rosch, E. (1975b). Cognitive reference points. Cognitive Psychology, 7, 532⫺547. Rosch, E. (1975c). The nature of mental codes for color categories. Journal of Experimental Psychology: Human Perception and Performance, 1, 303⫺ 322. Rosch, E. (1977). Human categorization. In N. Warren (Ed.), Studies in cross-cultural psychology (pp. 1⫺49). London: Academic Press. Rosch, E., Mervis, C. B., Gray, W. D., Johnson, D. M. & Boyes-Bream, P. (1976). Basic objects in natural categories. Cognitive Psychology, 8, 382⫺ 439.
Smith, S. L. (1962). Color coding and visual search. Journal of Experimental Psychology, 64, 434⫺440. Sonnenschein, S. (1982). The effect of redundant communication on listeners: When more is less. Child Development, 53, 717⫺729. Sonnenschein, S. & Whitehurst, G. J. (1982). The effects of redundant communication on listener behavior: Does a picture need a thousand words? Journal of Psycholinguistic Research, 11, 115⫺125. Swinney, D. A. (1979). Lexical access during sentence comprehension: (Re)consideration of context
622
IV. Sprachrezeption
effects. Journal of Verbal Learning and Verbal Behavior, 18, 645⫺659.
Tversky, A. (1977). Features of similarity. Psychological Review, 84, 327⫺352.
Tabossi, P. (1988). Accessing lexical ambiguity in different types of sentential context. Journal of Memory and Language, 27, 324⫺340.
Van Petten, C. & Kutas, M. (1987). Ambiguous words in context: An event-related potential analysis of the time course of meaning activation. Journal of Memory and Language, 26, 188⫺208.
Tabossi, P. (1991). Understanding words in context. In G. B. Simpson (Ed.), Understanding word and sentence (pp. 1⫺22). Amsterdam: North-Holland. Tanenhaus, M. K., Spivey-Knowlton, M. J., Eberhard, K. M. & Sedivy, J. C. (1995). Integration of visual and linguistic information in spoken language comprehension. Science, 268, 1632⫺1634. Till, R. E., Mross, E. F. & Kintsch, W. (1988). Time course of priming for associate and inference words in discourse context. Memory & Cognition , 16, 283⫺298. Treisman, A. M. (1969). Strategies and models of selective attention. Psychological Review, 76, 282⫺299. Treisman, A. M. (1985). Preattentive processing in vision. Computational Vision, Graphics and Image Processing, 31, 156⫺177.
Vorwerg, C. (2001). Raumrelationen in Wahrnehmung und Sprache. Kategorisierungsprozesse bei der Benennung visueller Richtungsrelationen. Wiesbaden: Deutscher Universitätsverlag. Vorwerg, C. & Rickheit, G. (1999). Richtungsausdrücke und Heckenbildung beim sprachlichen Lokalisieren von Objekten im visuellen Raum. Linguistische Berichte, 178, 152⫺204. Vorwerg, C. & Rickheit, G. (2000). Repräsentation und sprachliche Enkodierung räumlicher Relationen. In C. Habel & C. von Stutterheim (Hrsg.), Räumliche Konzepte und sprachliche Strukturen (pp. 9⫺44). Tübingen: Niemeyer. Warren, R. M. (1970). Perceptual restoration of missing speech sounds. Science, 167, 392⫺393. Wenderoth, P. (1994). The salience of vertical symmetry. Perception, 23, 221⫺236.
Treisman, A. M. (1992). Merkmale und Gegenstände in der visuellen Verarbeitung. Gehirn und Kognition (pp. 134⫺144). Heidelberg: Spektrum Akademischer Verlag.
Williams, L. G. (1966). The effect of target specification on objects fixated during visual search. Perception & Psychophysics, 1, 315⫺318.
Treisman, A. M. & Gelade, G. (1980). A featureintegration theory of attention. Cognitive Psychology, 12, 97⫺136.
Wolfe, J. M. (1994). Guided search 2.0: A revised model of visual search. Psychonomic Bulletin Review, 1, 202⫺238.
Treisman, A. M. & Gormican, S. (1988). Feature analysis in early vision: Evidence from search asymmetries. Psychological Review, 95, 15⫺48.
Constanze Vorwerg Universität Bielefeld (Deutschland)
47. Verstehen von Raumbeschreibungen 1. 2. 3. 4. 5. 6. 7. 8.
Einleitung Situationsmodelle und Mentale Modelle Beschreibungen von Objektanordnungen Raumbeschreibungen in Erzähltexten Beschreibungen von Objektpositionen in Relation zum eigenen Körper Wegbeschreibungen Abschließende Bemerkungen Literatur
1.
Einleitung
Der Revolver lag links neben dem Toten. Peter geht vom Labor in den Abstellraum. Befestigen Sie die Schraube über dem Haken. Gehen
Sie geradeaus bis zum Bahnhof und dann links. Wie verstehen Menschen solche ganz unterschiedlichen Beschreibungen räumlicher Sachverhalte, die tagtäglich in Texten, Anleitungen, Wegbeschreibungen und ähnlichen verbalen Äußerungen enthalten sind? Das Verstehen von Raumbeschreibungen ist in den letzten zwei Jahrzehnten intensiv untersucht worden, und an dieser Stelle kann der vielfältige und komplexe Forschungsstand nur ausschnitthaft vorgestellt und zusammengefasst werden. Exemplarisch soll dabei auf vier Bereiche eingegangen werden, in denen räumliche Aspekte prominent sind: Be-
623
47. Verstehen von Raumbeschreibungen
schreibungen von Objektanordnungen, Erzähltexte, Wegbeschreibungen und Positionen von Objekten mit Bezug zum eigenen Körper.
2.
Situationsmodelle und Mentale Modelle
Seit Anfang der achtziger Jahre bilden die theoretischen Konstrukte des Mentalen Modells (Johnson-Laird, 1983) bzw. des Situationsmodells (van Dijk & Kintsch, 1983) die theoretische Basis für die meisten Untersuchungen zum Verstehen von Raumbeschreibungen. Im Folgenden wird von Situationsmodellen gesprochen, da der Begriff Mentales Modell mehrdeutig ist. Er wird in der Literatur mit mindestens drei verschiedenen Bedeutungen benutzt, nämlich als Repräsentationsform von dynamischen Systemen, als Komponente des deduktiven Schließens und als Repräsentationsebene beim Textverstehen. Nur im letzteren, hier relevanten Sinne sind Mentale Modelle und Situationsmodelle vergleichbar (vgl. Kapitel 37 in diesem Band). Das Situationsmodell bildet neben der sogenannten Textoberfläche und der Textbasis die dritte und für das Verstehen von Raumbeschreibungen entscheidende Repräsentationsebene des Textverstehens; es wird bei einem tieferen Verständnis des Textes gebildet. In einem Situationsmodell ist nicht die Bedeutung des Textes selbst, sondern mehr oder minder detailliert die vom Text beschriebene Situation repräsentiert (siehe Kapitel 37 in diesem Band oder auch Dutke, 1998; Rinck, 2000; Zwaan, 1999; Zwaan & Radvansky, 1998). Diese Situation ist sehr viel reichhaltiger als das, was im Text mit meist wenigen Worten beschrieben wird. Um diese reichhaltige Repräsentation herzustellen, werden die im Text enthaltenen Informationen mit Vorwissen aus dem Langzeitgedächtnis verknüpft; der Text wird um zahlreiche Inferenzen ergänzt (vgl. Kapitel 42 in diesem Band). Situationsmodelle sind multidimensional, d. h. es sollen in ihnen neben den Hauptpersonen eines Textes auch deren Ziele und Emotionen sowie die zeitlichen, kausalen und räumlichen Aspekte der jeweiligen Situation repräsentiert sein (Rinck, 2000; Zwaan, 1999). Letztere bilden dabei die mit Abstand am intensivsten untersuchte Dimension. Dies ist vermutlich nicht darin begründet, dass die räumliche Dimension für das Textverstehen von herausragender Bedeutung wäre (s.
Abschn. 4). Vielmehr scheint es forschungsstrategische Gründe zu haben: Bei ihr lassen sich Eigenschaften der beschriebenen Situation besonders leicht von Eigenschaften des beschreibenden Textes trennen, beispielsweise kann die räumliche Distanz zwischen zwei Objekten gering oder groß sein, unabhängig von ihrer Distanz auf der Textoberfläche oder in der Textbasis.
3.
Beschreibungen von Objektanordnungen
Die klassische Studie zum Verstehen von Objektanordnungen stammt von Bransford, Barclay und Franks (1972). Sie boten ihren Versuchspersonen (Vpn) eine Reihe von Sätzen dar, die räumliche Anordnungen von Objekten beschrieben, z. B. (A1) Three turtles rested on a floating log, and a fish swam beneath them. Nach einer kurzen Pause erhielten die Vpn eine Wiedererkennensaufgabe mit diesen Sätzen. Der Wiedererkennenstest enthielt daneben zur Hälfte neue Sätze, z. B. (A2) Three turtles rested on a floating log, and a fish swam beneath it. Dieser Satz unterscheidet sich vom Original nur durch den Austausch der Pronomen them und it. Dementsprechend schwierig war es für die Vpn, diesen neuen Satz als solchen zu erkennen. Andere Vpn. hörten in der Lernphase einen etwas anderen Satz, nämlich (B1) Three turtles rested beside a floating log, and a fish swam beneath them. Wenn diese Vpn in der Testphase den neuen Satz (B2) Three turtles rested beside a floating log, and a fish swam beneath it sahen, fiel es ihnen leicht, ihn als neu zu identifizieren. Dieser Befund ist zunächst erstaunlich, da sich B1 und B2 ebenso wie A1 und A2 nur durch die Pronomen am Satzende unterscheiden. Er ist aber leicht zu erklären, wenn man annimmt, dass sich die Vpn nicht den Wortlaut der Sätze merkten, sondern vor allem die von ihnen beschriebene Situation, d. h. die räumliche Anordnung der Objekte. Die Sätze A1 und A2 beschreiben dieselbe räumliche Anordnung und sind deshalb schwer zu unterscheiden; B1 und B2 beschreiben hingegen unterschiedliche Konstellationen und sind somit leichter unterscheidbar. Die klassischen Befunde von Bransford et al. (1972) können als erster Beleg für die Existenz von Situationsmodellen angesehen werden und wurden mittlerweile von Rinck, Hähnel und Becker (2001) repliziert. Mani und Johnson-Laird (1982) untersuchten das Verstehen von komplexeren
624 Raumbeschreibungen. Ihre Probanden lasen kurze Texte über die räumliche Anordnung von Gegenständen. Die Texte ließen entweder nur eine einzige Anordnung zu (determinierte Texte) oder waren mit zwei verschiedenen Anordnungen kompatibel (indeterminierte Texte). Oberflächlich unterschieden sich die beiden Textversionen nur in der Stellung eines einzigen Wortes, so dass die Repräsentation der Oberfläche und der Textbasis in beiden Fällen vergleichbar leicht sein sollten. Der Aufbau eines Situationsmodells sollte bei indeterminierten Texten hingegen erschwert sein. Dies wurde mittels eines nachfolgenden Wiedererkennenstests geprüft, bei dem die Vpn beurteilen sollten, ob verschiedene Aussagen in dem zuvor gelesenen Text enthalten waren. Unter den Aussagen waren erstens Originalaussagen, zweitens Aussagen, die zwar mit der beschriebenen Objektanordnung übereinstimmten, aber nicht im Text enthalten waren, und drittens Aussagen, die weder mit dem Text noch mit der Objektanordnung übereinstimmten. Mani und Johnson-Laird fanden, dass die nur mit der Objektanordnung übereinstimmenden Aussagen der zweiten Art bei determinierten Texten für ebenso korrekt gehalten wurden wie die Originalaussagen. Bei indeterminierten Texten wurden die Originalaussagen hingegen eindeutig vorgezogen. Dieser Befund wurde als Crossover-Effekt bezeichnet: Bei determinierten Texten bilden die Vpn ein Situationsmodell, und die Repräsentation von Wortlaut und Textbasis zerfällt schnell. Bei indeterminierten Texten ist die Situationsmodellbildung hingegen erschwert oder gar unmöglich, so dass zusätzlich bzw. statt dessen eine textnahe Repräsentation beibehalten wird. Nachfolgende Untersuchungen waren allerdings nicht immer in der Lage, den Crossover-Effekt zu replizieren, wofür vermutlich Fähigkeitsunterschiede der jeweiligen Vpn verantwortlich sind: Dutke (1999) konnte zeigen, dass der Effekt nur bei Personen mit unterdurchschnittlicher visuell-räumlicher Vorstellungsfähigkeit auftritt. Es steht zu vermuten, dass in vielen der misslungenen Replikationsversuche statt dessen studentische Vpn mit überdurchschnittlichen Fähigkeiten untersucht wurden. Per definitionem integrieren Situationsmodelle beim Verstehen von Raumbeschreibungen Aussagen des Textes mit vorhandenem Vorwissen, so dass sich die Frage stellt, welcher Art dieses Vorwissen ist. Dutke (1993, 1994) konnte zeigen, dass das Vorwissen
IV. Sprachrezeption
nicht nur episodischer Art ist, sondern auch schematisches Wissen zur Situationsmodellbildung benutzt werden kann. Dutkes Vpn lasen wie in der Untersuchung von Mani und Johnson-Laird (1982) determinierte und indeterminierte Beschreibungen räumlicher Anordnungen von Objekten oder Personen. Zusätzlich wurde variiert, ob die beschriebenen Anordnungen schematisch oder nichtschematisch waren. Beispielsweise existiert für die Anordnung von Teller, Messer, Gabel, Löffel und Glas auf einem gedeckten Tisch ein kulturbedingtes Schema, das den Vpn bekannt sein dürfte. Für die Anordnung von auf einer Werkbank verstreuten Werkzeugen existiert hingegen kein Schema. Dutke fand, dass der Crossover-Effekt nur bei nicht-schematischen Anordnungen auftrat. Bei schematischen Anordnungen erlaubten indeterminierte Beschreibungen hingegen eine ebenso gute Situationsmodellbildung wie determinierte. Offensichtlich kompensierte hier die Verfügbarkeit von eindeutigem, schematischem Wissen die Mehrdeutigkeit der Texte.
4.
Raumbeschreibungen in Erzähltexten
Bei den Texten der bisher beschriebenen Untersuchungen handelt es sich zumeist um eher inhaltsarme Beschreibungen von räumlichen Objektanordnungen. Die Repräsentation von räumlichen Informationen in Situationsmodellen wurde jedoch auch häufig mit längeren Erzähltexten untersucht, in denen neben den räumlichen auch zahlreiche andere Informationen von Bedeutung waren. Eine der ersten Untersuchungen, mit denen die Repräsentation von räumlichen Informationen in Situationsmodellen belegt wurde, stammt von O’Brien und Albrecht (1992). Sie verwendeten das sogenannte Inkonsistenzparadigma, indem sie ihren Vpn kurze Texte satzweise darboten und die Lesezeit jedes einzelnen Satzes maßen (self-paced reading). Am Anfang jedes Textes wurde ein Satz dargeboten, der eine räumliche Information enthielt, z. B. As Kim stood inside the health club she felt a little sluggish. Bei der Hälfte der Vpn wurde das Wort inside jedoch durch outside ersetzt. Später im Text wurde ein Satz dargeboten, der beispielsweise She decided to go out and stretch her legs a little lautete. Dieser kritische Satz war nur mit der Inside-Variante des ersten Satzes konsistent, widersprach jedoch der Outside-Variante, denn eine Person kann ein
47. Verstehen von Raumbeschreibungen
Gebäude nicht verlassen, wenn sie sich bereits außerhalb des Gebäudes befindet. Wenn die Leser den Aufenthaltsort der Hauptperson in einem Situationsmodell des Textes repräsentieren, sollte ihnen diese Inkonsistenz auffallen, so dass sich die Lesezeit des kritischen Satzes verlängert. Dies war auch tatsächlich der Fall. Vergleichbare Ergebnisse wurden auch von Haenggi, Gernsbacher und Bolliger (1994) berichtet. Zahlreiche Untersuchungen beschäftigten sich mit der Frage, welche Auswirkungen die in Situationsmodellen repräsentierte räumliche Distanz auf die Fokussierung der Aufmerksamkeit beim Lesen hat. Eine der ersten und einflussreichsten Studien stammt von Glenberg, Meyer und Lindem (1987). Sie boten ihren Vpn kurze Texte dar, in denen sich die Hauptperson von einem Ort zu einem anderen bewegte und dabei ein kritisches Objekt entweder mit sich nahm (assoziierte Bedingung) oder zurückließ (dissoziierte Bedingung). Ein Beispiel für die assoziierte Bedingung lautete folgendermaßen: Warren spent the afternoon shopping at the store. He picked up his bag and went to look at some scarves. He had been shopping all day. He thought it was getting too heavy to carry. In der dissoziierten Bedingung wurde nur picked up durch put down ersetzt, so dass oberflächlich und propositional nur ein minimaler Unterschied zwischen den beiden Bedingungen bestand. Auf der Ebene des Situationsmodells bestand jedoch ein gravierender Unterschied, denn das assoziierte Objekt befand sich räumlich nahe am Fokus der Aufmerksamkeit (nämlich der Hauptperson), das dissoziierte Objekt hingegen fern vom Fokus. Die Texte wurden satzweise self-paced dargeboten, und die Lesezeit des letzten Satzes mit dem Pronomen it, welches sich auf das kritische Objekt bag bezieht, stellte die abhängige Variable dar. Wenn die Verfügbarkeit des kritischen Objekts von der räumlichen Distanz zwischen Objekt und Hauptperson abhängt, sollte der referentielle Verweis im letzten Satz in der assoziierten Bedingung schneller verstanden und der Satz somit schneller gelesen werden als in der dissoziierten Bedingung. Tatsächlich fanden Glenberg et al. (1987) den vorhergesagten Unterschied in den Lesezeiten der letzten Sätze. Für ihre Interpretation dieses Effekts spricht auch, dass kein Unterschied auftrat, wenn der Satz He had been shopping all day weggelassen wurde. In diesem Fall befand sich der Referent bag für das Pronomen it im direkt vorangegangenen
625 Satz, welcher in der Regel ⫺ unabhängig von den Eigenschaften des Situationsmodells ⫺ im Arbeitsgedächtnis aktiv gehalten wird. Tatsächlich fanden Glenberg et al. (1987) in diesem Fall in beiden Bedingungen besonders kurze Lesezeiten des kritischen Satzes. Auch Müsseler, Hielscher und Rickheit (1995) sowie Kaup (1994) wendeten das Glenberg-Paradigma erfolgreich an. Allerdings könnte man gegen das Paradigma von Glenberg et al. (1987) einwenden, dass es nur eine sehr grobe Variation der räumlichen Distanz erlaubt, indem sich das kritische Objekt entweder direkt bei der Hauptperson oder sehr weit von ihr entfernt befindet. Ob auch graduelle Unterschiede in der räumlichen Distanz zu Unterschieden in der Verfügbarkeit der Objekte führen, bleibt mit dieser Studie offen. Diese Frage wurde mit zahlreichen Experimenten beantwortet, die ein von Morrow und seinen Kollegen entwickeltes Paradigma verwendeten (Morrow, Greenspan & Bower, 1987; Morrow, Bower & Greenspan, 1989). Um das für die Situationsmodellbildung notwendige räumliche Vorwissen sicherzustellen, lernen die Vpn in diesem Paradigma zunächst den Grundriss eines Gebäudes mit Räumen und darin befindlichen Objekten auswendig. Sobald sie den Grundriss beherrschen, beginnt der eigentlich interessierende Teil des Experiments, das Lesen von Geschichten. Die Geschichten spielen alle in dem gelernten Gebäude. Die aufmerksamkeitssteuernde Wirkung von Situationsmodellen wird überprüft, indem das Lesen in unregelmäßigen Abständen durch eine Probenbeurteilungsaufgabe unterbrochen wird. Die dargebotenen Testproben bestehen zumeist aus den Namen zweier der zuvor gelernten Objekte. Die Aufgabe der Vpn besteht darin, so schnell und korrekt wie möglich zu entscheiden, ob die beiden Objekte aus demselben Raum oder aus verschiedenen Räumen stammen. Morrow et al. (1987, 1989) fanden bei dieser Aufgabe einen räumlichen Gradienten der Verfügbarkeit: Je näher sich die beiden Objekte einer Testprobe am Fokus der Aufmerksamkeit, d. h. am Aufenthaltsort der Hauptperson befanden, desto schneller konnten die Testproben beurteilt werden. Dieser räumliche Gradient der Verfügbarkeit erwies sich als stabiles Phänomen, er wurde inzwischen vielfach repliziert (u. a. von Haenggi et al., 1994, 1995; Rinck & Bower, 1995; Rinck, Williams, Bower & Becker, 1996; Rinck, Hähnel, Bower & Glowalla, 1997). Auch ergänzen sich die Vorgehenswei-
626 sen von Glenberg et al. (1987) sowie Morrow et al. (1987, 1989) sehr gut: Das GlenbergParadigma liefert zwar nur eine dichotome Unterscheidung zwischen räumlich nah und fern, dies jedoch basierend auf bereits vorhandenem Vorwissen. Demgegenüber wird das Vorwissen beim Morrow-Paradigma zwar künstlich erworben, das Paradigma belegt aber einen graduellen Effekt der räumlichen Distanz. Rinck und Bower (1995) entwickelten zudem eine Variante des Morrow-Paradigmas, bei der die Auswirkung der im Situationsmodell repräsentierten Distanz durch referentielle Verweise auf ein Objekt geprüft wurde. Auch hierbei trat der schon zuvor beobachtete räumliche Distanzeffekt auf: Sätze mit Verweisen auf ein zuvor gelerntes Objekt wurden umso schneller gelesen und verstanden, je näher sich das Objekt am Aufenthaltsort der Hauptperson und damit am Fokus der Aufmerksamkeit befand. Gegenüber der Verwendung von Testproben hat die Darbietung von Sätzen mit referentiellen Verweisen zudem den Vorteil größerer Natürlichkeit: Das Lesen wird nicht durch eine Zweitaufgabe unterbrochen, und die Vpn erkennen die Fragestellung des Experiments nicht so leicht. Eine noch ungeklärte Frage in Bezug auf das Verstehen von Raumbeschreibungen lautet, in welchem Format diese in Situationsmodellen repräsentiert werden, vor allem, ob Situationsmodelle analoge Repräsentationen räumlicher Beziehungen sind, wie ursprünglich von Johnson-Laird (1983) für sein Konzept der Mental Models postuliert. Eine Extremform analoger Repräsentation wären beispielsweise mentale Vorstellungsbilder. Die Klärung dieser Frage wird durch theoretische wie methodische Probleme erschwert: Zum einen wird selten spezifiziert, auf welchem Abstraktionsniveau die Analogie postuliert wird (vgl. Dutke, 1998; Schnotz, 1993), zum anderen sind verschiedene experimentelle Paradigmen in Bezug auf diese Frage nicht unbedingt vergleichbar. Beispielsweise fanden Denis und Zimmer (1992) mit drei verschiedenen Methoden (Mental Scanning, Priming, Distanzvergleich) übereinstimmende Ergebnisse, die auf ein analoges Repräsentationsformat kognitiver Landkarten hinweisen. Demgegenüber sprechen Befunde aus dem Bereich des Verstehens von Erzähltexten eher gegen analoge Repräsentationen räumlicher Distanzen. Statt dessen scheint die in Situationsmodellen von Texten repräsentierte Distanz nur kategorial skaliert zu
IV. Sprachrezeption
sein (Langston, Kramer & Glenberg, 1998; Rinck et al., 1997). In der dem Morrow-Paradigma folgenden Studie von Rinck et al. (1997) wurde die Distanz zwischen dem Fokus der Aufmerksamkeit, d. h. dem Aufenthaltsort der Hauptperson, und einem getesteten Objekt sowohl metrisch als auch kategorial variiert. Die Variationen waren unabhängig voneinander, indem die Räume zwischen Hauptperson und Objekt unterschiedlich lang bzw. unterschiedlich zahlreich waren. Der von Rinck et al. (1997) beobachtete Distanzeffekt hing nur von der kategorialen Distanz ab: Die Anzahl der Räume zwischen Hauptperson und Objekt bestimmte dessen Verfügbarkeit, nicht die Länge der Räume. Dies war der Fall, obgleich die Vpn sehr wohl über metrisches Wissen verfügten, wie zwei weitere Aufgaben zeigten (Distanzbeurteilungen von Objektpaaren und Zeichnen des gelernten Grundrisses). Sie wendeten dieses Wissen bei der Bildung und Aktualisierung ihres Situationsmodells aber offensichtlich nicht an. Bower und Rinck (2001) haben zudem kürzlich ein assoziatives Netzwerkmodell vorgestellt, welches in der Lage ist, die mit dem Glenberg- und Morrow-Paradigma gefundenen Distanzeffekte ohne Annahme von analogen Repräsentationen vorherzusagen. Zusammen genommen spricht diese uneinheitliche Befundlage dafür, Situationsmodelle und Mentale Modelle nicht an Hand ihrer Repräsentationsform, sondern ⫺ wie von van Dijk und Kintsch (1983) vorgeschlagen ⫺ an Hand der repräsentierten Inhalte zu definieren (vgl. Kapitel 37 in diesem Band). Neben der Frage der Repräsentationsform ist in der einschlägigen Literatur auch umstritten, ob und unter welchen Umständen räumliche Aspekte überhaupt in Situationsmodellen repräsentiert werden. Beispielsweise kritisierten Zwaan und van Oostendorp (1993), räumliche Situationsmodelle seien Artefakte der viel zu artifiziellen Texte, welche in den einschlägigen Experimenten verwendet wurden. Deshalb boten sie ihren Vpn statt solcher Texte einen Ausschnitt aus einem Kriminalroman dar. Dabei fanden sie, dass ihre Vpn nicht automatisch die zur Situationsmodellbildung notwendigen räumlichen Inferenzen zogen. Dies taten sie nur, wenn sie explizit aufgefordert wurden, auf räumliche Informationen zu achten. Bei der Aufforderung, normal zum Vergnügen zu lesen, wurden räumliche Informationen schneller gelesen und seltener räumliche Inferenzen gebildet. Bei anderen Informationen war hingegen
47. Verstehen von Raumbeschreibungen
kein Unterschied dieser Art zu beobachten. Diese Befunde stimmen mit denen von Zwaan und seinen Kollegen überein (Zwaan, Langston & Graesser, 1995; Zwaan, Magliano & Graesser, 1995; Zwaan, Radvansky, Hilliard & Curiel, 1998). Sie fanden, dass die räumliche Dimension von Situationsmodellen trotz ihrer intensiven Erforschung die unwichtigste zu sein scheint, so dass Variationen räumlicher Aspekte in ihren Experimenten den geringsten Effekt hatten. Ähnliche Befunde wurden von de Vega (1995) sowie Wolf, Hasebrook und Rinck (1999) berichtet. In den Experimenten von de Vega (1995) aktualisierten die Vpn räumliche Aspekte des Situationsmodells nur nachträglich und nur, wenn der Text zusätzliche Hinweise auf ihre Bedeutung enthielt (backward updating). Wolf et al. (1999) fanden, dass der zuvor vielfach replizierte Distanzeffekt nur auftrat, wenn kurz vor dem Test der Verfügbarkeit auf den momentanen Aufenthaltsort der Hauptperson hingewiesen wurde. Andere Studien zeigten zudem, dass räumliche Informationen nur verfügbar waren, wenn sie salient (Levine & Klin, 2001) bzw. funktional (Radvansky & Copeland, 2000) bzw. für das Verstehen notwendig waren (Hakala, 1999). Zusammengenommen zeigen diese Untersuchungen, dass es sich bei der Bildung von räumlichen Situationsmodellen eher um eine Möglichkeit als um ein gesetzmäßig auftretendes Phänomen handelt: Nicht alle Leser können vergleichbar leicht räumliche Situationsmodelle bilden, und auch wenn es möglich ist, geschieht es keineswegs immer, sondern hängt von den Zielen der Leser und den Eigenschaften der Texte ab. Hier scheint also möglicherweise ein Missverhältnis zwischen der Bedeutung von räumlichen Informationen für das Textverstehen einerseits und ihrer Häufigkeit als Forschungsgegenstand andererseits vorzuliegen.
5.
Beschreibungen von Objektpositionen in Relation zum eigenen Körper
Die im vorigen Abschnitt beschriebenen Studien beschäftigten sich vor allem mit der Repräsentation von räumlichen Distanzen. Darüber hinaus wurde auch die Repräsentation von Richtungen, vor allem in Bezug auf den eigenen Körper, untersucht. Franklin und Tversky (1990) formulierten hierzu die Hypothese, dass Menschen generell ein spatial
627 framework konstruieren, bei dem die Positionen von Objekten auf die drei Achsen des eigenen Körpers (oben-unten, vorn-hinten, links-rechts) bezogen werden. Beim Verstehen von Raumbeschreibungen sollen sich Leser darüber hinaus in die Position und Perspektive der jeweiligen Hauptperson versetzen und im Text genannte Objekte in Relation zu den hypothetischen Körperachsen der Hauptperson lokalisieren, z. B. als schräg links vor ihr. Eine wichtige Eigenschaft der drei Körperachsen besteht darin, dass sie im Situationsmodell ebenso wie in der Realität unterschiedlich wichtig und unterschiedlich leicht verfügbar sind (Franklin & Tversky, 1990). Die Oben-unten-Achse ist am auffälligsten, und Objekte sind auf dieser Achse am leichtesten zu lokalisieren, da der menschliche Körper hinsichtlich dieser Achse asymmetrisch ist und die Schwerkraft entlang dieser Achse wirkt. Die Vorn-hinten-Achse ist weniger leicht verfügbar, da sie zwar wichtige Asymmetrien in Bezug auf Wahrnehmung und Verhalten aufweist (z. B. können in der Regel nur Objekte vor der Person gesehen und mit den Händen manipuliert werden), aber nicht mit der Schwerkraft korreliert. Die Links-rechts-Achse ist die schwierigste, da weder Asymmetrien noch die Schwerkraft einen Unterschied zwischen links und rechts erlauben. Tatsächlich fanden Franklin und Tversky (1990) Reaktionszeitmuster, die dem spatial framework entsprachen: Vpn konnten Objekte innerhalb eines Situationsmodells am schnellsten identifizieren, wenn die Objekte entlang der körpereigenen Oben-untenAchse der Hauptperson lokalisiert waren, also über oder unter ihr. Lokalisationen vor oder hinter der Hauptperson führten zu mittleren Reaktionszeiten, wobei Objekte vor der Hauptperson schneller identifiziert wurden als Objekte hinter ihr. Die Links-rechts-Achse war erwartungsgemäß am schlechtesten verfügbar; Identifikationen von Objekten links oder rechts waren am langsamsten und fehlerträchtigsten. Die Bedeutungsrangreihe der körpereigenen Achsen hängt jedoch davon ab, ob sich die Vp mental innerhalb des Situationsmodells wähnt, d. h. ein sogenanntes internales räumliches Bezugssystem zur Repräsentation der Objektlokalisationen aufgebaut hat, oder ob sie ein externales Bezugssystem verwendet, bei dem sie sozusagen von außen auf die Objektanordnung blickt (auch egozentrisches vs. allozentrisches Bezugssystem genannt). Im ersten Falle sind Objekte vor der Haupt-
628
IV. Sprachrezeption
person wiederum schneller verfügbar als solche hinter ihr. Bei einem externalen Bezugssystem ergibt sich hingegen kein Unterschied zwischen Objekten, die sich vor bzw. hinter einem Bezugsobjekt befinden (Bryant, Franklin & Tversky, 1992). Die Bildung von internalen oder externalen Bezugssystemen hängt auch von der Anzahl der in einem Text vorhandenen Personen ab. Franklin, Tversky und Coon (1992) boten ihren Vpn Texte mit zwei Hauptpersonen dar: eine mit Du bezeichnete Person, mit der sich die Vpn identifizieren sollten, und eine andere Person. Diese beiden Personen waren im Situationsmodell so ausgerichtet (z. B. einander gegenüber stehend), dass sie unterschiedliche Perspektiven auf die im Situationsmodell lokalisierten Objekte aufwiesen. Dies führte dazu, dass die Vpn ein von der Perspektive der einzelnen Personen unabhängiges, externales Bezugssystem bildeten. Ein internales Bezugssystem und damit die von Franklin und Tversky (1990) gefundene Rangreihe der drei Körperachsen war erst wieder zu beobachten, als die beiden Personen in verschiedenen räumlichen Umgebungen lokalisiert wurden (vgl. Hörnig, Eyferth & Claus, 1999).
6.
Wegbeschreibungen
Wie komme ich von hier zum Bahnhof? Fragen dieser Art werden in der Regel durch Wegbeschreibungen, d. h. Instruktionen zum Erreichen des genannten Zieles, beantwortet. Wegbeschreibungen (auch Routeninstruktionen genannt, engl. route directions) stellen eine ebenso alltagsrelevante wie theoretisch interessante Form von Raumbeschreibungen dar. Im Vergleich zu den bisher beschriebenen zeichnen sie sich durch einige Besonderheiten aus (vgl. Daniel & Denis, 1998). Erstens sind sie primär instruktiv und verhaltensorientiert: Sie werden in der Regel nicht zum Vergnügen oder für einen Behaltenstest rezipiert, sondern um sich zu dem genannten Ziel zu bewegen. Damit sind sie auch aus experimentalpsychologischer Sicht besonders interessant, denn neben den herkömmlichen Verständnis- und Behaltenstests legen sie Verhaltenstests nahe: Wie gut sie verstanden wurden, lässt sich daran erkennen, wie gut die Vpn in der Lage sind, das genannte Ziel tatsächlich zu erreichen. Zweitens gilt für Wegbeschreibungen, was bei den bisher genannten zwei- oder dreidimensionalen Objektanordnungen meist nicht der Fall ist: Die be-
schriebene räumliche Struktur entspricht der linearen Struktur der Sprache (vgl. Kapitel 28 in diesem Band), indem die Reihenfolge einzelner Anweisungen die Reihenfolge der Wegkomponenten widerspiegelt. Drittens lässt sich bei Wegbeschreibungen ebenso wie bei den oben genannten Objektanordnungen eine egozentrische von einer allozentrischen Perspektive unterscheiden. Diese werden bei Wegbeschreibungen auch als Routen- vs. Überblicksperspektive bezeichnet (vgl. Taylor & Tversky, 1992), und in der Regel verwenden Wegbeschreibungen eine egozentrische Routenperspektive. Trotz ihrer Alltagsrelevanz und ihrer interessanten theoretischen Eigenschaften sind Wegbeschreibungen bisher nur selten untersucht worden. Frühere Studien verglichen zunächst die mentalen Repräsentationen, welche Leser aufgrund von Routen- versus Überblicksbeschreibungen aufbauen. So schilderten Perrig und Kintsch (1985) ihren Vpn die Topographie einer kleinen Stadt und ihrer Sehenswürdigkeiten entweder entlang eines möglichen Weges (Routenversion) oder aus der Vogelperspektive (Überblicksversion). Sie fanden u. a., dass die linear organisierte Routenversion zu einer kohärenteren Repräsentation der Textbasis führte. Taylor und Tversky (1992) boten ihren Vpn ebenfalls Beschreibungen räumlicher Szenarien (z. B. eine Stadt und ein Zoo) als Routen- oder Überblicksversion dar, andere Vpn erhielten einen gezeichneten Plan. Sie fanden, dass die beiden Arten verbaler Beschreibungen zu unterschiedlichen Textrepräsentationen führten. Hinsichtlich des daraus gebildeten Situationsmodells waren sie jedoch vergleichbar und unterschieden sich auch nicht von dem aus einer Zeichnung gebildeten Situationsmodell. Die funktionale Qualität verschiedener Wegbeschreibungen wurde von Denis, Pazzaglia, Cornoldi und Bertolo (1999) mit einem originellen Test empirisch überprüft. Zunächst ließen sie von Einwohnern der Stadt Venedig Beschreibungen von (Fuß-) Wegen mit definierten Ausgangs- und Zielpunkten in der Stadt anfertigen. Diese natürlichen Beschreibungen wurden sodann von anderen Personen hinsichtlich ihrer Qualität bewertet. Auf diese Weise wurden besonders gute und besonders schlechte Wegbeschreibungen identifiziert. Zusätzlich generierten Denis et al. (1999) aus allen natürlichen Wegbeschreibungen sogenannte Skelett-Beschreibungen. Diese zeichnen sich dadurch aus, dass sie nur die Komponenten enthalten, die
629
47. Verstehen von Raumbeschreibungen
von sehr vielen Personen für wichtig gehalten werden (für eine genauere Beschreibung des Verfahrens siehe Daniel & Denis, 1998). Schließlich wurde die funktionale Qualität der guten, der schlechten und der Skelett-Beschreibungen getestet. Dazu versuchten neue Vpn, die sich in Venedig nicht auskannten, mit Hilfe der Beschreibungen vom Ausgangszum Zielpunkt zu finden. Die Ergebnisse dieses Verhaltenstests waren eindeutig: Bei als schlecht beurteilten Wegbeschreibungen machten die Vpn mehr Richtungsfehler, zögerten häufiger und baten häufiger um Hilfe als bei guten Beschreibungen und Skelett-Beschreibungen. Diese beiden Arten von Beschreibungen waren vergleichbar hilfreich.
7.
Abschließende Bemerkungen
Wie bereits die wenigen hier angeführten Beispiele zeigen, ist das Verstehen von Raumbeschreibungen bereits recht intensiv untersucht worden. Trotzdem bleiben einige offene Fragen und Probleme, die hier nur kurz angerissen werden können. Hier sind zunächst die unzureichend geklärten Randbedingungen der Situationsmodellbildung beim Verstehen von Raumbeschreibungen zu nennen. Einige der im dritten Abschnitt genannten Untersuchungen (z. B. Zwaan & van Oostendorp, 1993) deuten darauf hin, dass es sich bei der Bildung räumlicher Situationsmodelle eher um eine Kompetenz der Leser als um eine regelmäßig auftretende Verstehensleistung handeln könnte. In diesem Zusammenhang sind auch die Ergebnisse von Zwaan und seinen Kollegen (z. B. Zwaan et al., 1998) erwähnenswert. Sie legen nahe, dass räumliche Informationen im Vergleich zu anderen, beispielsweise kausalen, zeitlichen und emotionalen Informationen, eher seltener inferiert und in Situationsmodellen repräsentiert werden. Auch die teils widersprüchlichen Ergebnisse bezüglich der Repräsentationsform von räumlichen Informationen könnten in dieser Weise erklärt werden: Möglicherweise stellt die analoge Repräsentation von metrischen Distanzinformationen ebenfalls eine Möglichkeit, aber keineswegs die Regel beim Verstehen von Raumbeschreibungen dar. Zudem hängt das Verstehen von Raumbeschreibungen offensichtlich auch von individuellen Fähigkeiten ab, neben den verbalen Fähigkeiten kommen hier die räumliche Vorstellungsfähigkeit und die räumliche Arbeitsgedächtnisspanne in Betracht. Die Bedeutung interindi-
vidueller Differenzen ist jedoch bisher kaum jemals untersucht worden (für Ausnahmen siehe Dutke, 1999; Haenggi et al., 1994). Auf diesem Gebiet verspricht die Verbindung von Methoden und Fragestellungen aus Allgemeiner Psychologie und Differentieller Psychologie einigen Erkenntnisgewinn.
8.
Literatur
Bower, G. H. & Rinck. M. (2001). Selecting one among many referents in spatial situation models. Journal of Experimental Psychology: Learning, Memory, and Cognition, 27, 81⫺98. Bransford, J. D., Barclay, J. R. & Franks, J. J. (1972). Sentence memory: A constructive versus interpretive approach. Cognitive Psychology, 3, 193⫺209. Bryant, D. J., Tversky, B. & Franklin, N. (1992). Internal and external spatial frameworks for representing described scenes. Journal of Memory and Language, 31, 74⫺98. Daniel, M.-P. & Denis, M. (1998). Spatial descriptions as navigational aids: A cognitive analysis of route directions. Kognitionswissenschaft, 7, 45⫺52. Denis, M., Pazzaglia, F., Cornoldi, C. & Bertolo, L. (1999). Spatial discourse and navigation: An analysis of route directions in the city of Venice. Applied Cognitive Psychology, 13, 145⫺174. Denis, M. & Zimmer, H. D. (1992). Analog properties of cognitive maps constructed from verbal descriptions. Psychological Research, 54, 286⫺298. de Vega, M. (1995). Backward updating of mental models during continuous reading of narratives. Journal of Experimental Psychology: Learning, Memory, and Cognition, 21, 373⫺385. Dutke, S. (1993). Mentale Modelle beim Erinnern sprachlich beschriebener räumlicher Anordnungen: Zur Interaktion von Gedächtnisschemata und Textrepräsentation. Zeitschrift für experimentelle und angewandte Psychologie, 40, 44⫺71. Dutke, S. (1994). Mentale Modelle beim Erinnern sprachlich beschriebener räumlicher Anordnungen: Zeitliche Aspekte der Modellkonstruktion und -nutzung. Zeitschrift für experimentelle und angewandte Psychologie, 41, 523⫺548. Dutke, S. (1998). Zur Konstruktion von Sachverhaltsrepräsentationen beim Verstehen von Texten: 15 Jahre nach Johnson-Lairds Mental Models. Zeitschrift für Experimentelle Psychologie, 45, 42⫺59. Dutke, S. (1999). Der Crossover-Effekt von propositionaler Textrepräsentation und mentalem Modell: Zur Rolle interindividueller Fähigkeitsunter-
630 schiede. Zeitschrift für Experimentelle Psychologie, 46, 164⫺176. Franklin, N. & Tversky, B. (1990). Searching imagined environments. Journal of Experimental Psychology: General, 119, 63⫺76. Franklin, N., Tversky, B. & Coon, V. (1992). Switching points of view in spatial mental models. Memory & Cognition, 20, 507⫺518. Glenberg, A. M., Meyer, M. & Lindem, K. (1987). Mental models contribute to foregrounding during text comprehension. Journal of Memory and Language, 26, 69⫺83. Haenggi, D., Gernsbacher, M. A. & Bolliger, C. A. (1994). Individual differences in situation-based inferencing during narrative text comprehension. In H. van Oostendorp & R. A. Zwaan (Eds.), Naturalistic text comprehension (pp. 79⫺96). Norwood, NJ: Ablex. Haenggi, D., Kintsch, W. & Gernsbacher, M. A. (1995). Spatial situation models and text comprehension. Discourse Processes, 19, 173⫺199. Hakala, C. M. (1999). Accessibility of spatial information in a situation model. Discourse Processes, 27, 261⫺279. Hörnig, R., Eyferth, K. & Claus, B. (1999). Egozentrische Inferenz von Objektpositionen beim Lesen und Hören. Zeitschrift für Experimentelle Psychologie, 46, 140⫺151. Johnson-Laird, P. N. (1983). Mental models. Cambridge: Cambridge University Press. Kaup, B. (1994). Zur Resolution pluraler Anaphern beim Textverstehen: Effekte funktionaler und räumlicher Distanz im mentalen Modell. Diplomarbeit. TU Berlin. Langston, W., Kramer, D. C. & Glenberg, A. M. (1998). The representation of space in mental models derived from text. Memory & Cognition, 26, 247⫺262. Levine, W. H. & Klin, C. M. (2001). Tracking of spatial information in narratives. Memory & Cognition, 29, 327⫺335. Mani, K. & Johnson-Laird, P. N. (1982). The mental representation of spatial descriptions. Memory & Cognition, 10, 181⫺187. Morrow, D. G., Bower, G. H. & Greenspan, S. L. (1989). Updating situation models during narrative comprehension. Journal of Memory and Language, 28, 292⫺312. Morrow, D. G., Greenspan, S. L. & Bower, G. H. (1987). Accessibility and situation models in narrative comprehension. Journal of Memory and Language, 26, 165⫺187.
IV. Sprachrezeption Müsseler, J., Hielscher, M. & Rickheit, G. (1995). Focussing in spatial mental models. In G. Rickheit & C. Habel (Eds.), Focus and coherence in discourse processing (pp. 35⫺74). Berlin: de Gruyter. O’Brien, E. J. & Albrecht, J. E. (1992). Comprehension strategies in the development of a mental model. Journal of Experimental Psychology: Learning, Memory, and Cognition, 18, 777⫺784. Perrig, W. & Kintsch, W. (1985). Propositional and situational representations of text. Journal of Memory and Language, 24, 503⫺518. Radvansky, G. A. & Copeland, D. E. (2000). Functionality and spatial relations in memory and language. Memory & Cognition, 28, 987⫺922. Rinck, M. (2000). Situationsmodelle und das Verstehen von Erzähltexten: Befunde und Probleme. Psychologische Rundschau, 51, 115⫺122. Rinck, M. & Bower, G. H. (1995). Anaphora resolution and the focus of attention in situation models. Journal of Memory and Language, 34, 110⫺ 131. Rinck, M., Hähnel, A. & Becker, G. (2001). Using temporal information to construct, update, and retrieve situation models of narratives. Journal of Experimental Psychology: Learning, Memory, and Cognition, 27, 67⫺80. Rinck, M., Hähnel, A., Bower, G. H. & Glowalla, U. (1997). The metrics of spatial situation models. Journal of Experimental Psychology: Learning, Memory, and Cognition, 23, 622⫺637. Rinck, M., Williams, P., Bower, G. H. & Becker, E. S. (1996). Spatial situation models and narrative understanding: Some generalizations and extensions. Discourse Processes, 21, 23⫺55. Schnotz, W. (1993). Mentale Repräsentationen beim Textverstehen. Zeitschrift für Psychologie, 201, 237⫺259. Taylor, H. A. & Tversky, B. (1992). Spatial mental models derived from survey and route descriptions. Journal of Memory and Language, 31, 261⫺292. van Dijk, T. A. & Kintsch, W. (1983). Strategies of discourse comprehension. New York: Academic Press. Wolf, K., Hasebrook, J. & Rinck, M. (1999). Wand oder keine Wand? Die Repräsentation räumlicher Veränderungen in Situationsmodellen. Zeitschrift für Experimentelle Psychologie, 46, 152⫺163. Zwaan, R. A. (1999). Five dimensions of narrative comprehension: The event-indexing model. In S. R. Goldman, A. C. Graesser & P. van den Broek (Eds.), Narrative comprehension, causality, and coherence: Essays in honor of Tom Trabasso (pp. 93⫺ 110). Mahwah, NJ: Erlbaum.
631
48. Verstehen von Kausalitätszusammenhängen Zwaan, R. A., Langston, M. C. & Graesser, A. C. (1995). The construction of situation models in narrative comprehension: An event-indexing model. Psychological Science, 6, 292⫺297.
Zwaan, R. A., Radvansky, G. A., Hilliard, A. E. & Curiel, J. M. (1998). Constructing multidimensional situation models during reading. Scientific Studies of Reading, 2, 199⫺220.
Zwaan, R. A., Magliano, J. P. & Graesser, A. C. (1995). Dimensions of situation model construction in narrative comprehension. Journal of Experimental Psychology: Learning, Memory, and Cognition, 21, 386⫺397.
Zwaan, R. A. & van Oostendorp, H. (1993). Do readers construct spatial representations during naturalistic story comprehension? Discourse Processes, 16, 125⫺143.
Zwaan, R. A. & Radvansky, G. A. (1998). Situation models in language comprehension and memory. Psychological Bulletin, 123, 162⫺185.
Mike Rinck Universität Dresden (Deutschland)
48. Verstehen von Kausalitätszusammenhängen 1. 2.
5. 6.
Vorbemerkungen Zu ausgewählten Kausalitätsauffassungen in der Philosophie Zum Kausalitätsbegriff in der Psychologie Schwerpunkte der psychologischen Kausalitätsforschung Ausblick Literatur
1.
Vorbemerkungen
3. 4.
Unsere Umwelt ist nicht ungeordnet, sondern strukturiert. Die bestehenden Regularitäten lassen sich inhaltlich differenzieren, wobei der Kausalität eine besondere Bedeutung zukommt. Nach dem allgemeinen Verständnis handelt es sich dabei um einen Zusammenhang zwischen Objekten, Ereignissen, Prozessen usw., bei dem eine Erscheinung A (Ursache genannt) unter bestimmten Bedingungen eine bestimmte andere Erscheinung B (Wirkung genannt) mit Notwendigkeit hervorbringt. Kausalität, Kausalzusammenhang oder Ursache-Wirkungs- (Folge-, Effekt-) Zusammenhang werden synonym verwendet. Die Geschichte der Entwicklung der Kausalitätsauffassungen in der Philosophie und in den Einzelwissenschaften, wie z. B. der Psychologie, ist lang und widersprüchlich. Die philosophische Literatur ist vorwiegend normativ ausgerichtet. Dabei ist das Bemühen um eine exakte Bestimmung des Begriffs Kausalität von zentraler Bedeutung. Psychologische Ansätze thematisieren hingegen primär, wie Menschen Kausalzusammenhänge wahrnehmen, verstehen und für die Handlungsregulation nutzen. In der Psychologie sind wichtige philosophische Theorien zur Kausalität rezipiert und zum Teil aufgegriffen
worden (Oestermeier, 1997: 70). Umgekehrt trifft das für die Philosophie nicht in gleichem Maße zu. Im Folgenden wird zunächst der Kausalitätsbegriff aus philosophischer und psychologischer Sicht diskutiert. Daran schließt sich die Darstellung traditioneller Schwerpunkte psychologischer Kausalitätsforschung an. Ausgehend von diesem basalen kognitionspsychologischen Erkenntnishintergrund erfolgt dann der Brückenschlag zu einer zentralen und aktuellen psycholinguistischen Problemstellung. Das betrifft die Rolle kausaler Zusammenhänge beim Textverstehen.
2.
Zu ausgewählten Kausalitätsauffassungen in der Philosophie
Die Frage, ob und wie jedes Geschehen in der Realität determiniert ist, hat in der Geschichte der Einzelwissenschaften und der Philosophie zu einer frühen Thematisierung des Kausalitätsbegriffes geführt. „Alles, was entsteht, entsteht durch etwas, aus etwas und als gewisses Etwas“, so lautet das Kausalitätsprinzip bei Aristoteles (Metaphysik VIII: 7). Er unterscheidet vier Arten von Ursachen: causa materialis (materielle Ursache, daraus entstehen die Dinge), causa formalis (formale Ursache, darin besteht das Wesen der Dinge), causa finalis (Zweckursache, das fertige, geformte Ding selbst, nach dem sich Bewegung, Veränderung richtet) und causa efficiens (bewegende oder Wirkursache, die in der Materie die entsprechende Form entstehen lässt, das Ding in Bewegung bringt). Der Begriff der Wirkursache wurde in der Neuzeit
632 vor allem im Zusammenhang mit der Entwicklung der Mechanik und der Erkenntnis ihrer Gesetzmäßigkeiten zentral: Ursachen erzeugen auf mechanischem Wege (durch Stoß, Druck, unmittelbare Berührung usw.) eine Wirkung. In diesem Sinn hat insbesondere Hume (1739/1978) aktuelle Kausalitätsauffassungen entscheidend beeinflusst. Als einer der bedeutendsten Vertreter der sog. Regularitätstheorien von Kausalität postulierte er, dass der Eindruck kausaler Bedingtheit durch die Gewöhnung entsteht, regelmäßig zeitlich aufeinanderfolgende Erscheinungen als notwendig miteinander verknüpft zu betrachten. Ähnlich wie Aristoteles nahm auch Hume an, dass die Verknüpfung der existierenden Vorstellungen durch angeborene Assoziationsmechanismen zustandekommt, die auf Ähnlichkeit, Berührung in Raum und Zeit sowie Ursache-Wirkungs-Beziehungen ansprechen. Bei Humes Kausalitätsanalyse sind also philosophische und psychologische Aspekte verquickt. Am Beispiel der mechanischen Impulsübertragung verdeutlichte Hume seine Kausalitätsauffassung: Eine rollende Billardkugel nähert sich einer zweiten, ruhenden Billardkugel, stößt mit ihr zusammen, und die zweite Billardkugel rollt davon. Dabei erzeugt der Impuls der einen Kugel die Bewegung der anderen Kugel. Um eine Kausalitätsauffassung auszubilden, so Hume, bedarf es der raum-zeitlichen Nähe der Ereignisse A und B, der zeitlichen Priorität von A (Ursache) vor B (Wirkung) sowie der wiederholten oder konstanten Verbindung zwischen A und B (constant conjunction). Eine konstante Verbindung zwischen zwei Ereignissen muss allerdings nicht bedeuten, dass diese Ereignisse notwendig verknüpft sind. Eine Ursache ist „an object precedent and contiguous to another, and where all the objects resembling the former are plac’d in like relation of precedency and contiguity to those objects, that resemble the latter“ (Hume, 1739/1978: 170). Kant (1781/1957) knüpft in seiner Kausalitätsauffassung zwar an Hume an, folgt jedoch nicht Humes Annahme, dass die Kausalität nur das Resultat eines subjektiven psychischen Vorgangs sei. Nach Kant zählt die Kausalität zu den denknotwendigen, allgemeingültigen Kategorien. Kategorien sind apriorische, vor aller Erfahrung existierende, reine Verstandesbegriffe, mit deren Hilfe wir das Angeschaute auf jeweils bestimmte Weise synthetisch zusammenfassen. Jede Kategorie
IV. Sprachrezeption
stellt eine Art Regel der gedanklichen Synthesis dar, mit der das Mannigfache der Anschauung als Gegenstand gedacht wird. Die kausale Ordnung der Dinge wird folglich vom Verstand in die Natur hineingetragen. Der Verstand schreibt uns die Art unserer Erfahrungen vor. Über das von Hume benannte Kausalitätskriterium konstante Verbindung gibt es in der Literatur verschiedene Positionen. Deterministische Regularitätstheorien fassen Ursachen als hinreichende oder notwendige Bedingungen für ihre Effekte. Mill (1843/1967) argumentierte beispielsweise, dass es eine Vielzahl von Faktoren gibt, die Wirkungen ausüben. In Abhängigkeit vom Kontext werden dann einzelne Faktoren (evt. in ihrer Kombination) als Ursachen selektiert. Dazu entwickelte er spezifische Methoden, z. B. die Differenzmethode (1843/1967: 255 ff.). Abweichend von Hume vertrat Mill die Auffassung, dass die Entstehung kausalen Wissens besser durch das Kovarianzprinzip beschrieben werden kann als durch die Beobachtung der Regelmäßigkeit, mit der ein spezifischer Effekt B auf eine spezifische Ursache A folgt. Nach dem Kovarianzprinzip sind solche Faktoren kausal, die sowohl hinreichend (wenn A, dann B) als auch notwendig (wenn ÿ A, dann ÿ B) für das Eintreten der Wirkung sind. Eine moderne Version dieses Ansatzes zur Beschreibung von Kausalität stammt von Mackie (1965: 245 ff.). Er differenziert verschiedene Formen von Kausalaussagen, wobei er insbesondere komplexe und vielfältige Kausalzusammenhänge thematisiert. Eine weitere Modifikation des Kausalitätskriteriums konstante Verbindung besteht in der probabilistischen Herangehensweise an Kausalität (vgl. Suppes, 1970: 10). Dieses Vorgehen ist charakteristisch für statistische Regularitätstheorien. Dabei wird das Kriterium konstante Verbindung durch wahrscheinliche Verbindung ersetzt. Ein Ereignis A ist Ursache eines Ereignisses B genau dann, wenn gilt: (1) A tritt früher auf als B; (2) P (A) ⬎ 0; (3) P (B/A) ⬎ P (B), wobei P(A) die Auftrittswahrscheinlichkeit von Ereignis A, P(B) die Auftrittswahrscheinlichkeit von Ereignis B und P(B/A) die Wahrscheinlichkeit des Auftretens von Ereignis B unter der Bedingung des Auftretens von Ereignis A sind.
48. Verstehen von Kausalitätszusammenhängen
Die angeführten Regularitätstheorien sind in letzter Zeit zunehmend kritisiert worden (White, 1995: 19). Regularität, so der Einwand, ist kein hinreichendes Kriterium für die Herleitung einer Kausalaussage. Die Nacht folgt regelmäßig auf den Tag, dennoch ist der Tag nicht die Ursache der Nacht. Es gibt Regularitäten, die nicht kausaler Natur sind, wie z. B. typische zeitliche Folgebeziehungen, und bei Erkennungsanforderungen ohne Mühe von Kausalbeziehungen abgegrenzt werden (van der Meer & Schmidt, 1992: 303 ff.). Neben den Regularitätstheorien werden sog. Singularistische Theorien zur Kausalität diskutiert, die anstelle verallgemeinerter Kausalaussagen singuläre Kausalaussagen als angemessene Beschreibungsebene für Kausalität ansehen (vgl. Harre & Madden, 1975: 5).
3.
Zum Kausalitätsbegriff in der Psychologie
Unter psychologischem Aspekt ist Kausalität eine mentale Kategorie. Menschen fokussieren die Aufmerksamkeit auf relevante Information und strukturieren die ihnen aus der Umwelt bzw. dem Gedächtnis verfügbare Information. Dadurch können trotz komplexer Umwelt angemessene Verhaltensentscheidungen schnell getroffen werden. Eine fundamentale Form der Strukturierung verfügbarer Information sind Ursache-WirkungsZusammenhänge. Ihre Identifikation ermöglicht sowohl die Bildung von Hypothesen über Ursachen aktueller Ereignisse als auch die Prädiktion von Handlungsfolgen und zukünftigen Ereignissen. Das Denken in Ursache-Wirkungs-Zusammenhängen ist somit grundlegend für angemessenes Planen und zielgerichtetes Handeln. Es wird als phylogenetisch bedingt und genetisch verankert angesehen. Riedl (1992) hat sehr überzeugend ausgeführt, dass unser kognitives System in der Evolutionsgeschichte so strukturiert wurde, in allen Regularitäten bedeutungsvolle Wirkzusammenhänge zu vermuten. Dabei, so seine Argumentation, ist es ökonomischer, Ereignisse als Ursachen anzusehen, die keine wirklichen Ursachen sind, als reale Ursachen zu übersehen. Fälschlicherweise angenommene Wirkzusammenhänge müssen nur dann korrigiert werden, wenn sie negative Verhaltensfolgen haben. Ansonsten sind sie dem Selektionsdruck nicht ausgesetzt. Kummer (1995: 26 ff.) unterscheidet schwaches und starkes Kausalwissen. Zum starken
633 Kausalwissen zählt er die meist angeborenen, artspezifischen Reiz-Reaktions-Verbindungen (z. B. unbedingte Reflexe). Eine Klasse von Umweltereignissen wird dabei vom Organismus als wahrscheinliche oder zuverlässige Ursache einer anderen Ereignisklasse „interpretiert“, in deren „Erwartung“ der Organismus spezifisch reagiert. Auch in Raum und Zeit weit auseinanderliegende Ereignisklassen können so mental verbunden sein, wie z. B. Paarung und Geburt der Jungen. Schwaches Kausalwissen tritt nach Kummer (1995) von den Einzellern bis zu den Säugetieren auf und basiert auf assoziativem Lernen. Die Kontiguität von Ereignissen und die erfahrene Häufigkeit ihres gemeinsamen Auftretens sind ausschlaggebende Lernfaktoren. Schwach wird dieses Kausalwissen von Kummer (1995) deshalb genannt, weil es – von spezifischen Fällen abgesehen – auf Folgen beschränkt ist, die den Ursachen zeitlich unmittelbar nachfolgen und weil es weitgehend unabhängig ist vom Vorwissen über potentiell kausal verknüpfte Ereignisklassen in der Umwelt. Unsere Disposition, verschiedenste Ereignisse als kausal verbunden zu interpretieren, wenn eine zeitliche Beziehung zwischen ihnen besteht, ist das Fundament des klassischen Konditionierens. Unter kognitionspsychologischer Perspektive ist die Kummer’sche Fassung von starkem und schwachem Kausalwissen problematisch, da hierbei nur angeborene bzw. durch Konditionierung erworbene Reiz-Reaktions-Verbindungen angesprochen sind. Der wesentlich bedeutsamere Aspekt der kontrollierten und bewussten Ableitung von Ursache-Wirkungs-Zusammenhängen bleibt damit völlig ausgespart. Beim Menschen (und vermutlich auch bei höheren Primaten) entsteht Kausalwissen nicht primär durch assoziatives Lernen, sondern hauptsächlich durch kognitives Lernen. Beim kognitiven Lernen wird durch interne Operationen, die über dem Gedächtnisbesitz ablaufen, neue Information erzeugt. So können zuvor separat repräsentierte Gedächtnisinhalte durch interne kognitive Prozesse kausal verbunden werden. In diesem Fall spricht man von kausalen Inferenzen. Dazu ist keine primäre Bekräftigung nötig, auch die Häufigkeit kontingenten Auftretens von Ursache- und Folgeereignis ist oft irrelevant. Anderson (1990: 162) betont in diesem Zusammenhang, dass die Rolle der z. B. von Hume angeführten Kausalitätscues für die Ableitung kausaler Zu-
634
IV. Sprachrezeption
sammenhänge nicht fest ist, sondern kontextabhängig variiert. Ein wesentlicher Unterschied zwischen Menschen und Nichtmenschen besteht darin, dass Menschen versuchen, zur Erklärung der extrahierten Invarianten (bereichsspezifische) Theorien auszubilden (Premack & Premack, 1995: 185). Die Frage nach dem Verstehen von Kausalitätszusammenhängen ist gleichbedeutend mit der Frage, welche Information herangezogen wird und welche Prozesse ablaufen, wenn eine Person ein Ereignis als Ursache für das Eintreten eines anderen Ereignisses identifiziert und daraus mentale Modelle der Umwelt konstruiert. Diese Frage wird in der psychologischen Kausalitätsforschung thematisiert.
4.
Schwerpunkte der psychologischen Kausalitätsforschung
Zwei inhaltliche Schwerpunkte prägen die traditionelle psychologische Kausalitätsforschung: Untersuchungen zur visuellen Wahrnehmung sowie zur wissensgestützten Erklärung von Kausalität. Ein dritter aktueller Schwerpunkt ist die Analyse des Einflusses von Kausalzusammenhängen auf das Textverstehen. 4.1. Visuelle Wahrnehmung von Kausalität Ausgangspunkt dieser Forschungen ist die gestaltpsychologische Annahme, dass menschliche Strukturwahrnehmung auf autochthoner Selbstregulation, d. h. auf innerorganismischen Strukturierungstendenzen, beruht. Ausgehend davon postulierte Michotte (1954), dass Wirkursachen im Sinne mechanischer oder physikalischer Kausalität aus bestimmten Bewegungsmustern zweier Objekte A und B direkt wahrgenommen werden können (phänomenale Kausalität): Objekt A kollidiert mit einem ruhenden Objekt B, worauf sich beide zusammen wegbewegen bzw. B sich allein wegbewegt. Der Kausaleindruck ist äußerst stabil und besonders prägnant, wenn B nach der Kollision mit A denselben Geschwindigkeitsvektor hat wie zuvor A. Erst bei einem größeren räumlichen oder zeitlichen Abstand zwischen A und B bzw. dem Fehlen von A wird der Kausaleindruck weniger zwingend bzw. gänzlich zerstört. Diese Experimente sind als fundamentale Untersuchungen zur visuellen Wahrnehmung von Kausalität in die Literatur eingegangen. Mi-
chotte deutete sie als Beleg dafür, dass prototypische Kausalverhältnisse bzw. Wirkursachen wie „Stoß“ zwischen Einzelereignissen direkt wahrgenommen werden können, wenn sie Gestaltqualität besitzen. Neben dieser gestaltpsychologischen Interpretation gibt es auch andere Erklärungsansätze, wie z. B.das Konzept angeborener Module zur Wahrnehmung physikalischer Kausalität, durch die die Flugbahn eines Objektes in Raum und Zeit registriert wird. So können schon junge Kinder im Alter von 4⫺6 Monaten, die kein erfahrungsbasiertes Vorwissen über Kausalität besitzen, zwischen Trajektorien, die mit Bewegungen physikalischer Objekte übereinstimmen, und Trajektorien, die physikalisch nicht möglich sind, differenzieren (Leslie, 1995: 124 ff.). Ob die Annahme angeborener Module zwingend ist, wird kritisch diskutiert. Da sich die Wahrnehmung physikalischer Kausalität aus Objekttrajektorien über die Kindheit bis zum Erwachsenenalter verbessert und bei den Michotte-Anforderungen nicht unbeträchtliche interindividuelle Unterschiede in den Kausalurteilen auftreten, sind vermutlich auch Lernfaktoren wirksam. So favorisieren Morris, Nisbett und Peng (1995: 599 ff.) implizite Theorien als Basis der Kausalitätswahrnehmung. Sie boten ihren Probanden die Michotte-Anforderung nicht nur in Gestalt physikalischer Objekte dar, sondern auch in Gestalt sozial interpretierbarer Konstellationen (symbolische Fische, die sich geradlinig mit bzw. ohne Halt mit unterschiedlichen Trajektorien fortbewegen). Die Probanden, amerikanische und chinesische Studenten, sollten beurteilen, in welchem Ausmaß das physikalische Objekt B bzw. ein spezifischer Fisch durch externe oder interne Kräfte beinflusst wird. Bei den beschriebenen Anforderungen schätzten beide Populationen den Einfluss externer Kräfte höher ein als den interner Kräfte. Diesen Befund führen Morris et al. (1995: 600) auf bereichsübergreifende, kulturunabhängige Kausalmechanismen zurück, die auf der Identifikation von Kausalcues, wie z. B. der zeitlichen Priorität des Ursacheereignisses gegenüber dem Folgeereignis, basieren. Da bei der Fischkonstellation, verglichen mit der Konstellation physikalischer Objekte, populationsübergreifend mehr interne als externe Kräfte als wirksam angegeben werden, scheinen in der Wahrnehmung auch bereichsspezifische, kulturübergreifende Kausalmechanismen wirksam zu sein (Morris et al., 1995: 600). Intern verursachte Bewe-
48. Verstehen von Kausalitätszusammenhängen
gung ist charakteristisch für Lebewesen. Schon Gelman (1990: 79 ff.) hat dargelegt, dass die Differenzierung von belebt und unbelebt in der kognitiven Entwicklung kulturübergreifend zuerst auftritt. In der Untersuchung von Morris et al. gibt es ferner Hinweise auf bereichs- und kulturspezifische mentale Repräsentationen von Kausalzusammenhängen. Bei der Fischkonstellation nehmen amerikanische Probanden relativ mehr interne Kräfte und vergleichsweise weniger externe Kräfte wahr als chinesische Studenten. Morris et al. (1995: 600 f.) führen das auf implizite soziale Theorien zurück: Derartige Theorien werden von der gesellschaftlichen Umwelt der Probanden determiniert und durch Beobachtung sowie Kommunikation vermittelt. Das manifestiert sich in der Kausalwahrnehmung der Probanden. Die von Morris et al. (1995: 599 ff.) vertretene Sichtweise lässt sich der erklärenden Forschungstradition zuordnen. Kausalwahrnehmung wird auf Mechanismen zurückgeführt, die „erklären“, wie ein Ereignis (die Ursache) ein anderes Ereignis (die Wirkung) hervorbringt. Diese Erklärungen haben die Form intuitiver oder naiver Theorien. In Abhängigkeit vom Realitätsbereich, so die Annahme, sind verschiedene Typen von Kausalzusammenhängen relevant. Gegenwärtig werden naive Kausalitätstheorien z. B. für die Bereiche der Physik, Biologie und Psychologie diskutiert. Entwicklungspsychologische Untersuchungen stützen die Annahme, dass Kinder über angeborene Dispositionen verfügen oder schon sehr früh die Fähigkeit erwerben, bereichsspezifische Kausalmechanismen zu erwarten und zu verarbeiten. Ob diese Kausalmechanismen auf logisch-statistische Aspekte der Kausalität (z. B. die Kovariation von Ereignissen) reduziert werden können, die im Zentrum der logikzentrierten Forschungstradition zur Kausalität stehen, ist derzeit eine offene Frage (Carey, 1995: 268). Ungeklärt ist auch, wie die kausalen Mechanismen und ihre Relationen zu interpretieren sind. In diesem Kontext erscheint die von Hecht und Kerzel (1999: 15 ff.) vorgeschlagene Motortheorie wahrgenommener Kausalität interessant. Die Wahrnehmung von Kausalbeziehungen beim Menschen, so die Annahme der Autoren, ist stark von seinen Absichten, den Zielen oder Zwecken geprägt. Wenn z. B. ballistische Bewegungen fortgesetzt werden sollen, geben viele Beobachter an, dass ein Ball nach Verlassen der Hand des Werfers seine
635 Geschwindigkeit noch erhöht. Ebenso wird ein geworfener Ball, der im Steigflug schneller wird, als natürlicher eingeschätzt als ein langsamer werdender Ball. Hecht und Kerzel (1999: 16) deuten diese Fehler im Unterschied zu McCloskey, Caramazza und Green (1980: 1140 f.) und anderen im Sinne einer gemeinsamen mentalen Kodierung von Motorik und Wahrnehmung. Die Körpermotorik in Gestalt der Beschleunigung des Wurfarms wird auf das Wurfgeschoss übertragen. Unter Rückgriff auf die von Aristoteles differenzierten Formen von Ursachen nehmen Hecht und Kerzel für die menschliche Kausalwahrnehmung eine Dominanz der Zweckursache an. Zweckursache (oder Finalität) heißt, dass Intentionen als Ursache der Bewegung angesehen werden, d. h. unser Wille zum Ballwurf erklärt dessen Flug. Für diese Theorie spricht, dass wir in Bewegungen geometrischer Objekte Absichten, Emotionen, soziale Beziehungen hinein deuten und schon Kleinkinder dazu neigen, einfache Bewegungen intentional zu interpretieren (Premack & Premack, 1997: 848 ff.). Ob dieser Erklärungsansatz verallgemeinert werden kann, ist eine bislang offene Frage. 4.2. Wissensgestützte Erklärung von Kausalität: Modellansätze und empirische Evidenz Neben der Analyse der visuellen Wahrnehmung von Kausalität gibt es in der Psychologie zahlreiche Untersuchungen zur wissensgestützten Erklärung von Kausalität. Die Sprache wird dabei nicht nur zur Erfassung der Kausalurteile der Probanden und ihrer Erläuterungen (vgl. 4.1), sondern auch zur Darbietung der kritischen Information genutzt. Damit ist ein schwieriges Problem verbunden: Es muss zwischen Prozessen der Kausalkognition und der Sprachkompetenz der Pbn, kausale Ausdrücke zu verstehen und zu benutzen, differenziert werden (Oestermeier, 1997: 80). Bisher wird die sprachliche Grundlage alltäglicher kausaler Schlüsse bei empirischen Untersuchungen allerdings nur unzureichend beachtet. 4.2.1. Die Untersuchungsansätze von Heider (1958) und Kelley (1973) Welche Attributionsmuster menschlichen Kausalurteilen zugrundeliegen, ist insbesondere in der Sozialpsychologie intensiv untersucht worden. Dabei geht es darum, kausales Denken auf basale Elemente, Kriterien oder
636 Mechanismen zurückzuführen. In Anlehnung an Heider (1958: 297, 151 f.) wurde zunächst angenommen, dass naive Kausalanalysen auf der Nutzung des Kovarianzprinzips basieren. Dabei ist zwischen externen und internen, dispositionellen Ursachen zu differenzieren. Für zwischenmenschliche Beziehungen, so die Annahme, dominiert die internale Attribuierung (vgl. die Ausführungen zur Zweckursache in 4.1). Heiders Annahmen haben zahlreiche Untersuchungen zu Determinanten und Folgen der postulierten internalen Attribuierung angeregt. Besondere Bedeutung erlangte der Ansatz von Kelley (1973: 107 ff.), in dem Attribution auf Urteilsprozesse zurückgeführt wird. Wenn mehrere Ereignisse als Urteilsgrundlage fungieren, so Kelley, dann nutzen Urteiler für die Kausalerklärung eine kognitive Vorgehensweise, die als naive Version der Methode einer allgemeinen Varianzanalyse angesehen werden kann: Die Ursache eines Effektes wird dadurch bestimmt, dass zunächst Information über drei unabhängige Dimensionen (Personen, Reize, Zeiten) eingeholt wird. Darauf wird dann das Kovarianzprinzip angewendet. Die Mehrzahl der empirischen Daten stimmt mit den Modellprädiktionen relativ gut überein (White, 1995: 181). Allerdings ist der Aussagewert des Modells beschränkt, da nur spezifische Reizkonfigurationen betrachtet werden. Zudem werden in der Literatur auch zahlreiche Befunde berichtet, die den Modellprädiktionen widersprechen, wie z. B. der Personen-Bias. Darunter versteht man die systematische Fehlertendenz, Personen eher als kausal anzusehen als situative Gegebenheiten. 4.2.2. Das Kontrafaktische Schließen von Lipe (1992) Es gibt zahlreiche Versionen zur Weiterentwicklung des Modells. Ein Ansatz, das sog. Kontrafaktische Schließen, geht auf Lipe (1991: 456 ff.) zurück. Kausalerklärung ist nach Lipe ein dreistufiger Prozess: Hypothesenbildung, Abschätzung der Stringenz der Hypothese und Prüfung alternativer Erklärungen. Lipe betrachtet nur die Prozessstufen 2 und 3. Die Abschätzung der Hypothesenstringenz basiert auf dem Kovarianzprinzip, wobei Ähnlichkeit, Zeitfolge und Kontiguität als zusätzliche Kausalitätscues Beachtung finden. Die Kovarianzinformation wird nicht direkt zur Kausalerklärung herangezogen, sondern zur Erzeugung der kontrafaktischen Information benutzt. Dabei handelt es sich um Aussagen über unrealisierte Möglichkei-
IV. Sprachrezeption
ten. „Would the goblet have shattered if the opera singer had not sung the high note?“ (Lipe, 1992: 457). Es werden solche Faktoren als potentielle Ursachen angesehen, durch deren Hinwegdenken auch die Wirkungen entfallen (Sine-qua-non-Kriterium). Diese kontrafaktische Information ist nicht direkt verfügbar, sondern kann nur hypothetisch abgeleitet werden. White (1995: 190 f.) kritisiert den Umweg über kontrafaktische Information als unnötigen, künstlichen Schritt. Außerdem gibt es neben der Kovarianzinformation weitere Möglichkeiten zur Ableitung kontrafaktischer Information, wie z. B. Vorannahmen über relevante Faktoren. 4.2.3. Die Power-PC-Theorie von Cheng (1997) In der aktuellen Kausalitätsforschung findet die Power-PC-Theorie von Cheng (1997: 367 ff.) – eine Weiterentwicklung des probabilistischen Kontrastmodells von Cheng und Novick (1992: 365 ff.) – besondere Beachtung. Hierbei wird das Kriterium der statistischen Relevanz als basal für kausales Denken angesehen. Cheng will mit ihrer Theorie verschiedene konkurrierende Modellansätze integrieren: Power-Modelle der Kausalität und kontingenzbasierte Kausalitätsansätze. Power-Modelle der Kausalität werden z. B. von Michotte (1954) oder White (1989: 431 ff.) vertreten. Dabei wird angenommen, dass die Ursache durch einen vermittelnden kausalen Mechanismus oder durch eine kausale Kraft mit der Wirkung verbunden ist, so dass etwas von der Ursache auf die Wirkung übertragen werden kann (z. B. Information, Energie, Impuls etc.). Auf den ersten Blick erscheint dieser Ansatz suggestiv. Allerdings birgt er, wie schon Hume argumentierte, die Gefahr der zirkulären Erklärung. Zudem bleibt vage, was ein kausaler Mechanismus bzw. eine kausale Kraft ist. Zu den kontingenzbasierten Kausalitätsansätzen zählt die von Jenkins und Ward (1965) vorgeschlagene ∆P-Regel. Nach dieser Regel wird eine Ursache wahrscheinlichkeitstheoretisch als Faktor bestimmt, dessen Anwesenheit (verglichen mit seiner Abwesenheit) die Auftrittswahrscheinlichkeit des Effektes erhöht. ∆P ⫽ P (e/c) ⫺ P (e/ ÿ c) c bezeichnet die potentielle Ursache, P (e/c) ist die Wahrscheinlichkeit, mit der der Effekt e bei Vorhandensein von c auftritt, P (e/ ÿ c) ist die Wahrscheinlichkeit, mit der der Effekt e auftritt, ohne dass c gegeben ist. ∆P ist ein
48. Verstehen von Kausalitätszusammenhängen
Maß für die Kovariation von c, und e, wird als Kontingenz oder Kontrast bezeichnet. Die bedingten Wahrscheinlichkeiten werden über die relevanten relativen Häufigkeiten abgeschätzt. Ist ∆P ⬎ 0 (Kriterium der statistischen Relevanz), wird c als Ursache angesehen. Wenn ∆P ⬍ 0 ist, gilt c als hemmender Faktor. Wenn ∆P ⫽ 0, ist c unabhängig von e und nichtkausal. In der Power-PC-Theorie wird diese ∆P-Regel in Abhängigkeit von der Höhe der Basisrate P (e/ ÿ c) modifiziert. Ein weiteres kontingenzbasiertes Modell, das in die Power-PC-Theorie integriert werden soll, ist das Rescorla-Wagner-Modell. Diese assoziative Theorie des Kontingenzlernens wurde ursprünglich zur Beschreibung von Effekten beim klassischen Konditionieren entwickelt und dann auch zur Erklärung von Kausalschlüssen herangezogen (Shanks, 1985: 158 ff.). Dabei werden die potentielle Ursache mit dem bedingten Reiz, der Effekt mit dem unbedingten Reiz und die kausale Stärke der Ursache mit der Assoziationsstärke identifiziert. Sowohl die ∆P-Regel als auch das Rescorla-Wagner-Modell betrachten Kovariation als direktes Maß der Kausalität. Cheng nimmt an, dass der Urteiler die nicht direkt beobachtbare kausale Stärke einer potentiellen Ursache c aus beobachtbaren Ereignissen erschließt. Wenn zusätzlich alternative Ursachen auftreten und den Effekt e unabhängig von c beeinflussen sowie ∆P x 0 ist, dann ist die „Kraft“ (Power) der Ursache c, den Effekt e zu erzeugen, folgendermaßen bestimmt: qc ⫽
∆Pc 1⫺ P (e/ ÿ c)
Falls ∆P ⬍ 0 gilt, berechnet sich die hemmende Power von c bezüglich e wie folgt: pc ⫽
⫺∆P P (e/ ÿ c)
Im Unterschied zu den kontingenzbasierten Ansätzen geht die Power-PC-Theorie davon aus, dass Kovariation notwendig, aber nicht hinreichend für Kausalität ist. Neben ∆P wird auch die Basisrate P (e/ ÿ c) beachtet. Das führt zu unterschiedlichen Kausalurteilen bei gleichem ∆P, aber unterschiedlichen P (e/ ÿ c). Die Daten eines von Buehner und Cheng (1999: 23 ff.) durchgeführten kritischen Vergleichsexperimentes zwischen der ∆P-Regel,
637 dem Rescorla-Wagner-Modell und der Power-PC-Theorie stimmen mit den Prädiktionen der Power-PC-Theorie am besten überein. Offensichtlich benutzen Personen die sog. kausale Kraft als Schätzung für den Kausalzusammenhang. Allerdings gibt es in diesem wie auch in anderen Experimenten auch Abweichungen zwischen den Daten und den Prädiktionen der Power-PC-Theorie (Erdfelder, Brandt & Wegener, 1998; White, 1998: 141 ff.). Erdfelder et al. argumentieren z. B., dass nicht die beobachtete Häufigkeit des Ereignisses allein, sondern die Diskrepanz zwischen beobachteter und erwarteter Häufigkeit für das Erkennen von Zusammenhängen zwischen potentiellen Ursachen und potentiellen Wirkungen wesentlich ist. Gegenüber der Power-PC-Theorie lassen sich weitere kritische Aspekte geltend machen: (1) Ob Probanden bei realen Kausalerklärungen im sozialen Kontext genauso vorgehen wie bei konstruierten Anforderungen unter Laborbedingungen, erscheint fraglich. (2) Für Kausalerklärungen spielt die Selektion kontextabhängig relevanter Faktoren (focal set) eine wichtige Rolle. Cheng geht davon aus, dass jene Faktoren als relevant angesehen werden, die die Sicherheit und Validität der Kausalschlüsse maximieren. Allerdings wird der Selektionsprozess nicht spezifiziert. Die empirische Befundlage zeigt, dass Probanden neben der in der Anforderung dargebotenen Information zusätzliche Information für relevant halten und in die Kausalerklärung einbeziehen. Die Suche nach relevanten Faktoren erfolgt dabei hypothesengesteuert. Shaklee und Fischhoff (1982: 526) haben gezeigt, dass die Probanden die Menge potentieller Ursachen nicht erschöpfend absuchen, sondern sich selektiv auf die von ihnen für die Prüfung einer gebildeten Hypothese als relevant angesehenen Faktoren konzentrieren. Die Suche verläuft seriell und wird abgebrochen, wenn eine plausible Ursache identifiziert ist. Diese Vorgehensweise widerspricht regularitätsbasierten Modellen. (3) Wenn Probanden Fragen stellen können, um die Ursache eines Geschehens herauszufinden, bevorzugen sie Information über spezifische Merkmale der involvierten Objekte, Personen oder Ereignisse (White, 1995: 204) bzw. Information über unerwähnte Mechanismen und Kausalketten (Ahn, Kahlish, Medin & Gelman 1995: 299 ff.). Information
638
IV. Sprachrezeption
über die Kovarianz der in der Anforderung angegebenen Faktoren spielt eine höchst untergeordnete Rolle.
salhypothesen nicht graduell, wie es die Theorie postuliert, sondern abrupt (Schauble, 1990: 31 ff.).
(4) Regularität in Gestalt von Kontingenz muss nicht Kausalität bedeuten. Typische zeitliche Folgerelationen (wie aufstehenfr¸hst¸cken) oder soziale Regeln sind Formen von Regularitäten, allerdings keine kausalen. Im Falle erkannter Regularitäten muss folglich noch geprüft werden, ob die Zusammenhänge kausaler Natur sind oder nicht. Die Power-PC-Theorie bleibt letztendlich die zentrale Antwort schuldig, wie kausale von anderen ereignisverkettenden Relationen bzw. zufälligen Zusammenhängen abzugrenzen sind.
4.2.5. Der Ansatz von Waldmann und Holyoak (1992) zur Beschreibung von Kausalzusammenhängen Einen ähnlichen Ansatz wie Anderson (1992) vertreten Waldmann und Holyoak (1992: 222 ff.). Die Grundcharakteristika kausaler Relationen gehören zu unserem abstrakten Weltwissen, wobei das Kausalverständnis einer Person von ihrem Kausalmodell der Welt abhängt. Waldmann und Holyoak interpretieren Bayes’sche Netze als Rahmenmodell für mentale Kausalmodelle. Ein Kausalmodell setzt sich aus elementaren kausalen Strukturen zusammen (Plach, 1999: 32 ff.), wobei sich Kausalzusammenhänge folgendermaßen auszeichnen: (1) Kausalzusammenhänge sind gerichtet: Die Ursache tritt vor dem Effekt auf. (2) Die Stärke von Kausalzusammenhängen hängt von der Kontingenz zwischen Ursache und Effekt ab. (3) Trotz der Gerichtetheit von Kausalrelationen sind sowohl prädiktive (Ursache ⇒ Effekt) als auch diagnostische (Effekt ⇒ Ursache) Inferenzen möglich. Beide Inferenztypen unterscheiden sich jedoch strukturell (Waldmann, Holyoak & Fratianne, 1995: 185 ff.). Waldmann und Holyoak arbeiten insbesondere den Unterschied zwischen einfachen Kausalhypothesen und kausalen Strukturhypothesen heraus: Im Falle einfacher Kausalhypothesen wird gefragt, ob zwei Ereignisse kausal verbunden sind und wenn ja, wie stark diese Verbindung ist. Dabei lässt sich spezifizieren, ob der Zusammenhang fördernd oder hemmend ist. Bei Strukturhypothesen ist hingegen relevant, ob drei oder mehr Ereignisse innerhalb eines kausalen Netzes strukturell verbunden sind. Diese Strukturhypothesen sind nicht auf einfache Kausalhypothesen reduzierbar. Die empirische Befundlage zu diesen Annahmen ist bislang widersprüchlich. Waldmann und Holyoak (1992: 227) konnten beispielsweise bei Kategorisierungsanforderungen eine implizite Nutzung von Kausalstrukturen wahrscheinlich machen. Hagmayer und Waldmann (1999: 39 ff.) haben hingegen keinen experimentellen Nachweis für die Existenz und Nutzung von explizitem Kausalstrukturwissen erbringen können. Das stützt die Vermutung, dass Kausalverständnis nicht durch eine Theorie allein angemessen zu erklären ist.
4.2.4. Kausalität in der Rationalitätskonzeption von Anderson (1990) Für dieses Problem gibt es verschiedene Lösungsvorschläge. Anderson (1990) integriert Kausalschlüsse in seine adaptive Rationalitätskonzeption. Er entwickelt ein Bayes-Modell kausalen Schließens, das aktuell gegebene Information und Vorwissen bzw. Vorannahmen des Urteilers einbezieht. Dabei werden verschiedene Kausalcues beachtet wie räumliche und zeitliche Kontiguität sowie Ähnlichkeit zwischen Ursache und Effekt. Welche Cues benutzt werden, hängt vom Situationsmodell der Probanden ab: „the right analysis of spatial and temporal contiguity is not that they are absolute cues to causality, as some have argued; rather, it is that they are rational cues to causal attribution when a transfer of force model is appropriate, and as such models are most typically appropriate“ (Anderson, 1990: 162). Nicht die minimale Distanz von Objekten oder Ereignissen in Raum und Zeit ist bedeutsam für das Identifizieren von Kausalzusammenhängen, sondern der Aussagewert dieser Parameter hängt ab von den angenommenen vermittelnden Mechanismen zwischen Objekten oder Ereignissen. Nur dann, wenn die Person kaum Vorinformation über die Situation besitzt, gilt, dass räumlich und zeitlich enger benachbarte Objekte oder Ereignisse als wahrscheinlicher für Ursache und Wirkung angesehen werden als distantere. Kritisch gegenüber der Sichtweise von Anderson ist hervorzuheben, dass der Ursprung der benutzten Kausalkonzepte offen bleibt. Außerdem verändern Probanden ihre Kau-
48. Verstehen von Kausalitätszusammenhängen
4.3. Die Rolle von Kausalitätszusammenhängen beim Textverstehen Ein dritter Schwerpunkt der aktuellen psychologischen Kausalitätsforschung ist die Rolle kausaler Inferenzen beim Textverstehen. Ausgehend von theoretischen Modellvorstellungen zur Textverarbeitung, wird im Folgenden dem Einfluss kausaler Relationen auf den Prozess des Textverstehens und auf das Behalten und Erinnern von Textinhalten nachgegangen. Dabei ist kritisch anzumerken, dass die zuvor diskutierten und untersuchten Kriterien für das Erkennen von Kausalzusamenhängen nur sehr global Beachtung finden. Eines der elaboriertesten Modelle zum Textverstehen ist das Konstruktions-Integrations-Modell von Kintsch (1988: 166 ff.) (vgl. Kapitel 36). Dieses Modell soll uns als globaler theoretischer Ausgangspunkt dienen. Kintsch betrachtet Textverarbeitung als strategiegeleiteten Prozess. Die mentale Repräsentation des Textes ist auf verschiedenen Abstraktionsebenen und in verschiedenen Repräsentationsformaten möglich. Sie entsteht durch eine Wechselwirkung zwischen dem Textinhalt und dem Welt- und Situationswissen des Lesers/Hörers (Kintsch, 1998: 11 ff.). Kintsch unterscheidet beim Textverstehen zwei basale Verarbeitungsschritte: Die Erzeugung einer internen Repräsentation der Textinformation unter Einbeziehung von Vorwissen (Konstruktionsphase) und die Reduktion dieser mentalen Textrepäsentation auf die situationskohärenten Komponenten (Integration). Die Einbeziehung von Vorwissen in die mentale Textrepräsentation (Assoziationen, Inferenzen) wird als autonomer Prozess angesehen. Dazu gibt es in der Literatur eine intensive, teilweise sehr widersprüchliche Diskussion (vgl. Rickheit & Strohner, 1999: 285 ff.). Im Ergebnis des über mehrere Zyklen verlaufenden Verarbeitungsprozesses liegt idealerweise eine kohärente Repräsentation des Textes im Gedächtnis vor (vgl. auch Kapitel 36 und 37). Dabei wird zwischen lokaler und globaler Kohärenz unterschieden. Lokale Kohärenz kommt durch semantische Relationen zwischen kleineren Textabschnitten zustande (z. B. zwischen einzelnen Propositionen), globale Kohärenz basiert auf einer semantisch zusammenhängenden Struktur des Gesamttextes. (Kohärenzmaße werden in Kapitel 36 detailliert diskutiert.) Kausalrelationen zählen zu den wesentlichen kohärenzstiftenden semantischen Rela-
639 tionen (Zwaan, Magliano & Graesser, 1995: 387; van der Meer, 1998: 233 f.). Deshalb wurde vielfach untersucht, wie kausale Zusammenhänge den Prozess des Textverstehens beeinflussen. Werden kausale Inferenzen beim Textlesen on-line oder off-line realisiert? Werden Ursachen und Folgen mit gleicher Wahrscheinlichkeit inferiert oder nicht? Diese Fragen lassen sich gut untersuchen, wenn Texte kausale Kohärenzbrüche oder -lücken aufweisen. Nach van den Broek (1990: 175 ff.) tritt ein solcher Bruch auf, wenn der im Zentrum der Aufmerksamkeit stehende Textabschnitt oder die zuvor im Text beschriebenen Ereignisse keinen hinreichenden kausalen Hintergrund für ein aktuell verarbeitetes Ereignis geben. Van den Broek nimmt in Anlehnung an Einhorn und Hogarth (1986: 3 ff.) an, dass die Stärke des kausalen Hintergrundes durch vier Prüfkriterien bestimmt wird: (1) Die Ursache muss dem Ereignis zeitlich vorausgehen und (2) bei Ereigniseintritt operativ oder aktiv sein (definierende Kriterien). Das Ausmaß, in dem die Ursache für das Eintreten des Ereignisses unter den gegebenen Umständen (3) notwendig und (4) hinreichend ist, determiniert die relative Stärke des kausalen Zusammenhangs. Unbefriedigend ist, dass der Kriterienprüfprozess nicht näher spezifiziert wird. Im Structure Building Framework von Gernsbacher (1990: 63 ff.) wird Textkohärenz z. B. durch die situationale Kontinuität gestiftet. Sie setzt sich aus zeitlicher, räumlicher und kausaler Kontinuität zusammen. Gernsbacher differenziert die kohärenzstiftenden Relationen inhaltlich detaillierter als van den Broek, indem sie z. B. zwischen reiner zeitlicher Folge und Kausalzusammenhang unterscheidet. Kausale Kontinuität tritt auf, wenn es eine direkte Kausalbeziehung zwischen dem aktuell verarbeiteten Satz und der vorherigen Textinformation gibt. Um zu bestimmen, ob ein neu verarbeitetes Ereignis kausal kontinuierlich ist, muss der Leser identifizieren, ob der bisherige Textkontext einen notwendigen und hinreichenden Grund für das aktuell verarbeitete Ereignis liefert. Ist keine plausible Ursache auffindbar, tritt kausale Diskontinuität auf. Dann muss ein plausibler Grund aus dem Vorwissen inferiert werden. Das bedeutet zusätzlichen kognitiven Aufwand und kostet Zeit. Zwaan, Magliano und Graesser (1995: 395) haben die Lesezeit für Sätze aus natürlichen Texten analysiert. Dabei zeigte sich, dass die Probanden sowohl die kausale als
640 auch die temporale Kontinuität beachten, und zwar unabhängig voneinander. Das stimmt mit Relationserkennungsanforderungen überein (van der Meer, 1998: 234 ff.) und stützt die psychologische Relevanz der theoretisch begründeten Differenzierung von kausalen und rein temporalen semantischen Konnexionen. Während van Dijk und Kintsch (1983) ursprünglich annahmen, dass Leser/Hörer bei einem Kohärenzbruch nicht sofort ihr Langzeitgedächtnis nach einer Ursache absuchen, sondern darauf warten, dass in nachfolgenden Sätzen noch eine Ursache genannt wird („wait-and-see“-Strategie), stützt die Mehrzahl der Untersuchungen jedoch die sog. Reinstatement-Hypothese (Klin, 1995: 1483; Millis & Graesser, 1994: 595 f.): Bei einem Kohärenzbruch (im Kurzzeitgedächtnis ist keine Ursache für ein im Satz aktuell genanntes Ereignis verfügbar) sucht der Leser/Hörer die Textrepräsentation im Langzeitgedächtnis nach einem plausiblen Grund für das aktuell verarbeitete Ereignis ab. Ist ein solcher Grund auffindbar, wird er in den aktiven Verarbeitungsprozess reintegriert (Reinstatement) und mit dem aktuell verarbeiteten Ereignis verknüpft. Ist kein plausibler Grund auffindbar, wird das Vorwissen nach einem passenden Grund durchsucht und dieser dann in die Textrepräsentation integriert (Inferenz). Dadurch entsteht Kohärenz. Das bedeutet, dass bei Kohärenzbrüchen die Ursache eines aktuell verarbeiteten Ereignisses online inferiert wird. Ob auch die Folgen eines im Text erwähnten Ereignisses on-line inferiert werden, wie es im sog. Prediction-Substantiation-Modell (DeJong, 1979: 251 ff., Sharkey & Sharkey 1987: 255 ff.) angenommen wird, ist durch die Befundlage nicht eindeutig zu entscheiden. Die Antizipation von Folgen eines dargestellten Ereignisses basiert auf elaborativen prädiktiven Inferenzen. Derartige Inferenzen scheinen dann stattzufinden, wenn sie zur Kohärenz der Erzählung beitragen (Rickheit, Schnotz & Strohner, 1985: 22) bzw. wenn der Kontext möglicher prädiktiver Inferenzen durch den aktuell verarbeiteten Inhalt der Textpassage und das Weltwissen hochgradig eingeschränkt ist (Magliano, Baggett & Graesser, 1996: 207). Auch die konkreten Lesebedingungen (wortweise vs. satzweise Darbietung, Lesen mit vs. ohne Zeitdruck) scheinen eine Rolle zu spielen (Millis & Graesser, 1994: 597). Zur Klärung der spezifischen Bedingungen bedarf es weiterer Untersuchungen.
IV. Sprachrezeption
Die Textkohärenz beeinflusst nicht nur den Prozess der Textverarbeitung, sondern bestimmt auch die Textverständlichkeit. Damit ist sie eine wesentliche Voraussetzung für das Behalten und Erinnern von Textinhalten. Zahlreiche Befunde belegen, dass Ereignisse, die zur Kausalkette einer Geschichte gehören, besser erinnert werden als andere Ereignisse (Black & Bower, 1980: 223 ff.). Kausal bezogene Sätze werden besser behalten als Sätze, die im Kontext unzusammenhängender oder nur zeitlich bezogener Sätze dargeboten werden (Klin, 1995: 1488). In einer Untersuchung von van den Broek, Rohleder und Narvaez (1996: 185) mit literarischen Texten wird z. B. eine Korrelation zwischen kausaler Bezogenheit und Wiedergabewahrscheinlichkeit von Aussagen von .71 berichtet. Einen scheinbar konträren Befund haben Keenan, Baillet und Brown (1984: 115 ff.) sowie Myers, Shinjo und Duffy (1987: 453 ff.) berichtet: Variiert man den Grad kausaler Bezogenheit von dargebotenen Satzpaaren, so werden schwach und stark kausal bezogene Satzpaare schlechter erinnert als kausal moderat bezogene Satzpaare. Nachfolgeuntersuchungen konnten diesen Befund durch die Elaborationsspezifik beim Encodieren erklären: Bei starker kausaler Bezogenheit der Sätze ist der bestehende Zusammenhang für die Leser/Hörer offensichtlich, so dass keine weitere Elaboration stattfindet. Bei schwacher kausaler Bezogenheit ist die Ableitung des Zusammenhangs sehr schwierig und kommt meist nicht zustande. Bei moderater kausaler Bezogenheit der Sätze wird der Kausalzusammenhang durch umfangreiche elaborative Verarbeitungsprozesse erkannt. Wird bei allen Satzpaaren unabhängig vom Grad ihrer kausalen Bezogenheit eine elaborative Encodierung der Sätze angeregt, verbessert sich die Wiedergabeleistung mit zunehmendem Kausalbezug der Sätze (Waddill, Marquardsen & Dallas, 1997).
5.
Ausblick
Das psychologische Anliegen, Kausalverstehen auf einheitliche basale Kriterien oder Mechanismen zurückzuführen, hat sich als problematisch erwiesen. Bisher gibt es keinen Konsens, wie die in experimentellen Untersuchungen identifizierten Attributionsurteile und -muster erklärt werden können. Das betrifft sowohl den Aspekt der theoretischen
48. Verstehen von Kausalitätszusammenhängen
Beschreibung der Kausalkriterien bzw. kausalen Mechanismen als auch den Aspekt ihres Allgemeinheitsgrades und damit zusammenhängend den Aspekt ihrer kulturellen Abhängigkeit oder Invarianz. Wie schon Anderson (1990) postulierte, scheint es angemessener, komplexes kausales Denken durch Theorieentwürfe, die auf verschiedenen Kriterien fußen, zu approximieren (Oestermeier, 1997: 81). Das bedeutet, dass Probanden über verschiedene Kriterien und Cues bzw. Mechanismen für die Identifikation von Ursache-Wirkungs-Zusammenhängen verfügen, die sie in Abhängigkeit vom Vorwissen, der Anforderung, dem Kontext und weiteren zu spezifizierenden Faktoren flexibel einsetzen können. Zu bestimmen sind dann die kritischen Bedingungen, unter denen bestimmte Kausalkriterien bzw. Mechanismen zur Erschließung von Ursache-Wirkungs-Zusammenhängen präferiert werden. Diese Analyse muss die sprachlichen Rahmenbedingungen kausalen Denkens einbeziehen. Und die Ergebnisse müssen in Modellvorstellungen und empirischen Untersuchungsansätzen zum Textverstehen die ihnen gebührende Beachtung finden.
6.
Literatur
Ahn, W., Kalish, C. W., Medin, D. L. & Gelman, S. A. (1995). The role of covariation versus mechanism information in causal attribution. Cognition, 54, 299⫺352. Anderson, J. R. (1990). The adaptive character of thought. Hillsdale, NJ: Erlbaum. Aristoteles Metaphorik VIII, 7. Black, J. B. & Bower, G. H. (1980). Story understanding as problem solving. Poetics, 9, 223⫺250. Buehner, M. J. & Cheng, P. W. (1999). From covariation to causation: A test of the assumption of causal power. In M. May & U. Oestermeier (Hrsg.), KogWis 99 – Workshop „Kausalität“ (S. 19⫺30). GMD Report 60. Carey, S. (1995). On the origin of causal understanding. In D. Sperber, D. Premack & Ann J. Premack (Eds.), Causal cognition (pp. 268⫺308). Oxford: Clarendon Press. Cheng, P. W. (1997). From covariation to causation: A causal power theory. Psychological Review, 104, 367⫺405. Cheng, P. W. & Novick, L. R. (1992). Covariation in natural causal induction. Psychological Review, 99, 365⫺382.
641 DeJong, G. (1979). Prediction and substantiation: A new approach to natural language processing. Cognitive Science, 3, 251⫺273. Einhorn, H. J. & Hogarth, R. M. (1986). Judging probable cause. Psychological Bulletin, 99, 3⫺19. Erdfelder, E., Brandt, M. & Wegener, I. (1998). Ein evolutionspsychologischer Ansatz zur Erklärung verzerrter Kontingenzurteile. Vortrag auf dem 40. Kongreß der Deutschen Gesellschaft für Psychologie in Dresden. Gelman, R. (1990). First principles organize attention to and learning about relevant data: Number and the animate ⫺ inanimate distinction as examples. Cognitive Science,14, 79⫺106. Gernsbacher, M. A. (1990). Language comprehension as structure building. Hillsdale, NJ: Erlbaum. Hagmayer, Y. & Waldmann, M.R. (1999). Sind statistische Verfahren zur Kausalanalyse adäquate Modelle kausalen Denkens? In M. May & U. Oestermeier (Hrsg.), KogWis 99 ⫺ Workshop „Kausalität“ (pp. 39⫺43). GMD Report 60. Harre, R. & Madden, E. H. (1975). Causal powers: A theory of natural necessity. Oxford: Blackwell. Hecht, H. & Kerzel, D. (1999). Die Wahrnehmung von Kausalität. In M. May & U. Oestermeier (Hrsg.), KogWis 99 ⫺ Workshop „Kausalität“ (pp. 12⫺18). GMD Report 60. Heider, F. (1958). The psychology of interpersonal relations. New York: Wiley. Hume, D. (1978). A treatise of human nature. Oxford: Oxford University Press (Publikation der Originalarbeit 1739). Jenkins, H. M. & Ward, W. C. (1965). Judgement of contingency between responses and outcomes. Psychological Monographs, 79 (Whole No. 10). Kant, I. (1781/1957). Kritik der reinen Vernunft. Herausgegeben von R. Schmidt. Leipzig: Brockhaus. Kelley, H. H. (1973). The process of causal attribution. American Psychologist, 28, 107⫺128. Kintsch, W. (1988). The role of knowledge in discourse comprehension: A construction-integration model. Psychological Review, 95, 163⫺182. Kintsch, W. (1998). Comprehension. A paradigm for cognition. Cambridge, MA: Cambridge University Press. Klin, C. M. (1995). Causal inferences in reading: From immediate activation to long-term memory. Journal of Experimental Psychology: Learning, Memory, and Cognition, 21, 1483⫺1494. Kummer, H. (1995). Causal knowledge in animals. In D. Sperber, D. Premack & Ann J. Premack
642 (Eds.), Causal cognition (pp. 26⫺36). Oxford: Clarendon Press. Leslie, A. M. (1995). A theory of agency. In D. Sperber, D. Premack & Ann J. Premack (Eds.), Causal cognition (pp. 121⫺141). Oxford: Clarendon Press. Lipe, M. G. (1991). Counterfactual reasoning as a framework for attribution theories. Psychological Bulletin, 109, 456⫺471. Mackie, J. L. (1965). Causes and conditions. American Philosophical Quarterly, 2, 245⫺264. Magliano, J. P., Baggett, W. B. & Graesser, A. C. (1996). A taxonomy of inference categories that may be generated during the comprehension of literary texts. In R. J. Kreuz & M. S. MacNealy (Eds.), Empirical approaches to literature and aesthetics (pp. 201⫺220). Norwood, NJ: Ablex. McCloskey, M., Caramazza, A. & Green, B. (1980). Curvilinear motion in the absence of external forces: Naive beliefs about the motion of objects. Science, 210, 1139⫺1141. Michotte, A. (1954). La perception de la causalite´. Louvain: Publications Universitaires. Mill, J. S. (1967). A system of logic ratiocinative and inductive. London: Longman (Publikation der Originalarbeit 1843). Millis, K. K. & Graesser, A. C. (1994). The timecourse of constructing knowledge-based inferences for scientific texts. Journal of Memory and Language, 33, 583⫺599. Morris, M. W., Nisbett, R. E. & Peng, K. (1995). Causal attributions across domains and cultures. In D. Sperber, D. Premack & Ann J. Premack (Eds.), Causal cognition (pp. 577⫺612). Oxford: Clarendon Press. Oestermeier, U. (1997). Begriffliche und empirische Fragen der Kausalkognition. Kognitionswissenschaft, 6, 70⫺85. Plach, M. (1999). Bayessche Netze als Modelle der Repräsentation von Kausalwissen. In M. May & U. Oestermeier (Hrsg.), KogWis 99 ⫺ Workshop „Kausalität“ (pp. 31⫺38). GMD Report 60. Premack, D. & Premack, A. J. (1995). Intention as psychological cause. In D. Sperber, D. Premack & Ann J. Premack (Eds.), Causal cognition (pp. 185⫺ 199). Oxford: Clarendon Press.
IV. Sprachrezeption veness of reinforcement and nonreinforcement. In A. H. Black & W. F. Prokasy (Eds.), Classical conditioning II: Current theory and research (pp. 64⫺ 99). New York: Appleton-Century Crofts. Rickheit, G. & Strohner, H. (1999). Textverarbeitung: Von der Proposition zur Situation. In A. D. Friederici (Hrsg.), Sprachrezeption (pp. 271⫺306). Göttingen: Hogrefe. Rickheit, G., Schnotz, W. & Strohner, H. (1985). The concept of inference in discourse comprehension. In G. Rickheit & H. Strohner (Eds.), Inferences in text processing (pp. 3⫺49). Amsterdam: North-Holland. Riedl, R. (1992). Wahrheit und Wahrscheinlichkeit: Biologische Grundlagen des Für-Wahr-Nehmens. Berlin: Parey. Schauble, L. (1990). Belief revision in children: The role of prior knowledge and strategies for generating evidence. Journal of Experimental Child Psychology, 49, 31⫺57. Shanks, D. R. (1985). Continuous monitoring of human contingency judgment across trials. Memory & Cognition, 13, 158⫺167. Sharkey, N. E. & Sharkey, A. J. C. (1987). What is the point of integration? The loci of knowledgebased facilitation in sentence processing. Journal of Memory and Language, 26, 255⫺276. Suppes, P. (1970). A probabilistic theory of causality. Amsterdam: North Holland. Thüring, M. (1991). Probabilistisches Denken in kausalen Modellen. Weinheim: PVU. van den Broek, P.W. (1990). Causal inferences and the comprehension of narrative texts. In A. C. Graesser & G. H. Bower (Eds.), Inferences and text comprehension (pp. 175⫺196). New York: Academic Press. van den Broek, P.W., Rohleder, L. & Narvaez, D. (1996). Causal inferences in the comprehension of literary texts. In R. J. Kreuz & M. S. MacNealy (Eds.), Empirical approaches to literature and aesthetics (pp. 179⫺200). Norwood, NJ: Ablex. van der Meer, E. (1998). Inferenzen in Wissenskörpern. In F. Klix & H. Spada (Hrsg.), Wissen (pp. 213⫺247). Göttingen: Hogrefe. van der Meer, E. & Schmidt, B. (1992). Finale, kausale und temporale Inferenzen ⫺ Analyse ihres kognitiven Hintergrundes. Zeitschrift für Psychologie, 200, 303⫺320.
Premack, D. & Premack, A. J. (1997). Infants attribute value⫹- to the goal-directed actions of selfpropelled objects. Journal of Cognitive Neuroscience, 9, 848⫺856.
van Dijk, T. A., & Kintsch, W. (1983). Strategies of discourse comprehension. New York: Academic Press.
Rescorla, R. A. & Wagner, A. R. (1972). A theory of Pavlovian conditioning: Variations in the effecti-
Waddill, P. J., Marquardsen, D. & Dallas, M. B. (1997). Causal relatedness and elaborative enco-
643
49. Verstehen von Personenbeschreibungen ding affect text memory. Abstracts of the Psychonomic Society, 2.
White, P. A. (1989). A theory of causal processing. British Journal of Psychology, 80, 431⫺451.
Waldmann, M. R. & Holyoak, K. J. (1992). Predictive and diagnostic learning within causal models: Asymmetries in cue competition. Journal of Experimental Psychology: General, 121, 222⫺236.
White, P. A. (1995). The understanding of causation and the production of action. Hove (UK): Erlbaum.
Waldmann, M. R. & Holyoak, K .J. (1997). Determining whether causal order affects cue selection in human contingency learning: Comments on Shanks and Lopez (1996). Memory & Cognition, 25, 125⫺134. Waldmann, M. R., Holyoak, K. J. & Fratianne, A. (1995). Causal models and the acquisition of category structure. Journal of Experimental Psychology: General, 124, 181⫺206.
White, P. A. (1998). Causal judgement: Use of different types of contingency information as confirmatory and disconfirmatory. European Journal of Cognitive Psychology, 10, 131⫺170. Zwaan, R. A., Magliano, J. P. & Graesser, A. C. (1995). Dimensions of situation model construction in narrative comprehension. Journal of Experimental Psychology: Learning, Memory, and Cognition, 21, 386⫺397.
Elke van der Meer Humboldt Universität zu Berlin (Deutschland)
49. Verstehen von Personenbeschreibungen 1. 2. 3. 4. 5. 6. 7.
Einleitung Verstehen und Urteilen Merkmale von Personenbeschreibungen Integration und Kohärenz Kausale Zuschreibungen und Erklärungen Fazit: Aufbau eines Personmodells Literatur
„Sie war, wie alle Krögers, eine äußerst elegante Erscheinung, und war sie auch keine Schönheit zu nennen, so gab sie doch mit ihrer hellen und besonnenen Stimme, ihren ruhigen, sicheren und sanften Bewegungen aller Welt ein Gefühl von Klarheit und Vertrauen.“ (Thomas Mann, Buddenbrooks, 1903/1974: 9).
1.
Einleitung
Eine Personenbeschreibung zu verstehen bedeutet, dass beim Hörer oder Leser ein Bild der beschriebenen Person entsteht, in dem die einzelnen Komponenten der gegebenen Information in einen mehr oder weniger abgerundeten Gesamteindruck integriert werden. Hierzu sind unterschiedliche kognitive Leistungen gefordert. Über die Identifikation und das Verstehen der gegebenen Wörter und Aussagen hinaus werden die einzelnen Teile der Beschreibung aufeinander bezogen und mit dem allgemeinen Wissen über Personen und Personkategorien, deren mögliche Eigenschaften, Eigenschaftskombinationen, äußere Merkmale, Einstellungen und Verhaltenswei-
sen in Verbindung gebracht. Auf der Grundlage des verfügbaren Vorwissens und der neuen Information, die durch die Personenbeschreibung vorgegeben ist, wird eine mentale Repräsentation der beschriebenen Person konstruiert, die die einzelnen Komponenten in eine spezifische Ordnung bringt (für einen Überblick der Forschung zur mentalen Repräsentation von Wissen über Personen vgl. Smith, 1998). Das Ergebnis des Verstehensprozesses ist der kohärente Gesamteindruck, ein mentales Modell der beschriebenen Person. In Analogie zum Situationsmodell beim Verstehen einer Geschichte (vgl. Zwaan, Langston & Graesser, 1995) kann dieses mentale Modell als Personmodell bezeichnet werden. Neben diesem mentalen Modell sind zwei weitere Ebenen der Repräsentation eines Textes und somit auch einer Personenbeschreibung anzunehmen (v. Dijk & Kintsch, 1983): die Ebene der Repräsentation der sprachlichen Oberfläche, die den genauen Wortlaut und die syntaktische Form bezeichnet, und die Textbasis, in der auch diejenigen Inferenzen repräsentiert sind, die es ermöglichen, einen Zusammenhang zwischen den einzelnen Äußerungen herzustellen und somit die lokale Kohärenz zu sichern. Diese beiden Ebenen sind unmittelbar auf den Text bezogen, während das Personmodell über die gegebene Information hinausgeht. Mit Hilfe von Rekognitionsaufgaben konnte gezeigt
644
IV. Sprachrezeption
werden, dass die drei Repräsentationsebenen bei der Verarbeitung deutlich unterscheidbar sind (vgl. Zwaan, 1994).
2.
Verstehen und Urteilen
Im Gegensatz zu anderen sprachlichen Darstellungen gilt für das Verstehen von Personenbeschreibungen, dass es in aller Regel unmittelbar mit der Urteilsbildung verknüpft ist (Uleman, Newman & Winter, 1992). Es erscheint unmöglich, eine Personenbeschreibung zu verstehen, ohne zugleich ein Urteil über die beschriebene Person zu bilden in dem Sinn, dass Schlussfolgerungen insbesondere auf Persönlichkeitseigenschaften vorgenommen werden (Carlston & Skowronski, 1994). Personenbeschreibungen unterscheiden sich aber noch in weiterer Hinsicht von anderen Textgenres: Sie enthalten keine zeitliche Abfolge von Zuständen und Ereignissen, wie dies für Erzählungen oder Sachverhaltsund Ereignisdarstellungen gilt. Statt dessen finden sich Aussagen über äußere und innere Merkmale und Eigenschaften sowie Handlungen und Handlungssequenzen, die einer einzelnen Person oder Personkategorie zugeschrieben werden, wobei die Reihenfolge der einzelnen Aussagen und die Art der Verknüpfung variieren; beide Variablen, die Reihenfolge und die Verknüpfungen, sind jedoch für das Verstehen und das Urteilen bedeutsam. Im Unterschied zu Objektbeschreibungen, die ebenfalls keine notwendige zeitliche Abfolge enthalten, zeichnen sich Personenbeschreibungen inhaltlich durch die Besonderheit ihres Gegenstandes aus. Personen als Objekte der Wahrnehmung sind dynamisch und außerordentlich komplex, sie ändern sich über die Zeit hinweg, und sie ändern sich in der Art der Präsentation. Personen sind Akteure mit Absichten, Vorsätzen und Zielen. Sie sind Urheber von Geschehnissen und bestimmen das Vorkommen von Ereignissen. Das Wissen hierüber ist Bestandteil des allgemeinen Wissens über Personen ebenso wie das Wissen darüber, dass diese Qualitäten mit Handlungsdispositionen, und zwar insbesondere mit Fähigkeiten und Persönlichkeitseigenschaften in Zusammenhang stehen. Von daher kommt der Differenzierung zwischen den objektiv gegebenen Merkmalen der Person, den beobachteten Handlungsabläufen und den nicht beobachtbaren inneren Eigenschaften auch beim Verstehen von Personenbeschreibungen ein zentraler Stellenwert zu.
Dabei lassen sich die einzelnen Aussagen als auf einem Kontinuum angeordnet verstehen, das vom konkreten Verhalten als der von außen sichtbaren Erscheinung der Person und ihrem, mehr oder weniger absichtsvollen, beobachtbaren Verhalten, zur Disposition, als der nicht sichtbaren, aber erschließbaren, jedenfalls hypothetischen Grundlage des Tuns reicht. „From acts to dispositions“ hieß eine klassische Arbeit zur Attributionstheorie von Jones und Davis (1965), die diese Richtungsangabe damit begründeten, dass schon in der alltäglichen Wahrnehmung Handlungen unmittelbar mit Dispositionen in Verbindung gebracht werden, die wiederum als mögliche Erklärungen für vergangenes und aktuelles Handeln sowie als Basis der Vorhersage künftigen Handelns der Person gelten können. Aus diesen inneren Eigenschaften setzt sich schließlich auch das Urteil über die beschriebene Person zusammen. Personenbeschreibungen haben in der Literatur, in den Medien und im beruflichen und privaten Alltag einen zentralen Platz, denn über nichts wird so gern und so viel geredet wie über andere Menschen. Häufig tragen Personenbeschreibungen zu Entscheidungen von weitreichender Bedeutung bei, sei es in der Personalauslese und -entwicklung aufgrund sprachlich formulierter Bewerbungsunterlagen einschließlich Zeugnissen, sei es bei Gutachten vor Gericht oder im Ausbildungs- und Gesundheitssystem, überall dort, wo Entscheidungen über einzelne Personen und Personengruppen getroffen werden, werden sprachliche Darstellungen der Person hinzugezogen. Von daher hat die Erforschung der Prozesse des Verstehens von Personenbeschreibungen eine unmittelbare Relevanz für die Praxis. Die Frage nach den Mechanismen des Enkodierens, Behaltens und Erinnerns personenbezogener Information steht im Zentrum der Forschung zur Sozialen Kognition als einer Teildisziplin der Sozialpsychologie (für einen Überblick vgl. Fiske, 1995; Devine, Hamilton & Ostrom, 1994). Die meisten Arbeiten auf diesem Gebiet basieren zwar auf sprachlichen Vorgaben, sie behandeln jedoch nicht die Besonderheiten der sprachlichen Präsentation als einer von mehreren möglichen Darbietungsmodalitäten personenbezogener Information (neben etwa der direkten Beobachtung und der Foto- oder Filmdarstellung), die ihre eigenen Gesetzmäßigkeiten hat. Anders sieht dies in den Arbeiten aus, die die kausalen Urteile näher untersuchen,
49. Verstehen von Personenbeschreibungen
die mit der Verwendung spezifischer Wortklassen in Personenbeschreibungen verbunden sind (Semin & Fiedler, 1988), und den Arbeiten, die sich auf die Analyse von Textmerkmalen und deren Effekte auf das Verstehen von Personenbeschreibungen konzentrieren (Wintermantel & Christmann, 1983; Wintermantel & Krolak-Schwerdt, 2002). Auf der Grundlage der Befunde aus der sozial- und sprachpsychologischen Forschung wird im Folgenden gezeigt, (a) wie es dazu kommt, dass aus sprachlich vorgegebener Information beim Hörer/Leser ein kohärenter Eindruck der Person entsteht, (b) dass und wie die verwendeten sprachlichen Mittel spezielle Ursache-Wirkungs-Zusammenhänge nahelegen, (c) in welcher Weise der situative Kontext die Eindrucksbildung mitbestimmt und (d) inwieweit textuelle Merkmale das Verstehen von Personenbeschreibungen beeinflussen. Es wird dabei deutlich, in welch hohem Maß die Verstehensprozesse davon bestimmt sind, welche Personkategorien und, allgemeiner, welches Wissen über Personen einschließlich der eigenen Person auf Seiten des urteilenden Individuums beim Verstehen aktiviert wird (Higgins, 1996) und wie bedeutsam seine Ziele in der Verstehenssituation sind (Kruglanski, 1996). Doch zunächst zu einer Charakteristik von Personenbeschreibungen als einem speziellen Textgenre.
3.
Merkmale von Personenbeschreibungen
Personenbeschreibungen sind Sequenzen sprachlicher Ausdrücke, die in dem Sinn thematisch kohärent sind, als sie sich auf dieselbe reale oder fiktionale Person oder Personkategorie beziehen. Die einzelnen sprachlichen Ausdrücke können unverbunden aufeinander folgen, oder sie können syntaktisch miteinander verbunden sein, so dass sie eine textuelle Form annehmen. Texte dieser Art können wiederum in einzelne, zumeist inhaltlich abgegrenzte Abschnitte untergliedert sein. In aller Regel findet sich in Personenbeschreibungen ein breites Spektrum von Aussagen, das von objektiven Merkmalen (z. B. Merkmale des äußeren Erscheinungsbildes, Alter, Berufszugehörigkeit, Wohnort etc.) zu hypothetischen Persönlichkeitseigenschaften reicht (Bieri, Bradburn & Galinsky, 1958; Fancher, 1966; Maher, 1957). Personenbeschreibungen geben kein komplettes Bild der Person ab, sondern sie stellen die Person oder
645 Personkategorie unter spezifischen Blickwinkeln dar. Welche Aspekte der Person dabei hervorgehoben werden, hängt von den situativen Bedingungen, insbesondere von den Zielen des Textproduzenten ab sowie etwa auch seiner Einschätzung der Einstellungen des Gegenübers im Hinblick auf die beschriebene Person (Higgins, 1992). Häufig lassen die einzelnen Aussagen verschiedene Interpretationen zu. Wird über eine Person z. B. gesagt, dass sie gern und oft in die Oper geht, so kann dies sowohl im Sinne einer Vorliebe für Musik, aber auch als Hinweis auf eine besondere Kontaktfreudigkeit oder etwa auch auf ihren Hang zu romantischen Gefühlen interpretiert werden. Ausschlaggebend für die Interpretation sind die weiteren Informationen über die Person. Außerdem spielt der kulturelle Kontext eine wichtige Rolle. Hier gibt es sozial geteilte Auffassungen darüber, welche Merkmale soziale Kategorien, wie etwa auch die Kategorie der Opernbesucher, über das die Kategorie konstituierende Merkmal hinaus sonst noch haben. Auch wenn Personen den Inhalten derartiger stereotyper Wissensstrukturen nicht unbedingt beipflichten würden, so teilen sie sie doch mit anderen (Devine, 1989). Eine weitere Differenzierung der personenbezogenen Aussagen in Beschreibungen bezieht sich auf die Dimension der transsituativen Gültigkeit von Eigenschaften. Diese reicht von der vorübergehenden, gleichsam „episodischen“ Handlungsqualität der beschriebenen Person, wie z. B. „ärgerlich“ oder „erfreut“, zum dispositionalen, transsituativ gültigen Attribut wie „intelligent“ oder „großzügig“. Diese Dimension entspricht in gewisser Weise der Dimension „konkret“ versus „abstrakt“, wenn man die abstrakten Eigenschaften als diejenigen auffasst, die in einem weiteren Spektrum von Situationen kennzeichnend für die zu beurteilende Person sind (s. hierzu ausführlicher Abschn. 4). Derartig abstrakte Eigenschaften haben eine höhere Diagnostizität, sie sind also typischer für die beschriebene Person als die situativ gebundenen, eher kurzfristigen Qualitäten. Ein hohes Maß an Aussagekraft haben darüber hinaus die Merkmale, die diese Person von anderen Personen in demselben Kontext unterscheidbar machen. Dies gilt für die direkte Wahrnehmung ebenso wie für das Verstehen sprachlich dargebotener Information. Aufschlussreich sind Untersuchungen, die sich mit der Charakteristik von Personenbeschreibungen befassen, die unter experimen-
646 tellen Bedingungen erhoben wurden (Beach & Wertheimer, 1961; Bromley, 1966; Hastorf, Richardson & Dornbusch, 1958). Neben der großen Breite und Unterschiedlichkeit der gefundenen Inhalte und Ausdrucksformen zeigen diese frühen Studien, dass Individuen über eine eher kleine Anzahl von Begriffen verfügen, die sie konsistent bei der Beschreibung anderer verwenden, und dass es im Hinblick auf die verwendeten Kategorien erhebliche interindividuelle Unterschiede gibt. Hervorzuheben ist weiter, dass sich die Beschreibungen zweier verschiedener Personen durch einen einzelnen Beschreibenden mehr ähneln als die Beschreibung einer einzelnen Person durch zwei verschiedene Beschreibende. In einer entwicklungspsychologischen Studie fanden Livesley und Bromley (1967), dass größere Kinder für die Beschreibung anderer Personen mehr dispositionale Bezeichnungen wählten, während jüngere Kinder sich auf äußere Merkmale konzentrierten. Dieses Ergebnis und der weitere Befund, dass intelligentere Jugendliche in ihren Personenbeschreibungen mehr dispositionale Adjektive verwenden als weniger intelligente, bestätigt die Autoren in ihrer Annahme, dass es ein Zeichen kognitiver Reife und differenzierter Urteilsbildung sei, personenbezogene Information um Dispositionen herum zu organisieren und zu hierarchisieren. In einer Nachfolgeuntersuchung entwickelten dieselben Autoren aus den von ihnen empirisch erhobenen Personenbeschreibungen mit insgesamt 989 Aussagen ein inhaltsanalytisches System, das aus 12 Kategorien und 32 Subkategorien besteht (vgl. Livesley & Bromley, 1973: 123 ff.). Danach lassen sich die folgenden Aussagekategorien unterscheiden: Objektive Information: Äußere Erscheinung, Identität, Routinetätigkeiten, aktuelle Ereignisse, Besitz; Aktuelle und zurückliegende Umstände: Biographie, aktuelle soziale Bedingungen, physische Kondition; Persönliche Merkmale und Verhaltenskonsistenzen: Allgemeine Persönlichkeitsattribute, spezifische Verhaltenskonsistenzen, Motive und Ziele, Orientierungen, expressives Verhalten; Fähigkeiten und Leistungen: intellektuelle Fähigkeiten und Begabungen, Leistungen und andere Fähigkeiten; Interessen und Vorlieben: Präferenzen und Aversionen, Interessen und Hobbies;
IV. Sprachrezeption
Einstellungen und Überzeugungen: Überzeugungen, Einstellungen, Werte, Selbstwert; Bewertungen: durch eine beschreibende Person; Soziale Faktoren: Rollen, Reputation, Freundschaften; Interaktion: Interaktion zwischen Textproduzent und Stimulusperson; Vergleich mit Standards: Vergleich mit dem Selbst und anderen; Familie und familiäre Beziehungen; Illustration, Bestätigung und Erklärung. Dieses System gibt Aufschluss über das breite Spektrum von Inhalten, die in Personenbeschreibungen vorkommen. Die Autoren verweisen darauf, dass die Häufigkeitsrelationen von verschiedenen personalen und situativen Parametern beeinflusst werden. Mit dem Aspekt der Textualität beschäftigen sich Wintermantel und Christmann (1983), die auf der Grundlage des Modells der Textverarbeitung von Kintsch (1974) eine Analyse der Propositionen und Propositionssequenzen von empirisch erhobenen Personenbeschreibungen vorgenommen haben. Sie unterscheiden dabei drei Typen von Propositionssequenzen (Attributionale, Aktionale und Interaktionale), mit denen der beschriebenen Person Eigenschaften, Aktionen oder Interaktionen zugeschrieben werden. Daneben werden Propositionssequenzen vom Typ Elaborationen, Reflektionen und Erklärungen aufgeführt. Eine Analyse freier Personenbeschreibungen und von Zeitungstexten dieses Typs zeigt, dass etwa 76 % der Gesamtzahl auftretender Propositionen auf die ersten drei Typen von Zuschreibungen entfallen, wobei etwa 34 % Attributionen sind, wie z. B. „P ist besonders intelligent“, „P wirkt äußerst mutig“, „Ich glaube, P ist sehr fleißig“. Diese Verteilung erweist sich als unabhängig von der sozialen Distanz zwischen der beschreibenden und der beschriebenen Person. In allen Fällen „natürlicher“ Personenbeschreibungen findet sich also eine Mischung von Aussagen, die auf verschiedenen Abstraktionsstufen und in verschiedenen Bereichen der Persönlichkeit lokalisiert und unterschiedlich diagnostisch sind und, damit verbunden, auf mehr oder weniger dauerhafte Merkmale verweisen.
49. Verstehen von Personenbeschreibungen
4.
Integration und Kohärenz
Will man das Verstehen von Personenbeschreibungen untersuchen, so kommen mehrere Methoden in Betracht. In der Forschung zur Eindrucksbildung und sozialen Kognition verwendet man meistens Verfahren, die die mentale Repräsentation betreffen, die als Produkt des Verstehens angenommen wird. Man erhebt also Wiedergabeleistungen, Zusammenfassungen, Antworten auf Fragen oder Leistungen in Rekognitionstests. Dabei ist zu beachten, dass in diesen Untersuchungen mit nur ganz wenigen Ausnahmen keine natürlichen Texte als Ausgangsmaterial eingesetzt werden, sondern Listen von Attributen oder einfachsten Aussagen. Diese „textoids“ (vgl. Graesser, Millis & Zwaan, 1997) sind jedoch schon allein deshalb kohärent (und auch kohäsiv), weil sie sich explizit auf eine einzelne (fiktive) Person beziehen. In Untersuchungen zum Textverstehen wählt man neben den genannten auch andere Verfahren, die helfen, in erster Linie den Prozess und weniger das Produkt zu erfassen. Hier sind vor allem die Erhebung von Lesezeiten oder die Methode des lauten Denkens zu nennen. Der Nachteil der Methode des lauten Denkens liegt darin, dass implizite Verstehensprozesse hiermit nicht erfassbar sind. Graesser et al. (1997) plädieren u. a. deshalb zu Recht für eine Kombination verschiedener Methoden, wodurch die doch beträchtlichen Nachteile jedes einzelnen Verfahrens kompensiert werden können. Mit seinen Untersuchungen zur Eindrucksbildung aufgrund sprachlich präsentierter Personinformationen hatte Asch (1946) erste Befunde vorgelegt, die seither mehrfach bestätigt und um eine Vielzahl differenzierter Ergebnisse erweitert worden sind. Sehr schnell und ohne besonderes Nachdenken wird danach auf der Grundlage knappster Informationen ein kohärenter Eindruck über die Person gebildet (Gilbert, 1998), bei dessen Konstruktion (1) über die gegebenen Informationen hinausgegangen wird und (2) die einzelnen Aussagen unterschiedlich gewichtet werden, so dass eine Konfiguration der einzelnen Teile entsteht. In dieser klassischen Studie hatte Asch den Teilnehmern entweder das Attribut „kalt“ oder „warm“ als Teil einer Attributliste dargeboten, durch die eine Person beschrieben werden sollte. Es stellte sich heraus, dass diese beiden Attribute das Verstehen aller anderen und damit die Gesamtbeschreibung wesentlich stärker be-
647 einflussten als andere, eher periphere Eigenschaften. Die gestaltpsychologisch orientierte Erklärung lautete, dass der Gesamteindruck sich auf der Basis zentraler Eigenschaften und um sie herum als integriertes Ganzes entwickele, so dass die Einzeleigenschaften in einer spezifischen Kombination und Konfiguration wahrgenommen und daher unterschiedlich gewichtet würden. Die Tendenz zur Integration und Kohärenzbildung selbst bei Vorgabe widersprüchlicher Attribute (z. B. „brilliant“ und „dumm“) wurde von (Asch & Zukier, 1984) detaillierter untersucht. Die Teilnehmer wählten dabei verschiedene Strategien, um die Widersprüchlichkeit der Attribute so zu erklären, dass dennoch ein kohärentes Bild der beschriebenen Person aufrechterhalten blieb. Z. B. wurden die Attribute „brillant“ und „dumm“, bezogen auf eine einzelne Person, unterschiedlichen Sphären der Persönlichkeit zugesprochen (etwa der praktischen versus der intellektuellen Sphäre). Oder man nahm eine Unterscheidung von Mittel und Zweck vor, indem über die Person gesagt wurde, dass sie eigentlich brillant sei, sich aber manchmal gern dumm stelle. In jedem Falle wurden die widersprüchlichen Aussagen als passend zu einem Gesamteindruck interpretiert. Zentrale Merkmale dienen dabei als eine Art Anker für alle übrigen Aussagen, wobei nicht nur derart grundlegende Attribute wie „warm“ und „kalt“ oder „sympathisch“ und „unsympathisch“ eine Ankerfunktion übernehmen können, sondern auch zuerst genannte, zuletzt genannte sowie saliente und erwartungskonsistente Merkmale. In diesem Zusammenhang ist außerdem der Befund zu erwähnen, dass negative Information über eine Person besonders gewichtet wird (Fiske, 1980), da möglicherweise negative Aussagen mehr Aufmerksamkeit auf sich ziehen als positive. Eine alternative Auffassung der Eindrucksbildung wurde von Anderson (1981) entwickelt, der in einem „algebraischen“ Modell den Prozess der Eindrucksbildung als eine Berechnung rekonstruiert, bei der die Summe der Gewichte der Einzelmerkmale multipliziert mit bestimmten Skalenwerten ermittelt wird. Auch dieses Modell liefert unter bestimmten Bedingungen gute Vorhersagen in Untersuchungen zur Eindrucksbildung. Dies steht durchaus in Einklang mit der These von Asch (1946), dass das Produkt dieses Prozesses ein geschlossener, integrierter Gesamteindruck ist.
648 Generell gilt dabei für das Verstehen personbezogener Aussagen, dass die Interpretation einzelner Eigenschaften zum einen von den im sprachlichen Kontext sonst noch vorgegebenen Attributen abhängt (Hamilton & Zanna, 1974) und zum anderen von dem aktivierten Vorwissen auf Seiten der urteilenden Person. Wird unmittelbar vor der Darbietung einer Personenbeschreibung bei den Versuchsteilnehmern spezielles Wissen über spezifische Persönlichkeitseigenschaften aktiviert, so wird dadurch das Verständnis der Beschreibung in genau diese Interpretationsrichtung gelenkt (Higgins, Rholes & Jones, 1977). Es ist mithin für den Aufbau des Personmodells von entscheidender Bedeutung, welches personbezogene Wissen im Zuge der Verarbeitung der Personenbeschreibung überhaupt verfügbar und aktiviert ist. Selbstverständlich gibt es für die Verfügbarkeit spezifischen Vorwissens neben der von außen gesteuerten Aktivierung unterschiedliche innere Ursachen, die den Verarbeitungsprozess direkt betreffen (Higgins, 1996). Die wichtigsten davon sind spezifische Erwartungen der Person, aber auch kurzfristige und langfristige Motive und Ziele. Sucht man etwa einen neuen Mitarbeiter, der sehr diffizile Führungsaufgaben in einem Team übernehmen soll, so werden beim Lesen von Bewerbungsunterlagen andere Kategorien aktiviert, als wenn es darum geht, den richtigen Konstrukteur einer technischen Anlage zu finden. Erwartungen besonderer Art leiten sich aus den Personkategorien ab, über die die urteilende Person verfügt. Diese Kategorien umfassen persönliche Konstrukte (Kelly, 1955) oder implizite Persönlichkeitstheorien (Leyens, 1983), also subjektive Theorien über die Zusammenhänge zwischen Eigenschaften der Person und Stereotypen als sozial geteilten Annahmen über die Eigenschaften von Personen als Mitgliedern sozialer Gruppen. Des Weiteren verfügen Individuen über Personschemata, das sind Strukturen des Wissens über spezifische Andere und über Rollenschemata, die sich auf die Träger spezieller sozialer Rollen beziehen (Fiske, 1995). Schemata dieser Art ermöglichen es, sich auf der Basis begrenzter Informationsvorgaben sehr schnell zu orientieren und fehlendes Wissen gleichsam zu ergänzen. Sie spielen im Verstehen von Personenbeschreibungen eine zentrale Rolle. Schon aufgrund erster sprachlicher Hinweise, wie beispielsweise „P ist eine warmherzige Frau“ wird das Schema einer warmherzigen Person aktiviert, die neben ihrer Warmherzigkeit über eine Reihe anderer
IV. Sprachrezeption
im Schema repräsentierter Eigenschaften verfügt, die in spezifischen Relationen zueinander stehen. Der Abruf derartiger Schemata durch sprachliche Mittel bringt mit sich, dass neben der in der Beschreibung vorgegebenen Information zusätzliche Informationen in den Verarbeitungsprozess eingehen (Brewer & Nakamura, 1984). Besonders gut lässt sich dies an Intrusionen zeigen, das sind Wörter und Aussagen, die in der freien Wiedergabe auftreten, obwohl sie in der Vorgabe nicht enthalten waren (Krolak-Schwerdt, im Druck). Die Inspektion derartiger Intrusionen bei der Wiedergabe von Attributlisten zeigt, dass sie zu einem hohen Prozentsatz aus der Gruppe schemakonsistenter Eigenschaften stammen. Dies verweist darauf, dass im Zuge der Verarbeitung passend erscheinende Kategorien aktiviert und auf ihre Kompatibilität mit der neuen Information aus der sprachlichen Oberfläche und der Textbasis hin geprüft werden. Inwieweit auch in diesem Prozess des Sprachverstehens das Prinzip gilt, dass die kategoriengeleitete gegenüber der merkmalsgeleiteten prioritär ist, wie dies etwa in dem Kontinuummodell der Eindrucksbildung von Fiske und Neuberg (1990) angenommen wird, lässt sich derzeit noch nicht eindeutig beantworten. Jedenfalls deuten die Befunde zum Behalten von personbezogener Information auf eine starke und im Verarbeitungsprozess frühe Mitwirkung verfügbarer Personkategorien hin (vgl. Krolak-Schwerdt, im Druck).
5.
Kausale Zuschreibungen und Erklärungen
Neben der Funktion der Personkategorien, die die Verarbeitung personbezogener Information dadurch steuern, dass sie Schemata bereitstellen, an denen die eingehende Information geprüft werden kann, gibt es, wie oben erwähnt, ein weiteres wichtiges Kennzeichen der kognitiven Verarbeitung von Personinformation. Dies ist die Tendenz zur kausalen Erklärung durch Attribution. Diese spielt hier, anders als bei der Wahrnehmung nicht-sozialer Objekte, eine hervorgehobene Rolle, da es grundsätzlich unmittelbar zum Verstehen einer Person hinzugehört, die Gründe ihres Verhaltens zu kennen oder zumindest Annahmen darüber zu treffen. Die Attributionstheorie (vgl. Heider, 1958; Jones & Davis, 1965) beschäftigt sich mit diesem Prozess, durch den Individuen sich eige-
649
49. Verstehen von Personenbeschreibungen
nes und fremdes Handeln sowie Ereignisse erklären. Nun gehören Attributionen zwar zum Bereich der Wahrnehmung und des Denkens über Ereignisse, Situationen und Handlungen, und sie sind nicht identisch mit den Prozessen des Sprachverstehens. Doch gründen die theoretischen Modelle beinahe durchweg auf Befunden, die bei der Verarbeitung sprachlicher Materialien gewonnen wurden, und sind daher auch für Einsichten in die Prozesse des Verstehens von Personenbeschreibungen interessant. Die besondere Bedeutung der Sprache für Attributionsprozesse ergibt sich insbesondere aus den semantischen Strukturen und den Präsuppositionen von Verben, die zur Beschreibung und Erklärung individueller Handlungen und Zustände verwendet werden (Au, 1986; Semin & Fiedler, 1988). Aufgrund ihrer wörtlichen Bedeutung enthalten Verben dieser Art mächtige Implikationen, was die kausalen Beziehungen zwischen dem Agens und seinem Handlungsfeld betrifft. In ihrem linguistischen Kategorienmodell, das diesen Gedanken in ein Analyseinstrument für Texte umsetzt, unterscheiden Semin und Fiedler (1989) zwischen vier Wortklassen, die sich sukzessiv von der gleichsam objektiven Beschreibung individuellen Handelns (z. B. „P telefoniert“) über interpretative Verben (z. B. „P hilft Q“) und Zustandsverben („P mag Q“) zur Zuschreibung von Persönlichkeitseigenschaften („P ist liebenswert“) bewegen. Die interpretativen Implikationen verändern sich mit der Wahl des Verbs von der konkreten Beschreibung zur abstrakten Bezeichnung (für Erweiterungen und Anwendungen dieses Modells vgl. Semin und Fiedler, 1992). Mit dem Abstraktionsgrad der Beschreibung wächst die Bedenkbarkeit der Aussage über die beschriebene Person, da mit der abstrakten Aussage eine zeitliche und transsituative Konstanz des bezeichneten Merkmals impliziert ist. Zugleich lässt sich die Aussage kaum widerlegen, da die Beziehung zwischen konkretem Verhalten und dispositionaler Eigenschaft nicht zweifelsfrei nachweisbar ist. Maass (1999) zeigt in einer Reihe von Untersuchungen, dass und wie die Dimension konkret versus abstrakt darüber hinaus bei der Entstehung und Perpetuierung sozialer Stereotypen relevant ist. Ihre Befunde bestätigen die Annahme, dass erwünschtes Verhalten der eigenen Gruppe und unerwünschtes Verhalten der fremden Gruppe tendenziell stärker in abstrakten Begriffen beschrieben werden, wohingegen für die Beschreibung uner-
wünschten Verhaltens der eigenen Gruppe und erwünschten Verhaltens der Fremdgruppe häufiger konkrete Begriffe eingesetzt werden. Die abstrakte Sprache führt im Gegensatz zur konkreten Sprache zu dem Schluss auf hohe Stabilität des Verhaltens, im Fall der Eigengruppe also des positiven erwünschten, im Fall der Fremdgruppe des negativen unerwünschten Verhaltens. Ein hypothetischer Zuhörer bildet einen anderen Eindruck derselben Handlung und entwickelt sehr verschiedene Erwartungen in Abhängigkeit von der Abstraktionsebene, die der Sprecher verwendet, um dieses Ereignis zu beschreiben. Überträgt man diese Modellvorstellungen aus dem Intergruppen-Kontext auf Personenbeschreibungen generell, so lässt sich annehmen, dass Verhalten, das mit den Erwartungen konsistent ist, eher in abstrakten Begriffen beschrieben wird, während inkonsistentes Verhalten eher konkret dargestellt wird. Die Arbeiten aus diesem Forschungsprogramm zeigen, wie die Sprache als ein autonomes System höchst relevante Wissensstrukturen, in diesem Fall über kausale Beziehungen bereithält, die zu spezifischen Interpretationen einladen, ja diese sogar zwingend nahe legen.
6.
Fazit: Aufbau eines Personmodells
Beim Verstehen einer Personenbeschreibung wird ein Modell der beschriebenen Person konstruiert, in das die gesamte textuelle Information entlang der Dimension zentral versus peripher sowie der kausalen Dimension integriert wird. Für die Repräsentation kausaler Relationen können die Prinzipien der Attribution geltend gemacht werden ebenso wie die durch den Text nahegelegten Inferenzen. Das individuelle Weltwissen des Hörers oder Lesers muss schließlich hinzukommen, um die kausale Struktur des Textes rekonstruieren zu können. Hierzu gehören auch die Schlussfolgerungen auf Gedanken, Absichten und Gefühle von Personen, deren Erlebnisse im Text zwar beschrieben, zu deren inneren Zuständen aber keine Aussagen gemacht werden (Barquero, 1999). Eine weitere zentrale Frage betrifft die Textstruktur in ihrer Bedeutung für die mentale Repräsentation der beschriebenen Person. Als wesentliche Determinante der Verstehensleistung gilt seit van Dijk und Kintsch (1983) die hierarchische Organisation des Textes. Texte mit einem hohen Grad der Hie-
650
IV. Sprachrezeption
rarchisiertheit, operationalisiert durch Argumentwiederholung, werden danach besser behalten als Texte mit einem niedrigen Grad der Hierarchisierung.
7.
Literatur
Anderson, J. R. (1981). Concepts, propositions and schemata: What are the cognitive units? In H. E. J. Howe & J. H. Flowers (Eds.), Nebraska Symposium on Motivation (Vol. 28, pp. 121⫺162). London: University of Nebraska Press. Asch, S. E. (1946). Forming impressions of personality. Journal of Abnormal and Social Psychology, 41, 258⫺290. Asch, S. E. & Zukier, H. (1984). Thinking about persons. Journal of Personality and Social Psychology, 46, 1230⫺1240. Au, T. K. (1986). A verb is worth a thousand words: The causes and consequences of interpersonal events implicit in language. Journal of Memory and Language, 25, 104⫺122. Barquero, B. (1999). Mentale Modelle. Von mentalen Zuständen und Handlungen der Textprotagonisten. Zeitschrift für Experimentelle Psychologie, 46(3), 243⫺248. Beach, L. & Wertheimer, H. (1961). A free response approach to the study of person cognition. Journal of Abnormal and Social Psychology, 62, 367⫺374. Bieri, J., Bradburn, W. M. & Galinsky, M. D. (1958). Sex differences in perceptual behaviour. Journal of Personality, 26, 1⫺12. Brewer, W. F. & Nakamura, G. V. (1984). The nature and functions of schemas. In R. S. Wyer & T. K. Srull (Eds.), Handbook of social cognition (Vol. 1, pp. 119⫺160). Hillsdale, NJ: Erlbaum.
Fancher, R. E. (1966). Explicit personlity theories and accuracy in person perception. Journal of Personality, 34, 252⫺261. Fiske, S. T. (1980). Attention and weight in person perception: The impact of negative and extreme behavior. Journal of Personality and Social Psychology, 38(6), 889⫺906. Fiske, S. T. (1995). Social cognition. In A. Tesser (Ed.), Advanced social psychology (pp. 149⫺193). New York: McGraw-Hill. Fiske, S. T. & Neuberg, S. L. (1990). A continuum of impression formation, from category-based to individuating processes: Influence of information and motivation on attention and interpretation. In M. P. Zanna (Ed.), Advances in experimental social psychology (Vol. 23, pp. 1⫺74). New York: Academic Press. Gilbert, D. T. (1998). Ordinary personology. In D. T. Gilbert, S. T. Fiske & G. Lindzey (Eds.), Handbook of social psychology (Vol. 2, pp. 89⫺150). Boston, MA: McGraw-Hill. Graesser, A. C., Millis, K. K. & Zwaan, R. A. (1997). Discourse comprehension. Annual Review Psychology, 48, 163⫺189. Hamilton, D. L. & Zanna, M. P. (1974). Context effects in impression formation: Changes in connotative meaning. Journal of Personality and Social Psychology, 29(5), 649⫺654. Hastorf, A. H., Richardson, S. A. & Dornbusch, S. M. (1958). The problem of relevance in the study of person perception. In R. Tagiuri & L. Petrullo (Eds.), Person perception and interpersonal behavior (pp. 54⫺62). Stanford: Stanford University Press. Heider, F. U. (1958). The psychology of interpersonal relations. Oxford: Wiley.
Bromley, D. B. (1966). The social psychology of reputation. Bulletin of the British Psychological Society, 19(65), 73.
Higgins, E. T., Rholes, W. S. & Jones, C. R. (1977). Category accessibility and impression formation. Journal of Experimental Social Psychology, 13(2), 141⫺154.
Carlston, D. E. & Skowronski, J. J. (1994). Savings in the relearning of trait information as evidence for spontaneous inference generation. Journal of Personality and Social Psychology, 66, 840⫺856.
Higgins, E. T. (1992). Achieving ‘shared reality’ in the communication game: A social action that creates meaning. Journal of Language and Social Psychology, 11(3), 107⫺131.
Devine, P. G. (1989). Stereotypes and prejudice: Their automatic and controlled components. Journal of Personality and Social Psychology, 56, 1, 5⫺18.
Higgins, E. T. (1996). Ideals, oughts, and regulatory focus. Affect and motivation from distinct pains and pleasures. In P. M. Gollwitzer & J. A. Bargh (Eds.), The psychology of action (pp. 91⫺114). New York: Guilford.
Devine, P. G., Hamilton, D. L. & Ostrom, T. M. (1994). Social Cognition: Impact on social psychology. San Diego: Academic Press. van Dijk, T. A. & Kintsch, W. (1983). Strategies of discourse comprehension. New York: Academic Press.
Jones, E. E. & Davis, K. E. (1965). From acts to dispositions: the attribution process in person perception. In L. Berkowitz (Ed.), Advances in experimental social psychology (Vol. 2, pp. 220⫺266). New York: Academic Press.
651
50. Verstehen von Sprecherintentionen: Witz, Metapher, Ironie Kelley, E. C. (1955). Education is communication. Etc., 12, 248⫺256.
spectives. Europeen Journal of Social Psychology; 19, 491⫺508.
Kintsch, W. (1974). The representation of meaning in memory. Oxford: Erlbaum.
Semin, G. R. & Fiedler, K. (1992). The inferential properties of interpersonal verbs. In G. Semin & K. Fiedler (Eds.), Language, interaction and social cognition (pp. 58⫺78). Newbury Park: Sage.
Krolak-Schwerdt, S. (im Druck). Kategorien des Persongedächtnisses. Einfluss von Stimulusmerkmalen und Verarbeitungszielen auf ihre Aktivierung. Kruglanski, A. W. (1996). Goals as knowledge structures. In P. M. Gollwitzer & J. A. Bargh (Eds.), The psychology of action: Linking cognition and motivation to behavior (pp. 599⫺618). New York: Guilford. Leyens, J. (1983). Sommes-nous tous des psychologues? Bruxelles: Mardaga. Livesley, W. J. & Bromley, D. B. (1967). Studies in the developmental psychology of person perception. Bulletin of British Psychology Society, 20, 67, 21A. Livesley, W. J. & Bromley, D. B. (1973). Person perception in childhood and adolescence. London: Wiley. Maass, A. (1999). Linguistic intergroup bias: Sterotype perpetuation through language. In M. P. Zanna (Ed.), Advances in experimental social psychology (Vol. 31, pp. 79⫺121). New York: Academic Press.
Smith, E. R. (1998). Mental representation and memory. In D. T. Gilbert, S. T. Fiske & G. Lindzey (Eds.), Handbook of social psychology (Vol. 1, pp. 391⫺445). Boston, MA: McGraw-Hill. Uleman, J. S., Newman, L. & Winter, L. (1992). Can personality traits be inferred automatically? Spontaneous inferences require cognitive capacity at encoding. Consciousness and Cognition, 1, 77⫺ 90. Wintermantel, M. & Christmann, U. (1983). Person description: Some empirical findings concerning the production and reproduction of a specific text type. In G. Rickheit & M. Bock (Eds.), Psycholinguistic studies in language processing (pp. 137⫺151). Berlin: de Gruyter. Wintermantel, M. & Krolak-Schwerdt, S. (2002). Eindrucksbildung aus Personbeschreibungen: Der Einfluss der syntaktischen Kohärenz auf die soziale Kognition. Zeitschrift für Sozialpsychology, 33, 45⫺64.
Maher, B. A. (1957). Personality, problem-solving, and the Einstellung effect. Journal of Abnormal and Social Psychology, 54, 70⫺73.
Zwaan, R. A. (1994). Effect of genre expectations on text comprehension. Journal of Experimental Psychology: Learning, Memory and Cognition, 20, 920⫺933.
Semin, G. R. & Fiedler, K. (1988). The cognitive functions of linguistic categories in describing persons: Social cognition and language. Journal of Personality and Social Psychology, 54, 558⫺568.
Zwaan, R. A., Langston, M. C. & Graesser, A. C. (1995). The construction of situation models in narrative comprehension: An event-indexing model. Psychological Science, 6(5), 292⫺297.
Semin, G. R. & Fiedler, K. (1989). Relocating attributional phenomena within a language cognition interface: The case of actors’ and observers’ per-
Margret Wintermantel Universität Saarbrücken (Deutschland)
50. Verstehen von Sprecherintentionen: Witz, Metapher, Ironie 1. 2. 3. 4. 5.
Problemstellung Witz Metapher Ironie Literatur
1.
Problemstellung
Wenn das Verstehen von Sprecherintentionen als herausgehobenes Problem thematisch ist, müssen besonders schwierige Bedingungen
für ein – adäquates – Sprachverstehen vorliegen. Bei den hochkomplexen Sprachphänomenen Witz, Metapher und Ironie handelt es sich diesbezüglich um eine Art von Inkongruenz zwischen Äußerungen bzw. Äußerungsteilen oder Gesagtem und Gemeintem; für den Witz gilt dabei akzentuierend die (inkongruente) Spannung zwischen Äußerungen bzw. Äußerungsteilen, für die Ironie das Auseinanderfallen von Gesagtem und Gemeintem, während die Metapher dazwischen liegt,
652
IV. Sprachrezeption
d. h. Anteile von beiden Möglichkeiten in sich enthält. Die Schwierigkeit des Verstehens der jeweiligen Sprecherintention(en) wächst mit dem Ausmaß, in dem das sprecherseitig Gemeinte nicht explizit verbalisiert, sondern hörerseitig konstruktiv erschlossen werden muss; dem entspricht die Reihenfolge, in der wir die thematischen Sprachphänomene abhandeln wollen: Witz, Metapher, Ironie. Damit erweisen sich diese Sprachphänomene auch als paradigmatische Beispiele für die kognitive Konstruktivität (Hörmann, 1980; Groeben, 1982), die prinzipiell für alles Sprachverstehen gilt, hier aber wegen der genannten Inkongruenz-Bedingungen in besonderem Ausmaß deutlich wird; denn für die Auflösung der Inkongruenz müssen eben nicht nur (sprachliche) Informationen aufgenommen, d. h. rezipiert, werden, sondern auch (kognitive) Informationen geschaffen, d. h. konstruiert, werden, und zwar als Verbindung der rezipierten Äußerungen mit Sprach- und Weltwissen. Dies ist der Prozess der Sinnkonstruktion, mit der die jeweilige Äußerung hörerseitig in einen sinnvollen Wissenshorizont aufgenommen und integriert wird (Hörmanns Prinzip der „Sinnkonstanz“, 1976). Und diese kognitive Konstruktivität des Sprachverstehens impliziert zudem auch beispielhaft die Integrationsperspektiven der Psycholinguistik, insofern als sprachwissenschaftliche mit psychologischen Aspekten zu verbinden sind und bei letzteren noch einmal sprach- mit denkpsychologischen Ansätzen. Die damit angezielte interdisziplinäre theoretische Modellierung ist wiederum zureichend nur realisierbar, wenn auch eine konstruktive Verbindung von strukturellen und prozessualen Analyseperspektiven (einschließlich empirischer Untersuchungen) geleistet wird. Die folgenden Überblicksskizzen zu Witz, Metapher und Ironie sollen dementsprechend so weit wie möglich verdeutlichen, welche Schritte bei dieser interdisziplinären Integration von Struktur- und Prozessaspekten bereits erfolgreich geleistet worden sind und welche noch ausstehen.
2.
Witz
Die Psychologie des Witzes weist erhebliche Überschneidungen mit der Erforschung von Humor als Persönlichkeitsdisposition bzw. der Wirkung von Humor in Gegenstandsbereichen wie Unterricht, Therapie etc. auf (wo-
bei das Konzept ‘Witz’ im Sinne von ‘Esprit’ das Verbindungsglied darstellt). Unter sprachpsychologischer Perspektive sind diese Fragestellungen – von diagnostischen Testinstrumenten (vgl. Überblick bei Ruch, 1992; Köhler & Ruch, 1996) bis zu den Zusammenhängen mit anderen Persönlichkeitsvariablen (Intelligenz, Kreativität, Konservativismus, Ambiguitätstoleranz; Überblick bei Ruch, 1984; Ruch & Hehl, 1986; Hehl & Ruch, 1990) – selbstverständlich weniger zentral, was auch für Cartoons und nonverbale Komik-Interaktionen gilt (vgl. Metz-Göckel, 1989: 15 f.). Psycholinguistisch steht vielmehr der sprachlich realisierte Witz im Mittelpunkt: als eine – kurze – Geschichte mit einer Lachen oder Amüsement auslösenden Pointe (Berger, 1993). Beispiel: „Von nun an“, sagte ein chinesischer Weiser, dem sein Diener jeden Morgen aus drei Haaren den Zopf flocht, und es geschah nach einiger Zeit, dass dem Diener erst das eine, dann das andere der drei Haare in der Hand blieb, er warf sich vor dem Herrn nieder, doch der Weise sagte begütigend: „Von nun an werde ich eben mein Haar offen tragen.“ (Wicki, 1992: 152).
Auf diese pointenbezogene Struktur und Prozessualität von Witzen sind alle einschlägigen – auch vorempirischen – Theorien und Modelle bezogen. Die Versuche, die Formund Inhaltsaspekte (vgl. die Unterscheidung von Sprach- und Gedankenwitz: zusammenfassend Wenzel, 1989: 100 f.) durch entsprechende Kategorisierungen auszudifferenzieren, sind in der Regel verbunden mit theoretischen Erklärungsansätzen, für die es drei zentrale philosophische Theorietraditionen gibt (vgl. Moreall, 1987; Mio & Graesser, 1991). Dazu gehört z. B. die sehr bekannte Kategorisierung von Freud (1905) mit der Erklärung, dass durch („tendenziöse“) Witze eine partielle Aufhebung von Hemmungen gegenüber sexuellen und aggressiven Tendenzen geleistet wird; diese Entspannungs-Theorie des Witzes („relief“ bzw. „release“: Vorgänger H. Spencer) wird komplettiert durch das Konzept der Überlegenheit als Motiv für Produktion und (genussvolle) Rezeption von Witzen (Plato, Aristoteles, Cicero, Hobbes etc.) und insbesondere durch das Konstrukt der Inkongruenz als zentralem Strukturmerkmal (Kant, Schopenhauer, Kirkegaard etc.). Diese Traditionen lassen sich auch in den Beschreibungs- und Erklärungskonzepten der neueren empirischen Forschung wie-
50. Verstehen von Sprecherintentionen: Witz, Metapher, Ironie
derfinden, wobei die kognitive Dimension (Inkongruenz) durch motivationale (Überlegenheit) und emotionale (relief-)Aspekte ergänzt wird. Die – kognitive – Inkongruenz als notwendiges Merkmal der Witzstruktur ist heute weitgehend unbestritten (vgl. Wenzel, 1989: 19 ff.). Sie bezeichnet seit Shultz (1972) den Aufbau einer bestimmten Erwartung, die durch die Pointe kontrastiert und in einem konkurrierenden Bedeutungszusammenhang aufgelöst wird (Metz-Göckel, 1989: 63 f.). Das Inkongruenz-Konzept ist schon in der gestalttheoretischen Konzeption ausgearbeitet worden und findet sich auch in der klassischen linguistischen Theorie des Witzes (Raskin, 1985) wieder, in der die konkurrierenden Erwartungen als „scripts“ bezeichnet werden. Prozessual lässt sich das Verhältnis der inkongruenten Bedeutungs- bzw. Erwartungsstrukturen als die Abfolge einer (impliziten) Frage mit einer durch die Pointe erfolgenden Auflösungsantwort verstehen (Johnson, 1975). Wenzel (1989) hat die unterschiedlichsten Realisationsformen dieser Inkongruenz als Varianten eines Bezugsrahmenwechsels rekonstruiert (von der Begriffsdissoziation über die Begriffskonsoziation bis zur Durchbrechung sowie Herstellung eines Bezugsrahmens). Dabei lassen sich diese Varianten auf unterschiedlichsten Komplexitätsebenen lokalisieren: Begriffe, Wortzusammenstellungen, Sätze, Urteile, Schlüsse, Gedanken, Situationen, Szenen, Handlungssequenzen etc. (vgl. auch Neuberger, 1988; Berger, 1993). Die ursprüngliche Theorie von Shultz (1972) und Suls (1972) enthält das Postulat, dass die Inkongruenz durch die Pointe aufgelöst werden muss („incongruity-resolution“), wovon auch das Ausmaß der Witzigkeit abhängen soll (empirische Evidenzen bei Wicker et al., 1981). Allerdings führen manche Lösungspointen auch neue Inkongruenzen ein, und vor allem Nonsense-Witze enthalten u. U. unsinnige Pointen (ohne Lösungscharakter), weswegen Nerhardt (1976) die Inkongruenz als hinreichendes Merkmal der Witzstruktur und -wirkung postuliert hat. Die davon ausgehende Kontroverse hat zu einer präziseren Charakterisierung der Lösungsphase geführt, und zwar zunächst einmal in Bezug auf die Plötzlichkeit des durch die Pointe ausgelösten Bezugsrahmenwechsels (Eckardt, 1992: 64 ff.; Wenzel, 1989: 22 f.). Neben der Plötzlichkeit ist auch nachgewiesen worden, dass die „Lösungspointe“
653
einen Gegenpol zur – realitätsgebundenen – Bedrohlichkeit darstellt, d. h. dass der Witz einen angenehm spielerischen (z. T. fiktionalen) Umgang mit der Realität impliziert (vgl. La Fave et al., 1976; Littmann, 1983; MetzGöckel, 1989: 69 f.). Besonders der letzte Aspekt macht deutlich, dass sich die Kontroverse zwischen der Inkongruenz- und der Inkongruenzlösungs-Theorie letztlich auflöst in die empirische Frage, wie viele Lösungsaspekte beim jeweiligen Witz explizit in der Pointe benannt sind bzw. hörerseitig kognitiv-aktiv (re-)konstruiert werden müssen (vgl. Forabosco, 1992). Damit ist bereits die Umsetzung der Strukturmerkmale in den Produktions- wie Rezeptionsprozess thematisch. Für die Witzerzählung ist sprecherseitig auf jeden Fall ein Partnermodell der kognitiven Ressourcen auf Seiten der Rezipienten/innen anzusetzen (MetzGöckel, 1989: 205 f.; Ruch et al., 1993), um von den verschiedenen Bezugsrahmen und dem Bezugsrahmenwechsel aus kalkulieren zu können, welche Ergänzungen, Inferenzen etc. rezipientenseitig nötig und möglich sind (Metz-Göckel, 1989: 206 f.). Es ist eine von der bisherigen Forschung nicht zureichend geklärte Frage, ob die ästhetische Qualität und das komische Potential von Witzen evtl. gerade von der zum Witzverständnis nötigen rezipientenseitigen Aktivität abhängt. Auf jeden Fall kann man aber für die Witzrezeption die These vertreten, dass auch nach der Inkongruenzauflösung durch die Pointe beide im Witz angesprochenen Bedeutungshorizonte kognitiv „bestehen“ bleiben (Long & Graesser, 1988); dieses Modell einer parallelen Verarbeitung ist besonders für die Bezugsrahmenherstellung beim wörtlichen und metaphorischen Wortgebrauch einleuchtend und müsste für die übrigen linguistischen Ebenen von Witz- und Pointenrealisierung – insbesondere in Bezug auf die komisch-ästhetische Wirkung des Witzes – von der zukünftigen Forschung noch im Einzelnen empirisch aufgeklärt werden. Während die Umsetzung der kognitiven Inkongruenz-Struktur von Witzen in den konkreten Ablauf der Witzproduktion und -rezeption die Prozessperspektive im engeren Sinne darstellt, umfasst die prozessuale Modellierung im weiteren Sinne auch die motivationale Genese und die emotional-motivationale Wirkung von Witzen. Für die motivationale Genese ist der erwähnte Überlegenheits-Ansatz zentral, der zum einen als Theorie der Überlegenheit („superiority“: La
654 Fave, 1972; La Fave et al., 1973, 1976), zum anderen als Abwertungstheorie („disparagement“: Zillmann, 1979, 1983) ausgearbeitet worden ist. Beide Theorien behandeln komplementäre Aspekte des gleichen motivationalen Vorgangs, nämlich dass in Witzen die Fremdabwertung (von Außenseitern, Gruppen, Nationen etc.) und die Selbstaufwertung (Überlegenheit) eine zentrale motivationale Attraktion darstellen. Die entsprechenden empirischen Untersuchungen haben in der Tat mehrfach nachgewiesen, dass Witze mit adressatenspezifischer Fremdabwertung und komplementärer Selbstaufwertung als lustiger empfunden werden im Vergleich zu Witzen ohne diese Charakteristika (Graesser et al., 1989; Mio & Graesser, 1991; Zillmann & Cantor, 1976). Dabei werden durch diese Theorierichtung die psychoanalytischen Thesen zu aggressiven und sexuellen Witzinhalten aufgenommen (vgl. Metz-Göckel, 1989: 43 ff.), ergänzt durch das Postulat einer sozialen Funktion, die in der Kohärenzsteigerung der Eigengruppe im Kontrast zu den (abgewerteten) Fremdgruppen besteht (vgl. Chapman, 1976). Die Witzwirkung wird insbesondere durch die Entspannungs-Theorien modelliert, und zwar vor allem ausgehend von der Neugiertheorie nach Berlyne, die hier den Vorteil hat, auf der Reizseite ebenfalls das Inkongruenzmerkmal als zentrale „kollative“ Variable anzusetzen (Berlyne, 1972, 1974); allerdings wurde dieses physiologische Modell (des optimalen mittleren Erregungsniveaus) für den Gegenstand Witz schon bald durch emotionsorientierte bzw. kognitiv-emotionale Operationalisierungen ergänzt. Auf dieser Grundlage ist dann u. a. nachgewiesen worden, dass nicht-aggressive Witze aggressive Stimmungen wirksamer reduzieren als aggressive Witze (Prerost & Brewer, 1977) bzw. genereller: dass Witz- oder Humorerlebnisse eine stressabschwächende Wirkung haben (Mannell & McMahon, 1982). Wenn auch gerade in Bezug auf die Stressabschwächung die Ergebnisse uneinheitlich sind (vgl. z. B. Porterfield, 1987), ist doch festzuhalten, dass sich die Entspannungstheorie heute von der Freud’ schen Vorstellung gelöst hat, Witz und Humor im Zusammenhang mit Abwehrmechanismen zu modellieren; die empirischen Ergebnisse legen eher einen Ermutigungsmechanismus („courage mechanism“: Mishkinsky, 1977) nahe. Die Möglichkeiten der Angst- und Spannungsreduktion (Wicki, 1992: 160 f.), die bei Witzen durch den spiele-
IV. Sprachrezeption
rischen Umgang z. B. mit schwierigen Beziehungsinhalten, Gefühlen etc. möglich werden, sind insbesondere für die Bereiche Arbeit und Betrieb (Neuberger, 1988; Schödlbauer, 1996) sowie für das therapeutische Setting (Bernhardt, 1985; Frings, 1996) aufgearbeitet worden. Gerade auch die praxisorientierten Arbeiten leiden aber darunter, dass die Bedeutungskomplexionen und -flexibilitäten, die Ebenenvielfalt und die ästhetische Aufladung dieser Kleinkunstform der Alltagskommunikation noch nicht differenziert genug empirisch aufgeklärt sind.
3.
Metapher
Die Metapher ist diejenige den Tropen zugehörende rhetorische Figur, die in den unterschiedlichen Disziplinen (von Philosophie über (Psycho-)Linguistik bis hin zur Literaturwissenschaft) eine Unmenge von Forschungsanstrengungen auf sich gezogen hat (Bibliographien: van Noppen et al., 1985; van Noppen & Hols, 1990). Im Mittelpunkt der psycholinguistischen Forschung steht die Frage nach dem Erkennen, Verstehen und Verarbeiten sowie der Wirkung metaphorischer Äußerungen, wobei man drei Gruppen von Metapherntheorien unterscheiden kann (ausführlich: z. B. Bertau, 1996; Cacciari & Glucksberg, 1994; Mooij, 1976). Dazu gehört zunächst die aus der klassischen Rhetorik (Aristoteles, Quintilian) stammende Substitutions- bzw. Vergleichstheorie, nach der die Metapher eine Abweichung von der „eigentlichen“ Sprache darstellt, die eine Analogie bzw. Ähnlichkeit oder einen verkürzten Vergleich beinhaltet. Die Substitution besteht darin, dass jede Metapher – als lediglich zusätzliches Ornament – ohne Bedeutungsverlust durch ihre wörtliche Entsprechung ersetzbar ist. Diese Auffassung der klassischen Rhetorik ist in der ersten Hälfte des zwanzigsten Jahrhunderts ergänzt worden durch die sog. Interaktionstheorie (Black, 1954; Richards, 1936; Vorläufer: Stählin, 1913), bei der die metaphorische Bedeutung aus der Wechselwirkung zwischen zwei Vorstellungen resultiert: das sind zwei Terme, die als Tenor (auch: Topik bzw. Primärgegenstand oder bildempfangender Bereich) und Vehikel (auch: Sekundärgegenstand oder bildspendender Bereich) bezeichnet und als Implikationssysteme (Systeme kulturell geteilter Assoziationen) aufgefasst werden. Auf den Tenor wird ein System von Implikationen des Vehi-
50. Verstehen von Sprecherintentionen: Witz, Metapher, Ironie
kels projiziert, wodurch die Merkmale des Tenors/Topiks neu organisiert werden, d. h. bestimmte Aspekte werden unterdrückt, andere betont (Black, 1954, 1993). Die Implikationszusammenhänge werden nicht zwischen einzelnen Wörtern, sondern zwischen sprachlichen Elementen in Kontexten hergestellt, so dass Ähnlichkeit und Vergleich nicht mehr wie in der klassischen Vergleichstheorie als a priori vorfindbare Strukturmerkmale vorkommen, sondern als Interpretationstrategien (vgl. besonders dezidiert Searle, 1979). Als dritte Theorienklasse können neuere (pragma-)linguistische Metapherntheorien unter dem Etikett der Anomalie-Ansätze zusammengefasst werden. Unter Anomalie versteht die Generative Semantik (Katz & Fodor, 1963) eine Unvereinbarkeit der Wörter im Satz bzw. ihrer semantischen Merkmale (Kritik bei Hörmann, 1972). Die Auflösung der Unverträglichkeit erfolgt durch Tilgung nicht-passender und Übertragung passender Merkmale vom Vehikel auf den Tenor (z. B. Weinreich, 1970; zusammenfassend: Berg, 1978). Die pragmalinguistischen Ansätze (z. B. Kittay, 1987; Searle, 1979) gehen dabei vor allem vom Konzept der Wörtlichkeit als notwendiger Bedingung für das Metaphernverstehen aus. Nach dem Drei-Stufen-Modell von Searle (1979) wird beim Verstehen einer Metapher im ersten Schritt nach einer wörtlichen Bedeutung gesucht, im zweiten Schritt wird festgestellt, dass sie nicht zum sprachlichen oder nicht-sprachlichen Kontext passt, woraus im dritten Schritt die metaphorische Interpretation folgt. Die skizzierten Theorien stehen nicht in echter Konkurrenz zueinander, sondern ergänzen sich, indem sie jeweils unterschiedliche Merkmale der Metapher und des Metaphernverstehens hervorheben. Entsprechend gibt es auch kein eindeutiges Kriterium für das Vorliegen einer Metapher (Cacciari & Glucksberg, 1994). Weder das Konstatieren einer semantisch-syntaktischen Abweichung, noch das Auseinanderfallen von Äußerung und sprachlichem oder auch nicht-sprachlichem Kontext oder die Verletzung von Konversationsmaximen sind hinreichende Merkmale, die z. B. eine Unsinns-Äußerung von einer Metapher eindeutig abgrenzen. Dies verweist auf die Bedeutsamkeit der pragmatischen Ebene, auf der die Kompetenz von Sprecher/in und Hörer/in sowie deren gemeinsamer Wissenshintergrund (intrinsischer Kontext) auf alle Fälle mit zu berücksichtigen
655
sind (ausführlich: Clark & Carlson, 1981; Kittay, 1987). Bei der Ausarbeitung psycholinguistischer Verstehensmodelle ist zunächst die Art der Relation zwischen Tenor und Vehikel modelliert und empirisch überprüft worden. Ausgehend von der klassischen Vergleichstheorie wurde diese Relation z. B. als Merkmalsoder Attributenvergleich konzeptualisiert, wobei die Ähnlichkeit zwischen Topik und Vehikel auf der Menge gemeinsamer Merkmale beruhen soll (z. B. Johnson & Malgady, 1979; Tversky, 1977). Dafür spricht, dass der Grad der Merkmalsüberlappung bzw. der Ähnlichkeit zwischen den beiden Metapherntermen mit der Interpretierbarkeit und der Metapherngüte positiv korreliert (Malgady & Johnson, 1980; Marschark et al., 1983;); allerdings hängt die Güte nicht allein von der Ähnlichkeit der beiden Terme ab, sondern auch von der Unähnlichkeit der semantischen Bereiche, denen sie entstammen (Domänen-Interaktions-Theorie: Tourangeau & Sternberg, 1981). Ortony (1979; Ortony et al., 1985) hat überdies gezeigt, dass die gemeinsamen Merkmale – anders als bei wörtlichen Vergleichen – eine hohe Salienz im Vehikel und eine niedrige im Topik aufweisen, wobei das Ausmaß des Ungleichgewichts den Grad der Metaphorizität bestimmt (‘Salience-imbalance-Ansatz’; Gegenevidenz: Gentner & Clement, 1988). Außerdem spielt das Vehikel für die Verarbeitung offensichtlich eine wichtigere Rolle als das Topik, denn die Metapherninterpretation wird durch eine hohe Anschaulichkeit des Vehikels (im Vergleich zum Topik) erleichtert, während die umgekehrte Relation zu Interpretationsproblemen führt (Paivio & Clark, 1986). Offen bleibt bei der Vergleichstheorie allerdings, wie die Ähnlichkeit zwischen den Merkmalen bestimmt wird und weshalb nicht alle gemeinsamen Merkmale oder sogar nicht-gemeinsame Merkmale zur Interpretation herangezogen werden (zur Kritik: z. B. Gentner & Wolff, 1997; Glucksberg & Keysar, 1990; Glucksberg, Manfredi & McGlone, 1997). Auch gehen Vergleichstheorien implizit von a priori vorgefundenen Ähnlichkeiten zwischen den beiden Metapherntermen aus; zumindest bei unvertrauten Metaphern muss diese Ähnlichkeit im Verarbeitungsprozess jedoch erst hergestellt werden (empirische Evidenz: z. B. Camac & Glucksberg, 1984; Tourangeau & Rips, 1991). Solche Probleme haben dazu geführt, dass Glucksberg und Keysar (1990) in Präzisie-
656 rung der Interaktionstheorie die Relation zwischen Topik und Vehikel nicht als Vergleich, sondern als Klassen-Inklusion konzeptualisieren. Der Verstehensprozess setzt bei der Frage an, für welche Kategorie das Vehikel prototypisch ist; deren Eigenschaften werden auf den Tenor übertragen, wobei die Leichtigkeit des Metaphernverstehens von der Anzahl der Dimensionen des Topik und der semantischen Eindeutigkeit des Vehikels abhängt (Glucksberg, McGlone & Manfredi, 1997). Zu den Interaktionstheorien gehört auch das ‘Structure-mapping-Modell’ (Struktur-Vergleichs-Modell) von Gentner und Clement (1988), nach dem nicht Merkmale, sondern relationale Strukturen verglichen werden, um eine gemeinsame relationale Struktur für das Vehikel und das Topik zu finden. Von der Anzahl möglicher Strukturen werden jene zur Interpretation herangezogen, die die gesamte repräsentationale Struktur am vollständigsten abdecken, d. h. am informativsten und gehaltvollsten sind (Systematisierungs-Prinzip). Empirisch zeigt sich, dass bei der Beschreibung der einzelnen Metaphernterme Objekteigenschaften, bei der Paraphrasierung der (Gesamt-)Metapher aber relationale Informationen verwendet werden, deren Anzahl überdies positiv mit der Güte der Metapher korreliert. Die Erklärungskraft des Structure-mapping- und des Klassen-Inklusions-Modells wurde in einer umfangreichen Vergleichsstudie überprüft (Gentner & Wolff, 1997), die belegt, dass bei neuen Metaphern der Interpretationsprozess immer mit einem Strukturvergleich beginnt; nur bei konventionalisierten Metaphern kann dieser durch einen Kategorisierungsprozess ersetzt oder ergänzt werden. Die Relation zwischen Tenor und Vehikel wurde zum Teil auch schematheoretisch erklärt (Albritton, 1995; Glucksberg, 1995). Das Schema des Vehikels wird auf den Bereich des Topik übertragen, was eine Restrukturierung darstellt. Dieses Modell vollzieht den Übergang von der Metapher als sprachlicher zur Metapher als konzeptueller Einheit (Lakoff & Johnson, 1980; Lakoff, 1993). Ein zweiter Schwerpunkt der psycholinguistischen Metaphernforschung behandelt das Problem, ob sich das Verstehen von Metaphern qualitativ und funktional vom Verstehen nicht-metaphorischer Äußerungen unterscheidet oder nicht. Ausgangspunkt ist die in den meisten Metaphern-Modellen enthaltene Annahme (s. o.), das Metaphern-Verste-
IV. Sprachrezeption
hen sei ein – zumindest – zweistufiger Prozess, bei dem auf der ersten Stufe das NichtPassen der wörtlichen Bedeutung festgestellt wird, bevor auf der zweiten Stufe die metaphorische Bedeutungsgenerierung unter Rückgriff auf den sprachlichen und nichtsprachlichen Kontext einsetzt (vgl. bereits: Clark & Lucy, 1975; Clark & Clark, 1977; insbesondere Searle, 1979). Daraus wird abgeleitet, dass das Verstehen von Metaphern verarbeitungs- und zeitaufwändiger sein müsse als das Verstehen wörtlicher Bedeutungen. In vehementen theoretischen Debatten (Dascal, 1987, 1989) hat vor allem Gibbs (z. B. 1984, 1989) die Nützlichkeit des Konzepts der ‘wörtlichen Bedeutung’ generell bezweifelt. Eine empirische Entscheidung ist vor allem an Hand von Reaktionszeitmessungen versucht worden (z. B. Leseaufgabe, Satzverifikationsaufgabe, lexikalische Entscheidungsaufgabe, Kategorisierungsaufgabe; kritischer Überblick bei: Hoffmann & Kemper, 1987), die zum einen zeigen, dass Metaphern unmittelbar, direkt und automatisch ohne eine spezielle Auslösebedingung (Keysar, 1989) und ohne Aktivierung der wörtlichen Bedeutung verstanden werden (können) (z. B. Gildea & Glucksberg, 1983; Glucksberg et al., 1982; Glucksberg & Keysar, 1993). Zum anderen wurde deutlich, dass Metaphern ebenso schnell verarbeitet werden wie ihre wörtlichen Entsprechungen, wenn sie in einen längeren Kontext eingebettet sind (z. B. Inhoff, Lima & Carroll, 1984; Ortony et al., 1978; Pollio et al., 1984). Die Schlussfolgerung, dass das serielle Zwei-Stufen-Modell der Verarbeitung nicht haltbar sei und es prozessual weder quantitative noch qualitative Unterschiede zwischen der Verarbeitung metaphorischer und wörtlicher Äußerungen gibt, ist allerdings nicht zwingend, da die Verlässlichkeit der Befunde stark von der Angemessenheit der verwendeten Reaktionszeitmessung abhängt. So haben Janus und Bever (1985) bei einer Erfassung der Lesezeit am Schluss des Vehikels und nicht des gesamten Satzes durchaus eine längere Verarbeitungszeit für Metaphern nachweisen können (vgl. auch McDonald & Carpenter, 1981). Eine solche zeigte sich auch bei einer Umkehrung der Topik-Vehikel-Reihenfolge (zu VehikelTopik), während bei den wörtlichen Entsprechungen dieser Umkehr-Effekt nicht auftritt (Gerrig & Healy, 1983). Zudem spielt die Vertrautheit und die Metapherngüte eine bedeutsame Rolle, insofern als die Verarbeitung unvertrauter Metaphern mehr kognitive Kapa-
50. Verstehen von Sprecherintentionen: Witz, Metapher, Ironie
zität beansprucht als die wörtlichen Entsprechungen (Petrune & Belmore, 1981) und bei unvertrauten Metaphern sehr wohl die wörtliche Bedeutung vor der metaphorischen aktiviert wird (Blasko & Connine, 1993; vgl. auch Gregory & Mergler, 1990). Nicht zuletzt ist auch die Möglichkeit einer parallelen Verarbeitung, bei der die wörtliche und die übertragene Bedeutung gleichzeitig aktiviert werden, nachgewiesen worden (Blasko & Connine, 1993; Giora & Fein, im Druck). Eine Lösung der ‘Literal-first-Kontroverse’ versucht Giora (1997) mit ihrer ‘graduellen Salienz-Hypothese’, die für das Verstehen figurativer wie wörtlicher Äußerungen gelten soll: Saliente, d. h. häufige, konventionelle, vertraute Bedeutungen werden zuerst und unmittelbar verarbeitet, was bei konventionellen Metaphern eine direkte Verarbeitung ohne den Umweg über die wörtliche Bedeutung zur Folge hat; dagegen werden neue Metaphern, deren intendierte Bedeutung wenig salient ist, sequentiell und Metaphern, bei denen sowohl eine wörtliche als auch eine metaphorische Lesart salient ist, parallel verarbeitet. Dies würde die widersprüchlichen Befunde in einem einheitlichen Erklärungsrahmen interpretieren. Von den vielfältigen Funktionen der Metapher (Überblick: Bertau, 1996) sind unter einer Anwendungsperspektive insbesondere die kognitive Funktion in pädagogischen sowie die expressive und sozial-regulative Funktion in therapeutischen Settings hervorzuheben. Metaphern werden einerseits als didaktische Mittel eingesetzt, um unvertrautes Wissen und neue Perspektiven zu vermitteln, Problemlöseprozesse und den Aufbau mentaler Modelle zu erleichtern sowie die Aufmerksamkeit zu steuern (z. B. Petrie & Oshlang, 1993; Sticht, 1993); sie werden andererseits zur Herstellung von Intimität und kooperativem Verstehen (Cohen, 1978), dem Verständlich-Machen emotionaler Zustände und der Selbsterklärung (Fainsilber & Ortony, 1987) genutzt, um so den Therapieverlauf positiv zu beeinflussen (z. B. Angus, 1996).
4.
Ironie
Die Ironie teilt – auf höchstem Abstraktionsniveau – mit der Metapher das Merkmal der Komprimiertheit, mit dem Witz das Merkmal der Inkongruenz. Die Komprimiertheit manifestiert sich darin, dass nur eine Äußerung vorliegt, die aber nicht das be-
657
deuten soll („Sprecherintention“), was sie – wörtlich – aussagt. Beispiel: Bundespräsident Heuss 1956/57 beim ersten Manöver der Bundeswehr zu den versammelten Soldaten als Abschluss seiner Ansprache: „Nun siegt mal schön!“ (Groeben & Scheele, 1986: 256). Dieses Auseinanderfallen von Gesagtem und Gemeintem stellt die Inkongruenz dar, für die schon die klassische Rhetorik (vgl. Hartung, 1998: 11 ff.; Lapp, 1997: 18 ff.) zwei Varianten unterscheidet: zum einen die Gegensatzrelation (inversio oder contrarium: Hartung, 1998: 20 ff.), zum anderen die Verstellung (simulatio und dissimulatio: Müller, 1989: 183). Es bestand also schon in der klassischen Rhetorik (von Aristoteles bis Cicero und Quintilian) keine Einigkeit darüber, ob Gesagtes und Gemeintes eher in einer Gegenteils- oder einer Kontrastrelation stehen, ganz abgesehen von der höchst konkreten Definition: Tadeln durch falsches Lob (und vice versa) bzw. der ganz allgemeinen: jede Art des Sich-lustig-Machens (vgl. Knox, 1973). Einigkeit bestand aber von Anfang an darüber, dass die Verstellung für die Hörer/ innen durchschaubar sein muss (Hartung, 1998: 28 f.); wegen dieses gemeinsamen sprecher- und hörerseitigen Wissens wurde auch eine explizite Markierung ironischer Äußerungen als überflüssig angesehen (l. c.). Darin manifestiert sich die Praxisorientierung der klassischen Rhetorik, die deshalb immer eine Analyse des Sprachgebrauchs gewesen ist. Die linguistische Analyse ist im 20. Jahrhundert zunächst hinter diese pragmatische Perspektive zurückgefallen. Mit der Vorherrschaft der Grammatik- und Semantikanalyse standen Ironiesignale als obligatorische Merkmale ironischer Äußerungen im Vordergrund (Weinrich, 1966), was sich aber konzeptuell und empirisch nicht bewährt hat. Im Gegenteil: Ironiesignale werden nur eingesetzt, wenn die situationale Determination so uneindeutig ist, dass das Auseinanderfallen von Gesagtem und Gemeintem für die Hörer/ innen nicht unmittelbar erkennbar ist (Warning, 1976). In einem solchen Fall können dann im Prinzip alle sprachlichen und nichtsprachlichen Charakteristika als „Ironiesignale“ verwendet werden (Barbe, 1995: 43 ff.; Hartung, 1998: 173 ff.). Für diesen Einsatz gilt auch wieder das Inkongruenzprinzip, das auf allen Ebenen des Verbalen, Paraverbalen und Nicht-Verbalen realisiert werden kann (vgl. die Kategorisierungen von Clyne (1974)
658 sowie vor allem Willer und Groeben (1980): hier Kontraste auf den Ebenen phonologisch/ graphemisch; morphologisch-syntaktisch; intensional; Sprechakte; Konventionen und Konversationsmaximen). Diese pragmalinguistische Perspektive macht zum einen den zentralen Gegenstandsbereich, zum anderen auch das theoretische Rahmenmodell für die Beschreibung und Erklärung von Ironie deutlich. Vom Gegenstandsbereich her geht es zentral um die spontane, pointierte, situationsbezogene Alltagskommunikation, nicht um die sogenannte Ironie des Schicksals (vgl. dazu Gibbs, 1994b: 362 f.; Kreuz & Roberts, 1993) und auch nicht um die Produktion längerer Texte, wie sie für das Phänomen der literarischen Ironie Voraussetzung ist (vgl. Japp, 1983; Muecke, 1983). Als theoretisches Rahmenmodell ist vor allem die Sprechakttheorie (vgl. Searle, 1969/71; Maas & Wunderlich, 1972) fruchtbar geworden, nach der das Auseinanderfallen von Gesagtem und Gemeintem als konversationelle Implikatur (sensu Grice, 1975) rekonstruiert werden kann, d. h. als eine offene Verletzung der Konversationsmaximen, insbesondere der Maxime der Qualität, in der postuliert wird, nichts zu sagen, was man für falsch hält bzw. wofür eine zureichende Evidenz fehlt (vgl. Levinson, 1990; Lapp, 1997: 64 f.). Da trotz des Maximenverstoßes von der Erfüllung des übergeordneten Kooperationsprinzips auszugehen ist, muss das vom Gesagten abweichende Gemeinte erschlossen werden; allerdings nicht in Form einer logisch zwingenden Inferenz (Implikation), sondern unter Rückgriff auf den Konversationskontext (daher „Implikatur“: Levinson, 1990: 106 ff.). Diese offene Verletzung der Aufrichtigkeitsbedingungen bedeutet dementsprechend ein gemeinsames Wissen zwischen S (Sprecher/in) und H (Hörer/in), nämlich dass S das Geäußerte nicht glaubt, H dies auch weiß und S will, dass H es weiß (vgl. Groeben & Scheele, 1986: 5 f.; Levinson, 1990: 115 f.). Die Ersetzung des Geäußerten durch das Gemeinte legt nahe, das Konzept der konversationellen Implikatur den Substitutionstheorien der Ironie zuzuordnen (Lapp, 1997: 71). Allerdings gibt es auch Fälle, in denen das Gemeinte lediglich eine Erweiterung bzw. Hinzufügung zu geäußerten Bedeutungen darstellt (vgl. eine Mutter beim Anblick des unaufgeräumten Kinderzimmers: Ich liebe Kinder, die ihr Zimmer sauber halten; Giora, 1995: 247; nach einem Vorschlag von Sper-
IV. Sprachrezeption
ber & Wilson (1981) als „additive Implikatur“ zu bezeichnen). Probleme bereitet außerdem das Phänomen der konventionalisierten Ironie (Das hat mir gerade noch gefehlt!), da konversationelle Implikaturen gerade als nicht-konventionell gelten (Levinson, 1990). Dieses Problem hat die sog. Pretense-Theorie (Clark & Gerrig, 1984) nicht, nach der sich S als uninformierte oder unverständige Person darstellt. Doch leistet dieser Ansatz der „Vorspiegelung“ letztlich nicht mehr als die klassische Rhetorik-These der „durchschaubaren Verstellung“ (Groeben & Scheele, 2002: 737). Entscheidend ist und bleibt, wie die Relation von Gesagtem und Gemeintem – inhaltlich – näher bestimmt werden kann. Einen ersten Ansatzpunkt bieten die in der Sprechakttheorie unterschiedenen Ebenen des Sprechaktes: nämlich die Ebene des Aussagegehalts (propositionale Ebene: Referenz und Prädikation, vgl. Polenz, 1985: 101 ff.) bzw. des Handlungsgehalts (illokutive Ebene: Sprechhandlung, propositionale Einstellungen etc., o. c., 194 ff.). Wunderlich (1975) und Haverkate (1990) fassen diesbezüglich Ironie als indirekten Sprechakt auf, d. h. also, dass die Dissoziation zwischen Gesagtem und Gemeintem auf Illokutionsebene angesetzt wird (vgl. das Beispiel für die additive Implikatur oben, in dem durch Lob getadelt wird). Allerdings liegt gerade im Fall des Tadels durch Lob immer auch eine Dissoziation auf propositionaler Ebene vor (hier etwa: Und Du gehörst nicht dazu!), die man mit Berg (1978) als „uneigentliches Sprechen“ bezeichnen kann. Groeben und Scheele (1986: 47 f.) haben daher Ironie als uneigentliches Sprechen expliziert, das auch indirekt sein kann, aber nicht muss (vgl. auch Katz & Lee, 1993). Dies ist für manche eine inadäquate Konzentration auf die Klasse der (wahrheitsfunktionalen) Behauptungen; wenn man Sprechakttypen wie Direktiva, Kommissiva und Expressiva (vgl. Haverkate, 1990) mit einbezieht, dann ist die Dissoziation eher auf der Ebene der propositionalen Einstellung zu lokalisieren (Rosengren, 1986; Lapp, 1997). Die Schwierigkeit bei all diesen Unterscheidungen besteht darin, dass wegen der Variabilität und Flexibilität des komplexen Sprachphänomens Ironie eine Trennung in definierende vs. charakteristische Merkmale fast unmöglich ist. Dies gilt z. B. auch für den bekannten psycholinguistischen Ansatz von Sperber und Wilson (1981; Sperber, 1984), bei dem für Ironie das definierende Merkmal der „echo-
50. Verstehen von Sprecherintentionen: Witz, Metapher, Ironie
artigen Erwähnung“ (echoic mention) festgelegt wird. Bei Anwendung auf Alltagsbeispiele (z. B. ironische Äußerung über das Wetter) führt dies zu einem überzogen weiten Begriff von Erwähnung bzw. Zitation, was auch indirekt durch die empirischen Untersuchungen deutlich wird (vgl. Groeben & Scheele, 2002, 739 f.). Deshalb besteht heute eigentlich Übereinstimmung (vgl. Barbe, 1995; Hartung, 1998; Lapp, 1997), dass es ironische Äußerungen in Form echoartiger Erwähnungen gibt, dass dieser – spezielle – Fall aber nicht übergeneralisiert werden darf. Das Gleiche gilt für die sprachlichen Realisierungsmuster, die vom Wort, Teilsatz, Kontext etc. ausgehen (Barbe, 1995) und sich in narrativen Bewertungen, Perspektivenübernahmen, Rückmeldeverhalten etc. (Hartung, 1998) manifestieren können. Dabei sind durch die neueren (psycho-)linguistischen Analysen auch in Bezug auf die inhaltliche Relation zwischen Geäußertem und Gemeintem die beiden klassischen Postulate des Gegenteils bzw. Gegensatzes (Lapp, 1997; Müller, 1989) sowie des Etwas-Anderes-Sagens rekonstruiert worden (Barbe, 1995). Die systematische Inhaltsanalyse von 140 alltagskommunikativen Ironiebeispielen durch Groeben und Scheele (1986: 30 ff.) hat Beispiele für beide Varianten erbracht und außerdem auch die Begründung für die dritte klassisch-rhetorische Ironieexplikation (Tadel durch Lob). Denn bei den 16 Kategorien des ironischen „Dementis“ (aus den Oberkategorien Präskription, Deskription und Metakommunikation) war die am häufigsten besetzte Unterkategorie „Tadel durch Lob“ (o. c.: 53 ff.). In Fortführung dieser Explikationstradition hat vor allem Hartung (1998) auf Grund einer gesprächsanalytischen Aufarbeitung alltagskommunikativer „Frühstücksgespräche“ die negative Bewertung als das zentrale Merkmal des ironischen Sprachgebrauchs postuliert. Aber auch hier sollte man die Ergebnisse auf Grund eines bestimmten Gesprächstyps nicht übergeneralisieren, so dass im Prinzip alle von der klassischen Rhetorik postulierten Relationsmöglichkeiten empirisch nachgewiesen werden konnten: das Gegenteil, Anderes sagen und negative Bewertung (von Groeben & Scheele als „uneigentlich-kontrastives Sprechen“ zusammengefasst; 1986: 53 ff.). Der Forschungsstand lässt sich daher heute am besten so zusammenfassen, dass man im Sinne des Prototypenansatzes der Begriffsbildung nur typische Merkmale angibt, die im kon-
659
kreten Einzelfall in unterschiedlicher Kombination und Vollständigkeit auftreten können. Es sind dies: die offene Verletzung der Aufrichtigkeit mit der Konsequenz einer konversationellen Implikatur; die Inkongruenz zwischen Geäußertem und Gemeintem auf propositionaler Ebene und ggf. auch auf der Dimension des Handlungsgehalts, mit einem spezifischen Gewicht auf der propositionalen Einstellung; die scheinbare Übernahme einer Fremdperspektive, die aber eigentlich dementiert wird, ggf. in Form einer Zitation/Erwähnung; das konterkarierende Dementi als negative Bewertung bzw. als Kontrast-Relation (in der Variante von Gegensatz wie des Etwas-Anderes-Sagens); die sprachliche Realisierung auf der Wort-, Satzteil-, Satz- oder Diskursebene (vgl. Groeben & Scheele, 2002: 740). Für den Verstehensvorgang sind diese Strukturmerkmale aber nicht einfach – direkt – prozessual zu „übersetzen“. Das klassische Problem stellt hier – wie bei der Metapher – das serielle Zwei-Stufen-Modell dar (s. o.); die berichteten Untersuchungen von Gibbs (zusammenfassend 1994a, b), nach denen das Verstehen von wörtlichen und figurativen Äußerungen gleich schnell abläuft, beziehen sich dabei auch auf die Ironie. Allerdings handelt es sich auch hier nicht selten um konventionalisierte Formen (der Ironie, s. o.) bzw. Äußerungen mit starker situativer Determiniertheit usw. Abgesehen davon, dass es auch situativ weniger eindeutige IronieÄußerungen gibt und dass die wörtliche Bedeutung Hinweise für die Erschließung des Gemeinten geben kann (vgl. Groeben & Scheele, 2002: 744), ist es wahrscheinlich, dass vor allem der ästhetische Wert, der Gefallens-Effekt etc. auch bei Ironie von dem (parallelen) Vorhandensein beider angesprochener Bedeutungsperspektiven (der wörtlichen und der kontrastiv-figurativen) abhängt. Und diese ästhetische Qualität ironischer Äußerungen hat sich im Vergleich zu parallelen nicht-ironischen mehrfach nachweisen lassen (vgl. Dews, Kaplan & Winner, 1995; Groeben et al., 1985: 269 ff.): Ironie wird im Vergleich zu entsprechenden nichtironischen Äußerungen zwar als aggressiver empfunden, zugleich aber auch als sprachlich interessanter und der kommunikativen Problemlösung förderlicher. Dabei hängt die Wirkung der verstandenen Sprecherintention von der Bewertung der Ironie als legitim bzw. illegitim ab (Groeben et al., 1985). Für den ‘positiven’ Typ der liebevollen Ironie und die als le-
660
IV. Sprachrezeption
gitim empfundenen ‘negativen’ Typen der sich wehrenden, schützenden sowie konstruktivkritischen Ironie (o. c.: 234 ff.) konnte eine hörerseitige Solidarisierung mit der (angreifenden) Sprecherperson gesichert werden, während bei der (als illegitim bewerteten) arroganten Ironie eine Solidarisierung mit dem/r Angegriffenen erfolgt (o. c.: 242 ff.). Gerade die ästhetische Dimension der Ironie als einer Form von (Klein-)Kunst in der Alltagskommunikation stellt die empirische Methodik (wie bei den Phänomenen Witz und Metapher) allerdings vor erhebliche Probleme, da es sich bei allen drei hochkomplexen Sprachphänomenen um ästhetisch und kognitv hochgradig offene und kreative Sprach- wie Denkfiguren handelt (vgl. Gibbs, 1994a; Groeben & Scheele, 2002: 748 f.); zugleich liegt darin aber auch ein besonderer Anspruch an die zukünftige Forschung, verbunden mit der Chance, besonders aussagekräftige Ergebnisse über den Sprachgebrauch in seiner Flexibilität, Komplexität, Mehrdimensionalität etc. (in Verbindung von sprach-, denk-, motivations- und emotionspsychologischen Perspektiven) zu erzielen.
5.
Literatur
Albritton, D. W. (1995). When metaphors function as schemas: Some cognitive effects of conceptual metaphors. Metaphor and Symbolic Activity, 10, 33⫺46. Angus, L. E. (1996). An intensive analysis of metaphor themes in psychotherapy. In J. S. Mio & A. N. Katz (Eds.), Metaphor. Implications and applications (pp. 73⫺84). Mahwah, N.J.: Erlbaum. Barbe, K. (1995). Irony in context. Amsterdam: Benjamins. Berg, W. (1978). Uneigentliches Sprechen. Tübingen: Narr. Berger, A. A. (1993). An anatomy of humor. New Brunswick: Transaction. Berlyne, D. E. (1972). Humor and its kin. In J. H. Goldstein & P.E. McGhee (Eds.), The psychology of humor (pp. 43⫺60). New York: Academic Press. Berlyne, D. E. (Ed.) (1974). Studies in the new experimental aesthetics. Washington: Hemisphere. Bernhardt, J.A. (1985). Humor in der Psychotherapie. Weinheim: Beltz.
Black, M. (1993). More about metaphor. In A. Ortony (Ed.), Metaphor and thought (pp. 19⫺41). Cambridge: University Press. Blasko, D. G. & Connine, C. M. (1993). Effects of familiarity and aptness in the processing of metaphor. Journal of Experimental Psychology: Learning, Memory and Cognition, 19, 295⫺308. Cacciari, C. & Glucksberg, S. (1994). Understanding figurative language. In M. Gernsbacher (Ed.), Handbook of Psycholinguistics (pp. 447⫺477). San Diego: Academic Press. Camac, M. K. & Glucksberg, S. (1984). Metaphors do not use associations between concepts, they are used to create them. Journal of Psycholinguistic Research, 13, 443⫺455. Chapman, A. J. (1976). Social aspects of humorous laughter. In A. J. Chapman & H. C. Foot (Eds.), Humour and laughter (pp. 155⫺185). London: Wiley. Clark, H. H. & Carlson, T. (1981). Context for comprehension. In T. E. J. Long & A. Baddeley (Eds.), Attention and performance IX (pp. 313⫺ 330). Hillsdale, N. J.: Erlbaum. Clark, H. H. & Clark, E. V. (1977). Psychology and language. New York: Harcourt Brace Jovanovich. Clark, H. H. & Gerrig, R. J. (1983). Understanding old words with new meanings. Journal of Verbal Learning and Verbal Behavior, 22, 591⫺608. Clark, H. H. & Gerrig, R. J. (1984). On the pretense theory of irony. Journal of Experimental Psychology: General, 113, 121⫺126. Clark, H. H. & Lucy, P. (1975). Understanding what is meant from what is said: A study in conversationally conveyed requests. Journal of Verbal Learning and Verbal Behavior, 14, 56⫺72. Clyne, M. (1974). Einige Bemerkungen zu einer Linguistik der Ironie. Zeitschrift für deutsche Philologie, 93, 344⫺355. Cohen, T. (1978). Metaphor and the cultivation of intimacy. Critical Inquiry, Special Issue on Metaphor, 5, (1), 3⫺12. Dascal, M. (1987). Defending literal meaning. Cognitive Science, 11, 259⫺281. Dascal, M. (1989). On the roles of context and literal meaning in understanding. Cognitive Science, 13, 253⫺257.
Bertau, M.-C. (1996). Sprachspiel Metapher. Opladen: Westdeutscher Verlag.
Dews, Sh., Kaplan, J. & Winner, E. (1995). Why not say it directly? The social functions of irony. Discourse Processes, 19, 347⫺367.
Black, M. (1954/1983). Die Metapher. In A. Haverkamp (Hrsg.), Theorie der Metapher (pp. 55⫺79). Darmstadt: Wiss. Buchges.
Eckardt, A. R. (1992). Sitting in the earth and laughing. A handbook of humor. New Brunswick: Transaction.
50. Verstehen von Sprecherintentionen: Witz, Metapher, Ironie Fainsilber, L. & Ortony, A. (1987). Metaphorical uses of language in the expression of emotions. Metaphor and Symbolic Activity, 2, 239⫺250. Forabosco, G. (1992). Cognitive aspects of the humor process: The concept of incongruity. Humor, 5, 45⫺68. Freud, S. (1905/70). Der Witz und seine Beziehung zum Unbewußten (Psychologische Schriften, Bd. IV). Frankfurt/M.: Fischer. Frings, W. (1996). Humor in der Psychoanalyse. Stuttgart: Kohlhammer. Gentner, D. & Clement, C.A. (1988). Evidence for relational selectivity in the interpretation of analogy and metaphor. In G. H. Bower (Ed.), The psychology of learning and motivation. Advances in research and theory (Vol. 22) (pp. 307⫺358). New York: Academic Press. Gentner, D. & Wolff, P. (1997). Alignment in the processing of metaphor. Journal of Memory and Language, 37, 331⫺355. Gerrig, R. J. & Healy, A. F. (1983). Dual processes in metaphor and understanding: Comprehension and appreciation. Journal of Learning, Memory, and Cognition, 9, 667⫺675. Gibbs, R. W. (1984). Literal meaning and psychological theory. Cognitive Science, 8, 275⫺304. Gibbs, R. W. (1989). Understanding and literal meaning. Cognitive Science, 13, 243⫺251. Gibbs, R. W. (1994a). Figurative thought and figurative language. In M. A. Gernsbacher (Ed.), Handbook of psycholinguistics (pp. 411⫺446). San Diego: Academic Press. Gibbs, R. W. (1994b). The poetics of mind. Cambridge: University Press. Gildea, P. & Glucksberg, S. (1983). On understanding metaphor: The role of context. Journal of Verbal Learning and Verbal Behavior, 22, 577⫺590. Giora, R. (1995). On irony and negation. Discourse Processes, 19, 239⫺264. Giora, R. (1997). Understanding figurative and literal language: The graded salience hypothesis. Cognitive Linguistics, 8, 183⫺206. Giora, R. & Fein, O. (in press). On understanding familiar and less familiar figurative language. Journal of Pragmatics. Glucksberg, S. (1995). Commentary on nonliteral language: Processing and use. Metaphor and Symbolic Activity, 10, 47⫺57. Glucksberg, S. & Keysar, B. (1990). Understanding metaphorical comparisons: Beyond similarity. Psychological Review, 97, 3⫺18.
661
Glucksberg, S. & Keysar, B. (1993). How metaphors work. In A. Ortony (Ed.), Metaphor and thought (pp. 401⫺424). Cambridge: University Press. Glucksberg, S., Gildea, P. & Bookin, H. (1982). On understanding non-literal speech: Can people ignore metaphors? Journal of Verbal Learning and Verbal Behvior, 1, 85⫺96. Glucksberg, S., Manfredi, D. A. & McGlone, M. S. (1997). Metaphor comprehension: How metaphors create new categories. In T. B. Ward, S. M. Smith & J. Vaid (Eds.), Creative thought: An investigation of conceptual structures and processes (pp. 327⫺350). Washington: American Psychological Association. Glucksberg, S., McGlone, M. S. & Manfredi, D. (1997). Property attribution in metaphor comprehension. Journal of Memory and Language, 36, 50⫺67. Graesser, A. C., Long, D. L. & Mio, J. S. (1989). What are the cognitive and conceptual components of humorous text? Poetics, 18, 143⫺163. Gregory, M. E. & Mergler, N. L. (1990). Metaphor comprehension: In search of literal truth, possible sense, and metaphoricity. Metaphor and Symbolic Activity, 5, 171⫺173. Grice, H. P. (1975). Logic and conversation. In P. Cole & J. L. Morgan (Eds.), Syntax and Semantics, Vol. 3: Speech Acts (pp. 41⫺58). New York: Academic Press. Groeben, N. (1982). Leserpsychologie: Textverständnis – Textverständlichkeit. Münster: Aschendorff. Groeben, N. & Scheele, B. (1986). Produktion und Rezeption von Ironie, Bd. I: Pragmalinguistische Beschreibung und psycholinguistische Erklärungshypothesen, 2. Aufl. Tübingen: Narr. Groeben, N. & Scheele, B. (2002). Die Produktion von Ironie. In Enzyklopädie der Psychologie. Themenbereich C, Serie III, T. Herrmann & J. Grabowski (Hrsg.), Sprachproduktion (pp. 733⫺763). Göttingen: Hogrefe. Groeben, N., Seemann, H. & Drinkmann, A. (1985). Produktion und Rezeption von Ironie, Bd. II: Empirische Untersuchungen zu Bedingungen und Wirkungen ironischer Sprechakte. Tübingen: Narr. Hartung, M. (1998). Ironie in der Alltagssprache. Opladen: Westdeutscher Verlag. Haverkate, H. (1990). A speech act analysis of irony. Journal of Pragmatics, 14, 77⫺109. Hehl, F.-J. & Ruch, W. (1990). Conservatism as a predictor of responses to humor – III: The prediction of appreciation of incongruity-resolution ba-
662
IV. Sprachrezeption
sed humor by content saturated attitude scales in five samples. Personality and Individual Differences, 11, 439⫺445.
Kreuz, R. J. & Roberts, R. M. (1993). On satire and parody: The importance of being ironic. Metaphor and Symbolic Activity, 8, 97⫺109.
Hoffman, R. R. & Kemper, S. (1987). What could reaction-time studies be telling us about metaphor comprehension? Metaphor and Symbolic Activity, 2, 149⫺186.
La Fave, L. (1972). Humor judgements as a function of reference groups and identification classes. In J. H. Goldstein & P. E. McGhee (Eds.), The psychology of humor (pp. 195⫺209). New York: Academic Press.
Hörmann, H. (1972). Semantische Anomalie, Metapher und Witz oder: „Schlafen farblose grüne Ideen wirklich wütend?“. Folia Linguistica 5, 310⫺330. Hörmann, H. (1976). Meinen und Verstehen. Frankfurt/M: Suhrkamp. Hörmann, H. (1980). Der Vorgang des Verstehens. In W. Kühlwein & A. Raasch (Hrsg.), Sprache und Verstehen, Bd. 1 (pp. 17⫺29). Tübingen: Narr. Inhoff, A. W., Lima, S. D. & Carroll, P. J. (1984). Contextual effects on metaphor comprehension in reading. Memory and Cognition, 2, 558⫺567. Janus, R. A. & Bever, T. G. (1985). Processing of metaphoric language: An investigation of the three-stage model of metaphor comprehension. Journal of Psycholinguistic Research, 14, 473⫺487.
La Fave, L., Haddad, J. & Maesen, W.A. (1976). Superiority, enhanced self-esteem, and perceived incongruity humour theory. In A. J. Chapman & H. C. Foot (Eds.), Humour and laughter (pp. 63⫺ 91). London: Wiley. La Fave, L., McCarthy, K. & Haddad, J. (1973). Humor judgments as a function of identification classes: Canadian vs. American. Journal of Psychology, 85, 53⫺59. Lakoff, G. (1993). The contemporary theory of metaphor. In A. Ortony (Ed.), Metaphor and thought (pp. 202⫺251). Cambridge: University Press. Lakoff, G. & Johnson, M. (1980). Metaphors we live by. Chicago: University Press.
Japp, U. (1983). Theorie der Ironie. Frankfurt/M.: Klostermann.
Lapp, E. (1997). Linguistik der Ironie. Tübingen: Narr.
Johnson, M. G. & Malgady, R. G. (1979). Some cognitive aspects of figurative language: Association and metaphor. Journal of Psycholinguistic Research, 8, 249⫺265.
Levinson, St. C. (1990). Pragmatik. Tübingen: Niemeyer.
Johnson, R. (1975). The semantic structure of the joke and riddle: Theoretical positioning. Semiotica, 14, 142⫺174. Katz, A. N. & Lee, Ch. J. (1993). The role of authorial intent in determining verbal irony and metaphor. Metaphor and Symbolic Activity, 8, 257⫺ 279. Katz, J. J. & Fodor, J. A. (1963). The structure of semantic theory. Language, 39, 170⫺210. Kaysar, B. (1989). On the functional aquivalence of literal and metaphorical interpretation in discourse. Journal of Memory and Language, 28, 375⫺385. Kittay, E. F. (1987). Metaphor: Its cognitive force and linguistic structure. Oxford: Clarendon. Knox, N. (1973). Die Bedeutung von ‘Ironie’: Einführung und Zusammenfassung. In H. E. Hass & G. A. Mohrlüder (Eds.), Ironie als literarisches Phänomen (pp. 332⫺344). Köln: Kiepenheuer & Witsch. Köhler, G. & Ruch, W. (1996). Sources of variance in current sense of humor inventories: How much substance, how much method variance? Humor, 9, 363⫺397.
Littman, J. R. (1983). A new formulation of humor. In K. E. Davis & R. Bergner (Eds.), Advances in descriptive psychology, Vol. 3 (pp. 183⫺207). Greenwich: Jai. Long, D. L. & Graesser, A. C. (1988). Wit and humor in discourse processing. Discourse Processes, 11, 35⫺60. Maas, U. & Wunderlich, D. (1972). Pragmatik und sprachliches Handeln. Frankfurt/M.: Athenäum. Malgady, R. G. & Johnson, M. G. (1980). Measurement of figurative language: Semantic feature models of comprehension and appreciation. In R. Honeck & R. Hoffman (Eds.), Cognition and figurative language (pp. 239⫺258). Hillsdale, N.J.: Erlbaum. Mannell, R. C. & McMahon, L. (1982). Humor as play: Its relationship to psychological well-being during the course of a day. Leisure Sciences, 5, 143⫺155. Marschark, M., Katz, A. N. & Paivio, A. (1983). Dimensions of metaphor. Journal of Psycholinguistic Research, 12, 17⫺39. McDonald, J. L. & Carpenter, P. A. (1981). Simultaneous translation: Idiom interpretation and parsing heuristics. Journal of Verbal Learning and Verbal Behavior, 20, 231⫺247.
50. Verstehen von Sprecherintentionen: Witz, Metapher, Ironie
663
Metz-Göckel, H. (1989). Witzstrukturen. Opladen: Westdeutscher Verlag.
longer than literal comprehension? Journal of Psycholinguistic Research, 13, 195⫺214.
Mio, J. S. & Graesser, A. C. (1991). Humor, language, and metaphor. Metaphor and Symbolic Activity, 6, 87⫺102.
Porterfield, A. L. (1987). Does sense of humor moderate the impact of life stress on psychological and physical well-being? Journal of Research in Personality, 21, 306⫺317.
Mishkinsky, M. (1977). Humour as a „courage mechanism“. Israel Annals of Psychiatry and Related Disciplines, 15, 352⫺363. Mooij, J. J. A. (1976). A study of metaphor. Amsterdam: North-Holland.
Prerost, F. J. & Brewer, R. E. (1977). Humor content preferences and the relief of experimentally aroused aggression. Journal of Social Psychology, 103, 225⫺231.
Morreall, J. (1987). The philosophy of laughter and humor. Albany: University Press.
Raskin, L. V. (1985). Semantic mechanisms of humor. Dordrecht: Reidel.
Muecke, D. (1983). Images of irony. Poetics Today, 4, 399⫺413.
Richards, I. A. (1936). The philosophy of rhetoric. Oxford: University Press.
Müller, W. G. (1989). Ironie, Lüge, Simulation, Dissimulation und verwandte rhetorische Termini. In Ch. Wagenknecht (Hrsg.), Zur Terminologie der Literaturwissenschaft. Akten des IX. Germanistischen Symposions der Deutschen Forschungsgemeinschaft Würzburg 1986 (pp. 189⫺208). Stuttgart: Metzler. Nerhardt, G. (1976). Incongruity and funniness: Towards a new descriptive model. In A. J. Chapman & H. C. Foot (Eds.), Humour and laughter (pp. 55⫺62). London: Wiley. Neuberger, O. (1988). Was ist denn da so komisch? Weinheim: Beltz. Ortony, A. (1979). Beyond literal similarity. Psychological Review, 86, 161⫺180. Ortony, A., Schallert, D., Reynolds, R. & Antos, S. (1978). Interpreting metaphors and idioms: Some effects of context on comprehension. Journal of Verbal Learning and Verbal Behavior, 17, 467⫺ 477. Ortony, A., Vondruska, R. J., Foss, M. A. & Jones, L. E. (1985). Salience, similes, and the asymmetry of similarity. Journal of Memory and Language, 24, 569⫺594. Paivio, A. & Clark, J. M. (1986). The role of topic and vehicle imagery in metaphor comprehension. Communication and Cognition, 19, 367⫺388. Petrie, H. G. & Oshlang, R. (1993). Metaphor and learning. In A. Ortony (Ed.), Metaphor and thought (pp. 579⫺609). Cambridge: University Press. Petrune, C. & Belmore, S. (1981). Metaphor comprehension and cognitive effort. Paper presented at the Annual Meeting of the American Psychological Association.
Rosengren, I. (1986). Ironie als sprachliche Handlung. In H. Sitta (Hrsg.), Sprachnormen in der Diskussion (pp. 41⫺71). Berlin: de Gruyter. Ruch, W. (1984). Konservatismus und Witzbeurteilung: Konvergenz gegenstandsbereichsinterner und -übergreifender Variabilität? Zeitschrift für Differentielle und Diagnostische Psychologie, 5, 221⫺245. Ruch, W. (1992). Assessment of appreciation of humor: Studies with the 3 WD humor test. In C. D. Spielberger & J. N. Butcher (Eds.), Advances in personality assessment, Vol. 9 (pp. 27⫺75). Hillsdale: Erlbaum. Ruch, W. & Hehl, F.-J. (1986). Conservatism as a predictor of responses to humor – I. Personality and individual differences, 7, 1⫺14. Ruch, W., Attardo, S. & Raskin, V. (1993). Toward an empirical verification of the general theory of verbal humor. Humor, 6, 123⫺136. Schödlbauer, M. (1996). Zwischen der Routine. Zur psychohygienischen und produktiven Funktion des Witzes bei der Arbeit. In U. Brucks, M. Schödlbauer & E. Strowick (Hrsg.), Metamorphosen der Arbeit (pp. 235⫺258). München: Fink. Searle, J. R. (1969/71). Speech acts. Cambridge: University Press; dt. Sprechakte. Frankfurt/M.: Suhrkamp. Searle, J. R. (1979/82). Expression and meaning. Cambridge: University Press; dt. Ausdruck und Bedeutung. Frankfurt/M.: Suhrkamp. Shultz, Th. R. (1972). The role of incongruity and resolution in children’s appreciation of cartoon humor. Journal of Experimental Child Psychology, 13, 456⫺477.
Polenz, P. v. (1985). Deutsche Satzsemantik. Berlin: de Gruyter.
Sperber, D. (1984). Verbal irony: Pretense or echoic mention? Journal of Experimental Psychology: General, 113, 130⫺136.
Pollio, H. R., Fabrizi, M. S., Sills, A. & Smith, M. K. (1984). Need metaphoric comprehension take
Sperber, D. & Wilson, D. (1981). Irony and the use-mention distinction. In P. Cole (Ed.), Radical
664
IV. Sprachrezeption
pragmatics (pp. 295⫺318). New York etc.: Academic Press.
Weinrich, H. (1966). Linguistik der Lüge. Heidelberg: Schneider.
Stählin, W. (1913). Zur Psychologie und Statistik der Metaphern. Leipzig, Berlin: Engelmann.
Wenzel, P. (1989). Von der Struktur des Witzes zum Witz der Struktur. Heidelberg: Winter.
Sticht, T. G. (1993). Educational uses of metaphor. In A. Ortony (Ed.), Metaphor and thought (pp. 621⫺632). Cambridge: University Press.
Wicker, F. W., Thorelli, I. M., Barron, W. L. & Ponder, M. R. (1981). Relationships among affective and cognitive factors in humor. Journal of Research in Personality, 15, 359⫺370.
Suls, J. M. (1972). A two-stage model for the appreciation of jokes and cartoons: An informationprocessing analysis. In J. H. Goldstein & P. E. McGhee (Eds.), The Psychology of Humor (pp. 81⫺100). New York: Academic Press. Tourangeau, R. & Rips, L. (1991). Interpreting and evaluating metaphors. Journal of Memory and Language, 30, 452⫺472. Tourangeau, R. & Sternberg, R. J. (1981). Aptness in metaphor. Cognitive Psychology, 13, 27⫺55. Tversky, A. (1977). Features of similarity. Psychological Review, 84, 327⫺352. Van Noppen, J. P. & Hols, E. (1990). Metaphor II: A classified bibliography of publications 1985 to 1990. Amsterdam: Benjamins. Van Noppen, J. P., De Knop, S. & Jogen, R. (1985). Metaphor: A bibliography of post-1970 publications. Amsterdam: Benjamins. Warning, R. (1976). Ironiesignale und ironische Solidarisierung. In W. Preisendanz & R. Warning (Hrsg.), Das Komische (pp. 416⫺423). München: Fink. Weinreich, U. (1970). Erkundungen zur Theorie der Semantik. Tübingen: Niemeyer.
Wicki, W. (1992). Psychologie des Humors: Eine Übersicht. Schweizerische Zeitschrift für Psychologie, 51, 151⫺163. Willer, B. & Groeben, N. (1980). Sprachliche Hinweise auf ironische Kooperation: Das Konzept der Ironiesignale unter sprechakttheoretischer Perspektive rekonstruiert. Zeitschrift für germanistische Linguistik, 8, 290⫺313. Wunderlich, D. (1975). Zur Konventionalität von Sprechakten. In D. Wunderlich (Hrsg.), Linguistische Pragmatik (pp. 11⫺58). Wiesbaden: Athenaion. Zillmann, D. (1979). Hostility and aggression. Hillsdale: Erlbaum. Zillmann, D. (1983). Disparagement humor. In P. E. McGhee & J. H. Goldstein (Eds.), Handbook of humor research, Vol. I: Basic issues (pp. 85⫺107). New York: Springer. Zillmann, D. & Cantor, J. R. (1976). A disposition theory of humour and mirth. In A. J. Chapman & H. C. Foot (Eds.), Humour and laughter (pp. 93⫺ 115). London: Wiley.
Norbert Groeben, Universität Köln Ursula Christmann, Universität Heidelberg (Deutschland)
51. The Comprehension of Anaphoric Pronouns 1. 2.
4.
Introduction Information access during pronoun comprehension Temporal processing during pronoun interpretation References
1.
Introduction
3.
We use language to refer to things or to events. Once something has been mentioned in the discourse, it can be re-referred to via certain linguistic devices. These devices are sometimes called anaphors, and the events or things they refer to are called antecedents. Such a device can be a reduced form, as the
pronoun she that refers to the little girl in the sentence The little girl in the red shirt all of a sudden hit the huge boy. She smiled and ran away. Usually a listener knows that in the sentence The girl admires herself the reflexive herself refers to the girl. A listener also knows that in the sentence The little girl thinks that the big girl adores herself the reflexive refers to the big girl. But how does the comprehender know this? This question has interested generative linguists, artificial intelligence specialists, and psycholinguists for quite some time (for a review see Gordon & Hendrick, 1998). The aim of this chapter is to zoom into the lexical access of anaphoric pronoun comprehension. We discuss the
665
51. The Comprehension of Anaphoric Pronouns
kinds of information that might become activated when a pronoun gets encoded from the speech input stream or from reading. We also ask when this information becomes available. Of course there are many more questions to ask, and many more types of anaphor to investigate. However, here we will focus on anaphoric pronouns only, because psycholinguists have so far mainly investigated these types of anaphors in their studies on lexical access (see Garnham, 2001, for a more general review on anaphora interpretation).
2.
Information access during pronoun comprehension
Before we look into pronoun processing in more detail, we will introduce a working model on the “standard” comprehension
process. In a next step, we assume that the interpretation of pronouns is processed within the standard speech comprehension system. We can then ask specific questions about where in this system pronoun processing takes place. One model of speech comprehension is shown in Figure 51.1. It is the “blueprint of the listener” by Cutler and Clifton (1999: 124ff). In such a system, a word is accessed by activating different kinds of information concerning this word. The activation can be seen as activating individual nodes of words, or as activating a distributed representation of words. According to this model comprehension of a word involves several steps: (1) phonological decoding, (2) word recognition, i. e. activation of word candidates in a mental lexicon, (3) utterance interpretation in which
Fig. 51.1: The blueprint of the listener (Cutler & Clifton, 1999)
666 both syntactic and semantic relations of words are analysed, and (4) integration of the sentence into the discourse. The model has been developed by studying the comprehension of single words, for example the comprehension of a noun that enters the system. But we can assume that a pronoun is encoded by the same comprehension system. Besides being encoded as a word, somehow, on the pathway along the comprehension process, the pronoun has to establish a link to its corresponding referent. The question is, when this link is established. A variety of studies addressed this question focussing on different processing levels of the comprehension process. In sections 2.3⫺2.5 some of those studies will be summarised by sorting them according to the processing levels of the blueprint of the listener. 2.1. Different information access for different types of anaphors? Before zooming into pronoun processing, I would like to introduce one by now classical linguistic idea to differentiate between two types of anaphora: deep anaphora such as pronouns, and surface anaphora such as ellipsis (Hankamer & Sag, 1976). The reader might wonder why. From a psycholinguistic point of view this linguistic approach is interesting because the authors offered clear hypotheses that were empirically testable. As a consequence, many psycholinguists were eager to test the linguistic assumptions of information processing. During the last two decades, the debate led to more detailed investigations into pronoun comprehension, not only with reaction time experiments but also with electrophysiological measures. One can, therefore, consider the Hankamer and Sag debate as an example for efficient interdisciplinary collaboration ranging from linguistics to cognitive neuroscience. Hankamer and Sag (1976) compared different kinds of anaphors with regard to the information that must be accessed to determine their antecedent. The authors proposed that anaphoric expressions can be divided into two main classes. They labelled the classes deep anaphors (i. e. conceptual/discourse anaphors) and surface anaphors (i. e. syntactic anaphors). An example of deep anaphors are pronouns and an example of surface anaphors are ellipsis (i. e. utterances where parts of the sentence are missing).
IV. Sprachrezeption
2.1.1. Deep anaphors: pronouns Hankamer and Sag (1976: 407) showed that pronouns can occur without linguistic control, as in: (1)
Hankamer [observing Sag successfully ripping a phone book in half]: I don’t believe it. Sag [same circumstance]: It’s not easy.
In the example, the generation and interpretation of the pronoun it is controlled only by aspects of the non-linguistic situation. It has no linguistic antecedent in this case. However, in the discourse situation Hankamer and Sag visually “focus” on the book, and therefore, the antecedent (the book) of the pronoun is available in the discourse model of the two. The availability status “in focus” allows the generation and the correct interpretation of the pronoun (see Gordon & Hendrick, 1998; Schmitt, article 30 this volume). The pronoun, in this case, established a link to non-linguistic discourse information, which would be Step 4 in the blueprint of the listener. But, in addition to a non-linguistic control, pronouns may also be controlled linguistically, as in: (2)
The book is useless. It is ripped into pieces.
Here, it has a clear linguistic antecedent, book. The examples demonstrate that the generation of pronouns may be controlled in two different ways. They may be accessed by using discourse information only, as in (1), or by using information of the preceding linguistic format, as in (2). The use of the preceding format might be realised by copying the syntactic structure and replacing the subject noun by a pronoun (for details see Hankamer & Sag, 1976). In this case, the pronoun established a link to syntactic information of the antecedent, i. e. that it is the subject of the sentence. This process would be located in Step 3 in the blueprint of the listener. In a revised version of their theory, Sag and Hankamer (1984) postulated that there is no evidence that syntax is needed for the interpretation of pronouns. Therefore, they argued that deep anaphors directly access the discourse model (a model that is comparable to the mental model of Johnson-Laird, 1983). 2.1.2. Surface anaphors: Ellipsis In contrast to pronouns, the interpretation of ellipsis always requires syntactic control (i. e. Step 3 in the blueprint of the listener), as shown in the following example:
667
51. The Comprehension of Anaphoric Pronouns
(3)
[Hankamer produces an orange, proceeds to peel it, and just as Sag produces an apple, says:] # And Ivan, an apple. (The cross-hatch (#) indicates a sentence as incompatible with the context.)
(4)
Hankamer: Ivan is now going to peel an apple. Sag: And Jorge, an orange.
The discourse in (3) seems bizarre, whereas that in (4) seems to be fine. The authors concluded that the strangeness of (3) is due to the attempt to “gap under pragmatic control” (1984: 411), which means to delete what is not available in the discourse context. The bizarreness of (3) in contrast to the normality of (1) clearly shows different interpretation rules for pronouns and ellipsis. Pronouns refer to an element of the discourse model, i. e. common knowledge between the partners in the communication. The representations in the discourse model are supposed to be available for longer time. In contrast, ellipsis refer to an antecedent that was linguistically expressed in the preceding utterance. To explain elliptic constructions, Sag and Hankamer proposed a copy process in which the complete linguistic structure is duplicated and then used to generate and interpret the elliptic utterance. They assumed that the linguistic information (i. e. the syntactic structure) is available only momentarily in shortterm memory, after which it decays in order to make room for new incoming information (for details on the generation of ellipsis see Klein, 1993). 2.2. Empirical investigations of deep and surface anaphors Sag and Hankamer’s classification of anaphors has been challenged in the psycholinguistic literature. For example, the distinction between long-term common knowledge and short-term activation of linguistic forms were tested in sentence recall experiments. Participants read sentences and had to recall the sentence either immediately or after some delay. The so-called immediate vs. delayed verbatim recall task tested the availability of linguistic structures at different time points. Participants show a recency effect: Immediate verbatim recall was highly correct, whereas delayed verbatim recall was not. In contrast, gross meaning recall (which tested the availability of common knowledge) was not affected by the temporal distance be-
tween sentence presentation and recall (Sachs, 1967; for a review see Garnham & Oakhill, 1987; Tanenhaus & Carlson, 1990). The distinction between the two types of anaphora, i. e. pronouns and ellipsis, was tested by Tanenhaus and Carlson (1990) by means of a “make sense” judgement task. Participants were asked to read pairs of sentences, such as (1) a. Someone had to take out the garbage. (syntactic parallel) b. The garbage had to be taken out. (syntactic non-parallel) (2) a. But Rabea refused to do it. (pronoun construction) b. But Rabea refused to. (elliptic construction) Elliptic constructions were judged to make sense more often when the antecedent was introduced by a phrase that was syntactically parallel (active sentence) to the anaphor, than by one that was non-parallel (passive sentence). This was predicted by Sag and Hankamer, because they postulated a syntactic copy process for ellipsis in which a copy of a parallel structure is more easily recovered than a copy of a non-parallel structure. In contrast to ellipsis, the pronoun constructions were judged to make sense equally often in both syntactic forms of the antecedent. This was also predicted by Sag and Hankamer, and by Tanenhaus and Carlson: A “make sense” judgement of pronouns should not be sensitive to aspects of linguistic/syntactic formats because it is the non-linguistic discourse information that matters. The dichotomy of deep and surface anaphors has also been challenged by Murphy (1985). He investigated the effect of antecedent length on reading times for pronouns and ellipsis. Participants read paragraphs of text including sentence pairs like: Johanna swept the wooden floor [behind the chairs free of toys]. (1)
Later, her sister did too. (elliptic construction)
(2)
Later, her sister did it too. (pronoun Construction)
The first sentence included either a short or a long antecedent (in brackets). The second sentence included either ellipsis or pronouns. Murphy argued, following Sag and Hankamer, that antecedent length should matter
668 for ellipsis due to different underlying copy processes: Copying a long phrase should take longer than copying a short one. In contrast, antecedent length should play no role during pronoun comprehension, because access to discourse information is less affected by intervening material. Murphy observed no differences in reading times for ellipsis and pronoun constructions. Reading times were longer in the long antecedent condition for both types of anaphors, suggesting that participants copied both forms of anaphors in the same way. One alternative explanation for results, however, might be that the elongation of reading times for ellipsis and pronouns had different reasons. In the ellipsis case the elongation of reading times might indeed be due to longer copy processes. In the pronoun case, however, the elongation might have been caused by other non-linguistic factors, such as a more complex discourse processing in the complex sentence condition compared to the simple sentence condition. Most recently, the topic “deep vs. surface anaphora” has also been addressed by an event-related potential (ERP) approach (Streb, Hennighausen & Rösler, submitted). As in standard ERP paradigms, participants had to read sentences word by word. To test deep anaphora processing the sentences contained either pronouns or proper names that were separated from an antecedent by either 5 or 8 words. The authors discovered an N400 like component, i. e. around 400 ms after pronoun or proper name onset the ERP signal was more negative for anaphora which were further away from their respective antecedent. The N400 is usually assumed to reflect semantic integration processes. The N400 results, therefore, support the Hankhamer and Sag idea that deep anaphors such as pronouns involve semantic processing. In a second condition the authors tested surface anaphora processing. Sentences were presented in which the first noun phrase contained a verb-referent, which was elided in a second noun phrase creating a gap. These gaps were either 5 or 8 words away from the referent verb. Sentences containing long verb-to-gap distances developed a left anterior negativity (LAN) in the ERP signal compared to sentences with a short verb-to-gap distance. Usually, the LAN is interpreted as component reflecting working memory. The observed LAN results fit nicely into the “copy” idea of surface anaphora comprehension, because they indicate more working
IV. Sprachrezeption
memory processing (bigger LAN) during more complex copying processes (long verbto-gab distance). Most interestingly, Streb et al. observed a double dissociation: deep anaphora violations elicited an N400 but no LAN, whereas surface anaphora elicited a LAN but no N400. This dissociation supports the differentiation between the two types of anaphora. 2.3. Conceptual pronouns Gernsbacher (1991) showed that some pronouns might be purely conceptually interpreted (conceptually in terms of accessing a mental model/discourse model, Step 4 in the blueprint of the listener). Usually, pronouns must agree with their antecedents in number. But in some situations, pronouns violate this constraint. Gernsbacher gave the example of (1)
I want a new Harley. a. They’re really huge, but they’re gas-efficient. b. It is really huge, but it is gas-efficient.
In 1a the pronoun they has plural number, whereas the linguistic antecedent in 1 is singular. In 1b the number of the pronoun agrees with the number of the antecedent in 1. But, a listener would judge a sentence pair 1/1a as more natural and read it faster then a sentence pair 1/1b. Gernsbacher argued that in specific cases plural pronouns are used to refer to frequently or multiply occurring items or events as opposed to a unique item or events. In sentence 1 the concept of HARLEY does not represent a specific single machine, but rather the general class of these legendary motorbikes. The judgements and reading times showed that in this case it seems more appropriate to refer to all members of this class and not to a specific single machine by using the plural pronoun. The example showed that pronouns can not only refer to concepts that are not linguistically expressed (as proposed by Hankamer & Sag), but that they also can overrule syntactic constraints of the preceding linguistic antecedent – if the situation requires it. 2.4. Syntactic pronouns Besides having access to conceptual information, pronouns also access syntactic information of the antecedent. Garnham, Oakhill, Ehrlich and Carreiras (1995) tested whether a mere syntactic cue could affect the interpretation of pronouns. The authors used the syntactic gender as a syntactic cue. In many
51. The Comprehension of Anaphoric Pronouns
669
languages other than English, nouns have syntactic gender with no semantic reflex. The gender for table, for example, is feminine in French (la table) and Spanish (la mesa), but masculine in German (der Tisch). But tables themselves are neither male nor female. The gender of this object therefore has no conceptual information, and can be interpreted as being syntactic. The authors asked French and Spanish speaking participants to read pairs of sentences that were about people (conceptual gender) or things (syntactic gender). The second sentence included a pronoun that referred back to one of the people or one of the things, for example:
2.5. Interchange of syntactic and conceptual/discourse pronouns Garnham et al. (1995) not only measured reading times of sentences in their study, as described above, they also asked the participants to carry out a question-answering task with regard to the sentences. Whereas reading times were supposed to reflect on-line processes of pronoun integration into the sentence, question-answering tasks are assumed to tap into information processing after integration had actually taken place. After reading the sentence participants had to respond “yes” or “no” to the following questions:
(1) a. Richard/Alice arrested Paul because…
Did Richard/Alice see Paul stealing a car? Did Paul see Richard/Alice stealing a car? Was the bus stuck in the snow? Was the truck/breakdown truck stuck in the snow?
(2) a. he/she found him stealing a car. (1) b. The truckmasculine/breakdown truckfeminine towed the busmasculine because… (2) b. itmasculine was stuck in the snow. In one version of the first sentence both people or things were of the same gender, and in the other they were not. Thus, in the version in which the people or things were of different gender, the pronoun could be resolved from its gender alone (gender cue). The main concern of the study was whether there would be an effect of gender cueing in the sentences about things. This cueing effect would indicate that pronouns could be accessed by means of syntactic information. Garnham et al. did observe this gender cueing effect: Reading times were speeded up in the cued condition compared to the non-cued condition in sentences about people and things. The authors interpreted the gender cue effect in sentences about things as evidence for a ‘superficial’ encoding, i. e., a syntactic encoding of pronouns (Step 3 in the blueprint of the listener). They argued that the finding contradicts the strict discourse/ meaning-driven interpretation of pronouns, proposed by Sag and Hankamer (or Step 4 in the model). The interpretation that pronouns access syntactic information were in line with the lexical access hypothesis of pronoun production proposed by Meyer and Bock (1999, see also Schmitt, article 30 this volume). The results of production and comprehension experiments showed that syntactic information is used in both cases during the processing of pronouns.
To answer these questions, participants had to resolve the pronoun in the second clause (see example in Section 2.4). As for reading times, the response time showed a clear gender cueing effect. Decisions were faster in the gender-cued condition (different gender) than in the non-cued condition for both sentences about people and sentences about things. However, whereas the gender cueing effect was of equal size in reading times, it was different for people and things in the answer decision times. The effect of cueing was considerably smaller for sentences about things than for sentences about people. According to Garnham et al. the smaller gender cueing effect for things showed that syntactic information (the syntactic gender cue) was no longer as relevant as the conceptual one (the biological gender cue), after the sentence had been processed. They assumed that the results of reading times and answering times show two different processing steps. First, during reading of the sentence pronoun interpretation relies on syntactic information (i. e. syntactic gender, Step 3 in the blueprint of the listener). And second, after sentence processing syntactic information becomes less relevant, and conceptual processing (i. e. conceptual gender) takes over to interpret the pronoun in the context of global meaning, i. e. discourse (Step 4 in the blueprint of the listener). This interplay between syntactic and conceptual/discourse processing during pronoun interpretation has also been proposed by re-
670
IV. Sprachrezeption
searchers who were investigating the processing of co-reference in discourse. For example, Gordon and Hendrick (1997) systematically tested co-reference assumptions that were made by the linguistic “Binding Theory”. Without going into details here (see Gordon & Hendrick), Binding Theories provide syntactic rules that explain why the listeners interpret pronouns in sentences in a specific way, for example as stated in brackets below. Note that here R2D2 is a robot from the movie “Star Wars”: (1)
R2D2 adores R2D2)
himself.
(himself
(2)
#R2D2 adores him. (him ⫽ R2D2)
(3)
If you tickle R2D2, he laughs. (he ⫽ R2D2 or 3rd party)
(4)
If you tickle him, R2D2 laughs. (him ⫽ R2D2 or 3rd party)
(5)
If you tickle R2D2, R2D2 laughs.
⫽
The Binding Theory got empirical support in some cases by means of sentence acceptability judgements and reading time experiments. For example, in isolation, sentence 1 was accepted, whereas sentence 2 was not. However, the Binding Theory could not be supported in other cases. Whereas, for example, according to the Binding Theory there should be no difference in acceptability between sentence 3 and 4, or sentence 3 and 5, Gordon and Hendrick observed a hierarchy of acceptability, with sentence 3 being more acceptable than 5, and 5 being more acceptable than 4. This pattern was also observed in reading times, with sentences of type 3 being read faster than those of type 5, which again were read faster than type 4 sentences. The elongation of reading time for repeated names was referred to as repeated name penalty. The authors argued that besides syntactic mechanisms to interpret pronouns discourse information plays a role. In their formal model for interpreting reference and co-reference Gordon and Hendrick (1998: 399 ff.) formulated the principle of “conventional wisdom” on the achievement of reference. The principle consists of two parts: a) proper names introduce entities into a discourse, and b) pronouns refer to entities already mentioned in the discourse. This principle has to be applied in order to establish an efficient interpretation of sentences in the discourse (Step 4 in the blueprint of the listener). If the principle is violated, the integration of the sen-
tence into the discourse is hampered. The formal model is based on the Centering Theory (Joshi & Weinstein, 1981; Grosz, Joshi & Weinstein, 1983; Gordon, Grosz & Gilliom, 1993; Chambers & Smyth, 1998; see Schmitt, article 30 of this volume for an example of the Centering Theory). However, if the discourse/conceptual information is neutral, syntactic structures have a clear effect on the interpretation of pronouns (Step 3 in the blueprint of the listener). Gordon and Hendrick (1998: 394) listed different proposals of such syntactic structures. Three of them are: (1) parallel functions, where a pronoun is interpreted as co-referential with an antecedent that has the same grammatical role, (2) subject assignment, where a pronoun is preferentially interpreted as co-referential with the subject of the preceding clause, and (3) grammatical matching, where a pronoun preferentially corefers with the antecedent that shares the most grammatical features. 2.6. Summary The initial question of this section was at which level in a “standard” speech comprehension model an incoming pronoun establishes co-reference with its antecedent. Taken together, the different studies showed that pronoun processing is effective at different levels during speech comprehension. For example, syntactic features of the antecedents (such as syntactic gender) affect pronoun interpretation, as has been shown by Garnham et al. (1995). Furthermore, the syntactic role of the antecedent in the sentence influences pronoun processing. For example, a grammatical subject tends to be the preferable antecedent for a pronoun (as mentioned in Gordon & Hendrick, 1998, but see also Crawley, Stevenson & Kleinman, 1990). In addition, discourse availability of the antecedent plays a role (Gordon & Hendrick, 1997), as well as its conceptual information (Gernsbacher, 1991). Although some of the more recent studies already addressed the possible interaction of several processing levels during pronoun comprehension, more research is needed to work out the details of the interplay. One important aspect for the interaction between different processing levels seems to be time. As has been shown by Garnham et al. (1995) the comprehension system uses syntactic information during sentence processing, and conceptual processing
671
51. The Comprehension of Anaphoric Pronouns
after sentence processing. Because the aspect of time, or temporal processing, seems to be crucial in pronoun interpretation, we should spend some time on it here.
3.
Temporal processing during pronoun interpretation
Besides investigating what kind of information is necessary to link a pronoun to its antecedent, one could ask when this information becomes available to create co-reference. In order to measure temporal processing during pronoun interpretation methods are needed that allow to tap into the process online. Several methods are appropriate for doing so, for example cross-modal priming studies (MacDonald & MacWhinney, 1990), eye-tracking studies (Garrod, Freudenthal & Boyle, 1994), or event related potential (ERP) studies (Osterhout & Mobley, 1995). 3.1. The re-activation of the antecedent A central question in the study of pronoun comprehension is how a pronoun affects the mental representation of its referent. Is the antecedent re-activated by processing a pronoun, and, if yes, how long does it take to do so? This question has been addressed by cross-modal priming studies. In these studies participants heard sentences that either included pronouns or not. And they responded to visual probe words that appeared at variable intervals during sentence presentation. For example, in a study by MacDonald and MacWhinney (1990), the following sentence types were presented: Just before dawn, Marta was fishing with Tom and lots of big trout were biting. (No-pronoun condition)
Response time (ms)
(1)
850
0 ms Delay
850
(2)
and she caught a big trout right away. (Pronoun condition)
The probe was presented with the word “lots” in 1 or with the pronoun in 2, either simultaneously (delay of 0 ms), or with a delay of 250 ms or 500 ms. Probes were either the referent (e. g. Marta), or the non-referent (Tom), or a control word. The reaction times of the probe verification task were analysed, with the assumption that a fast verification indicated an easy access to the probe’s underlying representation. An easy access, however, is only possible if the representation of the probe is active. The results are shown in Figure 51.2. At the 0 ms delay, the reaction times to referent and non-referent probes were equal for the no-pronoun and the pronoun condition. This result showed that the antecedent of the pronoun was not activated before the pronoun was processed (at the 0 ms delay). However, at the delay of 250 ms and 500 ms, the reaction times for referent and non-referent probes differed, with the reactions to referent probes being faster in the pronoun condition than in the no-pronoun condition. This result showed that the pronoun re-activated the antecedent, and after about 250 ms to 500 ms the information of the antecedent was available. The activation of the referent either speeded up the decision about the referent probe compared to non-referent probes – or it slowed down the probe decision on the non-referent probe compared to referent probes (for details see MacDonald & MacWhinney, 1990; see also Gernsbacher, 1989). At this moment it is still open, what kind of information about the antecedent was available shortly (250 ms) after the pronoun was processed. Because the probe was identical to the referent, this information could be discourse information, conceptual infor-
250 ms Delay
850
800
800
800
750
750
750
700
700
700
650
No-pronoun Pronoun Second Clause
650
500 ms Delay
650 No-pronoun Pronoun Second Clause
No-pronoun Pronoun Second Clause
Fig. 51.2: Response times to probes of referents (open squares), non-referents (filled squares), and control words (triangles), data from MacDonald and MacWhinney (1990, Experiment 1).
672
IV. Sprachrezeption
mation or syntactic information – or all of them. Evidence that the re-activation of the antecedent was dependent on syntactic (binding) constraints came from a cross-modal priming experiment by Nicol (Nicol & Swinney, 1989). The authors presented sentences like (1)
The boxer told the skier that the doctor for the team would blame himself for the injury.
(2)
The boxer told the skier that the doctor for the team would blame him for the injury.
In sentences of type 1 according to the Binding Theory the pronoun refers to “doctor” but not to “boxer” or “skier”. In sentences of type 2 the pronoun refers to either the “boxer” or the “skier” but cannot refer to “doctor”. Probes were presented at several positions in the sentence. The probes were either semantically related to one of the three possible referents, or unrelated. Participants had to carry out a lexical decision about these probes. The difference in lexical decision latencies between the semantically related and the unrelated probe was called the priming effect. The priming effect indicated the amount of activation of the referent. When the probe was presented immediately after the presentation of the pronoun, results for sentence 1 indicated clear priming for “doctor” but not for “boxer” or “skier”. In contrast, results for sentence 2 showed no priming for “doctor” but clear priming for “boxer” and “skier”. No evidence for priming was observed when the probe was presented shortly before the pronoun occurred in the sentence. According to the authors, the results showed two aspects: First, the antecedent got re-activated by the pronoun. And second, the re-activation of the antecedent by the pronoun was interpreted as being under syntactic (binding) control. However, because the probes used to measure re-activation of the antecedent were semantically related to the referents, the measured re-activation might involve conceptual, semantic, and discourse information as well as pure syntactic information processing. 3.2. The on-line processing of pronouns estimated by ERPs Event related potentials (ERP) can be used to find out more details about both the temporal aspects of information processing and the kind of information processed during
pronoun comprehension. The ERP is an electrophysiological measure of brain activity during the processing of cognitive tasks (see Rugg & Coles, 1995; for language see Osterhout & Holcomb, 1995; Kutas & Van Petten, 1994; Kutas & King, 1995; for temporal processing in language see Van Turennout, Brown & Hagoort, 1998; Schmitt, Münte & Kutas, 2000; Schmitt, Lamers & Münte, 2002). Usually, in a standard ERP experiment participants have to read sentences word by word. The processing of the sentence is not disturbed by the presentation of any kind of probes. This has the advantage that the process of interest, for example, pronoun comprehension, is measured directly. Furthermore, due to the high temporal resolution of ERP (in milliseconds), the measurement is very fine-grained. This method is, therefore, very informative, especially for high-speed processes such as language comprehension. From the preceding section we learned that pronouns immediately, i. e. about 250 ms after presenting them, establish co-reference with their antecedent by re-activating information about this antecedent. There was also evidence that the re-activation might be controlled by syntactic constraints. However, due to problems in interpreting cross-modal priming, it was not clear whether conceptual, semantic, or discourse factors as well might play a role during pronoun interpretation. This question was explicitly addressed in an ERP study by Osterhout and Mobley (1995). 3.2.1 Syntactic co-reference after 500 ms Osterhout and Mobley (1995) focused on the processing of violations in a sentence. Take the following example by Radford (1988): The boy next door never loses her temper with anyone. Most readers would say that the sentence is not acceptable. One could claim that the sentence is grammatically incorrect because the gender of the pronoun does not agree with the gender of the antecedents. Alternatively, one could argue that the violation is conceptual or semantic. Parts of the meaning of “boy” denotes male and human, whereas the meaning of the pronoun “her” refers to something female and human. In ERP research it has been shown that syntactic and semantic anomalies elicit a distinct ERP pattern. Semantic violations, compared to normally expected words, elicit an enhanced negativity around 400 ms after the onset of
673
51. The Comprehension of Anaphoric Pronouns
the violation. For example, in “I like my coffee with cream and dog/sugar” the ERP for “dog” would be more negative than the one for “sugar”. This effect is called the N400 (for a review see Kutas & Van Petten, 1994). Syntactic violations, compared to syntactically correct words, elicit an enhanced positivity at about 600 ms after onset of the violation. One example for syntactic violation is the subjectverb agreement violation “eat” in the sentence “The child eat/eats the sweets with pleasure.” (Osterhout & Holcomb, 1992; Hagoort, Brown & Groothusen, 1993; for a review see Hagoort, Brown & Osterhout, 1999). Among other sentence types, Osterhout and Mobley (1995, Experiment 1) presented two types of violations. (1)
The hungry guests helped themselves/ himself to the food. (Reflexive-antecedent number agreement)
(2)
The successful woman congratulated herself/himself on the promotion (Reflexive-antecedent gender agreement)
Participants were asked to read the sentences and to make a sentence-acceptability judgement after they read each sentence. The authors stated that if the violation in these two cases were purely syntactic, a P600 should be expected. In contrast, if the sentence involved a semantic violation, an N400 should be obtained. If both syntactic and semantic constraints played a role during pronoun processing, the ERP waves should show both components. The results for the two types of violations are shown in Figure 51.3 for the parietal central electrode site (Pz). Sentences with violations diverged from control sentences after 500 ms after pronoun onset. From that time on the ERP waves for violations become more positive than those for controls. The ERP pattern resembled the positivities previously observed in the response to several types of syntactic anomalies. Assuming that similar patterns of brain activity reflect similar sets of neural and cognitive events, the agreement violations seemed to be purely syntactic in nature (for a critical discussion on the interpretation of the P600 see Coulson, King & Kutas, 1998). No N400-like component was observed under these conditions, showing that no semantic processing was involved. This ERP experiment supported the interpretation of cross-
Pz
Pz
_ 5 µv 300
600
900
Fig. 51.3: Grand average ERPs to pronouns in a reflexive-antecedent number violation experiment (top panel), and in a reflexive-antecedent gender violation experiment (bottom panel). The vertical line marks the onset of the pronoun. The dashed line is the average to violations, the solid line is the average to the controls. Pz ⫽ parietal central electrode site. Data from Osterhout and Mobley (1995).
modal priming studies that pronouns use syntactic constraints to establish co-reference. In addition, it ruled out semantic processing. And, it revealed exact information about the time course of establishing co-reference. The process starts at about 500 ms after the onset of the pronoun. The results also showed no difference in the temporal course of detecting number or gender violations. Similar patterns of ERP signals were observed for German case marked relative pronouns in a reading study by Friederici et al. (1998). Participants were asked to read object-relative clauses (OR) or subject relative clauses (SR), such as SR: Das ist der Direktor, derNOM die Sekretärin angerufen hat. [This is the director who called his secretary.] OR: Das ist der Direktor, denACC die Sekretärin angerufen hat. [This is the director who was called by his secretary.] The pronouns in both cases refer to the subject of the sentence. However, the different case marking of the pronoun (nominative or accusative) also signals to the reader that a different underlying sentence structure is at hand. The ERP data showed a differentiation between the two types of pronouns at around
674 500 ms after pronoun onset. From that time on the pronouns with accusative case were more positive than those with nominative case. Friederici et al. discussed their data in the context of memory processing, whereas Osterhout et al. focused on syntactic processing. However, I would like to point to similarities in the data of the two studies. The ERP data of both studies showed “pronoun effects” about 500 ms after pronoun onset (at electrode site Pz; please note that not all data from all electrode sites were reported, so the comparison is limited to Pz). One preliminary interpretation of this similarity is that there might be one single process at hand for establishing co-reference. This process might access gender or number information of the antecedent, as well as case information, in the same way, i. e. at the same time. If we consider a speech comprehension model, like the blueprint of the listener (Figure 51.1), this process might be located in Step 2 (word recognition and lexical retrieval) or in Step 3 (access to syntactic information). 3.2.2. Conceptual and discourse integration of pronouns after 400 ms We just saw that pronouns elicited an ERP pattern that was related to syntactic processing. The question now is, whether and when pronouns can also access other processing levels, for example, conceptual or discourse integration. One example for testing purely conceptual co-reference processing is to investigate pronouns in the context of stereotypes. King and Kutas (in preparation) conducted an ERP experiment in order to examine how a conceptual cue, the probable biological gender of a discourse participant, affected the establishment of anaphoric co-reference. By means of a rating test, the authors derived probabilities that a worker in a specific job was expected to be male or female. The results of the rating showed that stereotypes exist. For example, an engineer was rated as being male. In contrast, a secretary was expected to be female. King and Kutas then presented sentences to participants in a standard word-by-word reading experiment and recorded ERPs. The sentences were of two types. They either included pronouns that matched the biological gender of the antecedent according to the stereotype, or they included pronouns that mismatched the expected gender. For example,
IV. Sprachrezeption
The engineer chine because Mismatch: The engineer chine because Match:
designed the mahe … designed the mashe …
The occurrence of female and male stereotypes was counterbalanced in the study. The ERP averages were compared for the pronouns in the stereotype matching and mismatching condition. The authors observed two salient patterns in the data. First, the pronouns in the mismatching condition elicited a larger negativity at left anterior sites than the pronouns in the matching condition. This negativity was evident by 200 ms post onset, and will be discussed in more detail in the next section in the context of memory processing. Second, compared to the matching pronouns, mismatching pronouns elicited a larger negativity that was most prominent at central sites 400 ms after pronoun onset. The authors showed that this negativity resembles the pattern of a standard N400 effect. The N400 component was reported earlier as reflecting semantic integration of words in a sentence (see Kutas & Van Petten, 1994, for a review). In addition, the N400 also reflected the integration of the sentence into the ongoing discourse, as has been shown most recently by Van Berkum, Brown and Hagoort (1999). Assuming that similar ERP patterns are generated by similar cognitive processes, the N400 observed during the processing of conceptual pronouns pointed to at least two aspects of pronoun processing: First, the integration of the pronouns into the sentence, i. e. the establishment of co-reference, might be similar to semantic and discourse processing of words. Second, if we take the peak of the effect as the critical time estimate, the check for co-reference takes place about 400 ms after pronoun onset. However, in a related study by Osterhout, Bersick and McLaughlin (1997) pronouns that mismatched the gender of stereotypes elicited a P600/SPS-like component. The P600/SPS, as mentioned above, reflects syntactic processing. Future research will show reasons for the differences in data pattern between the studies. For now, we say that conceptual pronouns might involve both, semantic and syntactic processing and that their conceptual and discourse integration starts around 400 ms after pronoun onset. 3.2.3. Working memory involved after 300 ms Osterhout and Mobley (1995), as described in Section 3.2.1, focused in their discussion on the most relevant difference in the ERP sig-
675
51. The Comprehension of Anaphoric Pronouns
nal during the processing of the violations, the P600 component. However, there were additional differences in the ERP signal. The authors reported a negativity at anterior and temporal sites of the left hemisphere that was more salient for violations than for controls. This component, sometimes labelled the “left anterior negativity” (LAN), is usually interpreted as reflecting working-memory demands during language processing (King & Kutas, 1995; Mecklinger et al., 1995; Münte et al., 1998). The more negative the signal is, the more demanding the working memory process is. In the violation condition in the experiments of Osterhout and Mobley the negativity evolves in the time window between 300 and 500 ms. The effect indicated that a violation is already detected about 300 ms after stimuli onset by the cognitive system, probably during processing information in working memory. It has been shown in a wide range of research on language processing that working memory is involved in sentence integration (Carpenter, Miyake & Just, 1995), and in discourse processing (Graesser, Millis & Zwaan, 1997). In our working model of the blueprint of the listener, sentence and discourse processing would be late steps, i. e. Step 3 or 4. However, the early onset of the negativity (around 300 ms after pronoun onset) compared to the later onset of the positivity (around 500 ms) would mean that “memory processes” start earlier than “syntactic processing”. This time course does not exactly fit the time course assumption of the blueprint as depicted in Figure 51.1. However, although in the blueprint of the listener, the discourse processing is depicted as a later stage, it might as well be the very beginning, or run simultaneously to all the other processes. We do not yet know, but the ERP data did support the idea that working memory is involved from a very early moment on. What kind of information exactly is processed in working memory is still elusive. There is, however, sufficient evidence to speculate. For example, the working memory load might involve syntactic processing, as the studies of Osterhout et al. and Friederici et al. tested syntactic variations during pronoun processing. However, working memory seemed also to be involved during conceptual processing of pronouns, as has been shown by King and Kutas in the study of stereotypes. They observed a LAN-like component for stereotype mismatching pronouns, starting at 200 ms after pronoun onset.
3.3. Summary Cross-modal priming as well as ERP experiments revealed information about temporal processes of establishing co-reference. Crossmodal priming studies showed that already very early, i. e. 250 ms after pronoun onset, the pronoun re-activates its corresponding antecedent. Most of the ERP studies confirmed this finding and showed that the early effect might be related to semantic integration (N400), or working memory processes (LAN). Furthermore, the studies showed that in addition to memory processing specific syntactic (P600) and discourse processes (N400) are at work during the comprehension of pronouns. It would now be interesting to see whether these results can be replicated using different types of pronouns, or other types of anaphora to see how general the findings are.
4.
References
Carpenter, P. A., Miyake, A. & Just, M. A. (1995). Language comprehension:sentence and discourse processing. Annual Review of Psychology, 46, 91⫺ 120. Chambers, G. G. & Smyth, R. (1998). Structural parallelism and discourse coherence: A test of centering theory. Journal of Memory and Language, 39, 593⫺608. Coulson, S., King, J. W. & Kutas, M. (1998). Expect the unexpected: Event-related brain response to morphosyntactic violations. Language and Cognitive Processes, 13, 21⫺58. Crawley, R. A., Stevenson, R. J. & Kleinman, D. (1990). The use of heuristic strategies in the interpretation of pronouns. Journal of Psycholinguistic Research, 19, 245⫺264. Cutler, A. & Clifton, C. (1999). Comprehending spoken language: A blueprint of the listener. In C. Brown & P. Hagoort (Eds.), The neurocognition of language (pp. 132⫺166). Oxford: Oxford University Press. Friederici, A. D., Steinhauer, K., Mecklinger, A. & Meyer, M. (1998). Working memory constraints on syntactic ambiguity resolution as revealed by electrical brain responses. Biological Psychology, 47, 193⫺221. Garnham, A. & Oakhill, J. (1987). Interpreting elliptical verb phrases. Quarterly Journal of Experimental Psychology, 39A, 611⫺627. Garnham, A., Oakhill, J., Ehrlich, M.-F. & Carreiras, M. (1995). Representations and processes in
676 the interpretation of pronouns: New evidence from Spanish and French. Journal of Memory and Language, 34, 41⫺62. Garrod, S., Freudenthal, D. & Boyle, E. (1994). The role of different types of anaphor in the online resolution of sentences in a discourse. Journal of Memory and Language, 33, 39⫺68. Gernsbacher, M. A. (1989). Mechanisms that improve referential access. Cognition, 32, 99⫺156. Gernsbacher, M. A. (1991). Comprehending conceptual anaphors. Language and Cognitive processes, 6, 81⫺105. Gordon, P. C. & Hendrick, R. (1997). Intuitive knowledge of linguistic co-reference. Cognition, 62, 325⫺370. Gordon, P. C. & Hendrick, R. (1998). The representation and processing of coreference in discourse. Cognitive Science, 22, 389⫺424. Gordon, P. C., Grosz, B. J. & Gilliom, L. A. (1993). Pronouns, names, and the centering of attention in discourse. Cognitive Science, 17, 311⫺ 347. Graesser, A. C., Millis, K. K. & Zwaan, R. A. (1997). Discourse comprehension. Annual Review of Psychology, 48, 163⫺189. Grosz, B. J., Joshi, A. & Weinstein, S. (1983). Providing a unified account of definite noun phrases in discourse. Proceedings of the 21st Annual Meeting of the Association of Computational Linguistics (pp. 41⫺50). Cambridge, MA: ACL. Hagoort, P., Brown, C. M. & Groothusen, J. (1993). The syntactic positive shift (SPS) as an ERP measure of syntactic processing. Language and Cognitive Processes, 8, 439⫺483. Hagort, P., Brown, C. M. & Osterhout, L. (1999). The neurocogntion of syntactic processing. In C. Brown & P. Hagoort (Eds.), The neurocognition of language (pp. 273⫺316). Oxford: Oxford University Press. Hankamer, J. & Sag, I. A. (1976). Deep and surface anaphora. Linguistic Inquiry, 7, 391⫺426. Johnson-Laird, P. N. (1983). Mental models. Cambridge: University Press. Joshi, A. & Weinstein, S. (1981). Control of inference: Role of some aspects of discourse-structured centering. Proceedings of the International Joint Conference on Artificial Intelligence (pp. 385⫺387). King, J. W. & Kutas, M. (1995). Who did what and when? Using word and clause-level ERPs to monitor working memory usage in reading. Journal of Cognitive Neurosciences, 7, 376⫺395. King, J. W. & Kutas, M. (in preparation). He really is a nurse: ERPs and anaphoric coreference.
IV. Sprachrezeption Klein, W. (1993). Ellipse. In J. Jacobs, A. von Stechow, W. Sternefeld & Th. Vennemann (Hrsg.), Syntax. Ein internationales Handbuch zeitgenössischer Forschung, Vol. 1 (pp. 763⫺799). Berlin: De Gruyter. Kutas, M. & King, J. W. (1995). The potentials for basic sentence processing: Differentiating integrative processes. In T. Inui & J. L. McClelland (Eds.), Attention and performance Vol. 16 (pp501⫺ 546). Cambridge, MA: MIT Press. Kutas, M. & Van Petten, C. (1994). Psycholinguistics electrified. In M. A. Gernsbacher (Ed.), Handbook of psycholinguistics (pp. 83⫺143). San Diego: Acadamic Press. MacDonald, M. C. & MacWhinney, B. (1990). Measuring inhibition and facilitation from pronouns. Journal of Memory and Language, 29, 469⫺492. Mecklinger, A., Schriefers, H., Steinhauer, K. & Friederici, A. (1995). Processing relative clauses varying on syntactic and semantic dimensions: An analysis with event-related potentials. Memory and Cognition, 23, 477⫺494. Meyer, A. S. & Bock, K. (1999). Representations and processes in the production of pronouns: Some perspectives from Dutch. Journal of Memory and Language, 41, 281⫺301. Münte, T. F., Schiltz, K. & Kutas, M. (1998). When temporal terms belie conceptual order. Nature, 395, 71⫺73. Murphy, G. L. (1985). Processes of understanding anaphora. Journal of Memory and Language, 24, 290⫺303. Nicol, J. & Swinney, D. (1989). The role of structure and coreference assignment during sentence comprehension. Sentence processing [Special issue]. Journal of Psycholinguistic Research, 18, 5⫺ 19. Osterhout, L. & Holcomb, P. J. (1995). Event-related potentials and language comprehension. In M. D. Rugg & M. G. H. Coles (Eds.), Electrophysiology of mind (pp. 171⫺215). Oxford: Oxford University Press. Osterhout, L. & Holcomb, P. J. (1992). Event-related brain potentials elicited by syntactic anomaly. Journal of Memory and Language, 31, 785⫺806. Osterhout, L. & Mobley, L. A. (1995). Event-related brain potentials elicited by failure to agree. Journal of Memory and Language, 34, 739⫺773. Osterhout, L., Bersick, M. & McLaughlin, J. (1997). Brain potentials reflect violations of gender stereotypes. Memory and Cognition, 25, 273⫺285.
677
52. Sprachrezeption und emotionale Bewertung Radford, A. (1988). Transformational grammar. Cambridge: Cambridge University Press. Rugg, M. D. & Coles, M. G. H. (Eds.) (1995). Electrophysiology of mind: Event-related brain potentials and cognition. Oxford: Oxford University Press. Sachs, J. S. (1967). Recognition memory for syntactic and semantic aspects of connected discourse. Perception and Psychophysics, 2, 437⫺442. Sag, I. A. & Hankamer, J. (1984). Toward a theory of anaphoric processing. Linguistics and Philosophy, 7, 325⫺345. Schmitt, B. M., Münte, T. F. & Kutas, M. (2000). Electrophysiological estimates of the time course of semantic and phonological encoding during implicit picture naming. Psychophysiology. Schmitt, B. T., Lamers, M. & Münte, T. F. (2002). Electrophysiological estimates of biological and syntactic gender access during pronoun processing. Cognitive brain research, 14, 333⫺346.
Streb, J., Hennighausen, E. & Rösler, F. (2001, submitted). ERPs differentiate between model interpretative anaphers and ellipses. Manuscript, Dept. of Psychology, Philipps-University, Marburg. Tanenhaus, M. K. & Carlson, G. N. (1990). Comprehension of deep and surface verbphrase anaphors. Language and Cognitive Processes, 5, 257⫺ 280. Van Berkum, J. A., Brown, C. M. & Hagoort, P. (1999). Early referential context effects in sentence processing: Evidence from event-related brain potentials. Journal of Memory and Language, 41, 147⫺182. Van Turennout, M., Hagoort, P. & Brown, C. M. (1998). Brain activity during speaking: From syntax to phonology in 40 milliseconds. Science, 280, 572⫺574.
Bernadette M. Schmitt, Universität Maastricht (The Netherlands)
52. Sprachrezeption und emotionale Bewertung 1. 2. 3. 4.
Einführung Zur Rezeption emotionaler Inhalte sprachlicher Äußerungen Stimmungen und Sprachverstehen Fazit und Ausblick
5.
Literatur
1.
Einführung
Sprachliche Botschaften transportieren neben den primären Inhalten häufig konnotative Bewertungen dieser Inhalte, Hinweise auf den emotionalen Zustand des Sprechers/ Schreibers sowie emotionale Appelle an den Rezipienten. Die Prozesse der Rezeption und die zugrundeliegenden Repräsentationen dieser emotionalen Inhalte bilden den Schwerpunkt des vorliegenden Kapitels. Die Frage nach Einflüssen der Emotionslage des Rezipienten auf entsprechende Prozesse des Sprachverstehens werden im dritten Abschnitt behandelt. Der zweite Abschnitt dieses Kapitels befasst sich primär mit Kennzeichen emotionaler Botschaften auf den verschiedenen sprachlichen Ebenen und mit den Prozessen ihrer Rezeption. Es geht um die Frage, welchen Aspekten sprachlicher Botschaften eine
emotionale Bedeutung zugeschrieben wird. Diese Frage wird in erster Linie für die Wahrnehmung prosodischer Muster sowie für die semantische Interpretation lexikalischer Elemente gestellt. Die Rezeption textueller und pragmatischer Mittel zur Vermittlung emotionaler Inhalte ist aus psycholinguistischer Perspektive seltener untersucht worden, obwohl hier ebenfalls wesentliche Komponenten anzunehmen sind (vgl. Caffi & Janney, 1994). Für die morphosyntaktischen Sprachmuster lassen die derzeitigen Modelle der Sprachrezeption und -produktion keine direkten Interaktionen zum emotionalen System vermuten. Wie in Kapitel 36 diskutiert, scheint ein vorzeitiger Ausschluss dieser Ebenen aus weiteren Betrachtungen jedoch verfrüht, da auch grammatischen Strukturen eine bewertende oder emotiv-markierende Funktion zugeschrieben wird (z. B. Fries, 1995, 1996). Diese Aspekte werden jedoch nicht nochmals aufgegriffen, da wenig entsprechende empirische Forschungsergebnisse vorliegen. Während die genannten Aspekte im zweiten Abschnitt unter (psycho)-linguistischer Perspektive weitgehend ohne Bezugnahme auf ein Modell emotionalen Empfindens und Erlebens bearbeitet werden können, ist im
678 dritten Abschnitt dieses Kapitels der Einfluss aktuell vorliegender Emotionen und emotionaler Stimmungslagen auf Prozesse der Sprachrezeption zu untersuchen. Global werden Effekte einer qualitativen Verzerrung bei der Bearbeitung stimmungskongruenten Materials von Leistungseffekten bei affektiv neutralem Material zu unterscheiden sein. Zum Begriff der Emotion sind im Folgenden einige hier relevante Aspekte kurz zusammengefasst. Für eine differenzierte Einführung in den Bereich der Kognition und Emotion sei verwiesen auf das sehr gute Handbuch zur Thematik von Dalgleish und Power (1999), für einen Überblick zu den Emotionstheorien auf Meyer et al. (1993, 1997) (vgl. Kap. 35). Eine Definition der Emotion berücksichtigt heute gewöhnlich mehrere definierende Komponenten. Hierzu zählen die subjektive Erlebenskomponente, eine kognitive Bewertungskomponente, psychophysiologische Aspekte, interpersonale Ausdrucks- und Verhaltensmuster sowie motivationale Tendenzen. Emotionen werden gewöhnlich als bewusste, durch ein Objekt oder Ereignis ausgelöste und auf ein Ziel bezogene relativ kurzfristige Phänomene beschrieben. Von den Emotionen sind emotionale Stimmungen und Zustände, emotionale Persönlichkeitsmerkmale und („kalte“) affektive Bewertungen und Rekonstruktionen phänomenologisch zu trennen. Speziell wenn emotionale Einflüsse auf kognitive Verarbeitungsprozesse betrachtet werden, handelt es sich bei den untersuchten Probanden häufig eher um Stimmungslagen (länger andauernde, nicht unbedingt bewusste, nicht auf ein bestimmtes Ziel gerichtete Zustände), die entweder pathologisch verändert (Angststörungen oder Depression) oder einer momentanen Fluktuation entsprechend eher positiv oder negativ vorliegen. Um der Vielschichtigkeit des Phänomens „Emotion“ gerecht zu werden, sind nach heutigem Wissensstand drei Module emotionaler Verarbeitung zu postulieren: ein frühes, subkortikal in Strukturen des limbischen Systems zu verortendes Modul grundlegender Bewertungs- und Regulationsmechanismen (z. B. LeDoux, 1989, 1994; Gray, 1982, 1999), hier bezeichnet als affektiv-regulatives System für schnelle emotionale Reaktionen, und zwei Module expliziter Wissensrepräsentation (z. B. Teasdale & Barnard, 1993; vgl. Kap. 35): das „Implikationale Bedeutungssystem“, das mit dem bewussten, subjektiven Erleben von Emotionen in Verbindung zu
IV. Sprachrezeption
bringen ist (hot emotion); und das „Propositionale Bedeutungssystem“, das für begriffliches, sprachnahes Wissen über Emotionen und für konnotative Bewertungen zuständig ist (cold emotion).
2.
Zur Rezeption emotionaler Inhalte sprachlicher Äußerungen
In diesem Abschnitt gilt es, die Rezeption emotionaler Inhalte sprachlicher Äußerungen genauer zu beleuchten. Ausgehend von dem idealtypischen erwachsenen Muttersprachler werden Prozesse der Bewertung und Interpretation sprachlicher Mittel auf den relevanten Verarbeitungsstufen diskutiert. Dabei stehen Verhaltensweisen des sprachgesunden erwachsenen Menschen im Vordergrund. Die Entwicklung dieser Kompetenzen oder Geschlechts- und Alterseffekte können in diesem begrenzten Rahmen nur gestreift werden (s. aber Cervantes & Callanan, 1998; Hielscher, 2001). Interessante Ergebnisse für die Modellbildung sowie für die therapeutische Praxis liefern natürlich auch Untersuchungen zu Abweichungen vom normalen Verarbeitungsprozess bei Probandengruppen mit Störungen im Rahmen neurologischer oder neuropsychiatrischer Erkrankungen, z. B. bei erworbenen neurogenen Störungen der rechten oder linken Hemisphäre (vgl. Borod et al., 1998; Schwarz, 1999), bei affektiven Störungen (vgl. MacLeod, 1999; Power, 1999; vgl. Abschnitt 3), aber auch bei Schizophrenie oder Autismus. Schließlich wären Spezifika und Universalien verschiedener Sprachen und Kulturen (vgl. z. B. Palmer & Occhi, 1999) zu berücksichtigen, die jedoch ebenfalls in diesem Artikel weitgehend außer Acht gelassen werden müssen. Will man Besonderheiten der Rezeption emotionaler verbaler Inhalte analysieren, so geschieht dies natürlich immer vor dem Hintergrund der allgemeinen Sprachrezeptionsmodelle (vgl. Kap. 36, 37). Derzeit existiert kein detailliertes und umfassendes Modell der Sprachrezeption, das nach heutigen empirischen Kenntnissen als validiert angesehen werden kann. Modelle zur auditiven und visuellen Worterkennung, zur Prosodierezeption, zur syntaktischen und semantischen Analyse von Wörtern, Sätzen und von Texten ergänzen sich (vgl. Kap. 38⫺41 oder den enzyklopädischen Band zur Sprachrezeption von Friederici, 1999), ohne bislang in einem umfassenden Modell integriert worden zu
679
52. Sprachrezeption und emotionale Bewertung
sein. Relevante theoretische Überlegungen müssen daher ebenenspezifisch in den einzelnen Abschnitten diskutiert werden. Generell lassen sich sogenannte serielle Modelle von den interaktiven Modellansätzen unterscheiden (vgl. Friederici & von Cramon, 1999). Vertreter serieller Verarbeitungsmodelle unterscheiden Subsysteme, die relativ unabhängig voneinander den jeweiligen Input verarbeiten und Ergebnisse an das folgende System weitergeben. Das in Kapitel 35 für die Darstellung der Produktion emotionaler Inhalte herangezogene serielle und modulare Modell Levelts (1993) nimmt weitgehend eine Umkehrung des Produktionsprozesses an, so dass die Sprachrezeption zusammengefasst die folgenden Prozesse umfasst: Die akustische oder visuelle Analyse des Inputs liefert eine phonologische/graphematische Repräsentation der sprachlichen Einheiten, durch die ein Zugriff auf das „mentale Lexikon“ erfolgen kann. Parallel zur kategorialen Lautanalyse und dem lexikalischen Zugriff werden prosodische Konturen ausgewertet, die im weiteren Verlauf mit syntaktischen und propositionalen Strukturen in Verbindung gesetzt werden müssen. Die Lexeme und entsprechenden Lemmata werden aktiviert, eine erste morphosyntaktische und semantische Analyse der einzelnen sprachlichen Items kann erfolgen. Erst dann wird nach der Vorstellung serieller, weitgehend bottom-up gerichteter Modelle die konzeptuelle Bedeutung des Wortes aktiviert. Auch die integrierende Modellvorstellung von Friederici und von Cramon, (1999) sieht auf der Grundlage neurobiologischer Daten des Sprachverstehens im Wesentlichen serielle Verarbeitungsschritte der Wortidentifikation und der Identifikation lexikalisch-semantischer und konzeptueller Repräsentationen vor. Diese werden auf der Grundlage parallel hierzu ausgewerteter syntaktischer Aspekte (Aufbau lokaler und globaler Phrasenstrukturen, Zuweisung thematischer Rollen und gegebenenfalls Reanalyse und Reparaturen) zu einer Gesamtstruktur integriert. Dies geschieht weitgehend unabhängig vom generellen kognitiven System. Erst die vollständig identifizierten und integrierten semantischen Repräsentationen aktivieren dann entsprechende Inhalte des konzeptuellen Gedächtnisses. Die strenge Serialität lexikalischer, syntaktischer, semantischer und konzeptueller Auswertungsschritte wird von interaktiven Ansätzen in Frage gestellt, auch wenn eine mo-
dulare Architektur des Verarbeitungsmodells nicht ausgeschlossen wird (z. B. MacDonald, 1993, 1994). Sie ist auch aufgrund von aktuellen empirischen Befunden z. B. von Schmitt und Münte (2001) in Frage zu stellen. Demnach scheinen zwar Informationen zur phonologischen Wortform vor der semantischen und syntaktischen Analyse vorzuliegen, bestimmte Aspekte der konzeptuellen Bedeutung sind jedoch ebenfalls sehr schnell verfügbar, was dem Ablauf der angenommenen Verarbeitungsschritte widerspricht. Es scheint also denkbar, dass über eine Aktivierung der phonologischen Wortform die weiteren morphosyntaktischen, semantischen und konzeptuellen Auswertungen weitgehend interaktiv und zeitlich parallel laufen. Für die Rezeption emotionaler Informationen ergeben sich hieraus interessante Fragen. Es kann vermutet werden, dass emotionale oder konnotative Bedeutungsaspekte (vielleicht aufgrund ihrer hohen Relevanz) in spezifischer Form schneller und/oder besser rezipiert werden als neutrale Informationen. Dies könnte für den vokalen Ausdruck, d. h. für die Rezeption von stimmlichen Charakteristika und emotionaler Prosodie der Fall sein. Aber auch der Zugriff auf semantische Bedeutungskomponenten emotional konnotierter Wörter und Phrasen oder entsprechend markierter syntaktischer Strukturen sollte möglicherweise relativ schnell erfolgen, da denkbar ist, dass sich emotionale Informationen durch eine relativ niedrige Aktivierungsschwelle im Netzwerk semantischer und konzeptueller Inhalte auszeichnen. Im Folgenden werden daher speziell Aspekte der Auswertung emotionaler Prosodie (2.1), der lexikalisch-semantischen und konzeptuellen Repräsentation von Emotionswörtern (2.2), sowie Aspekte der Rezeption emotionsspezifischer Inhalte aus zusammenhängenden Äußerungen (2.3) betrachtet. 2.1. Rezeption emotionaler Prosodie 2.1.1. Einführung Viele Autoren weisen der Prosodie einen besonderen Status für den Ausdruck und die Kommunikation von Emotionen zu (vgl. Selting, 1994). Sowohl aus linguistischer Sicht (z. B. Bolinger, 1964) wie auch aus psychologischer Sicht ist die Funktion der Prosodie zum Teil sogar evolutionär begründet worden. Evolutionspsychologische Emotionstheorien postulieren, dass vokale sowie mimi-
680 sche Muster als Universalien des affektiven Ausdrucksverhaltens einer Reihe von Basisemotionen aufzufassen sind (vgl. Meyer et al., 1997). Die Fähigkeit zur Identifikation und Klassifikation emotionaler Prosodie sollte entsprechend gut ausgeprägt sein. Überblicksarbeiten zum Beispiel von Pittam und Scherer (1993) oder Tischer (1993) weisen eben diese hohe Genauigkeit der Leistungen von Hörern nach, wenn es sich um die Differenzierung zwischen positiver und negativer Tönung oder um die Klassifikation von Basisemotionen handelt. Demgegenüber ist die theoretische Fassung dieses Sachverhaltes nach wie vor uneinheitlich. Ältere psycholinguistische Modelle der Sprachrezeption (z. B. Friederici, 1987; Libermann & Mattingley, 1993) berücksichtigen die Verarbeitung prosodischer Informationen sowohl in der linguistischen als auch in der emotionalen oder konnotierenden Form leider kaum (vgl. Dogil, Kap. 41). In aktuellen Arbeiten findet man Überlegungen zur Interaktion linguistischer Prosodie mit syntaktischen Verarbeitungskomponenten (z. B. Steinhauer et al., 1999; Jescheniak et al., 1998) oder mit der Worterkennung, aber Modellierungen der Rezeption emotionaler Prosodie sind noch selten. 2.1.2. Zum Begriff der emotionalen Prosodie Selbst der Begriff der emotionalen Prosodie wird nicht konsistent verwendet. Nach Clark und Yallop (1990) ist Prosodie als ein Kontinuum von Funktionen und Effekten zu verstehen, das an einem Pol basale nonlinguistische Funktionen bezeichnet und an seinem anderen Pol die hoch spezifischen linguistischen Funktionen. Am nonlinguistischen Pol stehen Merkmale der Stimmqualität, die über die Beschaffenheit des Larynx und des Ansatzrohres, über Spannungsverhältnisse in der entsprechenden Muskulatur, über Öffnungsgrad etc. informieren. Am linguistischen Ende stehen suprasegmentale Merkmale wie Betonungs- und Frequenzmuster, die immer erst im Vergleich mit vorangehenden und nachfolgenden Einheiten interpretierbar sind. Entsprechend bilden nicht einzelne Tonhöhen etc. die kritischen Merkmale, sondern die Intonationsmuster mit der Variation der Grundfrequenz, der Betonung bzw. der Akzentsetzung und der zeitlichen Abfolge (vgl. Neppert & Pe´tursson, 1992). In der Grauzone des mittleren Bereiches sollen nach Clark und Yallop (1990) paralinguistische
IV. Sprachrezeption
Merkmale stehen, die z. B. die Nervosität des Sprechers oder emotionale Informationen sprachlicher Äußerungen widerspiegeln. Unterschiede zwischen der emotionalen Prosodie und der linguistischen Prosodie werden unter anderem darin gesehen, dass die linguistische Prosodie nur über das Intonationsmuster der gesamten Äußerung und in Zusammenhang mit grammatischen Informationen die entsprechende Modalität transportiere. Die emotionale Prosodie soll dagegen vorwiegend über eine insgesamt veränderte Grundfrequenz identifiziert werden (z. B. Crystal, 1987). Auch wird die Wahrnehmung einer generellen Veränderung des Rhythmus, der Akzentuierung und der melodischen Kontur mit dem prosodischen Emotionseindruck in Verbindung gesehen (Heilman et al., 1984). 2.1.3. Zur Identifikation emotionaler Prosodie Wenn auch bislang noch nicht abschließend geklärt ist, wie Rezipienten den vokalen Gefühlsausdruck identifizieren, so tun sie dies doch mit einer Präzision, die linguistische Modelle kaum erreichen. Zum Beispiel sprechen Pittam und Scherer (1993) von einer Trefferquote, die sechsmal besser als das Zufallsniveau sei und die bislang von keiner objektiven akustischen Analyse erreicht werde. Allerdings zeigen sich interindividuelle Unterschiede in der Fähigkeit zur Interpretation emotionaler prosodischer Informationen hinsichtlich des Alters (Gramley, 1999) und des Geschlechtes des Rezipienten (Bonebright et al., 1996; Zuckerman et al., 1975). So scheinen weibliche Probanden die emotionalen prosodischen Muster genauer heraushören zu können als männliche, wobei der Unterschied vermutlich vorwiegend bei älteren Probanden zum Tragen kommt (Hielscher, 2001). Merkmale der emotionalen Tönung einer Äußerung scheinen durchgängig vorhanden zu sein, da sie sehr schnell und schon bei kurzen Segmenten wahrgenommen werden. So zeigten Pollack, Rubenstein und Horowitz (1960), dass die grundlegende emotionale Färbung der Stimmqualität schon in Äußerungsabschnitten von 60 msec zu identifizieren ist. Diese Ergebnisse beziehen sich auf Prozesse, die unabhängig vom sprachlichen Kontext ein Urteil über basale akustische Parameter der Äußerung ermöglichen. Eine solche Kontextunabhängigkeit postulieren einige Autoren (Ladd et al., 1985; Scherer et
52. Sprachrezeption und emotionale Bewertung
al., 1984) für die Interpretation der mittleren F0-Frequenz und der Variablen der Stimmqualität. Zusätzlich zeigten empirische Ergebnisse jedoch auch Einflüsse prosodischer Konturvariationen in Abhängigkeit vom syntaktischen und semantischen Kontext (Scherer et al., 1984; Tischer, 1993). Hier ist zu berücksichtigen, dass nicht nur der Ausdruck erlebter Emotionen des Sprechers der Prosodie entnommen werden kann, sondern auch konnotative Bewertungen hinsichtlich der verbal vermittelten Botschaft. Diese prosodische Konnotation kann semantisch und syntaktisch ambige Sätze (z. B. „Das darf doch nicht wahr sein“, vgl. Tischer, 1993) und Interjektionen (ah, hmmm) disambiguieren, sie kann Betonungen des Gesagten liefern und die direkte literale Interpretation in Frage stellen. 2.1.4. Zur Aufgabenabhängigkeit der Prosodieidentifikation Je nach Aufgabenstellung variieren die Leistungen der Probanden zum Teil erheblich. Die Trefferquote zeigte sich zum Beispiel abhängig von der Ähnlichkeit der zu differenzierenden Gefühle hinsichtlich ihrer Dimensionen „Valenz“, „Aktivität“ und „Potenz/ Kontrolle“ (vgl. Abschnitt 2.2.1). Je unähnlicher die Emotionen auf diesen Dimensionen eingeschätzt sind, desto besser sind sie zu unterscheiden, wobei speziell der Aktivitätsdimension von einigen Autoren besondere Relevanz zugeschrieben wird (vgl. Tischer, 1993: 83). Außerdem ist zu berücksichtigen, dass in den meisten Studien der auditive Kanal allein vorgegeben wird, kongruente oder inkongruente Informationen, die über andere Modalitäten eintreffen (semantischer Inhalt, Gesichts- und Körperausdruck, kommunikativer Kontext), können das Erkennen (Breitenstein et al., 1996; Schmitt et al., 1997) und die Erinnerung (Ochsner et al., 1997) des vokalen Emotionsausdrucks erheblich stören und verzerren. Bislang existieren erst wenige Studien zu den Prozessen der Koordination verschiedener affektiver Informationen über den visuellen und auditiven Kanal. Massaro und Mitarbeiter untersuchen seit einigen Jahren die Integration von Informationen aus verschiedenen Kanälen, unter anderem für die Wahrnehmung des Sprecheraffektes über Gesichtsinformation und Stimme (Massaro & Egan, 1996). In einem grundlegenden Experiment
681 finden sie, dass die Bewertung des visuellen und des auditiven Kanals nicht unabhängig voneinander vollzogen werden. Je höher die Ambiguität in einem Kanal, desto stärker wird die Information des anderen Kanals gewertet, wobei der Gesichtsausdruck generell stärker gewichtet wird. Eine Forschergruppe in den Niederlanden (de Gelder et al., 1997, 1999; de Gelder & Vroomen, 1996) findet ebenfalls Interaktionen konfligierender Informationen zwischen den beiden Kanälen, die auch dann noch auftreten, wenn die Probanden instruiert werden, jeweils einen der Kanäle zu ignorieren, so dass es sich bei den berichteten Interaktionen kaum um eine bewusst eingesetzte Strategie der Probanden handeln kann. Untersuchungen zum zeitlichen Verlauf der Auswertungsprozesse anhand von ERP-Studien (de Gelder et al., 1999; Pourtois et al., 2000) finden bei inkongruenten Stimuli eine sehr frühe MMN-Komponente (100⫺200 msec), die sonst gewöhnlich bei Veränderungen des auditiven Inputs nachgewiesen wird (Näätänen, 1992). Die Autoren schließen daraus, dass die Wahrnehmung und Integration emotionaler Informationen aus Gesichtsausdruck und Stimme sehr schnell und automatisch zu erfolgen scheint. Bezieht man die Daten auf das erweiterte Modell kognitiver und emotionaler Verarbeitung, wie in Kapitel 35 beschrieben, so wird vermutlich ein Großteil der Verrechnung auditiver und visueller Informationen im affektiv-regulativen System vorgenommen, bevor sie an das Implikationale System weitergeleitet werden und die entsprechenden Emotionskonzepte anstoßen. Allerdings sollte die Verrechnung konfligierender Informationen nicht vollständig auf der Ebene des AR-Systems vollzogen werden. Erstens war den Probanden häufig bewusst, dass der Reiz „irgendwie merkwürdig“ wirkte. Das Bewusstsein für derart konfligierende Botschaften sollte auch von evolutionärem Wert sein, da so zum Beispiel das Erkennen betrügerischer Absichten eines Kommunikationspartners möglich wird (Hecht, 2000). Zweitens können Probanden die Kanäle bis zu einem gewissen Grad unabhängig voneinander beurteilen, wenn sie dazu aufgefordert werden. Schmitt et al. (1997) zeigten im Rahmen einer einfachen Klassifikationsaufgabe (Angst, Freude oder neutral), dass die Einschätzung der emotionalen Botschaft getrennt für den vokalen, semantischen und fazialen Eindruck bei konfligierenden Informationen zwar ins-
682 gesamt fehlerhafter war, die Leistungen blieben jedoch für alle drei Kanäle deutlich über dem Zufallsniveau. Dabei zeigte sich die Beeinträchtigung der Einschätzung des Gesichtsausdrucks am geringsten, am deutlichsten wurde sie für den vokalen Ausdruck. 2.1.5. Störungen der Prosodierezeption Weiterführend kann nach der Kompetenz der vokalen Affektrezeption bei verschiedenen neurogenen (vgl. Ackermann et al., 1993; Heilman et al., 1993) und neuropsychiatrischen Erkrankungen (vgl. Borod & Koff, 1989; Borod et al., 1990) gefragt werden. Gewöhnlich wird der rechten Hemisphäre ein bedeutsamer Anteil an der Verarbeitung emotionaler Prosodie und Stimmqualität sowie an der Interpretation des emotionalen Gesichtsausdrucks zugeschrieben, aber auch bei Schädigungen präfrontaler und subkortikaler Strukturen kommt es zu Beeinträchtigungen (für einen Überblick vgl. Borod, 1992; Borod et al., 1998; Etcoff, 1989; Scott et al., 1984; 1997). Eine klinische Testung der Kompetenz vokaler und fazialer Emotionsrezeption ist im deutschen Sprachraum anhand der Tübinger Affekt Batterie (Breitenstein et al., 1996) möglich. Erste Untersuchungen mit diesem Verfahren zeigten allerdings keine deutlichen Leistungsunterschiede zwischen Patienten mit Läsionen der rechten bzw. der linken Hemisphäre (Breitenstein et al., 1996; Hielscher, 2001), wie auch schon frühere Ergebnisse eine Hemisphärendominanz in Frage stellen ließen (z. B. Hartje et al., 1985; van Lancker & Sidtis, 1992). Man kann also nicht von einem unbeeinträchtigten Prosodieverständnis bei Aphasikern ausgehen. Einen guten Überblick zu den unterschiedlichen Hypothesen aus dem Bereich der Neuropsychologie und Neurolinguistik liefern Pell und Baum (1997a, b). Sie fassen die Literatur in vier Hypothesen zusammen: (1) Alle Aspekte der Prosodie werden dominant rechtshemisphärisch verarbeitet und über einen Transfer in die linke Hemisphäre wieder mit linguistischer Information verbunden (z. B. Heilman et al., 1984). (2) Linguistische Prosodie wird dominant in der linken Hemisphäre verarbeitet, wohingegen emotionale und affektiv-konnotierende Prosodie rechtshemisphärisch verarbeitet wird (z. B. van Lancker, 1980). (3) Rezeption und Produktion von Prosodie geschieht eher subkortikal und ist weder
IV. Sprachrezeption
der rechten noch der linken Hemisphäre zuzuordnen (z. B. Cancelliere & Kertesz, 1990). (4) Verschiedene akustische Merkmale werden eher rechts- vs. linksdominant verarbeitet (z. B. van Lancker & Sidtis, 1992). Prozesse der Erkennung von Frequenzvariation und F0-Kontur erfordern stärker rechtshemisphärische Aktivität, während die Erkennung von zeitlichen Mustern, von Rhythmus und Takt eher linkshemisphärisch abläuft. Zukünftig sollte also für eine genauere Modellbildung sowohl eine Dekomposition verschiedener Aspekte und Verarbeitungsschritte der Prosodierezeption angestrebt werden. Außerdem erscheint vor dem Hintergrund neuerer Untersuchungen anhand bildgebender Verfahren bei gesunden und klinischen Stichproben die Unterscheidung rechts- vs. linkshemisphärischer Störungen als zu grob, da vermutlich sehr spezifische Strukturen in beiden Hemisphären sowie subkortikale Areale an der Erkennung und Verrechnung prosodischer Informationen beteiligt sind (vgl. Dogil, Kap. 41; Ross et al., 1997). 2.1.6. Kritik und Ausblick Zusammenfassend muss aufgrund neuerer empirischer Befunde in Frage gestellt werden, wie korrekt der emotionale prosodische Gehalt in realen Gesprächssituationen, in denen der Rezipient parallele Informationen über verschiedene Kanäle erhält, erkannt werden kann. Wie sich intermodal konfligierende Reize auf das Verhalten in der Kommunikation auswirken, ist unter psycholinguistischer Perspektive bislang wenig erforscht. Auch wenn die Fähigkeit des Menschen, emotionale Interpretationen vokaler Äußerungen vorzunehmen, von vielen Autoren immer wieder als sehr gut herausgestellt wird, sind hier einige Kritikpunkte zu berücksichtigen. Die empirische Basis, auf der dieses Urteil gefällt wird, ist hinsichtlich der Art der Aufgaben, des Materials und der zu erkennenden Emotionen problematisch. Die meisten Untersuchungen arbeiten nicht mit freiem Benennen verschiedenster Emotionen, sondern mit Klassifikationsaufgaben, in denen aus einer eingeschränkten Menge vorgegebener Alternativen zu wählen ist. Im einfachsten Fall müssen nur Valenzen (positiv/neutral/negativ) erkannt werden, oder es ist zwischen wenigen Grundemotionen (häufig Ärger, Angst, Trauer, Freude) zu differenzieren.
52. Sprachrezeption und emotionale Bewertung
Bei den vorgegebenen Äußerungen handelt es sich gewöhnlich um kontextfreie Phrasen, meist mit gleichem Wortlaut für die verschiedenen Emotionen, die von professionellen Sprechern, z. B. Schauspielern, gesprochen sind, so dass die Generalisierbarkeit auf freie Kommunikationssituationen äußerst fragwürdig erscheint (z. B. Greasley et al., 1996). Trotz solch eingeschränkter Aufgabenstellungen erreichen die Leistungen der untersuchten (sprach)gesunden Kontrollpersonen oft nicht hundertprozentiges Erkennen. Die Leistungen variieren in Abhängigkeit von personenspezifischen und aufgabenspezifischen Faktoren, für die wenig theoretische Überlegungen zu finden sind. Zukünftig ist also eine Dekomposition verschiedener Prozessschritte für die Rezeption linguistischer und emotionaler Prosodiemerkmale zu leisten, die in den aktuell existierenden psycholinguistischen Modellen nicht hinreichend vorgenommen wird. 2.2. Repräsentation emotionaler Bedeutung Parallel zur Auswertung prosodischer Muster wird nach der Identifikation der Lautstruktur eines Wortes oder einer Äußerung die entsprechende lexikalische Form aktiviert. Hierüber werden syntaktische, semantisch-propositionale und konzeptuelle Informationen zugänglich, wobei deren serielle oder parallele Verarbeitung wie oben ausgeführt noch nicht geklärt ist. Die meisten Modelle gehen davon aus, dass erst über die semantisch-propositionale Repräsentation konzeptuelles Wissen angestoßen wird, welches auch als mentales Modell (Johnson-Laird, 1983), Situationsmodell (Kintsch, 1988) oder Emotionsschema (Beck, 1976; Ingram, 1984) bezeichnet werden kann. Über das Format der Repräsentationen in einem solchen (übergeordneten) Wissenssystem (hier Implikationalen System) lässt sich nur spekulieren, und die genannten Autoren vertreten hierzu sehr unterschiedliche Positionen. An der Notwendigkeit einer Trennung zwischen semantisch-propositionaler und konzeptueller Bedeutungsrepräsentation bestehen aus konnektionistischer Sicht begründete Zweifel. Eine entsprechende Unterscheidung erscheint im Rahmen der Beschäftigung mit Emotionen und Emotionskonzepten jedoch hilfreich, um dem Unterschied zwischen unserem Wissen über Emotionen und dem Erleben von Emotionen gerecht zu werden (vgl. Teasdale & Barnard, 1993).
683 2.2.1. Emotionswörter und ihre semantischpropositionale Repräsentation Frühe empirische Untersuchungen zur Bedeutungszuschreibung und Rezeption emotionaler Inhalte haben häufig keine explizite Trennung zwischen der Semantik sprachlicher Bezeichnungen und ihren subjektiven Erlebenskorrelaten getroffen. Oft wird implizit vorausgesetzt, dass emotionales Erleben über sprachliche Maße, meist Ratings, angemessen erfasst werden kann. Wie unten dargestellt, differieren die Ergebnisse entsprechender Wortfeldanalysen jedoch in Abhängigkeit von der gewählten Analysemethode. Die Verfahren reichen von rein linguistischen Vorgehensweisen (Einschätzungen von Ähnlichkeiten verbaler Label, klassisch-definitorische Merkmalsansätze) bis hin zu verbalen Klassifikationen nonverbaler Emotionskorrelate (z. B. Benennen oder Zuordnen von Emotionswörtern zu Gesichtern oder vokalen Äußerungen). Strittig ist in der Literatur auch, ob die meisten (oder gar alle erlebten Emotionen) in der Sprache verankerte Begriffe binden. Ausgehend von dieser These sollten Basisemotionen, die als kulturübergreifend definiert sind, auch immer durch entsprechende lexikalische Termini in der jeweiligen Sprache vertreten sein (z. B. Saucier & Goldberg, 1996). Geht man allerdings wie Wierzbicka (1992) von stark kulturell geprägten Emotionsbegriffen aus, so sollten terminologische Übereinstimmungen zwischen unterschiedlichen Kulturen gering ausfallen. Die im Folgenden dargestellten Ergebnisse zur Struktur lexikalischer Bedeutungseinträge für Emotionen gehen im Wesentlichen auf englisch- und deutschsprachige Studien zurück. Sie sind also nur bedingt auf andere Sprachen generalisierbar. 2.2.1.1. Welche Begriffe umfasst das „emotionale Lexikon“? Ein grundlegendes Problem aller Studien, die sich mit der lexikalisch-semantischen Struktur von Emotionsbegriffen und Wortfeldern befassen, stellt die Festlegung von Kriterien zur Bestimmung von Emotionsbegriffen bzw. Emotionswörtern dar. Es stellt sich zunächst also die Frage, welche Wörter und Ausdrücke in die Analysen einfließen sollen. Dabei wird die folgende Darstellung auf die Begriffe für Emotionen selbst beschränkt. Wörter mit affektiver Konnotation, expressive Derivationen und Suffixe werden hier nicht weiter berücksichtigt, zumal praktisch jedem Wort
684 eine affektive Konnotation zugewiesen werden kann, je nach sprachlichem Kontext und Äußerungszusammenhang (vgl. Stanckiewicz, 1964; zitiert in Caffi & Janney, 1994: 237). Gewöhnlich basieren die Modelle für eine Klassifizierung der Emotionswörter entweder auf dem klassisch linguistischen Ansatz der Bestimmung notwendiger und hinreichender Merkmale für die Zugehörigkeit eines Begriffes zum Oberbegriff „Emotion“ (z. B. Wierzbicka, 1973, 1992; Ortony et al., 1987; Johnson-Laird & Oatley, 1989) oder auf einem Prototypen- oder „script“-Ansatz (z. B. Fehr & Russell, 1984; Schmidt-Atzert, 1987; Schwartz & Shaver, 1987). Beide Ansätze beinhalten kritische Einschränkungen aber auch interessante Aspekte. Vermutlich könnte im Rahmen eines assoziativen Netzwerkansatzes mit verteilter Repräsentation entsprechender Merkmale (vgl. z. B. Kessler et al., 1998; Mangold-Allwinn, 1993) auch die Repräsentation von Emotionsbegriffen hinreichend flexibel modelliert werden. Geht man von einem Prototypenansatz lexikalischer Begriffe aus, so lassen sich typische Emotionswörter finden (Ärger, Angst, Freude) und Wörter, die den Rand der Klasse in Abgrenzung von anderen internalen Zuständen und Handlungstendenzen beschreiben (Überraschung, Langeweile, Aggression, Müdigkeit, Schüchternheit, Interesse). Eine Übereinkunft bezüglich der Begriffsgrenzen lässt sich empirisch über Ratings (Fehr & Russel, 1984; Shaver et al., 1987; Shields, 1984), und Reaktionszeiten (Fehr et al., 1982, 1984) herbeiführen. Ein Modell der Emotionsrepräsentation allein auf der Basis von Ähnlichkeits- und Typikalitätseinschätzungen kann jedoch einer Reihe empirischer Befunde zu Differenzen zwischen Ähnlichkeitsurteilen und Kategorisierungsaufgaben nicht gerecht werden. So plädieren z. B. Kroska und Goldstone (1996) für einen wissensbasierten Ansatz der Repräsentation von Emotionsbegriffen, der theoretisches Wissen über zentrale Aspekte emotionstypischer Szenarien mit Assoziationen nach Ähnlichkeit kombiniert. Neben dem Prototypenansatz versuchen einige Autoren die Begriffsgrenzen durch „klassisch“ linguistische Analysen festzulegen (z. B. Johnson-Laird and Oatley, 1989; Oatley & Johnson-Laird, 1990; Wierzbicka, 1977, 1992). Es werden notwendige und hinreichende Merkmale dafür definiert, ob es sich bei einem Begriff um eine Emotionsbe-
IV. Sprachrezeption
zeichnung handelt. Wierzbicka (1977) gibt ein Set semantischer Primitiva an; mit deren Hilfe sollen die Bedeutungen aller Emotionsbegriffe definiert und komplexe Begriffe (z. B. regret) auf Basiskomponenten zurückgeführt werden können. Johnson-Laird und Oatley (1989) kritisieren diesen Ansatz hinsichtlich der rekursiven Definition der Basisemotionen, deren semantische Bedeutung nicht weiter dekomponentialisiert werden kann, sondern allein durch Referenz auf den korrespondierenden internen Zustand definiert wird. Sie geben als Kriterium für Basisemotionen die Verwendbarkeit eines Wortes im Satz „I am X“ gegenüber „I feel X“ an (vgl. Ortony et al., 1987). Nur bei Wörtern, die auch im erstgenannten Kontext eine Emotion bezeichnen, handelt es sich nach der Auffassung der Autoren um Basis- oder Primäremotionen. Diese „emotional primitives“ können also nicht innerhalb des propositionalen Wissensnetzs adäquat definiert werden. In der Modellvorstellung von Teasdale und Barnard (1993) formuliert, sind emotionale Primitiva nur in der Verknüpfung des Begriffs im Propositionalen System mit dem Konzept im Implikationalen System definiert. Für die Identifikation komplexer Emotionsbegriffe ist entsprechend stärker semantisch-propositionales Wissen relevant, speziell für sog. soziale Emotionen (z. B. Ross et al., 1994). Der schon zitierte definitorische Ansatz von Ortony, Clore und Foss (1987) liefert ein ausgesprochen hilfreiches Raster für die Klassifikation von Emotionswörtern. Sie bemerken, dass eine Klassifikation anhand der unterschiedlichen inhaltlichen Fokussierung der Wörter auf die verschiedenen Facetten, die eine Emotion auszeichnen, vorgenommen werden kann. Insgesamt gehen die Autoren von einer Taxonomie aus, die Bezeichnungen von internalen und externalen Gegebenheiten unterscheidet. Als reine Emotionswörter bezeichnen sie allein die Gruppe, die auf das emotionale Erleben fokussiert. Daneben ist ein Fokus auf verhaltensbezogene und kognitive Aspekte möglich sowie auf physische und körperliche Zustände. Von der Definition dessen, was als Emotionswörter und -ausdrücke gelten soll, werden natürlich weitere Analyseergebnisse beeinflusst, so zum Beispiel Angaben darüber, wie viele Emotionsbezeichnungen eine Sprache umfasst. Erhebungen von Averill (1975) und Fehr und Russell (1984) für das Englische und von Marx (1982) und Mannhaupt (1983)
52. Sprachrezeption und emotionale Bewertung
für die deutsche Sprache zeigen, wie vielfältig allein die direkte Emotionsbenennung durch Wörter, Metaphern und Umschreibungen sein kann. Trotz definitorischer Probleme legen vergleichende Arbeiten von Clore et al. (1987), Gehm und Scherer (1988), Russel (1991, 1983) und Shaver et al. (1992) nahe, dass der Umfang des jeweiligen Emotionsvokabulars in verschiedenen Sprachen große Unterschiede aufweist. 2.2.1.2. Zur dimensionalen vs. kategorialen Struktur des Begriffsraumes Hat man das Emotionsvokabular einer Sprache identifiziert, so zielen nachfolgende Wortfeldanalysen, Ratings etc. darauf ab, eine Reduktion der vielfältigen Begriffe auf zugrundeliegende Dimensionen oder Basiskategorien zu erreichen. Generell sind dabei die dimensionalen Beschreibungsversuche von den kategorialen Analysen zu unterscheiden. Der dimensionale Ansatz versucht eine Reduzierung der Bedeutungsvielfalt aller Emotionsbegriffe auf möglichst wenige Grunddimensionen, was methodisch vorwiegend über Einschätzungen von affektiv relevanten Stimuli auf entsprechenden Skalen und faktorenanalytische Auswertung oder multidimensionale Skalierung erfolgt. Im zweiten Ansatz werden qualitativ unterscheidbare Kategorien von Gefühlsbezeichnungen gewöhnlich aufgrund von abstrakten Ähnlichkeitsratings sprachlicher Termini ermittelt. Aber auch die Überlappung sprachlicher Umschreibungen (z. B. Schmidt-Atzert, 1987), Kovariationen von Einschätzungen auf Befindlichkeitsskalen (z. B. McHugo et al., 1982) oder strukturell-linguistische Analysen (z. B. Neppl & Boll, 1991) werden als Verfahren der Klassifikation und expliziten Beschreibung vorgeschlagen. Mit großer Übereinstimmung fanden sich in psychologisch orientierten Untersuchungen, die eine faktorenanalytische Reduzierung emotionaler Einschätzungen auf wenige Dimensionen anstrebten, die klassischen beiden Dimensionen des semantischen Differentials (Osgood et al., 1957). Diese Dimensionen der Valenz („pleasantness“) und der Aktivierung („arousal“) konnten in hohem Maße übereinstimmend mit verschiedenen Methoden und in verschiedenen Kulturen (vgl. Russell, 1983; Church et al., 1998) extrahiert werden. Neben den Dimensionen der Valenz/Evaluation und Aktivierung wird eine dritte Dimension von sehr vielen Forschern gefunden, die von Osgood et al. (1957) als
685 Potenz bezeichnet wird, deren Definition und Benennung jedoch stärker variiert (vgl. Caffi & Janney, 1994). Nicht alle Untersuchungen können bestätigen (z. B. Gehm & Scherer, 1988), dass diese Dimensionen unabhängig voneinander variieren und eine zirkuläre Anordnung aller Emotionsbegriffe in der aufgespannten Ebene zulassen, wie z. B. von Russel (1983) oder Church et al. (1998) gefunden. Die dimensionale Beschreibung spielt nicht nur für qualitative Einschätzungen, sondern auch für die Geschwindigkeit der Verarbeitung eine Rolle. Konnotativ-bewertende Bedeutungsaspekte scheinen sehr unmittelbar wahrgenommen zu werden. Sie üben schon sehr früh (80–265 msec post onset) differentielle Effekte auf neuronale Aktivierungsmuster aus (Begleiter & Platz, 1968; Molfese, 1985; Skrandies, 1998), was dafür spricht, dass emotional relevante Bedeutungsaspekte eines Wortes extrem schnell ausgewertet werden und nicht auf morphosyntaktische Analysen warten. Hier sollte es möglicherweise einen Unterschied machen, ob die Konnotation über das Stammmorphem ausgedrückt wird (meine Frau, mein Weib) oder in der Derivation liegt (mein Frauchen). Zu der dimensionalen Darstellung der Emotionsbegriffe ist jedoch kritisch anzumerken, dass bei umgekehrtem Vorgehen eine Anordnung der Emotionen in diesem Feld nicht hinlänglich zwischen Emotionsbegriffen mit feinerer Differenzierung (Zorn, Hass, Verachtung) unterscheidet (z. B. Plutchik, 1980; Schmidt-Atzert, 1987). Es lassen sich auch immer wieder übereinstimmend Cluster von Begriffen finden, die Bezeichnungen für die als Basisemotionen oder Primäremotionen diskutierten Zustände (vgl. auch Meyer et al., 1997: 159) enthalten, allerdings variiert deren Zahl erheblich. Immer werden Angst, Ärger, Traurigkeit und Freude hierzu gezählt, gewöhnlich werden aber 7 und mehr Emotionen genannt. Im deutschsprachigen Raum lässt z. B. Schmidt-Atzert (1987) in seiner rein sprachlichen Untersuchung 56 Emotionsbezeichnungen von Probanden mit eigenen Worten umschreiben und ermittelt im Rahmen korrelativer Auswertungen neun gut interpretierbare Cluster (Abneigung, Ärger, Angst, Unruhe, Traurigkeit, Scham/Schuld, Freude, Zuneigung und Überraschung). Systematische interkulturelle Untersuchungen der lexikalischen Emotionsbegriffe sind rar. Strukturell-linguistische Analysen betonen eher die Unterschiede einzelner
686 Emotionsbegriffe in verschiedenen Sprachen (z. B. Wierzbicka, 1992), psycholinguistische Untersuchungen (z. B. Church et al., 1998; Shaver et al., 1992; Heider, 1991) berichten eher eine Übereinstimmung im Vorhandensein von Begriffen für Basisemotionen. So finden Shaver et al. (1992) Cluster im Englischen, Italienischen und Chinesischen für die vier Basisemotionen joy/happiness, sadness/ depression, fear, anger/hate. Church et al. (1998) vergleichen philippinische und englische Sprecher und finden Übereinstimmungen für zehn häufig als Basisemotionen genannte Termini (happy, sad, angry, fearful, disgusted, surprised, interested, contemptuous, ashamed, guilty). So lässt sich vermuten, dass Begriffscluster um Basisemotionen in jeder Sprache zu ermitteln sein müssten. Für eine kategoriale Speicherung sprechen auch die Ergebnisse im Rahmen der Stimmungskongruenzforschung, die selektiv schnellere lexikalische Zugriffszeiten auf Wörter zeigen, die derselben emotionalen Qualität zugeordnet werden können wie die Emotion des Rezipienten. Bei vorliegender trauriger Stimmung werden selektiv diejenigen Wörter schneller rezipiert, die mit der entsprechenden Basisemotion assoziiert sind, nicht andere negativ konnotierte Wörter (vgl. Abschnitt 3). Der dimensionale und der kategoriale Ansatz bilden jedoch keine sich ausschließenden Vorstellungen. Für den deutschsprachigen Raum entwickelten Hölzer et al. (1992) ein Instrument zur computerunterstützten emotionalen Vokabularanalyse, das „Affektive Diktionär Ulm“. Dieses Verfahren basiert auf einem etwas anderen dreidimensionalen Schema, das den Emotionsraum durch die Dimensionen der „Orientierung“ (Objekt- vs. Selbstbezogenheit), der „Valenz“ (Anziehung vs. Abstoßung) und der „Kontrolle“ über das Ereignis (Aktiv vs. Passiv) aufspannt. Interessant ist bei diesem Ansatz die Verknüpfung des dimensionalen Ansatzes mit dem kategoriellen Ansatz, wie dies zum Beispiel auch schon bei Plutchik (1980) versucht wird, indem acht als Grundemotionen bezeichnete Zustände (bzw. Zustandsbenennungen) den Feldern dieses Schemas zugeordnet werden. Abschließend ist nochmals zu betonen, dass alle hier dargestellten Ergebnisse nur die Bezeichnungen für Emotionsbegriffe und Bewertungen betreffen und nur mit Vorsicht auf das Erleben der bezeichneten Phänomene übertragen werden dürfen. Um die immer wieder gestellte Frage zu beantworten, wel-
IV. Sprachrezeption
che sprachlichen Ausdrücke Emotionen (emotionales Erleben und Bewerten) denotieren, müsste zunächst klar sein, welche Erlebensphänomene und Zustände des Organismus überhaupt als Emotion (Stimmung oder Bewertung) gefasst werden sollen. Bislang kann nur die Frage beantwortet werden, welche Modelle Menschen von ihrem emotionalen Erleben haben (vgl. Koevecses, 1999), und hier differieren die Konzeptualisierungen individuell erheblich (vgl. Izard, 1994; Feldman, 1995). 2.2.2. Emotionsrepräsentationen im Implikationalen System Das Emotionskonzept als Wissensstruktur im Implikationalen System umfasst nach der Beschreibung des Modells interagierender Subsysteme von Teasdale und Barnard (1993) die Repräsentationen relevanter Ereignisse und Erinnerungen an auslösende Situationen und Verhaltensweisen. Das Konzept einer Emotion weist neben den Verknüpfungen zu entsprechenden Emotionsbegriffen im Propositionalen System auch direkte Verknüpfungen zu peripheren Wahrnehmungssystemen auf. Es ist assoziiert zu der wahrgenommenen Stimmqualität und zum Gesichts- und Körperausdruck des Kommunikationspartners, wobei aufgrund der in Abschnitt 2.1 diskutierten intermodalen Effekte möglicherweise eine affektiv-regulative Zwischenrepräsentation mit entsprechenden Verrechnungsprozessen angenommen werden muss (vgl. auch Kap. 35). Die dort verarbeitete Information kann einerseits entsprechende motorische (artikulatorische, mimische und gestische) Muster sowie viszerale und physiologische Reaktionen anstoßen und wird andererseits entsprechende Emotionskonzepte auf der Ebene des Implikationalen Systems aktivieren. Die Repräsentation des Emotionskonzeptes im Implikationalen System umfasst episodisches Wissen um emotionsrelevante Ereignisse. Diese sind eng verbunden mit dem subjektiven emotionalen Erleben selbst. Man spricht also nur in diesem Repräsentationsmodus von „hot emotions“ und vermeidet durch die modulare Konzeption der verschiedenen Informationsverarbeitungs- und Repräsentationsebenen kritische Aspekte des älteren, assoziativen Netzwerkansatzes nach Bower (1981). Eine Reihe von Autoren (Howe & Courage, 1993; Markowitsch, 1999; Tulving, 1983) hält eine Verknüpfung episodischer
52. Sprachrezeption und emotionale Bewertung
Wissensinhalte mit einer vollständig entwickelten Repräsentation des Selbst-Konzeptes und mit raum-zeitlichen Informationen (Friedman, 1991) für unerlässlich. Aber natürlich wurden schon vorher emotionale Ereignisse gespeichert, die die Grundlage von Emotionsschemata und Emotionskonzepten bilden. Howe et al. (1996) untersuchten emotionale Reaktionen von Kindern, die zum Zeitpunkt einer erlebten traumatischen Erfahrung noch nicht über ein hinreichend ausgebildetes Selbst-Konzept verfügten (vorhanden ab einem Alter von ca. 18–24 Monaten). Diese Kinder speichern zentrale Aspekte der emotionsauslösenden Situation sehr gut in einem impliziten Format, das sie (noch) nicht sprachlich ausdrücken können, das aber bei entsprechenden Hinweisreizen wieder aufgerufen werden kann. Die Erinnerungen an zentrale Aspekte der Situation scheinen dabei sehr überdauernd zu sein, während periphere Aspekte des Erlebnisses vergessen werden. Auch Christianson und Engelberg (1999) sprechen sich in ihrem Überblick zur Organisation emotionaler Gedächtnisinhalte für eine „interconnected representation of an affective experience at different memory levels“ aus. Sie merken an: „The implication that perceptual details of the original context can trigger and enhance verbal retrieval of detailed event information suggests the existence of a certain interactive connection between levels or systems of memory“ (Christianson & Engelberg, 1999: 218). Die unterschiedlichen Ebenen der emotional relevanten Gedächtnisrepräsentationen bilden sich erst im Laufe der Entwicklung aus und erlauben dann stärker kognitiv vermitteltes, differenziertes emotionales Erleben (vgl. Johnson & Multhaup, 1992). Für die Bestimmung der emotionalen Signifikanz eines Ereignisses ist ein Abgleich des Reizes mit spezifischen Erinnerungen auf den verschiedenen Repräsentationsebenen notwendig. Je differenzierter ein entsprechendes Wissensnetz assoziierter Erinnerungen ist, desto eher werden entsprechende Emotionen ausgelöst (z. B. Beck, 1967; Ingram, 1984 für depressive Schemata). Allerdings treffen Emotionstheorien selten explizite Aussagen darüber, welche Aspekte für eine bestimmte Emotion typisch sein sollten. Ausnahmen bilden einerseits die stark kognitiv ausgerichteten attributionalen Ansätze der Emotionsgenese (vgl. Gotlib & Abramson, 1999), die zurückgehen auf Heckhausen (1966) und Weiner (1982). Diese be-
687 schäftigen sich vorwiegend mit Emotionen im Leistungskontext wie Stolz oder Scham, die aufgrund bestimmter Kausalattributionen vorgenommen werden. Solche Emotionen, die auch als „soziale“ Emotionen bezeichnet werden, gelten als relativ spät erworben (Fischer et al., 1990; Harris, 1992). Ihnen unterliegen vermutlich komplexere Schemata und explizites propositionales Wissen (vgl. Ross, 1994). Ein anderes sehr detailliertes Raster emotional relevanter Hinweisreize und Prozesse definieren Leventhal und Scherer (1987; Scherer, 1993) in ihrem Ansatz, der zu den sogenannten „appraisal“-Theorien zu zählen ist (vgl. Scherer, 1999). Jedes Ereignis, jeder externe oder interne Reiz wird auf drei Stufen zunehmender kognitiver Komplexität beurteilt, die sich im Verlauf der Entwicklung herausbilden (sensomotorische Programme, emotionale Schemata, begriffliche Verarbeitung). Auf jeder Stufe werden Ereignisse auf ihre emotionale Relevanz hin geprüft („Stimulus Evaluation Checks“: Neuigkeit, Valenz, Möglichkeiten des Coping, Zielrelevanz, Angemessenheit bezüglich interner und externer Standards). Das Konzept jeder Emotion enthält nach Auffassung der Autoren entsprechende Einschätzungen und Situationskomponenten. So kann einerseits die Emotion in entsprechenden Situationen elizitiert werden, andererseits kann auch über sprachlich vermittelte Informationen und entsprechende Inferenzmechanismen die passende Emotion erschlossen und empathisch mitempfunden werden. Das Konzept einer erschlossenen oder auch aktuell erlebten Emotion wird im Rahmen einer Modellierung über verteilte Repräsentationen immer aus etwas anderen Komponenten zusammengesetzt sein (vgl. Mangold-Allwinn, 1993); es werden häufig auch Komponenten anderer Emotionsrepräsentationen mit aktiv sein, so dass es zu Mischempfindungen oder komplexen Emotionen kommt. Nimmt man die Situation eines Wettkampfes, in dem A von B gefoult wird, aber trotzdem gewinnt, so wird B in der nachfolgenden Kommunikation bei A vielleicht eine Mischung aus Ärger, Verachtung und Stolz wahrnehmen. Die emotionalen Signale können sowohl über das affektivregulative System wie auch über das Propositionale System wahrgenommen werden. Eine genauere Klassifikation des Ärgers des Kommunikationspartners, z. B. als Empörung, benötigt vermutlich eine differenziertere Auswertung des propositionalen Inhalts, da al-
688 lein der Gesichtsausdruck oder die Stimmqualität solche feinen Unterscheidungen kaum verlässlich vermitteln können. Im Alltag ist es außerdem häufig nicht so, dass alle Komponenten dieselbe emotionale Botschaft triggern. Wir lernen den Gesichtsausdruck und bis zu einem gewissen Grad die stimmliche Qualität zu kontrollieren, so dass die Botschaften, die über die verschiedenen Kanäle vermittelt werden, zu konfligierenden Interpretationen führen können. Es bleibt weiteren empirischen Untersuchungen vorbehalten festzustellen, ob Schmidt-Atzert Recht hat, wenn er postuliert: „Zwar können Emotionen auf vielerlei Weise absichtlich kommuniziert werden, […] dem verbalen Gefühlsausdruck kommt jedoch die größte Bedeutung zu. Der verbale Code ist weitaus elaborierter als der nonverbale“ (Schmidt-Atzert, 1987: 142). Zusammenfassend bleibt festzuhalten, dass emotionale Konzepte oder Schemata im Implikationalen System einerseits von Informationen aus sinnesmodalitätsnahen Repräsentationen aktiviert werden, die vermutlich nach einer ersten automatischen Verrechnung im affektiv-regulativen System episodische Inhalte anstoßen und andererseits über semantisch-propositionale Informationen zugänglich werden. Die verteilte Repräsentation über diese Systeme, die jeweils etwas andere Nuancen aufweist, reflektieren wir als unser emotionales Erleben, falls das SelbstKonzept integriert ist. Der alte Streit um das Primat von Kognition oder Emotion (Lazarus, 1982; Zajonc, 1980) ist im Rahmen eines solchen Modells überflüssig geworden. 2.3. Zur Rezeption emotionaler Informationen aus Texten und im Gespräch Texte, die emotional relevante Informationen übermitteln, werden gewöhnlich besser behalten und können leichter reproduziert werden als nicht emotionale Informationen (vgl. Riffo, 1999; Schürer-Necker, 1994), vor allem wenn tatsächlich entsprechende Emotionen beim Rezipienten ausgelöst werden. Die Rezeption und Speicherung entsprechender Informationen scheint durch den emotionalen Status also besonders intensiv zu erfolgen. Auf Gedächtniseffekte kann in diesem Rahmen jedoch nicht näher eingegangen werden, hier soll das Augenmerk auf die Rezeptionsprozesse gerichtet werden.
IV. Sprachrezeption
2.3.1. Emotionale Inferenzprozesse bei der Textrezeption Verstehen sprachlicher Informationen beinhaltet komplexe kognitive Prozesse, in denen Komponenten bottom-up gerichteter Informationsauswertung und -weitergabe mit topdown gerichteten steuernden Komponenten interagieren (Strohner, 1988). Neben den Prozessen der Worterkennung, des lexikalischen Zugriffs, der semantischen und syntaktischen Analyse einzelner Segmente zeichnet sich die kognitive Verarbeitung von Texten vor allem durch Prinzipien der Kohäsionsund Kohärenzherstellung aus. Die prozedurale Sicht der Kohäsion und Kohärenz steht seit einigen Jahren den traditionellen Begriffen der Textlinguistik gegenüber (vgl. Rickheit, 1991; Rickheit & Schade, 2000). Stellt man die Definition der Begriffe auf eine systemtheoretische Basis, so bedeutet dies für die Rezeption, dass ein stabiler Zustand im sprachverarbeitenden Netz des Lesers/Hörers „einschwingt“. Im negativen Fall gelingt es nicht, „die betreffende Äußerung bzw. den betreffenden Textteil in die Repräsentation des zuvor Rezipierten einzugliedern. Sind Hindernisse dafür phonologischer, morphologischer oder syntaktischer Art, liegt ein Kohäsionsproblem, sind sie inhaltlicher Art, liegt ein Kohärenzproblem vor.“ (Rickheit & Schade, 2000: 279). Im Folgenden soll nun gefragt werden, ob emotionale und konnotierende Bedeutungsaspekte in der Textrezeption eine besondere Rolle spielen. Emotionsbegriffe und -konzepte können allein durch entsprechende Benennungen („ich bin traurig“), durch bestimmte Schlüsselwörter, die auf prototypische Ereignisse verweisen („bei der Beerdigung“) oder die besonders affektiv besetzt sind („Steuerreform“), und schließlich durch die Gesamtheit der Informationen des schriftlichen Textes oder der mündlichen Erzählung aktiviert werden. Selbst wenn keine Emotionen direkt genannt werden, lassen sich aus schriftlich dargebotenen Texten Rückschlüsse auf emotionales Erleben ziehen, ohne dass weitere Informationen über prosodische, mimische oder gestische Kanäle vorliegen. In Texten, in denen ein prototypisches Ereignis für eine bestimmte Emotion beschrieben wird, können Rezipienten die entsprechende Emotion eines Protagonisten inferieren (Gernsbacher et al., 1992; Hielscher, 1997). Gernsbacher und Robertson (1992; Gernsbacher et al., 1992), zeigten in ersten Experimenten, dass emotionale Inferenzen
52. Sprachrezeption und emotionale Bewertung
spontan gezogen werden, obwohl diese weder als lokale noch als globale kohärenzstiftende Prozesse (vgl. Rickheit & Strohner, 1993: 228 ff.) für das Verständnis der Texte notwendig waren. In den Experimenten von Hielscher (2001) zeigten sich spontane Inferenzleistungen anhand von Lese- und lexikalischen Entscheidungszeiten allerdings nur verlässlich für das Erschließen der passenden Basisemotionen, nicht für komplexere Emotionen. Deutet ein Text Veränderungen der Emotionalität des Protagonisten an, so vollziehen die Rezipienten ein Update und behalten diese Information im Fokus (de Vega et al., 1996). Inferenzleistungen stellen sicher einen wesentlichen Bestandteil des normalen Textverstehens dar, Inferenzen scheinen sich zum Teil sogar unvermeidbar aufzudrängen (Rickheit & Strohner, 1985, 1999). Zu unterscheiden ist hier mit Johnson-Laird (1983) zwischen expliziten und impliziten Inferenzen. Während erstere einen bewussten, hoch formalisierten Prozess des logischen Schließens voraussetzen, versteht Johnson-Laird unter impliziten Inferenzen diejenigen, die intuitiv und unbewusst im Rahmen des mentalen Modells der beschriebenen Situation vollzogen werden. Auch Kintsch berücksichtigt in seinem Konstruktions-Integrations-Modell speziell inferenzielle Prozesse (Kintsch, 1988). Er schließt die Erstellung eines Situationsmodells als Endprodukt komplexer Aktivierungs- und Verrechnungsprozesse mit ein, in welchem der Leser neben den explizit genannten Textinformationen assoziierte Wissensinhalte repräsentiert hält. Er postuliert diese Repräsentation jedoch auf der Grundlage der rein propositionalen Textbasis. Ob nun Inferenzen auf das emotionale Erleben des Protagonisten stärker sprachgebunden im Propositionalen System oder im Implikationalen System vollzogen werden, kann bislang nicht entschieden werden. Ergebnisse von Hielscher (1997, 2001) an Patientengruppen mit rechts- vs. linkshemisphärischen Läsionen legen nahe, dass für zunehmend komplexe Emotionen eine Vermittlung durch sprachlich-konzeptuelle Repräsentationen notwendig ist. 2.3.2. Humorverständnis Im Rahmen psycholinguistischer Forschung zur textgestützten Kommunikation emotionaler Inhalte nimmt das Verständnis für verbalen Humor eine gewisse Sonderstellung ein. Zum Humorverstehen existiert eine
689 Reihe von theoretischen Vorstellungen, die nach Breßmann (1997) als Aggressionstheorien, Triebabfuhrtheorien und Inkongruenztheorien zusammengefasst werden können. Nach Raskin (1985) stehen die drei Ansätze jedoch nicht in Konkurrenz zueinander, sondern beschreiben unterschiedliche Ebenen des humoristischen Erlebnisses, respektive soziale, emotionale und kognitive Aspekte. Gegen Raskins (1995) eher unpräzisen Integrationsversuch im Rahmen des Skript-Ansatzes ist der konnektionistische Ansatz nach Katz (1993) zu stellen. Beim Anhören eines Witzes wird initial ein mentales Modell A aufgebaut, in dem der Witztext repräsentiert wird. Bei der Präsentation der punch-line, der lustigen Wendung der Erzählung, tritt ein revidiertes mentales Modell B mit der ersten Interpretation in einen Wettbewerb, um die im Netz fließende Aktivationsenergie an sich zu ziehen. Es entsteht vorübergehend ein Zustand diffuser Aktivation, und der Level der gesamten Energie steigt kurzfristig an. Schließlich tritt das Netz nach geglücktem Verstehen des Witzes wieder in einen neuen stabilen Zustand um das Modell B. Mit dem kurzfristigen Energieanstieg für die Verrechnung der konkurrierenden Modelle erklärt Katz etwas undifferenziert das „Glückserlebnis“ beim Anhören des Witzes (vgl. Breßmann, 1997). Aus emotionspsychologischer Sicht könnte man den emotionalen Verlauf des Witzverstehens vielleicht über das Moment der Überraschung bei einer wahrgenommenen Inkohärenz des Verstandenen, gefolgt von Erleichterung oder Freude über die gelungene kognitive Auflösung fassen. Häufig wurde das Humorverständnis pauschal Prozessen der rechten Hemisphäre zugeschrieben, was für derart komplexe integrative Funktionen sicher abzulehnen ist (vgl. Breßmann, 1997), auch wenn eine Reihe von Studien Defizite bei entsprechenden Patienten nachweisen konnten (Bihrle et al., 1986; Brownell et al., 1983). Nicht das allgemeine Humorverständnis scheint bei den Patienten gestört zu sein, sondern die Fähigkeit zum Aufbau eines regulären Textmodells, das dann bei der Rezeption der punch-line revidiert werden muss (Katz, 1993). Jedoch können sowohl Läsionen der rechten wie auch der linken Hemisphäre zu Defiziten der beschriebenen Fähigkeit führen, allerdings sind die Mechanismen der Fehlleistungen vermutlich unterschiedlich gelagert (vgl. Breßmann, 1997; Brownell et al., 1986).
690 Einen ganz anderen Zugang zum Thema Humorverarbeitung gewinnt man unter gesprächsanalytischer Herangehensweise. Norrick (1994) untersucht, wie Humor und Witze in der kommunikativen Situation eingesetzt werden. Er schreibt dem Rezipienten eine wichtige Rolle für die Evozierung und Aufforderung sowie für die Ausgestaltung der Erzählung eines witzigen Ereignisses zu. Speziell persönliche Anekdoten, gemeinsam rekonstruierte Geschichten und Wortspiele tönen die emotionale Stimmung eines Gespräches, sie erhöhen das Involvement der Kommunizierenden und verbessern den Rapport. Sowohl anekdotische Erzählungen wie auch Wortspiele unterbrechen gewöhnlich den Verlauf und das Thema des Gesprächs oder werden als Test eingesetzt, ob der Kommunikationspartner korrekt verstanden wurde. Wortspielen wird darüber hinaus eine gewisse aggressive Haltung des Sprechers unterstellt, da es vom Thema ablenkt und z. B. langwierige inhaltliche Ausführungen zugunsten einer ausgeglicheneren kommunikativen Verteilung unterbricht. 2.3.3. Rezeption emotionaler Inhalte im Gespräch Schon klassische Ansätze der Linguistik, speziell der Pragmatik, betonen den konnotativen oder emotiven Charakter sprachlicher Äußerungen neben ihren denotierten Inhalten. Einen guten historischen Überblick von Aristoteles über Anton Marty und Charles Bally zu Beginn des 20. Jahrhunderts bis hin zu Vertretern der Prager Schule geben Caffi und Janney (1994) in einem Sonderheft zum Thema „Involvement in Language“ des Journals of Pragmatics. So betont zum Beispiel Jakobson (1960) die expressive oder auch emotive Funktion der Sprache, die er beschreibt als „direct expression of the speakers’s attitude toward what he is speaking about … The emotive function, laid bare in the interjections, flavors to some extent all our utterances“ (Jakobson, 1960: 354). Wichtig erscheint darüber hinaus die Trennung zwischen dem Ausdruck eigener Empfindungen (schon bei Bühler, 1934, in seiner Ausdrucksfunktion angedeutet) und einer angestrebten/erreichten Evozierung von Emotionen beim Hörer (bei Bühler als Appellfunktion bezeichnet), die in der Prager Schule erst später wieder diskutiert wurde (vgl. Volek, 1987). Auch aus psycholinguistischer Perspektive beinhaltet jede Äußerung im Rahmen einer
IV. Sprachrezeption
kommunikativen Situation emotional-bewertende Komponenten. Hier sei nur kurz auf das Kommunikationsmodell von Schulz von Thun (1981) verwiesen, nach welchem jede Nachricht neben einem inhaltlichen Aspekt auch Appellfunktion besitzt und Informationen darüber liefert, wie der Sprecher sich selbst einschätzt und wie er die Beziehung zwischen sich und dem Rezipienten sieht oder darstellen möchte. Insofern beinhalten sprachliche Äußerungen immer auch bewertende und beziehungsdefinierende Momente, die allerdings selten explizit thematisiert sind und die vom Rezipienten nicht immer bewusst wahrgenommen werden. Da überdies über die unterschiedlichen Kanäle oft widersprüchliche Bewertungen transportieren werden können, ist es für den Empfänger entsprechend schwierig, die verschiedenen Aspekte einer Botschaft bewusst zu verarbeiten. Diese „Kunst“ ist zum Beispiel Bestandteil der Ausbildung für verschiedene psychotherapeutische und kommunikationsorientierte Berufe. Allerdings scheinen auch untrainierte Rezipienten über sehr gute Fähigkeiten zu verfügen, die emotionale Involviertheit eines Sprechers zu seiner Äußerung einzuschätzen. Hier sei nur auf die grundlegenden Untersuchungen von Wiener und Mehrabian (1968) verwiesen, die eine gute Übereinstimmung für Rezeptionsleistungen nachweisen konnten, die die affektive Distanzierung (nonimmediacy) eines Sprechers von seinem Thema, dem Adressaten oder der Kommunikationssituation insgesamt betrafen. Die Wahl und Interpretation entsprechender kommunikativer Mittel für die verschiedenen verbalen und nonverbalen Kanäle ist nicht explizit gelernt und folgt implizitem Regelwissen, wird aber von Produzenten und Rezipienten innerhalb einer Kultur und Sozialisationsgruppe sehr verlässlich beherrscht. Aus der gesprächslinguistischen Perspektive werden verschiedene sprachliche Mittel und Strukturen zur Prozessierung emotional relevanter Inhalte diskutiert (Caffi & Janney, 1994; Fiehler, 1990). Generell stellt sich hier die Frage, was eine emotional gefärbte Äußerung ausmacht oder, wie Caffi und Janney (1994: 249) dies formulieren, „what constitutes an ‘emotively significant’ linguistic contrast?“ Die verwendeten sprachlichen Mittel reichen, wie in Kap. 35 dargestellt, von den Interjektionen als direktestem Ausdruck emotionalen Erlebens (Jakobson, 1960) bis hin zu Metaphern, figurativer Sprache, Ironie, Humor (s. 2.3.2) und indirekten Sprech-
52. Sprachrezeption und emotionale Bewertung
akten. Im Folgenden sollen die beiden Extrempole (Interjektionen und indirekte Sprechakte) kurz erörtert werden. 2.3.3.1. Interjektionen Auch wenn die linguistische Einordnung der Interjektionen sehr uneinheitlich ist, so sind die meisten Ansätze darin einig, dass den Interjektionen eine vorwiegend emotive Bedeutung zukommt. Interjektionen werden in erster Linie als Ausdruck der emotionalen Empfindung des Produzenten verstanden. Zu unterscheiden sind Formen, denen eine kontextunabhängige emotionale Wertigkeit zugeschrieben werden kann (z. B. für Freude: heißa, hurra, juhu; für Ekel: iih, pfui, puh) und Formen, die nur vom Kontext her (ach, ah, hmm), vor allem durch ihre Prosodie, zu bestimmen sind (Helbig & Buscha, 1987). Schließlich gibt es Interjektionen, die neben einem expressivem Gefühlsausdruck auch eine Aufforderung enthalten (hallo, pst, sch, oder heda). Aus diskursanalytischer Sicht zieht Drescher (1997) aus den Schwierigkeiten der Einordnung den Schluss, dass Interjektionen nur in ihrem diskursiven Gebrauch, in ihrer kommunikativen Funktion angemessen interpretiert werden können. Innerhalb von Turns werden die Interjektionen als Markierung des Gesagten verstanden, die gleichzeitig die emotionale Bewertung des Sprechers dazu erkennen lassen. Am Ende eines Turns werden Interjektionen zusätzlich relativ eindeutig als Markierung der Übergabe des primären Rederechts an den Kommunikationspartner, z. T. auch als Aufforderung zu einem Kommentar bzw. zu einer Bestätigung des Gesagten/der Bewertung interpretiert. Interjektionen kann somit, je nach sprachlichem Kontext und Position, auch eine Appellfunktion zugeschrieben werden. Leider untersucht Drescher nicht experimentell, wie Rezipienten die emotionale Bedeutung der Interjektionen bzw. der durch Interjektionen verstärkten Äußerungen tatsächlich einschätzen, sondern betrachtet das emotionale Ausdrucksverhalten hinsichtlich der verwendeten Interjektionen zunächst rein diskursanalytisch (siehe auch Kap. 35). Es wäre andererseits interessant, die Speicherung und Verarbeitung von Interjektionen und sonstigen diskursmarkierenden Elementen im Rahmen psycholinguistischer Modelle zu analysieren, was bislang allerdings kaum geschieht. Im Rahmen eines Modells der
691 Sprachverarbeitung und kommunikativen Prozessierung ist z. B. zu fragen, in wie weit Interjektionen lexikalisiert sind oder ähnlich wie sonstige vokale Äußerungen über eine direkte Route das Bedeutungssystem und Wissen über paralinguale Prozesse ansprechen. Hinweise für eine gewisse Unabhängigkeit der Prozessierung spontaner emotionaler Ausdrücke und des Wissens um kommunikative Abläufe vom sprachsystematischen Wissen liefern viele Falldarstellungen und Gruppenstudien an zerebral geschädigten Patienten, angefangen bei Hughling Jackson, der bei aphasischen Patienten selektiv erhaltene emotionale Äußerungen (z. B. Interjektionen, Flüche) beobachten konnte. Ähnlich wird immer wieder berichtet, dass das Verständnis für kommunikative Abläufe und Strukturen bei den meisten Aphasikern relativ unbeeinträchtigt sei. Von Störungen der sprachlichen und kommunikativen Prozessierung sowie von Störungen des emotionalen Kommunizierens sind eher Patienten mit rechtshemisphärischen Läsionen oder Läsionen in präfrontalen Strukturen betroffen (vgl. Borod et al., 1998). 2.3.3.2. Indirekte Sprechakte Ein sehr viel komplexeres kommunikatives Mittel, das nicht nur emotive Bewertungen transportiert, sondern auch eine eindeutige Appellfunktion beinhaltet, liegt in der Verwendung indirekter Sprechakte. Äußerungen wie „Pass gut auf dich auf“ oder sogar „Hals und Beinbruch“ vermitteln weniger die entsprechende Verhaltensaufforderung als mehr ein „ich wünsche dir alles Gute“ und „ich bin besorgt um dich“. Dagegen beinhaltet ein „schön, dass du kurz vorbei kommst“ unter Umständen die Aufforderung, möglichst bald wieder zu gehen. Ein korrektes Verständnis bewertender und emotionaler Inhalte solcher indirekter Sprechakte ist sehr eng an prosodische Mittel und die Berücksichtigung des gesamten Äußerungskontextes gebunden. Hoch konventionalisierte indirekte Sprechakte und Idiome werden vermutlich lexikalisiert abgerufen (vgl. Sprenger et al., 1999) und lassen wenig Raum für Interpretationen. Allerdings kann selbst ein „Nice to see you“ durch einen entsprechend ärgerlichen Tonfall eine ganz andere Botschaft vermitteln als die konventionelle. Es sind hoch komplexe Verarbeitungsprozesse verbaler, paraverbaler und nonverbaler Informationen notwendig, um eine an-
692 gemessene Interpretation des Gemeinten zu erreichen. Das Verständnis für indirekte Aufforderungen scheint wie das Humorverständnis bei Patienten mit linkshemisphärischen sowie rechtshemisphärischen Störungen betroffen (McDonald & van Sommers, 1993; Stemmer et al., 1994; Weylman et al., 1989). Als Erklärungsmöglichkeit für eine rechtshemisphärische Beeinträchtigung wird diskutiert, dass die Patienten dem Kontext der Äußerung, hier also Zielen und Motiven des Kommunikationspartners in der Gesamtsituation, weniger Aufmerksamkeit schenken. Eine andere Erklärung beinhaltet die Annahme einer reduzierten Fähigkeit zur gleichzeitigen Aktivierung verschiedener Interpretationsalternativen. Die Annahme eines solchen Defizits würde sowohl inferentielle Probleme (Brownell et al., 1986; Brownell & Martino, 1998), Probleme mit semantischer Ambiguität (Burgess & Simpson, 1988; Brownell et al., 1990; Chiarello, 1985) wie auch Probleme mit syntaktischen Reinterpretationen (De Vreese et al., 1996; Kriege et al., 1998; Peterson, 2000) dieser Patientengruppe erklären können. 2.4. Zusammenfassung Auf den verschiedenen sprachsystematischen Ebenen sind jeweils relevante Informationen über die Sprecheremotionen und -bewertungen zu entnehmen. Von besonderer Relevanz erscheinen die emotionale prosodische Kontur, lexikalisch-semantische Wortbedeutungen, textuelle Inferenzen sowie pragmatische Mittel. Im Rahmen des erweiterten Modells interagierender kognitiver Subsysteme nach Barnard und Teasdale (1993; vgl. auch Kap. 41) werden prosodische Merkmale nicht ausschließlich über das sprachliche System ausgewertet, sondern erreichen auch direkt das affektiv-regulative System und die konzeptuelle Repräsentation. Sie werden mit Eindrücken aus anderen Kanälen (Gesichtsausdruck, Haltung, Gestik) verrechnet und ermöglichen vermutlich schnellere und verhaltensrelevantere Interpretationen als dies Ergebnisse der semantisch-propositionalen Analyse können. Es besteht leider noch weitgehend Unklarheit über Verrechnungsmechanismen konfligierender Informationen, über automatische vs. strategische Rezeptionskomponenten und über den kommunikativen Gebrauch solcher Interpretationen. Zur direkten Bezeichnung von Emotionen verfügen Sprachen über ein unterschiedlich
IV. Sprachrezeption
breites Vokabular. Es finden sich aber vermutlich in jeder Sprache Bezeichnungen für sogenannte Basis- oder Primäremotionen. Allerdings besteht bis heute keine Einigkeit darüber, welche Emotionen oder emotionalen Zustände hierzu zu zählen sind und wie sie sich definieren lassen. Emotionsbegriffe fokussieren in unterschiedlichem Maße direkt auf das affektive Erleben oder auf andere Komponenten der Emotion (z. B. Verhaltensweisen, Erregungskomponente, auslösende Ereignisse, Ziele). Sie lassen sich zu Clustern zusammenfassen, die sich gewöhnlich um Bezeichnungen für Basisemotionen gruppieren. Andererseits sind Emotionsbegriffe wie auch andere Begriffe emotionaler Relevanz auf drei universalen Dimensionen anzuordnen. Die Dimensionen der Valenz und der Aktivierung/Erregung werden sehr übereinstimmend berichtet, für eine dritte Dimension der Potenz, Power oder auch Kontrolle findet man hingegen stärker variierende Bezeichnungen (vgl. Caffi & Janney, 1994). Emotionsbegriffe sind verknüpft mit Emotionskonzepten und emotionsrelevanten Schemata im Implikationalen System. Aber auch die sprachlichen Dimensionen der Valenz, Aktivierung und Potenz mögen Entsprechungen in der Konzeptualisierung von Objekten und Ereignissen haben. Nur wenn über sprachliche Verarbeitung und semantisch-propositionales Verstehen auch die entsprechenden Konzepte aktiviert werden, wird es zu einem empathischen Miterleben oder zu entsprechend assoziierten Emotionen beim Rezipienten kommen. Eine psycholinguistische Modellierung des Verstehens emotionaler Inhalte aus Texten und im Diskurs steht derzeit noch sehr in den Anfängen. Es scheint sich um implizites Wissen zu handeln, das sehr schnell, spontan und verlässlich abgerufen werden kann, das jedoch komplexe Verrechnungs- und Abgleichsprozesse erfordert. Schon für das emotionale Verständnis längerer Äußerungen sind Prozesse im sprachverarbeitenden System mit Modellierungen und komplexen Konzepten im Implikationalen System zu koordinieren. Propositional-semantisches und episodisches Wissen bestimmt die Inhalte und ihre Bewertungen, die letztlich aus einem Text verstanden und gespeichert werden. Dabei scheinen emotionale Informationen spontan inferiert zu werden. Stehen die Äußerungen im Zusammenhang mündlicher direkter Kommunikation, so kommt die Auswertung prosodischer und
52. Sprachrezeption und emotionale Bewertung
fazialer Muster hinzu sowie die Wahrnehmung der die Kommunikation strukturierenden Hinweisreize (z. B. Interjektionen). Wie unter anderem Patientenstudien nahe legen, verläuft die Rezeption dieser Stimuli vermutlich teilweise unabhängig von sprachverarbeitenden Modulen. Es wird prozedurales Wissen über die Diskursgestaltung aktiviert, und es werden emotionale Bewertungen im Implikationalen System sowie im affektiv-regulativen System angestoßen. Ein integratives Rezeptionsmodell für die komplexen Verrechnungsprozesse dieser unterschiedlichen Informationen, die zudem die emotionalen Reaktionen auf das Wahrgenommene berücksichtigen, existiert derzeit leider noch nicht.
3.
Stimmungen und Sprachverstehen
Im folgenden Abschnitt soll nun genauer beleuchtet werden, in wie weit die Prozesse der sprachlichen Rezeption, speziell der Rezeption emotionaler Inhalte, durch die vorliegende Emotionalität bzw. die Stimmung des Rezipienten verändert werden. Der Einfluss von Stimmungen und Emotionen auf Sprachverstehensprozesse ist im Rahmen allgemeinerer Ansätze zur Beziehung zwischen Stimmungen und Gedächtnis (vgl. Ellis & Moore, 1999) und zu stimmungsabhängigen Aufmerksamkeitsprozessen (vgl. Mathews & Wells, 1999) zu betrachten, denn es gibt einerseits zur Emotion und Sprachverarbeitung keine ausgeprägte eigene Forschungstradition, andererseits arbeiten die meisten der Experimente, die Stimmungseinflüsse auf kognitive Prozesse untersuchen, mit sprachlichem Material. Generell sind Emotionseinflüsse zu unterscheiden, die qualitätsabhängig kognitive Verarbeitungsprozesse modifizieren, von Einflüssen, die unabhängig von der inhaltlichen Konnotation die Verarbeitungsgeschwindigkeit, Effizienz oder Intensität verändern. Der Schwerpunkt der Forschung liegt jedoch auf den qualitätsabhängigen Einflüssen. Ein Großteil der empirischen Untersuchungen zur emotionalen Variation kognitiver Prozesse wurde durch den von Bower (1981) postulierten Ansatz initiiert. Sein Verdienst liegt in der Bereitstellung eines Paradigmas zur Untersuchung von zustandsabhängigen kognitiven Verarbeitungsprozessen, indem er eine Integration von Emotionen in die damals Verbreitung findenden propositio-
693 nalen Netzwerkmodelle (Collins & Quillian, 1969; Anderson & Bower, 1973; Anderson, 1976) vorsah und damit Effekte emotionsabhängiger Gedächtnis- und Verarbeitungsleistungen vorhersagen konnte. Im Wesentlichen wurden drei Hypothesen verfolgt, die unter den Bezeichnungen „state-dependent recall“, „recall congruency“ und „encoding congruency“ (vgl. z. B. Bower et al., 1978; Singer & Salovey, 1988; Morris, 1989) diskutiert werden, wobei die beiden letztgenannten nicht immer sauber zu trennen sind und oft unter dem Thema „mood and memory“ zusammengefasst werden (Ellis & Moore, 1999). Die Befundlage ist für die drei Hypothesen sehr heterogen. Für den erstgenannten Effekt, der hinsichtlich sprachverarbeitender Prozesse ohnehin weniger Relevanz besitzt, werden eher dürftige empirische Evidenzen berichtet (vgl. Singer & Salovey, 1988; Morris, 1989; Eich, 1995; Parkinson et al., 2000). So beschränken sich die weiteren Darstellungen auf Fragen im Zusammenhang mit stimmungskongruenten Verarbeitungsprozessen (SKE). Da die meisten der zitierten Untersuchungen Einflüsse der generellen Stimmung beobachten und nicht Emotionen, wird entsprechend im Folgenden von Stimmungen gesprochen. Hinsichtlich dieser Unterscheidung ist allerdings festzustellen, dass die beiden Formen affektiven Erlebens in älteren Studien zum Themenbereich nicht immer hinlänglich differenziert werden. Es ist jedoch nicht unbedingt davon auszugehen, dass Studien vergleichbare Ergebnisse liefern, unabhängig davon, ob relativ leichte und kurz anhaltende Formen emotionalen Erlebens durch ein Ereignis induziert werden (meist Freude, Ärger, Überraschung oder durch Erfolg und Misserfolg bedingte Emotionen), ob stimmungsinduzierende Verfahren (Hypnose, Autosuggestion durch Velten-Technik oder Ansehen von Videos) eingesetzt oder aktuell vorliegende Stimmungen zum Teil pathologischer Intensität (Depression, Angst) betrachtet werden. Eine gewisse Heterogenität der Befunde lässt sich also vermutlich auf diese methodischen Unterschiede zurückführen. In ihrer einfachsten Form sagt die Hypothese stimmungskongruenter Verarbeitung voraus, dass Material der entsprechenden Konnotation und Qualität „besser“ verarbeitet werden sollte als affektiv neutrales Material oder Material anderer Konnotation. Im Folgenden wird genauer unterschieden zwischen Aufgaben, die (1) Aufmerksamkeitsleis-
694 tungen und Zugriffszeiten für sprachliches Material emotionaler Tönung prüfen, und solchen, die (2) eine elaboriertere semantische und/oder konzeptuelle Verarbeitung nahe legen, welche gewöhnlich mit besseren Gedächtnisleistungen einhergehen sollte. 3.1. Aufmerksamkeitsleistungen und lexikalischer Zugriff In diesem Abschnitt sollen kategoriale Emotionseinflüsse auf Prozesse besprochen werden, die im weitesten Sinn den lexikalischen Zugriff und frühe Phasen semantisch-propositionaler Aktivierung betreffen. Berücksichtigt werden vorwiegend Befunde zu Angst, Niedergeschlagenheit bzw. Depression und zu positiver Stimmung bzw. Freude, die gewöhnlich nicht näher spezifiziert wird. Für einfache lexikalische Entscheidungsaufgaben und Experimente zur Worterkennung liegen sehr heterogene Befunde vor. Bestätigende Ergebnisse lassen sich z. B. bei Postman und Brown (1952) finden, die niedrigere Wahrnehmungsschwellen positiver und negativer Wörter nach induziertem Erfolgsvs. Misserfolgserleben berichten. Small (1985; Small & Robins, 1988) konnte unter induzierter depressiver Stimmung (Velten-Technik) relativ schnellere Zugriffszeiten für negatives (bzw. insgesamt für emotional relevantes) Material zeigen. Niedenthal et al. (1997) fanden Kongruenzeffekte in einer lexikalischen Entscheidungsaufgabe unter musikinduzierter positiver vs. depressiver Stimmung. Ähnliche Effekte berichten Matthews, Pitcaithly und Mann (1995) für eine lexikalische Entscheidungsaufgabe bei negativer vs. positiver Stimmung normaler Variation. Andererseits führte schon Bower selbst 1987 in einem Überblick eine Reihe von (eigenen und zitierten) Studien an, die nicht den erwarteten präaktivierenden Einfluss der untersuchten Emotionen auf Worterkennungszeiten für relatierte Begriffe zeigen konnten. Möglicherweise ist also eine Herabsetzung der Wahrnehmungsschwelle für stimmungskongruent konnotiertes Wortmaterial auf der Ebene des Lexems unter depressiver vs. positiver Stimmung ein relativ schwacher Effekt. Werden sprachliche Aufgaben verwendet, die über den lexikalischen Zugriff hinaus eine tiefere semantische und konzeptuelle Verarbeitung erfordern (vgl. zur semantischen Verarbeitung im Rahmen der lexikalischen Entscheidungsaufgaben z. B. Neumann, 1990), so sind Kongruenzeffekte immer dann zu erwarten, wenn entsprechende Inhalte beim Pro-
IV. Sprachrezeption
banden durch aktuelle Emotionen und Stimmungen präaktiviert sind. Unter positiver Stimmung lässt sich der SKE dann als schnellerer Zugriff auf entsprechende Bedeutungen relativ verlässlich nachweisen. So arbeitete z. B. Derryberry (1988) mit induzierten Emotionen über eine Variation von möglicher Verlust- oder Gewinnerwartung und fand schnellere Kategorisierungszeiten für positiv konnotierte Wörter unter positiver Erwartung. Hielscher (1996, Exp. 1 und 2) untersuchte Lesezeiten affektiv getönter Nominalphrasen im Rahmen normaler Textverstehensprozesse und fand schnelleres Wortverstehen für Phrasen positiver Valenz unter positiver Stimmung (Extremgruppen normaler Stimmungsvariation). Für depressive Stimmung lassen sich weniger klare Kongruenzeffekte berichten. In eigenen Untersuchungen (Hielscher, 1996) konnte der SKE als schnellere Verarbeitungszeit für affektiv konnotierte Phrasen für eine studentische Population mit aktuell erhöhten Werten depressiver Stimmung (Bf-S, nicht BDI) nachgewiesen werden. Er zeigte sich in kürzeren Lesezeiten für diejenigen Textvarianten, in denen durch einfache Adjektivoder Adverbvariation allein die Konnotation eines Objektes oder Ereignisses stimmungskongruent verändert war. Deutliche SKEs zeigten sich auch für Aufmerksamkeitsleistungen im Rahmen von Interferenzaufgaben, in denen Distraktoren emotionaler Valenz ignoriert werden sollen. Für klinische Stichproben mit akuter depressiver Symptomatik zeigten Gotlib und Mitarbeiter (Gotlib & Cane, 1987; Gotlib & McCann, 1984) im Rahmen des emotionalen Stroop-Paradigmas verlangsamte Benennzeiten für diejenigen Wörter, deren semantischer Inhalt negative Konnotation aufwies. Der Effekt zeigte sich jedoch nicht mehr für die klinische Stichprobe nach dem Abklingen der Symptomatik oder für induzierte depressive Stimmung. Auch lassen sich keine Effekte für präattentive Auswirkungen negativer Wörter unter depressiver Stimmung nachweisen (MacLeod & Rutherford, 1992). Für ängstliche Stimmung und Angststörungen zeigen sich die zu erwartenden angstkongruenten Verzerrungen auf den frühen Verarbeitungsstufen besonders deutlich. So fanden z. B. Foa und McNally (1986) mit einer Aufgabe zum dichotischen Hören bei Phobikern höhere Entdeckungsraten angstbesetzter Wörter im nichtbeachteten Kanal. Auch in einfachen Entscheidungsaufgaben fanden sich für
52. Sprachrezeption und emotionale Bewertung
Patienten mit generalisierten Angststörungen (GAD) neben häufig insgesamt verlangsamten Reaktionszeiten relativ schnellere Reaktionen bei stimmungskongruenten Items (vgl. Mathews et al., 1986, 1990). Betrachtet man Aufmerksamkeitsprozesse bei Angst, so ergibt sich sehr konsistent der Effekt, dass hoch ängstliche Personen überproportional große Interferenz bei angstrelatierten Wörtern zeigen (vgl. MacLeod, 1999: 449). In der emotionalen Stroop-Aufgabe ergibt sich bei Probanden mit generalisierten Ängsten (GAD) eine stimmungskongruent verzerrte selektive Aufmerksamkeit für bedrohliche Items. Verschiedene Arbeiten spezifizieren diesen Befund sogar für spezifische Angststörungen auf das jeweilige angstbesetzte Thema (vgl. MacLeod, 1999). In Studien im Rahmen eines Signalentdeckungsparadigmas (dot-probe colour-naming task, siehe MacLeod, Mathews & Tata, 1986; Mogg, Mathews et al., 1991) erhielten die Probanden Wortpaare als Distraktoren visuell auf dem Bildschirm dargeboten. An beiden Positionen gleichzeitig erscheint dann ein farbiger Punkt, wobei die Probanden nach dem zuerst erschienenen Punkt gefragt sind. Die Wahrscheinlichkeit der Nennung des Punktes an der emotional besetzten Position wird hier als kritisches Maß ausgewertet. Mathews und Mitarbeiter fanden im Rahmen dieser Aufgaben eine selektive Bevorzugung angstbezogener Items schon bei sehr kurzen Darbietungslatenzen (Bradley et al, 1997), die automatische präattentive Aufmerksamkeitszuwendung auf bedrohliche Reize widerzuspiegeln scheint (vgl. McNally, 1995). Für diese automatischen Prozesse der Aufmerksamkeitszuwendung scheinen spezifische Inhalte (z. B. Spinnen) keinen besonderen Einfluss zu nehmen, sondern alle angstbezogenen Wörter wirken sich gleichermaßen aus (MacLeod & Rutherford, 1992). Zusammenfassend zeigt sich damit eine Vielzahl stimmungskongruenter Verarbeitungseffekte von positiver Stimmung, Depression und Angst auf frühe Aufmerksamkeits- und Wahrnehmungsprozesse für qualitativ entsprechende Inhalte, speziell für Wortbedeutungen. Erhöhte Angst- und Depressionswerte modifizieren jedoch die Verarbeitung auf verschiedenen Stufen (vgl. Mogg & Bradley, 1999: 163); sie betreffen jeweils eher automatische vs. strategische Komponenten, eher präattentive vs. späte Aufmerksamkeitskomponenten (für modell-
695 theoretische Überlegungen vgl. Matthews & Harley, 1996; Matthews & Wells, 1999). Ähnlich folgert Hielscher (1996), dass Depressivität eine besondere Schwierigkeit des sich Lösens von negativen Inhalten zu bedingen scheint, während das Angstsystem eine aktive Hinwendung zu potentiell bedrohlichen Inhalten steuert. 3.2. Konzeptuelle Elaboration und Bewertung Wie Hielscher (1996) argumentiert, lässt sich stimmungskongruente Verarbeitung nicht nur als schnellerer Zugriff und erhöhte Aufmerksamkeit für relatierte Wörter verstehen, sondern auch als tiefere Elaboration der emotional relevanten Informationen. Die Anknüpfung neuer stimmungskongruenter Informationen an möglichst viele assoziierte Wissensaspekte und episodische Repräsentationen lassen einen späteren Abruf dieser Informationen zuverlässiger und schneller gelingen. Eine besonders elaborierte Verarbeitung von Informationen wird aufgabenspezifisch dann erforderlich, wenn explizite Bewertungen oder Klassifikationen von Probanden gefordert sind. Aber auch schon im alltäglichen sinnentnehmenden Lesen sollten kohärenzstiftende Prozesse auf der Textebene implizite und explizite Inferenzen erforderlich machen, die die Verknüpfungsbasis im propositionalen System stimmungskongruent verschieben und ein entsprechend gefärbtes, elaborierteres mentales Modell entstehen lassen. Für studentische Rezipienten positiver und depressiver Stimmung normaler Variation fand Hielscher (1996), dass diejenigen Protagonisten eines Textes jeweils stärker fokussiert wurden, die stimmungskongruent beschrieben waren. Satzlesezeiten für positive vs. negative Personenbeschreibungen zeigten sich nicht verlängert, wenn einfach sinnentnehmend gelesen werden sollte (Hielscher, 1996, 2001), aber falls nachfolgende Urteile über die beschriebene Person erforderlich waren, widmeten depressive Probanden den negativen Informationen mehr Zeit (Forgas & Bower, 1987; Hielscher, 2001). Schnellere Urteilszeiten für die stimmungskongruente Entscheidung fanden Forgas und Bower (1987) nur unter positiver Stimmung. Die Urteile selbst fielen in beiden Gruppen entsprechend verzerrt aus. Für depressive Stimmung ist die Befundlage hierzu jedoch nicht eindeutig. Generell scheinen Bewertungsinhalte unter depressiver Stimmung
696 dann negativer auszufallen, wenn die eigene Person und die eigenen Fähigkeiten eingeschätzt werden sollen (z. B. Nasby, 1994). Eine solche Sicht bestätigt schon die klassischen Ansätze depressiver Störungen von Beck (1976) und Ellis (1962). Aber z. B. Alloy und Abramson (1979, 1988) und Miller & Moretti (1988) weisen darauf hin, dass depressive Personen ihre Fähigkeiten und Eigenschaften eher angemessen und ausgeglichen beurteilen, während eine positive Stimmung allgemein eine Verzerrung in optimistisch positiver Richtung nahelegt. Nach Isen (1999) wird eine solche zu positive Bewertung besonders deutlich in Bezug auf konnotativ neutrale Items (Bilder, Wörter etc.). Frühe Studien zeigen übereinstimmend die Tendenz hoch ängstlicher Probanden, negativen Ereignissen in ihrer Zukunft eine erhöhte Wahrscheinlichkeit zuzuschreiben. Sie bewerten das Risiko, in einen Unfall verwickelt zu sein, überfallen zu werden, mit dem Flugzeug abzustürzen oder Ähnliches als deutlich höher als nicht ängstliche Personen (z. B. Wright & Mischel, 1981; Johnson & Tversky, 1983). Allerdings wurde in den Untersuchungen häufig nicht deutlich, ob es sich um Effekte handelt, die auf Interpretationstendenzen in der Rezeptionsphase oder auf Abrufund Antworttendenzen zurückzuführen waren (vgl. Morris, 1989: 99). Im Rahmen dieses Überblicks interessieren vorwiegend die Studien zu Interpretationen in der Rezeptionsphase. In basalen Experimenten ließen Mathews et al. (1989) und Mogg et al. (1994) Patienten mit Angststörungen auditiv wahrgenommene Wörter aufschreiben. Für Homophone mit ambiger Bedeutung schrieben die Patienten häufiger die angstrelatierte Form des gehörten Wortes auf. MacLeod und Cohen (1993) gaben ihren Probanden Texte vor, die nach einem konnotativ ambigen Satz („The two men discussed the best way to blow up the dinghy.“), der sowohl neutral als auch negativ verstanden werden konnte, mit einer Information fortgeführt wurde, die entweder neutral oder angstbezogen war (z. B. „they decided to use a pump.“ vs. „… bomb.“). Nur hoch ängstliche Probanden (trait anxiety) zeigten relativ kürzere Lesezeiten für den angstbezogenen Folgesatz, was die Autoren als Hinweis auf eine negative Interpretation des ambigen Satzes deuten. Allerdings könnten hier auch andere Erklärungen greifen: die Rezipienten haben schnelleren Zugriff auf die angstbezogenen
IV. Sprachrezeption
Wörter im kritischen Satz oder die Reinterpretation des ambigen oder neutralen Modells gelingt den hoch ängstlichen Probanden besser. Calvo et al. (1994) und Hirsch (1995) konnten jedoch auch ähnliche voraktivierende Effekte im Rahmen einer lexikalischen Entscheidungsaufgabe zeigen, die entsprechenden ambigen Textpassagen direkt folgte. Vergleichbare Ergebnisse berichten Richards und French (1992) für ambige Wort-Primes. Eine erhöhte Angstprädisposition scheint jedoch nicht notwendigerweise zu entsprechenden Effekten zu führen: einige Befunde legen nahe, dass nur bei zusätzlich erhöhtem aktuellem Angststatus ein Kongruenzeffekt der beschriebenen Form zu finden ist (MacLeod, 1990). Während auf Ebenen der ersten Interpretation und Bewertung eindeutig angstbezogene Verzerrungen nachweisbar sind, finden sich für einen stimmungskongruent verzerrten Gedächtniseffekt bei erhöhter (Trait-) Angst keine eindeutigen Belege. Von AngstPatienten werden z. B. nicht gehäuft angstbezogene autobiographische Inhalte reproduziert (vgl. MacLeod, 1999). Wenn Texte wiedergegeben werden sollen, so sind die angstrelatierten Informationen bei freier Wiedergabe eventuell überproportioniert enthalten, bei einer expliziten Aufforderung zu einem Perspektivenwechsel und bei Nachfrage konnten die Probanden die übrigen Informationen jedoch ebenfalls reproduzieren. 3.3. SKE und allgemeine Einflüsse von Stimmungen auf kognitive Prozesse Abschließend bleibt festzuhalten, dass positive Stimmung, depressive Stimmung und Angst Einfluss auf unterschiedlichen Stufen der Verarbeitung sprachlichen Materials nehmen (können). Eine abschließende Aussage zum Effekt stimmungskongruent verzerrter Verarbeitung emotionalen sprachlichen Materials ist damit nicht unabhängig von der emotionalen Qualität zu formulieren. Betrachtet werden gewöhnlich milde positive vs. negative Stimmungen im Sinne zufriedener, heiterer oder positiv überraschter Stimmung vs. trauriger Verstimmtheit bis hin zu klinischer Depression und ängstlicher Stimmung bzw. Angststörungen. Für diese drei Qualitäten werden die Ergebnisse zum Stimmungskongruenzeffekt im Folgenden kurz zusammengefasst und durch generelle Tendenzen des Einflusses auf kognitiv-sprachliche Prozesse ergänzt. Andere Basisemotionen (z. B. Ärger) und Stimmungen fanden bisher kaum
52. Sprachrezeption und emotionale Bewertung
Berücksichtigung und werden hier nicht weiter thematisiert. Positive Stimmung ⫺ SKE: Positive Stimmung fazilitiert beim reinen Sprachverstehen möglicherweise schon den Zugriff auf entsprechende Lexeme und Lemmata. Gesichert scheint ihr positiv verzerrender Einfluss auf die Interpretation neutraler Inhalte. ⫺ Generelle Einflüsse: Für positive Stimmung wurde darüber hinaus immer wieder ein generell förderlicher Effekt für Problemlöseprozesse, Kreativität und Assoziativität aufgezeigt (vgl. Abele, 1995; Isen, 1999), negative Wirkungen auf die Anstrengung und Sorgfalt bei der Aufgabenbearbeitung sind umstritten (vgl. Isen, 1999; Morris, 1989). Depressive Stimmung ⫺ SKE: Depressive Stimmung und Angst resultieren beide in einer erhöhten Aufmerksamkeit für kongruentes Wortmaterial. Allerdings wirkt sich Depression erst bei längerer Darbietungzeit aus, so dass die Aufmerksamkeit selektiv auf negative und bedrohliche Inhalte gerichtet bleibt. Es wird keine frühe automatische Bevorzugung dieser Informationen getriggert. Depressive Stimmung bewirkt eine Fokussierung und elaboriertere Verarbeitung negativer Informationen im Text, die eventuell später zu negativ verzerrten Erinnerungen und Urteilen führt. ⫺ Generelle Einflüsse: Für depressive Störungen wird häufig eine generelle Verlangsamung kognitiver Prozesse berichtet (Abele, 1995), die unter aktueller depressiver Stimmung jedoch nicht notwendigerweise auftritt (vgl. Hielscher, 1996). Auch nennt Schwarz (1990) in einem Überblick beeinträchtigte Gedächtnis- und Verarbeitungskapazitäten; in Assoziationsaufgaben werden eher enge Kategorien gewählt, sprachliches Material wird auf Details hin analytisch ausgerichtet und elaboriert. Angst ⫺ SKE: Angst resultiert wie depressive Stimmungen in einer erhöhten Aufmerksamkeit für kongruentes Wortmaterial. Allerdings wirken sich Angststörungen und aktuell vorliegende Ängste schon bahnend auf frühe präattentive und automatische attentionale Prozesse aus.
697 Angst führt auch zu einer überproportionalen Gewichtung bedrohlicher Aspekte bei der Wiedergabe eines Textes, aber nicht notwendigerweise zu selektivem Einspeichern. Bei emotional mehrdeutigen Lesarten für Sätze (und Homophone, z. B. Schlange, Spion) zeigen hoch ängstliche Personen eine vorzeitige Disambiguierung und favorisieren die bedrohliche Version. ⫺ Generelle Einflüsse: Während früher kein eindeutiger Einfluss von Angst auf die Kapazität des Kurzzeitgedächtnisses angenommen wurde, zeigen neuere Untersuchungen, dass auch Angst und Stress generell eher kapazitätseinschränkend wirken (vgl. Darke, 1988). Auch bewirken Angstinduktion und Stress vereinfachte Strategien der Gruppierung von Material sowie globalere, aber nicht unbedingt ineffektivere Kategoriebildungen (Keinan et al., 1991). Da die meisten der zitierten Studien nicht eigentlich zur Überprüfung des Einflusses von Emotionen auf Sprache angelegt waren, fehlen Untersuchungen zu einer Reihe von interessanten Fragstellungen, wie z. B. Auswirkungen der emotionalen Befindlichkeit auf die Prosodierezeption, Interpretation bestimmter grammatischer Strukturen, Verstehen indirekter Sprechakte etc. Auch sollte genauer untersucht werden, wie bestimmte sprachliche Rezeptionsprozesse und Inhalte auf die emotionale Befindlichkeit rückwirken, ein Punkt der im Ausblick noch kurz angesprochen werden soll. Abschließend sind einige kritische Anmerkungen und Diskussionspunkte zu nennen: (1) Sind die gefundenen Unterschiede auf systeminhärente Funktionsweisen zurückzuführen, so dass Emotionszustand X immer die kognitive Funktion Y aktiviert, oder handelt es sich um strategische Komponenten, die in gewisser Weise modifizierbar sind? Diese Frage ist z. B. für Angst zu stellen. Für die attentionale Hinwendung auf angstrelatierte Inhalte bedeutet die erste Annahme, dass die Emotion / der emotionale Zustand entsprechende Verarbeitungsweisen notwendig bedingt, letztere Annahme bietet Raum für therapeutische Spekulationen und Versuche (vgl. MacLeod, 1999). Für depressive Stimmung wird in diesem Zusammenhang der sogenannte Stimmungsinkongruenzeffekt relevant (Ströhm, 1993), Inkongruenz also als Bevorzugung positiver Stimuli, was einige Autoren als „mood re-
698
IV. Sprachrezeption
pair“ bezeichnen (vgl. Morris, 1989; Parkinson et al., 2000). Es wäre hier genauer zu untersuchen, was die Personen auszeichnet, die „mood repair“ als Stimmungsregulierung nutzen und wie man entsprechende Strategie therapeutisch nutzbar machen kann. (2) Lassen sich Forschungsfelder eigentlich verlässlich vergleichen, wenn für Angst weitgehend auf Patientenpopulationen pathologisch erhöhter (Trait- oder State-)Angst zurückgegriffen wird, während positive Stimmung in milder Form induziert oder in der vorhandenen Variation gemessen wird? Für niedergeschlagene Stimmung allein existiert meist ein Spektrum von normaler Variation über Induktion bis hin zur klinischen Depression.
4.
Fazit und Ausblick
Emotional relevante Informationen werden in der kommunikativen Situation durch sehr unterschiedliche verbale, paraverbale und nonverbale Mittel transportiert, deren Wahrnehmung und Verrechnung leider bislang in keinem umfassenden Sprachverarbeitungsmodell dargestellt werden kann. Entsprechend eklektisch müssen die Ausführungen zu den unterschiedlichen kommunikativen Mitteln anmuten. Theoretische Vorstellungen zur Rezeption prosodischer Muster, zur Speicherung und Verarbeitung von Emotionsbezeichnungen und zum inferenziellen Verstehen emotionaler Inhalte aus Texten und im Gespräch wurden kurz skizziert. Die prosodische Information bildet eine Informationsquelle für die Einschätzung von Basisemotionen, die eine gewisse Unabhängigkeit von den sprachlichen Inhalten und Formen aufweist. Es wurde jedoch erörtert, dass diese Informationen in der Alltagskommunikation immer mit mimischen und propositionalen Informationen verrechnet werden und möglicherweise einen schwächeren Einfluss auf den Gesamteindruck ausüben als die beiden anderen Kanäle. Die verbalen Äußerungen werden über eine lexikalisch-semantische und morphosyntaktische Analyse ausgewertet, wobei zu letzterem Aspekt kaum Untersuchungen vorliegen. Im einfachsten Fall werden Emotionen direkt angesprochen und zum Thema einer Äußerung gemacht, so dass wenig inferentielle Leistungen vom Rezipienten erbracht werden müssen, sondern direkt auf lexikalische Inhalte zugegriffen werden kann. Dieser
Fall ist allerdings eher selten. Es wurde dargestellt, wie prosodische, semantisch-propositionale und konzeptuelle Informationen hinsichtlich ihrer emotional relevanten Aspekte verarbeitet und koordiniert werden müssen, um zu einer integrierten affektiven Bewertung des Dargestellten und der Sprecherhaltung zu kommen. Die Frage nach den jeweils ausgelösten Emotionen des Rezipienten wurde hier ausgespart, da es zu diesem Aspekt kaum Untersuchungen gibt, die über den Nachweis einfacher Stimmungsinduktionseffekte durch sprachliches Material (z. B. Velten, 1968) hinausgehen. Durch verbale (Auto-)Suggestion kann die entsprechende Stimmung induziert werden, speziell wenn die Rezipienten dazu aufgefordert werden, sich in die beschriebenen Ereignisse hineinzuversetzen. In einer kommunikativen Situation, in der guter Rapport zwischen Sprecher und Hörer besteht und beide stark involviert sind, sollte es ähnlich zu empathischem Miterleben dargestellter Bewertungen und Emotionen kommen (z. B. Fiehler, 1990). Allerdings können auch ganz andere Emotionen im Rezipienten evoziert werden, als beim Sprecher vorliegen. So kann wahrgenommene Wut zu Angstgefühlen beim Rezipienten führen, wahrgenommene Angst vor der Person des Rezipienten hingegen kann Zufriedenheit, Stolz oder auch Scham auslösen, je nachdem, welche sozialen Normen für den Rezipienten relevant sind. In jedem Fall muss zwischen den wahrgenommenen Emotionen und dem emotionalen Erleben des Rezipienten deutlich getrennt werden. Während dies z. B. in dem sehr einflussreichen Modell Bowers (1981) schwer möglich war, ließ sich diese Tatsache im Modell von Teasdale und Barnard (1993) wie folgt skizzieren: Die Rezeption sprachlicher Äußerungen („Ich bin sehr traurig.“ oder „Ich freue mich sehr, dich zu sehen.“), die einen Emotionsausdruck enthalten, stoßen im Propositionalen System die entsprechenden semantischen Repräsentationen an. Im ersten Beispiel handelt es sich um die Beschreibung eines emotionalen Zustandes „traurig“, zu dem entsprechendes Wissen aktiviert werden kann. Im zweiten Beispiel existiert ebensolches Wissen zum Begriff „sich freuen“. Hier kommt jedoch Wissen über den häufig formelhaft verwendeten Ausdruck hinzu, so dass eine emotionale Interpretation weniger nahe liegt. In beiden Fällen werden über die semantische Repräsentation konzeptuelle Wissensrepräsentationen aktiviert. Handelt
52. Sprachrezeption und emotionale Bewertung
es sich hierbei um Repräsentationen, die relevante Ereignisse für das eigene Erleben betreffen, so können auch die entsprechenden Emotionen aktiviert werden. Welche Inhalte dies sind, hängt zum Teil von der individuellen Lerngeschichte ab. Wie diese stilistisch aufbereitet sein müssen, um ein möglichst lebhaftes emotionales Mitempfinden zu erreichen, wurde in dieser Arbeit ebenfalls unberücksichtigt gelassen, da es sich hierbei um ein ganz eigenständiges Forschungsgebiet der Literaturwissenschaft handelt. Insgesamt ist festzuhalten, dass die Rezeption emotionaler Inhalte sprachlicher Äußerungen noch wenig erforscht ist. Ob sie immer so verlässlich funktioniert, wie wir gemeinhin annehmen, sei jedoch dahingestellt.
5.
Literatur
Abele, A. (1995). Stimmung und Leistung. Göttingen: Hogrefe. Ackermann, H., Hertrich, I. & Ziegler, W. (1993). Prosodische Störungen bei neurologischen Erkrankungen: Eine Literaturübersicht. Fortschritte in der Neurologie und Psychiatrie, 61, 241⫺253. Alloy, L. B. & Abramson, L. Y. (1979). Judgement of contingency in depressed and nondepressed students: Sadder but wiser? Journal of Experimental Psychology: General, 108, 441⫺485.
699 Bonebright, T. L., Thompson, J. L. & Leger, D. W. (1996). Gender stereotypes in the expression and perception of vocal affect. Sex Roles, 34, 429⫺445. Borod, J. C. (1992). Interhemispheric and intrahemispheric control of emotion: A focus on unilateral brain damage. Journal of Consulting and Clinical Psychology, 60, 339⫺348. Borod, J. C. & Koff, E. (1989). The neuropsychology of emotion: Evidence from normal, neurological, and psychiatric populations. In E. Perceman (Ed.), Integrating theory and practice in clinical neuropsychology (pp. 175⫺215). Hillsdale N.Y.: Erlbaum. Borod, J. C., Bloom, R. L. & Haywood, C. S. (1998). Verbal aspects of emotional communication. In M. Beeman & C. Chiarello (Eds.), Right hemisphere language comprehension: Perspectives from cognitive neuroscience (pp. 285⫺307). Mahwah, N.J.: Lawrence Erlbaum. Borod, J. C., Welkowitz, J., Alpert, M., Brozgold, A., Martin, C., Peselow, E. & Diller, L. (1990). Parameters of emotional processing in neuropsychiatric disorders: conceptual issues and battery of tests. Journal of Communication Disorders, 23, 247⫺271. Bower, G. (1981). Mood and memory. American Psychologist, 36, 129⫺148. Bower, G. (1987). Commentary on mood and memory. Invited essay. Behaviour Research and Therapy, 25, 443⫺455.
Alloy, L. B. & Abramson, L. Y. (1988). Depressive realism: Four theoretical perspectives. In L. B. Alloy (Ed.), Cognitive processes in depression (pp. 223⫺265). New York: Guilford.
Bowers, D., Blonder, L. X. & Heilman, K. M. (1991). The Florida Affect Battery Manual. Manuskript am Center for Neuropsychological Studies, University of Florida, Gainsville FL.
Anderson, J. R. & Bower, G. H. (1973). Human associative memory. Washington: Winston.
Bradley, B. P., Mogg, K. & Lee, S. (1997). Attentional biases for negative information in induced and naturally occurring dysphoria. Behaviour Research and Therapy, 35, 911⫺927.
Averill, J.R. (1975). A semantic atlas of emotional concepts. Catalog of Selected Documents in Psychology, 5, 330. Battacchi, M. W., Suslow, Th. & Renna, M. (1996). Emotion und Sprache. Frankfurt: Lang. Beck, A. T. (1976). Cognitive therapy and the emotional disorders. New York: International Universities Press. Begleiter, H. & Platz, H. (1969). Cortical evoked potentials to semantic stimuli. Psychophysiology, 6, 91⫺100. Bihrle, A., Brownell, H., Powelson, J. & Gardner, H. (1986). Comprehension of humorous and nonhumorous materials in left and right brain-damaged patients. Brain and Cognition, 5, 399⫺411. Bolinger, D. (1964). Intonation as universal. In Proceedings of the Ninth International Congress of Linguistics. Den Haag, NL: Mouton.
Breitenstein, C., Daum, I., Ackermann, H., Lütgehetmann, R. & Müller, E. (1996). Erfassung der Emotionswahrnehmung bei zentralvervösen Läsionen und Erkrankungen: Psychometrische Gütekriterien der „Tübinger Affekt Batterie“. Neurologie & Rehabilitation, 2, 93⫺101. Breßmann, T. (1997). Verständnis für verbalen und nonverbalen Humor nach unilateralen Hirnschädigungen. Überblick und neue Ergebnisse. In G. Rickheit (Hrsg.), Studien zur Klinischen Linguistik. Modelle, Methoden, Intervention (pp. 291⫺317). Opladen: Westdeutscher Verlag. Brownell, H. H. (1990). Appreciation of metaphoric alternative word meanings by left and right brain-damaged patients. Neuropsychologia, 28, 375⫺383.
700 Brownell, H. H. & Martino, G. (1998). Deficits in inference and social cognition: The effects of right hemisphere brain damage on discourse. In M. Beeman & C. Chiarello (Eds.), Right hemisphere language comprehension: Perspectives from cognitive neuroscience. Mahwah NJ: Erlbaum. Brownell, H. H., Michel, D., Powelson, J. & Gardner, H. (1983). Surprise but not coherence: Sensitivity to verbal humor in right-hemisphere patients. Brain and Language, 18, 20⫺27. Brownell, H. H., Potter, H. H., Bihrle, A. M. & Gardner, H. (1986). Inference deficits in right brain-damaged patients. Brain and Language, 27, 310⫺321. Bühler, K. (1934). Sprachtheorie. Die Darstellungsfunktion der Sprache. Jena: Fischer. Burgess, C. & Simpson, G. (1988). Cerebral hemispheric mechanisms in the retrieval of ambiguous word meanings. Brain and Language, 33, 86⫺103. Caffi, C. & Janney, R. W. (1994). Toward a pragmatics of emotive communication. Journal of Pragmatics, 22, 325⫺373. Calvo, M. G., Eysenck, M. W. & Estevaz, A. (1994). Ego-threat interpretative bias in test anxiety: On-line inferences. Cognition and Emotion, 8, 127⫺146. Cancelliere, A. E. B. & Kertesz, A. (1990). Lesion localization in acquired deficits of emotional expression and comprehension. Brain and Cognition, 13, 133⫺147. Cervantes, C. A. & Callanan, M. A. (1998). Labels and explanations in mother-child emotion talk: Age and gender differentiation. Developmental Psychology, 34, 88⫺98. Chiarello, C. (1985). Hemisphere dynamics in lexical access: Automatic and controlled priming. Brain and Language, 26, 146⫺172. Christianson, S.-A. & Engelberg, E. (1999). Organization of emotional memories. In T. Dalgleish & M. J. Power (Eds.). Handbook of cognition and emotion (pp. 211⫺227). Chichester: Wiley. Church, A. T., Katigbak, M. S., Reyes, J. A. S. & Jensen, S. M. (1998). Language and organisation of Filipino emotion concepts: Comparing emotion concepts and dimensions across cultures. Cognition and Emotion, 12, 63⫺92. Clark, J. & Yallop, C. (1990). An introduction to phonetics and phonology. Oxford, UK: Blackwell. Clore, G. L., Ortony, A, & Foss, M. A. (1987). The psychological foundations of the affective lexicon. Journal of Personality and Social Psychology, 53, 751⫺766.
IV. Sprachrezeption Collins, A. M. & Quillian, M. R. (1969). Retrieval time from semantic memory. Journal of Verbal Learning and Verbal Behavior, 8, 240⫺247. Crystal, D. (1987). The Cambridge Encyclopedia of Language. Cambridge: University Press. Dalgleish, T. & Power, M. J. (1999) (Hrsg.). Handbook of cognition and emotion. Chichester: Wiley. Darke, S. (1988). Anxiety and working memory capacity. Cognition and Emotion, 2, 145⫺154. Davidson, R. J. & Tomarken, A. J. (1989). Laterality and emotion: An electrophysiological approach. In F. Boller & J. Grafman (Eds.), Handbook of neuropsychology, Vol. 3 (pp. 419⫺441). Amsterdam: Elsevier. de Gelder, B. & Vroomen, J. (1996). Categorical perception of emotional speech. The Journal of the Acoustical Society, 100, 2818. de Gelder, B., Teunissen, J.-P. & Benson, P. (1997). Categorical perception of facial expressions: Categories and their internal structure. Cognition and Emotion, 11, 1⫺23. de Gelder, B., Vroomen, J. & Pourtois, G. (1999). Seeing cries and hearing smiles: Crossmodal perception of emotional expressions. In G. Aschersleben, T. Bachmann & J. Müsseler (Eds.), Cognitive contributions to the perception of spatial and temporal events (pp. 425⫺438). Amsterdam: Elsevier Science. Derryberry, D. (1988). Emotional influences on evaluative judgements: Roles of arousal, attention, and spreading activation. Motivation and Emotion, 12, 23⫺55. De Vega, M., Leon, I. & Diaz, J. M. (1996). The representation of changing emotions in reading comprehension. Cognition and Emotion, 10, 303⫺ 321. De Vreese, L. P., Neri, M. Rubich, S. & Salvioli, G. (1996). Grammatical ambiguity resolution in right hemisphere-damaged patients: Evidence from an insertion task. Aphasiology, 10, 801⫺814. Drescher, M. (1997). French interjections and their use in discourse. In S. Niemeier & R. Dirven (Eds.), The language of emotions: Conceptualization, expression, and theoretical foundation (pp. 233⫺246). Amsterdam: John Benjamins Publishing. Eich, E. (1995). Searching for mood dependent memory. Psychological Science, 6, 67⫺75. Ekman, P. (1999). Basic Emotions. In T. Dalgleish & M. J. Power (Eds.), Handbook of cognition and emotion (pp. 45⫺60). Chichester: Wiley. Ellis, H. C. & Moore, B. A. (1999). Mood and memory. In T. Dalgleish & M. J. Power (Eds.).
52. Sprachrezeption und emotionale Bewertung Handbook of cognition and emotion (pp. 193⫺210). Chichester: Wiley. Etcoff, N. L. (1989). Asymmetries in recognition of emotion. In F. Boller & J. Grafman (Eds.), Handbook of neuropsychology (Vol. 3) (pp. 363⫺382). New York: Elsevier. Fehr, B. & Russell, J. A. (1984). Concept of emotion viewed from a prototype perspective. Journal of Experimental Psychology: General, 113, 464⫺ 486. Fehr, B., Russel, J. A. & Ward, J. A. (1982). Prototypicality of emotions: A reaction time study. Bulletin of the Psychonomic Society, 20, 253⫺254. Feldman, L. (1995). Valence focus and arousal focus: Individual differences in the structure of affective experience. Journal of Personality and Social Psychology, 69, 153⫺166. Fiehler, R. (1990). Kommunikation und Emotion. Berlin: de Gruyter. Fischer, K. W., Shaver, P. R. & Carnochan, P. (1990). How emotions develop and how they organise development. Cognition and Emotion, 4, 81⫺ 127. Foa, E. B. & McNally, R. J. (1986). Sensitivity to feared stimuli in obsessives – compulsives: A dichotic listening analysis. Cognitive Therapy and Research, 10, 477⫺485. Forgas, J. P. (1999). Network theories and beyond. In T. Dalgleish & M. J. Power (Eds.), Handbook of cognition and emotion (pp. 591⫺611). Chichester: Wiley. Forgas, J. P. & Bower, G. H. (1987). Mood effects on person-perception judgements. Journal of Personality and Social Psychology, 53, 53⫺60. Friederici, A. D. (1987). Kognitive Strukturen des Sprachverstehens. Berlin: Springer. Friederici, A. D. & von Cramon, D. Y. (1999). Neurobiologische Grundlagen des Sprachverstehens. In A. D. Friederici (Hrsg.). Sprachrezeption. Enzyklopädie der Psychologie: Theorie und Forschung; Serie 3: Sprache (pp. 307⫺349). Göttingen: Hogrefe. Friedman, W. J. (1991). The development of children’s memory for the time of past events. Child Development, 62, 139⫺155. Fries, N. (1995). Emotionen in der Semantischen Form und in der Konzeptuellen Repräsentation. MetaLinguistica. Debrecener Arbeiten zur Linguistik, 1, 139⫺181. Fries, N. (1996). Grammatik und Emotion. Zeitschrift für Literaturwissenschaft und Linguistik, 101, 37⫺69.
701 Gehm, T. L. & Scherer, K. R. (1988). Factors determining the dimensions of subjective emotional space. In K. R. Scherer (Ed.), Facets of emotion: Recent research (pp. 99⫺113). Hillsdale, NJ: Erlbaum. George, M. S., Parekh, P. I., Rosinsky, N., Ketter, T. A., Kimbrell, T. A., Heilman, K. M., Herscovitch, P. & Post, R. M. (1996). Understanding emotional prosody activates right hemisphere regions. Archive of Neurology, 53, 665⫺670. Gernsbacher, M. A. & Robertson, R. R. W. (1992). Accessing sentence participants: The advantage of first mention. Journal of Memory and Language, 27, 699⫺717. Gernsbacher, M. A., Goldsmith, H. H. & Robertson, R. R. W. (1992). Do readers mentally represent characters’ emotional states? Cognition and Emotion, 6, 89⫺111. Gotlib, I. H. & McCann, C. D. (1984). Construct accessibility and depression: An examination of cognitive and affective factors. Journal of Personality and Social Psychology, 47, 427⫺439. Gotlib, I. H. & Cane, D. B. (1987). Construct accessibility and clinical depression: A longitudinal investigation. Journal of Abnormal Psychology, 96, 199⫺204. Gotlib, I. H. & Abramson, L. Y. (1999). Attributional theories of emotion. In T. Dalgleish & M.J. Power (Eds.), Handbook of cognition and emotion (pp. 613⫺635). Chichester: Wiley. Gramley, A. V. (1999). Normsprecherkompetenz bei der Intonationsperzeption. Magisterarbeit, Universität Bielefeld. Gray, J. A. (1982). Pre´cis of „The neuropsychology of anxiety“: An enquiry into the functions of the septohippocampal system. Behavioral and Brain Sciences, 5, 469⫺484. Gray, J. A. (1999). Cognition, emotion, conscious experience and the brain. In T. Dalgleish & M. J. Power (Eds.), Handbook of cognition and emotion (pp. 83⫺102). Chichester: Wiley. Greasley, P., Sherrard, C., Waterman, M., Setter, J., Roach, P., Arnfield, S. & Horton, D. (1996). The perception of emotion in speech. Paper presented at the meeting of the XXVI International Congress of Psychology: Montreal, Canada. Harris, P.L. (1992). Das Kind und die Gefühle. Bern: Hans Huber. Hartje, W., Willmes, K. & Weniger, D. (1985). Is there parallel or independent hemispheric processing of intonational and phonetic components of dichotic speech stimuli? Brain and Language, 24, 89⫺99.
702 Hecht, H. (2000). Crossmodal perception and the function of emotion. Commentary on de Gelder et al. (1999). In G. Aschersleben, T. Bachmann & J. Müsseler (Eds.), Cognitive contributions to the perception of spatial and temporal events (pp. 439⫺ 443). Amsterdam: Elsevier. Heckhausen, H. (1966). Die Entwicklung des Erlebens von Erfolg und Mißerfolg. Bild der Wissenschaft, 3, 547⫺553. Heider, K G. (1991). Landscapes of emotion: Mapping three cultures of emotion in Indonesia. Cambridge: University Press. Heilman, K. M., Bowers, K. M. & Valenstein, E. (1993). Emotional disorders associated with neurological diseases. In K. M. Heilman & E. Valenstein (Eds.), Clinical Neuropsychology (461⫺497). New York NY: Oxford University Press. Heilman, K. M., Bowers, D., Speedie, L. & Coslett, H. B. (1984). Comprehension of affective and nonaffective prosody. Neurology, 34, 917⫺921. Helbig, G. & Buscha, J. (1986). Deutsche Grammatik (9. Aufl.). Leipzig: VEB. Hielscher, M. (1996). Emotion und Textverstehen. Eine Untersuchung zum Stimmungskongruenzeffekt. Opladen: Westdeutscher Verlag. Hielscher, M. (1997). Aphasie und Textrezeption. Störungen affektiver Inferenzleistungen. In G. Rickheit (Hrsg.), Studien zur Klinischen Linguistik. Modell, Methoden, Intervention. Opladen: Westdeutscher Verlag. Hielscher, M. (2001). Emotionskonzepte und Prozesse emotionaler Sprachverarbeitung. Habilitationsschrift. Universität Bielefeld. Hirsch, C. (1995). Anxiety and cognitive schemata. PhD Thesis, University of Cambridge. Hölzer, M., Scheytt, N. & Kächele, H. (1992). Das Affektive Diktionär Ulm als eine Methode der quantitativen Vokabularbestimmung. In C. Züll & P. Mohler (Hrsg.), Textanalyse. Anwendungen der computergestützten Inhaltsanalyse (pp. 131⫺154). Opladen: Westdeutscher Verlag. Howe, M. L. & Courage, M. (1993). On resolving the enigma of infantile amnesia. Psychological Bulletin, 113, 305⫺326 Howe, M. L., Courage, M. & Peterson, C. (1996). How can I remember when „I“ wasn’t there: Long term retention of traumatic experiences and emergence of the cognitive self. In K. Pezdek & W. P. Banks (Eds.), The recovered memory / false memory debate (pp. 121⫺149). San Diego, CA: Academic Press. Ingram, R. E. (1984). Toward an informationprocessing analysis of depression. Cognitive Therapy and Research, 8, 443⫺478.
IV. Sprachrezeption Isen, A. (1999). Positive affect. In T. Dalgleish & M. J. Power (Eds.), Handbook of cognition and emotion (pp. 521⫺540). Chichester: Wiley. Izard, C. E. (1994). Innate and universal facial expressions: Evidence from developmental and crosscultural research. Psychological Bulletin, 115, 288⫺299. Jakobson, R. (1960). Closing statement: Linguistics and poetics. In T. A. Sebeok (Ed.), Style in language (pp. 350⫺377). Cambridge, MA: The M.I.T. Press. Jescheniak, J. D., Hahne, A. & Friederici, A. D. (1998). Brain activity patterns suggest prosodic influences on syntactic parsing in the comprehension of spoken sentences. Music Perception, 16, 55⫺62. Johnson, M. K. & Multhaup, K. (1992). Emotion and MEM. In S.-A. Christianson (Ed.), The handbook of emotion and memory research and theory (pp. 33⫺66). Hillsdale, NJ: Erlbaum. Johnson, M. K. & Tversky, A. (1983). Affect, generalization, and the perception of risk. Journal of Personality and Social Psychology, 45, 20⫺31. Johnson-Laird, P. N. (1983). Mental models. Towards a cognitive science of language, inference, and consciousness. Cambridge: University Press. Johnson-Laird, P. N. & Oatley, K. (1989). The language of emotions: An analysis of a semantic field. Cognition and Emotion, 3, 81⫺123. Katz, B. (1993). A neural resolution of the incongruity-resolution and incongruity theories of humour. Connection Science, 5, 59⫺75. Keinan, G., Friedland, N. & Arad, L. (1991). Chunking and integration: Effects of stress on the structuring of information. Cognition and Emotion, 5, 133⫺145. Kessler, K., Duwe, I. & Strohner, H. (1998). Grounding mental models: Subconceptual dynamics in the resolution of reference in discourse. Advances in Psychology, 128, 169⫺182. Kintsch, W. (1988). The role of knowledge in discourse comprehension: A construction-integration model. Psychological Review, 95, 163⫺182. Koevecses, Z. (1998). Are there any emotion-specific metaphors? In A. Athanasiadou & E. Tabakowska (Eds.), Speaking of emotions. Conceptualisation and expression (pp. 127⫺151). Berlin: de Gruyter. Koevecses, Z. (1999). Language and emotion concepts: What experientialists and social constructionists have in common. In G. B. Palmer, D. J. Occhi et al. (Eds.), Languages of sentiment: Cultural constructions of emotional substrates. Advances in
52. Sprachrezeption und emotionale Bewertung consciousness research (pp. 237⫺262). Amsterdam NL: John Benjamins Publishing. Kriege, E., Hielscher, M. H. & Koebbel, P. (1998). Beteiligung der rechten Hemisphäre an der Syntaxverarbeitung? In M. H. Hielscher, P. Clarenbach et al. (Hrsg.), Beeinträchtigungen des Mediums Sprache. Aktuelle Untersuchungen in der Neurolinguistik (pp. 147⫺163). Tübingen: Stauffenburg. Kroska, A. & Goldstone, R. L. (1996). Dissociations in the similarity and categorisation of emotions. Cognition and Emotion, 10, 27⫺45. Ladd, D. R., Silverman, K. E. A., Tolkmitt, F., Bergmann, G. & Scherer, K. R. (1985). Evidence for the independent function of intonation contour type, voice quality, and F0 range in signaling speaker affect. Journal of the Acoustical Society of America, 78, 435⫺444. Lavy, E., van den Hout, M. & Arntz, A. (1993). Attentional bias and spider phobia: Conceptual and clinical issues. Behaviour Research and Therapy, 31, 17⫺24.
703 MacDonald, M. C., Pearlmutter, N. J. & Seidenberg, M. S. (1994). The lexical nature of syntactic ambiguity resolution. Psychological Review, 101, 676⫺703. MacLeod, C. (1999). Anxiety and anxiety disorders. In T. Dalgleish & M. J. Power (Eds.), Handbook of cognition and emotion (pp. 447⫺477). Chichester: Wiley. MacLeod, C. & Rutherford, E. M. (1992). Anxiety and the selective processing of emotional information: mediating roles of awareness, trait and state variables, and personal relevance of stimulus materials. Behaviour Research and Therapy, 30, 479⫺ 491. MacLeod, C. & Cohen, I. (1993). Anxiety and the interpretation of ambiguity: A text comprehension study. Journal of Abnormal Psychology, 102, 238⫺ 247. MacLeod, C., Mathews, A. & Tata, P. (1986). Attentional bias in emotional disorders. Journal of Abnormal Psychology, 95, 15⫺20.
Lazarus, R. S. (1982). Thoughts on the relations between emotion and cognition. American Psychologist, 37, 1019⫺1024.
Mannhaupt, H.-R. (1983). Produktionsnormen für verbale Reaktionen zu 40 geläufigen Kategorien. Sprache und Kognition, 2, 264⫺278.
LeDoux, J. E. (1989). Cognitive-emotional interactions in the brain. Cognition and Emotion, 3, 267⫺289.
Mangold-Allwinn, R. (1993). Flexible Konzepte: Experimente, Modelle, Simulationen. Frankfurt/ Main: Lang.
LeDoux, J. E. (1994). Emotion, memory and the brain. Scientific American, 32⫺39.
Markowitsch, H. J. (1999). Gedächtnisstörungen. Stuttgart: Kohlhammer.
Levelt, W. J. M. (1989). Speaking. From intention to articulation. Cambridge: Bradford Book.
Marx, W. (1982). Das Wortfeld der Gefühlsbegriffe. Zeitschrift für Experimentelle und Angewandte Psychologie, 29, 137⫺146.
Levelt, W. J. M. (1993). The architecture of normal spoken language use. In G. Blanken, J. Dittmann, J.C. Marshall, H. Grimm & C.-W. Wallesch (Eds.), Linguistic disorders and pathologies. An international handbook (pp. 1⫺15). Berlin: De Gruyter. Leventhal, H. (1984). A perceptual-motor theory of emotion. In L. Berkowitz (Ed.), Advances in experimental social psychology (pp. 118⫺129). New York: Academic Press. Leventhal, H. & Scherer, K. R. (1987). The relationship of emotion to cognition: A functional approach to a semantic controversy. Cognition and Emotion, 1, 3⫺28. Liberman, A. M. (1996). Speech: A special code. Cambridge, MA: MIT Press. Liberman, A. M. & Mattingley, G. (1993). The motor theory of speech perception revised. Cognition, 21, 1⫺36. MacDonald, M. (1993). The interaction of lexical and syntactic ambiguity. Journal of Memory and Language, 32, 692⫺715.
Massaro, D. W. & Egan, P. B. (1996). Perceiving affect from the voice and the face. Psychonomic Bulletin & Review, 3, 215⫺221. Mathews, A. & MacLeod, C. (1986). Discrimination of threat cues without awareness in anxiety states. Journal of Abnormal Psychology, 95, 131⫺ 138. Mathews, A. & Klug, F. (1993). Emotionality and interference with color naming in anxiety. Behavior Research and Therapy, 31, 57⫺62. Matthews, A. & Wells, A. (1999). The cognitive science of attention and emotion. In T. Dalgleish & M. J. Power (Eds.), Handbook of cognition and emotion (pp. 171⫺192.). Chichester: Wiley. Mathews, A., Richards, A. & Eysenck, M. (1989). Interpretation of homophones related to threat in anxiety states. Journal of Abnormal Psychology, 98, 31⫺34. Mathews, A., May, J., Mogg, K. & Eysenck, M. (1990). Attentional bias in anxiety: Selective search
704
IV. Sprachrezeption
or defective filtering? Journal of Abnormal Psychology, 99, 166⫺173.
nonaffirmative judgement. Cognition and Emotion, 8, 259⫺278.
Matthews, G. & Harley, T.A. (1996). Connectionist models of of emotional distress and attentional bias. Cognition and Emotion, 10, 561⫺600.
Näätänen, R. (1992). Attention and brain function. Hillsdale, NJ: Lawrence Erlbaum.
Matthews, G., Pitcaithly, D. & Mann, R. L. E. (1995). Mood, neuroticism, and the encoding of affective words. Cognitive Therapy and Research, 19, 563⫺587. McDonald, S. & van Sommers, P. (1993). Pragmatic language skills after closed head injury: Ability to negotiate requests. Cognitive Neuropsychology, 10, 297⫺315. McHugo, G. J., Smith, C. A. & Lanzetta, J. T. (1982). The structure of self-reports of emotional responses to film segments. Motivation and Emotion, 6, 365⫺385. McNally, R. J. (1995). Automaticity and the anxiety disorders. Behaviour Research and Therapy, 33, 747⫺754. Meyer, W. U., Schützwohl, A. & Reisenzein, R. (1993). Einführung in die Emotionspsychologie (Band 1). Bern: Huber. Meyer, W. U., Schützwohl, A. & Reisenzein, R. (1997). Einführung in die Emotionspsychologie (Band 2). Bern: Huber. Miller, D. T. & Moretti, M. M. (1988). The causal attributions of depressives: Self-serving or self-disserving? In L. B. Alloy (Ed.), Cognitive processes in depression (pp. 266⫺286). New York: Guilford. Mogg, K. & Bradley, B. P. (1999). Selective attention and anxiety: A cognitive-motivational perspective. In T. Dalgleish & M. J. Power (Eds.), Handbook of cognition and emotion (pp. 145⫺170). New York: Wiley. Mogg, K., Mathews, A., May, J., Grove, M. Eysenck, M. & Weinman, J. (1991). Assessment of cognitive bias in anxiety and depression using a colour perception task. Cognition and Emotion, 5, 221⫺238. Mogg, K., Bradley, B. P., Miller, T., Potts, H., Glenwright, J. & Kentish, J. (1994). Interpretations of homophones related to threat: Anxiety or response bias effects. Cognitive Therapy and Research, 18, 461⫺477. Molfese, D. L. (1985). Electrophysiological correlates of semantic features. Journal of Psycholinguistic Research, 14, 289⫺299. Morris, W. N. (1989). Mood. The frame of mind. New York: Springer. Nasby, W. (1994). Moderators in mood-congruent encoding: Self-/other-reference and affirmative/
Neppert, J. & Pe´tursson, M. (1992). Elemente einer akustischen Phonetik. Hamburg: Buske. Neppl, R. & Boll, Th. (1991). Analyse der Bedeutungsstrukturen alltagssprachlicher Emotionswörter. Sprache und Kognition, 10, 85⫺96. Neumann, O. (1990). Lexical access: Some comments on models and metaphors. In D. A. Baloto, G. B. Flores D’Arcais & K. Rayner (Eds.), Comprehension processes in reading. Hillsdale, NJ: Erlbaum. Niedenthal, P. M., Halberstadt, J. B. & Setterlund, M. B. (1997). Being happy and seeing “happy”: Emotional state mediates visual word recognition. Cognition and Emotion, 11, 403⫺432. Norrick, N. R. (1994). Involvement and joking in conversation. Journal of Pragmatics, 22, 409⫺430. Oatley, K. & Johnson-Laird, P. M. (1987). Towards a cognitive theory of emotions. Cognition and Emotion, 1, 29⫺50. Oatley, K. & Johnson-Laird, P. M. (1990). Semantic primitives for emotions: A reply to Ortony and Clore. Cognition and Emotion, 4, 129⫺143. Ochsner, K. N., Schacter, D. L. & Edwards, K. (1997). Illusory recall of vocal affect. Memory, 5, 433⫺455. Ortony, A., Clore, G. L. & Foss, M. A. (1987). The referential structure of the affective lexicon. Cognitive Science, 11, 341⫺364. Osgood, C. E., Suci, G. J. & Tannenbaum, P. H. (1957). The measurement of meaning. Urbana: University Press of Illinois. Palmer, G. B. & Occhi, D. J. (Eds.) (1999). Languages of sentiment: Cultural constructions of emotional substrates. Amsterdam: John Benjamins Publishing Company Parkinson, B., Totterdell, P., Briner, R. B. & Reynolds, S. (2000). Stimmungen. Struktur, Dynamik und Beeinflussung eines psychologischen Phänomens. Stuttgart: Klett-Cotta. (engl. Orig. 1996). Pell, M. D. & Baum, S. R. (1997a). The ability to perceive and comprehend intonation in linguistic and affective contexts by brain-damaged adults. Brain & Language, 57, 80⫺99. Pell, M. D. & Baum, S.R. (1997b). Unilateral brain damage, prosodic comprehension deficits, and the acoustic cues to prosody. Brain & Language, 57, 195⫺214.
52. Sprachrezeption und emotionale Bewertung Peterson, K. (2000). Right-hemisphere syntactic processing? Evidence from an insertion task study. Magisterarbeit, Universität Bielefeld. Pittam, J. & Scherer, K. R. (1993). Vocal expression and communication of emotion. In M. Lewis & J. M. Haviland (Eds.), Handbook of emotions (185⫺198). New York: Guilford Press. Plutchik, R. (1980). Emotion: A psychoevolutionary synthesis. New York: Harper & Row. Pollack, I., Rubenstein, H. & Horowitz, A. (1960). Communication of verbal modes of expression. Language and Speech, 3, 121⫺130. Postman, L. & Brown, D. (1952). The perceptual consequences of success and failure. Journal of Abnormal and Social Psychology, 41, 803⫺817.
705 and social emotions. Implications for developing a comprehensive neurology for emotions, repression, and the subconscious. Neuropsychiatry, Neuropsychology, and Behavioral Neurology, 7, 1⫺19. Ross, E. D., Thompson, R. D. & Yenkosky, J. (1997). Lateralization of affective prosody in brain and the callosal integration of hemispheric language functions. Brain and Language, 56, 27⫺54. Russell, J. A. (1983). Pancultural aspects of the human conceptual organization of emotions. Journal of Personality and Social Psychology, 45, 1281⫺ 1288. Russell, J. A. (1991). Culture and the categorization of emotions. Psychological Bulletin, 110, 426⫺450.
Pourtois, G., de Gelder, B., Vroomen, J., Rossion, B. & Crommelinck, M. (2000). The time-course of intermodal binding between seeing and hearing affective information. NeuroReport, 11, 1329⫺1333.
Saucier, G. & Goldberg, L. R. (1996). The language of personality: Lexical perspectives on the five-factor model. In J. S. Wiggins (Ed.), Theoretical perspectives for the five-factor model (pp. 21⫺ 50). New York: Guilford Press.
Power, M. J. (1999). Sadness and its disorders. In T. Dalgleish & M. J. Power (Eds.). Handbook of cognition and emotion (pp. 497⫺519). Chichester: Wiley.
Scherer, K. R. (1986). Vocal affect expression: A review and a model for future research. Psychological Bulletin, 99, 143⫺165.
Raskin, V. (1985). Semantic mechanisms of humor. Dordrecht: Reidel. Richards, A. & French, C. C. (1992). An anxiety related bias in semantic activation when processing threat/neutral homophones. Quarterly Journal of Experimental Psychology, 45A, 503⫺525. Richards, A., French, C. C. & Randall, F. (1995). Anxiety and the use of strategies in the performance of a sentence-picture verification task. Journal of Abnormal Psychology, 105, 132⫺146. Rickheit, G. & Strohner, H. (1985). Psycholinguistik der Textverarbeitung. Studium Linguistik, 17/ 18, 1⫺78. Rickheit, G. & Strohner, H. (1999). Textverarbeitung: Von der Proposition zur Situation. In A. D. Friederici (Hrsg.). Sprachrezeption. Enzyklopädie der Psychologie: Theorie und Forschung; Serie 3: Sprache (pp. 271⫺305). Göttingen: Hogrefe. Rickheit, G. & Schade, U. (2000). Kohärenz und Kohäsion. In K. Brinker, G. Antos, W. Heinemann & S. F. Sager (Hrsg.), Text- und Gesprächslinguistik. Ein internationales Handbuch zeitgenössischer Forschung (Vol. 1) (pp. 275⫺283). Berlin: de Gruyter.
Scherer, K. R. (1988). Criteria for emotion-antecedent appraisal: A review. In V. Hamilton, G.H. Bower & N.H. Frijda (Eds.), Cognitive perspectives on emotion and motivation (pp. 89⫺126). Dordrecht: Kluwer. Scherer, K. R. (1989). Die Essenz der Emotionen. Bedeutungskonstituenten der Alltagssprache oder multikomponentiale Verlaufsmuster. Sprache & Kognition, 8, 19⫺22. Scherer, K. R. (1993). Studying the emotion-antecedent appraisal process: An expert system approach. Cognition and Emotion, 7, 325⫺355. Scherer, K. R. (1999). Appraisal theory. In T. Dalgleish & M. J. Power (Eds.), Handbook of cognition and emotion (pp. 637⫺663). Chichester: Wiley. Scherer, K. R., Ladd, D. R. & Silverman, K. E. A. (1984). Vocal cues to speaker affect: Testing two models. Journal of the Acoustical Society of America, 76, 1346⫺1356. Schmidt-Atzert, K. (1987). Zur umgangssprachlichen Ähnlichkeit von Emotionswörtern. Psychologische Beiträge, 29, 140⫺163.
Riffo, B. (2000). Proccesamiento de Informacio´n afectiva en la comprensio´n de textos de la prensa escrita. Dissertation Uni Bielefeld
Schmitt, B. M. & Münte, T. F. (2001). Von Bielefeld zum B und zurück in wenigen Millisekunden: Elektrophysiologische Studien zum Zeitverlauf von Sprachprozessen. Vortrag im Rahmen des Workshops zur „Neurokognition der Sprache“, Universität Bielefeld.
Ross, E. D., Homan, R. W. & Buck, R. (1994). Differential hemispheric lateralization of primary
Schmitt, J. J., Hartje, W. & Willmes, K. (1997). Hemispheric asymmetry in the recognition of emo-
706 tional attitude conveyed by facial expression, prosody and propositional speech. Cortex, 33, 65⫺81. Schürer-Necker, E. Gedächtnis und Emotion. Zum Einfluß von Emotionen auf das Behalten von Texten. Weinheim: Beltz. Schulz von Thun, F. (1981). Miteinander reden I. Störungen und Klärungen. Hamburg: Rowohlt. Schwarz, M. (1999). Die Verarbeitung sprachlichemotionaler Information bei Patienten mit erworbener Hirnschädigung. Frankfurt a.M.: Peter Lang Verlag. Schwarz, N. (1990). Feelings as information. Informational and motivational functions of affective states. In R. Sorrentino & E. T. Higgins (Eds.), Handbook of motivation and cognition. Foundations of social behavior (pp. 527⫺561). New York: Guilford. Scott, S., Caird, F. I. & Williams, B. (1984). Evidence for an apparent sensory speech disorder in Parkinson’s disease. Journal of Neurology, Neurosurgery and Psychiatry, 47, 840⫺843. Scott, S., Young, A. W., Calder, A. J., Hellawell, D. J. et al. (1997). Impaired auditory recognition of fear and anger following bilateral amygdala lesions. Nature, 385, 254⫺275. Selting. M. (1994). Empathetic speech style – with special focus on the prosodic signalling of heightened emotive involvement in conversation. Journal of Pragmatics, 22, 375⫺408. Shaver, P. R., Schwartz, J. C., Kirson, D. & O’Connor, C. (1987). Emotion knowledge: Further exploration of a prototype approach. Journal of Personality and Social Psychology, 52, 1061⫺1086. Shaver, P. R., Wu, S. & Schwartz, J. S. (1992). Cross-cultural similarities and differences in emotion and its representation: A prototype approach. In M. S. Clark (Ed.), Review of personality and social psychology: Vol. 13. Emotion (pp. 175⫺212). Newbury Park, CA: Sage. Shields, S. A. (1984). Distinguishing between emotion and nonemotion: Judgements about experience. Motivation and Emotion, 8, 355⫺369. Singer, J. A. & Salovey, P. (1988). Mood and memory: Evaluating the network theory of affect. Clinical Psychology Review, 8, 211⫺251. Skrandies, W. (1998). Evoked potential correlates of semantic meaning. A brain mapping study. Cognitive Brain Research, 6, 173⫺183. Skrandies, W. (2001). Frühe Komponenten der elektrischen Hirnaktivität werden durch Wortbedeutungen beeinflusst. In H. M. Müller & G. Rickheit (Hrsg.), Neurokognition der Sprache, Tagungsband zum Workshop. Universität Bielefeld.
IV. Sprachrezeption Small, S. A. (1985). The effect of mood on word recognition. Bulletin of the Psychonomic Society, 24, 453⫺455. Small, S. A. & Robins, C. J. (1988). The influence of induced depressed mood on visual recognition thresholds: Predictive ambiguity of associative network models of mood and cognition. Cognitive Therapy and Research, 12, 295⫺304. Sobin, C. & Alpert, M. (1999). Emotion in speech: The acoustic attributes of fear, anger, sadness, and joy. Journal of Psycholinguistic Research, 28, 347⫺365. Sprenger, S., Levelt, W. J. M. & Kempen, G. (1999). Producing idiomatic expressions: Idiom representation and access. Poster on the 5th Conference on Architectures and mechanisms of language processing (AMLaP-99): Edinburgh. Stankiewicz, E. (1964). Problems of emotive language. In T. A. Seboek (Ed.), Approaches to semiotics (239⫺264) Den Haag: Mouton. Steinhauer, K., Alter, K. & Friederici, A. D. (1999). Brain potentials indicate immediate use of prosodic cues in natural speech processing. Nature Neuroscience, 2, 191⫺196. Stemmer, B., Giroux, F. & Joanette, Y. (1994). Production and evaluation of requests by right hemisphere brain-damaged individuals. Brain and Language, 47, 1⫺31. Storm, C. & Storm, T. (1987). A taxonomic study of the vocabulary of emotions. Journal of Personality and Social Psychology, 53, 805⫺816. Ströhm, W. (1993). Stimmung und Gedächtnis. Stimmungsinkongruenzeffekt bei depressiven Patienten. Münster: Waxmann. Strohner, H. (1988). Zentrale Planung oder dezentrale Kooperation? Adaptive Strategien des Textverstehens. Linguistische Berichte, 118, 481⫺496. Teasdale, J. D. & Barnard, P. J. (1993). Affect, cognition and change: Re-modelling depressive thought. Hove: Erlbaum. Teasdale, J. D., Howard, R. J., Cox, S. G., Ha, Y., Brammer, M. J., Williams, S. C. R. & Checkley, S. A. (1999). Functional MRI study of the cognitive generation of affect. American Journal of Psychiatry, 156, 209⫺215. Tischer, B. (1988). Kein Spaß im Wortfeld der Gefühlsbegriffe? Zehn Methoden zur Kennzeichnung der Wortfeldzugehörigkeit. Archiv für Psychologie, 140, 15⫺31. Tischer, B. (1993). Die vokale Kommunikation von Gefühlen. Weinheim: PVU. Tulving, E. (1983). Elements of episodic memory. London: Oxford University Press.
53. Sprachproduktion im Vergleich: Deutsche Lautsprache und Deutsche Gebärdensprache Van Lancker, D. (1980). Cerebral lateralization of pitch cues in the linguistic signal. Papers in Linguistics, 13, 201⫺277. Van Lancker, D. & Sidtis, J. J. (1992). The identification of affective-prosodic stimuli by left and right-hemisphere-damaged subjects: All errors are not created equal. Journal of Speech and Hearing Research, 36, 1191⫺1192. Velten, E. (1968). A laboratory task for induction of mood states. Behaviour Research and Therapy, 6, 473⫺482. Volek, B. (1987). Emotive signs in language and semantic functioning of derived nouns in Russian. Amsterdam, Philadelphia: Benjamins. Weiner, B. (1982). The emotional consequences of causal attributions. In M. S. Clark & S. Fiske (Eds.), Affect and Cognition (pp.185⫺209). Hillsdale, NJ: Erlbaum.
707
Journal of Personality and Social Psychology, 43, 901⫺914. Wiener, M. & Mehrabian, A. (1968). Language within language: Immediacy, a channel in verbal communication. New York: Appleton, Century & Crofts. Wierzbicka, A. (1977). Mental language and semantic primitives. Communication and Cognition, 10, 155⫺179. Wierzbicka, A. (1992). Talking about emotions: Semantics, culture, and cognition. Cognition and Emotion, 6, 285⫺319. Wundt, W. (1902). Grundriß der Psychologie. (4. Aufl.) Berlin: Springer. Zajonc, R. B. (1980). Feeling and thinking: Preferences need no inferences. American Psychologist, 35, 151⫺175.
Weylman, S. T., Brownell, H. H., Roman, M. & Gardner, H. (1989). Appreciation of indirect requests by left and right damaged patients: The effects of verbal context and conventionality of wording. Brain and Language, 36, 580⫺591.
Zuckerman, M., Lipets, M. S., Koivumaki, J. H. & Rosenthal, R. (1975). Encoding and decoding nonverbal cues of emotion. Journal of Personality and Social Psychology, 32, 1068⫺1076.
Whright, J. & Mischel, W. (1982). Influence of affect on cognitive social learning person variables.
Martina Hielscher Universität Bielefeld (Deutschland)
53. Sprachproduktion im Vergleich: Deutsche Lautsprache und Deutsche Gebärdensprache 0. 1. 2. 3. 4. 5. 6.
0.
Ein historisches Vorwort: Gehörlosigkeit und Gebärdensprache Eine Skizze der DGS Gebärdensprachproduktion Korrekturen Evidenz aus der Neuropsychologie Modalität und das menschliche Sprachvermögen Literatur
Ein historisches Vorwort: Gehörlosigkeit und Gebärdensprache
Gehörlosigkeit ist ein sensorisches, jedoch kein kognitiv-sprachliches Defizit. Eine Quantifikation dieser auditiven Einschränkung ist nicht möglich. Während man früher davon ausging, dass Personen, die eine Lautstärke von 90⫺110 Dezibel nicht wahrnehmen können, gehörlos sind, legt man heute eine funktionale Definition zugrunde. Kann eine Hörschädigung nicht mehr durch ein Hörgerät
ausgeglichen werden, dann ist die betreffende Person gehörlos und folglich auf Gebärdensprache angewiesen. Schon Abbe´ de l’Epe´e (1712⫺1789), der 1771 die allererste Schule für „Taubstumme“ in Paris gründete, wusste, dass die Gebärden für seine gehörlosen Schüler das natürliche und eigentliche Ausdrucksmittel sind. Als Brücke zur Lautsprache verwendete er die französische Schriftsprache und ein Handalphabet, das auf Pablo Bonet (1579⫺1633) zurückgeht (Fischer & Lane, 1993). Auf dem zweiten Taubstummenlehrerkongress 1880 in Mailand, an dem 163 hörende und lediglich ein gehörloser Delegierter teilnahmen, fiel allerdings eine folgenschwere Entscheidung, nämlich dass im Unterricht an den Gehörlosenschulen eine rein lautsprachorientierte Methode ohne Gebärden zu bevorzugen sei. Gehörlosigkeit wurde somit wieder als Defizit gesehen und die reiche Ausdruckskraft von Gebärdensprachen marginalisiert.
708
IV. Sprachrezeption
Während diese Auffassung im Bildungsbereich bis heute noch anhält, befasst sich die internationale Gebärdensprachforschung seit den 50er Jahren intensiv mit der Struktur von Gebärdensprachen (Tervoort,1995; van Cleve, 1987). Die wohl am besten untersuchte Gebärdensprache ist die American Sign Language (im Folgenden ASL); das hängt sicherlich auch damit zusammen, dass von Beginn der Untersuchungen an viele einschlägige Arbeiten zu ASL von gehörlosen Linguisten veröffentlicht wurden (Stokoe, 1960), und nicht etwa damit, dass diese Gebärdensprache in den Gehörlosenschulen verwendet wurde. Denn erst 1972 erschienen die ersten Lehr- und Lernmaterialien zur Amerikanischen Gebärdensprache (Cokely, 1983). Die Erforschung der Deutschen Gebärdensprache (im Folgenden DGS) begann erst in den 70er Jahren. Die Gründe hierfür sind vielfältig, lassen sich jedoch im Wesentlichen auf die o.e. Folgen des Mailänder Kongresses zurückführen (Keller & Rech, 1993; Hase, 1996; Prillwitz, 1982).
1.
Eine Skizze der DGS
Wie andere Gebärdensprachen so ist auch die DGS eine visuell-gestische Sprache. Ihre Strukturen werden nach einem differenzierten Regelsystem sequentiell und simultan mit manuellen und nicht-manuellen Mitteln in einem festgelegten Raum, dem sog. Gebärdenraum, ausgedrückt (einem halbkugelförmigen virtuellen Raum, in dem die Gebärden ausgeführt werden). Aus der von Lautsprachen unterschiedenen Verarbeitungsmodalität folgt aber keinesfalls, dass Gebärdensprachen prinzipiell anders beschrieben werden müssen, sondern Gebärdensprachen unterliegen denselben sprachspezifischen Beschränkungen wie Lautsprachen (Klima & Bellugi, 1979; eine andere Position vertritt Bouchard, 1997). 1.1. Manuelle Strukturen: die Funktion der Hände Was die Hände in DGS alles bewerkstelligen und für den grammatischen Aufbau leisten, wird im Folgenden diskutiert. 1.1.1. Phonologie: Die kleinsten Einheiten Der Begriff Phonologie wird in der Forschung modalitätsneutral verwendet und hat den von Stokoe (1960) eingeführten Begriff der Cherologie abgelöst. Phonologie bezeich-
net die Theorie aller distinktiven formalen Eigenschaften unterhalb der Morphemebene: phonologische Merkmale, Phoneme, Silben und Beschränkungen für die Kombination von Phonemen in Laut- und Gebärdensprachen (Brentari,1996; Coulter, 1993; Glück, Happ, Leuninger, Keller, Koblitz & Pfau, 1997; Liddell & Johnson, 1989; Pfau, 1997; Sandler, 1989). Phonologische Merkmale. Gebärden setzen sich aus Merkmalen von vier phonologischen Klassen zusammen, nämlich Handform, Handstellung, Ausführungsort und Bewegung. Man kann deren distinktive Funktion an sog. Minimalpaaren illustrieren. Wird ein Merkmal verändert und alle anderen bleiben erhalten, so verändert sich die Bedeutung des Ausdrucks:
Abb. 53.1:
FLEISCH wird am Ausführungsort zwischen Daumen und Zeigefinger, ARZT am Handgelenk gebärdet. Handform, Bewegung und Handstellung bleiben gleich (Boyes Braem, 1995; Happ, 2000; Happ & Leuninger, 1998). Viele Handformen werden mithilfe des Fingeralphabets bezeichnet (Abbildung 53.2), z. B. die F-Handform aus Abbildung 53.1. Die Handform von PUR hingegen (5Hand mit abgestrecktem Mittelfinger; s. Abbildung 53.3) kommt im Fingeralphabet der DGS nicht vor. Das Fingeralphabet dient den Gebärdensprachverwender (im Folgenden „Signer“) etwa dazu, Namen manuell zu buchstabieren. Die DGS kennt mehr als 30 Handformen, eine Vielzahl von Ausführungsorten, Handstellungen und Bewegungen, aus deren Kombination eine beliebige Zahl von einhändigen und zweihändigen Gebärdenwörtern gebildet werden können. Zweihandgebärden. Zweihandgebärden unterliegen strengen phonologischen Regeln (Brentari, 1996), nämlich der Bedingung von Symmetrie und Dominanz (Happ & Hohenberger, 2001). Gemäß der Symmetriebedingung muss die nicht-dominante Hand dieselbe Handform haben wie die dominante,
53. Sprachproduktion im Vergleich: Deutsche Lautsprache und Deutsche Gebärdensprache
709
Abb. 53.2: Das Fingeralphabet der DGS
wenn beide Hände sich bewegen. Wenn die Handformen der beiden Hände sich unterscheiden, darf sich gemäß der Dominanzbedingung nur die dominante Hand bewegen. Darüber hinaus kann die nicht-dominante Hand nur eine der sechs Grundhandformen annehmen, die als unmarkiert gelten, weil sie in allen Gebärdensprachen vorkommen und als erste erworben werden (A, B, C, O, G, SCH) (Boyes Braem, 1995; Leuninger 2000 und Abbildung 53.2). Die Gebärde PUR (s. Abbildung 53.3) ist eine solche Zweihandgebärde. Nur die dominante Hand darf bewegt werden – je nach Händigkeit ist dies die rechte oder die linke Hand. Beschränkungen
Abb. 53.3: PUR
dieser Art hängen nicht damit zusammen, dass die Ausführung einer solchen Zweihandgebärde motorisch unmöglich ist. Es handelt sich hier vielmehr um Bedingungen der Kombination für die DGS. In anderen Gebärdensprachen sind vergleichbare Gebärden zugelassen, und Kombinationen, die in der DGS erlaubt sind, sind in anderen Gebärdensprachen nicht regelkonform. Silben. Eine Silbe in DGS ist eine Kombination aus den Silbenpositionen „Halt“ und „Bewegung“. „Halt“ bedeutet, dass sich an einem festgelegten Ausführungsort eine Handkonfiguration (Handform und Handstellung) befindet, und „Bewegung“ bedeutet, dass sich die Handkonfiguration auf einem Pfad bewegt. Die maximale Silbe in DGS enthält die Silbenpositionen Halt ⫺ Bewegung ⫺ Halt (Einsatz, Nukleus und Koda), die minimale Silbe entweder Bewegung oder Halt. Enthält eine Silbe nur einen Halt, so kann die von dieser Position dominierte Handkonfiguration eine sog. sekundäre Bewegung enthalten, ansonsten kann diese sekundäre Bewegung nur auf der von Bewe-
710 gung dominierten Handkonfiguration vorkommen. Dies liegt an einer universellen Beschränkung, gemäß der es in Silben nur ein Sonoranzmaximum geben darf, und zwar auf dem Nukleus. Somit ist auch eine Silbe mit zwei Bewegungen nicht zulässig (vgl. auch Abschn. 2.2.3). Die Gebärde DEUTSCH (GHand senkrecht an der Stirnmitte) enthält nur einen Halt. Die Bewegung hin zu dem Ausführungsort zählt als Übergangsbewegung und gehört nicht zum lexikalischen Eintrag der Gebärde, ist damit nicht phonologischer Natur (Pfau, 1997). Interessanterweise sind Silben, die nur aus einem Halt ohne sekundäre Bewegung bestehen, in ASL nicht zulässig. Offenkundig gelten also in ASL andere Sonoranzverhältnisse als in DGS, wie dies auch für Lautsprachen gezeigt worden ist (Wiese, 1988). Ihrer Form und Gestaltung nach sind daher gebärdensprachliche Silben lautsprachlichen Silben vergleichbar, wenn auch ihr phonologischer Gehalt von anderen Artikulationsorganen ausgeführt wird, nämlich von den Händen, unterschieden ist (Perlmutter, 1992; zur Funktion von Silben für die Strukturierung von Sätzen s. Wilbur, 1999). 1.1.2. Morphologie: Komplexe Wörter Zur Ableitung von komplexen Gebärdenwörtern gibt es eine Vielzahl von morphologischen Regeln. Neben Wortbildungsregeln (Happ & Leuninger, 1998; Leuninger, 2001; Liddell & Johnson, 1986) enthält das Lexikon von Gebärdensprachen wie lautsprachliche Lexika auch morphologische Informationen über die Flexion sprachlicher Kategorien. Komposition. Komposita werden mithilfe verschiedener Regeln abgeleitet, von denen wir hier nur die zwei wichtigsten betrachten wollen. Verkürzung. Das erste Morphem eines morphologisch komplexen Worts ist kürzer als das entsprechende unabhängige Gebärdenwort, und das zweite Morphem eines morphologisch komplexen Worts verliert die Bewegungswiederholung des entsprechenden unabhängigen Gebärdenworts. Der Gebärde für „Kongruenz“ oder „Übereinstimmung“ –übrigens eine Lehngebärde aus ASL, nämlich AGREEMENT – liegen die beiden freien Morpheme DENKEN und DASSELBE zugrunde. Im Kompositum ist der erste Teil der Stamm des Verbs DENKEN, dessen Bewegung verkürzt wird, und der zweite Teil verliert die Bewegungswiederho-
IV. Sprachrezeption
lung des freien Morphems. Damit geht in den Komposita die Zweisilbigkeit der jeweils beteiligten freien Morpheme verloren, so dass sie den Zeittakt einer monomorphematischen Gebärde haben. Generell, so hat bspw. Brentari (1998) gezeigt, lässt sich in Komposita die Tendenz zur Einsilbigkeit beobachten. Gleichgerichtete Bewegung. Der zweite Teil eines Kompositums passt sich in seiner Bewegungsrichtung dem ersten Teil an. In der Gebärde für „Abt“, der die beiden freien Morpheme MÖNCH und VORGESETZTER zugrundeliegen, verläuft die Bewegung des zweiten gebundenen Morphems nach unten, obwohl es als freies Morphem eine Aufwärtsbewegung der A-Hand hat (Happ & Leuninger, 2000). Derivation. Derivation von Wörtern wird mit Bewegungsänderung realisiert. Die komplexe Gebärde KINDHEIT bspw. ist abgeleitet aus KIND, das als freies Morphem mit kurzer Bewegung nach unten ausgeführt wird. Im komplexen Wort werden Handform (BHand) und Handstellung (Handfläche nach unten) beibehalten, jedoch geht die Bewegung nun von unten nach oben. Ebenso durch Bewegungsveränderung lassen sich einige Prädikate negieren. Aus MÖGLICH mit doppelter Auf- und Ab-Bewegung wird durch einfache schleifenförmige Bewegung UNMÖGLICH abgeleitet. Flexion. Das gegenwärtig am besten erforschte morphologische Regelsystem von Gebärdensprachen ist die Flexion, insbesondere die von Verben. (Supalla, 1990; Woll & Kyle, 1994). Verben lassen sich nach der Art, wie sie flektiert werden, in drei Klassen einteilen: Verben mit Personenkongruenz. Bestimmte Verben der DGS stimmen mit dem Subjekt und dem Objekt eines Satzes überein (vgl. Abbildung 53.4; zur Notation s. Anhang).
Abb. 53.4:
53. Sprachproduktion im Vergleich: Deutsche Lautsprache und Deutsche Gebärdensprache
Verben wie GEBEN werden durch Verortung von Anfangs- und Endpunkt der Gebärde im Raum für Subjekt und Objekt flektiert. Die Subjekt- und Objektpronomen sind also an das Verb gebundene Morpheme und keine frei vorkommenden Pronomen. Solche Personenkongruenzverben (wie z. B. auch FRAGEN, LEIHEN, SCHICKEN) bilden eine Teilklasse der gebärdensprachlichen Verben. Welche Verben zu dieser Klasse gehören, hängt von der jeweiligen Gebärdensprache ab. In der japanischen Gebärdensprache bspw. ist im Gegensatz zur DGS LIEBEN ein Personenkongruenzverb. Verben mit Raumkongruenz. Verben wie DORTHIN-FAHREN, GEHEN-ZU, FAHREN-NACH sind Raumkongruenzverben (Happ, 2000; Keller,1998). Anfangs- und Zielort werden durch die Verbgebärde im Gebärdenraum festgelegt. Räumliche Präpositionen kommen bei solchen Verben demgemäß nicht vor. Einfache Verben. Bei der Teilklasse der einfachen Verben wie KAUFEN und STRAFEN werden im Gegensatz zu den Personenkongruenzverben die erforderlichen Subjektoder Objektpronomen getrennt gebärdet. Auch einfache Verben können flektiert werden, z. B. für Aspekt. Im folgenden Satz wird die Verbgebärde zur Kennzeichnung des iterativen Aspekts mehrmals wiederholt: (1)
asp:wiederholt G-E-R-D-A BEZAHLT Gerda bezahlt-immer-wieder
Die Möglichkeit, ein Verb zu flektieren, kann auch dazu dienen, Wortarten zu unterscheiden. Die lexikalische Nennform der Gebärden für „Fahrt“ und für „fahren“ ist identisch. Ihre Wortart lässt sich aber durch ihre Flexion mithilfe von Aktionsart oder durch ihre Kombination mit Adjektiven ermitteln. In Beispiel (3) verändert die Aktionsart die Verbgebärde in Dauer und Bewegung, es handelt sich also buchstäblich um morphologische Flexion, während in (2) zwei Gebärden ausgeführt werden: (2) (3)
[FAHR]Nomen [LANGE-ZEIT]Adjektiv „Die Fahrt war lang“ Aktion:lang WIR FAHREN Wir sind lange-gefahren
Klassifikatoren. Klassifikatoren sind ein weiterer Typ morphologischer Flexion. So wer-
711
den Verben nach Eigenschaften der Referenten von Subjekten bzw. Objekten, die sie zu sich nehmen können, klassifiziert (Glück & Pfau, 1998; Glück, 2001; Supalla, 1986). In der DGS wird etwa das Verb GEBEN, das nicht klassifiziert die B-Handform (s. Abbildung 53.4) hat, für ein Objekt klassifiziert: (4)
MANN FRAUihr BLUME er[GEBCl]ihr Mann, Frau, Blume etwas-feines-dünneser-gibt-ihr „Der Mann gibt der Frau eine Blume.“
(5)
MANN FRAUihr BUCH er[GEBCl]ihr Mann, Frau, Buch etwas-breites-flacheser-gibt-ihr „Der Mann gibt der Frau ein Buch.“
GEBEN wird in (4) mit der F-Handform (Cl vgl. Abbildung 53.3) und in (5) mit flacher C-Handform (Cl breit, flach) gebärdet. Diese Art von Klassifikatoren bezeichnet man als HANDLE-Klassifikatoren:
lang dünn;
Abb. 53.5: Handform für breite flache Gegenstände (Boyes Braem, 1995)
Auch Klassifikatoren für Größe und Gestalt von Objekten, sog. CLASS-Klassifikatoren, sind nur vermeintlich bildhaft. Die Anzahl bildhafter Handformen ist sehr beschränkt, und jede Handform steht für eine bestimmte Klasse von Objekten. Klassifikator-Handformen sind einzelsprachspezifische Morpheme (Newport, 1982). In der ASL ist die 3-Handform die Klassifikator-Handform für Fahrzeuge, in der DGS jedoch die Flachhand (s. Abbildung 53.6).
Amerikanische Gebärdensprache
Deutsche Gebärdensprache
Abb. 53.6: Klassifikator-Handform für Fahrzeuge
712
IV. Sprachrezeption
Ein dritter Typ von Klassifikatoren sind die SASS-Klassifikatoren (Size and Shape Specifiers). Sie werden als freie Morpheme realisiert und sind Prädikaten vergleichbar wie etwa (6)
SCHWIMM Cl tief, eckig „Schwimmbecken“
1.1.3. Syntax Anders als in der Deutschen Lautsprache steht das Verb in Sätzen der DGS immer am Ende. In der ASL hingegen stehen morphologisch einfache Verben an zweiter Stelle, und das Objekt folgt ihnen, wohingegen morphologisch komplexe Verben am Ende des Satzes stehen (Padden, 1988). Dem lautsprachlichen Satz Der Mann streichelt den Hund entspricht MANN HUND STREICHELT (Prillwitz et al., 1985; Boyes Braem, 1995; Happ & Leuninger, 1998; Happ, Glück, Hohenberger, Keller, Leuninger & Pfau, 1998; Happ, 2000). Eine weitere Besonderheit der Wortstellung zeigt sich in Sätzen des folgenden Typs: (7)
WANDa MEINE JACKE ICH Wand meine Jacke ich HÄNG-ANa häng-an „Ich hänge meine Jacke an die Wand“
Diese Gebärdenabfolge entspricht einem Prinzip, das wir aus der Gestaltpsychologie kennen, nämlich dem Figur-Grund-Prinzip. Die erste Stelle im Satz besetzen Ausdrücke für große, unbewegliche Gegenstände („Grund“: WAND), die zweite Ausdrücke für kleine bewegliche Gegenstände („Figur“: JACKE). Für Sätze wie (7) ist eine derartige Wortfolge die neutrale, unmarkierte Wortordnung. Offene und verdeckte Pronomen. Das Zusammenspiel von Verbmorphologie mit der Syntax komplexer Sätze sollen die folgenden Überlegungen illustrieren. In manchen Sprachen werden pronominale Subjekte ausgelassen: (8)
Spanisch: (Yo) como una manzana
(9)
Deutsch: (*Ich) esse einen Apfel
Dies hängt u. a. mit der Verbflexion der jeweiligen Sprache zusammen. Sprachen mit reichhaltiger Flexion lassen verdeckte, sog. leere Pronominale zu (8), Sprachen mit schwächerer Flexion jedoch nicht (9) (vgl. Abbildung 53.4; Lillo-Martin, 1991). DGS ist
wie Spanisch eine Sprache mit starker Flexion und demgemäß mit leeren Pronomen: (10) Kontext:
ja/nein
HANSer LINGUISTINihr BUCH1 erSCHICKihr JA, pro1 erSCHICKihr Ja, er-schickt-es-ihr „Ja, er schickt es ihr.“ Subjekt und Objekt sind in diesem Satz leere Pronominale, die mithilfe der Verbkongruenz interpretierbar sind. Einfache Verben erlauben hingegen keine leeren Pronomen. Diskurstopiks. Warum aber wird in der Antwort (10) auch BUCH getilgt? Weil BUCH Thema des Satzes und damit Diskurstopik ist. Denn Gebärdensprachen kennen auch einen solchen Typ leerer Kategorien, sog. Diskurstopiks, wie sie etwa auch in der chinesischen Lautsprache vorkommen (Lillo-Martin, 1991). Ist im Diskurs ein Argument eingeführt, so braucht es in den Folgesätzen nicht mehr mit einer Gebärde aufgenommen zu werden und wird dennoch mitverstanden: (11) G-E-R-D-A1 BUCH2 KAUFT. Gerda Buch kauft. DANACH pro1 pro2 LIEST Danach (sie) (es) liest. „Gerda kauft ein Buch. Danach liest sie es.“ Die verdeckten Pronomen pro1 und pro2 sind Variablen, die jeweils durch ein Diskursantezedens (Diskurstopik) gebunden sind. Kommen in einem Text mehrere solcher Variablen mit einem Antezedens vor, so handelt es sich um Topik-Ketten. Zeit. Es gibt im Deutschen Sätze, die sowohl eine Zeitangabe als auch ein Hilfsverb, das die abgeschlossene Handlung anzeigt, enthalten. In der Gebärdensprache genügt hier die Zeitangabe am Satzanfang: (12) GESTERN MARIA BRIEF „Gestern hat Maria einen Brief SCHRIEB. geschrieben“ Wo die Gebärden für die jeweiligen Zeitangaben im Gebärdenraum platziert werden, ist sprachabhängig. In der Deutschen Gebärdensprache werden die Gebärden für die Vergangenheit (bspw. GESTERN, VERGANGENHEIT, FRÜHER) von der Schulter leicht nach hinten, für die Gegenwart (bspw. HEUTE, JETZT) vor dem Körper nach un-
53. Sprachproduktion im Vergleich: Deutsche Lautsprache und Deutsche Gebärdensprache
ten gerichtet gebärdet und für die Zukunft (bspw. ZUKUNFT, NÄCHSTE WOCHE) vor dem Körper nach vorne gerichtet, in der Gebärdensprache der Maya-Indianer dagegen werden Vergangenheit und Zukunft in genau umgekehrter Richtung positioniert (Jakobowitz & Stokoe, 1988). Die eingeführte Zeitangabe gilt so lange, bis eine neue Zeitangabe gemacht wird. Das kann sich über Sätze und auch ganze Texte (etwa Erzählungen) erstrecken. Auch hier handelt es sich um Topik-Ketten. 1.2. Nicht-manuelle Strukturen: Mund, Gesicht und Körper Zum System der DGS und vieler anderer Gebärdensprachen gehören neben den eben skizzierten manuellen auch nicht-manuelle Strukturen, die in allen sprachlichen Komponenten vorkommen und unterschiedliche Funktionen haben. 1.2.1. Markierung von Wörtern Die phonologische Komponente enthält die sog. Mundgestik, welche die Gebärde von Anfang bis Ende ihrer Ausführung begleitet und gegebenenenfalls das Öffnen und Schließen der Hände begleitet. Im Lexikon sind bestimmte Gebärdenwörter, z. B. Gefühlsadjektive oder Verben wie NACHDENKEN, ZWEIFELN, mit einer entsprechenden Mimik versehen, aber auch die Körperhaltung ist bei bestimmten Gebärden lexikalisch festgelegt. So wird bei Gebärden, die einen kurzen Zeitabschnitt bezeichnen wie GERADE EBEN oder BALD der Kopf leicht zum Ausführungsort der Gebärde hinbewegt, während bei Gebärden, die einen langen Zeitraum bezeichnen, der Kopf in die zur Gebärde entgegengesetzten Richtung gedreht wird wie bei VOR LANGER ZEIT. Mithilfe der Körperhaltung wird ausgedrückt, ob der Signer etwa an dem Geschehen beteiligt (Körper leicht nach vorne geneigt) oder nicht beteiligt (Körper leicht nach hinten geneigt) ist. Das folgende Beispiel zeigt, dass all diese nicht-manuellen Informationen simultan vorkommen können: Mundgestik: p/Mimik:verächtlich/Kopf leicht nach oben (13) JEMANDEN-NICHT-FÜR-VOLLNEHMEN 1.2.2. Markierung von Sätzen Es gibt zwei Arten von Mimik, die sich über mehrere Wörter erstreckt, die syntaktische und die expressive Mimik. Im Unterschied
713
zur vollständig kohärent benutzten syntaktischen Mimik ist die expressive Mimik in Gebrauch und Verlaufsgrenzen recht inkonsistent (Reilly, McIntire & Bellugi, 1991). Viele Wortstellungen weichen von der neutralen Ordnung ab und erfordern eine mimische Markierung. Exemplarisch wird hier die syntaktische Mimik an Fragen und Topikalisierungen erörtert (Happ, 2000; Leuninger, 2000). Entscheidungsfragen. Bei Entscheidungsfragen wird bei bestimmten Verben (den einfachen Verben) das Subjekt am Ende des Satzes wiederholt. Die Frage wird mimisch mit hochgezogenen Augenbrauen markiert. Diese Mimik wird über den gesamten Satz beibehalten wie in: ja/nein (14) DU KAFFEE KOCHST DU Du Kaffee kochst Du? „Kochst Du Kaffee?“ W-Fragen (Ergänzungsfragen). W-Fragen werden in DGS wie folgt gebärdet: w (15) WER BUCH KAUFT „Wer kauft ein Buch?“ Die entsprechende Fragemimik sind zusammengezogene Augenbrauen über den gesamten Satz hinweg (Petronio & Lillo-Martin, 1997). Topikalisierungen. Topikalisierungen, also Sätze, in denen Konstituenten an den Satzanfang gestellt werden, die nicht die Subjekte sind, werden in Gebärdensprachen äußerst produktiv verwendet (vergleichbar dem lautsprachlichen Satz Die Blumen kauft die Mutter mit vorangestelltem Objekt): t (16) BLUME⫹⫹⫹, MUTTER KAUFT Der topikalisierte Teil hat die Mimik von Entscheidungsfragen, darüber hinaus aber ist die Gebärde für die topikalisierte Konstituente intensiver, und zwischen ihr und dem Rest des Satzes ist eine kurze Pause (Reilly et al., 1991). Mit diesen mimischen Mitteln lässt sich die unmarkierte Wortfolge des Satzes (7) verändern: t (17) JACKE, WANDa ICH HÄNGE-ANa
714
IV. Sprachrezeption
Negation. Neben der in Abschnitt 1.1.2 vermerkten Negation gibt es in DGS eine nichtmanuelle Negation, welche die produktive Verneinung von Satzkonstituenten ist (Pfau, 2001; für einen typologischen Vergleich der Negation in DGS und ASL). Sie wird durch Kopfschütteln realisiert, das sich über die zu verneinende Konstituente erstreckt: (18) ENTSCHULDIGUNG, ICH neg VERSTEHE „Entschuldigung, ich verstehe nicht.“ Mit unterschiedlicher Ausdehnung dieser nicht-manuellen Markierung gehen Bedeutungsunterschiede einher: neg (19) D-A-N-I BUCH KAUFT „Dani kauft das Buch nicht.“ neg (20) D-A-N-I BUCH KAUFT „Dani kauft kein Buch.“ Das feinstrukturierte System der syntaktischen Mimik wird für eine Vielzahl von komplexen syntaktischen Konstruktionen wie etwa Wenn-Dann-Sätzen oder verschiedene Arten von Nebensätzen verwendet (Leuninger, 2000).
2.
Gebärdensprachproduktion
2.1. Die entscheidenden Fragen Die Analyse manueller sprachlicher Fehlleistungen, Vergebärdler, liefert eine einzigartige Möglichkeit, detaillierte Einsichten in die strukturelle Repräsentation und Verarbeitung sprachlicher Einheiten im Hinblick auf die Verarbeitungsmodalität zu gewinnen. Während die Erforschung lautsprachlicher Versprecher eine recht lange und ertragreiche Tradition hat, gilt dies nicht in vergleichbarem Ausmaß für die Erforschung gebärdensprachlicher Produktion. Eine Ausnahme bilden die Arbeiten von Klima und Bellugi (1979) und Newkirk, Klima, Pedersen und Bellugi (1980) sowie die Studie von Whittemore (1987). Die Arbeiten von Klima und Bellugi (1979) sowie Newkirk u. a. (1980) basieren auf einer Sammlung von 131 spontansprachlichen Vergebärdlern in ASL. In diesen Pionierarbeiten konnte überzeugend nachgewiesen werden, dass Gebärden keine unanalysierbaren Einheiten sind, sondern eine differenzierte sublexikalische phonologische
Struktur haben, insbesondere dass phonologische Eigenschaften von Gebärden, also Handform, Handstellung, Bewegung und Ausführungsort, selektiv von Fehlern betroffen sein können. Vergebärdler sind in dieser Hinsicht Versprechern gleichgestellt. Jedoch wurde weder die Frage thematisiert, wie eine mögliche modelltheoretische Interpretation im Rahmen eines Prozesssystems gebärdensprachlicher Sprachplanung aussieht, noch wie das Reparatursystem bei Korrekturen von Fehlleistungen arbeitet. Diesen Fragen wird in einem an der Universität Frankfurt durchgeführten Projekt systematisch nachgegangen (Happ & Hohenberger, 2001; Hohenberger, Happ & Leuninger, 2002; Keller, Hohenberger & Leuninger, 2001; Leuninger, Happ & Hohenberger, 2002). Diese Studien basieren auf zwei Datenklassen, spontansprachlichen und experimentell induzierten Vergebärdlern und ihren Korrekturen. Während mittlerweile unter den Linguisten Einigkeit darüber besteht, dass die Grammatik von Gebärdensprachen im Wesentlichen dieselben strukturellen Repräsentationen enthält wie die von Lautsprachen, stellt sich für die Sprachverarbeitung die Frage, ob das ihr zugrundeliegende System modalitätsabhängig oder ⫺unabhängig ist oder ob es Komponenten enthält, die für die visuell-gestische Verarbeitung einzigartig sind. Die eben skizzierten Arbeiten zu ASL legen den Schluss nahe, dass Kapazität und Feinstruktur des Sprachproduktionssystems für beide typologisch stark voneinander unterschiedenen Sprachgruppen vergleichbar sind. Dies gilt sowohl für die Fähigkeit des Systems, bestimmte Einheiten zu erfassen und zu manipulieren, als auch für die prozeduralen Eigenschaften, die sich in den Fehlleistungstypen widerspiegeln. Fehlleistungen fallen in zwei große Klassen, nämlich solche, die auf paradigmatischen, und solche, die auf kontextuellen (syntagmatischen) Beziehungen sprachlicher Einheiten beruhen (Bierwisch, 1970). Diese beiden Typen von Fehlleistungen illustrieren die folgenden Beispiele aus den Frankfurter Versprecher- und Vergebärdler-Korpora.: 2.2. Kontextuelle Fehler 2.2.1. Phonologische Fehlleistungen Antizipationen. Bei lautlichen Antizipationen werden Phoneme zu früh realisiert, entweder Konsonanten/Handformen wie in (21/22) oder Vokale/Bewegungen wie in (23/24):
53. Sprachproduktion im Vergleich: Deutsche Lautsprache und Deutsche Gebärdensprache
715
Abb. 53.7:
Abb. 53.8:
Abb. 53.9:
(21) Belamtenbeleidigung I Beamtenbeleidigung Die Y-Handform von ELTERN wird beim Possessivpronomen SEINE antizipiert. Handorientierung, Bewegung und Ausführungsort sowie die Silbenstruktur von SEINE (BHand, Bewegung-Halt) bleiben erhalten. Der Vergebärdler selbst ist eine phonologisch mögliche Gebärde, die jedoch nicht lexikalisiert ist – wie das Gros der gebärdensprachlichen Fehlleistungen. (23) Messstände I Missstände (24) REZEPT BUCH Die Bewegung von BUCH, nämlich das „Aufklappen“, wird beim Spezifikator des Lehnkompositums REZEPTBUCH („Kochbuch“) antizipiert. Die korrekte Bewegung ist in (c) abgebildet.
Perseverationen. In dem Versprecher (25) Ich hab’ mir jetzt den Cosmopolitan getauft I gekauft ist der Konsonant aus einer früheren Position im Satz noch aktiv und wird daher perseveriert. Auch der Vergebärdler (26) ist eine Perseveration: (26) Diskursantezedens „Die Frau“ w (Die Frau)1 LOCH WO pro1 SUCHT Die Handorientierung von LOCH wird beim Verb SUCHT perseveriert, Handform, Bewegung und Ausführungsort des Verbs SUCHT bleiben erhalten. Auch der Ausführungsort kann perseveriert werden, wie der folgende Vergebärdler illustriert:
716 neg Kopfnicken (27) ACHSO, DAS MANN, FRAU „Ach so, das ist kein Mann, sondern eine Frau.“
Abb. 53.10:
Befunde dieser Art machen die Vermutung plausibel, dass dem Prozessor die komplette phonologische Feinstruktur von Gebärden zugänglich ist. In Abschnitt 1.1.1 ist gezeigt worden, dass Gebärdensprachen über zwei Artikulatoren verfügen, die beiden Hände nämlich. Vergebärdler zeigen, dass die Händigkeit eine phonologische Eigenschaft von Gebärden ist, die bei der Sprachproduktion berechnet wird: (28) KOPF SALAT
IV. Sprachrezeption
Merkmale finden sich auch bei genuinen Kompositionsprozessen der DGS. Wenn nämlich in einem Kompositum die erste Gebärde einhändig, die zweite jedoch beidhändig ist, so antizipiert die nicht-dominante Hand bereits beim ersten Morphem die phonologischen Merkmale des zweiten Morphems, und das Kompositum wird zweihändig. Dies trifft bspw. auf das zuvor erwähnte Kompositum für „Übereinstimmung“ zu: bereits bei der Ausführung des ersten einhändigen Morphems (DENKEN) wird auf der nicht-dominanten Hand die G-Handform der zweihändigen Gebärde DASSELBE vorweggenommen (vgl. Abschn. 1.1.2; s. Leuninger, 2001). Auf die Rolle von solchen phonologischen Veränderungen in morphologischen Prozessen für die Sprachproduktion wird in Abschnitt 3.2 näher eingegangen. 2.2.2. Verschmelzungen Werden Bestandteile zweier benachbarter Wörter im Satz zusammengefügt, so entsteht eine Verschmelzung. Dabei spielt die Wortart der beteiligten Elemente keine Rolle (30), sie ist nur zufällig dieselbe (29) (29) Setz Dich auf den Stulrich I auf den Stuhl, Ulrich (30) Fachbereich für evangelische Kathologie I für evangelische und katholische Theologie (31) HALBACHT ABEND
Abb. 53.11:
Das Merkmal „Beidhändigkeit“ der Gebärde SALAT wird auf den ersten Teil des Kompositums KOPF, zielkonform eine einhändige Gebärde, kopiert. Vergleichbare, jedoch zielkonforme, Vorwegnahmen phonologischer
Abb. 53.12:
HALB ist zielkonform eine zweihändige Gebärde, von der im Vergebärdler (31) nur die rechte Dreihand sichtbar ist; diese führt die Bewegung der zweihändigen Gebärde HALB durch, die allerdings nur mit der Flachhand auf der nicht dominanten Hand realisiert ist.
53. Sprachproduktion im Vergleich: Deutsche Lautsprache und Deutsche Gebärdensprache
2.2.3. Vertauschungen Vertauschungen erfassen zwei Elemente (Laute, Morpheme, Wörter) im Satz: (32) nun liebe Lina, schlammere sunft I schlummere sanft (33) ich hätte gerne einen herrenlosen Ärmelpullover I ärmellosen Herrenpullover (34) er hat ’ne Frau als Holländerin I er hat ’ne Holländerin als Frau
717
2.3. Paradigmatische Fehler Wie bei Versprechern (37) so werden auch bei Vergebärdlern (38) lexikalische Beziehungen ausgeschöpft, so z. B. in den folgenden semantischen Substitutionen: (37) Das ist der Hund von Sabine I die Katze (38) (das) HOCHZEITSPAAR STEHTa
SITZTa//
Eine gebärdensprachliche Lautvertauschung illustriert der folgende Vergebärdler: (35) 5 UHR MANN COMPUTER ZUSAMMENKEHRT I LAUB Die Gebärde LAUB besteht aus einer Silbe, die nur eine Bewegungsposition enthält, die mit der SCH-Hand und dem Bewegungsmerkmal von-oben-nach-unten und einem sekundären Merkmal, Fingerwackeln, verknüpft ist. COMPUTER ist eine zweisilbige Gebärde, deren erste Silbe wieder eine Bewegungsposition enthält, die mit denselben primären Merkmalen wie bei LAUB verknüpft ist, jedoch ohne die sekundäre Bewegung des Fingerwackelns. Die zweite Silbe enthält nur einen Halt, verknüpft mit der SCH-Hand und Fingerwackeln. Der Vergebärdler baut eine zusätzliche Silbe auf, jedoch nur deswegen, weil ansonsten die Form phonologisch nicht zulässig wäre. Denn sekundäre Bewegung auf einem Halt darf nur realisiert werden, wenn in der entsprechenden Silbe keine Bewegung ist (vgl. Abschn. 1.1.1). Der Vergebärdler (36) ist eine Wortvertauschung: (36) UMZIEHEN⫹⫹⫹, JETZT AUFSTELLEN⫹⫹⫹ CL⫹⫹⫹ (und) AUSPACKEN⫹⫹⫹ I AUSPACKEN (und) AUFSTELLEN
Abb. 53.14:
Abb. 53.13:
Ebenso aber auch in den Wortkontaminationen (39/40), einer Kompromissbildung von zwei bedeutungsäquivalenten und daher gleichermaßen aktivierten lexikalischen Einträgen, von denen fälschlicherweise einer nicht unterdrückt wird: (39) Zuchthauszitronen I Zuchtzitronen/ Gewächshauszitronen Die beiden konkurrierenden Einträge sind HOCHZEIT (A) und HEIRAT (B). Dabei realisiert die dominante rechte Hand A und die nicht-dominante linke Hand (B). HOCHZEIT wird mit der Y-Handform (dominante Hand) und der Flachhand (nicht-dominante Hand) gebärdet. Diese Gebärde ist monomorphematisch, die linke Hand ist nur ein Artikulator. HEIRAT hingegen ist eine syntagmatische Gebärde, bei der die rechte
718
IV. Sprachrezeption
Hand „den Ring zwischen Daumen und Zeigefinger zum Anstecken“ hält; auf der linken Hand „wird der Ringfinger für den anzusteckenden Ring abgespreizt“, d. h. auf jeder Hand wird ein Morphem gebärdet. Die linke Hand ist also hier nicht bloß ein Artikulator, sondern hat eine unabhängige morphematische Funktion. Bei der Kontamination werden nun zwei Teilstücke der jeweiligen Gebärden zusammengefügt, und zwar ist auf der linken Hand das o.e. Teilstück von HEIRAT, aber mit der Handorientierung von HEIRAT, und auf der rechten Hand wird die Y-Handform und die Bewegung von HOCHZEIT realisiert. Die komplexere Gebärde HEIRAT ist der Rahmen für die Kontamination, ganz vergleichbar lautsprachlichen Kontaminationen, bei denen ebenfalls in der überwiegenden Mehrzahl der Fälle der komplexere Rahmen „gewinnt“ (Berg, 1988; Wiegand, 1996).
Vergebärdlern nicht. Dies hängt vermutlich mit der ganz anderen Morphologie in Gebärdensprachen zusammen, in der gebundene Morpheme viel schlechter von ihren lexikalischen Basen abgetrennt werden können als in den Lautsprachen, in denen gebundene Morpheme linear mit ihren lexikalischen Basen verknüpft werden. Die fast ebenso geringe Häufigkeit von Vertauschungen ist ein zusätzlicher bestimmender Faktor. Bestätigung erhält diese Beobachtung durch neuropsychologische Evidenz (vgl. Abschn. 4.5). In diesem Zusammenhang ist die folgende Beobachtung von Interesse. In Abschnitt 1.1.2 ist gezeigt worden, dass es gebundene und freie Klassifikatoren gibt. Vergebärdler, die gebundene Klassifikatoren erfassen, finden sich in den Daten nicht, allerdings gelegentlich solche, die freie Klasssifikatoren betreffen:
2.4. Verteilung In der folgenden Tabelle wird die Verteilung von Versprechern und Vergebärdlern verglichen (zu den in diesem Text nicht diskutierten Fehlleistungen vgl. Leuninger, Happ & Hohenberger, 2002). Die Fehlleistungen in beiden Sprachen sind in ihrer Häufigkeit vergleichbar für die Typen Antizipation, Perseveration und Substitution, aber unterschieden in den Typen Kontaminationen, Vertauschungen und Verschmelzungen. Insbesondere Fehler des Typs (33), bei dem freie Morpheme vertauscht werden und die gebundenen „stranden“ (Stranding-Fehler, Garrett, 1975), finden sich bei
(41) SCHWIMM CLRahmen//CLBecken Schwimm„rahmen“//becken „Schwimmbecken“ Hier wird ein freier SASS-Klassifikator, ein Prädikat, durch einen semantisch darauf bezogenen ersetzt. Lexikalische Mimik ist ein mit bestimmten Wörtern verknüpftes gebundenes simultan realisiertes Morphem. Da dieses Morphem nicht auf den Händen ausgeführt wird, ist eine Abtrennung wahrscheinlicher, als wenn es durch manuelle Veränderung der Gebärde realisiert würde. In der Tat findet man, wenn auch selten, Abtrennungen von lexikalischer Mimik wie in dem folgenden Vergebärdler:
Tab. 1: Verteilung der Fehlleistungen Versprechertyp/Vergebärdlertyp N
betroffene Einheit
%
Antizipation Perseveration Harmonie Susbtitution sem. form. sem. ⫹ form. Kontamination Verschmelzung Vertauschung Tilgung Hinzufügung
107 124 24 26 110 13 3 105 1 4 26 7
86 89 23 13 86 7 2 48 30 5 10 0
Summe Summe in %
550 399
19.5 22.5 4.4 4.7 20 2.4 0.5 19.1 0.2 0.7 4.7 1.3
Wort 21.5 22.3 5.7 3.3 21.5 1.7 0.5 12.0 7.5 1.2 2.5 0
100 100
28 36 1 12 93 4 3 17 1 2 12 1
Phonem 15 26 1 8 81 3 2 45 30 3 4 0
Morphem Phrase
61 65 23 5
62 58 23
6
3
2 5 5
2 6 1
17 23
8 4
9 17 3
4 5 1
1
1
88
sem. andere Merkmal 1
2
6
210 218 170 152 78 25 38.2 54.6 30.9 38.1 14.2 6.3
1
3 88 16
3 0.8
1 0.3
4 0.73
53. Sprachproduktion im Vergleich: Deutsche Lautsprache und Deutsche Gebärdensprache
719
(42) Diskurs-Topiks: Junge; Schuh neg Mimik:überlegen Mimik:überlegen ZWEITER NICHT-DA. (er) SUCHT// ÜBERLEGT: WO ZWEITER SCHUH Das geplante Verb ÜBERLEGEN wird durch SUCHEN ersetzt, wobei die lexikalische Mimik von ÜBERLEGEN bereits auf der substituierten Gebärde realisiert wird. Andererseits kommen bei den Vergebärdlern mehr Verschmelzungen vor als bei den Versprechern. Dies hängt damit zusammen, dass Verkürzungen und Veränderungen von Gebärden im Rahmen der Wortsyntax, also bei Komposition, ein produktives Verfahren ist (vgl. Abschn. 1.1.2). Wie bei Versprechern so sind auch bei Vergebärdlern bestimmte phonologische Eigenschaften am meisten betroffen, nämlich Konsonanten in der Lautsprache und Handformen in der Gebärdensprache. In der folgenden Tabelle werden DGS- und ASL-Vergebärdler diesbezüglich verglichen:
Tab. 2: Verteilung phonologischer Fehler im Corpus von Klima und Bellugi (1979) und dem DGSCorpus (Handkonfiguration: Handform und Handstellung) Phonologische Eigenschaften ASL (%) DGS (%) Handkonfiguration Ausführungsort Bewegung
73 14.6 12.4
82.5 8.8 8.8
Abb. 53.15: Sprachproduktionsmodell von Levelt (1989)
Der Vergleichbarkeit halber sind hier Handform und Handstellung zusammengefasst, da das ASL-Korpus so ausgewertet wurde. Mögliche Gründe für diese sehr auffällige Asymmetrie werden in Abschnitt 4.2 angesprochen. 2.5. Modelltheoretische Erklärung der Daten Jede sprachliche Äußerung ist eine Übersetzung einer Botschaft in eine phonetische Form. Die Konstruktion der Botschaft wird von diversen außersprachlichen Faktoren wie Weltwissen, Diskurssituation usw. gesteuert. Wie der Weg der Botschaft zur Äußerung aussieht, ist in dem Sprachproduktionsmodell von Levelt (1989) abgebildet: Die Erzeugung der Botschaft ist im Konzeptualisierer angesiedelt. Der Formulator ist die auf die jeweilige Sprache bezogene Verarbeitungskomponente mit zwei Ebenen und einem zweigeteilten Lexikon, dem Lemma- und dem Form- (Lexem-) -Lexikon. Mit den morphologisch und phonologisch noch unspezifizierten Lemmata sind grammatische Informationen verbunden wie syntaktische Kategorie und kombinatorische Merkmale (Verb mit direktem Objekt usw.). Das Formlexikon weist den Lemmata ihre morphologische und
720
IV. Sprachrezeption
phonologische Struktur zu. Dieser Unterschied lässt sich am Unterschied zwischen Phrasen- und Wortkontaminationen verdeutlichen. In einer Phrasenkontamination wie (43) Da bin ich aus allen Socken gefallen I da bin ich aus allen Wolken gefallen/da war ich von den Socken wird in einen der beiden grammatisch kodierten Rahmen das Lemma des anderen Rahmens eingesetzt. Die Substitute in nahezu allen Phrasenkontaminationen haben dieselbe syntaktische Kategorie, aber die interne Struktur der Lemmata ist noch nicht festgelegt. Anders verhält es sich bei Wortkontaminationen wie (39), hier wiederholt: (39) Zuchthauszitronen I Zuchtzitronen/ Gewächshauszitronen und dem Vergebärdler (40), hier wiederholt (40) PAAR//HOCHRAT-HEIRATSPAAR und dem Vergebärdler (40), hier wiederholt (40) PAAR//HOCHRAT-HEIRATSPAAR Hier sind die Bruchstellen innerhalb des Lexems an Morphemgrenzen. Die Wortkontaminationen entstehen daher erst nach dem Abruf aus dem Formlexikon. Wie Phrasenkontaminationen so entstehen auch semantische Substitutionen aus einem fehlerhaften Abruf aus dem Lemma-Lexikon. Kontextuelle Fehlleistungen wie Wortvertauschungen (vgl. (34/36)) entstehen durch fehlerhafte Zuordnungen von Formen zu Lemmata und zeigen sich daher in der Oberflächenstruktur; hier ist nur die Kategorienzugehörigkeit von Belang. Anders verhält es sich bei Stranding-Irrtümern und phonologischen Vertauschungen. Diese beziehen sich auf das Formlexikon und das phonologische Kodieren. Stranding-Irrtümer können nur entstehen, weil zu einem bestimmten Zeitpunkt der Planung gebundene Morpheme berechnet werden; diese Information stammt aus dem Formlexikon und muss in der Struktur linearisiert werden. Wenn, wie in dem Vergebärdler (42), bei der Substitution die Mimik des geplanten Elements erhalten bleibt, so ist dies für die Modellierung ein ziemlich komplizierter Fall. Denn der Fehler
entsteht zwar durch die falsche Auswahl aus dem Lemma-Lexikon, aber offenkundig nicht vollständig, denn das Vergebärdler-Lexem zeigt vermutlich, dass das korrekte Lemma bei der morphologischen Ausbuchstabierung in der Berechnung noch vorhanden ist, so dass die lexikalisch angemessene Mimik zurückbleibt. 2.6. Fazit Die menschliche Sprachproduktion durchläuft unabhängig von der Modalität der jeweiligen Sprache dieselben Stadien und hat Zugang zu denselben Komponenten. Modalitätsunterschiede zeigen sich immer dann, wenn formales Design und struktureller Gehalt sich dramatisch voneinander unterscheiden. Dies spiegelt sich in der Verteilung der Fehlleistungstypen wider.
3.
Korrekturen
Korrekturen zeigen die effiziente Funktionsweise der Sprachverarbeitung; der Sprachproduktionskomponente ist eine Wahrnehmungskomponente mit einem Monitor nachgeschaltet, der den Output der Produktionskomponente überwacht und zur Reparatur freigibt (s. Abbildung 53.15). 3.1. Editing Die Korrekturrate bei den Versprechern und Vergebärdlern ist gleich; etwa 50 % der Fehler werden hörbar oder sichtbar korrigiert. Schon Meringer und Mayer (1895) haben darauf hingewiesen, dass manche Fehlleistungen zwar bemerkt, aber dennoch nicht korrigiert werden, und dass selbst Korrekturen unbewusste, automatisierte Handlungen sind. Korrekturen werden gelegentlich von sog. Editing-Ausdrücken nach der Fehlleistung begleitet: non-verbale (Lautsprache: äh, hmm usw.; DGS: Gesichtsausdruck usw.) oder verbale, aber bedeutungsentleerte Ausdrücke (Lautsprache: Entschuldigung, ach Du meine Güte usw.; DGS: ENTSCHULDIGUNG, NOCHMAL usw.). Bemerkte, aber nicht korrigierte Fehler zeigen die folgenden Beispiele: (44) der hessische Jusmiti ⬍Lachen⬎ I Justizminister
t ⬍Signer schaut nach oben⬎ (45) BUB BETT VERSCHWUNDEN. I SCHUH „Der Junge (er stellt fest), das Bett ist verschwunden I Schuh.
53. Sprachproduktion im Vergleich: Deutsche Lautsprache und Deutsche Gebärdensprache
721
Abb. 53.16:
Beim Ausführen der Gebärde VERSCHWUNDEN tritt am Silbenanfang ein nonverbaler Ausdruck hinzu, eine verzögerte Markierung dafür, dass die Fehlleistung BETT bemerkt wurde.
Solche Neustarts finden sich auch bei Vergebärdlern wie in (40) und (28), hier wiederholt:
3.2. Plätze für Neustarts Welche Korrekturen gibt es, und an welchen Stellen werden die fehlerhaften Äußerungen hauptsächlich abgebrochen und einer Korrektur zugeführt? Korrekturen können an unterschiedlichen Stellen in der Äußerung einsetzen. In Versprechern treten sie gelegentlich verzögert (46), tendenziell nach dem fehlerhaften Wort (47), manchmal im Wort an einer Silbengrenze oder einer potentiellen Silbe (48), selten nach einem Silbenanfang der fehlerhaften Äußerung (49) auf:
In (40) wird nach dem fehlerhaften Wort korrigiert, in (28) wird die Bewegung der linken Hand nicht vollständig ausgeführt, denn die Hand stoppt vor ihrem Endpunkt, hat also keinen Kontakt mit dem Kopf. Folgende schrittweise Korrektur ist besonders aufschlussreich für Sprachproduktion und Monitoring im Modalitätsvergleich. Der Vergebärdler entsteht durch eine fehlerhafte Auswahl aus dem Lemma-Lexikon, ist daher eine semantische Substitution und in dieser Hinsicht Versprechern wie (37) vergleichbar. Vom Korrekturweg her betrachtet ist der Vergebärdler solchen schrittweisen Annäherungen wie (51) ebenbürtig:
(46) Was hasst das denn, was heißt das denn? (47) zum Abschluss des sechstägigen Handy, Händel-Festivals (48) Die Brie, ä, Quä, äh, die Bremsen quietschen (49) der Tee schn, der Schnee taut
Abb. 53.17:
(40) PAAR//HOCHRAT-HEIRATSPAAR (28) KOPF SALAT
(51) Das Brett, äh, das Tablett, äh, das Blech ist sowieso voll. Die nicht durch Editing-Ausdrücke unterbrochene Korrekturroute ähnelt dem folgenden Fall:
722
IV. Sprachrezeption
(52) Sie haben sich an der Ente unschädlich getan, gemacht, gehalten I schadlos gehalten Jedoch ist der linguistische Rahmen der gebärdensprachlichen Korrekturroute einzigartig und für die deutsche Lautsprache nicht belegt, und die jeweiligen Abbruchstellen sind eher untypisch für Lautsprachen. Nach dem Lemma-Abruf muss eine morphophonologische Gestalt erstellt werden, etwa so wie in den Wortkontaminationen (39/40). Eine mögliche Gestalt ist z. B. ein Kompositum. Es scheint, dass in dieser ersten Korrektur die Regel der gleichgerichteten Bewegung greift (vgl. Abschn. 1.1.2). Da sich die schrittweise Korrektur von der höher platzierte Gebärde VATER über die eine intermediäre, tiefer liegende Gebärde bewegt, entsteht semantisch unerwartet der Anfang der Gebärde TOCHTER und nicht die semantisch erwartete Gebärde SOHN. SOHN hätte nämlich aufwärts gebärdet werden müssen. Es handelt sich hier um einen phonologischen Assimilationsprozess. Fehler, Zwischenschritt und Ziel fügen sich quasi in einen wortsyntaktischen Rahmen ein. Darüber hinaus sind bei dieser Korrektur Abbruchstellen bzw. Neustarts aufschlussreich. Sowohl beim Fehler als auch beim Zwischenschritt befinden diese sich in der Silbe. VATER ist eine maximale Silbe mit den Positionen Halt ⫺ Bewegung ⫺ Halt. Im Fehler werden nur die mit dem Halt verbundenen phonologischen Eigenschaften realisiert. TOCHTER/SOHN ist eine Silbe, die nur eine Bewegungsposition enthält. Der fehlerhafte Zwischenschritt wird im Silbenkern abgebrochen. Ein noch früher einsetzender Neustart ist in der folgenden Korrektur zu beobachten: (53) Y-Handform (geplant: ELTERN)// VATER MUTTER Von der beabsichtigten Gebärde ELTERN wird nur die Y-Handform realisiert, und zwar
vor dem Silbeneinsatz, bei dem die Silbenposition Halt mit den Merkmalen Handform, Handstellung und Beidhändigkeit verknüpft ist, dann erfolgt die Korrektur zu VATER und MUTTER. Da gebärdensprachliche Äußerungen sichtbar sind, lässt sich eine fehlerhafte Planung gelegentlich noch vor dem Silbeneinsatz erkennen, und zwar auf der für den Silbengehalt irrelevanten Übergangsbewegung hin zu der geplanten Struktur, ein Phänomen, das man bei lautsprachlichen Fehlleistungen nur mühsam unter Einsatz spezieller Messgeräte erfassen kann. Dass die Silbe selbst auch aus psycholinguistischer Sicht eine relevante Berechnungseinheit ist, zeigt die folgende Korrektur einer semantischen Substitution: (54) METALL1.Silbe//GLAS2.Silbe CLrechteckig METALL und GLAS sind zielkonform zweisilbige Gebärden aus zwei identischen Silben (Reduplikation). Die Korrektur erfolgt hier nach der ersten Silbe von METALL und vor GLAS. Es wird jedoch nur noch eine der beiden Silben realisiert. Damit kann der vom Prozessor zur Verfügung gestellte Zeitrahmen eingehalten werden, so dass die vollständige Äußerung mit Korrektur genauso lange dauert wie die intendierte fehlerfreie Äußerung. Reduplikationen sind im Deutschen selten, daher kann hier zum Vergleich nur ein konstruierter Versprecher angeführt werden: (55) chiplem I chichi/plemplem Die Verteilung von Stellen für Neustarts in Lautsprachen (Daten aus Levelt, 1989) und DGS macht den Modalitätsunterschied deutlich. Der Modalitätseffekt bezieht sich auf den Parameter Zeit und den damit verbundenen besseren Zugang des Monitors zu Informationen vor der eigentlich intendierten Äußerung. Dieser Effekt ist also rein phonetischer Natur.
Tab. 3: Verteilung von Neustarts Abbruchsort
N DLS
vor Wort im Wort nach Wort verzögert andere
139 86 52 15
S Korrekturen Verhältnis Korrektur/Slip
292 292/550
DGS 20 92 63 18 193 193/399
% DLS 47,60 29,45 17,81 5,14 100 53,09
DGS 10,36 47,67 32,64 9,33 100 48,37
53. Sprachproduktion im Vergleich: Deutsche Lautsprache und Deutsche Gebärdensprache
723
Abb. 53.18:
3.3. Eine modelltheoretische Erklärung Mit dieser Erklärung lässt sich die nahezu vollständige Abwesenheit aller anderen Vertauschungen begründen. Die Ausführung von Gebärden dauert wegen der Grobmotorik der Hände länger als die Artikulation von Wörtern. Demgemäß hat die Kontrollkomponente mehr Zeit zur Verfügung, schon beim ersten Fehler abzubrechen, so dass dann korrekt fortgefahren werden kann. Stemberger (1989) unterscheidet vollständige von unvollständigen Vertauschungen, also solchen, bei denen wie eben angedeutet, nur der erste Teil einer möglichen Vertauschung realisiert wird („incompletes“). Es wäre daher möglich, dass sich in der Kategorie „Antizipationen“ unvollständige Vertauschungen verbergen. Ein letztes Datum zur Bewertung des Sprachproduktionsmodells soll hier noch angeführt werden. Zunächst wird fälschlicherweise 7 UHR gebärdet; verzögert, nämlich nach dem Silbeneinsatz der zweiten Gebärde wird mit Editing-Ausdrücken abgebrochen und die Zeitangabe zu 5 UHR korrigiert. Nun taucht nochmals das Teilstück von ABENDS auf, das jetzt aber nicht mehr passt. Die Korrektur SPÄTER ist eine globale Korrektur, die nichts vom alten Plan fortsetzt. Offenkundig
bearbeitet der Prozessor in diesem Fall parallel zwei Teilstücke, sog. Inkremente (Kempen & Hoenkamp, 1987; Leuninger, Happ & Hohenberger, 2002). Für eine modalitätsunabhängige Konzeption und Interpretation des Sprachproduktionsmodells bedeuten frühe Abbrüche und inkrementelle Verarbeitung Folgendes: Der internen FeedbackSchleife muss eine größere Bedeutung zugesprochen werden. Denn wenn bereits vor dem geplanten (Gebärden-)Wort korrigiert werden kann, dann verbleibt die geplante Äußerung vollständig in der inneren Sprache. Frühe Abbrüche und Neustarts sprechen zweitens dafür, dass die geplante Äußerung Stück für Stück weitergegeben wird, so dass das gesamte System viele Informationen parallel berechnet. Gelegentlich scheint die Kapazität des Systems überschritten zu sein und die FehlerKorrektur-Sequenzen zu etwas zu führen, das man „Virus“ nennen könnte: (57) Meine Damen und Herren, Sie hörten die H-moss-Melle ⬍Entschuldigung⬎, die H-mess-Molle ⬍ich bitte vielmals um Verzeihung⬎, die H-moll-Messe von Johann Sebaldrian Bach ⬍jetzt häng ich mich auf⬎
(58) PUNKT 12 UHR//ES-GEHT-DARAUF-ZU, 12 UHR, ES-GEHT-(DARAUF-ZU). ⬍NOCHMAL GEBÄRDEN, DA-GEHT-MIR-DIE-PUSTE-AUS, DAS-GEHT-MIRAUF-DEN-WECKER⬎ Kopfnicken 12 UHR KIRCHE//ES-GEHT-DARAUF-ZU, FERTIG, 12 UHR GENAU, ESSEN. KUCHENCl pyradmidal PAAR//HOCHRAT HEIRATSPAAR GEMEINSAM sieSCHNEIDENCl. „Es ist Punkt 12, es geht auf 12 Uhr zu, es ist 12 Uhr, es geht auf (12 Uhr) zu. Nochmal das Ganze gebärden, da hab ich keinen Bock drauf, das nervt mich. Es ist 12 Uhr, die Kirche, es geht auf 12 Uhr zu, (sie ist) aus. Um Punkt 12 essen (die Leute). Die Hochzeitstorte schneidet das Paar, das Hochrats, Heiratspaar gemeinsam an, die Torte.“
724
IV. Sprachrezeption
Korrekturen belasten wegen der inkrementellen Parallelverarbeitung im Produktions- und Kontrollsystem den Prozessor. Ist ein bestimmtes Maß überschritten, scheitert letztendlich die vollständige erfolgreiche Ausgabe der geplanten Äußerung.
4.
Evidenz aus der Neuropsychologie
Die Evidenz aus den Vergebärdler-Daten belegt, dass ein Prozess für Gebärdensprachen und Lautsprachen zuständig ist. Viele scheinbare Unterschiede hängen nicht mit der Modalität, sondern mit speziellen Strukturen der Gebärdensprache zusammen. Modalitätseffekte zeigen sich vor allem in peripheren Bereichen wie der Phonetik und der Motorik, also an der Schnittstelle zwischen sprachlichen Repräsentationen und ihrer Artikulation. 4.1. Die entscheidenden Fragen Es stellt sich nun die Frage, ob diese psycholinguistischen Beobachtungen durch neuropsychologische Evidenz gestützt werden können. Dazu werden im Folgenden einige Studien zur hemisphärenspezifischen Verarbeitung von Gebärdensprachen präsentiert. Diese Studien sind durch drei Fragestellungen geleitet (Corina, 1997): 1. Werden Gebärdensprachen wie Lautsprachen linkshemisphärisch verarbeitet? 2. Gibt es eine Hemisphärenspezialisierung für sprachliche und nicht-sprachliche visuoräumliche Fähigkeiten? Welche Effekte hat die visuelle Sprachverarbeitungsmodalität? 3. Entsprechen Ergebnisse aus Sprachverhaltensstudien solchen aus avancierten neurologischen Untersuchungen wie etwa aus ERP-Studien? Wie Hörende so zeigen auch gehörlose Signer, die Gebärdensprache als Muttersprache erworben haben, mit hemisphärischen Beeinträchtigungen Störungen in allen relevanten Sprachverarbeitungskomponenten. Signifikante visuoräumliche Störungen sind jedoch nicht zu beobachten. 4.2. Phonologische Fehlleistungen Eine bekannte Störung in lautsprachlichen Aphasien sind phonologische Paraphasien, die sich bei sehr vielen Aphasieformen in unterschiedlichem Schweregrad zeigen (Zwirdel für Zwiebel; Prekinjast für Polizist usw.;
Blanken, 1991; Leuninger, 1989). Auch bei Gebärdensprachstörungen finden sich solche formalen Fehlleistungen. Zwar können Elemente aller phonologischen Klassen erfasst werden, Handformirrtümer sind jedoch die häufigsten (Corina, 1997; vgl. Abschn. 2.4). Dieser Befund spiegelt sich in den Vergebärdlerdaten wider. In der aphasiologischen Literatur wird diese Asymmetrie von Handformfehlern einerseits und Fehlern in Bezug auf die restlichen phonologischen Merkmale andererseits mit lautsprachlichen Fehlleistungen gleichgesetzt. Auch in lautsprachlichen phonologischen Fehlleistungen sind überzufällig mehr Konsonantenfehler zu beobachten. Handformen sind, wie wir gesehen haben, konsonantische, wenig sonorante Elemente, daher erstaunt dieses Ergebnis nicht. Ob dieser Unterschied neuronal und/oder statistisch (größere Häufigkeit von Handformen/Konsonanten) begründet werden kann, ist gegenwärtig noch nicht klar. Klar jedoch ist, dass die Datenverteilung in Lautsprachen und Gebärdensprachen vergleichbar ist, ein Ergebnis, das sich aus einer modalitätsunabhängigen Konzeption des menschlichen Sprachvermögens ableiten lässt (Hohenberger, Happ & Leuninger, 2002). 4.3. Morphosyntaktische Fehlleistungen und Räume Aus der Erforschung des Agrammatismus in Lautsprachen ist bekannt, dass insbesondere morphosyntaktische Einheiten und Prozesse fehleranfällig sind, wobei sich der Grad an morphologischer Markierung im Ausmaß der Beeinträchtigung zeigt (Penke, 1998; Corina, 1997). Gebärdensprachen sind, wie wir gesehen haben, stark flektierende Sprachen, so dass wir für Patienten mit Schädigungen in der Broca-Region erwarten würden, dass Subjekt-Objekt-Kongruenz bei Verben ausfällt und statt dessen die lexikalische Nennform verwendet wird (vgl. Abschn. 1.1.2). Diese Erwartung bestätigte sich in den Leistungen von Agrammatikern, die ASL als Muttersprache haben. Insbesondere konnte gezeigt werden, dass die gebärdensprachliche Raumsyntax unabhängig von der kognitiven Raumverarbeitung ist. Jene Testpersonen, die Schädigungen in den Spracharealen der linken Hemisphäre aufwiesen, schnitten in Testaufgaben zur räumlichen Verarbeitung erfolgreich ab, während sie mit der räumlich ausgedrückten Flexion von Gebärden und der Verortung von Referenten erhebliche Schwierigkeiten hatten. Vollständig komple-
53. Sprachproduktion im Vergleich: Deutsche Lautsprache und Deutsche Gebärdensprache
mentär waren die Leistungen rechtshemisphärisch geschädigter gehörloser Personen (Bellugi, Poizner & Klima, 1989; Poizner, Bellugi & Klima, 1990; Poizner, Bellugi & Klima, 1991). Modalitätseffekte bei der Raumverarbeitung lassen sich jedoch auch finden. Bei manchen Aufgaben zur Verarbeitung des nichtsprachlichen Raums sind gehörlose Kinder bis zum Alter von sechs Jahren hörenden Kindern überlegen (Bellugi, O’Grady, LilloMartin, O’Grady Hynes, van Hoek & Corina, 1990). Bereits im Alter von drei Jahren erreichen gehörlose Kinder die für sechsjährige hörende Kinder ermittelte Norm in Bezug auf das Erkennen von Gesichtern aus unterschiedlichen Perspektiven. Dieser Vorteil ist sicherlich auch darin begründet, dass gehörlose Kinder schon früh in ihrem Leben auf die verschiedenen Ausdrucksformen im Gesicht achten. Wie mächtig diese Vertrautheit mit visuellen Informationen ist, belegen Leistungen gehörloser im Vergleich zu hörenden Kindern, wenn sie aus Bewegungen Struktur extrahieren sollen. Chinesische Kinder der ersten Schulklasse sahen das kontinuierliche Muster eines chinesischen Pseudoschriftzeichens, das geschrieben aus separaten Strichen besteht.
Abb. 53.19:
Die Unterschiede in den Leistungen der gehörlosen und der hörenden Kinder waren erheblich:
Abb. 53.20:
725
Gehörlose Kinder sind wohl auch deswegen so viel erfolgreicher, weil sie von Beginn ihres Spracherwerbs an dafür sensibilisiert sind, aus visuell zugänglichen Bewegungen strukturelle Informationen abzuleiten und davon bloße Übergangsbewegungen zu unterscheiden. So müssen sie z. B. aus den mit der Ausführung der Gebärde GEBEN verbundenen unterschiedlichen Bewegungen die Subjekt- Objekt-Kongruenz extrahieren. Diese Überlegenheit hält das ganze Leben an. Diese Studien belegen, dass die Hemisphärenspezialisierung nicht davon abhängig ist, welche Sprache im Spracherwerb angeboten wird (vgl. die ausführliche Darstellung der einschlägigen Literatur in Corina, 1997). 4.4. Die entscheidenden Jahre Hingegen ist das Erwerbsalter offenkundig eine kritische Variable für die Spezialisierung der linken Hemisphäre. Weltweit haben nur 5 bis 10 % der gehörlosen Kinder gehörlose Eltern und erwerben eine Gebärdensprache in der kritischen Phase als Muttersprache. Da nur sehr wenige hörende Eltern kompetente Signer sind bzw. die hörenden Eltern Gebärdensprache erst lange nach der Geburt ihres gehörlosen Kindes erwerben, lernen ihre Kinder Gebärdensprachen meist erst, wenn sie älter sind. Daher ist die Variation im Erwerbsalter bei gehörlosen Menschen weitaus größer als die hörender Menschen (Dufour, 1997) und die Erwerbssituation oft nicht besonders günstig. Wie sich das unterschiedliche Erwerbsalter auf die gebärdensprachliche Kompetenz auswirkt, ist in diversen Studien untersucht worden. Newport (1990) bspw. untersuchte grammatische Fähigkeiten bei Signern, die ASL von Geburt an lernten, und solchen, deren erste gebärdensprachliche Erfahrung nach der kritischen Erwerbsphase einsetzten (ab dem Alter von vier bis sechs bzw. zwölf Jahren). Die Leis-
726
IV. Sprachrezeption
tungen bei der Verarbeitung der unmarkierten Gebärdenwortordnung in ASL (SubjektVerb-Objekt) unterschieden sich in den Gruppen nicht, während im Bereich der Morphologie die frühen Lerner die weitaus besten Leistungen aufwiesen. Die beiden anderen Gruppen zeigten erhebliche Lücken im morphologischen System, das sie nicht oder nur sehr fehlerhaft verwendeten. Ähnliche Ergebnisse erhielt Emmorey (1991). In Bezug auf ihre Kenntnisse der Verbflexion schnitten die gehörlosen frühen Lerner deutlich besser ab als die späten Lerner. In einem Wiederholungsexperiment memorierten frühe Lerner mehr lexikalische Stämme und vergaßen weniger morphologische Informationen (wie etwa Verbkongruenz) als späte Lerner. In einer Studie von Neville (1991b) zeigte sich eine Spezialisierung der linken Hirnhälfte für die Gebärdensprachverarbeitung gehörloser Signer; aber eine solche Asymmetrie konnte auch belegt werden für hörende Signer, die ASL als Erstsprache von ihren gehörlosen Eltern lernten. Die Daten wurden mittels der ERP-Technik erhoben. Mit der ERP-Technik („event related potentials“; ereigniskorrelierte Potentiale) können nach äußeren Reizen auftretende Spannungsänderungen von wenigen Mikrovolt bis hinab zum Nanovoltbereich auf der Oberfläche des Gehirns ermittelt werden (Wallesch & Deuschl, 1997). Auf die gebärdensprachliche Feinstruktur zielt das Experiment von Neville u. a. (1997), in dem ebenfalls mithilfe der ERP-Technik die hemisphärenspezifische Verarbeitung von Elementen der geschlossenen Klasse (Funktionswörter, grammatische Morpheme usw.) und der offenen Klasse (Nomina, Verben usw.) untersucht wurde. Wörter der geschlossenen Klasse dienen vornehmlich der ersten syntaktischen Analyse von Sätzen, und daher ist es besonders interessant zu sehen, wo solche Elemente im Gehirn berechnet werden. Auch in dieser Studie zeigte sich, dass unter der Bedingung, dass Gebärdensprache als Muttersprache in der kritischen Erwerbsphase erworben wird, und unabhängig davon, ob dies gehörlose oder
hörende Signer sind, die linke Hemsiphäre die Hauptarbeit bei der Verarbeitung der Elemente der geschlossenen Klasse übernimmt, so wie dies für hörende englische Muttersprachler auch zutrifft. Wird Gebärdensprache spät erworben, verschwindet diese Asymmetrie. Während für die Wörter der offenen Klasse dieselben ERP-Effekte für Signer und Sprecher nachgewiesen werden konnten, zeigten sich leichte Unterschiede für die Elemente der geschlossenen Klasse. Diese Unterschiede können z. T. damit erklärt werden, dass die Abtrennbarkeit von Elementen der geschlossenen Klasse in Gebärdensprachen wegen ihrer fusionalen Morphologie oft weniger deutlich ist als in vielen Lautsprachen, insbesondere dem Englischen. Auch dieses Ergebnis stützt die Forschungen zu spontansprachlichen Vergebärdlern. In den Abschnitten 2.2.3 und 2.5 ist dargelegt worden, dass gebärdensprachliche StrandingIrrtümer nicht vorkommen, während zumindest in den spontansprachlichen Sammlungen lautsprachlicher Versprecher solche Irrtümer mit einem gewissen nicht marginalen Anteil vertreten sind.
5.
Modalität und das menschliche Sprachvermögen
Die Gebärdensprachen dieser Welt unterliegen universellen sprachlichen Prinzipien, wie sie auch für Lautsprachen gelten, und sind in denselben Hirnarealen repräsentiert wie Lautsprachen. Gehörlose Kinder erwerben mit derselben Leichtigkeit eine Gebärdensprache, wenn sie ihnen in der kritischen Phase ihres Spracherwerbs angeboten wird. In dieser Zeit baut sich das Sprachverarbeitungssystem auf, das in der Lage ist, mit derselben Effizienz Sprache zu verarbeiten, wie dies für Lautsprachen gilt. Modalitätsunterschiede zeigen sich vor allem in zwei Bereichen, an der Schnittstelle zwischen Sprachstrukturen und artikulatorischen Prozessen und bei der vergleichsweise mühelosen Raumverarbeitung.
Notation und Abkürzungen t XYZ G-E-R-D-A X-Y
Topikalisierungsmimik: hochgezogene Augenbrauen Majuskeln notieren Gebärden buchstabierte Äußerung eine Gebärde
53. Sprachproduktion im Vergleich: Deutsche Lautsprache und Deutsche Gebärdensprache
X⫹⫹⫹ Xa ichVERBdir VERBCl CL Asp pron xyz ja/nein w neg
Plural (Wiederholung der Gebärde) Gebärde mit Verortung Verb mit Personenkongruenz klassifiziertes Verb Klassifikator Aspekt Variable, die durch ein Diskursantezedens gebunden ist Bereich einer simultanen Markierung Mundgestik Entscheidungsfrage (hochgezogene Augenbrauen) W-Frage (Ergänzungsfrage; zusammengezogene Augenbrauen) Negation (Kopfschütteln)
XYZ <…..> X(YZ) //
Vergebärdler editing-Ausdruck Abbruch im Wort Abbruch (sonst.)
ASL DGS
Amerikanische Gebärdensprache (American Sign Language) Deutsche Gebärdensprache
6.
Literatur
727
Whitaker (Eds.), Handbook of Neurolinguistics (pp. 313⫺329). San Diego: Academic Press.
Bellugi, U., Poizner, H. & Klima, E. S. (1989). Language, modality, and the brain. Trends in Neurosciences, 10, 380⫺388.
Coulter, G. R. (Hrsg.) (1993). Current issues in ASL phonology. San Diego: Academic Press.
Bellugi, U., O’Grady, L., Lillo-Martin, D., O’Grady Hynes, M., van Hoek, M. & Corina, D. (1990). Enhancement of spatial cognition in deaf children. In C. Volterra & G. Erting (Eds.), From gesture to language in hearing and deaf children (pp. 278⫺298). New York: Springer.
Dufour, R. (1997). Sign language and bilingualism: Modality implications for bilingual language representation. In A. M. B. de Groot & J. F. Kroll (Eds.), Tutorials in bilingualism. Psycholinguistic perspectives (pp. 301⫺330). Mahwah, NJ: Lawrence Erlbaum.
Berg, T. (1988). Die Abbildung des Sprachproduktionsprozesses in einem Aktivationsflußmodell. Untersuchungen an deutschen und englischen Versprechern. Tübingen: Niemeyer
Emmorey, K.(1991). Repetition priming with aspect and agreement morphology in American Sign Language. Journal of Psycholinguistic Research, 20, 365⫺388.
Bierwisch, M. (1970). Fehler-Linguistik. Linguistic Inquiry, 1, 397⫺414.
Fischer, R. & Lane, H. (1993). Blick Zurück. Ein Reader zur Geschichte von Gehörlosengemeinschaften und ihren Gebärdensprachen. Hamburg: Signum.
Blanken, G. (1991). Einführung in die linguistische Aphasiologie. Trier: Hochschulverlag. Bouchard, D. (1997). Sign language & language universals: The status of order & position in grammar. Sign Language Studies, 91, 101⫺160. Boyes Braem, P. (1995). Einführung in die Gebärdensprache und ihre Erforschung. Hamburg: Signum. Brentari, D. (1996). Eine prosodische Beschreibung zweihändiger Gebärden in ASL. DAS ZEICHEN, 37, 372⫺387.
Garrett, M. F. (1975). The analysis of sentence production. In G. Bower (Ed.). The psychology of learning and motivation (pp. 133⫺177). New York: Verlag. Glück, S. (2001). Morphosyntaktische Eigenschaften der Klassifikation in Deutscher Gebärdensprache. In H. Leuninger & K. Wempe (Hrsg.), Gebärdensprachlinguistik 2000 – Theorie und Anwendung (pp. 127⫺145). Hamburg: Signum.
Cokely, D. (1983). When is a Pidgin not a Pidgin? An alternate analysis of the ASL-English contact situation. Sign Language Studies, 12, 1⫺24.
Glück, S. & Pfau, R. (1998). Eine Klasse für sich: Klassifizierende Verben in Deutscher Gebärdensprache. Zeitschrift für Sprachwissenschaft, 15, 1⫺ 27.
Corina, D. (1997). The processing of sign language. Evidence from aphasia. In B. Stemmer & H. A.
Glück, S., Happ, D., Leuninger, H., Keller, J., Koblitz, G. & Pfau, R. (1997). Zur phonologischen
728 Beschreibung von Gebärden: Vergebärdler. DAS ZEICHEN, 40, 240⫺257. Happ, D. (2000). Deutsche Gebärdensprache 1. Frankfurter Linguistische Forschungen. Sondernummer. Happ, D. & Hohenberger, A. (2001). DFG-Projekt Vergebärdler. Phonologische und morphologische Aspekte der Sprachproduktion in Deutscher Gebärdensprache. In H. Leuninger & K. Wempe (Hrsg.), Gebärdensprachlinguistik 2000 – Theorie und Anwendung (pp. 217⫺240). Hamburg: Signum. Happ, D. & Leuninger, H. (1998). DGS zum Kennenlernen. Frankfurter Linguistische Forschungen. Sondernummer RELEX. Happ, D. & Leuninger, H. (2000). RELEX. Ein ökumenisches Lexikon religiöser Gebärden. CDROM (zs. mit A. Feldmann) und Begleitbuch. Frankfurter Linguistische Forschungen. Happ, D., Glück, S., Hohenberger, A., Keller, J., Leuninger, H. & Pfau, R. (1998). Ich sehe was, was Du nicht hörst. Struktur, Erwerb und Verwendung der Deutschen Gebärdensprache. Forschung Frankfurt, 3, 4⫺11. Hase, U. (1996). Zur aktuellen Situation gehörloser Bürger und Bürgerinnen in Deutschland. DAS ZEICHEN, 35, 34⫺43. Hohenberger, A., Happ, D. & Leuninger, H. (2002). Modality-dependent aspets of sign language production. Evidence from slips of the hand and their repairs in German Sign Language. In R. Meier, K. Cormier & D. Quinto, (Eds.), Modality and structure in signed and spoken language (pp. 112⫺142). Cambridge, MA: Cambridge University Press. Jakobovitz, E. L. & Stokoe, W. C. (1988). Signs of tense in ASL verbs. Sign Language Studies, 60, 331⫺340. Keller, J. (1998). Aspekte der Raumnutzung in der Deutschen Gebärdensprache. Hamburg: Signum. Keller, J. & Rech, T. (1993). Gegen Vorurteile: Gebärdensprache. Sprache & Kognition, 12, 130⫺144. Keller, J., Hohenberger, A. & Leuninger, H. (2001). Sign language production: Slips of the hand and their repairs in German Sign Language. In A. Baker, B. van den Bogaerde & O. Crasborn (Eds.), Proceedings of the TSLR 2000, Amsterdam. Kempen, G. & Hoenkamp, E. (1987). An incremental procedural grammar for sentence formulation. Cognitive Science, 11, 201⫺258. Klima, E. & Bellugi, U. (1979). The signs of language. Cambridge MA: Harvard University Press. Leuninger, H. (1989). Neurolinguistik. Probleme, Paradigmen, Perspektiven. Opladen: Westdeutscher Verlag.
IV. Sprachrezeption Leuninger, H. (2000). Mit den Augen lernen: Gebärdenspracherwerb. In H. Grimm (Hrsg.), Enzyklopädie der Psychologie. Bd. IV: Sprachentwicklung (pp. 229⫺240). Göttingen: Hogrefe. Leuninger, H. (2001). Das Projekt RELEX. In H. Leuninger & K. Wempe (Hrsg.), Gebärdensprachlinguistik 2000 – Theorie und Anwendung (pp. 171⫺ 192). Hamburg: Signum. Leuninger, H. & Keller, J. (1994). Some remarks on representational aspects of language production. In D. Hillert (Ed.), Linguistics and cognitive neuroscience. Sonderheft Linguistische Berichte (pp. 83⫺110). Opladen: Westdeutscher Verlag. Leuninger, H., Happ, D. & Hohenberger, A. (2002). Sprachliche Fehlleistungen und ihre Korrekturen in Deutscher Gebärdensprache. Modalitätsneutrale und modalitätsabhängige Aspekte der Sprachproduktion. In C. Habel & T. Pechmann (Hrsg.), Sprachproduktion. Wiesbaden: Deutscher Universitätsverlag (im Druck). Levelt, W. J. M. (1989). Speaking. From intention to articulation. Cambridge, MA: MIT Press. Liddel, S. K. & Johnson, R. E. (1986). American Sign Language compound formation processes, lexicalization, and phonological remnants. Natural Language & Linguistic Theory, 4, 445⫺513. Liddell, S. K. & Johnson, R. E. (1989). The phonological base. Sign Language Studies, 64, 195⫺277 Lillo-Martin, D. (1991). Universal grammar and American Sign Language: Setting the null argument parameters. Dordrecht: Foris. Meringer, R. & Mayer, C. (1895). Versprechen und Verlesen. Eine psychologisch-linguistische Studie. Stuttgart. Nachdruck: H. Cutler (Ed.), Classics in psycholinguistics. Amsterdam: Benjamins. Neville, H. (1991a). Neurobiology of cognitive and language processing: Effects of early experience. In K. R. Gibson & A. C. Petersen (Eds.), Brain maturation and cognitive development: Comparative and cross-cultural perspectives (pp. 355⫺380). Hawthorne, NY: Aldine de Gruyter Press. Neville, H. (1991b). Whence the specialization of the language hemisphere? In I. G. Mattingly & M. Studdert-Kennedy (Hrsg.), Modularity and the motor theory of speech perception (pp. 265⫺294). Hillsdale, NJ: Erlbaum. Neville, H., Coffee, S. A., Lawson, D. S., Fischer, A., Emmorey, K. & Bellugi, U. (1997). Neural systems mediating American Sign Language: Effects of sensory experience and age of acquisition. Brain and Language, 57, 285⫺308. Newkirk, D., Klima, E. S., Pedersen, C. C. & Bellugi, U. (1980). Linguistic evidence from slips of
53. Sprachproduktion im Vergleich: Deutsche Lautsprache und Deutsche Gebärdensprache the hand. In: Fromkin, V.A. (Hrsg.). Errors in linguistic performance: Slips of the tongue, ear, pen, and hand (pp. 165⫺198). New York: Academic Press. Newport, E. (1982). Task specifity in language learning? Evidence from speech perception and American Sign Language. In E. Wanner & L. R. Gleitman (Eds.), Language acquisition. The state of the art. Cambridge: Cambridge University Press. Newport, E. (1990). Maturational constraints on language learning. Cognitive Science, 14, 11⫺29. Padden, C. A. (1988). Interaction of morphology and syntax in American Sign Language. New York: Garland Publishing. Penke, M. (1998). Die Grammatik des Agrammatismus. Eine linguistische Untersuchung zu Wortstellung und Flexion bei Broca-Aphasie. Tübingen: Niemeyer. Perlmutter, D. (1982). Sonority and the syllable structure in American Sign Language. Linguistic Inquiry, 23, 407⫺442. Petronio, K. & Lillo-Martin, D. (1997). Wh-movement and the position of Spec-CP: Evidence from American Sign Language. Language, 73, 18⫺57. Pfau, R. (1997). Zur phonologischen Komponente der Deutschen Gebärdensprache: Segmente und Silben. Frankfurter Linguistische Forschungen, 20, 1⫺29. Pfau, R. (2001). Typologische und strukturelle Aspekte der Negation in Deutscher Gebärdensprache. In H. Leuninger & K. Wempe (Hrsg.), Gebärdensprachlinguistik 2000 – Theorie und Anwendung (pp. 13⫺31). Hamburg: Signum. Poizner, H., Bellugi, U. & Klima, E. S. (1990). Was die Hände über das Gehirn verraten. Neuropsychologische Aspekte der Gebärdensprachforschung. Hamburg: Signum. Prillwitz, S. (1982). Zum Zusammenhang von Kognition, Kommunikation und Sprache mit Bezug auf die Gehörlosenproblematik. Stuttgart. Kohlhammer. Reilly, J. S., McIntire, M. L. & Bellugi, U. (1991). Baby face: A new perspective on universals in language acquisition. In P. Siple & S. D. Fischer (Eds.), Theoretical issues in sign language research. Vol. 2: Psychology (pp. 9⫺23). Chicago: Chicago University Press.
729
Sandler, W. (1989). Phonological representation of the sign: Linearity and non-linearity in ASL. Dordrecht: Foris. Stemberger, J. P. (1989). Speech errors in early child production. Journal of Memory and Language, 28, 164⫺188. Stokoe, W.C., jr. (1960). Sign language structure. An outline of the visual communications system of the American Deaf. Studies in Linguistics, Occasional Papers 8. Buffalo: University of Buffalo Press (Nachdruck: Silver Spring, MD: Linstok Press 1976). Supalla, T. (1986). The classifier system in American Sign Language. In C. Craig (Ed.), Noun classes and categorization (pp. 181⫺211). Amsterdam: John Benjamins. Tervoort, B. T. (1995). Der Beginn der europäischen Gebärdensprachforschung: 1950⫺1953. DAS ZEICHEN, 32, 176⫺181. Van Cleve, Y. V. (Ed.) (1987). Gallaudet encyclopedia of deaf people and deafness. Gallaudet: Gallaudet University Press. Wallesch, C.-W. & Deuschl, G. (1997). Elektrophysiologie am Menschen. In U. Kischka, C.-W. Wallesch & G. Wolf (Hrsg.), Methoden der Hirnforschung. Eine Einführung (pp. 167⫺185). Heidelberg: Spektrum Akademischer Verlag. Whittermore, G. L. (1987). The production of ASL signs. Austin: Austin University Press. Wiegand, D. (1996). Die Sprachplanung als modular organisierter Prozeß: Zur Berechnung von Kontaminationen. Frankfurter Linguistische Forschungen. Sondernummer 4. Wiese, R. (1988). Silbische und lexikalische Phonologie. Studien zum Chinesischen und Deutschen. Tübingen: Niemeyer. Wilbur, R. (1999). Stress in ASL: Empirical evidence and linguistic issues. Language and Speech, 42, 229⫺250. Woll, B. & Kyle, J. G. (1994). Sign language. In R. Asher (Ed.). Encyclopedia of language and linguistics, Bd. 7 (pp. 3885⫺3927). Oxford: Pergamon Press.
Helen Leuninger Universität Frankfurt am Main (Deutschland)
V. Alternative Formen sprachlicher Kommunikation/ Alternative Forms of Language Communication 54. Sprachentwicklung blinder Kinder 1. 2. 3. 4. 5.
11. 12.
Einleitung Methodische Vorüberlegungen Präverbale Entwicklungsphase Phonologische Entwicklung Lexikalische Entwicklung und semantische Kategorien der ersten Worte Erwerb morphologisch-syntaktischer Kompetenzen Kognitive Determinanten des frühen Spracherwerbs Erwerb pragmatischer Fähigkeiten Soziale Determinanten: Eltern-Kind-Diskurs Sprachauffälligkeiten oder Sprachbesonderheiten Schlussfolgerungen und Ausblick Literatur
1.
Einleitung
6. 7. 8. 9. 10.
Sprache wird als eine wesentliche Kompensationsmöglichkeit angesehen, durch welche das blinde Kind Informationen über Personen, Objekte und Ereignisse der Umwelt erhalten kann, die durch andere Sinnesmodalitäten nicht oder nur unzureichend zu erlangen sind (Dunlea, 1989; Landau, 1997; Mulford, 1988; Pe´rez-Pereira & Conti-Ramsden, 1999; Rogow, 1986, 2000). Die Hörwahrnehmung liefert keine Informationen über Merkmale von stummen Objekten oder Personen. Die Entfernungs- und Richtungswahrnehmung ist auf hörbare Ereignisse begrenzt, und die Präzision hinsichtlich der Lokalisierung solcher Sachverhalte ist gegenüber dem Gesichtssinn deutlich gemindert. Der Tastsinn ist auf den Nahbereich begrenzt. Das Erkennen attributiver Merkmale ist mittels des Tastsinnes entweder nicht möglich (z. B. Farbe) oder erfordert wegen des sequentiellen Wahrnehmungsprozesses eine höhere Aufmerksamkeitsleistung und Informationsverarbeitungskapazität. Die sprachliche Kompensation bezieht sich vor allem auf drei Bereiche, die für blinde Menschen ansonsten nur schwer zu-
gänglich sind: (1) die verbale Beschreibung vorwiegend nur visuell wahrnehmbarer Sachverhalte, beispielsweise von weit entfernten (z. B. Himmel), ausgedehnten (z. B. Landschaften), flächigen (z. B. Photos, Gemälde), sich verflüchtigenden (z. B. Schneeflocken) Gegebenheiten, (2) die verbale Kennzeichnung attributiver Merkmale von Personen, Tieren, Pflanzen und Gegenständen wie Farbe, Form, Größe oder Bewegung, (3) der sprachliche Ersatz oder die sprachliche Ergänzung für nonverbale Kommunikationseinschränkungen, z. B. im Blickkontakt, in der Mimik und Gestik. Aufgrund dieser Einschränkungen in der Wahrnehmung gegenständlicher oder situativer Sachverhalte wird für blinde Kinder eine hohe psychische Notwendigkeit angenommen, sprachliche Kommunikation zu erwerben und anzuwenden (Lucas, 1984; Pe´rez-Pereira & Conti-Ramsden, 1999; Wills, 1979). Es stellt sich jedoch die Frage, ob trotz der vermuteten Notwendigkeit für sprachliche Kompensation der Spracherwerb blinder oder sehbehinderter Kinder mit dem sehender Kinder vergleichbar ist. Wie stark wirkt sich die fehlende oder eingeschränkte Visualität auf den Spracherwerb aus, und welche interferierenden Wirkungen ergeben sich aus dem möglicherweise andersartigen elterlichen Erziehungsverhalten? Bis Mitte der 70er Jahre ging man von geringen Unterschieden in der Sprachleistung blinder und sehender Kinder aus (Dunlea, 1989; Mulford, 1988). Diese Schlussfolgerung beruhte darauf, dass die Sprachkompetenz beider Gruppen nur global mittels standardisierter Sprachtests verglichen worden war. Erst differenzierte linguistische Studien (z. B. Andersen, Dunlea & Kekelis, 1984, 1993; Dunlea, 1989; Mills, 1983; Mulford, 1988 sowie Pe´rez-Pereira & Castro, 1992) erbrachten subtile, qualitative Abweichungen im Sprachentwicklungsprozess blindgeborener Kinder,
731
54. Sprachentwicklung blinder Kinder
wobei vor allem der Erwerb lexikalischer, semantischer oder pragmatischer Merkmale analysiert wurde. Zusätzlich zu den linguistischen Aspekten wurde die präverbale Kommunikation blinder Kinder genauer beobachtet, da die nonverbale Interaktion zwischen blindem Kleinkind und Eltern als besonders stark beeinträchtigt angesehen und daraus negative Auswirkungen auf den Erwerb der ersten Worte angenommen wurde (Fraiberg, 1974, 1979; Rowland, 1983, 1984; Urwin, 1978, 1979, 1984a, b). Das Interesse an linguistischen Untersuchungen bei blindgeborenen Kleinkindern basierte u. a. auf der Nativismus-Empirismus Kontroverse über die Bedeutung der Visualität für den kindlichen Spracherwerb. Linguisten mit einem eher nativistischen Standpunkt (Chomsky, 1980; Gleitman, 1981; Landau, 1983, 1997; Landau & Gleitman, 1985) nahmen an, dass der Ausfall des Gesichtssinns den Spracherwerb nur in geringem Ausmaß beeinträchtige, da das Erlernen von Sprache in erster Linie reifungs- und nicht erfahrungsabhängig sei. Forscher mit einer empiristischen Position (Andersen, Dunlea & Kekelis, 1984; Dunlea, 1989; Rowland, 1983, 1984; Urwin, 1983, 1984a, b) sagten substantielle Abweichungen im Spracherwerbsprozess bei blindgeborenen Kindern aufgrund der angenommenen Erfahrungsdefizite dieser Kinder im Erwerb kognitiver und sozialer Kompetenzen voraus. Erst in den letzten Jahren wurde die Annahme eventuell alternativer Strategien blinder und sehender Kinder beim Spracherwerb diskutiert. Möglicherweise unterscheiden sich blinde und sehende Kinder in ihrer Art, sprachliche Kompetenzen zu erwerben (Pe´rez-Pereira & Conti-Ramsden, 1999; Peters, 1987, 1994). Durch Längsschnittstudien (z. B. Andersen, Dunlea & Kekelis, 1984; Bigelow, 1987; Dunlea, 1984; Fraiberg, 1977; Kekelis & Andersen, 1984; Landau, 1983; Landau & Gleitman, 1985; Pe´rez-Pereira & Castro, 1992; Rowland, 1983, 1984; Urwin, 1978, 1979, 1983) wurden die quantitativen und qualitativen Unterschiede blindgeborener und sehender Kinder im Sprachentwicklungsprozess verglichen. Sind Unterschiede vor allem beim Erwerb der ersten Worte oder erst in der späteren Sprachentwicklung festzustellen? Handelt es sich um konstante Unterschiede oder lässt sich im weiteren Entwicklungsverlauf ein Scheren- oder ein Konvergenzeffekt in der sprachlichen Leistung blinder und sehender Kinder beobachten?
Weitere Forschungsfragen bezogen sich auf die Analyse interner und externer Determinanten und deren Transaktion mit dem kindlichen Sprachentwicklungsprozess. In mehreren Studien (Andersen, Dunlea & Kekelis, 1984; Bigelow, 1987, 1990; Dunlea, 1984, 1989; Fraiberg & Adelson, 1973; Pe´rezPereira & Castro, 1992) wurde der Zusammenhang zwischen den internen Ressourcen der blinden Kinder, vor allem den kognitiven und sozialen Kompetenzen und ihren Sprachleistungen analysiert. Andere Studien (Andersen, Dunlea & Kekelis, 1984; Pe´rezPereira & Castro, 1992; Rowland, 1983, 1984; Urwin, 1978, 1979, 1983, 1984a, b) fokussierten auf die Analyse externer Determinanten, d. h. die Beziehung zwischen elterlichem und kindlichem Sprachverhalten. Neben Analysen zur Sprachentwicklung sind Studien und klinische Falldarstellungen über Sprachauffälligkeiten bei blindgeborenen Kindern veröffentlicht worden. Zwei Phänomene wurden vor allem kontrovers diskutiert – erstens das Phänomen des Verbalismus bei blinden Kindern (Civelli, 1983; Cutsforth, 1951; Demott, 1972; Dokecki, 1966; Harley, 1963; Landau & Gleitman, 1985; von Tetzchner & Martinsen, 1981) und zweitens die Ursachen für die vermehrte stereotype Sprache blinder Kinder (Andersen, Dunlea & Kekelis, 1984, 1993; Burlingham, 1961, 1964, 1965; Dunlea, 1989; Fay, 1973; Kitzinger, 1984; Miecznikowski & Andersen, 1986; Nagera & Colonna, 1965; Pe´rez-Pereira, 1994; Pe´rez-Pereira & Castro, 1992; Peters, 1987; Wills, 1979). Unter Verbalismus wird der vielfältige Gebrauch von visuell und somit nicht erfahrungsbasierten Bedeutungen durch blindgeborene Kinder verstanden (z. B. grün als Beschreibung für Gras) oder von Bedeutungen, bei denen sich Diskrepanzen zwischen verbaler Beschreibung und dem Erkennen der realen Objekte ergeben (z. B. Beschreiben der Funktion einer Ampel, aber Nicht-Erkennen der Ampel beim Abtasten). Als stereotype Sprache wird die formelhafte Wiedergabe gehörter Wörter oder Sätze ohne korrekten situativen Kontext bezeichnet.
2.
Methodische Vorüberlegungen
Bei der Analyse der Sprachentwicklung und Sprachauffälligkeiten ergibt sich eine Reihe methodischer Schwierigkeiten, die oftmals die Interpretation der Befunde als problematisch erscheinen lassen.
732 (1) Stichprobenprobleme. Alle linguistischen Längsschnittstudien beschränken sich auf sehr kleine Stichproben (maximal fünf Kinder). Die Auswahl der Kinder erfolgte in der Regel nach den Kriterien, dass die Kinder vollblind oder sehbehindert sein sollten und keine weiteren Beeinträchtigungen aufwiesen, um den Faktor „Verlust oder Minderung der Sehfähigkeit“ isoliert analysieren zu können. Bei einer solchen Selektion ergibt sich das schwerwiegende Problem, dass in den ersten Lebensjahren sowohl der genaue Grad der Sehschädigung als auch das genaue Ausmaß der zusätzlichen Beeinträchtigungen oftmals nur unzuverlässig diagnostiziert werden kann. Nur bei den „bestentwickelten“ blinden Kindern lässt sich mit hoher Wahrscheinlichkeit in den ersten Lebensjahren eine Normalentwicklung prognostizieren (Brambring et al., 1995), so dass ein positiver Selektionseffekt in einigen linguistischen Studien angenommen werden kann (McConachie & Moore, 1994). Unter populationsspezifischen Gesichtspunkten sind diese Studien nicht repräsentativ, da die Mehrzahl der sehgeschädigten (blinde oder sehbehinderte) Kinder heutzutage mehrfachbehindert ist (ca. 60 %⫺ 70 %). (2) Probleme der Datenerhebung. In der Mehrzahl der linguistischen Studien wurde die Sprachentwicklung der blinden und sehenden Kinder in regelmäßigen Abständen durch Ton- oder Videoaufzeichnungen in der natürlichen Umgebung des Kindes dokumentiert, die in einigen Studien durch Tagebuchaufzeichnungen der Mütter ergänzt wurden. Durch diese Art der Datenerhebung scheinen valide Vergleiche bezüglich der Sprachentwicklung blinder und sehender Kinder gewährleistet zu sein, jedoch weisen u. a. Rowland (1983, 1984) und Urwin (1979, 1984a, b) darauf hin, dass in vielen Studien blindenspezifische Besonderheiten, z. B. die Entwicklung idiosynkratischer Gesten, nicht beachtet wurden. Diese Nichtbeachtung unkonventioneller Gesten bei blinden Kindern kann zu Fehlinterpretationen hinsichtlich des Zusammenhanges zwischen gestischen und sprachlichen Merkmalen führen. Weitere gravierende methodische Probleme können sich bei der Verwendung von für sehende Kinder standardisierten Verfahren ergeben, z. B. wenn Zusammenhänge zwischen sprachlichen und kognitiven oder sozialen Fertigkeiten bei blinden Kindern mit für sehende Kinder entwickelten Verfahren überprüft werden, da
V. Alternative Formen sprachlicher Kommunikation
diese Verfahren für blinde Kinder unterschiedliche Aufgabenschwierigkeiten und differentielle Validitäten beinhalten können. (3) Datenkodierung. Selbst bei der Analyse rein sprachlicher Merkmale ergeben sich durch die Verwendung unterschiedlicher Kodierungssysteme inhaltliche Probleme, z. B. durch die Bestimmung des mean length of utterances (MLU) in einigen Studien nach Nelson (1973) bzw. in anderen Studien nach Miller (1987). Außerdem erschweren interkulturelle Unterschiede auf der morphologischen Ebene die Vergleichbarkeit der MLU-Bestimmung unterschiedlicher Sprachkreise (Pe´rezPereira & Conti-Ramsden, 1999). (4) Datenbasis. Insgesamt ist die Datenbasis linguistischer Befunde zur Sprachentwicklung blindgeborener Kinder gering. Nur für einige sprachliche Aspekte, z. B. für die lexikalische, semantische und pragmatische Entwicklung, liegen umfangreichere Datensätze vor.
3.
Präverbale Entwicklungsphase
Die präverbale Entwicklungsphase wird als besonders vulnerabel für die soziale Interaktion zwischen blindem Kleinkind und Bezugspersonen angesehen. Für die Eltern ergeben sich nach der Geburt eines blinden Kindes meist starke emotionale Belastungen, den Schock über die Geburt ihres blinden Kindes zu verarbeiten. Außerdem ergeben sich für sie hohe Anforderungen, das Verhalten ihres Kindes adäquat zu interpretieren, da normalerweise prälinguistische Kommunikation in starkem Maße auf visuell gesteuerten Interaktionsformen beruht: (1) Der Blickkontakt dient dem wechselseitigen Austausch emotionaler Befindlichkeiten, dem Erkennen von Bedürfnissen und Absichten des Interaktionspartners, der gemeinsamen Aufmerksamkeitsausrichtung auf entfernte Objekte, Personen und Ereignisse sowie der sozialen Rückversicherung durch das Kind und der sozialen Rückmeldung durch die Eltern (social referencing). (2) Der mimische Ausdruck, vor allem das soziale Lächeln wird als wesentlicher Auslöser für den Aufbau des Bindungsverhaltens zwischen Kleinkind und Bezugspersonen angesehen. Bei blinden Babys ist das soziale Lächeln zwar auch beobachtbar, aber es ist weniger stark ausgeprägt und weniger leicht und konsistent auslösbar als bei sehenden Kleinkindern (Als, Tronick & Brazelton,
54. Sprachentwicklung blinder Kinder
1980; Fraiberg, 1977, 1979; Freedman, 1964; Rogers & Puchalski, 1986). (3) Konventionelle Gesten wie Zeigen auf oder Langen nach entfernten Gegenständen oder Personen als protoimperative oder protodeklarative Hinweise fehlen im ersten Lebensjahr bei blinden Kleinkindern fast vollständig (Fraiberg, 1977, 1979; Preisler, 1991, 1997; Rowland, 1983, 1984; Urwin, 1978, 1979, 1983, 1984a, b). (4) Blinde Kleinkinder haben Schwierigkeiten mit der adäquaten Differenzierung der eigenen Person von anderen Personen („interpersonal self“) oder von der physikalischen Umwelt („ecological self“) im Sinne der Terminologie von Neisser (1993). Das blinde Kleinkind ist in starkem Maße auf seine eigene Welt begrenzt und hat Schwierigkeiten, den Bezug zur sozialen und gegenständlichen Umwelt aufzubauen. Diese fehlenden oder eingeschränkten, präverbalen Kommunikationsformen gefährden auf Seiten der Eltern den Aufbau einer adäquaten Beziehung zu dem Kind. Es besteht die Gefahr unzureichender Responsivität und nicht optimaler Kontingenzen zwischen kindlichen und elterlichen Reaktionen, da die Eltern eventuell die blindentypischen, expressiven Kommunikationsformen nicht adäquat erkennen und interpretieren: (1) Blinde Kleinkinder reagieren auf Ansprache oft mit einer Lauschreaktion und Kopfabwendung (Burlingham, 1964; Fraiberg, 1974, 1979). Beim Hochgehobenwerden reagieren sie meist nicht mit freudigen Strampelbewegungen, sondern versteifen in ihren Bewegungen (Fraiberg, 1977, 1979). Beide Verhaltensweisen, die auf Seiten des blinden Kleinkindes in der Regel aktive Aufmerksamkeit anzeigen, können von den Eltern als Desinteresse oder sogar als Ablehnung einer sozialen Interaktion ihres Kindes fehlinterpretiert werden (Preisler, 1991, 1997). (2) Durch nichtkonventionelle, idiosynkratische Gesten, z. B. durch spezielle Handbewegungen (Fraiberg, 1974, 1979) oder durch Schlagen mit ihren Händen auf ihre Arme (Rowland, 1984), weisen einige blinde Kinder auf ihre Wünsche und Bedürfnisse hin. Trotz der genannten Schwierigkeiten in der präverbalen Kommunikation belegen klinische Beobachtungen und empirische Studien (Als et al., 1980; Fraiberg, 1977, 1979; Rowland, 1983, 1984; Urwin, 1978, 1984a, b), dass es vielen Eltern gelingt, das Verhalten ihres blinden Kindes korrekt zu interpretieren und zu antizipieren. Wesentliche Elemente einer adäquaten Kommunikation in
733 der präverbalen Phase liegen offensichtlich in der vermehrten Verwendung auditiver, körperbezogener und rhythmisch-vestibulärer Stimulationen. Eine stärkere Ritualisierung des Alltags, soziale Spielaktivitäten und lautliche Kommunikation scheinen eine wichtige Rolle für den Aufbau einer befriedigenden Eltern-Kind-Beziehung zu spielen (Als et al., 1980; Fraiberg, 1977; Preisler, 1991, 1997; Urwin, 1984a). Einige Studien haben sich spezifisch mit der lautlichen Entwicklung blinder Kinder beschäftigt, da die lautliche Kommunikation zwischen Eltern und blindem Kleinkind als Kompensation des fehlenden Blickkontaktes angesehen wird (Urwin, 1979). Fraiberg (1977) fand in ihrer Längsschnittstudie, dass das Auftreten expressiver Vokalisationen bei den zehn von ihr untersuchten blinden Kindern im Normalbereich sehender Kinder nach den Bayley-Normen lag. Rowland (1983, 1984) untersuchte längsschnittlich das Ausmaß kindlicher Vokalisationen und die Synchronisation zwischen kindlichen Äußerungen und mütterlichen Reaktionen. An der ersten Untersuchung nahmen drei, an der zweiten Untersuchung zwei weitere Kinder teil. Drei der fünf Kinder waren blind, zwei besaßen einen Sehrest. Das Alter von drei Kindern lag zwischen 11⫺15 Monaten, bei zwei weiteren Kindern betrug das Alter 30 und 32 Monate. Vier der Kinder wurden als stark entwicklungsverzögert eingestuft. Durch die Analyse von Filmaufnahmen ergab sich, dass die Menge der Vokalisationen der sehgeschädigten Kinder mit der sehender Kinder vergleichbar war. Die Übergangswahrscheinlichkeiten zwischen kindlichen Vokalisationen und mütterlichen Reaktionen ergaben jedoch eine unzureichende Synchronisation kindlicher und mütterlicher Reaktionen. Die Mütter neigten zu übermäßig intensiven lautlichen oder sprachlichen Kontakten zu ihren Kindern. Sie machten zu wenige und zu kurze Pausen, so dass der Wechsel zwischen kindlichen und mütterlichen Äußerungen beeinträchtigt war. Die kleine Stichprobe und die Zusammensetzung der Stichprobe mit überwiegend entwicklungsverzögerten Kindern schränkt allerdings die Generalisierbarkeit der Befunde von Rowland (1983, 1984) stark ein. Die Befundlage zur präverbalen Kommunikation erlaubt nur vorsichtige Schlussfolgerungen. Die Beeinträchtigungen durch den fehlenden oder geminderten Gesichtssinn sind evident. Es scheinen aber hinreichende,
734
V. Alternative Formen sprachlicher Kommunikation
kompensatorische Mittel für die Eltern zur Verfügung zu stehen, um diese Schwierigkeiten auszugleichen bzw. abzumindern. Pe´rezPereira und Conti-Ramsden (1999: 45) kommen deshalb zu dem Fazit: „It appears that vision is not an essential requirement for successful interaction exchange in infancy. However, vision does contribute towards the spontaneity, ease, and frequency with which these exchanges take place.“
4.
Phonologische Entwicklung
Unterschiede in der phonologischen Entwicklung lassen sich bei Worten erwarten, deren Anfangskonsonanten sich in ihrer visuellen Ablesbarkeit unterscheiden, z. B. leicht ablesbare |b, m, f| versus schwer ablesbare Anfangskonsonanten |g, d, l|. Mills (1983) hat in einer Längsschnittstudie den phonologischen Erwerb von Wörtern bei drei sehenden und drei hochgradig sehbehinderten Kindern analysiert. Der MLU der sechs Kinder reichte anfänglich von 1.0 bis 1.6. Die hochgradig sehbehinderten Kinder machten mehr Fehler bei den Wörtern mit visuell leicht ablesbaren Anfangskonsonanten (41 % bei hochgradig sehbehinderten vs. 21 % bei sehenden Kindern), während sich bei den visuell schwer ablesbaren Wörtern keine Unterschiede ergaben (52 % Fehler bei hochgradig sehbehinderten Kindern vs. 51 % Fehler bei sehenden Kindern). Außerdem machten die hochgradig sehbehinderten Kinder mehr Substitutionsfehler (34 % bei den hochgradig sehbehinderten Kindern vs. 10 % bei den sehenden Kindern). Ein analoges Ergebnis ergab sich in der Studie von Dodd (1983). Mills (1987) berichtete, dass die hochgradig sehbehinderten Kinder insgesamt weniger Wörter mit sichtbaren Anfangskonsonanten verwendeten als sehende Kinder (37 % bei den sehbehinderten vs. 46 % bei den sehenden Kindern). Mulford (1988) stellte bei der Analyse der ersten 50 Wörter fest, dass sehende Kinder aufgrund besserer visueller Distinktheit signifikant mehr labiale Wörter als blinde Kinder benutzten. Die genannten Schwierigkeiten in der Phonologie scheinen jedoch nur transient zu sein. So konnte beispielsweise schon Mills (1983) bei demjenigen hochgradig sehbehinderten Kind mit dem höchsten MLU (1.2⫺2.4) keine Unterschiede zu den sehenden Kontrollkindern feststellen. Im weiteren Entwicklungsverlauf ergibt sich eventuell sogar eine phonologische Überlegenheit blinder Kinder gegenüber sehenden
Kindern, da blinde Kinder stark auf sprachliche Kommunikation angewiesen sind. Lucas (1984) konnte beispielsweise bei jeweils 10 blinden und sehenden Kindern im Alter von 5⫺7 Jahren feststellen, dass die blinden Kinder beim Entdecken falsch artikulierter Wörter signifikant bessere Leistungen erbrachten als die sehenden Kinder. Im Nachsprechen sinnloser Wörter ergaben sich keine Unterschiede. Im Gegensatz zu Lucas (1984) fand Dodd (1980) bei 10 blinden Kindern (Alter 11;5⫺15;2 Jahre) und bei 16 sehenden Kindern (Alter 9;5⫺11;5 Jahre) bei einer Fehlerentdeckungsaufgabe keine Unterschiede zwischen beiden Gruppen. Eventuell erklärt sich der Unterschied beider Studien dadurch, dass in der Studie von Dodd (1980) die Aufgabenschwierigkeit für beide Gruppen niedrig war.
5.
Lexikalische Entwicklung und semantische Kategorien der ersten Worte
Zur lexikalischen Entwicklung, d. h. dem Erwerb der ersten Worte, liegen Daten aus entwicklungspsychologischen und linguistischen Längsschnittstudien vor. Eine Zusammenfassung auch unveröffentlichter, linguistischer Studien stammt von Mulford (1988). Tabelle 54.1 gibt einen Überblick über die Erwerbszeitpunkte der ersten Worte bei blinden Kindern. Die Befunde in Tabelle 54.1 zeigen, dass der Erwerb des ersten Wortes bei blinden Kindern gegenüber sehenden Kindern eventuell verzögert ist. Aber die Ergebnisse der linguistischen Studien ergeben bei den Kriterien 10 und 50 Wörter keine wesentlichen Unterschiede zwischen blinden Kindern und den Normdaten sehender Kinder. Mit Ausnahme der Non-ROP-Kinder in der Studie von Janson (1993) ergaben sich in den entwicklungspsychologischen Studien – auch für die normalentwickelten, blinden Kinder (Brambring, 1999; Fraiberg, 1977; McConachie & Moore, 1994) – etwas spätere Erwerbszeitpunkte als in den linguistischen Studien. Dieser Unterschied kann durch die weniger selektiven Stichproben und die globaleren Erhebungsmethoden entwicklungspsychologischer gegenüber linguistischen Untersuchungen erklärt werden. Alle entwicklungspsychologischen Studien basierten auf größeren, aber auch heterogeneren Stichproben als die linguistischen Untersu-
735
54. Sprachentwicklung blinder Kinder Tabelle 54.1: Erwerbszeitpunkte der ersten Worte bei blinden und sehenden Kindern 1. Wort Linguistische Studien Zusammenfassung von 7 Studien a (Mulford, 1988)
2 Wörter
14,71 (9.0⫺24,0)2 (n ⫽ 14)
10 Wörter
⬇ 50 Wörter
15,11 20.11 (13.0⫺19.5)2 (17.5⫺26.0) (n ⫽ 7) (n ⫽ 15)
Entwicklungspsychologische Studien Brambring (1999) ⫺ normalentwickelt (n ⫽ 4) 16.0 (13.5⫺18.0)3 16.5 (13.5⫺18.0)3 ⫺ entwicklungsverzögert (n ⫽ 3) 20.0 (19.5⫺25.0)3 20.0 (19.5⫺25.0)3 ⫺ stark entwicklungsverzögert (n ⫽ 3) 38.5 (30.0⫺48.0)3 38.5 (31.5⫺49.0)3 Fraiberg (1977)
(n ⫽ 10)
Janson (1993) ⫺ Non-ROP-Kinder ⫺ ROP-Kinder
(n ⫽ 22) 14.31 (n ⫽ 15) 17.01
McConachie & Moore (1994)
(n ⫽ 9) 18.21 (5.2)4
Norris et al. (1957)
(n ⫽ 66)
Normdaten sehender Kinder
18.51 (12.7⫺32.0)3 20.81 (4.7)4
50 %⫺18.0 75 %⫺24.0 b
9.01 (7.0–15.0)
c 13.01 (9.0–17.0)
d 15.11 (13.0–19.0)
d 19.61 (14.0–24.0)
a
Andersen (unveröffentlicht), Bigelow (1981), Junefelt (1987), Landau (1982), Mills (1983), Urwin (1978 a), Wilson (unveröffentlicht). b Griffiths Entwicklungsskalen (Brandt, 1983), c Entwicklungskontrolle (Zwiener & Schmidt-Kolmer, 1982), d Nelson (1973) ⫺ Alle Angaben in Monaten; 1 ⫽ Mittelwert, 2 ⫽ Range, 3 ⫽ Median mit Range und 4 ⫽ Standardabweichung. ⫺ ROP⫺Retinopathy of prematurity: Erblindung infolge der Sauerstoffbehandlung im Inkubator bei extrem frühgeborenen Kindern. Neurologische Schädigungen sind möglich. Bei Norris et al. (1957) Studie waren ca. 85 % ROP-Kinder; bei Fraiberg (1977) 30 % und Brambring (1999) 50 % ROP-Kinder. ⫺ (Brambring, 1999): Einteilung der Kinder in die drei Gruppen erfolgte am Ende des Projektes, als die Kinder 5 Jahre alt waren.
chungen. Die Erfassung der Sprachdaten erfolgte in den entwicklungspsychologischen Studien jeweils im Rahmen umfangreicher Datenerhebungen, was eine geringere Erfassungsgenauigkeit als in den linguistischen Studien erwarten lässt. Insgesamt zeigen die Befunde, dass blindgeborene Kinder ohne weitere Beeinträchtigungen die ersten Worte zu etwa dem gleichen Zeitpunkt wie sehende Kinder erwerben, d. h. sie verfügen offensichtlich über eine vergleichbare Kapazität für den Erwerb des ersten lexikalischen Wissens wie sehende Kinder (Bigelow, 1987). Unter qualitativem Gesichtspunkt sind in Anlehnung an Nelson (1973) auch bei blinden Kindern Klassifikationen der ersten 50 ⫺ 100 Worte hinsichtlich ihrer semantischen Zuordnung vorgenommen worden (Andersen
et al., 1984; Bigelow, 1987; Landau, 1983; Landau & Gleitman, 1985; Mulford, 1983; Pe´rez-Pereira & Castro, 1994; Urwin, 1984b). In Tabelle 2 sind die Angaben zum semantischen Gebrauch der ersten Worte unter Zugrundelegung der beiden Übersichtsartikel von Mulford (1988) und Pe´rez-Pereira und Conti-Ramsden (1999) neu berechnet worden und in Beziehung zu den Originaldaten von Nelson (1973) gesetzt worden. Nach Tabelle 54.2 gibt es tendenziell zwei bemerkenswerte Unterschiede zwischen blinden (vollblind oder höchstens Lichtscheinwahrnehmung) und sehbehinderten Kindern (rudimentäre Formwahrnehmung). Blinde Kinder verwenden prozentual mehr spezifische Nomen als sehbehinderte und sehende Kinder. Die Spannbreite in den Kategorien „spezifische und generelle Nomen“ ist bei den
736
V. Alternative Formen sprachlicher Kommunikation
Tabelle 54.2: Prozentuale Verteilung semantischer Kategorien bei blinden, sehbehinderten und sehenden Kindern in den ersten 50⫺100 Wörtern Spezifische Generelle Aktions- Attribute, etc. PersönlichFunktionsNomen Nomen wörter („modifiers“) soziale Wörter wörter blind (n ⫽ 8)
M (Range)
21 (10⫺34)
38 (11⫺60)
20 (5⫺33)
8 (0⫺19)
11 (0⫺29)
1 (0⫺9)
sehbehindert (n ⫽ 3)
M (Range)
12 (8⫺16)
33 (30⫺37)
27 (15⫺40)
9 (2⫺20)
13 (5⫺22)
4 (0⫺10)
sehgeschädigt) M (n ⫽ 11) (Range)
19 (8⫺34)
37 (11⫺60)
22 (5⫺40)
8 (0⫺20)
11 (0⫺29)
2 (0⫺10)
51 62 38
13 12 15
9 7 12
8 5 11
4 1 8
sehend (n ⫽ 18) (n ⫽ 10) (n ⫽ 8)
Nelson (1973) M („total“) 14 M „referential“ 13 M „expressive“ 15
Daten berechnet nach Mulford (1988) und Pe´rez-Pereira und Conti-Ramsden (1999); Kategorien nach Nelson (1973)
blinden Kindern deutlich höher als bei den sehbehinderten, was auf größere interindividuelle Differenzen innerhalb der Gruppe blinder Kinder hindeutet. Diese Befunde stellen bestenfalls Tendenzen dar, da die Stichproben, vor allem bei den sehbehinderten Kindern, sehr klein sind. Es gibt tendenziell einen bemerkenswerten Unterschied zwischen den sehgeschädigten (blinden und sehbehinderten) Kindern zu den sehenden Kindern. Sehgeschädigte Kinder verwenden weniger generelle Nomen als sehende Kinder, d. h. sie haben offensichtlich mehr Schwierigkeiten als sehende Kinder, die taxonomische Ähnlichkeit unterschiedlicher Entitäten einer semantischen Kategorie zu erkennen. Nelson (1973) unterschied in ihrer Studie zwei verschiedene Typen von Kindern beim ersten Spracherwerb. Kinder der sogenannten „referential“-Gruppe gebrauchten in mehr als 50 % aller Äußerungen generelle Nomen (Extension eines Begriffes auf andere Entitäten derselben Klasse), wenige persönlich-soziale Wörter (z. B. seltene Benennung vertrauter Personen) und wenige Funktionswörter (z. B. seltener Gebrauch des Wortes „was“). Bei Kindern der „expressive“Gruppe lag der Gebrauch von generellen Nomen unter 50 % ihres Wortschatzes; der Gebrauch persönlich-sozialer Wörter und von Funktionswörtern war gegenüber Kindern der „referential“-Gruppe erhöht. Nach Tabelle 54.2 tendieren sehgeschädigte Kinder
hinsichtlich des Gebrauchs genereller Nomen und persönlich-sozialer Wörter eher zum expressiven Typ. Berechnet man die verbundene Wahrscheinlichkeit – generelle Nomen ⬍ 50 % und persönlich-soziale Wörter x 8 % – fallen 55 % aller sehgeschädigten Kinder in die Gruppe expressiver Sprachstil. In Nelsons Stichprobe waren es 44 % sehende Kinder. Bei den sehbehinderten Kindern ergibt sich nach diesem Kriterium ein Prozentsatz von 66 %, bei den blinden Kindern von 50 % mit expressivem Sprachstil. Unter Berücksichtigung der kleinen Stichproben lässt sich aufgrund dieses Befundes bestenfalls eine Tendenz zu einem eher expressiven Sprachstil sehgeschädigter Kinder vermuten. Bei der Differentialanalyse der generellen Nomen werden Unterschiede zwischen blinden und sehenden Kindern deutlich (Bigelow, 1987; Mulford, 1988). Blinde Kinder generalisieren weniger oft Tiernamen als sehende Kinder (8 % bei blinden Kindern vs. 20 % bei sehenden Kindern), während bei der Benennung von Alltagsgegenständen bzw. Möbeln sich ein entgegengesetzter Trend ergibt – 22 % Benennungen von blinden Kindern und nur 9 % bei sehenden Kindern (Bigelow, 1987). Dieser Unterschied lässt sich wahrscheinlich auf die unterschiedliche Attraktivität von Tieren bzw. Alltagsgegenständen oder Möbeln für sehende und blinde Kinder zurückführen. Tiere besitzen für sehende Kinder durch ihr Aussehen, ihr Verhalten und durch die Spielmöglichkeiten mit ihnen eine
54. Sprachentwicklung blinder Kinder
hohe Salienz. Außerdem lernen sehende Kinder viele Tiere und unterschiedliche Tiere einer Klasse nicht nur in der Realität, sondern auch durch Darstellungen in Bilderbüchern kennen. Für blinde Kleinkinder dagegen sind Tiere oft angstbesetzt (Brambring, 1993), da sie für blinde Kinder dieses Alters wegen ihrer Spontaneität und Unkontrollierbarkeit schwer einschätzbar sind. Außerdem steht blinden Kindern nicht die Möglichkeit offen, über Bilderbücher oder Zoobesuche unterschiedliche Tiere kennenzulernen. Taktile Darstellungen oder Modelle von Tieren stellen für blinde Kinder keine optimale Repräsentation der realen Tiere dar. Demgegenüber scheint die Salienz für Alltagsgegenstände oder Möbel bei blinden und sehenden Kindern entwicklungsmäßig unterschiedlich zu verlaufen. Nach Tröster und Brambring (1992) ergab sich, dass sehende und blinde Kinder sich in den ersten 18 Lebensmonaten gleichermaßen intensiv mit Alltagsgegenständen beschäftigen. Aber für sehende Kinder verlieren diese Objekte schnell an Attraktivität, während sie für blinde Kinder bis zum Ende des 4. Lebensjahres einen hohen Anreiz behalten. Der Grund ist darin zu sehen, dass Möbel für blinde Kinder Objekte darstellen, die für ihre Orientierung in der Wohnung nützlich und somit aufmerksamkeitsfördernd sind. Einige Einrichtungsgegenstände produzieren Geräusche, wie z. B. Fernseher, Radio, Spülmaschine oder Kühlschrank, und erhalten dadurch eine hohe explorative Bedeutung für blinde Kinder. Haushaltsgegenstände haben offensichtlich einen engen Bezug zur Erfahrungswelt blinder Kinder. Sie erforden geringe manipulative Fähigkeiten und sind eventuell für blinde Kinder eher als traditionelle Spielzeuge wie Puppe oder Spielzeugauto für Symbolspiele geeignet. Auf weitere blindenspezifische Besonderheiten im frühen Spracherwerb wird von Andersen, Dunlea und Kekelis (1984, 1993) sowie von Dunlea (1984, 1989) hingewiesen: (1) Bei sehgeschädigten Kindern ließen sich nach ihren Befunden – allerdings bei nur einem vollblinden Kind, einem Kind mit Lichtscheinwahrnehmung, einem Kind mit rudimentärer Formwahrnehmung und einem sehenden Kind – keine idiosynkratischen Wörter nachweisen, was nach ihrer Interpretation auf einen Mangel an Kreativität bei diesen Kindern hinweist. (2) Es ließ sich bei ihnen kein Verschwinden („mortality rate“) unkonventioneller und Ersetzen durch konventionelle Wörter beobachten, d. h. sehgeschädigte
737 Kinder neigen nur zu geringer Extension ihrer Worte über den ursprünglichen Kontext hinaus – nach Ansicht dieser Autorinnen ein Zeichen für mangelnde konzeptuelle Bedeutungsvielfalt. (3) Mit den Aktions- und Funktionswörtern beschrieben die sehgeschädigten Kinder in den ersten drei Lebensjahren fast ausschließlich nur eigene, körperbezogene Handlungen sowie eigene Wünsche und Bedürfnisse. Diese Befunde und Schlussfolgerungen von Andersen et al. (1984, 1993) und Dunlea (1984, 1989) sind von anderen Autoren relativiert worden. Beispielsweise wiesen Pe´rez-Pereira & Conti-Ramsden (1999) darauf hin, dass der beobachtete Mangel an idiosynkratischen Wörtern eventuell durch die gewählte Erhebungsmethode – Tagebuchaufzeichnungen der Mütter – bedingt sein könnte, da Mütter wahrscheinlich nur für sie sinnvolle Wörter notieren. Pe´rez-Pereira und Castro (1994) stellten idiosynkratische Wortschöpfungen bei drei blinden Kindern mittels der Methode der direkten Beobachtung fest. Sie zitierten eine persönliche Mitteilung von Peters, die bei einem blinden Kind im Alter von 15⫺19 Monaten 20 idiosynkratische Wörter beobachten konnte. Die geringe Extension und Beibehaltung gelernter Begriffe im ursprünglichen Kontext ist aufgrund des erschwerten Zuganges blinder Kinder zu externen, generalisierbaren Sachverhalten erklärbar. Diese Einschränkungen scheinen jedoch nicht prinzipieller, sondern eher gradueller Art zu sein, da nach Bigelow (1987) blinde Kinder gemäß ihrer taktilen und auditiven Erfahrungsmöglichkeiten Extensionen von Wörtern zeigen. Norgate (1996) betont außerdem, dass eventuell Extensionen von sehenden Beobachtern nicht erkannt werden, da sich diese Extensionen auf blindenspezifische Besonderheiten, z. B. Hör- oder Geruchsempfindungen, beziehen. Auch die Beschränkung blinder Kinder von Aktions- und Funktionswörtern auf eigenbezogene Handlungen oder Bedürfnisse erscheint bei fehlenden oder eingeschränkten Wahrnehmungsmöglichkeiten externer Handlungsabläufe einsichtig. Jedoch scheint die Annahme von Andersen et al. (1984, 1993), dass blinde Kinder sich erst nach dem 3. Lebensjahr auf externe Sachverhalte beziehen können, nicht zutreffend zu sein. Urwin (1978 a, b) konnte beispielsweise bei einem vollblinden Kind schon im Alter von 2;3 Jahren Beschreibungen von Handlungen vertrauter Personen beobachten.
738
V. Alternative Formen sprachlicher Kommunikation
Insgesamt wird von Pe´rez-Pereira und Conti-Ramsden (1999) die Position der Forschungsgruppe um Dunlea, dass blinde Kinder einen Mangel an Kreativität und Bedeutungsvielfalt zeigen, als extrem negativ eingeschätzt. Es scheint zwar belegt, dass blinde Kinder eine längere Periode für den Erwerb von Begriffen benötigen, die sich auf externe Objekte und Handlungen beziehen, aber „… there is no clear evidence that blind children use their first words in an underextended and less creative way than sighted children“ (Pe´rez-Pereira & Conti-Ramsden, 1999, S. 80).
6.
Erwerb morphologischsyntaktischer Kompetenzen
Der Erwerb morphologisch-syntaktischer Kompetenzen ist sowohl unter quantitativen als auch qualitativen Gesichtspunkten analysiert worden. Unter quantitativen Gesichtspunkten ist der Anstieg der MLU-Werte bei blinden und sehenden Kindern verglichen worden (Dunlea, 1989; Landau & Gleitman, 1985; Pe´rez-Pereira & Castro, 1992, 1994). Landau und Gleitman (1985) verglichen die MLU-Werte von drei blinden Kindern ab dem 18. Lebensmonat bis ins 5. Lebensjahr mit Normdaten sehender Kinder. Anfänglich war eine Verzögerung im Erwerb syntaktischer Kompetenzen bei zwei der drei blinden Kinder feststellbar. Ab dem 36. Lebensmonat waren die MLU-Werte beider Gruppen jedoch vergleichbar. Dunlea (1989) berichtete, dass die MLU-Werte des vollblinden Kindes und des Kindes mit Lichtscheinwahrnehmung höher als die des sehbehinderten und des sehenden Kindes waren. In den Studien von Pe´rez-Pereira und Castro (1992, 1994) ergab sich kein wesentlicher Unterschied in den MLU-Werten zwischen den drei blinden Kindern, dem sehbehinderten und dem sehenden Kind im Alter von 19 bis 45 Lebensmonaten (Pe´rez-Pereira & Conti-Ramsden, 1999). Die drei Studien zeigen, dass der morphologische Spracherwerb unter quantitativem Gesichtspunkt bei blinden Kindern nicht gegenüber dem sehender Kinder verzögert ist. Es gibt sogar Beispiele eines schnelleren Erwerbs bei blinden gegenüber sehenden Kindern. Unter qualitativem Gesichtspunkt sind drei Aspekte der syntaktischen Entwicklung genauer untersucht worden: (1) Übergeneralisierung der Vergangenheitsform regelmäßiger Verben auf unregelmäßige Verben, (2) der
Erwerb räumlicher, deiktischer Präpositionen und (3) der Erwerb und die Verwechslungen im Gebrauch von Personalpronomen. Nach den Studien von Dunlea und Andersen (1992), Miecznikowski und Andersen (1986) sowie von Pe´rez-Pereira und Castro (1997) scheinen blinde Kinder früher als sehende Kinder zu einer Übergeneralisierung der Vergangenheitsform unregelmäßiger Verben zu neigen. Pe´rez-Pereira und ContiRamsden (1999) interpretieren diesen Befund als einen Hinweis auf unterschiedliche Kommunikationsformen bei sehenden und blinden Kindern. Während sehende Kinder sich in ihrer Kommunikation vorwiegend auf das Hier und Jetzt beziehen, sprechen blinde Kinder häufig mit ihren Bezugspersonen über vergangene Ereignisse, was den früheren Erwerb dieser syntaktischen Besonderheit erklären könnte. Zum Erwerb räumlich-deiktischer Präpositionen wie „in“, „auf“ oder „unter“ liegen Studien von Andersen et al. (1984), Bigelow und Bryan (1982), Brambring (1999) sowie von Dunlea und Andersen (1992) vor. Der Erwerb solcher Präpositionen könnte für blinde Kinder erschwert sein, da die Wahrnehmung räumlicher Relationen ohne Gesichtssinn beeinträchtigt ist. Andersen et al. (1984) und Dunlea und Andersen (1992) stellten erwartungsgemäß Verzögerungen im Erwerb räumlicher Präpositionen beim Vergleich eines blinden und eines sehenden Kindes fest. Demgegenüber konnten Bigelow und Bryan (1982) keine wesentlichen Unterschiede zwischen blinden und sehenden Kindern feststellen. Sie untersuchten monatlich drei vollblinde Kinder im Alter von zwei bis vier Jahren und eine Vergleichsgruppe von 36 sehenden Kindern im Alter von 1;6⫺3;0 Jahren. Beiden Gruppen wurden vergleichbare Aufgaben gestellt. Die Kinder sollten sich selber bzw. Objekte nach sprachlicher Anweisung im Raum platzieren. Es ergaben sich nur geringe Unterschiede sowohl zwischen blinden und sehenden Kindern als auch zwischen Eigen- und Objektplatzierung. Die Eigenplatzierung konnten die Kinder mit 33 Monaten („in“ und „auf“) und 38 Monaten („unter“) korrekt ausführen. Für die Objektplatzierung lauteten die Altersangaben: 34 Monate („in“ und „auf“) und 45 Monate („unter“). Im Rahmen einer Interventions- und Evaluationsstudie (Brambring, 1999) wurde monatlich durch teilnehmende Beobachtung das Sprachverständnis für und die Verwendung von relationalen Präpositionen bei 10 blind-
739
54. Sprachentwicklung blinder Kinder
geborenen Kindern erfasst. Die eigene Benennung räumlich-deiktischer Beziehungen trat 8⫺10 Monate später als das sprachliche Verständnis für solche Bezüge auf. Das Verständnis für Person-Objekt-Relationen und Objekt-Objekt-Relationen zeigte sich bei den vier normalentwickelten blinden Kindern zu etwa den gleichen Zeitpunkten wie in der Studie von Bigelow und Bryan (1982). Die bisherigen Untersuchungen erlauben zwar keine abschließende Bewertung, aber die Befunde deuten eher darauf hin, dass trotz der theoretisch plausiblen Annahme einer Entwicklungsverzögerung blinder Kinder beim Erwerb räumlicher Präpositionen, blinde Kinder offensichtlich über hinreichend kompensatorische Möglichkeiten verfügen, um diese Benachteiligungen auszugleichen. Die Rezeption und Produktion von Personalpronomen ist für blinde Kinder eventuell schwieriger als das Verstehen und der Gebrauch räumlicher Präpositionen. Bei den räumlichen Deixes muss das Kind „nur“ den korrekten sprachlichen Ausdruck für den Bezug zu externen Lokalitäten lernen, während bei der Verwendung von Personalpronomen zusätzlich der Wechsel zwischen Sprecherund Zuhörerrolle erkannt werden muss und blinde Kinder die begleitenden Gesten oder die mimischen Ausdrücke, die den Wechsel anzeigen, nicht wahrnehmen können. Seit der ersten Veröffentlichung von Fraiberg und Adelson (1973) über die Schwierigkeiten blinder Kinder beim Erwerb von Personalpronomen und über die häufig beobachtbaren Verwechslungen im Gebrauch der Personalpronomen der ersten und zweiten Person ist aus unterschiedlicher Sichtweise versucht worden, diese Schwierigkeiten blinder Kinder theoretisch zu erklären (Pe´rez-Pereira & Conti-Ramsden, 1999). Fraiberg (1977) stellte bei 10 blindgeborenen Kindern, die keine weiteren schwerwiegenden Beeinträchtigungen aufwiesen, eine Verzögerung im adäquaten Gebrauch der Ich-Form fest, wobei die Autorin zwischen der „syncretic“ (Ich-Pronomen in feststehenden Redewendungen) und „non-syncretic“ (freie Kombination der Ich-Form) Anwendung unterschied. Die Verwendung des Ich-Pronomens in feststehenden Redewendungen war bei den blinden Kindern gegenüber sehenden Kindern nicht verzögert. Solche Redewendungen erwarben beide Gruppen von Kindern im Alter von 2;0⫺2;6 Jahren. Die freie Kombination der Ich-Form wurde von den blinden Kindern erst mit 2;11⫺4;10 Jahren erworben,
während sehende Kinder beide Anwendungen der Ich-Form zu etwa dem gleichen Zeitpunkt erlangten. In der Interventions- und Evaluationsstudie von Brambring (1999) erwarben die vier normalentwickelten blinden Kinder die freie Kombination zwischen 2;11 bis später als 4;6 Jahren (Ende des Projektes). Andersen et al. (1984) und Dunlea (1989) kamen aufgrund ihrer Gelegenheitsbeobachtungen zu ähnlichen Ergebnissen. Die erwähnten klinischen Beobachtungen sind durch linguistische Untersuchungen bestätigt (McGinnis, 1981), aber auch relativiert worden (Pe´rez-Pereira, 1999). McGinnis (1981) fand bei jeweils 6 blinden und sehenden Kindern im Alter von 3;5⫺5;0 Jahren signifikant mehr Ich-Du-Verwechslungen bei den blinden gegenüber den sehenden Kindern. Pe´rez-Pereira (1999) untersuchte drei blinde, ein sehbehindertes und ein sehendes Kind im Alter von 1;2⫺3;6 Jahren. Es ergab sich kein Unterschied im Erwerb der Personalpronomen zwischen den Kindern. Bei dem sehenden und dem sehbehinderten Kind waren keine Verwechslungen im Gebrauch der Personalpronomen beobachtbar. Nur eines der drei blinden Kinder zeigte häufige Verwechslungsfehler (41.2 %), während bei den anderen beiden blinden Kindern diese Fehler sehr selten waren (1.5 % und 4.4 %). Die Verwechslungen traten vor allem in imitierten Redewendungen auf, so dass eventuell dieses Phänomen mit der bei blinden Kindern häufiger zu beobachtenden stereotypen Sprache konfundiert sein könnte (vgl. Abschnitt 10).
7.
Kognitive Determinanten des frühen Spracherwerbs
Die Unterschiede zwischen blinden und sehenden Kindern im frühen Spracherwerb semantischer und syntaktischer Kompetenzen wurden von einigen Autoren auf die Beeinträchtigungen blinder Kinder im Erwerb kognitiver Fähigkeiten zurückgeführt. In Anlehnung an die theoretische Position von Piaget (1972) sollten sich die zu erwartenden Erfahrungsdefizite blinder Kinder negativ auf ihre linguistischen Kompetenzen auswirken. Fraiberg und Adelson (1973) und Fraiberg (1977) erklärten beispielsweise die Schwierigkeiten blinder Kinder im korrekten Gebrauch der Personalpronomen durch deren verzögerte kognitive Repräsentationsleistungen. Als Beweis für ihre Annahme führten sie an, dass bei diesen Kindern bis zum 4. Le-
740 bensjahr eine parallele Verzögerung im Erwerb des Symbolspiels und dem korrekten Gebrauch der Personalpronomen beobachtbar war. Andere Autoren, z. B. Ferguson und Buultjens (1995), Pe´rez-Pereira und Castro (1994), Rogers und Puchalski (1984) und Urwin (1978), wiesen dagegen auf Beispiele eines früheren Erwerbs von Symbolspiel bei blinden Kindern als Fraiberg und Adelson (1973) hin. Die Beobachtung von Fraiberg und Adelson (1973) und Fraiberg (1977) könnte durch eine ungeeignete Auswahl von Spielmaterial zum Nachweis von Symbolspiel bei blinden Kindern bedingt sein (Brambring & Tröster, in Druck). Traditionelle Symbolspielzeuge wie Puppe oder Spielzeugauto verfügen fast ausschließlich nur über eine optische Repräsentation der realen Objekte. Taktil, auditiv oder olfaktorisch haben sie keine oder nur geringe Ähnlichkeit mit den realen Objekten Mensch oder Auto. Diese Symbolspielzeuge stellen für blinde Kinder quasi realitätsferne Substitute dar (Brambring, 1992), deren Gebrauch wie auch bei sehenden Kindern, z. B. einen Stab als Substitut für einen Kamm zu verwenden, erst spät in das Repertoire von Symbolspielen miteinbezogen wird (Rubin, Fein & Vanderberg, 1983). Ein weiteres Beispiel für die Verwendung eventuell invalider Untersuchungsmethoden bei blinden Kindern zeigt sich in der Studie von Dunlea (1984, 1989). Sie überprüfte den Zusammenhang zwischen der Konzeptbildung blinder Kinder und ihren linguistischen Fähigkeiten und stellte fest, dass blinde Kinder beim Sortieren von Gegenständen nach Objektklassen versagten, obwohl sehende Kinder mit den entsprechenden linguistischen Fähigkeiten diese Aufgaben normalerweise lösen können. Ihre Schlussfolgerung, dass bei blinden und sehenden Kindern nicht der gleiche Zusammenhang zwischen kognitiven und sprachlichen Leistungen vorliegt, könnte falsch sein, da die Sortieraufgabe höchstwahrscheinlich für blinde und sehende Kinder eine unterschiedliche Aufgabenschwierigkeit besitzt (Norgate, 1996). Für sehende Kinder handelt es sich um eine simultane, für blinde Kinder um eine sequentielle Darbietung der Objekte. Die Aufgabe wäre für sehende Kinder eventuell nur dann vergleichbar schwierig, wenn man die zu klassifizierenden Objekte in unterschiedliche Räume verteilen würde (Brambring, 1993). Bei einer solchen sequentiellen Anordnung der Objekte
V. Alternative Formen sprachlicher Kommunikation
wäre es fraglich, ob sehende Kinder dieses Alters die Sortieraufgabe lösen könnten. Beide Beispiele, aber auch die Studie von Bigelow (1990) zum Zusammenhang zwischen Objektpermanenz und Erwerb des lexikalischen Wissens belegen, dass man bei der Verwendung von Verfahren, die für sehende Kinder entwickelt worden sind, die Äquivalenz und Gültigkeit dieser Verfahren für blinde Kinder genau prüfen muss.
8.
Erwerb pragmatischer Fähigkeiten
Die Analyse der pragmatischen Funktionen der Sprache, z. B. um etwas bitten, etwas beschreiben, auf etwas antworten oder nach etwas fragen, erscheint nach Dunlea (1989) erst sinnvoll, wenn mehr als 50 % der kindlichen Äußerungen eine kommunikative Intention („illocutionary force“, S. 134) besitzen. Diesen Wert bezeichnet sie als „communicative threshold“ (Dunlea, 1989, S. 134). Zur Entwicklung der pragmatischen Funktionen blinder Kinder liegen Untersuchungen von Dunlea (1989), Castro und Pe´rez-Pereira (1996) sowie von Pe´rez-Pereira und Castro (1992, 1994, 1997) vor. In der Studie von Dunlea (1989) wurde längsschnittlich der Erwerb von pragmatischen Kompetenzen bei 6 Kindern im Alter von 0;10⫺2;8 Jahren verglichen. Zwei der Kinder waren blind, zwei sehbehindert und zwei sehend. Etwa jeden Monat wurde die Sprache der Kinder aufgezeichnet und hinsichtlich ihrer kommunikativen Inhalte analysiert. Es handelt sich um deskriptive Daten ohne statistische Überprüfung der gefundenen Unterschiede. Ein sehendes Kind konnte bei der Auswertung nicht berücksichtigt werden, da es nicht die Kommunikationsschwelle überschritt. Die beiden blinden Kinder zeigten einen höheren Anteil an kommunikativen Äußerungen als die beiden sehbehinderten oder das sehende Kind. Dieser Befund könnte dahingehend interpretiert werden, dass blinde Kinder nach Überschreiten der „Kommunikationsschwelle“ die Sprache als hilfreiches Mittel erkennen, durch das sie Kontakt mit der sozialen Umwelt herstellen und beibehalten können. Die Reihenfolge des Auftretens der einzelnen pragmatischen Komponenten war bei allen Kindern bemerkenswert übereinstimmend: (1) Identifizieren/Beschreiben, (2) Bitten, (3) Bestätigen, (4) Antworten und (5) Fragen. Dunlea (1989, S. 153) schließt aus
54. Sprachentwicklung blinder Kinder
dieser hohen Übereinstimmung, dass „… certain fundamental (perhaps innate) needs actualize the use of various kinds of communicative functions.“ Trotz der generellen Übereinstimmung in der Auftretensreihenfolge der pragmatischen Funktionen gab es deutliche, differentielle Unterschiede in der relativen Häufigkeit der verschiedenen kommunikativen Äußerungen zwischen blinden bzw. sehbehinderten Kindern und dem sehenden Kind. Die beiden blinden Kinder produzierten mehr (1) Bitten („komm“), (2) aufmerksamkeitssuchende Äußerungen („hallo“), (3) ritualisierte Phrasen („backe, backe Kuchen“) und (4) verbale Proteste, Zurückweisungen oder Ablehnungen („nein“). Demgegenüber produzierte das sehende Kind mehr Äußerungen, die sich auf (1) Anbieten/Zeigen („hier“) oder (2) Bestätigen („Papa“ beim Erscheinen des Vaters) bezogen. Die beiden sehbehinderten Kinder lagen in ihren Äußerungen meist im Mittelbereich zwischen den blinden Kindern und dem sehenden Kind. Die gefundenen Unterschiede in der relativen Häufigkeit der verbalen Äußerungen lassen sich als angemessene adaptive Strategien der blinden Kinder und des sehenden Kindes interpretieren. Bitten und aufmerksamkeitssuchende Äußerungen verbessern für das blinde Kind die Interaktion mit den Bezugspersonen und ermöglichen über sie den Zugang zur gegenständlichen Umwelt. Die häufigeren verbalen Proteste blinder Kinder im Vergleich zum sehenden Kind sind zweckmäßig, da das blinde Kind nicht sicher sein kann, ob extralinguistische Proteste über Mimik oder Gestik vom Adressaten wahrgenommen werden. Die häufigeren, ritualisierten Phrasen blinder Kinder weisen eventuell auf einen andersartigen Sprachstil dieser Kinder im Vergleich zu sehenden Kindern hin (vgl. Abschnitt 10). Eventuell sind sie aber auch als Ansätze verbaler Rollenspiele zu verstehen (Dunlea, 1989; Kitzinger, 1984; Urwin, 1978, 1984a). Demgegenüber ist die Verhaltensweise sehender Kinder, der Bezugsperson einen Gegenstand anzubieten oder zu zeigen, ein probates Mittel, die Aufmerksamkeit dieser Person zu erlangen. Durch verbale Äußerungen wie Bestätigen weist das sehende Kind auf veränderte, interessante neue Situationen hin. Weitere umfangreiche Studien zur pragmatischen Entwicklung blinder Kinder sind von Pe´rez-Pereira und Castro durchgeführt worden: (1) In der Studie von Pe´rez-Pereira und
741 Castro (1992) wurde die linguistische Entwicklung eines zweieiigen Zwillingspaares im Alter von 2;5⫺3;5 Jahren im familiären Kontext analysiert. Ein Mädchen war blind, die Zwillingsschwester war sehend. (2) In einer Follow-up-Studie (Castro & Pe´rez-Pereira, 1996, Pe´rez-Pereira & Castro, 1997) wurde die Sprachentwicklung der Zwillinge bis zum Alter von 5;5 Jahren weiterverfolgt. (3) In einer sequentiellen Längsschnittstudie (Pe´rezPereira & Castro, 1994) wurden die Sprachdaten von drei blinden Kindern, einem sehbehinderten und einem sehenden Kind im Alter von 1;10⫺3;5 Jahren erhoben. In allen drei Studien wurden die sprachlichen Äußerungen monatlich aufgezeichnet und nach ihren kommunikativen und nicht-kommunikativen Anteilen analysiert (Pe´rez-Pereira & Conti-Ramsden, 1999). Über alle drei Studien hinweg ergaben sich Übereinstimmungen, aber auch deutliche Unterschiede zu den Befunden von Dunlea (1989). In der Studie von Pe´rez-Pereira und Castro (1992) zeigte sich in Übereinstimmung mit den Ergebnissen von Dunlea (1989), dass das blinde Zwillingskind vorwiegend selbstbezogene, der sehende Zwilling überwiegend external bezogene Äußerungen machte. Die sprachlichen Äußerungen des blinden Kindes waren vielfach Beschreibungen der eigenen Handlungen oder Absichten. Sie schienen oftmals die Funktion der Selbstregulierung zu haben. Analog wie bei Dunlea (1989) waren aufmerksamkeitssuchende Äußerungen („calls/vocatives“) beim blinden Kind häufiger als beim sehenden Kind. Diese Art der Sprachäußerung erfüllte offensichtlich neben der Aufmerksamkeitssuche die Funktion der sozialen Rückversicherung, d. h. sie diente dem Schutzbedürfnis des blinden Kindes. Wiederholungen, Imitationen und ritualisierte Phrasen waren analog zu den Befunden von Dunlea (1989) beim blinden Zwilling signifikant häufiger als beim sehenden Zwilling beobachtbar. Im Gegensatz zu Dunlea (1989) fanden Pe´rez-Pereira und Castro (1992) keinen bedeutsamen Unterschied hinsichtlich der Sprachkomponente „Bitten“ zwischen dem blinden und dem sehenden Kind. Unter theoretischen Gesichtspunkten war ihrer Meinung nach folgender Befund besonders wichtig: Das sehende Kind produzierte zwar mehr Beschreibungen von externen Personen, Gegenständen oder Sachverhalten als das blinde Kind, aber auch das blinde Kind äußerte in etwa 10 % aller Fälle Beschreibungen von externen
742 Sachverhalten. Bei Dunlea (1989) fehlte diese Art der sprachlichen Äußerungen bei den beiden blinden Kindern fast völlig. Ein Grund für die divergierenden Befunde könnte darin zu sehen sein, dass das blinde Kind in der Studie von Pe´rez-Pereira und Castro (1992) älter als die beiden blinden Kinder in der Dunlea-Studie (1989) war. Diese Erklärung wird möglicherweise dadurch bestätigt, dass in der Follow-up-Studie (Castro & Pe´rez-Pereira, 1996; Pe´rez-Pereira & Castro, 1997) der Anteil von Beschreibungen externer Sachverhalte beim blinden Zwilling mit zunehmendem Alter bis 5;5 Jahren auf 18 % anstieg. Befunde der Follow-up-Studie (Castro & Pe´rez-Pereira, 1996, Pe´rez-Pereira & Castro, 1997) zeigten, dass selbstbezogene Äußerungen beim blinden Kind bis zum 5. Lebensjahr deutlich häufiger auftraten als beim sehenden Kind. Auch die aufmerksamkeitssuchenden Äußerungen waren über die gesamte Periode (2;5⫺5;5 Jahre) beim blinden Kind häufiger als beim sehenden Zwilling. Es ergab sich aber eine deutliche Abnahme in der relativen Häufigkeit dieser Sprachkomponente beim blinden Kind nach 3;6 Jahren (14 % im Alter von 2;5⫺2;11 Jahren auf 4.5 % nach 3;6 Jahren). Hinsichtlich des Gebrauchs ritualisierter Phrasen konnte bei beiden Kindern eine deutliche Abnahme im Entwicklungsverlauf festgestellt werden. Allerdings prouzierte das blinde Kind durchgängig signifikant mehr ritualisierte Phrasen als das sehende Kind (blindes Kind: 11.8 % (2;5–2;11) auf 2.7 % (5;0–5;4); sehendes Kind: 3.6 % (2;5⫺2;11) auf 0.1 % (5;0⫺5;4)). Verbale Äußerungen mit gleichzeitigem Zeigen und Formen des Bestätigens bzw. Behauptens waren beim sehenden Zwilling über die gesamte Periode signifikant häufiger beobachtbar als beim blinden Zwilling. Übereinstimmend ergab sich bei beiden Kindern ein deutlicher Anstieg an Fragen nach 3;1 Jahren, und der Anteil blieb bis zum Ende der Beobachtungsszeit (5;5 Jahre) stabil. Auch die Studie von Pe´rez-Pereira und Castro (1994) bestätigte die Ergebnisse bezüglich der Unterschiede in den pragmatischen Äußerungen zwischen blinden und sehenden Kindern. Diese Studie erlaubte aber auch einen Vergleich zwischen sehbehindertem Kind und sehendem Kind. Das sehbehinderte Kind ähnelte in seinem sprachlichen Verhalten eher dem sehender Kinder, jedoch zeigte es analog zum blinden Kind wenige
V. Alternative Formen sprachlicher Kommunikation
sprachliche Äußerungen in Verbindung mit Zeigen oder Anbieten von Objekten. Insgesamt zeigen die Studien zur pragmatischen Kompetenz, dass blinde Kinder in ihrem quantitativen Umfang kommunikativer Äußerungen sehenden Kindern nicht nachstehen, sondern sogar mehr Sprachäußerungen als sehende Kinder produzieren. Die qualitativen Differenzen – externale Orientierung bei sehenden Kindern vs. selbstbezogene und aufmerksamkeitssuchende Orientierung bei blinden Kindern – weisen auf kindgemäße, adaptive Strategien je nach Sehvermögen hin.
9.
Soziale Determinanten: Eltern-Kind-Diskurs
In mehreren linguistischen Studien (Kekelis & Andersen, 1984; Kekelis & Prinz, 1996; Moore & McConnachie, 1994; Conti-Ramsden & Pe´rez-Pereira, in press; Pe´rez-Pereira & Conti-Ramsden, submitted – beide zitiert nach Pe´rez-Pereira & Conti-Ramsden, 1999) wurde das Sprach- und Erziehungsverhalten von Müttern sehgeschädigter Kinder analysiert. Kekelis und Andersen (1984) haben längsschnittlich das Sprachverhalten von 6 Müttern hinsichtlich der kommunikativen Funktionen analysiert. Vier Kinder waren sehgeschädigt, wobei sich die vier Kinder hinsichtlich des Grades der Sehschädigung unterschieden – ein vollblindes Kind, ein Kind mit Lichtscheinwahrnehmung, ein Kind mit Schattenwahrnehmung und ein Kind mit rudimentärer Formwahrnehmung. Das Alter der Kinder lag zwischen 16⫺22 Monaten, wobei eine getrennte Auswertung für die Altersperioden 16⫺18 Monate (MLU unter 1.50) und 19⫺22 (MLU über 1.50) vorgenommen wurde. Die Familien wurden monatlich zu Hause besucht, und normale Alltagsaktivitäten wurden per Video und Tonband aufgenommen. Pro Besuch wurden 100 mütterliche Äußerungen ausgewertet. Folgende Unterschiede in den pragmatischen Äußerungen der Mütter ließen sich beobachten: (1) Die Mütter der sehgeschädigten Kinder initiierten häufiger die Gespräche als die beiden Mütter der sehenden Kinder. (2) Die Mütter der sehgeschädigten Kinder verwendeten mehr Aufforderungssätze („requests for action“) als die Mütter der sehenden Kinder, wobei allerdings dieser Unterschied nur bei den älteren Kindern signifi-
54. Sprachentwicklung blinder Kinder
kant wurde. (3) In allen anderen Satzformen (Aussagesätze, Ja-/Nein- und W-Fragesätze oder bei sonstigen Sätzen) ergaben sich keine wesentlichen Unterschiede. (4) Durchgängig verwendeten Mütter sehgeschädigter Kinder bei der Beschreibung von Objekten mehr „labels“, d. h. einfache Benennungen des Gegenstandes, während die Mütter der sehenden Kinder dagegen häufiger „attributions“, d. h. eine Beschreibung der Eigenschaften des Gegenstandes, verwendeten. In einer zweiten Untersuchung haben Kekelis und Prinz (1996) bei etwas älteren Kindern (2;3⫺2;8 Jahren) eine analoge Studie durchgeführt. Zwei Kinder waren blind, zwei Kinder sehend. Eine 30-minütige Spielsituation mit vorgegebenen Spielsachen wurde per Video und Tonband aufgenommen. Die Befunde erbrachten Übereinstimmungen, aber auch Abweichungen von den Ergebnissen der ersten Studie: (1) Analog zur ersten Studie ließ sich eine Asymmetrie hinsichtlich mütterlicher und kindlicher Äußerungen nur in der Mutter-blindes-Kind-Dyade feststellen. Die Mütter der blinden Kinder sprachen häufiger als ihre Kinder (73 % bzw. 78 % mütterliche vs. 27 % bzw. 22 % kindliche Äußerungen). (2) Die Gesprächsdauer bis zu einem Sprecherwechsel war bei den Müttern blinder Kinder 2.5 mal so lang wie die ihrer Kinder. (3) Bei der Analyse der Art der Fragen, die die Mütter stellten, ergab sich ein deutlicher Unterschied zwischen den Müttern blinder und sehender Kinder. Kekelis und Prinz (1996) unterschieden zwischen richtigen („real questions“) und Testfragen („test questions“). Richtige Fragen definierten sie als Fragen, die sich auf die Handlungen oder Absichten des Kindes im Spiel bezogen, z. B. „Wohin willst du mit dem Gewehr schießen?“. Testfragen waren Informationsfragen, z. B. „Was ist das?“. Bei den Müttern blinder Kinder überwogen die Testfragen gegenüber den richtigen Fragen (42 % und 34 % Test- vs. 13 % und 20 % richtige Fragen). Demgegenüber äußerten Mütter sehender Kinder mehr richtige als Testfragen (beide 32 % richtige vs. 7 % und 6 % Testfragen). (4) Entgegen der vorherigen Untersuchung von Kekelis und Andersen (1984) konnten Kekelis und Prinz (1996) in dieser Studie keinen Unterschied zwischen Müttern blinder und sehender Kinder bezüglich des Ausmaßes an Aufforderungen („imperatives, requests“) feststellen. Kekelis und Andersen (1984) und Kekelis und Prinz (1996) interpretieren ihre Befunde als klaren Beleg für den Einfluss der Blind-
743 heit auf den Eltern-Kind-Diskurs. Durch die Asymmetrie zwischen kindlichen und mütterlichen Äußerungen und durch die geringere Anzahl von richtigen Fragen kommt es ihrer Meinung nach auf Seiten der blinden Kinder zu Einschränkungen, ihre sprachlichen Kompetenzen adäquat zu üben. Die gefundenen Unterschiede in der letztgenannten Studie (Kekelis & Prinz, 1996) könnten jedoch eventuell durch eine inadäquate Auswahl der Spielmaterialien mitbedingt sein. Arztkoffer, Puppe mit Anziehsachen und Spielkochuntensilien sind für blinde Kinder dieses Alters als Symbolspielzeuge wenig geeignet und setzen gute manipulative Fähigkeiten beim Kind voraus. Es stellt sich die Frage, ob beim Anbieten unattraktiver, schwierig zu handhabender Spielmaterialien für das sehende Kind nicht ähnliche Asymmetrien hinsichtlich der Anzahl mütterlicher und kindlicher Äußerungen und von Testund richtigen Fragen wie bei den Müttern der blinden Kinder beobachtbar gewesen wären. In der Studie von Moore und McConachie (1994) wurde das sprachliche Verhalten von 8 Müttern mit blinden Kindern (Alter: 13⫺ 25 Monate) und von 8 Müttern sehbehinderter Kinder (Alter: 15⫺19 Monate) querschnittlich untersucht. Eine nur 15-minütige freie Spielsituation wurde aufgezeichnet. (1) Im Gegensatz zu den Untersuchungen von Kekelis und Andersen (1984) und Kekelis und Prinz (1996) ergab sich keine Asymmetrie zwischen der Anzahl kindlicher und mütterlicher Äußerungen bei den blinden Kindern. Bei den sehbehinderten Kindern ergab sich eine Asymmetrie zugunsten der Kinder (62 % kindliche vs. 38 % mütterliche Ausssagen). (2) Die Mütter der sehbehinderten Kinder machten bedeutsam mehr sprachliche Äußerungen, verbunden mit Handlungen, (87 %) als nur verbale Aussagen (13 %). Demgegenüber waren diese beiden Formen sprachlicher Äußerungen bei Müttern blinder Kinder annähernd ausgeglichen (52 % nur verbale Äußerungen, 48 % verbale Äußerungen mit Handlungsbegleitung). (3) Äußerungen mit der Bitte, etwas zu tun („requests for action“) waren die häufigsten verbalen Aussagen der Mütter beider Gruppen und hinsichtlich des Ausmaßes in beiden Gruppen vergleichbar (39 % bei Müttern blinder Kinder vs. 34 % bei Müttern sehbehinderter Kinder). (4) Die Mütter der blinden Kinder stellten signifikant mehr Informationsfragen – vergleichbar mit den Testfragen von Kekelis und Prinz (1996) – als Mütter sehbehinderter
744 Kinder (23.5 % Mütter blinder, 16.5 % Mütter sehbehinderter Kinder). (5) Die Mütter der blinden Kinder gaben signifikant weniger Beschreibungen über die Eigenschaften von Objekten (13.5 %) als die Mütter der sehbehinderten Kinder (24 %). (6) Die Mütter der sehbehinderten Kinder bezogen sich häufiger als die Mütter der blinden Kinder auf die momentane Spielsituation (72 % vs. 53 % der Äußerungen), während die Mütter der blinden Kinder häufiger ihre Kinder auf mögliche Spieloptionen aufmerksam machten als die Mütter der sehbehinderten Kinder (27 % vs. 13 % der Äußerungen). In der Längsschnittstudie von Pe´rez-Pereira und Conti-Ramsden (submitted, zitiert nach Pe´rez-Pereira & Conti-Ramsden, 1999) wurden die sprachlichen Äußerungen von drei Müttern mit blinden Kindern und einer Mutter mit einem sehenden Kind analysiert, wobei die Mutter des sehenden Kindes auch Mutter eines blinden Kindes war. In der ersten Untersuchungsperiode waren die Kinder 28⫺33 Monate alt (MLU: 2.05⫺2.80), in der zweiten Untersuchungsperiode 33⫺40 Monate alt (MLU: 2.46⫺3.85), wobei in der zweiten Periode nur noch zwei blinde Kinder und das sehende Kind beobachtet werden konnten. Die Befunde zeigten innerhalb der Mutter-Kind-Dyaden große Schwankungen hinsichtlich Anzahl und Art der Äußerungen im längsschnittlichen Verlauf, so dass von einem konstanten Diskursstil nur mit Einschränkung gesprochen werden kann. (1) Bezüglich der Initiierung der Konversationen ergab sich tendenziell eine höhere Asymmetrie bei der Dyade Mutter und sehendes Kind zu beiden Altersperioden. Das sehende Kind initiierte häufiger als die Mutter die Gespräche, während die Häufigkeit der Gesprächsinitiierung bei Müttern mit den blinden Kindern in etwa gleich war. (2) Die durchschnittliche Gesprächsdauer bis zu einem Wechsel der Sprecherrolle war tendenziell bei den Müttern der blinden Kinder zu beiden Altersperioden länger als bei der Mutter des sehenden Kindes (1.7 fache vs. 0.6 fache der Gesprächsdauer der Kinder). (3) Hinsichtlich der Kontingenz bzw. Nicht-Kontingenz im Gesprächswechsel gab es keine klare Tendenz. Der Anteil nicht-kontingenter verbaler Interaktion war niedrig und schwankte zwischen 1 %⫺14 % je nach Dyade. (4) Hinsichtlich der pragmatischen Funktionen der verbalen Äußerungen ergaben sich nur geringe Unterschiede zwischen den Müttern der blinden Kinder und der Mutter des sehenden
V. Alternative Formen sprachlicher Kommunikation
Kindes. Den Befund anderer Autoren (Kekelis & Andersen, 1984; Moore & McConachie, 1994; Mulford, 1988), dass Mütter sehender Kinder mehr detaillierte Beschreibungen über die Umwelt abgeben, konnten Pe´rez-Pereira und Conti-Ramsden (1999) nicht bestätigen. Der Grund könnte darin liegen, dass diese Autoren ein weitaus umfangreicheres Kategoriensystem und damit andere Definitionen für die einzelnen Kategorien verwendeten als die vorhergenannten Autoren. (5) In Übereinstimmung mit Kekelis und Andersen (1984) fanden sie heraus, dass die Mütter der blinden Kinder tendenziell mehr Aufforderungen („directives“) verwendeten als die Mutter des sehenden Kindes. Dieser Unterschied war in der zweiten Altersperiode (33 ⫺ 40 Monate) größer als in der ersten Altersperiode (28⫺30 Monate): erste Periode: Mütter blinder Kinder vs. Mutter sehendes Kind (28.8 % vs. 22.2 %;); zweite Periode: (23.5 % vs. 14.2 %). Auf einen möglichen differentiellen Aspekt bezüglich der Aufforderungsäußerungen bei Müttern blinder versus sehender Kinder wiesen Pe´rez-Pereira und ContiRamsden (1999) hin. Sie konnten zeigen, dass in den Aufforderungen der Mütter der blinden Kinder bedeutsam häufiger als bei der Mutter des sehenden Kindes Beschreibungen eingebettet waren. Pe´rez-Pereira und ContiRamsden (1999) analysierten deshalb denjenigen Prozentsatz von Aufforderungsaussagen, die auch Beschreibungen über Objekte, Ereignisse oder Lokalitäten enthielten. Für die erste Periode (28⫺30 Monate alte Kinder) enthielten bei den Müttern blinder Kinder 36.3 % der Aufforderungen Beschreibungen, bei der Mutter des sehenden Kindes waren es nur 11 %. In einer früheren Untersuchung (Pe´rez-Pereira, 1999) an 22⫺25 Monate alten Kindern ergaben sich sogar noch deutlichere Unterschiede zwischen den Müttern der blinden Kinder und der Mutter des sehenden oder des sehbehinderten Kindes (Mütter blinder Kinder 51.7 % eingebettete Beschreibungen; Mutter des sehenden Kindes 12 %; Mutter des sehbehinderten Kindes 15.4 %). Pe´rezPereira und Conti-Ramsden (1999: 147) folgern aus diesem Befund, „… that parents of blind children have developed an adaptive strategy in their use of descriptions within directives in the early stages of their children’s linguistic development.“ In einer weiteren Analyse wiesen Pe´rez-Pereira und ContiRamsden (1999) auf einen zweiten Unterschied im Sprachstil Mütter blinder und sehender Kinder hin. Offensichtlich neigen Müt-
745
54. Sprachentwicklung blinder Kinder
ter blinder Kinder dazu, Aufforderungen zu wiederholen, d. h. die Aufforderungen oder Bitten treten in Clustern auf. Pe´rez-Pereira und Conti-Ramsden (1999) berechneten einen Wiederholungsfaktor für Aufforderungssätze. Bei jüngeren Kindern (22⫺25 Monate) ergab sich für die Mütter der blinden Kinder ein Wiederholungsfaktor von 19.5, bei der Mutter des sehbehinderten Kindes ein Wiederholungsfaktor von 5.1. Analoge Verhältnisse ergaben sich für ältere Kinder. In der ersten Periode (28⫺30 Monate alte Kinder) lag der Wiederholungsfaktor für Aufforderungssätze bei den Müttern der blinden Kinder bei 30.9, bei der Mutter des sehenden Kindes bei 11.1; in der zweiten Periode (33⫺ 40 Monate alte Kinder) lauteten die Angaben: Mütter blinder Kinder hatten einen Wiederholungsfaktor von 25.6 und die Mutter des sehenden Kindes einen von 10.4. Die dargestellten subtilen Analysen lassen trotz großer interindividueller Unterschiede zwischen den Müttern blinder Kinder einen eindeutigen Trend erkennen. Mütter blinder Kinder betten in ihre Aufforderungssätze häufig Beschreibungen über externe Sachverhalte oder über Eigenschaften ein und neigen zu mehrmaligen Wiederholungen dieser kommunikativen Aussage. „Repeating or elaborating on directives provides a context for the blind child and allows the blind child to have access to information while preparing to respond“ (Pe´rez-Pereira & Conti-Ramsden, 1999, S. 148). Insgesamt lassen sich aus den Befunden der linguistischen Studien zum Diskursstil trotz teilweise nicht übereinstimmender Ergebnisse Hinweise ableiten, dass Mütter blinder und sehender Kinder unterschiedliche Sprachstile anwenden. Bei der Interpretation der Befunde ergibt sich jedoch die methodische Schwierigkeit, dass nicht alle linguistischen Maße voneinander unabhängig sind, z. B. bedingt die Anzahl mütterlicher und kindlicher Äußerungen auch das Maß der durchschnittlichen Gesprächsdauer bis zum Sprecherwechsel. Bei der Analyse der Werte in den einzelnen Kategorien für pragmatische Fertigkeiten handelt es sich um verbundene relative Häufigkeiten, so dass nicht eindeutig geklärt werden kann, ob die Erhöhung der Werte in der Kategorie Aufforderungssätze oder der geringere Gebrauch von Beschreibungssätzen der typische Sprachstil von Müttern mit blinden Kindern ist. Beide Werte bedingen einander, vor allem dann, wenn nur wenige Kategorien kommunikativer Funktionen ausgewertet werden.
10. Sprachauffälligkeiten oder Sprachbesonderheiten Zwei sprachliche Eigenarten blindgeborener Kinder – Verbalismus und Echolalie – werden je nach theoretischer Position entweder als abweichende Sprachauffälligkeit oder als blindentypische Sprachbesonderheit interpretiert. (1) Verbalismus oder adaptierter Gebrauch visuell basierter Begriffe. Cutsforths (1951) empirische Untersuchung über den Verbalismus blinder Menschen hat aufgrund der sich daraus ergebenden theoretischen und praktischen Implikationen Aufsehen erregt. Cutsforth (1951) legte 26 blindgeborenen Versuchspersonen (Alter: 8⫺21 Jahre) eine Liste von für sie wahrnehmungsmäßig erfahrbarer bzw. nicht erfahrbarer Wörter, z. B. Milch vs. Stern, vor. Die Versuchspersonen sollten die ihnen dazu einfallenden Assoziationen nennen. Annähernd 50 % aller Nennungen bezogen sich auf visuell basierte Eigenschaften der vorgegebenen Sachverhalte, 33 % auf Tast-, 7 % auf Geschmacks- oder Geruchs-, 3 % auf Hörsinn und 7 % auf abstrakte Eigenschaften. Cutsforth (1951: 69) schlussfolgerte aufgrund seines streng empiristischen Standpunktes, dass blinde Menschen „… a predisposition toward unwarranted use of meaningless visual terminology“ aufweisen. „… a strong tendency to unreality. The inevitable result is that nothing but incoherent and lose thinking is possible.“ Dieses Phänomen, visuell basierte Begriffe ohne wahrnehmungsmäßige Validierungsmöglichkeiten zu verwenden, wurde als „Verbalismus“ bezeichnet. Dokecki (1966) widersprach Cutsforth (1951), dass wahrnehmungsmäßig nicht erfassbare Bedeutungen bei blinden Personen verzerrt sein müssten. Dokecki (1966, S. 526) betonte, dass Bedeutungen nicht nur durch sensorische Erfahrungen gelernt werden, sondern dass „… language itself is important in the creation of meaning“. Die Befunde von Cutsforth (1951) konnten in anderen Experimenten – allerdings wiederum nur an älteren Versuchspersonen – entweder nicht (Civelli, 1983; Demott, 1972) oder nur in weitaus geringerem Ausmaß bestätigt werden (Harley, 1963; von Tetzchner & Martinsen, 1981). Der härteste, empirische Gegenbeweis gegen Cutsforths (1951) radikale These stammt von Landau und Gleitman (1985), die den Spracherwerb visuell basierter Begriffe bei einem blindgeborenen Kind längsschnittlich
746 beobachtet haben. Landau und Gleitman (1985) analysierten detailliert den Gebrauch und das Verständnis für die beiden Worte „look“ und „see“ bei einem blinden Mädchen im Alter von 1;9⫺5;0 Jahren. Außerdem erfassten sie das Wissen des Mädchens hinsichtlich Farbbenennungen. Mit 26 Monaten verwendete das Kind erstmalig die Wörter „look“ und „see“, und ab dem 36. Monat traten diese Wörter durchgängig und häufig in ihrem Sprachgebrauch auf. In einer Reihe von kleinen Experimenten haben Landau und Gleitman (1985) die Art des Gebrauches dieser Wörter bei dem blinden Mädchen und bei vier gleichaltrigen sehenden Kindern unter Augenbinde verglichen. Die Versuche mit dem Begriff „look“ zeigten, dass das blinde Kind das Wort dahingehend verstand, dass sie die in der Hand gehaltenen Objekte explorieren sollte („haptic exploration“). Demgegenüber bedeutete „touch“ die Berührung oder das Streicheln der entsprechenden Objekten („haptic contact“). Bei Aufforderungen wie „look up“ oder „look in front of you“ bewegte das blinde Kind die Hände in die entsprechende Richtung, während die sehenden Kinder unter Augenbinde die Hände nicht bewegten, aber ihre Gesichter in die entsprechende Richtung wendeten. Nach Landau und Gleitman (1985) demonstrierten beide Gruppen von Kindern insofern das gleiche Prinzip der Bedeutungsverwendung des Wortes „look“, da der Begriff jeweils im Sinne der dominanten Sinnesmodalität verwendet wurde – für sehende Kinder die visuelle, für das blinde Kind die haptische Sinnesmodalität. In weiteren Versuchen analysierten Landau und Gleitman (1985) die Wortbedeutung von „see“ bei dem blinden Kind. Es zeigte sich, dass das blinde Kind ein Verständnis dafür besaß, dass Sehen sich auf etwas Entferntes bezieht und das Sehen durch Barrieren gehindert werden kann. Beispielsweise streckte sie bei der Aufforderung „let Mommy see the car“ das Spielzeugauto der Mutter entgegen und versteckte das Auto in ihrer Hosentasche bei der Aufforderung „make it so that Mommy cannot see the car.“ Landau und Gleitman (1985) gingen weiterhin der Frage nach, wie das blinde Kind diese differentielle Bedeutung für „look“ und „see“ erworben haben könnte. Sie überprüften, ob eher Informationen des räumlichen Kontextes oder eher linguistische Gesetzmäßigkeiten („constraints“) für den Bedeutungserwerb verantwortlich gemacht werden
V. Alternative Formen sprachlicher Kommunikation
könnten. Aus dem Gebrauch der beiden Verben in den mütterlichen Aussagen ging eindeutig hervor, dass der adaptierte Gebrauch der Begriffe über den räumlichen Kontext, z. B. „see“ nur bei Äußerungen über entfernte Objekte und „look“ nur bei Bezug auf Objekte im Tastraum, nicht erklärt werden konnte. Der linguistische Kontext hingegen, d. h. die Art der Äußerungen und die Position der beiden Verben zu anderen Wörtern im Satz („parse tree“), konnte den unterschiedlichen Gebrauch der beiden Begriffe bei dem blinden Kind erklären. Beispielsweise verwendete die Mutter das Wort „see“ bei Fragen, während „look“ bei Aufforderungen verwendet wurde. Landau und Gleitman (1985) schlussfolgtern, dass die syntaktischdistributiven Elemente in der mütterlichen Sprache mit weitaus größerer Wahrscheinlichkeit als extralinguistische Kontextmerkmale für den differentiellen, adaptiven Erwerb von „look“ und „see“ verantwortlich sind. Die linguistischen „constraints“ (Grimm, 1995) erlauben es offensichtlich blinden wie sehenden Kindern, die korrekte und der jeweiligen, dominanten Sinnesmodalität angepasste Bedeutung der Wörter abzuleiten. „… language system is organized in semantically relevant ways, it serves as an important bootstrap …. In short, a critical contextual cue to language learning is language itself (Landau & Gleitman, 1985, S. 20).“ Blindheit als erfahrungsmäßige Einschränkung hat offenbar nur partiellen Einfluss auf den Spracherwerb. Solche Einschränkungen zeigten sich bei den Farbbenennungen. Das blinde Kind lernte zwar assoziativ die Farbbezeichnung für gängige Objekte, z. B. grün für Gras, aber es ergaben sich auch häufig Fehler bei der Farbbenennung. Mit ca. 4 Jahren erkannte das blinde Kind diese Schwierigkeiten selber, indem es bei unbekannten Objekten, von denen es annahm, dass sie farblich gekennzeichet sind, nach der Farbe fragte. Es wusste auch, dass bestimmte, abstrakte Sachverhalte, z. B. Gedanken, keine Farben besaßen. In einer anderen Studie von McGinnis (1981) konnten ebenfalls Schwierigkeiten blindgeborener Kinder bei der Farbbenennung empirisch nachgewiesen werden. Bei 5 blinden Kindern im Alter von 3;5⫺5;0 Jahren stellte sie fest, dass diese Kinder im Vergleich zu sehenden Kindern signifikant weniger Farbbenennungen in ihrer Sprache verwendeten. Es zeigte sich, dass weitere Aspekte farblicher Kennzeichnung wie Sättigung, Helligkeit oder
54. Sprachentwicklung blinder Kinder
Kontrast blindgeborenen Kindern fast vollständig verschlossen blieben. Landaus und Gleitmans (1985) Beobachtungen und Versuche sind ein eindrucksvoller Beweis für den adaptiven Erwerb von Sprache bei einem blinden Kind. Visuell bedingte Einschränkungen sind eher partiell. Die Sprache selber scheint auch für das blinde Kind genügend Möglichkeiten zu bieten, adäquate sprachliche Kompetenzen bezüglich der meisten visuell basierten Begriffe zu erwerben. (2) Stereotype Sprache oder alternativer Spracherwerbsstil. Unter stereotyper Sprache versteht man die Wiederholung gehörter sprachlicher Äußerungen ohne korrekten situativen Kontext. Diese Äußerungen werden meist in spezifischen Situationen gelernt und oftmals assoziativ bei analogen Stimulusreizen reproduziert. Andere Begriffe, die dieses sprachliche Phänomen beschreiben, sind echolalische Sprache („echolalic speech“; Fay, 1973), Papageiensprache („parrotting“; Burlingham, 1961), formelhafte Sprache („formulaic speech“; Miecznikowski & Andersen, 1986) oder unanalysierte Wortketten („unanalysed chunks“; Andersen, Dunlea & Kekelis, 1984). Viele entwicklungspsychologische Studien (Brambring, 1993; Burlingham, 1961, 1964, 1965; Fay, 1973; Fraiberg, 1977; Hobson, Brown, Minter & Lee, 1997; Jan, Freeman & Scott, 1977; Keeler, 1957; Kitzinger, 1984; Nagera & Colona, 1965; Wills, 1979), aber auch linguistische Studien (Andersen et al., 1984, 1993; Dunlea, 1989; Miecznikowski & Andersen, 1986; Pe´rez-Pereira & ContiRamsden, 1999; Peters, 1987, 1994; Urwin, 1984b) haben auf diese bei blindgeborenen Kindern vermehrt auftretende Sprachbesonderheit hingewiesen. Es fehlt bisher allerdings an genauen epidemiologischen Angaben über die Prävalenz dieser Besonderheit in repräsentativen Stichproben. Jan, Freeman und Scott (1977) gaben eine Prävalenzrate von 6 % in ihrer repräsentativen Stichprobe an. Allerdings handelte es sich in ihrer Studie um überwiegend sehbehinderte Kinder (ca. 70 %), die im Durchschnitt schon älter als 10 Jahre waren. In der Längsschnittstudie von Brambring et al. (1995) zeigten 4 der 10 blindgeborenen Kinder – meist frühgeborene, entwicklungsverzögerte Kinder – diese Sprachbesonderheit. Bei den vier blinden Kindern, die eine für blinde Kinder normale Entwicklung zeigten, ergab sich keine solche
747 Auffälligkeit. Zwei der 10 Kinder hatten am Ende des Projektes mit 5 Jahren noch keine sinnvolle Sprache erworben. Die echolalische Sprache wird von einigen Autoren (Fay, 1973; Hobson et al., 1997) als ein autistisches Symptom gewertet. In Anlehnung an die „theory of mind“ (Hobson, 1993) wird die echolalische Sprache und andere Auffälligkeiten blindgeborener Kinder, z. B. vermehrte Stereotypien oder verzögertes Symbolspiel, als Ausdruck einer interpersonellen Störung, d. h. eines Mangels an Intersubjektivität, angesehen. Diese Auffälligkeiten lassen sich jedoch mit großer Wahrscheinlichkeit auf andere Verursachungsfaktoren als autistische Störung zurückführen (Brambring & Tröster, in Druck). Groenveld (1993) nennt als eine mögliche Ursache für das vermehrte Auftreten von stereotyper Sprache das bessere akustische Gedächtnis blinder Kinder und deren stärkere Sensibilisierung für akustische Ereignisse. Blinde Kinder können eventuell schon zu einem Zeitpunkt, zu dem ihnen die kognitiven Voraussetzungen für eine Segmentierung der Sprache fehlen, komplexe Sprachsequenzen wiederholen, die unwissentlich von den Eltern verstärkt werden. Vor allem bei blinden Kindern mit kognitiven Einschränkungen ließe sich ein solcher Sprachstil vermehrt erwarten. Unter linguistischen Gesichtspunkten haben sich vor allem Peters (1987, 1994), Pe´rezPereira (1994) sowie Pe´rez-Pereiera und Castro (1992, 1997) – bei allerdings jeweils nur einem blinden Kind – mit dem Phänomen stereotyper Sprache auseinandergesetzt. Im Gegensatz zu anderen linguistischen Studien (Andersen et al., 1984, 1993; Dunlea, 1989; Miecznikowski & Andersen, 1986), die in der echolalischen Sprache keine sinnvolle Funktion für den Spracherwerb blinder Kinder erkennen konnten, nahmen diese Autoren eine radikal andere Position ein. Peters (1987, 1994), Pe´rez-Pereira (1994) sowie Pe´rez-Pereira und Castro (1992, 1997) begründeten das vermehrte Auftreten stereotyper Sprache bei blinden Kindern durch deren eher ganzheitlichen (gestaltartigen) Sprachstil. Der Grund für diesen andersartigen Erwerb von Sprache bei blinden Kindern könnte in ihren Schwierigkeiten gesehen werden, vergleichbare Referenz- und Analyseprozesse wie sehende Kinder bei der Verknüpfung von verbalen Erklärungen der Bezugspersonen und dem situativen Kontext durchzuführen: (1) Für blinde Kleinkinder ist der gemeinsame Referenzbezug zwischen verbaler Erklärung
748 der Bezugspersonen und dem situativen Kontext durch den Wegfall der Zeigegesten und der gemeinsamen Blickausrichtung erschwert. (2) Die sprachliche Analyse verbaler Erklärungen stellt vermutlich höhere kognitive Anforderungen an das blinde als an das sehende Kind. Die verbale Erklärung „Mama spült die Tasse“ und den dazugehörigen Handlungsablauf in ihre Bedeutungselemente – Akteur, Handlung und Handlungsobjekt – zu zerlegen, erfordern vom blinden Kind wahrscheinlich weitaus höhere kognitive Leistungen als vom sehenden Kind mit simultaner Wahrnehmung der ablaufenden Handlung. Das Hören allein liefert nur geringe Hinweise auf den Handlungsablauf und hilft folglich nur wenig bei der Analyse des gehörten Satzes. Blinde Kinder ordnen deshalb eventuell vermehrt assoziativ dem akustischen Eindruck des Spülvorganges die gesamte Sprachsequenz zu, woraus sich in analogen, aber nicht identischen Situationen die Gefahr ergibt, den abgespeicherten Satz situationsinadäquat zu wiederholen. Peters (1987, 1994), Pe´rez-Pereira (1994) und Pe´rez-Pereira und Castro (1992, 1997) konnten an Einzelfällen eindrucksvoll nachweisen, dass die blinden Kinder die stereotype Sprache sinnvoll in sozialen Interaktionen verwendeten und dass sie im weiteren Entwicklungsverlauf die stereotype Sprache erweiterten und segmentierten. Sie fügten den stereotypen Redewendungen neue Elemente hinzu, und es gelang ihnen, die Wörter in freier Form zu kombinieren. Pe´rez-Pereira und Conti-Ramsden (1999, S. 131) kommen deshalb zu der Schlussfolgerung, dass es sich bei diesem Spracherwerbsstil um eine „… useful strategy …“ handelt, „… that adopt to analyse language.“
11. Schlussfolgerungen und Ausblick Der Spracherwerb blindgeborener Kinder erweist sich im Vergleich zu sehenden Kindern im Gegensatz zu anderen Entwicklungsbereichen, z. B. dem Erwerb manueller oder lokomotorischer Fertigkeiten (Brambring, 1999), als wenig beeinträchtigt. Der Spracherwerb scheint in vielen Bereichen nur in geringem Ausmaß von visuellen Steuerungsprozessen abhängig zu sein. Diese Aussage muss jedoch kritisch bewertet werden, da die vielen, linguistischen Studien zugrundegelegte Frage nach der Bedeutung der Visualität für den kindlichen Spracherwerb durch den Vergleich
V. Alternative Formen sprachlicher Kommunikation
sprachlicher Leistungen blinder und sehender Kinder nur unzureichend beantwortet werden kann. Die Vergleichsstudien geben an, in welchen sprachlichen Kompetenzen blinde Kinder den Ausfall des Gesichtssinns nicht oder nur ungenügend durch die alternativen Sinnesinformationen oder kognitive Vermittlungsprozesse kompensieren können. Sie eignen sich nicht als Beweis für oder gegen eine empiristische oder nativistische Sprachtheorie. Die vorliegenden Studien belegen im Sinne neuerer Sprachtheorien, dass blinde Kinder weitgehend wie sehende Kinder Sprache durch die immanenten, linguistischen Gesetzmäßigkeiten erlernen. Unter quantitativen Gesichtspunkten unterscheidet sich die Sprachentwicklung blinder Kinder nur unwesentlich von der sehender Kinder. Der Erwerb der ersten Wörter, der Zuwachs morphologisch-syntaktischer Fertigkeiten und die Abfolge im Erwerb pragmatischer Kompetenzen scheinen bei blinden und sehenden Kindern vergleichbar zu sein. Unter qualitativem Gesichtspunkt ergeben sich einige bemerkenswerte sprachliche Abweichungen, die auf mangelnde Kompensationsmöglichkeiten oder auf alternative Strategien blinder Kinder beim Spracherwerb hinweisen. Beispielsweise lassen sich transiente Probleme blinder Kinder beim Erwerb visuell leicht ablesbarer Anfangskonsonanten erkennen. Deutlichere Abweichungen ergeben sich beim Bedeutungserwerb der ersten Worte. Blinde Kinder verwenden seltener als sehende Kinder generelle Nomen, was auf ihre Schwierigkeit, spezifische Worte auf taxonomisch ähnliche Sachverhalte zu extendieren, hinweisen könnte. Außerdem zeigen sich Unterschiede in der Verwendungshäufigkeit einzelner Kategorien genereller Nomen. Sehende Kinder verwenden häufiger Tierbezeichnungen, blinde Kinder häufiger Bezeichnungen für Alltagsgegenstände und Möbel. Dieser Unterschied lässt sich durch die andersartigen Salienzen dieser Objekte oder Lebewesen für sehende und blinde Kinder erklären. Auf der syntaktischen Ebene neigen blinde Kinder eher zu einer Übergeneralisierung unregelmäßiger Verben, was auf einen stärkeren sprachbezogenenen Bezug blinder Kinder hinweisen könnte. Spezifische Schwierigkeiten haben blinde Kinder offensichtlich im Erwerb von Personalpronomen. Auf der pragmatischen Ebene beziehen sich sehende Kinder häufiger als blinde Kinder auf externe Sachverhalte, während blinde Kinder eine
54. Sprachentwicklung blinder Kinder
stärker selbstbezogene und aufmerksamkeitssuchende Orientierung in ihren kommunikativen Äußerungen erkennen lassen. Dieser Unterschied weist auf alternative, adaptive Strategien je nach Sehvermögen hin. Ein weiterer, wesentlicher Unterschied besteht in der vermehrten Verwendung repetitiver Sprache blinder Kinder im Vergleich zu sehenden Kindern, was auf einen andersartigen, ganzheitlichen Spracherwerbsstil blinder Kinder hinweisen könnte. Unter methodischen Gesichtspunkten sind die vorliegenden Befunde nur in geringem Ausmaß auf die Population blinder Kinder generalisierbar, da vorwiegend vollblinde Kinder ohne weitere Zusatzbeeinträchtigungen untersucht worden sind. Die meisten Vergleichsstudien zwischen blinden und sehenden Kindern interpretieren die Ergebnisse in Bezug auf den Normdaten sehender Kinder. Unterschiede werden als Mangel, nicht als möglicherweise kompensatorische Strategien blinder Kinder erklärt. Für die weitere Forschung scheinen jedoch solche Ansätze vielversprechender zu sein, die die Passung zwischen den spezifischen kindlichen und familiären Bedingungen blinder Kinder und ihrem adaptiven Zugang zur Sprache analysieren.
12. Literatur
749 Bigelow, A. E. & Bryan, A. (1982, June). The understanding of spatial prepositions „in“, „on“, and „under“ in blind and sighted preschool children. Paper presented at the conference of the Canadian Psychological Association. Montreal, Canada. Brambring, M. (1992). Issues in program development. In International Council for Education of the Visually Handicapped (Ed.), Proceedings of the 9th Quinquennial and Early Childhood Conferences, Bangkok (pp. 171⫺174). Boston: Hilton Foundation. Brambring, M. (1993, 20002). „Lehrstunden“ eines blinden Kindes. Entwicklung und Frühförderung in den ersten Lebensjahren. München: Reinhardt. Brambring, M. (1999). Entwicklungsbeobachung und -förderung blinder Klein- und Vorschulkinder. Handbuch und 11 Beobachtungshefte. Würzburg: edition bentheim. Brambring, M. & Tröster, H. (in Druck). Verhaltensauffälligkeiten bei Kindern und Jugendlichen mit Sehschädigung. In P. F. Schlottke, R. K. Silbereisen, S. Schneider & G. W. Lauth (Hrsg.), Enzyklopädie der Psychologie. Serie II: Klinische Psychologie. Bd. 5: Störungen im Kindes- und Jugendalter. Göttingen: Hogrefe. Brambring, M., Beelmann, A. Buitenhuis, S., Hecker, W., Kurp, C., Licher-Eversmann, G. & Müller, A. (1995). Frühförderung blinder Kinder. Konzeption und Hauptergebnisse des Bielefelder Projektes. Kindheit und Entwicklung, 4, 149⫺156.
Als, H. Tronick, E. & Brazelton, T. B. (1980). Stages of early behavioral organization: The study of a sighted infant and a blind infant in interaction with their mothers. In T. M. Field (Ed.), High risk infants and children, adult and peer interaction (pp. 181⫺204). New York: Academic Press.
Brandt, I. (1983). Griffiths-Entwicklungsskalen (GES). Weinheim: Beltz.
Andersen, E. S., Dunlea, A. & Kekelis, L. (1984). Blind children’s language: Resolving some differences. Journal of Child Language, 11, 645⫺664.
Burlingham, D. (1964). Hearing and its role in the development of the blind. The Psychoanalytic Study of the Child, 19, 95⫺112.
Andersen, E. S., Dunlea, A. & Kekelis, L. S. (1993). The impact of input: Language acquisition in the visually impaired. First Language, 13, 23⫺49.
Burlingham, D. (1965). Some problems of ego development in blind children. The Psychoanalytic Study of the Child, 20, 194⫺208.
Bigelow, A. E. (1981). Early language of a blind child. Paper presented at the Canadian Psychological Association Conference, Toronto (zitiert in Mulford, 1988). Bigelow, A. E. (1987). Early words of blind children. Journal of Child Language, 14, 47⫺56. Bigelow, A. E. (1990). Relationships between the development of language and thought in young blind children. Journal of Visual Impairment and Blindness, 15, 414⫺419.
Burlingham, D. (1961). Some notes on the development of the blind. The Psychoanalytic Study of the Child, 16, 121⫺145.
Castro, J., & Pe´rez-Pereira, M. (1996). Funciones communicativas del lenguaje de nin˜os ciegos y videntes [Communciative functions of the language of blind and sighed children.] Infancia y Aprendizaje, 74, 139⫺154. Chomsky, N. (1980). Discussion to: Piaget, J.: Schemes of action and language learning. In Piatelli-Palmarini, M. (Ed.), Language and Learning ⫺ The Debate between Jean Piaget and Noam Chomsky (pp. 169⫺173). Cambridge: Harvard University Press.
750
V. Alternative Formen sprachlicher Kommunikation
Civelli, E. M. (1983). Verbalism in young blind children. Journal of Visual Impairment and Blindness, 77, 61⫺63.
Bullowa (Ed.), Before speech: The beginning of interpersonal communication (pp. 149⫺169). Cambridge: Cambridge University Press.
Conti-Ramsden, G. & Pe´rez-Pereira, M. (in press). Conversational interactions between mothers and their infants: The case of congenital blindness. Journal of Visual Impairment and Blindness.
Fraiberg, S. & Adelson, E. (1973). Self-representation in language and play: Observations of blind children. Psychoanalysis Quarterly, 42, 539⫺562.
Cutsforth, T. D. (1951). The blind in school and society. New York: American Foundation for the Blind. Demott, R. M. (1972). Verbalism and affective meaning for blind, severely visually impaired, and normally sighted children. New Outlook for the Blind, 66, 1⫺8. Dodd, B. (1980). Interaction of auditory and visual information in speech perception. British Journal of Psychology, 71, 541⫺549. Dodd, B. (1983). The visual and auditory modalities in phonological acquisition. In A. Mills (Ed.), Language acquisition in the blind child: Normal and deficient (pp. 57⫺61). London: Croom Helm. Dokecki, P. R. (1966). Verbalism and the blind: A critical review of the concept and the literature. Exceptional Children, 32, 525⫺530. Dunlea, A. (1984). The relation between concept formation and semantic roles: Some evidence from the blind. In L. Feagans, C. Garvey, & R. Golinkoff (Eds.), The origins and growth of communication (pp. 224⫺243). Norwood: Ablex. Dunlea A. (1989). Vision and the emergence of meaning: Blind and sighted children’s early language. Cambridge: Cambridge University Press. Dunlea, A. & Andersen, E. S. (1992). The emergence process: Conceptual and linguistic influences on morphological development. First Language, 12, 95⫺115.
Freedman, D. G. (1964). Smiling in blind infants and the issues of innate versus acquired. Journal of Psychology and Psychiatry and Allied Disciplines, 5, 171⫺184. Gleitman, L. (1981). Maturational determinants of language growth. Cognition, 10, 103⫺114. Grimm, H. (1995). Sprachentwicklung ⫺ allgemeintheoretisch und differentiell betrachtet. In R. Oerter & L. Montada (Hrsg.), Entwicklungspsychologie (S. 705⫺757). Weinheim: Psychologie Verlags Union. Groenveld, M. (1993). Effects of visual disability and behaviour and the family. In A. R. Fiedler, A. B. Best & M. C. O. Bax (Eds.), The management of visual impairment in childhood (pp. 64⫺72). Cambridge: Cambridge University Press, 64⫺72. Harley, R. R. (1963). Verbalism among blind children: An investigation and analysis. New York: American Foundation for the Blind. Hobson, R. P. (1993). Autism and the development of mind. Hillsdale: Lawrence Erlbaum Associates Inc. Hobson, R. P., Brown, R., Minter, M. E. & Lee, A. (1997). „Autism“ revisited: The case of congenital blindness. In V. Lewis & G. M. Collis (Eds.), Blindness and psychological development in young children (pp. 99⫺115). Leicester: British Psychological Society Books. Jan, J. E. Freeman, R. D. & Scott, E. P. (1977). Visual impairment in children and adolescents. New York: Grune & Stratton.
Fay, W. H. (1973). On the echolalia of the blind and the autistic child. Journal of Speech and Hearing Disorders, 38, 478⫺488.
Janson, U. (1993). Normal and deviant behavior in blind children with ROP. Acta Ophthalmologica, Supplement 210, 20⫺26.
Ferguson, R., & Buultjens, M. (1995). The play behaviour of young blind children and its relationships to developmental stages. British Journal of Visual Impairment, 13, 100⫺107.
Junefelt, K. (1987). Blindness and child-adjusted communication. Stockholm: University Press.
Fraiberg, S. (1974). Blind infants and their mothers: An examination of the sign system. In M. Lewis & L. A. Rosenblum (Eds.), The effect of the infants on its caregiver (pp. 215⫺232). New York: Wiley.
Keeler, W. R. (1957). Autistic patterns and defective communication in blind children with retrolental fibroplasia. In P. H. Hoch & J. Zubin (Eds.), Psychopathology of communication (pp. 64⫺83). New York: Grune & Stratton.
Fraiberg, S. (1977). Insights from the blind. London: Souvenir Press.
Kekelis, L. S. & Andersen, E. S. (1984). Family communication styles and language development. Journal of Visual Impairment and Blindness, 78, 54⫺65.
Fraiberg, S. (1979). Blind infants and their mothers: An examination of the sign system. In M.
Kekelis, L. S. & Prinz, P. M. (1996). Blind and sighted children with their mothers: The develop-
54. Sprachentwicklung blinder Kinder ment of discourse skills. Journal of Visual Impairment and Blindness, 90, 423⫺434. Kitzinger, M. (1984). The role of repeated and echoed utterances in communication with a blind child. British Journal of Disorders of Communication, 19, 135⫺146. Landau, B. (1982). Language learning in blind children: Relationships between perception and language. Unpublished doctoral dissertation. Philadelphia: University of Pennsylvania (zitiert in Mulford, 1988). Landau, B. (1983). Blind children’s language is not „meaningless“. In A. E. Mills (Ed.), Language acquisition in the blind child: Normal and deficient (pp. 62⫺76). London: Croom Helm. Landau, B. (1997). Language and experience in blind children: retrospective and prospective. In V. Lewis & G. M. Collis (Eds.), Blindness and psychological development in young children (pp. 9⫺28). Leicester: British Psychological Society. Landau, B., & Gleitman, L. R. (1985). Language and experience: Evidence from the blind child. Cambridge: Harvard University Press. Lucas, S. A. (1984). Auditory discrimination and speech production in the blind child. International Journal of Rehabilitation Research, 7, 74⫺76. McConachie, H. R. & Moore, V. (1994). Early expressive language of severely visually impaired children. Developmental Medicine and Child Neurology, 36, 230⫺240. McGinnis, A. R. (1981). Functional linguistic strategies of blind children. Journal of Visual Impairment and Blindness, 75, 210⫺214. Miecznikowski, A. & Andersen, E. (1986). From formulaic to analysed speech: Two systems or one? In J. Connor-Linton, C. J. Hall, & M. McGinnis (Eds.), Perspectives on language ⫺ Southern California Occasional Papers in Linguistics: Vol. 11: Social and cognitive (pp. 181⫺202). Los Angeles: University of Southern California. Miller, S. A. (1987). Developmental research methods. Englewood Cliffs: Prentice-Hall. Mills, A. E. (1983). Acquisition of speech sounds in the visually handicapped child. In A. E. Mills (Ed.), Language acquisition in the blind child: Normal and deficient (pp. 46⫺56). London: Croom Helm. Mills, A. E. (1987). The development of phonology in the blind child. In B. Dodd & R. Campbell (Eds.), Hearing by eye: The psychology of lip reading (pp. 145⫺161). Hove: Lawrence Erlbaum Associates Ltd.
751 Moore, V. & McConachie, H. (1994). Communication between blind children and severely visually impaired children and their parents. British Journal of Developmental Psychology, 12, 491⫺502. Mulford, R. (1983). Referential development in blind children. In A. E. Mills (Ed.), Language acquisition in the blind child: Normal and deficient (pp. 89⫺107). London: Croom Helm. Mulford, R. (1988). First words of the blind child. In M. D. Smith & J. L. Locke (Eds.), The emergent lexicon: The child’s development of a linguistic vocabulary (pp. 293⫺338). New York: Academic Press. Nagera, H., & Colonna, A. B. (1965). Aspects of the contribution of sight to ego and drive development: A comparison of the development of some blind and sighted children. The Psychoanalytic Study of the Child, 20, 267⫺287. Neisser, U. (1993). The self perceived. In U. Neisser (Ed.), The perceived self: Ecological and interpersonal sources of self-knowledge (pp. 3⫺21). Cambridge: Cambridge University Press. Nelson, K. (1973). Structure and strategy in learning to talk. Monographs of the Society for Research in Child Development, 38(1⫺2) Serial No. 149. Norgate, S. (1996). Research methods for studying the language of blind children. Milton Keynes: The Open University. Norris, M., Spaulding, P. J., & Brodie, F. H. (1957). Blindness in children. Chicago: University of Chicago Press. Pe´rez-Pereira, M. (1994). Imitations, repetitions, routines, and the child’s analysis of language: Insights from the blind. Journal of Child Language, 21, 317⫺337. Pe´rez-Pereira, M. (1999). Deixis, personal reference, and the use of pronouns by blind children. Journal of Child Language, 26, 655⫺680. Pe´rez-Pereira, M. & Castro, J. (1992). Pragmatic functions of blind and sighted children’s language: a twin case study. First Language, 12, 17⫺37. Pe´rez-Pereira, M. & Castro, J. (1994). El desarollo psicolo´gico de los nin˜os ciegos en la primera infancia [Psychological development of blind children in the early years]. Barcelona: Paido´s. Pe´rez-Pereira, M. & Castro, J. (1997). Language acquisition and the compensation of visual deficit: New comparative data on a controversial topic. British Journal of Developmental Psychology, 15, 439⫺459. Pe´rez-Pereira, M. & Conti-Ramsden, G. (1999). Language development and social interaction in blind children. Hove: Psychology Press Ltd.
752 Pe´rez-Pereira, M. & Conti-Ramsden, G. (submitted). The role of directives in verbal interactions between blind children and their mothers. Journal of Visual Impairment and Blindness. Peters, A. M. (1987). The role of imitation in the developing syntax of a blind child. Text, 7, 289⫺ 311. Peters, A. M. (1994). The interdependence of social, cognitive, and linguistic development: Evidence from a visually impaired child. In H. TagerFlusberg (Ed.), Constraints on language acquisition: Studies of atypicial children (pp. 195⫺220). Hillsdale: Lawrence Erlbaum Associates Inc. Piaget, J. (1972). Sprechen und Denken des Kindes. Düsseldorf: Schwann. Preisler, G. M. (1991). Early patterns of interaction between blind infants and their sighted mothers. Child: Care, Health and Development, 21, 79⫺110. Preisler, G. M. (1997). Social and emotional development in blind children: A longitudinal study. In V. Lewis & G. Collis (Eds.), Blindness and psychological development in young children. (pp. 69⫺85). Leicester: British Psychological Society Books. Rogers, S. J. & Puchalski, C. B. (1984). Development of symbolic play in visually impaired young children. Topics in Early Childhood Special Education, 3, 57⫺60. Rogers, S. J. & Puchalski, C. B. (1986). Social smiles of visually impaired infants. Journal of Visual Impairment and Blindness, 80, 863⫺865. Rogow, S. M. (1986). Semantics and the blind child. Semiotica, 62, 297⫺312. Rogow, S. M. (2000). Communication and language. In B. Silverstone & M. A. Lang & B. P. Rosenthal & E. E. Faye (Eds.), The lighthouse handbook on vision impairment and vision rehabilitation (Vol. I, pp. 395⫺408). Oxford: Oxford University Press. Rowland, C. (1983). Patterns of interaction between three blind infants and their mothers. In A. E. Mills (Ed.), Language acquisition in the blind child: Normal and deficient (pp. 114⫺132). London: Croom Helm. Rowland, C. (1984). Preverbal communication of blind infants and their mothers. Journal of Visual Impairment and Blindness, 78, 297⫺302.
V. Alternative Formen sprachlicher Kommunikation Rubin, K. H., Fein, G. G. & Vanderberg, B. (1983). Play. In P. H. Mussen (Ed.), Handbook of child psychology, Vol. 4 (pp. 693⫺774). New York: Wiley. Tröster, H. & Brambring, M. (1992). Spiele und Spielmaterialien blinder und sehender Kinder im Kleinkind- und Vorschulalter. Heilpädagogische Forschung, 18, 22⫺34. Urwin, C. (1978a). The development of communication beetween blind infants and their mothers. In A. Lock (Ed.), Action, gesture, and symbol: The emergence of language (pp. 79⫺108). London: Academic Press. Urwin, C. (1978b). The development of communication between blind infants and their parents: Some ways into language. Unpublished doctoral dissertation. Cambridge: Cambridge University (zitiert in Mulford, 1988). Urwin, C. (1979). Preverbal communication and early language development in blind children. Papers and Reports on Child Language Development, 17, 119⫺127. Urwin, C. (1983). Dialogue and cognitive functioning in the early language development of three blind children. In A. E. Mills (Ed.), Language acquisition in the blind: Normal and deficient (pp. 142⫺161). London: Croom Helm. Urwin, C. (1984a). Communication in infancy and the emergence of language in blind children. In R. L. Schieffelbusch & J. Pickar (Eds.), The acquisition of communicative competence (pp. 479⫺524). Baltimore: University Park Press. Urwin, C. (1984b). Language for absent things: Learning from visually handicapped children. Topics in Language Disorders, 4, 24⫺37. von Tetzchner, S. & Martinsen, H. (1981). A psycholinguistic study of the language of the blind: I. Verbalism. International Journal of Psycholinguistics, 7⫺3(19), 49⫺61. Wills, D. M. (1979). Early speech development in blind children. The Psychoanalytic Study of the Child, 34, 85⫺117. Zwiener, K. & Schmidt-Kolmer, E. (1982). Entwicklungskontrolle in der frühen Kindheit in ihrer Bedeutung für die gesundheitliche Betreuung und die Erziehung. Berlin: Volk und Gesundheit.
Michael Brambring Universität Bielefeld (Deutschland)
VI. Spracherwerb/Child Language Acquisition 55. Phylo- und Ontogenese sprachlicher Kommunikation 1. 2.
15.
Evolution und Kommunikation Gedächtnis – Quelle zwischenmenschlicher Kommunikation Ereignisbegriffe – die lokalen Zentren des menschlichen Wissens Evolutionäre Stufen in kommunikativen Prozessen Eine Hypothese Das Genom und die Sprachen Zur Ontogenese der Sprachentwicklung Über kommunikative Evolutionsstufen Über Eiszeiten und Hirnfunktionen Der Weg zu hypotaktischen Handlungsprogrammen und Sprachstrukturen Benennungen für Begriffsklassen und ihre Funktionen in der Kommunikation Nervale Epizentren der Sprachbenutzung und Störungen ihrer Funktionsweise Die zwei bedeutsamen Zentren Hauptphasen der Sprachevolution im Überblick Literatur
1.
Evolution und Kommunikation
3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.
In seinem Buch ‘Botschaft ohne Worte’ greift Martin Lindauer (1990) die Frage nach der Evolution der Kommunikationssysteme auf und bekennt, dass er dieser „heiklen, wenn auch sehr wichtigen Frage aus dem Wege gegangen“ sei. Wir wollen wenigstens einen Versuch für eine mögliche Klärung in dieser Frage wagen, wohl wissend, dass er tastend hypothetisch ist. Wir gehen von der Überlegung aus, dass ja auch die heute lebenden Arten eine sehr lange Evolutionsgeschichte durchlaufen haben. Ameisen, Termiten, Fische, Vögel oder Primaten der heute lebenden Organismen haben als Artbildungen ebenfalls Millionen Jahre Evolutionsgeschichte hinter sich. Wie die jeweiligen Ausgangsformen aussahen, das wissen wir nur in sehr wenigen Fällen. Aber wenn wir uns allgemeine evolutionsbiologische Gesetzmäßigkeiten zu eigen machen (Mayr, 1997), so führt das u. a. zu der Einsicht, dass die Anfangszustände der Evolution aller Teilsysteme einfachere, weniger dif-
ferenzierte Strukturbildungen waren. Und sie haben auch in aller Regel einfachere Funktionen in ihren Leistungen verwirklicht. Wenn wir also einen kurzen Blick auf gegenwärtig anzutreffende Kommunikationsformen werfen, so hoffen wir, einen Eindruck davon zu gewinnen, wohin die Evolution der Kommunikation optimiert wurde. Ein Optimierungskriterium kann wohl gesehen werden: Die Kommunikation steht im Dienste einer wechselseitigen Verhaltensabstimmung, und sie beruht zu diesem Zwecke auf Informationsaustausch. Quelle der Information sind die Gehirne der kommunizierenden Organismen und wenn sie noch so klein sind. Sie kann vererbt sein wie bei den meisten Insekten oder durch Lernen erworben wie beim Menschen oder eine ‘Verschränkung’ von Angeborenem mit Erlerntem wie bei (insbesondere höheren) Wirbeltieren sein. Bevor etwas durch Lernen aufgebaut werden kann, muss eine Ausgangsstruktur für das Eingreifen von Lernprozessen vorhanden sein (Foppa, 1999). Für die Abwandlung vorgegebener, genetisch vermittelter Strukturen sehr alter Herkunft hat Lindauer selbst eine wesentliche Einsicht gewonnen. Er hat gezeigt, wie vitale, ursprünglich oft lebenserhaltende organismische Leistungen im Dienste der Kommunikation umfunktioniert oder in sie eingebettet wurden. Wir geben dazu einige Beispiele nach Lindauer. Das Federkleid der Vögel war ursprünglich in den langen Kälteperioden adaptiv als Wärmeschutz. Es begünstigte in einer späteren Evolutionsperiode die Nutzung der Vorderextremitäten für weite Sprünge als frühe Stufe einer beginnenden Flugfähigkeit. Durch Einlagerung ehemaliger Exkretprodukte werden Pigmente im Federkleid eingebaut. Damit wird dann eine Art ‘Signalflagge’ gesetzt. Dadurch können Weibchen angelockt und Rivalen vertrieben werden. Oder: Die Talg- und Schweißdrüsen der Säugetiere stehen im Dienste der Hautpflege und auch der Temperaturregelung. Sie werden im
754 Laufe der Evolution zu Duftdrüsen umgewandelt. In dieser Funktion signalisieren sie die Artzugehörigkeit, das Geschlecht, die Rangordnung im Sozialverband, und sie dienen der Markierung von Reviergrenzen. Beim Menschen ist eine Hautdrüse umgewandelt zur Tränendrüse. Die stimmungsabhängige Sekretion dieser umgewandelten Hautdrüse ist zu einem wichtigen Signalgeber für Schmerz, Trauer oder Zorn geworden. Schließlich beruht auch das Sprechen beim Menschen auf einer Modulation der Atemluft durch die Kehlkopfmuskulatur. Insgesamt – und das waren nur wenige ausgewählte Beispiele – zeigt sich, wie auf der Basis vorgegebener organismischer Funktionen ein Evolutionsdruck wirkt, der auf wechselseitige Verhaltensabstimmung gerichtet ist und der an Funktionen angreift, die für andere Zwecke ausgebildet wurden. Unterschiedlichste Vorleistungen werden derart für kommunikative Zwecke nutzbar gemacht. Die Ausstattung von Körperfunktionen mit kommunikativer Information macht diese Funktionen zu Steuerungsinstrumenten der Verhaltensabstimmung. Die Ressourcen für die Kommunikation liegen in den Gedächtnistrukturen der kommunizierenden Partner. Sie formen und begrenzen den Umfang und die Grade der Nuancierungen von austauschbaren Informationen. Das kann durch die Absonderung von Botenstoffen geschehen. Androgene und östrogene Stoffe z. B. werden von Klima, Jahreszeiten, Geschlecht und Alter mitgesteuert, und sie beeinflussen bei vielen Tierarten, von Insekten bis zu Säugetieren, das Partnerverhalten und die Kastendifferenzierung (Müller, 1990). Mechanische Signale spielen bei dicht beieinander lebenden Arten, wie z. B. bei Insekten (Spinnentieren etwa), eine dominierende Rolle. Bei Fischen ist bekannt, dass mit Verletzungen Stoffe freigesetzt werden, die zu langzeitigen Warnsignalen selbst in größter Verdünnung werden. Chemische Signale findet man bevorzugt bei länger wirkenden Signalisierungen; akustische Signale sind kurzlebiger, schneller, und sie erlauben im Unterschied zu optischen Signalen die Verhaltensabstimmung in der Nacht. Bei bevorzugter akustischer Kommunikation haben sich häufig besondere Empfindlichkeitsbereiche ausgebildet, die mit niedrigen Schwellen arbeiten und die besonders für jene Frequenzen empfindlich sind, in denen auch die Signale des Partners liegen. Das gilt bis hin zu uns Menschen. Denn in unserem Ohr ist z. B. die Empfind-
VI. Spracherwerb
lichkeit schon vom Innenohr an im Bereich des Spektrums unserer Sprache besonders hoch. Es gibt nicht nur Signalfilter für unterschiedliche Frequenzen, sondern auch Detektoren für Lautmusterbildungen, zu denen zumeist auch Detektoren für Zeitcodes gehören. Das gilt für die Blinkcodes von Leuchtkäfern (die damit Beutetiere anlocken), es gilt für den Vogelgesang, für manche Stimmfühlungslaute z. B. bei Kücken oder bei jungen Schimpansen und vielen anderen Arten. Sie sichern zumeist das Zusammenbleiben oder die Zusammengehörigkeit in der Gruppe. Es ist eine tief, bereits im angeborenen Repertoire verankerte Kommunikationsweise. Je höher die Position in der Artenreihe, um so differenzierter sind die Gedächtnisstrukturen und um so feingestufter sind die kommunikativen Mittel. Motivation greift regulierend ein in die Informationserzeugung. Rufe sind oft einfach gestaltete ‘affine Laute’, Warnlaute stärker gemischt als ‘diffuge’ Zischlaute. Die Frequenzzusammensetzung hängt hier auch vom Typ der Gefahr ab, die signalisiert wird vom Grad bestehender Not und auch von der Richtung, aus der die Gefahr kommt. Im Rahmen der Soziobiologie werden zahlreiche Signalgebungen nicht nur im Sinne der Arterhaltung, sondern einer genetischen Tendenz auch zur Erhaltung der individuellen Erbanlagen zugeschrieben (Wilson, 1998). Ohne Zweifel gibt es Beispiele, die schwerlich besser zu deuten sind und dies nicht nur für die vielzitierten Bienen, sondern auch für höhere Säuger, wie z. B. für Löwen (Vogel, 1989): Nach einem Machtwechsel im Rudel beißt der Nachfolger des alten Pascha dessen noch pflegebedürftigen Nachkommen tot. Das Muttertier wird früher wieder empfängnisbereit, und so kann der neue Pascha seine eigenen Gene wieder rascher im Rudel verteilen. Aber auch dessen Herrschaftsregime ist oft nur auf einige Monate beschränkt. Der soziobiologische Ansatz hat seine Schwächen. Wenn eine so starke Tendenz zum Erhalt der eigenen Gene ein allgemeines biologisches Gesetz ist, weshalb sind dann bei fast allen bekannten Völkern die Geschwisterehen tabuisiert? Man spricht von der Gefahr von Erbkrankheiten durch das Wirksamwerden rezessiver Gene. Aber davon wussten die alten und auch die Naturvölker nichts. Man sagt, dass eine sexuelle Geschwisterabneigung aus dem engen Zusammenleben in der frühen Kindheit entstehe
55. Phylo- und Ontogenese sprachlicher Kommunikation
und dass, symbolisch gesprochen, das ehemals gemeinsame ‘Töpfchen’ späterhin für Abneigung in intimen Lebensbereichen verantwortlich sei. Abgesehen von den ‘heiligen’ Geschwisterehen zwischen Königskindern im alten Ägypten gibt es nur wenige Beispiele, in denen genetisch fundierter Verwandtenschutz nach dem Grade der Verwandtschaft überzeugend dargestellt wurde (vgl. dazu Vogel & Eckensberger, 1988). Damit sind wir bei der Problematik zwischenmenschlicher Kommunikationsformen angelangt. Wenn es nun wahr ist, dass alle Kommunikation in ihren Inhalten von den Gedächtnisstrukturen der kommunizierenden Partner gespeist wird, die Art der peripheren Mittel (wie Duft, Lautbildung, optische Reizbildung, Vibrationen) aber sensible Anpassungen an die Lebensformen in den Biotopen bezeugen und dass auch die empfangenden Sinnesorgane dem im Besonderen angepasst wurden, dann sollte das auch für die Kommunikation zwischen Menschen gelten. So werden wir unseren Blick nun auf die Architektur des menschlichen Gedächtnisses lenken.
2.
755
Schweißsekretion bei ähnlichen Anlässen u. v. a. Wir möchten annehmen, dass sich ähnliche Teilfunktionen aus frühen Evolutionsphasen auch im menschlichen Nervensystem etabliert haben. Die Kartierung unserer Hirnoberfläche ist zuerst von Brodmann vorgenommen worden (Abbildung 55.1). Das menschliche Gehirn zeigt nach Schichtungsart der Zelllagen und der Zelltypen ein Bild wie ein Flickenteppich.
Gedächtnis – Quelle zwischenmenschlicher Kommunikation
Man spricht derzeit viel von ‘erkennenden Nervennetzen’, deren Funktion bereits in sehr frühen Phasen der Evolution z. B. bei den Insekten vor 200 Millionen Jahren auf effiziente Weise wirksam geworden ist. Im Grunde handelt es sich dabei um Kodierungen, die wechselwirkende Zellgruppen zu Zellverbänden zusammen geschlossen haben. Das betrifft die interne Abbildung von Informationszugängen über die Sinnesorgane, und es betrifft auch die motorische Antwortorganisation gegenüber den aufgenommenen Umweltreizen (vgl. die Experimente von Cheney & Seifarth, 1990). Wir Menschen schleppen aus frühesten Zeiten organismische Anpassungsleistungen mit uns herum, die durch Umweltänderungen längst ihren adaptiven Wert verloren haben, z. B. die Pupillenerweiterung bei Schreck oder Gefahr, (das macht Sinn im Dämmerungssehen, weil dann bessere Erkennungschancen bestehen. Nach dem Übergang zum Tages- und Farbensehen hat diese Reaktion ihren adaptiven Wert verloren) oder das Aufrichten der Haare bei starker emotionaler Erregung bzw. die verstärkte
Abb. 55.1: Feldgliederung der Hirnrinde des Menschen (nach Brodmann). Oben: linke Hemisphäre (Draufsicht); unten: rechte Hemisphäre von innen gesehen. Zwischen diesen Feldern gibt es Verbindungen an der Oberfläche und in tieferliegenden Schichten. Das eine System stellt Nahverbindungen über Kollateralen her, das andere (A-System) verbindet fernere Areale (vgl. dazu auch Abbildungen 55.2, 9 und 10 und Literatur zu Pulvermüller & Schumann, 1994).
Man weiß mittlerweile, dass es hier Zonen weiträumiger und Zonen enger Vernetzungen gibt, die wahrscheinlich in evolutionär verschiedenen Zeitaltern angelegt wurden (s. u.). Aus gut untersuchten Einstrahlungsgebieten, vor allem im Bereich der visuellen Wahrnehmung, ist bekannt, dass diese Brodmannregionen unterschiedliche Funktionen haben können, die in unterschiedlich alte Evolutionsphasen zurückreichen. Die sensible Wahrneh-
756
VI. Spracherwerb
Abb. 55.2: Die Gegenstandserkennung der menschlichen Wahrnehmung wird von funktionell verschiedenen Systemen aufgebaut: Konturerkennung in Areal 17, Verbindung von Konturen zu Gegenstandsbildern, daneben (Areal 18 und darunter 19) die Erkennung von Bewegung, von dynamischen Konturveränderungen sowie die Einspeisung von Farbwerten in umgrenzte Flächen (Areal 19 ist hier nicht abgebildet). Die Integration der Teilsysteme findet vorwiegend in den Arealen 18 und 19 statt, wobei im letzteren auch die Einspeisung von Gedächtnisbesitz in Erkennungsvorgänge stattfindet.
mung von Bewegung funktioniert schon sehr früh, z. B. bei Wirbellosen, wie z. B. Insekten. Die Wahrnehmung von Konturen funktioniert bereits bei den einfachen Nervennetzen von Krebsen ebenso wie bei den einfachen Nervensystemen der Wirbeltiere, wie z. B. bei Fischen. Bewegungs- und Konturwahrnehmung sind wichtige Elemente der Formwahrnehmung. Die Gestaltwahrnehmung wird nach neueren Befunden schrittweise von einzelnen Teilsystemen her aufgebaut. So ähnlich dürfte das auch bei den höher organisierten Nervensystemen gewesen sein. Wesentlich später, erst mit der Umstellung auf das Tagleben, verbindet sich bei den Wirbeltieren die Farbwahrnehmung mit den Strukturbildungen aus dem Hell-Dunkel-System. Wahrscheinlich haben zeitversetzte Vorgänge auch bei der Organisation von Gedächtnisbesitz, seinen Teilleistungen und deren Zusammenspiel eine analoge Rolle gespielt (s. Abbildung 55.2). Nach dem soeben Gesagten kann man davon ausgehen, dass die Repräsentation von
Wahrnehmungsbildern eine der frühesten Formen von Gedächtnisbildungen durch Umweltreize ist. Man sollte sich das nicht in Form einer Schichtung oder Kastelung im Nervensystem vorstellen, sondern vielmehr in Form einer frequenzkodespezifischen Zusammenschaltung von Nervenzellgruppen, wobei jede Nervenzellgruppe in ihrer eigenen Tonart spielen kann, aber zugleich noch in zahlreiche andere Zellensembles eingebunden ist. So können Erkennungsensembles von Nervenzellgruppen aus Verschaltungen ganz unterschiedlichen Alters herrühren. Eine eigenartige Polyphonie entsteht im Nervensystem. Neue nervale Chorsätze können alte Vernetzungen als Teilfunktionen in sich aufnehmen, im neuen Zusammenspiel zugleich neue Kompositionen hervorbringen. Eine von ihnen betrifft die Bildung von Begriffen, schließlich ihre Belegung durch Symbole und letztlich ihre Assoziation mit Worten einer Sprache. Zunächst scheint das gar nicht sehr viel Neues zu sein. Die Assoziativität von Nervenzellen wie von Nervenzellgruppen ist eine uralte Leistung schon einfachster Ner-
757
55. Phylo- und Ontogenese sprachlicher Kommunikation
vensysteme. Doch hier spielt noch mehr und Anderes mit. Wir denken dabei an die Variabilität der Verschaltungen, was wir bei uns als die Dynamik der Gedächtnistätigkeit erleben können. Gemeint sind damit Prozesse der selektiven Nutzung wie der internen Umformung von Gedächtnisbesitz. Wenn wir recht sehen, gibt es auch dazu eine Vorstufe im alten Bildgedächtnis. Wir meinen die Gedächtnisdynamik, wie sie uns im Traum entgegentritt. Wenn man der Aussagefähigkeit von EEG-Daten bezüglich der REM-Entladungen während des Träumens folgt, dann träumen gewiss auch höhere Wirbeltiere: Der Hund läuft schlafend (vielleicht hinter einer Katze her) und knurrt, er beißt schlafend die Katze und schüttelt dabei ein fiktives Beutetier. Wie auch immer: in unserem Gedächtnis werden während des Träumens Gedächtnisinhalte ‘umgedichtet’, kohärent entladende Gebiete werden desynchronisiert und neu kombiniert. Unvereinbare Inhalte werden verbunden, getrennte ineinander geschoben, kurz, es geschieht etwas, das S. Freud die ‘Traumarbeit’ genannt hat. Wir müssen davon ausgehen, dass den Wahrnehmungsprozessen Filter vorgeschaltet werden können, die je nach Informationsbedürfnis und Motivationslage des Wahrnehmenden bestimmte Eigenschaften der Reizsituation akzeptieren, sie gewissermaßen ‘passieren’ lassen, andere betonen oder abschirmen. Diese Filterungen werden situationsabhängig gesteuert. Sie akzeptieren mehr Essbares bei Hunger, mehr Gefahrvolles in Zuständen der Furcht, mehr Trauriges in Trauer, mehr Fröhliches bei Freude. Das sind Sensibilisierungen oder Modifikationen von Wahrnehmungsinhalten. Daneben gibt es im Hintergrund auch Objekteigenschaften, die relativ stabil bleiben und die als invariante Objekteigenschaften gelten können (Rosch, 1975): Ein Pferd hat ein Fell mit gering variabler Farbigkeit (von weiß über schwarz bis zu Brauntönen), einen Schweif, Hufe, und es wiehert bei der Lautgebung. Eine Leiter hat zwei Ständer, die durch Sprossen verbunden sind – und so fort durch das Reich aller stabilen Objekte, die als Gegenstände unserer Wahrnehmung fungieren können. Varianten sind immer dabei, aber sie bilden unter sich ein relativ geschlossenes Merkmalsensemble, das stabile Erkennung ermöglicht und das die Basis ist für eine gleichbleibende Benennung der betreffenden Objekte einer Klasse. Doch bevor wir auf Benennungen etwas genauer eingehen, sei das Problem der Merkmalsfilterung noch einmal bedacht.
Es liegt im Grunde an der Feinheit der Filterung, wieviele Merkmale man an einem Objekt unterscheidet. Wesentlich ist, was man für eine Verhaltenseinstellung oder –ausführung an Objekteigenschaften braucht: Biegbarkeit, Brennbarkeit, Festigkeit etc. Über diese offenen oder versteckten Gebrauchsmerkmale hinaus gibt es gewisse Objekteigenschaften, die das Grundinventar für die Klassifizierung der Gegenstände abgeben: dass ein Baum aus Stamm, Ästen und Bl‰ttern besteht, reicht aus, um ihn als Baum zu erkennen. Bei Nadeln und Bl‰ttern spaltet sich das Baumuniversum in Nadel- und Laubb‰ume. Unterscheidungen mittels feinerer Merkmale führen zu Tanne, Eiche, Buche, Linde; wieder andere trennen Str‰ucher, B¸sche und gar Gehˆlze von anderen Klassifikaten ab. Klassifizierungsrelevant sind bei all diesen stabilen Wahrnehmungsdingen relativ statische Merkmale. Die Zeit spielt bei diesen Be-
Objektbegriff Aktionen Wort < > [<WM> phys.
nerv. Merkmale
<M1, M2, M3, ...Mn> <...> <...>] sensor. Merkmale Ereignisse
Abb. 55.3: Objekt- vs. Ereignisbegriffe. Objektbegriffe (oben) sind durch Merkmalssätze bestimmt, die mit Aktivitäten (z.B. Handlungen) assoziiert und mit Ereigniserfahrungen verbunden sind. Operationen über den Merkmalssätzen bewirken z.B. beim Fokussieren der Aufmerksamkeit Inhibitionen von Merkmalen oder Entfaltungen bei Suchprozessen durch Aktivierungen. Erstere umgrenzen einen Oberbegriffsbereich, letztere entfalten Unterbegriffe. Ereignisbegriffe (unten) sind bestimmt durch einen semantischen Kern (zumeist ein Verb, hier Treffen), von dem aus Objektbegriffe über semantische Relationen gebunden sind. Ihre sprachliche Enkodierung ermöglicht die grammatischen Formenbildungen für Akteure, Rezipienten, Instrument, Orts-, Zeit-, Raum- und Motivbeziehungen (Erläuterungen dazu im Text). Verbindungen zwischen Ereignisbegriffen werden durch kausale, finale, konditionale oder durch einfache Zeitrelationen ausgedrückt.
758
VI. Spracherwerb
griffsbildungen und den möglichen Beziehungen zwischen ihnen (wie u. a. bei Ober-, Unterbegriff) keine Rolle: ein Dackel gehört immer zur Klasse der Hunde, ein Setter steht zu ihm in Nebenordnung und heiss bleibt immer in gegensätzlicher Merkmalsausprägung zu kalt wie laut zu leise, rennen steigert laufen, schreien das Rufen. Merkmalseigenschaften der Begriffe regeln diese Beziehungen, sie sind zeitinvariante Objekteigenschaften. Anders bei den von uns so benannten Ereignisbegriffen (Abbildung 55.3). Sie haben eine Binnenstruktur, die häufig Zeitbeziehungen einschließt. Sie verweisen zumeist auf ein Vorher und auf ein Nachher. Eine völlig andere Klassifizierung ist möglich, wenn man transformative Merkmalseigenschaften an oder mit Objekten als Klassifizierungskriterium wählt: Verdunsten, Verbrennen oder Zerbrechen sind Kriterien, die sich auf Merkmalsänderungen beziehen. Überholen bezieht sich auf Orts- und Zeitrelationen; auch Begriffsbildungen nicht sichtbarer Objekte, wie z. B. Vergessen, das sich auf die Finalität beziehen kann, enthalten einen Zeitbezug. Beziehungen zwischen den Ereignisbegriffen werden durch spezifische Partikel der Grammatik ausgedrückt (s. u.): Kurz gesagt: Eine Klassifizierung der menschlichen Begriffsbildung kann nach verschiedenen Kriterien durchgeführt werden, die jeweils als Klassenbildner fungieren.
3.
Ereignisbegriffe – die lokalen Zentren des menschlichen Wissens
Die klassifizierenden Merkmale der Ereignisbegriffe sind hier nicht mehr einfache Objekteigenschaften. Sie betreffen Beziehungen zwischen einem semantischen Kern (Sk) und Objektbegriffen mit den soeben besprochenen Merkmalseigenschaften. Wir können uns das vorstellen am Beispiel eines ordinären Alltagsbegriffs wie Einpacken (Abbildung 55.4). Einpacken ist begrifflich einigermaßen vollständig durch sechs semantische Relationen mit den zugehörigen Objektbegriffen bestimmt. Das Ereignis drückt ein Geschehen aus. In ihm spielt die zeitliche Dimension eine wesentliche Rolle. Was die semantischen Besetzungen des Ereignisbegriffs mit Relationen betrifft, so sind diese die wesentlichen Invarianten des Ereignisbegriffs, während die Objektbegriffe, zwar in Grenzen, aber doch vielfältig aus-
Abb. 55.4: Begriffsvernetzung beim ordinären Ereignisbegriff Einpacken. Ein Handlungsträger (z.B. Kunde), ein Objekt (z.B. Ware), ein Instrument (z.B. Papier), ein Ort (z.B. Verkaufstisch), eine Motivation (z.B. Verschenken) und als Vorbedingung (Conditional) die Aktion Bezahlen sowie als Konsequenz oder Verursachung die Motivation des Erfreuens. Geschehenstypen dieser Art kommen alltäglich in ungezählten Varianten vor, und es gibt Evidenz dafür anzunehmen, dass Strukturtypen dieser Art Aufbauelemente des menschlichen Wissensbesitzes bilden (vgl. Hallpike, 1990).
tauschbar sind: Ware kann ersetzt werden durch Kamera, F¸ller, Taschenrechner und was sonst noch als Ware einpackbar ist. (Das ist der zweite einschränkende Ankerpunkt, der mit der Begriffswahl erfolgt (Klix, 1999). Als Instrument können dienen: Papier, Folie, Stoff?). Als Ort können dienen Tisch, Kaufhaus, u. a. Ht sind beliebige Menschen im Besitz von Geld, Tauschobjekten oder anderen Zahlungsmitteln, Rez sind wiederum Menschen von einem bestimmten Alter an. Die Finalität kann Erfreuen sein, Ärgern, Ausstatten u. a. Cond betrifft die Absicht der Übergabe. Sie kann mit der Finalität übereinstimmen oder auch nicht. (Nicht alles, was zum Erfreuen gedacht ist, erfreut auch wirklich.) Mit diesen semantischen Relationen sowie der vorangegangenen Bedingung und der Wirkung ist der Ereignisbegriff eindeutig im Kontext eines Geschehens beschrieben. Die für uns zentrale Frage ist nun, wie man von diesen begrifflichen Kernen des menschlichen Wissensbesitzes zu einer sprachlichen Mitteilung von Ereignissen kommen kann. Damit dies und noch komplexere Begriffsbildungen eindeutig geschehen können, dazu ist im menschlichen Gedächtnis vor allem für kommunikative Zwecke in Jahrzehntausenden ein System von Umsetzungsregeln ausgebildet worden. Die historischen Abschnitte dieser Entstehungsgeschichte liegen noch weitgehend im Dunkel. Wir wollen dennoch versuchen, auf einer zwar hypothetischen, aber doch begründbaren Vermutung einige erste Schritte in dieser Richtung zu gehen.
55. Phylo- und Ontogenese sprachlicher Kommunikation
4.
Evolutionäre Stufen in kommunikativen Prozessen
Wir nehmen Abbildung 55.5 als Basis. Die Kommunikationsmöglichkeiten der Lebewesen steigern sich mit der Speicherkapazität und der Architektur der Nervensysteme. Die wiederum werden durch Evolutionsschübe gesteigert und differenziert. Biotope fordern Verhaltensflexibilität unter stark wechselnden Lebensumständen heraus. (1) Früheste Kommunikation findet auf elementarem, molekularem Niveau statt, wie z. B. schon der molekulare Aufbau von Schleimpilzen bezeugt, der vom Nährboden angeregt wird. Schmetterlinge, Krebstiere (Limulus), Tintenfische (Octopus) erkennen bereits durch konturarme Schemata. (2) Bereits frühe Wirbeltiere wie Fische oder Vögel nehmen ihre Umwelt klassifizierend, nach den verhaltensrelevanten Merkmalen der Dinge oder Vorgänge in ihrem Lebensbereich wahr, z. B. die Schlangenkontur für die Kröte zur Fluchtauslösung, die Schwärzung vor hellem Hintergrund zur Fluchtauslösung für den Frosch (Storchengefahr!). (3) Es entstehen Assoziationen zwischen Objektklassen und Lautbildungen, z. B. die Bindung von informationstragenden Urlauten zur Signalisierung von Feindbildern (z. B. Schlange, Leopard oder Kampfadler bei Meerkatzen (Cheney & Seyfahrt, 1990; Bühler, 1930)). Das ist eine Vorstufe symbolischer Benennungen. (4) Mit der Kombinatorik von Lautmustern zu begriffsanalogen Klassifikaten entsteht eine frühe Protosprache. In ihr können Lautbildungen wie standardisierte Bedeutungen fungieren. Verkettete Phonemkombinationen schaffen aus einem Grundinventar an Lauten ein erstes Lexikon in individuellem Gedächtnisbesitz. Durch die Rollenbenennung für Begriffe oder Begriffskombinationen entsteht eine Benennungsmöglichkeit für Szenen und die Gestaltung sozial bezogener Aussagen über Aktionen (von H. erectus zu H. präsapiens). (5) Die Spezifizierung semantischer Relationen schafft die Basis für grammatische Formbildungen in flektierenden Hochsprachen. Sie werden zumeist in Partikeln, insbesondere durch Präpositionen, ausgedrückt. (6) Das Ereignis in der Mitteilung: Lautlich kodierte semantische Relationen gestatten,
759
szenische Aussagen über Raum- und Zeitbeziehungen, über das Gewesene oder das Künftige bei Erhalt der Bedeutungen zu variieren. (Adjektiva sind auch in ihren Merkmalseigenschaften variabel. Verben können mit Adverbien gebunden werden oder in Aktiv bzw. Passiv, Indikativ oder Konjunktiv geführt sein.) (7) Markierung der Überführung eines ereignisbegrifflichen Hintergrundes in eine grammatisch flektierte Aussage. Das ist aus Raumgründen nicht lückenlos ausgeführt. Ein Kenner linguistischer Details wird fehlende Übergänge ausfüllen können. Wir betrachten Abbildung 55.5 unten, die Abschnitte 5, 6 und 7. Hier sind die begrifflich-semantischen Übergänge zu den lexikalisch-verbalen Elementen des Gedächtnisses beschrieben, wie sie bei der Konstruktion einer sprachlichen Aussage eine Rolle spielen könnten. Von der semantischen Wurzel (HTSk-O) werden über die Relationen des Ereignisbegriffs (Sem-Relat) die zugehörigen Präpositionen (Instr, Objekt, Location und Finalität) aktiviert. Sie werden durch Partikel wie Konjunktion (u. a. die Konsekution im Semantischen) kodiert. Die verweisen auf zeitliche Abschnitte im Gesamtgeschehen. In der Satzbeschreibung selbst sind die begrifflichen mit den semantischen Entitäten in Beziehung gebracht. Die oberste Stufe, Sehen genannt, bezeichnet einfache visuelle Erkennungsvorgänge. In sehr frühen Evolutionsphasen sind visuelle Erkennungsvorgänge zumeist mit anderen Sinnesempfindungen assoziiert; bei Insekten, wie z. B. Grillen u. a., mit Flügeltrillern, Duftreizen oder Schnarrlauten. Sehr elementare Sehleistungen wurden von Tinbergen (1952) am Beispiel des Paarungsverhaltens beim Samtfalter untersucht. Diese Falter orten ihr Weibchen zumeist gegen den hellen Sommerhimmel. Dabei kommt es auf zwei Reizeigenschaften an: Auf die Größe und auf eine Art Trudelbewegung. So fliegen die Männchen zuweilen auch ein fallendes Blatt an. Musterungen auf der Oberfläche spielen allem Anschein nach keine Rolle. Eine deutlich höhere, weil differenziertere Stufe visuellen Erkennens, ist mit den angeborenen auslösenden Mechanismen (AAM) von Wirbeltieren gegeben. Die AAM sind angeborene Strukturbildungen. Sie werden eingesetzt bei der Arterkennung und sind in die Instinktkreise der Jungenaufzucht, der Paar-
760
Abb. 55.5: Kommunikationsmöglichkeiten der Lebewesen
VI. Spracherwerb
55. Phylo- und Ontogenese sprachlicher Kommunikation
bildung oder der Partnersuche eingebunden (Tinbergen, 1952). Während es sich bei den AAM um eine Vorstufe der Gestalterkennung vor allem bei Nestflüchtern handelt, so sind höhere Formen perzeptiver Strukturen mit Sicherheit schon niederen Primaten eigen. Eingehend untersucht wurden sie von Lethmate (1977) am Orang. Die Tiere lernten in mehreren Sitzungen mit Hilfe von verschiedenen Schlüsseln eine Serie von Kästen zu öffnen. Erst im letzten lag der belohnende Leckerbissen. Im Innern jedes einsehbaren Kastens befand sich ein Schlüssel, der den nächsten zu öffnen erlaubte. Wenn wir jetzt vom seriellen Lernen absehen, so ist in jedem Schritt ein Vergleichsprozess zwischen dem ‘Bart’ eines einliegenden Schlüssels und dem Schloss des nächsten Kastens gefordert. Es ist ein Vergleichsprozess zwischen zwei verschiedenen Arten von Strukturbildungen: einer ‘positiven’ Konfiguration und einer komplementären, einer Art Negativ. Schlüssel und Schloss sind jeweils eine Kombination von Merkmalen (z. B. hervorstehende Zacken, rechte Winkel u. ä.). Der Erwerb solcher Merkmalssätze entspricht im Ergebnis dem Erwerb einer begrifflichen Struktur durch Lernen. Scheinbar nur um eine simple assoziative Bindung ergänzt, finden wir auf einer höheren gegenüber der früheren Primatenstufe eine Zuordnung von Lautbildungen zu begriffsähnlichen, klassifizierenden Merkmalssätzen. Und doch ist das, was Cheney und Seyfarth (1990) gezeigt haben, mehr. Wir sehen es als eine Vorstufe der Assoziation von Symbolen an, hier von symbolischen Lautbildungen zu arttypischen begriffsähnlichen Klassifizierungen. Premack (1976) hat gezeigt, dass sich das durch Lerntraining weiterführen lässt. Er hat Objektklassen wie Äpfel oder Bananen mit Plastikplättchen assoziiert und gefunden, dass über sie eine symbolische Kommunikation schon bei vormenschlichen Primaten möglich ist. Dies besagt, dass Assoziationen zwischen begriffsähnlichen Merkmalssätzen und in gewissem Sinne von Zeichen möglich sind. Aber sie werden nie spontan, nie aus eigenem Antrieb gebildet. Und man weiß auch nicht, warum dieses kommunikative Defizit über die ganze Evolutionsgeschichte bis zum Menschen hin als Barriere erhalten geblieben ist. In ihrem Hirnaufbau in der Nähe des Innenohres ist (vor allem linksseitig) das Planum temporale ausgebildet. Aber es bleibt bei allen vormenschlichen Primaten bei Reizung stumm.
761
Erst beim Menschen ist in dieser Region Aktivität während des Sprachverstehens nachweisbar. Das Planum temporale wird schließlich zum Epizentrum der Wortspeicherung und des elementaren sensorischen Wortverstehens. Es müsste auf chemo- oder elektrophysiologischem Wege geprüft werden, ob während des lautlichen Worttrainings auch beim Schimpansen neuronale Spurenbildungen in diesem Bereich nachweisbar sind. Es gibt verschiedene Gründe anzunehmen, dass erkennende neuronale Netze für das Verstehen von Lautbedeutungen mit den frühen Hominiden, vielleicht sogar in der Spätzeit der Australopithecinen entstanden sind (vgl. auch Jürgens in diesem Band). Homo habilis jedenfalls dürfte über die ersten Formen lautlicher Verständigung und damit über die Anfänge einer Protosprache verfügt haben. Ein Stimulus in dieser Richtung war wohl der Zwang zu weiträumigeren Zügen und damit zur Kommunikation über Ziele bei zu koordinierenden Unternehmungen. Wir haben an anderer Stelle begründet, dass der Zwang zu weiträumigen Zügen stark durch Nährstoffmangel in den Dürreperioden der Eiszeiten bedingt war (Klix, 1999). Savannengras und dürre Buschbestände sind energiearm. Es entsteht ein Teufelskreis: Energiearmut zwingt zu weiträumigerem Suchen nach Nahrung. Fernere Ziele und Heimfinden zur Lagerstatt erfordern Lernleistungen aufwendiger Art, insbesondere die Koordinierung des Verhaltens. Das sind alles energiekonsumierende Vorgänge, die vom Gehirn aus gesteuert werden. Das Hirnvolumen nimmt während der Eiszeiten um mehr als das Dreifache zu. Das Gehirn ist der stärkste Energiekonsument des menschlichen Körpers. Sein Wachstum verstärkt den Bedarf, sprich: den Hunger nach Energieträgern. Phosphor wird zur Sättigung gebraucht. Phosphor baut den Energiespeicher auf und bildet den Energielieferanten für den gesamten Körper. Der Schlüssel ist das ATP, das Adenosintriphosphat. Und das befindet sich bevorzugt im Knochenmark und im Hirn von Wirbeltieren und speziell von größeren Säugern. Der Zugang zu einem Gazellenoder Zebraknochen, die Öffnung eines Wisent- oder Flusspferdschädels, dafür ist die Muskelkraft der frühen Hominiden zu gering. Es entsteht dringender Bedarf nach einer Kraftverstärkung der Hand. Sei es durch Zufall gefunden oder durch Probieren, die Wirkungsverstärkung der Hand wird erreicht
762 durch den kraftvollen Zuschlag mit einem Stein. Je nach dem Aussehen und wohl auch nach dem Wirkungsgrad werden im Laufe von Jahrhunderttausenden verschiedene Kulturen unterschieden. Abbildungen 55.6 a, b und c zeigen Verfeinerungen dieser frühen Gerätschaften; a nach dem Olduwan, b nach dem Acheule´en benannt und c als Mouste´rien bezeichnet.
Abb. 55.6: Vier Werkzeugkulturen, die unterschiedliche Entwicklungsstufen anzeigen. a) Charakteristische Oldowan-Werkzeuge. Schlagsteine dieser Art dienten vor allem der Wirkungsverstärkung der menschlichen Hand beim Öffnen von Knochen oder Schädelkapseln, vielleicht auch beim Schaben und Schürfen. Diese Zuschlagtechnik weist auf eine mehr zufällige Abfolge der Schläge hin. b) Diskusform der Acheule´en-Technik. Der Zubereitung des Steines hat gewiss eine Zielstellung für Aussehen und Eignung des Endprodukts zugrunde gelegen. c) Abschlagtechnik des Mouste´rien: Von einem Flintkern wird ein Stück Stein abgeschlagen, dessen Kanten und Oberflächen danach bearbeitet, speziell retuschiert werden. d) Konstruktive Technik im Neolithikum. Heterogene Handlungsprogramme realisieren Teilziele, deren Kombination zu einem Funktionsganzen ein neues Konstruktionsprinzip erkennen lässt. Ein hierarchisch gegliederter Handlungsaufbau zeigt strukturelle Verwandtschaft mit der generativen Struktur einfacher Sätze einer natürlichen Sprache (s. Abbildung 55.5, Nr. 7).
VI. Spracherwerb
In diesem Zeitraum zwischen etwa vor 1,8 Mio Jahren und vor 700 000 dominierten in den weiträumig und eher ab und an besetzten Arealen die Homo-erectus-Formen. H. erectus war der große Wanderer. Sein Typ überbrückte wiederum über die Jahrzehntausende die Distanzen zwischen dem Südosten Afrikas und dem heutigen Georgien, dem Osten Chinas und der Kaschmirregion im Norden Indiens und am Himalaya. In diesem Zeitraum wurde zwar das Werkzeug verbessert, aber was die technologischen Fortschritte der Herstellung betrifft, so waren sie vergleichsweise gering. Da ergibt sich die Frage, wobei denn die verstärkte Leistungsfähigkeit des größeren Gehirns eigentlich wirksam geworden ist. Parallel zu Bickerton (1996), aber unabhängig von ihm, haben wir schon vor längerem die Hypothese begründet, dass es bedeutsame Verbesserungen in der Organisation sozialen Verhaltens gegeben haben muss. Das betrifft die Orientierung, das Zielefinden, den Bau größerer Fallen, insbesondere aber die zwischenmenschliche Koordination von Aktivitäten während einer Großwildjagd. Besonders diese letzte Leistung ist ohne vorbereitende Organisation und zugehörige Verhaltensabstimmung nicht möglich. Keine Jagdsituation auf Großwild ist wie die andere: das Gelände, das Verhalten der Beutetiere (auch die lernen, geschickter zu fliehen oder anzugreifen und zu kämpfen), und kein Jagdkumpan ist wie der andere; man muss sich variabel auch aufeinander einstellen. Hier sich flexibel vorzubereiten, das fordert gewiss auch ein gerüttelt Maß an Intelligenz heraus. In dem Maße, wie man darüber verfügt, handelt man Gruppenvorteile ein. Die intelligentere Strategie sichert Nahrungs- und schließlich auch Überlebensvorteile. Letztlich gehört dazu auch eine flexible, eine den Situationen anpassbare Gefügigkeit der Kommunikationsmittel. Dafür hat sich die Nutzung lautlicher Formbildungen angeboten, und zwar über die Modulation der Atemluft. Mit ihr konnten Gesten unterstützt, Zeigeformen der Hände lautlich begleitet, Mimik oder Pantomimik verweisend gebildet und in den Dienst eines Unternehmens gestellt werden. Die schier unendliche Vielfalt der menschlichen Stimmgebung ließ einen entsprechenden Variantenreichtum des Mitteilbaren zu. Keine andere Kundgabeform ermöglicht dieses Volumen an übertragbarer Information. Schließlich ist ja auch die spätere Wahl der alphabetischen Schrift eine Art eingefrorener Lautbildung. Abbildung 55.7
55. Phylo- und Ontogenese sprachlicher Kommunikation
zeigt, dass in den zu betrachtenden Zeiträumen auch in der grafischen Gestaltung analoge, tiefgreifende Veränderungen zu beobachten sind (vgl. die Legende zu Abbildung 55.7)
Abb. 55.7: Evolutionsstufen zeigen sich auch in grafischen Gestaltungen. a) Zeichnungsresultate eines Schimpansen (Bonobo noch ganz ohne Symmetrien), b) eine Grafik aus Bilzingsleben (ca. 300000 Jahre alt); man beachte hier die frühe Form von symmetrischer Gestaltung. Sie ist eine wesentliche Basis ästhetischer Wirkungen, und zwar nicht nur in der zeichnerischen Gestaltung, sondern ebenso in der Musik oder beim Tanz, in der Rhythmik wie in der Melodieführung, und zwar bis auf den heutigen Tag. c) Grafik aus einer der altsteinzeitlichen Kulturen, der Vogelherdkultur aus Südwestdeutschland. d) Zwei neolithische Szenen voller dynamisch ästhetischer Gestaltungskraft. Man beachte, dass von Grafik b an die Gestaltung auf der Kombination von Teilstrukturen beruht. Die hierarchische Ordnung steht auch hier im gedanklichen Hintergrund. (d: Tänzer im Tierfell, Les Trois Fre`res, Frankreich).
Woher kam nun die Erzeugung und Nutzung dieses ungeheuren Variationsreichtums? Bloß von den Möglichkeiten der Lautvariationen her? Wohl kaum. Die Wahrnehmnung hatte seit altersher die erkennungsrelevanten Invarianzeigenschaften der Gegenstände, statische oder dynamische vermittelt. Ihre Assoziation mit Lautbildungen wurde zum Signal für Zusammengehörigkeit bei Gefahr, für Nahrung, für Beute,
763
für Kommen oder Gehen. Die Möglichkeit, solche Assoziationen zu bilden, war längst gegeben. Aber sie wurde jetzt, auf den weiträumigen Zügen nach Nahrung, von kommunikativen Zwängen und Zwecken angefordert. Die Lautbildung wurde in soziale Zielbildungen eingebettet, und sie ging von da an eigene Wege. Das lässt sich von allgemeinen Lerngesetzen her rekonstruieren. Die Verfeinerungen von Klassenbildungen entstehen durch die Differenzierung von Objektmerkmalen bzw., was dasselbe ist, durch die Bildung von Unterbegriffen. Der Ruf eines sehr jungen oder eines sehr starken Beutetieres unterscheiden sich ebenso wie die Furcht vor Feinden oder vor einem Unwetter. Solche Unterschiede der Lautbildung einzuverleiben, das liegt noch im Leistungsbereich einfacher, modifizierender Lautierungen (Markl, 1996). Die Variation von Lautgestalten wird dabei implizit zur Benennung spezifizierter Merkmalssätze für Begriffe genutzt. Es war dies wahrscheinlich eine der frühesten Formen produktiver Wortbildungen für einen erweiterten Begriffsschatz. Er findet seinen Niederschlag in gruppenspezischen Gedächtnisinhalten – der frühesten Basis gruppenspezifischer Dialekte. Vom Anatomischen her dürfte dies einer Verfeinerung erkennender Nervennetze im Bereich des Planum temporale entsprochen haben. Eine zumeist zugehörige Verhaltenseinstellung müsste in das Gebiet des Sulcus präcentralis weitergeleitet worden sein. Für beide Regionen waren die anatomischen Vorstrukturierungen vorhanden. Sie werden mit diesen Lernvorgängen aus ihrer unspezifischen Funktionslosigkeit herausgehoben. Was die Begriffe betrifft, so hatten wir zwei veschiedene Klassen unterschieden. Eine Klasse, die durch einfache Merkmalssätze beschrieben wird, und eine zweite, Ereignisbegriffe genannt, die ein Geschehen klassifiziert, wie etwa werfen – Treffen oder treffen – Speer oder treffen – tot. Was wir begründen möchten ist, dass eine Verkettung einfacher Benennungen bereits bei Tripeln von Wortbegriffen einen Geschehenshergang auszudrücken gestattet. Wir vermuten, dass auf diese Weise die früheste Struktur einer Protosprache entstand. Es war, so die später noch wahrscheinlich zu machende Vermutung, eine Art S-V-O-Sprache, bestehend aus Handlungsträger (als späterem Subjekt), aus einem semantischen Kern (dem späteren Verb) und einem Rezipienten oder (begrifflichen) Objekt als (grammatischem) Objekt.
764 Homo erectus, der große Wanderer über tausende von Kilometern (natürlich zumeist nicht in der gleichen Generation), kam auf seinen Zügen zum organisierten Gruppenhandeln. Bei Jagden war festzulegen: wer tut was; Feuer legen zum Einkesseln starker Wildtiere, zum Töten, Zerlegen, Zu- oder Aufteilen – alles Aufgaben, die nicht mit der Organisation eines Mückenschwarms zu erfüllen sind. Ohne koordinierende Verständigung ist solche unerlässliche Arbeitsteilung nicht möglich. Die Verkettung von Benennungen für verschiedene Rollen oder Funktionen, seien es Akteur, Objekt oder Rezipient oder der Vorgang selbst, scheint für die frühen Verständigungsformen ausgereicht zu haben. Es gibt eine Parallele dazu, und zwar im Werkzeug. Das späte Oldowan bis hin zu Acheule´en und Mouste´rien beruht auf einer weitgehend identischen Fabrikationsart. Sie beruht auf der Verkettung von Zuschlägen. Wir haben sie linear rekursive Aktionsfolgen genannt und damit sagen wollen, dass der jeweils folgende Schlag am Resultat des vorhergehenden angreift, und zwar gezielt. Wie wir an anderer Stelle (Klix & Lanius, 1999) eingehend dargelegt haben, ändert sich diese Produktionsweise mit der Eem-Warmzeit grundlegend. Zeugnisse dafür sind die zahlreichen Mikrolithe, die an Ufern versandeter Seen oder Flussbetten im Süden Algeriens, im Südwesten Ägyptens und in Gebieten der heutigen Sahara gefunden wurden und werden. Diese Mikrolithe sind Zeugnisse einer kombinatorischen Konstruktionstechnik. Sie unterscheidet sich qualitativ von der linear-rekursiven Zuschlag- oder Abschlagtechnik, wie wir sie vom Acheule´en bis zur Neandertaltechnik im Mouste´rien gefunden haben. Abbildung 55.6d zeigt eine Art Grabeaxt mit Stiel, eingelegtem Geweihstück und verkeiltem Mikrolith als Zuschlag- oder Grabespitze. Es gibt auch Exemplare, bei denen die Steinspitze durch Hanf mit einem Stiel verbunden und mit Harz verklebt ist. Was ist nun anders als das, was wir in Abbildung 55.6c als besonderes Ergebnis des Mouste´rien betrachteten? Nun, jedes Teilstück konnte für sich mit linear-rekursiver Technik hergestellt werden. Neu ist die Kombinatorik der Ergebnisse der Teilprogramme und der hierarchische Aufbau in der Abfolge der Teilschritte; d. h. die Abwicklung von Unterprogrammen, die wiederum Unterschritte in sich einschließen können, und das möglicherweise in mehreren Stufen. Solche kombinatorisch konstruierte Gerätschaft wurde nach dem Ende
VI. Spracherwerb
der Eem-Warmzeit und während einer neuen Warmzeit mit den Zügen der dort entstandenen Neumenschen mit nach Norden gebracht, nach Süd- und Südwesteuropa, wo sich die berühmten Höhlen des Neolithikums befinden. Sie sind zum Teil noch heute in Süd- und Nordspanien zu besichtigen, in Portugal, Südfrankreich im Rhoˆne- und im südlichen Rheingebiet. Eine ganz analoge Kombinatorik von Unterprogrammen in der Handlungsausführung findet man auch in der grafischen Gestaltung. Abbildung 55.6d zeigt charakteristische Züge neolithischer Grafiken. Auch hier finden wir eine Kombination von Unterprogrammen, deren Zusammenfügung zu einem für sich neuen ästhetischen Gesamtbild führt. Es ist jetzt für unsere Darstellung wichtig, zeigen zu können, dass auch der Aufbau eines neuen Typs sprachlicher Strukturbildungen homolog, das meint: aus dem gleichen Denktyp, resultierender Strukturbildungen folgt. Abbildung 55.5 (7) unten zeigt danach das Schema einer neuzeitlichen sprachlichen Aussage. Eine mögliche Szene aus den Zeiten des Neolithikums ist als Beispiel genommen: Ein Mann trifft einen Bären mit dem Speer. Der ereignisbegriffliche Hintergrund (Abbildung 55.5 oben) soll in eine sprachlich eindeutige Aussage überführt werden. Man sieht an dieser, der Chomsky-Darstellung nachempfundenen Schreibweise deutlich, dass die Begriffs-Satzbrücke in der Chomsky-Theorie nicht geschlossen worden ist. Die von Chomsky herausgearbeiteten Regeln der Wortbindungen beruhen nicht auf der begrifflichen Führung des bedeutungshaltigen Hintergrundes einer Mitteilung, sondern auf grammatisch zulässigen Wortverbindungen. Um Bedeutungen zu vermitteln, brauchte man Vorstellungen über Begriffsstrukturen und deren Vernetzungen mit Worten zu Bedeutungen im menschlichen Gedächtnis. Aus welchen Gründen auch immer, es ist versäumt worden, eine solche Theorie zu entwickeln (vgl. Chomsky, 1988; Pinker, 1996). Der uns einzig bekannte, aber viel zu statische Versuch in dieser Richtung stammt von Jackendoff (1992: 23). Wir versuchen nun, die bisher entwickelten Vorstellungen unter evolutionpsychologischen Gesichtspunkten anzuwenden.
5.
Eine Hypothese
Wir gehen davon aus, dass die Studien an Primaten keinen strikten Nachweis darüber erbracht haben, dass vormenschliche Prima-
55. Phylo- und Ontogenese sprachlicher Kommunikation
ten in der Lage waren, die Kerne einer natürlichen Sprache zu entwickeln. Sie können Zuordnungen zwischen Symbolen und Wortbedeutungen sowie Verkettungen dazwischen auf assoziativem Wege erlernen. Das beruht auf elementaren Nervenzellfunktionen. Aber weder bilden sie solche Assoziationen spontan noch kombinieren sie von sich aus bedeutungshaltige Verknüpfungen im Sinne von Permutationen der Elemente. Und was das Wichtigste ist: Es gibt keinen bezeugten Versuch dahin, dass vormenschliche Primaten von sich aus versucht hätten, einen Dialog zu beginnen oder auch nur eine echte Frage an ihren ‘Trainer’ zu stellen. Da solche Leistungen nach so langer Evolutionszeit nicht entstanden sind, können wir wohl davon ausgehen, dass dies auch in vormenschlichen Evolutionsperioden nicht geschah. Unsere Vermutung geht dahin, dass dialogische Kommunikation mit dem Wissen um Objektbedeutungen und der zugehörigen Verwendung lautlicher Symbole entstanden ist. Das muss spätestens zur Zeit der frühen Habilinen eingetreten sein. Sie mussten aus ernährungsphysiologischen Gründen wandern, jagen, und sie waren auf kooperative Aktivitäten angewiesen. Das erzwingt Kommunikation. Zunächst über einfache Objekteigenschaften. Der große Wanderer, wie wir sagten, Homo erectus, muss aus Gründen seiner Jagdtechniken eine Art Protosprache besessen haben. Das waren sehr wahrscheinlich elementare Wortverkettungen, analog den rekursiv-linearen Zuschlag- und Abschlagtechniken bei der Werkzeugherstellung. Die Natur und ihre Erscheinungsbilder waren damals beschaffen wie heute. Und die Großwildjagd, die H. erectus praktizierte, erforderte Verständigung. Die Frage ist, worüber? Wir glauben, wenigstens über dies: Wer macht oder tut was mit wem. Handlungsträger, Rezipient und ebenso auch das Was (tut was?). Das sind die Wurzeln einer späteren Hochsprache: Der Handlungsträger wird zum Subjekt, das TUN zum Verb und der Rezipient zum Objekt. Pinker (1996) u. a. nennen das eine S-V-O-Sprache. Wir mischen uns hier aber nicht in die Diskussion um die SV-O-Sprachen ein, sondern stellen (wiederum nach Pinker u. a.) fest, unter den vielen untersuchten Sprachen ist keine gefunden worden, in der diese Komponenten nicht ausdrückbar wären. Das ist auch kein Wunder, denn die Welt um uns als Bilderfügungen wie als Gegenstand aktiven menschlichen Handelns ist so aufgebaut, dass irgend etwas geschieht
765
oder dass irgend wer mit etwas anderem etwas tut. Wir gehen im Weiteren davon aus, dass Homo erectus diese Art von S-V-O-Kombinationen beherrschte, sie vielleicht da und dort durch eine schlichte Objektverfeinerung, durch benannte Merkmale attribut- oder adjektivähnlich, ergänzte, aber zumeist doch einfach verkettete Objektbenennungen benutzte. Einige Gründe für diese Annahme werden wir sogleich beibringen. Der qualitative Wandel im Werkzeugdenken, wie er im Laufe der Eem-Warmzeit in einem Zeitraum von 50–60 000 Jahren stattfand, lässt auf eine kombinatorische Gestaltung von Teilprogrammen in Denkvollzügen schließen. Strukturiertes Kombinieren führt zu hierarchisch aufgebauten Denkhandlungen. Dieses denkende Handeln erschließt die Rolle der in Abbildungen 65.4 und 65.5 dargestellten semantischen Relationen; mit ihnen das Zuerst und das Danach, das Damit und das Wof¸r, das Wo und das Wohin, das Wozu und das Warum. Die Eigenschaften der Objektbegriffe liegen seit langem benennbar fest. Die Verknüpfung ihrer Eigenschaften zu einem wohlbestimmten Zweck hin mitteilbar verfügbar zu haben, das führt zu einer flektierenden Hochsprache; allmählich sich verfeinernd, sicher, aber darauf kommen wir noch zurück. Mit dieser Denkausstattung dürften die frühen Cro-Magnon-Menschen mit der vor ca. 110 000 Jahren einsetzenden neuen Kaltzeit nach Südeuropa gekommen sein. Es sind danach in der Evolutionsgeschichte der Hominiden zwei große Zeitrahmen entstanden, in denen sich Sprachevolution ereignet hat. Sowohl zur Begründung unserer Vermutung als auch zur Differenzierung dieser noch sehr groben Vorstellung wollen wir die so vorgelegte Hypothese etwas entfalten und durch einige Fakten etwas überzeugender gestalten. Wir tun dies unter fünf Aspekten: Einem pseudogenetischen Aspekt, einem ontogenetischen, einem evolutionsbiologischen, einem psycholinguistischen und einem phonemisch-linguistischen; wobei die Grenzlinien nicht scharf zu ziehen sind. 5.1. Über genetische Drift Zunächst zum genetischen Hintergrund. Forschergruppen untersuchen derzeit Unterschiede in den Nukleotidketten der DNS bei Angehörigen verschiedener Völkerschaften. Man geht davon aus, dass genetische Isolierungen zu Einschränkungen im Genaus-
766 tausch führen. Eine Arbeitsrichtung untersucht nicht die DNS der Zellkerne, sondern die DNS in den Mitochondrien der Zelle. Sie besitzen ein eigenes Genom, das nur 37 Gene umfasst und das wahrscheinlich aus der Endosymbiose mit einem Prokarioten hervorgegangen ist. Der hat dabei die eigene Vermehrungsfähigkeit eingebüßt (Margulis & Sagan, 1997). Es liegt ein weiterer Sonderfall vor: Bei der Befruchtung bleiben die Mitochondrien der männlichen Samenzelle außerhalb der weiblichen Eizelle. Sie spielen daher bei der weiteren Entwicklung des Embryos keine Rolle. Alle Mitochondrien und somit auch alle in ihnen befindlichen Gene stammen aus einem mütterlichen Erbgang. Mikromutationen, die phänotypisch kaum bemerkbar sind, unterliegen auch nicht oder kaum einem effektiven Selektionsdruck der Umwelt. Da diese Mutationen weitgehend Ergebnis von autonomen Zufallsprozessen sind und sich ja jeweils nur innerhalb einer im Genaustausch befindlichen Population vererben, ist die genetische Verschiedenheit zweier Populationen ein ungefähres Maß für die Zeitspanne, über die hinweg sich ihre Mitglieder getrennt fortgepflanzt haben. Hat man Zeitabschätzungen für bestimmte Mutationsraten, so lässt sich gedanklich so etwas wie eine molekulare Uhr konstruieren. Im Sinne einer Nulleinstellung für die Zeiteichung bietet sich die Differenz des Genoms zwischen Schimpanse und Mensch an. Die bestehenden Unterschiede wurden in einer zeitlichen Distanz von etwa 5 bis 6 Millionen Jahren bewirkt. Danach kann man die Differenz in Intervalle aufspalten. Allgemein besteht Übereinstimmung darin, dass in Süd- und Südostafrika die älteste mitochondriale DNA anzutreffen ist. Generell scheint es auch dahin Übereinstimmung zu geben: Die genetischen Wurzeln der Menschheit zeigen nach Afrika. In guter Übereinstimmung mit anthropologischen Daten finden wir die höchste Vielfalt der Genausstattung in Bewohnern des heutigen Zaires, Äthiopiens und Kenias; kurz, also dort, wo auch die frühesten anthropologischen Funde gemacht wurden. Uns interessierende Zeitschätzungen führen zu dem Ergebnis, dass vor 120 000 Jahren eine bedeutsame Populationstrennung stattgefunden haben muss. Die vorgelegten Untersuchungen weisen darauf hin, dass Homo sapiens sapiens vor 150⫺100 000 Jahren einen gemeinsamen Ursprung in Afrika hatte. (Der Streit um diese These dauert allerdings noch an, wenngleich zunehmend mehr Paläo-
VI. Spracherwerb
anthropologen diesen Standpunkt einnehmen. Eine Diskussion dazu findet man bei Wilson & Cann, 1992; Thorne, 1992.)
6.
Das Genom und die Sprachen
Wenn sich größere Menschengruppen von Stammverbänden lösen, im allgemeinen Sinne also abwandern, so tun sie das natürlich auch mit ihrer Sprache. Der Zwang zur gegenseitigen Verständigung innerhalb der Gruppen bleibt, er nimmt in unbekannter Umgebung womöglich noch zu, aber er schwindet zwischen den Gruppen. In Analogie zur genetischen Aufspaltung kann man so vermuten, dass mit zunehmender Zeit auch die Lautbildungen gegenüber der Ursprungsund Ausgangssprache verändert werden, dass beide Sprechweisen auseinanderdriften. Mit Hilfe einer hierarchischen Clusterung kann man einen Trennungsgrafen konstruieren, der die zeitlichen Distanzen des Auseinanderdriftens bei langdistanten Wanderungen erkennen lässt. Alle vier Ebenen, die lautlich-phonetische, die bildliche oder die begrifflich-semantische wie die grammatisch-kombinatorische sind unterschiedlich widerstandsfähig gegenüber der Zeit. Am empfindlichsten und am raschesten Änderungen unterworfen ist die lautlich-benennende Ebene. Räumliche Trennungen führen rasch zu Dialekteinschlägen. Begegnungen mit Menschengruppen anderer Sprache führen zu Eingemeindungen fremder Ausdrücke, zur Übernahme von Lautgebungen, zu Angleichungen im Sprachmelos. Da in den langen Zeiträumen der Evolution immer wieder Trennungen von Stämmen oder Völkergruppen eingetreten sind, kann man hoffen, aus der Fremdheit von Sprachen etwas über die (relative) Dauer der Trennung von einer ursprünglich gemeinsamen Muttersprache zu erfahren. Dies lässt sich nun auch mit der soeben betrachteten genetischen Drift in Beziehung bringen (Renfrew, 1995). Dabei erscheint prüfenswert, ob sich die geschätzten Trennungszeiträume mit sprachlichen Verschiedenheiten zwischen wohlbestimmten Regionen in Beziehung bringen lassen. In einer davon unabhängigen Untersuchung hat Cavalli-Sforza (1992) einen zeitlichen Trennungsgrafen dargestellt (Abbildung 55.8). Man sieht, wie vor ca. 150 000 bis 100 000 Jahren der Weg des frühen Homo sapiens sapiens über die Suez-Enge nach Norden gewählt oder besser: erzwungen
55. Phylo- und Ontogenese sprachlicher Kommunikation
wurde. Der üppige Pflanzenwuchs schwand, die jagbaren Tiere zogen mit ihren Weidegründen und die Menschen mussten ihnen folgen.
Abb. 55.8: Nach Genomunterschieden berechnete Zeiträume von Wanderungsbewegungen frühmenschlicher Bevölkerungsgruppen. Danach liegt die Quelle einer universellen Ursprungspopulation bei der Neumenschenbildung vor ca. 120 000 Jahren. Die genetischen Distanzen in der Zusammensetzung der Genome rezenter Gruppen werden auf zeitliche Distanzen projiziert.
Wir haben eine relativ hohe Bevölkerungsdichte während dieser üppig-fruchtbaren Warmzeit an den Seen und Flussufern im mittleren und nordöstlichen Afrika mit der Ausbildung sprachgebundenen Denkens in Beziehung gebracht. Das war allem Anschein nach mit einem sozial-organisatorischen und technologischen Schub verbunden. Er wirkte sich als Überlegenheit aus, wo immer die Einwanderer auf Einheimische stießen. Zwischen 30 000 und 18 000 etwa sind Spanien, die Pyrenäen, Südfrankreich, England und die südlichen skandinavischen Regionen von Homo sapiens „eingenommen“ worden. Wie kann man sich nun die entstehende Parallelität zwischen genetischer und lautsprachlicher Verschiedenheit vorstellen? Kann man danach vermuten, dass die Lautstruktur einer Sprache genetisch determiniert ist? Wohl kaum. Die Korrelation zwischen den so verschiedenen Phänomenen rührt wahrscheinlich daher, dass es sich um die Weitergabe von Information über die Generationen hinweg han-
767
delt und dass diese Weitergabe mit Veränderungen behaftet ist, die sich über die Zeit summieren, aber nicht auslöschen (vgl. Abbildung 55.8). Und noch eins ist beiden Phänomenbereichen gemeinsam: Die weiterzugebende Information verändert sich zunehmend, wenn der Kontakt zwischen den Generationen bleibend unterbrochen wird. Das kann im Besonderen durch geografische Trennung geschehen. Dabei muss man nicht an große Hindernisse wie Gebirgsmassive mit abgeschiedenen Tälern denken (wie bei den ‘zerklüfteten’ kaukasischen Sprachen oder an Trennungen von Populationen durch Inseleruptionen wie in Ozeanien. Jeder zunehmende räumliche Abstand vermindert parallel zur Sprache auch die Austauschhäufigkeit des ursprünglichen Genbestandes. Er erhöht damit die Wahrscheinlichkeit des „Wegdriftens“ zwischen beiden ‘Informationspools’. Diese Tendenz wirkt wahrscheinlich (und im Mittel) ziemlich gleichmäßig mit der räumlichen Distanz, vor allem aber mit der Zeit. Die entstehenden Differenzen erlauben es so, die Zeiträume der Trennungen abzuschätzen. Dennoch fällt auf, dass diese Schätzungen doch sehr unterschiedlich, um nicht zu sagen: ungenau sind. Das kann nicht verwundern, denn der Gleichlauf von Änderungen bei Genbestand und Sprechkultur ist von zahlreichen Störfaktoren beeinflusst. Darin zeigt sich auch der essentielle Unterschied zwischen beiden Phänomenbereichen: Sie sind unahängig voneinander störbar. So z. B. oft in der Geschichte, wenn eine ethnisch verbundene Sprachgemeinschaft von fremden Stämmen überwunden wird. Sie können als Eroberer den Einheimischen eine neue Sprache aufzwingen. Oder sie können, weil nicht selten auch sozial überlegen, nachgeahmt werden. Beides berührt die Weitergabe der genetischen Ausstattung der ursprünglichen Bevölkerungsgruppe nicht. Oder doch wesentlich schwächer, wenn man an einen Verpaarungsvorteil der Überlegenen denkt. Einen solchen Überdachungsfall haben wir vermutlich im Ungarischen. Dort spricht man seit den Einfällen und Eroberungen finnougrischer Reitervölker im 9. Jahrhundert magyarisch. Genetisch sind die Ungarn Europäer. Dennoch ist es bis heute möglich, auch in ihrem Erbgut noch magyarische Reste nachzuweisen. Oder: Die Sprache der nordskandinavischen Lappen gehört zu den uralischen Sprachen. Doch genetisch sind die Lappen stark von den indoeuropäischen Be-
768 wohnern Skandinaviens und von noch älteren sibirisch-mongolischen Einflüssen geprägt. Diese Mixtur zeigt sich übrigens auch in den Haut- sowie Haarpigmentierungen der Lappen noch heute. Die einen wirken mehr mongolisch mit schwarzem Haar, gelblicher Hauttönung und mandelförmigen Augen, andere sind blond, blauäugig und mit relativ weißer Haut ausgestattet. Aus der Geschichte wissen wir um die Einflüsse elitärer Sprachkulturen. So z. B. wenn eine Oberschicht eine alte, ausgestorbene Sprache zur sozialen Abschottung bevorzugt. Das Altsumerische blieb im babylonischen Kulturkreis Gelehrtensprache, als es die Rolle als Umgangssprache nach Eroberungen der Akkader längst eingebüßt hatte. Sumerisch wurde auch im sakralen Bereich gepflegt, und heilige Texte wurden noch viele Jahrhunderte in Keilschrift verfasst. Alte Alltagsformen dringen in solchen Zeiten als vornehme Fremdworte in die Umgangssprache ein. Auch das Lateinische hatte im ausgehenden Mittelalter eine ähnliche Rolle. Und so gibt es weitere Beispiele als Belege dafür, dass sozial-kulturelle Einflüsse zu Trennungen zwischen autonom sich vererbender genetischer Ausstattung und den tradierten Sprachformen führen. Und man denke an das Französische an den europäschen Fürstenhöfen im 18. und 19. Jahrhundert sowie an alle Nachahmer in niedereren Schichten. Das relativ unabhängige Nebeneinander von Änderungen in der Lautsprache und in der Erbausstattung ist dennoch nicht ohne gegenseitige Einflussnahme. Veränderungen in den sprachlichen Mitteilungsformen können Verständigung behindern. Dadurch können auch um die Kulturen Barrieren entstehen, die Verpaarungswahrscheinlichkeiten senken und das Wegdriften von Genausstattungen verstärken. Kurzum: Die schwache Parallelität zwischen Gendrift und Sprachentrennung wird auch durch sozio-kulturelle Faktoren beeinflusst. Vielleicht ging die anzunehmende genetische Trennung zwischen den Menschen vom Primitivsprachler des Neandertaltyps und dem grammatisch feineren Homo sapiens sapiens auch mit sprachlicher Ausdrucksfremdheit einher. Das würde unserer Vermutung über die bei H. neanderthalensis noch fehlende Brücke zwischen dem (intakten) Wernicke-Zentrum des Wortverstehens und dem Steuerungszentrum für die grammatischen Transformationen in Sprachstrukturen entsprechen.
VI. Spracherwerb
7.
Zur Ontogenese der Sprachentwicklung
Noch immer nötigen einem die Klassiker der ontogenetischen Sprachentwicklungsforschung, allen voran W. Stern (1952) und K. Bühler (1930), Respekt ab angesichts der Fülle tiefgründiger Ideen, die sie ins Licht der Sprachpsychologie gerückt haben. Dabei zeigt sich auch hier eine durchgehende Gesetzmäßigkeit, deren innere Begründung erst heutzutage mit dem Blick auf die kognitive Psychologie der Gegenwart gelingt. Die erzielte Übereinstimmung besteht darin, dass eine wohldefinierte Leistungsdimension um so später erreicht wird, je komplexer der kognitive Aufwand bei der Spracherzeugung ist. Darauf kommen wir zurück. Sprache beginnt, so W. Stern (1952: 131), wenn Laute im Bewusstsein ihrer Bedeutung und mit der Absicht der Mitteilung geäußert werden. Und, so Bühler (1930: 221) dazu, wenn die Nennfunktion der Worte mit dem Wissen darum erfasst ist, dass jedes Ding einen Namen hat. Die Anfänge des möglichen Spracherwerbs liegen jedoch wesentlich früher. Sie beginnen mit der Beachtung von Regularitäten in der Lautbildung (Bruner, 1974) und mit der Unterscheidung von Phonemsequenzen – oder genauer: von charakteristischen phonologischen Ketten. Bei diesen und anderen Hinweisen aus der Literatur beziehen wir uns auf einen aspektreichen Literaturbericht von H. Grimm (1995). Mittlerweile kann, wie erwähnt, als ausgemacht gelten, dass auch die hochentwickelten Schimpansen trotz aller beeindruckenden Trainingseffekte keine Vorsprache zur menschlichen Hochsprache entwickeln können. Hineininterpretationen und Selbsttäuschungen sind mittlerweile ausgiebig diskutiert worden (Pinker, 1996). Die humane Hochsprache ist ein sehr komplexes, komponentenreiches Gebilde, das man nicht auf die schmale Schnur einer Basiskomponente reduzieren kann. Alle Bewunderung für einen schnellen Spracherwerb beim Kinde lässt doch außer Acht, dass das komplizierteste Organ des Menschen, sein Gehirn, doch mehr als sieben Jahre braucht, um alle Dimensionen der menschlichen Vollsprache im Griff kommunikativer Gedankenführung zu haben. Als Komponenten können unterschieden werden: die Laut- (Phonem-), Wort- und Satzverkettungen, der Worterwerb in Verbindung mit dem Begriffserwerb und der Be-
55. Phylo- und Ontogenese sprachlicher Kommunikation
griffsverwendung in Lautbildung und Zeichengebung, die Konversation und die Diskursgestaltung (vgl, dazu insbesondere Herrmann & Grabowski, 1994). Für den Spracherwerb beim Menschen scheint es biologische Vorprägungen, eine Art Empfangsbereitschaft für den Wort-Begriffserwerb zu geben. Nach dem 18. Lebensmonat wird in kurzer Zeit ein erheblicher Wortschatz erworben. Man spricht von einer ‘Benennungsexplosion’, nachdem die magische Grenze eines 50 Wörter-Wortschatzes erreicht ist. In wenig mehr als 3 Monaten erweitert sich dieser Wortschatz häufig auf über 200 Wörter. Zur kommunikativen Quelle wird das erste Fragealter. Es ist charakterisiert durch den Fragetyp ‘isn das?’. Die Regelmäßigkeit dieses Vorgangs weist auf eine genetische Vorstrukturierung hin und bezeugt, dass bis dahin brach gelegene und nun durch Reifung funktionsfähige Nervenzellgruppen nach Worten als Wissenselementen verlangen wie der hungrig gewordene Magen nach Nahrung. Es kommen die ersten Verbfunktionen hinzu: ‘Mamam Atta; Atta (⫽ Weglaufen) TuTu.’ Das frühe nominale Substanz- wird vom verbähnlichen ‘Aktionsstadium’ (Stern) ergänzt. Das geschieht oft vom Eigennamen aus: ‘Ati (Beate) Mamam’, ‘Ati Tuhl’ (Beate will auf den Stuhl) oder von der Mutter her: ‘Mama Mamam, Mama Tuhl’. Merkmale werden ergänzend hinzugezogen: ‘Opa g(r)oß, Mimi(Küken)tlein(klein)’. Adjektive werden zunächst ohne Beugungen im Positiv verwendet. Mit solchen Adjunktionen entsteht die erste Begriffstaxonomie. Über Hinzufügungen von Merkmalen in Form von Affixen werden unterbegriffsähnliche Ausgliederungen wie ‘Ata-Schuhe’ (Ausgehschuhe) oder ‘Ata-Tür’ (Hausausgangstür) gebildet. Sehr frühe Wortbildungen haben einen sehr hohen Allgemeinheitsgrad (‘Ei-Ei’ für alles Weiche, dann für alle Felltiere und schließlich nur für die Hauskatze). Im Wechselspiel von Anheftungen und Weglassungen von Merkmalen spielen sich die merkmalsgebundenen Objektklassifizierungen ein. Wahrscheinlich liegen ihnen nervale Hemmungs- und aktive Assoziationsprozesse zugrunde (vgl. Abbildung 55.3). Auch Wortneuschöpfungen werden nach Art von Ähnlichkeiten mit Bekanntem in analogem Zusammenhang gebildet: ‘güter’ ⫽ besser’, ‘vieler’ ⫽ mehr, ‘hocher’ ⫽ höher u. ä. Schwache Formen werden bevorzugt. Die Vergangenheit tritt auf ähnliche Weise als erste Zeitform auf: geesst, gegebt, gegangt. Auch
769
die vieldiskutierten Neuschöpfungen werden nach einer Art Analogieprinzip gebildet: ‘Gesichtsrotmeise’ für Gartenrotschwanz, ‘HoppeReh’ für Känguruh. Die Verkettung von Worten zu Wortfolgen verläuft zuerst nach dem Reihungsprinzip: Die Worte werden einfach aneinander geheftet: ‘Tatta dehen Ssuhle dleich’; ‘Mama Suppe Ofen’. Erst um das vierte und fünfte Lebensjahr herum beginnt die aktive Auseinandersetzung mit den semantischen Relationen und den zuständigen Flexionen. Mit den ersten grammatischen Formbildungen lassen Kinder in allen untersuchten Sprachen bestimmte operative Sprachelemente aus: Artikel, Hilfsverben oder Flexionsmorpheme werden, obwohl gehört und verstanden, nicht oder sehr wenig aktiv genutzt. Zuletzt beginnt der Kampf mit den grammatischen Partikeln, den Konjunktionen und schließlich mit den Präpositionen. Man hat von Agrammatismus infantilis gesprochen, einem kindlichen Agrammatismus, der vorzugsweise auf fehlenden oder falsch verwendeten Präpositionen beruht. (Wir kommen auf das Präpositionenproblem noch zurück.) Um das siebte Lebensjahr gewinnt die Vergegenständlichung von Sprachformen, das Spiel mit der Sprache seinen eigenen kognitiven Reiz. Mit ihm bildet sich, ob ursächlich bedingt oder nicht, die Manipulation mit logischen Strukturen, mit der Einhaltung oder gezielten Variation von Zeitbeziehungen sowie Ursache-Wirkungszusammenhängen. Im letzten Stadium des Spracherwerbs werden die parataktischen Wortverkettungen durch hypotaktische, d. h. hierarchisch geordnete, Teilsätze zu Satzgefügen kombiniert. Relativsätze mit Pronomina, Temporalsätze, kausale Verbindungen und zugehörige Partikel werden verwendet. Das frühe Wissen um Kausalität wird schon um das vierte Lebensjahr während des sog. zweiten Fragealters wissenswirksam (‘warumdn das?’), die zugehörigen Sprachformatierungen jedoch werden erst vom fünften Lebensjahr an systematisch durchgestaltet. Das gilt auch für die Anwendung konjunktivischer Formbindungen bzw. von unterschiedlichen Varianten, gleiche Zeitbezüge auf verschiedene Weise auszudrücken. Im gleichen Alter beginnt wie ein Spiel das Durchprobieren möglicher, äquivalenter Ausdrucksformen für Indikativ oder Konjunktiv. Wir waren hier zurückhaltend mit zeitlichen Angaben bei Phasen des Spracherwerbs.
770 Das hat einen wohlbedachten Grund: zwischen den Angaben über die Bildung, Nachbildung (um nicht zu sagen Nachahmung) komplizierterer Formen der Sprachbenutzung gehen die Angaben der Forscher weit auseinander. Das hat sehr verschiedene Gründe: Einmal sind die Kinderspracherforscher zumeist hochgebildete Eltern, die ihr Kind geistig disziplinieren und belehrend beobachten. Viele Untersuchungen belegen, dass auch der ökonomische Status des Elternhauses von erheblichem Einfluss nicht nur auf die Geschwindigkeit des Spracherwerbs ist, sondern auch in den Feinheiten der gedanklichen Äußerungen von Sprachformen zum Ausdruck kommt. Im gleichen Rahmen dürfte auch die Dialogbereitschaft erzieherischer Einflussnahmen erziehlich bewusster Elternteile zu sehen sein. Andererseits sind Deutungen komplexer Sprachbildungen oft unterschiedlich klassifizierbar; will sagen, ob eine Partikel ‘weil’ oder wie ‘deswegen’ als Kausalität erfasst oder als bloße Folge zwischen Ereignissen ausgedrückt wird, ist nicht immer leicht feststellbar. Wie auch immer, was hier gemeint wurde, ist dies: Je komplexer die kognitiven Hintergründe in der Sprachverwendung sind, um so später werden sie in der Ontogenese beobachtet. Wir glauben, im Weiteren guten Grund zu haben, das gleiche Prinzip auch in der Evolutionsgeschichte des Spracherwerbs zugrunde legen zu dürfen. Und noch etwas ist dazu erwähnenswert: Immer wieder zeigen Untersuchungen, dass es der aktive sprachlich-kommunikative Umgang ist, der die Entwicklung der Verfügbarkeit von Sprachbildungen fördert. Die Tatsache, dass Zwillinge in der Sprachentwicklung gegenüber Altersgleichen zumeist zurückbleiben, spricht nicht notwendig dagegen. Zwillingsdialoge haben nur den Verständigungszweck auf gleichem Niveau, der Dialog mit dem Erwachsenen ist darüber hinaus auch sprach- und sprecherzieherisch wirksam. Das macht beim Spracherwerb einen wesentlichen Unterschied. Wir betrachten nun damit verwandte Aspekte von Kommunikation, Denken und Sprache in der Evolution. Natürlich unterstellen wir nicht, dass ontogenetische und evolutionsgeschichtliche Sprachentwicklung einander schrittweise zugeordnet werden können. Die möglichen Verwandtschaften und Ähnlichkeiten beider Verläufe, so sie denn begründbar sind, liegen wesentlich tiefer. Sie liegen nach unserer Auffassung darin begründet, dass jeder organismi-
VI. Spracherwerb
sche evolutionäre Prozess in seinen Stufen oder Abschnitten am erreichten Niveau ansetzen muss und es nicht überspringen kann. Das gilt, so unsere Auffassung, für den anatomischen Bereich wie für den funktionellen. Ein paar Beispiele dazu: Bevor sich in der Fötalentwicklung die Augenlinse zu formen beginnen kann, muss der Augenbecher determiniert sein, und bevor der sich ausbilden kann, müssen die Basiskoordinaten für den Kopfbereich festliegen; bevor die Fingerbeeren zu ihrer Entwicklung stimuliert werden können, müssen das Thoraxgebiet umrissen, der Armund der Handbereich in seinen Konturen fixiert sein. Und so auf allen Stufen. Die Evolution zu differenzierteren Strukturen hin beruht auf der schrittweisen Ausformung der einfacheren und zugleich geschichtlich früheren Basisstufen. Das gilt auch für die funktionellen Stufen in der Arbeitsweise des Nervensystems. Bevor reflektorische Reaktionen entstehen können, müssen die schließbaren sensorischen und motorischen Nervenbögen funktionsfähig sein; bevor Sehvermögen entstehen kann, müssen sich lichtsensible Moleküle gebildet haben, und bevor Farbensehen ausgebildet wird, müssen die Moleküle für verschiedene Wellenlängen des Lichts unterschiedlich sensibel geworden sein. Das ist immer ein zeitliches Nacheinander. Bevor Sprachverstehen sich bilden kann, müssen Nervennetze evolutionär vorgeformt, in synaptischen Netzen derart ‘vorgestrickt’ sein, dass sie auf Schallmuster unterschiedlicher Frequenzanteile und ihren Verknüpfungen unterschiedlich ansprechen. Erst danach können spezifische Reaktionen auf Lautmuster mit unterschiedlichen Bedeutungen entstehen. Und von ihnen her müssen nervale Brücken zwischen der akustischen Einstrahlungsregion im Nervensystem, dem Bedeutungsverstehen und jenen Regionen entstehen, die die motorische Beantwortung einer Reizrepräsentation steuern.
8.
Über kommunikative Evolutionsstufen
Elementare Voraussetzung für Erkennungsvorgänge, die jeder Kommunikation zugrundeliegen, ist die molekulare Sensibilität von Zellen. Kommunikation beginnt mit der Wechselwirkung sensibler Zellen. Eine nächste Stufe dieser Wechselwirkung beruht auf einem sensorischen und einem motorischen Anteil. Dabei greift Lernfähigkeit in
55. Phylo- und Ontogenese sprachlicher Kommunikation
die Entscheidungsbildung ein. Zudem konvergieren zwei andere Dispositionen: Zum Ersten: die homöostatische Registrierung von Mangelzuständen und damit die Befähigung eines Organismus entscheiden zu können, was er momentan am dringendsten braucht, sowie, damit in Verbindung, die Bewertung verschiedener, sensorisch zugänglicher Informationen. Und sodann: die Reduktion von Informationszugängen auf ein entscheidungsrelevantes Maß. Letzteres geschieht im Wahrnehmungsbereich durch Ordnungsbildung im Sinne der Ausbildung von Strukturen, sprich: im Sinne der Gestaltpsychologie von Gestalten. Emotionalität und kognitive Strukturbildungen sind zwei wichtige Voraussetzungen effektiver organismischer Kommunikation. Kommunikation ist eine Form der Wechselwirkung zwischen Organismen, eine Form, deren Inhalte auf Informationsaustausch beruhen. Dabei scheint es eine Optimierungstendenz in der Evolution zu geben, die zur Minimierung des Energieaufwandes hin tendiert. Die Befunde von Cheney und Seyfarth (1990) belehren darüber, dass z. B. bei Makaken verschiedene Arten von Feindtieren auf unterschiedliche Weise signalisiert werden können. Dennoch war dies nicht der Weg, der zur hominiden Lautbildung geführt hat. Warum eigentlich nicht? Wir glauben deshalb, weil diese Lautbildung auf einer strengen Einpassung in ein Biotop beruht, in dem feststeht, auf welche Arten von Feindtieren ein Organismus eingestellt sein muss, um überleben zu können. Insbesondere wenn sich die Lebensräume rasch verändern, muss eine große und nicht immer feststehende Variabilität von Feindtieren in Rechnung gestellt werden. Dann ist Kommunikation nur erfolgreich, wenn die Signalgebung dem Gefahrentyp anpassbar gemacht werden kann. Dazu eignet sich im Bereich der akustischen Signalements ein Prinzip besonders: die Kombinatorik von Lautbildungen zu immer neuen Mustern. Das ist nicht nur rationell, sondern auf eine extrem effiziente Weise auch adaptiv. In Verbindung mit Lernvorgängen wird der vom Gehirn her gesteuerte Lautbildungsapparat zu einem für Informationen adaptiven Mitteilungsinstrument. Je vielseitiger die Hirnfunktionen Bewährungsformen auch mit der Lautbildung erkennen und speichern, um so größer der Selektionsvorteil, aber auch: um so größer sind die Anforderungen an leistungsfähige Hirnfunktionen. Was erreicht wird mit den variablen Benen-
771
nungen von Wahrnehmungsgebilden, das entspricht jenen Funktionen, die in Verbindung mit der Ontogenese der Kommunikaton als Nennfunktion bezeichnet wurden, also die Gewissheit, dass jedes wahrnehmbare Gebilde eine Benennung haben kann. Wir vermuten, dass dieses Stadium mit Beginn der Eiszeiten vor ca. 3,5 Mio Jahren von den seinerzeitigen Habilinen eingeleitet wurde.
9.
Über Eiszeiten und Hirnfunktionen
Die Kältewellen der Eiszeitepochen erzwangen weiträumige Wanderungen. Routenlernen war die große Herausforderung für die Ausgestaltung des Gedächtnisses, wie wir glauben. Ziele zu finden, die Rückwege zu rekonstruieren und dies nicht als Einzelwesen, sondern im Trupp, das ist ohne Kommunikation schwerlich möglich. Schon die Homo-erectus-Leute mussten der nach Norden hin schwindenden, üppigen Flora und im Gefolge davon auch ihren Beutetieren nachziehen. So wurde H. erectus zum weiträumigen Wandern gezwungen (s. Abs. 4). Die Homo-erectus-Leute begannen auf ihren Wanderungen mit der Großwildjagd. Knochenfunde von erlegten Tieren belegen das. Natürliche Fallen wie Sumpfgelände oder Treiberfaktoren wie gelenktes Feuer machte Tiere wie Nashorn, Büffel und gar Elefanten zu attraktiver, weil energiereicher und daher begehrter Beute. Vor 500 000 Jahren war das sicher der Fall. Was musste man sich in Vorbereitung solcher Jagdunternehmen mitteilen? Vermutlich und – wie erwähnt – wenigstens dreierlei: Was soll geschehen? Fliehen oder Jagen, Töten oder Aufteilen? Und: Wer soll was tun? und mit Wem soll es geschehen? Handlungsträger, Handlung und Objekt der Handlung sind – wie begründet – die Grundelemente jeder Ereignisdarstellung. Ohne diese drei begrifflichen Elemente wäre Verständigung bei der Vorbereitung und Durchführung einer Jagd auf Großwild nicht möglich gewesen. Aber diese Benennungen genügen auch, um eine elementare Rollenverteilung zu bewerkstelligen. Vorbedingungen für diese Leistungen waren längst bei den vormenschlichen Primaten durch das angelegte Planum temporale gegeben. Wir vermuten, dass während der Homoerectus-Zeit diese Region schrittweise vernetzt wurde für das Verstehen von gewählten Benennungen, sei es durch Zufall erfunden oder sei es durch lautliche Nachbildung des
772
VI. Spracherwerb
Abb. 55.9: Linksseitige Oberfläche der menschlichen Hirnrinde. Im Hinterhaupt (s. Abbildung 55.2) liegen die nervalen Kodierungsnetze für Form, Bewegungs- und Farbwahrnehmung. Der primäre auditorische Kortex vermittelt Ton- und Schalleindrücke zum Wernicke-Areal. Dort werden aus den dekodierten Schallmustern jene Lautkonfigurationen ausgefiltert, die gespeicherten Worten entsprechen. Über den Fasc. Arcuatus werden sensomotorische Aktivierungen im Vorderhirn in Gang gebracht. Sie überführen eine erzeugte grammatische Struktur in die Innervationen der lautbildenden Kehlkopfmuskulatur (sog. Vokalisationsbereich des motorischen Zentrums).
Gemeinten bzw. durch szenische oder gestische Nachbildung mit Lautbegleitung entstanden. Und noch eine feine ‘Verkabelung’ müsste in dieser Zeit stattgefunden haben, nämlich die der Benennungsnetze zum Handlungszentrum im Gyrus präfrontalis (Abbildung 55.9). Das könnte die Voraussetzung dafür gewesen sein, dass zur Art der Handlung, zum Vormachen, zum begleitenden Gestus für das WAS des Tuns eine bedeutungshaltige Motorik ausgebildet wurde, mit dem Zeigen dahin, wer was tun soll, vielleicht sogar womit. Da hätten wir unsere semantischen Relationen für die Repräsentation von Ereignisbegriffen in nuce fast beisammen. Die Mitteilungen könnten zunächst ganz der Gegenwart verhaftet und noch ganz ohne Grammatik im modernen Sinne verstehbar gewesen sein. Der mit neuerer Linguistik vertraute Leser wird vielleicht mit Abstand vermerken, dass wir hier in die umstrittene Subjekt-Verb-Objekt oder kurz: S-V-O- Debatte als universeller Protosprache eingreifen wollen. S-V-O, so der Einwand, sei keine Universalsprache und dass es ja Sprachen gäbe, wie das Chinesische, das diese Unterscheidung überhaupt nicht kenne (Holz, 1994). Dazu ein klärendes Wort: S,V,O sind als Subjekt, Verb und Objekt grammatische Kategorien, die durch re-
flektierenden Umgang mit der Systematik sprachlicher Einheiten für eine große Klasse von Sprachen definiert wurden. Wir haben von Handlungsträger, Handlungsart und Objekt der Handlung als von klassifizierenden Elementen eines beobachtbaren oder vorstellbaren Ereignisses, also von begrifflichen Entitäten gesprochen. Dass in weit späteren Zeiträumen diese begrifflichen Benennungen nochmals einer eigenen Klassifizierung unterzogen wurden und das in verschiedenen Sprachen auf verschiedene Weise, das ist eine andere Frage. Handlungsträger, Handlungsart und Objekt der Handlung sind begriffliche Universalien. Für die Kennzeichnung gesehener Ereignisse oder für gemeinsame, sozial organisierte Handlungsabstimmungen reicht das allemal. Die weiträumig ziehenden Erectusleute waren die ersten Lebewesen, die ihre natürlichen Feinde weitgehend abgeschüttelt hatten und kaum Grenzen für ihre Ausbreitung zur Kenntnis nehmen mussten. Und alle Sprachen, die auf dieser Erde derzeit gesprochen werden, können diese begrifflichen Elemente ausdrücken. Die HT-Sk-O-Sprachen sind parataktisch, sie haben keine hierarchische Taxonomie. Diese einfachen Wortverkettungen erinnern natürlich auch an die Art der Steinwerkzeuge: Linear rekursiv haben wir die Werkzeugher-
55. Phylo- und Ontogenese sprachlicher Kommunikation
stellung genannt. Und linear rekursiv waren auch diese HT-Sk-O-Sprachen. Es gibt hier eine merkwürdige Duplizität von Ereignissen. Als die Werkzeugherstellung zu hierarchischen Konstruktionen überging, scheint auch das sprachlich gebundene Denken zu hypotaktischen Formen gelangt zu sein. Das versuchen wir zu belegen.
10. Der Weg zu hypotaktischen Handlungsprogrammen und Sprachstrukturen Vor 180 000 Jahren setzte in Wellen die bekannte Wärmeperiode ein, die ca 60 000 Jahre anhielt. Die Erwärmung des Klimas führte u. a. dazu, dass in heutigen Sahararäumen bis Ägypten hin eine fruchtbare Landschaft entstand. Stabile Nahrungsgrundlagen im Vergleich zu früheren Zeiten führen zu einem Bevölkerungsüberschuss: Die Vermehrungsrate steigt, die Kindersterblichkeit nimmt ebenso ab wie die Infektionsanfälligkeit. Calvin (1998) spricht in diesem Zusammenhang von einer Bevölkerungsexplosion. In historischen Abläufen lässt sich zeigen, dass starke Bevölkerungszunahmen zu Veränderungen in den Organisationsformen des menschlichen Zusammenlebens in der betreffenden Region führen. Wahrscheinlich hat in dieser Zeit der Übergang vom Leben in ziehenden, jagenden und nur zeitweilig lagernden Menschengruppen zum Leben in Stämmen mit Lagerstätten, Beerdigungs-, Ritual- und Geburtsorten, mit der Erkennung von Verwandtschaften, Ge- und Verboten für Nahrung und Ehen sowie ritualen Formen und Festen eines Stammeslebens stattgefunden. Belege dafür haben wir an anderer Stelle erbracht (Premack, 1976; Klix & Lanius, 1999). Was hier interessiert, sind zwei Ereignisse. Etwa vor 112 000 Jahren setzte vom Süden her eine neue Kaltzeit ein. Die Flora versteppte, die Tiere mussten – wie erwähnt – dem Pflanzenwuchs nachziehen, und die Menschen mussten folgen. Frühe Funde liegen in Jordanien und in Israel. Die Knochenreste sind 92⫺98 000 Jahre alt. Die Schädelreste zeigen an, dass ein neuer Menschentyp entstanden war, die später so genannten Homo-sapiens-sapiens-Formen vom CroMagnon-Typ. Sie siedelten nach langen Wanderungen in Asien, in Südeuropa, in Ungarn, im Rhoˆnetal, in Südfrankreich, Nordspanien, Andalusien und in Nordportugal. Was sie mitbrachten, war eine neue Klasse von Werk-
773
zeugen. Äußerlich gesehen, ist es nur eine Art neuer Verbundtechnik. Kognitiv gesehen, steht aber mehr dahinter. Mit der Aufspaltung von Handlungsfolgen in Teilprogramme mit Teilzielen entsteht eine Organisation von Denkstrukturen, die in hierarchisch aufgebauten Handlungsabschnitten umgesetzt wird: Erst den Schaft für …, dann den kleinen Stein zum …, dann den Hanf dort … und dann das Harz (zum Verkleben der Spitze oder einen Spalt zum Einklemmen des Mikrolithen). Unsere semantischen Relationen sind hier Denkelemente, aber noch nicht notwendig benannt. Sie binden Teilziele, die aber immer im Hinblick auf das Gesamtresultat realisiert und schließlich in Form von Folgen zusammengeschlossen werden. Was wir erkannt zu haben glauben, das ist eine suggestive Analogie zu dem, was sich schließlich in der Entwicklung zu den modernen Hochsprachen abgespielt haben könnte. Dazu müssen wir aber noch einmal bedenken, was an Denkprozeduren im Detail vorausgesetzt werden muss, damit grammatisch korrekte Sätze gebildet werden können. Hierarchische Denkstrukturen beim Konstruieren heißt, dass es nicht nur ein Ziel gibt, das ‘straightforward’ oder ‘par force’ angestrebt wird, sondern dass mit den Teilzielen eine Ordnung darüber existiert, in welcher Reihenfolge welches Teilziel angestrebt wird, was die Bedingung für den nächsten Schritt ist, welches Material sich für verschiedene Teilschritte am besten eignet, welche Funktionsproben nach welchem Teilschritt am besten vorgenommen werden sollen. Kurzum: Konstruktives Denken beruht auf gegliederter Ordnungsbildung mit Merkmalen und zugehörigen Wenn-Dann-Beziehungen. Darin geht lange Erfahrung ein und – sehr wahrscheinlich – die Übergabe solcher Erfahrung durch Belehrung. Es ist wenig wahrscheinlich, dass solche Konstruktionsprinzipien, wie sie nach Abbildung 55.6d im Hintergrund gestanden haben müssen, immer von neuem entwickelt wurden und dann auch noch auf Anhieb ‘passen’. Dazu gehört schon aus lernpsychologischen Gründen auch eine Ordnung in einer Form von Belehrung, die Sprache einschließt: Zeigen, Vormachen und Erklären waren am Anfang sicher eins. Aber das schrittweise Was, soweit es die Lautmarkierungen, die Wortmarken betrifft, da fehlten dem Erectus-Vokabular anscheinend wesentliche Elemente. Es sind insbesondere jene, die wir in Zusammenhang mit der Erörterung von Ereignisbegriffen als semantische Rela-
774 tionen definiert haben und deren urtümliche Funktion sich derzeit nur als Vermutung rekonstruieren lässt.
11. Benennungen für Begriffsklassen und ihre Funktionen in der Kommunikation Alle drei Komponenten von Ereignisbegriffen: Handlungsträger – semantischer Kern – Rezipient (oder Objekt oder Instrument) können zu beschreibbaren Ereignisbeschreibungen hinreichend sein. Dennoch: Die Dominanz eines Handlungsträgers, also der Name für den Akteur oder ein Symbol für ihn, ein Pro-Nomen späterhin, dominieren den Beginn. Man könnte meinen, das sei doch kongruent mit der Chomsky’schen Notierung, wo auch das Nomen den Satz zu dirigieren beginnt. Aber dabei bleibt außer Acht, dass ja auch das zweite Objekt zumeist ein Nomen ist und dass man das eben nicht an den Anfang stellen sollte, so man psychologische Relevanz bewahren will. Man brauchte dann eine zusätzliche Notierung für die semantische Rolle und kann nicht Grammatik ⫽ Semantik setzen, was (nach Bayer, 1987) Chomsky tut. Wir wollen nun einige sprachliche Repräsentationsformen für begriffliche Merkmale zu bedenken geben. 11.1. Begriffsmerkmale in sprachlichen Mitteilungsformen Die Merkmale der Begriffe finden auf sehr verschiedene Weise in sprachlichen Ausdrucksformen Verwendung. Eine große Rolle spielt dabei die Aufmerksamkeitsverteilung bei der Beobachtung eines Objekts im Rahmen eines Vorgangs. Fokussieren nennt man das häufig. Gemeint ist, dass zwischen Wahrnehmung und Objekteigenschaften Filterprozesse liegen, die die Profilierung der Merkmalseigenschaften beeinflussen, die einmal die einen, ein andermal andere Merkmale hervortreten lassen. Externe Kontexteinflüsse wie interne motivationale Zustände spielen dabei eine bedeutsame Rolle. Die im Allgemeinen charakteristischen Merkmale der Objektbegriffe werden durch Adjektive bezeichnet. Ihre übliche Taxonomie erfolgt nach dominierenden Wahrnehmungsdimensionen wie Größe, Gewicht, Farbe oder nach komplexeren Strukturen wie Schönheit, Klugheit u. a. Naturgemäß dürfte eine Art Adjektivbenutzung zur Kennzeichnung von Merkmalen
VI. Spracherwerb
anfänglich sehr grob gewesen sein: groß vs. klein, stark oder überstark vs. schwach. Was die Wahl von adjektivischen sprachlichen Eigenschaften betrifft, so hängen die schrittweisen Differenzierungen nicht nur von den Verfeinerungen des Wissensbestandes über Objekteigenschften, sondern auch von den Einstellungen gegenüber der wahrgenommenen Realität ab. Mit ihr gehen schließlich im Laufe der Menschheitsentwicklung sogar von Weltbildern abhängige Bezeichnungsweisen ein (Klix & Lanius, 1999). Wir wollten hier nur darauf hinweisen, dass die Klasse der Adjektive jene begrifflichen Einheiten enthält, die vorzugsweise für die Merkmalscharakteristik von Objektbegriffen ausgebildet wurden. Merkmale der semantischen Kerne werden im hierzulande gültigen Klassifizierungssystem zumeist als Adverbien bezeichnet. Es geht dabei vorwiegend um Merkmale von Vorgängen, die unmittelbar an den semantischen Kern gebunden sind und die nicht direkt die semantischen Relationen betreffen. Die ursprünglichen Ausdrucksformen dürften in starkem Maße gestisch gebunden gewesen sein, und sie dürften auch eine Altersstaffelung gehabt haben. Markierungen für derart semantische Notierungen könnten gewesen sein: vorher (kam (temporal)) oder: bald (kommt); modale Formen wie gern (bleibt), sicher (geht). Beispiele für lokale Adverbien sind: dort(kommen), da(steht). Schließlich sind noch die kausalen Adverbien zu bedenken wie deshalb(kam). 11.2. Bevorzugte Wortbindungen für semantische Relationen in Ereignisbegriffen Ereignisbegriffe sind nicht nur durch die Eigenschaften semantischer Kerne bestimmt, sondern auch durch die Eigenschaften der in ihnen implementierten semantischen Relationen. Sie werden im lexikalischen Gedächtnis vor allem durch Präpositionen kodiert. Die besondere semantische Funktion der Präpositionen besteht nicht nur darin, dass sie Objektbegriffe an semantische Kerne binden, sondern auch, dass sie in den Merkmalssätzen der Objektbegriffe wohlbestimmte Merkmale akzentuieren. Spielen – Fussball aktiviert einen Szenentyp, Spielen – Skat einen völlig anderen und Spielen – M¸cken wieder etwas anderes. Das lässt sich sehr vielfältig fortführen. Die Beispiele belegen: semantische Relationen verbinden nicht nur Begriffe, sie modellieren, wie erwähnt, auch de-
55. Phylo- und Ontogenese sprachlicher Kommunikation
ren aktuellen Merkmalssatz. Dessen Profil wechselt von Ereignis zu Ereignistyp. Jenseits von dieser Art semantischer Akzentuierungen von Bedeutungsgehalten gibt es eine Kollektion von Worttransformationen, die die Spezifik eines Ereignisbildes modifizieren. Sie waren gewiss nicht zur Zeit der Entstehtung von Hochsprachen verfügbar. Erst im Laufe der Sozialgeschichte menschlicher Gesellschaften haben sie sich schrittweise herausgebildet. Wenn man wiederum davon ausgeht, dass die Worttransformationen um so später auftreten, je komplizierter der damit kodierte kognitive Hintergrund ist, so können wir einige relative Angaben versuchen. Sie beruhen auf Analysen der Erkennungszeiten beim rezenten Menschen. Danach wären am frühesten Merkmalsworte für Objektbegriffe, vor allem bei Handlungsträger und Rezipienten zu erwarten. Dort verschmelzen charakteristische Merkmale mit den Benennungen für die Begriffe (bei manchen Naturvölkern hat ein Boot auf Kriegsfahrt einen anderen Namen als beim Transport von Erntegut wie Mais, im alten Sumer hingen die Zahlworte von der Art des Gezählten ab). Ähnlich können Genus und Numerus zuerst über Benennungen und dann erst über Artikel und Affixe spezifiziert werden (‘Die Sammlerinnen’). Mehrzahlbildungen werden in frühen Sprachen einzelner Naturvölker durch Wortwiederholungen ausgedrückt (‘Mann und Mann kommen’ ⫽ ‘Männer kommen’). Der Rezipient wird durch aktive direkte, aber sicher erst in einer sehr späten Entwicklungsphase durch indirekte Wortmarkierungen bestimmt, etwa durch die einfache Passivbildung (J‰ger jagt, J‰ger sein gejagt). Langwierig werden temporale Formen mit austauschbaren Raum-Zeitbezügen, ähnlich wie in Sprachen von Naturvölkern (Hallpike, 1990) gebildet worden sein (,gleich abend’, ‘Sonne unter Berg’, ‘Stellen auf Vorngesicht’, ‘auf haben gegessen’, ‘in Falle drin’). Die Protoformen der Modalpräpositionen gestatten nicht immer zwischen der Kausal- und der Instrumentalrelation zu unterscheiden. Das wirkt noch in unserer Gegenwartssprache nach: wegen eines …, durch einen …, infolge eines … sind Beispiele dafür, dass sowohl Zeitbezüge als auch Kausalrelationen gemeint sein können. Reine Instrumentalformen verschmelzen oft mit Objektinformation (Hacken: Name 1 (auf) Name 2). Auch die Lokationsrelation ist nicht immer eindeutig. Die Finalität, obwohl im Ereignis eingebunden, kann eine Se-
775
rie von Szenen überstreichen, z. B. über die Konstruktionsabschnitte eines Werkzeugs wie bei der (gedanklichen) Realisierung eines Planes oder einer Strategie. Dabei können Ereignis auf Ereignis folgen, aber die Finalität bleibt dieselbe, z. B. Funktionsfähigkeit oder Brauchbarkeit zu erreichen (z.B: Bauen Falle & Tˆten B‰r). So werden auch Symbole oder gar Worte für die Benennung von Folgen zwischen Ereignissen gebraucht, anfangs wohl vor allem mittels Wiederholungen von verbal unterstrichenen Gesten. Merkmalsänderungen bei dynamischen Begriffsstrukturen, wie z. B. bei ‘verbrennen’, ‘spalten’ und ähnlichen, verweisen auf zu erwartende Merkmalseigenschaften eines Objekts durch ursprünglich wahrscheinlich auch gestisch unterstrichene Aktivitäten (‘Totmachen B‰r’, ‘Bauen Falle’). Wir haben in diesem Zusammenhang einmal von transformativen Begriffen (Klix, 1992) gesprochen. Klassifizierungskriterien sind hier Änderungen oder Übergänge charakteristischer Merkmale, wie sie als Folge äußerer Einwirkungen entstehen und die gleichfalls als Gedächtniseintragungen nachweisbar sind. Zu bemerken ist, dass mit den Merkmalsänderungen ein Zeitfaktor ins Spiel menschlicher Wissensinhalte kommt (Wolf, 1984; van der Meer, 1991). Offensichtlich spielen die Präpositionen auch eine besondere Rolle im erfahrungsabhängigen Denken bei der sprachlichen Umsetzung von bildlichen Erinnerungen. Dass die Präpositionen dabei für sich genommen oft nicht eindeutig sind, verweist auf ihre späte sprachgeschichtliche Herkunft. Denn die Sprachevolution tendiert zur Eindeutigkeit hin (Klix, 1999). Bedeutsam ist in diesem Zusammenhang, dass präpositionale Fügungen lexikalische Gruppen eröffnen und deren Bedeutungskopf bilden. Es sind die neuerdings vieldiskutierten ‘headers’, die Bedeutungsfiguren einleiten: ‘Vor dem Vollmond ist gegangen’, ‘… Hinter dem Berge Sonne sein …’ Warum gerade Präpositionen solche Teilbildgruppen einleiten und binden, scheint sowohl auf ordnende Prozeduren unseres Wahrnehmungssystems als auch auf Eigenschaften des Berichtsinhalts und der Bedeutungseinbettung seiner Elemente rückführbar zu sein. Orts-, Zeit- oder Personenbeziehungen in Aktionen bilden häufig eine optisch oder szenisch abgehobene Subgruppe des betrachteten Geschehenstyps. Jedenfalls erinnert auch das stark an die Teilziele und Teilprogramme im konstruierenden Denken.
776
VI. Spracherwerb
Auch dort spielen die Anfänge von Teilprogrammen eine akzentuierte Rolle. Nach gedächtnispsychologischen Untersuchungen haben sie auch eine herausgehobene Einprägungschance, und sie sind auch besondere Starthilfen bei Reproduktionen. Beides dürfte sie auch für Belehrungsstrategien prädestinieren.
12. Nervale Epizentren der Sprachbenutzung und Störungen ihrer Funktionsweise Es ist mittlerweile unbestritten, dass es sich bei der Repräsentation von Sprache im Nervenystem um weit vernetzte Areale handelt, und man kann fast sagen, dass das ganze Nervensystem in Prozessen wirkt, die in die Sprachrepräsentation wie -nutzung einbezogen sind. Dennoch gibt es zentrale Areale für bestimmte Leistungen, Epizentren gewissermaßen, ohne deren Wirken bestimmte Teilfunktionen ausfallen, während Ausfälle in anderen Regionen dadurch ersetzt werden, dass andere Areale neu gebildet oder ‘umgeschult’ werden. Sicher ist, dass die innere Organisation der Hirnrinde nach Zelltyp, Schichtung, Vernetzungsgrad und Ansprechbarkeit der Zellen eine sehr differenzierte, nichthomogene Architektur aufweist. Brodmann hat die erste langzeitig gültige Kartierung durchgeführt, und sie liegt im Wesentlichen auch der Abbildung 55.1 zugrunde. Die einzelnen Rindenfelder von Area 17 bis 19, zusammen mit der Einbeziehung tiefliegender Hippocampusgebiete und Thalamusregionen sind allem Anschein nach in unterschiedlichen Evolutionsepochen durch Langzeiteinflüsse und selektive Auswahlprozesse funktionsfähig geworden; funktionsfähig so, dass sie die stationär gebliebenen Umweltkomponenten entsprechend dem Gedächtnisbild erkennen und darauf reagieren können. Und es gibt nervale Verbindungsstränge zwischen diesen Feldern. Dabei werden zwei verschiedene Systeme unterschieden: ein Nahverbindungssystem, das zwischen benachbarten Arealen vermittelt, und ein zweites System, das unter den Arealen gewissermaßen ‘durchtaucht’ und entferntere Felder verbindet. Gerade bei diesem zweiten System wird besonders gerätselt, welche Funktionen es im Einzelnen erfüllt (s. Abbildung 55.10). Wie bei allen Umweltkorrespondenzen des Nervensystems haben wir auch bei der Sprache drei Basiskomponenten zu unterscheiden:
Abb. 55.10: Zwei hypothetische Systeme der Hirnrinde (nach Pulvermüller & Schumann, 1994). Ein weiträumig verbundenes A-System verbindet transkortikale ‘Zellgruppen’. Ein B-System ist stärker durch Nahverbindungen bestimmt. In ihm werden Transformationen elementarer Worteigenschaften synthetisiert. Das A-System regelt weiträumigere Wortkombinationen, beispielsweise wie solche aus unseren Ereignisbegriffen (vgl. auch Abbildung 55.1).
ein Erkennungssystem auf der sensorischen Seite, ein motorisches Steuerungssystem für die Lautbildung auf der motorischen Seite und ein begrifflich-sprachliches Repräsentationssystem intern; dies letztere noch einmal getrennt in eine lexikalische und eine transformierende Komponente, zu der auch die grammatischen (also die morphologischen und die syntaktischen) Flexionsformen für die lexikalischen Einheiten gehören. Dass das keine einheitlichen Systemkomponenten sind, sondern dass hier zahlreiche heterogene Teilleistungen verankert sind, die ursprünglich miteinander nichts oder wenig zu tun hatten, wird sich implizit aus dem Weiteren ergeben.
13. Die zwei bedeutsamen Zentren Abbildungen 55.1 und 55.9 geben ein Bild von funktionellen Systemen der Großhirnrinde des Menschen. Ihre Störung, je nachdem, wo das Zentrum liegt, führt zu verschiedenen Klassen sprachlicher Defizite. Dabei gibt es abtrennbare und weniger klare Differenzierbarkeiten; kein Wunder, wenn man an die inneren Vernetzungen weiter Areale denkt und was noch an begleitenden Nebenstörungen das zentrale Krankheitsbild beeinflussen kann. Unter Aphasie, ursprünglich mit ‘Sprachunfähigkeit’ zu übersetzen, fasst man mittlerweile eine Vielzahl unterschiedlicher Phänomene bei Sprachstörungen zusammen: Amnestische Aphasie, Wernicke-Aphasie, BrocaAphasie, Globale Aphasie, Leitungsaphasie, transkortikal-sensorische Aphasie, transkor-
55. Phylo- und Ontogenese sprachlicher Kommunikation
tikal-motorische Aphasie, Störungen der akustischen Analyse, der Phonemsynthese, Störungen im akustischen Lexikon, in der Verfügbarkeit graphemischer Zeichenfindung und so über zehn weitere Störungsformen. Anzunehmen ist, dass es sich bei dieser Vielzahl von oft ähnlichen Störungen, die allesamt von Unterschieden im Erscheinungsbild abgeleitet sind, um Anzeichen von gestörten nervalen Vernetzungen handelt, die man noch nicht genauer lokalisieren kann, weder im EEG noch mit Hilfe von PET oder MRT. Aber – vielleicht – könnte es die psychologische Detailanalyse von kognitiven Komponenten erlauben, Fragestellungen oder Hypothesen abzuleiten, die Hinweise enthalten zu nervalen Hintergründen. Unser Augenmerk gilt den beiden charakteristischen Formen der Aphasie, für die auch die zentral-nervalen Repräsentationsgebiete einigermaßen genau bekannt sind: die Wernicke- und die Broca-Aphasie. Unser Problem ist, ob sich von unseren Daten über die Wissensrepräsentation im menschlichen Gedächtnis Gründe dafür angeben lassen, welche kognitiv elementaren Komponenten in der Wissensarchitektur des menschlichen Gedächtnisses gestört sind. Es gibt Erkrankungen, bei denen die Arbeit wohlbestimmter nervaler Regionen gestört ist. In den erwähnten zwei Regionen zeigen sich deutliche Korrespondenzen zu unseren Begriffsklassen und ihren Eigenschaften. Das Worterkennungszentrum (Abbildung 55.9) ist das nach Wernicke benannte Areal. Bei der einschlägigen Störung ist die Verbindung zwischen der Merkmalscharakteristik eines Begriffs und den zugehörigen Worten unterschiedlich stark gestört. Die Patienten sehen ein Glas Bier, sollen es benennen und sagen: ‘zum Trinken’; sie suchen ein Wort für Palme und sagen ‘ein Schmuckpflanze in Zimmer’; ein Wort für ‘im K¸hlschrank’ und sagen ‘im Ofen’. Es wird nach unseren Vorstellungen (Abbildung 55.3) eine partielle Oberbegriffskodierung angeregt. Die Benennung für die allgemeinen Teilmerkmale des gesuchten Begriffs ist verfügbar. Andere Beispiele beziehen sich auf die Nebenordnung. Sie suchen ein Wort für ‘Hecht’ und sagen ‘Karpfen’, ein Wort für ‘Dackel’ und sagen ‘Setter’. Wieder sind die Merkmale für die Oberbegriffe (‘Fisch’, ‘Hund’) verfügbar, das also, was ‘Hecht’ und ‘Karpfen’, ‘Dackel’ und ‘Setter’ in einer merkmalsreduzierten Region gemeinsam haben (Abbildung 55.3). Die jeweils spezifizierenden Merkmale schei-
777
nen gehemmt, die generellen tragen bevorzugt die Benennung. Die Umkehr von ‘Heiss’ und ‘Kalt’ betrifft die gleiche Merkmalsdimension. Hier ist die Ausprägungsrichtung des gemeinsamen Merkmals vertauscht. Bei erfolgloser Suche kommen Neukonstruktionen vor. Für Kerze sagt ein Patient: ‘Tropfen’, ‘die kaputtgehen’. Bei der anderen aphasischen Erkrankung, sie ist nach Broca benannt, bilden die Patienten „ganz einfache“ (i. e. fast grammatikfreie Sätze (Höhle, 1995). Ein Patient beschreibt ein Bild mit einem bettelnden Mann so: ‘Der … Mann … Bettler’; ein Bild mit zwei streitenden Männern so: ‘Der Mann … und … der Mann … schreit an’. Ein anderes Bild so: ‘Zwei M‰nner quatschen … quatschen … haben ganz laut sprechen’.. „Es sind bevorzugt HT-Sk-O-Sätze, also Komplexe aus unseren semantischen Wurzeln. Es besteht bei Patienten oft Unsicherheit, die modifizierenden semantischen Relationen im Sprachlichen auszudrücken. Diese Relationen sind, wie erwähnt, wesentliche begriffliche Basis für Flexionen in Wortverbindungen, seien sie syntaktischer oder morphologischer Art. Es werden nicht-lineare Kombinationen von Wortgruppen erzeugt, die durch präpositionale Terme gebunden werden. Dabei ist gleichgültig, ob es für die Relationen spezifische Wortgruppen gibt (wie im Deutschen) oder ob sie mit den Wortstämmen verschmelzen (wie u. a. in uralischen Sprachen, etwa im Estnischen). So zeigt sich im Ganzen: „… die Broca-Aphasie ist geprägt durch die Störung der syntaktischen Verarbeitung bei erhaltenem Lexikon, die Wernicke-Aphasie durch erhaltene Syntax bei gestörtem Lexikon“ (Höhle, 1995: 12). Man vergleiche dazu auch die phänomenologisch mustergültigen Beschreibungen von Kleist (1916: 118⫺199). Wir behandeln hier die zentralen Grundphänomene der beiden Syndromgruppen. Da die Areale keine geschlossenen Hirngebiete sind, ist der Variantenreichtum der Phänomene besonders groß. Davon zeugen schon die zahlreichen Teilklassen der Aphasien (s. S. 39). Auch bedarf eine kognitive Analyse der Störungen wesentlich feinerer Unterscheidungen als ich sie hier vorlegen kann. In unserer Sicht: Die Wernicke-Aphasie betrifft die Interaktionen zwischen den Merkmalssätzen der Objektbegriffe und den zugehörigen Wortmarken mit den merkmalsbestimmten Begriffsbeziehungen, die Broca-Aphasie betrifft die gestörte Umsetzbarkeit der semantischen Relationen
778 von Ereignisbegriffen in die zugehörigen sog. Funktionsworte. Sie bestimmen in starkem Maße die grammatischen Konnexionen in einem Satzaufbau. Beide, Wernicke- und Broca-Areal, sind durch den Fasciculus arcuatus (s. Abbildung 55.9) verbunden, eine angeborene Konnexion, die vermutlich durch Endosymbiose zur Grammatikalität der flektierenden Hochsprachen geführt hat und die im vormenschlichen Primatenhirn noch nicht aktiv ist. Wohl aber findet man – wie erwähnt –, dass das Planum temporale beim Schimpansen angelegt ist. Das weist auf die freie Assoziabilität von Lautbedeutungen mit Bildeindrücken in einer vormenschlichen Evolutionsperiode hin. Bleiben die Zeitrelationen für die Motivation (Fin) und für die Konsequenzen (Cond oder Caus). Dazu gibt es neue Daten aus der Psycholinguistik (Rickheit, 1991) und der Neurologie. Von Cramon (1997) hat Befunde zusammengestellt, nach denen Zeitrelationen in Strukturen des Frontalhirns registriert werden. (U.a. sind sog. präfrontale Pausenneurone am Sulcus principalis gefunden worden.) Es würde danach nicht verwundern, wenn die re-aktivierbaren Spuren für Zeit und Zeitbeziehungen auch im Frontalbereich lägen. Die signifikanten Zeitverzögerungen bei der Erkennung von Finalitätsrelationen könnten das anzeigen. Übrigens spielt dieser Bereich bei sozial motivierten Vorgängen und bei ICH-zentrierten Entscheidungen eine Rolle, u. a. auch bei schizophrenen Erkrankungen.
14. Hauptphasen der Sprachevolution im Überblick Chomsky (1998) hat sich zu dieser Frage kaum dezidiert geäußert. Er schreibt: „Was Systeme wie die Sprache betrifft, … ist es schon schwierig, sich überhaupt einen Selektionsverlauf vorzustellen, der zu ihrer Entstehung geführt haben könnte.“ Dieser Standpunkt wird verständlich, wenn Bayer (1987) Recht hat, der schreibt: „Chomsky meint Grammatik, wenn er Sprache sagt.“ In der Tat, eine isolierte Selektion grammatischer Strukturen ist, soweit erkennbar, nicht zu begründen. Zudem, so ein Makroschritt zur Hochsprache ist aus einer einfachen Mutation schlechtweg kaum ableitbar. Unser Ansatz ist darum ein Versuch zu erklären, wie aus vormenschlichen nervalen Teilsystemen, ausgebildet für unterschiedliche Funktionen,
VI. Spracherwerb
durch deren selektiv erzwungenes Zusammenwirken ein neuer Phänomenkomplex, eben die Sprachstruktur mit ihren vielfältigen Inhalten entstehen konnte – und das nicht mit einem Schlage. Dabei können wir hier nur auf die großen Einschnitte in diesem verzweigten Prozessgeschehen hinweisen. Es ist ein wesentlicher Unterschied, ob ein erkennendes Nervennetz mit seinen Funktionen vererbt ist oder ob die Nervenzellgruppen durch Lernen vernetzt wurden und neu verschaltet werden können. Das Letztere erst macht die Lautbildung für kommunikative Zwecke adaptiv. Sicher scheint, dass die Vernetzung zwischen Bildern oder Vorstellungen und der Steuerung des Benennens über den zur Affenzeit noch inaktiven Fasciculus arcuatus erfolgt ist. Bereits die früheste assoziative Lautbindung an klassifizierte Objektmengen führt zu einem Wortschatz in Begriffen. (Man braucht keinen großen Umfang anzunehmen. Ein australischer Stamm, die Damin, verfügt über 200 Worte und bestreitet damit alle Anforderungen an eine konventionalisierte Umgangssprache.) Die assoziative Anbindung differenzierender, benannter Merkmale an die Wortstämme führt wie durch Affixe zu ihren Unterbegriffen, die Inhibition zu Oberbegriffen (s. Abbildung 55.3). So beginnen mentale Operationen im begrifflichen Wissensbesitz zu arbeiten und mit ihnen das Wechselspiel von Sprechen, Sprache und Denken. Es gibt, wie sogleich deutlich wird, Gründe anzunehmen, dass die Homo-erectus-Sprache fast grammatikfrei, d. h. eine nicht flektierende, agglutinierende S-V-O-Sprache im Sinne von Pinker (1996) und Bickerton (1996) und im Sinne der Protosprache von Herrmann und Grabowski (1994) gewesen sein muss. Die frühesten Grammatikelemente dürften mit den Wortstämmen verschmolzen sein und Information über Numerus, Genus und markante Attribute (die späteren Adjektive) enthalten haben. Eine der vermutlich ältesten und noch lebenden, eine Pygmäensprache, hat solche Bildungen. Das Altkoptische und das frühe Sumerische haben diese Modifikatoren im Schriftsprachlichen. Eine frühe flektierende Hochsprache wurde, wie erwähnt, aller Wahrscheinlichkeit nach während der Eem-Warmzeit von den Neumenschen des Cro-Magnontyps ausgebildet. Die Quellen ihrer Grammatik waren vermutlich schrittweise die semantischen Relationen der Ereignisbegriffe. Deren Assoziation mit Laut- (⫽ Wort-)marken eröffnet die
55. Phylo- und Ontogenese sprachlicher Kommunikation
Möglichkeit, über Vergangenes, über das Übermorgen, über Motive, über das Verursachte mitzuteilen. Konstruktives Denkhandeln am Gerät beinhaltet Gleichartiges, das Wissen um das Wenn-Dann und das Warum, – und darüber, was ICH kann. (Dieses ICH wäre ein Kapitel für sich.) Nun die Gründe: (1) Sämtliche bekannten Sprachen haben die Ausdrucksfähigkeit zumeist in Form einer HT-Sk-O-Kombination (Wer tut Was mit Wem). Es ist dies eine sprachliche Einkleidung der semantisch kombinierbaren Wurzeln der Ereignisbegriffe. Sie sind auch die Universalien in der die Menschheit umgebenden Welt. Es gibt einen Zusammenhang zwischen den Wanderungsbewegungen von Frühmenschengruppen und ihrer genetischen Ausstattung. Spontane Mutationen in der DNS der Mitochondrien gestatten zu ermitteln, in welchen zeitlichen Perioden sich Populationen getrennt haben (Cavalli Sforza, 1991). Mit diesen Trennungen gingen Gemeinsamkeiten der genetischen Ausstattung verloren – und auch die Ähnlichkeiten in den lautlichen Benennungen für äquivalente Begriffe in den verschiedenen Sprachen. Die Unterschiede wurden um so größer, je länger die zeitliche Distanz der Trennung wurde. Nach gut übereinstimmenden, genetischen und phonologischen Analysen hat diese Trennung im Zeitraum vor 150⫺120 Tj. stattgefunden, d. h. während der Eem-Warmzeit, der Zeit der frühen Neumenschen (Abbildung 55.8). (2) Die Konstruktionspläne für das Werkzeug der Cro-Magnon-Leute, das sind hierarchische, durch Teilziele gegliederte Kombinationen aus Teilprogrammen des Handelns. Das ist ähnlich den Kombinationen aus den „on-line“-Klammerungen in einem hierarchisch gegliederten Satzaufbau (s. Abbildung 55.5 (6 & 7), Beyer, 1991). Eine komplizierte Handlungsstruktur wird, so u. a. Bühler (1930), in aller Regel sprachlich begleitet. Das hat wohl auch mit der Nähe zwischen Broca-Zentrum und der Mund- und Kehlkopfmuskulatur zu tun. Kombinierendes Konstruieren im Denkhandeln verbindet begriffliches Wissen über Ereignisse und Ereignisfolgen, die in den semantischen Relationen der ‘behandelten’ Begriffe wurzeln. Sie werden zumeist in Form von Präpositionen ausgedrückt, und sie bilden nicht selten den ‘Kopf’ einer Phrase, die eine semantische Konfiguration bindet. Das ist auch die spä-
779
teste Errungenschaft in der kindlichen Sprachentwicklung, wie zuerst W. Stern (1952) erkannte. Zwischen dem 13. und 15. Lebensjahr ist diese Entwicklung abgeschlossen. (3) Die Ausbildung vokalisch modulierender Sprechweise beginnt mit 1;6, ziemlich gleichzeitig auch der aktive Begriffserwerb und mit ihm die Erkennung der ‘Nennfunktion’ der Sprache (Bühler, 1930). Um diese Zeit beginnt die Senkung des Kehlkopfes beim Kinde. Mit ihr entsteht die Gestaltbarkeit der Vokale (vgl. auch Jürgens in diesem Band). Diese Senkung ist am Ende der Pubertät abgeschlossen. Mit ihr liegt das charakteristische Timbre der individuellen Lautmodulierung beim Sprechen fest. Das Melos der Muttersprache ist für den Rest des Lebens nicht mehr zu verleugnen. In der gleichen Zeit liegt die Schlussphase der Zahnbildung. Mit ihr wird die Gebissform des Homo sapiens sapiens erreicht. Die charakteristischen Formen dieser Gebisse wurden bei Neumenschen vom Cro-Magnon-Typ gefunden. So kommen wir zu dem Schluss, dass die Evolution der menschlichen Sprache mit den Lautbildungen für die semantischen Wurzeln beobachtbarer Ereignisse begonnen hat. Die Erectus-Leute (vielleicht bis hin zum Neandertaler) sprachen ähnlich wie Broca-Aphasiker, wenn die Störung einigermaßen „rein“ und nicht stark von neusprachlich gebundenen Nebenphänomenen beeinflusst ist. Die kognitive Grundlegung der flektierenden Hochsprache war danach mit den konstruierenden Denkhandlungen der Neumenschen vom Cro-Magnon-Typ verbunden. Es gibt Evolutionsstränge für den Aufbau kognitiver Strategien für Problemlösen in verschiedenen Kontexten, für mathematische, musikalische und – sehr wahrscheinlich auch – für die Sprachgestaltung in selektiv wirksamen, biologisch kreativen Zeiträumen. Die Anfänge liegen in den assoziativen Vernetzungen zwischen Wahrnehmungsdingen großer Ähnlichkeit und benennenden Lautbildungen. Die Kombination von Lautbildungen und ihre freie Verkettung zu Worten ermöglicht die Genese eines frühen Lexikons für Objektbegriffe. Verkettungen von Ereignisbegriffen mit ihren semantischen Wurzeln führen zu Teilabschnitten von Wortbindungen im Satzaufbau (Pulvermüller & Schumann, 1994). Semantische Relationen werden oft durch spezifische Partikel, oft sog. Funktionsworte, kodiert. Sie werden so die am
780 meisten flexiblen Modifikatoren der Bedeutungsbildung in Sätzen. Mit ihrer Aneignung schließt der evolutionär gesteuerte Spracherwerb ab. Die durch soziale Beziehungsgeflechte bedingte Ausgestaltung der Sprachbenutzung ist ein Kapitel eigener Art, das neue Überlegungen erfordert.
15. Literatur Bayer, J. (1987). Form und Funktion von Kasus bei Agrammatismus. In Linguistische Berichte, Grammatik und Kognition (pp. 81⫺118). Opladen: Westdeutscher Verlag. Beyer, R. (1991). Untersuchungen zum Verstehen und zur Gestaltung von Texten. In F. Klix, E. Roth & E. van der Meer (Hrsg.), Kognitive Prozesse und geistigeLeistung. Berlin: Deutscher Verlag der Wissenschaften. Bickerton, D. (1996). Language and human behavior. Seattle: Washington Univ. Press. Bruner, H, (1974). From communication to language. A psychological perspective. Cognition, 3, 255⫺287.
VI. Spracherwerb Höhle, B. (1995). Aphasie und Sprachproduktion. Opladen: Westdeutscher Verlag. Holz, H. H. (1994). China im Kulturvergleich (Dialectica minora; Bd. 9), Köln: Dinter Verlag. Jackendoff, R. S. (1992). Languages of the mind. Cambridge, Mass.: MIT Press. Kleist, K. (1916). Über Leitungsaphasie und grammatische Störungen. Monatsschrift für Psychiatrie und Neurologie, 40, 118⫺199. Klix, F. (1992). Die Natur des Verstandes. Göttingen: Hogrefe. Klix, F. (1999). Begriffliches in der Sprachbenutzung. Manuskript, noch unveröffentlicht. Klix, F. (1999). Evolutionsschübe prägten Lernleistungen, Denken und Sprache. Bericht über den 41. Kongreß der Deutschen Gesellschaft für Psychologie. Lengerich: Pabst Science Publishers. Klix, F. & Lanius, K. (1999). Wege und Irrwege der Menschenartigen. Stuttgart: Kohlhammer. Lethmate, J. (1977). Problemlöseverhalten von Orang Utans. Hamburg: Parey Verlag. Lindauer, M. (1990). Botschaft ohne Worte. München: Piper Verlag.
Bühler, K. (1930). Die geistige Entwicklung des Kindes. Jena: G. Fischer.
Margulis, L. & Sagan, D. (1997). Leben. Heidelberg: Spektrum Verlag.
Calvin, W. H. (1998). Wie das Gehirn denkt. Die Evolution der Intelligenz. Heidelberg: Spektrum Akademischer Verlag.
Markl, H. (1996). Language and the evolution of human mind. Erasmus lecture. Academia Europaea, Barcelona.
Cavalli Sforza L. L. (1991). Genes, peoples and languages. Scientific American, 11, 72⫺79.
Mayr, E. (1997). Das ist Biologie. Heidelberg: Spektrum Akademischer Verlag.
Cheney D. L. & Seyfarth R. M. (1990). How monkeys see the world: Inside the mind of another species. Chicago: Univ. of Chicago Press. Chomsky, N. (1988). Language and problems of knowledge. Cambridge, Mass.: MIT Press. Cramon, Y. von (1997). Die Bedeutung der präfrontalen Hirnrinde für das Arbeitsgedäctnis von Primaten. Nova Acta Leopoldina, Bd. 76, No. 303, 265⫺284. Foppa, K. (1999). Das vergessene Gedächtnis: Über rezeptives Erinnern. Zeitschrift für Psychologie (in Vorbereitung).
Müller, H. M. (1990). Sprache und Evolution: Grundlagen der Evolution und Ansätze einer evolutionstheoretischen Sprachwissenschaft. Berlin: de Gruyter. Pinker, D. (1996). Der Sprachinstinkt. München: Kindler. Premack, D. (1976). Intelligence in ape and man. Hillsdale, NJ: Lawrence Erlbaum. Pulvermüller, F. & Schumann J. H. (1994). Neurobiological mechanisms of language acquisition. (Review Article). Language Learning, 44, 681⫺734.
Grimm, H. (1995). Sprachentwicklung ⫺ allgemeintheoretisch und differentiell betrachtet. In R. Oerter & L. Montada (Hrsg.), Entwicklungspsychologie (pp. 705⫺751). Weinheim: Beltz.
Renfrew, C. (1995). Die Sprachenvielfalt der Welt. Spektrum der Wissenschaft, 7, 72⫺78.
Hallpike, Chr. R. (1990). Die Grundlagen primitiven Denkens. Dtv/Klett-Cotta.
Rosch, E. H. (1975). Cognitive representations of semantic categories. Journal of Experimental Psychology: General, 104, 192⫺233.
Herrmann,Th. & Grabowski, J (1994). Sprechen. Heidelberg, Berlin, Oxford: Spektrum Akademischer Verlag.
Rickheit, G. (1991). Kohärenzprozesse. Opladen: Westdeutscher Verlag.
Stern, W. (1952). Psychologie der frühen Kindheit. Heidelberg: Quelle & Meyer.
56. Die Entwicklung der vokalen Kommunikation
781
Thorne, A. R. (1992). Multiregionaler Ursprung der modernen Menschen. Spektrum der Wissenschaft, 6, 80⫺88.
biologie: Grundlagen des Verhaltens. Stuttgart: Gustav Fischer Verlag.
Tinbergen, N. (1952). Instinktlehre. Hamburg: Parey Verlag. van der Meer, E. (1991). Zur Dynamik von Ereigniswissen. In F. Klix, E. Roth & E. van der Meer (Hrsg.), Kognitive Prozesse und geistige Leistungen (pp. 41⫺63). Berlin: Deutscher Verlag der Wissenschaften GmbH.
Wilson, A. S. & Cann, R. L. (1992). Afrikanischer Ursprung des modernen Menschen. Spektrum der Wissenschaft, 6, 72⫺80. Wilson, E. 0. (1998). Die Einheit des Wissens. Berlin: Siedler Verlag. Wolf, M. (1984). Prozedurale Erkennungsmechanismen von Begriffsbeziehungen. Diplomarbeit, Humboldt-Universität. Unveröffentlicht.
Vogel, Chr. (1989). Vom Töten zum Mord. München, Wien: Hanser Verlag.
Friedhart Klix, Humboldt Universität Berlin (Deutschland)
Vogel, Chr. & Eckensberger, L. (1988). Arten und Kulturen ⫺ Der vergleichende Ansatz. In Psycho-
56. Die Entwicklung der vokalen Kommunikation 0. 1.
4.
Einleitung Attraktivität vokalischer Strukturen und IDS Reziprozität und Intentionalität: Grundlagen der Konversation Der Übergang zum sprachlich geführten Dialog Literatur
0.
Einleitung
2. 3.
Im Zeitraum von der Geburt bis etwa zum 12. bis 16. Lebensmonat baut das Kind grundlegende Strukturen seiner Sprache für ihre phonetisch-phonologische, grammatische, lexikalische, semantische und pragmatische Repräsentation auf. Man spricht von vokaler Kommunikation, weil die eigentliche lexikalisch-grammatische „Transportschicht“ der Sprache vom Kind noch nicht genutzt werden kann. Das Kind erfährt in diesem frühen Lebensabschnitt, dass Sprechen ein natürlicher und notwendiger Bestandteil des gemeinsamen Miteinanders ist. Es beginnt mit dem Erlernen seiner Umgebungssprache, indem es zunächst von den gehörten Sprachstrukturen seiner engsten Bezugspersonen die klanglichen Qualitäten in ihrer situativen Pragmatik unter Einbeziehung anderer Sinnesreize zu dekodieren lernt. Denn von Geburt an werden Säuglinge mit einem „kommunikativen Angebot“ konfrontiert, das die auditive, visuelle und taktile Wahrnehmung mit anspricht. Die stimmlichen Komponenten der mütterlichen kommunikativen Zu-
wendung (zu etwa 95 % sind Mütter die primären Bezugspersonen) haben dabei eine zentrale Funktion: sie kanalisieren die kindliche Aufmerksamkeit im kommunikativen Austauschprozess auf klanglich-vokalische und schließlich auf die typischen phonematischen Strukturen ihrer Sprache. Mütter wissen dies intuitiv. Sie stimmen ihr Lernangebot fein auf die kindlichen Kommunikationsfähigkeiten und -bedürfnisse ab. Nachfolgend werden die in diesem Alterszeitraum sich vollziehenden grundlegenden Entwicklungen dargestellt, die man auch als einen kanonischen Rahmen für den Erwerb der Sprache ansehen kann. Im ersten Abschnitt geht es um eine Herausarbeitung der Bedeutung der vokalischen Strukturen, die das Kind in der kommunikativen Interaktion täglich von der Mutter hört. In den folgenden Abschnitten werden die Voraussetzungen für die Teilnahme an der dialogischen Interaktion beschrieben. Weiterhin wird aufgezeigt, wie das Kind beginnt, regelgeleitet und verbal am dialogischen Austauschprozess teilzunehmen. Als vokalische Äußerungen werden in diesem Beitrag solche Strukturen verstanden, die noch nicht als konventionell-sprachliche Äußerungen identifiziert werden können (z. B. Äußerungen, die aus einem langen Vokal, einer einsilbigen Lautverbindung oder aus Silbenwiederholungen bestehen). Verbale Äußerungen sind hingegen konventionelle Wortstrukturen, die jedoch noch lautliche Abweichungen aufweisen können (z. B. „Dall“ für „Ball“ oder „Ada“ für „Auto“).
782
1.
VI. Spracherwerb
Attraktivität vokalischer Strukturen und IDS
Untersuchungen zur auditiven Wahrnehmung des Säuglings, insbesondere zu seinen Reaktionsweisen auf die gehörte Sprache der Mutter, haben in den letzten Jahren gezeigt, dass die „Entwicklungslinie der Sprache“ bereits beim ungeborenen Säugling beginnt. Im ersten Lebensjahr findet dann ein sog. Einhören auf die jeweilige Muttersprache des Kindes statt. Die permanente Einbindung des Sprechens (also hörbarer vokalischer Strukturen neben visuell und taktil wahrnehmbaren Komponenten) in die auf kindliche Bedürfnisbefriedigung ausgerichtete MutterKind-Interaktion legt die Grundlage für die Erfahrung, dass Sprechen Bestandteil der alltäglichen Kommunikation ist. Für die an das Kind gerichtete Sprache werden in der Literatur die Begriffe IDS (Infant Directed Speech) und auch CDS (Child Directed Speech) verwendet. Als grundlegend können die Untersuchungen von Werker, Pegg und Jusczyk (Jusczyk, 1997) angesehen werden. Sie zeigten auf, dass Säuglinge von Geburt an darauf vorbereitet sind, irgendeine sprachspezifische Auswahl aus dem möglichen Vorrat an phonetischen Kontrasten zu treffen. Nachfolgend sollen die wichtigsten Ergebnisse aus diesen Untersuchungen dargelegt werden. Fötale Kinder haben bereits Erfahrung mit der mütterlichen Stimme, die nach Ruben (1992) als eine Art rudimentäres Hintergrundwissen nach der Geburt zur Verfügung steht. Neugeborene (jünger als 24 Stunden) verändern nach DeCaspar und Fifer et al. (bei Wegener, 1996) ihr Saugverhalten an einem Schnuller, um die mütterliche Stimme anstatt einer fremden zu hören. Sie antworten mit einer Verlangsamung der Herzschlagfrequenz auf das Hören der mütterlichen Stimme. Die nach der Geburt einsetzende MutterKind-Interaktion ist somit kein Neubeginn, sondern die Fortsetzung eines Austauschprozesses. Die mütterlichen kommunikativen Angebote sind genau auf die kindlichen Voraussetzungen zugeschnitten, denn der Säugling braucht eine soziale Umwelt, die seine Signale lesen und darauf angepasst reagieren kann. Die mütterliche Zusprache erfüllt diese Anfordeungen in hervorragender Weise, denn sie enthält typische Kategorien melodischer Konturen, z. B.:
steigend ⫽ „Nah?“ fallend ⫽ „Nnn, „Oooh“, „Is jaaaa guuut“ steigend-fallend ⫽ „Guck!“, „Oh“ fallend-steigend ⫽ „Ja was denn?“, „Ooooh“ flach ⫽ „Nnnn“ komplex ⫽ „Nnnnn“ (Beispiele nach Wegener, 1996). Während der ersten 40 Minuten nach der Geburt sprachen Mütter in einer höheren durchschnittlichen Sprechhöhe, einer mittleren maximalen Tonhöhe, einer mittleren niedrigeren Tonhöhe und mit kürzeren Äußerungen. Wegener (1996) bestätigte die u. a. von Stern (1992) und Papousek (1996) dargestellten charakteristischen Merkmale der Babysprache: ⫺ Sprechen mit einer höheren durchschnittlichen Sprechhöhe, ⫺ Ausweitung der mittleren Stimmlage und dadurch mit ⫺ einer größeren Spannweite des Tonhöhenbereiches, ⫺ Verkürzung der Äußerungen, ⫺ verlangsamtes Artikulationstempo, ⫺ Entwicklung von prototypischen Melodien, ⫺ Vereinfachung der Syntax und der lexikalischen Komplexität. Nach Kuhl und Meltzoff (1997) ist die Babysprache in hohem Maße vokaldurchdrungen („vowel-drenched“). Die vokalischen Komponenten erscheinen als vordergründige perzeptive Momente, da sie wegen des verlangsamten Sprechtempos länger präsent sind. Hinsichtlich der Wahrnehmungswirkung der an das Kind gerichteten Babysprache sind insbesondere folgende Ergebnisse von hoher Bedeutung. Pegg et al. (1992) untersuchten 20 Säuglinge im Alter von durchschnittlich 7 Wochen in Bezug auf ihre Bevorzugung von IDS (Infant-Directed-Speech) gegenüber ADS (Adult-Directed -Speech). Sie fanden, dass bereits 7 Wochen alte Säuglinge zwischen der IDS und ADS unterscheiden und sich aufmerksamer der IDS zuwenden. Sie fanden weiter, dass sie gegenüber der ADS die IDS bevorzugen, die von einer männlichen Person gesprochen wird. Alle Kinder bevorzugten jedoch innerhalb der IDS diejenige, die von einer Frau gesprochen wurde. Die Autoren führen dies auf einen größeren affektiven Gehalt der mütterlichen Sprache und die längere Erfahrung mit einer Frauenstimme von Geburt an zurück.
56. Die Entwicklung der vokalen Kommunikation
783
Die eingangs genannten Untersuchungen erbrachten speziell auf der phonetisch-phonologischen Analyseebene den Nachweis, dass Säuglinge eine Kapazität zur Diskrimination von Sprachlauten auf der Basis verschiedener phonetischer Dimensionen wie Stimmhaftigkeit, Artikulationsort und Artikulationsart haben. Damit verfügen sie über perzeptive Fähigkeiten zur Unterscheidung phonetischer Kontraste aus irgendeiner Sprache. Weiterhin scheinen Säuglinge fähig zu sein, akustische Variabilitäten zu tolerieren, die z. B. beim Wechsel der Sprechgeschwindigkeit auftreten oder bei verschiedenen Sprecherstimmen eine Rolle spielen. Sie haben offensichtlich – analog zu perzeptiven Fähigkeiten im visuellen Bereich – eine perzeptive Konstanz für Sprachlaute sehr früh entwickelt. Damit wären die fundamentalsten Voraussetzungen gegeben, eine Sprache zu lernen. Denn sie zu lernen bedeutet zu erfassen, welche Arten von Unterscheidungen bei bestimmten Äußerungen für die erfolgreiche Kommuniaktion von Bedeutung sind und welche nicht. Ein wichtiges Orientierungsmerkmal für die Erfassung der Gliederung des Sprechens in kommunikative Sinneinheiten ist beispielsweise die prosodische Struktur. Brousseau et al. (1996) untersuchten Beziehungen zwischen prosodischen Merkmalen der mütterlichen Sprache (Pausenstruktuierung und Variationen in der Grundfrequenz) und dem Verhalten bei 14 Säuglingen im Alter von 4 Monaten in der sog. „Faceto-face“-Interaktion. Das kindliche Verhalten wurde in folgenden Kategorien analysiert: Blick zur Mutter mit „neutralem“ Ausdruck, Blick mit Lächeln und/oder Vokalisationen (positiver Ausdruck), gemeinsame Ausrichtung der Aufmerksamkeit auf ein Objekt und Wegblicken. Das mütterliche Verhalten wurde in Bezug auf folgende Merkmale analysiert: Anzahl der Äußerungen mit Wörtern konventioneller Bedeutung, Äußerungen ohne konventionelle Bedeutungen (u. a. Onomatopoetika, Nachahmungen der kindlichen Laute), Lautgeräusche ohne konventionelle Bedeutung (Zungengeräusch, Kussgeräusch), Flüstern, Lachen, Pausen ohne Vokalisationen. Sie fanden, dass das mütterliche Verhalten für das Kind vorhersagbar gestaltet wird. Die Mütter produzierten länger Lautgeräusche ohne konventionelle Bedeutung, wenn das Kind lächelte und/oder positiv vokalisierte. In Situationen gemeinsamer Aufmerksamkeit produzierten Mütter mehr Äußerungen mit einer konventionellen Bedeutung. Und wenn
die Säuglinge nicht aufmerksam waren, machten die Mütter längere Pausen und flüsterten. Nelson et al. (1989) gehen aufgrund ihrer Ergebnisse davon aus, dass die Babysprache (motherese) einen fundamentalen Beitrag zum Erlernen der Syntax liefert. Sie untersuchten 32 Säuglinge im mittleren Alter von 8 Monaten in Bezug auf die Wahrnehmung der Babysprache und der Sprache, die Erwachsene untereinander an sich richten. Diese wurde wiederum in zwei Varianten gesprochen: einmal in der sog. ‘Coincident’Variante und ein andermal in der ‘Non-coincident’-Variante. In der ersten Version begann und endete die Zusprache an normalen Satzgrenzen. Sie wurde aber dahingehend verändert, dass eine 1-Sekunden-Pause bei allen dazwischen liegenden Satzgrenzen erschien. In der zweiten Version begann und endete die Zusprache in der Mitte eines Satzes, und es wurde die gleiche Anzahl von 1Sekunden-Pausen innerhalb von Sätzen eingefügt. Beispiel für die erste Version: Cinderella lived in a great big house / but it was sort of dark / because she had this mean, mean, mean stepmother. / And … Beispiel für die zweite Version: … in a great big house but it was / sort of dark because she had / this mean, mean, mean stepmother. And … Es konnte ermittelt werden, dass Säuglinge sich häufiger in die Richtung wenden, aus der die Sprache mit den Satzgrenzen-Pausen wahrzunehmen war. Sie wendeten sich ihr auch länger zu. Der gleiche Effekt, jedoch geringer ausgeprägt, war bei der Zusprache mit Erwachsenensprache zu beobachten. Die Autoren folgern, dass die Babysprache dazu beiträgt, die Sprache in perzeptive Einheiten zu gliedern, die mit der syntaktischen Gliederung von Sätzen übereinstimmt. Diese Sensitivität für Satzeinheiten kann als grundlegend für den Spracherwerb angesehen werden. Der Sprach-Input wird mit den Mitteln der Prosodie von der Mutter in linguistisch relevante Einheiten gegliedert. Dies erleichtert das Erlernen der Sprache. Die Autoren vermuten, dass prosodische Merkmale beim älteren Säugling dazu beitragen, Hinweise zur Unterscheidung von neuer und gegebener Information zu liefern. All diese Untersuchungen zeigen, dass der Säugling bereits am Ende des ersten Lebensjahres die von Geburt an gehörten vokalischen
784 Strukturen als typische auditive „Transportformen“ der Kommunikation erkennen kann. Wenn bereits zu dieser Zeit ein Wort als zur Muttersprache zugehörig erkannt werden kann, beruht dies nämlich auf folgenden Leistungen: ⫺ Einem „Erkennen“, dass die Lautstruktur des Wortes nur Laute aufweist, die für die Muttersprache typisch sind. Für den englischsprachig aufwachsenden Säugling gehören z. B. die Umlaute nicht zum Lautbestand („spät“, „über“ usw. würden als fremd klassifiziert). ⫺ Einem „Erkennen“, dass die Lautanordnung innerhalb des Wortes der Phonotaktik der Muttersprache entspricht. Für den englischsprachig aufwachsenden Säugling ist z. B. ein Wortanfang mit zwei Verschlusslauten wie im Russischen das Fragewort „Kto“ fremd. ⫺ Einem „Erkennen“, dass die prosodische Struktur ebenfalls Konturen der Muttersprache aufweist. Wiederum für den englischsprachig aufwachsenden Säugling ist z. B. der Wechsel des Betonungsmusters, das aus einer Abfolge von einer stark und einer schwach betonten Silbe besteht, typisch. Vihman et al. (1998) analysierten frühe Wörter und Lalläußerungen bei 9 englisch- und 5 französischlernenden Kindern im Alter von 13⫺20 Monaten in Bezug auf die Frage, ob sich eine universelle Neigung zu einem trochäischen Betonungsmuster (stark/schwach) gegenüber dem in der englischen Sprache nur selten auftretenden jambischen Betonungsmuster (schwach/stark) in der frühen Wortproduktion nachweisen lässt. Sie fanden, dass weder die englischsprachigen noch die französischsprachigen Säuglinge ausschließlich trochäische Vokalisationen zeigten. Dies lag daran, dass im Input der amerikanischen Kinder auch jambische Phrasen vorhanden waren. Auch die Unterschiede zwischen englischen und französischen Kindern ließen sich auf den unterschiedlichen Input zurückführen. Diese Ergebnisse zeigten, dass die Erwachsenensprache die prosodische Struktur liefert, die die Lernbasis für das Kind darstellt. Jedes Kind bildet auf Basis der gehörten Erwachsenensprache eine „Schablone“ (template) für die Bildung seiner ersten Wortproduktionen. Diese Schablone ist eine Art Artikulationsfilter. Sie haben eine individuelle Struktur, da sie sich auf der Basis einer spezifischen Sensitivität und Neigung (proclivity)
VI. Spracherwerb
bilden. Solch eine Schablone reflektiert die Aufmerksamkeit auf einzelne zweisilbige Wörter im Input und liefert dem Kind ein gebrauchsfähiges Muster für die Wahrnehmung zusätzlicher Wörter. Das, was das Kind hört, wird durch die Schablone „gefiltert“. Die Untersuchungen zeigten, dass Mütter nach der Geburt ihres Kindes mit ihrer fein auf die Wahrnehmungsvoraussetzungen abgestimmten Babysprache das Ziel einer Sprachspezifizierung vorgeben. Spätestens bis zum 9. Monat „weiß“ das Kind, welche Lautkontraste in seiner Umgebungssprache typisch sind. Sie absorbieren sozusagen Informationen aus den Lautstrukturen der Sprache ihrer primären Bezugsperson(en). Dies beruht immer auf einem Wechselspiel zwischen Input und perzeptiven Analysekapazitäten. Sie entdecken in einer sehr kurzen Periode, welche kritischen Merkmale diejenigen sind, die in ihrer Muttersprache typisch sind. Somit kann es eine Fremdsprache von der Muttersprache unterscheiden. Untersuchungen haben weiterhin ergeben, dass Säuglinge schon sehr früh (etwa im 5. Monat) die Erfahrung gesammelt haben, dass gesehenes und gehörtes Sprechen zusammengehören. Sie „wissen“ z. B., dass der hörbare Vokal [a] zu einem Mundbild mit weit geöffneten Lippen gehört (nach Kuhl & Meltzoff bei Dornes, 1993). Im 9. Monat haben sie auch schon gelernt, dass ein bestimmter Wort-Rhythmus typisch für die Muttersprache ist, z. B. dass die häufig in der frühen Angebotssprache erscheinenden Zweisilber (im Deutschen z. B. „Ente“, „Puppe“, „Eimer“, „Tasse“ usw.) die wortinterne Betonungsstruktur „HebungSenkung“ aufweisen (Jusczyk, 1997). Auch auf der produktiven Seite lassen sich bereits vor Vollendung des 1. Lebensjahres verschiedene Kategorien von Intentionen anhand stimmlicher Äußerungen nachweisen. D’Odorico (bei Locke, 1995) konnte bei Säuglingen im Alter von 4⫺8 Monaten drei Lautkategorien nachweisen: Laute des Unzufriedenseins (discomfort sounds), Ruflaute (call sounds) und Laute des Forderns (request sounds). Die Forderungs-Laute wiesen bei allen Säuglingen eine interne Konsistenz hinsichtlich der akustischen Merkmale Grundfrequenz, melodische Kontur und Dauer auf.
2.
Reziprozität und Intentionalität: Grundlagen der Konversation
Eine grundlegende Voraussetzung für die regelgeleitete dialogische Interaktion sind die Prinzipien der Wechselseitigkeit und Ab-
56. Die Entwicklung der vokalen Kommunikation
785
sichtsbezogenheit. Um seine kommunikativen Ziele zu verwirklichen, muss dem anderen Partner wechselseitig eine Rolle im Gespräch zugewiesen werden, und derjenige, der die Kommunikation eröffnet, muss irgendein Ziel in Bezug auf das kommunikative Geschehen haben. Der Säugling lernt im Laufe der ersten Monate, dass man Ziele haben kann (Lernen, was man außerhalb der elementaren Bedürfnisse wollen kann), dass diese über einen Kommunikationspartner mit kommunikativen Mitteln realisierbar sind und dass dieser kommunikative Akt bestimmten Regeln folgt. Harris (1992: 58) analysierte die MutterKind-Interaktion bei 8 Kindern im Alter von 7, 9 und 16 Monaten. Sie fand, dass in allen Altersbereichen das Verhältnis von mutterinitiierten und kindinitiierten Episoden nahezu konstant blieb. Zwei Drittel aller Interaktionen (sprachlich oder nichtsprachlich eingeleitet) wurden vom Kind initiiert. Mit 9 Monaten beginnt eine typische kindinitiierte Episode, indem die Mutter das Tun des Kindes kommentiert und gleichzeitig dazu etwas ausführt, was sich auf das Geäußerte bezieht. Mit 16 Monaten werden nur noch zu etwa 50 % der kindlichen Initiativen zusätzliche Aktionen angeboten. Das Kind versteht dabei nicht, was die Mutter sagt, aber die Aktion, die sie beschreibt, war vom Kontext her vorhersagbar. Im Rahmen dieses vorhersagbaren Kontextes ist es der Mutter auch möglich, zukünftige Aktionen zu kommentieren, die in Kürze mit einem Objekt ausgeführt werden, auf das das Kind seine Aufmerksamkeit richtet. Mit 16 Monaten beziehen sich fast 80 % der mütterlichen Äußerungen auf ein Objekt, auf das das Kind seine Aufmerksamkeit im Moment der Äußerung ausrichtet. Diese Ergebnisse fand auch Masur (bei Harris), nach denen die Mutter zwischen 73 % und 96 % ihrer Äußerungen auf das Spielzeug bezieht, mit dem das Kind gerade spielt. Diese Situationsbezogenheit erfordert ein ausgeprägtes „Monitoring“ („Überwachen“) der Aktionen des Kindes, aber auch einen „Eintritt“ in die kindliche Welt. Bruner (1987: 102) nimmt ein sog. Spracherwerbs-Hilfssystem (LASS, Language Acquisition Support System) an, das nicht nur sprachlicher Natur ist. Es ist ein Hilfssystem, das die Interaktion so formt, dass es dem Kind möglich wird, die Verwendung der Sprache zu lernen. Dieses System bereitet den Spracherwerb funktional vor, indem standar-
disierte Interaktionsmuster mit Rollenzuweisungen (sog. Formate) zwischen Erwachsenem und Kind ablaufen. In diesen Formaten hat die Mutter zwei Ziele: (1) Ein sprachliches Ziel. Sie zeigt dem Kind, dass die sprachliche Äußerung für etwas steht. (2) Ein pragmatisches Ziel. Sie zeigt, dass der Gebrauch der Sprache bestimmten Zwecken dient. Genau diese Formate geben die Basis für die Spechakte ab. D’Odorico et al. (1997) verweisen auf Untersuchungen, die nachwiesen, dass 10monatige Säuglinge bereits eine Bevorzugung für einen bestimmten Typ zeitlicher Beziehung zwischen Blickkontaktsuche (gaze) und Vokalisation zeigen: eine Koordination in Form eines gleichzeitigen Beginns von Blickkontakt und Vokalisation oder in Form eines der Vokalisation vorausgehenden Blickkontaktes. Diese Technik ermöglicht dem Kind, die Aufmerksamkeit der Mutter auf sich zu ziehen, bevor die eigentliche Botschaft gesendet wird. Weiterhin wird signalisiert, dass die nachfolgende Vokalisation für die Mutter bestimmt ist. In ihren eigenen Untersuchungen analysierten sie das Blickverhalten von Kindern im Alter von 1;0 und 1;8 Jahren in Spielsituationen mit der Mutter, wenn sie sich mit Vokalisationen und später verbal an die Mutter wandten. Sie fanden, dass Kinder im Alter von 1;0 überwiegend zu Beginn ihrer vokalen Zuwendung zur Mutter blicken, während Kinder im Alter von 1;8 überwiegend am Ende ihres vokalen Turns zur Mutter blickten. Sie konnten weiterhin eine Beziehung zum Umfang der Sprachproduktion im Alter von 1;8 und der Häufigkeit des Anblickens der Mutter vor dem vokalen Turn im Alter von 1;0 ermitteln. Im Alter von 1;0 (während der Objekterkundung) produziert das Kind zahlreiche Vokalisationen, die nicht partnergerichtet sind. Für das Kind ist es nun wichtig, durch das Ansehen des Partners diese nichtpartnergerichteten Vokalisationen von den partnergerichteten zu unterscheiden, um sicher zu gehen, dass man eine Reaktion erhält. Nachdem das Kind das Prinzip der Wechselseitigkeit in der verbalen Interaktion erfasst hat, blickt es am Ende des Turns zur Mutter, um den Kanal für einen Fortgang offen zu halten.
786
VI. Spracherwerb
Im Alter von etwa 9 Monaten, der Zeitraum, in dem die Objekte im Wahrnehmungsfeld als konstante Einheiten wahrgenommen werden, ändert sich auch die Rolle der Mutter für das Kind. Sie wird als ein Partner angesehen, mit dessen Hilfe eigene Absichten erfüllt werden können. Die Mutter ist nicht mehr nur eine Quelle der eigenen Bedürfnisbefriedigung, bei der das Kind im Mittelpunkt steht, sie wird nun auch als ein Mittel angesehen, um bestimmte Ziele zu erreichen. Das Kind erkennt die Rolle der Mutter als einen Empfänger, den man steuern kann (Trevarthen, 1980)
3.
Der Übergang zum sprachlich geführten Dialog
Rochat et al. (1999) untersuchten das Interaktionsverhalten von 30 2-, 4- und 6-monatigen Säuglingen, während sie mit einem fremden Erwachsenen ein strukturiertes und unstrukturiertes „Peekaboo“-Spiel ausführten. „Peekaboo“ ist ein beliebtes Spiel für Säuglinge und Kleinkinder (eine Person versteckt ihr Gesicht, zeigt es plötzlich und ruft dabei „peekaboo“, entspricht etwa „hier bin ich“). Ziel der Untersuchung war zu ermitteln, inwieweit junge Säuglinge sensitiv für die zeitliche Struktur dieser organisierten und nichtorganisierten Protokonversation sind. Unter der fest strukturierten Bedingung wurde das Spiel in einem zeitlichen Rhythmus über 60 Sekunden wiederholt: [1] Gesicht vorzeigen und „Schau, Schau, Schau“ äußern, [2] „Peekaboo“ rufen (zusätzlich Hände nach oben, dann runter), [3] „Ja“ äußern. Unter der nichtorganisierten Bedingung wurden die drei Einheiten innerhalb der 60 Sekunden wahllos kombiniert. Es zeigte sich, dass 2-monatige Kinder ein undifferenziertes Anlächeln und erstauntes Anstarren (gazing) unter beiden Bedingungen aufwiesen. 2-monatige zeigten eine soziale Aufgeschlossenheit gegenüber einem Fremden, aber noch nicht gegenüber der Struktur der Konversation. 4-monatige zeigten unter der unstrukturierten Bedingung ein geringeres Lächeln und mehr Anstarren. Dies könnte als ein erster Ausdruck einer Unterscheidung zwischen einer mehr oder weniger bedeutungsvollen dyadischen Struktur interpretiert werden. Viermonatige werden sensibel für die Qualität des sozialen Austausches, speziell, ob er mehr oder weniger vorhersagbar, d. h. folglich mehr oder weniger bedeutungsvoll ist.
Sie werden sensitiv für den „narrativen Rahmen“, der vom Partner in Form einer organisierten Ablaufstruktur von kombinierter auditiver und visueller Stimulation geliefert wird. Sie zeigten eine Sensitivität für intermodale Invarianten (zeitlicher Ablauf), die eine Konversation spezifizieren. Sie zeigten damit auch, dass sie die Grundstruktur für die Erzeugung sozialer Erwartungen entwickelt haben, innerhalb derer soziale Partner unterschieden werden können. Der narrative Rahmen enthält ein spezielles Muster einer Spannung oder Vitalitätskontur. Sie zeichnet sich durch einen Anfang (Anstieg), eine Mitte (Spannungsgipfel) und ein Ende (Spannungsabfall) aus. Das organisierte (strukturierte) „Peekaboo“-Spiel entspricht exakt diesem Muster. Es hat sich wiederholende Gesten, spezielle Vokalisationen und übertriebene Gesichtsmimik. Dieses Spiel wird zeitlich gut proportionert und enthält deutliche Pausen oder einen kontrastreichen Wechsel zwischen den Wiederholungen. Golinkoff und Gordon (1988) analysierten die Kommunikation zwischen Mutter und Kind während der Mahlzeiten bei 3 Kindern in der Phase des Übergangs zur verbalsprachlichen Kommunikation im Alter von 1;0 bis 1;7 Jahren in jeweils drei Erhebungen. Die Frage war, wie das Kind vorgeht, um seine Intentionen zu vermitteln, und wie die Mutter auf diese Formen reagiert. Sie analysierten die kindlichen und die mütterlichen Anschluss-Äußerungen in zwei Formen des kommunikativen Ablaufes: in Dialogen, in denen die initiative kindliche Äußerung von der Mutter sofort verstanden wurde („immediate success“ – episodes) und in Dialogen, in denen eine Klärung („negotiation“) der initiativen kindlichen Äußerung folgte, weil sie nicht verstanden wurde. Sie fanden, dass in Dialogen, in denen die Mutter die kindliche Äußerung verstand, die mütterlichen Folgebeiträge zu 74 % einen zusätzlichen verbalen Kommentar enthielten. Davon entfielen auf Reformulierungen 19 % (die Mutter formuliert die kindliche Absicht in sprachliche Äußerungen um, z. B. wenn das Kind plötzlich auf eine Uhr zeigt, Laute äußert und dann zur Mutter blickt und sie mit „Das ist eine Uhr“ reagiert), Expansionen und Wiederholungen 25 % und sog. Continuations of topic 29 %. 26 % waren nichtsprachliche Reaktionen. Wenn die Mutter die Intentionen ihres Kindes verstanden hat, „wählt“ sie zwischen 3 Formen:
56. Die Entwicklung der vokalen Kommunikation
787
(1) Sie reagiert nonverbal. (2) Sie setzt das Thema fort (z. B. bietet sie das geforderte Objekt an, dankt dem Kind, nachdem es etwas übergeben hat, oder sie rechtfertigt eine Weigerung des Kindes, bei etwas einzuwilligen); dies zeigt dem Kind implizit, dass seine Intention erfolgreich übermittelt wurde. (3) Sie bietet Äußerungen aus den sog. „didaktischen“ Kategorien an: Reformulierungen, Expansionen und Wiederholungen.
reichen: einmal das Herstellen der Aufmerksamkeit und ein andermal das Lenken der Aufmerksamkeit auf einen gemeinsamen Fokus. Das Kind beginnt mit einer „pragmatischen Verwendung der Sprache“, indem es zwei Aspekte der Sprachverwendung unterscheiden kann: die Teilnehmer-Seite (für verschiedene interaktive Formate, in der Regel vom Erwachsenen realisiert) und die Notwendigkeit, gegenseitig die Aufmerksamkeit zu regulieren, um sicherzustellen, dass die fundamentale Bedingung für Intersubjektivität gewährleistet wird. Für die mütterlichen Aktivitäten in diesem Austauschprozess gebraucht Bruner (1985) den Begriff „scaffolding activities“. Er besagt, dass das Kind in der alltäglichen Interaktion spontan so viel tun kann, wie es bereits in der Lage ist. Was es jedoch noch nicht tun kann, wird von der Mutter hinzugefügt oder in sog. „Stütz- oder Gerüstformen“ bereit gehalten. Wenn das Kind beispielsweise noch nicht auf eine Frage nach dem Namen eines Objektes mit einer Benennung reagieren kann, akzeptiert sie das, was das Kind tut (irgendein Lautgebilde produzieren), liefert aber im Anschluss das richtige Lautklanggebilde als Modell. Murray et al. (1990) beschreiben die Veränderungen des mütterlichen „Vorgehens“ am Beispiel der Äußerungslänge. Sie untersuchten 14 Mutter-Kind-Paare im Alter von 3, 6 und 9 Monaten in Bezug auf die Frage, ob sie ihre Äußerungslänge (gemessen in MLU, auf der Basis Morpheme pro Äußerung) im Sinne einer Anpassung an die sich im 2. Halbjahr des ersten Lebensjahres vollziehende Entwicklung in den kommunikativen Fähigkeiten des Kindes verändern (fein abstimmmen). Ausgehend davon, dass in der zweiten Hälfte des 1. Jahres Kinder beginnen, einzelne Wörter zu verstehen und Gesten intentional zu verwenden, ist anzunehmen, dass sich auch Mütter diesem Entwicklungsschritt in ihrer „Sprachjustierung“ anpassen. Sie fanden, dass sich die Zusprache im Laufe des 1. Jahres ändert. Während die Zusprache in den ersten Lebensmonaten als „gross-tuning“ (grobe Abstimmung) an die soziale und affektive Responsivität zu kennzeichnen ist (ähnliche Verhaltensweisen findet man auch beim Sprechen von Erwachsenen zu Haustieren), kann man im zweiten Halbjahr des 1. Jahres von „fine-tuning“ sprechen. Mütter reagierten, als ob das Kind Wörter gesprochen hat, und sie reduzierten die mittlere Äu-
In Dialogen, in denen sie das Kind nicht verstanden hat, folgen fast ausschließlich Reformulierungen in Frageform (z. B. „Du willst den Käse?“). Solche Situationen entstanden überwiegend dann, wenn das Kind ein Objekt haben wollte, aber die Mutter im unmittelbaren Umfeld nicht ausmachen konnte, welches Objekt es haben wollte. Ninio und Snow (1996) schreiben den schon wortähnlichen Äußerungen im Alter von 10 bis 12 Monaten mehr eine soziale als eine pragmatische Funktion zu. Äußerungen in diesem Alter werden hauptsächlich verwendet, um zwei fundamentale Ziele zu erreichen: (1) um gleichberechtigt an einigen sozialen Aktivitäten teilzunehmen. Dies wird mit sog. kontextabhängigen Äußerungen erreicht. Ihre Bedeutung hängt von der aktuellen Handlung im interaktiven Kontext ab. Sie sind nur in der konkreten Interaktion mit einem Partner sinnhaltig. Z. B. ermöglichen sog. Spiel-Laute, an interaktiven Routinen teilzunehmen (einige Kinder steigen ein mit Reaktionen auf Fragen wie „Wie macht der Hund?“, andere imitieren ein Hahngeräusch). Ihre spezifische Identität ist unbedeutend. Sie haben keine Probleme, diese sprachlich bedeutungslosen Laute zu lernen, weil ihre soziale Bedeutung im Kontext klar ist. Deshalb sollten die frühen Objekt-Namen-Reaktionen (z. B. auf „Wie macht der Hahn?“) als Signale der Teilnahme klassifiziert werden, da ihr Status als reale Benennung fragwürdig ist. (2) um die Intersubjektivität mit anderen zu sichern bzw. einen Zustand gegenseitiger Aufmerksamkeitszuwendung zu erreichen. Dieses Ziel kann als pragmatisches Ziel angesehen werden. Das Kind verwendet einen kleinen Bestand spezifischer kommunikativer Akte, um gegenseitige Aufmerksamkeit zu er-
788 ßerungslänge (nicht die Anzahl der Äußerungen), um ein gut antizipierbares Wort-Modell bereitzustellen. Sie ermittelten weiter, dass sich die mütterliche Feinabstimmung im zweiten Halbjahr des 1. Jahres gut eignet, um rezeptive Sprachfähigkeiten im Alter von 1;6 des Kindes vorherzusagen. Pine et al. (1997) fanden einen Zusammenhang zwischen dem mütterlichen Sprachgebrauch und dem Zeitpunkt, zu dem der kindliche Gebrauchswortschatz 10 Wörter umfasste (1;2) und dem Zeitpunkt, als der kindliche Gebrauchswortschatz 50 Wörter umfasste (1;5). Sie verweisen auf Ergebnisse aus der Literatur, nach denen Kinder, deren Mütter die Sprache mehr beschreibend als direktiv verwenden, einen höheren Anteil von Substantiven in ihrem frühen Vokabular aufweisen. Dies liegt daran, dass sie dadurch eine bestimmte „Sicht“ auf die Sprache, eine Betrachtung als ein Werkzeug zur Beschreibung und Kategorisierung und weniger als ein Mittel zur Beeinflussung ihrer Umgebung, von ihrer Mutter erworben haben. Ein derartiger Gebrauchsstil befördert das kindliche Erlernen von Substantiven, da Mütter in die Beschreibungen Substantive einbeziehen und diese so modellieren, dass sie eine gute Erkennung einer Übereinstimmung zwischen Wort und den durch das Wort abgebildetem Objekt ermöglichen. In ihren Untersuchungen analysierten sie den mütterlichen und kindlichen Sprachgebrauch nach dem Anteil von Wörtern aus den Kategorien ‘common nouns’ (Substantive, die ein Objekt einer Kategorie bezeichen, wie z. B. Auto, Puppe, Tier, Baum, Turm), Onomatopoetika, ‘proper nouns’ (Bezeichnungen für spezifische Einmaligkeiten z. B. Amerika, Peter, Main Street), feste Phrasen (z. B. „Here you are.“, „What’s that?“, „I get it.“) und interaktive Wörter sowie nach dem Merkmal Segmentabilität. Danach wurden mütterliche Äußerungen als „isolierte“ Äußerungen kategorisiert, wenn sie eine Einwortäußerung war oder wenn sie einen Teil der kindlichen Äußerung wiederholte, in der das betreffende Wort an derselben Stelle, aber im anderen Kontext stand. 3 Formen wurden unterschieden: (1) Einwortäußerung: z. B. „Hund“, (2) kindliche Äußerungen: Das ist ein Hund“, J mütterliche Äußerung: „Guck da der Hund!“, (3) kindliche Äußerung: „Das ist eine Katze“, J mütterliche Äußerung: „Das ist ein Hund“.
VI. Spracherwerb
Die Ergebnisse zeigten, dass Mütter, deren Sprache dem Kind Informationen darüber liefert, wo ein Wort endet und wo ein neues beginnt, Kinder haben, die relativ wenig unanalysierte Phrasen in ihrem frühen Vokabular haben. Erzählende (beschreibende) Mütter (talkative mothers) tendieren dazu, einen höheren Anteil von ‘common nouns’ und einen höheren Anteil von Äußerungen, die Wortgrenzen markieren, zu gebrauchen. Die Ursache liegt offensichtlich darin, dass ihre Äußerungen eine größere „räumliche Breite“ als die Äußerungen von Müttern mit direktiver (lenkender) Sprache aufweisen. Sie schlussfolgern deshalb, dass das Erlernen von Phrasen in der frühen Wortschatzentwicklung eine bedeutende Strategie für Kinder sein könnte, die keinen fein abgestimmten Sprachinput erhalten. Hirsh-Pasek (1996) stellt ein Drei-PhasenModell der Entwicklung des Sprachverstehens – das sog. Koalitions-Modell – vor. Sie unterscheidet drei Entwicklungsetappen, in denen für das Kind jeweils entwicklungsabhängig bestimmte Verarbeitungsformen der gehörten Sprache typisch sind. Diese sind: Phase 1: Internalisation: Extraktion und akustische Bündelung oder Einheitenbildung („packaging“) von nichtsprachlichen Ereignissen im Alter von etwa 0 bis 9 Monaten. Phase 2: Segmentation und sprachliches „Mapping“ (Aufzeichnen oder Erfassen) im Alter von etwa 9 bis 24 Monaten. Phase 3: Komplexe syntaktische Analyse ab einem Alter von etwa 24 Monaten. In der Phase 1 lernt das Kind, den Ereignisfluss entsprechend, die gehörten sprachlichen Sequenzen zu segmentieren. Die vom Kind gehörte Sprache oder – besser – das aus der kindlichen Perspektive der Sprache entsprechende akustische Äquivalent ermöglicht, Grenzen von Ereignissen in der Umgebung zu erkennen. Das akustische Bündeln (oder Strukturbilden) hilft, komplexe außersprachliche Ereignisse in Einheiten zu gliedern, die in der nächsten Entwicklungsphase linguistisch relevant sind. Das Kind speichert „nur“ akustische Korrelate von lingustischen Strukturen (z. B. Betonungsstrukturen von Aufforderungen). Dies setzt folgende Bedingungen voraus: (1) Das Kind muss elementare Vorstellungsschemen von Ereignissen bilden können, d. h. es muss Ereignisse in seiner Umgebung analysierend zerlegen (to parse), z. B. in Form
56. Die Entwicklung der vokalen Kommunikation
789
von den Vorstellungsschemen „Weg zu etwas“, „verbunden mit“ und „enthalten in“. Diese Schemen sind die Grundlage für die Entwicklung von späteren Kategorien, z. B. der Belebtheit, Verursachung und Handlungsausführender.
(3) Mütter passen sich in ihrer Sprache in der dialogischen Interaktion nicht nur in der sog. vorsprachlichen Zeit in Form einer Babysprache dem kindlichen Wahrnehmungs- und Verarbeitungsvermögen an, sondern sie strukturieren auch in der Folgezeit sprachliche Angebote je nach Entwicklungsstand des kindlichen Sprachsystems.
(2) Das Kind muss akustische Korrelate von sprachlichen Einheiten (Satzeinheiten, Phrasen) aus dem „Sprechstrom“ extrahieren können. Die pausengegliederte Sprache der Babysprache hilft dem Kind bei dieser Segmentbildung. (3) Die an das Kind gerichtete Sprache muss ablaufende Ereignisse im Hier und Jetzt beschreiben. In der Phase 2 findet ein Orientierungswechsel in der Sprache statt: von einer „Stützung“ auf prosodische hin zu semantischen Merkmalen. Es „unterzieht“ seine herausgegliederten akustischen Einheiten einer feineren linguistischen Analyse. Am Ende dieser Phase (von 16 bis 24 Monaten) führt dieses sprachliche Mapping zu Beziehungsbildungen zwischen Äußerungen, z. B. auf der Basis der erkannten unterschiedlichen Funktionen von Inhalts- und Funktionswörtern. In der Phase 3 kann das Kind verschiedene sprachliche Einheiten isolieren und komplexe Satzbeziehungen mit den Ereignissen in Verbindung bringen, die es nicht gesehen hat. Hirsh-Pasek (1996) hebt hervor, dass in diesem Modell verschiedene Faktoren für die Entwicklung des Sprachverstehens eine Rolle spielen, sich das Kind aber in bestimmten Altersabschnitten, entsprechend seiner perzeptiv-kognitiven Entwicklung, vordergründig an anderen „Quellen“ orientiert, in Phase 1 an der Prosodie, in Phase 2 an der Semantik und in Phase 3 an der Syntax. Weitere Einflussfaktoren sind der soziale Kontext und Umgebungsmerkmale (Handlungen, Objekte). Die hier vorgestellten Untersuchungen zur Entwicklung der vokalischen Kommunikationsfähigkeit des Kindes lassen Schlussfolgerungen in folgende Richtung zu:
4.
Literatur
Brousseau, L., Malcuit, G., Pomerleau, A. & Feider, H. (1996). Relations between lexical-temporal features in mothers’ speech and infants’ interactive behaviours. First Language, 16, 41⫺59. Bruner, J. S. (1985). Vygotsky: A historical and conceptual perspective. In J. V. Wertsch (Ed.), Culture, communication, and cognition: Vygotskian perspectives (pp. 21⫺34). Cambridge: Cambridge University Press. Bruner, J. (1987). Wie das Kind sprechen lernt. Bern, Stuttgart, Toronto: Verlag Hans Huber. D’Odorico, L., Cassibba, R. & N. Salerni (1997). Temporal relationships between gaze and vocal behavior in prelinguistic and linguistic communication. Journal of Psycholinguistic Research, 5, 539⫺556. Dornes, M. (1993). Der kompetente Säugling. Die präverbale Entwicklung des Menschen. Frankfurt am Main: Fischer. Fletcher, P. & McWhinney, B. (Eds.) (1995). The handbook of child language. Cambridge: Basil Blackwell. Golinkoff, R. M. & Gordon, L. (1988). What makes communication run? Characteristics of immediate successes. First Language, 8, 103⫺124. Harris, M. (1992). Language experience and early language development: From input to uptake. Hillsdale: Lawrence Erlbaum. Hirsh-Pasek, K. (1996). The origins of grammar: Evidence from early language comprehension. Cambridge, MA.: MIT Press. Jusczyk, P. W. (1997). The discovery of spoken language. Cambridge: MIT Press.
(1) Die primären Bezugspersonen vermitteln implizit Wissen über die Sprache und den Sprachgebrauch innerhalb der für die Entwicklung des Kindes relevanten Bedürfnisund Handlungsfelder.
Keller, H., Loewer, M. & Runde, B. (1990). Analyse spontaner Sprache von Eltern in Interaktionssituationen mit ihren Säuglingen und Kleinkindern. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 22, 341⫺353.
(2) Die Art und Weise mütterlichen Sprachgebrauchs in Bezug auf Sprachinhalte, formen und Sprechhandlungsstrukturen hat für das im Spracherwerbsprozess befindliche Kind eine Art Modellcharakter.
Kuhl, P. K. & Meltzoff, A. N. (1997). Evolution, nativism and learning in the development of language and speech. In M. Gopnik (Ed.), The inheritance and innateness of grammars (pp. 7⫺44). New York, Oxford: Oxford University Press.
790
VI. Spracherwerb
Locke, J. L. (1995). Development of the capacity for spoken language. In P. Fletcher & B. McWhinney (Eds.), The handbook of child language (pp. 278⫺302). Cambridge: Basil Blackwell. Murray, A. D., Johnson, J. & Peters, J. (1990). Fine-tuning of utterance length to preverbal infants: Effects on later development. Journal of Child Language, 17, 511⫺525. Nelson, D. G. K., Hirsh-Pasek, K., Jusczyk, P. W. & Cassidy, K. W. (1989). How the prosodic cues in motherese might assist language learning. Journal of Child Language, 16, 55⫺68. Ninio, A. & Snow, C. E. (1996). Pragmatic development. Boulder, CO.: Westview Press. Papousek, M. (1996). Die intuitive elterliche Kompetenz in der vorsprachlichen Kommunikation als Ansatz zur Diagnostik von präverbalen Kommunikations- und Beziehungsstörungen. Kindheit und Entwicklung, 4, 140⫺146. Pegg, J. E., Werker, J. F. & McLeod, P. J. (1992). Preference for infant-directed over adult-directed speech: Evidence from 7-week-old infants. Infant Behavior and Development, 15, 325⫺345. Pine, J. M., Lieven, E. V. M. & Rowland, C. F. (1997). Stylistic variation at the „single-word“ stage: Relations between maternal speech characteristics and children’s vocabulary composition and usage. Child Development, 5, 807⫺819. Reimann, B. (1993). Im Dialog von Anfang an: Die Entwicklung der Kommunikations- und Sprachfähigkeit in den ersten drei Lebensjahren. Neuwied, Kriftel, Berlin: Luchterhand Verlag.
Reimann, B. (1998). Maternal question-responses in early child-mother-dialogue. In A. Aksu Koc, E. E. Taylan, A. S. Özsoy & A. Küntay (Eds.), Perspectives on language acquisition. Selected papers from the VIIth International Congress for the Study of Child Language 1998, Bogazici (pp. 108⫺123). Istanbul: University Printhouse. Reimann, B. (2002). Der frühe Spracherwerb des Kindes. URL: http://www.einwortsatz.de. Rochat, P., Querido, J. G. & Striano, T. (1999). Emerging sensitivity to the timing and structure of protoconversation in early infancy. Developmental Psychology, 4, 950⫺957. Ruben, R. J. (1992). The ontogeny of human hearing. Acta Otolaryngologica (Stockholm), 112, 192⫺196. Stern, D. (1992). Die Lebenserfahrung des Säuglings. Stuttgart: Klett-Cotta. Trevarthen, C. (1980). The foundations of intersubjectivity: Development of interpersonal and cooperative understanding in infants. In D. R. Olson (Ed.), The social foundations of language and thought (pp. 316⫺342). New York: W. W. Norton & Company. Vihman, M. M., De Paolis, R. A. & Davis, B. L. (1998). Is there a „trochaic bias“ in early word learning? Evidence from infant production in English and French. Child Development, 4, 935⫺949. Wegener, U. (1996). Das erste Gespräch. Kommunikationsformen zwischen Mutter und Kind unmittelbar nach der Geburt. Münster, New York: Waxmann.
Bernd Reimann Humboldt-Universität Berlin (Deutschland)
Reimann, B. (1996). Die frühe Kindersprache. Neuwied, Kriftel, Berlin: Luchterhand Verlag.
57. Language Acquisition in Early Childhood 0. 1.
5.
Introduction Towards a theory of child language acquisition The beginnings of language in infancy Vocabulary development and grammar in early childhood Discourse skills and development beyond childhood References
0.
Introduction
2. 3. 4.
Language acquisition is the process by which individual children develop a language – whether spoken, signed, or written – in in-
teraction with their environment. Children’s language acquisition is situated in a cognitive and a sociocultural context, and the structure of development is shaped by biologically given information processing capacities and constraints in interaction with the structure of the particular input to the child. All normally developing children are known to follow a similar overall structure of development with lexical and grammatical spurts typically occurring between roughly one and a half and three years of age. At the same time, the child’s sensitivity to his linguistic environment leads to certain language partic-
57. Language Acquisition in Early Childhood
ular marks on his developmental profile from very early on. Language acquisition is an adaptive process. The child organizes percepts and information from communicative interactions, and reorganizes this information in response to new experiences; the child is adapting to his linguistic environment. But the child’s social environment is also adapting to the developing child. And, further, acquiring a language means acquiring an instrument which can be used for changing the environment. The study of language acquisition, therefore, is a study of linguistic life in a truly dynamic context. Some aspects of language, such as pronunciation skills or a basic grammar, are to a large extent acquired already at a relatively early stage of development. Other aspects of what you know when you know a language continue to develop beyond childhood. For example, there is a continuing growth of lexical knowledge and of rhetorical (e. g., narrative, expository etc) abilities in adolescent and adult language users. Indeed, language acquisition is an open-ended process and there is neither any perfectly steady state nor any state of completeness in the linguistic career of a normal human being (Levelt, 1989). The present article focusses on early stages of language development in children acquiring a first language.
1.
Towards a theory of child language acquisition
The definition of language acquisition as “the process by which a learner develops a language in interaction with his environment” yields five broad concepts or theoretical terms: learner, environment, interaction, language, and development. A comprehensive theory of child language acquisition should integrate and provide a deeper understanding of these terms. Or put somewhat differently, a theory of child language acquisition presupposes theories of what a learner is (e. g., modelling the learner as a system of perceptual, motor, and cognitive abilities), the nature of the interaction between the learner and his environment, what it takes for something to be a language or constitute knowledge of language, and how the structure of knowledge and skills acquired as well as the acquisition process itself change over time (development).
791 Although there is consensus in the scientific community that a number of factors associated with the above five concepts interact to shape language development in the child, there is no consensus about the exact nature or the relative weight of these factors. Some researchers, typically representing the socalled “nativist” position (Pinker, 1996), assume that syntax is the most central aspect of language and that the learner is biologically endowed with crosslinguistically valid knowledge of language (“universal grammar”). The innate knowledge is assumed to be there in the form of, for example, a set of parameters (whose values are typically binary) representing dimensions along the which the languages of the world are known to vary in their basic syntactic architecture. When a child is exposed to a particular language, the parameter values are set and the innate knowledge of language is neatly customized to the ambient language (Hyams, 1986). According to this theoretical position, the child’s input plays a passive role, in that it merely triggers the assumedly innate brain program to work out the central syntactic constraints of the linguistic environment. The acquisition process is assumed to be fast (“instant acquisition”) and effortless. Further, the input to the child is seen as poor in linguistically relevant information; indeed, it is typically seen as containing a lot of noise, possibly distracting the child from discovering the underlying constraints and regularities of language. Because of this “poverty of the stimulus”, the argument goes, the child has to be genetically endowed with sufficient knowledge of language in order to be able to acquire language all the same. Further, a consequence of this position is that those aspects of language which are considered to be most important can be said to be fully acquired well before the end of the preschool period. Other researchers hold that the central thing about language is the communication of meaning, a position which foregrounds semantic and pragmatic aspects of language, and that language acquisition is not merely the felicitous acquisition of phonological and syntactic forms, but the mapping of these forms onto meanings and communicative functions. And meaningful situations and communicative intentions are typically seen as essential components of the puzzle of language acquisition and development (Ninio & Snow, 1996; Berman & Slobin, 1994). According to this view, important parts of lan-
792 guage acquisition can be modelled in terms of reorganizations of the relation between linguistic forms and functions/content in development. These reorganizational processes are shaped both by principles of human information processing (such as principles of clarity, economy and speed; see, e. g., Slobin, 1977) and by external factors (the input and the learner’s adaptation to language usage in new sociocultural contexts), and they characterize the language user not only in childhood but also in adolescence and adulthood. These ideas are at the core of a position in developmental theory called “functionalism”. Further, the nature of the biologically given propensity for language learning need not be in the form of inborn knowledge or information. According to the so-called connectionist view (Elman et al., 1997), the information processing capacities emerging from the neural architecture of the brain provide the prime explanation for the child’s ability to build language on the basis of his linguistic input. The connectionist approach is part and parcel of the rapid development in the brain sciences in general and in cognitive neuroscience in particular (see also the so called “competition model”, MacWhinney & Bates, 1989). The interaction between the learner and his environment is at the core of this approach. The input is assumed to play an active, formatting role in the child’s acquisition process. The variability and contextual distribution of bits and pieces of language in the input to the child tend to be seen not as noise but as a rich source of information which the child can use for discovering these bits and pieces and how they are used for communication. In this context, the force of neo-darwinian thought (Dennett, 1995) is particularly tangible. Concepts contributing to the revitalization of evolutionary theory and its applications to developmental theory, such as, for example, principles of “self organization” and “emergent properties”, are abundant, as is the commitment to avoid the “teleological” mistake of trying to explain developmental patterns with reference to typical normative target states not yet attained by the learner. It is seen as imperative to take an “ascending” and not a “descending” approach (Deutsch & Budwig, 1983) in the analysis of child language acquisition. The former approach focusses on the child’s developmental history and the forces in his present environment as the factors determining or pushing the child to
VI. Spracherwerb
continue in a certain direction rather than in another. The latter approach, in contrast, would merely allow us to model the child’s development in terms of his deviance from the adult target at any given point in development. Further, from a darwinian perspective, the child is not initially endowed with an idea about what to search for in his (linguistic) environment and does not yet have an idea of which things pay off to store in memory. Therefore, the child does better to store everything, including situational and circumstantial information which might look irrelevant to an already versatile language user. Importantly, however, this circumstantial information will have a developmental role to play in that it will lead the child to extract cross-situationally valid information and, eventually, to form prototypes based on the varying exemplars he has been hitherto exposed to. In short, variability is seen as an essential property of the input, and a precondition to learning. An application of this idea to the domain of early phonological development is presented by Lacerda and Lindblom (1998). The ascending approach to language acquisition further emphasizes that each new step taken by an individual in his development puts him in a new position/situation, redefining his premises to further development. An elucidating approach to the role of the input is the crosslinguistic study of language acquisition (Slobin, 1985⫺1997). Comparisons of child language development across languages which display similarities and differences has helped articulate ways in which diversity of input can effect diversity of acquisition structure. The modern crosslinguistic study of language acquisition, taking off in the 1960s, first concentrated on similarities in acquisition structure across languages. The greater the similarities in acquisition structure despite differences in typological or cultural traits, the more an underlying, cognitive explanation would be called for. The bet at the time was much in favour of a nativist claim about a specific “Language Acquisition Device” (LAD; see, e. g., Chomsky, 1968). Later crosslinguistic work has shifted the attention to differences in acquisition structure related to differences between languages. One method is the “intratypological” approach (Slobin, 1998). On the assumption that two typologically minimally different languages differ on only a few dimensions, whereas all other dimensions are, as it were, kept constant, the influence of these few dimensions
57. Language Acquisition in Early Childhood
can be investigated with more experimental methods (for an example, see Strömqvist et al., 1995). A trend, much inspired by a revitalization of the issue of linguistic relativity (i. e., to what extent and in what ways language influences thought; see, e. g., Lee, 1996; Gumperz & Levinson, 1996), is to focus on semantic differences between children’s emerging language across different linguistic communities and different cultures (Slobin, 1996). Crosslinguistic differences in lexicalization and grammaticalization patterns can lead to differences in what children tend to elaborate on semantically already before 2 years of age (Bowerman, 1996). The rapidly growing use of computer technologies in the international research community for sharing and analysing child language data has greatly facilitated the crosslinguistic study of language acquisition (MacWhinney, 1991).
2.
The beginnings of language in infancy
Perception experiments using so called habituation techniques (e. g., sucking rate; the head turning paradigm) show that infants begin to tune in to their ambient linguistic soundscape already during their first half year of life. Shortly after birth, human beings are able to discriminate between a very large range of speech sounds, including contrasts which are not present in their input language (Jusczyk, 1985). This ability, however, changes in character during the infant’s first half year. The infant’s ability to discriminate between sounds which do not belong to his input language deteriorates, while his ability to discriminate between sound contrasts in his particular input improves (Werker, 1989; Werker & Polka, 1993). Further, it seems that infants perform even better at these discriminatory tasks when they are simultaneously presented with the visual information (lip movements) that accompanies the production of the speech sounds (Kuhl & Meltzoff, 1982), something which suggests that the language learning child works with information from several sensory modalities at the same time. Important aspects of these processes are captured in Lindblom and Lacerda’s model of “emergent phonology” where invariant acoustic representations emerge through a selforganizing process under the constraints of input factors and memory
793 limitations (Lacerda & Lindblom, 1998). The model does not presuppose that the child is initially predisposed towards speech sounds; rather the acquisition of speech is seen as a consequence of the child’s interaction with his global sensory input, containing speech as one of its many components. Around the beginning of the second half of their first year, infants typically begin to show signs of having formed mental representations of objects, – representations they can to some extent retrieve at will. For example, contingent upon having dropped an object so that it is temporarily out of sight, they can start searching for it. This landmark of cognitive development, known as “object permanence”, is a precondition to the learning of words. And words typically begin to emerge in children’s communicative development around one year of age, at roughly the same time as most children start to walk (Lenneberg, 1967). Object permanence is also a precondition to “peek-a-boo” (suddenly hiding e.g. a hand doll and then suddenly making it reappear), a game which is played with small children across many different cultures of the world (Bruner & Sherwood, 1976). The learning of words and other meaningful units involves ferreting out units of the input speech stream (the “segmentation task”) and mapping these units/forms onto concepts/functions (the “mapping task”) (Clark & Clark, 1977). The child’s job of solving these tasks is determined by a number of different, interacting factors. In spoken language certain parts of an utterance tend to be prosodically foregrounded (by means of stress, pitch and/or duration) and others backgrounded. In child-directed adult speech, these differentiations are often exaggerated as compared to adult-directed adult speech (Fernald et al., 1989). The exaggerated contour increases the perceptual salience of the foregrounded items even more and thereby serves as a spotlight guiding the child to direct his attentional resources to selected parts of the speech stream. This kind of spotlight hits first and foremost content words, to a limited extent function words, and to no or almost no extent affixes (Peters & Strömqvist, 1996). A segmentation strategy based on prosodic spotlight would thus yield a predominance of content words in the child’s earliest vocabulary, a prediction which turns out to be correct. The child’s early encounters with language take place in face-to-face interaction, a set-
794 ting which provides the interactants with a shared perceptual space and the possibility of on line feedback and mutual adaptation. In this kind of setting, content words (car, teddy, fall (down) etc) and deictic words (there! that one, this etc) are relatively easy to grasp for the early word learner not only because of their perceptual salience but also because their meaning can be demonstrated or exemplified by reference to objects, relations and events in the shared perceptual space. Gestures, importantly pointing, and gaze accompanying speech further tends to facilitate the child’s mapping task in that they help securing joint attention to the object or event referred to or commented upon. In his so-called “sensori-motor” development (Piaget & Inhelder, 1969), the prelinguistic infant manipulates objects in his physical environment, making something fall, putting an object into or taking it out of a container, using force to remove something which is stuck, etc. In this way the child is gathering experiences from manipulative motion scenarios in which he himself often is the causal agent. The child thereby comes to shape concepts of various types of objects, spatial relations (e. g., containment, support, tightness of fit, direction (up, down, in, out)), of causality and of different types of motion events. Since many of these concepts are precocious in the sense that they develop before the child starts to acquire words, they might facilitate the child’s mapping task insofar that they present themselves as candidates for concepts that can be encoded into a linguistic form. Precocious interactional activities may provide a frame of understanding for novel words and constructions. For example, extending the peek-a-boo game with speech acts such as Where did he go? ⫺ Where is he? There he is again! make these speech acts easier for the child to understand than if they were encountered in an equally novel activity type (Ratner & Bruner, 1978). Both the child’s prelinguistic conceptual development and his familiarity with joint/interactional activities thus furnish the child with a background relevant to the mapping task. Indeed, several studies suggest that children who have not yet mastered a given language pattern make use of language independent concepts and world knowledge to interpret the meaning of linguistic utterances (see Johnston, 1985, for a review).
VI. Spracherwerb
3.
Vocabulary development and grammar in early childhood
3.1. The vocabulary spurt, analysis, and inflectional morphemes The child’s build-up of his first 25⫺50 words proceeds slowly, but then there is typically a steep increase in lexical growth rate, the socalled “vocabulary spurt”. On average, the vocabulary spurt starts towards the end of the child’s second year of life. On the basis of parental reports (The MacArthur Communicative Development Inventory) Bates et al. (1994) found a wide variation in the timing of the onset of the vocabulary spurt in Englishspeaking children. Exceptionally early word learners start their spurt at the beginning of their second year, and slow ones towards the end of their third year. Bates et al. further found early vocabulary development typically to proceed in three waves. In the first wave, extending to the point where around 100 words have been accumulated, there is a proportional increase in common nouns. Then, in a second wave, there is a slow increase in verbs and other predicative structures, with the greatest gains between 100 and 400 words. The third wave, finally, consists in a sharp increase in closed class items (function words) between 400 and 700 words. These results have been replicated for Swedish-speaking children by Berglund and Eriksson on the basis of their Swedish version of the Communicative Development Inventory (Berglund, 1999). As already observed, there are several factors contributing to the fact that children start to acquire content words (especially nouns and verbs: c.f. the first and second “wave” above) before function words (such as, e. g., prepositions, the copula, modal auxiliaries etc: third wave). The former tend to be prosodically prominent and have a referential content, whereas the latter are prosodically backgrounded and the child is more dependent on the linguistic context in a narrow sense to tease out their functions (Strömqvist et al., 2001). However, the acquisition of content words is, in its turn, a factor facilitating the acquisition of function words. By virtue of recognizing a larger number of content words in his input speech, the child can shift more of his attention to the items hiding in the prosodic shadow of these words. As to their sound shape, the early word forms in children’s language development can
57. Language Acquisition in Early Childhood
have many different relations to the adult target forms. Occasionally, children can hit the target in a strikingly accurate fashion, something which might suggest a holistic imitation strategy on the part of the child. Often, however, children’s productions are simplified in comparison to the adult targets, suggesting that the child has performed some sort of analysis of his input. For example, given the target word crocodile, some children would focus on and expend their analysis effort on its multisyllabic quality, whereas others would focus on the stressed syllable only. The former focus of analysis would typically be at the expense of the details internal to the syllables, resulting in, for example, a form like [kokoko]. The latter focus would typically allow for a greater resolution of segmental details, resulting in, for example, [dajl] (see also Peters, 1995). The study of phases of analysis and reorganizational processes is at the core of child language research. Already diary studies contain ample evidence and examplification of this phenomenon. Consider the following four developmental sequences for the sake of illustration. The first sequence (a much cited example from the diary study by Leopold, 1939⫺49) is indicative of reorganizational processes in the child’s phonological representations of the word pretty: (1) [preti] J (2) [bidi] J (3) [preti]. Because of the initial (1) and final (3) similarity with the target form and the medial (2) dip (phase of deviance), this developmental pattern is often described as “U-shaped” (see, e. g., Strauss, 1982). The dip is revealing of some kind of generalization and top-down processing, resulting in an observable linguistic product which deviates from the target standard. And the developmental move from (2) (deviation) to (3) (target form) represents a reanalysis or adjustment to conform with the adult target. In the developmental sequence just quoted the child can be hypothesized first to have learned the form [preti] as an unanalyzed whole (“rote-learning”), whereas in the second phase he has reorganized his representation of the word in terms of its internal segmental structure. If the child’s task was to learn in total, say, only 100 words, it might not be economical to expend cognitive efforts on analysis; rote-learning would suffice. Conversely, the rapidly growing number of words following the start of the vocabulary spurt pushes the child to reorganize the principles
795 for encoding, storing and retrieving word forms. The second and third illustrations concern children’s development of inflectional morphology. The second developmental sequence describes a U-shape with respect to past tense formation of the verb go: (1) went J (2) goed J (3) went. The third sequence is taken from the development of the formation of plural of the noun bok ‘book’ in a Swedish child (the adult target plural is böck-er with both change of stem vowel o J ö and the addition of an inflectional suffix -er) (Plunkett & Strömqvist, 1992). This sequence is more complex in that it contains several phases of analysis: (1) bok ‘book’ vs bok-ar ‘book-PLUR’ J (2) bok vs böck-er ‘bookPLUR J (3) bok, böck vs böck J (4) bok vs böck-er. The child first erroneously generalizes -ar, the perhaps most productive plural suffix on nouns in Swedish, to the unmodified stem bok. Then (phase 2) the child modifies the plural to conform with the adult target. In the third phase, however, he reanalyses the stem as böck, a form which is found in the target plural böck-er only (more precisely, in the third phase there is a variation between bok and böck as the unmarked form). And only still later (phase 4), the child, again, modifies the plural to conform with the adult target. The fourth illustration concerns the naming of parts of a mushroom and it provides an example of U-shaped semantic development: (1) stem, cap J (2) body, head J (3) stem, cap. In this case the reorganization in phase (2) suggests that the child has gotten consciously aware of the metaphorical nature of the mushroom terms, rejecting the less transparent pair of metaphors stem, cap in favour of a more transparent pair of his own choice: body, head. The story of U-shaped development ends with an important moral: the child is not necessarily done with his acquisition process simply because he has attained an adult-like linguistic behaviour. Further, the reorganizations examplified suggest that language acquisition is neither particularly fast, nor effortless. In fact, phases of (re-)analysis in language acquisition are often associated with signs of extra effort on the part of the learner, such as hesitations, repeats, extra prosodic prominence, self-corrections, or metalinguistic comments (Strömqvist, 1988). For children growing up with languages with inflectional suffixes, there follows close
796 on the heels of the vocabulary spurt a grammatical spurt involving a rapidly increasing use of the first few inflectional morphemes. Investigations employing different methodologies – parental reports (Bates et al., 1988), longitudinal case studies (Slobin, 1985⫺97), and connectionistic modelling experiments (Plunkett & Marchman, 1991) – converge on the finding that the vocabulary spurt is a precondition to (or, at least, greatly facilitates) the analysis of the internal morphological structure of words and the acquisition of inflectional morphemes. Through the vocabulary spurt the child acquires more and more words, and many of these words share the same inflectional paradigm. Through similarity abstraction (different stems, but same ending) the child can now arrive at a representation of the internal morphological structure of word forms into stems and endings. Provided that this kind of analysis has taken place, an inflectional morpheme can then be generalized in the sense that it can be applied to novel stems. Mostly, these generalizations result in correct target forms, but sometimes they result in deviant forms like go-ed. 3.2. Early utterance structure Towards the end of his second year, the child starts to combine words within a single utterance, to begin with mostly two words. During this so-called two-word stage, the majority of the utterances produced by the child still consist of just one word. The words entering the child’s one- or two-word utterances at this early stage are typically non-inflected. They are drawn from the child’s budding vocabulary of mostly nouns (daddy, ball etc), but also verbs (fall, eat etc), some deictic words (that, there), adverbs (no, more, up) adjectives (wet, pretty), and feedback words (yeah, no). See further Tomasello (1992), Meng and Strömqvist (1999). Crosslinguistically attested semantic roles and relations between the terms found in children’s early two-word utterances include LOCATION of an ENTITY, ACTION or EVENT as in there book or play garden; the relation between any two of an AGENT, PATIENT or ACTION as in Eve play or eat food; the relation between POSSESSOR and POSSESSED as in mama dress (‘mama’s dress’) or my shoe; the predication or attribution of a PROPERTY to an entity as in John sad or pretty dress; and quantification (including negation) as in no wet, allgone milk or more milk. At the two-word stage, children
VI. Spracherwerb
typically also use one or two question words to construct questions such as where ball?. For more details, see, for example, Brown (1973). Children’s one- or two-word utterances are situated in a larger context of connected discourse and there is often more structure between utterances than within utterances at this early stage. For example, before children can put together a two word utterance such as there book, they can often produce there and book as two consecutive one-word-utterances, the first an act of reference to a given object and the second a predication or naming of the object just referred to. Typically, children at this stage are also in command of a couple of feedback words (like no and yeah or mm), words which contribute to the cohesion of the communicative interaction in that they signal contact (between the communicating parties), perception (of what the conversational partner just said or is saying) and some sort of attitudinal reaction (e. g., protest or agreement) (Strömqvist & Richthoff, 1999). Further, adults typically respond to children’s one or two-word utterances (e. g., more milk or where ball) by expanding their structure, for example do you want more milk? or yes, where is the ball?, etc. These expansions serve as an important model for the child to expand his own utterance structure, not the least in terms of providing the required grammatical morphemes (is, the etc). See further Snow and Ferguson (1977). Analyses of the distribution of pairs and triples (etc) of word forms in children’s early utterances suggest that children to a considerable extent first may learn frequent phrases by rote (i. e., as if they were single words), and that the child only later revisits these rote-learned phrases and reanalyse them into their component words (Pine & Lieven, 1993). 3.3. Terms for spatial relations The cognitive development during the sensori-motor stage provides a precocious conceptual basis for the acquisition of words and morphemes encoding spatial relations. The languages of the world, however, differ not only with respect to how they encode spatial relational concepts (by lexical means, or by grammatical means such as prepositions, case endings, verb particles) but also with respect to which spatial distinctions are placed more at the centre and which ones more at the pe-
57. Language Acquisition in Early Childhood
riphery of the language system. In effect, the same spatial distinction (e. g., IN vs ON) can be more easily available for linguistic usage in one language than in an other. The first few spatial terms that emerge in children’s early language reflect this diversity of their input. Thus, children growing up with a Germanic language (e. g., English, German, Icelandic, Swedish) will experience a frequent usage of the morphemes in vs on across many different situations, where a common conceptual denominator between the two spatially related objects is CONTAINMENT for in vs SUPPORT for on. And already towards the end of their second year these children tend to use in vs on in linguistic communication to classify the spatial relation between two objects. In contrast, children growing up with Korean, will experience a language where the distinction between IN and ON receive much less attention in linguistic communication. Instead, the primary distinction is between TIGHT vs LOOSE FIT between two spatially related objects, and this is the distinction Korean children begin to render a linguistic expression towards the end of their second year of life (Choi & Bowerman, 1991). The availability of the spatial morphemes to the language learning child is also determined by the prosodic prominence and the input frequency of the morphemes. Many languages of the world, including the Germanic languages, frequently distribute information about spatial relations on “satellites” to the verb, for example fall DOWN FROM OFF, or go IN or UP or DOWN etc. In contrast, other languages, including those of the Romance family, tend to encode this kind of information directly into the verb, c.f. sp. bajar ‘go down’, subir ‘go up’ etc. As satellites (e. g., as verb particles), morphemes like in etc often receive stress, something which adds to their salience in the input to the child. And, typically, children growing up with satellite framed languages often produce a small set of these spatial morphemes already at the oneword stage (Ragnarsdo´ttir & Strömqvist, 1997.) Through early language learning the child thus comes to upgrade certain conceptual distinctions in that they are supported by frequently used linguistic means, and to downgrade others which get encoded more marginally. For more details see, for example, Slobin (1985⫺97); Berman and Slobin (1994); Bowerman and Levinson (1998).
797 3.4. Personal pronouns Another linguistic domain which emerges very early in children’s language development are terms for reference to person. The face-to-face setting of communication provides the domain of referents onto which the child can map proper names, common nouns and personal pronouns. The first, minimal system of contrasting personal terms to emerge in the child’s development is typically that between a name referring to the child himself and a name referring to the other (e. g., mama). And when the first usages of personal pronouns emerge (1st and 2nd person sing. I and you), they typically take over the functions of reference to SELF and OTHER respectively, illustrating the developmental scenario that new forms often first appear in old functions. Following a developmental course of decentration, the child later picks up 3rd person pronouns (he, she, they) as he extends his sphere of attention to talk about persons beyond the face-to-face setting and the here and now (see also Clark, 1978). A developmental course of decentration can also be seen in the acquisition of nouns for reference to person. Typically, a form like mama is first used by the child to refer to his mother in a way that resembles a proper name rather than a common noun (mama only applies to the child’s own mother). Later, the child comes to generalize the term to other mothers (so that it becomes a common noun), realizing that other children also have mothers and, still later, that mothers, in their turn, have mothers whose children they are etc. (Ragnarsdo´ttir, 1990). Some children initially fail to realize that the pronoun you is deictically shifted (you refers either to the child or the other depending on who is speaking) and for a period of time they are stuck with having mapped the form you directly onto themselves (the child is referring to himself as you on a par with his proper name) (Clark, 1978; Strömqvist, 1988). For example, wanting to claim an object from the adult, the child might say you, whereupon the adult answers Do you want it? Here you are!. The example further illustrates that adult speech directed to the child need not always help the child get the mapping relation right. In this particular case, the adult response only serves to reinforce the child’s idea that you applies to the child only. In order to get the mapping relation right, the child needs to attend to communicative exchanges where you is used to refer to some-
798
VI. Spracherwerb
one else than the child himself. Or he needs to get responses to his erroneous usage of you which are incompatible with his own usage. For example, an older sibling, competing with the child for the possession of toys, would be more likely to respond to the child’s you by claiming the object for himself than to say Do you want it? Here you are!. And, indeed, the erroneous mapping of you has been found to be much more common in first-born children than in children growing up as a younger sibling (Deutsch et al., 1998).
4.
Discourse skills and development beyond childhood
Around three years of age most children have acquired a basic vocabulary and a basic grammar. And on a discourse level, the threeyear-old has acquired basic skills for engaging in conversations, including initiating topics, making comments, giving feedback, asking and responding to questions, making and complying with requests, etc. Many genres or linguistic activity types, however, such as narrative and argumentative discourse, are still to develop considerably before they can be said to have reached a more mature level. And some genres, such as a letter or a composition, are associated with the written medium and typically enter the agenda for language learning only after the preschool years. (Berman & Venhoeven, 2002; Strömqvist et al., 2003). Similarly, the function of language to reflect and construct social identity and social roles (child versus adolescent versus adult, boy versus girl, etc) is a dimension which is largely discovered and explored beyond early childhood. For example, “discourse markers” such as English well and uh, French alors (‘then’) and euh and Spanish bueno (‘good’) and eh participate in effecting a social role profile to the speaker (for example, in the case of well, a more adult and formal character). Studies based on English, French, and Spanish speaking children’s role-play speech indicate that by four or five years of age there is a beginning understanding of how such forms can be used both to reflect and manipulate the relative social status of a speaker (see Andersen et al., 1999; also Andersen, 1990). Already at the two-word stage, children can describe simple, conspicuous events, like block fall. In picture story tasks, a much
practised technique in investigations of narrative development, children around three to four years of age can produce rich descriptions of individual pictures/scenes. These descriptions, however, tend to be largely driven by details which the child finds interesting and there is so far little or no global discourse cohesion or narrative structure. The following line of analysis, presented by Karmiloff-Smith (1981) and Karmiloff-Smith (1983) provides an illustration. For example, in relation to the first two pictures of a picture story a 3year-old might say (1) The rabbit is riding a bicycle. (2) The cats are playing tennis. In contrast, children between five and seven apply top-down control processes in the story telling task to effect a strong cohesion, typically at the expense of describing details in the individual pictures, for example There’s a rabbit on a bicycle. And then he sees two cats. Here, the rabbit is constructed as the theme of the story through an act of introduction (there’s a rabbit) and subsequent pronominalization (he). Further, the child puts the rabbit into subject position (the “thematic subject” strategy) and marks the temporal sequencing of the component events by and then (Strömqvist & Day, 1993). And the sentences the child produces all describe events which move the story line forward. All these linguistic strategies interact to effect a salient story line and a main theme/character, who is doing things and to whom things happen. Still later in development, children typically manage to combine a clear story line with the description of details and events which are off the story line in the sense that they do not contribute to moving the story forward. An example of a narrative sequence by a child in the age range 8⫺10 years is There’s a rabbit going for a ride on a bicycle. And then he sees two cats, who are playing tennis. Here, the offstory-line quality of the scene with the cats is linguistically reflected by its placement in a relative clause, whereas events moving the story forward are placed in main clauses. See also Karmiloff-Smith (1979). The presence of the relative clause in the last example is not per se an indication of an advanced stage of language acquisition. Relative clauses tend to be part of the basic grammar children have acquired by three years of age. In order to assess the advanced character of the stage of acquisition illustrated in the example, it is crucial to take into consideration the discourse function of the relative clause (to encode an off-story-line scene).
57. Language Acquisition in Early Childhood
As the child begins to conquer partly new genres in the course of his language acquisition career, old constructions are put to partly new usages. Again, language acquisition and reorganizations of form-function relationships continue beyond childhood and are part and parcel of the linguistic life also of adolescent and adult language users.
5.
References
Andersen, E. (1990). Speaking with style: The sociolinguistic skills of children. London: Routledge and Kegan Paul. Andersen, E., Du Puy, C. & Gonnerman, A. (1999). The acquisition of discourse markers as a social skill. Journal of Pragmatics, 31, 1339⫺1351. Bates, E., Bretherton, I. & Snyder, L. (1988). From first words to grammar: Individual differences and dissociable mechanisms. Cambridge: Cambridge University Press. Bates, E., Marchman, V., Thal, D., Fenson, L., Dale, P., Reznick, J., Reilly, J. & Hartung, J. (1994). Developmental and stylistic variation in the composition of early vocabulary. Journal of Child Language, 21, 85⫺123. Berglund, E. (1999). Ph.d.diss. University of Stockholm: Department of Psychology. Berman R. A. and Verhoeven, L. (Eds.) (2002) Written Language and Literacy, Vol. 5, Parts 1 and 2. Special issue on developing text production in speech and writing. Berman, R. A. & Slobin, D. I. (1994). Relating events in narrative. A crosslinguistic developmental study. Hillsdale, New Jersey: Lawrence Erlbaum.
799 influence of language-specific lexicalization patterns. Cognition, 41, 83⫺121. Chomsky, N. (1968). Language and mind. New York: Harcourt Brace Jovanovich. Clark, E. (1978). From gesture to word: On the natural history of deixis in language acquisition. In J. Bruner & A. Garton (Eds.), Human growth and development: Wolfson College Lectures 1976 (pp. 85⫺120). Oxford: Oxford University Press. Clark, H. & Clark, E. (1977). Psychology and language. New York: Harcourt Brace Jovanovich. Dennett, D. C. (1995). Darwin’s dangerous idea. New York: Penguin. Deutsch, W. & Budwig, N. (1983). Form and function in the development of possessives. Stanford Papers and Reports on Child Language Development, 22, 36⫺42. Deutsch, W., Wagner, A., Burchardt, R., Schulz, N. & Nakath, J. (1998). Person in the language of singletons, siblings and twins. In S. Levinson & M. Bowerman (Eds.), Language acquisition and conceptual development. Cambridge: Cambridge University Press. Elman, J., Bates, E., Karmiloff-Smith, A., Parisi, D. & Plunkett, K. (1997). Rethinking innateness. Cambridge, Massachusetts: MIT Press. Fernald, A., Taeschner, T., Dunn, J., Papousek, M., Boysson-Bardies, B. & Fukui, I. (1989). A cross-language study of prosodic modifications in mothers’ and fathers’ speech to preverbal infants. Journal of Child Language, 16, 477⫺501. Gumperz, J. & Levinson, S. (Eds.) (1996). Rethinking linguistic relativity. Studies in the social and cultural foundations of language, Vol. 17. Cambridge: Cambridge University Press.
Bowerman, M. (1996). The origin of children’s spatial semantic categories: Cognitive versus linguistic determinants. In J. Gumperz & S. Levinson (Eds.), Rethinking linguistic relativity. Studies in the social and cultural foundations of language, Vol. 17 (pp. 145⫺176). Cambridge: Cambridge University Press.
Hyams, N. (Ed.) (1986). Language acquisition and the theory of parameters. Dordrecht: Reidel.
Bowerman, M. & Levinson, S. (Eds.) (1998). Language acquisition and conceptual development. Cambridge: Cambridge University Press. Brown, R. (1973). A first language: The early stages. London: Allen and Unwin.
Jusczyk, P. (1985). On characterizing the development of speech perception. In J. Mehler & R. Fox (Eds.), Neonate cognition: Beyond the blooming, buzzing confusion (pp. 199⫺229). Hillsdale, NJ.: Lawrence Erlbaum.
Bruner, J. & Sherwood, V. (1976). Peekaboo and the learning of rule structures. In J. Bruner, A. Jolla & K. Sylva (Eds.), Play. New York: Penguin.
Karmiloff-Smith, A. (1979). A functional approach to child language: A study of determiners and reference. Cambridge: Cambridge University Press.
Choi, S. & Bowerman, M. (1991). Learning to express motion events in English and Korean: The
Karmiloff-Smith, A. (1981). The grammatical marking of thematic structure in the development
Johnston, J. (1985). Cognitive prerequisites: the evidence from children learning English. In D. I. Slobin (Ed.), The crosslinguistic study of language acquisition, Vol. 2 (pp. 961⫺1004). Hillsdale, NJ.: Lawrence Erlbaum.
800 of language production. In W. Deutsch (Ed.), The child’s construction of language (pp. 121⫺147). London: Academic Press. Karmiloff-Smith, A. (1983). Language development as a problem-solving process. Stanford Papers and Reports on Child Language Development, 22, 1⫺22. Kuhl, P. & Meltzoff, A. (1982). The bimodal perception of speech in infancy. Science, 218, 1138⫺1141. Lacerda, F. & Lindblom, B. (1998). Modelling the early stages of language acquisition. In A. Olofsson & S. Strömqvist (Eds.), Cross-linguistic studies of dyslexia and early language development (pp. 14⫺33). Brussels: The European Commission DG XII Science, COST A8. Lee, P. (Ed.) (1996). The Whorf theory complex. A critical reconstruction. Amsterdam Studies in the Theory and History of Linguistic Science. Amsterdam: John Benjamins. Lenneberg, E. (1967). Biological foundations of language. New York: John Wiley. Leopold, W. F. (Ed.) (1939⫺1949). Speech development of a bilingual child: A linguist’s record. Evanston: Northwestern University Press. Levelt, W. (1989). Speaking. Cambridge, Mass.: M.I.T. Press. MacWhinney, B. (1991). The CHILDES Project – Tools for analyzing talk. Hillsdale New Jersey: Erlbaum. MacWhinney, B. & Bates, E. (Eds.) (1989). The crosslinguistic study of sentence processing. Cambridge: Cambridge University Press. Meng, K. & Strömqvist, S. (Eds.) (1999). Discourse markers in language acquisition. Journal of Pragmatics, 31: Special issue. Elsevier: North Holland. Ninio, A. & Snow, C. (1996). Pragmatic development. New York: Westview Press Inc. Peters, A. (1995). Language typology, prosody and the acquisition of grammatical morphemes. In D. I. Slobin (Ed.), The crosslinguistic study of language acquisition, Vol. 5 (pp. 136⫺197). Hillsdale, NJ.: Lawrence Erlbaum. Peters, A. & Strömqvist, S. (1996). The role of prosody in the acquisition of grammatical morphemes. In J. L. Morgan & K. Demuth (Eds.), Signal to syntax: Bootstrapping from speech to grammar in early acquisition (pp. 215⫺232). Hillsdale, NJ.: Lawrence Erlbaum.
VI. Spracherwerb sition to multi-word speech. Journal of Child Language, 20, 551⫺571. Pinker, S. (1996). The language instinct. New York: Penguin. Plunkett, K. & Marchman, V. (1991). U-shaped learning and frequency effects in a multi-layered perceptron: Implications for child language acquisition. Cognition, 38, 43⫺102. Plunkett, K. & Strömqvist, S. (1992). The acquisition of Scandinavian languages. In D. I. Slobin (Ed), The crosslinguistic study of language acquisition, Vol. 3 (pp. 457⫺556). Hillsdale, NJ.: Lawrence Erlbaum. Ragnarsdo´ttir, H. (1990). Syste`me patronymique et construction des relations de parente´ chez les enfants islandais. Aix-en-Provence: Universite´ de Provence Aix-Marseille I. Ragnarsdo´ttir, H. & Strömqvist, S. (1997). The linguistic encoding of spatial relations in Scandinavian child language development. In E. Clark (Ed.), The Proceedings of the Twenty-eighth Annual Child language Research Forum (pp. 271⫺282). Stanford: CSLI, Stanford. Ratner, N. & Bruner, J. (1978). Games, social exchange and the acquisition of language. Journal of Child Language, 5, 391⫺401. Slobin, D. I. (1996). From “thought and language” to “thinking for speaking”. In J. Gumperz & S. Levinson (Eds.), Rethinking linguistic relativity. Studies in the social and cultural foundations of languag, Vol. 17 (pp. 70⫺96). Cambridge: Cambridge University Press. Slobin, D. I. (1998). A typological perspective on learning to talk about space. In H. Ragnarsdo´ttir & S. Strömqvist (Eds.), Learning to talk about time and space. Proceedings of the 3rd Northern European Language Acquisition Seminar. Gothenburg Papers in Theoretical Linguistics, Vol. 80 (pp. 1⫺ 29). Reykjavı´k and Göteborg: University College of Education, Reykjavı´k, and Department of Linguistics, University of Göteborg. Slobin, D. I. (1977). Language change in childhood and in history. In J. Macnamara (Ed.), Language learning and thought. Perspectives in neurolinguistics and psycholinguistics (pp. 185⫺214). New York: Academic Press. Slobin, D. I. (Ed.) (1985⫺1997). The crosslinguistic study of language acquisition, Vol. 1⫺5. Hillsdale, N. J: Lawrence Erlbaum.
Piaget, J. & Inhelder, B. (1969). The psychology of the child. London: Routledge and Kegan Paul.
Snow, C. & Ferguson, C. (Eds) (1977). Talking to children. Language input and acquisition. Cambridge: Cambridge University Press.
Pine, J. & Lieven, E. (1993). Reanalysing rotelearned phrases: Individual differences in the tran-
Strauss, S. (Ed) (1982). U-shaped growth. New York: Academic Press.
behavioral
58. Schriftspracherwerb Strömqvist, S. (1988). Svenska i ett ontogenetiskt perspektiv. In P. Linell, V. Adelsvärd & L. Gustavsson, (Eds.), Svenskans beskrivning 16, (pp. 457⫺474). University of Linköping: Department of Communication Studies. Strömqvist, S. & Day, D. (1993). On the development of narrative structure in child Ll and adult L2 acquisition. Journal of Applied Psycholinguistics, 14, 135⫺158. Strömqvist, S. & Richthoff, U. (1999). Linguistic feedback, input and analysis in early language development. Journal of Pragmatics, 31, 1245⫺1262. Strömqvist, S., Ragnarsdo´ttir, H. & Richthoff, U. (2001). Input and production in the acquisition of function words. In B. Höhle & J. Weissenborn (Eds.), Approaches to bootstrapping: Phonological, syntactic and neurophysiological aspects of early language acquisition. Language acquisition and lan-
801 guage disorders, Vol. 2 (pp. 157⫺177). Amsterdam: John Benjamins. Strömqvist, S., Ragnarsdo´ttir, H., Engstrand, O., Jo´nsdo´ttir, H., Lanza, E., Leiwo, M., Nordqvist, ˚ ., Peters, A., Plunkett, K., Richthoff, U., SiA monsen, H. G., Toivainen, J. & Toivainen, K. (1995). The inter-Nordic study of language acquisition. Nordic Journal of linguistics, 18, 3⫺29. Tomasello, M. (1992). First verbs: A case study of early grammatical development. Cambridge: Cambridge University Press. Werker, J. (1989). Becoming a native speaker. American Scientist, 77, 54⫺59. Werker, J. & Polka, L. (1993). Developmental changes in speech perception: new challenges and new directions. Journal of Phonetics, 21, 83⫺101.
Sven Strömqvist Lund University (Sweden)
58. Schriftspracherwerb 1. 2. 3. 4. 5.
Einleitung und Übersicht Konzeptualisierung, schriftliche Kommunikation und Textproduktion Sprachproduktion Graphomotorik Literatur
1.
Einleitung und Übersicht
Unter Schriftspracherwerb kann man den Erwerb der Lese- und der Schreibfähigkeit verstehen. In dem vorliegenden Kapitel wird nur Letzterer behandelt. Der gestörte Schriftspracherwerb kann hier ebenfalls nur am Rande thematisiert werden (vgl. Mannhaupt, 1994; Klicpera & Gasteiger-Klicpera, 1995). Allerdings werden viele Erkenntnisse zum normalen Schriftspracherwerb aus Untersuchungen gestörten Schreibens gewonnen. Auch die verschiedenen Modelle der Schreibdidaktik können hier nicht dargestellt werden, wenngleich in diesem Zusammenhang die Frage zu diskutieren ist, ob der Schriftspracherwerb eher extern – durch Lehrprozesse – gesteuert wird oder ob er stärker nach Prinzipien des Lerners, also selbstgesteuert verläuft. Schriftspracherwerb in dem hier verstandenen Sinn umfasst den Erwerb der spezifi-
schen schriftsprachlichen Textsorten und Kommunikationsformen, der Orthographie sowie der Schreibmotorik (Graphomotorik). Diese Dreiteilung folgt der Überlegung, dass Schreiben, Sprechen und Gebärden verschiedene Formen der Sprachproduktion sind. Sinnvollerweise sollten sie daher in einem einheitlichen theoretischen Rahmen behandelt werden; darauf aufbauend, lassen sich dann Unterschiede ermitteln. Das derzeit wichtigste Sprachproduktionsmodell wurde von der Arbeitsgruppe um Willem Levelt entwickelt (vgl. Levelt et al., 1999). Es modelliert zwar zunächst die mündliche Sprachproduktion, man kann seine Grundstruktur bis auf Weiteres jedoch auch für ein allgemeines Sprachproduktionsmodell verwenden. In diesem Modell werden auf der Wortebene drei streng sequenziell ablaufende Komponenten angenommen: eine konzeptuelle Komponente, eine sprachliche i. e. S. und eine motorische. Nach dieser Einteilung ist auch die folgende Darstellung strukturiert. Dabei wird die konzeptuelle Komponente mit dem Teilbereich der Schreibforschung in Beziehung gesetzt, der üblicherweise mit dem Begriff „Textproduktion“ (composition) arbeitet. Der Schriftspracherwerb wird nicht in einer einzelnen wissenschaftlichen Disziplin untersucht. Relevante Beiträge werden von
802
VI. Spracherwerb
der Sprachwissenschaft, verschiedenen Teildisziplinen der Psychologie, der Pädagogik und der Medizin geleistet. Eine wichtige Aufgabe künftiger Forschung wird darin bestehen, in diesem interdisziplinären Bereich einheitliche theoretische und methodische Standards zu entwickeln. Relevante Dimensionen eines solchen Modells werden das Schriftsystem und die schriftliche Kommunikation sein müssen, die schriftliche Sprachproduktion und die Erwerbsperspektive. In jedem der Abschnitte wird zunächst der jeweilige Gegenstand eingeführt, anschließend die Produktionsseite erörtert und schließlich drittens die Erwerbsfrage
2.
Konzeptualisierung, schriftliche Kommunikation und Textproduktion
Die schriftliche Kommunikationssituation unterscheidet sich in zahlreichen Aspekten von der mündlichen. In Bühler’scher Terminologie lässt sie sich erstens durch das Fehlen eines gemeinsamen Zeigfeldes der Kommunikationspartner kennzeichnen (vgl. Weingarten, 1989: 45 ff.). Dies bedeutet, dass alle zum Verständnis einer Mitteilung erforderlichen Informationen versprachlicht werden müssen, da sie sich für den Rezipienten nicht aus dem Zeigfeld erschließen lassen. Es ist also eine größere sprachliche Explizitheit erforderlich. Weiterhin handelt es sich um eine zeitlich „zerdehnte“ Kommunikationssituation (vgl. Ehlich, 1994) (dies gilt nur bedingt für die modernen Formen der schriftlichen Online-Kommunikation). Dadurch, dass die sprachlichen Handlungen des Produzenten einer Mitteilung und die des Rezipienten nicht unmittelbar aufeinander folgen, sind die Möglichkeiten der Rückfrage stark eingeschränkt, weswegen die schriftliche Mitteilung Wissensvoraussetzungen und sprachliche Voraussetzungen des Kommunikationspartners stärker antizipieren muss. Mit dem Eintritt in den Schriftspracherwerb müssen Kinder lernen, diese besonderen Kommunikationsbedingungen zu berücksichtigen und dementsprechend ihre schriftlichen Mitteilungen zu gestalten. Geht man davon aus, dass der Spracherwerb insgesamt mit einem „pragmatic mode“ (Givo´n, 1979), also einer auf Kontexthilfen angewiesenen Kommunikationsweise beginnt, so erfordert die Schriftsprache einen ausgebauten „syntactic mode“. Daraus ergibt sich notwendigerweise, dass
der Schriftspracherwerb im Rahmen des Spracherwerbs insgesamt nur auf einer bereits fortgeschritteneren Stufe erfolgen kann. Zur schriftsprachlichen Kompetenz gehört die Beherrschung der Textsorten, die spezifisch für die schriftliche Kommunikation sind und die sich von mündlichen Formen grundlegend unterscheiden. Ein Aspekt dieser Textsorten sind konventionelle Verfahren, mit denen die Besonderheiten der schriftlichen Kommunikation berücksichtigt werden (z. B. Nennung von Autor und Adressat, elaborierte Textstrukturen, Verminderung kontextabhängiger Informationen). Mit der klassischen Typologie der Aufsatzdidaktik – Erzählung, Bericht, Schilderung, Beschreibung, Erörterung – wurde versucht, den schriftlichen Textsorten Rechnung zu tragen. Auch war hier eine Entwicklungsabfolge vorgesehen, die unter heutiger Perspektive jedoch als unzureichend erscheint. Einerseits ist die Vielfalt der Textsorten durch diese einfache Typologie zu wenig berücksichtigt; andererseits fehlt dieser Entwicklungsfolge (von subjektiveren Schreibformen hin zu objektivierenden) eine empirische und theoretische Grundlage. Einen wichtigen Bezugsrahmen für Untersuchungen in diesem Bereich bildet die Textproduktionsforschung (für einen Überblick s. Antos, 1996). Sie untersucht auf der Textebene die Konzeptualisierung schriftlicher (und mündlicher) Texte. Für viele Untersuchungen in diesem Bereich bildete das Modell von Hayes und Flower (1980) eine Grundlage. Hier werden als Komponenten des kognitiven Schreibprozesses die Planung, die Übersetzung des Plans und die Überarbeitung unterschieden. Diese Komponenten stehen in einer Interaktion mit der Aufgabenumgebung einerseits und dem Langzeitgedächtnis des Schreibers andererseits. Insgesamt wird das Schreiben hier als kognitiver Problemlöseprozess aufgefasst. In einer neueren Version (Hayes, 1996) wird das Modell um motivationale und affektive Komponenten erweitert. Die Entwicklung von ontogenetischen Modellen der schriftlichen Textproduktion wurde insbesondere durch die Arbeiten von Bereiter und Scardamalia (z. B. 1987) angestoßen. Wichtige Arbeiten aus dem deutschen Sprachraum sind z. B. Augst und Faigel (1986) mit einer Untersuchung argumentativer Texte bei 13⫺23-Jährigen und BeckerMrotzek (1997; Schreiben von Bedienungsanleitungen von der Grundschulzeit bis zum Er-
803
58. Schriftspracherwerb
wachsenenalter). Mittlerweile gibt es aus diesen Arbeiten zahlreiche Vorschläge für Stadien der Entwicklung der Textproduktionsfähigkeit (für einen Überblick s. Feilke, 1996), die in ihren Grundaussagen weitgehend übereinstimmen. Am Beginn der schriftlichen Textproduktion weisen die Texte von Kindern einen geringen Grad der syntaktischen Integration auf. Dieser liegt häufig unterhalb der syntaktischen Komplexität, die sie in ihrer mündlichen Kommunikation zeigen. Möglicherweise hängt dies damit zusammen, dass der besonders am Anfang extrem langsame schriftliche Produktionsprozess besondere Anforderungen an das sprachliche Arbeitsgedächtnis (zum verbal working memory s. Caplan & Waters, 1999) stellt. Vom Beginn der schriftlichen Produktion eines Satzes bis zu seinem Ende vergeht ein Vielfaches an Zeit im Vergleich zur mündlichen Sprachproduktion. Als Kompensation wird dann möglicherweise die syntaktische Integration reduziert. Erst mit steigender Schreibgeschwindigkeit und der Fähigkeit, den bereits geschriebenen Text als externen Speicher zu nutzen, kann dann die syntaktische Integration steigen und sogar diejenige der mündlichen Sprachproduktion übertreffen. So konnten Jones und Christensen (1999) zeigen, dass bei Schreibanfängern die Schreibgeschwindigkeit 53 % der Varianz der Textqualität (written expression) erklärt. In einer Trainingsstudie im Rahmen derselben Untersuchung erbrachte ein Training der Schreibgeschwindigkeit eine signifikante Verbesserung der Textqualität. Der Zusammenhang wird dadurch erklärt, dass bei mangelnder Automatisierung der Handschrift zu wenig Aufmerksamkeit auf die konzeptuellen und schriftsprachlichen Dimensionen der Sprachproduktion gelegt werden könne. Unter inhaltlicher Perspektive sind die Texte dieser ersten Phase des Schriftspracherwerbs von einer assoziativen oder subjektiv geprägten Anordnung der thematischen Sachverhalte geprägt. Die Berücksichtigung sachlogischer Aspekte führt dann über dieses Schreibstadium hinaus. Offensichtlich müssen erst kognitive Ressourcen freiwerden, um neben motorischen und orthographischen Anforderungen auch konzeptuelle zu berücksichtigen. In einem weiteren Stadium werden zunehmend sprachlich-formale Merkmale der Textgestaltung beachtet. Dabei kann es durchaus zu formalistischen Übergeneralisierungen kom-
men. Mit der stärkeren Berücksichtigung des Adressaten einer Mitteilung, seinen Interessen und Kommunikationsvoraussetzungen wird eine neue Entwicklungsphase eingeleitet, die insgesamt durch eine situationsadäquate Verwendung der Schriftsprache zu kennzeichnen ist. In einigen Entwicklungsmodellen wird hieran anschließend noch eine Stufe des epistemischen Schreibens angenommen, auch der der Schreiber durch das Schreiben zu einem Erkenntnisfortschritt gelangen kann. Diese hier summarisch dargestellten Ergebnisse zu Stadien der Textproduktionsfähigkeit lassen sich nicht unmittelbar auf Altersgruppen beziehen; im konkreten Verlauf hängt der Schriftspracherwerb zu sehr von der einzelnen Schreibbiographie ab. Dennoch fällt auf, dass sich diese Ergebnisse durchaus auch zu allgemeinen Modellen der kognitiven Entwicklung in Beziehung setzen lassen. Gerade unter der Erwerbsperspektive bildet die Untersuchung der Entwicklung mündlicher Formen der Textproduktion und Kommunikation eine wichtige Forschungsgrundlage (z. B. Boueke et al., 1995; Hausendorf & Quasthoff, 1996). Nur vor diesem Hintergrund kann festgestellt werden, auf welchen sprachlichen Fähigkeiten der Schriftspracherwerb aufbaut und welche gänzlich neu zu entwickeln sind. In kontrastiven Untersuchungen muss auch festgestellt werden, welche wechselseitigen Einflüsse zwischen schriftlicher und mündlicher Sprachentwicklung es gibt.
3.
Sprachproduktion
In diesem Abschnitt werden drei Aspekte des Schriftspracherwerbs behandelt: 1. die Besonderheiten des Schriftsystems gegenüber dem System der gesprochenen Sprache; dies schließt auch eine Klärung des Verhältnisses von Orthographie und Schriftsystem ein. 2. die Besonderheiten der schriftlichen gegenüber der mündlichen Sprachproduktion und 3. der Erwerb der Schriftsprache. 3.1. Sprachsystem, Schriftsystem und Orthographie Ein graphisches Zeichensystem soll Schriftsprache genannt werden, wenn es einen konventionalisierten Zusammenhang mit Aspekten des Systems einer Einzelsprache aufweist. Diese können auf der lautlichen, grammatischen oder lexikalischen Ebene liegen. In die-
804 sem Sinne ist die Lautsprache phylo- und ontogenetisch älter als die Schriftsprache. Es gibt zwar graphische Zeichensysteme, die bis in die Altsteinzeit zurückreichen, ein konventionalisierter Bezug zu einer Lautsprache ist jedoch nicht erwiesen. Vor diesem Hintergrund wurde in der älteren Sprachwissenschaft eine Auseinandersetzung darüber geführt, ob das Schriftsystem von dem Sprachsystem abhängig oder ihm gegenüber autonom sei (vgl. Glück, 1987: 57 ff.). Die moderne Schriftlinguistik verfolgt gegenüber dieser einfachen Dichotomie das Ziel herauszufinden, in welchen Aspekten das Schriftsystem Strukturmerkmale des Sprachsystems repräsentiert und inwiefern es eigene Strukturen herausgebildet hat (vgl. Günther, 1988; Eisenberg, 1998: 286 ff.). Grundlegend ist dabei die Auffassung, dass ein Schriftsystem wie ein Sprachsystem Prinzipien einer eigenen Systembildung folgt. Das Schriftsystem entwickelt sich dabei aus dem „Schreibusus“ (Eisenberg, 1998), der Praxis der Schreibenden. Eine ideale Orthographie expliziert und normiert die Prinzipien eines Schriftsystems, also den Schreibusus. In der Praxis wird es jedoch aus mehreren Gründen nie eine völlige Deckungsgleichheit zwischen Schriftsystem und Orthographie geben; drei der Gründe seien hier genannt: 1. Die Orthographie ist zumeist in einer idealisierten Hochlautung fundiert, die von den Varietäten der Umgangssprache einen unterschiedlich großen Abstand aufweisen kann. 2. Die Orthographie normiert ein Schriftsystem bis auf Weiteres, bis zu einem späteren Zeitpunkt eine Orthographiereform stattfindet. Eine Orthographie „hinkt“ damit immer hinter Veränderungen des Schriftsystems hinterher. 3. Bei der Ausformulierung einer Orthographie können schließlich Kriterien eine Rolle spielen, die sich aus Prinzipien des Schriftsystems nicht herleiten lassen (z. B. bildungspolitische Erwägungen). Der Unterschied zwischen Schriftsystem und Orthographie hat auch Konsequenzen für den Schriftspracherwerb. Vermutlich folgt die schriftliche Sprachproduktion weitgehend stärker unbewussten Prinzipien als der bewussten Kenntnis orthographischer Regeln. Ebenso dürfte der Schriftspracherwerb eher als unbewusste Entdeckung dieser Prinzipien ablaufen und weniger als bewusstes Erlernen der orthographischen Regeln. Wichtige Hinweise auf diese Diskrepanz liefert die Fehlerforschung (Dehn, 1985, 1991; Eichler, 1991, Eichler & Küttel, 1993).
VI. Spracherwerb
Das deutsche Schriftsystem, das erst relativ spät in seiner Geschichte eine bewusste Normierung erfuhr, lässt sich in seinem Kernbereich durch seine lautliche und seine grammatische Fundierung im System der deutschen Sprache charakterisieren: (1) Lautliche Fundierung ⫺ Phonemischer Bezug: Phonem-GraphemKorrespondenzen; ⫺ Silbischer Bezug: Dehnung und Schärfung, S-Graphie, silbentrennendes h, Silbentrennung; (2) Grammatische Fundierung ⫺ Morphologischer Bezug: Konstantschreibung; ⫺ Auszeichnung des Satzanfangs und der Wortart Nomen: Groß-/Kleinschreibung; ⫺ Unterscheidung zwischen Wort und Wortgruppe: Getrennt-/Zusammenschreibung; ⫺ Satzgrammatischer Bezug: Interpunktion. Ich werde diese verschiedenen Bezüge im Zusammenhang mit der Erwerbsperspektive erläutern. Zuvor soll ein Modell der schriftlichen Sprachproduktion dargestellt werden. 3.2. Schriftliche Sprachproduktion Ein Modell der schriftlichen Sprachproduktion muss insbesondere eine Antwort auf die Frage geben, auf welche Weise die Graphemfolge gebildet wird. Eine naheliegende Überlegung ist, dass sie unmittelbar vom Lexikon zur Verfügung gestellt wird. Dies könnte die Schnelligkeit, mit der diese komplexe Struktur normalerweise gebildet wird, erklären. Dann bleibt allerdings noch offen, wie kompetente Schreiber auch ihnen unbekannte Wörter oder Pseudowörter schreiben können: Die Information hierfür kann ja nicht aus dem Lexikon kommen. Aus diesem Grund gehen alle Modelle der schriftlichen Sprachproduktion, von dem auf Morton (1979) zurückgehenden Logogenmodell bis zu dessen aktuellen Weiterentwicklungen (vgl. z. B. Marini & Blanken, 1996; Be´land et al., 1999; Miceli et al., 1999), davon aus, dass es zwei Wege zur Schreibung geben muss: einen lexikalischen und einen nicht-lexikalischen. Insbesondere der kognitiven Neuropsychologie ist es zu verdanken, dass dieses Modell ständig verfeinert wurde. Auf dem lexikalischen Weg gelangt die semantische Information in das Graphemische Output-Lexikon. Die hier erzeugte graphemi-
58. Schriftspracherwerb
sche Information wird dann im Graphemischen Output-Buffer zwischengespeichert, bevor der Allographische Konversionsmechanismus die Grapheme in Buchstabenformen übersetzt. Aus neuropsychologischen Untersuchungen mit aphasischen Patienten wird die Annahme abgeleitet, dass die orthographische Form aus dem Lexikon unabhängig von (unterstützenden) phonologischen Prozessen abgerufen werden kann (Miceli et al., 1997; Rapp et al., 1997). Daraus wird die Annahme einer „Autonomie der lexikalisch-orthographischen Information“ abgeleitet. Allerdings zeigen diese Untersuchungen nur, dass bei bestimmten Patienten die schriftliche Sprachproduktion auf dem lexikalischen Weg ohne phonologische Prozesse möglich ist, und keineswegs, dass im Normalfall die Phonologie hier keine Rolle spielt. Im nächsten Abschnitt werden einige Befunde aufgeführt, die diese Frage erneut aufwerfen. Auf dem nicht-lexikalischen Weg steht ein Graphemisches Output-Lexikon nicht zur Verfügung, d. h. der Schreiber kann die Graphemfolge nicht einfach abrufen. Vielmehr gelangt hier ein phonologisches Wort in ein Phonem-Graphem-Konversionssystem, in dem zunächst eine phonologische Segmentierung erfolgt und dieser anschließend eine Graphemfolge zugewiesen wird. Diese gelangt dann wiederum in den Graphemischen Output-Buffer. 3.3. Erwerb des Schriftsystems Als Vorphase des Schriftspracherwerbs wird angesehen, wenn Kinder etwas kritzeln und dies selbst als geschriebenen Text bezeichnen. Dabei experimentieren sie mit dem Konzept eines graphischen Kommunikationssystems, ohne dass ihnen dessen genaue Funktionsweise bekannt wäre. Dennoch ist diese Vorphase des eigentlich Schriftspracherwerbs sicherlich nicht ohne Bedeutung. Nach den gängigen, insbesondere auf die Arbeiten von Uta Frith (1985) zurückgehenden sog. „Stufenmodellen des Schriftspracherwerbs“, beginnt dieser im eigentlichen Sinne normalerweise mit einer logographischen Phase. Hier können die Kinder einige wenige ganze Wörter schreiben, häufig z. B. ihren Namen, ohne dass sie diese Schreibung, z. B. phonographisch, begründen können. Insbesondere handelt es sich dabei nicht um ein produktives System: Sie können daraus nicht die Schreibung von neuen Wörtern ableiten. Im weiteren Verlauf des Schriftspracherwerbs verliert sich dieses logographische
805 Schreiben keineswegs vollständig. Auch kompetente Schreiber rufen einen großen Teil der Wortschreibungen vollständigen aus dem Lexikon ab (s. o.). 3.3.1. Lautliche Fundierung Nach der logographischen Phase besteht der nächste Schritt im Schriftspracherwerb darin, dass die graphischen Einheiten der Schrift mit lautlichen verknüpft werden. Dies wird üblicherweise als Eintritt in die alphabetische Phase bezeichnet. Dem entspricht, dass das deutsche Schriftsystem in seinem Kern alphabetisch strukturiert ist: Auf der segmentalen Ebene gibt es einen konventionalisierten Zusammenhang zwischen dem Lautsystem und dem Schriftsystem. Daneben bezieht sich das Schriftsystem auf eine suprasegmentale Lauteinheit: die Silbe. Üblicherweise sieht man als segmentale Bezugsgrößen Phoneme einerseits und Grapheme andererseits an. Der Zusammenhang zwischen beiden Systemen wird in PhonemGraphem-Korrespondenzen bzw. GraphemPhonem-Korrespondenzen (vgl. Eisenberg, 1998: 290 ff.) ausgedrückt. Für den Schreiblerner liegt in dieser phonemischen Fundierung ein zentrales Problem, das er eigentlich nicht haben dürfte. Traditionell geht man davon aus, dass Phoneme im Sinne der strukturalistischen Phonologie dem System der (Laut-)Sprache inhärent seien. Kognitiv wird dies mit dem Prinzip der kategorialen Wahrnehmung begründet: Wahrgenommene Laute (Phone) werden sofort den Lautklassen der Einzelsprache (Phonemen) zugeordnet. Aus der Phonemfolge entsteht das „phonologische Wort“. Nach diesem Modell müssten Kinder, bevor sie in das alphabetische Stadium eintreten, im Prinzip das phonologische Wort kennen. Sie sollten zumindest implizit wissen, dass der Lautfolge [‘fa6tB] das phonologische Wort /fater/ entspricht. Dass dies nicht so ist, sieht man an Fehlschreibungen wie ⬍Fata⬎ oder ⬍Vata⬎. Daher wird in der Schriftspracherwerbsforschung mittlerweile die Vermutung geäußert, „dass Kinder Phoneme erst in ihrer Korrespondenz zu Graphemen richtig begreifen können.“ (Scheerer-Neumann, 1998: 41). Ebenso wird in der Sprachwissenschaft zunehmend der Verdacht geäußert, dass der strukturalistische Phonembegriff schriftbasiert sei (z. B. Eisenberg, 1998: 295). Der Schreiblerner steht damit vor dem Problem, dass er die wichtigste Voraussetzung für das alphabetische Prinzip – das
806 phonologische Wort – zumindest z. T. im Schriftspracherwerb noch lernen muss. Auch Hilfskonstruktionen wie „Explizitlautung“ oder „Rechtschreibsprache“ als phonographische Bezugsdimensionen weisen darauf hin, dass der Schreiblerner nicht nur auf der schriftlichen, sondern auch auf der lautlichen Seite vor einer Lernaufgabe steht. Vieles spricht dafür, dass der primäre Zugang von Kindern zur Schrift ein phonetischer und nicht ein phonologischer ist. So zeigen Untersuchungen zur Entwicklung phonologischer Bewusstheit, dass die lautliche Einheit, die Kinder am frühesten identifizieren können, die Silbe ist (einschließlich der Binnenstruktur von Silben wie Onset und Reim). Die metaphonologische Fähigkeit zur Identifizierung von Phonemen entwickelt sich hingegen erst später in Zusammenhang mit dem Schriftspracherwerb (vgl. Gombert, 1992: 21; Underwood & Batt, 1996: 96 ff.). Genaue Analysen zum Verlauf des alphabetischen Stadiums, also des segmental-phonographischen Schreibens, zeigen, wie Kinder allmählich die Lautstruktur von Wörtern analysieren. Häufig werden zunächst Anfangslaute erkannt und verschriftet, danach Konsonanten, was zur sog. konsonantischen Skelettschreibung führt, wenn ein Wort wie ⬍Ball⬎ als ⬍bl⬎ verschriftet wird. Es gibt aber auch den umgekehrten Fall der vokalischen Skelettschreibung. Dieses phonographische Schreiben wird zumeist von einer lauten Artikulation des zu schreibenden Wortes begleitet. Aufgrund der Langsamkeit des Schreibens erfolgt die Artikulation dabei in einer Lentoform. In diesem Kontext entwickelt sich vermutlich die spezifische Rechtschreibsprache (Scheerer-Neumann, 1986), aus der phonologische Wörter und anschließend Graphem-Phonem-Korrespondenzen aufgebaut werden. Der überwiegende Teil der Forschung, speziell auch der angelsächsischen, konzentriert sich auf die segmental-phonographische Seite des Schriftspracherwerbs und geht dabei weitgehend unreflektiert von dem GPK-Modell aus. Die an vielen Stellen geäußerten Zweifel an einem von der Schriftsprache und dem Schriftspracherwerb unabhängigen Phonembegriff haben noch nicht zu den entsprechenden Konsequenzen in der Theorie und der Begrifflichkeit geführt. Hier ist weitere theoretische und empirische Arbeit erforderlich. Möglicherweise wird dabei einer phonetischen Bezugsdimension eine größere Bedeutung zukommen als einer phonologischen.
VI. Spracherwerb
Wie oben dargelegt, gehen auch die Modelle der schriftlichen Sprachproduktion von dem Phonembegriff und der Annahme einer Phonem-Graphem-Konversion auf der nichtlexikalischen Route aus. Neben den bereits genannten Einwänden sei hier ein weiteres Phänomen genannt: In Pseudowortschreibungen wenden kompetente Schreiber erheblich differenziertere orthographische Regeln (z. B. Dehnung, Schärfung, S-Graphie, Konstantschreibung etc.) an als nur eine PhonemGraphem-Konversion (vgl. Günther, 1999; Weingarten, 2001). Es muss daher einen komplexen orthographischen Prozessor geben, der auf ein regelbasiertes System zurückgreift bzw. in Teilen zu komplexen orthographischen Analogiebildungen in der Lage ist. Neben einem segmentalen Bezug weist das deutsche Schriftsystem einen suprasegmentalen Bezug zur Silbe auf. Im Schriftsystem zeigt sich dies daran, dass verschiedene Teilbereiche wie Dehnung und Schärfung, SGraphie, silbentrennendes ⬍h⬎ und Silbentrennung an der Silbe orientiert sind. Weiterhin fällt auf, dass das GPK-Modell in Abhängigkeit von der Silbenstruktur unterschiedlich gut funktioniert: am Anfangsrand der Silbe besser als am Endrand, in der betonten Silbe besser als in der Reduktionssilbe. Diese Eigenschaft des Schriftsystems korreliert interessanterweise mit der lautlichen Wahrnehmungsfähigkeit von Kindern: Zumindest Vorschulkinder und Kinder im ersten Schuljahr können silbeninitiale Konsonanten besser identifizieren als silbenfinale und irren sich dabei weniger in betonten als in unbetonten Silben (Treiman et al., 1993). Diese syllabographischen Anteile des Schriftsystems werden häufig einer späteren Stufe des Schriftspracherwerbs zugeordnet – der orthographischen Stufe. Das ist nur dann korrekt, wenn dabei deutlich bleibt, dass es auch hier um eine lautliche Fundierung des Schriftsystems geht und dass diese in ihrem Kernbereich regelhaft ist. Obwohl die Bedeutung der Silbe für den Schriftspracherwerb an vielen Stellen erwähnt ist, hat sie bei weitem nicht die Aufmerksamkeit erfahren wie die lautlich-segmentale Ebene. In einer Trainungsstudie konnten Wentink et al. (1997) zeigen, dass im Holländischen ein Silbentraining die Leseleistung verbessern konnte. Zu ähnlichen Ergebnissen in Einzelfallstudien kommen Rigol (1998), bezogen auf das Schreiben, und Röber-Siekmeyer und Pfisterer (1998), bezogen auf das Lesen (für einen Überblick s. auch Klicpera & Gastei-
58. Schriftspracherwerb
ger-Klicpera, 1995). Insgesamt muss man feststellen, dass in dem syllabographischen Bereich noch ein größerer Forschungsbedarf besteht. In Zusammenhang mit der Silbenstruktur ergibt sich ein weiteres Problem mit dem klassischen Modell der schriftlichen Sprachproduktion. Im Zeitverlauf des Schreibens (Beschleunigungen und Verlangsamungen) zeigt sich ein äußerst stabiles Muster, das Silben und Grundmorpheme als sublexikalische dynamische Einheiten ausweist (vgl. Will et al., 2002). Da dieses Phänomen auch bei unterdrückter subvokaler Artikulation auftritt, kann es sich nicht um eine periphere Interaktion etwa zwischen lautlichen und graphemischen Prozessen handeln. Dies bedeutet erstens, dass es zwischen der Wortebene und der Phonem-/Graphemebene in der schriftlichen Sprachproduktion intermediäre Einheiten geben muss. Es kann zweitens nicht ausgeschlossen werden, dass es auch auf dem lexikalischen Weg engere Interaktionen zwischen lautlichen und graphemischen Prozessen gibt als in den oben erwähnten Modellen der schriftlichen Sprachproduktion angenommen. Möglicherweise liegen diese zwischen dem Semantischen System und dem Graphemischen Output-Buffer. Die genannten Einwände sollten hinreichend Anlass zu einer gründlichen Revision des Logogen-Modells und seiner Nachfolger geben. 3.3.2. Grammatische Fundierung Neben der Syllabographie wird auch der Erwerb der grammatischen Fundierung des Schriftsystems zumeist der orthographischen Stufe zugewiesen. Auch darf nicht übersehen werden, dass es sich in seinem Kernbereich um ein reguläres System handelt. In den schreibdidaktischen Curricula werden die grammatischen Bereiche – Konstantschreibung, Groß-/Kleinschreibung, Getrennt-/Zusammenschreibung und Interpunktion – üblicherweise nach dem phonographischen Zugang behandelt. Es ist daher zunächst unklar, ob die dann festgestellte Erwerbsreihenfolge nur ein Ergebnis der Schreibdidaktik ist oder ob sie davon unabhängig ist. Wenn man jedoch bedenkt, dass zunächst Einheiten vorhanden sein müssen, auf die die grammatischen Prinzipien des Schriftsystems angewandt werden können, so scheint es in der Logik des Schriftsystems zu liegen, dass sie in der Erwerbsfolge nach der Phonographie kommen. Dennoch konnte gezeigt werden, dass die „grammatical awareness“ (z. B. bei
807 der Korrektur grammatisch falscher Sätze) bei Vorschulkindern teilweise unabhängig von ihrer „phonological awareness“ in gewissem Umfang die Entwicklung ihrer Lesefähigkeit vorhersagen kann (Blackmore & Pratt, 1997). Man kann also davon ausgehen, dass grammatisches Wissen in Teilen dem Schriftspracherwerb vorangeht und dann von ihm nutzbar gemacht wird (zu ähnlichen Befunden kommen auch Muter & Snowling, 1997). Das interessanteste Phänomen bei dem Erwerb der grammatischen Fundierung des Schriftsystems kann darin gesehen werden, dass sie, wenn überhaupt, dann nur unzureichend oder gar falsch gelehrt und trotzdem im Regelfall problemlos gelernt wird (dies gilt auch für die Dehnung und Schärfung). So wird z. B. die satzinterne Großschreibung in der Regel so gelehrt: Nomen werden großgeschrieben. Nomen wiederum werden entweder durch semantische Merkmale (Belebtheit, Konkretheit o. ä.) eingeführt oder durch die sog. Artikelprobe. Die tatsächlichen grammatischen Kriterien dafür, dass ein Wort im Satz als Nomen verwendet wird, (idealiter attributive Erweiterbarkeit, Plural-, Kasus- und Genusfähigkeit) werden hingegen nicht gelehrt. In einer Untersuchung, in der Kinder vorliegende Schreibungen beurteilen sollten, zeigte sich, dass sie zwar die in der Schule gelernten Regeln als Versatzstücke in ihren Begründungen benutzten, ihre tatsächlichen Schreibungen davon jedoch z. T. unabhängig waren (vgl. Weingarten, 2001). So argumentierten Kinder des zweiten Schuljahres, dass das Wort „Flugreise“ kleingeschrieben werden müsse, da man „dies ja tue“. Unmittelbar anschließend schrieben sie das Wort jedoch groß. Noch ausgeprägter ist dieses Phänomen bei der Getrennt-/Zusammenschreibung. Die grammatischen Kriterien dafür, ob ein vorliegender Ausdruck ein Wort oder eine Wortgruppe ist und demgemäß zusammen oder getrennt zu schreiben ist, sind relativ komplex. Davon wird praktisch nichts in der Schule gelehrt. Dieses System erschließen sich die Kinder im Schriftspracherwerb völlig autonom. Die Interpunktion hat insbesondere die Funktion, die grammatische Struktur eines Textes für den Leser transparent zu machen. Sie dient der Ausgrenzung von Ganzsätzen, der Anzeige einer Koordination von Wörtern, Wortgruppen oder Teilsätzen sowie der Anzeige der Subordination von satzwertigen
808
VI. Spracherwerb
Konstituenten und von Herausstellungen. Weiterhin hat sie in Teilbereichen pragmatische Funktionen. In erster Linie setzt die Beherrschung der Interpunktion aber grammatische Kenntnis voraus. Eine umfangreiche Untersuchung dieses Prozesses bis zum 17. Lebensjahr wurde von Afflerbach (1997) vorgelegt. Dabei konnte gezeigt werden, dass die Interpunktion mit der Elaborierung der syntaktischen Strukturen der geschriebenen Texte einhergeht. Weiterhin wurde hier ein Erwerbsmodell vorgeschlagen, nachdem sich die Lerner zunächst eigenaktiv mit dem System auseinandersetzen. In einer zweiten Phase wenden sie das gelernte System bewusst an, bevor in einer dritten Phase die bewusste Interpunktion wieder zurückgeht und Routineprozessen weicht, die nur noch bedingt der Reflexion zugänglich sind. Der Erwerb der grammatischen Fundierung des Schriftsystems ist insgesamt noch vergleichsweise wenig untersucht. Das interessanteste Phänomen in diesem Bereich ist seine weitgehende Unabhängigkeit von Lehrprozessen.
4.
Graphomotorik
Während die Artikulation die letzte Phase in der Produktion gesprochener Sprache bildet, führt die schriftliche Sprachproduktion zur Graphomotorik. Hier sind die beiden unter motorischer Perspektive völlig unterschiedlichen Formen der Handschrift und der Tastaturschrift zu unterscheiden, wobei für den Beginn des Schriftspracherwerbs in seiner gegenwärtigen Form insbesondere die Handschrift wichtig ist. Nur sie wird in diesem Ab-
Abb. 58.1: Schriftzüge auf einem Graphiktablett
schnitt behandelt. Bei einer Untersuchung der Graphomotorik stellen sich die folgenden Fragen: Was ist der Input des graphomotorischen Moduls? Auf welche Ressourcen greift es zurück? Wie ist sein Output beschaffen? Im Logogen-Modell erhält der Motorische Output-Buffer seinen Input aus dem Graphemischen Output-Buffer. Dabei werden die Grapheme in Allographen, für die ein allographischer Speicher angenommen wird, umgewandelt (vgl. Thomassen, 1996). Dieser Speicher enthält abstrakte Informationen über die Buchstabenform mit räumlichen und motorischen Merkmalen. Anschließend werden die Allographen in motorische Muster übersetzt, die dann durch die entsprechenden Muskelgruppen realisiert werden. Die Vielzahl der beteiligten Muskeln der Hand und des Armes erfordert eine äußerst komplexe Bewegungskoordination. Im folgenden Beispiel soll die graphomotorische Entwicklung verdeutlicht werden. In Abbildung 58.1 sind die mit einem Graphiktablett erhobenen Schriftzüge bei der Schreibung des Buchstabens ⬍K⬎ durch ein Kind aus dem 2.Schuljahr und eine Erwachsene zu sehen. Zunächste sind die Unterschiede in der Form zu erkennen: Das Kind verwendet die Lateinische Ausgangsschrift, die Erwachsene eine individuelle Form, die im Vergleich zu dem Buchstaben des Kindes stark vereinfacht ist (der Buchstabe ist ähnlich einem ⬍K⬎ der Vereinfachten Ausgangsschrift.). Die unterschiedliche Dichte der Messpunkte auf den Schriftzügen macht deutlich, dass die Erwachsene erheblich schneller schrieb als das Kind. Tabelle 1 zeigt, dass die einzelnen motorischen Einheiten sowie des
809
58. Schriftspracherwerb
Tabelle 58.1: Dauer der einzelnen motorischen Einheiten. Beide Buchstaben waren aus je zwei Schriftzügen (Zeitraum zwischen Aufsetzen und nächstem Abheben des Stiftes) und einem Luftsprung (Zeitraum zwischen Abheben und nächstem Aufsetzen des Stiftes) gebildet:
Kind 2. Schj. Erwachsene
Schriftzug 1
Luftsprung
Schriftzug 2
Gesamtschreibzeit
1230 ms 160 ms
620 ms 136 ms
1400 ms 230 ms
3250 ms 520 ms
Abb. 58.2: Geschwindigkeitsverlauf bei der Schreibung der Buchstaben aus Abb. 58.1 Die y-Achse gibt die zurückgelegte Strecke an, die x-Achse die Messzeiten in Schritten von 10 ms. D. h., je höher der Wert auf der y-Achse, desto höher war die Schreibgeschwindigkeit. Lücken zwischen den Kurven entstehen durch Luftsprünge mit dem Stift.
gesamten Buchstabens bei dem Kind etwa sechsmal länger dauerten als bei der Erwachsenen. Neben der Veränderung bzw. Vereinfachung der Buchstabenform, der Verkürzung der Schreibzeit, ist die dritte und wichtigste graphomotorische Veränderung im Rahmen des Schriftspracherwerbs die Veränderung des Geschwindigkeitsprofils. Dies zeigt Abbildung 58.2. Im Geschwindigkeitsverlauf des Kindes lassen sich motorische Gruppen zwar erkennen, sie haben jedoch einen sehr irregulären Verlauf: Der erste Schriftzug, etwa bis zum Messpunkt 123 (also nach 1230 ms), weist ein Geschwindigkeitsminimum auf, das durch den Richtungswechsel des Schriftzuges oben in der Mitte des ⬍K⬎ bedingt ist. Ebenso weist der zweite Schriftzug ein Minimum auf, das aus dem Richtungswechsel in der Mitte des ⬍K⬎ resultiert. Insofern ist zwar eine motorische Grobstruktur zu erkennen, innerhalb dieser Einheiten ist der Geschwindigkeitsverlauf jedoch völlig irregulär. Er weist die typischen Merkmale nicht-automatisierter, sondern kontrollierter Bewegungen auf (vgl. Mai & Marquardt, 1998). Der Geschwindigkeitsverlauf der Erwachsenen ist hingegen erheblich klarer und kommt der idealtypischen Form automatisierter Bewegungen mit einem eingipfligen Geschwindigkeitsprofil relativ nahe.
Das unstrukturierte Geschwindigkeitsprofil in den Schriftzügen von Schreibanfängern hängt übrigens nicht mit einem generellen motorischen Problem zusammen – andere Zeichenaufgaben können durchaus ein eingipfliges Profil aufweisen. Dieses Profil ist vielmehr schreibspezifisch und geht darauf zurück, dass die motorischen Programme für die Buchstabenschreibungen noch nicht automatisiert sind. Individualisierung und damit häufig motorische Ökonomisierung der Buchstabenform, höhere Schreibgeschwindigkeit und automatisierter Bewegungsablauf sind auf der Buchstabenebene die wichtigsten graphomotorischen Entwicklungsdimensionen. Auf der Wortebene gibt es noch eine weitere Form der Strukturierung der Schreibdynamik. Je länger der Stift ohne Unterbrechung auf der Schreibfläche bewegt wird, desto höher wird der Schreibdruck bzw. der Muskeltonus des Schreibarms. Daher wird von routinierten Schreibern insbesondere bei längeren Wörtern der Stift mehrfach abgehoben, was in Luftsprüngen und damit Lücken zwischen den Buchstaben resultiert. Diese Unterbrechungen erfolgen nun nicht nach einem starren Zeitschema, sondern liegen mit fortschreitendem Schriftspracherwerb zunehmend dort, wo innerhalb eines Wortes Silben- und Morphemgrenzen zusammenfallen (Weingarten, 1998). Dies deutet darauf hin,
810
VI. Spracherwerb
dass aus dem graphemischen Output-Buffer nicht das voll spezifizierte Wort an das motorische Modul weitergegeben wird, sondern sprachstrukturell bedingte Subeinheiten. Dieses Phänomen zeigt sich allerdings weniger bei Schreibanfängern, sondern es bildet sich erst im Laufe des Schriftspracherwerbs heraus. Aus diesen Ergebnissen wie auch aus der oben erwähnten Studie von Jones und Christensen (1999) geht eine Interaktion zwischen den einzelnen Phasen der schriftlichen Sprachproduktion hervor, deren Entwicklung im Schriftspracherwerb aufeinander abgestimmt werden muss.
5.
Literatur
Afflerbach, S. (1997). Zur Ontogenese der Kommasetzung vom 7. bis zum 17. Lebensjahr. Frankfurt: Peter Lang. Antos, G. (1996). Die Produktion schriftlicher Texte. In H. Günther & O. Ludwig (Hrsg.), Handbuch Schrift und Schriftlichkeit (pp. 1527⫺1535). Berlin: de Gruyter. Augst, G. & Faigel, P. (1986). Von der Reihung zur Gestaltung. Untersuchungen zur Ontogenese der schriftsprachlichen Fähigkeiten von 13⫺23 Jahren. Frankfurt am Main: Lang. Becker-Mrotzek, M. (1997). Schreibentwicklung und Textproduktion. Opladen: Westdeutscher Verlag. Be´land. R., Bois, M., Seron, X. & Damien, B. (1999). Phonological spelling in a DAT patient: The role of the segmentation subsystem in the phoneme-grapheme-conversion. Cognitive Neuropsychology, 16, 115⫺155. Bereiter, C. & Scardamalia, M. (1987). The psychology of written composition. Hillsdale, N.J.: Erlbaum. Blackmore, A. M. & Pratt, Ch. (1997). Grammatical awareness and reading in grade 1 children. Merrill-Palmer Quarterly, 43, 567⫺590. Boueke, D., Schülein, F., Büscher, H.,Terhorst, E. & Wolf, D. (1995). Wie Kinder erzählen. Untersuchungen zur Erzähltheorie und zur Entwicklung narrativer Fähigkeiten. München: Fink. Caplan, D. & Waters, G. S. (1999). Verbal working memory and sentence comprehension. Behavioral and Brain Sciences, 22, 77⫺126.
und Rechtschreiben. Diskussion Deutsch, 22, 13⫺ 33. Ehlich, K. (1994). Funktion und Struktur schriftlicher Kommunikation. In H. Günther & O. Ludwig (Hrsg.), Handbuch Schrift und Schriftlichkeit (pp. 18⫺41). Berlin: de Gruyter. Eichler, W. (1991). Nachdenken über das richtige Schreiben. Innere Regelbildung und Regelfehlbildung im Orthographieerwerb. Diskussion Deutsch, 22, 34⫺44. Eichler, W. & Küttel, H. (1993). Eigenaktivität, Nachdenken und Experiment – zur inneren Regelbildung im Erwerb der Zeichensetzung. Diskussion Deutsch, 29, 35⫺44. Eisenberg, P. (1998). Grundriss der deutschen Grammatik. Bd.1: Das Wort. Stuttgart: Metzler. Feilke, H. (1996). Die Entwicklung der Schreibfähigkeiten. In H. Günther & O. Ludwig (Hrsg.), Handbuch Schrift und Schriftlichkeit (pp. 1178⫺ 1191). Berlin: de Gruyter. Frith, U. 1985. Beneath the surface of developmental dyslexia. In K. E. Patterson, J. C. Marshall & M. Coltheart (Eds.), Surface dyslexia: Neuropsychological and cognitive studies of phonological reading (pp. 301⫺330). London: Erlbaum. Givo´n, T. (1979). On understanding grammar. New York: Academic Press. Glück, H. (1987). Schrift und Schriftlichkeit. Eine sprach- und kulturwissenschaftliche Studie. Stuttgart: Metzler. Gombert, J. E. (1992). Metalinguistic development. University of Chicago Press. Günther, H. (1988). Schriftliche Sprache. Strukturen geschriebener Wörter und ihre Verarbeitung beim Lesen. Tübingen: Niemeyer. Günther, H., Gantioler, I. & Linnemann, M. (1999). Was Rechtschreiber können und nicht wissen – Experimentelle Studien zum sog. Dehnungs-h. Ms. Köln. Hayes, J. R. (1996). A new framework for understanding cognition and affect in writing. In C. M. Levy & S. Ransdell (Eds.), The science of writing (pp. 1⫺27). Mahwah, N.J.: Erlbaum. Hayes, J. R. & Flower, L. S. (1980). Identifying the organization of writing processes. In L. W. Gregg & E. R. Sternberg (Eds.), Cognitive processes in writing (pp. 3⫺30). Hillsdale, N.J.: Erlbaum.
Dehn, M. (1985). Über die sprachanalytische Tätigkeit des Kindes beim Schreiben. Diskussion Deutsch, 16, 25⫺51.
Hausendorf, H. & Quasthoff, U. (1996). Interaktion und Entwicklung. Eine Studie zum Erwerb von Diskursfähigkeit bei Kindern. Opladen: Westdeutscher Verlag.
Dehn, M. (1991). Entdeckend lernen – mit Einsicht üben. Lehr-Lern-Prozesse beim Schreiben
Jones, D. & Christensen, C. A. (1999). Relationship between automaticity in handwriting and stu-
58. Schriftspracherwerb dents’ ability to generate written text. Journal of Educational Psychology, 91, 44⫺49. Klicpera, Ch. & Gasteiger-Klicpera, B. (1995). Psychologie der Lese- und Schreibschwierigkeiten. Entwicklung, Ursachen, Förderung. Beltz: Psychologie VerlagsUnion. Levelt, W. J. M., Roelofs, A. & Meyer, A. S. (1999). A theory of lexical access in speech production. Behavioral and Brain Sciences, 22, 1⫺75. Mai, N. & Marquardt, Ch. (1998). Registrierung und Analyse von Schreibbewegungen: Fragen an den Schreibunterricht. In L. Huber, G. Kegel & A. Speck-Hamdan (Hrsg.), Einblicke in den Schriftspracherwerb (pp. 83⫺99). Braunschweig: Westermann. Mannhaupt, G. (1994). Deutschsprachige Studien zu Intervention bei Lese-Rechtschreibschwierigkeiten. Ein Überblick zu neueren Forschungstrends. Zeitschrift für Pädagogische Psychologie, 8, 123⫺ 138. Marini, V. & Blanken, G. (1996). Orthographie ohne Phonologie. Ein Fall von Tiefenagraphie bei neologistischer Jargon-Aphasie. Neurolinguistik, 10, 83⫺107. Miceli, G., Benvegnu`, B., Capasso, R. & Caramazza, A. (1997). The independece of phonological and orthographic lexical forms: Evidence from aphasia. Cognitive Neuropsychology, 14, 35⫺69. Miceli, G., Capasso, R. & Caramazza, A. (1999). Sublexical conversion procedures and the interaction of phonological and orthographic lexical forms. Cognitive Neuropsychology, 16, 557⫺572. Morton, J. (1979). Word recognition. In J. Morton & J.C. Marshall (Eds.), Psycholinguistic Series vol. 2: Structures and Processes (pp. 107⫺156). London: Elek. Muter, V. & Snowling, M. (1997). Grammar and phonology predict spelling in middle childhood. Reading and Writing: An Interdisciplinary Journal, 9, 407⫺425. Rapp, B., Benzing, L. & Caramazza, A. (1997). The autonomy of lexical orthography. Cognitive Neuropsychology, 14, 71⫺104. Rigol, R. (1998). Alphabet und Silbe. Erfahrungen mit dem Anfang der Schriftlichkeit. In R. Weingarten & H. Günther (Hrsg.), Schriftspracherwerb (pp. 19⫺35). Baltmansweiler: Schneider. Röber-Siekmeyer, Ch. & Pfisterer, K. (1998). Silbenorientiertes Arbeiten mit einem leseschwachen
811 Zweitklässler. Begründung und Beschreibung einer nicht buchstabenorientierten Unterrichtsfolge zum Lesenlernen. In R. Weingarten & H. Günther (Hrsg.), Schriftspracherwerb (pp. 36⫺61). Baltmansweiler: Schneider. Scheerer-Neumann, G. (1986). Sprechen, Denken und Rechtschreiben. Schreibe wie du sprichst – Rechtschreibhilfe? – falsche Strategie – oder unvermeidlich? Grundschule, 6, 20⫺24. Scheerer-Neumann, G. (1998). Schriftspracherwerb: „The state of the art“ aus psychologischer Sicht. In L. Huber, G. Kegel & A. Speck-Hamdan (Hrsg.), Einblicke in den Schriftspracherwerb (pp. 31⫺46). Braunschweig: Westermann. Thomassen, A., J. W. M. (1996). Writing by hand. In H. Günther & O. Ludwig (Hrsg.), Handbuch Schrift und Schriftlichkeit (pp. 1027⫺1035). Berlin: de Gruyter. Treimann, R., Berch, D. & Weatherston, S. (1993). Children’s use of phoneme-grapheme correspondence in spelling: Roles of position and stress. Journal of Educational Psychology, 85, 466⫺477. Underwood, G. & Batt, V. (1996). Reading and understanding. Oxford: Blackwell Publishers. Weingarten, R. (1989). Die Verkabelung der Sprache. Frankfurt/M.: Fischer. Weingarten, R. (1998). Schreibprozesse und Schriftspracherwerb. In R. Weingarten & H. Günther (Hrsg.), Schriftspracherwerb (pp. 62⫺81). Baltmansweiler: Schneider. Weingarten, R. (2001). Orthographisch-grammatisches Wissen. In S. Wichter & G. Antos (Hrsg.), Wissenstransfer zwischen Experten und Laien (pp. 209⫺226). Frankfurt/Main: Peter Lang. Weingarten, R. & Günther, H. (1998). (Hrsg.). Schriftspracherwerb. Baltmansweiler: Schneider. Wentink, H. W. M. J., van Bon, W. H. J. & Schreuder, R. (1997). Training of poor readers’ phonological decoding skills: Evidence of syllable-bound processing. Reading and Writing: An Interdisciplinary Journal, 9, 163⫺192. Will, U., Weingarten, R. Nottbusch, G. & Albes, Ch. (2002). Linguistische Rahmen und segmentale Informationen bei der Einzelwortschreibung. Evidenzen aus Zeitstrukturen und Fehlerverteilungen. Erscheint in: Ch. Habel & Th. Pechmann (Hrsg.), Sprachproduktion. Opladen: Westdeutscher Verlag.
Rüdiger Weingarten Universität Osnabrück (Deutschland)
812
VI. Spracherwerb
59. Spracherwerb im Erwachsenenalter 1. 2. 3. 4. 5. 6.
1.
Modelle des Spracherwerbs und der Entwicklung von Kommunikationsfähigkeiten Ursachen der Veränderung sprachlichkommunikativer Fähigkeiten Erwerbsprozesse als Folge gesellschaftlichen Wandels Erwerbsprozesse in der Lebensspanne Zusammenfassung Literatur
Modelle des Spracherwerbs und der Entwicklung von Kommunikationsfähigkeiten
Dass Menschen die Fähigkeit, miteinander zu kommunizieren und zu sprechen, in einem langwierigen Prozess erst erwerben, ist evident. Linguistische Versuche, diesen Spracherwerb im Kindesalter zu beschreiben und zu erklären, füllen Bibliotheken. Weniger evident ist die Antwort auf die Frage, ob dieser Spracherwerb einen End- bzw. Sättigungspunkt – die Beherrschung der Sprache – erreicht oder ob es sich dabei eher um einen kontinuierlichen Prozess des Erwerbs und der Veränderung handelt, der zu keinem Abschluss kommt. Diese unterschiedlichen Auffassungen lassen sich als Plateaumodell oder als Permanenzmodell des Spracherwerbs charakterisieren. Für das Plateaumodell ist die Annahme charakteristisch, „that language development „crystalizes“ sometime during adolescence and […] remains uniform across the life-span“ (Kemper et al., 1989: 49). Das Permanenzmodell hingegen geht von einer lebenslangen Veränderung sprachlich-kommunikativer Fähigkeiten aus. Welches dieser Modelle man favorisiert, hängt ganz wesentlich von dem zugrunde gelegten Verständnis von Sprache und Kommunikation ab. Versteht man im Rahmen einer Langue- oder Kompetenz-Konzeption unter Sprache ein Lexikon und ein System von grammatischen Regeln, die angeben, wie diese Wörter aufeinander zu beziehen und miteinander zu verknüpfen sind, wird man zwar nicht unbedingt für das Lexikon, aber auf jeden Fall für das System der grammatischen Regeln zu der Auffassung kommen, dass der Spracherwerb weitgehend zu einem Abschluss kommt. Versteht man unter Sprachbeherrschung hingegen die Gesamtheit der Konventionen und Regeln, die not-
wendig sind, um partner- und situationsgerecht kommunizieren zu können (vgl. Fiehler, 1995, für eine genauere Differenzierung der Regeln, die Sprachbeherrschung ausmachen), wird man eher zu der Auffassung neigen, dass der Spracherwerb ein lebenslanger, zu keinem Zeitpunkt abgeschlossener Prozess ist. Nun ist die erstgenannte Sprachauffassung unbestreitbar die linguistisch vorherrschende, was u. a. zur Folge hatte und hat, dass man Entwicklungsprozessen der sprachlichen und kommunikativen Fähigkeiten im Erwachsenenalter – und entsprechend auch im Alter – kaum Beachtung geschenkt bzw. sie als Performanzphänomene marginalisiert hat: „Some areas of language and variation development are better documented than others. Much more is known about fine age differences in the early years than in the later years, and in fact, less is known about agerelated patterns of variation the further we move along in the life course.“ (Eckert, 1997: 158⫺159) Auf der Basis der zweiten Sprachauffassung soll hier hingegen Spracherwerb und -entwicklung als ein permanenter Prozess verstanden werden. Sprachliche und kommunikative Fähigkeiten entwickeln und verändern sich über die gesamte Lebensspanne: „language development is a life-long process of change in response to changing cognitive abilities and social motivations“ (Kemper et al., 1989: 64⫺65). Der Ausbau dieser Fähigkeiten besitzt in der sprachlich-kommunikativen Sozialisation des Kleinkindes, in der Schule und in der beruflichen Sozialisation und Praxis eine besondere Dynamik, Veränderungen erfolgen aber auch in allen anderen Lebensphasen – insbesondere auch im Alter. Im Erwachsenenalter handelt es sich nicht um Spracherwerb im engeren Sinne (es sei denn beim Fremdsprachenerwerb), sondern um Veränderungen der sprachlich-kommunikativen Fähigkeiten. Die Veränderungen können in einer Erweiterung, einer Reduktion oder in der Umstrukturierung dieser Fähigkeiten bestehen: „In some sense the language development of early childhood and even late childhood is different from that of adulthood since there is probably a core language all children learn, whereas the special language registers and skills of adolescence and adulthood are relatively optional – only
813
59. Spracherwerb im Erwachsenenalter
people who need them and find themselves exposed to them have a chance to acquire them.“ (Obler, 1993: 422)
lich-globale (Abschn.3) und eine personenbezogen-biographische Perspektive (Abschn. 4) zu unterscheiden.
2.
3.
Ursachen der Veränderung sprachlich-kommunikativer Fähigkeiten
Fragt man nach den Ursachen, die Veränderungen der sprachlich-kommunikativen Fähigkeiten im Erwachsenenalter bewirken, so sind zwei große Komplexe zu unterscheiden: zum einen biologisch basierte Ursachen und zum anderen sozial fundierte Ursachen. Biologische Erklärungen für Veränderungen der sprachlich-kommunikativen Fähigkeiten rekurrieren auf die menschliche Physis. Die physischen Veränderungen werden dabei in normale und außergewöhnliche differenziert. Die normalen Veränderungen sind häufig auf ein Stadienmodell (Entfaltung, Reife, Abbau) bezogen. Geht man davon aus, dass die Physis nach Abschluss der Pubertät über einen längeren Zeitraum relatv stabil ist, sind hier keine wesentlichen Anstöße für Veränderungen zu erwarten. Biologisch bedingte Veränderungen treten verstärkt erst wieder mit zunehmendem Alter auf. Sie werden vor allem mit physischen Abbauprozessen in Verbindung gebracht und bestehen in einer Umstrukturierung und einer Reduktion, seltener in einer Erweiterung sprachlich-kommunikativer Fähigkeiten. Außergewöhnliche Veränderungen können durch (psychische) Krankheiten, krankhaft beschleunigte Abbauprozesse (z. B. Alzheimer-Demenz), Verletzungen (z. B. Hirnschädigungen) etc. verursacht sein. Die wesentlichen physischen Bereiche, die zur Erklärung sprachlich-kommunikativer Veränderungen im Alter herangezogen werden, sind die Organe der Stimmerzeugung (z. B. zittrige, brüchige Stimme) und das Gehör (Schwerhörigkeit mit ihren kommunikativen Folgen) sowie vor allem das Gehirn mit seinen kognitiven und affektiven Funktionen, wobei insbesondere Veränderungen der Gedächtnisleistungen (vgl. Kemper et al., 1989) und Veränderungen in den Prozessen der Sprachproduktion und -rezeption (z. B. Wortfindungsstörungen) eine wichtige Rolle spielen. Betrachtet man auf der anderen Seite die sozial basierten Ursachen für die Entwicklung sprachlich-kommunikativer Fähigkeiten im Erwachsenenalter, so sind eine gesellschaft-
Erwerbsprozesse als Folge gesellschaftlichen Wandels
In globaler Perspektive ist es vor allem der gesellschaftliche Wandel, der sprachlich-kommunikative Erwerbsprozesse als Anpassung an die sozialen Veränderungen induziert. Um nur drei wichtige Beispiele zu nennen: ⫺ Prozesse der Technisierung (wie die Einführung des Computers und der neuen Kommunikationstechnologien) machen die Beherrschung neuer kommunikativer Praktiken erforderlich (wie z. B. das Besprechen von Anrufbeantwortern oder die Durchführung von Videokonferenzen), was auch den Erwerb einer entsprechenden Terminologie einschließt (Runkehl, Schlobinski & Siever, 1998; Kallmeyer, 2000). ⫺ Die wirtschaftliche Globalisierung erfordert und trägt in einem erheblichen Maß zum Erwerb von Fremdsprachen und zur Ausbildung interkultureller Gesprächskompetenz bei (Müller, 1993). ⫺ Gesellschaftliche Umbrüche (wie z. B. die Wiedervereinigung von BRD und DDR) verlangen den Betroffenen große sprachlich-kommunikative Anpassungsleistungen ab (Auer & Hausendorf, 2000). Solche Prozesse globalen gesellschaftlichen Wandels betreffen jeweils unterschiedlich viele Individuen, und sie unterliegen ihnen unterschiedlich stark wie auch zu verschiedenen Zeitpunkten und in verschiedenen Phasen ihrer Biographie.
4.
Erwerbsprozesse in der Lebensspanne
Bei der personenbezogen-biographischen Perspektive der Life-span-Forschung geht es darum, bestimmte sprachlich-kommunikative Veränderungen mit biologischen Veränderungen einerseits (s. o.) und Veränderungen der sozialen Lebenssituation andererseits in Zusammenhang zu bringen und sie aus ihnen herzuleiten. Im Folgenden werde ich mich vor allem mit den sozialen Ursachen für die Veränderung sprachlichen Verhaltens befassen. Betrachtet man die Entwicklung sprach-
814 lich-kommunikativer Fähigkeiten über die Lebenspanne, so erfolgen die wesentlichen Entwicklungen im Erwachsenenalter zum einen im Kontext der beruflichen Sozialisation und Praxis und zum anderen im Zusammenhang mit den Prozessen des Alterns. 4.1. Erwerb sprachlich-kommunikativer Fähigkeiten im Kontext beruflicher Tätigkeit In der Berufsausbildung werden nicht nur das für die jeweilige berufliche Tätigkeit erforderliche (Fach-)Wissen und entsprechende praktische Fertigkeiten, sondern zu einem erheblichen Anteil auch sprachlich-kommunikative Fähigkeiten erworben (Brünner, 1987). Diese Erwerbsprozesse setzen sich in der beruflichen Praxis fort. Sie bestehen zum einen in der Entwicklung und Ausdifferenzierung der allgemeinen Kommunikationsfähigkeit durch die Vielzahl der kommunikativen Anforderungen, die die berufliche Tätigkeit mit sich bringt. Dies gilt insbesondere für kommunikationsintensive Berufe oder Berufe, deren Kern in der Ausführung bestimmter mündlicher oder schriftlicher kommunikativer Aktivitäten besteht (Lehrer, Richter, Anwälte, Journalisten, Reporter, Wissenschaftler, Schriftsteller, Therapeuten, Call-CenterMitarbeiter etc.). Erworben werden aber auch speziellere Fähigkeiten wie die Beherrschung berufsspezifischer Gesprächsformen (Vortrag, Präsentation, Interview, Besprechung, Beratung, Verhör, Reportage, Moderation etc.) und berufsspezifischer Fachsprachen. Letzteres schließt den Erwerb einer entsprechenden Terminologie ein. Entwickelt wird auch die Fähigkeit, im Rahmen von Experten-Laien-Interaktionen professionelles Wissen extern zu vermitteln. Im beruflichen Kontext wird ferner häufig die Beherrschung technisierter Kommunikationsformen (E-mail, Telefon-/Videokonferenzen, Arbeit mit Mehrplatzsystemen etc.) erlernt. Neben der Entwicklung muttersprachlicher Fähigkeiten erfordert die berufliche Tätigkeit zunehmend auch den – gesteuerten oder ungesteuerten – Erwerb von Fremdsprachen und die Ausbildung interkultureller Gesprächskompetenz. Welche dieser kommunikativen Fähigkeiten erworben bzw. ausdifferenziert werden, ist natürlich in einem hohen Maß berufs- bzw. arbeitsplatzspezifisch. Der Erwerb von sprachlich-kommunikativen Fähigkeiten kann dabei auf unterschiedliche Art erfolgen: einerseits als ‘learning on the job’ in der Kommunikationspraxis selbst
VI. Spracherwerb
(ungesteuert), andererseits durch systematisches Lehren und Lernen entsprechender Fähigkeiten (gesteuert). Beim ungesteuerten Erwerb, der einen erheblichen Anteil ausmachen dürfte („Much of adult language acquisition is not formally learned but is acquired in context.“ Obler, 1993: 425), wird die eigene Kommunikationspraxis im Hinblick auf Defizite oder Probleme reflektiert, und es werden kommunikative Alternativen entwickelt und erprobt. Auch das beobachtete Kommunikationsverhalten anderer kann dabei zur Alternativenfindung dienen. Der gesteuerte Erwerb erfolgt in der Berufsausbildung (als Unterricht) wie auch in Form von (Kommunikations-)Trainings, die die Berufspraxis begleiten. Kommunikationstrainings stellen den Versuch dar, sprachlich-kommunikative Fähigkeiten explizit und systematisch in Form von Unterricht und Übungen zu entwickeln und zu verändern (vgl. Fiehler, 2001). Angesichts der Vielfalt der Entwicklungsprozesse im beruflichen Kontext ist es unverständlich, warum ihnen – als spezifische Form von Erwerbsprozessen – von wissenschaftlicher Seite bisher nicht höhere Aufmerksamkeit geschenkt wurde: „Thus, linguists know there exists the potential for long-term acquisition of language, but we do not usually treat all these postchildhood language skills within the developmental framework.“ (Obler, 1993: 422) 4.2. Veränderung sprachlichkommunikativer Fähigkeiten im Kontext des Alterns Auf die sprachlich-kommunikativen Veränderungen im Alter soll – weil üblicherweise vernachlässigt – an dieser Stelle ausführlicher eingegangen werden. Versucht man die Entwicklung der sprachlich-kommunikativen Fähigkeiten im Alter – wie es hier geschieht – als Folge von Veränderungen der Lebenssituation und alterstypischen Erfahrungen zu verstehen, betritt man damit einem Minderheitenweg, sind doch die sprachlich-kommunikativen Veränderungen bisher ganz überwiegend als Resultat biologischer Ursachen betrachtet worden. Mit dem Altern (verstanden als Anwachsen des numerischen Lebensalters) gehen in jeder Kultur für das Individuum bestimmte typische soziale Veränderungen und Erfahrungen einher (Fiehler, 1998b). Diese Veränderungen und Erfahrungen lassen sich als Anforderungen verstehen, auf die die Betroffenen kommunikativ reagieren. Sie haben
59. Spracherwerb im Erwachsenenalter
kommunikative Folgen und führen vermittelt darüber zur Veränderung der sprachlichkommunikativen Fähigkeiten. Versucht man zu explizieren, was in dieser Kultur mit dem Prozess des Alterns verbunden ist, kann man eine Reihe von sozialen Veränderungen und Erfahrungen anführen, die im Folgenden kursorisch zusammengestellt werden sollen: Typische Veränderungen der sozialen Situation entstehen z. B. durch das Ende der Berufstätigkeit. Dies erfordert eine Umstellung auf das ‘Rentnerdasein’, ermöglicht andererseits aber auch die Erschließung alternativer Tätigkeitsfelder. Mit dem Ende der Berufstätigkeit ist eine Veränderung der ökonomischen Situation verbunden, die sich in der Regel verschlechtert. Dies kann bis zur Armut und zum sozialen Abstieg reichen. Auf der anderen Seite ist aber auch ein Alter im Wohlstand möglich. Eine weitere Veränderung ist der Übergang aus der Eltern- in die Großelternrolle und damit der Übergang aus der Gestalter- in eine Unterstützungsrolle. Diese Generationsablösung bedeutet zugleich einen Dominanzwechsel. Der Übergang in die Großelternrolle und das Ende der Berufstätigkeit bringen auf der anderen Seite aber auch eine Zunahme an Freiheit mit sich, weil zentrale Verpflichtungen entfallen. Die Zunahme an Freizeit eröffnet im Prinzip vielfältige Entwicklungsmöglichkeiten. Typische Veränderungen in den sozialen Beziehungen ergeben sich aus dem Tod von Ehegatten, Verwandten und Bekannten. Zusammen mit einer abnehmenden Mobilität kann dies generell zu einer Verringerung der sozialen Kontakte (und der Kontaktfähigkeit) führen. Umgekehrt können aufgrund der Zunahme an Freiheit aber auch neue Kontakte geknüpft werden. Zu nennen sind hier auch Veränderungen im Stellenwert der Sexualität. Typische Erfahrungen in der (intergenerationellen) Interaktion sind z. B., dass die Jüngeren ⫺ absichtlich oder unabsichtlich ⫺ durch ihr Verhalten den Älteren zu verstehen geben, dass sie alt sind. D. h. es entsteht die Notwendigkeit des Umgangs mit Altersattributierungen und mit der ganzen Palette der herangetragenen Altersstereotype. Zu diesen Erfahrungen gehört häufig auch, nicht mehr für voll genommen zu werden. Typische Erfahrungen mit sich selbst bestehen in der Regel darin, dass physische, mentale und psychische Beeinträchtigungen bzw.
815 Krankheiten zunehmen, bis hin zu dem Punkt, dass man sich selbst nicht mehr versorgen kann und von anderen abhängig wird. Damit einher geht eine Verringerung der unmittelbaren Welterfahrung. Umgekehrt kann das Bewusstsein großer eigener sozialer Erfahrung bestehen (die u. U. aber nicht gefragt ist). Weiter wird häufig die Erfahrung gemacht, dass Fähigkeiten nachlassen, so z. B., dass die Lernfähigkeit (und Lernbereitschaft) abnimmt oder dass relevante Kulturtechniken zunehmend nicht oder nicht mehr beherrscht werden (Auto fahren, Automaten-/ Computerbedienung etc.). Dies kumuliert häufig in der Erfahrung, dass Entwicklungen über einen hinweggehen. Ein relevanter Teil der alten Menschen muss auch erfahren, dass Spontaneität und Flexibilität nachlassen und Verhaltensroutinen einen immer größeren Platz einnehmen. Dies kann einhergehen mit wachsender Intoleranz, während umgekehrt auch eine mit dem Alter zunehmende Toleranz möglich ist. Eine gravierende Erfahrung ist ferner, sich mit dem eigenen Tod zu beschäftigen. Diese kurze Zusammenstellung der Veränderungen und Erfahrungen im Alter umreißt ein typisches Szenario des Alterns in unserer Kultur. Dabei ist wichtig, im Auge zu behalten, dass diese Veränderungen und Erfahrungen nicht alle alten Personen gleichermaßen betreffen, sondern dass dies individuell – sowohl im Hinblick auf die Auswahl, den Zeitpunkt und die persönliche Bedeutsamkeit – sehr variabel sein kann. Deutlich geworden ist auch, dass in Bezug auf einzelne Punkte völlig gegensätzliche Erfahrungen gemacht werden können. Zudem können die Betroffenen, selbst wenn sie die ‘gleichen’ Veränderungen erleben und Erfahrungen machen, sie unterschiedlich gewichten und auch auf höchst unterschiedliche Weise – akzeptierend oder opponierend, dramatisierend oder bagatellisierend, aufarbeitend oder verdrängend etc. – damit umgehen. Trotz all dieser individuellen Varianz kann man aber dennoch davon ausgehen, dass es eine grundlegende Gleichförmigkeit der Veränderungen und Erfahrungen gibt, die jeweils relevante Anteile der Gruppe der alten Menschen betrifft. Die Verarbeitung dieser Veränderungen und Erfahrungen erfolgt nun nicht nur mental, sondern ganz wesentlich auch kommunikativ: Die Veränderungen und Erfahrungen und die Prozesse ihrer kommunikativen Be-
816 und Verarbeitung strukturieren das sprachlich-kommunikative Verhalten vor und prägen es. Damit stellt sich die Frage, wie und in welcher spezifischen Weise sich die einzelnen Veränderungen und Erfahrungen auf das Kommunikationsverhalten auswirken. Um dies an zwei Beispielen anzudeuten: Wird – z. B. als Folge zunehmender Immobilität oder eines wachsenden Desinteresses – die unmittelbare Welterfahrung geringer, so bedeutet dies kommunikativ, dass zunehmend auf vergangene Erfahrungen zurückgegriffen werden muss, weil neue nicht zur Verfügung stehen. D. h. der Anteil autobiographischer Erzählungen wird zunehmen. Sind aktuelle Fragen und Themen Gegenstand des Gesprächs, so kann darauf – je nach Verarbeitungsstrategie – unterschiedlich reagiert werden: Bei Interesse z. B. mit intensivem Nachfragen, um diese Erfahrungen ‘nachzuholen’, wobei das Gespräch Züge der Wissensvermittlung oder des Belehrens annehmen kann. Besteht hingegen kein Interesse, so kann dies bedeuten, dass der alte Mensch sich aus dem Gespräch ausblendet, oder aber, dass er versucht, das Thema in seinem Sinne zu beeinflussen (wie das z. B. ‘zu seiner Zeit’ war). Die zentrale Kompensationsstrategie für den Verlust unmittelbarer, aktueller Welterfahrung besteht in der Medienrezeption, so dass Berichte und Erzählungen über Mediensendungen zu einem relevanten Bestandteil des Kommunikationsaufkommens werden. Auch der mit der Generationsablösung verbundene Macht- und Dominanzverlust wirkt sich in spezifischer Weise auf das sprachlichkommunikative Verhalten aus. Wichtig ist hier zunächst, ob der Dominanzverlust akzeptiert und hingenommen wird oder ob gegen ihn opponiert wird. Die unterschiedlichen Verarbeitungsstrategien bringen natürlich unterschiedliche kommunikative Folgen mit sich. Für den Fall des Opponierens wurden in einer ersten empirischen Analyse drei Gesprächsstrategien festgestellt: das Nutzen von Erfahrungen und Erinnerungen als Ressource zur Reaktualisierung der eigenen Dominanz, die kommunikative Emigration in die Vergangenheit (als Zeit der eigenen Überlegenheit) und das Abgeben und Schenken (bis hin zum Aufdrängen) von Gegenständen, wodurch demonstriert wird, dass der alte Mensch noch etwas zu geben hat, um so den Dominanzverlust zumindest symbolisch zu kompensieren (vgl. Fiehler, 1998a: 309⫺315). Auch hier lassen sich sicherlich weitere typi-
VI. Spracherwerb
sche kommunikative Auswirkungen und Folgen empirisch herausarbeiten. Diese kurzen Skizzen sollen verdeutlichen, dass die oben aufgelisteten typischen Veränderungen und Erfahrungen jeweils mit spezifischen Veränderungen des Kommunikationsverhaltens verbunden sind. Diese Veränderungen gilt es, auf empirischer Basis im Detail zu erfassen und zu beschreiben. Dabei ist klar, dass alterstypische Sprache und Kommunikation nicht Folge der Veränderung eines Faktors sind. Alle erlebten Veränderungen und Erfahrungen wirken, wenn sie eintreten, zusammen, und ihre jeweiligen kommunikativen Folgen interferieren. Auf der Ursachenseite sind also in der Regel Bündel von Faktoren anzusetzen, wobei diese Faktoren bei der einzelnen Person bzw. bei Personengruppen in je individuellen Konstellationen auftreten und zusammenwirken und zudem jeweils unterschiedliches Gewicht besitzen können. Die beschriebenen kommunikativen Auswirkungen sind natürlich nicht auf das Alter beschränkt, d. h. sie sind nicht altersexklusiv. Auch bei jüngeren Menschen finden sich autobiographische Erzählungen, Klatsch und das Hinzufügen einer Vergangenheitsperspektive, aber in anderer Frequenz und z. T. auch anderer Qualität. Das Alter zeichnet sich dadurch aus, dass diese kommunikativen Folgen aufgrund der Bündelung der Veränderungen und Erfahrungen kumulieren. Insgesamt kann man davon ausgehen, dass die typischen Veränderungen und Erfahrungen, die mit dem Alter einhergehen, den kommunikativen Haushalt (Luckmann, 1988) der alternden Menschen in quantitativer wie qualitativer Hinsicht umstrukturieren. Quantitative Veränderungen können in der Zunahme (Verbosität, vgl. Ryan & Kwong See, 1998: 59⫺61), aber auch in der Abnahme des Kommunikationsaufkommens bestehen. Die qualitativen Veränderungen liegen zum einen auf der thematischen Ebene in dem Sinn, dass die typischen sozialen Veränderungen und Erfahrungen häufig Gegenstand von Gesprächen sind. Sie betreffen aber auch Vorkommen und Quantität bestimmter Gesprächsformen (z. B. (autobiographisches) Erzählen, Klatsch), bestimmter kommunikativer Muster (z. B. emphatische Realisierungen des Musters der Bewertungsteilung (vgl. Fiehler, 1990: 221⫺ 225)) und kommunikativer Strategien (z. B. Stilisierung als ‘alt’, Einbringen einer Vergangenheitsperspektive). Sie berühren ferner äußerungsstrukturelle und gesprächsorganisa-
817
59. Spracherwerb im Erwachsenenalter
torische Aspekte wie den Partnerzuschnitt von Äußerungen, die Bezugnahme auf Vorgängeräußerungen oder die Gestaltung thematischer Kohärenz (z. B. assoziative Anschlüsse). Die Betroffenen gehen aber nicht nur mit den genannten sozialen Veränderungen und Erfahrungen um und verarbeiten sie kommunikativ, sie sind – im Kontext von Alterszuschreibungen, aber auch unabhängig davon – mit der Kategorie ‘Alter’ konfrontiert und müssen sich dazu verhalten. Auch hier sind verschiedene Formen des Umgangs möglich, die von der (punktuellen oder dauerhaften) Akzeptanz von Alter bis zur Distanzierung bzw. Verdrängung von Alter reichen. Kommunikativ kann sich die Akzeptanz in häufigen Thematisierungen äußern, eine ambivalente Haltung zum Alter in Strategien wie dem Kokettieren mit dem Alter und eine Distanzierung darin, dass Alter nur anderen zugeschrieben wird, oder darin, dass versucht wird, ‘Alter’ in der konkreten Interaktion nicht relevant werden zu lassen (zu verschiedenen Formen der interaktiven Relevantsetzung von Alter vgl. Fiehler, 1998a: 305⫺308). Die beschriebenen Prozesse der Umstrukturierung des kommunikativen Haushalts im Alter bleiben nicht ohne Auswirkungen auf die Ebene der sprachlichen Mittel, die benutzt werden. Die Veränderungen betreffen in unterschiedlichem Umfang alle sprachsystematischen Ebenen (Kemper, 1987, 1992; Light, 1993; Coupland, Coupland & Giles, 1991). Die typischen Veränderungen und Erfahrungen im Alter definieren in ihren kommunikativen Auswirkungen und Folgen eine Spannbreite, die den Stil des Alters ausmacht. Er entsteht als Reaktion auf die soziostrukturellen Bedingungen des Alterns und umfasst die vielfältigen Formen der kommunikativen Auseinandersetzung mit diesen Bedingungen. Es handelt sich um ein umfängliches Konglomerat sprachlich-kommunikativer Erscheinungsformen, an dem einzelne Personen oder Gruppen nur partiell teilhaben. Dennoch ist er als Ganzes konturiert und erkennbar, insbesondere im Kontrast zum kommunikativen Stil des berufstätigen Erwachsenenalters. Gleichwohl können einzelne Elemente dieses Stils auch schon früher auftreten, sofern auch die betreffenden Veränderungen früher eintreten und entsprechende Erfahrungen früher gemacht werden. Der Stil des Alters ist also weder exklusiv auf einen Personenkreis ab einem bestimmten numerischen Alter beschränkt, noch ist er homogen, sondern er
umfasst durchaus gegensätzliche Erscheinungsformen. Seine Grenzen können wegen der Vielfalt der Veränderungen, Erfahrungen und Verarbeitungsweisen nicht anders als unscharf sein, wenngleich es auch prototypische Erscheinungsformen gibt. Der Stil des Alters ist keinesfalls nur ein Defizienzstil. In dem Maße, in dem ein positiver Umgang mit den sozialen Veränderungen und Erfahrungen und eine konstruktive Verarbeitung von Alter gelingt, ist er Ausdruck einer eigenständigen, andersartigen Lebensphase, die Bedingungen eigener Art unterliegt. Zu unterscheiden vom Stil des Alters sind Stile des Alters, wie sie für einzelne Personen, Gruppen oder Milieus charakteristisch sind. Sie sind das Resultat je konkreter erlebter Veränderungen und Erfahrungen und eines je konkreten Umgangs mit ihnen. Die oben aufgelisteten typischen Veränderungen und Erfahrungen im Alter werden – wie gesagt – nicht von allen Personen gleichermaßen gemacht. Diese Unterschiede konstituieren zusammenhängende oder disperse Gruppen im Gesamtbereich der älteren Menschen, deren Kommunikationsverhalten aufgrund der gleichen Veränderungen, Erfahrungen und Verarbeitungsformen eine gewisse Homogenität besitzt. Im Gegensatz zum abstrakten Stil des Alters handelt es sich bei diesen Gruppenstilen um konkrete Sprech- und Schreibstile, die sich aus einem ähnlichen gemeinsamen ‘Hintergrund’ ergeben. Sie sind ein Aspekt der internen Differenzierung der Alterskommunikation. Die Doppelung von abstraktem Stil des Alters auf der einen Seite und von konkreten Gruppenstilen auf der anderen Seite ermöglicht es, zu erfassen und theoretisch zu modellieren, dass Alterskommunikation zwar in gewisser Weise einheitlich erscheint, zugleich aber auch eine sehr große interne Bandbreite aufweist.
5.
Zusammenfassung
In der Auseinandersetzung mit einem Plateau- und einem Permanzenzmodell des Spracherwerbs wurde dafür plädiert, dass Sprachentwicklung ein Prozess ist, der zu keinem Abschluss kommt, sondern dass von einer lebenslangen Entwicklung und Veränderung der sprachlich-kommunikativen Fähigkeiten ausgegangen werden muss. Die Sprachentwickung im Erwachsenenalter wird zum einen durch biologische, zum anderen durch soziale Ursachen induziert. Im Bereich der
818
VI. Spracherwerb
sozialen Ursachen wurden eine global-gesellschaftliche und eine auf die Lebensspanne bezogene Perspektive der sprachlich-kommunikativen Entwicklung unterschieden. Die wesentlichen sprachlich-kommunikativen Entwicklungen im Erwachsenenalter erfolgen im Rahmen der beruflichen Sozialisation und Tätigkeit einerseits und im Zusammenhang mit Prozessen des Alterns andererseits. Die altersbedingten Veränderungen des Kommunikationsverhaltens und der sprachlich-kommunikativen Fähigkeiten wurden, weil sie in der Literatur bisher wenig Beachtung fanden, ausführlicher dargestellt.
6.
Literatur
Auer, P. & Hausendorf, H. (Hrsg.) (2000). Kommunikation in gesellschaftlichen Umbruchsituationen. Mikroanalytische Aspekte des sprachlichen und gesellschaftlichen Wandels in den Neuen Bundesländern. Tübingen: Niemeyer. Brünner, G. (1987). Kommunikation in institutionellen Lehr-Lern-Prozessen. Diskursanalytische Untersuchungen zu Instruktionen in der betrieblichen Ausbildung. Tübingen: Narr. Coupland, N., Coupland, J. & Giles, H. (1991). Language, society and the elderly. Discourse, identity and ageing. Oxford, Cambridge: Blackwell. Eckert, P. (1997). Age as a sociolinguistic variable. In F. Coulmas (Ed.), The handbook of sociolinguistics (pp. 151⫺167). Oxford: Blackwell. Fiehler, R. (1995). Weichenstellungen der Sprachwissenschaft und ihre Folgen oder: Zum Verhältnis von Grammatik und Pragmatik. In A. Kerte´sz (Hrsg.), Sprache als Kognition – Sprache als Interaktion. Studien zum Grammatik-Pragmatik-Verhältnis (pp. 19⫺58). Frankfurt a.M.: Lang. Fiehler, R. (1998a). Kommunikation im Alter. Drei Zugänge zur Analyse altersspezifischen Kommunikationsverhaltens. In R. Reiher & U. Kramer (Hrsg.), Sprache als Mittel von Identifikation und Distanzierung (pp. 299⫺317). Frankfurt a.M.: Lang. Fiehler, R. (1998b). Modelle zur Beschreibung und Erklärung altersspezifischer Sprache und Kommunikation. In R. Fiehler & C. Thimm (Hrsg.), Sprache und Kommunikation im Alter (pp. 38⫺56). Opladen: Westdeutscher Verlag. Fiehler, R. (2001): Gesprächsanalyse und Kommunikationstraining. In G. Antos, K. Brinker, W. Heinemann & S. F. Sager (Hrsg.), Text- und Gesprächslinguistik – Linguistics of Text and Conversation. Ein internationales Handbuch zeitgenössischer Forschung. 2. Halbband: Gesprächslinguistik.
(⫽ Handbücher zur Sprach- und Kommunikationswissenschaft) (pp. 1697⫺1710). Berlin/New York: de Gruyter. Fiehler, R. & Thimm, C. (Hrsg.) (1998). Sprache und Kommunikation im Alter. Opladen: Westdeutscher Verlag. Harwood, J. & Giles, H. (1993). Creating intergenerational distance: Language, communication and middle-ages. Language Sciences 15/1, 15⫺38. Kallmeyer, W. (Hrsg.) (2000): Sprache und neue Medien: Jahrbuch 1999 Institut für Deutsche Sprache. Berlin/New York: de Gruyter. Kemper, S. (1987). Life-span changes in syntactic complexity. Journal of Gerontology, 42(3), 323⫺ 328. Kemper, S. (1992): Language and aging. In F. I. M. Craik & T. A. Salthouse (Eds.), Handbook of aging and cognition (pp. 213⫺270). Hillsdale, NJ: Erlbaum. Kemper, S., Kynette, D. & Norman, S. (1992). Age differences in spoken language. In R. West & J. Sinnott (Eds.), Everyday memory and aging: Current research and methodology (pp. 138⫺152). New York: Springer. Kemper, S., Kynette, D., Rash, S., O’Brien, K. & Sprott, R. (1989). Life-span changes of adults’ language: Effects of memory and genre. Applied Psycholinguistics 10, 49⫺66. Light, L. L. (1988). Language and aging. Competence versus performance. In J. E. Birren & V. L. Bengtson (Eds.), Emergent theories of aging (pp. 177⫺213). New York: Springer. Light, L. L. (1993). Language changes in old age. In G. Blanken, J. Dittmann, H. Grimm, J. C. Marshall & C. W. Wallesch. (Eds.), Linguistic disorders and pathologies. An international handbook (pp. 900⫺918). Berlin/New York: de Gruyter. Luckmann, T. (1988). Kommunikative Gattungen im kommunikativen ‘Haushalt’ einer Gesellschaft. In G. Smolka-Koerdt, P. M. Spangenberg & D. Tillmann-Bartylla (Hrsg.), Der Ursprung der Literatur (pp. 279⫺288). München: Fink. Müller, B.-D. (Hrsg.) (1993). Interkulturelle Wirtschaftskommunikation. (2. erw. und überarb. Aufl.). München: Iudicium. Obler, L. K. (1993). Language beyond childhood. In J. Berko Gleason (Ed.), The development of language (pp. 421⫺449). New York: Macmillan Publishing Company. Runkehl, J., Schlobinski, P. & Siever, T. (1998). Sprache und Kommunikation im Internet. Opladen: Westdeutscher Verlag.
60. Constraints on the Shape of Second Language Learner Varieties Ryan, E. B. & Kwong See, S. T. (1998). Sprache, Kommunikation und Altern. In R. Fiehler & C. Thimm (Hrsg.), Sprache und Kommunikation im Alter (pp. 57⫺71). Opladen: Westdeutscher Verlag. Thimm, C. (1998). Alter-Sprache-Interaktion. Theoretische, methodische und empirische Ansätze zu ei-
819
ner Linguistik des höheren Lebensalters. Heidelberg: Habilitationsschrift.
Reinhard Fiehler, Institut für deutsche Sprache Mannheim (Deutschland)
60. Constraints on the Shape of Second Language Learner Varieties 1. 2. 3.
6. 7.
Introduction The L2 initial state Mechanisms driving L2 development (‘driving forces’) The L2 final state Children vs. adults: differences in input processing Summary References
1.
Introduction
4. 5.
The approach of looking at learner varieties as systems in their own right is common practice in second language (L2) research. It belongs to a research tradition which has coined notions such as ‘approximative systems’ (Nemser, 1971), ‘interlanguage’ (Selinker, 1972) and ‘creative construction’ (Dulay & Burt, 1974). Within this tradition of L2 research it is assumed that L2 learners process L2 data on the basis of language learning mechanisms which are part of the human language learning faculty. The outcome of this process of L2 acquisition is a mental system which is the origin of the learner’s knowledge of L2 grammar. This L2 knowledge system has been called ‘interlanguage’ because it is usually an approximation of the L2 target. The idea that utterances of L2 learners are to be seen as a manifestation of a mental grammar arose from what has been referred to as the ‘cognitive revolution’. This new approach to the study of language and language use had a dramatic impact on the study of L2 learning. With the abolition of behaviourism the role of the mother tongue (L1) in L2 learning was seriously called into question. The belief in the blind transfer of L1 habits was no longer tenable. For some researchers such as Dulay, Burt and Krashen (1982), who strongly believed in L2 learning as a process of creative construction, use of L1 was just a matter of performance. As they saw it, only in case of lack of L2 knowledge could L2
learners ‘fall back’ on their L1. Behaviour of L2 learners which showed L1 influence should therefore be compared to the process of code switching in bilingual children. Corder (1978) had used the term ‘borrowing’ in a similar vein. For him, the use of L1 was a communication strategy which learners resorted to when there was a lack of L2 competence. Within the same mentalist framework, however, there were also researchers such as Selinker (1972), Schachter and Rutherford (1979) and Zobl (1980a, 1980b), who attributed the L1 a more positive role. For them L1 knowledge could be used to become an integral part of a developing interlanguage grammar. In the wake of a growing interest in language universals, interlanguage research became focussed more on the role of universal properties of L2 acquisition than on L1 influence. The universal properties that were assumed to play a role came from research on L1 acquisition, linguistic typology and theoretical linguistics. Although universal language learning strategies such as Slobin’s (1973, 1985) Operating Principles were originally formulated for L1 acquisition, Andersen (1984) demonstrated their relevance for L2 acquisition. Implicational relations between structural properties of language such as Keenan and Comrie’s (1977) Accessability Hierarchy were taken from research on linguistic typology. Gass (1980) and Eckman (1985) showed these implicational relations played a role in L2 acquisition too. Generative linguistics provided the theoretical constructs of Principles and Parameters such as subjacency, pro-drop or headedness. Their role in L2 acquisition has been investigated by White (1988), Schachter (1989), Newport (1994), Liceras (1989) and Flynn (1989). The reason for L2 researchers to turn to L1 acquisition, linguistic typology and theoretical linguistics was their attempt to demonstrate that L2 learning is also constrained by
820
VI. Spracherwerb
universal principles of language learning and linguistic structure. As a consequence, the role of the L1 was not considered a prominent one. Only within the framework of parameter setting as a mechanism of acquisition was the role of the L1 still acknowledged (Schwartz, 1996). The role of the L1 became prominent again when research was focussed on what has been referred to as ‘the L2 initial state’ (Schwartz & Sprouse, 1996). Here, it was seen a matter of investigation as to how grammatical knowledge of the L1 interacts with grammatical knowledge available through Universal Grammar (UG). Recently, competing views have been put forward on the issues just mentioned. They provide an account for the way in which L1 knowledge interacts either with linguistic knowledge which is assumed to be innate or with universal constraints on the process of language learning. With respect to the interaction between L1 knowledge and access to UG, two positions have been put forward. They are referred to as ‘Full Transfer/Full Access’ (Schwartz & Sprouse, 1996) and ‘Minimal Trees’ (Vainikka & Young-Scholten, 1996). The interaction between L1 knowledge and general cognitive principles of language learning has been studied within the framework of the ‘Basic Variety’ (Klein & Perdue, 1997). In the following I will discuss these different theoretical approaches with respect to their claims on (1) L1 knowledge which serves as the basis for L2 acquisition (section 2: The L2 initial state), (2) mechanisms driving L2 development (section 3: Driving forces), (3) constraints on the ultimate attainment of the L2 system (section 4: The L2 final state).
2.
The L2 initial state
2.1. The Full Transfer/Full Access model Schwartz and Sprouse (1996) claim that learners can make use of knowledge of their L1 system at all stages of L2 acquisition: “… all the principles and parameter values as instantiated in the L1 grammar immediately carry over as the initial state of a new grammatical system on first exposure to input from the target language” (41). Hence, “the entirety of the L1 grammar (excluding the phonetic matrices of lexical/morphological items) is the L2 initial state” (41). In order to illustrate their position, Schwartz and Sprouse point out particular
properties in the spontaneous production data of C ¸ evdet, an adult native speaker of Turkish learning L2 German. The observations are relevant with respect to the placement of the finite verb in matrix clauses. C ¸ evdet’s type of learner language is illustrated with examples from three stages of development as represented in (1), (2) and (3). (1)
jetzt er hat Gesicht [ das is falsches now he has face that is wrong Wagen ] car ‘now he makes a face (that) that is the wrong car’
(2) a. in der Türkei der Lehrer kann den in the Turkey the teacher can the Schüler schlagen pupil beat ‘in Turkey the teacher can hit the pupil’ b. dann trinken wir bis neun Uhr then drink we until nine o’clock ‘then we will drink until nine o’clock’ (3) a. später der Charlie wollte zum later the Charlie wanted to-the Gefängnishaus prison ‘later Charlie wanted to go to the prison’ b. das hat eine andere Frau gesehen that has an other woman seen ‘another woman saw that’ Schwartz and Sprouse account for the grammatical properties as evidenced in (1), (2) and (3) in the following way. At Stage 1, fronting of the finite verb hat (‘has’) in sentences of type (1) is accounted for by the assumption that C ¸ evdet has verb movement to C. In order to be able “[t]o do so he will have exploited the requisite landing site(s) made available by UG” (46). Furthermore, the position of the subject er (‘he’) preceding the finite verb is explained as “a carry-over from L1 Turkish”. In Turkish “the only way nominative case can be assigned to the subject is under the Spec-Head agreement relation”. Given the fact that the verb is in C, “the subject must move to [Spec, CP]” (46). Finally, an adverbial such as jetzt (‘now’) can optionally precede the subject. This is explained as due to “optional adjunction to CP (…) perhaps being a carry-over from the L1 or perhaps being a standard mechanism for creating structure in the process of acquiring language” (46 f.).
60. Constraints on the Shape of Second Language Learner Varieties
At Stage 2, C ¸ evdet places pronominal subjects such as wir (‘we’) in (2b) systematically after the verb. In this position nominal subjects “are virtually absent” (47). Schwartz and Sprouse claim that this is due to “the incorporation option as a mechanism to satisfy the Case Filter” (48). This mechanism explains why at the relevant stage only pronominal subjects can occur in postverbal position. It is at Stage 3 that nominal subjects such as eine andere Frau (‘an other woman’) in (3b) can occur postverbally. According to Schwartz and Sprouse, C ¸ evdet has now added “another mechanism for assigning case to subjects”. “Here it is the government option; the verb in C governs IP, and hence the specifier of IP” (48). Therefore, “(nonpronominal) subjects need not move to [Spec, CP] in order to get nominative case” (49). In summary, in Schwartz and Sprouse (1996) the properties of C ¸ evdet’s learner language are laid out in order to illustrate the Full Transfer/Full Access hypothesis. It is Schwartz and Sprouse’s aim to show that properties which are seen as characteristic of L2 grammar can be accounted for in terms of either L1 properties or options in UG. Hence, they argue that L2 grammars are like any other natural grammar. However, no explanation is given for the developmental pattern as such. That is, Schwartz and Sprouse have nothing to say about why it is that these phenomena are acquired in this particular order. Furthermore, the term Full Transfer/Full Access rightly captures the fact that Schwartz and Sprouse do not aim to formulate specific constraints on either L1 transfer or on the selection of options provided by UG. Hence, Full Transfer/Full Access does not allow predictions to be made with respect to properties of an interlanguage grammar in a particular L2 setting, and therefore use of the term ‘hypothesis’ does not seem appropriate. In sum, the kind of analysis provided within the Full Transfer/ Full Access framework reminds one of the approach of Error Analysis in the 70s when interlanguage data were accounted for by associating these data with either L1 or L2 properties. In fact, Schwartz and Sprouse’s approach comes down to an exercise in the association of interlanguage data with descriptions of mechanisms found anywhere in the literature on generative linguistics.
821
2.2. Minimal Trees Vainikka and Young-Scholten’s (1996) proposal concerning the development of phrase structure in L2 learner languages is referred to as ‘Minimal Trees’ (see Schwartz & Sprouse, 1996: 49). In research on child language acquisition this type of hypothesis entails that “children begin syntactic acquisition with lexical projections such as bare VP projection” (Vainikka and Young-Scholten 1996: 8). Later on “… functional projections develop one by one as a result of successive applications of X⬘-Theory” (Vainikka & Young-Scholten, 1996: 9). Unlike Schwartz and Sprouse, the analysis of L2 learner data in terms of this hypothesis allows predictions about the L2 initial stage as well as about the “gradual development of phrase structure”. Furthermore, it is Vainikka and YoungScholten’s hypothesis that “[t]he initial state in L2 acquisition is […] not equivalent to the learner’s entire knowledge of the L1” (Vainikka & Young-Scholten, 1996: 13). With respect to the L2 initial stage they claim that “learners project only a bare VP without any functional projections” (16). Furthermore, Vainikka and Young-Scholten hypothesize that transfer is constrained to the L1 headedness of the structure of VP. If the L2 headedness of VP does not correspond to that of the learner’s L1, there will be a point in acquisition at which headedness will be switched. Since it is Vainikka and Young-Scholten’s claim that functional projections are not transferred, there is no transfer of functional elements of the IP or CP level, “(n)either initially (n)or subsequently” (15). Therefore, Vainikka and Young-Scholten predict that at the L2 initial stage there will be no evidence of verb raising (i. e. the verb usually follows temporal adverbs and negation), no use of auxiliaries and modals, no agreement paradigm (i. e. only infinitive-like forms or a default suffix), no complementizers and no whmovement. Evidence of the transfer of headedness in bare VPs is given in (4a). Since bare VPs do not have verb raising, the verb usually follows temporal adverbs and negation. Examples are given in (4b). (4) a. Oya Zigarette trinken Oya cigarette drink-inf (Aysel/L1 Turkish) ‘Oya smokes cigarettes’ Ja alles hier kaufen yes everything here buy-inf
822
VI. Spracherwerb
(Memduh/L1 Turkish) ‘Yes (I) buy everything here’ Hier Jacke ausmachen here jacket off-make (Changsu/L1 Korean) ‘(She) is taking (her) jacket off’ Ich sprechen die meine Firma I speak-inf the my firm (Salvatore/L1 Italian) ‘I speak (to/at) my firm’ Vielleicht Schule essen maybe school eat-inf (Salvatore/L1 Italian) ‘Maybe (he/she) eats at school’ (4) b. Für mei Junge immer vo mir for my boy always from me schimpfe scold-inf (Antonio/L1 Spanish) ‘My boy always scolds me’ Nein en matina nix essen no in morning[It] not eat-inf (Bongiovanni/L1 Italian) ‘(I) don’t eat in (the) morning’ The evidence in Vainikka and Young-Scholten to illustrate their hypotheses is taken from situations in which the L1 and the L2 differ typologically. However, if L1 and L2 are typologically closely related languages such as Dutch and German, there is no reason to assume that L2 learners will begin syntactic acquisition with bare VP projection. Hence, in such a situation constraints on the transfer of functional elements of the IP or CP level are not expected to occur either initially or subsequently. In summary, the hypotheses of Schwartz and Sprouse and Vainikka and Young-Scholten on L2 learner behaviour differ as far as L1 transfer and developmental processes are concerned. While Schwartz and Sprouse’s Full Transfer/Full Access hypothesis can only provide a posteriori explanations of L2 learner phenomena, Vainikka and YoungScholten are able to formulate a priori constraints on both transfer and development. 2.3. The Basic Variety According to Perdue (1996), the VP is not the initial state of L2 acquisition. In Perdue (1996) it is shown how L2 learners are able to communicate with one-constituent utterances denoting activities and objects and that even verbless utterances with a few noun-like con-
stituents are structured in terms of topic-focus patterns interacting with semantic constraints and scope relations. It is this “interplay of semantic and discourse-organizational constraints” which also governs “much more advanced learner production” (Perdue, 1996: 143; 146). Whereas L2 learners are able to apply these types of organizational constraints from very early on, there is no reason to assume that at the initial stage words like gehen (go), spazier (stroll), laufa (run), komm (come), denoting activities corresponding to verbs in the target language, also have syntactic verb status in the learner’s language. Because there is no verb-argument structure at the initial stages “the distribution of these words here is not that of the [target language] TL” (142). In a further stage of acquisition, noun-like constituents become organized around a verb-like element. Examples are utterances such as Chaplin gehen strasse (Chaplin go street), gehen spazier (go stroll), komm strasse (come street), das frau laufa schnella strasse (woman run fast street). At that point utterances are structured by phrasal patterns, as well. What is particularly intriguing, however, are the types of constraints on placement of “major constituents (…) around the verb” (Perdue, 1996: 144). Klein and Perdue (1997) show that at the relevant stage all learners produce simple utterances which consist of a verb and a few other constituents. Structuring of these utterances is based on the same organizational principles for all learners, no matter what their mother tongue or target language. Hence, regardless of L1, the structure of learner varieties is initially determined by the following types of constraints: pragmatic constraints which organize information in connected discourse; for example: ‘Focus expression last’; semantic constraints which attribute arguments to particular positions; for example: ‘The NP-referent with highest control comes first’; and configurational constraints which define the patterns in which lexemes may occur; for example: ‘NP1-V-NP2’. Klein and Perdue argue that this particular organizational system is not only simple with respect to the principles that it is based on, but also stable in the sense that it is resistant to developmental progress. These properties of simplicity and stability lead Klein and Perdue to call this type of L2 learner language ‘the Basic Variety’. Although the Basic Variety lacks such structural properties of fully-fledged languages as
60. Constraints on the Shape of Second Language Learner Varieties
the grammatical categories subject and object or the grammatical function of finiteness, learners can express temporal and spatial relations. They are able to relate the time span about which they want to make an assertion to the time of utterance. In other words, they can express ‘before’, ‘after’ and ‘simultaneously’. They can also express duration, habituality or iterativity of time spans. They are able to distinguish between types of situation such as ‘states’ and ‘dynamic events’ and between spatial relations such as ‘location’ and ‘change of location’. The pragmatic, semantic and configurational restrictions of the Basic Variety are claimed to hold universally across L2 learners. Therefore, learner languages are similar no matter what their L1. L1 influence is limited to the very early stages of acquisition, where the target language has alternative ways of expressing the same content. This seems to hold for head-complement and complement-head structure in Dutch. In Dutch, complex NPs have complement-head structure in compounds, as in afdelingshoofd (department head), while they have headcomplement structure in NP PP phrases as in chef van de afdeling (head of the department). Broeder (1991) has observed that in L2 Dutch, Turkish informants prefer to use compounds or complex NPs with complement-head structure, as in sigarettenwinkel (cigarette shop), winkelbaas (shop boss), while Moroccan subjects choose the NP PP equivalent with head-complement structure as in winkel van sigaret (shop of cigarette), baas van winkel (boss of shop). This also holds for complex NPs with pronominal possessives as zijn boek (his book) vs. het boek van hem (the book of his) and complex NPs with nominal possessives as mijn vader’s broer (my father’s brother) vs. de broer van mijn vader (the brother of my father). If the learner’s option in these cases is adequately represented in terms of head-complement vs. complement-head structure, one may also expect L2 learners of Dutch and German to choose between either SOV or SVO structure as their basic phrasal pattern. The data seem to suggest that this is true. NP-NP-V is found in Turkish learners of Dutch and German and not in Moroccan learners of Dutch or in Italian learners of German. It should be noted, however, that Punjabi learners of English seem to use the NP-NP-V pattern despite the fact that English only has the SVO option.
3.
823
Mechanisms driving L2 development (‘driving forces’)
3.1. Full Transfer/Full Access: L2 input In the Full Transfer/Full Access approach developmental progress is claimed to depend on input: “… failure to assign a representation to input data will force some sort of restructuring of the system (‘grammar’), this restructuring drawing from options of UG (and hence the term ‘Full Access’)” (Schwartz & Sprouse, 1996: 41). Thus, the role of input data in L2 acquisition is the same as in L1 acquisition. The crucial difference, however, between L1 and L2 acquisition is Full Transfer from L1. Obviously, Schwartz and Sprouse do not seem to be interested in constraints with respect to successive stages of L2 development. This is because they adhere to one of the basic assumptions of the UG approach to L1 acquisition, the Full Competence Hypothesis (FCH). This hypothesis entails “that the initial state of the language faculty includes quite particular formal principles” (Poeppel & Wexler, 1993: 2). Among these formal principles are the functional category systems of IP and CP. Hence, children at the initial state of language acquisition are assumed to have full adult competence and that is why “the FCH has no developmental question associated with it” (Poeppel & Wexler, 1993: 18). As it is one of the basic assumptions of the Full Transfer/Full Access approach that UG is also available to adults, Schwartz and Sprouse do not care for developmental stages in L2 acquisition either. Another reason for Schwartz and Sprouse not to be interested in processes of L2 development might have to do with the fact that adult L2 learners, as opposed to children, are both cognitively and linguistically mature. That is, for adult language learners there are no cognitive constraints on language processing nor are there maturational constraints on the availability of options of UG. Therefore, if neither cognitive nor linguistic development plays a role in L2 learning, why should one bother with constructs such as ‘stages of development’? However, contrary to the position taken by Schwartz and Sprouse, there is a great deal of empirical evidence from investigations within the framework of, for example, the Heidelberg project (Klein & Dittmar, 1979), the ZISA project (Clahsen, Meisel &
824
VI. Spracherwerb
Pienemann, 1983) and the ESF project (Klein & Perdue, 1992) which shows that in many cases the acquisition of certain linguistic properties of the L2 is a prerequisite for the acquisition of other properties. Hence, developmental stages in L2 acquisition are an empirical fact which L2 acquisition research has to be able to account for. Given its assumptions on both the availability of options of UG and L1 transfer, however, it seems impossible for the Full Transfer/Full Access approach to provide a principled way to do so. 3.2. Minimal Trees: emerging functional projections As pointed out before, Vainikka and YoungScholten (1996) assume that L2 learners transfer only the L1 VP, while functional projections develop one by one “through the interaction of X⬘-Theory with the input” (13), that is “independently of the learner’s L1” (25). Vainikka and Young-Scholten, therefore, claim that after the initial stage as illustrated in (4a) and (4b), there is an intermediate stage at which L2 learners “project an underspecified IP-level functional projection, FP, providing a position for a raised verb, as well as a position for modals and auxiliaries” (20). Evidence for optional verb raising in sentences with head-initial FP and for the use of a modal verb is given in (5). (5)
Jetzt brau Wohnungsamt now need-0/1sg housing fragen authority ask-inf (Sevinc/L1 Turkish) ‘Now (I) need to ask (the) housing authority’ Ich sehen Schleier I see-inf veil (Kemal/L1 Turkish) ‘I see the veil’ Immer jeden Tag fünfhundert Stück always every day five-hundred unit machen make-inf (Kadir/L1 Turkish) ‘(I) always make five hundred units everyday’ Und dann nachher kommen die and then afterwards come-inf the Sonne nochmal wieder sun yet again (Maria/L1 Spanish) ‘And then afterwards the sun comes out again’
Mehr Deutsche lerne more German learn-1sg/inf (Maria/L1 Spanish) ‘(I) learn more German’ The examples in (5) also show the lack of an agreement paradigm (i. e., there is only a default suffix), the lack of complementizers and the lack of wh-movement. Furthermore, Vainikka and Young-Scholten argue that there is a more advanced stage at which learners show a “specification of the features” of IP such as AgrP, while they also seem to be “in the process of acquiring CP” (Vainikka & Young-Scholten, 1996: 23f). Evidence for this more advanced stage of acquisition are frequent verb raising, the use of auxiliaries and modals, the acquisition of the agreement paradigm, as illustrated in (6), and the fact that some embedded clauses are used with complementizers and that complex wh-questions are attested. (6)
Ich kaufe dich Eis I buy-1sg you-dat ice-cream (Gabho/L1 Korean) ‘I (will) buy you (some) ice-cream’ Er hat gesagt, nimmst du he has said, take-2sg you Lokomotive? train (Emine/L1 Turkish) ‘He said, (will) you take (the) train?’ Der kleine geht Kindergarten the small-one go-3sg kindergarten (Harva/L1 Turkish) ‘The young one goes (to) kindergarten’
As argued before, it is a major advantage of the account given by Vainikka and YoungScholten that it allows for predictions on the kinds of mechanisms which may or may not occur at a particular stage of interlanguage development. Thus, for a representation of the developmental processes of L2 acquisition, Vainikka and Young-Scholten’s Minimal Tree model appears to be more adequate than the Full Transfer/Full Access approach of Schwartz and Sprouse. Like Radford’s (1988) proposal, according to which the process of L1 development is subject to maturation, Vainikka and Young-Scholten also assume that some sort of internal syllabus determines progress in L2 acquisition. As Radford argued for children learning their L1, so Vainikka and Young-Scholten claim that functional categories, which are thought to
60. Constraints on the Shape of Second Language Learner Varieties
be innate, become successively available for adults. For research on developmental progress as in Vainikka and Young-Scholten, it is a methodological point of importance to establish the criteria which are used to attribute particular learners to particular stages of L2 development. Hence, one might ask for the criteria that were used to identify the first data collection as representative of the initial stage of L2 acquisition. Furthermore, it seems doubtful, particularly in the case of languages which are typologically closely related, that there is no L1 transfer of properties of functional projections. On the contrary, there is evidence from closely related languages such as English and German (see DuPlessis, Solin, Travis & White, 1987) that transfer also occurs with respect to phenomena based on movement to [Spec, IP] and movement to [Spec, CP]. 3.3. The Basic Variety: from ‘conflicts between constraints’ to ‘feature strengthening’ The structural properties of the Basic Variety are determined by its phrasal constraints defining particular word order patterns. The Basic Variety has no free or bound morphology and no complex hierarchical structures which would require some kind of movement (Klein & Perdue, 1997: 332; 337). Thus, properties typically linked to functional categories are lacking and, therefore, “in the [Basic Variety], all features are weak. (…) [S]econd I-language acquisition beyond the [Basic Variety] is essentially a process of selecting the appropriate features to be made strong – those which happen to be strong in the target language” (Klein & Perdue, 1997: 337). The question of what it is that causes the acquisition of functional features of morphology and movement is not only relevant with respect to the Basic Variety. For Klein and Perdue, one should also ask why it is that fully fledged languages are as complex as they are. The answer to this question is determined by the interaction between constraints on phrasal structure, constraints on case role properties of arguments and the organization of information in terms of topicfocus structure. For example, if the controller is in the focus component (as is the case in passive sentences), there is a conflict between semantic and pragmatic constraints. In such cases the learners may “develop specific means to accommodate the ‘competition’”
825
(330). By way of illustration, Klein and Perdue (1997: 331) refer to a situation in which a person is the protagonist in a series of events and therefore occurs in initial topic position. When this person gets hit by an object which is in focus function, the object has a higher degree of control. It is in such contexts that Klein and Perdue found what they called “the first approximations to a [target language] oblique pronominal form” occurring in sentence-initial position, as given in (7). (7)
[hiz] drop-on the timber [le] tombe un bois sur la teˆte to him falls a beam on the head ‘he is/gets hit by a beam’
To sum up, Schwartz and Sprouse differ from both Vainikka and Young-Scholten and Klein and Perdue with respect to constraints on developmental progress in the course of L2 acquisition. For Schwartz and Sprouse, constraints on progress in development are in conflict with the Full Competence Hypothesis. Hence, for them the concept of developmental stages does not play a role. According to Schwartz and Sprouse, development occurs by exposure to target language input. In Vainikka and Young-Scholten, however, stages in development play an important role in L2 learning. These stages are determined by the gradual emergence of functional projections. Finally, Klein and Perdue assume a feature strengthening model which receives its impetus not just by exposure to the target language but is driven by conflicts between different types of constraints. It is the means by which these conflicts are resolved which leads to target language complexity. 3.4. Constraints on transfer: transfer to somewhere Vainikka and Young-Scholten’s proposal has been criticized by Schwartz and Sprouse with respect to a particular type of error produced by francophones acquiring English. An example of this type of error is given in (8a). (8) a. *Mary takes often the subway This type of error can easily be explained on the basis of transfer if we compare the target structure in English with the equivalent in L1 French (as in 9a and 9b). (9) a. Mary often takes the subway (target language English) b. Marie prend souvent le metro (source language French)
826 In the Minimal Tree model of acquistion, however, transfer is not an acceptable explanation. This is because in the initial state adverbs can only occur outside VP as in ADV – VP, while in later stages of acquisition the development of functional projections occurs independently of L1. Therefore, Vainikka and Young-Scholten propose that utterances as in (8a) are a matter of verb raising to INFL or C due to the acquisition of MOD/ AUX as in (8b). (8) a. *Mary takes often the subway b. Mary has always taken the metro John will carefully eat his pie Thus, in Vainikka and Young-Scholten, (8a) is analysed as an error of overgeneralization with respect to the kinds of finite verb that may occur in INFL or C position. However, in their discussion of the Minimal Tree model, Schwartz and Sprouse claim that if utterances such as (8a) are indeed the result of verb raising to INFL or C, one would expect learners to have raising to INFL preceding ‘not’ as well as to C. Hence, learners should also produce (8d) along with (8c) and they should produce (8f) along with (8e). (8) c. Mary has not taken the metro John will not eat his pie d. *Mary takes not the metro *John eats not his pie e. Has Mary taken the metro? Will John eat his pie? f. *Takes Mary the metro? *Eats John his pie? According to Schwartz and Sprouse, this is not the case: “at the same point at which the L2 learners do allow the order S V Adv O [i. e. (8a)], they clearly do not allow sentences such as [(8d) and (8f)] …” (53). Assuming that the observations of Schwartz and Sprouse are correct, what are the constraints determining transfer in (8a) and no transfer in (8d) and (8f)? The Full Transfer/Full Access model does not provide an alternative explanation itself. However, it seems possible to explain the non-occurrence of (8d) and (8f) as a typical example of socalled ‘pre-emption’. Quite early L2 learners of English may have noticed that negative sentences and questions require do-support. Hence, in these cases they will not transfer their L1 forms expressing negation and questioning. Thus, instead of utterances like (8d) and (8f), they will produce the correct alter-
VI. Spracherwerb
natives with do, thereby showing that they know that do is an instantiation of AUX. As for the occurrence of declarative sentences like (8a), the question remains why it is that in these cases francophones raise thematic verbs. Instead of an explanation in terms of overgeneralization, as provided by Vainikka and Young-Scholten, it seems reasonable to assume that L1 transfer is involved. That is, having established INFL as a possible landing site, L2 learners assume that INFL functions the same way as in L1 French. As a result, verb raising with thematic verbs will be transferred. This type of constraint on transfer has been called the ‘Transfer to somewhere’ principle (Andersen, 1983). It states that for transfer to occur there should be some similarity between a structural property of the L1 and the L2 target equivalent. Many studies on cross-linguistic influence have provided evidence for this type of constraint. See, for example, Andersen (1983), Zobl (1980a, 1980b) on Neg placement and word order, Wode (1981) on negation, Gass (1980) on resumptive pronouns, Schachter (1974) on avoidance and Schachter and Rutherford (1979) on zero pronouns and serial verbs. In all these studies authors have been able to demonstrate that transfer is subject to constraints of L2 development. 3.5. Constraints on development There is an enormous body of literature on developmental stages in L2 learning. Implicational relations of acquisition have been observed for the acquisition of morphemes within the framework of the ‘morpheme order studies’ (Dulay, Burt & Krashen, 1982), for the acquisition of syntactic properties of negation (Wode, 1981; Felix, 1982), word order (Pienemann, 1987; Ellis, 1989), extraction and subjacency (Comrie, 1990), headedness (Schwartz, 1996), relative clause formation (Gass, 1980; Eckman, 1985) and even for the acquisition of semantic features of aspect and ‘Aktionsart’ (Andersen, 1991). While the developmental stages turned out to be universal in nature, the question is what mechanisms are responsible for particular orders of acquisition, and, hence, what are the mechanisms which propel further development of the language acquisition process. As Klein and Perdue argue, answering this question may provide insight into why it is that natural fully-fledged languages are as complex and as diverse as they are.
60. Constraints on the Shape of Second Language Learner Varieties
Research on the acquisition of word order in German by native speakers of Romance languages has shown that all learners of a particular target language have to go through the same stages of acquisition (see Meisel, Clahsen & Pienemann, 1981; Clahsen, Meisel & Pienemann, 1983). Two opposing views have been put forward with respect to the question of how to explain the order of acquisition. On the one hand, it is argued by Pienemann (1987), Clahsen (1984), Clahsen & Muysken (1986, 1989) that learners apply different strategies of language processing which operate on surface structure. The order in which these operating strategies are used is assumed to depend on their degree of complexity. On the other hand, it is claimed by Jordens (1988) and Schwartz (1996) that developmental progress is determined by processes of restructuring on the basis of properties which are possible options in natural languages. Ordering can be explained by the notion of prerequisite knowledge (Jordens, 1996). Hence, it appears that in L2 German, headedness is a prerequisite for the acquisition of verb movement and finiteness, while verb movement and finiteness are prerequisite for verb-second (inversion) and verb-end. As argued before, the UG based approach to L2 acquisition does not allow for stages of development which hold for all learners of a particular L2. It is based on the hypothesis that constraints on possible grammars are innate. Exposure to those properties of the L2 which are relevant for acquisition may lead to what has been called a ‘triggering experience’ (van Buren, 1996). Triggering leads to the instantiation of principles and to the setting or resetting of parameter values. See, for example, Schwartz (1996) and White (1985).
4.
The L2 final state
4.1. Fossilization L2 learners are hardly ever able to reach native competence. Despite a few anecdotal cases to the contrary this observation holds for both natural and classroom situations of L2 learning. The failure is explained by reference to the ‘age’ factor or to the fact that L2 learners already have an L1. Both kinds of observation are obvious. On the one hand, learners of an L2 are older than children learning their mother tongue. On the other hand, learners of an L2 have had the experi-
827
ence of going through the process of learning their first language. If it is the ‘age’ factor which is relevant with respect to the ultimate L2 level, one must assume that there is a window of opportunity for language learning, a ‘critical period’. On the other hand, if it is the instantiation of the L1 system which makes it difficult for L2 learners to achieve native competence, one must assume that it is the fixation of certain options which makes it difficult to acquire other possible options. The ‘age’ factor explains the inability to achieve native competence because adults will learn an L2 by using learning strategies which are not specifically geared towards the acquisition of language. This position is taken by Clahsen and Muysken (1986, 1989), amongst others. With respect to the acquisition of word order in German, they state that L2 learners come to use a system of rules which violate UG constraints on movement. Hence, “the L2 learners are not only creating a rule system which is far more complicated than the native system, but also one which is not definable in linguistic theory” (116). Schwartz (1996), however, claims that “UG is accessible in (adult) L2 acquisition” (227). Hence, the possession of L1 does not necessarily imply that for L2 learners native competence is unachievable, only that, as soon as abstract linguistic principles have been fixed according to the specific options of the L1 system, it is difficult to access the original linguistic abilities and therefore to acquire the options chosen by another system. A similar position with respect to the role of L1 in the acquisition of L2 phonology is taken by Wode (1996). In order to explain foreign accent in L2 acquisition, Wode argues that “[it] is the rise of L1 perceptual categories and not any loss of innate sensory capacities or socio-cultural attachments that leads to the well known perceptual difficulties of L2 learners” (342). 4.1.1. The Full Transfer/Full Access model: no negative evidence According to the idea of Full Transfer/Full Access, the process of L2 acquisition is, as is true for L1 acquisition, constrained by the linguistic principles and parameters of Universal Grammar. However, transfer from L1 may cause learners to make errors which cannot be corrected on the basis of positive evidence. This is the case whenever the L1 form does not have an equivalent in the L2. Therefore, Schwartz and Sprouse (1996) note that
828 “convergence on the TL is not guaranteed … data needed to force restructuring simply do not exist (e. g. negative data) … or the positive data needed are highly obscure, being very complex and/or very rare” (42). Whenever this happens, i. e. when learners will not be able to make further progress, they will remain at a stage of fossilization. Researchers have different views on whether or not correction and grammar teaching might stimulate learners to achieve more advanced stages of acquisition. White (1987), for example, claims that “it is conceivable that in situations like these (…) correction or specific, fine-tuned grammar teaching might also be a useful source of input” (107). Schwartz (1993), on the other hand, argues that negative data have no effect on reorganizing L2 grammar. She therefore concludes that “there will be aspects of the TL [target language] that will be nonacquirable” (160). 4.1.2. The Minimal Tree model: VP structure Vainikka and Young-Scholten (1996) do not explicitly discuss the question of the achievability of the L2 target state. Within their model of L2 acquisition, they hypothesize that positive evidence should suffice to learn verb raising, the use of auxiliaries and modals, wh-movement, agreement and complementizers. However, morphological properties that are not semantically motivated and structural properties that are the result of movement are known to be difficult for L2 learners to acquire. Hence, it seems that the Minimal Tree model may not be appropriate to account for the problems in achieving native competence in particular areas of the target language. 4.1.3. The Basic Variety: a simple language system The Basic Variety provides an explicit account of why the L2 target is difficult to acquire. The Basic Variety itself is a type of interlanguage system in which conflicts between constraints, i. e. possible sources of instability, are avoided. Furthermore, it is not only a simple language system in terms of the organizational principles involved, it is also a stable system. As such it represents ‘a potential fossilization point’ (Klein & Perdue 1997: 309, fn 10). Given the fact that the Basic Variety typically lacks those grammatical properties that are linked to the functional
VI. Spracherwerb
category system, it accounts for why it appears hard for L2 learners to achieve native competence with respect to free or bound morphology and structural properties of movement. Klein and Perdue hypothesize that learners may progress from the potential stage of fossilization when they are able to solve conflicts arising between types of constraints, be they constraints of a configurational, semantic or pragmatic nature. For this to happen, learners need to acquire precisely those aspects of the L2 which are typically linked to the functional properties of IP and CP. As is the case in the Minimal Tree model, the Basic Variety has no room for L1 transfer at the IP and CP level. Nor does it address the problem of no negative evidence. However, it has been observed in several studies that Turkish and Arabic learners of L2 Dutch and Turkish and Italian learners of L2 German typically produce errors as in (9) and (10). Here, verb-second is required in both target languages. (9) toen hij heeft ontslag (L1 Arabic) then he has dismissal dan die meisje ook komt (L1 Turkish) then that girl also comes (10) erste jahre ich habe gesproche mit deutsche freunde (L1 Italian) first years I have spoken with German friends dann nachher ich gehen andere firma (L1 Turkish) then afterwards I go to another firm Learners also produce errors with respect to the final position of the finite verb in subordinate clauses in both L2 Dutch and L2 German. Examples are given in (11) and (12). (11) dan moet zeggen of is dief (L1 Turkish) then has-to say if is thief omdat die brood is van hem (L1 Turkish) because that bread is of him (12) wenn ich geh zurück ich arbeit elektriker in türkei (L1 Turkish) if I go back, I work as an electrician in Turkey The properties of verb-second and verb-final are linked to the structural properties of IP and CP. Given the fact that the Basic Variety is a stable system, it is not yet clear how it may account for the way in which learners might be able to overcome these types of error.
60. Constraints on the Shape of Second Language Learner Varieties
4.2. Explaining fossilization The term ‘fossilization’ refers to the fact that in the process of L2 development learners very often seem to reach some sort of a ‘plateau’, as Klein and Perdue (309, fn 10) call it. According to Klein and Perdue “it is as striking that this plateau is so similar, for so many learners, for such a long period of time […], as it is striking that the better learners also pass through a stage where their learner variety is similarly structured” (309, fn 10). 4.2.1. Syntax As shown in the above, properties of basic word order are acquired early, while properties which are the result of movement are acquired late. In L2 German and Dutch, for example, it appeared that underlying SOV order is always acquired before verb movement or verb-second. Both Vainikka and Young-Scholten’s Minimal Tree model and Klein and Perdue’s Basic Variety are able to account for this observation. In order to explain why fossilization occurs with properties of basic word order, we need to consider the interaction between language input and underlying processes of lexical learning. If we assume that verbs are learnt as part of the argument structure that they occur in, verbs are learnt as part of lexical projections with a particular word order. Thus, lexical projections such as eat cookie, give kiss determine basic word order in English, while lexical projections such as koekje eten, kusje geven (cookie eat, kiss give) determine basic word order in Dutch. Given that lexical knowledge is easier to acquire than purely grammatical knowledge, it can be understood why it is that word order properties, such as VO vs. OV, are not particularly difficult to learn, whereas word order properties, such as verb movement, which are purely functionally motivated, may even be regarded ‘unacquirable’ (Schwartz, 1993). Therefore, the distinction between lexically and functionally based grammatical knowledge provides a measure of degree of complexity. It explains why it is that fossilization occurs particularly at the development stage which is constrained by the configurational properties of lexical projections. 4.2.2. Morphology A similar distinction seems to play a role in the L2 acquisition of morphology. Whenever morphology has a semantic function it is eas-
829
ier to acquire than if it is only structurally motivated. Booij (1994) refers to the opposition between semantically motivated morphology, i. e. ‘inherent inflectional morphology’, and syntactically motivated morphology, i. e. ‘contextual inflectional morphology’. Inherent inflectional morphology serves to express a particular semantic content, such as tense or aspect with verbs and number with nouns. Contextual inflectional morphology, such as finiteness, agreement, morphological case marking, adjectival morphology and gender marking depends on particular properties of syntactic context. The relevance of this distinction with respect to L2 acquisition has already been pointed out by Snow (1976). Snow discriminates between ‘semantically strongly-based systems’ and ‘semantically weakly-based systems’. Semantically strongly-based systems such as singular vs. plural are “based on obvious distinctions that are important in our understanding of the world” (151). Semantically weakly-based systems such as grammatical gender, however, need first to be noticed before their grammatical function and distribution can be acquired. Semantically strongly-based morphology is, therefore, easier to acquire than syntactically-weakly based morphology. The distinction between both types of morphology explains why it is that in the morpheme order studies on L2 English -ing and plural marking appear to be acquired before the 3rd person singular -s. Similarly, it explains why it is that the Basic Variety, as a potential stage of fossilization, is a system in which “all features are weak” (Klein & Perdue: 337). 4.2.3. Phonology As argued above, fossilization in phonology shows up as foreign accent. According to Wode (1996) this is due to the fact that “language processing in spontaneous communication is based on phonemic perception” (340). For learners to be able to recategorize the phonemic system according to the L2, they need to have access to their original perceptual abilities. However, “access to [this original ability] is made difficult or blocked via the development of the categories associated with the phonemes of a given language” (336). Hence, it is the perceptual difficulties of L2 learners which are the cause of foreign accent in L2 production. With respect to the age at which phonemic categorization becomes established and children begin to fail to discriminate certain foreign phonemic dis-
830 tinctions, Wode (1996: 342) notes: “The surprise, however, is that these difficulties occur already before the onset of speech, i. e. much before puberty as predicted by Lenneberg’s critical period hypothesis (1967)”. 4.3. Studying ‘the critical period’ Johnson and Newport (1989) and Newport (1994) have argued for a critical period in second-language learning. They carried out an experiment on the acquisition of morphosyntactic and word order properties of L2 English, such as verb tense, noun pluralization, verb agreement, determiner use, use of pronouns, basic word order, word order in wh-questions and yes/no-questions. For subjects who moved to the US between the ages of 3 to 15 they found a ‘whopping’ correlation (Newport, 1994: 551) between performance on a grammaticality judgement test and ‘age of arrival’, while for subjects arriving at ages between 17 to 39 no such effect appeared. In a critique of this experiment, Bialystok and Hakuta (1994) have argued that the subjects who immigrated earlier were also younger when they took the test. Given the fact that the test was a timed experiment on grammaticality judgements, Bialystok and Hakuta (1994) claim that the results are due to differences in “attentional vigilance” (70). Furthermore, they argue that “the younger arrivals would have had more opportunity for formal study of English grammar, the subject matter of the test” (71). Hence, so they claim, the experiment had nothing to do with language acquisition. What Bialystok and Hakuta did not take into account, however, was the fact that the set of linguistic properties as tested in Johnson and Newport (1989) mainly dealt with morpho-syntactic and word order properties which are typically part of the functional category system of English. There is evidence that it is indeed the functional nature of these elements which explains the maturational effects. As an exception to the overall correlation found in Johnson and Newport (1989), Newport (1994) notes that “[c]ontrol over word order was very similar for native and late learners, as was control over the English morpheme -ing”. Furthermore, she remarks that “both of these aspects of English were also acquired after puberty by Genie (Curtiss, 1977)” (551). Given that basic word order is determined by the configurational properties of lexical projections, it belongs to
VI. Spracherwerb
the domain of the lexical-semantic knowledge system. Furthermore, the aspectual function of -ing is also typically semantic. Hence, it seems that for semantic reasons both word order and -ing are acquired to native standards, while for functional reasons the other elements are subject to maturation.
5.
Children vs. adults: differences in input processing
If it is true that, for adults, functional-grammatical knowledge is much harder to acquire than lexical-semantic knowledge, why is it that for children this difference does not seem to matter? In other words, why is it that the acquisition of functional-grammatical knowledge is age-related? Due to differences in cognitive development, short term memory and the presence or absence of an L1, linguistic input processing changes as a function of age. Assuming that children are learning all the basic morphology and word order in the context of small, initially unanalysed structures, L1 acquisition is a problem of analysis. That is, children will learn the formal properties of the functional category system through the analysis of what they have first come to use holistically. The acquisition of agreement in German is an example in case. Ingram and Thompson (1996) argue that “[t]he use of inflections, in and of itself, is not sufficient evidence to the claim that they are acquired” (111). At the initial stage of L1 acquisition, “the large majority of verbs occur in only one inflected variant form” (111). This process of holistic learning explains why formal-grammatical knowledge seems no more difficult for children to acquire than lexical-semantic knowledge. Correct production, however, is not the same as productive use. It is only at a later stage of acquisition that children are able to use the formal features of the functional category system productively correctly, too. Adult learners, knowing the structure of the symbolic system of their L1, are able to distinguish between linguistic elements with a formal-grammatical function and those with a semantic function. Given that language acquisition is geared towards elements which are of semantic relevance, adult learners are primarily concerned with the acquisition of lexical-semantic and morpho-semantic knowledge. For them, morpho-syntactic elements of the functional category system are less rele-
60. Constraints on the Shape of Second Language Learner Varieties
vant to the meaning of the utterance and, therefore, they are relatively difficult to learn. Since, the function of these elements is to represent contextual relations and relations of movement, L2 acquisition is mainly a problem of synthesis. In sum, for adults learning an L2 it is possible to acquire native-like proficiency with properties of lexical projections such as basic word order and with semantically motivated morphology such as aspectual -ing. On the other hand, morpho-syntactic properties of the functional category system are more difficult to learn, and, therefore, learners may fossilize. Assuming that fossilization results from the way in which adult learners process L2 input, progress in L2 acquisition can be obtained if formal-grammatical features of the target language are learnt in settings in which they are crucial to the understanding of the meaning of an utterance. This is what VanPatten and Cadierno (1993) have called ‘structured input processing’. In several experiments VanPatten has shown that this approach to language learning is a viable way to reach higher levels of L2 competence.
6.
Summary
Second language learner varieties are systems in their own right. They belong to the class of natural grammars. Competing views have been put forward to account for the shape of these L2 grammars as well as for the developmental processes that they are involved in. Universally it seems to be the case that morpho-syntactic properties of the functional category system are more difficult to learn than properties of lexical projections. This explains why learners fossilize at a developmental stage which lacks those formal principles which are linked to the functional category system. Furthermore, the L1 system plays a role in shaping the interlanguage grammar. It may interfere with respect to the options chosen by the L2. This type of crosslinguistic influence is not a random process. It is governed by a constraint which has been called the Transfer to somewhere principle. Given the fact that second language learner varieties are the result of language learning mechanisms which apply universally across L2 settings the study of second language acquisition provides insight into the mechanisms of the human language learning faculty.
7.
831
References
Andersen, R. W. (1983). Transfer to somewhere. In S. M. Gass & L. Selinker (Eds.), Language transfer in language learning (pp. 177⫺201). Rowley, Mass.: Newbury House. Andersen, R. W. (1984). The one-to-one principle of interlanguage construction. Language Learning 34, 77⫺95. Andersen, R. W. (1991). Developmental sequences: The emergence of aspect marking in second language acquisition. In T. Huebner & C. Ferguson (Eds.), Crosscurrents in second language acquisition and linguistic theories (pp. 305⫺324). Amsterdam: John Benjamins, Bialystok, E. & Hakuta, K. (1994). In other words. The science and psychology of second-language acquisition. New York: Harper. Booij, G. E. (1994). Against split morphology. In G. E. Booij & J. van Marle (Eds.), Yearbook of morphology 1993 (pp. 27⫺50). Dordrecht: Kluwer. Broeder, P. (1991). Talking about people: A multiple case study on adult language acquisition. Amsterdam: Swets & Zeitlinger. Buren, P. van (1996). Are there principles of UG that do not apply to SLA? In P. Jordens & J. Lalleman (Eds.), Investigating second language acquisition (pp. 187⫺207). Berlin, New York: Mouton de Gruyter. Clahsen, H. (1984). The acquisition of German word order: A test case for cognitive approaches to L2 development. In R. W. Andersen (Ed.), Second languages. A cross-linguistic perspective (pp. 219⫺ 242). Rowley, Mass.: Newbury House. Clahsen, H., Meisel, J. M. & Pienemann, M. (1983). Deutsch als Zweitsprache: Der Spracherwerb ausländischer Arbeiter. Tübingen: Gunter Narr. Clahsen, H. & Muysken, P. (1986). The availability of Universal Grammar to adult and child learners. A study of the acquisition of German word order. Second Language Research, 2, 93⫺119. Clahsen, H. & Muysken, P. (1989). The UG paradox in L2 acquisition. Second Language Research, 5, 1⫺29. Comrie, B. (1990). Second language acquisition and language universals research. Studies in Second Language Acquisition 12, 209⫺218. Corder, S. P. (1978). Language distance and the magnitude of the language learning task. Studies in Second Language Acquisition, 2, 27⫺36. Curtiss, S. (1977). Genie: A psycholinguistic study of a modern day ‘wild child’. New York: Academic Press.
832 Dulay, H. C. & Burt, M. K. (1974). A new perspective on the creative construction process in child second language acquisition. Language Learning, 24, 235⫺278. Dulay, H. C., Burt, M. K. & Krashen, S. D. (1982). Language two. New York: Oxford University Press. DuPlessis, J., Solin, D., Travis, L. & White, L. (1987). UG or not UG, that is the question: A reply to Clahsen and Muysken. Second Language Research, 3, 56⫺75. Eckman, F. R. (1985). Some theoretical and pedagogical implications of the Markedness Differential Hypothesis. Studies in Second Language Acquisition, 7, 289⫺307. Ellis, R. (1989). Are classroom and naturalistic acquisition the same? A study of the classroom acquisition of German word order rules. Studies in Second Language Acquisition, 11, 305⫺328. Felix, S. W. (1982). Psycholinguistische Aspekte des Zweitspracherwerbs. Tübingen: Narr. Flynn, S. (1989). Spanish, Japanese and Chinese speakers’ acquisition of English relative clauses: New evidence for the head-direction parameter. In L. Obler & K. Hyltenstam (Eds.), Bilingualism across life spans. Aspects of acquisition, maturity, and loss (pp. 116⫺131). Cambridge: Cambridge University Press. Gass, S. M. (1980). An investigation of syntactic transfer in adult second language learners, In: R. C. Scarcella & S. D. Krashen (Eds.), Research in second language acquisition (pp. 132⫺145). Rowley, Mass.: Newbury House. Ingram, D. & Thompson, W. (1996). Early syntactic acquisition in German: Evidence for the modal hypothesis. Language, 72, 97⫺120. Johnson, J. S. & Newport, E. L. (1989). Critical period effects in second language learning: the influence of maturational state on the acquisition of English as a second language. Cognitive Psychology, 21, 60⫺99. Jordens, P. (1988). The acquisition of word order in L2 Dutch and German. In P. Jordens & J. Lalleman (Eds.), Language development (pp. 149⫺180). Dordrecht: Foris. Jordens, P. (1996). Input and instruction in second language acquisition. In P. Jordens & J. Lalleman (Eds.), Investigating second language acquisition (pp. 407⫺449). Berlin, New York: Mouton de Gruyter. Keenan, E. L. & Comrie, B. (1977). Noun phrase accessibility and universal grammar. Linguistic Inquiry, 8, 63⫺100.
VI. Spracherwerb Klein, W. & Dittmar, N. (1979). Developing grammars. Heidelberg: Springer Verlag. Klein, W. & Perdue, C. (1992). Utterance structure: Developing grammars again. Amsterdam: John Benjamins. Klein, W. & Perdue, C. (1997). The Basic Variety (or: Couldn’t natural languages be much simpler?). Second Language Research, 13, 301⫺347. Lenneberg, E. (1967). Biological foundations of language. New York: John Wiley. Liceras, J. M. (1989). On some properties of the ‘pro-drop’ parameter: looking for missing subjects in non-native Spanish. In S. M. Gass & J. Schachter (Eds.), Linguistic perspectives on second language acquisition (pp. 109⫺133). Cambridge: Cambridge University Press. Meisel, J. M., Clahsen, H. & Pienemann, M. (1981). On determining developmental stages in natural second language acquisition. Studies in Second Language Acquisition, 3, 109⫺135. Nemser, W. (1971). Approximative systems of foreign language learners. IRAL, 6, 115⫺123. Newport, E. L. (1994). Maturational constraints on language learning. In P. Bloom (Ed.), Language acquisition: Core readings (pp. 543⫺560). Cambridge, Mass.: MIT Press. Perdue, C. (1996). Pre-basic varieties: The first stages of second language acquisition. Toegepaste Taalwetenschap in Artikelen, 55, 135⫺150. Pienemann, M. (1987). Psychological constraints on the teachability of languages In C. Pfaff (Ed.), First and second language acquisition processes (pp. 143⫺168). Cambridge, Mass.: Newbury House. Poeppel, D. & Wexler K. (1993). The Full Competence Hypothesis of clause structure in early German. Language, 69, 1⫺33. Radford, A. (1988). Small children’s small clauses. Transactions of the Philological Society, 86, 1⫺43. Schachter, J. (1974). An error in error analysis. Language Learning, 24, 205⫺214. Schachter, J. (1989). Testing a proposed universal. In S. M. Gass & J. Schachter (Eds.), Linguistic perspectives on second language acquisition (pp. 73⫺ 88). Cambridge: Cambridge University Press. Schachter, J. & Rutherford, W. (1979). Discourse function and language transfer. Working Papers on Bilingualism, 19, 1⫺12. Schwartz, B. D. (1993). On explicit and negative data effecting and affecting competence and linguistic behavior. Studies in Second Language Acquisition, 15, 147⫺163.
61. Gesteuerter Fremdsprachenerwerb Schwartz, B. D. (1996). Parameters in non-native language acquisition. In P. Jordens & J. Lalleman (Eds.), Investigating second language acquisition (211⫺235). Berlin, New York: Mouton de Gruyter. Schwartz, B. D. & Sprouse, R. A. (1996). L2 cognitive states and the Full Transfer/Full Access model. Second Language Research, 12, 40⫺72. Selinker, L. (1972). Interlanguage. IRAL, 10, 209⫺231. Slobin, D. I. (1973). Cognitive prerequisites for the development of grammar. In C. A. Ferguson & D. I. Slobin (Eds.), Studies of child language development (pp. 175⫺208). New York: Holt, Rinehart and Winston. Slobin, D. I. (1985). Crosslinguistic evidence for the language-making capacity. In D. I. Slobin (Ed.), The crosslinguistic study of language acquisition. Volume 2: Theoretical issues. (pp. 1157⫺1256). Hillsdale, N.J.: Lawrence Erlbaum. Snow, C. (1976). Semantic primacy in first and second language acquisition. Interlanguage Studies Bulletin, 1, 137⫺165.
833 White, L. (1985). The pro-drop parameter in adult second language acquisition. Language Learning, 35, 47⫺62. White, L. (1987). Against comprehensible input: The Input Hypothesis and the development of second-language competence. Applied Linguistics, 8, 95⫺110. White, L. (1988). Island effects in second language acquisition. In S. Flynn & W. O’Neill (Eds.), Linguistic theory in second language acquisition (pp. 144⫺172). Dordrecht: Reidel. Wode, H. (1981). Learning a second language. 1. An integrated view of language acquisition. Tübingen: Narr. Wode, H. (1996). Speech perception and L2 phonological acquisition. In P. Jordens & J. Lalleman (Eds.), Investigating second language acquisition (pp. 321⫺353). Berlin, New York: Mouton de Gruyter. Zobl, H. (1980a). The formal and developmental selectivity of L1 influence on L2 acquisition. Language Learning,30, 43⫺57.
Vainikka, A. & Young-Scholten, M. (1996). Gradual development of L2 phrase structure. Second Language Research, 12, 7⫺39.
Zobl, H. (1980b). Developmental and transfer errors: Their common bases and (possibly) differential effects on subsequent learning. TESOLQuarterly,14, 469⫺479.
VanPatten, B. & Cadierno, T. (1993). Explicit instruction and input processing. Studies in Second Language Acquisition, 15, 225⫺243.
Peter Jordens Amsterdam, Free University (The Netherlands)
61. Gesteuerter Fremdsprachenerwerb 1. 2.
6.
Zur Begriffsbestimmung Der gesteuerte im Vergleich zu anderen Typen des Spracherwerbs Zweitsprachenerwerbsforschung Vom Lehren und Lernen von Sprachen (Didaktik des Fremdsprachenunterrichts) Psycholinguistik und gesteuerter Fremdsprachenerwerb Literatur
1.
Zur Begriffsbestimmung
3. 4. 5.
Der Begriff gesteuerter Fremdsprachenerwerb (controlled foreign language acquisition) bezeichnet gemeinhin alle Formen des Erwerbs einer Fremdsprache in einem institutionalisierten Kontext. Damit schließt er das schulische, aber auch das Fremdsprachenlernen im Erwachsenenalter ein, soweit dieses
institutionell organisiert ist. Gesteuerter Fremdsprachenerwerb bezieht sich also auf das Lernen von Fremdsprachen im Kindergarten, in der Schule, an der Hochschule, aber auch an Bildungseinrichtungen wie Volkshochschulen und privaten Sprachenschulen. Der Begriff wird in der deutschsprachigen Literatur schon seit geraumer Zeit gebraucht und auch dem englischsprachigen Begriff instructed language acquisition gleichgesetzt, der allerdings präziser als der deutsche die Spezifika des institutionalisierten Fremdsprachenlernens bezeichnet. Sowohl im deutschen wie im englischen Begriff ist die Annahme enthalten, dass eine Fremdsprache über Steuerungsprozesse vermittelt werden kann; mit dem englischen Begriff wird aber in stärkerem Maße ausgesagt, dass diese Steuerungsprozesse Vermittlungsprozesse sind, die
834 von einem Lehrenden durchgeführt werden. Die Annahme, dass Fremdsprachenlernprozesse von außen beeinflusst werden können, wird heute von vielen Forschern nicht mehr geteilt. Dies hat dazu geführt, dass der Begriff gesteuerter Fremdsprachenerwerb seltener Verwendung findet und durch den Begriff institutionalisiertes Fremdsprachenlernen ersetzt wird. Zum Verständnis des Begriffs ist noch auf einen weiteren Aspekt hinzuweisen. Der Terminus Fremdsprache wird verwendet, um diese Art des Lernens einer weiteren Sprache zu unterscheiden vom so genannten natürlichen Zweitsprachenerwerb, der gemeinhin den Erwerb einer zweiten Sprache in einem Kontext bezeichnet, in dem diese Sprache üblicherweise gesprochen wird. Natürlicher Zweitsprachenerwerb (natural second language acquisition) bezieht sich als Begriff z. B. auf das Lernen der Sprache des Gastlandes durch Migranten oder Immigranten (z. B. der Erwerb des Deutschen durch türkische Migranten in Deutschland, der Erwerb des Englischen durch chinesische Immigranten in Kanada). Die Bezeichnung „natürlich“ wird aus dem Umstand abgeleitet, dass diesem Erwerbsprozess keine Steuerungsprozesse unterliegen, d. h. kein Unterricht stattfindet, und er dort vonstatten geht, wo die Sprache gesprochen wird, d. h. also auf der Straße oder im beruflichen Alltag. Problematisch wird die Unterscheidung zwischen natürlichem Zweitsprachenerwerb und gesteuertem Fremdsprachenerwerb in mehrsprachigen Ländern, wie z. B. in der Schweiz oder in Belgien, wo die zu lernende Sprache gleichzeitig die andere im Land gebrauchte Sprache ist und deshalb sowohl natürlich als auch in institutionalisierten Kontexten gelernt wird. Nicht nur diese besonderen Erwerbskontexte haben dazu geführt, dass die Notwendigkeit einer Trennung in natürlichen und gesteuerten Fremd- bzw. Zweitsprachenerwerb immer weniger eingesehen wird. Denn wenn man das Lernen von Sprachen in der heutigen, stark durch Globalisierungsprozesse bestimmten Welt etwas allgemeiner betrachtet, dann zeigt sich deutlich, dass sich natürliche und institutionalierte Prozesse häufig miteinander vermischen: Der an einer deutschen Schule Englisch lernende Schüler geht z. B. für ein Jahr in die USA und lernt dort Englisch auf „natürliche Weise“. Ebenso lernen viele Migrantenkinder in Deutschland Deutsch auch in institutionalisierten Kontexten und nicht nur auf natürliche Weise. Ich
VI. Spracherwerb
werde im Folgenden den Begriff „gesteuerter Fremdsprachenerwerb“ im Wesentlichen als gleichbedeutend mit „institutionalisiertem Fremdsprachenlernen“ verstehen und darunter die Formen des Fremdsprachenerwerbs zusammenfassen, die überwiegend in einem Kontext ablaufen, der institutionellen Charakter hat. Sowohl der gesteuerte/institutionalisierte Fremdsprachenerwerb als auch alle anderen Typen des Spracherwerbs, die über die Muttersprache hinausgehen, werden in der Forschung gemeinhin mit dem Oberbegriff Zweitsprachenerwerb (second language acquisition ⫽ SLA) bezeichnet. Im Laufe der letzten dreißig Jahre hat sich eine eigene Zweitsprachenerwerbsforschung etabliert, die sich mit allen Formen des Zweitsprachenerwerbs beschäftigt. Darüber hinaus sind die Fremdsprachendidaktik bzw. die Didaktiken einzelner Sprachen (Fachdidaktik Englisch, Fachdidaktik Französisch) für den gesteuerten Fremdsprachenerwerb aus der Perspektive der Sprachvermittlung in institutionalisierten Kontexten zuständig.
2.
Der gesteuerte im Vergleich zu anderen Typen des Spracherwerbs
Bei der Begriffsbestimmung ist bereits deutlich geworden, dass der gesteuerte Fremdsprachenerwerb nur einer in einer ganzen Reihe von Typen des Zweit- und Fremdsprachenerwerbs ist, die sich durch Erwerbskontexte und Erwerbsprozesse bzw. Erwerbsverfahren voneinander unterscheiden. Wenn man sich mit dem gesteuerten Fremdsprachenerwerb auseinander setzt, muss man zunächst ausloten, in welchem Verhältnis er zu diesen anderen Typen steht, d. h. was ihn von den anderen Formen des Zweitsprachenerwerbs unterscheidet. Ziel dieses Abschnittes ist es, die verschiedenen Erwerbsformen kurz zu skizzieren und sie zueinander in Beziehung zu setzen. Es kann kein Zweifel daran bestehen, dass der Erwerb jeder weiteren Sprache in enger Beziehung zu der zunächst gelernten Sprache, der Muttersprache, steht. Im Sinne der oben vorgenommenen ersten Trennung der verschiedenen Spracherwerbstypen ist der Muttersprachenerwerb „natürlich“, d. h. das Kind lernt die Sprache in einem Erwerbskontext, in welchem diese Sprache sonst auch gesprochen wird. Die Spracherwerbsforschung ist unterschiedlicher Meinung darüber, in welchem Maße der Mutterspracherwerbspro-
61. Gesteuerter Fremdsprachenerwerb
zess gesteuert wird. Während eine Reihe von Forschern der Auffassung ist, die Mutter bzw. die Bezugsperson würde über Modifikationen in der an das Kind gerichteten Sprache (Input) eine Steuerung vornehmen, nehmen andere an, dass der Erwerbsprozess in hohem Maße autonom ist. Der Muttersprachenerwerb unterscheidet sich durch zwei wichtige Aspekte von fast allen Formen des Zweitsprachenerwerbs: (1) Das muttersprachliche Kind entwickelt sich gleichzeitig sprachlich und kognitiv, d. h. die Sprache stützt die kognitive Entwicklung, und die kognitive Entwicklung fördert die Sprachentwicklung. Mit einer Ausnahme (der des simultanen Bilingualismus) ist dies bei den verschiedenen Typen des Zweitsprachenerwerbs nicht der Fall. Denn der zweitsprachliche Erwerbsprozess beginnt zu einem Zeitpunkt, zu welchem die kognitive Entwicklung schon fortgeschritten ist. (2) Das muttersprachliche Kind hat, wenn es mit dem Spracherwerb beginnt, keinerlei Erfahrungen mit Sprache und dem Erwerb von Sprache. Auch dies gilt nicht für den Zweitsprachenerwerb. Qua Definition verfügt jeder Zweitsprachenlerner bereits über Erfahrungen mit einer Sprache und mit dem Sprachenlernen, denn er hat schon seine Muttersprache gelernt. Der hohe Stellenwert, den die Muttersprache in der sprachlichen Biographie eines jeden Menschen hat, führt dazu, dass sie sowohl den Erwerb jeder weiteren Sprache als auch ihren Gebrauch beeinflusst. Letzteres zeigt sich z. B. in der Vielzahl muttersprachlicher Interferenzen. Die verschiedenen Varianten des bilingualen Spracherwerbs bilden den Übergang zu den unterschiedlichen Typen des Zweit- und Fremdsprachenerwerbs. Der simultane bilinguale Spracherwerb ist in gewisser Weise eine Sonderform des Muttersprachenerwerbs, er bezeichnet den natürlichen Erwerb zweier Sprachen als Muttersprache(n), wobei normalerweise die Eltern des Kindes ihre jeweilige Muttersprache als Input einbringen. Der simultane Bilingualismus unterliegt ähnlichen Steuerungsmechanismen wie der Muttersprachenerwerb. Der konsekutive bilinguale Spracherwerb, bei dem die zweite Sprache später als die erste, aber spätestens im Vorschulalter erworben wird, tritt in zwei Varianten auf: in der einen, der elitären Form lernt das Kind zunächst im familiären Kontext die eine und dann – auf der Straße oder im Kindergarten – die andere Sprache, die gleichzeitig auch die Sprache des Landes ist, in welchem die Familie lebt. Die andere, die
835 erzwungene Form ist von der Konstellation her identisch; während aber der elitäre konsekutive Bilingualismus sich meist in sozialen Oberschichten entwickelt, ist der erzwungene konsekutive Bilingualismus charakteristisch für Migranten- und Immigrantenkontexte. Beide Typen sind natürliche Typen des Zweitsprachenerwerbs. Steuerungsprozesse erfolgen – wenn sie denn stattfinden – über die Eltern bzw. über die sozialen Kontexte, in welchen die andere Sprache gelernt wird. Die Zeiten, in welchen die Lernenden den beiden Sprachen ausgesetzt sind, sind unterschiedlich lang. Die Länge („length of exposure“) hängt von individuellen Variablen ab und bestimmt die Entwicklung der Sprachkompetenz in den beiden Sprachen. Institutionalisierten Formen des Fremdsprachenerwerbs begegnet man frühestens im Kindergarten und dann im Grundschulalter. Mit institutionalisierten Formen verknüpfte natürliche Formen des Zweitsprachenerwerbs lassen sich in Fortführung des erzwungenen konsekutiven Bilingualismus bei Migrantenund Immigrantenkindern beobachten: Kinder und auch Erwachsene lernen die Sprache des Gastlandes im Unterricht und in natürlichen Kommunikationssituationen. Häufig ist es auch so, dass es eher die ursprüngliche Muttersprache des Kindes ist, die institutionell gefördert wird („heritage language programmes“). In mehrsprachigen Ländern beginnt mit der Einschulung der institutionalisierte Erwerb der anderen Sprache, die gleichzeitig auch in natürlichen Kommunikationssituationen im Lande selbst erprobt wird. Institutionalisierte Formen des Fremdsprachenerwerbs im Sinne der obigen Definition beginnen ebenfalls bereits in der Grundschule; hier ist in Deutschland insbesondere der Frühbeginn des Fremdsprachenunterrichts zu nennen, der sich vorwiegend auf Englisch oder Französisch bezieht. Das so genannte Begegnungssprachenkonzept, das als Erwerbskonzept nur in Nordrhein-Westfalen existiert, hebt nicht auf eine spezifische Sprache, sondern auf die Förderung eines allgemeinen Sprachlernvermögens ab. Fremdsprachen werden an deutschen Schulen in allen Schulformen angeboten: Der Erwerb einer Fremdsprache (meist Englisch) bis zum Alter von sechzehn Jahren ist verpflichtend. An den weiterführenden Schulen sind es zwei Fremdsprachen, die erworben werden müssen. Die institutionalisierten Fremdsprachenangebote für Erwachsene sind sehr vielfältig: Sie reichen von auf Tourismusbedürfnisse ab-
836
VI. Spracherwerb
zielenden allgemeinsprachlichen Kursen an Volkshochschulen und privaten Sprachenschulen bis hin zu fachsprachlichen Kursen an Universitäten und Fachhochschulen. Allen institutionalisierten Formen des fremdsprachlichen Lernens ist zu Eigen, dass Unterricht stattfindet, der vom Lehrer durchgeführt und mit Unterrichtsmaterialien gestaltet wird, die zum Zwecke des Sprachlernens entwickelt wurden. Außerdem ist festzuhalten, dass die Lernenden im Gegensatz zu allen Formen des natürlichen Zweitsprachenerwerbs nur wenige Stunden in der Woche der anderen Sprache ausgesetzt sind.
3.
Zweitsprachenerwerbsforschung
Die Zweitsprachenerwerbsforschung (L2Forschung), die sich in den Sechzigerjahren etabliert hat, beschäftigt sich mit allen Ausprägungen des Erwerbs zweiter Sprachen. Ursprünglich aus Fragestellungen erwachsen, die auf den institutionalisierten Fremdsprachenerwerb fokussierten, hat sie sich dann auch Problemstellungen zugewandt, die eher dem natürlichen Zweitsprachenerwerb zukommen. Dies hat in Deutschland dazu geführt, dass sich in der Mitte der Siebzigerjahre mit der Sprachlehr- und Sprachlernforschung eine Teildisziplin der L2-Forschung abgetrennt hat, die sich wiederum nur mit dem Sprachenlernen in institutionalisierten Kontexten beschäftigt, also zu den Anfängen der L2-Forschung zurückkehrt. Dies wurde und wird damit begründet, dass das institutionalisierte Fremdsprachenlernen ein in sich geschlossenes komplexes Forschungsgebiet sei, das nicht nur Lernprozesse, sondern auch Lehrverfahren und ihre Auswirkungen auf Lernprozesse zu untersuchen habe. Die Trennung in L2-Forschung und Sprachlehr- und Sprachlernforschung existiert in anderen Ländern nicht. Ob sie berechtigt ist, soll im Kontext dieses Beitrages nicht diskutiert werden. Die L2-Forschung sieht es als ihre zentrale Aufgabe an, eine allgemeine Theorie des L2-Lernens zu entwickeln, gleichzeitig geht es ihr aber auch darum, die Spezifika der verschiedenen Erwerbstypen zu erforschen. Deshalb sind die Ergebnisse der L2-Forschung nicht nur für das Verständnis des natürlichen Zweitsprachenerwerbs wichtig; sie tragen auch in hohem Maße dazu bei, besser zu verstehen, was in einem fremdsprachlichen Klassenzimmer vor sich geht. Außerdem weist die L2-Forschung immer wieder darauf hin (zu-
letzt Ellis, 1994, der einen ganzen Teil seines monumentalen Werkes der classroom second language acquisition widmet), dass sie ihre Ergebnisse auch als Beitrag zur Weiterentwicklung des institutionalisierten Fremdsprachenlernens versteht. Daher muss sich auch ein Beitrag, der sich mit diesem Typ des Erwerbs einer zweiten Sprache beschäftigt, mit den Ergebnissen der L2-Forschung auseinander setzen. Die L2-Forschung hat ihre zentrale Aufgabe, eine allgemeine Theorie des L2-Lernens zu entwickeln, forschungsmethodisch über produkt- und prozessorientierte Verfahren zu bewältigen versucht. Dabei stand lange Zeit die Lernersprache („learner language, interlanguage“) im Mittelpunkt der Aufmerksamkeit. Am Anfang wurde versucht, über eine Analyse der Abweichungen lernersprachlicher Äußerungen von der zielsprachlichen Norm zu Erkenntnissen über zweitsprachliche Lernprozesse zu gelangen (Fehleranalyse), wobei die lernersprachlichen Äußerungen überwiegend aus dem institutionalisierten Fremdsprachenerwerb stammten. Später wurde die Lernersprache vor allem auf Interaktionsmuster hin untersucht, um aus dem Kommunikationsverhalten der Lernenden Rückschlüsse auf sprachliche Lernprozesse zu ziehen. Hierfür wurden Interaktionen natürlicher, aber auch schulischer Zweitsprachenlerner herangezogen. Direkte Prozessanalysen setzten in den frühen Achtzigerjahren ein. Neben Fragebogen und Interviews waren es vor allem Techniken des lauten Denkens, die zur Lösung ganz unterschiedlicher Fragen herangezogen wurden. So wurden z. B. Lautdenkverfahren dazu benutzt, Erkenntnisse über Wortschatz-Erschließungsverfahren von L2-Lernern zu gewinnen (Haastrup, 1991). Mit anderen introspektiven Verfahren wurde versucht, Aufschluss über Wortschatz-Abrufverfahren bei der Sprachproduktion und beim Übersetzen (Dechert, Möhle, Raupach, 1984; Zimmermann, 1990) zu erzielen. Auch hier kamen die Probanden sehr häufig aus Kontexten des gesteuerten Fremdsprachenerwerbs. Welches sind nun die spezifischen Bereiche, denen sich die L2-Forschung im Verlauf ihrer über dreißigjährigen Geschichte vor allem gewidmet hat? Ich möchte auf die folgenden eingehen: (1) Analyse der Lernersprache, (2) Analyse der Faktoren, die den L2-Erwerb beeinflussen,
61. Gesteuerter Fremdsprachenerwerb
(3) Analyse der individuellen Unterschiede zwischen L2-Lernern, (4) Entwicklung von Theorien zum L2-Erwerb. Zu (1): Ich hatte schon darauf hingewiesen, dass die Lernersprache in der produktorientierten methodischen Phase der L2-Forschung im Mittelpunkt aller Analysen stand. Nicht nur damals, sondern zum Teil auch noch heute sieht man in den Fehlern, die Lerner in der Zielsprache machen, Fenster, die einen Blick in das menschliche Gehirn erlauben und Rückschlüsse auf sprachliche Lernprozesse gestatten. Es ist nicht überraschend, dass die lernersprachlichen Fehler im Verlauf der Lernersprachenforschung unterschiedlich interpretiert wurden und sogar zur Bildung unterschiedlicher theoretischer Konzepte über den L2-Erwerb führten. In den Anfängen der L2-Forschung bis zum Beginn der Siebzigerjahre ging man davon aus, dass alle Fehler, die Lerner machten, auf Interferenzen mit der Muttersprache zurückgeführt werden müssen. Daraus wurde der, wie sich später zeigte, voreilige Schluss gezogen, dass man schulische Lernprozesse optimieren könne, wenn man im Unterricht Unterschiede und Ähnlichkeiten zwischen Ausgangs- und Zielsprache thematisiere. In der zweiten Phase der Lernersprachenforschung glaubte man eine Trennung in drei Arten von Fehlern nachweisen zu können: (a) die bereits bekannten Interferenzfehler, als deren Quelle weiterhin die Ausgangssprache des Lerners galt, (b) unsystematische Fehler, die nicht klassifizierbar und der Performanz des Lerners zuzuordnen waren, und (c) so genannte Entwicklungsfehler („developmental errors“), die, weil sie die Weiterentwicklung der L2-Forschung stark beeinflusst haben, hier etwas genauer behandelt werden müssen. In Anlehnung an die Muttersprachenerwerbsforschung, die festgestellt hatte, dass muttersprachliche Kinder in ihrer Sprachentwicklung bestimmten festgelegten Sequenzen folgen (in der L1-Forschung wird hier von „natural order“ gesprochen), konnte die L2-Forschung zeigen, dass diese Sequenzierung auch in der zweitsprachlichen Entwicklung zu beobachten ist. Ein großer Teil der lernersprachlichen Fehler wurde deshalb darauf zurückgeführt, dass Lerner zu dem Zeitpunkt, zu welchem sie den Fehler machten, noch nicht den sprachlichen Entwicklungsstand erreicht hatten, durch den sie diesen Fehler hätten vermeiden können. Im weiteren Verlauf
837 der Lernersprachenanalyse wurde eine Vielzahl weiterer Merkmale entdeckt, z. B. dass neben den Entwicklungsfehlern, die ausschließlich auf die Zielsprache zurückgeführt werden, in der Lernersprache auch Abweichungen auftreten, die mit der Muttersprache des Lerners zu tun haben, sich aber nicht als Interferenzen, sondern als Vermeidungsverhalten im Hinblick auf bestimmte Strukturen der Zielsprache niederschlagen. Bei der Analyse des Interaktionsverhaltens von Lernern wurde auch deutlich, dass sich Entwicklungssequenzen nicht nur im Bereich der grammatischen Morpheme, sondern auch bei komplexen Strukturen erkennen lassen. Es besteht kein Zweifel daran, dass die Lernersprachenanalyse gerade für den institutionalisierten Fremdsprachenerwerb zu interessanten Erkenntnissen geführt hat, die sich vor allem auf die Behandlung von Fehlern im Unterricht beziehen. Zu (2): Die L2-Forschung hat sich im Verlauf ihrer Geschichte intensiv mit den internen und externen Faktoren beschäftigt, die den Erwerb einer zweiten Sprache beeinflussen: Bei den internen Faktoren werden Intelligenz, Begabung („aptitude“), Persönlichkeit, Motivation und Alter genannt, zu den externen gehören vor allem soziale Faktoren sowie Input und Interaktion. Natürlich können diese Faktoren nur zu einem geringen Teil mit genuinen Methoden der L2-Forschung untersucht werden; viele Fragestellungen reichen in die Psychologie und in die Soziologie hinein. Intelligenz ist ein Faktor, der nicht nur Spracherwerbsprozesse beeinflusst. In der L2-Forschung wurde deutlich, dass durchaus eine Korrelation zwischen Intelligenz und Sprachlernerfolg hergestellt werden kann, dass diese Korrelation im Hinblick auf bestimmte sprachliche Fähigkeiten besonders stark ist, im Hinblick auf andere aber weniger ausgeprägt. Ein höherer Intelligenzquotient macht sich vor allem beim Lesen und Schreiben in der Fremdsprache bemerkbar, im Hinblick auf die mündlichen Kommunikationsfertigkeiten ist hingegen kein Unterschied zu Menschen mit einem geringeren Intelligenzquotienten erkennbar. Der Faktor Begabung, der von seiner Begrifflichkeit im Deutschen einen etwas unbestimmten Charakter hat, wird für den Lernerfolg in einer zweiten Sprache wichtig, wenn man ihn so versteht wie den englischen Begriff aptitude. Aus den aptitude-Tests, die zum Teil aus der Sozialpsychologie stammen, wird deutlich, dass Fertigkeiten wie das Erkennen von Lauten
838 und ihre Speicherung im Gedächtnis, das Festhalten von Wörtern im Gedächtnis, das Erkennen der grammatischen Funktionen von Wörtern in Sätzen und das Abstrahieren grammatischer Regeln aus sprachlichen Daten den Lernerfolg beim L2-Erwerb verbessern. Die Analyse von Persönlichkeitsfaktoren hat gezeigt, dass extrovertierte Menschen erfolgreicher beim Sprachlernen sind als introvertierte. Sie haben größeres Interesse an sozialer und sprachlicher Interaktion und benutzen daher auch die fremde Sprache häufiger. Sie sind risikobereiter und stehen daher auch Fehlern positiver gegenüber. Die gesichtsbedrohende Wirkung von Fehlern, die introvertierte Lerner spüren, ist ihnen weitgehend fremd. Die Motivation ist ein in hohem Maße lernerfolgssteigernder Faktor beim L2Lernen, wobei sowohl instrumentelle wie auch integrative Motivation den Lernerfolg positiv beeinflussen können. Der Faktor Alter hat in der L2-Forschung viele kontroverse Diskussionen ausgelöst. Es ist auch ein Faktor, der für das institutionalisierte Fremdsprachenlernen bedeutsam geworden ist. Der heutige Stand der Forschung macht es möglich, davon auszugehen, dass das Alter des Lernenden zwar beim L2-Erwerb eine wichtige Rolle spielt, dass es aber den Lernerfolg prinzipiell nicht beeinflusst, jedoch Auswirkungen auf die vom Lerner eingesetzten Lernverfahren hat. Die größere phonetische Korrektheit, die den kindlichen Sprachlerner häufig gegenüber dem erwachsenen auszeichnet, hat wahrscheinlich mit der besseren Nachahmungsfähigkeit des Kindes zu tun, nicht aber mit einer generell besser entwickelten Sprachlernfähigkeit. Die sozialen Faktoren, die als externe Faktoren ausgewiesen werden, haben mit dem sozialen Kontext zu tun, in dem ein Mensch Sprache lernt. Der soziale Kontext prägt die Haltungen, die ein Lerner gegenüber der fremden Sprache hat, und beeinflusst damit auch seine Motivation. Der Zwang, eine fremde Sprache lernen zu müssen, der vor allem Migranten oder Immigranten betrifft, kann den Lernprozess negativ oder positiv beeinflussen. Die Zugehörigkeit zu einer Sprachgemeinschaft, die sich anderen gegenüber als überlegen betrachtet, kann dazu führen, dass keine andere Sprache gelernt wird. Auf der anderen Seite kann aber auch Isolation bzw. Abgeschlossenheit („enclosure“) einer sozialen Gruppe dazu führen, dass der Erwerb weiterer Sprachen nicht für nötig befunden wird. Zweifellos stellen auch Input und Interaktion Faktoren dar, die den Erwerbsprozess beeinflussen. Ein Lerner, der,
VI. Spracherwerb
wie dies bei Migranten häufig geschieht, nur mit pidginisierten Formen der Zielsprache in Berührung kommt, wird wenig erfolgreich in seinem Lernprozess sein. Zu (3): Auf die individuellen Faktoren, die das Lernen einer weiteren Sprache beeinflussen, soll hier nicht so ausführlich eingegangen werden, obwohl sie gerade für das institutionalisierte Fremdsprachenlernen von großer Bedeutung sind. Die L2-Forschung konnte nachweisen, dass individuelle Lernstile den Spracherwerbsprozess beeinflussen. Es gibt Lerner, die einen visuellen Lernstil bevorzugen, d. h. beim Sprachlernen verschriftete Lernitems vorziehen; andere sind eher auditiv orientiert und können gesprochenen Input besser verarbeiten. Lernstile lassen sich auch nach der Art und Weise differenzieren, in der Lernitems gehandhabt werden. So gibt es neben konkret operierenden Lernen analytische, aber auch sozial orientierte und autonome Lerner. Die Zahl der Lerner, die sich der Autorität eines Lehrers unterstellen, ist vergleichsweise groß; dies hängt aber mit der instruktivistisch geprägten Grundhaltung von institutionalisiertem Lernen zusammen. Von großer Bedeutung wurde in der L2-Forschung auch die Erforschung der Lernerstrategien. Die Lernstrategien als die größte Gruppe wurden aufgeteilt in Gedächtnisstrategien, kognitive Strategien und Kompensationsstrategien auf der einen und metakognitive Strategien, affektive Strategien und soziale Strategien auf der anderen Seite (Oxford, 1990). Viele Lernstrategien haben ihre Entsprechungen in den Lern- und Arbeitstechniken, wie sie von der Fremdsprachendidaktik entwickelt wurden. Zu (4): Die ungeheure Zahl von Studien zum L2-Erwerb (Ellis (1994) listet in seinem Buch auf mehr als 60 Seiten nur die wichtigsten auf) hat u. a. dazu geführt, dass die L2Forschung im Verlauf ihrer Geschichte eine Reihe unterschiedlicher Theorien entwickelt hat. Die drei wichtigsten dieser Theorien waren auch für die Weiterentwicklung des institutionalisierten Fremdsprachenlernens von hoher Relevanz. Ich behandele sie hier in chronologischer Abfolge: (1) Die kontrastive Hypothese („contrastive analysis hypothesis“): Sie entwickelte sich auf der Grundlage der behavioristischen Lerntheorie und der oben skizzierten Fehleranalysen. Ihre wichtigste Aussage ist, dass jeder zweitsprachliche Lernprozess auf der Grundlage der Gewohnheiten der Muttersprache vor sich geht. Diese Gewohnheiten interferieren mit den Gewohnheiten, die für die zweite Sprache gebil-
61. Gesteuerter Fremdsprachenerwerb
det werden müssen, und führen zu Lernproblemen. Die kontrastive Hypothese postuliert, dass der Lerner dort, wo es Ähnlichkeiten zwischen Ausgangs- und Zielsprache gibt, die Zielsprache leicht lernen wird; wo es hingegen Unterschiede gibt, werden die zielsprachlichen Strukturen nur unter Schwierigkeiten gelernt. Die kontrastive Hypothese wurde in dem Augenblick obsolet, in dem die Diskussion um die Entwicklungsfehler einsetzte. (2) Die kreative Konstruktionstheorie („creative construction theory“): Diese Theorie, die mit dem Namen Krashen (z. B. 1981) verbunden ist, argumentiert, dass der Erwerb der zweiten Sprache wie der Erwerb der Muttersprache ein Prozess ist, der den Lerner aus den zur Verfügung gestellten Sprachdaten das Sprachsystem der neuen Sprache konstruieren lässt. Seine Erwerbsprozesse werden in ihrer Abfolge eingeschränkt durch die natürliche Ordnung, in der die sprachlichen Items der Zielsprache gelernt werden können, sie werden auch beeinflusst durch den sprachlichen Input, der dem Lerner zur Verfügung steht. Nur ein Input, der vom grammatischen und lexikalischen Schwierigkeitsgrad her gerade oberhalb der sprachlichen Kompetenz des Lerners liegt, wird nach Auffassung von Krashen zu Lernprozessen führen. Die Theorie Krashens ist stark angegriffen worden, aber einige Aspekte sind im Kontext des institutionalisierten Lernens von Bedeutung, insbesondere die Tatsache, dass das Sprachlernen ein Konstruktionsprozess ist, der vom Lerner weitgehend eigenständig durchgeführt wird. (3) Die Interaktionshypothese („interactionist hypothesis“): Auch diese Hypothese geht davon aus, dass der L2-Erwerb ein komplexer Konstruktionsprozess ist, allerdings versucht sie in höherem Maße als die kreative Konstruktionstheorie zu erklären, wie der Input beschaffen sein muss, um Konstruktionsprozesse zu initiieren. Es sind die Modifikationen in den Interaktionen zwischen Muttersprachlern und Zweitsprachenlernern, welche Erwerbsprozesse auslösen. Diese Modifikationen machen den Input verständlich, ein verständlicher Input fördert Erwerbsprozesse, deshalb fördern Modifikationen in der Interaktion die Erwerbsprozesse.
4.
Vom Lehren und Lernen von Sprachen (Didaktik des Fremdsprachenunterrichts)
Es sollte aus der Darstellung im letzten Abschnitt deutlich geworden sein, dass die L2Forschung im Verlauf ihrer kurzen Ge-
839 schichte eine Vielzahl von wichtigen Erkenntnissen für das institutionalisierte Fremdsprachenlernen geliefert hat, Erkenntnisse, die das Lernen von Fremdsprachen im Klassenzimmer vor allem aus der Lernerperspektive beleuchten. Neben der L2-Forschung war es vor allem die Fremdsprachendidaktik, die das Geschehen im fremdsprachlichen Klassenzimmer entweder als Bereichsdidaktik (Didaktik des Lehrens und Lerners fremder Sprachen) oder als Fachdidaktik (Didaktik des Englischen, Französischen, Russischen, Spanischen etc.) behandelt hat, wobei sie im Gegensatz zur L2-Forschung ihr Augenmerk auch – lange Zeit sogar ausschließlich – auf den Lehrer gelenkt hat. Ich will in diesem Abschnitt vor allem auf zwei Punkte eingehen: Ich möchte (1) die Fremdsprachendidaktik als Disziplin näher charakterisieren und (2) erläutern, welchen anderen Disziplinen – außer der L2-Forschung ⫺ sie verpflichtet ist. Fremdsprachendidaktik wird gemeinhin als Theorie und Praxis des Lehrens und Lernens von Fremdsprachen definiert. Die Fremdsprachendidaktik ist, wie im Verlauf dieses Abschnitts deutlich werden wird, weniger als die L2-Forschung eine empirische Wissenschaft; sie beschäftigt sich, aufbauend auf einer Reihe anderer Disziplinen, vorwiegend mit Konzepten des Fremdsprachenunterrichts und ist damit eine stärker pädagogisch orientierte Disziplin, obwohl sie vor allem in den letzten dreißig Jahren durchaus auch empirisch gearbeitet hat. Das Verhältnis zwischen der Fremdsprachendidaktik und ihrem deutschen Ableger – der Sprachlehr- und Sprachlernforschung – auf der einen und der L2-Forschung auf der anderen Seite hat sich verbessert, nachdem es lange dadurch gekennzeichnet war, dass die jeweiligen Disziplinen kaum etwas übereinander wussten und deshalb auch kaum zusammenarbeiteten. Dies hat vor allem damit zu tun, dass die methodischen Ansätze der englischen Forschung, die, weil sie sich gleichzeitig auf alle Formen des L2-Erwerbs konzentriert, eine Trennung in Didaktik und L2-Forschung nicht kennt, auch in Deutschland bekannt wurden. Aus heutiger Sicht kann man sagen, dass die deutsche Fremdsprachendidaktik großen Anteil an den Erkenntnissen der L2Forschung nimmt und in ihren konzeptuellen Überlegungen jetzt auch auf deren Forschungsergebnissen aufbaut. Womit beschäftigt sich nun die Fremdsprachendidaktik, was sind ihre Arbeits- und
840 Forschungsfelder? Wie alle didaktischen Disziplinen entwickelt sie Konzepte für den Lernraum Schule, Konzepte, die auf das Lehren und Lernen von Sprachen in institutitonalisierten Kontexten bezogen sind. Dabei lässt sich für den größten Teil auch der heute diskutierten Ansätze, weil sie immer noch stark lehrerorientiert sind, eine Zuordnung zu den inzwischen sicherlich vor allem historisch begründbaren Entscheidungsfeldern des didaktischen Geschehens, wie sie von der Berliner Schule der Didaktik (Heimann, Otto & Schulz, 1965) entworfen wurden, vornehmen: das methodische Feld, das inhaltliche Feld, das mediale Feld und das Feld der Lernziele. Die Methode stand lange Zeit im Mittelpunkt der fremdsprachendidaktischen Diskussion, war der eigentliche Kern jeder didaktischen Betrachtungsweise. Man fasst unter diesem Begriff alle Verfahren zusammen, die der Lehrer einsetzt, um die Lernprozesse der Schülerinnen und Schüler zu beeinflussen. Globale methodische Verfahren, wie z. B. der audiolinguale Ansatz oder die kommunikative Didaktik, dienen als begriffliche Sammelbecken, um konkreten Unterrichtsmethoden einen theoretischen Hintergrund zu geben. Ein methodisches Verfahren, wie z. B. der „pattern drill“, wird als praktische Umsetzung des audiolingualen Ansatzes verstanden, ein methodisches Verfahren wie das Einüben von Sprechakten in einer Simulation soll hier die praktische Umsetzung eines methodischen Prinzips in der kommunikativen Didaktik dokumentieren. Solche konkreten methodischen Verfahren gibt es bis hin in die kleinsten Details des Wortschatz- und Grammatiklernens. Der Inhalt von Fremdsprachenunterricht rückte erst später in den Mittelpunkt der fremdsprachendidaktischen Diskussion. Während es z. B. für den audiolingualen und den darauf folgenden kognitiven Ansatz irrelevant war, auf der Basis welcher Inhalte Schülerinnen und Schüler die fremde Sprache lernten, reflektierten die situationelle und vor allem die kommunikative Didaktik sehr intensiv über die Inhalte von Fremdsprachenunterricht. Heute ist das so genannte interkulturelle Lernen an die Stelle der Landeskunde getreten. Die Lernenden sollen sich kontrastiv mit Aspekten der Ausgangs- und der Zielkultur beschäftigen und sich auf diese Weise der Zielkultur nähern. Die Medien wurden zu einem didaktisch reflektierten Feld von Unterricht erst, als sie komplexer und vor allem durch moderne Technologien erweitert wurden. Erst als es
VI. Spracherwerb
Audio- und dann Videokassettenrekorder gab, erst als das Sprachlabor seinen bald gestoppten Siegeszug an deutschen Schulen antrat, begann man auch über Tafelbilder, Overhead-Projektoren und Lehrwerke nachzudenken. Heute machen kritische Didaktiker warnend deutlich, welch ungeheuren Einfluss das Lehrwerk auf den Fremdsprachenunterricht hat. Sie fragen vor allem, ob das Lehrwerk seinen Platz als Leitmedium im Unterricht behalten soll. Auch der Einsatz der Neuen Technologien rückt immer mehr in den Mittelpunkt der Diskussion. Das Feld der Lernziele war immer ein zentrales Entscheidungsfeld in der fremdsprachendidaktischen Diskussion. Ähnlich wie im methodischen Bereich werden globale und Detaillernziele unterschieden. Zu den globalen Lernzielen gehören solche wie das der linguistischen Kompetenz, das vor allem für den audiolingualen und den kognitiven Ansatz typisch ist, oder das der kommunikativen Kompetenz, das der kommunikativen Didaktik seinen Namen gegeben hat. Teillernziele können sich auf Teilkompetenzen oder spezifische Fähigkeiten beziehen, es können aber auch Setzungen im Hinblick auf konkrete Wortschatzlisten oder Listen von grammatischen Strukturen sein. Als Theorie und Praxis des Lehrens und Lernens von Fremdsprachen hat die Fremdsprachendidaktik aber nicht nur Konzepte entwickelt, wie Fremdsprachen zu lehren sind, sie hat diese Konzepte gleichzeitig auch im Unterricht erprobt und vor allem in den letzten Jahren auch im Hinblick auf ihre Effizienz empirisch untersucht. An dieser Stelle berühren sich die Interessen der Fremdsprachendidaktik mit den Interessen der L2-Forschung. Während Letztere aber den Lerner weitgehend losgelöst vom Unterrichtsgeschehen untersucht, versucht Erstere, die Wirksamkeit bestimmter vom Lehrer ausgehender Methoden, Medien und Inhalte auf den Lernenden zu erfassen. Eine noch engere Zusammenarbeit beider Disziplinen wäre in hohem Maße wünschenswert. Als Vermittlungswissenschaft ist die Fremdsprachendidaktik in allen Phasen ihrer Geschichte in hohem Maße auf andere Disziplinen angewiesen gewesen. Auf das zumindest in Deutschland immer noch etwas ambige Verhältnis zur L2-Forschung habe ich mehrfach hingewiesen. Neben den pädagogischen Wissenschaften ist die Fremdsprachendidaktik von den linguistischen und psychologischen Disziplinen stark beeinflusst wor-
841
61. Gesteuerter Fremdsprachenerwerb
den. Ich habe beim Versuch der Skizzierung ihrer Arbeitsfelder schon eine Reihe fremdsprachendidaktischer Schulen genannt. Der audiolinguale Ansatz („audiolingual approach“), der kognitive Ansatz („cognitive approach“), der situationelle Ansatz („situational teaching“) und die kommunikative Didaktik („communicative language teaching“) haben in dieser historischen Reihenfolge das praktische Unterrichtsgeschehen in den letzten 50 Jahren bestimmt. Jede dieser Schulen der Fremdsprachendidaktik ist sozusagen Ausfluss einer anderen Strömung der Linguistik oder der Psychologie oder sogar aus beiden Disziplinen. Der so genannte audiolinguale Ansatz, die erste nach dem Zweiten Weltkrieg aus den USA kommende Schule der Fremdsprachendidaktik, die vor allem durch Fries (1945) und Lado (1957) bekannt wurde, fußt auf der strukturalistisch orientierten Linguistik der Dreißiger- und Vierzigerjahre (Bloomfield, 1933; Gleason, 1961), gleichzeitig aber auch auf der Lernpsychologie des Behaviorismus, wie sie von Skinner und anderen Theoretikern der Vierziger- und Fünfzigerjahre vertreten wurde. Die Herausbildung von „habits“ über das Auswendiglernen von sprachlichen Mustern enthält als praktisches methodisches Verfahren zentrale Aspekte beider Ansätze. Der kognitive Ansatz, der in Deutschland wenig einflussreich war, kann festgemacht werden an der Entwicklung der generativen Linguistik in den USA. Das Lernen von sprachlichen „patterns“ wurde abgelöst vom Lernen linguistischer Regeln. Der kognitive Ansatz lässt sich nicht direkt an einer Schule der Lernpsychologie festmachen. Die in den Sechziger- und Siebzigerjahren, als sich der kognitive Ansatz entwickelte, bereits existierende kognitive Psychologie fokussierte auf anderen, vorwiegend sprachpsychologischen Fragestellungen und kommt als Grundlagendisziplin nicht in Betracht. Der situationelle Ansatz erweist sich ebenso wie dann die kommunikative Didaktik als stark linguistisch bestimmter Ansatz. Hier war es die (linguistische) Pragmatik, die in ihren verschiedenen Ausprägungen den Fremdsprachenunterricht beeinflusste. Weder der situationelle Ansatz noch die kommunikative Didaktik sind direkt von lernpsychologischen Modellen beeinflusst worden. Ich habe in diesem Abschnitt versucht, die Fremdsprachendidaktik als die Wissenschaftsdisziplin vorzustellen, die sich explizit mit dem gesteuerten Fremdsprachenerwerb
beschäftigt. Ich habe gleichzeitig auch versucht, die Fremdsprachendidaktik in ihrer historischen Entwicklung zu skizzieren und den Stand zu referieren, den die „mainstream“-Didaktik als kommunikative Didaktik derzeit erreicht hat. Die Tatsache, dass die Didaktik als Vermittlungswissenschaft in hohem Maße von anderen – Grundlagenwissenschaften – beeinflusst wird, führt dazu, eine andere, letzte Frage aufzugreifen, nämlich inwieweit die Weiterentwicklung der dem gesteuerten Fremdsprachenerwerb verbundenen Disziplinen zu Neuentwicklungen in der Fremdsprachendidaktik geführt hat.
5.
Psycholinguistik und gesteuerter Fremdsprachenerwerb
Dem aufmerksamen Leser der bisherigen Überlegungen ist deutlich geworden, dass, zumindest wenn man den derzeitigen „state of the art“ betrachtet, der Psycholinguistik als Grundlagendisziplin im engeren Sinne im gesteuerten Fremdsprachenerwerb kein Augenmerk geschenkt wurde. Man könnte natürlich argumentieren, dass die Psycholinguistik im weiteren Sinne bei allen Überlegungen zum L2-Erwerb beteiligt ist, denn auch L2-Forschung ist Spracherwerbsforschung und damit Psycholinguistik. Ich sehe die Situation etwas anders und möchte dafür plädieren, gerade auch für den gesteuerten Fremdsprachenerwerb der Psycholinguistik in ihren Ausprägungen als Sprachverstehensund Sprachproduktionsforschung mehr Aufmerksamkeit zu schenken. Die vergleichsweise wenigen Untersuchungen hierzu, die im Kontext der L2-Forschung durchgeführt wurden, haben viel versprechende Erkenntnisse gebracht, sind aber in der „mainstream“-Didaktik kaum berücksichtigt worden. Es gibt jedoch in der Fremdsprachendidaktik immer mehr Forscher, die nicht nur erkannt haben, welche Chancen die Psycholinguistik für punktuelle Verbesserungen in der Gestaltung von Unterricht bietet, sondern auch sehen, dass eine konsequentere Einbeziehung der Psycholinguistik in didaktische Überlegungen zu einem neuen fremdsprachendidaktischen Paradigma führen kann (Wolff, 1994). Dabei wird immer deutlicher, dass es vor allem die Zugehörigkeit der Psycholinguistik zur kognitiven Psychologie und damit auch die Verbindung zu kognitiven und konstruktivistischen Lerntheorien ist, die völlig neue Überlegungen ermöglicht.
842 Wichtig ist in diesem Zusammenhang auch, dass Praktiker des Fremdsprachenunterrichts ähnliche Überlegungen unabhängig von theoretischen Vorgaben angestellt und sehr effiziente Formen des fremdsprachlichen Lernens entwickelt haben. Ich werde im Folgenden versuchen, die skizzierten Zusammenhänge etwas genauer darzustellen. Die folgenden Erkenntnisse der Psycholinguistik, die ich hier nur verkürzt wiedergeben kann, erweisen sich als von zentraler Bedeutung für die Weiterentwicklung der Fremdsprachendidaktik und haben zum Teil auch schon Veränderungen im konkreten Unterrichtsgeschehen herbeigeführt: (1) Die Unterscheidung zwischen Produkt und Prozess: Die Fokussierung der Psycholinguistik auf sprachliche Prozesse hat in der Fremdsprachendidaktik überhaupt erst ein Bewusstsein für die Prozesshaftigkeit von Sprache erzeugt. Sie hat deutlich gemacht, dass man, wenn man Sprache erwirbt, nicht nur Produkte (Lexik und Grammatik), sondern gleichzeitig auch Prozesse der Sprachverarbeitung (die Prozesse, die beim Verstehen und bei der Produktion von Sprache ablaufen) erwerben muss. Obwohl die Fremdsprachendidaktik ihre Lernziele schon seit geraumer Zeit fertigkeitsorientiert formuliert, sieht sie sich erst jetzt in der Lage, diese Fertigkeiten als komplexe Bündel mentaler Prozesse zu formulieren und Verfahren anzubieten, um sie zu fördern. (2) Die Erklärung des Verstehensprozesses als Konstruktionsprozess: Die Erklärung des menschlichen Verstehensprozesses als eines Prozesses, bei dem der Verstehende aus seinem Vorwissen und den eingehenden Stimuli die Bedeutung einer Mitteilung oder eines Textes konstruiert, hat der Fremdsprachendidaktik ein neues Verständnis für die Verarbeitungs- und Lernprozesse der einzelnen Lerner verschafft. Während die bisherigen Lehrverfahren davon ausgehen, dass Fremdsprachenlerner unter den gleichen äußeren Bedingungen identische Lernergebnisse zeigen und Unterschiede allein auf mangelnde Konzentration, Unaufmerksamkeit und Müdigkeit des Lerners zurückzuführen sind, verweist die Verstehenstheorie darauf, dass Verstehens- und Lernergebnisse für jeden Lerner aufgrund des unterschiedlichen Vorwissens zwangsläufig unterschiedlich und deshalb auch nur schwer kontrollierbar und vorhersagbar sind. Gerade diese Erkenntnis hat für den Fremdsprachenunterricht zu völlig neuen Überlegungen geführt, auf die ich am Ende meines Beitrags eingehen werde. (3)
VI. Spracherwerb
Die Unterscheidung von Sprach- und Weltwissen und die Trennung beider Wissenskomponenten in deklaratives und prozedurales Wissen: Insbesondere die Annahmen der Psycholinguistik zur Struktur von Sprach- und Weltwissen haben Auswirkungen auf die fremdsprachendidaktische Diskussion gehabt. Die Überlegung, dass Wissen in schematischen Strukturen gespeichert ist und dass diese schematischen Strukturen deklarativen und prozeduralen Charaker haben können, hat bei einzelnen Didaktikern dazu geführt, neue Überlegungen zur Gestaltung von Materialien anzustellen, die es dem Lernenden erleichtern sollen, neues Wissen in seinen bisherigen Wissensbestand zu integrieren. Diese psycholinguistische Erkenntnis steht in engem Zusammenhang mit der folgenden, die institutionalisiertes Fremdsprachenlernen ebenfalls stark beeinflusst hat. (4) Jeder Wissenserwerb ist strategiengesteuert. Diese Erkenntnis ist für neuere Ansätze der Fremdsprachendidaktik deshalb so wichtig geworden, weil sie eine hieb- und stichfeste Begründung für die Förderung von Lern- und Arbeitstechniken liefert. Zwar werden Lernund Arbeitstechniken schon seit geraumer Zeit in das institutionalisierte Fremdsprachenlernen einbezogen, ihre besondere Bedeutung für Lernprozesse wurde aber erst erkannt, als das psycholinguistische Strategienkonzept bekannter wurde. Eine Umwandlung des psycholinguistischen Strategienarsenals in Lern- und Arbeitstechniken der Fremdsprachendidaktik ist in vollem Gange und wird auch durch die Strategiendiskussion der L2-Forschung (Wenden, 1991; Oxford, 1990) gestützt. Obwohl ich die für das institutionalisierte Fremdsprachenlernen bedeutsamen Erkenntnisse der Psycholinguistik in vier knappen Punkten zusammenfassen musste, sollte deutlich geworden sein, dass sie den gesteuerten Fremdsprachenerwerb nicht punktuell verändern, sondern grundsätzlich neue Weichenstellungen vornehmen, die, wenn der Veränderungsprozess einmal abgeschlossen ist, zu einem neuen Verständnis von gesteuertem Fremdsprachenerwerb geführt haben werden. Ich hatte anfangs davon gesprochen, dass der Begriff gesteuerter Fremdsprachenerwerb in der Didaktik heute nicht mehr so gern gebraucht wird; warum dies so ist, wird aus den zuletzt dargestellten Befunden besonders deutlich. Denn die Erkenntnisse der Psycholinguistik drängen die Fremdsprachendidaktik förmlich dazu, Unterricht nicht mehr als
61. Gesteuerter Fremdsprachenerwerb
lehrerzentriert, sondern als schülerorientiert zu verstehen und mehr über das Lernen als über das Lehren zu reflektieren. Wie bereits mehrfach angesprochen, werden die psycholinguistischen Befunde durch die Ergebnisse der L2-Forschung unterstützt. Es trifft sich gut, dass neben der L2-Forschung und der Psycholinguistik noch eine weitere Disziplin grundlegende Veränderungen im institutionalisierten Lernen fordert: die aus den Erkenntnissen des radikalen Konstruktivismus entwickelte konstruktivistische Lerntheorie, die unter dem Stichwort „selbstverantwortetes Lernen“ für eine völlige Abkehr von lehrerzentrierten und damit gesteuerten Unterrichtsverfahren plädiert. Ich möchte abschließend ein fremdsprachliches Klassenzimmer charakterisieren, das auf den Erkenntnissen basiert, die Gegenstand dieses Beitrags sind. Es sind vor allem die folgenden Parameter, die ein solches Klassenzimmer, das auch als autonomes Klassenzimmer bezeichnet wird, charakterisieren: Die Gruppenarbeit: Im autonomen Klassenzimmer bedient man sich aus verschiedenen Gründen der Sozialform der Gruppenarbeit. Der wichtigste ist, dass das Klassenzimmer als eine Lernwerkstatt verstanden wird, in welcher alle Lernenden gemeinsam an der schwierigen Aufgabe arbeiten, eine neue Sprache zu lernen. Die Arbeit in Kleingruppen erhöht die Verantwortung des Einzelnen bei der Bearbeitung der verschiedenen Aufgaben. Weniger als im Klassenverband kann er sich vor der gestellten Aufgabe drücken; er ist in höherem Maße mitverantwortlich für das Gelingen des Lernprozesses. Gruppenarbeit führt auch dazu, dass die Lerngruppen gleichzeitig eine Vielzahl unterschiedlicher Aufgaben bewältigen können. Dies wiederum macht es erforderlich, dass die Ergebnisse der einzelnen Arbeitsgruppen der gesamten Lerngruppe vermittelt werden. Die Aufgaben: Das Spektrum an Aufgaben, die den Lernenden gestellt werden, ist sehr viel größer als im herkömmlichen Unterricht. Es gibt kurzfristige und langfristige Aufgabenstellungen; Erstere beziehen sich nur auf eine Unterrichtsstunde oder einen Teil davon, Letztere werden als Projekte über mehrere Unterrichtsstunden hinweg geführt. Längerfristige Projekte werden in vielen Klassenzimmern vertraglich abgesichert: Die Lernenden verpflichten sich darauf, Projektergebnisse bis zu einem bestimmten Zeitpunkt zur Verfügung zu stellen. Die Ergeb-
843 nisse müssen im Klassenverband grundsätzlich als Produkte vorgelegt werden ⫺ als Folien, als Poster, als Broschüren, als kleine Bücher, als Audiokassetten, als Internet-Seiten. Damit wird gewährleistet, dass die fremde Sprache auch verschriftet wird. Die Aufgabenstellungen haben einen Bezug zum Lernen der fremden Sprache; typische Aufgaben sind das gemeinsame Schreiben von Geschichten zu einem vorher ausgehandelten Thema, Erstellen eines Bilderlottos zum Lernen von Wörtern, Recherchieren einer grammatischen Frage und Schreiben einer kleinen Grammatik, Zusammenstellen von Wortschatz zu einem bestimmten Thema, das gemeinsame Schreiben eines Sketches oder gar eines Theaterstückes, das Anhören einer Kassette und Erstellen eines Berichtes, das Lesen eines Buches und das anschließende Schreiben einer Buchrezension. Die Materialien: Für die Arbeit in der Lernwerkstatt stehen den Lerngruppen Materialien zur Verfügung. Seit Breen (1982) hat es sich eingebürgert, zwischen Inhalts- oder Produktmaterialien und Prozessmaterialien zu unterscheiden. Zu den Inhaltsmaterialien zählt Breen authentische Materialien (Bücher für unterschiedliche Altersstufen, Texte jedweder Art, Kassetten, Videos), die er als Rohmaterialien bezeichnet, weil sie nicht mit einer auf das Sprachlernen bezogenen Intention erstellt wurden. Zu den Inhaltsmaterialien gehören aber auch die so genannten Informationsmaterialien, also Wörterbücher und Grammatiken, die den Lernenden Informationen über Lexik und Strukturen der fremden Sprache geben. Prozessmaterialien stellen einen neuen Materialientyp dar, es sind einmal Zusammenstellungen prozeduralen Wissens (Lern- und Arbeitstechniken zum Lernen von Wortschatz, Techniken zur Benutzung eines Wörterbuchs oder einer Grammatik, Lesestrategien, Schreibstrategien, Hörverstehensstrategien), zum anderen aber auch Anregungen für Projekte und Aktivitäten im Klassenzimmer. Materialien, die die Lernenden selbst entwickelt haben, sind ein wichtiger Bestandteil der verfügbaren Arbeitsunterlagen. Die Bewertung: Die wichtigste Aufgabe in einem autonomen Klassenzimmer ist die Bewertung der durchgeführten Lernaktivitäten. Sie findet in regelmäßigen Abständen statt, meist einmal in der Woche bzw. wenn die Lernenden bestimmte Aktivitäten oder Projekte abgeschlossen haben. Alle Lerngruppen haben über ihre Lernprozesse Rechenschaft
844
VI. Spracherwerb
abzulegen. Die entscheidende Frage ist dabei: Was habe ich gelernt? Natürlich müssen bei solchen Evaluationsprozessen unterschiedliche Problemkreise thematisiert werden: die Aktivität selbst, die Materialien, die Ergebnisse, soziale Aspekte der Lernsituation, der Evaluationsprozess selbst. Auch der Einzellerner führt Bewertungsprozesse durch, die dann in die Gesamtbewertung einfließen. Er ist verpflichtet, ein Tagebuch zu führen, in welchem er seine Lernfortschritte beschreiben soll. Lehrerrolle: Es versteht sich von selbst, dass dem Lehrer in einem so gestalteten Klassenzimmer eine völlig andere Rolle zukommt als im herkömmlichen Unterricht. Der Lehrer ist Mitgestalter der Klassenzimmeraktivitäten, Berater der Lernenden, Moderator, Wissensquelle. Er ist nicht der allwissende „instructeur“, der alle Fäden in der Hand hat und die Schüler wie Marionetten führt. Die Bedeutung der Beraterfunktion des Lehrers wird besonders in den Vordergrund gerückt.
6.
Literatur
Ellis, Rod (1994). The study of second language acquisition. Oxford: Oxford University Press. Fries, Charles Carpenter (1945). Teaching and learning English as a foreign language. Ann Arbor: University of Michigan Press. Gleason, Henry Allan (1961). An introduction to descriptive linguistics. New York: Holt, Rinehart and Winston. Haastrup, Kirsten (1991). Lexical inferencing procedures or talking about words. Tübingen: Narr. Heimann, Paul, Otto, Gunter & Schultz, Wolfgang (1965). Unterricht – Analyse und Planung. Hannover: Schrödel. Krashen, Stephen (1981). Second language acquisition and second language learning. Oxford: Pergamon. Lado, Robert (1957). Linguistics across cultures. Ann Arbor: University of Michigan Press. Oxford, Rebecca (1990). Language learning strategies: What every teacher should know. Rowley, Mass.: Newbury House. Wenden, Anita (1991). Learner strategies for learner autonomy. New York: Prentice Hall.
Bloomfield, Leonard (1933). Language. London: Unwin University Books.
Wolff, Dieter (1994). Der Konstruktivismus: Ein neues Paradigma in der Fremdsprachendidaktik? Die Neueren Sprachen, 93, 407⫺429.
Breen, Michael (1982). How do we recognise a communicative classroom. Dunford House Seminar: Mimeo.
Zimmermann, Rüdiger (1990). Lexikalische Strategien: Perspektiven für die Wortschatzarbeit. Die Neueren Sprachen, 89, 426⫺452.
Dechert, Hans W., Möhle, Dorothea & Raupach, Manfred (Eds.) (1984). Second language productions. Tübingen: Narr.
Dieter Wolff Universität Wuppertal (Deutschland)
VII. Medien/Media 62. Medien der Individualkommunikation: Email und Telekonferenz 1. 2. 3. 4. 5.
Einleitung Email und Chat Telekonferenz Forschungsdefizite Literatur
1.
Einleitung
Die breite Durchsetzung des Computers hat unser kommunikatives Spektrum erweitert. Für den zeit- und raumversetzten Austausch stehen heute neben traditionellen Medien wie Telefon und Fax neue Optionen wie Email und Telekonferenz zur Verfügung. Sie schaffen spezifische situative Kontexte, in denen Menschen mit Sprache handeln. Wie sich die medialen Rahmenbedingungen elektronischer Kommunikation im Einzelnen auf die Sprachproduktion und -rezeption auswirken, ist aus der Sicht der Psycholinguistik wie auch der Sprachpsychologie kaum untersucht (Herrmann, 1998; Rickheit & Strohner, 1999). Wer sich für den Zusammenhang zwischen Medium und Sprachproduktion interessiert, ist daher gehalten, auf Ergebnisse anderer, anverwandter Disziplinen und Forschungsrichtungen zurückzugreifen. Dieser Weg wird im Folgenden bei der Diskussion der Kommunikationsformen Email (2.1), Chat (2.2) und Telekonferenz (3) beschritten. Abschließend werden Forschungsdefizite benannt (4).
2.
Email und Chat
2.1. Email-Kommunikation Email gewinnt als Mittel der Individualkommunikation zunehmend an Bedeutung. Vorteile der Kommunikationsform resultieren aus der Übertragungsgeschwindigkeit des Kanals, dem geringen Arbeitsaufwand für den Nutzer und der Option, erhaltene Emails beliebig weiter bearbeiten zu können. Die Kombination dieser Merkmale ermöglicht Veränderungen im kommunikativen Verhal-
ten der Nutzer. Die Schnelligkeit des Mitteilens rückt das Schreiben in die Nähe des Sagens. Sie erlaubt unmittelbarere Formen des Reagierens und Interagierens, die sich im Spannungsfeld konzeptueller Mündlichkeit und Schriftlichkeit bewegen (Koch & Oesterreicher, 1985). Abhängig von der Intention des Schreibers (zeitgleicher vs. zeitversetzter Austausch) eröffnet sich ein breites Spektrum von Kommunikationsmöglichkeiten. Zur Email liegt eine umfangreiche Literatur vor, deren Schwerpunkte je nach Forschungsinteresse und -disziplin stark variieren. Die Betrachtung aus psychologischer, soziologischer und linguistischer Sicht richtet sich auf kognitive, sprachliche, personengebundene oder kulturelle Aspekte. Zusammenhänge zwischen diesen werden eher selten gesehen. Während in der Linguistik das Interesse am Sprachgebrauch wie auch an Mischformen mündlicher und schriftlicher Rede vorherrscht, dominiert in der Psychologie und Soziologie das Interesse für Phänomene der Interaktion in Gruppen. In diesem Zusammenhang sind u. a. die empirischen Studien der Londoner Communication Studies Group und das von ihnen in den siebziger Jahren entwickelte Konzept der „sozialen Präsenz“ (Short, Williams & Christie, 1976) zu nennen, Studien zur Wirkung und Akzeptanz des Mediums, zu Kooperationsprozessen in Organisationen (z. B. Sproull & Kiesler, 1986) sowie zu qualitativen Aspekten des menschlichen Sozialverhaltens in Gruppen. Bis dato fehlen Modelle, die das Zusammenwirken verschiedener Einflussfaktoren beschreiben. Die Produktion und Rezeption von Email unterliegt spezifischen Bedingungen. Sie ergeben sich u. a. aus der Trennung von Produktions- und Rezeptionssituation, (in der Regel) fehlender Kopräsenz der Kommunikationspartner wie auch aus medienspezifischen Bedingungen. Letztere betreffen die Bindung an Bildschirm, Tastatur und elektronische Übertragungswege wie auch die Realisierung
846 schriftlicher Äußerungen mit Hilfe des ASCII-Codes. Die Trennung von Schreibort (Tastatur) und Lesefeld (Bildschirm) wirkt sich auf die visuelle Kontrolle des Geschriebenen aus. Ungeteilte Konzentration auf den Schreibprozess setzt die Fähigkeit voraus, „blind“ schreiben zu können. Neuere Studien belegen, dass Leseprozesse am Bildschirm bis zu 10 % ungenauer ausfallen und schneller ermüden als Lesen von Papier. Begründet wird dies u. a. mit Problemen der Buchstabenerkennung und -verarbeitung (Ziefle, 1998). Wie sich die genannten Faktoren auf die Produktion und Rezeption von Emails auswirken, ist kaum untersucht. Durch die elektronische Repräsentation entfallen Hinweise, die in traditioneller Briefkommunikation Rückschlüsse auf die Textsorte erlauben (so etwa Papierqualität und -format). Die Rezeption wird insgesamt durch die geringe Kontextualisierung der Email erschwert. Emailangaben lassen nur in geringem Maße Rückschlüsse auf die Situationseinbindung des Partners zu. Bei Unbekanntheit der Partner ist der Empfänger auf die Interpretation des Emailtextes angewiesen, um Hinweise auf die Persönlichkeit des Partners zu erhalten. Längere Emailwechsel per Reply-Funktion erschweren bei zeitversetzter Kommunikation das Übersichthalten wie auch – in Verbindung mit sprachlicher Knappheit und Mangel an Kontextmarkern – Kohärenzbildungsprozesse. Die Möglichkeit des Zitierens (quote) der Äußerungsteile der zu beantwortenden Email wie auch Hinweise in der Betreffzeile kompensieren das Problem nur partiell (vgl. auch Abschn. 3.2). Formale Beschränkungen der Darstellung ergeben sich u. a. aus dem ASCII-Code und der halbautomatischen Verwaltung von Kommunikationsdaten (Absender, Sendezeit, Übertragungsprotokoll). Der Wegfall von Statusangaben im Emailkopf (header) wird häufig durch die Gestaltung der Unterschrift (signature) kompensiert, die für Zwecke der Selbstdarstellung und Individualisierung neben Statusangaben weitere Elemente wie Zitate, Satzzeichenbilder (Ascii-Art) und andere kreative Formen enthalten kann. Gruppenkonstituierend wirken vor allem Insider-Ausdrücke. Die Gestaltung des Textes fällt je nach Anlass und Kommunikationspartner unterschiedlich aus. Vielfach folgt sie dem traditionellen Muster von Anrede, Mitteilung und Gruß. Anrede und Gruß können auch wegfallen.
VII. Medien
Charakteristisch sind die Tendenz zu kurzen Mitteilungen wie auch Strategien zur Verkürzung von Produktionszeiten. Tippfehler werden als produktionsbedingte Normabweichung toleriert, Korrekturen sind eher untypisch (Günther & Wyss, 1996). Die Fehlertoleranz scheint u. a. von der Kommunikationsdomäne sowie dem Selbstdarstellungsanspruch der Schreiber abhängig (Jakobs, 1998; Janich, 1994). Dem Wunsch nach Schnelligkeit entsprechen Einsparungstechniken wie der Ersatz von Ausdrücken durch Initialbildung und andere Formen der Kurzwortbildung bis hin zum Wortspiel durch Kombination von Codes (4get it ⫽ forget it) oder den Ersatz von Phrasen durch graphische Zeichenkombinationen (⬍!⬎ ⫽ An important part of a message) (Handler, 1996). Kürzebestrebungen rücken die Kommunikationsform Email in die Nähe des Telegramms. Nähe zu mündlicher Rede ergibt sich bei Individualkommunikation durch die Verschriftung von Umgangssprache (oda – oder), den Einsatz dialektaler, regionaler und umgangssprachlicher Formen, produktionsbedingte Normabweichungen in der Syntax, die mitunter beobachtbare Tendenz zu Dialogizität und den gehäuften Einsatz von Interjektionen (häufig mit lautmalendem Charakter: hahaha, würg), Verschmelzungen von Wortformen (son Quatsch) und Wortabschleifungen (hab) (Günther & Wyss, 1996). Die für schriftliche Kommunikation typische Reflektiertheit der Form tritt zurück. Abweichungen in der Groß- und Kleinschreibung wie auch in der Orthographie können z. T. mit der mechanischen Trägheit der Tastatur und Tippfehlern erklärt werden. Der medial bedingte Verzicht auf nonverbale und verbal-vokale Ausdrucksmittel wird durch Kompensationsstrategien teilweise ausgeglichen. Dazu gehört der Ausdruck von Emphase durch Großbuchstaben (NEEII INNN), die Markierung prosodischer Eigenschaften bei der Verschriftung (tjaaa) sowie die Verwendung von Emotikons zum Ausdruck innerer Befindlichkeiten, Mimik und Gestik (Günther & Wyss, 1996; Sanderson, 1995). In mimischer Funktion markieren Emotikons die Sprechereinstellung (vgl. ;-) zur Markierung von Ironie). Sie besitzen damit pragmatischen Charakter (Jakobs, 1998). Aktuelle Emotionen können durch sog. flamings ausgedrückt werden. Das Phänomen tritt weniger bei dyadischem Austausch als in Newsgroups auf (Handler, 1996). Das kommunikative Verhalten wird z. T. durch Kon-
62. Medien der Individualkommunikation: Email und Telekonferenz
ventionen (die sog. Netiquette) geregelt, die sich in den neunziger Jahren herausgebildet haben und Formen des Fehlverhaltens vorbeugen sollen (vgl. Storrer & Waldenberger, 1999). Die Entscheidung, wie über was geschrieben wird, hängt letztlich von der Interpretation der sozialen und persönlichen Beziehung der Kommunikationspartner, der Domäne, in der kommuniziert wird, den verfolgten Zielen und der gegebenen Situation ab. 2.2. Internet Relay Chat (IRC) Chats erlauben wie Email den Austausch bei fehlender räumlicher Kopräsenz. In privaten Kontexten besitzt der Austausch meist phatischen Charakter. In beruflichen Kontexten wird Chatkommunikation zunehmend für Beratungszwecke genutzt. Der Austausch kann zwischen zwei und mehreren Personen wie auch zwischen zwei Personen in einem mehrfach besetzten Chatraum erfolgen. Nähe zur Email ergibt sich aus dem Übertragungsweg und der Bindung der Sprachproduktion an Tastatur und Bildschirm. Im Gegensatz zur Email erfolgt der Austausch ausschließlich (fast) zeitgleich. Aus dem Kontrast zwischen schriftlicher Realisierung und Gesprächsintention ergeben sich interessante Phänomene in der Schnittmenge zwischen intendierter Mündlichkeit und realisierter Schriftlichkeit. Gesprächseröffnungen und Kontaktaufnahme in Chatkommunikation sind bisher wenig untersucht. Die folgenden Angaben stützen sich auf Rintel und Pittam (1997). Im Gegensatz zu Telefonaten oder Face-to-faceGesprächen bedürfen Interaktionseröffnungen in Chats eines höheren technischen Aufwandes. Nach dem Starten des Programms muss ein Chat-Server sowie ein auf diesem Server verfügbarer Chat-Kanal gewählt werden. Das Programm zeigt den neuen Teilnehmer durch eine automatisch generierte Nachricht anderen bereits im Kanal befindlichen Personen an. Je nach Einstellung des ChatServers erhält auch der neue Nutzer eine maschinell erstellte Nachricht, z. T. in Form einer Begrüßung (hi susi! welcome to #chatzone). Nach erfolgter Anmeldung sind Kontaktversuche zu anderen Teilnehmern möglich. Die Identifikation der im Kanal befindlichen Personen ist über eine Namensliste oder anhand der im Hauptfenster erscheinenden Äußerungen möglich. Die Teilnehmer verwenden im Freizeitbereich häufig Pseudonyme wie @ax1on, badgirl oder zackzack. Sie
847
sollen Aufmerksamkeit erzeugen, die Übernahme imaginärer Rollen ermöglichen und/ oder die Identifikation des Nutzers als reale Person erschweren. Die Kontaktaufnahme kann unterschiedlich initiiert werden. Bedingt durch die fehlende räumliche Kopräsenz stehen den Partnern nur nonvokal-verbale Ausdrucksmittel zur Verfügung (vgl. Abschn. 2.1). In den Chat-Kanal eintretende Teilnehmer werden von den bereits Anwesenden begrüßt oder können ihrerseits Kontakte initiieren, z. B. durch eine an die anderen gerichtete Äußerung, meist eine Begrüßung (hello, hi room). Die Kontaktversuche sind zu wiederholen, bis ein Teilnehmer Gesprächsbereitschaft signalisiert. In der Regel kommunizieren mehrere Personen miteinander. Wie in Face-to-face-Gesprächen verlaufen häufig mehrere Gesprächsstränge parallel zueinander und überlagern sich. Probleme beim Sprecherwechsel resultieren vor allem aus technisch bedingten Restriktionen. Im Gegensatz zu natürlichen Gesprächssituationen sehen sich die Partner nicht. Sie müssen daher auf nonverbal-nonvokale Mittel der Partneradressierung wie Blickkontakt und Körperzuwendung verzichten. Das Defizit wird durch Strategien kompensiert wie explizite verbale Adressierung der Äußerung und/oder automatisch eingefügte Benennung des Adressaten zu Beginn des Gesprächsbeitrages als Mittel der Selbstidentifizierung ([MaL] hi kelly ⫺ [Kelly] MaL: hi). Die Gesprächsbeiträge erscheinen, technisch bedingt, in der Chronologie ihrer Eingabe am Bildschirm. Die Abgabe des Rederechts wird durch das Versenden des Beitrages angezeigt. Fremdwahl des Rederechts erfolgt wie in Face-to-face-Situationen durch die Aufforderung an den Partner, sich zu äußern. Sie kann explizit oder implizit (durch inhaltliche Vorgaben) realisiert werden. Zu den Konventionen von Chatkommunikation gehören kurze Reaktionszeiten. Von den Teilnehmern wird erwartet, dass sie auf Redeaufforderungen spontan reagieren. Ungeachtet dessen kann jeder sich außerhalb der Reihe das Rederecht nehmen. Reibungslose Sprecherwechel setzen in Chats eine hohe Konzentration voraus. Sie verlangen die Fähigkeit, Übersicht über das als lose Abfolge schriftlicher Äußerungen vor seinen Augen entstehende Gespräch als Ganzes wie auch über den eigenen Gesprächsstrang zu wahren. Die Teilnehmer müssen
848
VII. Medien
permanent „gesprächsbereit“ sein, um in dem Moment, in dem ein an sie gerichteter Gesprächszug auf dem Bildschirm erscheint, schnell reagieren und einen eigenen Gesprächsbeitrag verfassen zu können. Die geringe Planungszeit dürfte sich auf die Sprachproduktion auswirken. Sprachliche Korrektheit tritt in den Hintergrund. Sprachliche Merkmale dieser auf Plaudern und schnellen Austausch gerichteten Kommunikationsform sind Ellipsen, Satz- und Wortabbrüche, der gehäufte Einsatz von Akronymen, ChatSlang (Rosenbaum, 1996), Emotikons und dialektale Ausdrucksformen. Der fehlende gemeinsame Wahrnehmungsraum wird durch verschiedene Mittel kompensiert. Dazu gehört der Ausdruck von Körperhandlungen wie auch von Gefühlen und Habitus durch in Asterisken eingeschlossene Äußerungen (*rück*, *wein*, *seufz theatralisch*); auffällig ist der Gebrauch von Verbstämmen in prädikativer Funktion (Runkehl, Schlobinski & Siever, 1998). Nach Sassen (2000) geht die in Chats beobachtbare Variabilität lexikalischer und struktureller phatischer Marker deutlich über diejenige in Faceto-face-Interaktionen hinaus.
3.
Telekonferenz
Der Ausdruck Telekonferenz (teleconferencing) subsumiert als Oberbegriff verschiedene Arten von Konferenzschaltungen und deren Nutzung. Nach der Art des Übertragungskanals lassen sich grob verallgemeinernd drei Konferenztypen unterscheiden: Telefonkonferenz (3.1.), emailbasierte Online-Konferenz (3.2.) und Videokonferenz (3.3.). Die verwendete Technik wirkt sich auf die Formen des sprachlichen Austausches aus. Die zu Telekonferenzen vorliegende Literatur ist äußerst heterogen. Es überwiegen Arbeiten mit soziologischer, psychologischer, technischer oder betriebswirtschaftlicher Schwerpunktsetzung. Linguistisch orientierte Arbeiten sind eher selten. Diskutiert werden Fragen der sozialen Präsenz, des (Informations-)Reichtums des Mediums, der Eignung von Konferenzschaltungen für Gruppenarbeit u. a. Die vorliegenden empirischen Ergebnisse differieren zudem in Aufgabenstellung und Untersuchungsdesign und sind daher schwer vergleichbar (Newlands, Anderson & Mullin, 1996). Häufig fehlen explizite Angaben zur genutzten Technik, an die jedoch Möglichkeiten und Restriktionen des sprachlichen Austausches gebunden sind.
Unabhängig vom Typ des gewählten Mediums werden technisch realisierte Zusammenkünfte und Konferenzen im Vergleich zu den ihnen entsprechenden Face-to-face-Formen als tendenziell kürzer, sachlicher, geschäftsmäßiger wie auch als weniger argumentativ, weniger konfrontativ und weniger persönlich beschrieben. Die Teilnehmer scheinen sich in der Einschätzung von Informationen wie auch ihres Gegenübers weniger sicher; Entscheidungen finden weniger Unterstützung durch die Betroffenen (Antoni, 1990; Culnan & Markus, 1987; Färber, 1993). Alle Formen der Telekonferenz zeichnen sich durch partielle Dekontextualisierung des Mitgeteilten aus. Die Nutzer reagieren auf diese Einschränkung mit Kompensationsstrategien und Reparaturhandlungen. 3.1. Die auditive Variante: Telefonkonferenzen Die älteste Form der Telekonferenz ist die Telefonkonferenz. Sie nutzt vorwiegend den auditiven Kanal. Den Teilnehmern steht das gesamte Spektrum verbal-vokaler wie auch nonverbal-vokaler Ausdrucksmittel zur Verfügung. Einschränkungen resultieren u. a. aus dem fehlenden gemeinsamen Wahrnehmungsraum, der den Aufbau eines Situationsmodells erschwert und Kompensationsstrategien erfordert. Wenn mehrere Personen miteinander kommunizieren, kann der fehlende gemeinsame Wahrnehmungsraum das Behalten des Überblicks erschweren. Kennen sich die Teilnehmer eher wenig, können Probleme bei der Identifizierung von Sprechern wie auch bei der Adressierung von Sprechern auftreten. Unterbrechungen des Sprechers treten häufiger auf als in Face-to-face-Situationen. Darauf deutet eine Studie von Newlands, Anderson und Mullin (1996) zur Unterbrechungsrate unter differierenden medialen Bedingungen. Die niedrigsten Werte werden bei Videokonferenzen, die höchsten bei Telefonkonferenzen ermittelt, Face-to-face-Situationen liegen dazwischen. 3.2. Die schriftliche Variante: Computerkonferenzen (CC) Computerkonferenzen nutzen die Möglichkeiten von Email und chat line. In Abhängigkeit davon erfolgt der Austausch zeitversetzt oder weitgehend synchron. Asynchrone Konferenzsysteme erfassen und verwalten die eingehenden Beiträge in einem allen zugängli-
62. Medien der Individualkommunikation: Email und Telekonferenz
chen Pool. Die Beiträge können von dort abgerufen und gelesen werden. Synchrone Konferenzen nutzen virtuelle Räume, in die sich die Teilnehmer einloggen. Gesprächsbeiträge können gleichzeitig von allen Teilnehmern gelesen werden. Komplexere Systeme kombinieren beide Varianten: ein Teil des Austausches erfolgt asynchron per Email, ein anderer synchron im Chat-Modus. Die Kommunikation verläuft bei synchroner wie asynchroner Schaltung über die Produktion und Rezeption schriftlicher Äußerungen. Ausdrucksmittel, die an den auditiven oder visuellen Kanal gebunden sind, entfallen. Bei synchroner Konferenzschaltung bedeutet dies u. a. den Verzicht auf verbal-vokale, nonverbal-vokale und nonverbal-nonvokale Feedbacksignale (Äußerungen wie mhm, ja?, wirklich?, nachdenkliches Brummen, Blickkontakt, Lächeln, Nicken; Abowd, Beale, Dix & Finlay, 1995; Gilbert, Jirotka & Luff, 1991), die in Face-to-face-Situationen den Redebeitrag begleiten und dem Partner Interesse, Aufmerksamkeit, Zustimmung oder Skepsis anzeigen. Reaktionen müssen explizit in Form von Bestätigungen, Rückfragen etc. ausgedrückt werden. Kommunizieren mehrere Partner, so kann die Verfahrensweise zu Schwierigkeiten führen. Eine Lösung des Problems wird in Softwarekomponenten gesehen, die den Teilnehmern erlauben, per Tastendruck direkt auf die Äußerung des Partners zu reagieren. Über einen quick response mechanism können vorformulierte Äußerungen wie OK oder I agree abgerufen werden (vgl. McCarthy, Miles, Monk, Harrison, Dix & Wright, 1990). Die Bedingungen für die Produktion und Rezeption von Äußerungen differieren je nach Konferenztyp und -technik. Teilnehmer asynchroner Konferenzen haben Zeit, um ihre Beiträge zu planen und zu überarbeiten, Teilnehmer synchroner Schaltungen dagegen nicht. Online-Konferenzen besitzen in stärkerem Maße Konversationscharakter als asynchrone Konferenzen (Gilbert et al., 1991), die eher dem Austausch schriftlicher Kurzbeiträge gleichen. Als weitere Faktoren werden das genutzte System (seine Restriktionen) genannt, der Aufgabenkontext (Wilkins, 1991), die Anzahl der Teilnehmer und individuenspezifische Faktoren wie Erfahrung im Umgang mit CC und Bekanntheitsgrad der Teilnehmer. Charakteristika der Sprachproduktion in synchronen Systemen resultieren aus der Diskrepanz zwischen intendierter Konversation
849
und schriftlicher Realisierung am Computer (talking in writing; Spitzer, 1986), die zu spezifischen Ausprägungen führen. Mc Carthy et al. (1992) werten sie deshalb als Form zwischen schriftlicher und mündlicher Sprachproduktion mit spezifischen Eigenschaften. In der Literatur dominiert der Vergleich von CC-Kommunikation mit mündlicher Konversation. Ob und in welchem Maße der Rückgriff auf Kategorien, die für die Beschreibung mündlicher Konversation entwickelt wurden (z. B. turn taking), sinnvoll ist, wird kontrovers gesehen. Nähe zu mündlicher Konversation zeigt sich nach Wilkins (1991) in einem hohen involvement des Sprechers/Schreibers (Chafe, 1985). Wie in Face-to-face-Gesprächen kann der Sprecherwechsel per Selbst- oder Fremdwahl erfolgen. Die technischen Bedingungen (fehlender visueller und akustischer Kanal) bedingen jedoch spezifische Formen der Organisation und Realisierung des turn taking. Sprecher können das Wort selbst ergreifen oder aufgefordert werden zu reagieren. Die Abgabe des Rederechts wird durch das Versenden eines eigenen Redebeitrags signalisiert; die Fremdwahl eines Sprechers kann sich aus dem Inhalt des vorangegangenen Redebeitrages ergeben oder durch explizite Adressierung angezeigt werden (vgl. Abschn. 1.3). In moderierten Konferenzen wird das Rederecht durch eine organisierende Instanz (Person oder Software) geregelt. Im Falle moderierender Software listet das System alle per Tastendruck angezeigten Redebeiträge auf und autorisiert diese z. B. durch ein der Äußerung vorangestelltes Namenkürzel (tag). Die Liste erscheint auf den Bildschirmen der Teilnehmer und ist als Empfehlung für die Abfolge von Beiträgen zu verstehen. Selbstwahl des Rederechts (z. B. durch Eintrag in Sprecherlisten) ist in synchronen Computerkonferenzen die häufigste Form des Sprecherwechsels. Pausen, die durch Schweigen entstehen, können verschiedene Gründe haben: technische Probleme, Verstehensprobleme u. a. Sie wirken in synchronen Situationen anders als in asynchronen Schaltungen. Größere Auswirkungen auf die Gesamtorganisation besitzen Unterbrechungen eines Redners durch Selbstwahl des Rederechts. Einige Systeme verhindern diese Möglichkeit (Wilkins, 1991). Ein zentrales Problem synchroner wie asynchroner Konferenzen ist die eindeutige Angabe von Referenzen (Verbinden von Mitteilung und Situation; Clark & Brennan,
850 1991) und der Aufbau von Kohärenz zwischen Beiträgen (McCarthy, Wright & Monk, 1992). Kohärenzbildungsprozesse setzen – bedingt durch den fehlenden gemeinsamen situativen Kontext – ein erhebliches Maß an Hintergrundwissen voraus. Fehlende Schnelligkeit der Teilnehmer kann dazu führen, dass mehrere Teilnehmer gleichzeitig reagieren. Themeneinführung und -entwicklung erfolgen zudem oft parallel zueinander. Kohärenzbildungsprozesse können sich nicht am Sprecherwechsel orientieren, nonverbale Marker wie Blickkontakt entfallen. Die Teilnehmer reagieren auf diese Situation mit Kompensationsstrategien wie explizite Adressierung (Angabe, auf welches Thema/Person der Beitrag reagiert), sequentielle Organisation (Reaktion auf Themen nach der zeitlichen Abfolge ihres Erscheinens auf dem Bildschirm) und message compression (Verteilen einer Reaktion auf mehrere aufeinanderfolgende kurze Beiträge) (McCarthy et al., 1992). In welchem Umfang diese Strategien notwendig werden, hängt u. a. von der zu lösenden Aufgabe und der Anzahl der kommunizierenden Partner ab. Synchronität und Asynchronität bieten differierende Bedingungen für Themenwechsel. Synchrone Konferenzen mit einer größeren Teilnehmerzahl können moderiert werden. Asynchrone Konferenzen erlauben dies nur in begrenztem Maße, z. B. durch das Zusammenfassen von Beiträgen zu einem Thema. Themenbezüge und Themenwechsel müssen in stärkerem Maße metasprachlich expliziert werden als in synchronen Konferenzschaltungen. Thematische Bezüge werden explizit durch lexikalische Mittel wie wörtliche und variierte Wiederaufnahme des Themas zu Beginn eines Beitrages angezeigt und/oder müssen auf der Basis geteilter (kultureller, sozialer, sachlicher) Wissensbestände erschlossen werden (Wilkins, 1991). Reagiert ein Beitrag auf mehrere Partner und/oder Themen, sind die betreffenden Passagen zu adressieren bzw. thematisch zu kennzeichnen. Spitzer (1986) konstatiert einen stärkeren Bedarf für Metakommunikation, um emotionalen Ausbrüchen vorzubeugen. Als Ursache für Kommunikationsprobleme, Irritationen und Unsicherheit wird die geringe Kontextualisierung von Beiträgen in asynchron durchgeführten Konferenzen erwähnt (Clases, 1994). Das Fehlen eines unmittelbaren Feedbacks erzeuge Unsicherheiten in Bezug auf die Wirkung des eigenen Beitrages wie auch interpretatorische Unsicherheit. Die Re-Kon-
VII. Medien
textualisierung von Mailbeiträgen erfordert einen erheblichen Aufwand an Konstruktionsarbeit, etwa beim Verfolgen längerer Diskussionsstränge. Schwache Kontextualisierung kann nach Feenberg (1996) partiell durch Metakommunikation abgefangen werden; sie ist u. a. vom Moderator zu leisten. Andere Autoren schlagen formalisierte Lösungen vor, die es erlauben, die Intention eines Beitrages explizit anzuzeigen, z. B. über die Angabe des Sprachhandlungstyps (Winograd & Flores, 1986). Schwer interpretierbar ist das Schweigen des Partners, da es gleichermaßen technisch, inhaltlich, durch Abwesenheit der Person oder zeitlich verzögerte Reaktion bedingt sein kann. 3.3. Bild und Ton: Videokonferenzen Empirische Untersuchungen zu Videokonferenzen basieren in der Regel auf Laborexperimenten (z. B. Lopez Montez, 1992; Rosetti & Surynt, 1985) oder auf Nutzerbefragungen zum Mediengebrauch (Antoni, 1990; Gowan & Downs, 1994; Köhler, 1993; Kydd & Ferry, 1994). Felduntersuchungen und Fallstudien sind eher selten (Bergmann & Meier, 1998; Meier, 1998). Die Funktionalität des Mediums wird kontrovers diskutiert, so z. B. die Frage, ob sich Vidiokonferenzen für Problemlösesituationen anbieten (Rosetti & Surynt, 1985) oder nicht (Bronner, 1996). Es wird angenommen, das Medium eigne sich nicht für die Behandlung kontroverser, emotionsgeladener Themen, für Brainstorming oder das Sichkennenlernen der Partner. Als Voraussetzung für das Gelingen von Videokonferenzen gelten die persönliche Bekanntschaft der Beteiligten (Weinig, 1996) und die Schwerpunktsetzung auf Informationsaustausch (Abel, 1990; Färber, 1993; Kydd & Ferry, 1994). Videokonferenzen simulieren Face-to-faceSituationen. Sie werden nicht als Ersatz für Face-to-face-Gespräche gesehen, sondern eher als zusätzliche Form mit eigenen Qualitäten (Bergmann & Meier, 1998). Medial bedingte Probleme variieren in Abhängigkeit von der Anzahl der beteiligten Personen und ihrer räumlichen Verteilung; sie sind abhängig von der verwendeten Technik. So beeinflusst die verwendete Technik den Blickkontakt, die Qualität der Bild- und Tonwiedergabe wie auch den Bildausschnitt. Gesprächs- und Interaktionseröffnung: Videokonferenzen ähneln in stärkerem Maße Face-to-face-Gesprächen als Chats, da sich die Beteiligten sehen und hören können. Ih-
62. Medien der Individualkommunikation: Email und Telekonferenz
nen stehen neben verbalen Mitteln nonverbal-nonvokale und nonverbal-vokale Ausdrucksmittel zur Verfügung. Wie andere Konferenztypen auch müssen technische Vorarbeiten geleistet werden, wie das Herstellen der Konferenzschaltung; spezifisch ist die Einstellung des Systems auf die konkreten situativen Bedingungen (Beleuchtung, Akustik, Kamera- und Bildschirmanordnung etc.). Gesprächs- und Interaktionseröffnungen in Videokonferenzen sind kaum untersucht. Eine Ausnahme bildet die Feldstudie von Meier (1998) zum Interaktionsverhalten konferierender Arbeitsgruppen aus der Industrie. Abweichend zu Treffen bei Kopräsenz der Partner sind danach explizite Selbstidentifikation und wechselseitige Begrüßung nach Herstellung des Konferenzmodus eher selten; Aktionen richten sich eher auf die eigene Gruppe. Teilweise finden erste Einzelgespräche zwischen Partnern beider Gruppen statt, die sich positiv auf die spätere wechselseitige Wahrnehmung auswirken. Problematisch ist der Übergang zur eigentlichen Konferenzsitzung, d. h. das Bündeln der Aufmerksamkeit aller und die Eröffnung gemeinsamer Gespräche. Die Aufmerksamkeitsfokussierung erfolgt über die Zuwendung zum Bildschirm, Aufmerksamkeit heischende Nachfragen („hallo“, „Hört Ihr uns?“ etc.) und erneute Begrüßung (openings up openings). Das Gespräch kann aus verschiedenen Gründen unterbrochen werden und eine erneute Eröffnungsphase notwendig machen. Der Austausch wird durch technische Probleme beeinflusst, wie fehlende Stabilität und/oder Synchronität von Bild- und Tonkanal. Verständigungsprobleme können auch aus der Position der Partner im Konferenzraum resultieren. Die der Kamera am nächsten sitzende Person wird am besten von der anderen Seite der Schaltung wahrgenommen; die Position eignet sich jedoch nicht für Interaktionen am selben Ort. Körperliche Hinwendung zu Mitgliedern der eigenen Gruppe beeinträchtigt die Aufnahmequalität des Mitgeteilten. Heath und Luff (1993) konstatieren trotz wechselseitigen Sehens und Hörens Probleme bei der Koordinierung des Verhaltens. Nonvokal-nonverbale Mittel wie Körperbewegungen, Gesten und Änderung des Blickwechsels wirken nicht im selben Maße auf die verbale Interaktion strukturierend bzw. modifizierend wie in natürlichen Gesprächssituationen (Fish, Kraut & Chalfonte, 1990; Smith, O’Shea, O’Malley, Scanelon & Taylor, 1989). Ähnliches gilt für zögerndes
851
und stockendes Sprechen. Weinig (1996) vergleicht empirisch Face-to-face-Konferenzen mit Videokonferenzen. Bei gleicher Aufgabenstellung fallen Videokonferenzen kürzer aus als Face-to-face-Sitzungen; die Anzahl der Gesprächsbeiträge und -schritte ist dagegen höher, die Länge der Gesprächsbeiträge kürzer. Videokonferenzen zeigen mehr gesprächsorganisierende Phasen, jedoch weniger gesprächsorganisierende Handlungen. Der Gesprächsverlauf ist sehr dynamisch, jedoch schwächer organisiert. Es gibt mehr Unterbrechungen und Überschneidungen sowie weniger Sprechpausen. Nonverbale Mittel werden doppelt so oft eingesetzt. Der höhere Anteil nonverbaler Handlungen erklärt sich aus der Gesprächsdynamik, die kaum ein verbales Feedback zulässt. Gesten haben unterschiedliche Funktion. Sie unterstützen die Sprecherwahl, bestätigen, dass die Mitteilung ohne Störung empfunden wurde, oder kompensieren in Schlussphasen den persönlichen Händedruck. Das Fehlen direkter Blickkontakte wird als störend und hemmend empfunden. Auf die Gespächsführung wirkt sich die Art der technischen Koordinierung von Sprecherwechseln aus, so z. B. moderierter vs. unmoderierter Wechsel, inhaltlich, chronologisch oder über Lautstärke geregelter Wechsel. Nach Sellen (1992) wird das Verstehen durch weitere technische Parameter beeinflusst, wie die Größe und Anordnung des Bildschirmausschnitts (Ganzkörper vs. Körperausschnitt, Bild-in-Bild-Design vs. mehrere Bildschirme nebeneinander). Die geringe Akzeptanz von Videokonferenzen wird z. T. auf die fehlende Schulung und Erfahrung der Nutzer mit diesem Medium zurückgeführt (Weinig, 1996).
4.
Forschungsdefizite
Als Fazit lässt sich konstatieren, dass Formen der elektronisch gestützten Individualkommunikation erst in Ansätzen erforscht sind. Allgemeine Aussagen zum Einfluss des Mediums auf Prozesse der Spracherzeugung und verarbeitung scheinen angesichts der schnellen technischen Entwicklung sowie der Heterogenität der untersuchten technischen Applikationen und kommunikativen Aufgaben schwierig. Defizite in der Erforschung emailbasierter Kommunikationsformen betreffen Kohärenzbildungsprozesse, Kontextualisierungsstrategien und -probleme sowie den
852
VII. Medien
Einsatz von Metakommunikation, etwa zur Sicherung des Verständnisses oder der Themenorganisation bei längeren Emailsequenzen, Chat und Computerkonferenzen. Weitgehend ungeklärt ist der Einfluss der Bildschirmrepräsentation auf Prozesse der Produktion und Verarbeitung von Email. Ähnliches gilt für die räumliche und zeitliche Situierung der Kommunikationspartner (z. B. Arbeitsplatz vs. Internetcafe, räumlich bedingt zeitversetzte Kommunikation), die Rolle des soziokulturellen Umfeldes (geteilte Wissensbestände, Werte und Normen) oder die Markierung des gemeinsamen common ground (Clark & Brennan, 1991). Bezogen auf Videokonferenzen, ist der Einfluss situativer Parameter (verwendetes System, Raumgestaltung, Bildschirmgröße), kommunikativer Größen (Kommunikationsaufgabe und -ziel) sowie personengebundener Größen (subjektive Erfahrung im Umgang mit dem Medium) auf das Miteinandersprechen und die Gesprächsorganisation zu klären. Damit sind nur einige wenige offene Fragen angesprochen. Die neuen Medien bieten ein reiches Forschungsfeld für Disziplinen, die sich mit Sprache befassen. In diesem Sinne ist dem Plädoyer von Herrmann (1998) nur zuzustimmen, aus sprachpsychologischer Sicht mehr Forschungsarbeit in den Gegenstand zu investieren.
5.
Literatur
Abel, M. J. (1990). Experiences in an exploratory distributed organization. In J. Galegher, R. E. Kraut & C. Egido (Eds.), Intellectual teamwork: Social and technological foundations of cooperative work (pp. 489⫺511). Hillsdale, N.J.: Lawrence Erlbaum. Abowd, G., Beale, R., Dix, A. & Finlay, J. (1995). Mensch Maschine Methodik. München: Prentice Hall. Antoni, C. (1990). Video-Konferenzen. Einstellungen und Erfahrungen von Mitarbeitern im Umgang mit einer neuen Kommunikationstechnik. Zeitschrift für Arbeits- und Organisationspsychologie, 34, 125⫺134. Bergmann, J. R. & Meier, Chr. (1998). Darstellung eines Forschungsprojektes. Arbeitspapiere zu „Telekooperation – Struktur, Dynamik und Konsequenzen elektronisch vermittelter kooperativer Arbeit in Organisationen“, 1, Institut für Soziologie, Giessen: Universität Giessen.
Bronner, R. (1996). Entscheidungs-Prozesse in Video-Konferenzen. Eine empirische Untersuchung der Leistungsfähigkeit moderner Kommunikationstechnik zur Bewältigung komplexer Management-Aufgaben. Frankfurt/M.: Lang. Chafe, W. (1985). Linguistic differences produced between speaking and writing. In. D. Olsen, N. Torrance & A. Hildyard (Eds.), Literacy, language and learning: The nature and consequences of reading and writing (pp. 105⫺123). New York: Cambridge University Press. Clark, H. H. & Brennan, S. E. (1991). Grounding in communication. In L. B. Resnick, J. D. Levine & S. D. Teasley (Eds.), Perspectives on shared cognition (pp. 127⫺149). Washington D.C.: American Psychological Association. Clases, Chr. (1994). Kommunikation in computervermittelten Tätigkeitszusammenhängen. Bilanzierung der Ergebnisse einer qualitativen Studie zur Nutzung und Bewertung elektronischer Postsysteme (‘E-mail’). Harburg: TUUH (Harburger Beiträge zur Psychologie und Soziologie der Arbeit; 8). Culnan, M. J. & Markus, L. (1987). Information technologies. In F. Jablin, L. Putnam, K. Roberts & L. Proter (Eds.), Handbook of Organizational Communications (pp. 420⫺433). Beverly Hills: Sage. Färber, B. (1993). Videokonferenzen; Einsatzbereiche und Grenzen. Office Management, 41, 45⫺47. Feenberg, A. (1996). The written world: On the theory and practise of computer conferencing. Available: http://acacia.open.ac.uk/Mindweave/Chap2. html (22.10.1996). Fish, R. S., Kraut, R. E. & Chalfonte, B. L. (1990): The video window system in informal communications. Proceedings of the Conference on Computer Supported Cooperative Work (pp. 1⫺11). Los Angelos, California. Gilbert, N., Jirotka, M. & Luff, P. (1991). Participation framework for computer mediated communication. In L. Bannon, M. Robinson & K. Schmidt (Eds.), Proceedings of the Second Conference on Computer Supported Cooperative Work (25.⫺27. Sept. 1991) (pp. 279⫺291). Amsterdam. Gowan, J. A. & Downs, J. M. (1994). Video conferencing human-machine interface: A field-study. Information & Management, 27, 341⫺356. Günther, U. & Wyss, E. L. (1996). E-mail-Briefe – eine neue Textsorte zwischen Mündlichkeit und Schriftlichkeit. In E.W. B. Hess-Lüttich, W. Holly & U. Püschel (Hrsg.), Textstrukturen im Medienwandel (pp. 61⫺86), Frankfurt/M. u. a.: Lang. Handler, P. (1996). Zwischen „Flames“ und „Netiquette“. Elektronische Kommunikation als
62. Medien der Individualkommunikation: Email und Telekonferenz Sprachbiotop vs. Textmülldeponie. In A. Fill (Hrsg.), Sprachökologie und Ökolinguistik (pp. 245⫺264). Tübingen: Stauffenburg. Heath, Chr. & Luff, P. (1993). Collaborative activity and technological design: Task coordination in London Underground control rooms. In L. Bannon, M. Robinson & K. Schmidt (Eds.), Proceedings of the Second European Conference on computer-supported cooperative work (pp. 65⫺80). Amsterdam: Dordrecht. Herrmann, Th. (1998). Medienentwicklung – verliert die Sprachpsychologie ihr Objekt? Medienpsychologie, 4, 268⫺275. Jakobs, E.-M. (1998). Mediale Wechsel und Sprache. Entwicklungsstadien elektronischer Schreibwerkzeuge und ihr Einfluß auf Kommunikationsformen. In W. Holly & B. U. Biere (Hrsg.), Medien im Wandel (pp. 187⫺209). Wiesbaden: Westdeutscher Verlag. Janich, N. (1994). Electronic Mail. Eine betriebsinterne Kommunikationsform. Muttersprache, 3, 248⫺259. Koch, P. & Oesterreicher, W. (1985). Sprache der Nähe – Sprache der Distanz. Mündlichkeit und Schriftlichkeit im Spannungsfeld von Sprachtheorie und Sprachgeschichte. Romanistisches Jahrbuch, 36, 15⫺43. Köhler, S. (1993). Video-Konferenz. Bad Honnef: WIK Diskussionsbeitrag Nr. 105. Kydd, Chr. T. & Ferry, D.L. (1994). Managerial use of video conferencing. Information & Management, 27, 369⫺375. Lopez-Montez, G. M. (1992). Is interaction the message? The effect of democratizing and non-democratizing interaction in video-conferencing small groups on social presence and quality of outcome. In U. E. Gattiker (Ed.), Technology-mediated communication (pp. 187⫺223). Berlin, New York: de Gruyter. McCarthy, J. C., Miles, V. C., Monk, A. F., Harrison, M. D., Dix, A. J. & Wright, P. C. (1990). Using a minimal system to drive the conceptual analysis of electronic conferencing. University of York [Technical Report] McCarthy, J. C., Wright, P. C. & Monk, A. F. (1992). Coherence in text-based electronic conferencing: Coupling text and context. Journal of Language and Social Psychology, 11, 267⫺277. Meier, Chr. (1998). Potentielle und aktuelle Präsenz: von der Interaktionseröffnung zum offiziellen Beginn in Videokonferenzen. Arbeitspapiere zu „Telekooperation – Struktur, Dynamik und Konsequenzen elektronisch vermittelter kooperativer Arbeit in
853
Organisationen“, 5, Institut für Soziologie, Universität Giessen. Newlands, A., Anderson, A. H. & Mullin, J. (1996). Dialogue structure and cooperative task performance in two CSCW environments. In J. H. Conolly & L. Pemberton (Eds.), Linguistic Concepts and Methods in CSCW (pp. 41⫺60). London: Springer. Rickheit, G. & Strohner, H. (1999). Textverarbeitung: Von der Proposition zur Situation. In A. D. Friederici (Hrsg.), Enzyklopädie der Psychologie: Sprachrezeption (pp. 271⫺306). Göttingen: Hogrefe. Rintel, E. S. & Pittam, J. (1997). Strangers in a strange land. Interaction management on internet relay chat. Human Communication Research, 23, 507⫺534. Rosenbaum, O. (1996). Chat-Slang. Lexikon der Internet-Sprache. München, Wien: Carl Hauser Verlag. Rosetti, D. K. & Surynt, T. J. (1985). Video teleconferencing and performance. Journal of Bussiness Communication, 22, 25⫺31. Runkehl, J., Schlobinski, P. & Siever, T. (1998). Sprache und Kommunikation im Internet. Muttersprache, 2, 97⫺109. Sanderson, D. (1995). Smileys. Bonn: O’Reilly. Sassen, C. (2000). Phatische Variabilität bei der Initiierung von Internet-Relay-Chat-Dialogen. In C. Thimm (Hrsg.), Soziales im Netz (89⫺108). Opladen, Wiesbaden: Westdeutscher Verlag. Sellen, A. J. (1992). Speech patterns in video-mediated conversations. In P. Bauersfeld, J. Bennet & G. Lynch (Eds.), ACM Conference on Human Factors in Computing Systems (pp. 49⫺59). New York: Association for Computing Machinery. Short, J., Williams, E. & Christie, B. (1976). The social psychology of telecommunications. New York: Wiley. Smith, R., O’Shea, T., O’Malley, C., Scanelon, E. & Taylor, J. (1989). Preliminary experiments with a distributed, muliti-media, problem solving environment. EC-CSCW ’89 (pp. 19⫺34). London Spitzer, M. (1986). Writing style in computer conferences. IEEE Transactions on Professional Communications. Vol. PC 29, No. 1, March 1986. Sproull, L. & Kiesler, S. (1986). Reducing social contest cues: Electronic mail in organizational communication. Management Science, 32, 1492⫺ 1512. Storrer, A. & Waldenberger, S. (1999). Zwischen Grice und Knigge. Die Netiketten im Internet. In
854
VII. Medien
H. Strohner, L. Sichelschmidt & M. Hielscher (Hrsg.), Medium Sprache (pp. 63⫺77). Frankfurt/ M.: Lang.
Winograd, T. & Flores, F. (1986). Understanding computers and cognition. A new foundation for design. Norwood: Ablex.
Weinig, K. (1996). Wie Technik Kommunikation verändert. Das Beispiel Videokonferenz. Münster: LIT.
Ziefle, M. (1998). Visuelle Faktoren bei der Informationsentnahme am Computer. Habilitationsschrift. Institut für Psychologie, RWTH Aachen.
Wilkins, H. (1991). Computer talk. Long-distance conversations by computer. Written Conversation, Vol. (8) No. 1, 56⫺78.
Eva-Maria Jakobs RWTH Aachen (Deutschland)
63. Massenmedien: Rundfunk und Fernsehen 1. 2.
7. 8.
Entwicklung des Rundfunks Programmangebot in Hörfunk und Fernsehen Nutzung von Hörfunk und Fernsehen Forschungsgebiete zu Hörfunk und Fernsehen Psycholinguistische Untersuchungen zu Hörfunk und Fernsehen Psycholinguistische Aspekte von Fernsehnachrichten Ausblick Literatur
1.
Entwicklung des Rundfunks
3. 4. 5. 6.
Im Staatsvertrag der Bundesländer zur Erhebung von Rundfunkgebühren von 1974 wird mit „Rundfunk“ die „für die Allgemeinheit bestimmte Veranstaltung und Verbreitung von Darbietungen aller Art in Wort, in Ton und im Bild unter Benutzung elektrischer Schwingungen ohne Verbindungsleitungen oder längs oder mittels eines Leiters“ bezeichnet (Noelle-Neumann, Schulz & Wilke, 1989: 330). Der Begriff „Rundfunk“ – als Oberbegriff von „Hörfunk“ und „Fernsehen“, der allgemeinsprachlich allerdings häufig nur mit „Hörfunk“ gleichgesetzt wird – bezieht sich dabei sowohl auf die technischen Grundlagen der Verbreitung (anfänglich mittels Schwingungsanregung des Äthers durch elektrische Funken) als auch auf die nicht-zielgerichtete Ausstrahlung von Signalen an viele Empfänger gleichzeitig (Noelle-Neumann et al., 1989). (Zusätzlich ist mit dieser Definition auch der Rahmen der politischen Regelungskompetenz (z. B. die Aufsicht über die Kabelprogramme) festgelegt.) 1876 wurde das von Graham Bell erfundene Telefon – Wandlung des Schalls in elektrische Schwingungen im Mikrofon,
Wandlung der elektrischen Schwingungen in Schall mittels eines Lautsprechers – auf der Weltausstellung in Philadelphia der Öffentlichkeit vorgestellt, 1878 erhielt Thomas A. Edison das Patent für den Phonographen. 1888 entdeckte der deutsche Physiker Heinrich Hertz die elektromagnetischen Wellen, mit deren Hilfe der Italiener Guglielmo Marconi 1897 Morsezeichen über eine Entfernung von drei Meilen übertragen konnte. 1906 wurde das Radio erfunden. Überraschenderweise diente vor der breiten Einführung der Hörfunkempfänger das Telefon nicht so sehr der Individualkommunikation, sondern es dominierte das „Rundfunkkonzept des Telefons“. Schon 1893 war in Budapest der „Telefon-Bote“ eingeführt worden, der seine Abonnenten als „Radio-Zeitung“ mit Nachrichten, Börseninformationen und Musik versorgte (Höflich, 1996: 205). 1924 wurde das bayerische „Operntelefon“ vorgestellt und später einem breiten Publikum übergeben, im August 1930 jedoch wegen der zunehmenden Dominanz des Hörfunks mit seinen besseren Übertragungsmöglichkeiten eingestellt. Erst danach hat sich das Telefon vom Massenkommunikationsmittel zum Medium für die Individualkommunikation entwickelt. 1889 tastete der Russe Paul Nipkow Bilder punktweise mit Hilfe einer rotierenden Scheibe ab, 1895 führten die Brüder Lumie`re erstmals in Paris mit Hilfe einer Kamera und eines funktionstüchtigen Projektors einen kurzen Film vor, und 1897 gelang Ferdinand Braun die elektrische Bildabtastung mit der Kathodenstrahlröhre. 1926 demonstrierten Baird und Jenkins das Fernsehen mit Hilfe der Nipkow-Scheibe. 1936 wurde in BerlinWitzleben die erste Versuchsanlage für Fern-
855
63. Massenmedien: Rundfunk und Fernsehen
sehen in Betrieb genommen, 1939 eröffnete Theodore Roosevelt auf der Weltausstellung in New York das öffentliche Fernsehen in den USA. Am 01. 11. 1954 begannen die Allgemeinen Rundfunkanstalten Deutschlands (ARD) mit der schwarz-weißen Fernsehausstrahlung, am 01. 04. 1962 startete das Zweite Deutsche Fernsehens (ZDF) seinen Sendebetrieb mit dem „Vorspiel“ aus Goethes „Faust“. 1967 wurde von Willy Brandt auf der Funkausstellung in Berlin das Farbfernsehen in Deutschland in Gang gesetzt. Mit dem Start des Kabelprojektes in Ludwigshafen am 01. 01. 1984 wurde das duale Rundfunksystem in der BRD vorbereitet und mit dem Landesmediengesetz von 1986 rechtlich umgesetzt. Am 01. 01. 1985 ging SAT.1 auf Sendung, im August 1985 kam mit RTLplus ein weiterer privater Anbieter mit einem Vollprogramm hinzu. Versuche, im Sommer 1996 mit Hilfe der digitalen Übertragungstechnik das Vielkanalfernsehen auf breiter Basis einzuführen, scheiterten, da nur etwa 330 000 zahlende Fernsehhaushalte für dieses Programm gewonnen werden konnten (Die ZEIT vom 26. 08. 1999). Neben der Konkurrenz durch die zahlreichen in Deutschland kostenfrei zu empfangenden Fernsehkanäle werden auch Abstimmungsschwierigkeiten bei der Etablierung eines einheitlichen Übertragungsstandards („set top box“) für das Scheitern verantwortlich gemacht.
bei PRO SIEBEN sogar 57,8 % (9,3 % für Information) –, ist bei den öffentlich-rechtlichen Sendern eher ein ausgewogenes Verhältnis von Information und Unterhaltung zu beobachten: die ARD wenden 43,3 % ihrer Sendezeit, das ZDF 44,9 % für Information und Bildung auf (Quelle: Media Perspektiven Basisdaten, 1998). Die bei den Privatsendern beobachtbare Tendenz zur Unterhaltung ist nicht nur im Unterhaltungsangebot selbst, sondern auch an den Inhalten und den Darbietungsformaten von Informationssendungen festzustellen. So werden Meldungen in Nachrichtensendungen in stärkerem Maße als bei öffentlich-rechtlichen Sendern in einem unterhaltsamen Format dargeboten, es wird eher über alltägliche Probleme im persönlichen Umfeld („human interest“) berichtet, und die Trennung von Bericht und Kommentar löst sich auf (vgl. Früh, Kuhlmann & Wirth, 1996; Hugger & Wegener, 1995; Krüger, 1995, 1996). Zwar ist seit der Einführung des Privatfernsehens hinsichtlich Inhalt und Darbietungsformat eine Konvergenz im Nachrichtenangebot öffentlich-rechtlicher und privater Sender zu beobachten, es ist jedoch umstritten, ob sich ARD und ZDF dem Darbietungsformat der Privaten annähern oder ob sich beide Systeme zu einer Mittelposition hin entwickeln (vgl. Bruns & Marcinkowski, 1996).
3. 2.
Programmangebot in Hörfunk und Fernsehen
Wie beschrieben, herrscht in der BRD ein duales Rundfunksystem; auf der einen Seite finden sich die dem Programmauftrag verpflichteten und überwiegend durch Gebühren finanzierten öffentlich-rechtlichen Sender, auf der anderen Seite die der Aufsicht durch die Landesmedienanstalten unterstellten und fast ausschließlich durch Werbeeinnahmen finanzierten privaten Sender. Aufgrund dieser unterschiedlichen Voraussetzungen sind auch Unterschiede in der Struktur des Programmangebotes von öffentlich-rechtlichen und privaten Sendeanstalten erkennbar. Während bei den Privatsendern Unterhaltung dem Umfang nach vor Informations- und Bildungssendungen liegt – 1997 waren bei RTL 52,4 % der Sendedauer für fiktionale und non-fiktionale Unterhaltung vorgesehen (im Vergleich zu 16,7 % für Information), bei SAT.1 58,1 % (16,1 % für Information) und
Nutzung von Hörfunk und Fernsehen
Dem umfangreichen Angebot in Hörfunk und Fernsehen steht eine über die Jahre angestiegene und einen beträchtlichen Teil des Alltags umfassende Nutzungsdauer entgegen. So wurden im Jahr 1998 audiovisuelle Medien im Zeitraum zwischen 5.00 und 24.00 Uhr durchschnittlich für eine Zeitdauer von 366 Minuten, also mehr als sechs Stunden lang genutzt. Diese Zeitdauer ist bei Männern und Frauen nur geringfügig unterschiedlich ausgeprägt – 356 vs. 376 Minuten – , und sie nimmt mit dem Alter zu. (Sie liegt bei den 60 bis 69jährigen bei immerhin 400 Minuten am Tag.) Von der Nutzungsdauer für audiovisuelle Medien entfallen auf den Hörfunk 172 und auf das Fernsehen 173 Minuten. Erwartungsgemäß rangieren Fernsehen und Radio bei den Freizeitbeschäftigungen an erster Stelle: 94,1 % der Befragten gaben an, dass sie mehrmals in der Woche fernsehen, 83,5 % berichteten, dass sie Radio hö-
856
VII. Medien
ren. Zum Vergleich: 80,5 % der Befragten lesen mehrmals in der Woche Zeitung, 45,3 % Zeitschriften und Illustrierte und 21,3 % Bücher. 14,2 % der Personen treiben Sport, 25,4 % gehen Spazieren, 8,4 % basteln oder heimwerken, und nur jeweils 0,3 % besuchen das Kino oder das Theater bzw. Konzert (Quelle: Media Perspektiven Basisdaten, 1998). Vor dem Hintergrund dieser intensiven Beschäftigung mit den Medien ist zu erwarten, dass diese einen beträchtlichen Einfluss auf Kognition, Emotion und Verhalten ihrer Nutzer ausüben. Das ist der Grund, warum sich die Medienwirkungsforschung in den vergangenen Jahren intensiv mit den nachfolgend skizzierten Forschungsfeldern befasst hat.
4.
Forschungsgebiete zu Hörfunk und Fernsehen
Als Massenmedien dienen Hörfunk und Fernsehen der Verteilung von Medienbotschaften (⫽ Informations- und Unterhaltungsreizen) an eine große Zahl von Mediennutzern ohne die Möglichkeit zur unmittelbaren Rückmeldung. Die Besonderheit der dominierenden Einwegkommunikation legt es nahe, Forschungsarbeiten zu den Massenmedien, dem Kommunikationsmodell von Shannon und Weaver (1949) folgend, in eine produzentenorientierte, eine botschaftsorientierte und eine rezipientenorientierte Forschung zu unterteilen (Winterhoff-Spurk, 1989). Bei der produzentenorientierten Forschung steht die Analyse des Prozesses der Entstehung von Medienbotschaften (z. B. die Kriterien der Auswahl und Anordnung von Meldungen in den Nachrichtensendungen ⫽ Nachrichtenwert-Faktoren) im Vordergrund, bei der botschaftsorientierten Forschung wird die Beschaffenheit von Medienbotschaften analysiert (z. B. des Umfangs und der Art von Gewalt in Fernsehnachrichten; vgl. Mangold, im Druck). Bei der rezipientenorientierten Forschung stehen die Auswirkungen der Massenmedien auf ihre Nutzer im Mittelpunkt. Während im Kontext einer behavioristisch orientierten Medienwirkungsforschung die Einflüsse des Mediums im Vordergrund standen, zeigten etwa die Arbeiten aus der Gruppe um Paul Lazarsfeld (vgl. Lazarsfeld, Berelson & Gaudet, 1944), dass das Publikum die rezipierten Programme im Einklang mit seinen Bedürfnissen (aktiv) auswählt.
Diese Arbeiten zur defensiven Selektivität waren der Ausgangspunkt für den Nutzen- und Belohnungsansatz (zum Überblick vgl. etwa Palmgren, 1984); nach diesem entscheidet sich ein Mediennutzer für solche Kanäle und Programmangebote, von denen er den intendierten Nutzen bzw. die gesuchten Gratifikationen erwarten kann. Er wird um- bzw. abschalten, sobald die im Verlauf der Rezeption erhaltenen Gratifikationen von den gesuchten zu stark abweichen (vgl. auch das Erwartungs-Wert-Modell von Palmgren, 1984). Auch die von Medienbotschaften ausgehenden Wirkungen werden als von den Nutzungsmotiven der Rezipienten vermittelt und modifiziert angesehen (zum Nutzen-Wirkungs-Ansatz vgl. Rubin, 1994; Mangold, 1998). Medienwirkungen können entweder nach ihrer Wirkungsdauer oder nach den betroffenen psychischen Funktionsbereichen unterschieden werden. So lassen sich Begleiterscheinungen der Medienrezeption (z. B. physiologische Zustandsveränderungen oder mimisch-emotionale Reaktionen im Gesichtsausdruck), kurzfristige Nachwirkungen (z. B. emotionale Zustände nach einem Film) oder langfristige (durch intensiven und häufigen Medienkonsum zustande gekommene) Veränderungen voneinander trennen, und es können kognitive, emotionale und verhaltensbezogene (konative) Medienwirkungen beobachtet werden (vgl. Winterhoff-Spurk, 1999). Nach der inhaltlichen Unterteilung lassen sich die nachfolgend beschriebenen theoretischen Ansätze voneinander abgrenzen: (i) Nach der Agenda-Setting-Hypothese (McCombs & Shaw, 1973) nimmt mit der Zahl der zu einem Thema in den Medien veröffentlichten Beiträge die Wichtigkeit dieses Themas für die Mediennutzer sowie die Zahl der Rezipienten, die dieses Thema für bedeutsam halten, zu (vgl. zur Übersicht Brosius, 1994). Tichenor, Donohue und Olien (1970) formulierten die Hypothese, dass der Medieneinsatz nicht – wie ursprünglich intendiert – das Bildungs- und Informationsdefizit unterprivilegierter Bevölkerungsgruppen verringert, sondern vielmehr die Wissenskluft (engl.: knowledge gap) vergrößert, da bei höheren Sozialschichten der Wissenserwerb aus Medien schneller und effizienter vonstatten geht als bei unteren sozialen Gruppen. (Allerdings sind solche Wissenskluft-Effekte eher bei nationalen als bei lokalen Themen und eher bei Printmedien als beim Fernsehen zu beobach-
857
63. Massenmedien: Rundfunk und Fernsehen
ten.) Die von Gerbner (vgl. Gerbner, Gross, Morgan & Signorielli, 1986) formulierte Kultivierungs-Hypothese basiert auf der Annahme, dass sich bei intensiver Mediennutzung aufgrund verzerrter medialer Realitätsdarstellungen die Einstellungen der Nutzer zur gesellschaftlichen Wirklichkeit verändern. Befunde zu den Auswirkungen medialer Gewaltdarstellungen auf soziale Urteile und Angst werden von Gerbner (1981) berichtet; in weiteren Arbeiten wurden Kultivierungseffekte auf Geschlechterrollen, Altersstereotypen, Raum, Zeit- und Personenschemata (vgl. Winterhoff-Spurk, 1989) sowie kognitive Fertigkeiten (Salomon, 1976) postuliert und gefunden. (ii) Bis auf wenige Ausnahmen (Naturfilme und Lehrsendungen) wird für alle Fernsehsendungen vermutet, dass sie eine mehr oder weniger starke erregende Wirkung auf die Rezipienten ausüben (Zillmann, 1991). So können gewalthaltige Filme und insbesondere Horrorfilme bei den Zuschauern das Empfinden von Angst hervorrufen (vgl. Tamborini, 1991), was durch die Generalisierung real bedrohender Reize auf medial vermittelte Reize erklärt wird. Weitere untersuchte emotionale Wirkungen betreffen das Spannungserleben (engl.: suspense; vgl. Vorderer, 1994) und die Unterhaltung (Zillmann & Bryant, 1994). Die von Gewaltdarstellungen, aber auch von Sport oder Erotik ausgelöste Erregung beim Zuschauer wirkt der Erregungs-Transfer-Hypothese zufolge im Anschluss an die Filmrezeption unspezifisch nach (Zillmann, 1971) und kann zu einem späteren Zeitpunkt aggressive Handlungen des Zuschauers verstärken, ohne dass diesem ein Zusammenhang mit dem gesehenen Film bewusst ist. Die Vorstellung vom aktiven Zuschauer findet sich im Ansatz des Stimmungsmanagements wieder (Zillmann, 1988); hier wird davon ausgegangen, dass der Zuschauer sein Programm vor dem Hintergrund seines vorherrschenden und mit Blick auf den erwünschten Gefühlszustand auswählt. (iii) In der Medienforschung werden mit der Rezeption von Medienangeboten insbesondere folgende Verhaltensweisen in Verbindung gebracht: das prosoziale Verhalten, das aggressive Verhalten und das Kaufverhalten als Effekt der Werbung. Zur Überprüfung der zum Zusammenhang von Mediengewalt und Aggressivität vorgelegten Hypothesen (z. B. Katharsis-These, These des sozialen Lernens, Stimulations-These, Habituations-
These; vgl. Kunczik, 1993; Merten, 1999) liegen nach Schätzungen heute zwischen zweiund fünftausend empirische Studien vor (vgl. Friedrichsen & Jenzowsky, 1995); in der Übersicht deuten die Befunde auf aggressionsfördernde Wirkungen von Mediengewalt hin, die allerdings von der Ausprägung weiterer Faktoren (unsichere Persönlichkeit, latente Gewaltbereitschaft, unstabile soziale Verhältnisse) abhängen.
5.
Psycholinguistische Untersuchungen zu Hörfunk und Fernsehen
Die Massenmedien Hörfunk und Fernsehen gehören zu den Sprachmedien (WinterhoffSpurk, 1999: 18). Während im Hörfunk neben den (unterhaltenden) Musikbeiträgen (mit oder ohne Gesang) insbesondere die Informationsbeiträge (Nachrichten, Journale und Magazine, Berichterstattung) auf der Übertragung von Sprache aufbauen, kommt als Besonderheit im Fernsehen hinzu, dass die Sprecher/innen (und damit ihre Mimik und Gestik) sichtbar sind und dass (zumeist akustische) Sprachinformationen häufig durch Bildinformationen ergänzt werden (z. B. bei Filmberichten). Um so überraschender ist, dass in der gegenwärtigen medienwissenschaftlichen Forschung die Auseinandersetzung mit psycholinguistischen und sprachpsychologischen Fragestellungen nur eine nachgeordnete Rolle spielt (vgl. Herrmann, 1998). Im Folgenden wird mit der Darbietung und Verarbeitung von Hörfunk- und Fernsehnachrichten ein Bereich ausführlicher dargestellt, in dem vor etwa fünfzehn Jahren sprachliche Aspekte von Medienbotschaften intensiv erforscht wurden. Nach einer Betrachtung der sprachlichen Besonderheiten von Nachrichten folgt die Analyse des Zusammenspiels von Wort und Bild, von dem sich wiederum eine Linie zu aktuellen Untersuchungen zur Verarbeitung multimedialer Medienbotschaften zieht. (Dem gegenwärtig eher nachlässigen Gebrauch von „Multimedia“ zufolge wäre bereits das (multicodale) Fernsehen multimedial; vgl. Weidenmann, 1995.) Ein Blick auf das Internet bildet den Abschluss, das hier nicht als Medium zur Individualinformation und -kommunikation (vgl. den Beitrag von Jakobs in diesem Band, Kap. 62), sondern als computerbasiertes Massenkommunikationsmittel betrachtet wird.
858
6.
VII. Medien
Psycholinguistische Aspekte von Fernsehnachrichten
Für die öffentlich-rechtlichen Sendeanstalten regeln die Rundfunkgesetze den Auftrag zur Ausgewogenheit und Pluralität (Sicherung der Meinungsvielfalt), den kulturellen Auftrag sowie den Auftrag zur (Weiter-) Bildung der Bürger beizutragen. ARD und ZDF sind gehalten, in einem Vollprogramm neben Unterhaltung auch der Information und der Bildung dienende Programme sowie Beiträge zur Kultur, Kunst und Beratung zu bieten (Noelle-Neumann et al., 1989). (Bei den privaten Sendern ist die Meinungsvielfalt im Rundfunkstaatsvertrag in anderer Weise geregelt; einen Bildungsauftrag gibt es hier nicht.) In Übereinstimmung mit der bereits erwähnten stärkeren Informationsorientierung der öffentlich-rechtlichen Sender nahmen die Nachrichten als zentrale Informationssendungen bei den ARD im Jahr 1977 9,2 %, beim ZDF 7,6 %, bei RTL 6,9 %, bei SAT.1 dagegen nur 2,4 % und bei PRO SIEBEN nur 1,6 % der Sendezeit ein (Quelle: Media Perspektiven Basisdaten, 1998). Die bei der Darstellung der Forschungsgebiete erwähnte Wissenskluft-Hypothese beruht auf der Annahme, dass aufgrund individuell unterschiedlicher Verarbeitungskompetenzen der Informationswirkung von Hörfunk und Fernsehen Grenzen gesetzt sind. Beobachtungen zeigen in Übereinstimmung damit, dass etwa die Hälfte der Zuschauer die zentralen Teile der Meldungen in Fernsehnachrichten nicht verstehen und dass sich die Nachrichtenseher in Nachbefragungen nur an etwa ein Viertel der dargebotenen Informationen erinnern (Brosius, 1995). Dass sich Nachrichtenseher dennoch zumeist für gut informiert halten, ist eine Auswirkung der von Noelle-Neumann (1986) beschriebenen „Wissensillusion“ (vgl. auch WinterhoffSpurk, 1999: 88). Zur Erklärung des mangelnden Verstehens und Behaltens lassen sich Ansätze heranziehen, wonach Zuschauer die Nachrichteninhalte wegen ihrer Realitätsnähe nur oberflächlich verarbeiten und so keine tiefen Spuren im Gedächtnis entstehen können (Salomon, 1983, 1984; Weidenmann, 1989). Als weitere Ursache für die mäßigen Behaltenseffekte wird der komplexe sprachliche Darbietungsstil der Nachrichtenmeldungen gesehen (vgl. Straßner, 1982; Cohen, 1998). Die Sprache in den Nachrichten weist im Unterschied zur Umgangssprache eine Reihe
von Besonderheiten auf, die sie auf eine Ebene zu Fachsprachen stellen: (i) Es besteht eine Tendenz zur Verkürzung der Sätze. (ii) Es herrscht ein Nominalstil vor, bei dem Nomen dreimal häufiger auftreten als Verben. Zwar ist der Nominalstil auch für die Wissenschaftssprache charakteristisch, und ein Trend zur Nominalisierung kann sogar in der Umgangssprache beobachtet werden, jedoch ist die Tendenz zum Nominalstil in den Nachrichten am deutlichsten ausgeprägt. (iii) Der Zwang zur Neutralität zwingt Nachrichtentexter zur häufigen Verwendung von Konjunktiv-Formen. (iv) Auf den ersten Blick scheinen Nachrichten zwar eine einfache Oberflächenstruktur aufzuweisen, jedoch verbirgt sich dahinter eine bisweilen äußerst komplizierte Tiefenstruktur. (v) Häufig werden Passivformen und Impersonalia verwendet. (vi) Im Text findet sich ein hoher Anteil an drei- und mehrgliedrigen Substantiv-Gefügen (wie z. B. „Datenschutzbeauftragte“). (vii) Sätze stehen häufig unverbunden nebeneinander; Verbindungen und Übergänge fehlen. Zudem weisen die Meldungen eine komplizierte Referenzstruktur auf, bei dem der Bezug der Pronomen zu ihren Referenten nur schwer erkennbar ist. (viii) Häufig finden Fachausdrücke Verwendung. Die Verständlichkeitsforschung zeigt, dass viele der hier beschriebenen Eigenschaften der Nachrichtensprache einem tiefen Verstehen und soliden Behalten abträglich sind (vgl. Ballstaedt, Mandl, Schnotz & Tergan, 1981). In einer Studie variierte Straßner (1982) die syntaktische Komplexität der Meldungen. Inhalte mit einem hohem Komplexitätsgrad wurden schlechter reproduziert. In einer empirischen Studie zur syntaktischen und semantischen Gestaltung von Nachrichten prüften Eberspächter und Esche (1978) drei Hypothesen: (i) Ein einfacher Sprachstil ist für das Verstehen und Behalten von Nachrichten günstiger. Diese Hypothese wurde insbesondere für solche Meldungen bestätigt, bei denen komplexe syntaktische Konstruktionen mit einem eher abstrakten und erfahrungsfernen Inhalt zusammentrafen. (ii) Texte mit semantisch expliziten Relationen werden leichter verarbeitet als Texte mit semantisch impliziten Relationen. Diese Hypothese konnte bestätigt werden; fehlende Verbindungen zwischen den Sätzen regten dabei in besonderer Weise eine „kreative“ Interpretation des Textes durch die Zuschauer an. (iii) Dem Thema einer Meldung kann im Hinblick auf die Störfaktoren „syntaktische
63. Massenmedien: Rundfunk und Fernsehen
Komplexität“ und „semantische Implizitheit“ ein ausgleichender Effekt zukommen, da erfahrungsnahe Themen unter den störenden Einflüssen weniger leiden als erfahrungsferne. Allerdings scheint es zunächst nicht unproblematisch zu sein, allein die syntaktischen und semantischen Besonderheiten für die geringen Behaltensleistungen für Nachrichteninhalte verantwortlich zu machen, da die Nachrichtensprache der Umgangssprache gegenüber linguistisch komplexer ist und keinen narrativen Stil aufweist. Dem „Pyramidenstil“ zufolge beginnen Nachrichtenmeldungen mit einer einleitenden Schlagzeile oder einem „Lead-Satz“, gefolgt von der Quellenangabe und weiteren Informationen in abnehmender Wichtigkeit. Housel (1984) zeigt hierzu in einem Rezeptionsexperiment, dass sich das Verstehen durch die Wendung zu einem narrativen Stil nicht verbessern lässt, wohl aber durch die Beachtung von Hinweisen zur Reduktion der linguistischen Komplexität. Motamedi (1990) prüft im Rahmen der Analyse einer Nachrichtensendung für Kinder – der Sendung „Logo“ des ZDF ⫺, ob eine Berücksichtigung der allgemein genannten verständnisförderlichen Gestaltungsregeln auch bei Kindern das Verstehen und Behalten verbessern kann. Die Studie zeigt, dass im Wesentlichen drei Merkmale einen Einfluss auf das kindliche Verstehen haben: das Vorwissen (Weltwissen) der Kinder, ihr Interesse (ihre Neugier) und die Redundanz im Text. Tatsächlich kann bei Berücksichtigung dieser Faktoren die Behaltensleistung von 9bis 13-jährigen Schülern auf etwa 80 % der gezeigten Inhalte gesteigert werden. Zur Frage der Wirkung von Redundanz im Nachrichtentext liegt eine Reihe von Arbeiten vor (vgl. im Überblick Straßner, 1982). Findahl und Höijer (1975a, b) finden für alle Formen von Redundanz Verbesserungseffekte, und Bernhard und Coldevin (1985) zeigen, dass sowohl Untertitel als auch Zusammenfassungen die Behaltensleistung steigern (vgl. auch Perloff, Wartella & Becker, 1982; Son, Reese & Davie, 1987). Nicht nur die Redundanz, sondern auch die Anordnung der Informationen innerhalb der Meldungen beeinflusst die Informationsaufnahme: wenn die Reihenfolge der gesendeten Informationen entsprechend der Struktur von Geschichtengrammatiken gestaltet wird, lässt sich die Rezeption signifikant verbessern (Berry & Clifford, 1986). Die hier genannte Studie wurde
859 mit Radiohörern als Versuchspersonen durchgeführt; eine ausführliche Übersicht zum Einfluss sprachlicher Faktoren auf die Behaltensleistungen für Hörfunknachrichten wie journalistische Präsentationsformen, Wort- und Satzfaktoren, Text-Faktoren und prosodische Gestaltung gibt Kindel (1998). Auf die Tendenz der privaten Sender zu einem „Infotainment“-Stil, bei dem Informationen in möglichst unterhaltender Weise vermittelt werden, wurde bereits hingewiesen. Es ist zu vermuten, dass sich ein solcher Stil in seinen sprachlichen Eigenschaften von dem traditionellen Nachrichtenstil unterscheidet. In seiner Arbeit beobachtete Wittwen (1995) bei Infotainment-Sendungen eine Tendenz zur Abweichung vom gewöhnlichen Aussagesatz (hin zur häufigeren Verwendung von Imperativen und Frageformen) sowie eine häufigere Verwendung von expressiven Wortstellungen und von Doppelpunkt- bzw. Gedankenstrich-Konstruktionen. Ellipsen und kurzatmiger Satzbau waren verstärkt vorzufinden, ebenso die Verwendung metaphorischer Redensarten, rhetorischer Fragen (insbesondere in Alliterationen, Anspielungen und Oppositionen) und abgewandelter Buchund Filmtitel. Von der Standardsprache wird durch eine häufigere Verwendung von umgangssprachlichen Wörtern oder Superlativen sowie von affektiven Wörtern und Bindestrich-Komposita abgewichen. Die veränderte stilistische Gestaltung der Infotainment-Meldungen führt Wittwen (1995) darauf zurück, dass die Redakteure inzwischen den (Verständnis-) Schwierigkeiten von Rezipienten gegenüber sensibilisiert sind und vermehrt auf zuschauergerechte Formulierungen achten. Die Umformung der Quellen- zu Meldungstexten gelingt jedoch nicht immer; ein Grund für immer noch schwer zu verarbeitende Formulierungen in den Fernsehnachrichten ist in einer zu engen Anlehnung der Redakteure an die Agenturvorlagen zu sehen, die eigentlich für die Übernahme in die Presse vorgesehen sind („stilistisches Trägheitsprinzip“). Bei Fernsehnachrichten sind (sprachliche) Berichte über Geschehnisse häufig von (Film-) Bildern begleitet, in denen entweder redundante oder weitere (zusätzliche) Informationen vermittelt werden. Der Medienforscher B. Wember (1976) geht davon aus, dass die Verarbeitung und Speicherung von Nachrichten für die Zuschauer mit einer zunehmenden Diskrepanz zwischen Wort- und Filmbeitrag („Text-Bild-Schere“) erschwert wird (Winter-
860
VII. Medien
hoff-Spurk, 1986: 153 f.). Wenn Text und Bild aufeinander abgestimmt sind, werden 80 % der Inhalte, bei nicht korrespondierenden Inhalten dagegen nur 30 % behalten. Die Grenzen des Ansatzes zur Text-Bild-Schere zeigen sich jedoch in einer Untersuchung von Winterhoff-Spurk (1983): Die Behaltenswerte unterschieden sich bei einer ARD-Nachrichtensendung bei passendem und bei unpassendem Filmmaterial nicht voneinander, was durch eine dominante Stereotypisierung des Bildmaterials und die geringe Aufmerksamkeit der Versuchspersonen für die Bilder erklärt werden kann. Eine Reiz-Summierungs-Annahme spricht für eine förderliche Wirkung von (meldungsbegleitenden) Bildern auf die Behaltensleistung, die Annahme einer begrenzten Aufmerksamkeits- und Verarbeitungskapazität dagegen. Der Ansatz der dualen Verarbeitung von Text und Bild (Mayer, 1997) erklärt nicht nur die besseren Behaltensleistungen bei der parallelen Kodierung in Wort und Bild (zur Redundanz von Nachrichten vgl. auch Brosius, 1995), sondern macht auch die besonderen Anforderungen an die zeitliche Abstimmung von Text- und Bildinformationen deutlich. Neben den Nachrichten wurden auch andere Programmarten in Hörfunk und Fernsehen auf ihre sprachlichen Besonderheiten hin erforscht. Beispielsweise untersuchten Strauß und Möller (1996) mit einer Analyse aller Sendungen von ARD und ZDF zu den Leichtathletikmeisterschaften 1991 in Tokio die Attribution von Leistungen nach dem Attributionsschema von Weiner (1974). Die Autoren konnten einen „self serving bias“ nachweisen, wonach (westdeutsche) Kommentatoren selbst dann noch zwischen west- und ostdeutschen Athleten differenzierten, als diese bereits eine Mannschaft bildeten. Misserfolge ostdeutscher Athleten wurden als durch zeitlich instabile Faktoren verursacht angesehen (z. B. durch mangelnde Anstrengung oder Pech), während für Misserfolge westdeutscher Athleten vermehrt stabile Attributionen genannt wurden (mangelnde Fähigkeit, Schwierigkeit der Aufgabe). Untersuchungen zu den Besonderheiten der Sprache in der Werbung liegen beispielsweise von Dietrich und Peter (1996) und von KroeberRiehl und Meyer-Hentschel (1982) vor.
die unterschiedlichen Ausformungen der Kultivierungshypothesen verwiesen, deren Gemeinsamkeiten durch McLuhans (1962, 1965) Schlussfolgerung „the medium is the message“ charakterisiert werden können. Aufgrund der Besonderheiten der sprachlichen „Modelle“ in den Medien wird ein Einfluss auf den (kindlichen) Spracherwerb vermutet; so äußert Selnow (1990) die Befürchtung, dass die einfache Sprache in den Massenmedien bei intensiver Zuwendung zu den Medien zu einer „Verflachung“ der Denkund Sprachfähigkeiten führt. (Die hier hervorgehobene Einfachheit der Sprache steht in offensichtlichem Gegensatz zu den zuvor beschriebenen komplexen semantischen und syntaktischen Strukturen in Nachrichtenmeldungen. Insofern bezieht sich Selnow (1990) eher auf die Sprachverwendung in Infotainment- oder Unterhaltungssendungen als in „klassischen“ Nachrichtensendungen insbesondere der öffentlich-rechtlichen Sender.) Zumindest vorläufig noch spekulativer Natur sind vergleichbare Überlegungen, wie sie für vernetzte und multimediale Computer als Massenmedien (neben Hörfunk und Fernsehen) formuliert werden; Weingarten (1997) spricht in diesem Zusammenhang von einem „Sprachwandel durch Computer“. Dabei formuliert Schmitz (1997) zu dem medienbedingt veränderten Umgang mit Text die Erwartung, dass die Schrift ihre Vorrangstellung verlieren und in medialen Umgebungen nicht mehr linear, sondern „flächig“ zu lesen sein wird. Computer vermehren die Flut von Bildern, die den Text kaum mehr unterstützen („erhellen“). Nach allem wird die Schrift also den Bildern näherkommen, und die Texte werden kürzer, unselbstständiger, fragmentarischer und flüchtiger werden. Vielleicht deutet sich hier aber bereits eine Gegenbewegung an: Während die von Lahr (1996) beobachtete nachlassende Zuwendung zu den Printmedien den Autor zu der pessimistischen Einschätzung führt, dass im Zeitalter von Multimedia mit dem Lesen eine Schlüsselqualifikation verloren geht, empfiehlt Schmitz (1997: 147) eine neue Kommunikationsweise mit „widerständige[m] Lesen, Selbstdisziplinierung zur Langsamkeit und Pflege alter Medien“.
7.
8.
Ausblick
Bei der Darstellung der aktuellen Theorien und Gebiete der Forschung zu den Massenmedien Hörfunk und Fernsehen wurde auf
Literatur
Ballstaedt, S.-P., Mandl, H., Schnotz, W. & Tergan, S. O. (1981). Texte verstehen, Texte gestalten. München: Urban & Schwarzenberg.
861
63. Massenmedien: Rundfunk und Fernsehen Bernard, R. M. & Coldevin, G. O. (1985). Effects of recap strategies on television news recall and retention. Journal of Broadcasting and Electronic Media, 29, 407⫺419.
Höflich, J. (1996). Technisch vermittelte Individualkommunikation. Grundlagen, organisatorische Kommunikation, Konstitution „elektronischer Gemeinschaften“. Opladen: Westdeutscher Verlag.
Berry, C. & Clifford, B. R. (1986). Learning from television news. Effects of presentation and knowledge on comprehension and memory. IBA Report, North East London Polytechnic.
Housel, T. J. (1984). Understanding and recall of TV news. Journalism Quarterly, 61, 505⫺518.
Brosius, H. B. (1994). Agenda-Setting nach einem Vierteljahrhundert Forschung: Methodischer und theoretischer Stillstand? Publizistik, 39, 269⫺288. Brosius, H. B. (1995). Alltagsrationalität in der Nachrichtenrezeption. Opladen: Westdeutscher Verlag. Bruns, Th. & Marcinkowski, F. (1996). Konvergenz Revisited: Neue Befunde zu einer älteren Diskussion. Rundfunk und Fernsehen, 44, 461⫺478.
Hugger, K. U. & Wegener, C. (1995). Infotainment: Chancen und Risiken eines TV-Trends. In J. Lauffer & J. Volkmer (Hrsg.), Kommunikative Kompetenz in einer sich ändernden Medienwelt (pp. 120⫺131). Opladen: Westdeutscher Verlag. Kindel, A. (1998). Erinnern von Radio-Nachrichten. Eine empirische Studie über die Selektionsleistungen der Hörer von Radio-Nachrichten. München: Reinhard Fischer.
Cohen, A. A. (1998). Between content and cognition: On the impossibility of television news. Communications, 23, 447⫺461.
Kroeber-Riel, W. & Meyer-Hentschel, G. (1982). Steuerung durch die Sprache. In W. KroeberRiel & G. Meyer-Hentschel (Hrsg.), Werbung – Steuerung des Konsumentenverhaltens (pp. 157⫺ 173). Würzburg: Physica.
Dietrich, R. & Peter, K. (1996). Zum Aufbau von argumentativen Texten am Beispiel Werbung. Linguistische Berichte, 161, 3⫺37.
Krüger, U. M. (1995). Trends im Informationsangebot des Fernsehens. Media Perspektiven, 2, 69⫺ 87.
Eberspächter, V. & Esche, A. (1978). Der Einfluss syntaktischer und semantischer Merkmale auf die Verarbeitung von Fernseh-Nachrichtentexten. Communications, 4, 182⫺200.
Krüger, U. M. (1996). Boulevardisierung der Information im Privatfernsehen. Media Perspektiven, 7, 362⫺374.
Findahl, O. & Höijer, B. (1975a). Man as receiver of information. An analysis of errors in the recollection of a news programme. Stockholm: Sverige Radio Department. Findahl, O. & Höijer, B. (1975b). Fragments of reality. An experiment with news and TV visuals. Stockholm: Sverige Radio Department. Friedrichsen, M. & Jenzowsky, S. (1995). Methoden und Methodologie: Ein Vergleich ausgewählter Studien der 90er Jahre zur Gewalt in den Medien. In M. Friedrichsen & G. Vowe (Hrsg.), Gewaltdarstellungen in den Medien. Theorien, Fakten und Analysen (pp. 292⫺330). Opladen: Westdeutscher Verlag. Früh, W., Kuhlmann, Ch. & Wirth, W. (1996). Unterhaltsame Information oder informative Unterhaltung? Publizistik, 41, 428⫺451. Gerbner, G. (1981). Die „angsterregende Welt“ des Vielsehers. Fernsehen und Bildung, 15, 16⫺42. Gerbner, G., Gross, L., Morgan, M. & Signorielli, N. (1986). Living with television: The dynamics of the cultivation process. In J. Bryant & D. Zillmann (Eds.), Perspectives on media effects (pp. 17⫺40). Hillsdale: Erlbaum. Herrmann, Th. (1998). Medienentwicklung – verliert die Sprachpsychologie ihr Objekt? Medienpsychologie, 10, 268⫺275.
Kunczik, M. (1993). Gewalt im Fernsehen. Media Perspektiven, 3, 98⫺107. Lahr, H. von der (1996). Lesen: Verlust einer Schlüsselqualifikation für die Informationsgesellschaft. Media Perspektiven, 1, 2⫺7. Lazarsfeld, P. F., Berelson, B. & Gaudet, H. (1944). The people’s choice. New York: Meredith. Mangold, R. (1998). The evening’s thrill – News for entertainment? A uses and effects-comparison of media violence. Siegener Periodicum zur Internationalen empirischen Literaturwissenschaft 17 (2), 163⫺ 184. Mayer, R. E. (1997). Multimedia learning: Are we asking the right questions? Educational Psychologist, 32, 1⫺19. McCombs, M. E. & Shaw, D. L. (1973). The agenda setting function of mass media. Public Opinion Quarterly, 36, 176⫺187. McLuhan, M. (1962). The Gutenberg-galaxy: The making of typographic man. Toronto: University of Toronto Press. McLuhan, M. (1965). Understanding media: The extension of man. New York: McGraw-Hill. Media Perspektiven. Basisdaten 1998. Merten, K. (1999). Gewalt durch Gewalt im Fernsehen? Opladen: Westdeutscher Verlag.
862 Motamedi, S. (1990). Fernsehnachrichten für Kinder – eine psycholinguistische Untersuchung. In W. Arnhold, A. Kegel, S. Schmid, R. Dahlmeier & W. Tischer (Hrsg.), Sprechwissenschaft & Psycholinguistik 4. Beiträge aus Forschung und Praxis (pp. 161⫺188). Opladen: Westdeutscher Verlag. Noelle-Neumann, E. (1986). Lesen in der Informationsgesellschaft (Gutenberg-Jahrbuch 61). Mainz: Gutenberg-Gesellschaft. Noelle-Neumann, E., Schulz, W. & Wilke, J. (Hrsg.) (1989). Fischer Lexikon Publizistik Massenkommunikation. Frankfurt: Fischer Taschenbuch Verlag. Palmgren, P. (1984). Der „Uses and Gratifications Approach“. Theoretische Perspektiven und praktische Relevanz. Rundfunk und Fernsehen, 32, 51⫺ 62. Perloff, R. M., Wartella, E. A. & Becker, L. B. (1982). Increasing learning from TV news. Journalism Quarterly, 59, 83⫺86. Rubin, A. M. (1994). Media uses and effects: A uses-and-gratifications perspective. In J. Bryant & D. Zillmann (Eds.), Media effects: Advances in theory and research (pp. 417⫺436). Hillsdale: Erlbaum. Salomon, G. (1976). Cognitive skill learning across cultures. Journal of Communication, 26, 138⫺145. Salomon, G. (1983). Television watching and mental effort: A social psychological view. In J. Bryant & D. R. Anderson (Eds.), Children’s understanding of television. Research on attention and understanding (pp. 181⫺198). New York: Academic Press.
VII. Medien Straßner, E. (1982). Fernsehnachrichten. Eine Produktions-, Produkt- und Rezeptionsanalyse. Tübingen: Niemeyer. Strauß, B. & Möller, J. (1996). Sprache in der Sportberichterstattung: Leistungserklärungen von Sportjournalisten während der Fernsehlivekommentierung. Medienpsychologie, 8, 34⫺48. Tamborini, R. (1991). Responding to horror: Determinants of exposure and appeal. In J. Bryant & D. Zillmann (Eds.), Responding to the screen. Reception and reaction processes (pp. 305⫺328). Hillsdale: Erlbaum. Tichenor, P. J., Donohue, G. A. & Olien, C. N. (1970). Mass media flow and differential growth in knowledge. Public Opinion Quarterly, 34, 159⫺170. Vorderer, P. (1994). Was macht die Rezeption von Filmen spannend? Medienpsychologie, 5, 103⫺109. Weidenmann, B. (1995). Multimedia, Multicodierung und Multimodalität im Lernprozeß (Arbeiten zur Empirischen Pädagogik und Pädagogischen Psychologie, Bericht Nr. 33). München: Ludwig-Maximilians-Universität. Weidenmann, B. (1989). Der mentale Aufwand beim Fernsehen. In J. Groebel & P. WinterhoffSpurk (Hrsg.), Empirische Medienpsychologie (pp. 134⫺149). München: Psychologie Verlags Union. Weiner, B. (1974). Achievement motivation and attribution theory. Morristown: General Learning Press. Weingarten, R. (1997). Sprachwandel durch Computer. Opladen: Westdeutscher Verlag. Wember, B. (1976). Wie informiert das Fernsehen? München: List.
Salomon, G. (1984). Television is „easy“ and print is „tough“: The differential investment of mental effort in learning as a function of perceptions and attributions. Journal of Educational Psychology, 76, 647⫺658.
Winterhoff-Spurk, P. (1983). Fiktionen in der Fernsehnachrichtenforschung. Von der Text-BildSchere, der Überlegenheit des Fernsehens und vom ungestörten Zuschauer. Media Perspektiven, 10, 722⫺727.
Schmitz, U. (1997). Schriftliche Texte in multimedialen Kontexten. In R. Weingarten (Hrsg.), Sprachwandel durch Computer (pp. 131⫺158). Opladen: Westdeutscher Verlag.
Winterhoff-Spurk, P. (1986). Fernsehen. Psychologische Befunde zur Medienwirkung. Bern: Huber.
Selnow, G. W. (1990). The influence of television on language production: Rules, culture and Benjamin Whorf. Communications, 15, 163⫺170. Shannon, C. E. & Weaver, W. (1949). The mathematical theory of communication. Urbana: The University of Illinois Press. Son, J., Reese, S. D. & Davie, W. R. (1987). Effects of visual-verbal redundancy and recaps on the TV news learning. Journal of Broadcasting and Electronic Media, 31, 207⫺216.
Winterhoff-Spurk, P. (1989). Fernsehen und Weltwissen. Der Einfluß von Medien auf Zeit-, Raumund Personenschemata. Opladen: Westdeutscher Verlag. Winterhoff-Spurk, P. (1999). Medienpsychologie. Eine Einführung. Stuttgart: Kohlhammer. Wittwen, A. (1995). Infotainment – Fernsehnachrichten zwischen Information und Unterhaltung. Bern: Europäischer Verlag der Wissenschaften. Zillmann, D. (1971). Excitation transfer in communication-mediated aggressive behavior. Journal of Experimental Social Psychology, 7, 419⫺434.
64. Huge Virtual Reality Zillmann, D. (1988). Mood management through communication choices. American Psychologist, 31, 327⫺340. Zillmann, D. (1991). Television viewing and physiological arousal. In J. Bryant & D. Zillmann (Eds.), Responding to the screen (pp. 103⫺134). Hillsdale: Erlbaum.
863 Zillmann, D. & Bryant, J. (1994). Entertainment as media effect. In J. Bryant & D. Zillmann (Eds.), Media effects. Advances in theory and research (pp. 437⫺461). Hillsdale: Erlbaum.
Roland Mangold Universität Stuttgart (Deutschland)
64. Huge Virtual Reality 1. 2. 3. 4. 5. 6. 7.
History and issues Types of virtual environments VR devices VR modeling issues VR software VR applications References
1.
History and issues
A modern definition of the term “virtual reality” (in the following: VR) is offered by the Encyclopaedia Brittannica: “the use of computer modeling and simulation to enable a person to interact with an artificial three-dimensional visual or other sensory environment. VR applications immerse the user in a computer-generated environment that simulates reality throuth the use of interactive devices (goggles, headsets, gloves, body suits). The term VR is also applied to the branch of computer science concerned with the development of such systems”. The early roots of VR can be traced back at least into the sixties, when Boeing Corporation coined the term “computer graphics” and started initial work on display systems for aircraft pilots. In the sixties there were also the first demonstrations of graphically rendered objects that could be interactively grabbed, moved and resized with a light pen and a mouse device not much later. Other pioneering work in these years was the development of 3D raster graphics and shading algorithms, which later formed the basis for the VR graphics rendering systems that are in use nowadays. It was at about the same time that the Polish author Stanislav Lem wrote the novel Summa technologiae (Lem, 1981), in which he described a rather detailed image of computer-generated virtual reality which he called “Phantomatik”, while the modern
term “virtual reality” was coined only 25 years later by Jaron Lanier (1996), five years after William Gibson in his famous novel “Neuromancer” had invented the term “cyberspace” (Gibson, 1984). It required a major number of technological milestones to bring reality closer to the novelists’ far-sighted ideas about virtual reality. Among the major developments we may mention the invention of the microprocessor, the development of graphical user interfaces, the sustainment of Moore’s law of the doubling of computation speed every 18 months over a time span of now more than two decades, tremendous advances in input and output devices, such as high-resolution graphics displays, kinematic input devices and tracking technology, accompanied by the development of efficient rendering algorithms and their realisation in special purpose and high-performance graphics accelerators that allowed real time rendering of complex shapes, leading to the first precursors of fully immersive VR systems, such as the CAVE in the nineties. To create VR requires (i) to compute sufficiently rich “images” of various aspects of reality and (ii) to “display” these images with suitable VR devices. Moreover, to achieve the important element of “interaction”, there must also be (iii) sensing devices that allow to monitor reactions of the user in order to update the virtual scene appropriately. Ideally, this should not only happen at the lowest level of geometric movements of the user, but should also (iv) include the evaluation and interpretation of more complex user reactions, such as an interpretation of his or her movements combined with speech understanding in order to allow, e. g., conversations with virtual agents in the simulated world.
864
VII. Medien
To comply with these requirements poses difficult computational tasks from many domains, such as the rendering of the visual appearance of objects, auditory scene rendering, the animation of objects and agents, the tracking and interpretation of user movements, speech recognition and understanding and, ultimately, a large share from robotics and artificial intelligence to interpret user feedback at a high semantical level and to allow virtual agents to behave and react adequately in their virtual world. Therefore, VR is a multifaceted field, combining research efforts in graphical algorithms, simulation, computer architectures, computer vision, human-computer-interaction, sensor and display technology, artificial intelligence and even human cognition. In the following, we outline some of the major issues that can be solved to date, as well as tasks whose solution still requires research.
2.
Types of virtual environments
Our experience of reality is composed of many different contributions. In terms of information bandwidth, the most significant contributions seem to come from our visual, tactile and auditory senses. A further important source is our vestibular system. Although the total information bandwidth of the “interface” between our brain and the world is enormous (in the order of 10 Gigabytes per second via about 109 nerve fibers, each transmitting in the order of 10…100 bits per second), our cognitive system is usually focused only on a small part of its complex overall coupling with the external world. This makes it possible to create different types of virtual reality environments that focus only on a restricted subset of modalities. In view of the overwhelming importance of vision for human cognition, the most prominent type of virtual environment emphasizes the visual aspect (2.1). However, there are also examples of predominantly acoustic (2.2) or even haptic virtual environments (2.3). In all cases, a compelling experience requires that the user is not only a passive observer, but can also experience results of his or her own actions, such as body motions in the first place. Finally, a further distinguishing characteristic is whether several users can share a virtual environment (2.5).
2.1. Visual environments Visual virtual reality environments have some resemblance with computer-aided design systems (Kasik, 2000). Both share the goal of allowing the user to interact with 3dimensional objects, using a graphical view of the scene. However, while in a CAD-system the emphasis is mainly on geometric design and, therefore, an interactive editing of geometric object models, virtual reality systems put their primary emphasis on modeling the appearance and behavior of the objects. This may be useful for a CAD system also, but it becomes indispensable in application fields such as architecture, where the judgement of natural lighting conditions within a simulated building may be the primary purpose of the entire application. Therefore, the creation of virtual visual environments must devote particular attention to the simulation of the process of lighting, the use of surface textures, and often additional means to track the user in order to make the scene or parts of it move “naturally” in response to the user’s own body motion. Since the purpose is to create a compelling visual experience, results from the psychophysics of visual perception become important for the technical realization of visual environments (Bolas, 1994) as well. As a consequence, a major differentiating feature among visual environments is the way in which the interaction of the user with the virtual space is achieved. At the low end of the spectrum are ordinary display screens, which can just provide a narrow window into the scene. Their augmentation with shutter glasses allows at least to add the experience of depth perception, while a tracked moveable screen (“chameleon display”) allows to superimpose on the real, physical space a virtual space, of which arbitrary slices can be visualized (Buxton & Fitzmaurice, 1998). Panoramic or multi-wall projections (“Caves”, Cruz-Neira et al., 1993) can offer already a strong feeling of immersion, in particular when combined with a head tracker (Lantz, 1997). A similar effect can be achieved with head mounted displays (Buxton & Fitzmaurice, 1998). They offer the advantage that several users can move individually in a shared visual environment, and that the visual environment can be superimposed on the real scene. Disadvantages, as compared to Caves, are a lower pixel resolution and smaller view field.
64. Huge Virtual Reality
2.2. Aural environments Usually, auditory environments are used in conjunction with a visual environment, however, there are also important application domains where already the auditory component alone can be of significant utility. One example is the aural rendering of buildings (Rabenstein et al., 1997), e. g., to allow the judging of room acoustics, or to evaluate noise levels in offices or work cells, as well as the effectiveness of various noise reduction measures. Tasks like these require very high-quality acoustic rendering, which includes the modeling of acoustic sources, and the modeling of sound propagation in a virtual building. For sound frequencies above 1 kHz, one may neglect diffraction effects and use similar methods as for visual rendering (“geometric acoustics”) (Funkhouser et al., 1998). For lower frequencies, diffraction effects become important and computationally more expensive methods, based on the wave equation for sound propagation, must be applied (Takala & Hahn, 1992). If the aural environment plays only an auxiliary role, e. g., to augment a visual environment, simplified algorithms may suffice. Still, sound is usually tightly connected to spatially localized events, such as the hitting of one object against another. Therefore, realistic aural rendering algorithms must pay close attention to psychophysical factors that govern human sound localization (Middlebrooks & Green, 1991). 2.3. Haptic environments Our haptic sense comprises the use of our hands and the tactile sensibility of our skin to explore and manipulate objects. It allows us to make fine discriminations between object shapes, surface roughness, or material properties such as softness or thermal conductivity (Lederman & Klatzky, 1996). Many manual tasks, e. g. in medicine, industrial parts assembly, quality control of materials, or even art, could not be carried out without the haptic sense. Haptic environments attempt to provide some degree of haptic feedback to bring some of these tasks into the domain of virtual reality (Burdea, 1996). Unfortunately, our haptic sense is much less understood than vision (Lederman, 1991; Lederman & Klatzky, 1994), and haptic interfaces that can “display” contact forces with the spatio-temporal resolution of our skin are very difficult to realize since they re-
865 quire the control of a large number of degrees of freedom in a very small space. Therefore, current haptic environments are still very limited. One major use is in domains where the main interaction is already through some mechanical tool that has only a small number of degrees of freedom, such as a laparoscope or an endoscope in medical surgery (Meglan, 1996). By controlling these movements with some computer-controlled actuators, one can achieve a highly realistic haptic feedback for the special situation of tool use. Among the more general haptic displays a typical device is a moveable stylus with computer-controlled actuators that produce the forces that would occur from the contact of the stylus with a virtual object (Salisbury & Srinivasan, 1997). Despite obvious limitations, this approach allows already a significant range of applications, such as the exploration of “virtual tissue” with a needle, or the “feeling” of the relief of surfaces probed with a tunnel electron microscope at atomic dimensions (Taylor et al., 1993). Still more general are actuator-controlled exoskeletons that can provide proprioceptive feedback to finger motions. This already allows to add a significant amount of realism to the grasping of a virtual object. 2.4. Multimodal environments Most VR environments are multimodal and combine several of the above components. A major issue that arises then is the proper synchronization of the individual components. Even small temporal mismatches in the millisecond range between the registration, e. g., of head movements and the corresponding scene can lead to a significant impression of scene “swimming”. Larger shifts can cause severe misperceptions or even a feeling of motion sickness (Wu & Ouhyoung, 2000). Other issues are the substitutional use of one modality for another one, such as the use of auditory signals to convey tactile information, such as surface contact and roughness. 2.5. Distributed environments Since one of the major uses of VR environments is education and training, the possibility that a larger number of people can share the same virtual environment over a network constitutes a major attraction. This has led to the development of standards, such as the Virtual Reality Modeling Language (VRML) (Stone, 1999) that allows interac-
866
VII. Medien
tion with VR models over web browsers. However, this only allows to distribute the viewing of a VR model. In the longer term, one also would wish to distribute the virtual objects themselves in a similar manner, e. g., each participant might have his part of the virtual world reside in his local computer. This goal has inspired research into frameworks for distributed virtual environments that permit real time synchronization of the states of many synchronously operating “subworlds” (Stytz, 1996). This work led to the development of communication schemes that support an intelligent synchronization between distributed objects (DIS, Pullen & Wood, 1995) as well as the run-time registry of new objects (NPSPL, Macedonia et al., 1994) in an intelligent way, while at the same time being scalable to many users without requiring an inordinate amount of network bandwidth. On the basis of these developments, the implementation of distributed VR environments is now becoming increasingly feasable (Singhal & Zyda, 1999).
3.
VR devices
VR hardware devices (Macintyre & Feiner, 1996) address the question of how to instantiate the computed features in a format that is suitable for our perceptual apparatus and, in the reverse direction, how to sense and measure our actions and reactions in order to provide the computational models with sufficient feedback information to compute action consequences that give us the impression that we can act in the virtual world. Consequently, a coarse classification of VR devices (Perry et al., 2000) is into output or display devices that render one or more aspects of a virtual scenario, and input devices for sensing one or more aspects of the users reactions. 3.1. Visual display devices The human eye contains about 108 receptors. They subserve a visual view field of roughly elliptical shape, extending about 200∞ horizontally and 130∞ vertically (Lantz, 1997). Most of our cognitive information is derived from a small central portion of only 2∞radius, in which most of the receptors congregate. While this fovea provides us with a very high spatial acuity and is the basis for our fine discrimination abilities for patterns and shapes, the periphery is particularly impor-
tant for our perception of motion. These performance characteristics provide the background against which current visual display devices can be measured. Color display screens with high resolution (1 Megapixel or more) have become affordable standard components and allow a naturalistic real-time rendering of very complex scenes. Their main limitation is their restricted size which can only provide the experience of a “window” into a virtual world, but not the impression of immersion. Digital projection devices can provide much larger projection areas, e. g. on walls or as through-projection on translucent surfaces. The Responsive Workbench (Krüger & Fröhlich, 1994) is a system that uses the latter technique to render an image from below on the horizontal surface of a work bench, a scenario that is much more suitable for many applications than a limited computer screen. Spatially immersive displays combine several digital projectors to create a panoramic ultrawide or even wrap-around view that creates the illusion of a walk-in immersive environment (Special issue on Large Wall Displays, 2000). At the same time, this technique allows to overcome the limited pixel size of current display systems. A typical example is the CAVE system (Cruz-Neira et al., 1992; CruzNeira et al., 1993) with three projection walls and the floor as a fourth projection screen. Each screen projection is of 2500 ⫻ 2000 pixel resolution and the entire projection chamber is 100 ⫻ 73 ⫻ 84 inches in size. An integrated 6D body tracker provides data about user motions for feedback to the rendering system. Shutter glasses allow to overcome the limitation of conventional display screens and digital projectors to two-dimensional images. This requires that the graphics system projects an alternating sequence of right and left eye views of a scene while the shutter glasses synchronously block out light passage through their left and right lens, respectively. This technique is, e. g., used in the above Responsive Workbench and CAVE systems to provide a stereoscopic full-color view of the scene, but the technique is sufficiently inexpensive to allow its wide-spread use also in conjunction with low-end systems based on conventional computer display screens. Head mounted displays attempt to achieve immersion with a less space consuming ap-
64. Huge Virtual Reality
proach. Typical systems consist of a headset with a pair of miniaturized CRT or LCD monitors, either arranged directly in front of the eyes or attached at the side of the head with the images suitably reflected into the line of sight. The separate image for each eye allows to realize a three-dimensional, stereoscopic view. Available commercial systems approach about 1M pixel resolution at view fields of up to 140 * 110 deg (Lantz, 1997). Current limitations mainly result from the conflicting goals of large view fields, high resolution and ultra-light, highly miniaturized cameras. Therefore, extremely high-end systems work with a pair of off-helmet display monitors and use a pair of fiber optic image guides to transmit the image to the helmet. Often, head mounted displays also have an integrated head tracker so that appropriate scene movements can be computed when the user turns his head. Retinal displays. Unlike conventional displays, which create the image on some screen or wall, retinal displays (Tidwell et al., 1995; Viirre et al., 1998) project the image directly onto the retina of the user’s eye. Attractive features of this technology is the achieveable, much higher brightness range and the ease of combined viewing with real images for augmented reality applications. Current systems use a laser scanning device for sequential projection of the image pixels. Retinal displays are a rather recent technology and the first commercial systems are still under development. 3.2. Haptic displays When it comes to the manipulation of objects, the perception of forces as well as the haptic sense of our skin for sensing not only contact but also to finely discriminate a rich repertoire of features, such as points, edges, surface reliefs, or the presence of a particular texture, play an essential role in most of our everyday tasks. Similar to the retina in the eye, our skin represents a large receptor array with regions of sharply increased receptor density, in particular at our lips and our finger tips, where our ability for tactile discrimination is particularly high. The analogy persists even in the brain, where initial processing stages in the somatosensory cortex are known to extract similar features as in the visual system, namely motion and edges of various orientations (Johnson et al., 1995).
867 Therefore, there is a strong need to render virtual objects not only in the visual and auditory domain, but also to create realistic tactile images of their surfaces. However, while computational algorithms for visual object rendering can focus on the creation of an image for a rather well-known retinal sensor array whose responses to light are well researched and are known to be limited to essentially three color channels, the situation for our haptic sense is much more complicated (Lederman, 1991). The superficially located Merkel cells react to light static touch with very fine spatial resolution; more deeply positioned Ruffini corpuscles react to moderate static touch with low spatial resolution, while the Meissner and the Pacinian corpuscles respond to different types of light dynamic touch at high and low spatial resolution, respectively. Hair follicles provide another contribution to our touch sensation, and further receptors provide us with a sensation of temperature. In addition, while the geometric shape of the retina is fixed and rather simple, the spatial arrangement of the tactile surfaces in our hands is much more complex and in steady motion when we manipulate an object (Lederman & Klatzky, 1996). Moreover, the tactile “image” that is provided by the above sensor types is known to be modulated in a so far largely unknown way by further proprioceptive senses that provide the brain with information about the tensions in our muscles and the positions of our joints (Chapman et al., 1996). As a result, there is currently neither a comprehensive theory of haptic rendering that could be compared with the state of the art in visual rendering, nor are there any haptic displays for the delivery of good haptic images of objects. Current “haptic displays” only allow the delivery of rather small “image patches” to, e. g., a single finger tip and allow, e. g., the perceptual synthesis of simple surface reliefs or textures (Ikei et al., 1997). Better supported is a more or less rapid global force feedback to one or several fingertips or joints, e. g., with exoskeletons or with lightweight and rapidly moveable robot devices (Salisbury & Srinivasan, 1997). Current approaches to haptic and force rendering are based on an accurate modeling of the contact process between, e. g., the finger tip and the touched surface (Fritz & Barner, 1996). Similar techniques as used in graphical rendering can be used to compute a precise 3D geometry model of the contact
868 situation between finger tip and object surface. Additional assumptions about object and finger tip elasticities and friction coefficients then allow to compute the resulting reaction force that must be delivered by the feedback device. A technique that is analogous to visual texture mapping allows to “coat” the object surfaces with various height profiles in order to achieve a sensation of texture. In contrast to graphical rendering, the necessary computations must be carried out much faster, since the “flicker frequency” of our haptic system is at least one order of magnitude higher than in the visual system. Perceptual experiments have revealed that even the current, very limited haptic feedback methods can add a significant amount of realism to the perception of an object that in some cases can outweigh the realism that is achieveable by a further perfection of the visual rendering channel. 3.3. Pointing devices 2D pointing devices. One of the oldest devices for 2D pointing is the light pen (Sutherland, 1963). Nowadays, it has largely been replaced by mouse or trackball pointers or graphics tablets, if higher accuracy is desired. These systems have become rather standard, so we only mention them briefly. Spatial pointing devices. The “space mouse” is the obvious generalization of the 2D mouse pointer to 3D. The 3D location is determined by evaluating the relative arrival times of ultrasonic pulses sent out from three transmitters positioned at the vertices of an equilateral triangle. The “space ball” is a tennis-ball sized sphere to which the user can apply translational and rotational forces. The ball is mounted elastically on a 6D forcetorque sensor that measures the forces. Their translational components can be used to specify object translations, while the rotational forces allow an intuitive commanding of object rotations (Labtec). Glove devices. Dextrous grasping and manipulation of virtual objects requires an accurate sensing of the shape of our hands. Glove devices (Sturman & Zeltzer, 1994) are one approach to capture the necessary data, but their design also offers the possibility to integrate – at least to some extent – force and tactile feedback. Sensors for the measuring of finger joint bending have employed special fiber optics, embedded along each finger and designed in a special way to change transmis-
VII. Medien
sion characteristics in proportion to their degree of flexion. Pressure exerted at the finger tips can be sensed with pressure sensitive conductive foils or with capacitors whose capacitance changes as a dielectric film between the conducting plates becomes squeezed. A partial feeling of object contact and even force can be conveyed through small inflatable gas cells embedded along the finger tips or distributed over the palm area. 3.4. Tracking devices Acoustic tracking devices. These exploit either the time-of-flight or the phase of ultrasonic sound waves in order to determine the position of a target point. The time-of-flight systems use an emitter that periodically sends brief sound pulses that are recorded at several receivers. From the measured delay times, the speed of sound and the geometrical arrangement of the receivers one can compute the 3D-position of the emitter. Phase based systems replace the time-of-flight measurement by a measurement of phase difference between sound waves. Since phase difference is linearly related to distance, evaluation of several measurements also allows to compute 3D location with regard to a number of reference transmitters. Since phase can be measured continously, this method has the advantage of faster reaction times as compared to time-of-flight based systems. Electromagnetic tracking devices. These systems are based on the measurement of the magnetic field produced by a magnetic field transmitter that is usually composed of three small concentric and mutually perpendicular electric coils. The generated field is picked up by three or more stationary (usually much larger) receiver coils which deliver three signals from which the position of the transmitter coil can be computed. If six suitably arranged receiver coils are used, it also becomes possible to also measure the 3D orientation of the transmitter. Among the more widely used representatives of this approach are the Polhemus (Polhemus) and Ascension systems (Ascension), which feature a low latency of only a few milliseconds and allow a position detection to an accuracy of about 1 cm in a workspace of several meters. One limitation of the method is its sensitivity to the presence of metal objects which deform the magnetic field and, thereby, can significantly reduce the achieveable accuracy. Visual tracking devices. Commercially used systems usually employ highly visible or even
64. Huge Virtual Reality
active (e. g., light emitting diodes) visual markers that are positioned at the body of the person to be tracked. The scene is then recorded with two or more video cameras and the systems use image processing techniques to identify and correlate corresponding marker (2D-) positions in the resulting images. From these data it is then possible to compute the 3D-motion of each marker point. In contrast to acoustic and electromagnetic systems, this method allows the simultaneous tracking of a large number of reference points. The occlusion problem can be handled by using a sufficiently large number of cameras from different viewing directions. Eyetracker devices. Tracking of the user’s gaze direction is a frequently useful task for which good commercial eyetracker systems are available (see also Chapter 10). Eyetracking in the context of a VR application usually requires that the head can be moved freely. This can be achieved with a headset with an attached 6D position sensor to track head movements. The headset also carries a small light emitting diode and a miniaturized video camera. The diode emits an infrared light beam towards the cornea of one eye and the video camera captures an image of the iris together with the infrared reflex spot. The relative position between both allows to compute the angular position of the gaze axis with respect to the head. By tracking both eyes with a pair of cameras one can also compute the depth to which the subject focuses. With this approach angular accuracies below 1∞ at measuring rates of 200 Hz and more are possible. Before use, the system must be calibrated with a number of test points; the method is also very sensitive to shifts of the head set relative to the skull while the system is used. Therefore, more recent systems try to avoid the headset entirely and attempt to determine the gaze direction directly from the image of a stationary camera that tracks the eye region with high resolution. Extension of this approach to general body tracking is a topic of current research. There are already a number of research prototypes that demonstrate the feasability of such approach (Wren et al., 1997). In the long term, these efforts are expected to replace most of the currently employed techniques that rely on attaching either markers or sensing devices to the user’s body. For a
869 general overview of design issues in spatial input, see, e. g., Gleicher (1999) and Hinckley (1994). 3.5. Force feedback Exoskeletons. A more accurate delivery of force feedback is possible through actuated linkages whose joints can be precisely controlled through miniaturized electric motors. Multifingered exoskeletons with more than 20 degrees of freedom have been constructed and combined with sensing gloves to support fine manipulation of virtual objects under precise force feedback. Despite the considerable complexity of such combined devices they still lack considerable abilities, such as a fine spatio-temporal haptic resolution at the finger tips to convey a realistic sense of touch. Larger exoskeletons can also be employed to provide force feedback to one or both arms or the legs. Stylus devices. The Phantom (Salisbury & Srinivasan, 1997; McNeely et al., 1999) is a device that provides computed force-feedback to a stylus. The stylus is the end part of a lightweight 6DOF miniature robot arm that can position and orient the stylus freely within a workspace. When the user touches the stylus, the device can control the movement and the reactive force of the stylus so as to generate the sensation of exploring the surface of a virtual object with one’s finger tip. Similarly, more specialized devices have been developed to simulate the forces that occur, e. g., when a medical instrument such as a laparoscope is used during an operation (Meglan, 1996). 3.6. Other modalities Even more in its infancy is the inclusion of our olfactory sense into VR. Although a major reason is the difficulty of building suitable “olfactory displays”, there are also major computational issues whose solution is not yet clear. The encoding of smell sensations in the nervous system is fundamentally different from both vision and touch and is known to use many thousands of different channels. Rather little is known on the interaction of these channels. Also, there seem to operate sophisticated temporal processing strategies to account for the particular way in which odours are transported in puffs of air. Still, there are some initial demonstrations that olfactory cues can be included in VR scenarios, see e. g. DigiScent (2000).
870
4.
VII. Medien
VR modeling issues
While the devices described in the previous section define the range within which we can display any computed data to our senses and sense back any reactions, the second main factor on the fidelity of a VR environment is given by the accuracy by which we are able to model the required aspects of reality that we wish to replace. Even simple VR scenarios give rise to the need of models at many different levels: we have to model the scene geometry at the lowest level, next, we have to care about lighting, textures and sound. Since reality is not static, we must also model the movement of objects and their interactions. Such interactions can already become very complex at the inanimate level (e. g., consider the case of a leaf falling into a pond), but when we wish to enrich the virtual world with “agents” able to act in an at least somewhat autonomous manner we may even have to model aspects of cognitive behavior. 4.1. Geometry Geometry deals with the most basic level, namely the representation of the geometrical shape of objects as a collection of suitable, simpler geometric primitives, the representation of their three-dimensional arrangement and, possibly, movement, within a scene, and, finally, the computation of the resulting twodimensional arrangement for any given viewing direction. Since typical VR applications easily require the processing of millions of geometric primitives, high efficiency of the employed algorithms and data structures is of particular concern. There are two main techniques to represent objects. The first technique describes an object as a collection of surface patches, which can be either planar polygons (usually triangles) organized into a mesh, or it uses curved surface patches (usually described in parametric fashion, e. g., using spline functions (NURBS, Piegl, 1991)). While computationally simpler, the first choice usually requires a large number of polygons to achieve a good approximation to curved surfaces. The second choice is mathematically more complex, but allows to describe curved surfaces in a much more compact way which can speed up processing and reduce memory and storage requirements. In both cases, many finely structured objects, such as trees, clouds, hair or the like are computationally very expensive to model.
For objects of this kind, the second technique is more suitable. It models an object as a fractal set (Mandelbrot, 1977; Peitgen & Saupe, 1988). A characterizing property of a fractal set is a recursive self-similarity, e. g., a branch of a tree looks like a miniature copy of an entire tree. Therefore, a fractal object can be generated by repeatedly applying the inverse self-similarity relationship to a small part (the “generator”) of the object. This allows a very compact representation of fractal-like objects as a collection of a (usually small) number of mappings plus some simple “generator” (Prusinkiewicsz & Lindenmayer, 1990; Barnsley, 1993). Further algorithms are needed to compute the two-dimensional view of a three-dimensional collection of object primitives for a given viewing direction. This employs a perspective projection in combination with techniques for determining when a nearer object primitive occludes a farther one. To manage this and other, similar, computations (such as the detection of collisions amongst moving objects) at a high rate, requires the use of optimized data structures which are a major subject of computer graphics and computational geometry (see, e. g. Foley et al., 1990; Hearn & Baker, 1997; Preparata & Shamos, 1985). If only hidden surface removal is desired, there are also hardware solutions (“zBuffering”) that operate at the level of the pixels in the final, rasterized computer display when the rendering stage has been finished. 4.2. Lighting While the display of the projected geometrical object shapes may be sufficient when only abstract object shapes are needed (as, e. g., in some CAD application), a more realistic rendering requires to render illuminated surfaces. Different approaches have been developed to model the appearance of illuminated surfaces (Foley et al., 1990; Hearn & Baker, 1997). The radiosity approach solves a linear system of equations that express for each surface the energy balance of backdiffused light and light received from all other surfaces. Light sources are treated as surfaces that “glow”. Ray tracing considers an inverted light path of a ray from the viewer position until the ray hits a light source. By multiplying the effects of all reflections of the ray along its path, one obtains the light intensity and spectral composition along the viewing direction given by the ray. Both methods can pro-
64. Huge Virtual Reality
duce highly photorealistic scenes, but at the expense of rather high computational costs. For real-time rendering, shading algorithms are more suitable since these are much faster, in particular since special graphics processors that perform the necessary computations in hardware have become widely available. They compute the appearance of a surface point as a function of the relative directions between the surface normal, the viewer direction and the directions of all light sources. The usual shading model uses a Lambertian law according to which the reflected light intensity is proportional to the cosine between the incident direction and the surface normal and add a “specular” component that is peaked in the vicinity of the reflection direction, plus a constant contribution with no directional dependence that simulates diffuse ambient light. Flat shading, Gouraud shading and Phong shading are increasingly sophisticated ways of using this lighting model to render the faces of polygonal surface meshes. Flat shading computes for each face only a single shading value. Gouraud shading does so for the polygon vertices and interpolates the resulting shading values across each face, which yields a smoother and more realistic shading. Finally, Phong shading interpolates the normal directions across each face and only then computes the shading values from the interpolated normals. The improvement over Gouraud shading is particularly signficant for specular reflections, since these are very sensitive to normal directions. 4.3. Texture Many surfaces have a fine structure that appears to the human eye as a texture. While physically the appearance of textures results from the same reflectance process as it has been modelled by the above techniques (however, with the inclusion of shadows), the use of these models for the computation of texture would be computationally much too expensive. Therefore, texture is usually rendered by the process of texture mapping. It consists of mapping a given planar image of the texture pattern onto the surfaces of the to-be-rendered objects, taking into account the additional effects of scaling and shading. With this technique, usually several differently scaled versions of a given texture pattern are precomputed in order to speed up the repeatedly required mapping process later on. Also, to make texture mapping reason-
871 ably fast for VR applications requires to support the necessary computations in the graphics rendering hardware. The combination of the above techniques can yield quite realistic scene images that are already very suitable for VR applications. However, for high demands on realism further aspects have to be included, such as transparency, diffuse and specular reflection and its influence on the lighting of other objects and others. For an extensive treatment, see Foley et al. (1990) or Hearn and Baker (1997). 4.4. Sound Sound is another important source of information. Usually, many events are accompanied by characteristic sounds that often allow us to recognize many features of the event even in the absence of a visual image. Examples include the noise of a door, the hitting of an object on the floor, the crackling of a fire and so on. Among the cues that can be provided by sound are spatial location, size and material properties of involved objects, strength of acting forces and temporal properties such as speed and duration. Conversely, the realistic rendering of sound (Takala & Hahn, 1992) can greatly contribute to the realism of a VR scenario and the degree of immersion that the user feels. Additionally, sound can serve as a partial substitute for feedback through other modalities, e. g., to indicate the touching of an object or the occurrence of friction when an object is moved. Simulation of such acoustic events first requires a model for the sound source. The simplest procedure is to use stored sound prototypes for particular types of events, e. g., the slamming of a door or noise of a car engine. A computationally more demanding but also more general technique uses the fact that the generation of sound is always caused by the vibration pattern of some “resonator”. This vibration pattern or sound spectrum can be computed from a model of the mass distribution of the resonator, its stiffness and the way it is excited, e. g., by a hit or a periodic motion. Moreover, such models can be simplified and many objects can be abstractly described by a number of harmonic oscillators with different frequencies and damping constants. In this way it becomes possible to synthesize a great number of natural sounds. This approach can even be used to model the vocal tract to synthesize the human voice.
872 However, since for voices we have a particularly high sensitivity to tiny “rendering errors” (a similar situation occurs for faces in the visual domain) this method may not yet be competitive for real-time speech synthesis where the concatenation of short (and suitably interpolated) segments of natural speech is a computationally simpler option. The next step is to model the propagation of the sound from the sound sources to the receiver. The underlying physical laws of this process are well understood and can be used to compute the sound pressure field for an arbitrary arrangement of sources in a given scene geometry (Rabenstein et al., 1997). However, this requires to solve a partial differential equation and the resulting computational effort turns out to grow with the fourth power of the sound frequency and the volume under consideration, restricting the feasability of the approach to very low frequencies. If the impulse response function of the scene is known, the sound pressure field at any given receiver point can be very rapidly computed by comparably fast convolutions with the sound sources. For a real scene, the impulse response function can be measured; for a virtual scene it can be precomputed with the methods of the previous section, allowing to bypass some of the problems of the high computational costs. For frequencies above about 1 kHz, diffraction effects for normal room sizes become small, and the propagation of sound can be described in analogy to optics (optical acoustics) when additionally the delays caused by the low propagation velocity of sound (as compared to light) are taken into account. This allows to use similar computational approaches as ray tracing and radiosity to allow a faster rendering sound pressure fields. Additional complications result from the characteristics of the human auditory system (Middlebrooks & Green, 1991). The human ears define two receiver points separated by some defined distance, and the auditory system is highly sensitive to tiny interaural time shifts and intensity differences. The presence of the head and the pinnae of the outer ear modifies the local sound field due to diffraction for low frequencies (below 1kHz) and shadowing for higher frequencies (above 1kHz). Therefore, the two ears receive sound pressure intensities that deviate from those that are obtained for a receiver pair in empty space. This deviation is responsible for our
VII. Medien
ability not only to judge the azimutal but also the vertical component of the direction of a sound source and is, therefore, an essential component for a realistic perception of spatial sound. Mathematically, the deviation can be described by a linear filter function, the head related transfer function, which must be applied as a final step to obtain the sound signals that are to be delivered to the ears. 4.5. Kinematics Motion is an important element of almost any realistic VR scene. As soon as objects move, one is confronted with many issues that occur in a similiar way also in robotics, such as the specification of trajectories, the control of articulated objects, motion planning and collision avoidance, and the impact of the laws of physics, such as inertial or frictional forces, on the time course of realistic object motions (Sturman, 1998). Conversely, advances in animation techniques that handle such factors in a realistic way can make useful contributions to the simulation of robots. Therefore, there are many strong crossconnections between VR and robotics research. The simplest type of motion occurs when the viewer moves through an otherwise static scene. Already this requires to specify a continuous trajectory, specifying at each time point the location (three position variables) and the orientation (three further directional variables) of the viewer. A frequent technique for this employs a number of “via points” through which the trajectory has to pass, using some interpolation scheme, such as spline functions, to interpolate intermediate positions. While this controls only the spatial shape of the trajectory, the velocity and the time course of the orientational movement can be specified by similar means. Besides the observer, it is also possible that light sources or solid objects move in the scene. Their motions can be computed in an analogous way, using time-varying geometric transformations. The necessary computations are referred to as kinematics; they only deal with the purely geometric constraints on a motion and do not include consideration of further important non-geometric constraints from physics, such as the effect of inertia or friction. Kinematics can become rather complex when it comes to the animation of articulated objects with multiple joints, such as a crane, or a virtual figure (Thalmann & Thalmann,
64. Huge Virtual Reality
1991). The configuration space of such objects is the set of joint positions that lead to allowed configurations (e. g., postures for a figure). However, the desired motions (e. g., the trajectory of the hand of a virtual actor) usually is described in the rectilinear cartesian space. This requires to compute the inverse kinematics transform, i. e., the transform that finds for given cartesian coordinates the corresponding configuration coordinates. While the mapping in the opposite direction, the forward kinematics, is always unique and can be computed in a straightforward and closed form, the inverse kinematics mapping is in many cases not available in closed form so that numerical approximation techniques, e. g. using interpolation techniques in conjunction with known postures, must be used (Wiley & Hahn, 1997). Moreover, in many situations the inverse mapping is many-to-one and additional constraints must be invoked to obtain a unique configuration space solution. Typically, even the static posture of a virtual figure requires the specification of a large number of parameters which then must be controlled over time to “animate” the figure. For instance, the MPEG-4 encoding standard includes provision for human body animation by providing a standardized “body object” which represents a human skeleton, using a total of 186 degrees of freedom. To coordinate such large numbers of parameters over time such that the virtual figure carries out a prescribed action is a difficult task. For human action sequences, suitable coordination patterns can be obtained from human motion sequences, using visionor exoskeleton-based motion capture techniques. After their recording, the obtained motion sequences can be edited or transformed in order to adapt them to a broader range of situational contexts (Gleicher, 1999). However, such techniques are not available for animating the flight manouvers of a dinosaur or a more general, non-terrestric virtual creature. A feasable, but highly laborintensive approach is then the interactive “sculpting” of realistic motion sequences by means of suitable software tools for interactive rendering and editing of motion sequences. The simplest approach requires to specify the parameter values for each keyframe (“keyframing”). To make this process feasable requires the use of interpolation techniques to reduce the number of key-
873 frames for which all details have to be specified. Procedural models (Bruderlin et al., 1994) allow to reduce the specification effort by providing methods to specify the desired movements by formulating suitable rules, e. g., in the form of scripts. A particularly important type of rules are geometric or physical constraints that may allow to generate many details of a movement sequence automatically from a rather high-level description. For instance, in most animations, it is important to automatically enforce for the allowable motions the constraint that no intersections of object volumes occur. This has led to the development of efficient algorithms for the rapid computation of the distance and of intersections between complex polygonal objects (Moore & Wilhelms, 1988). Algorithms borrowed from robotics (Paul, 1981) can then be used for the automatic planning of collision-free paths. One general type of approach is based on the idea to surround obstacles by a distance-dependent virtual force field. The force field is chosen in such a way that it acts increasingly repulsive when an object approaches the obstacle. In this way, trajectories can become automatically deflected away from the obstacle. 4.6. Physics While kinematics is only considered with purely geometrical constraints on trajectories, dynamics considers the additional effects that arise from the physical laws of motion. These laws determine, e. g., that a thrown ball must follow a parabolic trajectory whose shape is fully specified when the direction and magnitude of the throwing velocity are given. Realistic animation, therefore, must include dynamics into the modeling of object motions (Barzel, 1992). Even more difficult is the computation of contact forces that are essential to model the correct behavior when objects touch each other (Baraff, 1994). Physicsbased simulation techniques address these and further issues, such as effects of friction, elasticity or viscosity in the case of non-rigid objects. This makes the underlying simulation techniques very demanding, since the motions are usually governed by non-linear numerically “stiff” differential equations. However, the constraints from physics can also help to reduce the number of parameters that have to be controlled in order to produce a certain animation. This is of particular
874 importance, when deformable objects, such as clothes or liquids, come into play: while these admit in principle an infinite number of degrees of freedom for their motion, the laws of physics help to identify an often rather small set of basis motions (called eigen modes) from which other, more complicated motions can be composed in a principled way (Metaxas & Terzopoulos, 1992). 4.7. Interaction Graphics rendering and motion animation provide the computational basis for creating only a film-like VR experience. However, it already has been emphasized that an important element of virtual reality is the ability to interact with the displayed scene. This requires a steady feedback from user actions into the displayed scene. In order to feel “immersed” in a scene, the user should be able to interact with the scene and its objects in a manner that is as natural as possible. This does not only include an ability to control one’s viewing position within the scene but also encompasses the concept of “direct manipulation” of virtual objects by picking them up, moving them and putting them down in some other place. Ideally, such interaction is not only limited to the visual modality, but also includes auditory or even haptic feedback. These requirements change the nature of a VR system from an open-loop (feed-forward) display system to a closed-loop (feed-back) control system. Since the user becomes an important part of the closed loop, there also arises the need to consider human factors, such as latencies (Wu & Ouhyoung, 2000) caused by reaction times, for the design of the control system. Perhaps even more importantly, since the reactions of the user have to be captured by suitable sensors, they will first be available only as sequence of raw and possibly noisy sensor signals. Except for the most simple reactions, such as the choice of a button or the operation of a joystick, whose semantics is already encoded in a “machinefriendly” format, the overwhelming majority of user reactions happens at a semantical level that is rather remote from the level of the raw signals that most sensors can deliver. To then extract the intended semantics from the sensor data presents an enormous computational challenge and is in many cases still a research topic. Since the major part of our natural interaction with our surroundings is based on
VII. Medien
motions of our body, in particular our legs, arms and hands, the sensor-based tracking of their motions is of fundamental importance for any advanced form of VR. Under suitably restricted conditions, some devices, such as electromagnetic sensors can directly provide a stream of 3d position or even 6d orientation data of a particular body part, such as a hand. However, even the measurements from such systems require additional postprocessing to adaptively compensate, e. g., for the presence of ferromagnetic materials that distort the geometry of the magnetic field that forms the basis of the measurement principle of these systems. A more ambitious and ergonomic approach obviates the need for attaching special sensing devices to the human body by using a vision-based approach for tracking (Wren et al., 1997). However, this approach inevitably involves the highly nontrivial computer vision problem of tracking human postures in video images. To date, robust solutions to this problem require still the aid of special visual markers attached to the body in order to make the segmentation and recognition tasks manageable. One may expect that such constraints can gradually be relaxed as computer vision algorithms for body tracking mature. However, this may still take some time for more complex situations, such as a vision-based identification and tracking of the manipulation sequences for general objects with the human hand. Even when auxiliary devices, such as data gloves, are used to facilitate the tracking of hand posture, the interpretation of the functional significance of the associated gesture sequence for the handling of the object is a complex research issue. As a consequence, current “direct manipulation” techniques are still restricted to only partially natural pick-and-place operations, usually controlled by either a three- or sixdimensional position tracking device, or, in more advanced systems, additionally supported by evaluation of finger posture data from a data glove to specify the orientational fine motion of the objects. 4.8. Behavior and cognition Behavioral and cognitive modeling are at the highest levels of the modeling hierarchy. Here the goal is to endow a virtual agent even with some degree of autonomy to enable it to react to new situations in a meaningful or even intelligent-seeming way (Badler et al., 1997). Such autonomy is, e. g., a prerequisite for the
64. Huge Virtual Reality
realization of “autonomous actors” that can be “instructed” with very high-level commands that are formulated at the task level and from which the autonomous actor has to generate the required low-level trajectories autonomously (Thalmann & Thalmann, 1987). Autonomy is also important when a virtual agent shall be able to react to realtime user input that cannot be known in advance, or to cooperate with “avatars” whose motions are directly controlled by a human user through suitable input devices. The realization of autonomous behavior is a long-standing and central goal of robotics (Maes, 1990). While the difficulty of the task has so far prevented its solution, there are now sufficiently mature techniques that can be applied when the task domains are sufficiently restricted. Examples include algorithms for obstacle avoidance, autonomous path planning and even planning of simple assembly tasks. One advantage of virtual agents over real world robots is that the former usually can be provided with “perfect” sensor data, or even with explicit representations of important aspects of their environment (such as the shape and locations of surrounding objects), which allows to bypass a major source of difficulty thats impedes the realization of autonomy for real world robots. The use of sensors to shape motion is the central topic of control theory and engineering (Jacobs, 1993). The synthesis of suitable sensori-motor controllers (Zeltzer, 1982) is, therefore, an important technique for creating many types of autonomous behaviors, such as target following, forming flocks or herds (Reynolds, 1987), keeping balance or avoiding obstacles. In most cases (e. g., walking or swimming), the control actions involved try to imitate the characteristics of biological sensori-motor systems (Tu & Terzopoulos, 1994). Therefore, classical approaches from control theory have been complemented by more recent, biologically inspired approaches (Ritter et al., 2000), such as neural networks (Narendra & Parthasarathy, 1990) and genetic algorithms (Sims, 1994). These approaches can generate good controllers from training examples or given quality functions, even when the dynamics of the system to be controlled is highly non-linear or is not even known in mathematical terms (Davidor, 1991). Another advantage is that the resulting controllers are usually computationally much more efficient than classi-
875 cal approaches that may need to invoke timeconsuming physics-based simulation (Grzesczuk et al., 1998). Controllers that directly connect sensors with motor actions can implement already a wide range of interesting and very useful “basis behaviors” (Braitenberg, 1984), in particular, when several sensors and actors are combined into a sensor-actor network. However, the resulting behaviors are only “reflexive”, i. e., they depend only on a very small temporal context and require additional, higherlevel coordination in order to achieve more complex goals (Brooks, 1991). Usually, this is done in a hierarchical fashion. At the lowest level of the hierarchy, simple coordination mechanisms, such as competition or layered subsumption, can be used to build more complex behaviors. At the middle and higher levels, additional, more “deliberative” methods, e. g., decision making and planning on the basis of “world models” and “internal simulation” can be used. While these methods can benefit from better world models than would be available for a real robot, the coupling of a VR scenario with the real world will include many inputs that are not known in advance. So even here the predictive power of world models for planning is limited and the realization of complex autonomous behavior faces similar challenges as familiar from robotics. Finally, at the highest level, there is the need for communication. Currently feasible approaches are based on specialized authoring tools that facilitate the specification of behaviors by providing suitable, usually interactive interfaces (Perlin & Goldberg, 1996; Sannier et al., 1999). Ultimately, however, the most convenient way of instructing a virtual actor is by language, possibly combined with gestures and demonstration by example. Obviously, the realization of such capabilities requires virtual actors to be endowed with very high-level cognitive abilities (Loyall, 1997), including speech understanding and production, an associative memory with a broad world knowledge, planning and understanding of actions, and the ability to express emotions (Bates, 1994). For a review of some recent work, see e. g., Cerezo et al. (1999). While initial approaches to implement narrow subsets of these capabilities are already under way (Funge et al., 1999), even the realization of synthetic actors with a moderate spectrum of cognitive abilities is an extremely large-scale technological challenge
876
VII. Medien
and cuts across numerous fields, including robotics, linguistics, human-machine-communication, neural networks and artificial intelligence, cognitive and brain sciences, biology, and many more.
5.
VR software
The computations for the rendering of a virtual scene, for evaluating available sensors, correlating their input with the displayed data in real-time and providing appropriate actuator commands to feedback devices such as exoskeletons constitute a task whose enormous complexity is reflected in the complexity of the software that is required for its solution. Important requirements are a good scalability with increased demands for more scene complexity or resolution, real-time capability to interface with feedback devices, and good modular extensibility. An important aspect for extensibility is the availability of widely used standards that support portability and interoperability of software components. Moreover, with the increasing importance of distributed applications connected over the Internet, the possibility of distributed VR across network connections will become increasingly important. A coarse classification of VR software is into (i) software libraries offering standardized algorithm or (software) object collections that provide generally useful building blocks to the programmer who wishes to develop a VR system that cannot be realized with an authoring tool. As indicated by the previous discussion, a larger topical division here are rendering libraries for computing the appearance of objects and simulation libraries for the computation of the object’s behavior. (ii) VR authoring systems to facilitate the creation of virtual worlds for various application areas. Unlike software libraries, authoring systems support an interactive construction process at a level of abstraction that is closer to the application domain. They can, therefore, be used without necessarily requiring highly specialized programming skills. (iii) Ready-to-use VR systems for specific applications, such as simulators in the automobile or aircraft industries, but also games or virtual studios, e. g., for the film industry. An intermediate between (ii) and (iii) are VR browsers for the display of a wider range of VR scenarios that are encoded in some platform-independent standard data format. The
emergence of such standardized data formats will also allow the development of generally useable libraries of virtual objects to facilitate the design of new VR scenarios. Generally, the developments on the software sector tend to occur on a rather short time scale. Therefore, we restrict the discussion to the few remarks made above and continue with a discussion of important application areas.
6.
VR applications
Virtual reality environments can be useful in many different fields (Göbel, 1996). VR technology can enrich more traditional CAD technology to provide virtual prototypes which cannot only be seen, but also interacted with. This can support the design process in various ways, e. g., in the evaluation of human factors or the performance of feasibility studies for maintenance procedures of complex technical systems. Another important application area is training and education. Further and obvious application areas are product advertizing, e. g., in virtual shops and entertainment. 6.1. Flight simulators VR systems are now routinely used to train aircraft pilots. A typical simulator, such as for a Boeing 747 airplane (Brooks, 1999), still uses a mechanical cockpit with real physical instruments, but simulates the visual environment on a spherical screen surrounding the front part of the cabin at a few meters distance. Additionally, the entire cabin is mounted on a hydraulically operated motion platform that can translate and gyrate within a range of several meters. A sound system simulates engine sound, wind sound, radios as well as tire noise when touching or moving on the ground. The environment can provide a highly realistic experience of flight situations, including emergency cases which could not be trained in a real airplane. Although expensive, the simulator costs only a tiny fraction of the airplane that it simulates. 6.2. Car simulators Car simulators are now in use for several aspects of automobile design. One system is based on a high-resolution head-mounted display supported by a boom mechanism that actively follows the user’s head motion (Brooks, 1999). The user sits in a real car
877
64. Huge Virtual Reality
seat, with a mocked-up instrument control panel and a real steering-wheel. Magnetic trackers allow to monitor the location and orientation of the user’s hands. The visual appearance of the interior of the car as well as the view through the windows is rendered with a high-end graphics computer. Typical questions investigated with the system are issues of interior design, or ergonomic factors, such as the arrangement of driver controls or the evaluation of different factors on visibility, such as body size or windshield wiper design. 6.3. Medical applications Medicine is another promising area for VR applications. Modern VR techniques allow to navigate through 3D views of inner organs, bones and vessels obtained from 3D body scanners (Gross, 1998). Interactive 3D simulations of the body anatomy can support the planning of complicated or higly delicate surgery, such as brain, bone or corneal surgery (Sourin et al., 2000). Augmented reality systems permit to view the patient overlaid with 3D data sets derived from body scanners, thereby simulating pseudo X-ray vision (Viirre et al., 1998). Recently available haptic devices let students or surgeons practice on virtual body tissue (Meglan, 1996). Other applications employ VR to treat psychic disorders, e. g. by exposing patients to virtual situations tailored to allow them gradually to lose anxieties and phobias (Lear, 1997). 6.4. Architecture Immersive VR systems are extremely wellsuited to provide a walk-through experience of virtual buildings (Brooks & Frederick, 1986). Aspects such as the distribution of light or room acoustics that are difficult to judge from plans or CAD models can be realistically experienced in a VR simulation (Rabenstein et al., 1997; Funkhouser et al., 1998). On a larger scale, the same techniques can be used for city planning. 6.5. Science Science offers many opportunities for VR applications (van Dam et al., 2000). In geology VR can be used to explore large geological data sets (Lin et al., 2000), e. g., to support the discovery of oil or other geological resources. In mathematics VR allows to explore and experience mathematical structures that could not be built in real space. VR techniques can be used to simulate physical
“mock-ups” of laboratory structures that would otherwise be expensive and time-consuming to build (Balaguer & de Gennaro, 1996). Simulations in physics or chemistry allow to navigate through subatomic structures. Haptic VR devices have been used to allow the tactile exploration of molecular surfaces (Taylor et al., 1993). In archeology, VR techniques have been developed and used for the virtual recovery of relicts (Zheng & Zhang, 1999) and their exhibition in virtual museums. 6.6. Education VR can enhance many aspects of teaching and education. One important cognitive factor is that memory retention is greater when educational material is not only viewed passively, but can be explored interactively. VR can, for instance, be used to generate experiences with natural laws that would otherwise not be obtainable (Loftin, 1996). Examples include relativistic effects during space travel, exploration of magnetic or electric field lines, or travel through molecular structures. Virtual experiments can replace or prepare real laboratory experiments that otherwise would be too expensive or dangerous to carry out. When visiting historic sites, augmented virtual reality can be used to superimpose reconstructions of buildings or ancient scenes. Similar techniques can be used to create virtual museums (Sherman, 1997). 6.7. Entertainment Numerous other application opportunities, many of them obvious, are offered in the entertainment sector. Fun parks, such as Disneyworld, make increasing use of VR technologies to create various special experiences, such as space travel, for their visitors. Interactive games with varying degrees of immersion will be a major driving force for the development of low-cost VR devices for the mass market. The film industry is another strong driving force for the development of high-end VR technology, e. g., to create virtual characters with highly natural animation and credible emotions.
7.
References
Ascension Technology Corporation, P.O. Box 527, Burlington, VT 05402, USA. (\tt http://www.ascen sion-tech.com/index.htm) Badler, N. I., Reich, B. D. & Webber, B. L. (1997). Towards personalities for animated agents with re-
878 active and planning behaviors. In R. Trappl & P. Petta (Eds.), Creating personalities for synthetic actors (pp. 43⫺57). Berlin: Springer.
VII. Medien CAVE. In Proc. ACM Siggraph 93, Ann. Conf. Series, (pp. 135⫺142). New York: ACM Press.
Balaguer, J.-F. & de Gennaro, S. (1996). VENUS: A virtual reality project at CERN. Computer Graphics, 30 (4), 40⫺43.
Cruz-Neira, C., Sandin, D., DeFanti, T., Kenyon, R. & Hart, J. (1992). The CAVE: Audio-visual experience automatic virtual environment. Communications of the ACM, 35(6), 65⫺72.
Baraff, D. (1994). Fast contact force computation for nonpenetrating rigid bodies. Computer Graphics (SIGGRAPH 94 Proceedings).
Davidor, Y. (1991). Genetic algorithms and robotics: A heuristic strategy for optimisation. World Scientific Series in Robotics and Intelligent Systems.
Barnsley, M. & Hurd, L. P. (1993). Fractal image compression. Natick, MA.: A. K. Peters Ltd.
DigiScents Inc. (2000). iSmell device (at www.digiscents.com).
Barzel, R. (1992). Physically based modelling for computer graphics. San Diego, CA: Academic Press.
Foley, J. D., van Dam, A. & Feiner, S. K. (1990). Computer graphics: Principles and practice. Reading, MA: Addison Wesley.
Bates, J. (1994). The role of emotion in believable agents. Commun. ACM, 37, 112⫺125.
Fritz, J. P. & Barner, K. E. (1996). Stochastic models for haptic texture. In M. R. Stein (Ed.), Telemanipulator and telepresence technologies III, (Proc. SPIE), (pp. 34⫺44). Boston, MA.
Bolas, M. T. (1994). Human factors in the design of an immersive display. IEEE Computer Graphics and Applications, 14(1), 55⫺59. Braitenberg, V. (1984). Vehicles: Experiments in synthetic psychology. Cambridge, MA: MIT Press. Brooks, F. P. (1999). What’s real about virtual reality? IEEE Computer Graphics and Applications, special issue on Virtual Reality, 19(6), 16⫺27. Brooks, F. P. Jr. & Frederick, P. (1986). Walkthrough – A dynamic graphics system for simulating buildings. Proc. Siggraph Workshop on Interactive 3D Graphics, (pp. 9⫺22). Brooks, R. A. (1991). New approaches to Robotics. Science, 253, 1227⫺1232. Bruderlin, A., Teo, C. G. & Calvert, T. (1994). Procedural movement for articulated figure motion. Computer & Graphics, 18, 453⫺461. Burdea, G. (1996). Force and touch feedback for virtual reality. New York: John Wiley & Sons. Buxton, B. & Fitzmaurice, G. W. (1998). HMDs, Caves & chameleon: A human-centric analysis of interaction in virtual space. Computer Graphics, 32(4), 69⫺74. Cerezo, E., Pina, A. & Seron, F. J. (1999). Motion and behavior modelling: State of art and new trends. The Visual Computer, 15, 124⫺146. Chapman, C. E., Trembly, F. & Ageranioti-Belanger, S. A. (1996). Role of primary somatosensory cortex in active and passive touch. In A. M. Wing, P. Haggard & J. R. Flanagan (Eds.), Hand and brain (pp. 329⫺347). San Diego, CA.: Academic Press. Cruz-Neira, C., Sandin, D. J. & DeFanti, T. A. (1993). Surround-screen projection-based virtual reality: The design and implementation of the
Funge, J., Tu, X. & Terzopoulos, D. (1999). Cognitive modeling: Knowledge, reasoning and planning for intelligent characters. In SIGGRAPH 99 Computer Graphics Proceedings, Annual Conf. Series (pp. 29⫺38). Los Angeles, CA.: ACM. Funkhouser, Th., Carlbom, I., Elko, G., Pingali, G., Sondhi, M. & West, J. (1998). A beam tracing approach to acoustic modeling for interactive virtual environments. SIGGRAPH 98, Proceedings of the 25th Annual Conference on Computer Graphics, July 19⫺24 (pp. 21⫺32). Gibson, W. (1984). Neuromancer. Ace Books. Gleicher, M. (1999). Animation from observation: Motion capture and motion editing. Computer Graphics, 51⫺54. Göbel, M. (1996). Industrial applications of VEs. IEEE Computer Graphics and Applications, 16(1), 10⫺13. Gross, M. H. (1998). Computer graphics in medicine: From visualization to surgery simulation. Computer Graphics, 32(1), 53⫺56. Grzeszczuk, R., Terzopoulos, D. & Hinton, G. (1998). Neuroanimator: Fast neural network emulation and control of physics-based models. In Proc. ACM SIGGRAPH 98 Conference (pp. 9⫺20). Orlando, FL. Hearn, D. & Baker, P. (1997). Computer graphics. New Jersey: Prentice Hall. Hinckley K., Pausch R., Goble, J. & Kassel N. (1994). A survey of design issues in spatial input. Proc. of UIST 94, ACM 1994 (pp. 213⫺222). Ikei, Y., Wakamatsu, K. & Fukuda, S. (1997). Vibratory tactile display of image-based textures. IEEE Computer Graphics and Applications, 17(6), 53⫺61.
64. Huge Virtual Reality Jacobs, O. L. R. (1993). Introduction to control theory. Oxford: Oxford University Press. Johnson, K. O., Hsio, S. S. & Twombly, I. A. (1995). Neural mechanisms of tactile form recognition. In M. Gazzaniga (Ed.), The cognitive neurosciences (pp. 253⫺267). Cambridge: MIT Press. Kasik, D. J. (2000). Viewing the future of CAD. IEEE Computer Graphics and Applications, 20(1), 34⫺35. Krüger, W. & Fröhlich, B. (1994). The responsive workbench. IEEE Computer Graphics and Applications, 14, 12⫺15. Labtec. 3D Motion Control Technology Group, USA, 1499 SE Tech Center Place, Vancouver, WA 98683⫺9575 (http://www.labtex.com). Lanier (1996). A cyberspace Renaissance man reveals his current thoughts on the World Wide Web, virtual realilty and other silicon dreams. Scientific American interview. Interview by Mark Jones, September 1996. Lantz, E. (1997). Future directions in visual display systems. Computer Graphics, 31(2), 38⫺44. Lear, A. C. (1997). Virtual reality provides real therapy. IEEE Computer Graphics and Applications, 17(4), 17⫺20.
879 Macedonia, M. R., et al. (1994). NPSNet: A network software architecture for large-scale virtual environments. Presence: Teleoperators and Virtual Environments, 3(4), 265⫺287. Macintyre, B. & Feiner, S. (1996). Future multimedia user interfaces. Multimedia Systems, 4, 250⫺ 268. Magenat-Thalmann, N. & Thalmann, D. (1991). Computer animation: Theory and practice. Springer Verlag. Mandelbrot, B. B. (1977). The fractal geometry of nature. San Francisco: Freeman Press. McNeely, W. A., Puterbaugh, K. D. & Troy, J. J. (1999). Six degree-of-freedom haptic rendering using voxel sampling. SIGGRAPH99 Conf. Proc., (pp. 401⫺408). Meas, P. (1990). Designing autonomous agents. Special issue of Robotics and Autonomous Systems, 6. Meglan, D. (1996). Making surgical simulation real. Computer Graphics, 30(4), 37⫺39. Metaxas, D. & Terzepoulos, D. (1992). Dynamic deformation of solid primitives with constraints. Computer Graphics, 26, 309⫺312.
Lederman, S. J. (1991). Skin and touch. In R. Delbucco (Ed.), Encyclopedia of human biology (pp. 51⫺63). San Diego, CA: Academic Press.
Middlebrooks, J. C. & Green, D. M. (1991). Sound localization by human listeners. Annu. Rev. Psychol., 42, 135⫺159.
Lederman, S. J. & Klatzky, R. L. (1994). The intelligent hand: An experimental approach to human object recognition and implications for robotics and AI. AI Magazine, 15, 26⫺38.
Moore, M. & Wilhelms, J. (1988). Collision detection and response for computer animation. Computer Graphics (SIGGRAPH 88 Proceedings), 22, 289⫺298.
Lederman, S. J. & Klatzky, R. L. (1996). Manual exploratory movements for haptically processing objects and their features. In A. M. Wing, P. Haggard & J. R. Flanagan (Eds.), Hand and brain (pp. 431⫺446). San Diego, CA.: Academic Press.
Narendra, K. S. & Parthasarathy, K. (1990). Identification and control of dynamical systems using neural networks. IEEE Transactions on Neural Networks, 1, 4⫺27.
Lem (1981). Summa technologiae. Suhrkamp taschenbuch 678. Frankfurt: Suhrkamp Taschenbuch Verlag (Polnische Erstausgabe Krakau 1964). Lin, C. R., Nelson, H. R. & Loftin, R. B. (2000). Interaction with geoscience data in an immersive environment. In Proc. IEEE Virtual Reality 2000 (pp. 55⫺62). Los Alamitos, CA: IEEE Computer Society Press. Loftin, R. B. (1996). Aerospace applications of virtual environment technology. Computer Graphics, 30(4), 33⫺35. Loyall, A. B. (1997). Some requirements and approaches for natural language in a believable agent. In R. Trappl & P. Petta (Eds), Creating personalities for synthetic actors (pp. 113⫺119). Berlin: Springer.
Paul, R. P. (1981). Robot manipulators: Mathematics, programming and control. Cambridge, MA: MIT Press. Peitgen, H. O. & Saupe, D. (1988). The science of fractal images. Berlin: Springer. Pentland, A. (2000). Perceptual intelligence. Communications of the ACM, 43(3), 35⫺44. Perlin, K. & Goldberg, A. (1996). Improv: A system for scripting interactive actors in virtual worlds. SIGGRAPH 96 Proceedings (pp. 205⫺ 216). Perry, L. D. S., Smith, C. M. & Yang, St. (2000). An investigation of current virtual reality interfaces. (www.acm.org/crossroads/xrds3⫺3/vrhci.html). Piegl, L. (1991). On NURBS: A survey. IEEE Computer Graphics and Applications, 11(1), 55⫺71.
880 Polhemus Inc., 40 Hercules Drive, P.O.B. 560, Colchester, VT 05446, (http://www.polhemus.com/ home.htm).
VII. Medien Sturman, D. (1998). The state of computer animation. Computer Graphics, 32(1), 57-61.
Preparata, F. P. & Shamos, M. I. (1985). Computational geometry. New York: Springer.
Sturman, D. & Zeltzer, D. (1994). A survery of glove-based input. IEEE Computer Graphics and Applications, 14(1), 30⫺39.
Prusinkiewicsz, P. & Lindenmayer, A. (1990). The algorithmic beauty of plants. New York: Springer Verlag.
Stytz, M. R. (1996). Distributed virtual environments. IEEE Computer Graphics and Applications, 16(3), 19⫺31.
Pullen, J. M. & Wood, D. C. (1995). Networking technology and DIS. Proc. IEEE, 83(8), 1156⫺ 1167.
Sutherland, I. E. (1963). Sketchpad: A man-machine graphical communication system. AFIPS Spring Joint Computer Conference, 23, 329⫺346.
Rabenstein, R., Schips, O. & Stenge, A. (1997). Acoustic rendering of buildings. 5th Int. Conf. Building Simulation (pp. 8⫺10).
Takala, T. & Hahn, J. (1992). Sound rendering. Computer Graphics, 26(2), 211⫺219.
Reynolds, C. W. (1987). Flocks, herds and schools: A distributed behavioral model. Computer Graphics, 21, 25⫺34.
Taylor, R. M. II, Robinet, W., Chi, V. L., Brooks, F. P. Jr., Wright, W. V., Williams, R. St. & Snyder, E. J. (1993). The nanomanipulator: A virtual reality interface for a scanning tunneling microscope. SIGGRAPH93 Conf. Proceedings (pp. 127⫺133).
Ritter, H., Cruse, H. & Dean, J. (2000). Prerational intelligence: Adaptive behavior and intelligent systems without symbols and logic, 2. Dordrecht: Kluwer.
Thalmann, D. & Thalmann, M. (1987). The direction of synthetic actors in the film Rendez-vous a` Montreal. IEEE Comput. Graph. Appl., 7, 9⫺19.
Salisbury, J. K. & Srinivasan, M. A. (1997). Phantom-based haptic interaction with virtual objects. IEEE Computer Graphics and Applications, 17(5), 6⫺10.
Tidwell, M., Johnston, R. S., Melville, D. & Furness, T. A. (1995). The virtual retinal display – A retinal scanning imaging system. Proceedings Virtual Reality World 95 (pp. 325⫺333).
Sannier, G., Balcisoy, S., Magnenat-Thalmann, N. M. & Thalmann, D. (1999). VHD: A system for directing real-time virtual actors. Visual Computer, 15, 320⫺329.
Tu, X. & Terzopoulos, D. (1994). Artificial fishes: Physics, locomotion, perception, behavior. Proc. Siggraph 94 (pp. 43⫺50). New York: ACM Press.
Sherman, W. R. (1997). Experiences with virtual reality applications. SIGGRAPH 97 Computer Graphics Proceedings, Annual Conf. Series, (pp. 473⫺476). Sims, K. (1994). Evolving virtual creatures. Comp. Graphics Proc. SIGGRAPH 94, 15⫺22. Singhal, S. & Zyda, M. (1999). Networked virtual environments ⫺ Design and implementation. Reading, MA.: Addison Wesley. Sourin, A., Sourina, O. & Tet Sen, H. (2000). Virtual orthopedic surgery training. IEEE Computer Graphics and Applications, 20, 6⫺9. Los Alamitos CA.: IEEE Computer Society. Special issue on Large Wall Displays (2000). IEEE Computer Graphics and Applications, 20(4). Srinivasan, M. A. & Basdogan, C. (1997). Haptics in virtual environments: Taxonomy, research status and challenges computers and graphics. Special Issue on Haptic Displays in Virtual Environments, 21(4). Stone, M. (1999). IEEE computer graphics and applications. Special issue on VRML, 19(2). Los Alamitos, CA: IEEE Computer Society.
Urey, H., Nestorovic, N., Baldwin, N. & Gross, A. (1999). Optics design and system MTF for laser scanning displays. White paper of Microvision Inc. Available at http://www.mvis.com. van Dam, A., Forsberg, A. S., Laidlaw, D. H., LaViola, J. J. & Simpson, R. M. (2000). Immersive VR for scientific visualization: A progress report. IEEE Computer Graphics and Applications, 20, 26⫺52. Viirre, E., Pryor, H., Nagata, S. & Furness, T. A. (1998). The virtual retinal display: A new technology for virtual reality and augmented vision in medicine. In D. Stredney & S. J. Weghorst (Eds.), Proceedings of Medicine Meets Virtual Reality (pp. 252⫺257). San Diego, Amsterdam: IOS Press and Ohmsha. Wiley, D. J. & Hahn, J. K. (1997). Interpolation synthesis of articulated figure motion. IEEE Computer Graphics and Applications, 17(6), 39⫺45 Wren, C., Azarbayejani, A., Darrell, T. & Pentland, A. (1997). Pfinder: Real-time tracking of the human body. IEEE PAMI, 19, 780⫺785. Wu, J.-R. & Ouhyong, M. (2000). On latency compensation and its effects on head-motion trajecto-
881
65. Kommunikation aus der Sicht der Nachrichtentechnik ries in virtual environments. The Visual Computer, 16, 79⫺90. Zeltzer, D. (1982). Motor control techniques for figure animation. IEEE Computer Graphics Applications, 2, 53⫺59.
Zheng, J. Y. & Zhang, Z. L. (1999). Virtual recovery of excavated relics. IEEE Computer Graphics and Applications, 19(3), 6⫺11.
Helge Ritter Universität Bielefeld (Deutschland)
65. Kommunikation aus der Sicht der Nachrichtentechnik 1. 2. 3. 4. 5. 6.
Einführung: Nachrichtentechnik? Formen der technischen Kommunikation Sprache als Arbeitsfeld der Nachrichtentechnik Multimedia Ausblick Literatur
1.
Einführung: Nachrichtentechnik?
Der Begriff „Nachrichtentechnik“, der sich in den 1950er Jahren als Nachfolger der Begriffe „Schwachstromtechnik“ und „Fernmeldetechnik“ durchsetzte, gehört sicherlich heute nicht mehr zu den unmittelbar eingängigen. Seine Nachfolge hat mittlerweile der Terminus „Informationstechnik“ (englisch „Communications“) angetreten. Ein Nachrichtentechniker ist nicht etwa ein Mensch, der im Auftrag von Nachrichtendiensten tätig ist. Die Nachrichtentechnik ist die Wissenschaft, welche Methoden zur Erzeugung, Codierung, Speicherung, Übertragung und Verarbeitung von Signalen entwickelt. Dabei sind Signale die physikalische Repräsentation einer Nachricht oder – synonym ⫺ einer Information. Die Nachrichtentechnik ist ein Fachgebiet der Elektrotechnik und wird in einer moderneren Terminologie auch als Informationsoder Kommunikationstechnik bezeichnet. Man kann sicherlich zu Recht behaupten, dass ohne Nachrichtentechnik die heute bekannten technischen Kommunikationsformen nicht existierten. Anders als das benachbarte Fachgebiet der Informatik bearbeitet die Nachrichtentechnik auch die Felder der Übertragungs- und Speicherungstechnik, stellt auf diese Weise also erst die technischen Infrastrukturen bereit, über die dann Signale fließen können.
2.
Formen der technischen Kommunikation
Die Formen der technischen Kommunikation sind seit der Erfindung des Telefons in der Mitte des neunzehnten Jahrhunderts extrem
vielfältig geworden. Orientiert man sich ein wenig an der historischen Entwicklung (Aschoff, 1984), so müsste eine Auflistung dieser Formen und ihrer Schlüsselkomponenten aus der Sicht des privaten Nutzers etwa wie folgt aussehen: Telefonie (schon im 19ten Jahrhundert beginnend), Hörrundfunk, Magnetband, Fernsehrundfunk, Bildtelefonie, PC, CD/CD-ROM, Internet, E-Mail, Mobiltelefonie, Datenrundfunk, Digital Versatile Disk (DVD). Die Entwicklung neuer Formen ist aber noch längst nicht abgeschlossen. Das aktuelle generelle Entwicklungsziel der Nachrichtentechnik lässt sich dabei etwa wie folgt formulieren: Jedem Nutzer sollen an jedem Ort alle von ihm gewünschten Informationen in bestmöglicher technischer Qualität bei gleichzeitiger Berücksichtigung der wirtschaftlichen Möglichkeiten bereitgestellt werden. In dieser Zielsetzung erkennt man eine Besonderheit der Arbeiten auf dem Feld der Nachrichtentechnik. Neben der Optimierung der technischen Leistungsmerkmale ist stets die wirtschaftliche Dimension zu berücksichtigen. Ein praktisches Beispiel möge dies erläutern. Die Entwicklung der Mobiltelefonie begann mit den sogenannten Autotelefonen, welche groß und teuer und deshalb über Jahrzehnte auch nur in den Autos von wohlhabenden Nutzern zu finden waren. Das Ziel der Entwicklung von Mobiltelefonie auch für den Normalbürger, welches mit der Einführung des heute in ganz Europa und in weiten Teilen der Welt verbreiteten GSM-Systems (Global Standard for Mobile Communications) erreicht wurde, war es, über kleine „Handys“ Telefonie und Datendienste anbieten zu können. Bei der Entwicklung von GSM war absehbar, dass – falls die Zielsetzung erreicht werden würde – mit großen Nutzerzahlen zu rechnen sein würde. Nun basieren Mobiltelefone aber naturgemäß auf der Verwendung von Funkübertragung, welche unter Belegung von „Frequenzen“ funktio-
882 niert. Eine Frequenz ist Teil des Frequenzspektrums. Sie ist eine wertvolle begrenzte (auch volkswirtschaftlich bedeutsame) Ressource, denn sie kann an einem Ort oder in einer Region im Grundsatz immer nur einmal genutzt werden. In Anbetracht der Tatsache, dass ein Mobiltelefon also eine solche Frequenz nutzt, musste daher die für jedes einzelne Telefonat bereitgestellte Datenrate (gemessen in Bit pro Sekunde [Bit/s]) – und, daraus folgend, das für eine Telefonverbindung belegte Frequenzspektrum – so weit vermindert werden, dass die Sprachverständigung gerade noch akzeptabel bleibt. Die Qualität der Sprachverständigung wird hier in mehreren Dimensionen definiert. Unter anderem wird sie an der Silbenverständlichkeit, aber auch an der Verzögerungszeit zwischen Rede und Gegenrede gemessen, welche ein Mobilfunksystem aus technischen Gründen einfügt. Wäre dieses Ziel nicht angestrebt bzw. nicht erreicht worden, so gäbe es heute nicht den gewaltigen Erfolg der Mobiltelefonie auch in Deutschland. Man kann aus dem beschriebenen Beispiel eine grundsätzliche Regel aufstellen, die da lautet: Je natürlicher Töne und Bilder auf den Rezipienten wirken sollen, nachdem sie von A nach B übertragen worden sind, oder je natürlicher Sprache klingen soll, wenn man sie zum Beispiel aus einem Datenspeicher abruft, desto mehr Daten pro Zeiteinheit muss man dafür verwenden und desto teurer werden die Betriebskosten. Wäre Kommunikation völlig entpersonalisierbar, so würde die Nachrichtentechnik zur immer weiteren Verbesserung der Kosteneffizienz sogar darauf hin arbeiten, Töne und Bilder zum Beispiel bei einer Übertragung per Bildtelefon auf der Seite des einen Teilnehmers in vollständig abstrahierte Merkmalsgruppen zu zerlegen, um sie im Endgerät des anderen Teilnehmers völlig synthetisch aus diesen Merkmalen zu regenerieren. Praktisch könnte dies heißen, dass eine stets gleiche, angenehme und natürliche, je nach Gesprächspartner mal männliche, mal weibliche Stimme zu hören wäre, unabhängig davon, wer am anderen Ende der Leitung ist. Außerdem sähe man auf dem Bildschirm künstlich generierte Objekte bzw. Personenpuppen (sogenannte „virtuelle Menschen“ werden in der Fachterminologie als „Avatar“ bezeichnet), welche in ihren Bewegungen dem folgen, was beim anderen Teilnehmer vor der Kamera des Bildtelefons passiert. Vielleicht wären die Gesichtszüge des Avatars denen des lebenden Gesprächsteilnehmers nachge-
VII. Medien
bildet. Vielleicht stimmte sogar seine Kleidung in etwa mit der wirklichen überein. Kommunikation ist in vielen Anwendungen jedoch nicht ohne reale Menschen denkbar. Deshalb stellt das geschilderte Beispiel auch nicht das allgemeine Entwicklungsziel der Nachrichtentechnik dar. Dennoch werden Nutzer nachrichtentechnischer Systeme zunehmend mit Avataren und künstlicher Sprache konfrontiert werden. Immer dann nämlich, wenn zum Beispiel in multimedialen Anwendungen, bei denen den Wünschen des Nutzers adaptiv gefolgt werden soll, eine komplette Vorproduktion aller Möglichkeiten mit lebenden Schauspielern nicht möglich ist. Man denke an Interaktive Spiele oder an Fremdsprachen-Lehrprogramme, in denen zum Beispiel ein Avatar genutzt werden könnte, um einen vom Nutzer geschriebenen Text in einer anderen Sprache vorzulesen und dabei die korrekte Lippenformung zu demonstrieren. Ohne reale Menschen kommen natürlich auch zahllose Formen der Datenkommunikation aus, bei denen Sprache und natürliche Bilder keine Rolle spielen. Verfolgt man das Ziel, zukünftige Formen der technischen Kommunikation zu prognostizieren, so kann man mit großer Sicherheit voraussagen, dass die Bedeutung der sogenannten Digitalisierung weiter zunehmen wird und in wenigen Jahren alle Kommunikationssysteme digital arbeiten werden. Der Nutzer wird dies nicht direkt merken, außer vielleicht dadurch, dass er sich einen neuen Fernsehempfänger gekauft hat, an dem das Wort „Digital“ als Werbeaufkleber verwendet wurde. Die Digitalisierung hat allerdings zur Folge, dass in zukünftigen Kommunikationssystemen nicht mehr grundsätzlich getrennt zu werden braucht zwischen Bild, Ton und Daten. Schon heute werden zum Beispiel in einem Sendernetz für das Digitale Fernsehen, welches in Norddeutschland aufgebaut wird (Reimers, 1998), Fernsehprogramme, Hörfunkprogramme, Internetseiten und regionale Informationen in einem einzigen Kanal, genauer in einem digitalen Datenstrom übertragen. Eine weitere Entwicklung der technischen Kommunikationsformen ist die Bereitstellung immer differenzierterer Typen von Endgeräten. Während man noch in den 1970er Jahren in einem typischen Haushalt nur zwei oder drei Hörfunkempfänger, das Fernsehgerät im Wohnzimmer und das Telefon im Flur kannte, werden in einem Haushalt des Jahres 2005 die vielfältigsten Geräte stehen: Schnur-
65. Kommunikation aus der Sicht der Nachrichtentechnik
lose Telefone, PCs, Fernsehempfänger mit eingebautem Internetzugang und E-Mail, Personal Communicators etc.. Im Wohnzimmer wird es möglicherweise einen kleinen, als technisches Gerät kaum erkennbaren, Server geben, in dem ein Datenspeicher mit gewaltiger Kapazität steckt, der nicht nur als klassischer Anrufbeantworter funktioniert, sondern der auch Hörfunk- und Fernsehprogramme aufzeichnet sowie als lokaler Speicher für regelmäßig oder auch sporadisch aufgefrischte Internetangebote zur Verfügung steht. Es wird Taschengeräte geben, über die man nicht nur telefoniert, sondern die auch Fernseh- und Hörfunkprogramme zu nutzen gestatten, über die man E-Mails lesen und schreiben und – falls Faxgeräte dann überhaupt noch eine Rolle auf dem Markt spielen – auch Faxe versenden kann. Und natürlich bieten diese Taschengeräte Zugang zum Internet. Generell wird die individuelle und mobile Kommunikation immer bedeutender werden. Ob die beschriebenen Geräte tatsächlich notwendig sind, ist eine rhetorische Frage. Wäre vor zehn Jahren in einem Beitrag wie diesem vorhergesagt worden, dass im Jahr 2000 nahezu jeder erwachsene Deutsche unter 40 Jahren ein „Handy“ in der Tasche haben wird, hätte der Großteil der Leser nur milde gelächelt und sich die Frage gestellt, ob der normale Mensch denn wirklich zu jeder Zeit telefonisch erreichbar sein muss. Heute lächelt niemand mehr – das Handy ist nahezu überall und stets präsent.
3.
Sprache als Arbeitsfeld der Nachrichtentechnik
Betrachtet man speziell die Sprache als ein Arbeitsfeld der Nachrichtentechnik, so ist zu konstatieren, dass sich eine ganze Gruppe von Nachrichtentechnikern mit der Erkennung von Sprache, ihrer Verarbeitung, speziell ihrer Codierung und mit der Erzeugung möglichst natürlich klingender Sprache beschäftigt (Paulus, 1998). Hingegen spielen die früher einmal bedeutenden Disziplinen Sprachübertragung und Sprachspeicherung in der Forschung praktisch keine Rolle mehr. Im Zuge der Digitalisierung ist Sprache ein Signalinhalt eines digitalen Datenstromes unter vielen geworden, der sogar verhältnismäßig einfach zu speichern und zu übertragen ist, weil die benötigte Datenmenge bzw. die benötigte Datenmenge pro Zeiteinheit, die
883
Datenrate, insbesondere im Vergleich zu der von Bildsignalen, nicht besonders groß sind. Dies gilt selbst dann, wenn man Sprache als allgemeines Audiosignal betrachtet und dieses – wie bei der Speicherung auf einer CD – mit höchster Qualität digitalisiert. 3.1. Spracherkennung Auf dem Gebiet der Spracherkennung sind in den 1990er Jahren gewaltige Fortschritte gemacht worden. Diese sind nicht nur Fachleuten deutlich, sondern sind auch für den aufmerksamen Normalmenschen nicht zu übersehen. Nahezu jeder Anruf in einem sogenannten Call Center führt dazu, dass die Anruferin oder der Anrufer gefragt wird, zu welchem Thema Informationen benötigt werden. Diese Frage erfolgt im Regelfall nicht durch einen Menschen, sondern durch ein technisches System. Auch die Antwort wird von einem technischen System ausgewertet. Hierbei spielt die Spracherkennung eine sofort einsehbare Rolle. Für nur etwas mehr als 50 Euro kann man im PC-Handel Softwarepakete erwerben, die der Spracherkennung dienen. Die Software wird auf dem PC installiert und soll dann unter anderem die Texteingabe per Sprache ermöglichen. Dies geschieht nicht fehlerfrei, jedoch lässt sich die Spracherkennungssoftware so trainieren, dass sie bei Benutzung durch einen einzigen Sprecher für viele Anwendungsfelder, zum Beispiel für das Diktieren ärztlicher Diagnosen, die Eingabe von Warenlisten etc., ausreichende Leistung bietet. Das grundsätzliche Problem der Spracherkennung liegt darin, dass man von ihr idealerweise Fehlerfreiheit erwartet, auch wenn ständig wechselnde Sprecher mit unterschiedlichsten Dialekten Text beliebig großen Vokabularumfanges eingeben wollen. Dies kann die automatische Spracherkennung heute noch nicht leisten. Wenn Spracherkennungssysteme aber auf individuelle Sprecher trainiert werden und wenn sie in einer ruhigen, das heißt also störungsarmen, Umgebung eingesetzt werden, wenn der Nutzer sorgfältig artikuliert, Pausen zwischen Wörtern einfügt und wenn das Vokabular begrenzt ist, so lassen sich bereits hervorragende Ergebnisse, also eine für den jeweiligen Anwendungsfall ausreichend geringe Zahl von Fehlerkennungen, erzielen. In zahlreichen Büroanwendungen ist dies heute bereits der Fall. Nach Paulus (1998) müssen die Einsatzbedingungen für technische Systeme zur Spracherkennung innerhalb bestimmter und
884 im Allgemeinen sehr enger Grenzen gehalten werden. Solche Grenzen können z. B. ⫺ die Art und den Umfang des Wortschatzes, ⫺ die Anzahl der Sprecher, ⫺ die Sprechweise und die Sprechdisziplin, ⫺ die Position des Sprechers zum Mikrofon, ⫺ das Mikrofon, ⫺ die Übertragung des Sprachsignals und ⫺ die Umgebungsgeräusche betreffen. Oft sind als Wortschatz nur die zehn Ziffern und einige wenige zusätzliche Wörter zugelassen („ja“, „nein“, „weiter“, „zurück“….). Die fortschrittlichsten unter den heutigen Systemen erlauben aber einen Wortschatz von einigen zehntausend Wörtern. Bei derartig großen Vokabularen sind Spracherkennungssysteme meist fest auf einen bestimmten Sprecher trainiert oder allenfalls sprecheradaptiv. Nach Anwendungsfeldern gruppiert, lassen sich sehr grob drei Gruppen von Spracherkennungssystemen unterscheiden: ⫺ Systeme zur Steuerung von Geräten, ⫺ Diktiersysteme, ⫺ Auskunfts- und Assistenzsysteme. In die erste Gruppe fallen meist Systeme zur Einzelwort- oder Wortkettenerkennung. Sie ermöglichen zum Beispiel die Bedienung von Telefonapparaten, Autoradios, Operationsmikroskopen, Personal Computern etc. Diktiersysteme zeichnen sich vor allen Dingen durch einen großen Wortschatz aus und bewältigen neuerdings auch kontinuierlich gesprochene Sprache. In die dritte Gruppe fallen Spracherkennungssysteme, mit deren Hilfe gesprochene Anfragen und Kommandos an Datenbanken oder Expertensysteme gerichtet werden können. Spracherkennungssoftware ist anspruchsvoll bezüglich der benötigten Rechnerleistung. Nun erlebt auch die Öffentlichkeit mit, wie rasant die Rechnerleistung auch preiswerter PCs Jahr für Jahr zunimmt. Tendenziell werden daher die Erkennungsleistungen von Spracherkennungssoftware schon dadurch laufend besser, dass bei immer schnelleren PCs während der laufenden Spracheingabe immer mehr Operationen zur Texterkennung möglich werden. Der immer weiteren Verbesserung der Algorithmen der Spracherkennung widmet sich international eine große Zahl von Forschern aus den Fachrichtungen Nachrichtentechnik und Informatik. Zur Lösung von Aufgaben
VII. Medien
der Spracherkennung ist man dabei in den letzten Jahren zunehmend davon abgerückt, Vorstellungen über die Sprachgenerierung beim Menschen oder über seine Sprachwahrnehmung in technische Lösungen umzusetzen – die mit diesem Ansatz erreichbaren Ergebnisse sind nicht gut genug. Statt dessen wurden Konzepte entwickelt, die Sprache als Zufallsfolge zu interpretieren und die Klassifikation derartiger Zufallsfolgen durchzuführen. Der Begriff „Zufallsfolge“ mag hier irreführend wirken, da Sprache ja kein im klassischen Verständnis des Begriffes „zufälliger“ Prozess ist. Berücksichtigt man aber zum Beispiel die bedingten Wahrscheinlichkeiten des Überganges zwischen einer Silbe und ihrer Nachfolgerin, so ist die Sprache mit dem Instrumentarium der Statistik behandelbar. Überwiegend werden hierfür „VerdeckteMarkoff-Modelle“ (Hidden Markoff Models – HMM) verwendet, seltener die dynamische Zeitanpassung. Abgesehen von künstlichen neuronalen Netzen werden Ansätze zur Klassifikation von Zufallsvektoren kaum noch als Kernstück der Spracherkennung erwogen (Paulus, 1998). 3.2. Sprachcodierung Die Sprachcodierung dient im Allgemeinen dem Zweck, die zur Speicherung oder Übertragung benötigte Datenmenge zu minimieren. Wenn man für numerische Betrachtungen die Datenmenge als Referenz verwendet, welche bei einer CD Verwendung findet, so errechnet man diese zu etwa 1,4 Millionen Bits, welche während jeder Sekunde Spielzeit von der CD abgegeben werden. Hierbei ist das Bit (aus „BInary DigiT“) die Maßeinheit der Information. Ein Bit ermöglicht die Unterscheidung zweier Zustände. Da Information nachrichtentechnisch die Vermehrung des Wissens seines Rezipienten kennzeichnet und diese Vermehrung bereits mit zwei Zuständen (z. B. „Alarmglocke an“ / „Alarmglocke aus“) möglich ist, wird das Bit als Basiseinheit verwendet. Die Zahl der Bits, welche pro Sekunde übertragen werden, nennt man die Datenrate. Bei der CD ist diese also 1,4 Millionen Bit/s. Mit dieser Datenrate ist es möglich, allerbeste Tonqualität zu übertragen, wie jeder CD-Nutzer bestätigen wird. Setzt man hingegen das Handy, also ein GSM-Mobiltelefon ein, so erlebt man, dass auch mit einer Datenrate von nur wenigen tausend Bit/s (maximal 9.600 Bit/s) für das Verstehen ausreichende Sprachqualität reali-
65. Kommunikation aus der Sicht der Nachrichtentechnik
siert werden kann. Die Reduktion der Datenrate um den Faktor (1,4 Millionen / 9.600 ⫽) 146 ist das Ergebnis der Sprachcodierung. Die Sprachcodierung setzt üblicherweise nicht auf eine vorgeschaltete Spracherkennung. In Spracherkennungssystemen wird aus gesprochener Sprache ein Datensatz erzeugt, der dann zum Beispiel als Textdatei gespeichert und übertragen werden kann. In diesem Fall ist Sprachcodierung als eigenständige Maßnahme überflüssig, denn die Textdatei besitzt bereits viele Eigenschaften eines hochgradig in der Datenrate reduzierten Signals. Mit Standard-Software kann die Datenmenge für eine Textdatei weiter verringert werden („zippen“). Sprachcodierung wird dafür aber nicht benötigt. Bei der Sprachcodierung ist grundsätzlich zu entscheiden, ob wirklich nur die Sprache im Mittelpunkt der Betrachtung stehen soll oder ob die Sprache als ein Schallereignis unter vielen angesehen wird. Ist Letzteres der Fall, soll also auch zum Beispiel Musik mit codiert werden, so wird man hierfür Verfahren verwenden, die unter dem Namen „MPEG“ gehandelt werden. In der Öffentlichkeit vielleicht am bekanntesten geworden ist der Begriff „MP3“, der eigentlich heißen müsste „MPEG Layer 3“. Mit MP3 werden (Musik-) Dateien bezeichnet, welche zum Beispiel über das Internet übertragen, im lokalen PC gespeichert und dann mit einem sogenannten „MP3-Player“ abgespielt werden, welcher entweder als Software auf dem PC läuft oder auch als separates Gerät gekauft werden kann. Auf diese Weise stehen jedem Internet-Nutzer zu jeder Zeit und überall nahezu unbegrenzt viele Musiktitel zur Verfügung ⫺ legal oder illegal. MPEG ist die Abkürzung für die Moving Pictures Experts Group, einen Zusammenschluss von mehreren hundert Organisationen aus aller Welt, welche sich zum Ziel gesetzt haben, gemeinsam weltweit gültige Standards für die Bildund für die Toncodierung zu entwickeln (Reimers, 1997). Unter der Bezeichnung „MPEG Layer 2“ firmiert die Form des Standards für die Toncodierung, welche im digitalen Hör- und Fernsehrundfunk eingesetzt wird. Verringert man unter Verwendung von MPEG Layer 2 die Datenrate eines Audiosignals von den für die CD typischen 1,4 Millionen Bit/s auf 192.000 Bit/s (192 kbit/s), also etwa um den Faktor 7, so ist die resultierende Audioqualität noch immer so hervorragend, dass ein Unterschied zu der Originalqualität der CD höchstens noch von geübten Zuhö-
885
rern im direkten Qualitätsvergleich wahrnehmbar ist. MPEG Layer 3, also MP3, gestattet eine Reduktion der Datenrate sogar um etwa den Faktor 20 bei nicht ernsthaft störenden Qualitätseinbußen. Insbesondere bei Pop-Musik mit ihren speziellen Eigenheiten bezüglich der auftretenden Dynamik etc. bleiben Qualitätsunterschiede kaum hörbar. Beschränkt man den Einsatzbereich der Toncodierung von vornherein auf Sprache, so darf man das Frequenzband und den Dynamikbereich schon vor der Toncodierung nennenswert einschränken. Außerdem ist es möglich, auf die spezifischen statistischen Signaleigenschaften von digitalisierter Sprache zurückzugreifen. Eine ganze Familie von Codierverfahren steht zur Sprachcodierung zur Verfügung. Damit sind Datenraten von nur einigen kbit/s erreichbar ⫺ allerdings unter Inkaufnahme von hörbaren, möglichst jedoch nicht ernsthaft störenden, Beeinträchtigungen. Zu den möglichen Codierverfahren gehören Analyse-Synthese-Systeme. In Analyse-Synthese-Systemen dient die Analyse dazu, eine zumindest teilweise parametrische Darstellung des Sprachsignals zu liefern, die als Grundlage für die Rekonstruktion durch „parametergeführte Synthese“ verwendet wird (Paulus, 1998). Verwendet man als Analyse-Synthese-Systeme zum Beispiel die sogenannten Kanal-, Formant- oder Prädiktionsvocoder, so kann man damit gerade noch verstehbare Sprache schon mit etwa 1 kbit/s realisieren. Mit 4 kbit/s erreicht man gute Sprachqualität. Zum Einsatz kommen derartig niedrige Datenraten insbesondere dann, wenn Sprache über das Internet übertragen werden soll (Voice over IP). 3.3. Spracherzeugung Spracherzeugung findet bereits in den im vorhergehenden Abschnitt erwähnten AnalyseSynthese-Systemen statt. Hörbare Sprache entsteht dort aus den Parametersätzen, welche aus der Analyse gesprochener Sprache resultieren. Hier soll die Spracherzeugung jedoch anders verstanden werden. Sie soll beispielsweise aus Informationen, die als Text vorliegen, Sprache erzeugen. Praktische Anwendungen sind das Vorlesen von Telefonnummern bei der Telefonauskunft, die automatische Fahrplanauskunft oder auch die bereits als PC-Programm verfügbare Vorlesefunktion, durch die mittels einer „Maus“ am Bildschirm ausgewählte Textblöcke vorgelesen werden können. Die in den meisten Spracherzeugern zu Grunde liegenden techni-
886
VII. Medien
schen Systeme sind die „lautschriftgeführte Sprachsynthese“ und die „textgeführte Sprachsynthese“. Die lautschriftgeführte Sprachsynthese bildet meist keine für sich allein genommen vollständige Funktionseinheit, sondern ist im Allgemeinen nur ein Teil der textgeführten Synthese. Die textgeführte Synthese beinhaltet praktisch immer eine automatische Transkription des Textes von Rechtschrift, der Schrift also, welche wir aus geschriebenen Texten kennen, in Lautschrift, an die sich die lautschriftgeführte Synthese anschließt (Paulus, 1998). Das Inventar kleinster Einheiten, aus denen ein synthetisches Sprachsignal zusammengesetzt wird, ist je nach Wahl des Inventars und der Anforderung an die Mehrsprachigkeit der Spracherzeugung zu definieren. Wollte man zum Beispiel Silben benutzen, um deutsche Sprache zu synthetisieren, so benötigte man ein Silbeninventar mit mehreren tausend Einheiten. Eben wegen dieser großen Zahl werden Silben aber auch kaum verwendet. Weit verbreitet ist hingegen die Verwendung sogenannter Diphone. Vereinfacht ausgedrückt, umfasst ein Diphon einen Ausschnitt aus einer Folge von zwei Lauten, der von der „Mitte“ des ersten bis zur „Mitte“ des zweiten Lautes reicht. Der Umfang des Diphoninventars zur Erzeugung eines beliebigen Textes in einer Sprache liegt zwischen tausend und zweitausend. Die genaue Beschreibung der Techniken und der Leistungsmerkmale von Spracherkennungssystemen würde den Rahmen des Beitrages sprengen. Man kann aber zusammenfassend feststellen, dass der erreichte Stand als durchaus befriedigend bezeichnet werden kann. Verbesserungen sind insbesondere bei der Gestaltung von Silben- und Wortübergängen und bei der Nachbildung der prosodischen Elemente menschlicher Sprache wünschenswert.
4.
Multimedia
Mit dem bereits überstrapazierten Begriff Multimedia verbinden viele Menschen unterschiedlichste Begrifflichkeiten. Hier soll Multimedia so verstanden werden, dass es die Verbindung von sogenannten statischen Inhalten wie Text, Grafiken und Bildern mit dynamischen Inhalten, also Audio und Video, darstellt. Sprache ist dabei also nur ein Element unter vielen. Video in multimedialen Dokumenten können auch synthetisch gene-
rierte, animierte Objekte sein. „The eternal Marilyn“ war die Überschrift über einer Vortragsveranstaltung des Internationalen Fernsehsymposiums in Montreux im Jahr 1997. Mit diesem sehr plakativen Titel sollte klar gemacht werden, um was es in den Vorträgen gehen sollte – um die Gestaltung von Filmen und von Fernsehproduktionen unter Verwendung prominenter Schauspielerinnen und Schauspieler, welche – auch wenn sie bereits nicht mehr am Leben sind – auf der Basis archivierten Bild- und Tonmaterials reanimiert werden könnten. Moralische und rechtliche Aspekte dieser praktischen Umsetzung der durch die Technik prinzipiell bereitgestellten Möglichkeiten sollen hier nicht diskutiert werden. Betrachtet man die Zukunftsperspektiven von Multimedia vor dem Hintergrund der rapiden technischen und technologischen Entwicklungen, dann ist zu erwarten, dass Sprache mehr und mehr durch andere multimediale Inhalte ergänzt werden wird. Um dies zu belegen, soll an dieser Stelle die Entwicklung der Bildcodierung skizziert werden. Will man das in einem Fernsehstudio produzierte Farbfernsehbild hoher technischer Qualität übertragen, so benötigt man einen Übertragungsweg, der etwa 200 Millionen Bit pro Sekunde (200 Mbit/s) bewältigen kann. Ein solcher Übertragungsweg existiert aber nur im professionellen Umfeld. Die Kosten zur Anmietung eines solchen Übertragungsweges zum Beispiel bei der Deutschen Telekom AG sind sehr hoch. Mit den Methoden, welche ebenfalls die Moving Pictures Experts Group (MPEG) entwickelt hat, ist es möglich, die Datenrate auf zum Beispiel ein Fünfzigstel, also auf 4 Mbit/s zu reduzieren und dennoch dem Betrachter eine technische Bildqualität bereitzustellen, die nahezu keinerlei Einschränkungen gegenüber dem im Studio bereitgestellten Originalmaterial erkennen lässt. Hintergrund des hohen zulässigen Reduktionsfaktors ist unter anderem die Tatsache, dass natürliche Bilder so viel redundante, also im nachrichtentechnischen Sinne überflüssige, Information enthalten, dass bei geschickter Analyse des Bildes diese überflüssigen Teile erkannt und vor der Übertragung eliminiert werden können. Ein anschauliches Beispiel für diese Tatsache ist die „Fernsehuhr“, bei der sich über genau eine Sekunde nichts bewegt, bis dann der Sekundenzeiger umspringt. Innerhalb dieser Sekunde wird beim bisherigen Fernsehen das unveränderte
887
65. Kommunikation aus der Sicht der Nachrichtentechnik
Bild 25mal übertragen. Bei geschickter Bildcodierung aber nur einmal. Die Datenrate 4 Mbit/s ist nur noch etwa dreimal so hoch wie die Datenrate, die von einer Musik-CD abgespielt wird. Lässt man nun sogar noch eine Verschlechterung gegenüber der im Studio erzeugten technischen Bildqualität zu, so lassen sich Bilder auch bei weniger als 1 Mbit/s in eventuell gerade noch akzeptabler Qualität darstellen. Die Konsequenz derartiger Datenratenreduktion auf den Platzbedarf bei der Speicherung von Bildsignalen zum Beispiel auf der Festplatte eines PC liegen auf der Hand. Akzeptiert man die bei 1 Mbit/s mögliche Bildqualität, so kann man auf einer heute (2003) preiswerten Standard-Festplatte mit einer Speicherkapazität von 13 GByte ca. 30 Stunden Video speichern. Datenreduktion macht den PC damit zum vollwertigen Speichermedium für Bilder – eine noch vor fünf Jahren kaum für möglich gehaltene Entwicklung. Parallel zum Siegeszug der Datenreduktion entstehen Datenübertragungswege immer höherer Leistungsfähigkeit – auch hinein in die Privatwohnung (Reimers, 1999). Es kann damit gerechnet werden, dass etwa ab dem Jahr 2003 über die Kabelnetze, die bis dahin nur für das Fernsehen und den Hörfunk genutzt wurden, jedem Haushalt, der an das Kabel angeschlossen ist, die Möglichkeit zum Internetzugang angeboten werden wird. Anders als bei dem Internetzugang über die bisherigen Telefonnetze oder über das Integrated Services Digital Network (ISDN) stehen dem Haushalt dann aber nicht mehr nur maximal 64 kbit/s, sondern zum Beispiel 1000 kbit/s zur Verfügung. Unter Nutzung der Technik der sogenannten Asymmetrical Digital Subscriber Line (ADSL) werden vergleichbare Zugangs-Datenraten auch per Telefonnetz bereitgestellt werden können. Schließlich werden Funknetze in Gebäuden und Büros zu einer Vernetzung von Systemen mit hoher Datenrate bereit stehen. Vor dem Hintergrund aller dieser Entwicklungen schwindet die bisherige Vorrangstellung von Sprache aus der Welt der technischen Kommunikation. In Einsatzfeldern, in denen Sprache bisher deshalb eine besondere Rolle inne hatte, weil man an die Übertragung oder Speicherung von Bildern und Daten nicht zu denken wagte, wird jetzt fast alles möglich. Insbesondere werden Bilder nahezu überall auftauchen. Kommunikation aus der Sicht der Nachrichtentechnik wird daher multimedial.
5.
Ausblick
Auch in den kommenden Jahrzehnten wird die Nachrichtentechnik in Zusammenarbeit zum Beispiel mit der Informatik wesentliche Fortschritte auf dem Gebiet der technischen Kommunikation erzielen. Die folgenden Entwicklungen werden zu diesen Fortschritten maßgeblich beitragen: Auch weiterhin werden als Folge der immer noch ungebrochenen Tendenz zur Verdichtung der Integration elektronischer Bauelemente auf einem Chip („Moore’s Law“) die Leistung von Rechnern und ihrer Peripherie (Speicher etc.) zunehmen. Dadurch werden immer mehr Verarbeitungszyklen pro Zeiteinheit und das Bereitstellen immer größerer Informationsmengen möglich werden. Der Digitale Hörfunk und vor allen Dingen das Digitale Fernsehen werden dem Privatnutzer ungeheure Mengen von Audio-, Video- und Datenprogrammen bereitstellen. Für den privaten Nutzer werden schnelle Internet-Zugänge erschwinglich, die den Datentransport in Geschwindigkeiten erlauben, welche man bisher bestenfalls in Firmennetzen erleben konnte. Die nächste Generation von Mobilfunksystemen (Universal Mobile Telecommunications System – UMTS) wird zu neuen Formen von Handys führen, die auch die Bilddarstellung erlauben. Die Weiterentwicklung von Signalverarbeitungsalgorithmen sowie von Übertragungstechniken und nicht zuletzt die Optimierung von Softwarestrukturen und von Protokollen für die Datenkommunikation führen dazu, dass auf leistungsfähigeren Geräten um ein Vielfaches leistungsfähigere Prozesse ablaufen werden. In der technischen Kommunikation wird also auch weiterhin praktisch alles Denkbare auch möglich werden. Gleichzeitig lehrt die Erfahrung, dass die Gerätepreise und die Preise für technische Dienstleistungen – ganz im Gegensatz zum Beispiel zu den Preisen von Automobilen und den mit dem Personenverkehr zusammenhängenden Betriebskosten – nicht stetig steigen, sondern im Gegenteil die Tendenz haben, bei immer steigender Funktionalität konstant zu bleiben oder sogar zu fallen. Und was wird der normale Mensch von alldem haben? Sie oder er wird mit immer neuen Angeboten konfrontiert werden, die sie oder ihn immer wieder vor die Entscheidung stellen werden: kaufen oder nicht kaufen. Andererseits wird die Flut der neuen Möglichkeiten nicht dazu führen, dass einmal eingeführte technische Angebote durch die
888 Neuentwicklungen kurzfristig vom Markt verdrängt werden und damit zu immer neuen (unerwünschten) Investitionszwängen führen. Das hat die Vergangenheit gezeigt. So existiert das klassische Telefon noch immer, obwohl erst ISDN, dann die Mobiltelefonie als Ergänzung, vielleicht sogar als Ablösung bereit stehen. Das Faxgerät hat seinen Dienst nicht deshalb aufgegeben, weil per E-Mail Texte schneller und preiswerter verschickt werden können. Das Digitale Fernsehen ist längst eingeführt – dennoch funktioniert das bisherige Fernsehen weiter. Auf den Nutzer von Kommunikationstechnik kommen also neue Herausforderungen und neue Angebote zu. Nicht alles, was da kommt, ist ein Segen für jeden. Die kontinuierlich weiter perfektionierte kommunikationstechnische Infrastruktur wird zum Beispiel immer stärker das Problem der scheinbaren jederzeitigen Erreichbarkeit heraufbeschwören. Dennoch bleibt wohl auch in Zukunft bei allen Systemen der Kommunikationstechnik eines erhalten: der Knopf zum Ausschalten.
VII. Medien
6.
Literatur
Aschoff, V. (1984). Geschichte der Nachrichtentechnik. Berlin, Heidelberg, New York: Springer. Paulus, E. (1998). Sprachsignalverarbeitung: Analyse, Erkennung, Synthese. Heidelberg, Berlin: Spektrum Akademischer Verlag. Reimers, U. (Hrsg.) (1997). Digitale Fernsehtechnik: Datenkompression und Übertragung für DVB. Berlin, Heidelberg, New York: Springer Reimers, U. (1999). Zugangsnetze zum Internet. Fernseh- und Kinotechnik, 53 (6), 326 – 331. Reimers, U., Unruh, C. (1998). MultiMedia Mobil (M3) – ein neuartiger Systemansatz für die mobile Kommunikation. 18. Jahrestagung der Fernsehund Kinotechnischen Gesellschaft, Tagungsband (pp. 90⫺99).
Ulrich Reimers Technische Universität Braunschweig (Deutschland)
VIII. Perspektiven der Informationsgesellschaft/ Perspectives of an Information Society 66. Multimedia in der Informationsgesellschaft: Von Open Source zu Open Information 1. 2. 3. 4. 5.
Einleitung Auszeichnungssprachen im World Wide Web Das Open-Source-Modell in der SoftwareEntwicklung Open Information Literatur
1.
Einleitung
Nachdem das Internet bis zum Anfang der neunziger Jahre beinahe ausschließlich von wissenschaftlichen und militärischen Einrichtungen zum Informationsaustausch eingesetzt wurde, hat das intuitiv zugängliche, hypertextbasierte World Wide Web (vgl. Berners-Lee, 1999) eine neue Ära des weltumspannenden Computernetzwerks eingeleitet. Waren anfänglich nur vereinzelt Firmen mit Präsenzen im Internet vertreten, so ist es mittlerweile schon fast zu einer Selbstverständlichkeit geworden, dass auch etwa kleinere Handwerksbetriebe die Vorteile der digitalen Medien erkannt haben und mit Homepages im World Wide Web für ihre Dienstleistungen und Angebote werben. Neben den zahlreichen Firmen bewegen sich auch immer mehr Schulen – gefördert durch die Initiative „Schulen ans Netz“ des Bundesministeriums für Bildung und Forschung, gemeinnützige Organisationen, Vereine und Privatanwender im Internet. Die Initiative zur flächendeckenden Versorgung der bundesdeutschen Schulen und Weiterbildungsstätten mit InternetVerbindungen und zum Einsatz multimedialer Technologien in der Bildung ist eingebettet in das Aktionsprogramm „Innovation und Arbeitsplätze in der Informationsgesellschaft des 21. Jahrhunderts“ der Bundesregierung, dessen Ziel die Sicherung eines Spitzenplatzes in Europa im Bereich der Informations- und Kommunikationstechnologien ist. Das Aktionsprogramm soll u. a. gewährleisten, dass eine beschleunigte Nutzung und
Verbreitung dieser Technologien stattfindet, wobei die Nutzung in der Gesamtbevölkerung bis zum Jahr 2005 eine Zielmarke von 30 % erreicht haben soll, und dass innovative Arbeitsplätze geschaffen und gefördert werden (Bundesministerium für Bildung und Forschung, 1999). Eine vergleichbare Initiative exisitiert auch auf europäischer Ebene mit dem Aktionsplan „Europas Weg in die Informationsgesellschaft“ der europäischen Kommission. Der Ursprung dieses Aktionsplans ist ein im Jahr 1994 entstandener Bericht, den eine Gruppe um den damaligen EK-Kommissar Martin Bangemann erarbeitet hat, welcher gezielte Maßnahmen zur Förderung informationstechnologischer Infrastrukturen der Mitgliedsstaaten definiert. Dertouzos (1997: 19) fokussiert in diesem Zusammenhang die Frage der Terminologie: „[the] Bangemann Report […] is a plan for the Global Information Society, as the Europeans like to call the Information Marketplace“. Dertouzos favorisiert letzteren Begriff wegen seiner Ideologiefreiheit und aus einem Verständnis der Informationen als Güter heraus (vgl. Weizenbaum, 1997: 34, für eine weiterführende Kritik des Begriffs Informationsgesellschaft), wohingegen in den Vereinigten Staaten vom „Information Superhighway“ oder vom „Cyberspace“, in Japan von einer „National Information Infrastructure“ die Rede ist. Dertouzos kommt zu dem Schluss: „The sudden realization across the globe that the coming world of information will play a key role in people’s lives has caused different nations to put their own imprimatur on [this] new ‘thing’ […]. The race to coin a name that will prevail is yet another indication of just how big everyone expects the ‘thing’ to be.“ Dertouzos (1997: 20). Die in verschiedenen Nationen vorgeschlagenen Bezeichnungen für die „Sache“ meinen de facto das Internet – und hierbei sowohl die
890 technische Infrastruktur als auch Dienste wie die elektronische Post oder das World Wide Web und die auf ihm basierenden Angebote – und die Summe der durch den Einsatz eben dieser Dienste zu verzeichnenden und erwarteten Änderungen und Möglichkeiten (siehe hierzu etwa von Haaren & Hensche, 1997): im wirtschaftlichen, gesellschaftlichen und politischen Umfeld, in der Beschäftigungssituation, in der Aus- und Weiterbildung und in der privaten und geschäftlichen Kommunikation, um nur einige der involvierten Gebiete zu nennen; Grundlagen, Definitionen, Formate und psychologische Untersuchungen des Bereichs, der unter dem Schlagwort Multimedia fungiert, finden sich – die Literatur zu diesem diffusen Themenkomplex ist geradezu erdrückend – beispielsweise in Pfammatter (1998: 9⫺18), Nielsen (1996), Fluckiger (1996), Steinmetz (1999) und Hasebrook (1995). Der vorliegende Beitrag betrachtet einen Bereich des multimedialen Information Marketplace, der unserer Meinung nach von einer äußerst dynamischen Entwicklung geprägt sein wird und den Benutzern des World Wide Web völlig neue Möglichkeiten bei der Informationsrecherche geben wird, die vorwiegend über Suchmaschinen durchgeführt wird. Die momentane Situation im Gebrauch von Suchmaschinen ist vor allem geprägt von einer semantischen Unschärfe, die sowohl aus mangelnder Strukturierung der indexierten Dokumente als auch aus unzureichenden Methoden zur Informationsextraktion resultiert. Konkret bedeutet dies für den Benutzer, dass zu einem Suchbegriff meist viele hundert oder tausend potenziell relevante Dokumente von der Suchmaschine gemeldet werden, eine wirkliche Relevanz zum gegebenen Stichwort aber nicht zwangsläufig vorhanden ist, so dass der Benutzer in mühevoller Arbeit die Liste der Treffer auf ihren tatsächlichen Bezug zur Suchanfrage überprüfen muss. Dem erwähnten Mangel an Struktur in Web-Dokumenten wird in Zukunft durch den vermehrten Einsatz von XML (Extensible Markup Language, Bray et al., 1998) und der gleichzeitigen Aufgabe von HTML (Hypertext Markup Language, Raggett et al., 1997), das lediglich eine sehr grobe Auszeichnung textueller Elemente wie Überschriften, Tabellen oder Absätze zulässt, Einhalt geboten werden; jedoch birgt die neue strukturelle Vielfalt und Freiheit von XML auch Gefahren. Diese liegen unserer Ansicht nach zu einem großen Teil in der immer wiederkehren-
VIII. Perspektiven der Informationsgesellschaft
den Neuerfindung des Rades: Da XML eine freie Definition konkreter Auszeichnungssprachen wie etwa HTML gestattet, werden viele auf XML basierende Auszeichnungsschemata kreiert werden, die wiederum die suchmaschinenbasierte Recherche in Dokumenten, die unter Benutzung dieser Schemata annotiert wurden, unnötig erschweren, da eine Ausnutzung der Vorteile von XML in einem verteilten Netz wie dem Internet zu einem Großteil auf einer Standardisierung der Auszeichnungsverfahren basiert. Im Folgenden skizzieren wir eine Entwicklung, die unserer Ansicht nach dem XML-Babel entgegenwirken könnte. Hierbei geht es um ein seit etwa 20 Jahren erfolgreiches Paradigma in der Software-Entwicklung, das – nicht zuletzt aufgrund des Erfolges des freien Betriebssystems Linux – seit 1998 als Open-Source-Software-Entwicklung in aller Munde ist und der Erschaffung neuer, quasi-standardisierter XML-basierter Auszeichnungssprachen entscheidende Impulse geben wird. Das Resultat dieser Impulse bezeichnen wir als Open Information. Abschnitt 2 führt zunächst in die Thematik ein, indem der Status Quo der heute gegebenen Möglichkeiten zur Auszeichnung von Informationen im World Wide Web skizziert wird. Dabei betrachten wir neben XML auch neue, auf diesem Standard basierende Vorschläge zur expliziten Markierung von Metainformationen und zum Aufbau von Konzepthierarchien. Abschnitt 3 erläutert den Ursprung, die Motivationen und das aktuelle Verständnis des Begriffs Open Source. Der letzte Abschnitt verknüpft das Paradigma der Open Source-Software-Entwicklung mit der kollaborierten Erschaffung und Pflege XMLbasierter Auszeichnungssprachen und geht auf die Möglichkeiten ein, die Open Information dem Internet und seinen Benutzern geben kann.
2.
Auszeichnungssprachen im World Wide Web
Die Auszeichnungssprache des World Wide Web, mit deren Hilfe Web-Dokumente geschrieben werden, heißt HTML, Hypertext Markup Language (Raggett et al., 1997). HTML gestattet die Anreicherung einer im ASCII-Format vorliegenden Textdatei mit einer klar definierten Menge von Formatierungsmarkierungen, sog. Tags; so markiert beispielsweise das Tag ⬍P⬎ (für Paragraph) den Beginn eines Absatzes, ⬍/TABLE⬎ das
66. Multimedia in der Informationsgesellschaft: Von Open Source zu Open Information
Ende einer Tabelle, und Text, der von den Tags ⬍H1⬎ und ⬍/H1⬎ (für Headline) umrahmt wird, stellt eine Überschrift erster Stufe dar. Weitere Tags gestatten die Auszeichnung tieferer Ebenen von Überschriften, verschiedener Arten von Listen (nummerierte und nicht nummerierte, Definitionslisten) und vor allem die Integration von Hyperlinks, also Querverweisen, die den Leser des Textes bei Aktivierung automatisch zu weiterführenden Informationen zu einem bestimmten Begriff führen. Die diesen Tags zugrunde liegenden Strukturelemente sind nicht etwa beliebig kombinierbar, sondern es existiert eine regelbasierte, formale Definition, die die Namen und das Zusammenspiel der Elemente spezifiziert. Diese Dokumenttypdefinition (DTD, Document Type Definition) für HTML wurde mit Hilfe der Standard Generalized Markup Language (SGML, ISO 8879, 1986) definiert, die eine abstrakte und äußerst komplexe Sprache zur Definition konkreter Auszeichnungssprachen (wie eben etwa HTML) darstellt. Die Ursprünge von HTML befinden sich im europäischen Kernforschungszentrum CERN, wo Tim Berners-Lee und Robert Cailliau 1989 angefangen hatten, ein verteiltes, also im Netzwerk arbeitendes HypertextSystem zu entwickeln, das von den Entwicklern später World Wide Web (benannt nach dem von Berners-Lee implementierten ersten grafischen Web-Browser) genannt wurde (Berners-Lee, 1999). Neben einem Protokoll zum Transfer von Hypertext-Dokumenten (HTTP, Hypertext Transfer Protocol) und einem Adressierungsschema für beliebige Typen von Web-Dokumenten entwickelten Berners-Lee und Cailliau auch HTML als Formalismus zur Repräsentation von Hypertexten. Die Entscheidung, HTML als „SGMLähnlich“ (Berners-Lee, 1999: 41) zu definieren, war zu einem großen Teil politischer bzw. diplomatischer Natur. SGML wurde zu dieser Zeit am CERN großflächig eingesetzt, so dass Berners-Lee die wichtigsten Elemente des am CERN benutzten SGML-Systems übernahm, um den Mitarbeitern einen leichten Einstieg in HTML zu ermöglichen. Erst einige Jahre später wurde HTML – in einer weiterentwickelten Version – tatsächlich als „echte“ SGML-Anwendung spezifiziert. Erlaubte HTML anfänglich nur die explizite Auszeichnung sehr grober textueller Elemente wie etwa Abschnitte, Überschriften oder Listen, implementierten die großen Browser-Hersteller – einhergehend mit dem
891
stetigen Erfolg des World Wide Web – immer mehr Elemente, die allein auf das Aussehen der HTML-Dokumente am Bildschirm Auswirkungen hatten, so dass der eigentliche Vorteil SGML-basierter Auszeichnugssprachen, die darstellungsunabhängige Explizierung struktureller Information, immer mehr in den Hintergrund rückte. Die Hersteller versuchten damit einerseits, Alleinstellungsmerkmale ihrer Produkte zu definieren, zum anderen aber durch die Schaffung von Defacto-Standards die langwierigen Entscheidungsprozesse der offiziellen Standardisierungsgremien zu umgehen. Der bereits angesprochene Erfolg des Web vor allem im kommerziellen Bereich machte jedoch deutlich, dass die Vorhaltung explizit strukturierter Information ein entscheidendes Kriterium für den Fortbestand des Web sein wird, etwa im Bereich des Austausches von aus Datenbanken gespeisten Produktinformationen. Die explosionsartige Ausbreitung des World Wide Web und die Erschließung neuer Interaktionsmöglichkeiten, oftmals im Zusammenhang mit der Entwicklung von eCommerce-Anwendungen, haben schließlich deutlich gemacht, dass für das Internet mit HTML nur ein erster Schritt bei der Informationsmodellierung unternommen worden ist. Da HTML lediglich eine SGML-Anwendung unter anderen ist und andere SGMLAnwendungen auch für die entstehenden Bedürfnisse im World Wide Web passender erscheinen, stellt sich die Frage, warum nicht anstatt nur einer bestimmten SGML-Anwendung SGML insgesamt über das Internet nutzbar sein kann. Für bestimmte Anwendungszwecke spezialisierte SGML-Anwendungen könnten dann im Internet verfügbar sein und, darauf aufbauend, auch flankierende Standards wie HyTime (Hypermedia/Time-Based Structuring Language, ISO 10744, 1997) für weitergehende Verlinkungstechniken und DSSSL (Document Style Semantics and Specification Language, ISO 10179, 1996) für Strukturtransformationen und flexible Gestaltung mit den dazugehörenden Software-Systemen. So naheliegend dieser Gedanke ist, so schwierig ist es, ihn umzusetzen. Das World Wide Web hat als ein neues Massenmedium längst Fakten geschaffen, die nicht zu dem sehr umfangreichen SGML-Standard passen. Das größte Problem besteht darin, dass der Standard nicht nur kompliziert, sondern auch formal so komplex ist, dass Online-Anwendungen Schwierigkeiten bekommen, ihre
892 Verarbeitung in akzeptabler Zeit durchzuführen. Viele Eigenschaften von SGML spiegeln noch den Stand der frühen achtziger Jahre wider, in denen noch nicht absehbar war, dass SGML-Anwendungen woanders als auf isolierten Einzelrechnern funktionieren könnten. Das Hervortreten dieser Unzulänglichkeiten von SGML für Zwecke der Online-Anwendung war der Ursprung von XML, das seit Anfang 1998 in einer vom World Wide Web Consortium verabschiedeten Fassung vorliegt (Bray et al., 1998). XML ist nichts anderes als eine vereinfachte Version von SGML – alle in XML kodierte Information ist zugleich auch gültige SGML-Information. Die Definition von XML ist jedoch viel konziser, knapper und logisch überzeugender, da alles das, was in SGML ohnehin kaum genutzt oder heutzutage nicht mehr gebraucht wird, weggelassen wurde, ohne dabei die Ausdrucksmöglichkeiten prinzipiell einzuschränken. Diese Reduktion ist so überzeugend gelungen, dass XML inzwischen auch dort eingesetzt wird, wo die Online-Fähigkeit der Daten gar nicht im Vordergrund steht. Man kann XML als ein Instrument für die Modellierung von strukturierter Information verstehen (Lobin, 2000). Was ist strukturierte Information? Der Idee der strukturierten Information liegen verschiedene Beobachtungen zugrunde, die ursprünglich an Textdokumenten gemacht worden waren: In einem Text können erstens unterschiedliche Ebenen voneinander unterschieden werden. Es gibt einerseits die Abfolge von Buchstaben, z. B. in einer Überschrift oder als ein Zitat, es gibt andererseits aber auch abstrakte Einheiten, die z. B. für die Kategorien „Überschrift“ oder „Kapitel“ stehen. Diese abstrakten Einheiten werden im Gegensatz zu den textuellen Einheiten nicht durch sprachliche Zeichen konkretisiert, sondern oftmals durch typografische: die Schrift einer Überschrift ist größer als die des folgenden Textes, die Überschrift wird abgesetzt und meistens nummeriert, und auch für die Kennzeichnung eines zusammenhängenden Textteils als ein Kapitel gibt es verschiedene Darstellungsmittel. Die zweite Beobachtung ist, dass die Anordnung der abstrakten und der konkreten Informationseinheiten nicht beliebig ist, sondern vielmehr festen Regeln zu folgen hat, die denen zur Bildung von Sätzen ähneln. Diese Regeln spezifizieren einerseits das hierarchische Verhältnis von abstrakten Informationseinheiten zu untergeordeten abstrakten oder konkreten Informationseinheiten, anderer-
VIII. Perspektiven der Informationsgesellschaft
seits die lineare Abfolge gleichrangiger Informationseinheiten. Man kann diese Regeln zu einer Grammatik der Informationseinheiten – der bereits angesprochenen Document Type Definition – zusammenfassen. Die dritte Beobachtung: Eine solche Grammatik kann immer so gestaltet werden, dass sich die Informationseinheiten mit ihren hierarchischen und linearen Beziehungen zueinander in Baumform anordnen: ganz oben gibt es ein Wurzelelement, das den Text als Ganzes repräsentiert, die Töchter darunter repräsentieren die Teile, aus denen sich der Text auf oberer Ebene zusammensetzt, und diese Zerteilung wird solange fortgesetzt, bis man auf der Ebene der elementaren Texteinheiten angelangt ist. In XML sind diese Beobachtungen in einen systematischen, formal definierten Zusammenhang gebracht worden: ⫺ Eine XML-Anwendung gibt an, was für Typen von abstrakten und konkreten Informationseinheiten es gibt, gibt ihnen Namen zur eindeutigen Identifizierung und spezifiziert gegebenenfalls weitere Beschreibungsmerkmale. ⫺ Diese Informationstypen werden durch Regeln miteinander in Beziehung gesetzt. ⫺ Diese Regeln werden zu einer Grammatik zusammengefasst. ⫺ Reale Informationseinheiten werden mit diesen Typen in Beziehung gesetzt und in Baumform angeordnet. Strukturierte Information ist also nichts anderes als die regelgeleitete Anordnung von Informationseinheiten, genauso wie wir korrekt strukturierte Sätze als regelgeleitete Anordnung von Wörtern verstehen können. Parallel zu XML vom World Wide Web Consortium entwickelte Formalismen beschäftigen sich mit der Verknüpfung von XML-Dokumenten (XPointer, XLink), der Verarbeitung mehrerer Dokumenttypdefinitionen in einem Dokument (Namespaces) und der Visualisierung von XML-Dokumenten in Web-Browsern (Cascading Style Sheets, CSS, und Extensible Stylesheet Language, XSL). Mit der Einführung von XML ist beim Umgang mit Information ein entscheidender Schritt vollzogen worden: erstmals wird es möglich, Informationen nicht nur aus einer technologischen Perspektive zu betrachten, sondern auch aus einer inhaltlichen. XMLstrukturierte Daten sind unabhängig von bestimmten Software-Systemen oder gar Be-
66. Multimedia in der Informationsgesellschaft: Von Open Source zu Open Information
triebssystemen, sie sind im Normalfall sogar unabhängig von der Darstellung in einem bestimmten Medium. Statt dessen geben sie Auskunft über ihren logischen Aufbau und vermögen im Idealfall diesen Aufbau aus den semantischen Eigenschaften der Daten abzuleiten. Sind diese Möglichkeiten im World Wide Web nur in sehr eingeschränkter Form genutzt worden, so ist für die nächste Zeit damit zu rechnen, dass inhaltsorientierte Navigations-, Such- und Präsentationsverfahren an Bedeutung gewinnen. Ein vom World Wide Web Consortium vorgeschlagenes Verfahren zur Schaffung einer Basis, die eine gezielte und sinnvolle Wissensexploration ermöglichen soll, ist das XML-basierte Resource Description Framework (RDF, siehe Lassila & Swick, 1999; Brickley & Guha, 1999). RDF gestattet die Auszeichnung von Metadaten, Daten über Daten, durch den Autor oder Bearbeiter eines Web-Dokuments. Beispiele für Metadaten eines Web-Dokuments sind etwa der Name des Autors, das Datum der letzten Änderung, verschiedene Schlagworte, ein Verweis auf die assoziierte Organisation etc. RDF wurde entwickelt, um eine umfassende und konsistente Explizierung von Metadaten in Web-Dokumenten zwecks vereinfachter und präziserer Suche und Exploration von Dokumentbeständen zu gewährleisten. RDF gestattet, ähnlich wie XML, lediglich die Definition verschiedener Schemata, mit deren Hilfe dann wiederum konkrete Dokumente annotiert werden können. Hierbei ergeben sich einige unmittelbare Probleme: Welche (standardisierten?) Vokabulare werden zur Definition von RDF-Schemata eingesetzt? Wie detailliert sollen die Metadaten strukturiert werden, und welche Arten von Metadaten sollen – jeweils abhängig vom Themengebiet – annotierbar sein? Zu diesen Fragestellungen der generellen Klassifikation von Objekten gibt es in verschiedenen Fachrichtungen (Bibliothekswesen, Architektur, Kunst etc.) Bemühungen zur Schaffung von Standards (Übersichten befinden sich etwa in Hudgins et al., 1999; Baca, 1998; Marchiori, 1998); im World Wide Web scheint sich mehr und mehr die noch in der Entwicklung befindliche Initiative Dublin Core (siehe http:// purl.org/dc/ und Weibel et al., 1999) durchzusetzen, die eine Art gemeinsamen und erweiterbaren Kern aller RDF-Schemata hervorbringen soll. Das Dublin-Core-Schema definiert drei verschiedene Gruppen von Elementen: Content (mit Elementen wie etwa Title,
893
Subject, Description, Type etc.), Intellectual Property (Creator, Publisher, Contributor, Rights) und Instantiation (Date, Format etc.). RDF wird – gerade in Verbindung mit dem Dublin Core – mittlerweile schon auf vielen Websites intern eingesetzt, um Ressourcen, also Web-Dokumente und in ihnen eingebettete Objekte, zu beschreiben. Mit Topic Maps (ISO/IEC 13250, 1999, vgl. Rath, 1999, früher Topic Navigation Maps) liegt bereits eine XML-Architektur für die standardisierte Darstellung von Metainformation vor. Dabei geht es – im Gegensatz zu RDF – vor allem um die thematischen Bezüge zwischen Informationsobjekten. Zweck einer solchen Darstellung ist die Unterstützung von inhaltsorientierter Navigation und Filterung. Die grundlegende Idee besteht darin, beliebige Informationsobjekte zu Gruppen zusammenzufassen und auf einer abstrakten Ebene zu gliedern. Der Bezug zu den konkreten Informationseinheiten kann dabei durch Verweise hergestellt werden, die Gesamtheit der thematischen Bezüge wird allerdings auch allein als ein sinnvoller unabhängiger Informationstyp verstanden. Die Bezüge zwischen Informationseinheiten, die sog. Associations, können ihrerseits zu Gruppen geordnet werden, so dass auch Filterungen auf dieser Ebene möglich werden. Der Vorteil der Standardisierung von thematischen Strukturierungen ist darin zu sehen, dass für unterschiedliche Domänen oder Wissensbereiche erstellte Topic Maps verschmolzen werden können und so nach einiger Zeit ein allumfassendes begriffliches Netzwerk entstehen kann. Es ist denkbar, dass das World Wide Web in seiner heutigen Erscheinungsform oder andere HypertextSysteme um ein Netz von begrifflichen Bezügen angereichert werden, die zusätzlich zu der Nutzung explizit repräsentierter Verlinkungen die Exploration zusammenhängender Wissensbereiche erlauben.
3.
Das Open-Source-Modell in der Software-Entwicklung
Unter dem Open-Source-Modell in der Software-Entwicklung (siehe Vixie, 1999, für einen Vergleich dieses Ansatzes mit traditionellen Methoden) versteht man die freie Veröffentlichung, Weitergabe und Erlaubnis zur Modifikation von Programm-Quellen – den in Programmiersprachen wie beispielsweise C oder Java geschriebenen Instruktionen, die vor der Ausführung durch den Computer in
894 Maschinenbefehle konvertiert werden müssen (vgl. DiBona et al., 1999). Der Erfolg dieses Ansatzes (die meisten Email- und WorldWide-Web-Server werden mit Open-SourceEntwicklungen betrieben, vgl. O’Reilly, 1999) wird als ein Phänomen betrachtet, das in engem Zusammenhang mit dem Internet steht und umfangreiche Auswirkungen auf die Branche der Kommunikations- und Informationstechnologie hatte und auch in Zukunft haben wird. Im Folgenden erläutern wir die Entstehung des Open-Source-Ansatzes, nennen die wichtigsten Gründe für den Erfolg von Open-Source-Software und gehen auf Erweiterungen dieses Paradigmas ein. Der heutige Open-Source-Begriff geht auf Gedanken zurück, die erstmalig Mitte der achtziger Jahre von dem Software-Entwickler Richard M. Stallman geäußert wurden. Stallman hat zu dieser Zeit seine Anstellung im Labor für Künstliche Intelligenz des Massachusetts Institute of Technology aufgegeben, um sich ganz der Entwicklung eines freien – „free as in freedom“ (Stallman, 1999), also nicht frei im Sinne von kostenlos – Betriebssystems zu widmen, das zum De-facto-Standard der Industrie, dem UNIX-System, kompatibel sein sollte. Stallman war nicht mit der allgemeinen Tendenz vieler Software-Anbieter einverstanden, die Weitergabe der Quell-Dateien ihrer Produkte an die Benutzer abzulehnen, da diese die Quellen als schützenswertes Eigentum verstanden haben. Quell-Dateien ermöglichen es dem geübten Anwender und Programmierer, Fehler in Programmen zu suchen und zu beheben, neue Funktionen in bestehende Programme zu integrieren oder aus Teilen verschiedener Programme und einem gewissen Maß an Eigenentwicklung Software mit ganz neuer Funktionalität zu erschaffen. Ohne die Programmquellen haben Anwender diese Möglichkeiten nicht, sondern können etwa im Falle eines Programmfehlers nur hoffen, dass dieser in der nächsten Version der eingesetzten Software behoben sein wird. Stallman war der Ansicht, dass Programmierer ein ethisches Anrecht auf freie Software haben und begann mit der Arbeit an dem Betriebssystem GNU (dessen rekursiv definiertes Akronym „GNU’s not UNIX“ bedeutet). Auf der Grundlage eines bestehenden, kommerziellen UNIX-Systems implementierte Stallman seine Versionen eines Editors (Emacs), eines Compilers (gcc) und verschiedener Werkzeuge (gdb, make), um die Standardkomponenten des von ihm eingesetzten, kos-
VIII. Perspektiven der Informationsgesellschaft
tenpflichtigen UNIX-Systems sukzessive durch freie, eigenentwickelte Module zu ersetzen. Weiterhin nahm er, soweit dies möglich war, bereits verfügbare freie Software wie das Satzsystem TEX oder das Fenstersystem X Window in das GNU System auf (Buthenuth & Mock, 1992). Mit der Entwicklung des vielfältig konfigurierbaren Editors Emacs wuchs sowohl das allgemeine Interesse an der Philosophie der freien Software als auch das Interesse vieler Programmierer an einer Mitarbeit an verschiedenen GNU-Komponenten. Stallman gründete daraufhin die Free Software Foundation (FSF), eine gemeinnützige Vereinigung zur Verbreitung und Unterstützung seines Ziels, ein im Quelltext vorliegendes UNIX-kompatibles Betriebssystem zu erschaffen, im Zuge dessen auf Probleme bezüglich Urheberrecht, Modifikation und Verkauf von Software aufmerksam zu machen sowie diese Probleme gänzlich zu „eliminieren“ (die FSF ist im World Wide Web erreichbar unter http://www.fsf.org). Als die ersten Komponenten des GNUSystems zu ausgereifter Software herangewachsen waren, benötigte Stallman eine rechtliche Absicherung, um eine Übernahme der von ihm entwickelten freien Software durch Firmen auszuschließen, die seine Quelldateien evtl. modifizieren und daraufhin als proprietäres Firmeneigentum ausweisen könnten. Unter anderem aus dieser Motivation (siehe Stallman, 1999, für weitere Beweggründe) entstand die GNU General Public License (GPL) und die Idee des „Copyleft-“ („All rights reversed“) Vertriebskonzepts. Der Begriff Copyleft meint hier die Wahrung der Urheberrechte des Autors („Copyright“) an der von ihm entwickelten Software zu genau dem Zweck, diese als freie Software auszuweisen. Diese Lizenz gibt also jedem das Recht, unter der GPL lizensierte Software zu benutzen, beliebig oft zu kopieren und zu modifizieren und auch modifizierte Versionen zu vertreiben. Jedoch dürfen der Software, modifiziert oder nicht, keinerlei Restriktionen auferlegt werden. Mit diesen Lizenzbestimmungen erklärt man sich einverstanden, indem man die entsprechende Software benutzt, erweitert oder vertreibt (§ 5 der GPL). Des Weiteren unterliegt jedes Programm, das von GNU/GPL-Software abgeleitet wird, zwingend wieder der GPL, so dass mit Hilfe des Copyleft-Modells garantiert werden kann, dass ursprünglich freie Software auch in alternativen oder erweiterten Versionen in
66. Multimedia in der Informationsgesellschaft: Von Open Source zu Open Information
Zukunft den Status freier Software im Sinne der GPL/FSF besitzt. Im Laufe einiger Jahre entstand im Rahmen der Initiative und Koordination der Free Software Foundation eine Sammlung vielzähliger Programme. Häufig beteiligten sich dutzende Entwickler an der Programmierung eines Software-Pakets, oftmals koordiniert über das Internet, mit dessen Hilfe auch neue Versionen einzelner Module ausgetauscht wurden. Das GNU-System konnte jedoch noch nicht als vollständiges und vor allem eigenständiges UNIX-System fungieren, da die wichtigste Komponente noch fehlte: der Kern. Der Kern eines Betriebssystems ist verantwortlich für die Speicher- und Prozessverwaltung, Zugriffe auf die Hardware etc. Diese Lücke wurde mit der Entwicklung von Linux gefüllt. Linux bezeichnet heutzutage ein nicht nur in Forschung und Lehre weit verbreitetes UNIX-kompatibles Betriebssystem, das gegen einen geringen Unkostenfaktor auf Datenträgern bzw. kostenlos im Internet zur Verfügung steht. Der Begriff Linux meint jedoch ursprünglich lediglich einen UNIX-Kern, entwickelt von dem finnischen Informatik-Studenten Linus Torvalds. Torvalds konnte Anfang der neunziger Jahre mit Hilfe der sehr effektiven Kommunikationsmöglichkeiten des Internet in kurzer Zeit viele begeisterte Anhänger für sein komplexes Vorhaben, dessen Entwicklungsbasis das zu Lehrzwecken entwickelte UNIX-System Minix war, finden (Raymond, 1999, berichtet, dass bereits von Dritten implementierte Ansätze für ein Programm ein wichtiger Faktor für den Erfolg eines Open-Source-Projekts sind). Er veröffentlichte sehr oft – durchschnittlich etwa einmal pro Woche – neue Versionen des Kerns, bekam innerhalb weniger Tage von hunderten freiwilliger Mitentwickler per elektronischer Post Rückmeldungen über Fehler der neuesten Version und integrierte ebenfalls mitgeschickte Erweiterungen und Verbesserungsvorschläge in die Quell-Dateien. Auf diese Weise entstand in bemerkenswert kurzer Zeit ein voll funktionsfähiger und leistungsstarker UNIX-Kern, der auf einem handelsüblichen PC lauffähig war und somit in idealer Weise die problematischste Lücke der GNU-Programmsammlung schließen konnte. Dadurch ist das Linux-System in der heute bekannten Form entstanden und wird noch immer von vielen tausend Programmierern weltweit – koordiniert mit Hilfe der Kommunikationsmöglichkeiten des Internet – weiterentwickelt.
895
Eine Gruppe um den Programmierer Eric S. Raymond hat Anfang 1998 die Potenziale des Ansatzes erkannt, der zur Entwicklung so effizienter und leistungsfähiger freier Software wie Linux, dem De-facto-Standard der Email-Server (Sendmail), dem sehr erfolgreichen World-Wide-Web-Server Apache oder der Programmiersprache Perl geführt hat: begeisterte Entwickler sind – verbunden durch das Internet – in der Lage, nur aufgrund ihres eigenen Ehrgeizes, der Freude am Programmieren und der Qualifikation für einen späteren Beruf leistungsstarke, sichere und stabile Software in einer Geschwindigkeit zu implementieren, die in herkömmlichen Entwicklungsabteilungen von Software-Firmen niemals möglich wäre (Ettrich, 2000). Wenn ein Benutzer eines Software-Pakets beispielsweise mittels elektronischer Post einen Fehler meldet, ist es ihm des Weiteren – Programmierkenntnisse vorausgesetzt – aufgrund der offenliegenden Quellen möglich, unmittelbar einen Verbesserungsvorschlag an die federführenden Entwickler zu schicken, so dass bereits nach kurzer Zeit eine neue, verbesserte Version des Programms über das Internet verbreitet werden kann (Raymond, 1999). Die Gruppe um Raymond nannte dieses Prinzip „Open-Source-Software“ (siehe http://www.opensource.org), um sich von dem potenziell missverständlichen Begriff der freien Software abzugrenzen, und sie versteht Open Source als Marketing-Strategie, um das erwiesenermaßen erfolgreiche Konzept der freien Software kommerziellen Software-Herstellern näher zu bringen. Zwischen den beiden Gruppierungen, der Free Software Foundation um Stallman auf der einen, und der Open-Source-Initiative um Raymond auf der anderen Seite, herrschen gewisse Differenzen (Stallman spricht von „zwei politischen Parteien innerhalb einer Gemeinschaft“), da erstere vor allem den sehr idealistischen Aspekt der Freiheit von Software, jedoch letztere nur die effektive Entwicklung leistungsstarker Software in den Vordergrund stellt (siehe hierzu etwa Feuerbach & Schmitz, 1999). Seit einiger Zeit zeichnet sich ein Trend in der freien Software-Szene ab, sich nicht länger auf Betriebssystem-spezifische Grundlagen und ihre Implementation zu beschränken, sondern vermehrt auch AnwendungsSoftware zu entwickeln, etwa die komfortable grafische Arbeitsoberfläche KDE (K Desktop Environment) und die hierin eingebettete Applikations-Sammlung KOffice, die leistungsstarke Werkzeuge zur Textverarbei-
896 tung oder zur Kalkulation beinhaltet. Aber auch rudimentäre Forschungsprototypen wie beispielsweise die Spracherkennung Sphinx der Carnegie Mellon University sind mittlerweile unter einer Open-Source-Lizenz frei verfügbar, und somit ist absehbar, dass mittelfristig – freiwillige Programmierer vorausgesetzt – eine ausgereifte Komponente zur Spracherkennung, basierend auf Sphinx unter Linux, einsetzbar sein wird. Das Open-Source-Paradigma ist mittlerweile nicht mehr ausschließlich auf den Bereich der Software-Entwicklung beschränkt. Anfang 1998 wollte David Wiley, zu dieser Zeit Doktorand an der Brigham Young University, verschiedene Lehrmaterialen im World Wide Web veröffentlichen, aber gleichzeitig sicherstellen, dass zum einen im Falle einer Verwendung sein Name genannt wird, zum anderen die von ihm erstellten Materialen nicht entgegen ihrem Zweck verändert werden. Mit der Unterstützung von Stallman und Raymond hat Wiley auf der Grundlage der GNU General Public License die Open Content License (OPL) entwickelt (siehe http://www.opencontent.org). Diese gestattet eine kostenfreie Verwendung von Inhalten und erzwingt eine unmissverständliche Markierung derjenigen Stellen, die von Dritten modifiziert werden. Im Falle einer Veränderung sieht diese Lizenz ebenfalls vor, dass die neuen Inhalte ebenfalls der OPL unterliegen. Auf der Website der Open-Content-Initiative werden zum Zeitpunkt des Verfassens dieses Beitrags mehr als 150 Online-Angebote aufgelistet, die unter der OPL veröffentlicht wurden (eine große Suchmaschine findet derzeit zum Stichwort „open content“ mehr als 5,500 Treffer). Hierunter befinden sich nicht nur Lehrmaterialien zu den verschiedensten Themen, sondern unter anderem auch Musikstücke und Essays. Weiterhin sind bereits verschiedene Bücher in Planung, die unter einer für die Veröffentlichung von Printmedien modifizierten Fassung der Open Content License veröffentlicht werden sollen. Das Berkman Center for Internet and Society – angesiedelt an der juristischen Fakultät der University of Harvard – untersucht in Projekten wie beispielsweise Open Law, Open Governance oder Open Education „real and possible boundaries in cyberspace between open and closed systems of code, of commerce, of government, and of education, and the relationship of law to each“ (vgl. http://cyber.law.harvard.edu). Das Projekt Open Law etwa bietet interessierten Internet-
VIII. Perspektiven der Informationsgesellschaft
Benutzern eine Plattform zum offenen und freien Gedankenaustausch zu aktuellen und Netz-relevanten Fällen, die derzeit vor amerikanischen Gerichten ausgetragen werden. Im Zuge dieser Diskussionen sollen Argumente gefunden und Plädoyers entwickelt werden, wobei eine Prämisse des Projekts ist: „an open development process best harnesses the distributed resources of the Internet community. By using the Internet, we hope to enable the public interest to speak as loudly as the interests of corporations.“
4.
Open Information
Die Abschnitte 2 und 3 betrachten zum einen auf der technologischen Ebene den Fortschritt des World Wide Web seit dessen Anfängen und zum anderen den Ursprung, die Motivation und Erfolgsfaktoren des OpenSource-Paradigmas in der Software-Entwicklung. Obwohl diese Themenbereiche zunächst keine wesentlichen Affinitäten aufweisen, könnte sich unserer Meinung nach im Laufe der nächsten Jahre eine interessante Entwicklung vollziehen, die vor allem die Anwendung derjenigen Strategien und Faktoren, die den Open-Source-Ansatz erfolgreich gemacht haben, auf die Entstehung von WWW-Inhalten und insbesondere Dokumenten-übergreifende Metastrukturen betrifft. Abschnitt 2 macht deutlich, dass eine zunehmende Strukturierung des World Wide Web stattfindet. Am Beginn stand die erste Fassung von HTML, die Tim Berners-Lee, der Entwickler des WWW, lediglich aus Gründen der internen Vermarktung seiner Idee des vernetzten Hypertextes an seiner damaligen Wirkungsstätte als „SGML-ähnlich“ (Berners-Lee, 1999: 41 f.) entwickelt hat. In den folgenden Jahren entstanden daraufhin – definiert durch SGML – immer komplexere Versionen von HTML, die immer mehr den Aspekt der Gestaltung und des Layouts von WWW-Dokumenten betonten. Schließlich wurde diese Entwicklung, die aufgrund einer fehlenden Strukturierung der Dokumente in einem Kollaps des World Wide Web zu enden drohte, mit der Spezifikation von XML durchbrochen. Nachdem mit XML und den flankierenden Standards (XSL, XPointer, XLink etc.) eine wohldefinierte Strukturiertheit von WWW-Dokumenten gewährleistet sein wird, beschäftigt sich die aktuelle Forschung vornehmlich mit verschiedenen Definitionen und Repräsentationsformalismen für Metadaten, wie beispielsweise dem
66. Multimedia in der Informationsgesellschaft: Von Open Source zu Open Information
Resource Description Framework (RDF) oder Topic Maps. Die Formalismen RDF und Topic Maps stellen unterschiedlich komplexe Möglichkeiten bereit, Informationen über einzelne WebDokumente und Zusammenhänge zwischen mehreren Web-Dokumenten zu explizieren. Es werden jedoch auch abstraktere Einsatzgebiete verfolgt: Das Open Directory Project (http://dmoz.org) stellt einen Web-Katalog (ähnlich dem bekannten Dienst Yahoo) dar, der von etwa 50.000 freiwilligen Internet-Benutzern gepflegt wird, die sich jeweils um einzelne oder mehrere Kategorien kümmern. Diese Pflege umfasst die Aufnahme konkreter Web-Dokumente in bestehende Kategorien der Open-Directory-Hierarchie und die Schaffung neuer Kategorien, sofern dies erforderlich ist. Die Open-Directory-Hierarchie ist im graphentheoretischen Sinn als eine Menge von derzeit 16 Bäumen organisiert, die auf der obersten Ebene Konzepte wie Arts, Health, Recreation oder Science umfassen und daraufhin in immer speziellere Knoten verzweigen (wie etwa Arts: Movies: Genres: Silent Movies oder Science: Social Sciences: Language and Linguistics: Applied Linguistics). Von besonderem Interesse ist hierbei zum einen die Tatsache, dass die Erstellung – ebenso wie das in diesem Umfeld bislang unbekannte Peer Reviewing – des Kataloginhalts durch Benutzer des Angebots und nicht durch eine Vielzahl bezahlter Redakteure wie etwa bei Yahoo vorgenommen wird, und zum anderen, dass die vollständige Hierarchie des Open-Directory-Projekts als (von der zugrundeliegenden Datenbank exportierte) RDF-Datei vorliegt und dabei einer GPL-ähnlichen Lizenz unterliegt. Zum Zeitpunkt des Verfassens dieses Beitrags enthält die Hierarchie etwa 460.000 Einträge und die verschiedensten Verknüpfungen innerhalb dieser Struktur. Betrachtet man nun unter den geschilderten Voraussetzungen die These, dass einer der Faktoren eines erfolgreichen Open-SourceProjekts eine relevante und modifizierbare Ausgangsbasis (etwa von Dritten implementierte, erste Ansätze zur Lösung eines Problems) ist (Raymond, 1999: 33 f.), so bestünde mit der Open-Directory-Hierarchie eine Grundlage zur Entwicklung einer noch spezielleren Hierarchie bzw. Teilhierarchie im Rahmen von Open-Source-ähnlichen Projekten. Eine solche Hierarchie – gewissermaßen ein semantisches Netz –, beispielsweise aus dem Bereich der Architektur, müsste nicht zwangsläufig als ein exklusiver Teil des Open
897
Directory Projects angesehen werden, sondern könnte in den unterschiedlichsten Kontexten, wie etwa in der Computerlinguistik zur Disambiguierung oder auch im Bereich der Entwicklung intelligenter grafischer Benutzeroberflächen oder Online-Navigationssysteme eingesetzt werden. Es ginge nun folglich nicht mehr ausschließlich um die Programmierung von Software (Open Source) oder um die Schaffung bzw. Diskussion konkreter Inhalte (Open Content, Open Law), sondern um übergreifende und abstrakte Meta-Strukturen, die wir aufgrund des ihnen potenziell inhärenten breiten Anwendungsspektrums als Open Information bezeichnen möchten. Raymond (1999) nennt, wie bereits in Abschnitt 3 angesprochen, weitere Faktoren für den Erfolg des Open-Source-Paradigmas. Dessen sinnvolle Übertragung auf das Konzept der Open Information macht eine Überprüfung dieser Faktoren erforderlich. Open Source ist erfolgreich, weil begeisterte und erfahrene Programmierer Spaß daran haben, qualitativ hochwertige Software zu entwickeln, um etwa einen persönlichen Bedarf zu befriedigen oder ihre Chancen und Möglichkeiten im Beruf zu erhöhen. Damit diese Faktoren auch für das Open-InformationModell gelten können, müssen verschiedene Bedingungen erfüllt sein: Vorerst muss ein Bedarf für frei verfügbare XML- oder RDFSchemata oder Topic-Map-Hierarchien bestehen. Dieser Bedarf könnte beispielsweise durch eine großflächige Unterstützung (die bislang noch nicht existiert) dieser Formalismen in den gängigen Web-Browsern, -Editoren und auch dedizierter Software geschaffen werden (Berners-Lee, 1999: 172, spricht in einem ganz ähnlichen Kontext von einem „common new genre on the Web“). Sobald Benutzer die Vorteile dieser Technologien, vor allem die vereinfachte Suche und Navigation, erkennen und schätzen lernen, werden sie – das hat die Vergangenheit (von Yahoo zum Open Directory Project, von proprietärer Suchmaschinen-Technologie zu OpenSource-Produkten mit ähnlicher Funktionalität etc.) gezeigt – bestrebt sein, ähnliche Informations-Infrastrukturen zu schaffen und diese als Open Information anzubieten. Ein weiterer aktueller Trend in der Informationstechnologie ist, dass aufgrund des Erfolges und der Popularität des Open-Source-Ansatzes immer mehr Firmen die Quelldateien ihrer Software veröffentlichen, um beispielsweise ein globales Peer Reviewing durch die vielen zehntausend Programmierer weltweit
898 zu gewährleisten. Wir halten es für sehr wahrscheinlich, dass es nicht nur bei Software oder Web-Inhalten bleiben wird, sondern dass auch Metastrukturen veröffentlicht werden, die dann unter anderem von Freiwilligen weiterentwickelt und gepflegt werden. Bei dieser Entwicklung werden sich unserer Meinung nach, vergleichbar den verschiedenen Open-Source-Projekten, Benutzergruppen aus den unterschiedlichsten Bereichen zusammenfinden, um etwa mit Hilfe von RDF und/oder Topic Maps definitive, den aktuellen Stand des Wissens beschreibende semantische Netze für ihren jeweiligen Interessensbereich zu erstellen. Diese Gruppen werden über das Internet sowohl kommunizieren als auch ihre Projekte und Ergebnisse koordinieren und publizieren. Thematisch benachbarte Open-Information-Projekte werden dabei versuchen, ihre Hierarchien zu kombinieren und hierbei einheitliche Schemata einzusetzen. Auf diese Weise könnte im Laufe der kommenden Jahre tatsächlich entstehen, was Berners-Lee (1999: 177 f.) als das „Semantic Web“ („a web of data that can be processed directly or indirectly by machines“) bezeichnet: Die unterschiedlichsten Hypertext-Dokumente, Tonund Bilddateien des World Wide Web werden von den Benutzern selbst in einen globalen Zusammenhang integriert („This all works only if each person makes links as he or she browses, so writing, link creation, and browsing must be totally integrated“, Berners-Lee, 1999: 201). Dieser übergreifende Zusammenhang ist, und das ist im Gegensatz zur heutigen Situation der Ungeordnetheit der große Vorteil, explizit strukturiert, so dass eine reibungslose maschinelle Verarbeitung, beispielsweise das automatische Schließen zum Zwecke der Erkennung neuer Relationen zwischen nicht unmittelbar benachbarten Gebieten mittels einer Vielzahl thematischer Hierarchien, gewährleistet ist: „We will solve large analytical problems by turning computer power loose on the hard data of the Semantic Web.“ (Berners-Lee, 1999: 201 f.). Auch Raymond (1999: 227) ist der Meinung, dass der Open-Source-Ansatz in Zukunft Einfluss auf Gebiete jenseits der Software-Entwicklung haben wird: „I expect the open-source movement to have essentially won its point about software within three to five years. Once that is accomplished, and the results will be manifest for a while, they will become part of the background culture of non-programmers. At that point it will become more appropriate to try to leverage
VIII. Perspektiven der Informationsgesellschaft
open-source insights in wider domains.“ In seiner Rede auf der XML-Konferenz im Jahr 1999 hat Peter Murray-Rust die Definition der Semantik von XML als dringliches Desiderat angesprochen. Er warnt davor, dass im Zuge der Entwicklung diverser XML-Schemata ein „semantischer und ontologischer Krieg“ entstehen könnte, der nur durch unabhängige Gremien, die keinen finanziellen Interessen unterliegen, verhindert werden könne. Das Konzept der Open Information und eine sinnvolle Verknüpfung der verschiedenen Projekte in diesem Zusammenhang wäre unserer Meinung nach eine mögliche Lösung dieses unmittelbar bevorstehenden Problems.
5.
Literatur
Baca, Murtha (Ed.) (1998). Introduction to metadata – Pathways to digital information. Getty Information Institute. Berners-Lee, Tim (1999). Weaving the Web – The original design and ultimate destiny of the World Wide Web by its inventor. San Francisco: Harper San Francisco. Bray, Tim, Paoli, Jean & Sperberg-McQueen, C. Michael (1998). „Extensible Markup Language (XML) 1.0“. Technische Spezifikation, World Wide Web Consortium. Online verfügbar: http:// www.w3.org/TR/1998/REC-xml-19980210. Brickley, Dan & Guha, Ramanathan V. (1999). „Resource Description Framework (RDF) Schema Specification“. Technische Spezifikation, World Wide Web Consortium. Online verfügbar: http:// www.w3.org/TR/PR-rdf-schema/. Bundesministerium für Bildung und Forschung, Bundesministerium für Wirtschaft und Technologie (1999). „Innovation und Arbeitsplätze in der Informationsgesellschaft des 21. Jahrhunderts – Aktionsprogramm der Bundesregierung“. Online verfügbar: http://www.iid.de/aktionen/aktionsprogramm/. Buthenuth, Roger & Mock, Markus U. (1992). Abseits vom Kommerz – Die Philosophie des GNUProjekts. c’t, Magazin für Computertechnik, 3, 62⫺65. Dertouzos, Michael (1997). What will be. How the new world of information will change our lives. New York: HarperEdge. DiBona, Chris, Ockman, Sam & Stone, Mark (Eds.) (1999). Open sources: Voices from the open source revolution. Beijing, Cambridge, Köln, London, Paris, Sebastopol, Taipei, Tokyo: O’Reilly & Associates.
66. Multimedia in der Informationsgesellschaft: Von Open Source zu Open Information Ettrich, Matthias (2000). Wer kodiert? – Gedanken zur Freie-Software-Szene. iX, Magazin für professionelle Informationstechnik, 1, 112⫺115. Feuerbach, Heinrich T. & Schmitz, Peter (1999). Freiheitskämpfer – Entwicklung freier Software gegen Patentierung. c’t, Magazin für Computertechnik, 16, 79⫺81. Fluckiger, Franc¸ois. (1996). Multimedia im Netz. München, London, Mexiko: Prentice Hall. Hasebrook, Joachim (1995). Multimedia-Psychologie. Heidelberg, Berlin, Oxford: Spektrum. Hudgins, Jean, Agnew, Grace & Brown, Elizabeth (1999). Getting mileage out of metadata – Applications for the Library, Band 5, Chicago: American Library Association. ISO10179 (1996). „Information processing – Processing languages – Document style semantics and specification language (DSSSL)“. Internationale Norm, International Organization for Standardization, Genf. Online verfügbar: http://www.ornl.gov/ sgml/wg8/. ISO10744 (1997). „Information processing – Hypermedia/Time-based structuring language (HyTime) – Second Edition“. Internationale Norm, International Organization for Standardization, Genf. Online verfügbar: http://www.ornl.gov/ sgml/ wg8/. ISO8879 (1986). „Information processing – Text and office information systems – Standard generalized markup language“. Internationale Norm, International Organization for Standardization, Genf. ISO/IEC13250 (1999). „Information technology – Document description and processing languages – Topic maps“. Internationale Norm, International Organization for Standardization, Genf. Online verfügbar: http://www.ornl.gov/sgml/wg8/ Lassila, Ora & Swick, Ralph R. (1999): „Resource description framework (RDF) model and syntax specification“. Technische Spezifikation, World Wide Web Consortium. Online verfügbar: http:// www.w3.org/TR/REC-rdf-syntax/. Lobin, Henning (2000). Informationsmodellierung in XML und SGML. Berlin, Heidelberg, New York: Springer. Marchiori, Massimo (1998). The limits of web metadata, and beyond. Computer Networks and ISDN Systems, 30, 1⫺9. (auch: Proceedings of the 7th International World Wide Web Conference, Brisbane, Australien). Nielsen, Jakob (1996). Multimedia, Hypertext und Internet. Grundlagen und Praxis des elektronischen Publizierens. Braunschweig, Wiesbaden: Vieweg.
899
O’Reilly, Tim (1999). Hardware, software, and infoware. In Chris DiBona, Sam Ockman & Mark Stone (Eds.), Open sources: Voices from the open source revolution. (pp. 189⫺196). Beijing, Cambridge, Köln, London, Paris, Sebastopol, Taipei, Tokyo: O’Reilly & Associates. Pfammatter, Rene´ (Hrsg.) (1998). Multi media mania: Reflexionen zu Aspekten Neuer Medien. Konstanz: UVK Medien. Raggett, Dave, Hors, Arnaud Le & Jacbos, Ian (1997). „HTML 4.0 Specification“. Technische Spezifikation, World Wide Web Consortium. Online verfügbar: http://www.w3.org/TR/REChtml40/. Rath, Hans Holger (1999). Mozart oder Kugel – Mit Topic Maps intelligente Informationsnetze aufbauen. iX, Magazin für professionelle Informationstechnik, 12, 149⫺155. Raymond, Eric S. (1999). The cathedral and the bazaar: Musings on Linux and open source by an accidental revolutionary. Beijing, Cambridge, Farnham, Köln, Paris, Sebastopol, Taipei, Tokyo: O’Reilly & Associates. Stallman, Richard M. (1999). The GNU operating system and the free software movement. In Chris DiBona, Sam Ockman & Mark Stone (Eds.), Open sources: Voices from the open source revolution (pp. 53⫺70). Beijing, Cambridge, Köln, London, Paris, Sebastopol, Taipei, Tokyo: O’Reilly & Associates. Steinmetz, Ralf (1999). Multimedia-Technologie – Grundlagen, Komponenten und Systeme. Berlin, New York, Heidelberg: Springer. Vixie, Paul (1999). Software engineering. In Chris DiBona, Sam Ockman & Mark Stone (Eds.), Open sources: Voices from the open source revolution (pp. 91⫺100). Beijing, Cambridge, Köln, London, Paris, Sebastopol, Taipei, Tokyo: O’Reilly & Associates. von Haaren, Kurt & Hensche, Detlef (Hrsg.), (1997). Arbeit im Multimedia-Zeitalter – Die Trends der Informationsgesellschaft. Hamburg: VSAVerlag. Weibel, Stuart, Kunze, J., Lagoze, C. & Wolf, M. (1999). Dublin Core Metadata for Resource Discovery. Network Working Group, Request for Comments (RFC) 2413. Online verfügbar: http://info. internet.isi.edu/1s/in-notes/rfc/files. Weizenbaum, Joseph (1997). Die Mythen der Informationsgesellschaft. In Kurt von Haaren & Detlef Hensche (Hrsg.), Arbeit im Multimedia-Zeitalter – Die Trends der Informationsgesellschaft (pp. 31⫺ 37). Hamburg: VSA-Verlag.
Georg Rehm, Henning Lobin Universität Gießen (Deutschland)
Namenregister / Name Index A Aaltonen, A. 165 Abb, B. 304 Abbott, V. 568, 574 Abbs, J. H. 351, 352, 519, 522 Abd-El-Jawad, H. 323, 328, 329, 330, 332, 333, 336 Abdullaev, Y. G. 61, 72, 75 Abel, M. J. 852 Abele, A. 473, 484, 488, 697, 699 Abelson, R. 425, 426, 431, 541, 543 Abelson, R. P. 9, 14, 233, 244, 496, 498, 503, 568, 573, 576 Abney, S. 558, 561 Abney, S. P. 134, 136 Aboitiz, F. 67, 75 Abowd, G. 849, 852 Abramson, A. 546, 563 Abramson, A. S. 84, 91 Abramson, L. Y. 479, 488, 687, 696, 699, 701 Accerbi, M. 55 Ach, N. 18, 19, 29 Achinstein, P. 4, 11 Ackermann, H. 464, 467, 546, 561, 564, 565, 682, 699 Acredolo, L. 293 Acredolo, L. P. 388, 391, 395, 398 Adair, J. G. 121, 123 Adams, J. C. 69, 75 Adamzik, K. 443, 444, 451 Adelson, E. 731, 739, 740, 750 Adelsvärd, V. 801 Adler, L. L. 112, 113 Adriaens, G. 305 Aebli, H. 285, 289 Afflerbach, S. 808, 810 Ageranioti-Belanger, S. A. 878 Agnew, G. 899 Ahn, S.-C. 329, 335 Ahn, W. 637, 641 Aiello, L. 38, 39, 54 Aitchison, J. 26, 29, 213, 226, 492, 498 Aitkin, L. 68, 71 Aitkin, L. M. 75 Aksu Koc, A. 790 Alba, J. 496, 498 Albert, D. 13 Albes, C. 811
Alborn, A.-M. 76 Albrecht, J. E. 497, 498, 502, 503, 512, 517, 617, 620, 624, 630 Albritton, D. W. 656, 660 Alexandridis, E. 152, 164 Allan, K. 381, 391 Allen, G. D. 205, 211 Allen, G. L. 388, 398 Allen, J. 209, 211 Allison, T. 72, 78, 168, 178 Allopenna, P. D. 493, 499 Alloy, L. B. 479, 488, 595, 598, 696, 699, 704 Allport, A. 91, 244, 245, 250, 412, 419, 620 Allport, D. A. 326, 335 Almargot, D. 364 Almor, A. 616, 617, 618 Alpert, M. 699, 706 Alpert, N. 186, 188, 189 Als, H. 732, 733, 749 Altarriba, J. 241, 392, 451 Altenmüller, E. 463, 464, 467, 468 Alter, K. 187, 189, 341, 343, 344, 345, 346, 464, 467, 58, 565, 706 Althaus, H. P. 277, 360, 364 Althaus, H. P. 451 Altmann, G. T. M. 91, 93, 103, 494, 495, 499, 504, 505, 526, 531 Alturo, N. 336 Aman, C. J. 378, 397 Amir, A. 166 Ammon, U. 105, 441 Amstad, T. 534, 542 Anastasopoulos, D. 154, 164 Andersen, A. W. 161, 165 Andersen, E. 798, 799 Andersen, E. S. 730, 731, 735, 737, 738, 739, 742, 743, 744, 747, 749, 750, 751 Andersen, R. W. 819, 826, 831 Anderson, A. 316, 443, 451, 606 Anderson, A. H. 618, 848, 853 Anderson, D. R. 862 Anderson, J. A. 128, 136 Anderson, J. R. 87, 90, 129, 136, 221, 226, 360, 364, 424, 425, 427, 428, 429, 431, 633, 638, 641, 647, 650, 693, 699 Anderson, L. K. 610, 619
Anderson, M. C. 588, 598 Anderson, P. A. 425, 430 Anderson, R. C. 243, 497, 503, 569, 570, 574, 588, 598, 599, 616, 618 Anderson, T. 95, 96, 105 Anderson, W. G. 350, 353 Andreasen, N. C. 72, 74, 75 Andrews, S. 492, 498 Angus, L. E. 657, 660 Angus, R. 157, 167 Anliker, J. 155, 164 Anochin, P. K. 28, 30 Anroux, S. 31 Ans, B. 133, 136 Ansay, C. 426, 430 Ansorge, U. 202 Antinucci, F. 377, 384, 397 Antoni, C. 848, 850, 853 Antonini, T. 261, 346, 354 Antos, G. 105, 242, 243, 290, 356, 364, 365, 366, 452, 705, 802, 810, 811, 818 Antos, S. 663 Anzai, Y. 165 Ao, B. 560, 565 Aoyagi, N. 186, 189 Appelt, E. A. 413, 319 Arad, L. 702 Arbib, M. A. 141 Arensburg, B. 42, 54 Arezzo, J. 69, 71, 79 Argyle, M. 271, 277, 280, 289 Ariel, M. 450, 451, 616, 618 Aristoteles 631, 632, 641 Armstrong, E. 57 Arnaud, P. J. L. 327, 330, 335 Arndt, S. 75 Arnfield, S. 701 Arnhold, W. 862 Arntz, A. 703 Aronson, A. E. 562 Arroyo, S. 77 Artz, E. 537, 542 Ascension Technology Corporation 868, 877 Asch, S. E. 381, 391, 647, 650 Aschersleben, G. 700, 702 Aschoff, V. 881, 888 Asendorpf, J. 471, 488 Ashby, F. G. 194, 200 Asher, N. 552, 561 Asher, R. E. 31 Aslin, R. N. 519, 522
902 Athanasiadou, A. 489, 702 Atkins, P. 89, 90, 137 Atkinson, J. M. 97, 103 Atkinson, P. 282, 290 Atlas, L. E. 206, 211 Attardo, S. 663 Attneave, F. 381, 391, Au, T. K. 649, 650 Aubert, H. 381, 391 Auer, P. 97, 98, 99, 106, 291, 813, 818 Augst, G. 291, 802, 810 Aurelius, G. 55 Austin, J. L. 284, 290, 432, 433, 439, 589, 598 Averill, J. R. 684, 699 Aviezer, O. 377, 394 Ayers, G. 552, 561 Ayers, M. S. 429, 430 Aylett, M. 618 Azarbayejani, A. 880
B Baars, B. J. 322, 324, 335, 337, 338 Baayen, R. H. 136, 354, 409, 419, 492, 493, 499, 503 Baca, M. 893, 898 Bach, E. 430 Bachmann, T. 700, 702 Bachoud-Le´vi, A.-C. 350, 352 Bach-y-Rita, P. 167 Baddeley, A. 411, 419, 474, 488, 499, 515, 516, 573, 574, 584, 586, 618, 660 Baddeley, A. D. 245, 250, 363, 365, 422, 429 Bader, M. 308, 315 Badler, N. I. 874, 877 Baggett, W. B. 502, 640, 642 Bailey, C. J. N. 620 Bailey, C. N. 395 Bailey, P. 37, 54 Bailly, G. 559, 561, 562 Baker, A. 728, Baker, L. 585, 586 Baker, L. R. 11 Baker, P. 870, 871, 877 Bakhtin, M. 29 Balaguer, J.-F. 877, 878 Balcisoy, S. 880 Baldwin, N. 880 Balin, J. A. 613, 614, 620 Ballstadt, S.-P. 532, 534, 542, 858, 860 Bally, C. 228, 469, 488 Balota, D. 576 Balota, D. A. 140, 141, 156, 164, 184, 188, 195, 199, 200, 201, 493, 499, 503, 504, 603, 608, 704
Namenregister Balow, M. 55 Bamberg, M. 445, 449, 451 Bamberg, M. G. W. 109, 112 Bame, K. A. 350, 353 Bandler, R. 484, 488 Bangert-Drowns, R. L. 362, 365 Banks, W. P. 702 Bannert, M. 9, 14, 583, 584, 587 Bänninger-Huber, E. 269, 276 Bannon, L. 852, 853 Banse, R. 486, 487, 488 Baraff, D. 873, 878 Barattelli, S. 219, 227, 286, 292, 368, 369, 371, 372, 374, 375, 376, 609, 620 Barbe, K. 657, 659, 660 Barclay, J. R. 25, 30, 496, 499, 510, 516, 567, 569, 574, 575, 623, 629 Bard, E. G. 613, 618 Barden, B. 97, 98, 99, 106 Bargh, J. A. 650, 651 Barlow, H. 127, 136 Barnard, P. J. 472, 473, 474, 475, 477, 490, 678, 682, 684, 686, 692, 698, 706 Barner, K. E. 867, 878 Barnes, M. A. 603, 608 Barnette, B. D. 166 Barnsley, M. 870, 878 Barquero, B. 649, 650 Barr, D. J. 613, 614, 620 Barron, W. L. 664 Barsalou, L. W. 320, 336, 513, 515, 516, 617, 618 Barss, A. 169, 171, 180, 502 Bartke, S. 177, 178 Bartl, C. 361, 365 Bartlett, F. C. 9, 11 Bartram, L. 383, 395 Bartsch, R. 11, 309, 316 Barwise, J. 282, 286, 289, 290 Barzel, R. 873, 878 Basdogan, C. 880 Bashore, T. R. 197, 200 Bataille, F. 562 Bates, E. 31, 413, 421, 495, 502, 530, 531, 613, 620, 792, 794, 796, 799, 800 Bates, E. A. 129, 137 Bates, J. 875, 878 Batliner, A. 341, 345, 58, 561 Batori, I. S. 440 Batt, V. 806, 811 Battacchi, M. W. 472, 480, 484, 487, 488, 699 Bauer, H. R. 45, 54 Bauerle, R. 408 Bauersfeld, P. 853 Baum, S. 545, 546, 554, 558, 561, 564 Baum, S. R. 342, 345, 682, 704 Baus, J. 382, 389, 399
Bavelier, D. 75, 186, 188 Bax, M. C. O. 750 Baxter, J. C. 271, 276 Baxter, L. A. 435, 439 Bayer, J. 315, 774, 778, 780 Bayer, K. 282, 290 Beach, L. 646, 650 Beale, I. 378, 392 Beale, R. 849, 852 Beardsley, W. 316 Beattie, G. 411, 419 Beattie, G. L. 281, 290 Beaubaton, D. 381, 392 Beaugrande, R. de 360, 365 Beauregard, M. 71, 75 Bechtel, W. 10, 12 Bechtereva, N. P. 61, 72, 75 Beck, A. T. 683, 687, 696, 699 Beck, C. R. 581, 582, 586 Becker, C. A. 195, 200, 493, 503, 614, 621 Becker, E. S. 625, 630 Becker, G. 623, 630 Becker, J. 374, 376 Becker, L. B. 859, 862 Becker, W. 142, 164 Beckermann, A. 2, 4, 10, 11, 12, 13 Becker-Mrotzek, M. 802, 810 Beckman, M. 549, 561, 563 Beckmann, F. 293, 621 Beckmann, J. 282, 290 Beckmann, M. E. 341, 345 Beelmann, A. 749 Beeman, M. 316, 699, 700 Beet, S. 211 Begleiter, H. 685, 699 Behen, M. E. 189 Behrens, H. 18, 30 Behrens, S. 558, 561 Be´land. R. 804, 810 Belfer-Cohen, A. 36, 54 Belin, P. 464, 467 Bellugi, U. 262, 276, 391, 391, 395, 708, 713, 714, 719, 725, 727, 728, 729 Belmore, S. 657, 663 Benedict, H. 51, 54 Bengston, V. L. 818 Beninca, P. 337 Bennet, J. 853 Benoit, C. 559, 561, 562 Benson, P. 700 Bente, G. 268, 276 Benthien, C. 478, 488 Bentin, S. 169, 171, 178 Benton, A. L. 378, 391 Benvegnu`, B. 811 Benzing, L. 811 Benzmüller, R. 341, 345 Berch, D. 811 Bereiter, C. 213, 226, 361, 365, 802, 810
903
Namenregister Berelson, B. 856, 861 Berg, T. 256, 260, 261, 301, 302, 303, 304, 305, 318, 319, 320, 321, 323, 326, 328, 329, 330, 331, 332, 333, 334, 335, 336, 347, 348, 351, 352, 354, 718, 727 Berg, W. 655, 658, 660 Berger, A. A. 652, 653, 660 Berger, L. 278 Berger, M. 78 Berglund, E. 794, 799 Bergmann, G. 703 Bergmann, J. 106 Bergmann, J. R. 850, 852 Bergner, R. 662 Berko Gleason, J. 818 Berko, J. 22, 30 Berkowitz, L. 650, 703 Berlyne, D. E. 283, 290, 654, 660 Berman, R. 451 Berman, R. A. 109, 112, 791, 797, 798, 799 Bernard, R. M. 585, 586, 859, 861 Berners-Lee, T. 889, 891 896, 897, 898 Bernhardt, J. A. 654, 660 Bernstein, N. A. 28 Berrian, R. W. 350, 353 Berry, C. 859, 861 Berry, D. C. 236, 241 Berry, J. W. 106, 107, 108, 109, 112, 113, 114 Bersick, M. 174, 180, 674, 676 Bertamini, M. 514, 516 Bertau, M.-C. 654, 657, 660 Bertinetto, P. M. 328, 336 Bertolo, L. 389, 393, 628, 629 Berwick, R. C. 608 Besner, D. 133, 136, 194, 195, 196, 200, 201, 202, 504 Besson, M. 169, 170, 178, 181 Best, A. B. 750 Best, C. T. 520, 522 Betz, H. 58, 77 Bever, T. G. 25, 30, 57, 314, 316, 496, 499, 527, 531, 614, 618, 619, 656, 662 Beyer, R. 534, 535, 536, 537, 539, 540, 542, 544, 779, 780 Bialik, M. 562 Bialystok, E. 830, 831 Bibby, P. A. 505, 517 Biben, M. 45, 57 Biber, D. 241, 249, 250 Bickerton, D. 762, 778, 780 Bickley, C. A. 210, 212 Bienkowski , M. 504 Biere, B. U. 853 Bierhoff, H. W. 116, 123 Bieri, J. 645, 650
Bieri, P. 12, 13 Bierwisch, M. 27, 30, 252, 260, 299, 300, 304, 305, 378, 390, 391, 395, 714, 727 Bigelow, A. E. 731, 735, 736, 737, 738, 739, 740, 749 Bigler, E. D. 188 Bigler, K. 425, 427, 430 Bihrle, A. M. 685, 699, 700 Bilous, F. 95, 105 Binder, J. R. 71, 75, 182, 184, 185, 188 Binet, A. 115, 123 Birbaumer, N. 78, 168, 180 Birch, S. L. 617, 620 Birdwhistell, R. L. 270, 275, 276 Birkmire, D. 166 Birren, J. E. 818 Bisiach, E. 251 Bjork-Eriksson, T. 76 Black, A. H. 642 Black, J. B. 568, 574, 640, 641 Black, M. 654, 655, 660 Black, S. E. 77 Black. J. 430 Blackmore, A. M. 807, 810 Blakar, R. M. 29, 32 Blamire, A. M. 77 Blanc, C. T. 397 Blanken, G. 324, 336, 337, 703, 724, 727, 804, 811, 818 Blasko, D. G. 657, 660 Blass, T. 266, 267, 271, 276, 277, 357, 365 Blauert, J. 523 Bliesner, T. 445, 451 Blocher, A. 382, 389, 399 Block, N. 5, 7, 12, 13 Blom, J. P. 287, 290 Blommaert, J. 105, 114 Blonder, L. X. 699 Bloom, F. E. 75 Bloom, L. 92, 94, 103 Bloom, P. 113, 396, 489, 832 Bloom, R. L. 699 Bloomfield, L. 2, 12, 308, 316, 841, 844 Blumenthal, A. L. 18, 30, 213, 226 Blum-Kulka, S. 230, 232, 241, 281, 284, 285, 290, 432, 434, 435, 437, 438, 439, 440, 442 Blumstein, S. 547, 561 Bobrow, D. G. 453, 503 Bock, J. K. 82, 83, 903, 103, 136, 216, 217, 218, 220, 223, 226, 239, 241, 252, 257, 258, 260, 298, 305, 410, 413, 415, 419 Bock, K. 244, 250, 259, 260, 362, 365, 417, 419, 421, 669, 676 Bock, M. 614, 618, 651
Bock, P. K. 113, 114 Boersma, P. 560, 561 Boesch, C. 34, 54 Boesch, H. 34, 54 Boff, K. 165 Boff, K. R. 145, 154, 164, 396, 523 Bogert, B. P. 205, 211 Boinski, S. 45, 54 Bois, M. 810 Boix, E. 336 Boland, J. E. 535, Bolas, M. T. 864, 878 Bolinger, D. 545, 561, 679, 699 Bolinger, S. 563 Bolinis, A. 345 Boll, T. 469, 471, 489, 685, 704 Boller, F. 700, 701 Bolliger, C. A. 625, 630 Bolozky, S. 602, 608 Bolt, R. A. 161, 167 Bonebright, T. L. 680, 699 Booij, G. 350, 352 Booij, G. E. 500, 829, 831 Bookheimer, S. 562 Bookheimer, S. Y. 182, 188 Bookin, H. 661 Boomer, D. S. 347, 352 Boone, D. R. 378, 391 Booth, K. S. 383, 395 Borghi, B. 55 Bornstein, M. H. 114 Borod, J. C. 678, 680, 690, 699 Borowsky, R. 195, 196, 200 Borsky, S. 494, 499 Borsoi, D. 274, 276 Borst, C. V. 12, 13, 14 Bortz, J. 116, 117, 121, 123 Boscolo, P. 364, 365 Bosshardt, H.-G. 105, 236, 241, 337, 375, 399 Botinis, A. 562, 565 Bottini, G. 72, 74, 75 Bouchard, D. 708, 727 Boueke, D. 803, 810 Bouma, H. 132, 136, 167, 467 Boumwhuis, D. G. 467 Bourdin, B. 363, 364, 365 Bouwhuis, D. 132, 136 Bouwhuis, D. G. 167 Bower, G. 90, 104, 305, 431, 472, 473, 479, 488, 490, 686, 693, 694, 695, 698, 699, 727 Bower, G. H. 137, 337, 353, 497, 502, 510, 517, 566, 574, 575, 625, 626, 629, 630, 640, 641, 642, 661, 695, 699, 701, 705 Bowerman, M. 108, 109, 112, 793, 797, 799 Bowers, D. 699 Bowers, K. M. 702 Box, G. E. P. 204, 211 Boyce, S. 544, 564
904 Boyes-Braem, P. 371, 376, 615, 621, 709, 711, 712, 727 Boyle, E. 671, 676 Boyle, J. M. 616, 621 Boysson-Bardies, B. 799 Bradac, J. J. 286, 290 Bradburn, W. M. 645, 650 Bradley, B. P. 695, 699, 704 Bradley, D. C. 493, 499 Bradshaw, J. L. 36, 54 Brady, M. 608 Brain, C. K. 35, 57 Brained, C. J. 453 Braitenberg, V. 75, 875, 878 Brakke, K. E. 57 Brambring, M. 732, 734, 735, 737, 738, 739, 740, 747, 748, 749, 752 Brammer, M. J. 706 Bramucci, R. S. 567, 568, 577 Brandt, I. 735, 749 Brandt, K. L. 44, 56 Brandt, M. 637, 641 Brannan, J. R. 166 Bransford, J. D. 25, 30, 496, 499, 507, 510, 516, 567, 568, 569, 570, 573, 574, 575, 589, 598, 623, 629 Brauer, W. 393, 397 Braun, A. 75, 188 Braun, G. 548, 562 Braunwald, S. R. 110, 112 Bray, T. 890, 892, 898 Brazelton, T. B. 108, 113, 732, 749 Bredenkamp, J. 116, 120, 123, 124 Breedlove, S. M. 58, 78 Breen, M. 843, 844 Brehe, S. 362, 365 Brehm, J. W. 437, 440 Breitenbach, F. W. 144, 156, 165 Breitenstein, C. 680, 682, 699 Brennan, S. E. 434, 440, 849, 852 Brentano, F. 5, 12 Brentari, D. 708, 727 Bresnan, J. 83, 90, 221, 226, 239, 241, 304, 305, 494, 499, 500 Breßmann, T. 689, 699 Bretherton, I. 799 Brewer, B. 397, 430 Brewer, R. E. 654, 663 Brewer, W. F. 13, 251, 503, 648, 650 Bricker, V. R. 113 Brickley, D. 893, 898 Bridwell-Bowles, L. S. 362, 365 Briest, W. 534, 542 Briner, R. B. 489, 704 Brinker, K. 95, 96, 103, 105, 290, 443, 444, 451, 452, 705, 818
Namenregister Brislin, R. W. 110, 112 Britton, B. 574, 575 Broadbent, D. 194, 200 Broadbent, D. E. 125, 129, 132, 136, 236, 241, 243, 412, 419 Broca, P. 181, 184, 185, 186, 188, 189 Brodeur, D. 195, 200 Brodie, F. H. 751 Broeder, P. 823, 831 Broere, A. J. 189 Brogan, D. 167 Bromley, D. B. 646, 650, 651 Bronen, R. A. 189 Bronner, R. 850, 852 Brooks, F. P. 876, 877, 878, 880 Brooks, R. A. 875, 878, Brose, R. 503 Brosius, H. B. 856, 858, 861 Brousseau, L. 783, 789 Browman, C. P. 351, 352 Brown, A. S. 254, 260 Brown, C. 350, 354 Brown, C. M. 71, 75, 81, 91, 171, 173, 174, 177, 178, 179, 181, 188, 197, 202, 261, 410, 419, 420, 494, 495, 498, 501, 505, 527, 530, 531, 532, 672, 673, 674, 675, 676, 677 Brown, D. 694, 705 Brown, D. R. 120, 124 Brown, E. 899 Brown, E. D. 111, 112 Brown, E. L. 165 Brown, G. 443, 441, 551, 561 Brown, G. D. A. 330, 338, 391, 392 Brown, I. D. 166 Brown, J. R. 562 Brown, J. S. 426, 430 Brown, M. C. 61, 64, 71, 75 Brown, P. 111, 112, 215, 226, 286, 290, 434, 435, 438, 440, 613, 618 Brown, R. 22, 30, 372, 375, 435, 440, 747, 750, 796, 799 Brown, W. D.188 Brownell, H. 689, 692, 699 Brownell, H. H. 699, 700, 707 Brozgold, A. 699 Bruce, B. 430 Bruce, B. C. 13, 251, 503 Bruce, G. 545, 550, 551, 561 Bruce, V. 145, 164 Bruckbauer, T. 55 Brucks, U. 663 Bruderlin, A. 873, 878 Brugge, J. F. 75 Bruhn, H. 454, 467, 468 Brun, T. 262, 276 Bruner, H. 768, 780 Bruner, J. 17, 785, 789, 793, 794, 799, 800
Bruner, J. S. 106, 113, 787, 789 Brünner, G. 814, 818 Bruns, T. 855, 861 Bryan, A. 738, 739, 749 Bryant, D. J. 382, 383, 391, 392, 628, 629 Bryant, J. 857, 861, 862, 863 Bryson, A. E. 128, 136 Bub, D. 75 Buchsbaum, C. 185, 188 Buck, R. 705 Budd, D. 567, 568 Budescu, D. V. 402, 409, 439, 441 Budwig, N. 792, 799 Buehner, M. J. 637, 641 Buhl, H. 216, 227 Buhl, H. M. 234, 241, 249, 250, 386, 392, 394 Bühler, K. 17, 18, 24, 25, 27, 30, 32, 213, 214, 226, 279, 281, 286, 289, 290, 381, 389, 392, 411, 412, 419, 420, 577, 586, 690, 700, 759, 768, 779, 780 Buitenhuis, S. 749 Bulcaen, C. 114 Bull, P. 104 Bullock, T. H. 58, 68, 71, 75, 78 Bullowa, M. 750 Bülthoff, H. H. 164 Bundesministerium für Bildung und Forschung, Bundesministerium für Wirtschaft und Technologie 889, 898 Burani, C. 492, 499, 501 Burchardt, R. 799 Burdea, G. 865, 878 Buren, P. van 827, 831 Burger, L. K. 218, 226, 302, 305, 323, 336, 351, 352 Burgess, C. 692, 700 Büring, D. 550, 551, 562 Burke, J. E. 165 Bürkle, B. 285, 291, 599 Burling, R. 60, 61, 75 Burlingham, D. 731, 733, 747, 749 Burnham, D. K. 522 Burns, E. M. 521, 522 Burroughs, W. J. 388, 397 Burt, M. K. 819, 826, 832 Burton, A. M. 129, 136 Busch, R. R. 32 Buscha, J. 690, 702 Büscher, H. 810 Bush, R. R. 139 Buswell, G. T. 142, 164, 166 Butcher, J. N. 663 Buthenuth, R. 894, 898 Butler, C. 125, 126, 137 Butterworth, B. 133, 142, 216, 226, 258, 261, 275, 276, 353, 365, 411, 419, 492, 499
905
Namenregister Buultjens, M. 740, 750 Buxton, B. 864, 878 Byblow, W. 385, 392 Byrne, R. M. J. 506, 516, 566, 575, 579, 586 Byrne, R. W. 388, 392 Byrnes, H. 440
C Cacciari, C. 654, 655, 660 Cadierno, T. 831, 833 Caffi, C. 677, 684, 685, 690, 692, 700 Caird, F. I. 706 Calder, A. J. 700 Callanan, M. A. 678, 700 Calvert, T. 878 Calvin, W. H. 773, 780 Calvo, M. G. 696, 700 Camac, M. K. 655, 660 Camp, C. J. 424, 429 Campbell, N. 558, 562 Campbell, R. 751 Campbell, R. M. 24, 30 Campbell, W. N. 560, 562 Cancelliere, A. 554, 562 Cancelliere, A. E. B. 682, 700 Cane, D. B. 694, 701 Canisius, P. 444, 451 Cann, R. L. 781 Canter, D. 384, 392 Cantor, J. R. 654, 664 Capasso, R. 811 Capitan, W. H. 13 Caplan, D. 186, 188, 189, 494, 499, 803, 810 Caramazza, A. 218, 226, 252, 253, 255, 256, 260, 261, 316, 346, 352, 492, 493, 499, 617, 618, 635, 642, 811 Carapezza, M. 337 Carayannis, G. 345, 562, 565 Carbone, E. 124 Carbonnel, S. 133, 136 Card, S. K. 362, 365 Cardebat, D. 188 Carey, L. 366 Carey, P. W. 614, 618 Carey, S. 635, 641 Carite´, L. 385, 393 Carlbom, I. 878 Carlson, G. N. 314, 316, 493, 501, 504, 527, 532, 667, 677 Carlson, L. A. 382, 383, 397 Carlson, M. 606, 608 Carlson, R. 560, 562 Carlson, T. 655, 660 Carlson, T. B. 497, 498, 499, 613, 618 Carlson-Radvansky, L. A. 380, 381, 383, 392
Carlston, D. E. 644, 650 Carmichael, R. 384, 392 Carmody, D. P. 166 Carnap, R. 1, 12 Carnochan, P. 488, 701 Carol, G. 558, 562 Carpenter, P. A. 77, 86, 90, 133, 138, 153, 156, 164, 165, 186, 189, 245, 246, 250, 363, 365, 499, 541, 542, 568, 575, 604, 606, 607, 656, 662, 675 Carpenter, R. H. S. 148, 149150, 151, 154, 164, 601, 606 Carpenter, R. L. 276 Carr, J. 50, 54 Carr, T. H. 136, 138 Carreiras, M. 668, 675 Carrol, J. 18 Carroll, J. M. 368, 375 Carroll, M. 233, 241, 378, 379, 381, 389, 392, 445, 451 Carroll, P. 497, 501 Carroll, P. J. 656, 662 Carstensen, K. 390, 392 Carswell, E. A. 29, 30 Carter, J. 613, 621 Carterette, E. C. 105 Cartmill, M. 55 Casagrande, J. 19 Casali, J. G. 158, 164 Casey, B. J. 182, 188 Cassibba, R. 789 Cassidy, K. W. 790 Casson, R. W. 110, 111, 113 Castagna, R. 55 Castan˜eda, H.-N. 13 Castro, J. 730, 731, 735, 737, 738, 740, 741, 742, 747, 748, 749, 751 Caterino, L. C. 586 Cattell, J. McK. 391, 392 Caudill, M. 125, 126, 137 Cavalli Sforza L. L. 36,54, 455, 467, 766, 779, 780 Cazals, Y. 75 Ceder, A. 155, 164 Cees, A. J. 189 Cerezo, E. 875, 878 Cervantes, C. A. 678, 700 Cervenka, E. J. 262, 278 Chafe, W. 849, 852 Chafe, W. L. 239, 241, 412, 419, 497, 499, 580, 586, 589, 598 Chaffin, R. 506, 517 Chalfonte, B. L. 851, 852 Challis, B. H. 165 Chambers, C. G. 314, 316 Chambers, G. G. 413, 419, 670, 675 Chambers, S. M. 493, 500 Chandler, P. 584, 585, 586 Chanquoy, L. 363, 364, 367 Chapman, A. J. 654, 660, 662, 663, 664
Chapman, C. E. 867, 878 Chapman, J. P. 400, 407 Chapman, K. J. 400, 407 Chapman, R. 175, 179 Chapman, R. H. 401, 408 Chapman, R. M. 494, 500 Charpentier, F. 210, 211, 559, 564 Chase, C. W. G. 30 Chase, W. G. 426, 429 Chasin, J. 54 Chater, N. 134, 137, 391, 392 Checkley, S. A. 706 Chekaluk, E. 144, 164 Chen, J.-Y. 327, 336 Chen, S. C. 167 Chen, Y. 269, 274, 278 Cheney D. L. 44, 57, 61, 75, 755, 759, 761, 771, 780 Cheng, P. W. 636, 637, 641 Chertkow, H. 75 Chi, V. L. 880 Chialant, D. 492, 499 Chiarello, C. 692, 699, 700 Childers, D. G. 206, 211 Childs, C. P. 108, 113 Chino, T. 163, 164 Chipman, S. 7, 14 Cho, S. W. 329, 336 Choi, S. 797, 799 Chollet, F. 188, 189 Chomsky, N. 2, 3, 10, 12, 19, 20, 21, 26, 27, 30, 32, 108, 111, 113, 127, 136, 137, 213, 226, 525, 731, 749, 764, 774, 778, 780, 792, 799 Chong, B. W. 182, 188 Christenfeld, N. 95, 105 Christensen, C. A. 363, 366, 803, 810 Christensen, L. 55 Christiansen, M. H. 134, 137 Christianson, S.-A. 687, 700, 702 Christie, B. 845, 853 Christmann, U. 645, 646, 651 Chugani, H. T. 189 Chumbley, J. I. 493, 499 Chun, E. 132, 140 Chung, S. T.602, 606 Church, A. T. 685, 686, 700 Churchland, P. M. 9, 12 Churchland, P. S. 9, 12 Cicone, M. 276 Cinque, G. 341, 345 Civelli, E. M. 731, 745, 750 Cizadlo, T. 75 Clahsen, H. 176, 177, 180, 181, 823, 827, 831, 832 Clancy, P. M. 336 Clapp, D. 196, 201 Clarenbach, P. 703 Clark, A. 188
906 Clark, E. 793, 797, 799, 800 Clark, E. V. 86, 90, 285, 290, 377, 392, 429, 656, 660 Clark, H. 793, 799 Clark, H. H. 86, 90, 93, 103, 123, 124, 215, 219, 226, 230, 235, 239, 241, 242, 248, 250, 281, 285, 286, 290, 308, 316, 368, 370, 375, 377, 387, 392, 404, 408, 411, 419, 422, 423, 426, 429, 430, 434, 440, 499, 498, 499, 569, 575, 612, 613, 615, 618, 621, 655, 656, 658, 660, 849, 852 Clark, J. 680, 700 Clark, J. E. 322, 338 Clark, J. M. 579, 586, 655, 660, 663 Clark, L. F. 426, 430 Clark, M. B. 614, 620 Clark, M. S. 706, 707 Clark, R. 552, 553, 562 Clark, S. E. 427, 428, 430 Clark, V. P. 75 Clarke, A. H. 150, 164 Clarke, E. 71, 76 Clases, C. 850, 852 Classen, K. 549, 562 Claude, J. 397 Claus, B. 628, 630 Clauser, C. 515, 517 Clausing, H. 371, 375, 612, 615, 618 Clement, C. A. 655, 656, 661 Cle´ment, R. 289, 290 Clements, G. N. 548, 562 Clifford, B. R. 859, 861 Clifton, C. 316, 495, 500, 502, 505, 525, 530, 531, 613, 621, 665, 675 Clore, G. L. 684, 685, 700, 704 Clumeck, H. 50, 54 Clyne, M. 657, 660 Cocude, M. 388, 393 Code, C. 72, 76 Coffee, S. A. 728 Coggins, T. E. 276 Cohen, A. 611, 619 Cohen, A. A. 858, 861 Cohen, I. 696, 703 Cohen, J. D. 188 Cohen, L. 188, 189, 350, 352 Cohen, M. M. 131, 132, 139 Cohen, M. S. 182, 188 Cohen, P. R. 434, 440, 563, 564 Cohen, R. L. 274, 276 Cohen, T. 657, 660 Cokely, D. 708, 727 Coldevin, G. O. 859, 861 Cole, J. S. 349, 354 Cole, M. 106, 107, 108, 112, 113, 114 Cole, P. 291, 293, 408, 421, 492, 501, 619, 661, 663
Namenregister Cole, R. A. 501 Coles, M. G. H. 174, 178, 197, 200, 672, 676, 677 Collings, A. M. 503 Collins, A. 349, 352, 426, 430, 453 Collins, A. M. 696, 700 Collis, G. M. 750, 751, 752 Colombo, L. 494, 504 Colonna, A. B. 731, 747, 751 Coltheart, M. 89, 90, 91, 129, 133, 135137, 502, 532, 620, 810, Comrie, B. 819, 826, 831, 832 Condon, W. S. 270, 276 Cone, S. M. 611, 620 Connine, C. M. 657, 660 Connor-Linton, J. 751 Conolly, J. H. 853 Conrad, C. 614, 618 Constable, R. T. 189 Conti, P. 381, 392 Conti-Ramsden, G. 730, 731, 732, 734, 735, 736, 737, 738, 739, 741, 742, 744, 745, 747, 748, 750, 751, 752 Cook, G. 98, 103 Cooke, M. 211 Cooley, J. W. 204, 211 Coon, V. 628, 630 Cooper, W. 561 Cooper, W. E. 354, 421, 500, 519, 522 Copeland, D. E. 627, 630 Corballis, M. C. 193, 200, 378, 383, 392 Corbett, A. T. 570, 575 Corblin, F. 404, 408 Corcoran, R. 75 Corder, S. P. 819, 831 Corey, V. 174, 180 Corina, D. 75, 188, 724, 725, 727 Corlett, J. T. 385, 392 Cormier, K. 728 Cornoldi, C. 389, 393, 628, 629 Corrigan, R. 377, 394 Coslett, H. B. 702 Costa, A. 349, 352 Costermans, J. 426, 430 Coˆte´, P. 289, 290 Cotter, C. A. 571, 575 Coulmas, F. 441, 818 Coulson, S. 174, 178, 673, 675 Coulter, G. R. 708.727 Coupe, P. 388, 398 Couper-Kuhlen, E. 106 Coupland, J. 286, 290, 817, 818 Coupland, N. 286, 290, 817, 818 Courage, M. 686, 702 Couzijn, M. 364, 367 Coventry, K. R. 383, 384, 392 Covey, E. S. 383, 392
Cox, R. W. 75, 188 Cox, S. G. 706 Craig, C. 729 Craik, F. I. 79, 818 Craik, K. 508, 509, 516 Crain, S. 495, 502, 526, 530, 531 Cranach, M. v. 288, 290, 291 Crane, H. D. 152, 164 Crane, R. S. 498, 505, 567, 568, 577 Crasborn, O. 728 Craton, L. G. 380, 392 Crawford, L. E. 382, 392 Crawford, M. 211 Crawley, R. A. 313, 316, 670, 675 Crelin, E. S. 56 Cre´te´, M.-F. 364, 365, 366 Creutzfeldt, O. 67, 76 Critchley, M. 263, 276 Crocker, M. 408 Crocker, M. W. 495, 504 Crommelinck, M. 705 Crompton, A. 351, 352 Cronly-Dillon, J. 164 Crow, C. G. 331, 336 Crowdy, S. 98, 103 Cruse, D. A. 371, 372, 375 Cruse, H. 880 Cruz-Neira, C. 864, 866, 878 Crystal, D. 680, 700 Culicover, P. W. 531 Cullen, S. 383, 392 Culnan, M. J. 848, 852 Cumming, S. 97, 98, 101, 103 Curiel, J. M. 627, 631 Curtis, B. 89, 90, 129, 137 Curtis, M. E. 573, 575 Curtiss, S. 62, 76, 830, 831 Cutler, A. 82, 89, 130, 140, 319, 322, 323, 326, 336, 342, 345, 347, 348, 352, 492, 493, 499, 502, 521, 522, 526, 531, 561, 665, 675 Cutler, H. 728 Cutsforth, T. D. 731, 745, 750 Czienskowski, U. 116, 124
D Da Silva, J. A. 385, 396 Dahan, D. 342, 345 Dahlmeier, R. 862 Dalby, J. T. 269, 276 Dale, A. 168, 178 Dale, P. 799 Dale, R. 305 Dalgleish, T. 472, 488, 490, 678, 700, 701, 702, 703, 704, 705 Dallas, M. B. 640, 642 Dallos, P. 64, 76 Damasio, A. R.76
907
Namenregister Damasio, H. 72, 74, 76 Damien, B. 810 Daneman, M. 363, 365 Danet, B. 281, 290, 435, 440 Daniel, M. P. 388, 393, 628, 629 Danziger, E. 111, 113 Dapretto, M. 558, 562 Darian-Smith, I. 75, 76, 77 Darke, S. 697, 700 Darley, F. L. 547, 562 Darrell, T. 880 Dascal, M. 31, 656, 660 Dasen, P. R. 106, 107, 108, 112, 113, 114 Daum, I. 699 Davidor, Y. 875, 878 Davidson, B. J. 166 Davidson, D. 408 Davidson, J. 34, 56 Davidson, L. 462, 467 Davidson, R. J. 243, 251, 700 Davie, W. R. 859, 862 Davis, B. L. 50, 51, 54, 467, 790 Davis, E. 496, 499 Davis, K. E. 644, 648, 650, 662 Davis, M. D. 189 Davson, H. 166 Dawydiak, E. 404, 408 Day, D. 798, 801 Day, M. E. 155, 164 Day, R. H. 522 De Beaugrande, R. 533, 534, 542 De Boysson-Bardies, B. 50, 54 de Gelder, B. 499, 681, 700, 705 de Gennaro, S. 877, 878 De Grolier, E. 56 De Knop, S. 664 De Laguna, G. A. 30 de Lannoy, J. D. 275, 277 De Paolis, R. A. 790 de Saussure, F. 213, 228 de Vega, M. 383, 392, 393, 627, 629, 689, 700 De Vreese, L. P. 692, 700 Deacon, T. W. 39, 54 Dean, J. 880 Dechert, H. W. 836, 844 Deese, J. 93, 103 DeFanti, T. A. 878 Degen, K. 548, 562 deGroot, A. M. B. 727 Dehaene, S. 186, 188, 189 Dehn, M. 804, 810 DeJong, G. 640, 641 Del Viso, S. 327, 328, 329, 330, 336, 337, 348, 353 Delbrück, B. 17, 30 Delbucco, R. 879 Delie`ge, I. 461, 467, 468 Dell, G. 613, 618 Dell, G. S. 83, 84, 90, 135, 137, 218, 224, 226, 242, 252, 253,
254, 260, 301, 302, 305, 317, 321, 323, 324, 325, 327, 328, 336, 337, 346, 347, 348, 349, 350, 351, 352, 354, 410, 415, 419, 421 Demany, L. 75 Demer, J. L. 166 De´monet, J.-F. 184, 188 Demott, R. M. 731, 745, 750 Demuth, K. 800 Denis, M. 233, 234, 385, 386, 388, 389, 392, 393, 397, 626, 628, 629 Dennett, D. 11, 12 Dennett, D. C. 792, 799 Denoth, F. 179 Deppermann, A. 280, 290 Derry, S. J. 392 Derryberry, D. 694, 700 Dertouzos, M. 889, 898 Derwing, B. L. 329, 336, 338 DeSmedt , K. 136, 137, 138, 140, 141, 221, 226, 229, 237, 241, 242, 260, 261, 299, 305, 335, 337 Desmond, J. E. 189 Deubel, H. 154, 164 Deuschl, G. 726, 729 Deutsch, G. 39, 57, 67, 79 Deutsch, M. 280, 294 Deutsch, W. 18, 30 Deutsch, W. 237, 242, 280, 285, 291, 326, 337, 369, 370, 371, 373, 375, 459, 465, 467, 478, 606, 608, 609, 610, 611, 612, 615, 618, 619, 792, 798, 799, 800 Devine, P. G. 644, 645, 650 Dewhurst, K. 71, 76 Dews, S. 659, 660 di Luzio, A. 291 Diaz, J. M. 700 Dibie, P. 589, 598, 599 DiBona, C. 894, 898, 899 Dick, M. 611, 618 Dickes, P. 534, 542 Diebold, R. 18, 21, 22, 30 Diehl, R. L. 519, 522 Dietrich, R. 295, 305, 453, 860, 861 DigiScents Inc. 869,878 Dijkstra, T. 129, 131, 136, 137, 138, 140, 141, 260, 261, 305, 493, 499 Diller, L. 699 D’Imperio, M. 546, 562 Dimter, M. 357, 365 Dirven, R. 469, 488, 489, 490, 700 Dittmann, A. T. 271, 273, 276 Dittmann, J. 337, 703, 818 Dittmar, N. 92, 103, 105, 823, 832
Dittrich, S. 236, 242, 366, 389, 393, 452 Dix, A. J. 849, 852, 853 Dixon, R. 75 Dobrich, W. 275, 276 Dobrick, M. 589, 593, 595, 599, 600 Dobrogaev, S. M. 262, 269, 276 Dodd, B. 734, 750, 751 Dodge, R. 144, 164, 602, 603, 606 D’Odorico, L. 784, 785, 789 Dogil, G. 340, 345, 467, 545, 548, 549, 551, 553, 560, 562, 564, 565 Doherty-Sneddon, G. 618 Dohrn, U. 177, 181 Dokecki, P. R. 731, 745, 750 Dolan, P. 193, 201 Dolan, R. J. 72, 76, 189, 610, 619 Donchin, E. 174, 178, 200 Donders, F. C. 192, 193, 199, 200 Donellan, K. 368, 375 Donohue, G. A. 856, 862 Dopkins, S. 501 Dorffner, G. 14 Dorfman, D. 573, 575 Döring, N. 116, 117, 123 Dornbusch, S. M. 646, 650 Dörner, D. 241, 242, 361, 365 Dornes, M. 784, 789 Dornhoefer, S. 158, 164 Dornic, S. 200 Dornseiff, F. 215, 226 Dorodnych, A. 434, 440 Dörr, G. 496, 499 Dosher, B. A. 570, 575 Dougherty, J. W. D. 111, 113 Downs, J. M. 850, 852 Downs, R. H. 496, 499 Dowty, D. R. 504, 531 Doyle, W. J. 56 Dreher, E. 282, 292 Dreher, M. 282, 292 Dreher, M. J. 570, 575 Drescher, M. 482, 488, 690, 700 Dressler, W. U. 337, 533, 534, 542 Drews, E. 602, 606 Dreyer, P. 236, 242, 366, 452 Drinkmann, A. 661 Driver, J. 199, 201 Du Bois, J. W. 97, 98, 99, 101, 103 Du Puy, C. 799 Duchin, L. E. 42, 54 Duffy, S. A. 614, 621 Dufour, R. 725, 727 Duhem, P. 214, 226 Dulay, H. C. 819, 826, 832 Dumais, S. T. 540, 541, 543
908 Dunbar, G. 26, 30 Dunbar, R. J. M. 38, 39, 54 Duncan, G. W. 189 Duncan, J. 611, 619 Duncan, S. 377, 382, 395 Duncan, S. D. 262, 265, 276 Dunker, E. 64, 65, 66, 68, 76 Dunlap, W. P. 166 Dunlea, A. 730, 731, 737, 738, 739, 740, 741, 742, 747, 749, 750 Dunn, H. K. 205, 211 Dunn, J. 799 DuPlessis, J. 825, 832 Dupoux, E. 188, 350, 352, 493, 504 Durand, J. 562 Duranti, A. 92, 103 Dutke, S. 511, 512, 516, 623, 624, 626, 629 Dutoit, T. 559, 560, 562 Duwe, I. 196, 201, 702 Dwyer, F. M. 586 d’Ydewalle, G. 164, 514, 517, 603, 606, 608 Dyre, B. 133, 139
E Earnshaw, L. J. 522 Eberhard, K. M. 258, 260, 614, 622 Eberspächter, V. 858, 861 Eckardt, A. R. 653, 660 Eckensberger, L. 755, 781 Eckert, P. 812, 818 Eckhardt, B. von 569, 575 Eckman, F. R. 819, 826, 832 Eco, U. 214, 226 Edden, R. 406, 407, 408 Eddy, W. F. 77, 186, 189 Edey, M. 38, 55 Edmondson, W. 230, 242 Edwards, J. A. 92, 93, 98, 103, 104, 105 Edwards, K. 704 Efron, D. 265, 276 Egan, P. B. 681, 703 Egg, M. 281, 290 Eggermont, J. J. 127, 137 Egido, C. 852 Ehlich, K. 92, 95, 96, 97, 99, 101, 104, 105, 445, 451, 452, 470, 482, 488, 802, 810 Ehret, G. 68, 69, 76, 519, 522 Ehrich, V. 232, 242, 380, 381, 385, 386, 387, 389, 393, 450, 451 Ehrlich, K. 316 Ehrlich, M.-F. 668, 675 Eibl-Eibesfeldt, I. 60, 76 Eich, E. 693, 700
Namenregister Eichler, W. 804, 810 Eigler, G. 355, 364, 365, 366 Eikmeyer, H.-J. 129, 141, 252, 256, 260, 261, 302, 306, 373, 375 Eilan, N. 397 Eilers, R. E. 50, 56 Eimas, E. R.547, 562 Eimas, P. 84, 90, 461, 467 Eimas, P. D. 50, 54, 419, 518, 519, 522, 532 Einhorn, H. J. 639, 641 Eisenberg, P. 310, 316, 336, 804, 805, 810 Eisler, F. 18 Ekman, P. 262, 263, 264, 265, 266, 267, 268, 271, 276, 277, 278, 489, 490, 700 El Mogharbel, C. 467 Elbert, T. 76, 168, 178, 180 Elicker, J. 380, 392 Elkind, D. 378, 393 Elko, G. 878 Ellen, P. 397 Ellgring, H. 272, 276 Ellis, A. W. 18, 30, 141, 306, 349, 352 Ellis, H. C. 693, 696, 700 Ellis, R. 826, 832, 836, 838, 844 Ellis, S. 108, 114 Ellis, S. R. 159, 164, 165 Elman, J. 792, 799 Elman, J. L. 86, 87, 90, 91, 129, 130, 132, 133, 137, 139, 494, 502 Elsner, N. 468 Elzinga, R. A. 271, 276 Emmorey, K. 278, 726, 727, 728 Engebretson, A. M. 205, 211 Engelberg, E. 687, 700 Engelbert, H. M. 234, 242 Engelkamp, J. 6, 12, 119, 124, 238, 239, 242, 285, 290, 393, 432, 435, 440, 492, 500, 580, 587 Engstrand, O. 801 Enkelmann, N. B. 598, 599 Ephrath, A. R. 165 Erb, M. 565 Erdfelder, E. 117, 123, 124, 180, 637, 641 Erdmann, B. 602, 603, 606 Erickson, D. M. 520, 522 Ericsson, K. A. 360, 363, 365, 411, 420 Eriksen, B. A. 197, 200 Eriksen, C. W. 197, 200, 350, 353 Eriksson, P. S. 58, 76 Erting, G. 727 Ervin-Tripp, S. 107, 438, 440 Ervin-Tripp, S. M. 97, 104 Eschbach, A. 32
Esche, A. 858, 861 Eschenbach, C. 391, 393 Eskenazi, L. 211 Esper, E. A. 17, 18, 30 Espe´ret, E. 364, 365, 366 Estevaz, A. 700 Etcoff, N. L. 682, 701 Ettrich, M. 895, 899 Euler, H. A. 490 Eulitz, C. 72, 76 Evans, A. 75, 565 Evans, A. C. 184, 189 Evans, C. S. 55 Evans, E. F. 519, 524 Evett, L. J. 603, 607 Eyferth, K. 628, 630 Eysenck, M. W. 700, 703
F Fabrizi, M. S. 663 Fach, M. 558, 562 Fahle, M. 164 Faigel, P. 802, 810 Fainsilber, L. 657, 661 Falk, D. 38, 54 Falkenberg, G. 589, 599 Falkner, W. 593, 594, 596, 599 Falmagne, R. J. 408 Fancher, R. E. 645, 650 Fant, G. 518, 523, 549, 562 Fant, G. G. M. 133, 138 Färber, B. 848, 852 Fariello, G. 384, 395 Farioli, F. 367 Farrar, W. 495, 500 Faulconer, B. A. 569, 576 Faust, M. E. 617, 619 Fay, D. A. 82, 90 Fay, R. R. 79 Fay, W. H. 731, 747, 750 Faye, E. E. 752 Fayol, M., 363, 364, 365 Feagans, L. 750 Feenberg, A. 850, 852 Feger, H. 124 Fehr, B. 684, 701 Fehr, B. J. 96, 105 Feider, H. 789 Feige, B. 76 Feigenbaum, E. A. 128, 132, 137 Feigl, H. 12 Feilke, H. 23, 30, 803, 810 Fein, G. G. 740, 752 Fein, O. 657, 661 Feiner, S. 866, 879 Feiner, S. K. 878 Feldhaus, A.561 Feldman, L. 686, 701 Feldman, L. B. 492, 499, 500, 501, 503 Feldman, R. S. 278
909
Namenregister Feldmann, R. 367 Feldstein, S. 60, 79 Felix, S. 27, 30 Felix, S. W. 376, 826, 832 Fenson, L. 799 Ferber, R. 94, 104 Ferguson, C. 796, 800 Ferguson, C. A. 54, 55, 56, 286, 290, 522, 831, 833 Ferguson, R. 740, 750 Fernald, A. 793, 799 Ferrand, L. 351, 352, 353 Ferreira, F. 495, 500, 525, 531 Ferry, D. L. 850, 853 Ferstl, E. 494, 495, 500, 524, 531 Fe´ry, C. 340, 341, 345 Feuerbach, H. T. 895, 899 Feyereisen, P. 274, 275, 276, 277 Fiedler, A. R. 750 Fiedler, K. 645, 649, 651 Fiehler, R. 470, 479, 481, 488, 690, 698, 701, 812, 814, 815, 817, 818, 819 Field, T. M. 749 Fiez, J. A. 184, 185, 188 Fikkert, P. 545, 562 Fillmore, C. 286, 290 Fillmore, C. J. 423, 430 Filmer, P. 294 Fincher-Kiefer, R. 513, 515, 516 Findahl, O. 859, 861 Findlay, J. M. 156, 165 Fine, E. M. 602, 606 Finger, S. 71, 76 Fink, G. R. 610, 619 Finke, R. A. 7, 12 Finkelstein, S. 189 Finlay, J. 849, 852 Firth, R. 106, 113 Fischer, A. 728 Fischer, B. 154, 155, 165, 167, 573, 575 Fischer, H. 21, 30 Fischer, K. W. 471, 488, 687, 701 Fischer, M. H. 153, 165 Fischer, R. 707, 727 Fischer, S. D. 729 Fish, R. S. 851, 852 Fishbein, M. 599 Fisher, D. F. 164, 165, 166, 167 Fisher, D. L. 140, 401, 408 Fisher, S. F. 61, 76 Fishman, J. A. 287, 290 Fiske, D. 409 Fiske, D. W. 262, 265, 276 Fiske, S. 707 Fiske, S. T. 644, 647, 648, 650, 651 Fitch, H. L. 520, 522 Fitts, P. M. 363, 367 Fitzmaurice, G. W. 864, 878 Flammer, A. 574
Flanagan, J. R. 879 Flanigin, H. F. 77 Fleig, A. 478, 488 Flesch, R. 534, 542 Fletcher, C. 452 Fletcher, C. R. 581, 586 Fletcher, J. M. 189 Fletcher, P. 30, 789, 790 Fletcher, P. C. 72, 76 Flickner, M. 166 Floccia, C. 491, 493, 500 Flores d’Arcais, G. B. 23, 27, 30, 31, 140, 141, 201, 397, 408, 494, 500, 503, 504, 524, 531, 576, 618, 619, 704 Flores, F. 850, 854 Flower, L. S. 360, 362, 366, 802, 810 Flowers, J. H. 650 Fluckiger, F. 890, 899 Flynn, S. 819, 832, 833 Foa, E. B. 694, 701 Fodor, J. A. 4, 5, 6, 10, 12, 21, 24, 25, 30, 31, 87, 90, 218, 226, 614, 615, 619, 655, 662 Fodor, J. D. 87, 90, 127, 134, 137, 406, 408, 494, 500 Foertsch, J. 512, 516 Foley, J. D. 870, 871, 878 Folkes, V. S. 439, 440 Fong, C. 613, 621 Fontaine, S. 388, 393 Foolen, A. 469, 483, 488 Foot, H. C. 660, 662, 663, 664 Foppa, K. 215, 225, 226, 227, 294, 594, 599, 753, 780 Forabosco, G. 653, 661 Ford, M. 494, 500 Ford, W. 369, 375, 609, 619 Forgas, J. P. 280, 290, 292, 294, 440, 441, 472, 488, 695, 701 Forrester, M. A. 93, 104 Forsberg, A. S. 880 Forster, K. I. 134, 137, 492, 493, 499, 500, 502, 504 Forster, K. L. 169, 171, 180 Foss, D. J. 497, 501, 614, 619 Foss, M. A. 663, 684, 700, 704 Fourier, J. B. J. 203, 204, 211 Fowler, C. A. 351, 353, 413, 420, 492, 500, 520, 522, 524 Fox, B. 607 Fox, P. T. 56, 72, 77, 78 Fox, R. 799 Frackowiak, R. 557, 562 Frackowiak, R. S. J. 72, 75, 76, 78, 184, 188189 Fraenkel, E. 397, 393 Fraiberg, S. 731, 733, 734, 735, 739, 740, 737, 750 Fraisse, P. 191, 200 Frak, V. 189 Franck, J. 257, 261
Frank, A. U. 393 Franke, J.-A. 151, 165 Franklin, N. 382, 383, 393, 510, 516, 627, 628, 629, 630 Franks, J. J. 30, 496, 499, 510, 516, 567, 569, 574, 575, 623, 629 Fraser, B. 434, 440 Fraser, C. 441 Fratianne, A. 638, 643 Frauenfelder, U. H. 129, 137, 491, 492, 493, 500, 604, 607, 86, 90 Frazier, L. 87, 90, 134, 137, 175, 178, 216, 226, 314, 316, 493, 494, 495, 500, 502, 505, 525, 530, 531, 606, 608, 613, 614, 621 Frederick, P. 877, 878 Freedle, R. 430, 587 Freedle, R. O. 244, 392 Freedman, D. G. 733, 750 Freedman, N. 262, 265, 266, 267, 270, 271, 272, 273, 276, 277, 278 Freeman, M. H. 166 Freeman, R. D. 747, 750 Freeman, R. H. 493, 503 Freksa, C. 164, 167, 393, 395, 396, 397, 398, 399 French, C. C. 696, 705 Freud, S. 652, 661, 757 Freudenthal, D. 671, 676 Frey, C. 435, 442 Frey, S. 268, 277 Freyd, J. J. 514, 516 Friederici, A. 558, 565 Friederici, A. D. 26, 30, 61, 71, 76, 78, 169, 171, 172, 174, 175, 179, 180, 181, 184, 185, 186, 187, 188, 189, 293, 341, 343, 344, 346, 346, 380, 381, 393, 492, 494, 495, 500, 501, 503, 504, 505, 530, 531, 543, 576, 600, 601, 606, 607, 608, 642, 673, 674, 675, 676, 678, 679, 680, 701, 702, 705, 706, 853 Friedland, N. 702 Friedman, M. P. 105 Friedman, W. J. 687, 701 Friedrich, P. 286, 290 Friedrichs, J. 117, 124 Friedrichsen, M. 857, 861 Fries, C. C. 841, 844 Fries, N. 469, 470, 483, 488, 677, 701 Friesen, W. V. 262, 263, 264, 265, 266, 268, 271, 272, 273, 276, 277, 278 Frijda, N. H. 490, 705 Frings, W. 654, 661 Frisch, S. 530, 531
910 Frisch, S. A. 327, 337 Friston, K. J. 76, 78, 188, 189 Frith, C. D. 72, 75, 76, 189 Frith, U. 805, 810 Fritz, G. 452 Fritz, J. P. 867, 878 Fröhlich, B. 878 Fromkin, V. 94, 104, 544, 562 Fromkin, V. A. 81, 82, 83, 90, 305, 317, 320, 337, 338, 347, 348, 352, 353, 415, 420, 729 Frost, J. A. 75, 188 Früh, W. 855, 861 Fry, D. 83, 90 Fuhr, T. 382, 399 Fujimura, O. 519, 521, 523 Fujisaki, H. 213, 227 Fukuda, S. 878 Fukui, I. 799 Fukui, K. 164 Fukushima, K. 128, 137 Fukusima, S. S. 385, 396 Fukuyama, H. 55 Fulbright R. K.186,189 Funge, J. 875, 878 Funkenstein, H. H. 189 Funkhouser, T. 865, 877, 878 Furneaux, S. 142, 166 Furness, T. A. 880 Furnham, A. 280, 289 Furth, H. G. 60, 76 Furui, S. 558, 562, 564 G Gabor, D. 206, 211 Gabrieli, J. D. E. 189 Gadenne, V. 213, 226 Gage, F. H. 76 Gagnon, D. A. 260, 324, 337, 352 Gagnon, N. 429, 431 Galaburda, A. M. 72, 76 Galambos, J. A. 576 Galanter, E. 20, 21, 32, 125, 139, 140 Galbraith, D. 361, 368 Gale, A. G. 166 Galegher, J. 852 Galinsky, M. D. 645, 650 Gallagher, B. B. 77 Galley, N. 142, 148, 154, 165 Galliker, M. 594, 599 Gallini, J. K. 120, 124 Gambarara, D. 337 Gamble, C. 36, 54 Gandour, J. 555, 558, 562 Gantioler, I. 810 Gapp, K. 377, 378, 382, 384, 393 Garamoni, G. L. 479, 490 Garcı´a-Albea, J. E. 327, 329, 330, 336, 337, 348, 353
Namenregister Gardenförs, P. 408 Gardenne, V. 241, 242 Gardent, C. 281, 290 Gardiner, C. 402, 409 Gardner, B. T. 48, 49, 54 Gardner, H. 699, 700, 707 Gardner, R. A. 48, 49, 54 Garfield, J. L. 531 Garfield, L. 26, 30, Gargett, R. N. 36, 54 Garman, M. 93, 104, 519, 520, 521, 523 Garman, M. A. 23, 24, 30, 31 Garnham, A. 1, 12, 93, 104, 121, 124, 400, 408, 410, 420, 499, 505, 506, 511, 516, 517, 570, 575, 665, 667, 668, 669, 670, 675 Garnsey, S. M. 175, 179, 494, 500, 505, 527, 532 Garrett, M. 113, 301, 305, 502 Garrett, M. F. 25, 30, 81, 82, 83, 90, 94, 104, 135, 137, 169, 171, 180, 216, 218, 219, 220, 222, 223, 226, 229, 237, 242, 254, 258, 260, 261, 317, 329, 337, 346, 348, 353, 354, 363, 365, 396, 489, 612, 619, 718, 727 Garrod, S. 616, 617, 619, 621, 671, 676 Garrod, S. C. 9, 14, 384, 392, 405, 406, 407, 409, 451, 495, 496, 497, 498, 500, 503, 509, 517, 537, 542, 543, 568, 570, 574, 575, 576,. 579, 587, 605, 606, 607, 608 Garton, A. 799 Garvey, C. 284, 290, 435, 440, 617, 618, 750 Garvin, P. L. 113 Gaskell, G. D. 403, 408, 409 Gaskell, M. G. 134, 137 Gass, S. M. 819, 826, 831, 832 Gasteiger-Klicpera, B. 801, 806, 811 Gattiker, U. E. 853 Gaudet, H. 856, 861 Gauvain, M. 108, 114 Gay, C. T. 72, 77 Gay, J. 108, 113 Gazzaniga, M. 420, 879 Gazzaniga, M. S. 71, 75, 76, 166 Gee, J. G. 493, 501 Geertz, C. 110, 113 Gegenfurtner, K. R. 164 Gehm, T. L. 685, 701 Geiger, T. 437, 440 Geissler, S. 561 Gelade, G. 610, 622 Gelb, A. 18 Gelb, I. J. 355, 365
Gelman, R. 635, 641 Gelman, S. A. 637, 641 Gengenbach, R. 157, 165 Gentner, D. 377, 393, 496, 500, 505, 516, 655, 656, 661 George, M. S. 701 George, S. 440 Gerathewohl, S. J. 157, 165 Gerbner, G. 857, 861 Gernsbacher, M. A. 77, 93, 104, 181, 189, 215, 226, 244, 250, 290, 293, 314, 316, 355, 365, 392, 419, 450, 452, 497, 501, 509, 512, 516, 532, 539, 542, 580, 586, 617, 619, 621, 625, 630, 639, 641, 660, 661, 668, 670, 671, 676, 688, 701 Gerrig, R. J. 613, 619, 656, 658, 660, 661 Geschwind, N. 67, 72, 76 Geurts, B. 392, 395 Gherson, R. 281, 290, 435, 440 Ghysselinckx-Janssens, A. 378, 383, 393 Gibbs, R. W. 284, 285, 287, 290, 432, 440, 656, 658, 659, 660, 661 Gibbs, S. 520, 523 Gibson, D. 276 Gibson, E. J. 131, 137 Gibson, J. J. 282, 290, 381, 393, 520, 523 Gibson, K. R. 728 Gibson, W. 863, 878 Giedd, J. N. 188 Gil, M. 116, 124 Gilbert, D. T. 647, 650, 651 Gilbert, N. 849, 852 Gildea, P. 656, 661 Giles, H. 286, 290, 817, 818 Gilliom, L. A. 413, 420, 616, 619, 670, 676 Gillund, G. 427, 429, 430 Gilman, A. 435, 440 Giora, R. 657, 658, 661 Gippenreiter, J. B. 144, 165 Girand, A. 456 Giroux, F. 706 Givo´n, T. 443, 452, 497, 499, 501, 581, 586, 605, 607, 802, 810 Gjedde, A. 184, 189, 565 Glanzer, M. 573, 575 Glavanov, D. 422, 431 Gleason, H. A. 841, 844 Gleicher, M. 869, 873, 879 Gleitman, L. R. 729, 731, 735, 738, 745, 746, 747, 750, 751 Glenberg, A. M. 497, 501, 510, 512, 515, 516, 573, 575, 617, 619, 625, 626, 630 Glenn, C. G. 235, 244 Glenwright, J. 704
911
Namenregister Gleser, G. C. 479, 488 Glick, J. A. 108, 113 Gligorijevic, G. 501 Glover, G. H. 189 Glowalla, U. 537, 542, 625, 630 Glück, H. 804, 810 Glück, S. 708, 711, 712, 727, 728 Glucksberg, S. 285, 292, 426, 430, 594, 599, 615, 620, 654, 655, 656, 660, 661 Gniech, G. 121, 124 Göbel, M. 876, 878 Gobl, C. 549, 564 Goble, J. 878 Goebel, G. 534, 543 Goebel, R. 127, 140 Goedemans, R. 548, 562 Goetz, E. T. 570, 574, 588, 598, 599 Goetz, F. T. 618 Goffman, E. 434, 440 Gogel, W. C. 385, 393 Goldberg, A. 875, 879 Goldberg, J. H. 159, 165 Goldberg, L. R. 682, 705 Golding, J. M. 498, 501 Goldin-Meadow, S. 275, 277, 278 Goldman, N. 135, 137 Goldman-Eisler, F. 18, 94, 104, 411, 420 Goldmann, S. R. 425, 426, 430, 449, 452, 630 Goldshmid, Y. 605, 607 Goldsmith, H. H. 701 Goldsmith, J. 545, 550, 562, 565 Goldsmith, J. A. 345, 349, 353 Goldstein, J. H. 660, 662, 664 Goldstein, K, 18 Goldstein, L. 351, 352 Goldstone, R. L. 129, 137, 684, 703 Golinkoff, R. 750, Golinkoff, R. M. 786, 789 Golledge, R. G. 388, 393, 396 Gollwitzer, P. M. 650, 651 Gombert, J. E. 806, 810 Gomez, L. M. 383, 397 Gonnerman, A. 799 Gonzalez, J. 254, 260 Goodall, J. 34, 54 Goodenough, W. H. 110, 113 Goodglass, H. 561 Goodman, J. C. 530, 531 Goodman, N. 8, 12 Goodwin, M. H. 106, 113 Goody, E. 440 Gopher, D. 198, 200 Gopnik, M. 91, 338, 354, 789 Gordon, B. 66, 77 Gordon, D. 230, 242, 284, 290, 433, 435, 438, 440 Gordon, L. 786, 789
Gordon, P. C. 410, 412, 413, 414, 420, 509, 516, 616, 619, 664, 666, 670, 676 Gordon, S. G. 233, 242 Gore, J. C. 186, 189 Gormican, S. 610, 611, 622 Gorrell, P. 175, 179 Görz, G. 587 Gossen, G. H. 113 Gotlib, I. H. 687, 694, 701 Gotlieb, J. 561 Gottschalk, L. A. 479, 488 Gould, E. 58, 76 Gould, J. D. 362, 365 Gowan, J. A. 850, 852 Gowlett, J. A. J. 34, 54 Grabowski, J. 83, 84, 90, 93, 99, 101, 102, 103, 104, 119, 124, 136, 137, 138, 213, 214, 216, 217, 218, 219, 222, 223, 224, 226, 227, 228, 229, 232, 235, 236, 237, 238, 239, 242, 246, 247, 249, 250, 251, 276, 282, 283, 284, 285, 286, 287, 291, 293, 295, 305, 336, 355, 356, 357, 358, 361, 363, 364, 365, 366, 367, 368, 371, 374, 375, 376, 380, 387, 389, 393, 394, 432, 433, 434, 435, 436, 437, 438, 440, 441, 442, 443, 446, 447, 448, 452, 453, 466, 467, 503, 532, 535, 543, 661, 769, 778, 780 Grabowski, T. J. 76 Grabowski-Gellert, J. 232, 242, 284, 287, 291, 294, 434, 440 Grabski, M. 517 Gracco, V. L. 351, 352 Graesser, A. C. 233, 242, 422, 423, 424, 425, 426, 427, 430, 495, 497, 498, 501, 502, 504, 505, 512, 513, 517, 539, 541, 542, 544, 566, 568, 569, 573, 574, 575, 580, 586, 627, 630, 631, 639, 640, 642, 643, 643, 647, 650, 651, 652, 653, 654, 661, 662, 663, 675, 676 Graetz, P. 492, 504 Graf, R. 86, 90, 133, 135, 136, 137, 223, 224, 226, 230, 378, 380, 383, 389, 393, 394 Grafman, J. 700, 701 Graham, J. 280, 289 Graham, J. A. 269, 271, 277 Grainger, J. 86, 90, 125, 126, 127, 128, 129, 130, 131, 133, 136, 137, 138, 140, 141, 261, 306, 351, 352, 353, 492, 501, Gramley, A. V. 680, 701 Grand, S. 271, 277, 278 Grandström, B. 560, 562 Grasby, P. M. 72, 76 Gratton, G. 197, 200
Graumann, C. F. 123, 215, 226, 243, 286, 291, 420, 440, 453 Gray, A. H. 204, 209, 211 Gray, J. A. 678, 701 Gray, W. D. 371, 376, 615, 621 Graziano, M. S. A. 76 Greasley, P. 683, 701 Green, B. 635, 642 Green, B. F. 610, 619 Green, D. M. 76, 193, 200, 865, 872, 879 Green, P. R. 145, 164 Greenberg, J. 19, 20, 21, 561, 563 Greenberg, J. H. 398 Greenberg, S. N. 604, 605, 607 Greene, S. B.605, 607 Greenfield, P. M. 106, 108, 113 Greeno, J. G. 282, 291 Greenspan, S. 497, 502 Greenspan, S. L. 510, 517, 625, 630 Greger, R. 76, 80 Gregg, L. W. 364, 365, 366, 810 Gregory, M. E. 657, 661 Gremmen, F. 123, 124 Grendel, M. 503 Grewendorf, G. 310, 316, 599, 600 Grice, H. P. 6, 12, 279, 283, 286, 287, 291, 372, 375, 404, 408, 433, 440, 612, 619, 658, 661 Grice, M. 341, 345 Grice, P. H. 589, 599 Grieve, R. 377, 394 Griffin, M. 429, 430 Griffith, B. C. 518, 423 Griggs, R. A. 401, 408 Grimm, H. 279, 291, 337, 377, 378, 394, 462, 467, 703, 728, 746, 750, 768, 780, 818 Grinder, J. 484, 488 Grober, E. H. 314, 316, 617, 618 Grodd, W. 467, 546, 561, 564, 565 Grodendijk, J. E. G. 563 Groebel, J. 862 Groeben, N. 652, 657, 658, 659, 660, 661, 664 Groen, J. 76 Groenveld, M. 747, 750 Groffmann, K. J. 600 Groner, R. 164, 165, 599 Gronlund, S. D. 427, 428, 430 Groothusen, J. 173, 174, 179, 494, 501 Grosjean, F. 493, 501, 604, 607 Gross, A. 880 Gross, C. G. 76 Gross, L. 857, 861 Gross, M. 176, 180 Gross, M. H. 877, 878 Grossberg, S. 128, 131, 138
912 Große, E. U. 443, 452 Grosser, C. 285, 291, 615, 619 Grosser, U. 616, 619 Grossi, V. 269, 276 Grosz, B. 552, 563 Grosz, B. J. 413, 420, 605, 607, 616, 619, 670, 676 Gruetter, R. 77 Gründer, K. 32 Grüsser, O.-J. 148, 165 Grüsser-Cornehls, U. 148, 165 Grzeszczuk, R. 875, 878 Guenther, F. H. 351, 353 Guha, R. V. 893, 898 Guindon, R. 574, 575 Gülich, E. 357, 366, 446, 449, 452, 453 Gummer, A. W. 71, 76 Gumperz, J. 793, 799, 800 Gumperz, J. J. 287, 288, 290, 291, 433, 434, 440 Gunter, T. C. 169, 174, 179 Güntert, H. 317, 337 Günther, C. 299, 300, 305 Günther, H. 31, 104, 123, 124, 213, 227, 355, 365, 366, 367, 368, 492, 501, 804, 806, 810, 811 Günther, K. B. 213, 227 Günther, U. 307, 310, 313, 314, 315, 316, 604, 607, 846, 852 Günthner, S. 106, 470, 480, 482, 488 Guo, J. 483, 489 Güsgen, H.-W. 224, 227, 239, 242 Gussenhoven, C. 550, 551, 563 Gustavsson, L. 801 Gutfleisch-Rieck, I. 97, 98, 101, 104, 450, 452 Guthke, T. 537, 539540, 542 Guthrie, J. T. 582, 586 Gutstein, J. 269, 278 Guttenplan, S. 12, 14 Györi, G. 481, 489
H Ha, Y. 706 Haack, J. 144, 148, 149, 166 Haan, H. 170, 180 Haarmann, H. 33, 54 Haastrup, K. 836, 844 Habel, C. 27, 30, 31, 201, 242, 294, 299, 300, 305, 378, 388, 389, 391, 392, 393, 394, 395, 396, 397, 398, 399, 442, 449, 452, 453, 496, 500, 503, 505, 515, 517, 607, 622, 630, 728, 811 Haberich, F. J. 153, 165 Hacker, W. 288, 290, 291
Namenregister Hadar, U. 189, 275, 276 Haddad, J. 662 Haenggi, D. 625, 629, 630 Haftka, B. 292, 293 Hage, J. 280, 292 Hager, W. 115, 119, 124 Haggard, P. 879 Hagmayer, Y. 638, 641 Hagoort, P. 61, 71, 75, 81, 91, 171, 173, 174, 177, 178, 179, 181, 186, 188, 197, 202, 261, 350, 354, 410, 419, 420, 494, 495, 501, 505, 530, 531, 672, 674, 675, 676, 677 Hahn, J. 865, 871, 880 Hahn, J. K. 873, 880 Hahn, M. 261 Hahn, U. 305, 440 Hahne, A. 61, 76, 78, 169, 171, 172, 174, 179, 180, 494, 500, 503, 702 Hähnel, A. 623, 625, 630 Haider, H. 467 Hakala, C. M. 497, 501, 627, 630 Hakuta, K. 830, 831 Halber, M. 55 Halberstadt, J. B. 704 Halford, G. S. 505, 516 Hall, C. J. 751 Hall, G. S. 395 Halldorson, M. 572, 576 Halle, M. 133, 138, 499, 518, 523 Haller, M. 89, 90, 129, 137 Halliday, M. A. K. 443, 452, 581, 586 Halligan, P. W. 610, 619 Hallpike, C. R. 758, 775, 780 Halpern, E., 377, 394 Halpin, J. A. 388, 396 Halwes, T. 520, 522 Hambly, G. 492, 504 Hamilton, D. L. 644, 648, 650 Hamilton, H. E. 103, 104 Hamilton, V. 490, 705 Hammeke, T. A. 75, 184, 188 Hammer, R. 271, 276 Hammerton, M. 402, 408 Hampshire, J. 132, 141 Hampson, M. 351, 353 Handler, P. 846, 852 Handley, P. 57 Hankamer, J. 316, 410, 420, 421, 666, 667, 668, 669, 676, 677 Hansen, J. P. 157, 161, 165, 167 Hanson, H. 549, 563 Hantsch, A. 257, 260, 417, 420 Happ, D. 707, 710, 711, 712, 713, 714, 718, 723, 724, 727, 728 Hardcastle, W. J. 564 Hardin, G. R. 439, 440
Hardy, J. K. 388, 396 Hare, M. 134, 137 Hargreaves, D. J. 316 Hariri, A. 562 Harley, R. R. 731, 745, 750 Harley, T. A. 93, 104, 218, 227, 244, 250, 330, 338, 695, 704 Harmann, G. 408 Harms, R. T. 430 Harnad, S. 84, 90, 522, 523, 620 Harnad, S. R. 56 Harnisch, R. 379, 394 Harras, G. 137, 226, 284, 291 Harre, R. 105, 633, 641 Harris, F. J. 204, 211 Harris, K. S. 518, 523 Harris, L. J. 381, 394 Harris, M. 51, 54, 785, 789 Harris, P. L. 687, 700 Harris, R. J. 248, 250, 566, 575 Harris, R. L. 159, 165 Harrison, M. D. 849, 853 Hart, J. 77, 878 Hart, J. T. 426, 430 Hartje, W. 463, 467, 682, 701, 705 Härtl, H. 299, 300, 305 Hartshorne, M. F. 182, 188, 189 Hartsuiker, R. J. 258, 259, 260, 261 Hartung, J. 799 Hartung, M. 657, 659, 661 Harwood, J. 818 Hasan, R. 443, 452 Hase, U. 708.728 Hasebrook, J. 627, 630, 890, 899 Hasher, L. 429, 430, 496, 498 Haslegrave, C. M. 166 Hass, H. E. 662 Hastorf, A. H. 646, 650 Haubensak, G. 285, 291, 390, 394 Haugeland, J. 13 Hauschildt, A. 285, 293, 453 Hausendorf, H. 803, 810, 813, 818 Hauser, M. D. 45, 55 Hauske, G. 396 Haustein, W. 381, 382, 394 Havard, I. 274, 277 Haverkamp, A. 660 Haverkate, H. 658, 661 Havers, W. 483, 489 Haviland, J. 112, 113 Haviland, J. M. 705 Haviland, S. E. 239, 241, 387, 392, 422, 423, 430 Havinga, J. 260, 421 Hawkins, J. 450, 452 Hayasaka, K. 55 Hayes, B. 551, 563 Hayes, C. 55 Hayes, J. R. 360, 361, 362, 366, 499, 802, 810
913
Namenregister Hayes, K. J. 42, 55 Hayes-Roth, B. 388, 398 Hayhoe, M. M. 381, 397 Hays, W. L. 123, 124 Hayward, W. G. 382, 383, 394 Haywood, C. S. 699 Hazel, C. A. 602, 606 Healy, A. F. 604, 605, 607, 656, 661 Healy, M. J. R. 205, 211 Hearn, D. 870, 871, 878 Heath, Chr. 851, 853 Hebb, D. O. 127, 128, 138 Hecht, H. 635, 641, 681, 702 Hecker, W. 749 Heckhausen, H. 283, 291, 687, 702 Hedges, L. 377, 382, 395 Hegarty, M. 389, 396, 566, 572, 573, 576 Heger, K. 446, 452 Hehl, F.-J. 652, 661, 663 Heider, F. 635, 636, 641 Heider, F. H. 648, 650 Heider, K. G. 686, 702 Heidorn, P. B. 391, 394 Heil, M. 180 Heilman, K. M. 680, 682, 699, 701, 702 Heiman, I. 607 Heimann, P. 840, 844 Heinecke, H. P. 278 Heinemann, W. 105, 290, 443, 446, 452, 705 Heinemann, W. 818 Heinitz, W. 457, 458, 467 Heinze, H.-J. 169, 171, 172, 174, 179, 180, 494, 502 Heiss, W. D. 42, 55 Helbig, G. 690, 702 Held, G. 435, 441 Helfrich, H. 263, 277, 518, 521, 523 Hellawell, D. J. 706 Heller, D. 138, 139, 140 Heller, O. 125, 138 Hellige, J. B. 67, 76 Hellinger, M. 441 Helmholz , H. 544, 563 Helson, H. 285, 291, 390, 394 Hemforth, B. 501, 524, 531 Hemforth, B. 604, 607 Hempel, C. G. 2, 12 Henderson, A. 411, 420 Henderson, D. 77 Henderson, J. L. 468 Henderson, J. M. 156, 158, 165, 525, 531 Hendrick, R. 410, 412, 413, 414, 420, 509, 516, 616, 619, 664, 666, 670, 676 Hendriks, H. 451, 452 Hendrix, H. 453
Henke, W. 34, 38, 55 Henkel, L. A. 382, 393 Henne, H. 96, 104, 277, 367, 451, 589, 599 Hennighausen, E. 172, 173, 176, 177, 180, 181, 668, 677 Henninghausen, E. 316 Henri, V. 115, 123 Hensche, D. 890, 899 Henstra, J.-A. 499 Herbster, A. 374, 376 Herbster, A. N. 184, 185, 188 Herder, J. G. 454, 467 Herdt, G. 114 Herholz, K. 37, 55 Heritage, J. 97, 103 Hermes, D. 206, 211 Heron, A. 112 Herrmann, D. J. 506, 517 Herrmann, T. 17, 31, 83, 84, 90, 93, 99, 101, 102, 103, 104, 119, 124, 136, 137, 138, 213, 214, 215, 216, 217, 218, 219, 222, 223, 224, 226, 227, 229, 230, 231, 232, 233, 234, 235, 236, 237, 238, 239, 241, 242, 243, 246, 247, 250, 251, 276, 280, 281, 282, 283, 284, 285, 286, 287, 288, 290, 291, 292, 294, 295, 305, 336, 355, 356, 357, 361, 366, 367, 368, 371, 373, 374, 375, 378, 379, 380, 381, 383, 385, 386, 387, 388, 389, 392, 393, 394, 420, 432, 433, 435, 436, 437, 438, 440, 441, 442, 442, 443, 446, 447, 451, 452, 466, 467, 503, 532, 535, 543, 588, 589, 595, 599, 606, 608, 609, 611, 612, 619, 661, 769, 778, 780, 843, 852, 853, 857, 861 Herscovitch, P. 701 Herskovits, A. 377, 379, 383, 384, 394 Hert, C. A. 289, 291 Hertrich, I. 467, 699 Hertz, J. 128, 130, 138 Hertz, S. 548, 562, 563 Hertzberg, J. 224, 227, 239, 242 Herweg, M. 242, 299, 300, 304, 305, 378, 384, 394, 395, 397, 398, 399 Hess, D. J. 497, 501 Hess, W. 523 Hess, Z. 332, 337 Hess-Lüttich, E. W. B. 852 Hester, S. 276, 291 Heuer, H. 419, 421 Heun, M. 36, 55 Hewes, G. W. 275, 277 Heyer, G. 293, 587, 621 Heywood, S. 269, 277 Hichwa, R. D. 75, 76
Hick, W. E. 192, 200 Hickok, G. 185, 188 Hicks, D. M. 211 Hidi, S. E. 357, 366 Hielscher, M. 472, 479, 481, 489, 490, 606, 607, 625, 630, 678, 680, 682, 688, 689, 695, 697, 702, 703, 854 Higgins, E. T. 645, 648, 650, 706 Hildebrandt, G. 545, 562 Hildyard, A. 357, 366, 377, 396, 852 Hill, C. 381, 394 Hill, D. S. 468 Hillert, D. 728 Hilliard, A. E. 627, 631 Hillis, A. 89, 90 Hillyard, S. A. 61, 77, 168, 169, 171, 178, 179 Hinckley K. 869, 878 Hinton, G. 878 Hinton, G. E. 91, 125, 127, 128, 129, 130, 138, 139, 141, 567, 576 Hirano, S. 37, 55 Hirose, H. 213, 227 Hirsch, C. 696, 702 Hirschberg, J. 551, 552, 560, 563, 564, 565 Hirsh-Pasek, K. 788, 789, 790 Hirst, D. 341, 345 Hirst, G. 134, 140 Hirtle, S. C. 385, 388, 394 Hjörstjö, C. H. 268, 277 Ho, Y.-C. 128, 136 Hobbs, J. R. 551, 552, 563 Hobson, R. P.747, 750 Hoch, P. H. 750, Hockett, C. F. 31, 334, 337 Hockey, G. R. J. 160, 165 Hockl, I. 251, 361, 367 Hockley, W. E. 430 Hoenkamp, E. 82, 83, 90, 221, 222, 227, 239, 241, 243, 335, 337, 392, 301, 305, 723, 728 Hofer, M. 216, 227 Hoff, M. E. 131, 141 Hoffman, H. S. 518, 523 Hoffman, J. E. 154, 165 Hoffman, R. R. 656, 662 Hoffman, S. P. 266, 277 Hoffmann, J. 371, 372, 375, 543, 615, 616, 617, 619 Hoffmann, L. 235, 242, 446, 452 Hoffner, E. 189 Höflich, J. 854, 861 Hogaboam, T. W. 614, 619 Hogarth, R. M. 639, 641 Hohenberger, A. 708, 712, 714, 718, 723, 724, 728 Höhle, B. 213, 227, 777, 780, 801 Höijer, B. 859, 861
914 Hokama, M. 169, 179 Holcomb, P. J. 169, 170, 171, 172, 173, 174, 175, 177, 179, 180, 494, 503, 672, 673, 676 Holcomb, S. A. 169, 179 Holding, C. S. 388, 394 Holland, A. L. 468 Hollingworth, A. 156, 165 Holloway, R. L. 37, 38, 55 Holly, W. 852, 853 Holmes, J. 290 Holmgren, K. 50, 55 Hols, E. 654, 664 Holtgraves, T. 434, 435, 441 Holyoak, K. J. 638, 643 Holz, H. H. 772, 780 Hölzer, M. 469, 489, 686, 702 Holzkamp, K. 597, 599 Homan, R. W. 705 Hommel, B. 191, 200 Honeck, R. 662 Honjo, I. 55 Hoogenraad, R. 377, 394 Hook, S. 12, 13 Hopf, J.-M. 315 Hopfield, J. J. 130, 138 Hopkins, W. D. 57 Hoppe, R. A. 612, 613, 614, 619 Hoppe-Graff, S. 438, 441 Hopper, P. J. 448, 450, 452 Horai, S. 33, 55 Hörmann, H. 3, 12, 18, 23, 25, 27, 32, 105, 119, 124, 214, 215, 227, 229, 242, 283, 291, 402, 408, 588, 589, 599, 609, 612, 619, 652, 655, 662 Horn, L. R. 404, 408 Hornby, P. A. 239, 242 Horner, K. 75 Hörnig, R. 517, 628, 630 Hornung, J. 165 Horowitz, A. 680, 705 Horowitz, M. 357, 366 Horowitz, R. 505 Hors, A. Le 899 Horton, D. 701 Horton, W. S. 248, 249, 250, 368, 375 Houghton, G. 129, 133, 138, 142 Houghton, P. 43, 55 Houle, S. 79 House, D. 345, 550, 563 House, J. 230, 241, 242, 432, 433, 434, 438, 439, 440, 441, 442 Housel, T. J. 859, 861 Houston, S. H. 21, 31 Housum, J. 413, 420 Hovers, E. 36, 54 Howard, D. 78, 184, 188 Howard, I. P. 381, 394 Howard, R. J. 706 Howe, J. 650
Namenregister Howe, M. L. 686, 687, 702 Howel, P. 518, 523 Howell, J. 77 Howseman, A. 189 Hsieh, S. 245, 250 Hsio, S. S. 879 Huang, Y. 79 Huber, G. L. 117, 124 Huber, L. 811 Hübler, A. 469, 470, 483, 489 Hudgins, J. 893, 899 Huebner, T. 831 Huey, E. B. 603, 607 Hugdahl, K. 66, 76 Hugger, K. U. 855, 861 Huijbers, P. 82, 83, 90, 415, 420 Huitema, J. S. 497, 501 Hülshoff, T. 476, 489 Hume, D. 632, 633, 641 Humperdinck, E. 457 Humphreys, G. W. 185, 189, 201, 346, 351, 353, 603, 607, 611, 619 Humphries, C. 185, 188 Hundsnurscher, F. 282, 291, 316, 444, 452 Hunnicutt, M. S. 209, 211 Hunter, I. M. L. 479, 489 Hurd, L. P. 878 Hurford, J. R. 10, 12 Hurtig, R. 75 Hutchings, D. 562 Huttenlocher, J. 377, 382, 392, 395 Hutton, J. T. 56 Hyams, N. 791, 799 Hyltenstam, K. 832 Hyman, M. L. 338 Hyman, R. 192, 201 Hymes, D. 287, 290, 292 Hyrskykari, A. 163, 165
I Ickler, T. 20, 31 Ide, A. 75 Ifert, D. E. 439, 441 Igoa, J. M. 327, 329, 330, 336, 337, 348, 353 Ikeda, M. 157, 167 Ikegami, Y. 262, 277 Ikei, Y. 867, 878 Immelmann, K. 76 Indefrey, P. 410, 420 Ingleton, M. 383, 395 Ingram, D. 50, 55, 830, 832 Ingram, R. E. 683, 687, 702 Inhelder, B. 27, 31, 106, 114, 384, 397, 794, 800 Inhoff, A. W. 156, 165, 493, 501, 602, 607, 656, 662 Intons-Peterson, M. J. 392
Inui, T. 186, 188, 676 Ioup, G. 406, 408 Irle, M. 595, 599 Irvine, D. R. F. 68, 71, 75 Irwin, D. E. 380, 381, 392 Isen, A. 697, 702 Ishizu, K. 55 ISO/IEC13250 893, 899 ISO10179 891, 899 ISO10744 891, 899 ISO8879 891, 899 Issing, L. J. 166, 587 Ivry, R. 611, 619 Izard, C. E. 471, 489, 686, 702
J Jablin, F. 852 Jacbos, I. 899 Jackendoff, R. 378, 384, 395, 410, 411, 420, 496, 501, 508, 516, 525, 531 Jackendoff, R. S. 239, 242, 764, 780 Jackson, J. L. 169, 179 Jacobovits, L. A. 375 Jacobs, A. 86, 90, 261, 306, 352, 353 Jacobs, A. M. 125, 126, 127, 128, 129, 130, 131, 133, 135, 136, 137, 138, 139, 140, 141, 142, 170, 178, 181 Jacobs, J. 341, 345, 420, 676 Jacobs, O. L. R. 875, 879 Jacoby, L. L. 193, 201 Jahoda, G. 106, 113 Jakobovitz, E. L. 713, 728 Jakobs, E.-M. 364, 365, 440, 846, 853. Jakobson, L. S. 425, 427, 431 Jakobson, R. 33, 50, 55, 133, 138, 469, 470, 482, 489, 490, 518, 523, 690, 702 Jalling, B. 55 James, S. R. 34, 55 James, W. 244, 250, 412, 420 Jammer, M. 395 Jan, J. E. 747, 750 Jancke, L. 79 Janich, N. 846, 853 Janney, R. W. 677, 684, 685, 690, 692, 700 Janson, U. 734, 745, 750 Janssen, T. M. V. 563 Janus, R. A. 656, 662 Janzen, G. 386, 388, 394, 395 Japp, U. 658, 662 Jarema, G. 258, 261 Jaritz, P. 17, 31 Jarvella, R, J. 293, 398, 421, 452, 620 Jastrow, J. 382, 395
915
Namenregister Jastrzembski, J. E. 195, 202 Jechle, T. 364, 365, 366 Jefferson, G. 97, 101, 103, 104, 333, 338 Jeffery, G. 366, 367 Jeffress, L. A. 19, 31, 32 Jelinek, F. 134, 138 Jenkins, G. M. 204, 211 Jenkins, H. M. 636, 641 Jenkins, J. 19 Jenkins, J. J. 519, 521, 523 Jensen, S. M. 700 Jenzowsky, S. 857, 861 Jerison, H. J. 38, 55 Jescheniak, J. 415, 417, 420 Jescheniak, J. D. 252, 254, 257, 260, 261, 347, 353, 680, 702 Jespersen, O. 51, 52, 55, 483, 489 Jessel, T. M. 64, 77, 608 Jessen, M. 562 Jezzard, P. 75, 188 Jilka, M. 545, 563 Jirotka, M. 849, 852 Joanette, Y. 706 Job, R. 494, 504 Jogen, R. 664 Johannes, S. 174, 180 Johannesson, A. 275, 277 Johanson, D. C. 38, 55 Johnson, B. K. 502 Johnson, C. 180 Johnson, D. 351, 353 Johnson, D. M. 371, 376, 615, 621 Johnson, H. G. 262, 277 Johnson, J. 790 Johnson, J. C. 219, 227 Johnson, J. S. 830, 832 Johnson, K. O. 867, 879 Johnson, M. 656, 662 Johnson, M. G. 655, 662 Johnson, M. H. 129, 137 Johnson, M. K. 25, 30, 570, 575, 589, 598, 687, 696, 702 Johnson, N. S. 233, 243 Johnson, P. 362, 365 Johnson, R. 653, 662 Johnson, R. E. 708, 710, 728 Johnson-Laird, P. N. 8, 13, 24, 31, 87, 90, 113, 114, 135, 140, 241, 243, 383, 387, 393, 396, 400, 401, 406, 408, 411, 420, 471, 489, 496, 497, 498, 501, 505, 506, 507, 508, 509, 510, 511, 513, 514, 515, 516, 517, 537, 538, 541, 542, 566, 569, 573, 575, 576, 579, 580, 586, 623, 624, 626, 629, 630, 666, 676, 683, 684, 689, 702, 704 Johnston, J. 794, 799 Johnston, J. R. 377, 378, 395
Johnston, R. S. 880 Jolicoeur, P. 383, 395 Jolla, A. 799 Jones, C. R. 648, 650 Jones, D. 363, 366, 803, 810 Jones, E. E. 599, 644, 650 Jones, E. G. 75, 78, 79 Jones, G. M. 188 Jones, L. E. 663 Jones, P. E. 62, 76 Jones, R. M. 350, 353 Jones, R. S. 128, 136 Jones, S. 54 Jones-Gotman, M. 67, 76 Jonides, J. 388, 394 Jo´nsdo´ttir, H. 801 Joos, M. 168 Jordan, M. I. 224, 227 Jordens, P. 827, 831, 832, 833 Joseph, J. S. 610, 619 Josephs, O. 189 Joshi, A. 413, 414, 420, 670, 676 Joshi, A. K. 618 Jossmann, P. 463, 467 Jou, J. 248, 250 Judowitsch, P. J. 22, 31 Juliano, C. 135, 137, 301, 305, 529, 532 Junefelt, K. 735, 750 Jung, B. 366 Jungblut, A. 582, 586 Junghöfer, M. 168, 178 Jürgens, H. 125, 140 Jürgens, U. 45, 46, 47, 52, 55, 56, 57, 61, 62, 63, 77, 761 Jusczyk, P. 54, 84, 90, 467, 562, 793, 799 Jusczyk, P. W. 62, 79, 518, 523, 782, 784, 789, 790 Just, M. A. 71, 72, 74, 77, 86, 90, 133, 138, 153, 156, 164, 165, 186, 189, 245, 246, 250, 498, 499, 502, 541, 542, 568, 575, 604, 675
K Kächele, H. 489, 702 Kafka, F. 444, 445 Kahneman, D. 250, 363, 366 Kainz, F. 18, 27, 31 Kalbermatten, U. 288, 290 Kalish, C. W. 637, 641 Kallmeyer, W. 97, 98, 101, 104, 214, 215, 227, 282, 292, 444, 452, 813, 818 Kamas, E. N. 429, 430 Kamenetsky, S. B. 468 Kamoto, Y. 55 Kamp, H. 404, 408, 509, 517, 552, 563 Kämpf, U. 371, 375
Kandel, E. R. 64, 77, 604, 606, 607 Kanngießer, S. 27, 30, 31, 305, 376 Kanouse, D. E. 599 Kant, I. 632, 641 Kaplan, B. 18, 28, 33 Kaplan, C. A. 127, 141 Kaplan, J. 659, 660 Kaplan, R. M. 83, 90, 134, 138, 304, 305, 494, 499, 500 Kaplan, S. 280, 294 Kapur, S. 79 Karbe, H. 55 Karmiloff-Smith, A. 26, 28, 31, 129, 137, 798, 799, 800 Karni, A. 75 Karni, V. P. 188 Karsh, R. 144, 156, 165 Karttunen, L. 531 Kartunnen, L. 504 Käsermann, M.-L. 594, 599 Kasik, D. J. 864, 879 Kasper, G. 230, 232, 241, 243, 432, 433, 434, 440, 441, 442 Kassel N. 878 Kasten, I. 478, 488 Katigbak, M. S. 700 Katz, A. N. 658, 660, 662 Katz, B. 689, 702 Katz, J. 77 Katz, J. J. 21, 31, 408, 655, 662 Katz, L. 189 Katz, S. 234, 241, 386, 388, 392, 394, 395 Kaufman, L. 165, 396, 523 Kaup, B. 515, 517, 625, 630 Kavanagh, J. F. 54, 55, 56, 522 Kawamoto, A. 495, 500 Kawamoto, A. H. 129, 139, 350, 353 Kawasaki, H. 548, 564 Kay, P. 521, 523 Kay, R. F. 42, 55 Kaysar, B. 662 Keeler, W. R. 747, 750 Keenan, E. L. 819, 832 Keenan, J. M. 535, 543 Keenan, L. N. 362, 365 Keesing, R. M. 111, 113 Kegel, A. 862 Kegel, G. 21, 31, 811 Kehrer, L. 200 Keidel, W. D. 69, 70, 71, 77 Keinan, G. 697, 702 Kekelis, L. S. 730, 731, 737, 742, 743, 744, 747, 749, 750 Kellas, G. 570, 577, 614, 620 Keller, E. 91, 338, 354 Keller, H. 467, 789 Keller, J. 708, 711, 712, 714, 727, 728 Keller, R. 599
916 Keller, T. A. 77, 186, 189 Kelley, E. C. 648, 651 Kelley, H. H. 590, 599, 635, 636, 641 Kello, C. T. 350, 353 Kellogg, R. T. 248, 250, 355, 361, 362, 363, 364, 366, 367 Kelter, S. 515, 517 Kemmerer, D. 389, 395 Kemp, S. M. 402, 409 Kempe, V. 601, 608 Kempen, G. 82, 83, 90, 131, 134, 137, 138, 221, 222, 226, 227, 229, 237, 239, 241, 242, 243, 295, 299, 301, 305, 335, 337, 415, 420, 706, 723, 728 Kemper, S. 248, 250, 251, 656, 662, 812, 813, 817, 818 Kempff, H. J. 498, 502, 568, 576 Kempton, W. 521, 523 Kendall, P. C. 490 Kendon, A. 262, 269, 270, 273, 275, 277 Kennedy, A. 138, 139, 140 Kennedy, R. S. 166 Kent, R. D. 71, 77 Kentish, J. 704 Kenyon, R. 878 Kerman, K. 107 Kerr, P. W. 133, 139 Kertesz, A. 67, 77, 78, 188, 554, 562, 682, 700, 818 Kerzel, D. 635, 641 Kesner, R. P. 77 Kess, J. F. 612, 613, 614, 619 Kessler, J. 55 Kessler, K. 196, 201, 684, 702 Ketter, T. A. 701 Keysar, B. 248, 249, 250, 368, 375, 613, 614, 619, 665, 656, 661 Kiang, N. Y. S. 71, 77 Kibble, R. 403, 404, 408 Kiefer, M. 171, 179, 219, 227, 286, 292, 369, 371, 372, 374, 375, 376, 609, 620 Kieras, D. E. 245, 251 Kiesler, S. 845, 853 Kiessling, A. 561 Kikstra, G. 259, 260 Kilian, E. 236, 242, 366, 389, 393, 452 Killion, T. H. 195, 200 Kim, M.-S. 434, 441 Kim, S.-G. 555, 564 Kimball, J. 408 Kimball, K. A. 165 Kimbrell, T. A. 701 Kimmig, H. 164 Kimura, D. 66, 77, 269, 277 Kindel, A. 859, 861 Kinder, A. 130, 138 Kindt, W. 286, 292, 307, 308, 309, 315, 316
Namenregister King, D. W. 77 King, J. W. 67, 78, 173, 174, 178, 179, 672, 673, 674, 675, 676 Kingston, J. 547, 563 Kinoshita, S. 492, 504 Kinsbourne, M. 155, 166 Kintsch, W. 86, 87, 88, 90, 134, 139, 237, 243, 290, 363, 365, 411, 420, 422, 423, 427, 428, 429, 430, 431, 494, 495,, 496, 497, 498, 499, 501, 503, 504, 505, 509, 510, 516, 517, 532, 536, 537, 538, 539, 540, 541, 542, 543, 544, 567, 573, 574, 575, 579, 580, 587, 614, 622, 623, 626, 628, 630, 639, 640, 641, 642, 643, 646, 649, 650, 651, 683, 689, 702 Kiritani, S. 213, 227 Kirsch, I. 582, 586 Kirsch, J. 58, 77 Kirson, D. 706 Kirzinger, A. 55 Kischka, U. 729 Kiss, K. 551, 563 Kiss, T. 561 Kita, S. 113 Kittay, E. F. 655, 662 Kitzinger, M. 731, 741, 747, 751 Klabunde, R. 91, 260, 305, 306, 378, 379, 395, 452 Klann-Delius, G. 94, 97, 98, 101, 103, 104 Klapp, S. T. 350, 353 Klatt, D. 560, 563 Klatt, D. H. 56, 209, 210, 211, 493, 501 Klatt, L. C. 210, 211 Klatzky, R. 380, 381, 395 Klatzky, R. L. 865, 867, 879 Klawan, D. 55 Klein, R. 372, 375 Klein, W. 97, 98, 101, 104, 233, 238, 243,, 293, 310, 311, 315, 316, 356, 367, 377, 378, 379, 381, 388, 389, 390, 394, 395, 398, 411, 420, 421, 448, 449, 452, 453, 535, 543, 600, 620, 667, 676, 820, 822, 823, 824, 825, 826, 828, 829, 832 Kleinginna, A. M. 470, 489 Kleinginna, P. R. 470, 489 Kleinman, D. 670, 675 Kleist, K. 777, 780 Klicpera, C. 801, 806, 811 Kliegl, R. 613, 620 Klima, E. S. 262, 276, 404, 408, 708, 714, 719, 725, 727, 728, 729 Klimsa, P. 587 Klin, C. M. 498, 501, 502, 627, 630, 640, 641
Klineberg, O. 106, 113 Klinke, R. 76 Klitz, T. S. 133, 139 Klitzke, D. 131, 139 Klix, F. 279, 292, 454, 467, 537, 541, 542, 543, 544, 619, 642, 758, 761, 764, 773, 774, 775, 780, 781 Klose, U. 565 Kluender, K. R. 519, 522 Kluender, R. 172, 179 Klug, F. 703 Kluge, F. 383, 395 Kluwe, R. H. 245, 250, 251, 360, 367 Knauff, M. 384, 397 Knobloch, C. 16, 17, 18, 19, 31, 33, 355, 362, 367 Knoll, R. L. 247, 251 Knorr, D. 364, 365, 440 Knox, N. 657, 662 Koblitz, G. 708, 727 Koch, P. 96, 104, 356, 367, 845, 853 Koch, S. 32 Koch, W. 235, 243, 337 Kochendörfer, G. 81, 90 Koebbel, P. 703 Koelbing, H. G. 219, 227, 286, 292, 368, 369, 609, 620 Koenig, W. 205, 211 Koerner, K. 31 Koevecses, Z. 686, 702 Koff, E. 680, 699 Koffka, K. 281, 292 Köhler, G. 652, 662 Kohler, K. 550, 559, 560, 563 Köhler, R. 306, 338 Köhler, S. 850, 853 Kohlhase, M. 281, 290 Kohlmann, U. 368, 376 Kohonen, T. 128, 139 Koivumaki, J. H. 707 Kojima, H. 55 Kolers, P. A. 156, 166 Kolk, H. 335, 337 Kolk, H. H. J. 258, 261 Kompe, R. 561 Kondo, R. 55 König, E. 551, 563 Konishi, J. 55, 188 Kooij, J. G. 613, 620 Koons, D. 166 Kopiez, R. 459, 467 Koriat, A. 604, 605, 607 Kornadt, H. J. 226, 291, 293, 368, 375, 376, 393 Kornblum, S. 179, 191, 201, 250, 516 Kosslyn, S. M. 7, 13, 384, 395, 578, 579, 586 Koster, C. 450, 451 Koster, W. G. 141
917
Namenregister Kostic, A. 492, 501 Kotval, X. P. 159, 165 Kounios, J. 170, 179 Kouroupetroglou, G. 345, 562, 565 Kövecses, Z. 482, 489 Kowal, S. 92, 96, 99, 102, 104, 105, 106 Kowler, E. 608 Koyama, S. 169, 179 Kozloff, M. 282, 293 Kraemer, M. 155, 168 Krahe´, B. 292 Krainitzki, H. 55 Kramer, D. C. 626, 630 Kramer, U. 818 Krashen, S. 839, 844 Krashen, S. D. 819, 826, 832 Krauss, R. M. 269, 274, 278, 285, 292, 368, 375, 594, 599, 615, 620 Kraut, R. E. 851, 852 Krems, J. 587 Kreuz, R. J. 642, 658, 662 Kriege, E. 692, 703 Krings, H. P. 242, 243, 366, 452 Krings, M. 43, 55 Kritchevsky, M. 391, 395 Kroeber-Riel, W. 860, 861 Krogh, A. 128, 138 Krolak-Schwerdt, S. 645, 648, 651 Kroll, J. F. 727 Kroska, A. 684, 703 Krout, M. H. 265, 266, 277 Krueger, M. A. 494, 504 Krüger, U. M. 855, 861 Krüger, W. 866, 879 Kruglanski, A. W. 645, 651 Kruijff, G. J. M. 408 Krumhansl, C. L. 132, 139, 611, 620 Kubozono, H. 329, 337 Kuczaj, S. A. 378, 393, 395 Kuhl, P. 50, 55, 793, 800 Kuhl, P. K. 69, 77, 518, 523, 782, 784, 789 Kuhlmann, C. 855, 861 Kühlwein, W. 662 Kuhn, J. 551, 562, 563 Kuhn, T. S. 598, 599 Kuhn, W. 393 Kühnert, W. 18, 31 Kulhavy, R. W. 586, 587 Kulik, L. 391, 393 Külpe, O. 17 Kumar, S. K. 165 Kummer, H. 633, 641 Kunczik, M. 857, 861 Kundel, H. L. 166 Künnapas, T. 384, 395 Küntay, A. 790 Kunze, J. 899
Kupietz, M. 256, 260, 302, 373, 375 Kurp, C. 749 Kursch, C. O. 598, 599 Kurtzman, H. S. 406, 408 Kußmaul, P. 441, 600 Kutas, M. 61, 67, 71, 75, 77, 78, 79, 168, 169, 170, 171, 172, 173, 174, 176, 178, 179, 181, 494, 505, 614, 622, 672, 673, 674, 675, 676, 677 Küttel, H. 804, 810 Kwong See, S. T. 816, 818 Kydd, C. T. 850, 853 Kyle, J. G. 710, 729 Kynette, D. 248, 250, 251, 818
L La Fave, L. 653, 654, 662 Labov, W. 233, 243, 285, 287, 292, 385, 386, 389, 395, 396, 446, 452, 617, 620 Labtec. 3D Motion Control Technology Group 868, 879 Lacerda, F. 792, 793, 800 Lacey, L. Y. 205, 211 Lachman, J. L. 424, 429 Lachman, R. 424, 429 Lachnit, H. 178 Ladd, D. R. 680, 703, 705 Ladd, R. 545, 550, 561, 563 Ladefoged, P. 93, 105 Lado, R. 841, 844 Lagoze, C. 899 LaHeij, W. 255, 256, 260 Lahiri, A. 350, 354, 551, 563 Lahr, H. von der 860, 861 Laidlaw, D. H. 880 Laine, M. 328, 338 Laing, R. D. 590, 599 Laitman, J. T. 42, 55, 56 Lakatos, I. 214, 227 Lakoff, G. 230, 242, 284, 286, 290, 291, 383, 387, 390, 395, 406, 408, 433, 435, 440, 617, 620, 656, 662 Laks, B. 562 Lalleman, J. 831, 832, 833 Lalwani, A. 75, 188 Lalwani, A. L. 211 Lamb, M. E. 114 Lamb, S. M. 11, 13 Lambert, M. 451, 453 Lambert, R. H. 158, 166 Lambert, W. W. 113 Lamers, M. 672, 677 Lampert, M. D. 93, 97, 103, 104, 105 Lancaster, J. C. 56 Land, M. F. 142, 166
Landau, B. 378, 384, 395, 496, 501, 730, 731, 735, 738, 745, 746, 747, 751 Landauer, T. K. 540, 541, 543 Landis, S. C. 75 Lane, H. 521, 523, 707, 727 Lang, E. 390, 391, 393, 395 Lang, F. 80 Lang, K. L. 422, 425, 430 Lang, M. A. 752 Langacker, R. W. 526, 531, 605, 607 Lange, L. 194, 201 Langenmayr, A. 93, 105 Langer, J. A. 362, 367 Langer, L. 534, 543 Langston, M. C. 505, 512, 517, 627, 631, 643, 651 Langston, W. 626, 630 Langston, W. E. 497, 501, 515, 516 Lanier, J. 863, 879 Lanius, K. 454, 467, 764, 773, 774, 780 Lantermann, E. D. 282, 283, 287, 290, 292 Lantz, E. 864, 866, 867, 879 Lanza, E. 801 Lanzetta, J. T. 704 Lapp, E. 657, 658, 659, 662 Largy, P. 363, 365 Larkin, K. M. 426, 430 Laroche, J. 559, 564 Larson, C. R. 44, 56, 57 Lashley, K. S. 19, 20, 31 Lassila, O. 893, 899 Lattanzi, K. M. 383, 392 Laubenstein, U. 252, 256, 260, 301, 302, 306, 334, 335, 338 Laucht, M. 230, 243, 284, 291, 437, 609, 611, 619 Laudanna, A. 492, 493, 499, 501 Lauffer, J. 861 Lauffs, I. 467 Laurentius, A. 148, 166 Lausberg, H. 444, 452 Lauterbach, W. 391, 397 Lauth, G. W. 749 Laver, J. D. M. 347, 352 LaViola, J. J. 880 Lavric, E. 593, 594, 599 Lavy, E. 703 Lawson, D. S. 171, 180, 728 Lazarsfeld, P. F. 856, 861 Lazarus, R. S. 688, 703 Lazerus, M. 16 Le Bihan, D. 182, 188, 189 Lea, J. 363, 367 Lea, R. B. 617, 620 Leakey, R. 38, 56 Leaman, R. 381, 397 Lear, A. C. 877, 879 Leben, W. 545, 563
918 Lebeth, K. 299, 304 Lebrun, Y. 64, 67, 77 Lechner-Steinleitner, S. 381, 395 Lecours, A. R. 81, 91 Lederman, S. J. 865, 867, 879 LeDoux, J. E. 471, 476, 489, 678, 703 Ledoux, K. 616, 619 Lee, A. 747, 750 Lee, Ch. J. 658, 662 Lee, G. P. 77 Lee, P. 793, 800 Lee, S. 699 Lee, A. R. 590, 599 Leech, G. 93, 103, 105 Leech, G. N. 378, 381, 396, 434, 441 Leger, D. W. 56, 699 Legge, G. E. 133, 139, 602, 606 Lehiste, I. 546, 563 Lehnert, W. G. 422, 423, 424, 427, 430 Lehricy, S. 188 Leich, H. 559, 562 Leiman, A. L. 58, 78 Leiman, J. M. 494, 504 Leischner, A. 269, 277 Leiwo, M. 801 Leleux, C. 64, 67, 77 Lem, S. 863, 879 Lemaire, P. 363, 365 LeMay, M. 39, 40, 56 Lenerz, J. 286, 292, 316 Lenk, H. 441 Lenneberg, E. 21, 793, 800, 830, 832 Lennerstrand, G. 167 LeNy, J. F. 290, 499 Leon, I. 700 Leont’ev, A. A. 18, 20, 23, 28, 29, 31 Leopold, W. F. 22, 31, 800 Lepecq, J. 388, 397 Lesch, M. 603, 608 Lesgold, A. M. 535, 543, 573, 575 Leslie, A. M. 634, 642 Lesser, R. P. 67, 77 Leßmöllmann, A. 391, 393, 396 Lethmate, J. 761, 780 Lettich, E. 76, 78 Leuninger, H. 318, 337, 708, 709, 710, 712, 713, 714, 716, 718, 723, 724, 727, 728, 729 Leve, C. 432, 441 Levelt, W. J. M. 23, 27, 28, 30, 31, 32, 83, 84, 88, 91, 105, 130, 135, 136, 139, 177, 214, 215, 216, 218, 219, 220, 221, 222, 226, 227, 228, 229, 232, 233, 234, 237, 239, 240, 241, 243, 246, 251, 252, 253, 254, 255, 256, 257, 260, 261, 285,
Namenregister 292, 294, 295, 299, 300, 301, 304, 305, 306, 316, 320, 324, 333, 334, 335, 337, 338, 346, 347, 348, 349, 350, 351, 353, 354, 355, 363, 365, 367, 380, 381, 386, 393, 396, 397, 408, 410, 411, 412, 413, 414, 415, 417, 419, 420, 421, 443, 448, 452, 466, 467, 476, 477, 478, 480, 481, 482, 484, 485, 489, 615, 618, 619, 620, 679, 703, 706, 719, 722, 728, 791, 800, 801 Levenston, E. 434, 441 Leventhal, H. 486, 489, 687, 703 Lever, J. 564 Levin, H. 287, 292 Levin, J. R. 587 Levine, J. D. 852 Levine, J. M. 440 Levine, W. H. 627, 630 Levinson, S. 434, 435, 438, 440, 793, 797, 799, 800 Levinson, S. C. 111, 112, 113, 215, 216, 226, 227, 286, 290, 380, 381, 396, 658, 662 Levitsky, W. 67, 76 Levrier, O. 189 Levy, C. M. 360, 362, 363, 364, 365, 366, 367, 810, 811 Levy, E. 421, 452, 616, 620 Levy-Schoen, A. 607 Lewandowsky, S. 430 Lewin, K. 282, 288, 289, 292 Lewin, R. 38, 56 Lewine, J. D. 188, 189 Lewis, M. 705 Lewis, V. 750, 751, 752 Leyens, J. 648, 651 Li, C. N. 338, 419 Li, J. 384, 396 Liberman, A. 547, 563 Liberman, A. M. 518, 519, 520, 521, 522, 523, 680, 703 Liceras, J. M. 819, 832 Licher-Eversmann, G. 749 Lichtheim, L. 89, 91 Licklider, J. C. R. 275, 277 Liddell, S. K. 710, 728 Lieb, H. H. 32 Lieberman, F. 454, 467 Lieberman, P. H. 40, 41, 42, 43, 56 Liebermann, P. 545, 563 Liebertz, P. 235, 244 Liedtke, F. 316, 599 Lienert, G. A. 117, 123, 124 Lieven, E. 796, 800 Lieven, E. V. M. 790 Light, L. L. 817, 818 Lillo-Martin, D. 708, 712, 713, 725, 727, 728, 729 Lim, L. 154, 166
Lima, S. D. 656, 662 Lin, C. R. 877, 879 Lincoln, J. E. 145, 154, 164 Lindamood, T. 169, 179 Lindauer, B. K. 570, 576 Lindauer, M. 753, 780 Lindblom, B. 55, 792, 793, 800 Linde, C. 233, 243, 285, 292, 385, 386, 387, 389, 396 Lindem, K. 497, 501, 510, 516, 573, 575, 617, 619, 625, 630 Lindeman, R. C. 56, 57 Lindenmayer, A. 870, 880 Lindqvist, C. 383, 396 Lindzey, G. 650, 651 Linebarger, M. C. 494, 501 Linell, P. 329, 337, 801 Lingleton, J. 277 Link, G. 406, 408 Linnemann, M. 810 Liotti, M. 72, 77 Lipe, M. G. 636, 642 Lipets, M. S. 707 Lisker, L. 84, 91, 546, 563 Liskowsky, R. 167 Littman, J. R. 653, 662 Littman, M. L. 613, 619 Liu, A. 160, 163, 166 Liversedge, S. P. 495, 502 Livesley, W. J. 648, 651 Llewellyn, K. R. 144, 164 Lloret, M. R. 336 Lloyd, B. 13 Lloyd, B. B. 517, 587 Lo Piparo, F. 337 Lobin, H. 892, 899 Lock, A. 752 Locke, J. L. 50, 51, 56, 751, 784, 790 Loeb, F. R. 272, 277 Loewenfeld, I. E. 152, 166 Loewer, B. 14 Loewer, M. 789 Loftin, R. B. 877, 879 Loftus, G. R. 157, 166 Logan, G. D. 382, 383, 384, 396 Logie, R. H. 393, 397, 515, 517 Lohmann, G. 187 Londeree, B. R. 201 Long, D. L. 498, 501, 653, 661, 662 Long, J. 499, 618 Long, T. E. J. 660 Longuet-Higgins, S. 243 Lonner, W. J. 106, 108, 113 Loomis, J. M. 385, 396 Lopez-Montez, G. M. 850, 853 Lorblanchet, M. 36, 56 Lorch Jr., R. F. 424, 429, 430 Lorente, M. 336 Lories, G. 426, 430 Loring, D. W. 67, 77 Lötscher, A. 443, 452
919
Namenregister Loughlin, P. J. 206, 211 Lounsbury, F. 19, 20 Lovelace, K. L. 389, 396 Lowe, W. F. 165 Lowenstein, O. 152, 166 Loyall, A. B. 875, 879 Lucas, M. 570, 575 Lucas, S. A. 730, 734, 751 Luce, P. A. 493, 503 Luce, R. D. 32, 131, 132, 139, 190, 199, 200, 201 Luciani, N. 331, 337 Lück, H. E. 30 Luckmann, T. 816, 818 Lucy, J. A. 111, 112, 113 Lucy, P. 656, 660 Ludewig, P. 392, 395 Ludwig, O. 31, 104, 355, 356, 365, 366, 367, 368, 810, 811 Lüer, G. 8, 13, 124 Luff, P. 849, 851, 852, 853 Lukatela, G. 492, 501 Lullies, H. 76 Lupker, S. 195, 200 Luria, A. R. 279, 282, 292 Luria, S. M. 610, 620 Lurija, A. R. 22, 28, 31 Lütgehetmann, R. 699 Lutzeier, P. R. 384, 396 Lutzenberger, W. 78, 168, 170 Lycan, W. G.13 Lynch, G. 853 Lynch, K. 388, 396 Lyons, J. 243, 286, 292, 586
M Maas, U. 18, 31, 658, 662 Maass, A. 649, 651 Macar, F. 169, 178 MacDonald, J. 521, 523 MacDonald, M. 679, 703 MacDonald, M. C. 116, 124, 406, 408, 494, 495, 502, 524, 531, 671, 676 Macedonia, M. R. 866, 879 Machlup, F. 13 Macintyre, B. 866, 879 MacKay, D. 346, 353 MacKay, D. G. 91, 136, 139, 301, 302, 306, 319, 322, 334, 335, 337, 614, 620, Macken, M. A. 50, 56 Mackie, J. L. 632, 642 MacKinnon, G. E. 504 Mackworth, N. H. 157, 166 Maclay, H. 94, 105 MacLeod, C. 678, 694, 695, 696, 697, 703 MacNamara, J. 800 MacNealy, M. S. 642 MacNeilage, P. 93, 105
MacNeilage, P. F. 50, 51, 54, 354, 460, 467, 523 MacNeisch, J. H. 452 MacRae, A. W. 122, 124 MacWhinney, B. 31, 93, 94, 97, 98, 101, 105, 413, 421, 495, 502, 613, 620, 671, 676, 789, 790, 792, 793, 800 Madden, E. H. 633, 641 Maddieson, I. 550, 563 Maelicke, A. 168 Maesen, W. 662 Maess, B. 76 Magenat-Thalmann, N. 879, 880 Magliano, J. P. 497, 498, 502, 504, 512, 513, 517, 541, 542, 544, 627, 631, 639, 640, 642, 643 Magno Caldognetto, E. 327, 330, 331, 337 Magnuson, J. S. 499 Maher, B. A. 645, 651 Mahl, G. F. 265, 266.272, 273, 278 Mahowald, M. W. 56 Mai, N. 809, 811 Maienborn, C. 300, 305 Maier, S. 88, 91 Maiworm, R. E. 60, 77 Majaranta, P. 165 Mak, P. 260 Malcuit, G. 789 Malgady, R. G. 655, 662 Malinowski, B. 106, 107, 113, 114 Mallot, H. A. 164 Mandelbrot, B. B. 870, 879 Mandl, H. 117, 124, 367, 431, 490, 532, 534, 542, 587, 858, 860 Mandler, J. M. 233, 243, 535, 543 Manfredi, D. A. 655, 656, 661 Mangner, T. J. 189 Mangold, R. 285, 291, 292, 294, 369, 370, 371, 375, 376, 389, 438, 441, 442, 599, 610, 611, 620, 856, 861 Mangold-Allwinn, R. 219, 226, 227, 285, 286, 291, 293, 368, 368, 369, 371, 372, 374, 375, 376, 393, 472, 489, 609, 615, 619, 620, 684, 687, 703 Mangun, G. R. 172, 179, 180, 494, 502 Mani, K. 507, 511, 517, 623, 624, 630 Mann, C. W. 381, 396 Mann, L. 463, 467 Mann, R. L. E. 694, 704 Mann, T. 643 Mann, W. C. 226, 242 Mannell, R. C. 654, 662
Mannes, S. 452 Mannhaupt, G. 801, 811 Mannhaupt, H.-R. 684, 703 Mansell, P. 339, 346 Mansfield, J. S. 602, 606 Mansfield, U. 13 Marasek, K. 549, 562, 563 Maratsos, M. P. 378, 395 Marbe, K. 17, 33 Marcel, A. C. 251 Marchiori, M. 893, 899 Marchman, V. 796, 799, 800 Marchman, V. A. 136, 140, Marcinkowski, F. 855, 861 Marcq, P. 381, 396 Marcus, M. P. 134, 139, 175, 180 Marek, P. 363, 367 Margulis, L. 766, 780 Marini, V. 804, 811 Mark, D. M. 396 Markel, J. D. 204, 209, 211 Markham, D. 545, 563 Markkanen, R. 286, 289, 292 Markl, H. 763, 780 Marko, H. 396 Markova´, I. 215, 227, 294 Markowitsch, H. J. 686, 703 Markus, L. 848, 852 Marler, P. 44, 45, 47, 55, 56, 61, 77 Marquardsen, D. 640, 642 Marquardt, C. 809, 811 Marr, D. 10, 13, 125, 128, 131, 139, 144, 166 Marr, W. A. 276 Marshack, A. 36, 56 Marshall, C. R. 612, 618 Marshall, J. 337 Marshall, J. C. 91, 610, 619, 703, 810, 811, 818 Marschark, M. 393, 655, 662 Marslen-Wilson, W. 413, 414, 421, 450, 452, 616, 620 Marslen-Wilson, W. D. 63, 71, 77, 85, 86, 91, 134, 137, 139, 493, 495, 500, 502, 505, 524, 527, 531, 532, 537, 541, 543 Martin, C. 699 Martin, I. 166, 167 Martin, J. E. 370, 376 Martin, M. 614, 620 Martin, N. 260, 324, 337, 352 Martin, R. 54 Martin, R. C. 261 Martinez, A. 79 Martino, G. 692, 700 Martinsen, H. 731, 745, 752 Marwell, G. 280, 292 Marx, E. 246, 251 Marx, W. 684, 703 Masataka, N. 45, 50, 56 Mascolo, M. F. 385, 394
920 Mason, R. A. 502, 617, 620 Massaro, D. W. 129, 131, 132, 139, 197, 201, 520, 521, 523, 615, 620, 681, 703 Mast, M. 561 Masuhara, S. 464, 468 Matergeorge, A. M. 276 Mathews, A. 693, 695, 696, 703, 704 Matin, L. 381, 382, 396 Matsuhashi, A. 362, 365, 367 Mattes, S. 194, 202 Mattheier, K. J. 105 Matthews, G. 694, 695, 704 Mattingley, G. 680, 703 Mattingly, I. G. 519, 520, 523, 728 Matzke, M. 174, 180 Mauguiere, F. 179 Mausfeld, R. 123, 180 May, J. 703, 704 May, J. G. 155, 166 May, M. 641, 642 Mayer, C. 720, 728 Mayer, J. 340, 341, 345, 467, 548, 551, 552, 553, 555, 558, 559, 561, 562, 563, 564 Mayer, K. 17, 31, 317, 318, 337 Mayer, M. 109, 113 Mayer, R. E. 120, 124, 585, 586, 860, 861 Mayet, A. 79 Mayr, E. 753, 780 Mayring, P. 470, 490 Mazoyer, B. M. 185, 186, 189 McCallum, W. L. 179 McCann, C. D. 694, 701 McCann, R. 133, 136 McCann, R. S. 219, 227 McCarrell, N. 30 McCarrell, N. S. 507, 510, 516, 569, 574 McCarthy, G. 72, 77, 78, 169, 170, 178, 180, 186, 189 McCarthy, J. C. 849, 850, 853 McCarthy, K. 662 McCarthy, O. 168, 178 McCarthy, R. 397 McClave, E. 274, 278 McClelland, J. L. 9, 14, 24, 32, 83, 84, 85, 86, 87, 89, 91, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 138, 139, 140, 141, 142, 193, 196, 197, 201, 413, 421, 422, 427, 429, 431, 493, 494, 495, 502, 503, 567, 576, 602, 607, 613, 614, 620, 676 McCloskey, M. 425, 426, 427, 430, 635, 642 McClure, K. 165 McCombs, M. E. 856, 861 McConachie, H. R. 732, 734, 735, 742, 743, 744, 751
Namenregister McConkie, G. W. 133, 139, 156, 164, 166, 603, 608 McCulloch, W. S. 54, 125, 139 McCutchen, D. 361, 367 McDonald, J. E. 140 McDonald, J. L. 656, 662 McDonald, K. 57 McDonald, S. 692, 704 McElree, B. 193, 201, 314, 316 McGhee, P. E. 660, 662, 664 McGinn, C. 508, 517 McGinnis, A. R. 739, 746, 751 McGinnis, M. 751 McGlone, J. 67, 77 McGlone, M. S. 655, 656, 661 McGurk, H. 521, 523 McHugo, G. J. 685, 704 McIntire, M. L. 713, 729 McKenzie, B. E. 522 McKinnon, R. 174, 180 McKoon, G. 127, 140, 199, 200, 201, 495, 498, 502, 509, 511, 512, 517, 539, 543, 566, 567, 568, 569, 570, 571, 572, 574, 575, 576, 605, 607 McLaughlin, J. 674, 676 McLeod, P. J. 790 McLuhan, M. 860, 861 McMahon, L. 654, 662 McNally, L. 531 McNally, R. J. 694, 695, 701, 704 McNamara, T. P. 385, 388, 396 McNeely, W. A. 869, 879 McNeill, D. 274, 275, 276, 277, 278 McQueen, J. M. 130, 140, 492, 493, 499, 502 McRae, K. 495, 502 McRoy, S. W. 134, 140 Meader, C. L. 32 Meador, K. J. 77 Meas, P. 875, 879 Mecklinger, A. 171, 174, 179, 181, 494, 500, 675, 676 Medinn, D. L. 637, 641 Medvedev, S. V. 61, 75 Meggle, G. 290, 375, 599 Meglan, D. 865, 869, 877, 879 Mehler, J. 188, 189, 326, 336, 350, 352, 493, 504, 614, 618, 799 Mehrabian, A. 690, 707 Meier, C. 106, 850, 851, 852, 853 Meier, R. 728 Meijer, P. J. A. 349, 353 Meinecke, C. 200 Meisel, J. M. 823, 827, 831, 832 Meiser, T. 123, 180 Mellish, C. 305 Meltzoff, A. 793, 800 Meltzoff, A. N. 782, 784, 789 Melville, D. 880
Meng, K. 796, 800 Meng, M. 315 Menn, L. 544, 564 Menon, R. S. 555, 564 Menozzi, P. 54 Menz, C. 164, 165 Menzel, R. 468 Merdian, F. 119, 124 Mergler, N. L. 657, 661 Mergner, T. 164 Meringer, R. 17, 31, 317, 318, 320, 321, 337, 720, 728 Merkel, J. 192, 201 Merrill, D. D. 13 Merten, K. 857, 861 Mervis, C. B. 371, 376, 615, 620, 621 Mesulam, M. 545, 564 Metaxas, D. 874, 879 Me´traux, A. 17, 32 Metzger, W. 285, 292, 390, 396 Metz-Göckel, H. 652, 653, 654, 663 Metzing, D. 281, 292 Metzler, J. 6, 7, 14 Meyer, A. S. 82, 83, 88, 91, 93, 105, 130, 139, 218, 222, 227, 252, 253, 257, 260, 261, 295, 300, 304, 306, 324, 338, 346, 348, 349, 350, 351, 353, 354, 410, 414, 417, 420, 421, 476, 489, 615, 620, 669, 676, 811 Meyer, D. E. 190, 192, 195, 201, 245, 250, 251, 516, 614, 621 Meyer, E. 184, 189, 565 Meyer, J. R. 232, 243 Meyer, J. R. 435, 439, 441 Meyer, M. 174, 181, 184, 185, 186, 187, 188, 189, 343, 344, 345, 346, 497, 501, 510, 516, 533, 543, 575, 575, 617, 619, 625, 630, 675 Meyer, W. U. 678, 680, 685, 704 Meyer-Hentschel, G. 860, 861 Meyer-Hermann, R. 316 Miceli, G. 804, 805 Michels, K. M. 120, 124 Michotte, A. 634, 636, 642 Mickasch, H. D. 144, 148, 149, 166 Middlebrooks, J. C. 865, 872, 879 Miecznikowski, A. 731, 747, 751 Milde, J. T. 281, 292 Miles, V. C. 849, 853 Mill, J. S. 632, 642 Miller, C. A. 258, 260 Miller, D. T. 696, 704 Miller, G. 383, 387, 396, 499 Miller, G. A. 5, 13, 19, 21, 22, 23, 26, 32, 125, 126, 135, 136, 140, 412, 421, 507, 517 Miller, J. 194, 196, 202, 202
921
Namenregister Miller, J. D. 69, 77, 78 Miller, J. L. 419, 519, 522, 532 Miller, J. R. 536, 543, 570, 576 Miller, M. B. 429, 430 Miller, R. 30 Miller, R. S. 621 Miller, S. A. 731, 735, 751 Miller, T. 704 Millis, K. K. 495, 498, 501, 502, 569, 575, 580, 586, 640, 642, 647, 650, 675, 676 Mills, A. 750 Mills, A. E. 730, 734, 751, 752 Mills, D. L. 171, 180 Minsky, M. 9, 13 Minsky, M. L. 91, 125, 126, 128, 131, 140 Minter, M. E. 747, 750 Mintun, M. 78, 374, 376 Mintun, M. A. 56, 184, 188 Mio, J. S. 652, 654, 660, 661, 663 Miozzo, M. 219, 226, 253, 254, 256, 260, 346, 352 Miralles, J. L. 254, 260 Mischel, W. 696, 707 Mishkinsky, M. 654, 663 Mißler, B. 94, 105 Mitani, J. C. 44, 56 Mitchell, C. 107 Mitchell, D. C. 525, 532 Mittelstaedt, H. 381, 396 Miura, T. 157, 166 Miyake, A. 499, 568, 575, 675 Miyatani, M. 169, 179 Miyawaki, K. 519, 521, 523 Miyazato, Y. 169, 179 Miyoshi, H. 195, 202 Moar, K. 616, 621 Möbius, B. 547, 550, 560, 561, 564, 565 Mobley, L. A. 174, 175, 180, 671, 672, 673, 674, 676 Mock, M. U. 894, 898 Moerman, M. 282, 284, 292 Mogg, K. 695, 696, 699, 703, 704 Möhle, D. 836, 844 Möhler, G. 550, 552, 553, 558, 559, 560, 561, 562, 564 Mohler, P. 489, 702 Mohr, G. 236, 243, 245, 251, 285, 290, 432, 435, 437, 440, 441 Mohr, J. P. 186, 189 Mohr, M. 285, 290, 435, 440 Mohrlüder, G. A. 662 Mokros, J. R. 585, 586 Molenaar, P. C. 195, 201 Molfese, D. L. 685, 704 Molitor-Lübbert, S. 355, 364, 365, 367, 440 Möller, J. 860, 861
Monaco, A. P. 76 Monaco, G. E. 566, 575 Monk, A. F. 849, 850, 853 Monsell, S. 88, 91, 199, 201, 245, 247, 251 Monsen, R. B. 205, 211 Montada, L. 291, 292, 750, 780 Montague, R. 221, 227 Montague, W. E. 243, 350, 353 Montello, D. R. 388, 389, 396, 397 Monty, R. A. 164, 165, 166, 167 Mooij, J. J. A. 654, 663 Moore, B. A. 693, 700 Moore, B. C. J. 67, 71, 78 Moore, C. J. 185, 189 Moore, G. P. 211 Moore, G. T. 397, 396 Moore, J. L. 282, 291 Moore, M. 586, 863, 873, 879 Moore, T. E. 621 Moore, V. 732, 734, 735, 742, 743, 744, 751 Morais, J. 499 Morath, M. 50, 56 Moreall, J. 652, 663 Moretti, M. M. 696, 704 Morgan, J. 563, 564 Morgan, J. L. 291, 293, 408, 619, 661, 800 Morgan, M. 857, 861 Morgenroth, U. 235, 244 Mori, H. 165 Morimoto, C. 152, 166 Moritz, K. P. 15 Morrill, G. V. 408 Morris, C. R. 197, 200 Morris, M. W. 634, 635, 642 Morris, R. K. 570, 575, 603, 608 Morris, W. N. 471, 472, 479, 489, 693, 696, 697, 698, 704 Morrongiello, B. 520, 522 Morrow, D. G. 497, 502, 510, 512, 517, 625, 626, 630 Morton, J. 85, 88, 91, 129, 132, 140, 195, 201, 804, 811 Morton, R. 550, 563 Moscovici, S. 29 Moscovitch, M. 79, 250 Motamedi, S. 859, 862 Motley, M. T. 322, 324, 335, 337 Motsch, W. 305, 391, 443, 452 Moulines, E. 210, 211, 559, 564 Mountain, J. 54 Movellan, R. 130, 140 Moxey, L. M. 401, 402, 403, 404, 405, 408, 409, 496, 503 Mross, E. F. 494, 501, 504, 539, 543, 614, 622 Mudersbach, K. 596, 599 Muecke, D. 658, 663 Mühlendyck, H. 165 Mulac, A. 286, 290
Mulder, G. 169, 174, 179, 189 Mulford, R. 730, 734, 735, 736, 744, 751, 752 Müller, A. 749 Müller, B.-D. 813, 818 Müller, E. 699 Müller, G. E. 381, 382, 396 Müller, H. M. 59, 60, 61, 67, 68, 71, 72, 73, 78, 79, 80, 577, 586, 706, 754, 780 Müller, K. 551, 564 Müller, R.-A. 186, 189 Müller, S. 312, 316 Müller, W. G. 657, 659, 663 Mullin, J. 848, 853 Multhaup, K. 687, 702 Münch, D. 12, 13 Munro, P. 607 Münte, T. F. 61, 78, 169, 172, 174, 175, 176, 177, 178, 179, 180, 181, 464, 468, 494, 502, 672, 675, 676, 677, 679, 705 Murachver, T. 422, 423, 424, 425, 426, 430 Murayama, N. 189 Murcia-Serra, J. 300, 306 Murphy, G. L. 281, 286, 290, 310, 314, 316, 498, 499, 616, 620, 667, 668, 676 Murray, A. D. 787, 790 Murray, D. 377, 394 Murray, D. J. 18, 32 Murray, J. D. 498, 502 Murray, W. S. 495, 502 Murre, J. M. 127, 130, 140 Murro, A. M. 77 Murtha, S. 75 Müsseler, J. 316, 604, 605, 606, 607, 608, 625, 630, 700, 702 Mussen, P. H. 752 Muter, V. 807, 811 Muysken, P. 827, 831 Muzik, O. 189 Myers, G. 93, 103, 105 Myers, J. 498, 501, 502 Myers, J. L. 570, 576, 617, 620
N Näätänen, R. 681, 704 Nadel, L. 113, 379, 388, 396, 489 Nagahama, Y. 55 Nagao, M. 586 Nagata, S. 880 Nageishi, Y. 169, 179 Nagera, H. 731, 747, 751 Nagy, A. 611, 620 Naito, Y. 55 Nakamura, G. V. 648, 650 Nakath, J. 799 Nakhimovsky, A. 497, 502 Napps, S. E. 494, 500
922 Naraez, D. 640, 642 Naremore, R. C. 378, 399 Narendra, K. S. 875, 879 Narens, L. 426, 430 Nasby, W. 696, 704 Nash, J. G. 362 Nattkemper, D. 602, 603, 607, 608 Navarrete, A. 75 Navon, D. 244, 251 Nazir, T. A. 125, 131, 133, 138, 140, 170, 181 Nebes, R. 374, 376 Nebes, R. D. 184, 188 Neely, J. H. 195, 198, 202, 202 Negro, I. 363, 367 Neimark, E. D. 401, 408 Neisser, U. 129, 131, 140, 141, 194, 196, 201, 581, 587, 733, 751 Nelson, D. G. K. 783, 790 Nelson, H. R. 879 Nelson, K. 732, 735, 736, 751 Nelson, T. O. 426, 430 Nelson, W. W. 157, 166 Nemser, W. 819, 832 Neppert, J. 680, 704 Neppert, J. M. H. 521, 523 Neppl, R. 469, 471, 489, 685, 704 Nerhardt, G. 653, 663 Neri, M. 700 Nespor, M. 340, 341, 345, 347, 350, 353, 550, 564 Nespoulous, J.-L. 81, 91, 188 Nestorovic, N. 880 Neuberg, S. L. 648, 650 Neuberger, O. 653, 654, 663 Neumann, F. 468 Neumann, O. 125, 140, 195, 196, 198, 201, 202, 236, 243, 244, 245, 251, 412, 421, 694, 704 Neville, H. 75, 188, 726, 728 Neville, H. J. 169, 171, 172, 174, 175, 179, 180, 494, 502 Newcomb, T. M. 591, 599 Newell, A. 5, 10, 13, 128, 129, 140 Newell, H. 24, 32 Newkirk, D. 714, 728 Newlands, A. 618, 848, 853 Newman, J. 357, 366 Newman, L. 644, 651 Newmeyer, F. J. 226, 242 Newport, E. 711, 725, 729, 819, 830, 832 Newsome, S. L. 132, 140 Newstead, S. E. 400, 401, 408 Nı´ Chasaide, A. 549, 564 Ni, W. 495, 502 Nicklas, H. 593, 599 Nicol, J. 502, 672, 676 Nicol, J. L. 169, 171, 180
Namenregister Niedeggen, M. 170, 171, 177, 178, 180 Niedeggen-Bartke, S. 177, 180 Niedenthal, P. M. 694, 704 Nielsen, J. 161, 166, 890, 899 Niemann, H. 561 Niemeier, S. 469, 488, 489, 490, 700 Niemi, J. 328, 338 Nieumeyer, F. J. 260 Nieuwenhuys, R. 78 Nilsson, L. G. 543 Ninio, A. 787, 790, 791, 800 Nirenberg, J. S. 598, 599 Nirmaier, H. 285, 291, 599 Nisbett, R. 322, 338 Nisbett, R. E. 599, 634, 642 Nishizawa, S. 188 Nissenbaum, H. F. 483, 489 Nißlein, M. 604, 605, 607 Nitsch, K. 33, 569, 574 Noack, P. 227 Noble, W. 34, 56 Nobre, A. C. 72, 78, 170, 180 Noda, A. 247, 251 Nodine, C. F. 157, 166 Noelle-Neumann, E. 854, 858, 862 Noll, D. C. 188 Noordman, L. G. M. 498, 502, 568, 576 Nooteboom, S. 347, 348, 353 Nooteboom, S. G. 321, 322, 323, 329, 334, 338 Nordborg, C. 76 Nordqvist, A. 801 Norgate, S. 737, 740, 751 Norman, D. A. 236, 243, 245, 250, 251, 282, 292, 429, 430, 509, 517 Norman, S. 250, 818 Norrick, N. R. 690, 704 Norris, D. 86, 91, 326, 336, 348, 352, 493, 503 Norris, D. G. 129, 130, 133, 140 Norris, M. 735, 751 Nöth, E. 558, 561, 564 Nothdurft, H. C. 610, 611, 620 Nottbusch, G. 362, 367, 811 Novick, L. R. 636, 641 Nürk, H. C. 133, 137 Nystrand, M. 497, 503
O O’Connor, C. 706 O’Grady Hynes, M. 725, 727 O’Grady, L. 725, 727 O’Muicheartaigh, C. A. 402, 408, 409 O’Neill, W. 833 O’Seaghdha, P. G. 218, 226
Oakhill, J. 400, 408, 505, 517, 570, 576, 667, 668, 675 Oakhill, J. V. 121, 124 Oakley, Y. 54 Oatley, K. 471, 489, 684, 702, 704 Oberauer, K. 251, 361, 367 Obler, L. 832 Obler, L. K. 813, 814, 818 O’Brien, E. J. 497, 498, 501, 502, 503, 512, 517, 570, 575, 576, 624, 630 O’Brien, K. 818 Obusek, C. J. 521, 524 Occhi, D. J. 678, 702, 704 Ochs, E. 94, 99, 105, 109, 110, 112, 113, 114 Ochsner, K. N. 681, 704 Ockman, S. 898, 899 O’Connell, D. C. 18, 32, 92, 96, 99, 102, 104, 105, 106 Oden, G. C. 613, 620 Oelze, B. 106, 107, 113 Oerle, R. T. 408 Oerter, R. 282, 283, 291, 292, 468, 750, 780 Oestermeier, U. 631, 635, 641, 642 Oesterreich, R. 236, 243 Oesterreicher, W. 96, 104, 356, 367,W. 845, 853 Oestman, J.-O. 105 Ogawa, K. 165 Ogden, C. K. 113 Ogston, W. D. 270, 276 Ogura, C. 169, 179 Ohala, J. 548, 564 Ohala, J. J. 324, 338 Ohala, M. 324, 328, 338 O’Hanlon, J. 266, 277 O’Hara, W. P. 200 Ojemann, G. A. 67, 72, 76, 78 Ojemann, J. 78 Okada, T. 188 Okazawa, H. 55 O’Keefe, J. 379, 388, 396 Okubo, M. 464, 468 Older, L. 502 Oldfield, R. C. 347, 353 O’Leary, D. S. 75 Olien, C. N. 856, 862 Olive, J. 565 Olive, T. 367 Olivier, P. L. 391, 392, 394 Oller, D. K. 50, 51, 56 Olofsson, A. 800 Olsen, D. 852 Olson, D. 369, 376, 619 Olson, D. R. 280, 285, 292, 369, 276, 377, 396, 589, 599, 609, 612, 620, 790 Olson, R. K. 381, 391 Oltman, P. 266, 267
923
Namenregister Olton, D. S. 77 O’Malley, C. 851, 853 Onifer, W. 494, 503 Önnerfors, O. 433, 434, 441 Opitz, B. 185, 188 Optican, L. M. 610, 619 Opwis, K. 8, 13 O’Regan, J. K. 131, 140, 603, 604, 607, 608 O’Reilly, T. 894, 899 Orrison, W. W. 188, 189 Orth, B. 118, 124 Ortony, A. 215, 227, 233, 243, 517, 569, 574, 616, 618, 655, 656, 657, 660, 661, 663, 664, 684, 700, 704 O’Seaghdha, P. G. 252, 254, 260, 410, 420, 421 Osgood, C. E. 19, 20, 21, 28, 30, 32, 94, 105, 471, 489, 685, 704 O’Shea, T. 851, 853 Oshlang, R. 657, 663 Ossner, J. 364, 367 Ostendorf, M. 558, 564, 565, 613, 621 Oster, P. J. 148, 149, 154, 155, 156, 166 Osterhout, L. 172, 173, 174, 175, 177, 180, 188, 494, 503, 671, 672, 673, 674, 675, 676 Östman, J.-O. 114 Ostrom, T. M. 644, 650 Osumi, Y. 464, 468 Otero, J. 496, 503 Otsu, Y. 188 Otto, G. 840, 844 Ouhyong, M. 865, 874, 880 Oviatt, S. 248, 251 Oxford, R. 838, 842, 844 Özsoy, A. S. 790 P Pääbo, S. 55 Paans, A. M. J. 189 Paap, K. 132, 140 Padden, C. A. 712, 729 Padmanabhan, S. 75, 188 Paek, T. S. 613, 614, 620 Page, M. 127, 129, 130, 140 Pagel, V. 562 Paget, R. 275, 278 Pahn, J. 467 Pailhous, J. 388, 397 Paillard, J. 381, 397 Paivio, A. 6, 13, 579, 586, 587, 655, 662, 663, Palermo, D. S. 516 Palmer, G. B. 678, 702, 704 Palmer, R. G. 128, 138 Palmer, S. E. 8, 13, 383, 397, 508, 517, 578, 587
Palmgren, P. 856, 862 Pandya, D. N. 78 Pannasch, S. 164 Pantev, C. 76 Panzeri, M. 327, 330, 331, 337 Paoli, J. 898 Paolino, D. 101, 103 Papert, S. A. 125, 126, 128, 131, 140 Papousek, H. 55, 56, 461, 467 Papousek, M. 55, 56, 462, 467, 782, 790, 799 Parbery, G. 425, 427, 431 Parducci, A. 390, 397 Parekh, P. I. 701 Paris, C. L. 226, 242 Paris, S. G. 570, 576 Parisi, D. 129, 137, 799 Parisi, J. 377, 384, 397 Parkinson, B. 471, 479, 489, 693, 698, 704 Parks, R. W. 247, 251 Parthasarathy, K. 875, 879 Pashler, H. 219, 227 Paterson, K. 406, 407, 409 Paterson, K. B. 403, 404, 408 Patterson, K. 78, 188 Patterson, K. E. 85, 89, 91, 131, 140, 810 Patterson, R. D. 207, 211 Paul, H. 17, 32, 444, 452 Paul, R. P. 873, 879 Paul, S. T. 195, 200, 614, 620 Paulesu, E. 75, 188 Paulson, G. D. 432, 439, 441 Paulus, E. 523, 883, 884, 885, 886, 888 Pausch, R. 878 Payrato´, L. 336 Pazzaglia, F. 388, 389, 393, 628, 629 Pearlmutter, N. J. 494, 495, 502, 703 Pechmann, T. 6, 12, 172, 173, 180, 244, 251, 260, 305, 369, 370, 371, 373, 375, 376, 421, 453, 609, 610, 621, 728 Pedersen, C. C. 714, 728 Pederson, E. 111, 113, 381, 397 Peeck, J. 577, 584, 587 Peeke, S. C. 610, 621 Peeters, G. 86, 90, 129, 137 Pegg, J. E. 782, 790 Peirce, C. S. 214, 227, 578, 587 Peitgen, H. O. 125, 140, 870, 879 Pell, M. 545, 546, 554, 558, 561, 564 Pell, M. D. 342, 345, 682, 704 Pelz, J. B. 153, 166 Pelz, J. B. 381, 397 Pemberton, L. 853 Pembrey, M. E. 76
Pena, M. 75 Penfield, W. 63, 67, 78 Peng, K. 634, 642 Penke, M. 176, 177, 180, 181, 724, 729 Pentland, A. 879, 880 Pepper, S. 402, 409 Perani, D. 188 Perceman, E. 699 Perdue, C. 820, 822, 824, 825, 826, 828, 829, 832 Pe´rez-Pereira, M. 730, 731, 732, 734, 735, 736, 737, 738, 739, 740, 741, 742, 744, 745, 747, 748, 749, 750, 751, 752 Perfetti, C. A. 495, 503, 614, 619 Perfilieva, E. 76 Perlin, K. 875, 879 Perlmutter, D. 710, 729 Perloff, R. M. 859, 862 Pernot, P. 63, 67, 78 Perrig, W. 628, 630 Perrig, W. J. 236, 243 Perrig-Ciello, P. 236, 243 Perry, J. 282, 286, 289, 290 Perry, L. D. S. 866, 879 Pe´ruch, P. 388, 397 Peselow, E. 699 Pessin, M. S. 189 Peter, K. 860, 861 Peter-Defare, E. 326, 327, 328, 338 Peters, A. 75, 78, 79, 793, 795, 800, 801 Peters, A. M. 731, 737, 747, 748, 752 Peters, J. 790 Peters, S. 243, 292, 396, 408, 452, 516 Petersen, A. C. 728 Petersen, S. E. 37, 56, 184, 188 Petersen, S. P. 72, 74, 78 Peterson, C. 702 Peterson, D. A. 76 Peterson, K. 692, 705 Peterson, M. 113 Peterson, M. A. 396, 489 Peterson, R. 324, 338 Peterson, R. R. 254, 260 Petitto, L. A. 57 Petre, K. L. 602, 606 Petrie, H. G. 657, 663 Petronio, K. 713, 729 Petrullo, L. 650 Petrune, C. 657, 663 Petta, P. 878, 879 Pettersson, R. 586, 587 Pe´tursson, M. 680, 704 Pezdek, K. 702 Pfaff, C. 832 Pfammatter, R. 890, 899 Pfau, R. 708, 710, 711, 712, 714, 727, 728, 729
924 Pfeifer, E. 61, 76, 169, 171, 179 Pfisterer, K. 806, 811 Phaf, H. R. 130, 140 Philbeck, J. W. 385, 396 Phillipson, H. 590, 599 Phillipson, M. 294 Piaget, J. 18, 27, 28, 32, 106, 107, 114, 281, 292, 378, 384, 397, 739, 749, 752, 794, 800 Piatelli-Palmarini, M. 749 Piazza, A. 54 Pichert, J. W. 497, 503, 570, 574, 588, 598, 599 Pichert, W. 618 Pick, A. 81, 82, 91 Pick, H. 293 Pick, H. L. 380, 384, 388, 392, 395, 397, 398, 522 Pickar, J. 752 Pickas, J. 440 Pickering, M. 498 Pickering, M. J. 495, 504 Piegl, L. 870, 879 Pienemann, M. 824, 826, 831, 832 Piepenbrock, R. 409, 419 Pie´rart, B. 378, 380, 397 Pierce, S. 165 Pierrehumbert, J. 341, 345, 550, 551, 563, 564 Pierret, N. 562 Pieters, J. P. 197, 202 Pietrzyk, U. 55 Pihan, H. 464, 465, 467, 565 Pilbeam, D. 54 Pillalamari, R. S. 157, 166 Pillon, A. 347, 353 Pillsbury, W. B. 32 Pina, A. 878 Pine, J. 796, 800 Pine, J. M. 788, 790 Pingali, G. 878 Pinkal, M. 440 Pinker, D. 764, 765, 768, 778, 780 Pinker, S. 51, 56, 127, 136, 140, 177, 180, 577, 582, 587, 791, 800 Pioger, D. 81, 91 Piolat, A. 363, 367 Pirker, H. 341, 345 Pischel, C. 468 Pisoni, D. 493, 503 Pisoni, D. B. 519, 520, 522, 523 Pitcaithly, D. 694, 704 Pitrelli, J. 560, 564 Pittam, J. 680, 705, 847, 853 Pitton, J. W. 206, 211 Pitts, W. 125, 139 Place, U. T. 3, 13 Plach, M. 638, 642 Platz, H. 685, 699 Platzack, C. 337
Namenregister Plaut, D. C. 89, 91, 131, 133, 140 Ple´h, C. 24, 32 Ploog, D. 57, 454, 468 Plourde, C. E. 194, 195, 200, 202 Plumert, J. M. 380, 392 Plunkett, K. 129, 136, 137, 140, 795, 796, 799, 800, 801 Plutchik, R. 471, 489, 685, 686, 705 Pobel, R. 285, 292, 369, 370, 373, 376, 610, 620 Poeck, K. 467 Poeppel, D. 823, 832 Poggio, T. 128, 131, 139 Pogner, K.-H. 364, 365 Pohl, N. F. 402, 409 Poizner, H. 725, 727, 729 Poldrack, R. A. 185, 189 Polenz, P. v. 658, 663 Polhemus Inc. 868, 880 Polk, M. 77 Polka, L. 793, 801 Pollack, I. 680, 705 Pollack, J. B. 494, 495, 505 Pollack, M. E. 563, 564 Pollard, C. 308, 309, 316 Pollard, P. 401, 408 Pollatsek, A. 140, 157, 164, 167, 602, 603, 604, 608 Pollio, H. R. 656, 663 Pollock, M. D. 350, 353 Pols, L. 559, 564 Pomerantz, A. 95, 105 Pomerleau, A.789 Pompino-Marschall, B. 339, 345, 355, 356 Pomplun, M. 142, 157, 158, 166, 167 Ponder, M. R. 664 Ponto, L. L. 75 Poortinga, Y. P. 114 Pope, B. 277 Pope, G. G. 34, 56 Pöppel, D. 184, 189 Popper, A. N. 79 Porges, S. 178 Porsch, P. 280, 281, 293 Portele, T. 187, 189 Porter, L. W. 620 Porterfield, A. L. 654, 663 Portnoy, S. 357, 367 Posner, M. I. 14, 56, 78, 141, 154, 166, 236, 243, 363, 365, 420, 501, 516 Posner, R. 98, 105, 278 Post, R. M. 701 Postman, L. 694, 705 Potter, H. H. 700 Potter, M. 569, 575 Potter, M. C. 569, 576 Potts, H. 704
Poulisse, N. 503 Pourtois, G. 681, 700, 705 Power, J. 699 Power, M. J. 236, 243, 248, 251, 421, 472, 488, 490, 678, 700, 701, 702, 703, 704, 705 Pratkanis, A. R. 432, 441 Prat-Sala, M. 383, 392 Pratt, C. 807, 810 Preisendanz, W. 664 Preisler, G. M. 733, 752 Preissl, H. 78 Premack, A. J. 48, 56, 634, 635, 641, 642 Premack, D. 48, 56, 634, 635, 641, 642, 761, 773, 780 Preparata, F. P. 870, 880 Prerost, F. J. 654, 663 Prescott, T. E. 378, 391 Pressley, M. 453 Prestin, E. 495, 497, 503, 605, 608 Prevedel, H. 169, 180 Pribram, K. H. 20, 21, 32, 125, 140 Price, C. J. 72, 78, 184, 185, 188, 189 Price, P. 558, 564, 565 Price, P. J. 613, 621 Pride, J. B. 290 Prieto, T. 75 Prillwitz, S. 708, 712, 729 Prince, A. 177, 180 Prince, E. 412, 421 Prinster, A. 75, 188 Prinz, P. M. 742, 743, 750 Prinz, W. 91, 193, 200, 202, 335, 602, 603, 607, 608, 610, 620, 621 Prokasy, W. F. 642 Proter, L. 852 Prucha, J. 28, 32 Prull, M. W. 189 Prusinkiewicsz, P. 870, 880 Pryor, H. 880 Prytulak, L. S. 402, 409 Psathas, G. 95, 96, 105, 282, 293 Psilas, K. 164, Puchalski, C. B. 733, 740, 752 Pugh, K. R. 189 Pullen, J. M. 866, 880 Pulvermüller, F. 61, 71, 72, 75, 78, 755, 776, 779, 780 Püschel, U. 852 Puterbaugh, K. D. 879 Putnam, H. 5, 13 Putnam, L. 852 Pütz, P. 169, 172, 180, 503 Pylyshin, Z. 24, 32 Pylyshyn, Z. W. 5, 7, 10, 12, 13, 579, 587 Pynte, J. 138, 139, 140
925
Namenregister Q Quasthoff, U. 106, 227, 366, 444, 445, 446, 449, 452, 803, 810 Querido, J. G. 790 Quillian, M. R. 87, 91, 693, 700 Quinlan, P. T. 125, 127, 128, 131, 140, 346, 353 Quinn, M. C. 522 Quinto, D. 728 Quirk, R. 93, 96, 106 Quitkin, F. 266, 267, 277
R Raaijmakers, J. G. W. 123, 124 Raasch, A. 662 Raatz, U. 117, 124 Rabbitt, P. M. A. 200 Rabenstein, R. 865, 872, 877, 880 Radach, R. 138, 139, 140, 156, 165, 601, 603, 608 Radford, A. 672, 677, 824, 832 Radin, D. J. 599 Radvansky, G. A. 380, 392, 423, 428, 431, 497, 505, 509, 512, 513, 517, 623, 627, 630, 631 Rae, R. 281, 292 Raggett, D. 890, 899 Ragnarsdo´ttir, H. 797, 800, 801 Raible, W. 357, 366, 446, 452, 453 Raichle, M. E. 56, 78, 184, 188 Raiha K. J. 165 Rak, Y. 54 Ramers, K. H. 336 Ramsay, S. 188 Randall, F. 705 Ransdell, S. 360, 362, 363, 364, 365, 366, 367, 810 Rao, S. M. 75, 182, 184, 188 Rapoport, A. 439, 441 Rapoport, J. L. 188 Rapp, B. 805, 811 Rapp, P. 78 Rapp, R. 188 Rapp, S. 558, 562, 564 Rappelsberger, P. 72, 79 Rascol, A. 188 Rash, S. 250, 818 Raskin, L. V. 653, 663 Raskin, V. 663, 689, 705 Ratcliff, R. 127, 140, 199, 200, 201, 495, 498, 502, 509, 511, 512, 517, 539, 543, 566, 567, 568, 569, 570, 571, 572, 574, 575, 576, 605, 607 Rath, H. H. 893, 899 Ratner, N. 794, 800 Rauch, S. 186, 189
Rauh, R. 384, 397 Raupach, M. 836, 844 Rauschecker, J. P. 75, 188 Rauscher, F. H. 269, 274, 278 Ravina, B. 95, 105 Raymond, E. S. 895, 896, 897, 898, 899 Rayner, K. 133, 140, 141, 154, 156, 157, 159, 164, 167, 175, 178, 201, 493, 494, 495, 500, 501, 502, 503, 504, 505, 570, 575, 576, 601, 602, 603, 604, 606, 607, 608, 614, 621, 704 Reale, R. A. 75 Reber, A. S. 236 Rech, T. 708, 728 Redder, A. 95, 96, 104, 105 Reddix, M. D. 133, 139 Reder, L. M. 422, 424, 425, 426, 427, 428, 429, 430, 431 Rees, G. 189 Reese, S. D. 859, 862 Reetz, H. 212 Reeves, A. 154, 167 Reeves, A. J. 76 Regier, T. 382, 383, 384, 392, 397 Rehbein, J. 97, 99, 101, 104, 444, 445, 446, 447, 448, 449, 452 Rehbock, H. 96, 104 Rehkämper, K. 7, 8, 13, 14, 242, 394, 395, 397, 398 Reich, B. D. 877 Reich, P. A. 301, 302, 305, 324, 327, 328, 336 Reichle, E. D. 133, 140 Reidenberg, J. S. 42, 55, 56 Reiher, R. 818 Reilly, J. 799 Reilly, J. S. 278, 713, 729 Reimann, B. 790 Reimers, U. 233, 243, 882, 885, 887, 888 Reinhart, T. 406, 409 Reinsel, G. C. 204, 211 Reis, M. 345 Reisenzein, R. 704 Remez, R. E. 351, 353 Remijsen, B. 550, 564 Renfrew, C. 766, 780 Renna, M. 472, 480, 484, 487, 488, 699 Renz, J. 384, 397 Repp, B. H. 518, 520, 523 Requin, J. 201, 202, 365 Rescorla, R. A. 637, 642 Resnick, L. B. 440, 852 Retz-Schmidt, G. 380, 381, 397 Revlin, R. 566, 572, 573, 576 Rey, A. 125, 133, 138 Rey, G. 14 Reyelt, M. 341, 345
Reyes, J. A. S. 700 Reyle, U. 404, 408, 509, 517, 552, 563 Reynolds, C. W. 875, 880 Reynolds, R. 663 Reynolds, R. E. 598, 599 Reynolds, S. 489, 704 Rezai, K. 75 Reznick, J. 799 Rhenius, D. 375, 618 Rholes, W. S. 648, 650 Richards, A. 696, 703, 705 Richards, E. 429, 431 Richards, I. A. 113, 654, 663 Richardson, S. A. 646, 650 Richman, H. B. 132, 140 Richter, H. 92, 105 Richter, K. 133, 135, 137, 140 Richthoff, U. 796, 801 Rickheit, G. 9, 13, 27, 30, 31, 32, 60, 61, 78, 126, 136, 140, 201, 215, 216, 227, 230, 231, 243, 280, 281, 282, 286, 293, 294, 305, 376, 378, 379, 380, 382, 383, 384, 385, 389, 390, 394, 398, 399, 442, 452, 491, 495, 496, 497, 498, 500, 503, 505, 517, 531, 532, 533, 534, 539, 541, 542, 543, 566, 569, 573, 574, 576, 577, 605, 606, 607, 608, 609, 611, 612, 621, 622, 625, 630, 639, 640, 642, 651, 688, 689, 699, 702, 705, 706, 778, 780, 845, 853 Riddoch, M. J. 346, 353 Riecker, A. 564 Riedl, R. 633, 642 Rieger, B. 306, 338 Rieser, H. 286, 292, 316 Rieser, J. 142, 157, 158, 167 Rietveld, A. 550, 563 Riffo, B. 688, 705 Rifkin, A. 266, 267, 277 Rigal, R. 383, 397 Riggs, L. A. 167 Rigol, R. 806, 811 Rijlaarsdam, G. 364, 367 Rime´, B. 274, 278 Rinck, M. 623, 625, 626, 627, 629, 630, 631 Rintel, E. S. 847, 853 Rips, L. 655, 664 Ritchie, B. G. 498, 505 Ritter, G. 32 Ritter, H. 166, 281, 292, 875, 880 Ritter, N. A. 338 Ritz, S. A. 128, 136 Roach, P. 701 Röber-Siekmeyer, C. 806, 811 Robert, J. M. 362, 365 Roberts, K. 852 Roberts, L. 75, 78
926 Roberts, R. J. 378, 397 Roberts, R. M. 422, 425, 430, 658, 662 Robertson, L. C. 383, 397 Robertson, R. R. W. 497, 501, 688, 701 Robertson, S. P. 425, 426, 427, 429, 430, 431 Robin, F. 385, 386, 393, 397 Robinet, W. 880 Robins, C. J. 694, 706 Robinson, D. A. 142, 167 Robinson, E. J. 362, 368 Robinson, M. 852, 853 Robson, R. 520, 522 Rochat, P. 786, 790 Rock, I. 381, 397 Rockstroh, B. 168, 178, 180 Röder, B. 172, 173, 180 Roderburg, S. 282, 293 Rodriguez, E. 75 Roed, P. 161, 165 Roederer, J. C. 455, 468 Roelofs, A. 83, 91, 130, 135, 139, 140, 220, 228, 240, 243, 252, 253, 260, 261, 295, 299, 300, 304, 406, 346, 347, 348, 349, 350, 351, 353, 354, 410, 415, 419, 420, 421, 476, 478, 489, 492, 503, 504, 811 Roesler, F. 316 Roger, D. 104 Rogers, L. J. 36, 54 Rogers, R. 245, 251 Rogers, S. J. 733, 740, 752 Rogers, Y. 505, 517 Rogoff, B. 108, 114 Rogow, S. M. 730, 752 Rohleder, L. 640, 642 Roland, P. 181, 189 Rolf, E. 443, 446, 452 Rolke, B. 180 Rollinger, C. 393 Roloff, M. E. 432, 439, 441 Roman, M. 707 Romani, C. 492, 493, 499 Rommetveit, R. 28, 29, 30, 32 Rooth, M. 550, 551, 558, 562, 564 Roquin, J. 179 Rosch, E. 13, 371, 376, 383, 390, 517, 587, 611, 615, 616, 617, 620, 621 Rosch, E. H. 757, 780 Rosen, S. 518, 523 Rosenbaum, A. L. 166 Rosenbaum, O. 848, 853 Rosenberg, E. 268, 276 Rosenberg, S. 32, 366, 599 Rosenblatt, F. 125, 126, 128, 129, 131, 141 Rosenblum, L. A. 750 Rosenfeld, H. M. 266, 270, 278
Namenregister Rosengren, I. 441, 470, 489, 658, 663 Rosenholtz, R. 611, 621 Rosenthal, B. P. 752 Rosenthal, R. 121, 124, 707 Rosenthall, S. 546, 562. Rosenzweig, M. R. 58, 78, 620 Rosetti, D. K. 850, 853 Rösing, H. 455, 468 Rosinsky, N. 701 Rösler, F. 61, 78, 165, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 255, 494, 503, 601, 608, 668, 677 Ross, B. H. 425, 431 Ross, C. 56 Ross, E. 545, 554, 564 Ross, E. D. 682, 684, 687, 705 Ross, L. 322, 338 Rößger, P. 152, 167 Rossi, M. 326, 327, 328, 338 Rossini, P. M. 179 Rossion, B. 705 Roßnagel, C. 249, 251 Roth, E. 780, 781 Roth, G. 59, 79 Roth, S. F. 573, 575 Roth, W. T. 168, 178 Rothe, H. 34, 38, 55 Rothermel, R. D. 189 Rothman, D. L. 77 Röttgers, A. 18, 32 Rötting, M. 143, 155, 157, 165, 167, 168 Rouleau, I. 67, 76 Rousseau, J. J. 454, 468 Roussey, J. Y. 367 Rowland, C. 731, 732, 733, 752 Rowland, C. F. 790 Ruben, R. J. 782, 790 Rubens, A. B. 39, 56 Rubenstein, H. 680, 705 Rübenstrunk, G. 610, 621 Rubert, E. 57 Rubich, S. 700 Rubin, A. M. 856, 862 Rubin, G. S. 493, 503, 602, 606, 608 Rubin, J. 287, 293 Rubin, K. H. 740, 752 Rubin, P. 351, 353 Ruch, W. 652, 653, 661, 662, 663 Rudinger, G. 116, 123, 180 Rudzka-Ostyn, B. 398 Rugg, M. D. 170, 180, 672, 676, 677 Rumbaugh, D. M. 26, 30, 33 Rumelhart, D. E. 9, 13, 14, 24, 32, 83, 84, 85, 86, 91, 125, 126, 127, 128, 129, 130, 131, 132, 133, 136, 138, 139, 141,
142, 196, 201, 233, 243, 245, 251, 413, 421, 422, 427, 429, 431, 445, 453, 493, 494, 496, 502, 503, 509, 517, 567, 568, 576, 602, 607 Rummer, R. 218, 223, 228, 236, 243, 245, 247, 248, 249, 251, 285, 293, 61, 363, 364, 366, 368, 447, 453, 492, 500 Runde, B. 789 Runkehl, J. 813, 818, 848, 853 Russell, B. 1, 14 Russell, J. A. 684, 685, 701, 705 Rüssmann, W. 165 Rutherford, A. 505, 517 Rutherford, E. M. 694, 695, 703 Rutherford, W. 819, 826, 832 Ruzicka, R. 305 Ryalls, J. 521, 523 Ryan, E. B. 816, 818 Ryle, G. 2, 14
S Saarinen, E. 243, 292, 395, 408, 452, 516 Saban, R. 40, 56 Sachs, J. S. 667, 677 Sachs-Hombach, K. 8, 13, 14 Sacks, H. 333, 338 Sadalla, E. K. 388, 397 Sadler, D. D. 382, 384, 386 Saffran, E. 260 Saffran, E. M. 324, 337, 352 Sag, I. 618 Sag, I. A. 308, 309, 316, 410, 420, 421, 666, 667, 668, 669, 676, 677 Sagan, D. 766, 780 Sager, S. F. 95, 96, 103, 105, 90, 705, 818 Sagerer, G. 382, 399 Sagi, D. 611, 618 Saida, S. 157, 167 Sainsbury, P. 271, 278 Saito, S. 154, 167 Saitz, R. L. 262, 278 Salamini, F. 55 Salamon, G. 189 Salerni, N. 789 Salisbury, J. K. 865, 867, 869, 880 Salomon, G. 581, 582, 587, 857, 858, 862 Salovey, P. 472, 479, 490, 693, 706 Salthouse, T. A. 818 Salvioli, G. 700 Salvucci, D. D. 160, 167 Salzinger, K. 367 Samuel, A. G. 130, 134, 141, 493, 503
927
Namenregister Samuels, S. J. 505 Sander, J. 260 Sanders, A. F. 156, 167, 191, 194, 195, 196, 198, 200, 202, 419, 421 Sanders, J. A. 182, 188, 189 Sanders, R. J. 57 Sanderson, D. 846, 853 Sandig, B. 444, 453 Sandin, D. J. 878 Sandler, W. 708, 729 Sandra, D. 493, 503 Saners, A. F. 335 Sanford, A. J. 9, 14, 401, 402, 403, 404, 405, 407, 408, 409, 451, 496, 497, 498, 503, 509, 517, 537, 542, 543, 568, 570, 574, 576, 579, 587, 605, 606, 608, 616, 617, 619, 621 Sannier, G. 875, 880 Santos, M. D. 432, 438, 439, 441 Sanz, M. 527, 531 Saporta, S. 21, 32 Saraza, M. 468 Sarris, V. 115, 124, 391, 397 Sassen, C. 848, 853 Satir, V. 480, 489 Saucier, G. 682, 705 Saunders, B. A. C. 111, 114 Saupe, D. 125, 140, 870, 879 Saupe, I. 147, 167 Savage-Rumbaugh, E. S. 57 Savage-Rumbaugh, S. 49, 56, 57 Savoy, P. 254, 260, 324, 338 Sawallis, T. R. 559, 561, 562 Sawyer, J. D. 233, 242 Scanelon, E. 851, 853 Scarborough, H. S. 275, 276 Scarcella, R. C. 832 Scardamalia, M. 213, 226, 361, 365, 802, 810 Scarione, A. G. 338 Scarpa, P. 75 Scearce, K. A. 414, 420 Schachter, J. 819, 826, 832 Schachter, S. 95, 105 Schacter, D. L. 704 Schade, U. 91, 125, 126, 127, 129, 135, 136, 141, 218, 224, 228, 229, 243, 252, 256, 260, 261, 301, 302, 304, 305, 306, 316, 324, 334, 335, 338, 351, 352, 354, 373, 375, 688, 705 Schaefer, K. P. 76 Schafer, A. 613, 621 Schäfer-Pregl, R. 55 Schallert, D. 663 Schallert, D. L. 570, 574, 598, 599 Schaltenbrand, G. 64, 79 Schandry, R. 143, 148, 149, 167 Schank, R. 541, 543
Schank, R. C. 9, 14, 134, 137, 141, 233, 244, 425, 431, 496, 498, 503, 573, 576 Scharf, G. 547, 564 Scharlau, I. 202 Schauble, L. 638, 642 Scheele, B. 657, 658, 659, 660, 661 Scheerer, E. 17, 24, 25, 32, 91, 602, 608, 620 Scheerer-Neumann, G. 805, 806, 811 Scheffers, M. T. M. 210, 212 Schegloff, E. A. 333, 338 Schenone, P. 75 Schepartz, L. A. 36, 54, 57 Schepping, M. 389, 397 Scherer, H. 279, 289, 291, 293 Scherer, K. 441 Scherer, K. P. 60, 76 Scherer, K. R. 76, 263, 264, 267, 278, 480, 485, 486, 487, 488, 489, 490, 680, 681, 685, 687, 701, 703, 705 Scheytt, N. 489, 702 Schiano, D. J. 382, 397, 398 Schiaratura, L. 274, 278 Schieffelbusch, R. 440 Schieffelbusch, R. L. 752 Schieffelin, B. B. 105, 109, 110, 112, 113, 114 Schiffrin, D. 103 Schildt, J. 379, 397 Schiller, N. 350, 351, 352, 354 Schiller, N. O. 255, 256, 261 Schiltz, K. 61, 78, 676 Schips, O. 880 Schirmer, A. 341, 345 Schlauch, M. 269, 278 Schlaug, G. 67, 79 Schlegel, A. 108, 114 Schleicher, A. 57 Schlesinger, I. 216 Schlesinger, I. M. 229, 244, 589, 599 Schlobinski, P. 94, 95, 105, 106, 813, 818, 848, 853 Schlosberg, H. 193, 202 Schlosser, M. J. 186, 189 Schlottke, P. F. 749 Schmalhofer, F. 422, 430, 431, 537, 538, 539, 543 Schmid, H. 558, 565 Schmid, S. S. 862 Schmidt, B. 541, 544, 633, 642 Schmidt, H. D. 377, 397 Schmidt, K. 852, 853 Schmidt, R. F. 67, 79, 80, 165 Schmidt-Atzert, K. 471, 490, 684, 685, 688, 705 Schmidt-Kolmer, E. 735, 752 Schmitt, B. 252, 256, 257, 261
Schmitt, B. M. 178, 181, 410, 414, 415, 426, 421, 666, 669, 670, 672, 677, 679, 705 Schmitt, J. J. 681, 705 Schmitz, P. 895, 899 Schmitz, R. W. 55 Schmitz, U. 860, 862 Schmoock, P. 76 Schnauß, G. 30 Schneider, R. D. 269, 276 Schneider, S. 749 Schneider, W. 125, 141, 188 Schnelle, H. 11, 14, 394 Schnotz, W. 9, 14, 532, 534, 536, 537, 542, 543, 577, 580, 583, 584, 586, 587, 605, 606, 608, 626, 630, 640, 642, 858, 860 Schober, M. F. 286, 293, 381, 387, 397, 612, 615, 621 Schödlbauer, M. 654, 663 Schoenberg, A. 453, 456, 457, 458, 467, 468 Schoene, H. 395 Schöne, H. 381, 397 Schönert, J. 242 Schön-Ybarra, M. 45, 55 Schopp, A. 299, 300, 305 Schott, D. 57 Schouten, M. E. H. 71, 76, 79, 520, 522, 523, 524 Schrader, L. 45, 57 Schreuder, R. 136, 252, 260, 299, 300, 305, 492, 493, 499, 500, 503, 811 Schriefers, H. 82, 88, 91, 93, 105, 218, 222, 227, 252, 254, 255, 257, 259, 260, 261, 324, 338, 349, 350, 353, 354, 355, 368, 415, 417, 418, 420, 421, 492, 504, 602, 608, 676 Schriesheim, C. 402, 409 Schrijnemakers, J. M. C. 123, 124 Schriver, K. S. 366 Schrock, G. 165 Schröder, H. 286, 289, 292 Schröder, P. 441 Schroeder, C. E. 79 Schu, J. 281, 284, 286, 293 Schuetze-Coburn, S. 97, 98, 101, 103 Schülein, F. 810 Schultz, D. W. 197, 200 Schultz, W. 840, 844 Schulz von Thun, F. 480, 490, 534, 543, 690, 706 Schulz, N. 799 Schulz, W. 854, 862 Schumacher, R. 215, 227 Schumann J. H. 755,776,779,780 Schunk, D. 429, 430 Schuppert, M. 463, 468 Schürer-Necker, E. 688, 706
928 Schürmeier, K. 545, 562 Schütz, A. 282, 293, 589, 599 Schütze, F. 97, 104, 214, 215, 227, 444, 452 Schütze, W. 282, 292 Schützwohl, A. 704 Schvaneveldt, R. 190, 192, 195, 201 Schvaneveldt, R. W. 132, 140, 614, 621 Schwarts, G. E. 243, 251 Schwartz, B. D. 820, 821, 822, 823, 824, 825, 826, 827, 828, 829, 832, 833 Schwartz, J. 66, 79 Schwartz, J. C. 684, 706 Schwartz, J. H. 64, 77, 608 Schwartz, J. S. 706 Schwartz, M. F. 260, 324, 337, 352 Schwartz, R. M. 479, 490 Schwarz, M. 27, 32, 678, 706 Schwarz, N. 697, 706 Schwarze, C. 408 Schwarzer, G. 462, 468 Schweizer, H. 230, 396 Schweizer, K. 136, 137, 223, 224, 233, 234, 235, 241, 242, 243, 285, 291, 380, 381, 383, 385, 386, 388, 392, 394 Schwidetzky, G. 27, 32 Scott, E. P. 747, 750 Scott, S. 682, 706 Scott-Kelso, J. A. 520, 523 Scovel, T. 93, 105 Scribner, S. 106, 108, 113, 114 Searle, J. 432, 433, 441 Searle, J. R. 6, 14, 284, 287, 293, 443, 453, 589, 600, 655, 656, 658, 663 Sebastian-Galle´s, N. 349, 352 Sebeok, T. A. 19, 20, 21, 28, 30, 32, 56, 77, 489702, 706 Secco, T. 423, 431 Sechehaye, A. 228 Sechrest, L. 111, 112 Sedivy, J. C. 614, 622 Seel, N. M. 496, 499 Seemann, H. 661 Seergobin, K. 133, 136 Segall, M. H. 107, 114 Segui, J. 326, 336, 351, 353, 492, 493, 501, 504 Seidenberg, M. F. 89, 91 Seidenberg, M. S. 131, 133, 135, 140, 141, 493, 494, 495, 502, 504, 603, 608, 703 Seifert, K. 165, 167 Seiler, H. 20, 32 Seiler, R. M. 291 Sejnowski, T. J. 130, 138 Seldon, H. L. 68, 71, 74, 79 Selfridge, O. G. 129, 141
Namenregister Selinker, L. 819, 831, 833 Selkirk, E. 341, 345, 550, 551, 565 Sellars, W. 12 Sellen, A. J. 851, 853 Selnow, G. W. 860, 862 Selting, M. 97, 98, 99, 101, 103, 105, 106, 286, 293, 679, 706 Selz, O. 17, 32, 600 Semenza, C. 268, 261 Semin, G. 292 Semin, G. R. 645, 649, 651 Senders, J. W. 164, 166, 167 Sendlmaier, W. 523 Senft, G. 106, 111, 112, 113, 114 Sereno, M. 168, 178 Sereno, M. I. 79 Seron, F. J. 878 Seron, X. 810 Setter, J. 701 Setterlund, M. B. 704 Sevald, C. A. 349, 350, 354 Sevcik, R. A. 57 Seyfarth, R. 44, 57 Seyfarth, R. M. 61, 75, 755, 759, 761, 771, 780 Shackel, B. 167, 365 Shallert, D. 618 Shallice, T. 125, 138, 236, 243, 245, 251 Shamos, M. I. 870, 880 Shank, D. M. 568, 570, 576 Shanks, D. R. 637, 642 Shankweiler, D. 495, 502 Shankweiler, D. P. 189 Shannon, C. E. 19, 32, 856, 862 Shanon, B. 386, 387, 389, 398 Shapere, D. 213, 228 Shapiro, D. 243, 251 Shapiro, P. 494, 499 Share, D. L. 116, 124 Sharkey, A. J. C. 640, 642 Sharkey, N. E. 134, 141, 567, 568, 576 Sharkey, N. E. 640, 642 Sharp, D. W. 113 Shattuck-Hufnagel, S. 321, 322, 338, 347, 348, 354, 415, 421, 558, 564, 565, 613, 621 Shaver, P. R. 488, 684, 685, 686, 701, 706 Shaw, D. L. 856, 861 Shaywitz, B. A. 185, 189 Shaywitz, S. E. 185, 189 Shea, D. 496, 499 Sheena, D. 144, 156 Shen, J. 328, 338 Shepard, R. N. 6, 7, 14. Sherman, W. R. 877, 880 Sherrard, C. 701 Sherwood, V. 793, 799 Shieber, S. 134, 141 Shields, R. 180
Shields, S. A. 684, 706 Shiffrin, R. M. 427, 429, 430 Shih, C. 560, 565 Shimokochi, M. 169, 179 Shirey, L. L. 598 Shlien, J. H. 278 Sholl, M. J. 386, 398 Short, J. 845, 853 Shovelton, H. 281, 290 Shulman, R. G. 77 Shultz, T. R. 653, 663 Shuy, R. W. 395, 620 Shwartz, S. P. 579, 586 Shweder, R. A. 114 Sichelschmidt, L. 124, 293, 316, 389, 398, 854 Sidner, C. L. 605, 606, 607, 608 Sidtis, J. 554, 565 Sidtis, J. J. 682, 706 Siegismund, D. 468 Siegman, A. 277 Siegman, A. W. 60, 79, 357, 365 Siever, T. 813, 818, 848, 853 Signorielli, N. 857, 861 Silbereisen, R. K. 749 Sillen, A. 35, 57 Sills, A. 663 Silver, M. 614, 619 Silverman, D. 294 Silverman, K. E. A. 703, 705 Silverstein, J. W. 128, 136 Silverstone, B. 752 Simon, H. 24, 32, Simon, H. A. 5, 13, 127, 128, 132, 137, 140, 142, 360, 365 Simonsen, H. G. 801 Simpson, A. P. 210, 212 Simpson, C. 621 Simpson, G. 692, 700 Simpson, G. B. 176, 181, 494, 504, 613, 614, 621, 622 Simpson, J. 76 Simpson, R. M. 880 Sims, K. 875, 880 Singer, H. 570, 574 Singer, J. A. 472, 479, 490, 693, 706 Singer, M. 281, 293, 422, 423, 424, 425, 427, 429, 431, 497, 498, 501, 504, 539, 542, 568, 570, 571, 572, 575, 576, 612, 621 Singer, W. 72, 79, 522 Singhal, S. 866, 880 Singleton, J. L. 275, 278 Sinnott, J. 818 Siple, P. 132, 141, 729 Siqueland, E. 84, 90 Siqueland, E. R. 54 Siqueland, F. 467 Siqueland, P. 562 Sirevaag, E. J. 197, 20 Sitta, H. 663
929
Namenregister Sjogren, D. 588, 600 Skarbek, A. 411, 420 Skavenski, A. A. 601, 608 Skowronski, J. J. 644, 650 Skrandies, W. 685, 706 Skudlarski, P. 189 Slack, J. 215, 227 Sleiderink, A. M. 615, 620 Slobin, D. I. 20, 32, 107, 108, 109, 110, 112, 114, 300, 306, 377, 378, 395, 451, 791, 792, 793, 796, 797, 799, 800, 819, 833 Sloboda, J. 461, 467 Sluiter, A. 549, 565 Small, S. A. 694, 706 Smart, J. J. C. 3, 14 Smith, A. 463, 468 Smith, C. A. 704 Smith, C. M. 879 Smith, E. E. 568, 574, 616, 620 Smith, E. R. 643, 651 Smith, G. A. 197, 202 Smith, J. A. 105 Smith, J. D. 159 Smith, J. R. 77 Smith, M. C. 195, 202 Smith, M. D. 751 Smith, M. K. 663 Smith, N. 545, 565 Smith, P. 164, 166 Smith, R. 851, 853 Smith, S. L. 610, 621 Smith, S. M. 661 Smolensky, P. 9, 10, 14, 129, 141, 567, 576 Smolka-Koerdt, G. 818 Smyth, R. 314, 316, 413, 419, 670, 675 Snodgrass, J. G. 347, 354 Snow, C. 287, 292, 791, 796, 800, 829, 833 Snow, C. E. 787, 790 Snowling, M. 807, 811 Snyder, C. R. R. 166, 236, 243 Snyder, E. J. 880 Snyder, L. 799 Snyder, P. 67, 76 Sobin, C. 706 Socher, G. 383, 399 Solecki, R. S. 36, 57 Solin, D. 825, 832 Solomon, S. K. 570, 575 Solso, R. 430 Solso, R. L. 243 Sommer, G. 467, 468 Son, J. 859, 862 Sondhi, M. 558, 562, 564, 878 Sonnenschein, S. 610, 621 Sonntag, G. P. 187, 189 Sorrentino, R. 706 Sotillo, C. 618 Sourin, A. 877, 880
Sourina, O. 880 Spada, H. 367, 543, 544, 642 Spangenberg, P. M. 818 Sparks, R. W. 464, 468 Spaulding, P. J. 751 Speck, A. 97, 98, 101, 104 Speck-Hamdan, A. 811 Speckman, P. L. 196, 201 Speedie, L. 702 Speiser, H. 389, 399 Speiser, H. R. 382, 399 Spencer, A. 502 Sperber, D. 641, 642, 658, 663 Sperberg-McQueen, C. M. 898 Sperling, G. 154, 167 Spielberger, C. D. 663 Spieler, D. H. 199, 200, 428, 431 Spillich, G. J. 362, 368 Spillner, B. 503, 543 Spiro, B. 13, 251, 503 Spiro, R. 430 Spiro, R. C. 598 Spiro, R. J. 243 Spitzer, M. 88, 91, 171, 179, 849, 850, 853 Spivey-Knowlton, M. J. 495, 502, 504, 614, 622 Spranz-Fogasy, T. 101, 104, 280, 290 Sprenger, A. 167 Sprenger, S. 690, 706 Springer, S. P. 39, 57, 67, 79 Sproat, R. 559, 565 Sprott, R. 818 Sproull, L. 845, 853 Sprouse, R. A. 820, 821, 822, 824, 825, 826, 828, 829, 833 Squire, L. R. 75 Srinivasan, M. A. 865, 867, 869, 880 Srull, T. K. 650 St. George, M. 71, 72, 79 St. John, M. 87, 91, 134, 139 Stachowiak, H. 213, 214, 228, 432, 441 Stadler-Elmer, S. 462, 468 Stager, P. 157, 167 Stählin, W. 654, 664 Staiger, J. F. 79 Stallman, R. M. 894, 896, 899 Stanfield, R. A. 513, 517 Stankiewicz, E. 684, 706 Stanners, R. F. 195, 202 Stapf, K.-H. 13 Staplin, L. J. 388, 397 Stark, L. 159, 165 Starker, I. 161, 167 Stasz, C. 388, 398 Statlender, S. 561 Stecker, N. A. 77 Steedman, M. 526, 530, 531, 550, 565 Steedman, M. J. 494, 499
Steele, C. M. 152, 164 Steger, H. 441 Stein, G. L. 235, 244 Stein, M. R. 878 Stein, N. 431 Stein, N. L. 445, 453 Steinberg, D. D. 375 Steinberg, E. R. 364, 365, 366 Steingart, L. 271, 276 Steinhauer, K. 174, 181, 187, 341, 342, 343, 344, 345, 346, 467, 530, 531, 558, 565, 675, 676, 680, 706 Steinmetz, H. 79 Steinmetz, R. 890, 899 Steinschneider, M. 61, 69, 70, 71, 79 Steinthal, H. 16 Steiwer, L. 534, 542 Steklis, H. D. 56 Stelmach, G. 201, 202 Stelmach, G. E. 251 Stemberger, J. P. 136, 141, 302, 306, 322, 338, 348, 349, 354, 723, 729 Stemmer, B. 71, 79, 692, 706, 727 Stenge, A. 880 Stephens, A. T. 165 Stern, C. 17, 18, 30, 32, 51, 57, 279, 293 Stern, D. 782, 790 Stern, J. A. 148, 149, 154, 155, 156, 166, 167 Stern, W. 17, 18, 30, 32, 51, 57, 279, 293, 768, 779, 780 Sternberg, E. R. 810 Sternberg, R. J. 655, 664 Sternberg, S. 136, 141, 192, 193, 194, 195, 199, 202, 247, 251 Sternefeld, W. 420, 676 Sterzi, R. 75 Stevens, A. 388, 398 Stevens, A. L. 496, 500, 505, 516 Stevens, K. N. 210, 212 Stevens, K. V. 570, 574, 618 Stevens, S. S. 207, 212, 285, 293, 391, 398 Stevenson, R. J. 670, 675 Sticht, T. G. 657, 664 Stickel, G. 442 Stiehl, H. S. 164, 167 Stigler, J. W. 114 Stiles-Davis, J. 391, 395 Stock, O. 215, 227 Stock, W. A. 586 Stokhof, M. B. J. 563 Stokoe, W. C. 262, 278, 708, 713, 728, 729 Stolz, C. 390, 398 Stolz, J. A. 198, 202 Stone, A. 55 Stone, G. C. 610, 621
930 Stone, M. 865, 880, 898, 899 Stoneking, M. 55 Stoness, S. C. 261 Stopa, R. 52, 57 Stopp, E. 382, 389, 399 Storm, C. 706 Storm, T. 706 Storrer, A. 847, 853 Stowe, L. A. 174, 179, 185, 186, 189 Strackhouse, S. P. 165 Stralka, R. 281, 294, 594, 600 Strange, W. 110, 114, 519, 521, 523 Straßner, E. 858, 859, 862 Stratman, J. 366 Strauß, B. 860, 862 Strauss, M. S. 610, 620 Strauss, S. 795, 800 Streb, J. 170, 172, 173, 176, 177, 180, 181, 314, 316, 668, 677 Stredney, D. 880 Striano, T. 790 Strittmatter, P. 496, 499 Ströhm, W. 697, 706 Strohner, H. 9, 13, 27, 32, 60, 61, 78, 126, 136, 140, 196, 201, 215, 216, 227, 230, 231, 243, 280, 281, 282, 293, 294, 316, 398, 442, 452, 491, 495, 497, 498, 503, 517, 531, 532, 532, 533, 534, 537, 539, 541, 542, 543, 566, 569, 573, 605, 608, 612, 621, 639, 640, 642, 688, 689, 702, 705, 706, 845, 853, 854 Strommen, E. A. 381, 394 Strömqvist, S. 793, 794, 795, 796, 797, 798, 800, 801 Stromswold, K. 186, 189 Stross, B. 107 Strowick, E. 663 Strube, G. 501, 524, 531, 604, 607 Struppler, A. 396 Studdert-Kennedy, M. 728 Stumpf, C. 456, 468 Sturman, D. 868, 872, 880 Sturt, P. 495, 504 Styles, E. A. 245, 250 Stytz, M. R. 866, 880 Subbiah, I. 382, 383, 392 Suchman, L. 282, 293 Suchman, L. A. 289, 293 Suci, G. J. 489, 704 Sugiyama, Y. 34, 57 Suleiman, R. 439, 441 Suls, J. M. 653, 664 Supalla, T. 710, 711, 729 Suphan, B. 467 Suppe, F. 228 Suppes, P. 632, 642 Surynt, T. J. 850, 853
Namenregister Suslow, T. 472, 480, 484, 487, 488, 699 Sussman, H. M. 519, 522 Sutherland, I. E. 868, 880 Sutton, D. 45, 56, 57 Sutton, L. A. 180 Suzuki, K. 163, 164 Svartvik, J. 93, 96, 106 Svec, W. 351, 352 Svec, W. R. 218, 226, 302, 305, 323, 336 Swaab, T. Y. 186, 189 Swartout, W. R. 226, 242 Sweller, J. 584, 585, 586 Swets, J. A. 193, 200 Swick, R. R. 893, 899 Swinney, D. 186, 189, 672, 676 Swinney, D. A. 174, 175, 180, 422, 431, 494, 503, 504, 614, 621 Switalla, B. 92, 104 Sylva, K. 799 Symmes, D. 45, 56, 57 Syrota, A. 189
T Tabachnick, N. 595, 598 Tabakowska, E. 489, 702 Tabor, W. 529, 530, 532 Tabossi, P. 494, 504, 569, 570, 576, 614, 622 Tack, W. 242, 243, 441 Tack, W. H. 124 Taeschner, T. 799 Taft, L. 316 Taft, M. 493, 504 Tager-Flusberg, H. 752 Tagg, S. 384, 392 Tagiuri, R. 650 Takahata, N. 55 Takala, T. 865, 871, 880 Takano, Y. 247, 251 Tallal, P. 66, 79, 184, 188 Talmy, L. 285, 293, 383, 387, 398 Tamborini, R. 857, 862 Tanaka, S. 188 Tanenhaus, M. K. 18, 24, 25, 33, 175, 179, 314, 316, 493, 494, 495, 499, 500, 501, 502, 504, 505, 524, 527, 529, 532, 603, 608, 614, 615, 622, 667, 677 Tannen, D. 103, 433, 434, 441, 598, 600 Tannenbaum, P. H. 489, 704 Tappe, H. 442, 449, 452 Taraban, R. 134, 139 Tarr, M. J. 382, 394 Tash, J. 520, 523 Tata, P. 695, 703
Tausch, R. 534, 543 Taylan, E. E. 790 Taylor, B. 385, 392 Taylor, E. M. 56 Taylor, H. A. 386, 398, 497, 504, 628, 630 Taylor, J. 851, 853 Taylor, R. M. II 865, 877, 880 Taylor, S. P. 166 Teasdale, J. D. 472, 473, 474, 475, 477, 490, 678, 682, 684, 686, 692, 698, 706 Teasley, S. D. 440, 852 Templeton, W. B. 381, 394 Tenaza, R. 45, 47, 56 Tent, J. 322, 338 Teo, C. G. 878 Terbuyken, G. 288, 293 Tergan, S. O. 532, 534, 542, 858, 860 Terhardt, E. 207, 212 Terhorst, E. 541, 543, 605, 606, 607, 810 Terken, J. M. B. 413, 421 Terrace, H. S. 49, 57 Teruel, E. 255, 261, 350, 354 Tervoort, B. T. 708, 729 Terzopoulos, D. 874, 875, 879, 880 Tesser, A. 650 Tessier-Lavigne, M. 601, 608 Tet Sen, H. 880 Teunissen, J.-P. 700 Thal, D. 799 Thalmann, D. 872, 875, 879, 880 Thews, G. 67, 79, 80, 165 Thiel, A. 55 Thiel, T. 377, 398 Thimm, C. 818, 819, 853 Thomas, A. 521, 523, 524 Thomas, G. V. 362, 368 Thomas, J. 93, 103, 105, 165, 396, 523 Thomassen, A. J. W. M. 355, 362, 368, 808, 811 Thompson, J. L. 699 Thompson, R. D. 705 Thompson, S. A. 286, 290 Thompson, W. 830, 832 Thomson, D. M. 217, 228 Thorelli, I. M. 664 Thorndyke, P. W. 384, 388, 398, 532, 535, 542, 543 Thorne, A. R. 781 Thornton, R. 116, 124 Thorpe, S. 127, 141 Thulborn, K. R. 186, 189 Thumb, A. 17, 33 Thüring, M. 642 Tichenor, P. J. 856, 862 Tidwell, M. 867, 880 Tietz, J. D. 385, 393 Till, R. E. 494, 504, 539, 543, 614, 622
931
Namenregister Tillier, A. M. 54 Tillmann, H. G. 339, 346 Tillmann-Bartylla, D. 818 Timm, C. 445, 451 Timpson, W. 588, 600 Tinbergen, N. 759, 761, 781 Tincoff, R. 62, 79 Tinker, R. F. 585, 586 Tipper, S. P. 129, 138 Tischer, B. 471, 486, 487, 490, 680, 681, 706 Tischer, W. 862 Titscher, S. 533, 543 Tjan, B. S. 133, 139 Tobias, P. V. 38, 57 Todt, D. 45, 57 Toeper, T. 316 Toivainen, J. 801 Toivainen, K. 801 Tole, J. R. 165 Tolkmitt, F. 703 Tolman, E. C. 388, 398 Tomarken, A. J. 700 Tomasello, M. 377, 398, 796, 801 Tomlin, R. S. 450, 453 Tonelli, L. 325, 327, 329, 330, 331, 337 Torrance, M. 361, 362, 366, 367, 368 Torrance, N. T. 852 Torrey, J. W. 86, 90 Totterdell, P. 489, 704 Tottie, G. 337 Touati, P. 345 Tourangeau, R. 655, 664 Townsend, D. J. 527, 531 Townsend, J. T. 115, 124, 197, 202 Trabasso, T. 423, 425, 431, 445, 453, 497, 498, 501, 504, 539, 542, 566, 568, 575 Trainor, L. J. 463, 468 Tranel, D. 76 Trappl, R. 878, 879 Travis, L. 825, 832 Traxel, W. 471, 490 Trehub, S. E. 50, 57, 462, 463, 468 Treimann, R. 806, 811 Treisman, A. M. 610, 611, 622 Treisman, M. 132, 141 Trembly, F. 878 Trepel, M. 63, 64, 66, 67, 79 Trevarthen, C. 786, 790 Triandis, H. C. 106, 108, 112, 113 Trincker, D. 63, 64, 65, 66, 67, 68, 79 Trollip, S. R. 570, 574, 618 Trommsdorff, G. 106, 107, 114 Tronick, E. 732, 749 Tröster, H. 737, 740, 747, 749, 752
Troy, J. J. 879 Troy, M. E. 155, 167 Trubetzkoy, N. 548, 550, 565 Truckenbrodt, H. 550, 565 Trueswell, J. C. 494, 495, 504, 505, 524, 527, 532 Tsugane, K. 55 Tu, X. 875, 878, 880 Tukey, J. W. 204, 205, 211 Tuller, B. 494, 499, 520, 523, 524 Tulving, E. 72, 74, 79, 217, 228, 474, 490, 686, 706 Turano, K. 602, 608 Turner, A. A. 541, 544 Turner, R. 75, 182, 188, 189 Turvey, M. T. 351, 353, 501 Tversky, A. 132, 141, 611, 622, 655, 664, 696, 702 Tversky, B. 382, 383, 385, 386, 388, 393, 397, 398, 497, 504, 510, 516, 627, 628, 629, 630 Twilley, L. 133, 136 Twombly, I. A. 879 Tyler, L. K. 85, 91, 421, 452, 493, 495, 502, 505, 527, 532, 537, 541, 543, 616, 620 Tzourio, N. 189 U Udo De Haes, H. A. 381, 397 Ueckert, H. 375, 618 Uematsu, S. 67, 77 Uhmann, S. 106, 340, 346 Uleman, J. S. 644, 651 Ulich, D. 470, 490 Ullman, J. 427, 429, 431 Ullman, S. 581, 587, 611, 618 Ullmer-Ehrich, V. 282, 285, 293, 316, 385, 386, 387, 389, 398 Ulrich, R. 194, 202 Umbach, C. 517 Umiker-Sebeok, J. 77 Umilta, C. 250 Underwood, G. 165, 806, 811 Underwood, N. R. 166 Unema, P. J. A. 145, 155, 157, 164, 167 Ungerer, D. 235, 244 Ungerer, F. 470, 481, 482, 490 Unruh, C. 888 Unyk, A. M. 463, 468 Urey, H. 880 Urwin, C. 731, 732, 733, 735, 737, 740, 741, 747, 752 Uyl, M. de 574, 576 V Vaalburg, W. 189 Vachek, J. 550, 565 Vaid, J. 661
Vainikka, A. 820, 821, 822, 823, 824, 825, 826, 828, 289, 833 Valdois, S. 133, 136 Valenstein, E. 702 Valins, S. 599 van Berkum, J. A. 674, 677 van Berkum, J. J. A. 255, 261, 415, 421, 495, 505, 530, 531 van Bon, W. H. J. 811 van Brakel, J. 111, 114 van Cleve, Y. V. 708, 729 van Dam, A. 877, 878, 880 van de Moortele, P.-F. 188 van den Berg, M. 403, 409 van den Bergh, H. 364, 367 van den Bogaerde, B. 728 van den Broek, P. 423, 431, 630 van den Broek, P. W. 639, 640, 642 van den Hout, M. 703 van der Does, J. 409 van der Hulst, H. 338, 545, 548, 562, 565 van der Meer, E. 541, 542, 543, 544, 633, 639, 640, 642, 643, 775, 780, 781 van der Molen, M. W. 195, 201 van der Veer, G. 162, 167 van der Voort, M. 503 van der Vreken, O. 562 van Dijk, T. 567, 573, 575 van Dijk, T. A. 86, 87, 90, 105, 422, 431, 444, 445, 451, 495, 496, 497, 498, 501, 505, 509, 510, 516, 517, 532, 533, 535, 536, 537, 538, 541, 542, 543, 544, 579, 580, 587, 623, 626, 630, 640, 642, 643, 649, 650 van Donselaar, W. 342, 345 van Eijk, J. 409 van Essen, A. J. 338 van Gisbergen, J. A. 154, 166 van Hessen, A. J. 520, 523, 524 van Heuven, V. 549, 550, 564 van Heuven, W. J. B. 129, 137 van Hoek, M. 725, 727 van Huijzen, C. 78 van Lancker, D. 554, 562, 565, 682, 707 van Langenhove, L. 105 van Lehn, K. 128, 141 van Marle, J. 500, 831 van Nice, K. Y. 499 van Noppen, J. P. 654, 664 van Oirsouw, R. R. 310, 316 van Oostendorp, H. 512, 517, 574, 576, 626, 629, 630, 631 Van Opstal, A. J. 154, 166 van Patten, B. 831, 833 van Petten, C. 71, 77, 494, 505, 614, 622, 672, 673, 674, 676 van Petten, C. K. 169, 170, 176, 179, 181
932 van Raad, A. A. 338 van Rensbergen, J. 164, 608 van Rijn, H. 409, 419 van Santen, J. 547, 550, 560, 561, 564, 565 van Schooneveld, C. H. 490 van Sommers, P. 692, 704 van Stechow, A. 408 van Tourenout, M. 81, 91, 177, 178, 181, 197, 202, 255, 261, 350, 354, 672, 677 van Zandt, T. 127, 140 Vandeloise, C. 380, 390, 398 Vandenplas-Holper, C. 378, 383, 393 Vanderberg, B. 740, 752 Vandermeersch, B. 54 Vanetti, E. J. 388, 398 Vargha-Khadem, F. 76 Varma, S. 449, 452 Vass, E. 533, 544 Vater, H. 336 Vaughan Jnr., H. G. 69, 71, 79 Veach, S. 55 Velichkovsky, B. M. 26, 30, 33, 142, 156, 157, 158, 160, 161, 162, 164, 165, 166, 167, 168, 281, 293, 357, 368 Velten, E. 698, 707 Venables, P. H. 166, 167 Venhoeven, L. 798, 799 Vennemann, T. 350, 354, 420, 676 Verbrugge, R. 519, 521, 523 Verfaillie, K. 514, 517 Verschueren, J. 105, 114 Vertegaal, R. 162, 167 Vesonder, G. T. 362, 368 Vetter, E. 533, 543 Viehweger, D. 443, 446, 452 Vigliocco, G. 254, 257, 258, 259, 261, 346, 354 Vigorito, J. 54, 84, 90, 467, 562 Vihman, M. M. 50, 54, 784, 790 Viirre, E. 867, 877, 880 Villalta, E. 497, 409 Vinson, D. P. 261 Vipond, D. 536, 543 Visser, F. T. 483, 490 Vixie, P. 893, 899 Vogel, C. 76, 754, 755, 781 Vogel, I. 340, 341, 345, 347, 350, 353, 550, 564 Volek, B. 690, 707 Volkman, J. 207, 212 Volkmann, F. C. 144, 167 Volkmer, J. 861 Vollmer, K. 548, 565 Volpert, W. 290, 291 Volterra, C. 727 von Bonin, G. 54 von Cramon, D. 55 von Cramon, D. Y. 71, 76, 184, 185, 186, 187, 188, 189, 343,
Namenregister 344, 345, 346, 530, 531, 600, 607, 679, 701, 778 von der Hulst, H. 345 von der Malsburg, C. 128, 141 von Haaren, K. 890, 899 von Hartleben, O. 456 von Helmholtz, H. 151, 165 von Helversen, O. 60, 76 von Humboldt, W. 16 von Klopp, A. 409 von Neumann, J. 19, 20, 32 von Stechow, A. 399, 420, 676 von Stockhausen, H. M. 55 von Stutterheim, C. 91, 260, 294, 300, 305, 306, 368, 376, 379, 392, 394, 395, 396, 399, 442, 443, 448, 449, 450, 451, 452, 453, 535, 543, 622 von Tetzchner, S. 731, 745, 752 Vonahme, P. 132, 140 Vondruska, R. J. 663 Vonk, W. 498, 502, 568, 576, 606, 608 Voogd, J. 78 Vorberg, D. 260, 421 Vorderer, P. 857, 862 Vorwerg, C. 218, 223, 228, 247, 249, 251, 285, 286, 293, 294, 363, 364, 366, 368, 378, 379, 380, 381, 382, 383, 384, 385, 389, 390, 391, 398, 399, 453, 609, 611, 617, 622 Voss, J. F. 362, 368 Vosse, T. 134, 138 Vousden, J. I. 330, 338 Vowe, G. 861 Vroomen, J. 621, 700, 705 Vukovich, A. 235, 244
W Wachsmuth, I. 366, 393 Waddill, P. J. 640, 642 Wade, N. J. 381, 395 Wagener, M. 510, 517 Wagenknecht, C. 663 Wagner, A. 799 Wagner, A. D. 189 Wagner, A. R. 637, 642 Wahlster, W. 389, 399, 440 Waibel, A. 132, 141 Wakamatsu, K. 878 Waksler, R. 502 Waldenberger, S. 847, 853 Waldeyer, A. 79 Waldmann, M. R. 638, 641, 643 Wales, R. J. 90, 500 Waletzky, J. 446, 452 Walk, R. D. 522 Walker, C. H. 424, 431 Walker, E. 9000
Walker, E. C. T. 354, 421 Walker, R. 156, 165 Wallbott, H. G. 263, 266, 267, 268, 272, 277, 278 Waller, T. G. 504 Wallesch, C.-W. 337, 703, 726, 729, 818 Wallsten, T. S. 402, 409 Walsh, D. 282, 294 Walters, J. 433, 441 Waltz, D. L. 494, 495, 505 Wandmacher, J. 368, 376 Wang, H. S. 329, 336 Wanner, E. 535, 544, 729 Wanska, S. 377, 399 Warburton, E. A. 78 Ward, J. A. 701 Ward, N. 136, 141 Ward, T. B. 661 Ward, W. C. 636, 641 Ward, W. D. 521, 522 Warning, R. 657, 664 Warren, N. 621 Warren, P. 493, 502 Warren, R. K. 298, 305, 413, 419 Warren, R. M. 521, 524, 613, 622 Wartella, E. A. 859, 862 Washington, D. S. 378, 399 Wason, P. C. 113, 114 Waterman, M. 701 Waters, G. 186, 188 Waters, G. S. 603, 608, 803, 810 Waters, R. S. 518, 524 Watkins, G. L. 75 Watkins, K. E. 76 Watson, G. 291 Watson, J. B. 1, 14 Watzlawick, P. 597, 600 Weatherston, S. 811 Weaver, C. 452 Weaver, W. 19, 32, 856, 862 Webber, B. 618 Webber, B. L. 877 Weber, H. 154, 167 Weber, K. 427, 429, 431 Weber, S. 582, 586 Webster, B. 55 Webster, D. B. 68, 79 Webster, W. R. 71, 75 Weenink, D. 560, 561 Wegener, C. 855, 861 Wegener, I. 637, 641 Wegener, P. 25, 33 Wegener, U. 782, 790 Weghorst, S. J. 880 Wegner, D. 452 Weibel, S. 893, 899 Weidenmann, B. 434, 442, 577, 581, 582, 585, 586, 587, 857, 858, 862 Weiller, C. 188
933
Namenregister Weimer, W. B. 516 Weiner, B. 479, 490, 599, 687, 707, 860, 862 Weingarten, R. 362, 367, 802, 806, 807, 809, 811, 860, 862 Weinheimer, S. 285, 292, 368, 375 Weinig, K. 850, 851, 854 Weinreich, U. 655, 664 Weinrich, H. 444, 450, 453, 657, 664 Weinstein, S. 413, 414, 420, 670, 676 Weiss, A. 286, 294 Weiß, P. 119, 124, 285, 294, 371, 376, 389, 393 Weiss, S. 72, 79 Weissenborn, J. 281, 294, 394, 594, 600, 801 Weitkunat, R. 168, 181 Weizenbaum, J. 247, 251, 889, 899 Weizman, E. 435, 442 Welford, A. T. 193, 202 Welkowitz, J. 699 Well, A. D. 602, 608 Wells, A. 693, 695, 703 Wells, R. 322, 323, 338 Welsch, D. 537, 538, 539, 543 Welsch, D. M. 428, 430 Welsh, A. 85, 91, 134, 139, 493, 502 Wember, B. 859, 862 Wempe, K. 727, 728, 729 Wenden, A. 842, 844 Wender, K. F. 393, 395, 397, 398, 399, 510, 517 Wenderoth, P. 610, 622 Wenglorz, M. 465, 467, 468 Weniger, D. 701 Wentink, H. W. M. J. 806, 811 Wenzel, P. 652, 653, 664 Werker, J. 524, 793, 801 Werker, J. F. 782, 790 Werlich, E. 444, 453 Werner, H. 18, 28, 33 Wernicke, C. 89, 91, 181, 189 Wertheimer, H. 646, 650 Wertheimer, M. 383, 399, 582, 587 Wertsch, J. V. 17, 33, 789 Wessel, K. F. 468 West, J. 878 West, R. 818 Westbrook, A. 195, 202 Wetzel, P. 286, 294 Wexler, K. 823, 832 Weyerts, H. 176, 177, 180, 181 Weyl, H. 381 Weylman, S. T. 692 Wheeldon, L. R. 350, 351, 353, 354 Whitaker, H. A. 71, 79, 277, 727
White, K. D. 167 White, L. 819, 825, 827, 828, 832, 833 White, P. A. 633, 636, 637, 643 White, T. D. 55 Whitehurst, G. J. 610, 621 Whitfield, I. G. 519, 524 Whitney, P. 93, 106, 498, 505 Whitney, P. W. 567, 568, 570, 574, 576, 577 Whittermore, G. L. 714, 729 Wible, C. 425, 431 Wichter, S. 811 Wickelgren, W. 193, 202 Wicker, F. W. 653, 664 Wicki, W. 652, 654, 664 Widrow, B. 131, 141 Wiedenmann, N. 17, 33, 348, 354 Wiegand, D. 718, 729 Wiegand, H. E. 277, 367, 451 Wieman, L. A. 56 Wiener, M. 707 Wienhard, K. 55 Wier, G. C. 76 Wieringa, B. M. 464, 468 Wierwille, W. W. 158, 164 Wierzbicka, A. 434, 435, 442, 469, 490, 682, 684, 686, 707 Wiese, R. 177, 178, 180, 710, 729 Wiggins, J. S. 705 Wightman, C. 558, 565 Wijers, A. A. 189 Wilbur, R. 710, 729 Wildgruber, D. 467, 546, 558, 561, 564, 565 Wiley, D. J. 873, 880 Wilhelms, J. 873, 879 Wilke, J. 854, 862 Wilkening, F. 468 Wilkes-Gibbs, D. 235, 242, 286, 290, 308, 316, 368, 370, 375, 612, 615, 618 Wilkins, D. 113 Wilkins, H. 849, 850, 854 Will, U. 362, 367, 807, 811 Willeboordse, E. 260 Willer, B. 658, 664 Williams, B. 340, 345, 706 Williams, E. 845, 853 Williams, L. G. 610, 611, 622 Williams, M. C. 166 Williams, P. 625, 630 Williams, R. J. 128, 141 Williams, R. St. 880 Williams, S. C. R. 706 Williams, S. L. 49, 57 Willmes, K. 701, 705 Wills, D. M. 730, 731, 747, 752 Wilshire, C. E. 331, 338, 348, 354 Wilson, A. S. 781
Wilson, D. 658, 663 Wilson, E. O. 754, 781 Wilson, R. S. 247, 251 Wilson, S. R. 434, 441 Wilson, W. A., Jr. 518, 524 Wilson, W. H. 56 Windhorst, U. 76, 80 Winer, B. J. 120, 124 Wing, A. M. 879 Wingfield, A. 347, 353 Winkler, P. 104 Winn, W. D. 581, 582, 587 Winner, E. 659, 660 Winograd, T. 134, 141, 850, 854 Winston, P. H. 13 Winter, L. 644, 651 Winter, P. 44, 57 Winterhoff-Spurk, P. 232, 242, 284, 285, 287, 291, 294, 434, 435, 438, 440, 441, 442, 856, 857, 858, 859, 860, 862 Wintermantel, M. 249, 251, 285, 294, 645, 646, 651 Winters, E. P. 271, 276 Wippich, W. S 236, 243 Wirth, W. 855, 861 Wise, R. J. S. 78, 184, 185, 188, 189 Wish, M. 280, 294 Witkin, H. A. 107, 108, 111, 112, 266, 277, 381, 391 Witte, W. 390, 399 Wittgenstein, L. 2, 14 Wittwen, A. 859, 862 Wodak, R. 533, 543 Wode, H. 826, 827, 829, 830, 833 Wokurek, W. 562 Wolf, D. 144, 168, 810 Wolf, G. 729 Wolf, K. 627, 630 Wolf, M. 775, 781, 899 Wolf, R. 144, 168 Wolfe, J. M. 610, 622 Wolff, D. 841, 844 Wolff, P. 269, 278, 655, 656, 661 Wolff, V. 75 Wolford, G. L. 429, 430 Woll, B. 710, 729 Wolters, G. 130, 140 Wolverton, G. S. 166 Wong, D. 562 Wood, C. C. 168, 169, 178 Wood, D. C. 866, 880 Wood, E. 271, 278 Woodworth, R. S. 193, 202 Worth, D. S. 490 Wren, C. 869, 874, 880 Wright, C. E. 247, 251 Wright, D. B. 402, 408, 409 Wright, J. 696, 707 Wright, P. C. 849, 850, 853 Wright, R. 327, 337
934 Wright, W. V. 880 Wu, J.-R. 865, 874 Wu, S. 706 Wulf, C. 598, 599 Wunderlich, D. 284, 294, 299, 306, 378, 379, 389, 399, 433, 442, 658, 662, 664 Wundt, W. 17, 33, 106, 112, 113, 114, 115, 124, 192, 194, 202, 471, 490, 707 Wünschmann, W. 167 Wyer, R. S. 650 Wygotski, L. S. 17, 28, 33, 279, 281, 294 Wyss, E. L. 846, 852 Y Yallop, C. 680, 700 Yamadori, A. 464, 468 Yang, C. L. 616, 619 Yang, J.-N. 433, 435, 441 Yang, S. 879 Yarbus, A. L. 157, 168 Yates, J. B. 617, 618 Yau, S.-C. 338 Yaxley, R. H. 513, 517 Yeeles, C. 54 Yekovich, F. R. 424, 431 Yeni-Komshian, G. H. 54, 55, 56, 522 Yenkosky, J. 705 Yeterian, E. H. 78 Yngve, V. H. 21, 33 Yonekura, Y. 55 Yoon, Y. B. 329, 336, 338 Yoshino, R. 496, 505 Young, A. W. 706 Young, L. R. 144, 156, 168
Namenregister Young-Scholten, M. 820, 821, 822, 824, 825, 826, 828, 829, 833 Youniss, J. 227 Yuditsky, T. 347, 353 Yule, G. 443, 451 Z Zacks, R. T. 428, 431 Zaidel, E. 75 Zajonc, R. B. 688, 707 Zander, E. 176, 180 Zangas, T. 382, 393 Zangemeister, W. H. 164, 167 Zanna, M. P. 648, 650, 651 Zappoli, R. 179 Zardon, F. 494, 504 Zattore, R. 555, 565 Zattorre, R. J. 184, 187, 189 Zec, R. F. 247, 251 Zelazny, G. 577, 587 Zelkowicz, B. 374, 376 Zeltzer, D. 868, 875, 881 Zemlin, W. R. 64, 80 Zenhausern, R. 155, 168 Zenner, H.-P. 64, 71, 76, 80 Zerbst, D. 370, 376 Zetterström, R. 55 Zhang, Z. L. 877, 881 Zheng, J. Y. 877, 881 Ziefle, M. 846, 854 Ziegler, J. C. 125, 133, 138, 141, 170, 181 Ziegler, W. 548, 562, 699 Ziesche, S. 299, 300, 305 Zießler, M. 372, 375, 616, 617, 619 Zifonun, G. 393, 395
Zigmond, M. J. 75 Zilles, K. 37, 57 Zillmann, D. 654, 664, 847, 861, 862, 863 Zimmer, H. 243 Zimmer, H. D. 218, 228, 236, 238, 239, 242, 245, 251, 382, 399, 580, 587, 626, 629 Zimmermann, I. 391 Zimmermann, R. 836, 844 Zimny, S. 430, 537, 538, 539, 543 Zipf, J. K. 21 Zipp, P. 149, 168 Zipser, D. 129, 142 Zobl, H. 819, 826, 833 Zock, M. 305 Zola, D. 133, 139, 166, 603, 608 Zorzi, M. 133, 142 Zubin, J. 750 Zuckerman, M. 680, 707 Zue, V. 560, 564 Zukier, H. 647, 650 Züll, C. 489, 702 Zurif, E. B. 186, 189 Zwaan, R. A. 422, 431, 495, 497, 498, 501, 505, 509, 512, 513, 514, 517, 541, 542, 544, 569, 575, 586, 623, 626, 627, 629, 630, 631, 639, 643, 643, 644, 647, 650, 651, 675, 676 Zwarts, F. 189, 403, 409 Zwick, R. 402, 409 Zwicker, E. 207, 2121 Zwicky, A. M. 502, 504 Zwicky, A. R. 531 Zwiener, K. 735, 752 Zwitserlood, P. 492, 493, 504, 505, 602, 606 Zyda, M. 866, 880
Sachregister / Subject Index A Adaptation 519 Adaptivität 250, 617 Adaptor (Manipulator) 264⫺ 266, 269⫺273 Adressatenbezug 280 Adult-Directed-Speech (ADS) 782, 793 Affekt (affect) 472, 486, 546, 555, 558, 682 Agrammatismus 81, 547, 724, 769 Ahnengalerie 16, 18 Aktivierungsausbreitung 253⫺ 255 Akustik 339, 342 Akzeptabilität 307⫺309, 314, 315, 533, 534, 670, 673 Alignment 547, 548, 550, 558, 561 Alltagspsychologie 1, 6, 9, 10 Alter (age) 812, 814, 817, 827, 829, 830, 835, 837, 838 ⫺, Stil des 817 ⫺, Stile des 817 Alzheimer 247, 813 Ambiguität 88, 609, 612⫺614, 681 ⫺, lexikalische 87, 613, 614, 618 ⫺, lokale 529 ⫺, refererenzielle 615, 618 ⫺, semantische 692 ⫺, syntaktische 613, 614 Amusie 463 Analyse ⫺, prälexikalische 84 Anaphora ⫺, deep 666⫺668 ⫺, surface 666⫺668 Anker-Effekt 234 Anomalie 655, 673 Aphasie, Aphasiologie 63, 72, 463, 464, 545⫺547, 724, 776, 777 Apraxie (apraxia) 548 Architektur (architecture) 9, 81, 133, 134, 218, 235, 252, 526, 527, 755, 759, 776, 864, 877, 893, 897 ⫺, computer 864 ⫺, dreischichtig 133 ⫺, hierarchisch 133 ⫺, invariante 234 ⫺, kognitive 492, 513, 515
⫺, modulare 26, 679 ⫺, Netzwerk- (network) 373, 416 ⫺, neural 792 ⫺, serielle 197 ⫺, syntactic 791 ⫺, Wissens- 777 Argumentieren (Argumentation) 281, 282, 319⫺321 Artikulation (articulation) 50⫺ 52, 42, 43, 51, 63, 64, 80, 83, 89, 135, 136, 177, 178, 204, 217, 220, 224, 225, 228, 230, 234, 246, 269, 270, 294, 297, 322, 339, 346, 350, 351, 410, 442, 464, 466, 473, 477, 478, 480, 485⫺487, 519, 520, 522, 546, 548, 600, 710, 716, 723, 724, 782⫺784, 806⫺808 Artikulationsstörung 63 ARMA-Verfahren (Auto-Regressive Moving Average) 204 Attraktor 529 Auffordern (-ung, requesting) 230⫺232, 281, 283, 284, 286, 287, 432⫺439, 691, 692, 696, 847 Aufforderungsklassen (-varianten) 231, 432, 434, 436⫺439 Aufmerksamkeit (attention) 153, 154, 157, 158, 160⫺162, 224, 244⫺250, 270, 271, 273, 313, 321, 359, 363, 462, 498, 514, 521, 545, 546, 585, 610, 625, 626, 633, 639, 647, 692, 693⫺695, 697, 730, 732, 733, 757, 774, 781, 783, 784, 785, 787, 792, 794, 797, 803, 806, 830, 836, 841, 847, 849, 851, 860, 864 Augenbewegung 142⫺150, 152⫺ 155, 157, 160, 163, 164 Äußerungsbasis ⫺, kognitive 228⫺232, 234, 235, 237, 239, 240, 241 Autismus 678 Automatentheorie 19, 20 B Babysprache (motherese) 782⫺ 784, 789 Basisebene 371, 372 Bedeutungstheorie 2
Begriffsgeschichte 15 Behaviorismus 1⫺4, 6, 19, 20, 28, 193, 194 Belastung ⫺, kognitive 363 Benennung (naming) 369⫺372, 374, 376, 378, 521, 615, 682, 688, 736, 753, 763, 764, 769, 771, 772, 774, 775, 777, 778, 787, 795, 796, 847 ⫺, Emotions- 685 ⫺, idiosynkratische 615 ⫺, Objekt- 219, 368, 609⫺616, 618 ⫺, spezifische 373 ⫺, sprachliche 378, 391, 617 ⫺, Standard- 372 ⫺, symbolische 759 Bewertung 476, 478, 480, 486, 659, 681, 686, 691, 692, 695, 696 ⫺, affektive 471, 480, 483, 484, 488, 698 ⫺, akustische 487 ⫺, auditive 487 ⫺, emotionale 473, 478, 482, 488, 677, 693 ⫺, konnotative 487, 677, 678, 681 ⫺, semantische 474 Bezugsrichtung 377, 380⫺384 Bark-Skala 207 Bildgebende Verfahren (Methoden) 181, 183⫺185, 187, 339 Bildverarbeitung 150⫺152 Bilingualismus 835 ⫺, konsekutiver 835 ⫺, simultaner 835 Blickbewegung (eye tracking) 133, 142, 143, 145, 153, 155, 156, 160, 161, 163, 281, 515, 602⫺604, 610, 785, 869 Botschaft (message) 82, 213, 215, 217, 218, 220⫺223, 228, 246, 294⫺296, 298⫺301, 303, 358, 410, 411, 412, 414, 415, 417, 418, 442, 455, 477, 478, 480, 481, 482, 484, 485, 544, 546, 559, 588, 677, 681, 688, 690, 691, 719, 753, 785, 857 Broca (-Areal, -,Aphasie) 36, 38, 45, 47, 63, 64, 70, 72, 74, 184⫺187, 334, 464, 465, 547, 555, 724, 776⫺779 Buchstabenerkennung 131, 132
936 C Cepstrum 205, 206 Chat 358, 845, 847, 849, 850, 852 Child Directed Speech (CDS) 782, 793 Closure Positive Shift (CPS) 343 Clusteranalyse 157 Cognition s. Kognition Cognitive anthropology 106, 107, 110, 111 Computertheorie des Geistes 5, 10 Construction-Integration Theory (CI) 422, 427, 428 Cross-cultural psychology (research, study) 106⫺109 Cross-linguistic approach (study) 106, 107, 108, 109, 110 Cultural anthropology 106 D Datenanalyse (-verarbeitung) 95, 152 Datenaufbereitung 95 Datenerhebung (data gathering) 92, 94⫺96, 107, 110, 111, 116 Datenrate 882, 883, 887 Datenratenreduktion 887 Deixis 412 ⫺, discourse 412 ⫺, person 412 ⫺, spacel 412 ⫺, time 412 Design (Versuchsplan) 122 ⫺, einfaktorielles 118 ⫺, geblocktes 119, 120 ⫺, gemischtes 119, 120 ⫺, geschachteltes 119, 120 ⫺, mehrfaktorielles 119, 120, 194 ⫺, varianzanalytisches 194 Developmental pragmatics 110 DFT (Digitale Fourier-Transformation) 204 Dialog 589, 590, 593⫺595 Dilemma ⫺, Vollständigkeits-Geschlossenheits- 214, 215 Direktheit 432⫺435, 437, 438 Discourse Representation Theory (DRT) 404, 509, 552 Discourse skills 790, 798 Diskursrezeption 491, 495, 497, 498 Dissoziation 198, 199 Distanz 376, 377, 379, 384, 388, 389, 391 Dokumenttypdefinition (DTD) 891, 892
Sachregister Drift (Gendrift) ⫺, genetische 765, 766, 768 Dual-Coding-Hypothese 6, 7 Dysarthrie ( dysarthria) 547, 548 E Einheit 86, 128 ⫺, assoziative 125 ⫺, atomare 10 ⫺, bedeutungstragende 10 ⫺, emotionale 16 ⫺, grundlegende 10 ⫺, Informationstheoretische 20 ⫺, lineare 131 ⫺, linguistische 20 ⫺, Makro- 134 ⫺, neuronale 81 ⫺, Output- 128 ⫺, psycholinguistische 20 ⫺, Reaktions- 125 ⫺, semantische 10 ⫺, sensorische 125 ⫺, sprachliche 301, 302 ⫺, strukturierte 6 ⫺, TOTE 20 ⫺, Verarbeitungs- 25, 133 ⫺, Wort- 129 Einwortphase (-produktion) 51, 83 Einwortsatz 51, 53 ELAN (early left anterior negativity, frühe linksanteriore Negativierung) 171, 172, 175 EEG (Elektroencephalogramm) 72, 168, 183, 191, 464, 757, 777 Elektroglottograph 206 Elektromyogramm 190, 197 Elizitierungstechnik 94 Ellipse (ellipsis) 222, 232, 280, 284, 286, 306⫺310, 312⫺315, 410, 411, 414, 419, 435, 438, 450, 666⫺668, 848, 859 Emblem 264⫺266 EMG- (elektromyografische) Studie 160, 520 E-Mail 357, 359, 845, 847, 849, 851, 852, 881, 883, 888, 894 Emotion (-sforschung, Emotionalität) 262, 264, 265, 268, 272, 288, 411, 458, 463, 464, 468⫺488, 497, 513, 545, 546, 549, 553⫺555, 557, 623, 635, 677⫺690, 692⫺694, 697⫺ 699, 771, 846, 856, 875, 877 Enkodierung (encoding) 218, 223⫺225, 229, 230, 237⫺239, 246, 339, 360, 363, 382, 474, 640, 644 ⫺, Buchstaben- 604 ⫺, grammatische (grammatical) 246, 295⫺297, 299, 304,
410⫺412, 414, 418, 477, 480, 482 ⫺, konzeptuelle (conceptual) 410 ⫺, lexikalische 219, 220, 480 ⫺, message 411, 412 ⫺, morpho-phonologische 323, 477, 484 ⫺, perzeptive 581 ⫺, phonetische 220, 346, 484 ⫺, phonologische (phonological) 83, 84, 220, 246, 274, 295⫺ 297, 299, 303, 410, 477, 480 ⫺, piktoriale 585 ⫺, prosodische 477 ⫺, question 423 ⫺, semantische 300, 581 ⫺, sprachliche 228, 232, 237, 270, 281, 339, 373, 382, 387, 757 ⫺, syntaktische (syntactical) 83, 221, 294, 299, 300, 323, 410, 415, 480, 482 ⫺, visuelle 604, 605 ⫺, Wort- 541 Entität 129 ⫺, interne 1 ⫺, mentale 1, 2, 10 ⫺, private 2 ⫺, strukturierte 10 ERB-Skala (Equivalent Rectangular Bandwidth) 207 Ermüdung 519 ERP (Even-Related Potentials, EKP, Ereigniskorrelierte Potentiale) 168, 170⫺178, 183, 255, 339, 343⫺345, 494, 495, 530, 668, 671, 672⫺675, 681, 724, 726 error ⫺, mixed 82, 83 ethnocentrism 107 Experiment (Messung, Technik, Test) 115⫺117, 119⫺122, 168, 175, 176, 184, 186, 198 ⫺, Augenbewegungs- (Blickrichtungs-, eye-tracking) 495, 613, 614, 671 ⫺, Bahnungs- 171 ⫺, Behaltens- 628 ⫺, comprehension 109 ⫺, cross-modal priming 671⫺ 673, 675 ⫺, cued-recall 535 ⫺, Distanzvergleichs- 626 ⫺, einfaktorielles 116 ⫺, elicitating 109 ⫺, Entscheidungs- 194, 198, 694 ⫺, Evaluations- 738, 739 ⫺, Fragmentations- 133 ⫺, free-association 108 ⫺, free-recall (freie Wiedergabe) 108, 696
937
Sachregister ⫺, ⫺, ⫺, ⫺,
gross meaning recall 667 Interventions- 738, 739 Introspektion 836 Kategorisierungsaufgaben656 ⫺, kognitionspsychologisches 182 ⫺, Kontroll- 363 ⫺, Lautes-Denken- 360, 362, 647, 836 ⫺, Lautes-Lesen- 527, 528 ⫺, Lesezeit- (reading time) 121, 407, 413, 427, 495, 529, 570, 624, 639, 647, 656, 667, 670, 673 ⫺, lexikalische Entscheidungsaufgabe (lexical decision task) 417, 527, 528, 571, 656, 696 ⫺, mehrfaktorielles 116, 117 ⫺, mental-scanning 626 ⫺, multivariates 116 ⫺, natural 109 ⫺, neuroimaging 555 ⫺, off-line 24, 116, 449 ⫺, paper-pencil 107 ⫺, on-line 24⫺26, 116, 449 ⫺, picture-word-interference 415, 417 ⫺, Priming- 85, 349, 351, 494, 510, 527, 613, 626 ⫺, psycholinguistisches 116, 117, 123, 207 ⫺, question-answering task 669 ⫺, rating 674, 683, 684 ⫺, Reaktionszeit- (reaction time) 85, 154, 168, 171, 190⫺195, 199, 200, 363, 528, 530, 613, 656, 666, 684 ⫺, Reproduktions- 569, 570, 647 ⫺, Rezeptions- 859 ⫺, sentence acceptability judgment 670 ⫺, sentence recall 667 ⫺, Shadowing- 25, 63 ⫺, Signalentdeckungs- 695 ⫺, Stroop- 694, 695 ⫺, Tier- 193 ⫺, univariates 116 ⫺, Verifikation (verification) 427, 429, 656 ⫺, Verhaltens- 628, 629 ⫺, Wiedererkennungs- (recognition time) 424, 427, 429, 510, 511, 573, 623, 624, 647 ⫺, word association 109 ⫺, word-by-word reading 674 ⫺, Worterkennungs- 694 ⫺, Wortproduktions- 347, 350, 352 Extensible Markup Language (XML) 890, 892, 893, 896⫺ 898 Extension 506, 507, 513
F FFT (Fast Fourier Transformation) 204 Fixation 143⫺145, 153⫺160, 164, 601, 603, 604, 610 Fokus/sierung (focus) 223, 225, 228⫺232, 246, 270, 271, 298, 307, 313, 340, 403, 404, 407, 412⫺415, 419, 447, 475, 477⫺479, 496, 497, 510, 546, 550⫺552, 555, 556, 560, 570, 573, 580, 581, 585, 605, 606, 616, 618, 625, 626, 666, 684, 689, 697, 757, 774, 787, 795, 822, 825, 842, 851, 864, 867, 869 Formatierung 228, 229, 237, 241 Fossilization 827⫺831 Fourier-Spektrum 203, 204 Frame 9, 150, 541 Funktionalismus 1, 4, 5 Funktionelle Bildgebung 181 fMRT (funktionelle Magnetresonanztomographie, FMRI ⫽ Functional Magnetic Resonance Imaging) 36, 72, 74, 181⫺187, 191, 344, 555⫺558, 777
G Gapping-Konstruktion 306, 310, 313, 314 Gating-Studie 71 Gebärdensprache (Gehörlosen-) 169, 462, 466, 707⫺714, 716, 718⫺720, 722, 724, 725, 726, 801 Gebärdensprachproduktion 707, 714 Gedächtnis (Speicher, memory, buffer) 80, 127, 129, 171, 193, 195, 222, 224, 234, 248, 256, 284, 351, 364, 382, 384⫺386, 422, 424, 425, 427⫺429, 456, 472, 478, 496, 518, 520⫺522, 535, 536, 538, 579, 613, 614, 617, 618, 633, 639, 674, 675, 687, 688, 693, 694, 696, 697, 753⫺759, 763, 764, 771, 775, 776, 792, 793, 813, 838, 858, 877 ⫺, allographisches 808 ⫺, Arbeits- (working) 67, 72, 74, 134, 172, 173, 184, 186, 223, 235, 244, 246, 250, 274, 286, 363, 364, 374, 422, 484, 497, 498, 508, 509, 515, 536, 584, 585, 605, 625, 629, 668, 674, 675, 803 ⫺, assoziatives 128, 875
⫺, Bild- 757 ⫺, episodisches 74, 474, 476 ⫺, graphemisches 805, 807, 808, 810 ⫺, konzeptuelles 679 ⫺, Kurzzeit- (short term) 224, 238⫺240, 244, 247, 411, 536, 640, 667, 697, 830 ⫺, Langzeit- (long term) 223, 225, 235, 246, 247, 356, 360⫺362, 411, 416, 427, 428, 495, 536, 623, 640, 802 ⫺, Langzeit-Arbeits- 363 ⫺, lexikalisch-semantisches 476, 774 ⫺, menschliches 777 ⫺, musikalisches 462 ⫺, motorisches 808 ⫺, Oberflächen- (surface) 418 ⫺, Output- 805, 807, 808, 810 ⫺, phonologisches (phonological) 418 ⫺, semantisches 74, 387 ⫺, sprachliches 803 Gefühl 470, 472, 474, 476, 481, 488, 685, 688, 691, 848, 857 Gehirn (brain) 4, 5, 9, 10, 33, 35⫺37, 57, 58, 60⫺62, 80, 155, 181, 182, 213, 282, 342, 374, 412, 455, 463⫺466, 476, 530, 545, 553⫺555, 557, 579, 600, 673, 726, 755, 761, 762, 768, 771, 772, 776, 777, 778, 791, 792, 813, 837, 864, 867, 876, 877 General Public License (GPL) 894⫺897 Generationsablösung 816 Genom 753 Genus ⫺, grammatisches 252, 253, 255⫺257 ⫺, konzeptuelles 256 ⫺, natürliches 256, 257 ⫺, syntaktisches 254 Gesprächsanalyse (-forschung) 92, 97, 99, 213, 479, 480 Gestaltprinzipien 307, 310 Gestalttheorie 193 Gestik (Geste, gesture) 53, 96, 98, 121, 214, 262⫺275, 286, 351, 371, 477, 480, 519⫺521, 546, 547, 692, 713, 730, 762, 775, 786, 787, 794, 846, 851, 857, 874, 875 Grammatiktheorie (-modell) 3, 10, 307, 308 Granularität 442, 514 Graphomotorik 801, 808 Grundfrequenz (FO, fundamental frequency) 187, 204, 205, 209, 210, 340⫺342, 344, 345, 350, 485, 486, 546, 549, 558⫺ 560, 680⫺682, 783, 784
938 H HR (hämodynamische Reaktion, Korrelate) 182, 183, 185, 187 Höflichkeit 432;434, 435 Hörbahn 63⫺65, 67, 69, 71⫺75 Hören 84, 169, 183, 515, 528, 568, 580, 588, 589, 597, 689, 782, 851 ⫺, dichotisches 66, 694 Hypertext Markup Language (HTML) 890, 891, 896
I Illustrator 264⫺266, 269, 270⫺ 273 Implikatur 400, 401, 407, 437 ⫺, additive 658 ⫺, konversationelle 658, 659 Inakzeptabilität 308, 309, 314, 315 ⫺, stilistische 308, 309 ⫺, syntaktische 308 Individualkommunikation 845, 846, 851 Infant Directed Speech (IDS) 781, 782 Inferenz (inference) 25, 87, 88, 108, 246, 281, 283, 287, 356, 399, 401, 404, 422, 447, 496⫺ 498, 536⫺539, 541, 566⫺568, 570⫺574, 578, 612⫺615, 618, 623, 626, 633, 638⫺640, 643, 649, 653, 658, 687⫺689, 692, 695 Informationstheorie (-wissenschaft) 15, 19⫺21, 24, 27 Informationsverarbeitung 58⫺ 60, 80⫺82, 84, 89, 125, 152, 156, 168, 190, 191, 194, 196, 198, 199, 219, 473 Infotainment 859, 860 Inkongruenz 651⫺654, 657, 659, 689 ⫺, kognitve 653 Inkrementalität 311, 335, 524 Institutionalisierung 15, 16, 22 Instrumentalität 359, 360 Intension 506, 507, 509, 513 Intention (Absicht, intention) 5, 6, 9, 10, 80, 81, 83, 84, 187, 252, 253, 264, 283, 284, 294 339, 370, 405, 410, 411, 446, 448, 478, 496, 497, 498, 554, 589, 602, 606, 615, 635, 651, 657, 659, 784, 786, 787, 791, 843, 845, 847, 850 Intentionalität 1, 244, 533, 534, 781, 784 Interferenz 835, 837 Interkulturvergleich 433, 438
Sachregister Interlanguage 819, 821, 824, 831, 836 Internet 847, 852, 857, 876, 881⫺ 883, 885, 887, 889⫺891, 894⫺ 896, 898 Intonation 50, 99, 100, 121, 183, 187, 206, 208, 262, 270, 275, 286, 287, 340, 341, 387, 462, 465, 466, 470, 477, 478, 480, 485, 545, 550, 552, 560, 561, 680 Intonationsphrase (Iph, intonational phrase) 340⫺345, 553, 558, 559 IPG (Inkrementelle Prozedurale Grammatik) 221, 299, 304
K Kategorialität 518⫺522 Kategorisierung (Klassifikation, categorization, classification) 9, 71, 85, 97, 107, 111, 128, 153, 160, 168, 172⫺175, 219, 220, 225, 259, 263, 264, 266⫺268, 284, 285, 310, 315, 317⫺319, 325⫺327, 332, 333, 371, 372, 378⫺380, 382, 384, 390, 391, 402, 424, 432⫺434, 436, 439, 443, 445, 482, 495, 518, 522, 547, 550, 609, 616, 617, 638, 652, 656, 657, 667, 680⫺685, 687, 694, 695, 697, 735, 757⫺759, 763, 772, 774, 775, 788, 829, 866, 876, 884, 893 Koartikulation 519 Kodierung ⫺, duale 579, 580 ⫺, grammatische 252, 253, 255⫺ 257, 259, 260 ⫺, lexikalische 259, 473 ⫺, mentale 635 ⫺, metrische 346 ⫺, morphophonologische 473 ⫺, morphologische 346 ⫺, phonetische 346, 349, 350 ⫺, phonologische 252, 346⫺349, 351, 352 ⫺, segmentale 346 ⫺, sprachliche 473 Kognition (cognition) 5, 10, 26, 58⫺60, 61, 63, 110⫺112, 127, 131, 222, 282, 288, 468, 472, 496, 506, 508, 509, 513, 514, 644, 647, 678, 688, 856, 864, 874 Kognitionsforschung (-theorie, -wissenschaft, cognitive science) 3, 24, 26, 27, 60, 80, 107, 125, 126, 129, 136, 218, 505, 586
Kohärenz (coherence) 214, 224, 238, 239, 246, 360, 361, 413, 414, 443, 445, 448⫺450, 495, 497, 498, 528, 533, 535, 536, 537, 539, 540⫺542, 552, 566⫺ 569, 571, 572, 616, 639, 640, 643, 647, 654, 688, 689, 817, 846, 850, 851 Kohäsion (cohesion) 250, 533, 572, 688, 796, 798 Kommunikation (communication) 15, 19, 23, 28, 29, 33, 43, 46, 48, 52, 58, 59⫺60, 61, 97, 117, 121, 161, 163, 214, 215, 230, 231, 233, 237, 247, 248, 262, 263, 275, 283, 284, 286, 287, 289, 339, 358, 359, 368, 369, 370, 371, 372, 380, 401, 402, 434, 442⫺445, 447, 451, 454, 468, 471, 476, 478, 480, 482, 484, 495⫺498, 507, 513, 515, 516, 521, 526, 532, 533, 544, 545, 554, 566, 569, 572, 577, 589, 595, 612, 635, 654, 658, 659, 660, 667, 679, 681, 682, 686, 687, 689⫺693, 698, 730⫺734, 738, 753⫺755, 759⫺762, 765, 770, 771, 774, 782⫺786, 789, 791, 792, 797, 801⫺803, 812⫺814, 816⫺ 819, 829, 836, 837, 845⫺852, 860, 875, 876, 881, 882, 887, 888, 890, 894 Kommunikationsprotokoll 237, 239 Kompatibilität 190, 191 Kongruenz 252, 296, 310, 311, 313⫺315, 527, 710⫺712, 724⫺726 Konnektionismus 1, 9, 10, 24⫺ 26, 29 Konsistenz 214, 224, 238, 443, 784 Konsonantenbildung 42, 53 Konvention 215, 232, 283, 359, 386, 432, 455, 460⫺462, 481, 485, 497, 533, 545, 578, 606, 612, 812, 846, 847 Konzept (concept) 87, 88, 135, 218, 239, 241, 267, 296, 299, 300, 303, 346, 369, 413⫺417, 419, 424⫺429, 434, 455, 460, 461, 466, 472, 481, 496, 552, 567, 568, 569, 572, 605, 652, 656, 658, 668, 686, 692, 791⫺794, 801, 802, 805, 825, 839, 840, 845, 874, 884, 890, 897, 898 ⫺, Äußerungs- 135 ⫺, Bedeutungs- 20 ⫺, Central Organizer- 275 ⫺, conjunctive 108 ⫺, decomposition 561
939
Sachregister ⫺, disconjuntive 108 ⫺, emotionales (Emotions-) 471, 476, 478, 487, 686⫺688, 692 ⫺, flexible 472 ⫺, Inkongruenz- 653 ⫺, Kausal- 638 ⫺, lexikalisches 220, 240, 252, 347, 478 ⫺, mentales 60 ⫺, Modul- 26 ⫺, Objekt- 374, 391 ⫺, Personen- 410 ⫺, propositionales 472 ⫺, Selbst- 687, 688 ⫺, spatial relational 796 ⫺, sprachliches 569 ⫺, räumliches (spatial) 107, 270, 378 ⫺, theoretisches 837 ⫺, Wissens- 8 ⫺, Wort- 569 Konzeptualisierung (-bildung) 294, 295, 477, 478, 481, 485, 740 Kookkurenzbeziehung (Phrasenkoordination) 308, 310, 312 ⫺, diskontinuierliche 306, 309, 310 ⫺, identische 306 Kopräsenz 358, 845, 847, 851 Korrektur (Selbst-) 222, 707, 720⫺724 Kybernetik 15, 19, 22
L LAN (left anterior negativity, späte linksanteriore Negativierung) 171⫺176, 668, 675 Laryngograph 206 Läsion 63, 125, 186 Lautproduktion 453⫺455, 460, 461, 759, 761, 763 Latenzzeit 247 Lateralisation 555, 558 Lemma 135, 220⫺222, 252⫺257, 295⫺301, 323, 324, 346, 347, 414⫺416, 419, 477, 478, 480⫺484, 679, 697, 719, 720 Lernen (Er-, learning) 9, 21, 23⫺ 25, 48⫺50, 89, 125, 127⫺130, 133, 136, 471, 478, 518, 520, 521, 560, 577, 584, 585, 623, 633, 637, 699, 753, 761, 771, 778, 781, 784, 785, 788, 791, 792, 793, 795, 797, 804, 814, 815, 819, 820, 826, 827, 829, 830, 831, 833⫺840, 842, 843, 857 Lesefähigkeit 585, 586 Leseforschung 150, 157, 159, 163, 601, 603
Lesen (reading) 18, 84, 88, 89, 99, 121, 129, 131⫺133, 142, 154, 156, 163, 169, 183, 184, 191, 309, 360, 363, 498, 515, 538, 570⫺573, 580, 581, 583, 585, 600⫺606, 625, 626, 639, 640, 648, 664, 669, 689, 694, 695, 806, 807, 837, 843, 846, 860, 885 Leseverständnis 360 Lexikon (lexicon) 295, 296, 298⫺301, 324, 347⫺351, 442, 466, 469, 482, 493, 525⫺527, 614, 710, 713, 719, 759, 777, 779, 804, 805, 812 ⫺, akustisches 777 ⫺, auditorisches 184 ⫺, emotionales 683 ⫺, Form- 720 ⫺, graphemisches 804 ⫺, Lemma- 720, 721 ⫺, mentales (mental) 25, 133, 177, 185, 195, 219, 220, 222, 252⫺255, 259, 346, 415, 478, 481, 491⫺494, 507, 602, 665, 679 ⫺, Output- 804, 805 ⫺, Produktions- 347 ⫺, semantisches 184, 185 ⫺, visuelles 185 Linearisierung 228, 229, 232⫺ 235, 246, 247, 284, 285, 356, 385⫺388, 443, 444, 448⫺450, 477⫺479 LRP (lateralisiertes Bereitschaftspotential) 177, 178 LPC-Verfahren (linear predictive coding) 204, 205, 208⫺ 210 Lokalisationssequenz 376, 381, 385, 387 Lokalisieren 383, 389 ⫺, deiktisches 382 ⫺, egozentrisches 381, 382 ⫺, intrinsisches 381 ⫺, partnerbezogenes 383 ⫺, perzeptives 379, 381 ⫺, sprachliches 376, 381, 384, 385, 391 Lokative 376, 377, 378
M Makrostruktur 443, 446 MEG (Magnetoenzophalographie) 191 Medialisierung 453 Medienwirkungsforschung 856, 857 Medium/Medien 356, 845, 848, 850⫺852, 855, 856, 860, 889, 893, 896
⫺, elektronisches 161 ⫺, emotionssensitives 161 ⫺, interessensensitives 161 ⫺, Massen- 891 Mehrwortsatz 51, 53 Meinen 589, 593, 595, 609, 651, 652, 657⫺659, 692 Mensch-Computer-Interaktion 161, 163, 164 Mensch-Maschine-Schnittstelle 159, 163 Merkmal ⫺, diakritisches 253, 257, 259, 347 Metapher 215, 304, 470, 472, 482, 685, 690 Methode additiver Faktoren (Additive Factors Method, AFM) 190, 192, 194⫺199 Mimik 121, 214, 262, 263, 287, 786, 846, 857 Missverstehen 588, 589, 593⫺ 598 Modalität (modality) 356, 707, 720⫺722, 724⫺726, 864, 865, 869 ⫺, auditive 521 ⫺, Äußerungs- 357 ⫺, Ausdrucks- 355 ⫺, Output- 357 ⫺, Sinnes- (sensory) 730, 793 ⫺, Verarbeitungs- 708, 714 ⫺, visuelle (visual) 460, 521, 874 Modell (Modellierung, model, modeling) ⫺, Ähnlichkeitswahl- 131 ⫺, Aktivations- 129, 132, 133 ⫺, Aktivations-Verifikations132 ⫺, algebraisches 647 ⫺, analoges 8 ⫺, assoziatives 127, 128, 472 ⫺, Auflistungs- 492 ⫺, Augmented Addressed Morphology 492 ⫺, autosegmental 546 ⫺, autonomes 129, 130, 133, 216⫺220, 491, 493⫺495 ⫺, Bayes- 638 ⫺, Beschreibungs- 239 ⫺, biokybernetisches 131 ⫺, Blickbewegungs- 133 ⫺, Bottom-up- 535, 541 ⫺, Boxologie- 125 ⫺, Buchstabenerkennungs- 131, 132 ⫺, Buchstabenpriming- 133 ⫺, Buchstabenverwechslungs132 ⫺, CAD 877 ⫺, competition 792 ⫺, Computer- (computational) 125, 131, 530, 531, 544, 546, 558, 559, 561, 866
940 ⫺, constraint-based 527 ⫺, construction-integration 87, 539 ⫺, Dialog- 589 ⫺, diskretes 323, 324, 335 ⫺, diskret-serielles 253, 254, 259 ⫺, Diskurs- (discourse) 411⫺ 414, 666⫺668 ⫺, Diskurswelt- 573 ⫺, Distanz-Dichte- 132 ⫺, distribuiert-konnektionistisches 89, 127 ⫺, 3D geometry 867 ⫺, Drei-Stufen/Phasen- 655, 788 ⫺, Dual Read-Out 133 ⫺, Dual-Route- 177 ⫺, Einprozess- 134, 135 ⫺, empirisches 21 ⫺, Entwicklungs- 209, 803 ⫺, Erwartungs-Wert- 856 ⫺, Erwerbs- 808 ⫺, Event-Indexing 497, 512⫺ 514 ⫺, feature strengthening 825 ⫺, finite-state 20 ⫺, formales (formal) 27, 125, 127, 131, 134, 670 ⫺, fragmenttheoretisches 132 ⫺, Full Access 820⫺824, 826, 827 ⫺, Full Transfer 820⫺824, 826, 827 ⫺, Fuzzi Logical 132 ⫺, Garden-Path- 494, 525 ⫺, Global Prominence 553, 559 ⫺, Graphem-Phonem-Konversions- 806 ⫺, geometrisches 131, 132 ⫺, Hidden Markoff 884 ⫺, Hybrid- (hybrides, hybrid) 128, 413, 525 ⫺, Identifikations- 132 ⫺, informatiosverarbeitendes 81 ⫺, integratives 487 ⫺, ICS- (Interacting Cognitive Sub-) 473 ⫺, interaktives 83, 86, 133, 134, 254, 259, 301, 302, 304, 320, 323, 334, 335, 491, 493⫺496, 679 ⫺, internes 583 ⫺, intonational 560 ⫺, Kaskaden-, kaskadisches 12, 129, 254, 259, 323, 324, 346 ⫺, Kategorien- 649 ⫺, Kausalitäts- 636, 638 ⫺, klassisches 526 ⫺, Koalitions- 788 ⫺, kognitionswissenschaftliches 81 ⫺, kognitives 22, 126, 127, 160, 178, 874 ⫺, Kohorten- 85, 86, 134
Sachregister ⫺, Kommunikations- 690, 856 ⫺, komputationelles 134 ⫺, konnektionistisches (connectionistic) 125, 127, 129, 133, 134, 196, 301, 302, 304, 373, 496, 539, 567, 796 ⫺, kontextsensitives 216, 217, 220, 222 ⫺, Kontrast- 132, 636 ⫺, Konstrutktions-Integrations134, 567, 639, 689 ⫺, Kriteriums- 132 ⫺, Kontur- 132 ⫺, Lern- 127 ⫺, lernpsychologisches 841 ⫺, Lese- 89, 133 ⫺, lexical access 417 ⫺, linguistisches 29, 545, 649, 680 ⫺, logisches (logical) 401 ⫺, Logogen- 85, 129, 132, 804, 807, 808 ⫺, lokales 129 ⫺, lokal-konnektionistisches 83, 84, 127, 129, 130, 133, 135, 299, 301, 304 ⫺, linguistisches 175, 544 ⫺, Maschinen- 249 ⫺, mathematisches 126, 132, 133, 193 ⫺, mengentheoretisches 132 ⫺, mentales (mental) 8, 9, 87, 176, 411, 412, 496⫺498, 505⫺516, 538, 541, 579⫺584, 622, 623, 634, 638, 643, 666, 668, 683, 689, 695 ⫺, Metaphern- 656 ⫺, minimal tree 824, 826, 828, 829 ⫺, modulares 129, 133, 301, 473, 679 ⫺, morphemzentriertes 492 ⫺, Morphological Race 492, 493 ⫺, Multikomponenten- 132 ⫺, Multiple Read-Out 133 ⫺, Netzwerk- 127, 245, 472, 492, 513, 626, 693 ⫺, neurobiologisches 125 ⫺, ontogenetisches 802 ⫺, Open Information 897 ⫺, Open-Source 889, 893 ⫺, parallel-distributed-processing (PDP) 416 ⫺, paralleles (parallel) 197, 413, 422, 428, 429 ⫺, parametric 558 ⫺, Parsing- 175, 529 ⫺, Partner- 249, 595, 653 ⫺, Permanenz- 812, 817 ⫺, Person- 643, 648, 649 ⫺, phonological 545, 552 ⫺, physiologisches 654
⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺,
⫺, ⫺, ⫺, ⫺, ⫺,
⫺, ⫺,
pitch accent 561 Plateau- 812, 817 Power- 636 präquantitatives 134 procedural 873 Produktions- 218, 319⫺321, 373, 455, 482 propositionales 693 prosody (prosodic) 545, 559 Prozess- 24, 27, 127, 128, 220, 244, 283, 473, 491, 493, 495 psychoanalytisches 273 psycholinguistisches (psycholinguistic) 132, 136, 217, 323, 410, 439, 680, 683, 691, 692 psychologisches 125, 486 quantifizierendes 21 Rahmen- 245, 583, 605, 638, 658 Random- 156 Raum- 385 Reaktionszeit- 197 rechnergestütztes 125 recognition 427 regelgeleitetes 127, 128, 134 regularitätsbasiertes 637 Regulations- 237 repräsentationales (Repräsentations-) 10, 492 Rezeptions- 693 Rückwärtspropagations- 132, 133, 135 SAS- (Supervisory Attention System) 244, 245, 249 Satzproduktions- 135 Satzsegmentierungs- 134 Satzverarbeitungs- 494 schematic 474 semantisches (semantic) 507, 553 serielles 197, 346, 351, 679 sequential 550 Signalentdeckungs- 132 Signalverarbeitungs- 131 Simulations- 125⫺129, 132, 133, 135, 136, 373 Situations- (situation) 428, 478, 509⫺513, 537, 538, 541, 542, 572, 573, 579, 622⫺629, 638, 643, 683, 689, 848 situierte, 491, 497 speech comprehension 674 Sprachbenutzer- 131 Sprach- 484, 860 Sprachproduktions- (speech production) 177, 213, 214, 217, 218, 225, 246, 301, 302, 321, 323, 335, 346, 355, 373, 415, 466, 719, 723, 801 Sprachverarbeitungs- 89, 670, 678, 691, 698 Stadien- 813
941
Sachregister ⫺, Standard- 135, 294, 295, 299, 301, 304, 466 ⫺, Standardsimulations- 133 ⫺, statistical-approximation 560, 561 ⫺, stochastisches 21, 561 ⫺, Struktur- 583 ⫺, Struktur-Vergleichs- 656 ⫺, Stufen- 81, 129, 192, 196, 301, 323, 324, 335, 805 ⫺, Such- 493 ⫺, sums-of-products 560 ⫺, super positional 561 ⫺, symbolisches 127, 301 ⫺, Symbolverarbeitungs- 373 ⫺, systemisches 529 ⫺, Systemregulations- 432 ⫺, Text- 689 ⫺, Textproduktions- 360, 361 ⫺, TEXTR (text retrieval) 427⫺ 429 ⫺, Textverarbeitungs- 542 ⫺, Textverstehens- 536 ⫺, tone-sequence 555 ⫺, Top-down 535, 541 ⫺, Trace 86, 134 ⫺, universalist 545 ⫺, Unscharfes-Logik⫺, Verarbeitungs- 679 ⫺, verstecktes Markov- (Hidden Markov-) 134 ⫺, verteiltes (distributed) 129, 136, 413 ⫺, verteilt-konnektionistisches 134 ⫺, Verarbeitungs- (processing) 197, 413 ⫺, Verstehens- 655 ⫺, virtual reality 866 ⫺, working 410, 414⫺416, 665, 675 ⫺, Welt- (world) 875 ⫺, Worterkennungs- 132, 133 ⫺, Wort- 788 ⫺, Wortproduktions- 135 ⫺, wortzentriertes 492 ⫺, ,Wurstmaschinen-‘ 134 ⫺, Zustands- 131 ⫺, Zwei-Prozess- 135, 176 ⫺, Zwei-Stufen- 658, 659 ⫺, Zwei-Wege(Routen)- 128, 129, 132, 133, 492, 493 Modularität (Modularisierung) 5, 23, 24, 26, 218⫺220 Monitoring (-Technik) 23, 25, 334, 360, 486, 613, 721, 785 Motivation 471, 838 Motorik 635 Multimedia 881, 886, 889, 890 Mündlichkeit 356, 845, 847 Mustererkennung 125, 129 Mutter-Kind-Interaktion 782, 785
N Nativismus 18, 23 Netz (-werk, net) ⫺, Aktivationsausbreitungs- 135 ⫺, Artificial Neural (ANN) 560 ⫺, Assoziations- 87, 88, 129, 684, 686 ⫺, autonomes 128 ⫺, autonom-lernendes 128 ⫺, Bayes‘sches 638 ⫺, begriffliches 893 ⫺, Benennungs- 772 ⫺, coherence 422 ⫺, Computer- 889 ⫺, deklaratives 246 ⫺, dekompositionales 135 ⫺, deterministisches 130 ⫺, Diffusions- 130 ⫺, Diskriminanz- 135 ⫺, Erzeugungs- 224 ⫺, Gedächtniswissens- 539 ⫺, Hopfield- 130 ⫺, hybrides 128, 129 ⫺, interaktives 130 ⫺, kausales 638 ⫺, Kodierungs- 772 ⫺, Kohärenz (coherence, kohärentes) 428, 567 ⫺, Kohonen- 128 ⫺, konnektionistisches 373, 374 ⫺, Konstruktions- 134 ⫺, Kontroll- 224, 303, 304 ⫺, Kontrollknoten- 303 ⫺, künstliches 126⫺133, 135, 136 ⫺, Lern- 128 ⫺, lineares 131 ⫺, lokal-konnektionistisches 128, 130, 135, 303 ⫺, Muster-Assoziations- 128 ⫺, Nerven- 763, 778 ⫺, neuronales (neural) 10, 126⫺ 133, 135, 136, 464, 761, 875, 876, 884 ⫺, nicht-dekompositionales 135, 136 ⫺, nicht-deterministisches 130 ⫺, propositionales 513, 538, 684 ⫺, rekurrentes 130 ⫺, Rückwärtspropagations- 129 ⫺, Satz- 303 ⫺, semantisches 87, 88, 169, 171, 540, 567, 568, 897, 898 ⫺, Sender- 882 ⫺, sensor-actor 875 ⫺, situation 422, 423 ⫺, Speicher- 246 ⫺, sprachliches 181 ⫺, sprachverarbeitendes 688 ⫺, stochastisches 130 ⫺, textbase 422 ⫺, Transitions- 134
⫺, verteiltes 129, 130, 131, 890 ⫺, Wissens- 684, 687 N400 (semantische Verletzung) 168⫺171, 175, 668, 673, 674
O Objektklassenbezeichnung 368, 371, 372 Open Content License (OCL) 896 Open Information 889, 890, 896⫺898 Orthographie 801, 803, 804 Oszillogramm 203, 205, 340
P Paragrammatismus 81 Parallelität 218, 314, 315, 529 Parameterfixierung 228, 229, 234 Parser (Parsing) 87, 134, 168, 171, 173, 175, 524⫺530, 537, 540, 558 Pars-pro-toto-Prinzip 223, 230⫺ 232, 284, 437 Pathos 457, 458 Pause 94, 270, 286, 287, 334, 340, 342, 362, 411, 439, 486, 555, 778, 786, 849, 883 ⫺, gefüllte 95, 269, 439, 552, 783 ⫺, Sprech- 18, 99, 100, 248, 270, 851 ⫺, Verzögerungs- 270 Perspektive (perspective) 379, 381, 387, 411, 412, 443⫺447, 449⫺451, 477, 478, 480 Perzeption (perception) 339 ⫺, categorial 84 PET (Positron Emission Tracing) 464, 555, 777 Philosophie des Geistes 1, 4, 5 Phonation 50, 53 Phonemanalyse (-erkennung, -wahrnehmung) 21, 71, 74, 132, 519 Phonematisierung 53 PET (Positronenemissionstomographie) 36, 72, 181⫺187, 191, 374, 558 Planum polare 185⫺187 Positronenemissionstomogramm 36 Präsupposition (presupposition) 404, 649 Priming 199, 349 ⫺, implizites 349 ⫺, semantisches 195, 198 ⫺, syntaktisches Primitivsprachen 52
942 Produktion ⫺, inkrementell 297 Proposition (Propositionalisierung) 8, 9, 29, 86⫺88, 134, 186, 217, 223, 237⫺240, 229, 237⫺239, 241, 248, 422, 423, 428, 456, 466, 495⫺497, 507, 509, 510, 513, 535⫺540, 542, 550⫺552, 567, 569, 572, 574, 579, 582, 639, 646, 658, 659 Prosodie (Sprechmelodie, prosody) 186, 217, 286, 339, 340, 342⫺344, 454, 456, 462, 464⫺466, 469, 470, 482, 484, 487, 521, 544⫺555, 557⫺559, 561, 678⫺682, 691, 697, 783, 789 Protosprache 53, 763, 772, 778 Prototyp 128 Prozessvariabilität 217, 218 P600 (syntactic positiv shift, späte Positivierung) 171, 173⫺175, 673⫺675
Q Quantifier 399⫺405, 407
R Raumreferenz 378 Raumrelation 378 Reaktion ⫺, a- (einfache -) 192 ⫺, b- (Wahl-) 192 ⫺, c- Unterscheidungs-) 192 Reasoning 399, 400 ⫺, syllogistic 399⫺401 Reduktionsansatz 310⫺314 Refentielle Bewegung 443, 444, 449 Regulationstheorie 219, 222, 223, 225, 237 Regulator 264, 265, 270 Reliabilität 117 Reparatur (repair) 301, 307, 312, 317, 333⫺335, 373, 434, 679, 720, 848 Repräsentation (representation) ⫺, abstrakte 474 ⫺, acoustic 793 ⫺, affektiv-regulatorische 476 ⫺, analoge 8, 510, 513, 580, 626, 629 ⫺, autonome 135 ⫺, Bedeutungs- 683 ⫺, begriffliche 374 ⫺, bildhafte 7, 8 ⫺, Bildschirm- 852 ⫺, depiktionale 578⫺581, 583, 584
Sachregister ⫺, deskriptionale 578, 579, 581, 583, 584 ⫺, digitale 8 ⫺, Diskurs- (discourse) 404, 422, 427⫺429, 616, 617 ⫺, dynamische 514, 552 ⫺, elektronische 846 ⫺, Ein-Code- 579 ⫺, Emotions- (emotionale) 472, 478, 485, 684, 686, 687 ⫺, episodische 695 ⫺, externe 583, 584 ⫺, extrinsische 578 ⫺, Form- 346 ⫺, Füller- 87 ⫺, funktionale 82 ⫺, Gedächtnis- 131, 132, 135, 195, 252, 474, 476, 687 ⫺, grammatische 781 ⫺, graphemische (graphematische) 507, 679 ⫺, intensionale 507, 509 ⫺, interne 5, 6, 132, 220, 388, 539, 583, 639 ⫺, intrinsische 578, 580 ⫺, Input- 133, 493 ⫺, kognitive 282, 374, 377, 386, 387, 472, 484, 496, 593, 739 ⫺, kohärente (coherent) 541, 566, 583, 628, 639 ⫺, Konzept- 82 ⫺, konzeptuelle- 135, 252, 253, 259, 472, 478, 480, 617, 679, 683, 689, 692, 698 ⫺, lexikalische 252, 255, 259, 260, 472, 478, 491, 492, 781 ⫺, lexikalisch-semantische 679 ⫺, linearisierte 295 ⫺, logische (logical) 400, 406 ⫺, lokale 129 ⫺, long-term memory (LTM) 422 ⫺, mentale (mental) 1, 6⫺11, 282, 374, 482, 497, 506, 508, 514⫺516, 532, 577, 579⫺585, 605, 618, 628, 635, 639, 643, 647, 649, 671, 793 ⫺, message 424 ⫺, modalitätsnahe 472 ⫺, morphologische 351 ⫺, multiple-code- 579 ⫺, multiple 583, 585 ⫺, nicht-dekompositionale 135 ⫺, nicht-propositionale 7, 8 ⫺, Oberflächen- 538, 580 ⫺, Objekt- 374, 615 ⫺, optische 740 ⫺, Output- 133 ⫺, perzeptuelle 581, 583 ⫺, Phonem- 82 ⫺, phonetische 351, 781 ⫺, phonologische (phonological) 135, 247, 253, 332, 340, 346,
348, 349⫺351, 507, 545, 552, 679, 781, 795 ⫺, physikalische 881 ⫺, positionale 82 ⫺, pragmatische 781 ⫺, prälexikalische 493 ⫺, Produktions- 82 ⫺, propositionale (propositional) 6⫺8, 295, 423, 474, 495, 507, 508, 511, 514, 537, 541, 579, 580, 582⫺584, 683 ⫺, propriozeptive 474 ⫺, Prozess- 83 ⫺, Raum- 387, 388 ⫺, referentielle 509 ⫺, Register- 552 ⫺, Reiz- 770 ⫺, Sachverhalts- 508, 509, 511, 512, 513, 515 ⫺, semantische (semantical) 87, 252, 259, 300, 406, 478, 525, 537, 538, 540, 552, 679, 683, 698 ⫺, sensorische 474 ⫺, Sequenz- 85 ⫺, Sprach- 39, 776 ⫺, sprachliche 374, 478, 689, 724, 774 ⫺, strukturelle 332 ⫺, symbolische 127 ⫺, syntaktische (syntactic) 135, 257, 260, 406 ⫺, Szenario- 496 ⫺, Text- 495, 532, 535⫺542, 605, 628, 639, 640, 643 ⫺, textnahe 624 ⫺, Textpropositions- 510, 511 ⫺, Umgebungs- 388 ⫺, verteilte (distributed) 127, 129, 130, 413, 472, 684, 687, 688 ⫺, visuelle 382, 583 ⫺, Weltwissens- 541 ⫺, Wissens- (knowledge) 424, 425, 538, 678, 698, 777 ⫺, Wort- 481, 602 ⫺, zentrale 601 Resource Description Framework (RDF) 893, 897, 898 Ressource 275, 363, 364, 893, 896 ⫺, kognitive 245, 246, 362⫺364, 653 Robustheit 85 Rundfunksystem ⫺, duales 855
S Sakkade 143⫺145, 153⫺159, 164, 190 Salienz 609⫺611, 616, 618, 737
943
Sachregister Satzabbruch (-fragment) 280, 528, 848 Satzmelodie 187 Satzproduktion 135, 220, 222, 224, 442, 570 Satzverarbeitung (Syntax-, -rezeption, -verstehen) 86, 129, 134, 175, 185⫺187, 491, 494, 495, 498, 506, 524⫺526, 529, 530, 532, 570 Schema (scheme) 9, 89, 217, 223, 233⫺237, 245, 247, 343, 345, 363, 387, 424, 425, 443, 451, 496, 538, 541, 568, 648, 656, 759, 764, 789, 890, 893, 898 ⫺, Adressierungs- 891 ⫺, Aufbau- 446 ⫺, AUFF- 432, 433, 435, 436, 437 ⫺, Attributions- 860 ⫺, Auszeichnungs- 890 ⫺, automatisiertes 363 ⫺, depressives 687 ⫺, Diagnose- 465 ⫺, Diskurs- 386 ⫺, dreidimensionales 686 ⫺, elementares 788 ⫺, emotionales (Emotions-) 474, 476, 683, 687, 688, 692 ⫺, Grafik- 582 ⫺, grammatisches 285 ⫺, Handlungs- 245 ⫺, implikationales 475, 478, 484 ⫺, interpolation 872 ⫺, Klassifikations- 319 ⫺, kognitives 233⫺235, 437, 580⫺583 ⫺, Kommunikations- 445, 866 ⫺, komplexes 482 ⫺, kulturbedingtes 624 ⫺, Person- 648, 857 ⫺, prozedurales 235, 236, 245 ⫺, Rollen- 648 ⫺, Situations- 288 ⫺, Vorstellungs- 788, 789 ⫺, Was- 233, 235, 236, 386, 387 ⫺, Wie- 233, 235, 236, 247, 386, 443 ⫺, Wissens- (knowledge) 424, 536, 541 ⫺, XML- 898 ⫺, Zeit- 857 Schizophrenie 678 Schreiben 18, 89, 183, 213, 355, 357⫺364, 801⫺803, 806, 807, 817, 837, 843, 845, 846 Schriftlichkeit 355⫺357, 845, 847 Schriftlichkeitsüberlegenheitseffekt 364 Schriftspracherwerb 355, 801⫺ 810 Scope (Skopus) 399, 405, 406
Sehbahn 73, 74 Selektion 231, 232, 479 Sequentialität 222 Serialität 218⫺220, 529 Signalentdeckungstheorie 193 Signalverarbeitung 131, 147 ⫺, auditive 132 ⫺, visuelle 131 Signifikanzprüfung 122 Simulation (Computer-, simulative Methoden) 24, 29, 83, 89, 125⫺136, 301, 304, 332, 352, 373, 374, 427, 515, 537, 541, 553, 559, 579, 582, 840, 863, 864, 871, 873, 875, 876, 877 Singen 453⫺460, 462, 463, 465⫺ 467 Sinnkonstruktion 652 Situation (situation) ⫺, Alltags- 538, 540, 595 ⫺, Aufforderungs- 435 ⫺, classroom 827 ⫺, contact 867, 868 ⫺, Dialog- 590, 592 ⫺, Diskurs- (discourse) 443, 666, 719 ⫺, dyadische 591 ⫺, Erwerbs- 725 ⫺, experimentelle 324, 511 ⫺, Face-to-face- 434, 847, 848, 849, 850 ⫺, fiktive 508 ⫺, flight 876 ⫺, Gesprächs- 682, 847, 851 ⫺, Interaktions- 592 ⫺, Instruktions- 434 ⫺, Kommunikations- 280, 285, 325, 432, 435, 478, 481, 482, 497, 533, 537, 542, 566, 574, 591, 595, 683, 690, 698, 802, 835 ⫺, Labor- 597 ⫺, Lebens- 813 ⫺, Lehrer-Schüler- 439 ⫺, Lern- 844 ⫺, mentale 497 ⫺, natürliche 532, 835, 847 ⫺, non-linguistic 666 ⫺, Non-Standard- 438 ⫺, ökonomische 815 ⫺, Problemlöse- 850 ⫺, Produktions- 845 ⫺, reale (real life) 507, 511, 512, 515 ⫺, Ressourcen-Dilemma- 439 ⫺, Rezeptions- 845 ⫺, soziale 479, 496, 533, 613, 815 ⫺, Spiel- 785 ⫺, Sprech- 322, 444, 446, 478 ⫺, Standard- 438 ⫺, stereotype (stereotypical) 424
⫺, synchrone 849 ⫺, Verstehens- 645 ⫺, virtual 877 Situationalität 533, 534 Situiertheit 279, 280, 282, 285, 287, 288, 289, 491, 497 Skript (script) 233, 496, 498, 541, 573, 653, 684, 689, 873 Sonagramm 47, 205 Sorting task 108 Spektrogramm 204⫺206 Spektrum 204⫺206 Spezifikation ⫺, Attribut- 368, 369, 371 ⫺, Kategorien- 369 ⫺, Minimal- 369 ⫺, Richtungs- 382 ⫺, Über- 369, 370, 373 Spezifitätsgrad 371 Sprachauffälligkeit 730, 731 Sprache ⫺, aphasische 81, 88 ⫺, synthetische 208 Sprachbeherrschung 812 Sprachcodierung 884, 885 Sprache des Geistes 1, 5, 6, 10, 11 Spracherkennung (speech recognition) 129, 163, 492, 558, 864, 883⫺885, 896 Spracherwerb (-entwicklung, language acquisition) 1, 3, 16, 17, 18, 20⫺25, 27, 28, 49, 51⫺53, 80, 93, 94, 97, 98, 106⫺110, 279, 372, 378, 451, 459⫺466, 530, 544, 545, 725, 726, 730⫺732, 736⫺739, 753, 768⫺770, 779, 780, 783, 785, 789, 790⫺792, 795, 797⫺802, 812, 814, 817, 820, 821, 826, 827, 830, 831, 834, 835, 837, 841, 860 Sprachevolution 753, 765, 775, 778 Sprachfähigkeit (-vermögen) 26, 38, 57, 60⫺62, 787, 788, 860 Sprachgebrauch (-verhalten, -verwendung, language use) 11, 19, 92, 103, 187, 279, 287, 288, 335, 371 , 433, 435, 444, 445, 460, 657, 659, 660, 770, 776, 780, 785, 787⫺789, 819, 835, 845, 860 Sprachgenerator 161 Sprachindikator 40 Sprachkontakt 544 Sprachlauterkennung 518 Sprachmedien 857 Sprachproduktion (Sprech-, -prozess, language/speech production) 1, 16, 20, 22, 36, 49, 72, 80⫺86, 88⫺90, 93, 94, 103, 116, 120, 135, 136,
944 142, 168, 177, 178, 183, 197, 213⫺237, 240, 241, 244⫺250, 252, 255⫺257, 269⫺279, 280⫺283, 286, 287, 289, 294, 295, 302, 304, 307, 317, 319, 320, 322, 323, 324, 326, 328, 332⫺335, 355⫺364, 370, 371, 373, 411, 414, 419, 442, 446, 447, 451, 461, 464, 468⫺470, 473, 477, 478, 481, 487, 491, 530, 533, 557, 588, 589, 597, 606, 613, 677, 707, 716, 720, 721, 768, 785, 801⫺810, 813, 841, 842, 845, 847, 848, 851, 875, 884⫺886 Sprachregister 116 Sprachrezeption (-verstehen, -erkennung, speech understanding) 1, 16, 17, 21, 49, 72, 80, 84, 85, 88⫺90, 109, 116, 120, 131, 163, 168, 177, 178, 183, 230, 281, 326, 334, 458, 461, 464, 468, 473, 491, 492, 496⫺ 498, 505⫺510, 513, 514, 519, 527, 532, 544, 567, 580, 583⫺ 586, 588, 597, 606, 612, 613, 614, 648, 649, 651, 652, 665, 670, 677⫺680, 693, 697, 738, 739, 761, 770, 788, 789, 813, 841, 842, 845, 863, 864, 875 Sprachstörungen (gestörte Sprache) 16, 18, 22, 81, 85, 453, 463, 464, 724, 776 Sprachsynthese (-verfahren) 208, 209 Sprachtypologie 21, 333 Sprachverarbeitung (language processing) 20, 22, 23, 25, 26, 71, 72⫺75, 80, 88, 116, 117, 130, 132, 168, 75, 178, 183, 187, 288, 307, 315, 463, 464, 468, 469, 474, 477, 491, 494, 496, 497, 498, 518, 524, 525, 527, 530, 531, 545, 553, 554, 561, 566, 569, 585, 613⫺615, 714, 720, 724, 823, 827, 829, 842, 851, 883 Sprechakt (speech act) 433, 443, 470, 477, 480, 546, 658, 691, 697, 785, 794, 840 Sprechakttheorie (-forschung) 284, 433, 446, 479, 589, 658 Sprechen (speech) 19, 22, 25, 84, 89, 99, 101, 118, 136, 213⫺ 215, 217, 220, 222, 223, 246, 247, 339, 355, 357⫺360, 363, 364, 368, 369, 371 374⫺376, 453⫺456, 458, 460, 462, 463, 465⫺467, 521, 547, 548, 554, 559, 561, 589, 594, 597⫺659, 754, 778⫺784, 787, 789, 797, 801, 817, 851, 852 Sprechfehler 215
Sachregister Sprechplanung 244, 246, 247, 289, 370 Sprechwerkzeug (-apparat, -organ) 33, 40, 46, 50, 52, 53, 183, 204, 454, 455, 600 Standard Generalized Markup Language (SGML) 891, 892, 896 Stimme 453, 454, 456, 457, 460, 461, 465, 480 Stimmung 469⫺472, 476, 478⫺ 480, 484, 485, 677, 678, 686, 690, 693, 694⫺698 Subtraktionsmethode 190, 192⫺ 196 Syllogismus (syllogism) 399, 400, 407 Sylvische Fissur 183, 186 Symbolverarbeitung 24, 25, 29, 62, 374 syntactic position shift (P600) 171, 216, 217 System 5, 8, 11, 26, 58, 66, 101⫺ 103, 126⫺129, 147, 151, 153, 161⫺163, 178, 197, 198, 217, 247, 264⫺268, 275, 416, 418, 463, 471, 486, 529, 533, 540, 848, 849, 851, 852 ⫺, affektives 358 ⫺, affektiv-regulatorisches 476, 477, 485, 678, 681, 687, 688, 692, 693 ⫺, akustisches (auditorisches) 68, 69, 473 ⫺, Analyse- 473, 475 ⫺, Analyse-Synthese- 885 ⫺, Angst- 695 ⫺, approximative 819 ⫺, artikulatorisches 473, 486 ⫺, Assistenz- 884 ⫺, AUFF- 436 ⫺, auditory 872 ⫺, Aufmerksamkeits- 247, 248, 249 ⫺, Augenbewegungsmess- 161 ⫺, Auskunfts- 209, 884 ⫺, authoring 876 ⫺, autonomes 486, 649 ⫺, automatisches 471 ⫺, Bedeutungs- 473, 474, 475, 476, 477, 484, 678, 691 ⫺, Betriebs- 890, 892, 893, 894, 895 ⫺, Bezugs- 285, 379, 380⫺384, 387, 389, 390, 617, 627, 628 ⫺, blickrichtungssensitives 161 ⫺, Blickbewegungserfassungs161 ⫺, Blickregistrierungs- 162 ⫺, Body-State 475 ⫺, CAD- 864 ⫺, CAVE 866 ⫺, Chat- 434
⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺,
⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺,
⫺, ⫺, ⫺, ⫺,
comprehension 666, 670 Computer- 540 design 864 digitales 125 Diktier- 884 display 863, 866 durational 560 dynamisches 125, 126, 623 emotionales 468, 470, 472, 476, 477, 487, 677 Erkennungs- 776 Exekutions- 356 Experimental- 147 Experten- 128, 884 Eyecon- 161 eye tracker 869 FACS (Facial Action Coding System) 268, 269 Fähigkeits- 26 functional category 823, 828, 830, 831 GAZE- 162 Gaze-to-talk- 163 Gedächtnis- 476 geschlossenes 3 Gesten- 275 Gesundheits- 644 Gleichungs- 126, 205 Global Standard for Mobile Communications- (GSM-) 881 grammatical 820 grammatical encoding 411 graphics rendering 863, 866 haptic 868 Hell-dunkel- 756 Hilfs- 223⫺225, 237⫺239, 246, 785 Hypertext- 891, 893 imaginales 579 Implikations- (implikationales) 436, 473⫺478, 485, 487, 654, 678, 681, 683, 684, 686, 688, 689, 692, 693 informationsverarbeitendes 5 inhaltsanalytisches 646 interlanguage 828 intonational 545 Kategorien- 268, 269 Kenntnis- 27 Klassifikations- 265, 436, 774 Kodierungs- 732 informationsverarbeiten127, 129, 194, 197, 246, 247, 288, 358, 360, 372, 469, 529, 579, 586, 602, 605, 633, 675, 679, 692, 864 komplexes- 5, 125 Kommunikations- 33, 37, 47, 48, 274, 463, 466, 554, 753, 805, 882 Konferenz- 162, 848 konnektionistisches 224
945
Sachregister ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺,
Kontroll- 724 konnotativ-regulatives 478 konzeptuelles 487 Kooperations- 162 Koordinaten- (coordinate) 379, 412 Korrelations- 209 künstliches 27 L1 827, 831 L2 820 L1 knowledge 820 L2 knowledge 819 laryngeale 485 Laut- 805 lexikalisches 491, 830 linguistic 545 limbisches 476, 678 Mehrplatz- 814 menschliches 27, 192 mentales (mental) 234, 237, 514, 515, 819 Mess- 147⫺150, 155, 163 Mobilfunk- 882, 887 MPL (Morphonolexical) 473 morphologisches 484, 726 motivationales 358 motorisches 473, 776 multifunktionales 466 nachrichtentechnisches 882 Navigations- 897 Nerven- (nervous) 57, 58, 68, 486, 755⫺759, 770, 776, 778, 869 Netzwerk- 224 neuronales 234 nonlineares 125, 126 operationales 246 organizational 822 peripheres 474, 475 Phonem-Graphem-Konversions- 805 phonemic 829 phonologisches 363, 484 physikalisches 282 Plural- 177 Produktions- (production) 83, 128, 132, 134, 304, 418, 724 propositionales 473⫺478, 484, 485, 487, 678, 684, 686, 689, 695, 698 prosodische (prosodic) 545, 550 prozedurales 246 Prozess- (processing) 300, 714 räumliches 363 Regel- (regelbasiertes, rule) 3, 126, 208⫺210, 560, 708, 827 Registrier- 149 Reparatur- 714 Repräsentations- 473, 776 respiratorisches 485
⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺,
Sakkaden- 156 Schrift- 802⫺808 semantisches 487, 807, 830 sensori-motor 875 sensorisches 776 sequential rule 560 somatisches 473⫺475 somatosensorisches 473, 486 sound 876 spatial reference 112 speech comprehension 665 SGML- 891 Software- 891, 892 Sprach- (speech, language) 23, 213, 340, 416, 465, 466, 469, 530, 560, 692, 776, 789, 797, 803, 804, 828, 839 ⫺, Spracherkennungs- 163, 883⫺886 ⫺, Sprachplanungs- 178 ⫺, Sprachproduktions- (speech production) 219, 229, 241, 254, 324, 357, 410, 411, 714 ⫺, Sprachverarbeitungs- 327, 491, 526, 692, 726 ⫺, Sprecher- 219, 222, 223, 229, 234⫺240, 246, 247, 370 ⫺, Steuerungs- 776 ⫺, subsymbolisches 224 ⫺, Symbol- (symbolic) 8, 526, 830 ⫺, symbolverarbeitendes 5 ⫺, symmetrische 381 ⫺, synchrones 849 ⫺, Synthese- 208 ⫺, technisches 883, 885, 886 ⫺, text-to-speech 560 ⫺, Textverarbeitungs- 362 ⫺, tonales (tonal) 550 ⫺, Verarbeitungs- 83, 175, 192, 197, 198, 326, 491, 529 ⫺, verbales 363, 579 ⫺, Verhaltens- 273, 282 ⫺, vestibular 864 ⫺, virtual reality (VR) 864, 874, 876, 877 ⫺, visuelles (visual) 68, 69, 475, 601, 867, 868 ⫺, vokales 485 ⫺, viszerales 473⫺475 ⫺, Wahrnehmungs- 686, 775 ⫺, Wissens- 27, 683, 830 ⫺, Zeichen- 577, 578, 584, 803, 804 Szenario (scenario) 9, 407, 496, 498, 542, 574, 628, 797, 866, 869⫺871, 875, 876
Telekonferenz 845, 848 Text-Bild-Schere 859, 860 Textproduktion 355, 360, 362, 363, 442, 447⫺449, 451, 464, 533, 801⫺803 Textpropositionstheorie 509, 510 Textrezeption (-verarbeitung, -verstehen, Diskurs-, discourse comprehension) 8, 87, 134, 164, 422, 427, 496⫺498, 505⫺515, 532⫺537, 541, 542, 567⫺574, 581, 584, 603, 623, 627, 631, 634, 639⫺641, 646, 647, 688, 689, 694 Textsorte (-typ) 289, 357, 361, 443⫺451, 497, 533, 535, 541, 577, 644, 645, 801, 802, 846 Texttypologie 442⫺444, 451 Textualität 646 Textverständlichkeit 532, 534⫺ 536, 640 Thema-Rhema-Struktur 308 Theorie (theory) ⫺, autonome 525, 526, 530 ⫺, autonom-parallele 525, 526, 528, 529 ⫺, autonom-serielle 525, 526, 528, 529 ⫺, Centering 413, 670 ⫺, Entspannungs- 652, 654 ⫺, hybride 530 ⫺, Interaktions- 654, 656 ⫺, interaktive 525, 526 ⫺, interaktiv-parallele 526⫺528 ⫺, interaktiv-serielle 526, 528, 529 ⫺, klassische 525 ⫺, Parsing- 525, 527, 530 ⫺, Substitutions- 658 ⫺, Vergleichs- 654, 655 Theorie mentaler Modelle 505, 506, 509, 510, 515 Topic Maps 893, 897, 898 Topikalisierung 298 TOT-Zustände (tip of the tongue states) 253⫺255, 259, 346 Transfer 819⫺822, 825⫺828, 831, 891 Transkription 92⫺97, 99, 103 Transkriptionsmethoden (-konventionen, -system, -verfahren) 93, 94, 97⫺99, 101⫺103 U Ursprache 33, 49
T V Technologie (technology) 546 ⫺, Sprach- (language) 546 ⫺, Sprech (speech) 546, 550, 553, 558
Validität 117 ⫺, interne 116 Transkription 92⫺97, 99, 103
946 Transkriptionsmethoden (-konVerarbeitung (processing) ⫺, akustische 474 ⫺, attentive 582 ⫺, auditorische 344 ⫺, automatische 540 ⫺, autonome 129, 491, 495 ⫺, Bild- 577, 579⫺583, 585, 586 ⫺, deep anaphora 668 ⫺, deterministische 130 ⫺, Diskurs- (discourse) 409⫺ 411, 415, 418, 535, 605, 668, 669, 674, 675 ⫺, diskrete 197 ⫺, duale 860 ⫺, emotionale 471, 472, 474, 478, 487, 678, 681 ⫺, erwartungsgesteuerte 595 ⫺, Farb- 610 ⫺, Gebärdensprach- 726 ⫺, gestische 714 ⫺, hemisphärenspezifische 726 ⫺, hemisphärische 724 ⫺, Humor- 690 ⫺, Informations- 526, 567, 580, 585, 672, 686, 691, 730 ⫺, inkrementelle 83, 218, 241, 307, 723, 724 ⫺, interaktive (interactive) 129, 133, 324, 429, 495 ⫺, kaskadische 613 ⫺, kognitive 89, 196, 233, 288, 472, 473, 580, 583, 585, 604, 605, 648, 678, 681, 688, 693 ⫺, kontinuierliche 192, 197 ⫺, Konzept- (conceptual, konzeptuelle) 568⫺670, 674, 694 ⫺, lexikalische 82, 184, 187, 218, 252⫺254, 491, 526 ⫺, lineare 131 ⫺, maschinelle 898 ⫺, morphologische 176, 323 ⫺, neuronale 342 ⫺, nonlineare 131 ⫺, oberflächliche 585 ⫺, Objekt- 474 ⫺, parallele (parallel) 133, 190, 192, 196, 197, 427⫺429, 602, 653, 657, 683, 724 ⫺, periphere 600, 601, 605 ⫺, perzeptive 195, 602 ⫺, phonologische 183, 184, 187, 218, 323, 324, 327 ⫺, präattentive 610 ⫺, probabilistische 130 ⫺, pronoun 665, 673, 674, 675 ⫺, prosodische 184, 187, 342, 344, 464 ⫺, Raum- 724⫺726 ⫺, regelgeleitete 323 ⫺, semantische (semantic) 24⫺ 26, 82, 87, 176, 184, 185, 324, 374, 525⫺529, 582, 583, 602, 604, 605, 668, 673, 674, 694
Sachregister ⫺, serielle (serial) 196, 197, 219, 320, 429, 679, 683 ⫺, short term 411 ⫺, Signal- 559 ⫺, Sprach- (language) 491, 526, 531, 568, 577, 579, 580, 581, 583, 585, 586, 675, 692, 693, 696 ⫺, stimmungskongruente 695 ⫺, stochastische 130 ⫺, Symbol- 508 ⫺, stufenweise 82 ⫺, subsemantische 583 ⫺, surface anaphora 668 ⫺, syntaktische (satzstrukturelle) 87, 174, 184, 187, 494, 495, 525⫺530, 604, 615, 674, 675, 777 ⫺, temporal 671 ⫺, Text- 601 ⫺, Verb- 529 ⫺, visuelle 474, 585, 714 ⫺, Wissens- 573 ⫺, Wort- 532, 570 ⫺, zeitverzögerte 132 ⫺, zentrale 600, 601, 605 ⫺, Zielreiz- 195 ⫺, zyklische 495 Verarbeitungsökonomie 307, 311 Verbalismus 731 Vergebärdler 714⫺721, 724, 726 Verhalten ⫺, Ausdrucks- 680 ⫺, beobachtbares 644 ⫺, Bewegungs- 272 ⫺, Blick- 262⫺264 ⫺, erwünschtes 649 ⫺, gestisches 262, 265⫺267, 269⫺272, 274⫺276 ⫺, konkretes 644, 649 ⫺, mimisches 265, 269 ⫺, nonverbales 262⫺265, 268, 270, 271, 275, 276 ⫺, nonvokales 268 ⫺, nonvokales nonverbales 263 ⫺, Sprach- 731 ⫺, unerwünschtes 649 ⫺, verbales (sprachliches, Verbal-) 262, 263, 274, 275, 280 ⫺, vokales 268 ⫺, vokales nonverbales 263 Verknüpfungsansatz 310, 311, 314 Versprecher 17, 18, 81⫺83, 94, 135, 136, 252, 253, 259, 263, 301, 317⫺335, 347⫺352, 714, 715, 717⫺722, 726 Verständigungsproblem 851 Verständigungssicherung 498 Verständlichkeit (-sforschung) 51, 858, 882 Verstehen (comprehension) 1, 20, 22, 25, 49, 119, 491, 496,
497, 518, 522, 532, 535, 547, 550, 568, 581⫺589, 593⫺597, 603, 609, 610, 612⫺618, 622, 623, 627, 629, 643⫺645, 647, 649, 654, 656, 659, 689, 692, 771, 858 ⫺, Bedeutungs- 770 ⫺, Bild- 9 ⫺, Diskurs- 574 ⫺, Humor- 689 ⫺, (von) Kausalität 631, 634, 638, 640 ⫺, lexikalisches 498 ⫺, Metaphern- 655, 656 ⫺, morpho-syntaktisches 491 ⫺, (von) Personenbeschreibungen 643⫺649 ⫺, perzeptuelles 491 ⫺, pragmatisches 491 ⫺, pronoun 666, 668, 670⫺672 ⫺, propositionales 692 ⫺, Rede- 17, 25 ⫺, semantisches 491, 692 ⫺, Sinn- 491 ⫺, speech 665, ⫺, Sprach- (language) 672 ⫺, (von) Sprecherintention 651, 652 ⫺, surface anaphora 668 ⫺, syntaktisches 498 ⫺, Text- 9, 600, 601 ⫺, tiefes 858 ⫺, verbales 18 ⫺, Witz- 689 ⫺, Wort- 761 Verzögerung (hesitation) 94, 411 Visualisierung 155 Visualität 731 Vigilanz 154 Vocabulary development 790, 794 Vokalbildung 42 Vokaldreieck 41 Vokalisation (Vokalisieren) 43⫺ 49, 60⫺63, 69, 73, 74, 554, 733, 772, 781⫺786 Vokalisationsform 44 Vokalisationstyp 45 Völkerpsychologie 17, 106 Vorstellung ⫺, bildhafte 580 ⫺, elementare 788 ⫺, mentale 626 ⫺, theoretische 689 ⫺, visuelle 580, 583 ⫺, visuell-räumliche 624
W Wahrnehmung (perception) 144, 156⫺158, 518⫺522, 532, 547, 548⫺550, 581⫺583, 610, 611,
947
Sachregister 627, 634, 635, 644, 645, 648, 649, 680, 681, 693⫺695, 698, 720, 730, 735, 737, 738, 755⫺757, 760, 763, 771, 772, 774, 779, 782⫺784, 786, 789, 796, 805, 806, 848, 851, 864, 884 Wahrscheinlichkeitstheorie 21, 122, 123 Wegbeschreibung 387, 389 Wernicke (-Areal, -Aphasie) 38, 39, 45, 63⫺65, 67, 70, 72, 74, 548, 768, 772, 776⫺778 Wissen (knowledge, Vor-) 83, 84, 88, 120, 231, 232, 247⫺249, 281⫺288, 356, 361, 362, 372, 386, 422, 423, 429, 443, 444, 447, 449, 454, 466, 474, 480, 487, 491, 492, 497, 498, 507, 521, 532, 537, 539, 540, 572, 574, 581, 582, 585, 613, 618, 623, 624, 626, 633, 638⫺644, 655, 648, 649, 691, 695, 698, 765, 768, 769, 774, 779, 789, 802, 816, 819, 842, 856, 858, 884, 893, 898 ⫺, allgemeines (general, common) 88, 285, 423, 425, 426, 574, 613, 643, 644, 667 ⫺, assiziatives 128 ⫺, assoziiertes 689 ⫺, Ausführungs- 247 ⫺, begriffliches 779 ⫺, bildhaftes 364 ⫺, cultural 111 ⫺, deklaratives 842 ⫺, Detail- 128 ⫺, Diskurs- 572, 573 ⫺, Diskurswelt- 573 ⫺, Emotions- 473 ⫺, enzyklopädisches 364 ⫺, episodisches 364, 624, 686, 687, 692 ⫺, erfahrungsbasiertes 634 ⫺, explizites (explicit) 24, 687 ⫺, Fach- 814 ⫺, faktisches 612 ⫺, functional-grammatical 830 ⫺, gemeinsames (shared) 230, 238, 411, 612, 613, 658 ⫺, Genre- 535 ⫺, geteiltes 852 ⫺, globales 574 ⫺, grammatisches (grammatical) 807, 820, 829 ⫺, Hintergrund- (common ground, background) 134, 300, 411, 507, 566, 569, 782, 850, 852 ⫺, hörerseitiges 657 ⫺, implikationales 476 ⫺, implizites 690, 692
⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺, ⫺,
inborn 791 individuelles 649 innate 791 Kausal- (kausales) 632, 633 Kausalstruktur- 638 Kommunikations- 566 Kontext- 280 konventionelles 478 Konzept- (konzeptuelles) 8, 9, 612, 683 kulturspezifisches 451, 850 L1 819⫺821 L2 819 Langzeit- 374 Leser- 535, 537 lexical-semantic 830 lexikalisches (Lexikon-, lexical) 300, 309, 525, 530, 735, 740, 791, 829 lexikalisch-syntaktisches 259 menschliches 579, 753, 758, 775 Meta- 613, 618 metrisches 626 Partner- 613 personbezogenes 648 pragmatisches 497 prerequisite 827 professionnelles 814 propositionales 476, 684, 684, 687, 692 prozedurales 235, 247, 451, 693, 842, 843 psycholinguistisches 163 räumliches 388, 625 Regel- 128, 690 sachliches 850 Sachverhalts- 447 Schema- (schematisiertes) 236, 537, 624 semantisches 474, 529, 684, 692 Situations- 280, 541, 639 soziales 850 spezielles 648 Sprach- (language) 8, 652, 791, 842 sprachbezogenes 451 sprachliches 361 sprachnahes 678 sprachsystematisches 691 sprecherseitiges (Sprecher-) 249, 609, 657 stored 416, 472 Strategie- 443 Strecken- 388 strukturelles 386 Szenen- 388 tacit 24 Text- 537, 540, 541 textunabhängiges 496 Textwelt- 571
⫺, ⫺, ⫺, ⫺, ⫺,
themenspezifisches 363 theoretisches 684 Überblicks- 388 unvertrautes 657 Welt- (world-) 8, 87, 239, 285, 289, 405, 406, 424, 491, 495⫺497, 507, 510, 533, 540, 541, 542, 566⫺568, 572, 573, 605, 638⫺640, 649, 652, 719, 794, 842, 859, 875 ⫺, -ausschnitt 447 ⫺, -basis 245, 442, 443, 447, 448 ⫺, -erwerb 582, 584, 585, 586 ⫺, -vermittlung 444 ⫺, -voraussetzung 446 Worterkennung (-verarbeitung) 125, 129, 132, 133, 134, 491, 492, 494, 495, 498, 521, 538, 583, 601, 603, 680, 688, 694, 777 ⫺, auditive 129, 133, 134, 678 ⫺, visuelle 132, 133, 493, 602, 678 Wortfindungsstörungen 813 Wortproduktion 135, 213, 784
Z Zeichen ⫺, Bild- 581, 585 ⫺, explizites 578 ⫺, ikonische 578 ⫺, Relations- 578 ⫺, Schrift- 577 ⫺, Symbol- 578 Zeichensprache 262 Zentrale Kontrolle 223, 225, 237, 246, 247 Zugriff (access) ⫺, gender 415 ⫺, Lemma- 135, 417 ⫺, lexikalischer (Lexikon-, lexical) 82⫺89, 135, 185, 252, 254, 269, 304, 323, 409⫺411, 414⫺419, 442, 493, 664, 665, 669, 679, 688, 694 ⫺, pronoun 415, 419 Zustand (state) ⫺, asymptotischer 127 ⫺, äußerer 6 ⫺, final 819, 820, 827 ⫺, funktionaler 5 ⫺, initial 819⫺821, 823, 826 ⫺, intentionaler 2, 4⫺6 ⫺, innerer/interner 1, 5 ⫺, mentaler 1, 2, 4⫺6 Zweitsprachenerwerb 835 ⫺, natürlicher 834, 836 Zweiwortsatz 51