Dmitrij Dobrovol'skij

Parallele Textcorpora als linguistische Ressource neuer Art

 

Parallele Textcorpora stellen ein technologisches Produkt dar, das die Möglichkeiten der Linguistik vor allem im Bereich des Sprachvergleichs erweitert. Im Idealfall sollten bei der Entwicklung paralleler Corpora ihre potentiellen Anwendungsarten berücksichtigt werden. In jedem Fall müssen die Linguisten (zumindest diejenigen, die in ihrer Arbeit Textcorpora aktiv benutzen) imstande sein, an die zur Verfügung stehenden parallelen Corpora sinnvolle Fragen zu stellen.

Einige Fragen dieser Art werden in dem vorliegenden Beitrag besprochen, und zwar handelt es sich hier um die Untersuchung der lexikalischen Semantik mittels der Kookkurrenzanalyse. Als empirische Basis dient das parallele Textcorpus zu F.M. Dostoevskijs Roman "Der Idiot", das im Rahmen des Projekts Austrian Academy Corpus (AAC) an der Österreichischen Akademie der Wissenschaften erstellt wurde. Vgl. dazu ausführlicher in (Biber, Breiteneder, Dobrovol'skij: 2002; : 2002; 2003a; 2003b).

Zunächst gehe ich auf die Frage kurz ein, in welchen Bereichen der linguistischen Forschung die Hinwendung zu parallelen Corpora zweckmäßig ist und welche Fragen mit Hilfe paralleler Corpora grundsätzlich beantwortet werden können. Dann konzentriere ich mich auf den Bereich der lexikalischen Semantik, in dem sich die Analyse abspielt, deren Ergebnisse im vorliegenden Beitrag vorgestellt werden. Im zweiten Abschnitt werden die Ziele der Analyse erläutert, Arbeitshypothesen aufgestellt und die angewendeten Arbeitsverfahren kurz besprochen. Abschnitte 3 und 4 stellen zwei Fallstudien dar, in denen die in früheren Abschnitten vorgestellten Prinzipien der corpusbasierten Untersuchung der lexikalischen Semantik am empirischen Material verifiziert und präzisiert werden.

 

1. Sinnvolle linguistische Fragen an das parallele Corpus

 

Es findet sich eine Reihe linguistischer, literaturwissenschaftlicher, kulturhistorischer und übersetzungskritischer Probleme, die mit Hilfe paralleler Textcorpora gelöst werden können. Uns interessieren hier nur linguistische Fragestellungen. Dabei spielen solche Parameter des betreffenden Corpus wie sein Umfang, die Entstehungszeit der im Corpus enthaltenen Texte (zeitliche Distanz zum heutigen Usus), die Anzahl der Übersetzungen des Originaltextes (d.h. ob dem Originaltext eine oder mehrere Übersetzungen gegenübergestellt werden) eine wichtige Rolle. Zu den linguistischen Disziplinen, in denen parallele Corpora effektiv eingesetzt werden, zählen zumindest die folgenden Bereiche:

 

Kontrastive Linguistik

Diachrone Studien zur Lexik und Grammatik

Übersetzungswissenschaft (genauer gesagt: ihre linguistisch relevanten Domänen, die oft als Translationslinguistik bezeichnet werden)

Lexikalische Semantik

 

Folgende Cluster linguistisch relevanter Fragen erscheinen dabei als zentral, in dem Sinne, dass sie bei der Hinwendung zu parallelen Textcorpora besonders effizient beantwortet werden können.

 

1. Wie verhalten sich bestimmte Strukturen der Sprache L1 und ihre L2-Entsprechungen in authentischen Kontexten? Entspricht unser systemimmanentes Wissen über diese Strukturen der diskursiven Realität? Wenn nicht, warum? Welche Typen von Kontexten sind für die Wahl eines adäquaten L2-Äquivalents relevant?

 

2. Wenn das betreffende Corpus Texte mit zeitlicher Distanz enthält (dies ist bei dem parallelen Corpus zu Dostoevskijs Roman "Der Idiot" der Fall), kann auch folgenden Fragen nachgegangen werden: Wie verhält sich der L1-Text zum heutigen Usus? Was hat sich hier verändert? Was sind die Ursachen? Gibt es reguläre Mechanismen, die diesen Sprachwechsel steuern? Wenn ja, können weitere Veränderungen sprachlicher Normen vorhergesagt werden? Dieser Fragenkomplex bezieht sich vor allem auf diachrone Prozesse in der Sprache L1 sowie generell auf das Wesen semantischer Veränderungen, was ihn auch für die allgemeine Sprachtheorie interessant macht. Der L2-Teil des Corpus spielt dabei die Rolle eines diagnostizierenden Instruments. Unterschiedliche L2-Aquivalente des gleichen L1-Wortes deuten darauf hin, dass die entsprechenden Kontexte relevante Unterschiede aufweisen, die u.a. auch auf Abweichungen von den gültigen usuellen Normen zurückzuführen sind.

 

3. Wenn das betreffende Corpus mehrere Übersetzungen des Originaltextes enthält (dies ist bei dem parallelen Corpus zu Dostoevskijs Roman "Der Idiot" ebenso der Fall), können bestimmte translationslinguistische Fragestellungen angesprochen werden, die auch für kontrastive Linguistik und lexikalische Semantik innovative Ergebnisse bringen können; vgl. Fragen wie: Was machen die Übersetzer mit dem L1-Text? Wenn sie nicht originalgetreu übersetzen, woran liegt das? An ihrer subjektiven Entscheidung? Oder an objektiven Restriktionen der L2-Strukturen? Wenn die gleiche Stelle des L1-Texts unterschiedlich übersetzt wird, liegt eine annähernde Synonymie vor oder handelt es sich um unterschiedliche Interpretationen? Wenn es sich bei verschiedenen Übersetzungen der gleichen L1-Textstelle um quasisynonymische L2-Ausdrücke handelt, fragt sich, worin die betreffenden semantischen, pragmatischen und kombinatorischen Unterschiede bestehen.

Wenn z.B. der gleiche russische Intensivierer im gleichen Kontext vom ersten Übersetzer mit sehr, vom zweiten mit äußerst und vom dritten mit höchst übersetzt wird, ist zu fragen, welche Unterschiede die entsprechenden L2-Kontexte aufweisen. Eine auf solchen Daten basierende Analyse liefert einen Beitrag zu einer detaillierten Beschreibung der lexikalischen Semantik der betreffenden L2-Strukturen.

Wenn es sich um unterschiedliche Interpretationen der gleichen L1-Textstelle handelt, die nicht mehr im Bereich der Quasisynonymie liegen, fragt sich, welcher Natur die betreffenden Abweichungen der Übersetzung vom Original sind. Inwieweit sind sie tolerierbar aus der Perspektive der Textrezeption?

 

4. Für Texte mit zeitlicher Distanz stellen sich weitere Fragen: Was machen die Übersetzer mit den L1-Strukturen, die dem heutigen Usus nicht entsprechen? Welche Möglichkeiten gibt es in L2, um den falschen (bzw. künstlerisch verfremdeten) Sprachgebrauch durch den Autor wiederzugeben?

 

In allen genannten Bereichen sind Ergebnisse zu erwarten, die bei der Anwendung anderer Forschungsmethoden kaum erzielt werden könnten und folglich bis zu einem gewissen Grad an das corpuslinguistische Herangehen gebunden sind. Im Folgenden konzentriere ich mich auf lexikalisch-semantische Fragestellungen. Als erstes scheint es angebracht, den adäquaten Arbeitsablauf (d.h. die entsprechenden Arbeitsprozeduren in ihrer festgelegten Abfolge) bei der corpusbasierten semantischen Analyse lexikalischer Einheiten zu skizzieren.

 

2. Arbeitsprozeduren in der corpusbasierten lexikalischen Semantik

 

Eine corpusbasierte synchron orientierte Analyse semantischer Strukturen des Lexikons setzt im Idealfall folgende Schritte voraus.

 

1. Es werden Gruppen lexikalischer Einheiten selektiert, die gemeinsame semantische Züge haben. Oft sind das Quasisynonyme (vgl. den Begriff syn_set im WordNet-Paradigma).

 

2. Dann werden Textcorpora auf diese Wörter bzw. Wortverbindungen hin durchsucht. Das größte Problem, das sich dabei stellt, hängt mit der lexikalischen Polysemie zusammen: Da ein Wort in der Regel mehrere Bedeutungen hat, entsteht bei der Suche ein beträchtliches Informationsrauschen. Aus der Notwendigkeit die betreffende lexikalische Einheit semantisch zu disambiguieren, d.h. das Target-Lexem von den "Mit-Lesarten" zu separieren, erwächst das Bedürfnis, Textcorpora semantisch zu annotierten.

 

3. Relevante Kontexte werden analysiert, das kombinatorische Profil der Target-Lexeme wird bestimmt.

 

4. In der nächsten Phase werden Substitutionstests mit den Target-Lexemen durchgeführt (linguistisches Experiment im Sinne von Ščerba (: 1974)). Auf diese Weise werden relevante Unterschiede im kombinatorischen Profil der Target-Lexeme einschließlich nichttrivialer kombinatorischer Restriktionen ermittelt. Oft wird die Substitution verschiedener Target-Lexeme in den gleichen Kontexten als akzeptabel empfunden, aber der Sinn der betreffenden Äußerung verschiebt sich.

 

5. Es wird nach plausiblen Erklärungen für die ermittelten Besonderheiten gesucht. Im Idealfall finden sich für alle kombinatorischen Besonderheiten semantische und/oder pragmatische Ursachen. Danach werden neue Bedeutungserklärungen formuliert. Oft können aber nicht alle Restriktionen in Kookkurrenzen auf die Bedeutung der Target-Lexeme zurückgeführt werden. In der Sprache gibt es immer viele ususbedingte Erscheinungen. In diesem Fall muss das kombinatorische Profil der Target-Lexeme explizit beschrieben werden.

 

Die Arbeit mit parallelen Textcorpora setzt grundsätzlich die gleichen Schritte voraus. Es kommt eine weitere Dimension hinzu, nämlich die kontrastive. Wenn z.B. in der Sprache L1 im Ergebnis einer corpusbasierten Untersuchung die in Frage kommenden Quasisynonyme X, Y und Z ausdifferenziert und genau beschrieben wurden, kann im nächsten Arbeitsschritt das Gleiche gemacht werden mit der semantisch korrelierenden Reihe P, Q, R in L2. Im letzten Arbeitsschritt werden die Target-Lexeme X, Y, Z und P, Q, R aufeinander bezogen. Dabei kommen 1:1-Zuordnungen vom Typ

X = P,

Y = Q,

Z = R

äußerst selten vor. Der Normalfall ist, dass z.B. das Wort X je nach Kontext mal mit P, mal mit Q, mal mit R in L2 übersetzt werden kann. Das bedeutet aber nicht, dass Zuordnungen vom Typ X = (P, Q, R) wie man sie oft in den Wörterbüchern findet weiter geduldet werden. Das Ziel besteht vielmehr in einer kontextgebundenen Ausdifferenzierung der potentiellen L2-Äquivalente, d.h. in der Anbindung der kontrastiven semantischen Beschreibung an das kombinatorische Profil. Die Endbeschreibung sieht dann ungefähr so aus:

X = P in Kontexten des Typs KT1

X = Q in Kontexten des Typs KT2

X = R in Kontexten des Typs KT3

Auch die Untersuchungen in umgekehrter Richtung (d.h. L2 L1) lassen sich mit parallelen Corpora durchführen. Vgl. Fragestellungen wie:

Wie wird ein L2-Wort P in die Sprache L1 übersetzt. Meistens kommt man auch umgekehrt zu einem ähnlichen Ergebnis:

P = X in Kontexten des Typs KT1

P = Y in Kontexten des Typs KT2

P = Z in Kontexten des Typs KT3

Aus dieser Tatsache erklärt sich, warum zweisprachige Wörterbücher irreversibel sind, d.h. man kann mit Hilfe der entsprechenden tools ein L1 L2-Wörterbuch nicht in ein L2 L1-Wörterbuch umdrehen. Es sei denn, dem Wörterbuch liegt eine Datenbank zugrunde, in der jedes Lexem (d.h. jedes Wort in jeder seiner Bedeutungen) als Einzeleintrag fixiert ist.

Eine diachron orientierte Analyse semantischer Strukturen des Lexikons geht grundsätzlich vom gleichen Arbeitsalgorithmus aus, wird aber um eine zusätzliche Dimension bereichert. Es handelt sich hier um dynamische Aspekte des lexikalischen Systems. Wenn dabei parallele Textcorpora mit zeitlicher Distanz als empirische Basis benutzt werden, werden die betreffenden Strukturen nicht nur interlingual (L1 vs. L2), sondern auch dynamisch (damals vs. heute) verglichen.

 

Im Folgenden werden diese Analyseprinzipien an ausgewählten Beispielen verdeutlicht. Zunächst sei auf die Ziele, Hypothesen und Arbeitsverfahren der Analyse empirischer Daten kurz eingegangen.

 

2. Ziele, Hypothesen und Arbeitsverfahren

 

Das Ziel der folgenden Analyse besteht darin, eine Methode zu entwickeln, die es gestatten würde, ausgehend vom Textcorpus Antwort auf folgende Fragen zu geben:

 

1. Wie kommt die Veränderung des kombinatorischen Profils einer Lexikoneinheit zustande?

 

2. Wie kommt die Veränderung der semantischen Struktur einer Lexikoneinheit zustande? Warum verändern bestimmte Wörter ihre Bedeutung bzw. entwickeln eine neue auf Grund der vorhandenen? Sind die Mechanismen, die dafür verantwortlich sind, die gleichen wie bei der Veränderung des kombinatorischen Profils?

 

3. Wie können die entsprechenden Veränderungen diagnostiziert und festgehalten werden? Kann ein paralleles Textcorpus dabei als ein diagnostizierendes Instrument verwendet werden?

 

4. Haben die eventuellen Nichtparallelismen in der kombinatorischen Entwicklung lexikalische Konsequenzen oder bleiben sie auf der Ebene usueller Präferenzen? Mit anderen Worten, wenn ein L1-Wort und sein L2-Pendant (das traditionell als sein lexikalisches Äquivalent beschrieben wird) unterschiedliche kombinatorische Besonderheiten aufweisen (was an einem parallelen Textcorpus empirisch nachgewiesen werden kann), wie wirkt sich das auf den Äquivalenzstatus aus? Grundsätzlich könnte man sich vorstellen, dass semantisch identische Wörter ein unterschiedliches kombinatorisches Profil aufweisen. Eine andere mögliche Antwort wäre die Annahme, dass das kontextuelle Verhalten eines Wortes (sein collocational behaviour, vgl. (Butler: 1985, 130) immer semantische Ursachen hat. Eine ähnliche Position vertritt konsequent Anna Wierzbicka (vgl. z.B. 1996).

 

In diesem Beitrag wird anhand von zwei Beispielen auf einige dieser Fragen kurz eingegangen. Es handelt sich um den russischen Intensivierer (črezvyčajno) ≈ 'außerordentlich' und seine deutschen Äquivalente außerordentlich, äußerst, höchst u.a. sowie um das russische Adjektiv (zamečatel'nyj) ≈ 'bemerkenswert' mit seinen deutschen Äquivalenten. Dabei gehe ich von den folgenden Arbeitshypothesen aus.

Das kombinatorische Profil einer lexikalischen Einheit hat ein Zentrum und eine Peripherie, d.h. die Kookkurrenzregeln lassen sich am besten in Termini gradueller Oppositionen formulieren. Veränderungen finden an der Peripherie statt. Teile der Peripherie können im Laufe der historischen Entwicklung sowohl in das Zentrum hineingezogen als auch als normwidrig ausgeschlossen werden (s. Abschnitt 3). Den Veränderungen der semantischen Struktur liegen (zumindest in den uns interessierenden Fällen) grundsätzlich gleiche Mechanismen zugrunde. Eine neue Bedeutung entsteht durch die Lexikalisierung einer Gebrauchsvariante, die ihrerseits durch Fokussierung bzw. Neutralisierung bestimmter Seme entsteht. Für die semantische Fokussierung bzw. Neutralisierung sind Kontextbesonderheiten zuständig, d.h. wenn ein bestimmter Kookkurrenztyp aus einer eher peripheren zu einer zentralen Erscheinung wird, kann dies (muss aber nicht) zur Umgestaltung der semantischen Struktur der betreffenden lexikalischen Einheit führen (s. Abschnitt 4).

Übersetzungen spielen dabei oft eine diagnostizierende Rolle, indem die Verwendungen der betreffenden lexikalischen Einheit, die von der heute geltenden kombinatorischen Norm abweichen, in der Regel mit einem anderen L2-Wort übersetzt werden als die normativen Verwendungen. Diese Heuristik basiert auf der Annahme, dass die Entwicklung der betreffenden Lexikoneinheiten in L1 und L2 eher selten völlig parallel verläuft.

 

Meine Vorgehensweise sieht die folgenden Schritte vor:

1) Im Corpus werden alle Kontexte ermittelt, in denen die zu untersuchende lexikalische Einheit (Target im Sinne von Atkins et al.: 2003) vorkommt.

2) Eine Typologie der lexikalischen Kookkurrenzen des Targets wird aufgestellt; d.h. es wird ermittelt, in Verbindung mit welchen Wortarten, semantischen Klassen das Target in diesen Kontexten erscheint etc.

3) Eine Hierarchie der lexikalischen Kookkurrenzen des Targets in Bezug auf ihre Entsprechung dem modernen Usus wird aufstellt (basiert sowohl auf der Corpusanalyse Frequenz als auch auf introspektiven Heuristiken), d.h. die Kontexte werden in üblich-normative, weniger übliche und unübliche bis normwidrige unterteilt.

4) Faktoren werden gefunden, die für den unterschiedlichen Usualisierungsgrad der Kontexte verantwortlich sind; d.h. vor allem die im Arbeitsschritt 2 ermittelten Kookkurrenztypen werden mit dem Usualisierungsgrad der entsprechenden Kontexte in Beziehung gesetzt.

5) Das kombinatorische Profil des Targets wird definiert und (wenn die Corpusdaten das gestatten) auch aus diachronischer Perspektive beschrieben.

6) Das kombinatorische Profil des Targets wird (wenn die Corpusdaten das gestatten) auch aus kontrastiver Perspektive beschrieben; die verfügbaren Übersetzungen relevanter Kontexte des Originals werden auf mögliche Korrelationen zwischen der Kookkurrenzspezifik des Targets und der Wahl seines L2-Äquivalents hin überprüft.

7) Die semantische Struktur des Targets wird mit seinem kombinatorischen Profil in Beziehung gesetzt; bedeutende und häufige Abweichungen vom kombinatorischen Usus (vom Zentrum des kombinatorischen Profils) deuten darauf, dass es sich um eine selbständige Lesart handelt.

 

Bei der Analyse des kombinatorischen Profils der uns hier interessierenden lexikalischen Einheiten wird den peripheren Kookkurrenzen des Targets besondere Aufmerksamkeit gewidmet. Sie stellen ein kompliziertes und bis heute in der Regel kaum beachtetes Phänomen dar, das von der kontrastiven Linguistik verlangt, traditionelle Begriffe wie zwischensprachliche Äquivalenz neu zu durchdenken. Aus der Sicht der Diachronie bilden die peripheren Kookkurrenzen das Potential semantischer und kombinatorischer Entwicklungen, wobei der Kernbereich der kombinatorischen Profils für die Stabilität semantischer Strukturen sorgt.

Ausgehend von der Grundannahme, dass die usuellen Normen der lexikalischen Kombinatorik ein grundsätzlich bewegliches, instabiles Phänomen darstellen und nur in ihrem Kernbereich konstant bleiben, ist zu erwarten, dass die lexikalischen Kookkurrenzen in Texten des 19. Jahrhunderts (speziell in dem zu untersuchenden Roman von Dostoevskij) subtile Unterschiede gegenüber den heute geltenden usuellen Normen aufweisen. Die Übersetzung dieser Stellen ins Deutsche wird vermutlich diese Besonderheiten reflektieren.