Die Bände der Reihe Fischer Kompakt gliedern sich in vier Abschnitte. Der GRUNDRISS gibt eine bündige Gesamtdarstellung...
25 downloads
828 Views
2MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Die Bände der Reihe Fischer Kompakt gliedern sich in vier Abschnitte. Der GRUNDRISS gibt eine bündige Gesamtdarstellung des Themas. Die VERTIEFUNGEN geben die Möglichkeit, verschiedene Facetten, die im Grundriss angesprochen werden, genauer kennen zu lernen. Das GLOSSAR erläutert zentrale Begriffe. Die LITERATURHINWEISE geben Empfehlungen für weitere Lektüren. Laufend aktualisierte Hinweise des Autors auf interessante Texte und Links sind im Internet zu finden unter www.fischer-kompakt.de/molekulare-evolution S.109
Die Markierungen in der Marginalspalte, zusammen mit Hervorhebungen im Text, verweisen auf einen entsprechenden Abschnitt in den Vertiefungen.
Originalausgabe Veröffentlicht im Fischer Taschenbuch Verlag, einem Unternehmen der S. Fischer Verlag GmbH, Frankfurt am Main, Mai 2003 Gestaltungskonzept/Umschlag/Satz: Wolff Kommunikation, Frankfurt am Main Grafiken: von Solodkoff, Neckargemünd Druck und Bindung: Clausen & Bosse, Leck Printed in Germany ISBN 3-596-15365-4
MOLEKULARE EVOLUTION GRUNDRISS 1. Einige Grundlagen der Vererbung .......................................3 DNA-ein Bote aus der Vergangenheit .......................................3 Die DNA und ihr Code ..............................................................5 Gene und Genom ....................................................................7 Die Protein-Biosynthese .........................................................10 2. Veränderungen einer DNA-Sequenz im Laufe der Zeit .....14 Mutationen in einer DNA-Sequenz .........................................14 Evolution einer DNA-Sequenz.................................................17 Lücken und Ergänzungen in DNA-Sequenzen .......................22 3. Eine kleine Baumschule .......................................................25 AllgemeineTerminologie .........................................................25 Phylogenetische Klassifikation ...............................................28 Die Zahl der Bäume ................................................................31 4. Molekulare Phylogenie ........................................................32 Maximum-Parsimonie .............................................................36 Distanzbasierte Methoden ......................................................41 Maximum-Likelihood ...............................................................45 Experimentelle und theoretische Phylogenien.........................48 Der Bootstrap .........................................................................55 5. Gen-Bäume in der Phylogenie ............................................56 Gen-Bäume in Spezies-Bäumen ............................................56 Widersprüche zwischen Gen-Bäumen und Spezies-Bäumen .58 Auswirkungen von Gen-Duplikationen auf Gen-Bäume ..........63 Gen-Duplikationen als Motor der physiologischen Feinabstimmung .....................................64
6. Gen-Bäume in Populationen ...............................................66 Rekonstruktion der Populationsgeschichte anhand von DNA-Sequenzen..................................................68 Die Genealogie einer Stichprobe ............................................70 Wann lebte der jüngste Vorfahre der menschlichen Population? ................................................72 Demographie...........................................................................76 Wo kommen wir her? .............................................................85 7. Die Zukunft.............................................................................87
VERTIEFUNGEN Molekulare Techniken.................................................................91 Genetische Drift ...................................................................... 100 Die neutrale Theorie der molekularen Evolution ....................... 101 Die molekulare Uhr ................................................................... 103 Der Coalescent-Prozess ........................................................... 105 Die genetische Variabilität einer Population ............................ 109 Das Jukes-Cantor-Modell der Sequenzevolution ..................... 110 Wer sind die nächsten Verwandten der Wale? Ein nichtsequenzbasierter Ansatz zur Aufklärung der Phylogenie ......... 112 »Fossile DNA« - eine Zeitreise in die Vergangenheit .............. 115
ANHANG Glossar .................................................................................... 122 Literaturhinweise....................................................................... 127
GRUNDRISS
1 EINIGE GRUNDLAGEN DER VERERBUNG DNA - ein Bote aus der Vergangenheit Die Menschheit ist nicht nur daran interessiert, ihre Zukunft zu deuten, sondern auch ihre Herkunft zu rekonstruieren. Zentrale Fragen sind: Wo kommen wir her? Wie ordnen wir uns in die belebte Welt ein? Und wie können wir alle Lebewesen in einem einheitlichen Schema gruppieren, das uns hilft die Vielfalt des Lebens auf der Erde und ihre Genese zu verstehen? Carl von Linne (1707-1778) »sortierte« die Natur und gab den meisten Tieren und Pflanzen mittels der binären Nomenklatur eine systematische Zuordnung. Die Dynamik in der Entstehung der Vielfalt blieb jedoch verborgen. Erst ein Jahrhundert später, auf einem Treffen der Londoner Linne an Society am 1. Juli 1858, haben Charles Darwin (1809 -1882) und Alfred Rüssel Wallace (1823 -1913) ihre Ideen zur Entstehung der Arten vorgetragen. Im Jahr darauf publizierte Darwin sein bahnbrechendes Buch On the Origin of Species. Darwins Theorie basierte entscheidend auf der Weitergabe von vererbbaren Merkmalen. Die zugrunde liegenden Mechanismen waren zu dieser Zeit jedoch noch unklar. Erst 1944 gelang dem amerikanischen Team um Oswald Theodore Avery (1877 - 1955) der eindeutige Nachweis, dass die Desoxyribonukleinsäure (desoxyribonucleic acid, abgekürzt DNA) die erblichen Eigenschaften von den Eltern auf die Nachkommen überträgt. Vererbung beruht also auf einer stofflichen Weitergabe in Form einer Umsetzung von Molekülen. Die DNA besteht aus vier Grundbausteinen, nämlich den Basen Adenin (A), Cytosin (C), Guanin (G) 3
Einige Grundlagen der Vererbung
S.91
und Thymin (T). Die Molekular-Genetik beschreibt, wie aus der sequentiellen Abfolge dieser vier Grundbausteine der gesamte Bauplan für einen vollständigen Organismus entsteht und wie die Weitergabe der genetischen Information erfolgt. Da die DNA in fast allen Lebewesen als Träger der Erbinformation fungiert, sind die gefundenen Prinzipien für die Umsetzung der genetischen Information in den Phänotypen nahezu allgemeingültig. Rasch wurde klar, dass die DNA nicht nur für die Weitergabe der Eigenschaften von Eltern auf ihre Kinder verantwortlich ist. Sie ist auch ein »Dokument der Evolutionsgeschichte«, so Emile Zuckerkandl und Linus Pauling. Die DNA, die in heute lebenden Organismen zu finden ist, gab in grauer Vorzeit ein Vorfahr an den Nächsten weiter. Im Laufe dieser Weitergabe wurde die DNA modifiziert. Nicht mehr benötigte Segmentabschnitte gingen verloren, neue Sequenzabschnitte wurden erworben und wieder andere Abschnitte erfuhren kleine Veränderungen, da der Prozess der Informationsweitergabe nicht fehlerfrei ist. Welche Modifizierungen auch immer eine DNA erfahren hat, die heutigen Organismen zeigen Spuren dieser Änderungen in ihrem Genom. Die Forschung zur molekularen Evolution versucht diesen Prozess zu rekonstruieren und die Mechanismen herauszuarbeiten, die zu der heutigen Vielfalt der Organismen geführt haben. Besonders in den letzten Jahrzehnten wurden völlig neue Forschungstechniken entwickelt. Beispiele sind die Klonierung von DNA-Segmenten, die Sequenzierung der DNA und die PolymeraseKettenreaktion (PCR) (Molekulare Techniken). Mit der rasanten Entwicklung dieser molekularbiologischen Techniken gelang es, ein detailliertes und immer umfassenderes Bild von den der Evolution zugrunde liegenden Mechanismen zu entwickeln. Insbesondere bei der Frage nach einem biologischen System der Organismen erweist sich die Analyse von DNA- und Aminosäuresequenzen als eine wertvolle Methode, um sowohl die Verwandt4
Die DNA und ihr Code Schaftsverhältnisse zwischen nah verwandten Arten zu studieren, als auch einen Baum zu rekonstruieren, der die Evolutionsgeschichte aller Organismen der Erde darstellt.
Die DNA und ihr Code Die genetische Zusammensetzung eines Organismus wird im Wesentlichen durch die Nukleinsäuren bestimmt. Sie enthalten den Bauplan, der die verschiedenen Bauphasen im Organismus steuert und der als Kopie an die nächste Generation weitergegeben wird. Es gibt in den Zellen zwei Arten von Nukleinsäuren, die Desoxyribonukleinsäure (DNA) und die Ribonukleinsäure (RNA). Nukleinsäuren sind Makromoleküle. Ihre Grundbausteine sind Nukleotide, die kettenförmig miteinander verbunden sind. Jedes Nukleotid ist aus drei Molekülen aufgebaut: einer stickstoffhaltigen, heterozyklischen Base (N), einem Zucker (Z) und einer Phosphorsäure (P) (Abbildung la). Als Zuckerbaustein dient bei der DNA die Desoxyribose, bei der RNA ist es die Ribose. Als Basenanteile treten die Pyrimidinderivate Thymin (T) und Cytosin (C) (einfache Ringstruktur) und die Purinderivate Adenin (A) und Guanin (G) (doppelte Ringstruktur) auf (Abbildung 1b). In der RNA kommt statt Thymin die Base Uracil (U) vor, die chemisch nah verwandt ist mit Thymin. Ein vollständiges DNA-Molekül besteht aus zwei gegenläufigen Polynukleotid-Strängen (Abbildung 1c). Diese sind über Wasserstoffbrücken-Bindungen zu einem Doppelstrang so verknüpft, dass sich immer Thymin beziehungsweise Cytosin des einen Strangs mit Adenin beziehungsweise Guanin vom anderen Strang paaren (WatsonCrick-Basenpaarung). Dabei werden zwischen Adenin und Thymin zwei Wasserstoffbrücken-Bindungen (A=T) ausgebildet, zwischen Guanin und Cytosin sind es drei (G==C). Zusätzlich sind diese zwei Polynukleotid-Stränge noch spiralförmig umeinander gewunden, und es entsteht die charakteristische Gestalt der DNA-Doppelhelix. 5
Einige Grundlagen der Vererbung
Abb.1: Schematischer Aufbau der DNA
In einer Nukleinsäure sind mehrere tausend Nukleotide zu einem langen, unverzweigten Strang angeordnet. Die genetischen Informationen werden in der unterschiedlichen Abfolge der vier Basen entlang der jeweiligen Sequenz kodiert. Die genetische Information einer DNA-Sequenz wird in der Protein-Biosynthese an die Eiweißmoleküle (Proteine) weitergegeben, die wiederum die spezifischen Merkmale eines Organismus prägen. Die Bausteine der Proteine sind zwanzig verschiedene Aminosäuren; am Aufbau der Nukleinsäuren hingegen sind nur die vier Basen beteiligt. Zur Kodierung der zwanzig Aminosäuren sind daher spezifische »Codewörter« notwendig. Sie geben an, aus welchen Nukleotiden die Aminosäuren bestehen. Eine einfache Überlegung zeigt, dass mindestens drei Nukleotide (zum Beispiel ACG) notwendig sind, um 6
Gene und Genom alle Aminosäuren zu kodieren. Aus vier Nukleotiden können nur 16 Kombinationen von Zweiergruppen (zum Beispiel GC), wohl aber 64 Kombinationen von Dreiergruppen (wie CGA) gebildet werden. Jeweils drei Nukleotide lassen sich also zu einem Wort aus drei Buchstaben oder in der Sprache der Molekularbiologie zu einem Codon oder Triplett zusammenfassen. So stehen genügend Wörter zur Verfügung, um jede Aminosäure durch die Abfolge von drei Nukleotiden zu verschlüsseln. Die Übersetzung der Tripletts der DNA in Aminosäuren der mRNA zeigt Abbildung 2. Die meisten Aminosäuren werden durch mehrere Tripletts kodiert. So dienen als Codon für die Aminosäure Serin (Ser) die sechs Wörter AGC, AGU, UCU, UCC, UCA oder UCG. Man spricht daher von der Redundanz des genetisches Codes. Eindeutig kann nämlich nur von der DNA- beziehungsweise RNA-Sequenz auf die Aminosäure geschlossen werden, nicht jedoch umgekehrt von der Aminosäure auf die Nukleotid-Sequenz. Lediglich für Tryptophan (Trp) und Methionin (Met) gibt es allein ein einziges Schlüsselwort, nämlich UGG respektive AUG. Das AUG-Triplett hat weiterhin die Funktion eines so genannten Startcodons, das den Beginn der kodierenden Sequenz anzeigt. Jedes neu synthetisierte Protein beginnt also mit Methionin. Zu den so genannten Stoppcodons UGA, UAA, und UAG gehören keine Aminosäuren. Diese Tripletts beenden die Protein-Biosynthese.
Gene und Genom Der DNA-Strang enthält viele tausend Nukleotide. Aber nur einige Abschnitte der DNA tragen die Informationen für den Bauplan eines Organismus in sich. Diese Abschnitte heißen Gene. Sie enthalten die Informationen zur Herstellung von spezifischen Proteinen und sind daher im Wesentlichen für die Gestalt eines Lebewesens verantwortlich. Für die Herstellung der Proteine müssen die Gene ihre Kodierung weitergeben, sie bilden die kodierende DNA. 7
Einige Grundlagen der Vererbung Darüber hinaus gibt es in dem DNA-Strang zwischen den kodierenden Bereichen weitere, häufig sehr lange Abschnitte, die keine Informationen zur Herstellung von Proteinen tragen. Damit differenziert sich der DNA-Strang in verschiedene Domänen: Gene, die ihre Kodierung weitergeben, bilden die funktionellen Bereiche der DNA. Die anderen Abschnitte, die keine Kodierung tragen und daher auch keine Kodierung weitergeben, bilden die nicht-kodierende DNA. Letztere machen bei den Lebewesen, die einen echten Zellkern haben (Eukaryoten), den Großteil des Genoms aus (siehe Abbildung 3). Seit langem bekannt ist die Unterteilung des Genoms in Chromosomen. Im Kern einer menschlichen Körperzelle befinden sich 22 autosomale Chromosomen (griechisch auto = selbst, soma = Körper). Sie steuern hauptsächlich die körpereigenen Prozesse. Die Chromosomen unterscheiden sich in Form und Größe und liegen je zweimal vor. Ein Pärchen gleichartiger Chromosomen heißt homolog (übereinstimmend). Hinzu kommen die Geschlechtschromosomen X und Y. Bei männlichen Individuen gibt es ein X- und ein Y-Chromosom, bei weiblichen Individuen zwei X-Chromosomen. Zellen, in denen die Chromosomen doppelt vorliegen, heißen diploid (zweifach). Eine diploide Zelle des Menschen enthält daher immer 46 Chromosomen, zweimal 22 homologe Autosomen und zwei Geschlechtschromosomen, entweder XY bei männlichen oder XX bei weiblichen Organismen. In den menschlichen Keimzellen (Spermien und Ei) ist die Anzahl der Chromosomen halbiert, sie enthalten nur je einen autosomalen Chromosomensatz (n=22) und von den Geschlechtschromosomen entweder das Y- oder das X-Chromosom. In den reifen Geschlechtszellen befinden sich daher 23 Chromosomen. Im Gegensatz zu den diploiden Körperzellen sind die Keimzellen haploid (einfach). Die molekulare Differenzierung des menschlichen Genoms ist erst in den letzten Jahren aufgeklärt worden. Nach der vollständigen Bestimmung der Abfolge und Anzahl der Nukleotide wurde mit Erstaunen festgestellt, dass ca. 97% der drei Milliarden Basen nicht8
Gene und Genom
Abb.2: Der genetische Code für die mRNA. Die Codons sind von innen nach außen zu lesen und geben die Basenabfolge der mRNA-Codons wieder. Außerhalb des Kreises stehen die Aminosäuren, die vom Triplett kodiert werden.
kodierende DNA sind. Sich vielfach wiederholende Abschnitte (repetitive DNA) mit bisher unbekannter Funktion machen ca.40% des gesamten Genoms aus. In der Forschung werden sie je nach Länge als SINE, LINE oder Satelliten-DNA bezeichnet. Lediglich 3% des menschlichen Genoms sind kodierende DNA. Neben den schät9
Einige Grundlagen der Vererbung zungsweise 30000-40000 Genen sind auch regulatorische Sequenzen und spezielle RNA-Moleküle bei der Synthese von Proteinen wichtig. Das eukaryotische Genom enthält neben den im Zellkern lokalisierten Chromosomen (auch Kern-DNA genannt) zusätzliche extrachromosomale DNA, die in den Mitochondrien der Zellen vorkommt. Sie heißt mitochondriale DNA (mtDNA). Beim Menschen handelt es sich hierbei um ein kleines, ca. 16000 Basenpaare langes, ringförmiges DNA-Molekül. Die mtDNA wird in der Regel maternal vererbt. Nur die Mütter geben das Mitochondrien-Genom an ihre Kinder weiter, die väterliche mtDNA wird nicht vererbt. Im Unterschied zur Kern-DNA ist die Abfolge der kodierenden Abschnitte nahezu lückenlos. Der einzige nicht-kodierende Abschnitt ist die Kontroll region (Abbildung 3). Sie steuert die Replikation (originalgetreue Nachbildung) des ringförmigen Genoms. Eine weitere Eigenheit der mitochondrialen DNA besteht darin, dass es nach dem derzeitigen Wissensstand so gut wie keine Rekombination gibt, das heißt es findet kein Austausch zwischen verschiedenen DNA-Abschnitten statt. Diese Tatsache macht die mtDNA besonders geeignet für evolutionsbiologische Analysen. Pflanzen besitzen noch ein weiteres, extra-chromosomales Genom, das in den Plastiden der Zellen vorkommt und daher PlastidenGenom heißt. Zu den Plastiden zählen unter anderem die grünen Chloroplasten, die maßgeblich für die Photosynthese verantwortlich sind sowie die rötlich bis gelben Chromoplasten der reifen Früchte und Blüten. Das Plastiden-Genom ist ebenfalls ringförmig geschlossen und hat eine Länge von 85000-190000 Basenpaaren.
Die Protein-Biosynthese Ein Gen trägt die Information zur Bildung eines spezifischen Eiweißmoleküls (Protein). Diese sind vorwiegend aus Aminosäuren aufge10
Die Protein-Biosynthese
Abb.3: Anteil kodierender und nicht-kodierender DNA im menschlichen Genom
11
Einige Grundlagen der Vererbung baut. Ganz ähnlich wie bei der DNA bestimmt die Abfolge der Aminosäuren in der Proteinsequenz die charakteristischen Eigenschaften dieses Proteins. Da die Gene in der Abfolge ihrer Nukleinsäuren die Informationen zum Aufbau der Proteine enthalten, muss es einen Mechanismus geben, der die Abfolge dieser Nukleinsäuren eines Gens in eine Abfolge von Aminosäuren übersetzt. Dieser Vorgang ist die Protein-Biosynthese, sie verläuft in zwei Schritten. Bei den Eukaryoten befindet sich die DNA im Zellkern. Die Eiweißsynthese erfolgt aber außerhalb des Zellkerns an den Ribosomen im Cytoplasma. Daher muss in einem ersten Schritt die Information aus dem Kern durch die Kernhülle zu den Ribosomen im Cytoplasma transportiert werden. Diese Übertragung übernimmt ein einsträngiges RNA-Molekül. Da dieses die »Botschaft« nach außen überträgt, heißt das Molekül messenger-RNA (mRNA oder Boten-RNA). Die mRNA wird im Zellkern an der Kern-DNA gebildet. Die Basenfolge (die genetische Information) der Kern-DNA wird dabei auf das neu gebildete mRNA-Molekül übertragen (kopiert). Dieser erste Schritt der Protein-Biosynthese wird Transkription (Abbildung 4) genannt. Anstelle von Thymin in der DNA wird in die mRNA jedoch die Base Uracil eingebaut. Die mRNA gelangt durch die Kernporen in das Cytoplasma. Jetzt beginnt der zweite Schritt in der Übertragung der genetischen Information der Kern-DNA auf die Proteinbildung. Im Cytoplasma heften sich zwei Teile eines Ribosoms an die mRNA an und bilden ein funktionsfähiges Ribosom. Zugleich binden weitere RNA-Moleküle je eine bestimmte, in den Zellen frei existierende Aminosäure an sich. Diese RNA-Moleküle nennt man transfer-RNA oder tRNA. Sie transportieren die Aminosäuren zum Ribosom, wo sie unter Mitwirkung der mRNA zu einem Polypeptid verknüpft werden. Die Reihenfolge, in der die Aminosäuren zu einem bestimmten Protein zusammengesetzt werden, wird durch die Abfolge der Codons in der mRNA bestimmt. Dieser zweite Schritt, die Übersetzung der in der Basen12
Die Protein-Biosynthese
Abb.4: Die Teilprozesse der Protein-Biosynthese
abfolge der mRNA gespeicherten genetischen Information in eine Abfolge von Aminosäuren in einem Protein, heißt Translation. Die Stoppcodons auf der mRNA beenden die Translation. Das Polypeptid und die tRNA verlassen die Ribosomen, die anschließend in ihre Untereinheiten zerfallen. 13
Veränderungen einer DNA-Sequenz im Laufe der Zeit
2 VERÄNDERUNGEN EINER DNA-SEQUENZ IM LAUFE DER ZEIT Mutationen in einer DNA-Sequenz Die Vererbung der Eigenschaften eines Organismus auf seine Nachkommen beruht auf der Bildung einer genauen Kopie der DNA. Die Natur hat für diese Replikation der DNA viele Vorkehrungen getroffen, um den Kopierprozess möglichst fehlerfrei zu gestalten. Dennoch kommt es zu Fehlern. Die so genannten Mutationen (Veränderungen) entstehen sowohl bei der Replikation als auch spontan durch umweltbedingte Faktoren, wie beispielsweise radioaktive Strahlung oder chemische Stoffe in der natürlichen und industriellen Umwelt. Mutationen sind die entscheidende Kraft im Evolutionsgeschehen. Sie sind zum einen verantwortlich für die genetischen Unterschiede zwischen Individuen. Zum anderen sind Mutationen der Motor für die Mannigfaltigkeit beziehungsweise Vielgestaltigkeit des Lebens, die dann auf dem Prüfstand der Selektion auf ihre Lebensfähigkeit getestet wird. Aus dieser Vielfalt der Mutationen interessieren in der Erforschung der molekularen Evolution nur jene Veränderungen, die sich in den Geschlechtszellen (Keimbahn) manifestieren. Nur diese Mutationen werden an die Nachkommen sich sexuell fortpflanzender Organismen weitergegeben. Veränderungen, die andere Körperzellen betreffen (somatische Mutationen), werden nicht vererbt und sind daher für die Rekonstruktion der molekularen Evolutionsgeschichte ohne Bedeutung. Mittlerweile sind eine Vielzahl unterschiedlicher Mutationstypen bekannt. So kann in einer DNA-Sequenz ein Nukleotid durch ein anderes ersetzt werden (Punktmutation). Nur wenn die Reparaturmechanismen der Zelle diese Änderung nicht erkennen und korrigieren, sprechen wir von einer Substitution. Typische Substitutionen sind 14
Mutationen in einer DNA-Sequenz
Abb.5: Schema der möglichen Nukleotidsubstitutionen
die vielen Einzel- oder Single-Nukleotid-Polymorphismen (abgekürzt SNP), die im Zuge der Sequenzierung des menschlichen Genoms gefunden wurden. Nukleotidsubstitutionen treten als Transitionen und Transversionen auf. Eine Transition ist ein Basenaustausch zwischen Pyrimidinen (Cytosin ļ Thymin) oder zwischen Purinen (Adenin ļ Guanin). Bei der Transversion kommt es zu einem Austausch zwischen einer Purin- und einer Pyrimidinbase (Abbildung 5). Für das Auftreten einer Transversion gibt es prinzipiell zwei Möglichkeiten, für eine Transition existiert hingegen nur eine Option. Daher liegt der Schluss nahe, dass Transversionen zweimal häufiger vorkommen als Transitionen. Beim Auszählen der Unterschiede zwischen nah verwandten Sequenzen bestätigt sich diese einfache Annahme jedoch nicht. Transitionen finden wesentlich häufiger statt als Transversionen. Diese Tatsache muss bei der Analyse von DNASequenzen berücksichtigt werden. 15
Veränderungen einer DNA-Sequenz im Laufe der Zeit Hat der Austausch eines Nukleotids keinen Einfluss auf die kodierte Aminosäure (siehe Abbildung 2), handelt es sich um eine synonyme Substitution. Dagegen ändert eine nicht-synonyme Substitution die Aminosäure. Synonyme Substitutionen erfolgen meist an den dritten Codonpositionen, die im Wesentlichen die Redundanz des genetischen Codes bestimmen. Außerdem gehen im Verlauf der Zeit Stückchen der DNA verloren (Deletion) oder werden hinzugewonnen (Insertion). Die Einheit einer Deletion oder Insertion kann ein einzelnes Nukleotid sein, oder es können auch ganze Abschnitte von Nukleotiden sein. Darüber hinaus gibt es großräumige Veränderungen des genetischen Materials wie Translokationen und Inversionen, bei denen ganze Chromosomen-Abschnitte verlagert oder verdreht werden. Erstaunlicherweise ist die Natur so flexibel, dass eine solche Umgruppierung von DNAAbschnitten nicht zwangsläufig zur Funktionsunfähigkeit des betroffenen Organismus führen muss. Einer der wichtigsten genetischen Prozesse in der Evolution ist die Duplikation (Verdopplung) von Genen oder ganzer genomischer Abschnitte. Dadurch erhält der Organismus zwei Kopien desselben Gens. Eine der beiden Kopien kann eine neue Funktion bekommen oder aber seine Funktionsfähigkeit verlieren. Ein klassisches Beispiel sind die wiederholten Genduplikationen in der Superfamilie des Globingens, die sowohl den Sauerstofftransport in den Muskeln (Myoglobin) als auch im Blut (Hämoglobin) regulieren. Dabei werden die sehr unterschiedlichen Sauerstoff-Bedürfnisse im Embryo respektive im erwachsenen Organismus berücksichtigt. Andere DNA-Abschnitte sind ganz ähnlich wie die Globingene aufgebaut, aber sie funktionieren nicht, weil sie durch Deletionen und Insertionen unterbrochen sind. Diese »Karikaturen« aktiver Gene werden Pseudogene genannt.
16
Evolution einer DNA-Sequenz
Evolution einer DNA-Sequenz Mutationen verändern die Basenabfolge der DNA-Sequenz. Bei jeder Substitution ändert sich durch den Austausch eines Nukleotids auch die in der DNA gespeicherte Information. Als eine zentrale Annahme gilt in der molekularen Evolutionstheorie, dass diese Änderungen einem stochastischen, das heißt einem Zufallsprozess unterliegen. Zu jedem gegebenen Zeitpunkt ist es möglich, dass eine Substitution erfolgt und ein Nukleotid der Sequenz durch ein anderes ersetzt wird. Prinzipiell sind solche Ersetzungen an jeder Position eines DNA-Stranges möglich. Es gibt allerdings bestimmte, meist konservative Regionen in der DNA-Sequenz, in denen eine einzige Substitution bereits die Funktion des resultierenden Proteins beeinträchtigt. Hierzu zählt etwa die Änderung der Raumstruktur eines Moleküls, die möglicherweise eine verringerte Bindungsaffinität für bestimmte Gase oder Mineralien bewirkt. Ist eine Mutation nachteiligfür den Träger, wird aufgrund der reduzierten Fitness (weniger oder keine Nachkommen) diese Mutation wieder verloren gehen. Bei neutralen Substitutionen entscheidet der Zufall, ob die neue Mutante in der Population fixiert wird (Die neutrale Theorie der Molekularen Evolution, Genetische Drift). Die Auswertung von Aminosäure-Sequenzen zeigt, dass verschiedene Proteine unterschiedliche Substitutionsraten haben, wobei es noch einen deutlichen Unterschied zwischen synonymen und nicht-synonymen Austauschen gibt (Tabelle 1). So zählen die Histone, die in den Kernen aller Tier- und Pflanzenzellen vorkommen und die dichte Verpackung des Genoms im Zellkern gewährleisten, zu den höchst konservierten Genen überhaupt. Vom Histon 3 und Histon 4 ist keine nicht-synonyme Substitution bekannt. Die Gene aus der Globinfamilie zeigen geringe (D-Globin, Myoglobin) bis moderate (E-Globin) Austauschraten. Die Substitutionsraten in Tabelle i sind Schätzungen. Es ist nicht möglich, eine DNA-Sequenz über eine Milliarde Jahre zu beobachten 17
S.101 S.100
Veränderungen einer DNA-Sequenz im Laufe der Zeit
Tabelle 1: Substitutionsraten für fünf proteinkodierende Gene. Die Rate ist als mittlere Zahl an Substitutionen pro Position und pro 1 Milliarde Jahre angegebene AS = Aminosäure.
und die in dieser Zeit erfolgenden Substitutionen in der Keimbahn mitzuzählen. Vorteilhaft wäre es zwar, wäre die Zahl der Substitutionen in diesem Zeitraum doch ein Maß für die Evolutionsgeschwindigkeit des Sequenzabschnittes, und die Substitutionsrate ließe sich direkt berechnen. Zum Glück stellen Mathematiker Modelle der Sequenzevolution bereit, um die Substitutionsrate zu ermitteln. Für das Entwickeln eines solchen Modells soll angenommen werden, dass sowohl die ursprüngliche Sequenz als auch die heutige Sequenz und zudem die dazwischenliegende Zeitspanne bekannt sind. Unter der Annahme, dass nur Substitutionen erfolgten, kann dann jeder Position der heutigen Sequenz ihre Position in der ursprünglichen Sequenz zugeordnet werden (Abbildung 6). Unterscheidet sich ein »heutiges« Nukleotid von dem Nukleotid der ursprünglichen Sequenz, fand mit Sicherheit an dieser Position mindestens ein Austausch statt. Da nur das Endprodukt und das Anfangsprodukt bekannt sind, können an dieser Position aber auch zwei, drei, vier und mehr Substitutionen stattgefunden haben. Sind zwei Nukleotide an einer Position gleich, können dennoch im Laufe der Zeit zwei, drei, vier und mehr Mutationen eingetreten sein, 18
Evolution einer DNA-Sequenz
Abb.6: Modell für die Veränderung einer DNA-Sequenz im Laufe der Zeit. Zwischen einer Vorfahr-Sequenz und einer heutigen Sequenz sind acht Generationen vergangen. Punkte stehen für identische Basen, ein Strich (-) markiert eine Deletion, das heißt den Verlust eines Nukleotids. Pfeile symbolisieren jeweils eine Substitution (schwarzer Pfeil = Transition, grüner Pfeil = Transversion) beziehungsweise Deletion (grauer Pfeil). Die Veränderungen führen zu unterschiedlichen Ergebnissen, das sind einfache (*) und multiple ($) Substitutionen, Rückmutationen (§) oder Deletionen (-).
eventuell aber auch gar keine. Wird also nur die Zahl der unterschiedlichen Nukleotidpaare registriert, dann wird die Zahl der Substitutionen unterschätzt. Die Wahrscheinlichkeit für diese mehrfachen (multiplen) Substitutionen hängt von der betrachteten Zeitspanne und von der Substitutionsrate der Sequenz ab. Je weniger Zeit vergangen ist und je kleiner die Substitutionsrate ist, desto unwahrscheinlicher sind multiple Ereignisse an einer Position. Um aus der beobachteten Zahl an unterschiedlichen Nukleotidpositionen zwischen zwei Sequenzen auf die Zahl der tatsächlich stattgefundenen Mutationen zu schließen, sind in den letzten Jahrzehnten eine Vielzahl von mathematischen Modellen entwickelt worden. Abbildung 7 zeigt für das Jukes-Cantor-Modell der Sequenzevolution den Zusammenhang zwischen der Anzahl an stattgefundenen und der Anzahl an beobachteten Substitutionen. Die schwarze treppen19
S.110
Veränderungen einer DNA-Sequenz im Laufe der Zeit förmige Kurve stellt die jeweils bis zu einem bestimmten Zeitpunkt ausgezählten Substitutionen dar. Die lineare Kurve der tatsächlichen Substitutionen (mit weißen Symbolen) berücksichtigt die nicht beobachtbaren Parallel- und Rückmutationen. Aus der Kurve der beobachteten Substitutionen muss also auf die Kurve der tatsächlichen Substitutionen geschlossen werden. Es wird also nach einer Funktion, nämlich der Korrekturkurve gesucht, die aus der Anzahl der beobachteten Substitutionen die tatsächliche Anzahl an Basenaustauschen bestimmt. Auch wenn die mathematischen Details von Modell zu Modell variieren, zeigen die Korrekturkurven (siehe Abbildung 7) bei allen Modellen dennoch einen ähnlichen Verlauf: Haben erst wenig Substitutionen stattgefunden, gibt es einen linearen Zusammenhang zwischen stattgefundenen und beobachteten Substitutionen. Nimmt die Anzahl der Substitutionen zu, nimmt die Steigung des Graphen ab. Schließlich erreicht die Kurve die so genannte Sättigung. Der Unterschied zwischen einer Ursprungssequenz und ihrem Nachfahren ist dann im Mittel genauso groß wie zwischen zwei zufälligen, nicht miteinander verwandten Sequenzen. Alle Spuren der gemeinsamen Vergangenheit zwischen Ursprungs- und Nachfahren-Sequenz sind damit ausgelöscht. Anders als im mathematischen Modell ist in der molekularen Evolutionsforschung die ursprüngliche Sequenz, das heißt die VorfahrSequenz der heutigen Sequenz, unbekannt. Für die benutzten Substitutionsmodelle ist dies auch gar nicht notwendig. Es reicht, zwei heutige DNA-Sequenzen zu kennen, von denen mit Sicherheit feststeht, dass sie auf eine gemeinsame Vorfahrensequenz zurückgehen. Aus einem Vergleich der zwei Sequenzen wird die Anzahl der variablen Positionen (beobachteten Substitutionen) ermittelt. Dann kommen Korrekturkurven wie in Abbildung 7 zur Anwendung. Sie erlauben Rückschlüsse über die Anzahl der tatsächlich stattgefundenen Substitutionen, die zwischen der gemeinsamen Vorfahr20
Evolution einer DNA-Sequenz
Abb.7: Jukes-Cantor-Modell der Sequenzevolution
21
Veränderungen einer DNA-Sequenz im Laufe der Zeit Sequenz und den heutigen Sequenzen stattgefunden haben. Nicht abschätzen lässt sich die Zeit, in der sich die heutigen Sequenzen aus ihrer gemeinsamen Vorfahr-Sequenz entwickelt haben. Daher kann nicht ohne weiteres eine Substitutionsrate wie in Tabelle i angegeben werden. Ursache dieser Beschränkung ist die strenge Proportionalität d~P·t zwischen der Anzahl d der Substitutionen und dem Produkt aus Substitutionsrate P der Sequenz und der evolutionären Zeitspanne t. Um aus der Anzahl der Substitutionen auf die Substitutionsrate zu schließen, sind Informationen über den Zeitpunkt erforderlich, an dem sich die beiden heutigen Sequenzen aus einer Vorfahr-Sequenz entwickelt haben. Als Kalibrierungspunkte eignen sich die aus fossilen Befunden gewonnenen Zeitpunkte für die Aufspaltung der jeweiligen Arten. Die vorangegangenen Betrachtungen stellen die Grundprinzipien eines Sequenzmodells der Evolution vor. Beim Vergleich biologischer Daten zeigt sich jedoch, dass Transitionen wesentlich häufiger erfolgen als Transversionen. Diese Beobachtung wird bei weiterführenden Substitutionsmodellen bedacht. Zusätzlich können die Modelle berücksichtigen, dass einige Positionen aufgrund funktioneller Zwänge - wie einer bestimmten Raumstruktur des Proteins - langsamer evolvieren als andere.
Lücken und Ergänzungen in DNA-Sequenzen Bei der Analyse von DNA-Sequenzen stellte sich heraus, dass im Mutationsgeschehen nicht nur Substitutionen vorkommen. Auch Insertionen und Deletionen treten selbst in kodierenden Regionen auf. Sie können dabei zum Teil eine erhebliche Größenordnung erreichen. In einem Vergleich zweier Sequenzen zeigen sich daher nicht nur Positionen mit unterschiedlicher Nukleotidpaarung, sondern die Se22
Lücken und Ergänzungen in DNA-Sequenzen quenzen haben darüber hinaus aufgrund von Insertionen und Deletionen (kurz Indels) auch verschiedene Längen. Anhand der Buchstabenabfolgen der DNA-Sequenzen ist nicht zu erkennen, wo und wie viele Indels erfolgt sind. Ein Problem der molekularen Evolution ist die Rekonstruktion dieser Indels, um so sicherzustellen, dass bei der Auszählung der paarweisen Nukleotidunterschiede auch tatsächlich orthologe, das heißt ursprungsgleiche Positionen verglichen werden. Die Prozedur, jene Stellen zu lokalisieren, an denen Insertionen respektive Deletionen stattgefunden haben, erhielt den Fachterminus Alignierung. Ergebnis der Prozedur ist das Alignement. Dies erinnert mit seinem lateinischen Wortstamm linea an das Abstecken einer Linie, in der etwas angeordnet werden soll. Ziel eines Sequenzalignements ist es, die Sequenzen so untereinander zu schreiben, dass sie die gleiche Länge haben und dabei orthologe Positionen einander zugeordnet werden. Dazu müssen die Indels (die verlorenen oder hinzugewonnenen Stückchen DNA) mit erfasst werden. Hierfür dient das Zeichen »-«, das als Lücke (gap) eingefügt wird, sozusagen als Platzhalter für fehlende Nukleotide. Bei einer Beschränkung auf zwei Sequenzen lässt sich das Problem in einem so genannten dot-plot in Form einer Matrix veranschaulichen (Abbildung 8). Die erste Zeile des dot-plot repräsentiert die Sequenz i aus Abbildung 6, die erste Spalte die Sequenz 2 aus Abbildung 6. Stimmen die Nukleotide an einem Positionspaar der Sequenzen überein, wird das entsprechende Feld mit einem Punkt (dot) markiert. Stimmen sie nicht überein, bleibt das Feld frei. Dann sucht man durchgehende oder »geknickte« Diagonalen. Lange Diagonalen deuten auf Regionen, in denen beide Sequenzen sehr ähnlich beziehungsweise identisch sind. Das Ziel der Auswertung solcher dotplots besteht darin, den optimalen (»besten«) Weg durch diese Matrix zu finden, der möglichst viele identische Nukleotidpaare aufsammelt und so zu durchgehenden Diagonalen führt, ohne unnötig viele Indels einzubauen, welche die »Knicke« verursachen. Dazu wer23
Veränderungen einer DNA-Sequenz im Laufe der Zeit
Abb.8: Evolution der Sequenz aus Abbildung 6 in Form eines dot-plot
den computergestützte Algorithmen verwendet, die aus der Vielzahl an möglichen Wegen den optimalen bestimmen. Die biologischen Mechanismen für Insertionen und Deletionen sind noch nicht ausreichend verstanden, daher sind die derzeitigen Methoden der Sequenzalignierung noch sehr heuristisch. In praktischen evolutionsbiologischen Anwendungen findet meist eine Nachbearbeitung des Ergebnisses durch »visuelle Begutachtung« statt. Dies ist besonders dann der Fall, wenn mehr als zwei Sequenzen in einem so genannten multiplen Sequenzalignement verglichen oder aneinander ausgerichtet werden. Bei einem paarweisen Alignement zweier Sequenzen gehen Positionspaare auf eine gemeinsame Vorfahrposition zurück. Einem multiplen Alignement liegt die Annahme zugrunde, dass jeweils eine Spalte des multiplen Alignements auf eine gemeinsame Vorfahrposition zurückgeht. Paarweise und multiple Sequenzalignements sind der Ausgangspunkt für phylogenetische und populationsbiologische Studien. 24
Eine kleine Baumschule
Abb. 9: Ein schematischer Baum mit den wichtigsten anatomischen Begriffen
3 EINE KLEINE BAUMSCHULE Allgemeine Terminologie Die in diesem Buch verwendeten Begriffe veranschaulicht Abbildung 9. Mathematiker und Biologen haben sehr unterschiedliche Vorstellungen von einem Baum. So sprechen die Mathematiker von Kanten und Knoten (abgeleitet aus der Grafentheorie), während Biologen Äste und Verzweigungen vor Augen haben (ganz wie bei Bäumen in der Natur). Im phylogenetischen Kontext ist ein Baum (Dendrogramm) eine mathematische Konstruktion, welche die stammesgeschichtlichen Verwandtschaftsverhältnisse (Phylogenie) einer Gruppe von Lebewesen widerspiegelt. Ein Stammbaum besteht aus Knoten (Verzweigungspunkten), die durch Kanten (Äste) miteinander verbunden sind. Die äußeren Kno25
Eine kleine Baumschule ten (endständiges Taxon oder OTU, Abkürzung für Operational Taxonomic Unit) repräsentieren Organismen, für die reale Daten (zum Beispiel DNA-Sequenzen oder morphologische Messwerte) vorliegen. Innere Knoten symbolisieren hypothetische Vorfahren für jene Taxa, die sich in einem anschließenden Speziations- beziehungsweise Aufspaltungsprozess in zwei Tochterlinien geteilt haben. Der Vorfahre aller im Datensatz enthalten DNA-Sequenzen oder Organismen ist die Wurzel des Baums. In der phylogenetischen Systematik wird die Wurzel auch als Stammart bezeichnet. Ein Baum mit einer Wurzel heißt gewurzelter Baum. Knoten und Kanten eines Baumes enthalten eine Vielzahl von Informationen. So wird zum Beispiel beim Maximum-Parsimonie-Verfahren jedem inneren Knoten ein diskreter Merkmalszustand, zum Beispiel eine DNA-Sequenz, zugeordnet. Viele Verfahren berechnen auch die evolutionäre Zeit, die zwischen zwei Aufspaltungsereignissen verstrichen ist, die sich in der Länge einer Kante (Astlänge) widerspiegelt. Während äußere Knoten (endständige Taxa) mit einer äußeren Kante verbunden sind, laufen auf innere Knoten drei oder mehr Kanten zu. Wenn ein Knoten genau drei Kanten hat, besitzt er einen Vorfahren und zwei Nachfahren. In diesem Fall spricht man von einer dichotomen (zweigeteilten) Verzweigung. Enthält ein Baum an den inneren Knoten ausschließlich dichotome Verzweigungen, ist er vollständig aufgelöst. Gibt es an einem inneren Knoten mehr als zwei Nachfahren, ist dies eine polytome, das heißt vielfache Verzweigung. Polytomien symbolisieren entweder die zeitgleiche Aufspaltung in mehrere Nachfahren oder eine noch nicht geklärte Beziehung zwischen den untersuchten Organismen. Im zweiten Fall fand die Aufspaltung nicht zwangsläufig zum gleichen Zeitpunkt statt, sondern die Abfolge der Ereignisse ist noch unsicher. In der Regel ist es sehr unwahrscheinlich, dass sich mehr als zwei phylogenetische Linien zum exakt gleichen Zeitpunkt aufspalten. Daher kann in den meis26
Allgemeine Terminologie
Abb.10: Verschiedene Topologien mit der dazugehörigen Kurzschreibweise in Klammernotation
ten Fällen davon ausgegangen werden, dass es zwar eine dichotome Baumstruktur gibt, die herangezogenen Merkmale aber die zeitliche Abfolge der Aufspaltung nicht auflösen können. Es gibt zahlreiche Möglichkeiten der Baumdarstellung (Abbildung 10). Nicht immer unterscheiden sich die Bäume in ihrer Topologie, das heißt in ihrem Verzweigungsmuster. Manchmal sind es lediglich verschiedene grafische Darstellungen, da sich die Kanten eines Baumes um jeden inneren Knoten beliebig drehen lassen, ohne dass sich die relativen Beziehungen zwischen denTaxa ändern. Phylogenetische Bäume können computerfreundlich in Klammernotation dargestellt werden (Abbildung 10). Jeder innere Knoten (jeder clade) ist durch ein Klammerpaar repräsentiert, das alle Nachkommen dieses Knotens einschließt. Alle Nachkommen eines inneren Knotens bezeichnet man manchmal auch als Cluster. So stehen in den drei linken Bäumen in Abbildung 10 die Klammern (D,E) und (A,B,C) für die oberen Knoten und die Klammer ((D,E) (A,B,C)) für die Wurzel. Mit dieser einfachen Schreibweise lässt sich die Topologie jedes Baumes darstellen. Was hier noch fehlt, sind Informationen über die Kantenlängen und damit über die evolutionären Zeiten. Compu27
Eine kleine Baumschule
S.103
terprogramme, die phylogenetische Bäume berechnen, speichern neben der Topologie auch die Länge jeder Kante. Für die Darstellung unterschiedlicher evolutionärer Fragestellungen gibt es auch unterschiedliche Bäume. Die einfachste Form ist das Cladogramm, das lediglich die relativen Beziehungen der Taxa zueinander darstellt. Die Kantenlänge ist hierbei ohne jede Bedeutung. Ein Phylogramm enthält zusätzliche Informationen über die Länge der Kanten, zum Beispiel die Anzahl an Substitutionen. Solche Bäume werden auch als additive oder metrische Bäume bezeichnet. Im Dendrogramm sind die äußeren Knoten alle gleich weit von der Wurzel entfernt. Ein Dendrogramm ist also ein Spezialfall des Phylogramms. Dendrogramme werden benutzt, um unter Verwendung der molekularen Uhr die Evolutionszeiten der einzelnen Organismen darzustellen. Im gewurzelten Baum wird ein Knoten als Wurzel deklariert (siehe Abbildung 9), der hypothetische Vorfahre aller untersuchten Lebewesen. Ein gewurzelter Baum hat folglich eine Lesrichtung, die parallel zur evolutionären Zeit verläuft. Somit gibt es eine eindeutige Beziehung zwischen älteren Vorfahren (deren Knoten näher an der Wurzel stehen) und jüngeren Nachkommen (deren Knoten weiter von der Wurzel entfernt sind).
Phylogenetische Klassifikation Bezüglich der Abstammung einzelner Organismen oder Taxa gibt es drei Szenarien, die in Abbildung 11 durch grüne Linien gekennzeichnet sind. Eine monophyletische Gruppe (griechisch monophylos = aus einem Stamme) (Abbildung 11a) ist von einem gemeinsamen Vorfahren ableitbar und enthält sämtliche Nachkommen der Stammart. Ein Beispiel hierfür sind Mensch und Schimpanse, die als Schwesterarten oder nächste Verwandten bezeichnet werden. Weitere Monophyla 28
Phylogenetische Klassifikation sind etwa die Gruppe der Säugetiere, die Gruppe der Wirbeltiere oder die Gruppe der Vögel. Eine paraphyletische Gruppe (griechisch para = abweichend) (Abbildung 11b) umfasst nicht alle Nachkommen einer Stammart. Ein Beispiel sind die Reptilien. Traditionell schließen sie nur die Schildkröten, Eidechsen und Krokodile ein. Dagegen gehören die Vögel nicht zu den Reptilien, obwohl sie die nächsten Verwandten der Krokodile sind (Archosaurier). Eine polyphyletische Gruppe (Abbildung nc) umfasst Arten oder Taxa, die nicht direkt verwandt sind, sondern aus zwei oder mehr Entwicklungslinien stammen. Aufgrund von Konvergenz in bestimmten, meist morphologischen Merkmalen, wurden sie in eine Gruppe zusammengefasst. So bilden etwa die Geier der Alten Welt und der Neuen Welt eine polyphyletische Gruppe. Die jeweilige Schwestergruppe sind die Störche beziehungsweise die Greifvögel. Die Geier der Alten und Neuen Welt sind sich aber darin ähnlich, dass sie Aasfresser sind, einen typischen Hakenschnabel haben und ihr Kopfgefieder reduziert ist. Ungewurzelte Bäume haben keine Zeitachse, so dass die Vorfahren-Nachkommen-Beziehungen nicht geklärt sind. Zur Berechnung der Bäume erzeugen viele Computerprogramme nur ungewurzelte Bäume. Ein Ausweg ist die Einbeziehung einer Außengruppe. Ein Beispiel hierfür ist der ungewurzelte Baum für Mensch, Schimpanse, Gorilla und Orang-Utan in Abbildung 12. Er hat fünf Kanten (i bis 5). Soll hieraus ein gewurzelter Baum entstehen, kann die Wurzel an jede der fünf Kanten platziert werden. Vier der fünf Wurzelungen sind aber biologisch sinnlos, da Mensch, Schimpanse und Gorilla im Verhältnis zum Orang-Utan eine monophyletische Gruppe sind, die sich aus einer gemeinsamen Stammart entwickelt haben. Wenn also bekannt ist, dass eine Gruppe von Organismen monophyletisch ist, so kann, durch Hinzufügen einer weiteren Art, die nicht diesem Monophylum angehört, der Baum gewurzelt werden. Diese Art wird 29
Eine kleine Baumschule
Abb.11: Mögliche Schwestergruppen-Beziehungen in einem Baum
30
Die Zahl der Bäume
Abb.12: Gewurzelte und ungewurzelte Bäume. Aus einem ungewurzelten VierSequenzen-Baum lassen sich fünf gewurzelte Bäume ableiten. Die Anzahl gewurzelter Bäume resultiert aus der Zahl der Kanten (1-5). M = Mensch, S = Schimpanse, G = Gorilla, O = Orang-Utan.
als Außengruppe bezeichnet. Der Orang-Utan ist daher die Außengruppe für Mensch, Schimpanse und Gorilla.
Die Zahl der Bäume Die Rekonstruktion eines phylogenetischen Baumes ist ein immenses Problem, weil allein schon die Anzahl der möglichen Verzweigungsmuster mit der Anzahl der untersuchten Organismen expo31
Eine kleine Baumschule nentiell wächst. Interessieren nur zwei Sequenzen, zum Beispiel von Mensch und Schimpanse, so gibt es lediglich einen einzigen Baum (Abbildung 13, Mitte oben). Wird als dritte Sequenz der Gorilla einbezogen (schwarzer Pfeil in Abbildung 13), gibt es - unter der Annahme, dass keine Information über die Lage der Wurzel vorliegt - auch nur einen Baum. Sobald als vierte Sequenz der Orang-Utan hinzukommt, entstehen jedoch drei mögliche Bäume (grüne Pfeile in Abbildung^). Die Topologie der drei ungewurzelten Vier-Spezies-Bäume hängt davon ab, an welche Kante diese Sequenz eingefügt wird. Für eine fünfte Sequenz, etwa die des Gibbon, stehen dann drei Bäume mit jeweils fünf Kanten zur Verfügung. (In Abbildung 13 sind nur die fünf Bäume für die untere Gruppe eingezeichnet.) Somit können für fünf Sequenzen insgesamt 15 verschiedene Fünf-Spezies-Bäume (mit sieben Kanten) erzeugt werden. Für eine sechste Sequenz stehen dann 15 Bäume mit je sieben Kanten zur Verfügung, so dass insgesamt 105 Sechs-Spezies-Bäume erzeugt werden können. Für zehn Sequenzen gibt es bereits 2 027 025 verschiedene Verzweigungsmöglichkeiten. Für 22 Sequenzen stehen 3,2-io23 Bäume zur Auswahl und jeder muss als mögliche Hypothese über die Verwandtschaftsverhältnisse geprüft werden. Allgemein berechnet sich die Zahl der Bäume für n›3 Sequenzen aus der Formel B(n) = 1 · 3 · 5 · ... · (2n–5).
4 MOLEKULARE PHYLOGENIE Die Evolution einer DNA-Sequenz als Träger der Erbinformation und als Bote dieser Information in die nächste Generation erfordert Eltern und Nachkommen dieser Eltern. Durch den lückenlosen Fortbestand einer Ahnenreihe, auch Linie genannt, können die jeweiligen Gene beziehungsweise DNA-Sequenzen »weiterleben« und ihre Ge32
Molekulare Phylogenie
Abb.13: Genese von ungewurzelten Bäumen am Beispiel der Primaten (M = Mensch, S = Schimpanse, G = Gorilla, O = Orang-Utan und B = Gibbon). Für zwei Sequenzen (M, S) gibt es nur eine Topologie, den Zwei-Sequenzen-Baum. Auch drei Sequenzen (M, S, G) lassen sich nur in einem einzigen Baum darstellen. Vier Sequenzen ergeben drei mögliche Topologien, nämlich (M,S)(G,O), (M,O)(G,S) und (O,S)(M,G) mit jeweils fünf Kanten. Wird eine fünfte Sequenz (B) einbezogen, kann diese an jeder Kante eingefügt werden, so dass es insgesamt 15 mögliche Topologien gibt.
33
Molekulare Phylogenie
S.115
S.105
schichte an nachfolgende Generationen weitergeben. Hat ein Individuum keine Nachfahren, stirbt dessen Linie aus und mit ihr gehen alle in der DNA enthaltenen Informationen verloren. Ausgehend von einer heutigen Sequenz lassen sich daher kontinuierliche Ahnenreihen rückwärts in der Zeit konstruieren, von einer Generation zur vorherigen. Die heutigen DNA-Sequenzen sind jeweils das Produkt ihrer individuellen Ahnenreihe (»Fossile DNA«). So unterschiedlich Lebewesen auch sind, letztlich gehen sie auf einen gemeinsamen Ursprung zurück. Daher werden DNA-Sequenzen verschiedener Individuen früher oder später auf eine gemeinsame Vorfahr-Sequenz treffen. Man sagt auch, bei einer rückwärtigen Verfolgung in die Vergangenheit verschmelzen die Linien, was im Englischen durch den Begriff Coalescent ausgedrückt wird. Diese sehr abstrakt und vage anmutende Behauptung findet eine formale Rechtfertigung in der Populationsgenetik (Coalescent-Prozess). Rezente DNA-Linien verschmelzen »beim Marsch in die Vergangenheit«, bis nur noch eine DNA-Linie vorhanden ist. Das ist der jüngste gemeinsame Vorfahre aller Linien, der most recent common ancestor, kurz MRCA. In Abbildung 14 ist die Phylogenie von sechs heutigen RNA-Sequenzen Si bis S6 dargestellt. Dabei stehen Si für die Sequenz des Menschen, S2 für die Bäckerhefe, S3 für die Nacktsamer-Pflanze Gnetum, S4 für ein Halobakterium, S5 für eine Blaualge und S6 für das Bakterium Escherichia coli. Begibt man sich in dem Baum dieser sechs Taxa entgegen der Zeitachse, trifft man in der Vergangenheit (ganz links) auf den MRCA der dargestellten sechs Sequenzen. Der Prozess kann auch von der Vergangenheit in die Gegenwart betrachtet werden: Ausgehend von einem einzigen Vorfahren, dem MRCA, spalten sich die Linien im Laufe der Zeit in dessen Nachkommen auf. Dieser Vorgang wird als Divergenz bezeichnet. Im phylogenetischen Kontext heißt dies, dass sich die Nachkommen einer 34
Molekulare Phylogenie
Abb.14: Divergenz und Coalescent als komplementäre Prozesse in einem Sequenzbaum. Der Baum (links) zeigt die geschichtliche Verwandtschaft zwischen den Sequenzen: Die grünen Kreise stehen für hypothetische Vorfahr-Sequenzen. Die weißen Kreise repräsentieren Vorfahr-Sequenzen, die keine heutigen Nachfahren haben. Die sechs Sequenzen (rechts) mit einer Länge von 24 Basenpaaren (Zahlen über dem Alignement) sind ein Ausschnitt eines viel längeren Alignements mit 2335 Basenpaaren je Sequenz. Schwarz dargestellte Nukleotide weichen von dem häufigsten Nukleotid an der entsprechenden Position ab. * zeigt nicht-variable Spalten an.
gemeinsamen Stammart durch unterschiedlich verlaufende, zur Artbildung führende Entwicklung voneinander unterscheiden. Mit der Zeit werden Substitutionen, Insertionen und Deletionen die ursprüngliche Sequenz graduell verändern. Diese Änderungen werden über die Ahnenreihe an die rezenten Sequenzen weitergegeben. In einem multiplen Sequenzalignement sind sie als variable Spalten sichtbar, in Abbildung 14 sind dies zum Beispiel die Spalten 1 bis 7, 9,14,15 und weitere. 35
Molekulare Phylogenie
Abb.15a: Beispiel für vier Sequenzen mit je 11 Nukleotiden.
S.112
Die Aufgabe der molekularen Phylogenie ist es, anhand des multiplen Alignements die nicht beobachtbare Evolutionsgeschichte der Sequenzen zu rekonstruieren. Einen auf Sequenzen basierenden Baum nennen wir hier Sequenz-Baum oder Gen-Baum, auch wenn ihm keine kodierenden Sequenzen zugrunde liegen (siehe im Gegensatz dazu Ein nicht sequenzbasierter Ansatz zur Aufklärung der Phylogenie). Um unter den möglichen Bäumen einen geeigneten Baum zu ermitteln, ist die Definition eines Qualitätskriteriums notwendig. Die Mathematiker sprechen von einer Zielfunktion. Sie gibt für jeden der möglichen Bäume an, wie gut er das Kriterium erfüllt. Die Aufgabe besteht nun darin, ein Rechenschema zur Auswertung der Zielfunktion anzugeben und dann den besten Baum zu finden. Aus der Vielzahl möglicher Zielfunktionen werden drei populäre Kriterien und die dazugehörigen Methoden vorgestellt.
Maximum-Parsimonie Unter dem Gesichtspunkt einer maximalen Sparsamkeit wählt man den Baum als besten aus, der die Variabilität in einem Alignement mit der minimalen Anzahl an Substitutionen erklärt. Nach dem 36
Maximum-Parsimonie
Abb.15b: Die drei Möglichkeiten für ungewurzelte Vier-Sequenzen-Bäume. c-e: Parsimonische Interpretation für die Spalten 2, 11 und 6. Grüne Kanten zeigen Substitutionen an.
37
Molekulare Phylogenie lateinischen parsimonia für Sparsarnkeit heißt dieses Kriterium Maximum-Parsimonie-Kriterium. Maximum-Parsimonie wurde schon früh zur Baumrekonstruktion vorgeschlagen. Inzwischen gibt es zahlreiche Modifikationen des Grundalgorithmus, die aber alle mit dem Problem des Beweises der Minimalität des gefundenen Ergebnisses kämpfen. Als philosophische Rechtfertigung für das »Prinzip der Sparsamkeit« wird oft der mittelalterliche Scholastiker William of Ockham (1290-1349) herangezogen. Seiner Auffassung nach ist eine Hypothese die beste, wenn sie nur so wenig Annahmen wie möglich macht. Das (evolutionäre) Parsimonie-Prinzip geht also davon aus, dass die Evolution von einer Ursequenz mit möglichst wenig Nukleotidaustauschen zu einer heutigen Sequenz stattfand. Ob dies eine realistische Annahme über den Verlauf der Evolution ist, bleibt gerade für DNA - oder Aminosäure-Sequenzen eine unbeantwortete Frage. Möchte man sich nicht auf ideologische Vorstellungen berufen, so genügt als Begründung für das Sparsamkeitsprinzip die biologische Beobachtung, dass Substitutionen im Aligemeinen sehr seltene Ereignisse sind und es unwahrscheinlich ist, dass die gleiche Position mehrfach mutiert. Wie lässt sich die Anzahl an Substitutionen berechnen? Vereinfachend wird zunächst vorausgesetzt, dass alle Positionen im Alignement unabhängig voneinander evolvieren. Die Gesamtzahl an Substitutionen eines Baumes ist somit die Summe der Basenaustausche pro Position. Die Berechnung der Substitutionen wird zur besseren Übersichtlichkeit vorerst für nur vier Sequenzen erklärt (Abbildung 15a), für die es drei ungewurzelte Bäume gibt (Abbildung 165b). Spalte 1 und Spalte 10 sind nicht variabel, dem Parsimonie-Prinzip folgend sind diese Positionen nicht mutiert. In Spalte 2 weicht die Sequenz 1 (G) von den drei anderen Sequenzen (C) ab. Das MaximumParsimonie-Prinzip erfordert immer die kleinste Anzahl von Substitutionen. Unabhängig von der Wahl des Baumes (Abbildung 15c) gibt es nur eine Substitution (grün dargestellte Kante), wenn man an den 38
Maximum-Parsimonie
Abb.16: Das Prinzip des Neighbor-Joining für die sechs Sequenzen Si - S6 aus Abb.13. a) Die sternförmige Phylogenie als Ausgangspunkt, ›V‹ ist die hypothetische Vorfahr-Sequenz b) Gruppierungvon S5 und S6 (›A‹ als hypothetischer Vorfahr) c) Gruppierung von ›A‹ und S4 (›ß‹ als hypothetischer Vorfahr) d) Gruppierung von Si und S2 (›C‹ als hypothetischer Vorfahr)
39
Molekulare Phylogenie inneren Knoten ein C annimmt. Bei dem Maximum-Parsimonie-Prinzip sind solche Spalten phylogenetisch nicht informativ, denn sie können aufgrund der gleichen Anzahl an Substitutionen keinen Baum als den sparsamsten bestimmen. Die gleiche Situation trifft für die Spalten 3,4 und 5 zu. Setzt man an die inneren Knoten ein T (Spalte 3) beziehungsweise A (Spalten 4 und 5), ist wiederum nur jeweils ein Basenaustausch erforderlich, um das Sequenzmuster in dieser Spalte zu erklären. Auch hier hat die Baumtopologie keinen Einfluss auf die Anzahl an Substitutionen. In Spalte 11 erfordert das Sparsamkeitsprinzip für die zwei inneren Knoten jeweils ein T (Abbildung i5d). Dann werden für jeden der drei Bäume zwei Substitutionen (zwei grün dargestellte Kanten) benötigt. Daher ist auch diese Spalte phylogenetisch nicht informativ. Interessant werden erst die Spalten 6,7,8 und 9. Je nach gewählter Baumtopologie erfordern diese unterschiedlich viele Substitutionen. Diese Spalten sind somit phylogenetisch informativ. Abbildung 15c zeigt beispielhaft die Situation für Spalte 6. Man erkennt: Baum 1 benötigt eine Substitution, Baum 2 und Baum 3 brauchen jeweils zwei Substitutionen. Die Gesamtzahl an Substitutionen für das komplette Alignement mit seinen 11 Spalten in Abbildung 15a berechnet sich wie folgt: Baum 1: 0+1+1+1+1+1+1+2+2+0+2 = 11 Substitutionen Baum 2: 0+1+1+1+1+2+2+2+1+0+2 = 13 Substitutionen Baum 3: 0+1+1+1+1+2+2+1+2+O+2 = 13 Substitutionen Damit ist für das vorliegende Alignement Baum 1 der sparsamste oder der Maximum-Parsimonie-Baum. Nach diesem einfachen Beispiel mit nur vier Sequenzen soll der Maximum-Parsimonie-Baum für die sechs Sequenzen in Abbildung 14 ermittelt werden. Hierfür muss die Anzahl der Substitutionen für alle 105 möglichen Gen-Bäume berechnet werden. Dies ist nur mit Computerprogrammen möglich. Werden diese Bäume nach dem 40
Distanzbasierte Methoden Maximum-Parsimonie-Kriterium bewertet, so zeigt sich, dass die kleinste Anzahl an Substitutionen 25 ist. Davon gibt es aber fünf Bäume. Es lässt sich nun keine weitere Aussage darüber treffen, welcher dieser fünf Bäume die »wahre« Phylogenie widerspiegelt. Anders ist das Ergebnis, wenn von den sechs Sequenzen alle 2335 Basenpaare (in der Abbildung nicht gezeigt) in die Rechnung einbezogen werden. Dann gibt es nur einen einzigen Maximum-Parsimonie-Baum. Dies zeigt, dass sich die Beziehungen zwischen den Sequenzen nur verlässlich rekonstruieren lassen, wenn es viele Sequenzinformationen (lange Sequenzen mit Tausenden von Basenpaaren) gibt. Da mit der Anzahl der Sequenzen die Anzahl der Bäume exponentiell wächst, ist ein systematisches Evaluieren aller Möglichkeiten für nur zehn Sequenzen (2027025 Bäume) selbst mit sehr schnellen Computern und vertretbarem Zeitaufwand kaum noch möglich. Um dennoch sparsame Bäume für möglichst viele Sequenzen zu rekonstruieren, werden so genannte heuristische Suchverfahren eingesetzt. Dabei wird mit einem beliebigen Startbaum begonnen und die Anzahl an Substitutionen berechnet. Anschließend wird die Topologie des Startbaumes zufällig geändert und die Anzahl der Substitutionen für den neuen Baum bestimmt. Ist die Zahl kleiner, wird das Verfahren mit dem neuen Baum wiederholt. Ist die Zahl größer, wird auf den ursprünglichen Baum zurückgegriffen und dieser erneut geändert. Der kürzeste gefundene Baum wird als ParsimonieBaum bezeichnet. Mit diesem Verfahren, von dem es viele Varianten gibt, lassen sich auch für viele hundert Sequenzen ParsimonieBäume bestimmen.
Distanzbasierte Methoden Bei zwei weiteren Kriterien finden die von Joseph Louise Lagrange (1736-1813) und Carl Friedrich Gauß (1777-1855) entwickelten Me41
Molekulare Phylogenie
S.110
thoden der mathematischen Ausgleichsrechnung für Näherungswerte Eingang in die Welt der molekularen Evolution. Im Mittelpunkt stehen dabei das Gauß'sche Prinzip der kleinsten Quadrate und das von Ronald A. Fisher (1890-1962) explizit eingeführte Maximum-Likelihood-Prinzip. Auf dem Prinzip der kleinsten Quadrate beruhen Distanzverfahren. Für die Rekonstruktion eines Gen-Baumes aus einem Alignement ermitteln diese Verfahren die evolutionäre Distanz (d) der Sequenzen in einem Baum und die berechnete Distanz (e) zweier Sequenzen. Für jeden Baum bildet man von den Differenzen dieser Distanzen die Quadrate, summiert diese und fragt nach dem Baum mit der kleinsten Summe für diese Quadrate. Der optimale Baum hat die kleinste Summe. In mathematischer Schreibweise nehmen diese Überlegungen die folgende Form an: Distanzbasierte Methoden berechnen die Distanz dij (Jukes-Cantor-Modell) für alle Sequenzpaare {i,j} eines Alignements. Das Ergebnis ist eine Distanzmatrix (Tabelle 2). Aus dieser Matrix wird ein Baum rekonstruiert, der die Anzahl der Substitutionen, das heißt die Distanz zwischen allen Sequenzpaaren, wiedergibt. Was bedeutet »die Distanz zwischen allen Sequenzpaaren wiedergeben«? In einem Baum gibt es stets einen eindeutigen Weg oder Pfad, der zwei endständige Taxa, vertreten durch die Sequenzen i und j, miteinander verbindet. Auf diesem Weg hat jede Kante eine bestimmte Länge, beispielsweise die Anzahl an Substitutionen. Die Summe der Substitutionen, die evolutionäre Distanz eij eines Sequenzpaares {i,j}, sollte im Idealfall gleich der berechneten Distanz dij dieses Sequenzpaars sein. Ein Baum ist dann optimal, wenn die evolutionäre Distanz aller Sequenzpaare nur geringfügig von den Einträgen in der Distanzmatrix abweicht. Da die berechnete Distanz dij immer nur eine Annäherung an die unbekannte evolutionäre Distanz eij ist, wird der Betrag der Abweichung dy-ey fast immer größer Null sein. Eine Möglichkeit, die 42
Distanzbasierte Methoden
Tabelle 2: Distanzmatrix für die Sequenzen Si bis S6 aus Abbildung 13. Der untere Teil der Matrix zeigt die Anzahl der beobachteten Unterschiede für den in Abbildung 13 dargestellten Sequenzausschnitt von 24 Basenpaaren, der obere Teil die Anzahl der Unterschiede für das gesamte Alignement mit 2335 Positionen.
Abweichung der evolutionären Distanzen für einen Baum T von der Distanzmatrix zu quantifizieren, ist das Kriterium der kleinsten Quadrate R(T) mit
Der optimale Baum hat den kleinstmöglichen Wert R. Für drei Sequenzen gibt es nur einen Baum mit drei Kanten. Aus den Distanzen d12, d13, d23 (grüne Linien) lassen sich die optimalen Kantenlängen k1, k2, k3 (schwarze Linien) des Baumes wie folgt berechnen: k1 = 1/2 (d12 + d13 – d23) k2 = 1/2 (d12 + d23 – d13) k3 = 1/2 (d13 + d23 – d12) 43
Molekulare Phylogenie Setzt man die evolutionären Distanzen e12 = k1 + k2, e13 = k1 + k3 und e23 = k2 + k3, so wird R(T) = 0. Für vier oder mehr Sequenzen ist R(T) im Allgemeinen größer Null. Die Berechnung von R(T) für einen Baum T ist mit Methoden der mathematischen Optimierung relativ einfach. Es ist jedoch unmöglich, alle Bäume zu evaluieren und den Baum mit minimaler quadratischer Abweichung zu finden. Daher werden wie bei Maximum-Parsimonie auch bei den distanzbasierten Methoden Näherungsverfahren angewendet. Das bekannteste solcher approximativer Verfahren ist das Neighbor-Joining, was sich als »Zusammenfügen der nächsten Nachbarn« übersetzen lässt. Neighbor-Joining ist ein Clusterungs- oder Gruppierungsverfahren: Ähnliche Paare von Sequenzen werden zu einer Gruppe (einem Cluster) zusammengefasst und anschließend wie ein Taxon behandelt. Als Qualitätskriterium dient die Gesamtlänge L(T) des Baumes T. Das ist die Summe aller Kantenlängen, die mit dem Prinzip der kleinsten Quadrate geschätzt wurden. Ziel ist es, einen Baum mit möglichst kleiner Gesamtlänge L(T) zu finden. Dieses Qualitätskriterium wird Minimale Evolution genannt. Im Folgenden wird das Neighbor-Joining auf das Beispiel der sechs Sequenzen in Abbildung 15 angewandt, wobei alle 2335 Basenpaare in die Rechnung einbezogen werden. Ausgangspunkt für das Neighbor-Joining ist ein sternförmiger Gen-Baum (Abbildung 16a). Die sechs Sequenzen Si bis S6 stammen von derselben Vorfahr-Sequenz ›V‹ ab. Basierend auf der Distanzmatrix (Tabelle 2) wird anschließend am Computer die Länge aller Bäume berechnet, in denen zwei Sequenzen einen von ›V‹ verschiedenen Vorfahren haben. Aus diesen Bäumen wird der kürzeste Baum ausgewählt. In dem Beispiel in Abbildung i6b ergibt die Computerrechnung für die Gruppierung der Sequenzen S5 und S6 den kürzesten Baum. Die Sequenzen S5 und S6 sind nun Nachbarn. Ihr hypothetischer Vorfahr wird ›A‹ genannt. In der weiteren Computeranalyse wird das Cluster S5 und S6 durch ›A‹ 44
Maximum-Likelihood ersetzt. Der Datensatz für die weiteren Rechnungen verringert sich damit um eine Sequenz. Mit den verbleibenden fünf »Sequenzen« S1, S2, S3, S4, ›A‹ beginnt die Prozedur von neuem. Es wird wiederum zuerst das Cluster aus zwei Sequenzen gesucht, das den kürzesten Baum ergibt. Für die fünf Sequenzen wird der kürzeste Baum bei der Gruppierung der Sequenzen ›A‹ und S4 gefunden. Deren hypothetischer Vorfahr wird ›B‹ genannt (Abbildung 16c). Damit reduziert sich der Datensatz auf vier Einträge, nämlich S1, S2, S3, ›B‹. Im folgenden Schritt werden die Sequenzen Si und S2 gruppiert und durch ›C‹ ersetzt (Abbildung i6d). Der Baum ist damit vollständig aufgelöst und das Neighbor-Joining-Verfahren beendet. Neighbor-Joining ist ein schnelles Verfahren zur Baumrekonstruktion. Es ist möglich, bis zu 300 Sequenzen in einen Neighbor-JoiningBaum umzurechnen. Es lässt sich aber nicht überprüfen, ob der gefundene Baum der optimale Baum ist. Simulationsstudien zeigen, dass Neighbor-Joining mit großer Wahrscheinlichkeit den richtigen Baum rekonstruiert.
Maximum-Likelihood Maximum-Likelihood-Methoden versuchen, unter den möglichen Bäumen und einem Modell der Sequenzevolution den Baum zu bestimmender mit höchster Wahrscheinlichkeit zu den beobachteten Sequenzen führt. Dieser Baum wird der Maximum-LikelihoodBaum genannt. Für das zugrunde liegende Prinzip wird zunächst auf das einfache Alignement aus vier Sequenzen in Abbildung 15a und Baum 1 (Abbildung 15b) zurückgegriffen. Jede der elf Spalten wird zuerst einzeln betrachtet. Spalte 1 hat das Muster AAAA. Theoretisch kann an den inneren Knoten des Baumes 1 jeweils eines der vier Nukleotide A,C,G,T ste45
Molekulare Phylogenie
S.110
hen. Welche Kombination von Nukleotiden ist die wahrscheinlichste? Zunächst wird ein Modell der Sequenzevolution ausgewählt, etwa das Jukes-Cantor-Modell. In diesem Modell ist die Wahrscheinlichkeit P, dass ein Nukleotid x unverändert erscheint -4d/3
Pxx(d) = (1/4) + (3/4) · e
wobei d die Zahl der Substitutionen ist. Die Wahrscheinlichkeit für das Auftreten verschiedener Nukleotide x und y ist -4d/3
PXy(d) = (1/4) – (1/4) · e
.
Damit kann für Spalte 1 die Wahrscheinlichkeit (P1) für das Muster AAAA berechnet werden, wenn beide inneren Knoten jeweils das Nukleotid A tragen und der Baum i mit den Kantenlängen (Substitutionen) k1, k2, k3, k4 und k5 bekannt ist. Mathematisch heißt dies P1(AAAA|AA) = (1/4) {PAA(k1) PAA(k2) PAA(k5) PAA(k3) PAA(k4)} . Da die Nukleotide x beziehungsweise y an den inneren Knoten nicht bekannt sind, berechnet sich die gesamte Wahrscheinlichkeit für das Muster AAAA in Spalte 1 als P1 = P1(AAAA) = (1/4)
P1 (AAAA|xy)}.
Mit den verbleibenden Spalten wird genauso verfahren. Für das gesamte Alignement (A) mit seinen elf Spalten ist die totale Wahrscheinlichkeit Ptot über den Baum 1 (T1) und seinen fünf Kanten das Produkt aus den Wahrscheinlichkeiten für jede einzelne Spalte. Es gilt also Ptot (A|T1, k1, k2, k3, k4, k5) = P1 · P2 · P3 · P4 · ... · P11. In der Realität sind aber weder der Baum noch seine Kantenlängen bekannt. Einzig die Sequenzen liegen als Endprodukt der Evolution vor. Daher wird die letzte Gleichung als Wahrscheinlichkeits- oder Likelihood-Funktion mit den Parametern Baumtopologie und Kan46
Maximum-Likelihood tenlänge bezeichnet. Sie ermittelt für jede Kombination von Parametern die Cesamtwahrscheinlichkeit. Gesucht ist nun die Parameterkombination, bei der die Likelihood-Funktion maximal wird. Der in Abbildung 14 dargestellte Baum (links) ist der MaximumLikelihood-Baum für sechs Sequenzen, wenn das gesamte Alignementvon 2335 Basenpaaren zugrunde gelegt wird. Werden hingegen nur die 24 dargestellten Spalten analysiert, ist der aus dieser kleinen Anzahl resultierende Baum biologisch unsinnig. Schon dieses kleine Beispiel mit sechs Sequenzen macht deutlich, welche Herausforderung die Maximum-Likelihood-Methode darstellt. Dank schneller Computer und der Entwicklung intelligenter Suchstrategien können derzeit Maximum-Likelihood-Bäume für bis zu fünfzig Sequenzen berechnet werden. Für eine realistische Anwendung ist dies aber noch zu wenig. Der erhöhte Aufwand der Maximum-Likelihood-Methoden ist aber gerechtfertigt, da nun erstmals das methodische Inventar der Statistik für die weitere Analyse zur Verfügung steht. Der Vergleich der Maximum-Likelihood-Werte für verschiedene Modelle der Sequenzevolution erlaubt eine gesicherte Aussage darüber, welches Modell das bessere ist. Vereinfacht gilt: Je größer der Likelihood-Wert ist, desto wahrscheinlicher spiegelt das gewählte Modell für einen bestimmten Baum die Evolution der Sequenzen wider. Darüber hinaus liefern Maximum-Likelihood-Methoden wichtige Informationen über die evolutionären Parameter der Sequenzen. Sie geben zum Beispiel Antworten darauf, welche Spalten im Alignement schnell und welche langsam evolvieren oder wie groß das Transitions-Transversions-Verhältnis ist. Es wird also nicht nur ein Gen-Baum rekonstruiert, sondern zusätzlich ein Evolutionsmodell für das Alignement vorgeschlagen.
47
Molekulare Phylogenie
Experimentelle und theoretische Phylogenien Es wurden drei Verfahren zur Baumrekonstruktion vorgestellt, um aus einem Sequenzalignement einen Baum zu rekonstruieren. Die ungeklärte Frage ist jedoch, ob der rekonstruierte Baum mit der tatsächlichen Phylogenie der Sequenzen übereinstimmt. Wie in jeder naturwissenschaftlichen Disziplin gibt es zwei potentielle Fehlerquellen: Der erste Fehler ist der zufällige Fehler (random error), der auftritt, weil nur ein endliches Alignement zur Verfügung steht. Dieser Fehler kann durch die Vergrößerung der Stichprobe (längere Sequenzen) minimiert werden. Der zufällige Fehler wurde am Beispiel der sechs Sequenzen in Abbildung 14 bereits demonstriert. Nur aus hinreichend langen Sequenzen lassen sich biologisch sinnvolle Bäume rekonstruieren. Der zweite Fehler ist der systematische Fehler (systematic error). Er tritt dann auf, wenn beispielsweise das gewählte Modell der Sequenzevolution nicht mit den Daten übereinstimmt. Unabhängig von der Art des Fehlers kann ein rekonstruierter Gen-Baum falsch sein, weil die Verzweigungsstruktur (Topologie) nicht stimmt oder die Kantenlängen falsch geschätzt wurden. Solche Fehler sind in der Regel nicht aufzudecken, da das Evolutionsgeschehen und somit das Entstehen eines Gen-Baumes nicht beobachtet wird. Eine Ausnahme ist die »Sequenzevolution im Reagenzglas«. Im Labor lassen sich zum Beispiel Viren über mehrere tausend Generationen kultivieren. Durch Zugabe von Mutagenen, die künstlich die Mutationsrate erhöhen, werden experimentelle Phylogenien erzeugt. Forscher erstellten mit acht Taxa die in Abbildung 17 gezeigte Phylogenie. Um den Baum zu wurzeln, wurde ein weiteres Taxon als Außengruppe hinzugezogen (in Abbildung 17 nicht gezeigt). Für die neun Sequenzen gibt es 135135 Bäume. Die Wahrscheinlichkeit, aus diesen Tausenden von Bäumen die »wahre« Phylogenie zu erraten, ist verschwindend gering. Bei der computergestützten Rekonstruk48
Experimentelle und theoretische Phylogenien
Abb.17: Experimentelle Phylogenie des Bakteriophagen T7. Acht Taxa (1-8) des Bakteriophagen T7 wurden im Labor gezüchtet. Die Mutationsraten wurden künstlich erhöht. Die Wurzel des Baumes W repräsentiert den Wildtyp, von dem die Experimente ausgehen. Die Kantenlängen sind proportional zur Anzahl der Substitutionen (Zahlen an den Kanten). Um den Baum zu wurzeln, wurde in die Rechnung eine Außengruppe hinzugezogen, die aber nicht dargestellt ist.
tion der Phylogenie ermittelten zwar alle Verfahren die richtige Topologie, aber keine Methode bestimmte die richtigen Kantenlängen. Dies zeigt, dass auch bei realen, biologischen Daten die Kantenlängen möglicherweise einem gewissen Fehler unterworfen sind. Da das Erstellen experimenteller Phylogenien sehr aufwändig ist, wird die Verlässlichkeit der Baumrekonstruktionsverfahren auch anhand theoretischer Phylogenien überprüft. Dabei wird ein GenBaum vorgegeben, für den dann die Sequenzevolution auf dem Computer simuliert wird. Das Ergebnis dieser »künstlichen Evolution« ist ein simuliertes Sequenzalignement, das anschließend mit verschie49
Molekulare Phylogenie denen Methoden der Baumrekonstruktion untersucht wird. Somit lassen sich unterschiedliche Evolutionsszenarien für verschiedene Baumrekonstruktionsverfahren evaluieren. Hierbei treten Unterschiede in der Verlässlichkeit der einzelnen Methoden für die Baumrekonstruktion zutage. Mit der Untersuchung theoretischer Phylogenien gelang dem amerikanischen Wissenschaftler Joe Felsenstein eine sehr bedeutende Entdeckung. Sie heißt heute nach ihrem Entdecker die Felsensteinzone. Diese Zone kennzeichnet den Bereich, in dem Methoden zur Baumrekonstruktion einen systematischen Fehler aufweisen, wobei die Ausdehnung und Lage der Zone von der jeweiligen Methode abhängen. Abbildung 18c zeigt eine solche Felsensteinzone für das Maximum-Parsimonie-Prinzip. Wie kommt die dort dargestellte Zone zustande und welche Aussage macht sie? Dem Computer werden folgende Informationen vorgegeben (Abbildung i8a): eine theoretische Phylogenie mit den vier Taxa 1 bis 4 und eine Kombination von zwei Kantenlängen (k1 und k2). Die innere Kante des Baumes sowie die Kanten zu den Sequenzen 2 und 4 sind dabei gleich lang (k1), ebenso die Kantenlängen der Sequenzen 1 und 3 (k2). Für die zwei Kantenlängen k1 und k2 wird ein k1-k2-Diagramm erstellt. Dann wird am Computer die Sequenzevolution simuliert, wobei jede Kombination der Kantenlängen (k1, k2) erlaubt ist. Um den zufälligen Fehler der Baumrekonstruktion klein zu halten, sind die simulierten Sequenzen möglichst lang. Anschließend wird aus diesem Alignement der Maximum-Parsimonie-Baum berechnet (zum Beispiel Abbildung 18b) und mit der theoretischen Phylogenie (Abbildungi8a) verglichen.Sind die Bäume verschieden,wird im Diagramm für das zugehörige k1-k2-Wertepaar ein grüner Punkt eingetragen. Stimmen sie überein, wird kein Punkt eingetragen. Die Simulationen werden Tausende Male wiederholt. Die Menge aller grünen Punkte im k1-k2-Diagramm ergibt die Felsensteinzone. 50
Experimentelle und theoretische Phylogenien
Abb.18: Die Felsensteinzone a) Eine theoretische Phylogenie mit vier Taxa (1-4) und zwei unterschiedlichen Kantenlängen (k1 und k2) b) Rekonstruierter Maximum-Parsimonie-Baum, basierend auf einem simulierten Sequenzalignement. c) Der Parameterraum der Kantenlängen k1 und k2. Die grün schattierte Region ist die Felsensteinzone, in der ein falscher Baum rekonstruiert wird.
Diese Zone kennzeichnet die Region im theoretischen Raum aller Kantenlängen eines Baumes, in der Maximum-Parsimonie einen systematischen Fehler aufweist. Ist k2 deutlich größer als k1, so wird der in Abbildung i8b dargestellte Baum rekonstruiert werden. Das heißt, Sequenzen mit hoher Substitutionsrate werden zu einem Cluster zusammengefasst. Dieses Phänomen wird als »Anziehungskraft zwischen langen Kanten« (long-branch-attraction) bezeichnet. Felsensteinzonen, also systematische Fehler, gibt es bei jeder Methode zur Baumrekonstruktion. Für distanzbasierte Rekonstruk51
Molekulare Phylogenie tionsverfahren ist bekannt, dass sie bei mangelnder Korrektur für multiple Substitutionen fehlerhaft werden. Es bleibt eine spannende Frage der molekularen Evolutionstheorie, die Felsensteinzone auch für andere Methoden zu charakterisieren. Auch in biologischen Daten gibt es aufgrund der »Anziehungskraft zwischen langen Kanten« Hinweise auf falsch rekonstruierte Bäume. Ein gut untersuchtes Beispiel ist der Stammbaum der Säugetiere (Sau), Vögel (Vö), Krokodile (Kr) und Eidechsen (Ei). Morphologische Befunde liefern eindeutige Hinweise, dass Vögel und Krokodile eine monophyletische Gruppe bilden, die Archosaurier (grün hinterlegt in Tabelle 3) hingegen werden im Maximum-Parsimonie-Baum der 18S rRNA-Sequenzen Vögel mit den Säugetieren in eine Schwestergruppe eingeteilt. In Tabelle 3 sind in der linken Spalte und der obersten Zeile die drei möglichen Phylogenien für die vier Arten vorgegeben, wobei die Kantenlängen kt und k2 in allen Bäumen gleich bleiben. Die klassische Phylogenie ((Vö,Kr) (Säu,Ei)) ist grün unterlegt. Für jeden der drei theoretisch möglichen Bäume (linke Spalte) werden Tausende von Sequenzalignements simuliert und mit der Maximum-Parsimonie-Methode die Baumtopologie rekonstruiert (oberste Zeile). In den fett markierten Kästchen stimmen die theoretische und rekonstruierte Topologie überein. Die erste vorgegebene (theoretische) Topologie ((Kr,Ei) (Vö,Säu)) wird zu 100% von den simulierten Daten rekonstruiert, daher werden die anderen zwei Topologien ((Vö,Ei) (Säu,Kr)) und ((Vö,Kr) (Säu, Ei)) niemals gefunden. Die zweite vorgegebene Topologie wird mit Maximum-Parsimonie nur in 15% der Fälle richtig rekonstruiert, während in 80% der Fälle der Baum rekonstruiert wird, bei dem die zwei langen Kanten (Vö und Säu) zusammenlaufen. Die dritte vorgegebene Topologie (die klassische Phylogenie) wird sogar nur in 7,5 von hundert Fällen gefunden, die (Vö,Säu)-Topologie macht 85% aller Fälle aus. 52
Experimentelle und theoretische Phylogenien
Abb.19: Gen-Bäume in Spezies-Bäumen. Die Entwicklung eines Gen-Baums (grün) findet innerhalb eines Spezies-Baums (schwarz) statt.
Unabhängig von der vorgegebenen (theoretischen) Phylogenie rekonstruiert Maximum-Parsimonie mit hoher Wahrscheinlichkeit den Baum ((Krokodile, Eidechsen) (Vögel, Säugetiere)). Eine mögliche Erklärung für diese Diskrepanz liefert die Felsensteinzone. Der Maximum-Parsimonie-Baum, basierend auf 18S rRNA-Sequenzen, hat zwei lange Kanten (Tabelle 3). Eine Kante führt zu den Vögeln, die zweite zu den Säugetieren. Krokodile und Eidechsen befinden sich an kurzen Kanten und sind nur durch eine kurze, innere Kante von 53
Molekulare Phylogenie
Tabelle 3: Drei mögliche Stammbäume für Vögel (Vö), Säugetiere (Säu), Eidechsen (Ei) und Krokodile (Kr). Die linke Spalte zeigt die vorgegebenen, theoretischen Phylogenien. Die oberste Zeile zeigt die mit Maximum-Parsimonie rekonstruierten Topologien, basierend auf simulierten Sequenzalignements. Die Prozentzahlen geben an, wie oft die vorgegebene Baumtopologie im simulierten Alignement gefunden wurde. Grün unterlegt ist die klassische Phylogenie. Die Kantenlängen sind proportional zur Zahl der Substitutionen und basieren auf 18S rRNA-Sequenzen.
Säugetieren und Vögeln getrennt (siehe Abbildung 18). So sehen typischerweise Bäume aus, deren Topologie durch long-branchattraction geprägt wurde. Mit Maximum-Parsimonie-Methoden rutscht die Baumrekonstruktion in die Felsensteinzone, das heißt die langen Kanten werden als Cluster erkannt, sie ziehen sich an. Die verwandtschaftlichen Beziehungen zwischen den vier Gruppen lassen sich daher anhand der vorliegenden Daten nicht klären. 54
Der Bootstrap Welche Auswege gibt es aus der Felsensteinzone? Zum einen ist es hilfreich, weitere Arten in die Analyse aufzunehmen, um die langen Kanten aufzubrechen. Zum anderen sollten zusätzliche Bereiche des Genoms sequenziert werden. Dieses Beispiel zeigt, dass Einzelergebnisse durchaus fehlerhaft sein können und nicht jede am Computer berechnete Phylogenie zwangsläufig die »wahre« Evolution widerspiegelt. Daher ist es auch bei molekularen Merkmalen wichtig, mehrere Gene oder Sequenzen zu analysieren und die Ergebnisse mit den Befunden aus der Morphologie oder Verhaltensbiologie abzugleichen.
Der Bootstrap Die phylogenetische Analyse des Datensatzes aus Abbildung 14 hat gezeigt, dass die Stichprobengröße, also die Länge eines Sequenzalignements, wesentlich für die verlässliche Rekonstruktion eines Gen-Baumes ist. Die Frage stellt sich, wie gut der rekonstruierte Baum die Verwandtschaftsverhältnisse wiedergibt. Wenn die Sequenzen lang genug sind, sollte im Prinzip der wahre Baum rekonstruiert werden. Was kann getan werden, um den stochastischen Fehler aufgrund der Stichprobengröße in einer Phylogenie abzuschätzen? Eine Möglichkeit besteht darin, mehrere Stichproben aus der Gruppe, an deren Phylogenie man interessiert ist, zu analysieren und die resultierenden Gen-Bäume zu vergleichen. Die Variation in der Kollektion der Bäume liefert dann Informationen darüber, wie stabil beispielsweise eine bestimmte phylogenetische Gruppierung (Cluster) ist. Da die Bearbeitung vieler Stichproben in der Regel sehr teuer und zeitaufwändig ist, werden heute so genannte BootstrapVerfahren aus der Statistik angewendet, um den Stichprobenfehler abzuschätzen. Beim Bootstrap wird eine zufällige Stichprobe durch wiederholtes Ziehen mit Zurücklegen aus den bereits erhobenen Daten generiert. Dabei entstehen zahlreiche künstliche Stichproben, 55
Molekulare Phylogenie die Pseudoreplikate genannt werden. In der phylogenetischen Analyse werden aus einem multiplen Sequenzalignement (zum Beispiel Abbildung 7 und Abbildung 14) zufällig Spalten ausgewählt, die beim nachfolgenden Ziehen einer weiteren Spalte erneut zur Verfügung stehen. Diese Prozedur wird so lange wiederholt, bis die ursprüngliche Länge des Alignements erreicht ist. Für dieses Pseudoreplikat wird dann ein Gen-Baum ermittelt. Typischerweise werden auf diese Weise 1000 bis 10000 Gen-Bäume bestimmt. Kommt ein Cluster in allen Gen-Bäumen vor, so sagt man, die Gruppierung hat einen Bootstrap-Wert von 100%; das heißt der Stichprobenfehler ist anscheinend so klein, dass die rekonstruierte Gruppierung die wahre Phylogenie der entsprechenden Taxa widerspiegelt. Cluster, die einen geringeren Bootstrap-Wert haben, typischerweise < 90%, werden durch die Daten nicht sehr stark gestützt und bedürfen einer weiteren Analyse durch zusätzliche Sequenzen. Liegt der Bootstrap-Wert eines Clusters unter 50%, so kann es zu widersprüchlichen Verwandtschaftsbeziehungen im Baum kommen. Solche Gruppierungen sind dann in einem Gen-Baum mit äußerster Vorsicht zu interpretieren.
5 GEN-BÄUME IN DER PHYLOGENIE Gen-Bäume in Spezies-Bäumen In einem biologischen Stammbaum soll die Aufspaltung von Arten (lateinisch spezies) nachgezeichnet werden. Die Artbildung wird in der Biologie als Phylogenese bezeichnet. »Phylogenese ist die wiederholte Aufspaltung von Populationen durch irreversible genetische Divergenz und der daraus resultierende Prozess der Entstehung von Organismengruppen unterschiedlichen Verwandtschaftsgrades.« Stammbäume werden daher auch Spezies-Bäume genannt. Ein Spezies-Baum zeigt somit die zeitliche Abfolge der Aufspaltungs-
Gen-Bäume in Spezies-Bäumen
Abb.20: Widersprüchliche Säugetier-Phylogenien: a) klassischer Spezies-Baum, b) Gen-Baum basierend auf komplett sequenzierten Mitochondriengenomen.
ereignisse zwischen verschiedenen Populationen oder Arten. Im Gegensatz dazu zeichnet ein Gen-Baum nur die Historie eines Gens oder eines DNA-Abschnitts nach. Dabei wird in der Fortpflanzungsgemeinschaft die Weitergabe des Sequenzabschnitts von einem Individuum auf das nächste rekonstruiert. Der Gen-Baum entwickelt sich gewissermaßen im Spezies-Baum (Abbildung 19) und sollte im Idealfall die Abfolge der Aufspaltungsereignisse für verschiedene Arten wiedergeben. In den letzten Jahrzehnten wurden zahlreiche Gen-Bäume erstellt. Die Analyse einzelner Gen-Bäume führte mitunter zu sehr überraschenden Ergebnissen, die nicht immer mit den klassischen SpeziesBäumen übereinstimmen. Ein prominentes Beispiel sind die verwandtschaftlichen Beziehungen zwischen den Säugetieren. Dazu zählen die Kloakentiere (Schnabeltier und Schnabeligel), die Beuteltiere und die höheren Säugetiere mit echter Plazenta (Eutheria). Die klassische Phylogenie nimmt an, dass die Beuteltiere die nächsten Verwandten der höheren Säugetiere sind; die Kloakentiere hätten sich demzufolge vorher abgespaltet (Abbildung 20a). Anhand der 57
Gen-Bäume in der Phylogenie vollständig sequenzierten, mitochondrialen DNA wurde ein alternativer Gen-Baum vorgeschlagen (Abbildung 20b). Der Gen-Baum zeigt, dass Beuteltiere und Kloakentiere eine Schwestergruppe bilden. Entgegen der klassischen Lehre wären demzufolge die Beuteltiere nicht näher mit den höheren Säugetieren verwandt. Noch mehr Verwirrung erzeugten die unterschiedlichen Möglichkeiten für einen Gen-Baum von Mensch, Schimpanse und Gorilla (Abbildung 21). Die Analyse von 45 unabhängigen Genen ergab drei Gen-Bäume und damit drei Möglichkeiten für Schwestergruppen. Im Ergebnis von 27 Genanalysen (60%) gehören Mensch und Schimpanse zweifelsfrei einer Schwestergruppe an (Abbildung 21a). Die alternativen Schwestergruppierungen Schimpanse und Gorilla respektive Mensch und Gorilla werden nur von jeweils neun Gen-Bäumen (20%) unterstützt, die aber ebenfalls hohe Bootstrap-Werte erhalten. Wie lassen sich diese unterschiedlichen Ergebnisse für die drei Gen-Bäume von Mensch, Schimpanse und Gorilla erklären?
Widersprüche zwischen Gen-Bäumen und Spezies-Bäumen Abbildung 22 zeigt in grüner Farbe die drei möglichen Gen-Bäume, die in dem Spezies-Baum ((Mensch, Schimpanse) Gorilla) vorkommen können. Für jeden Drei-Spezies-Baum sind zwei Aufspaltungsoder Artbildungsprozesse notwendig. In dem hier vorgestellten Beispiel gehen Paläontologen davon aus, dass sich der Gorilla in einem 1. Artbildungsprozess vor ca. 7-8 Millionen Jahren von der gemeinsamen Stammart (Mensch-Schimpanse-Gorilla) abspaltete. Der 2. Aufspaltungsprozess fand vor ca. 5-6 Millionen Jahren statt. Das bedeutet, dass die Zeit zwischen dem ersten und zweiten Aufspaltungsereignis nur sehr kurz war und die gemeinsame Stammart von Mensch und Schimpanse nur schätzungsweise 1-3 Millionen Jahre existierte. 58
Widersprüche zwischen Gen-Bäumen und Spezies-Bäumen
Abb.2i: Die drei Gen-Bäume von Mensch, Schimpanse und Gorilla. Die Zahlen geben an, wie oft das jeweilige Verzweigungsmuster unterstützt wird.
Werden nun die drei Gen-Bäume betrachtet, ergibt sich folgendes Bild: Im ersten Szenario (Abbildung 22a) verschmelzen die Sequenzen von Mensch und Schimpanse bei einer rückwärtigen Betrachtung in die Vergangenheit zeitgleich mit dem 2. Aufspaltungsereignis. Die gemeinsame Linie von Mensch und Schimpanse existierte in ihrer Stammart M-S so lange, bis sie mit der Gorilla-Linie zum Zeitpunkt des i. Aufspaltungsereignisses verschmolz. Zum Zeitpunkt U existierten sowohl im Spezies-Baum als auch im Gen-Baum nur zwei Arten beziehungsweise Linien, die eine in der Stammart von Mensch und Schimpanse (M-S) und die zweite im Gorilla. In dieser Situation stimmen die Topologien von Gen-Baum und Spezies-Baum überein. Die Stammart von Mensch und Schimpanse (M-S) existierte aber nur kurze Zeit. Es kann vorkommen, dass die Sequenzen beider Arten nicht verschmelzen. Diese Möglichkeit ist in den Bildern b und c dargestellt. Zum Zeitpunkt t1 existierten formal bereits zwei Spezies, 59
Gen-Bäume in der Phylogenie nämlich die Stammart Mensch und Schimpanse (M-S) und der Gorilla. Im Gen-Baum sind aber noch alle drei Linien vorhanden. In einer solchen Situation entscheidet allein der Zufall, welches SequenzPaar zuerst verschmilzt und somit die Schwestergruppen definiert. Es können zuerst die Linien von Schimpanse und Gorilla verschmelzen, aber ebenso können die Linien von Mensch und Gorilla zuerst verschmelzen. In beiden Fällen weicht der Gen-Baum vom SpeziesBaum ab. Der Zeitpunkt der Verschmelzung von Linien, das Coalescent-Ereignis, ist für jedes Gen unterschiedlich und kann weit in der Vergangenheit liegen. Die Stammart von Mensch und Schimpanse (M-S) kann eine oder zwei Linien enthalten, während in der Stammart von Mensch, Schimpanse und Gorilla (M-S-G) entweder eine, zwei oder noch alle drei Linien vorhanden sein können. In der Fachsprache wird hierfür der Begriff lineage sorting (Sortierung der Linien) verwendet. Ist die Anzahl der Linien zu jedem Zeitpunkt identisch mit der Anzahl der Arten (wie in Abbildung 22a), gibt es keine Diskrepanz zwischen dem Gen-Baum und dem SpeziesBaum. Man sagt, dass die Linien »aussortiert« sind. Ist im Gegensatz dazu, wie in Abbildung 22b und c, die Anzahl der Linien an einem bestimmten Zeitpunkt größer als die Anzahl an Arten, ist die Sortierung der Linien noch nicht abgeschlossen. Man sagt, dass das »Lineage Sorting« unvollständig ist. Zum Zeitpunkt t, existieren jeweils drei Linien, aber nur zwei Arten, nämlich die Stammart MenschSchimpanse (M-S) und der Gorilla. Abb.22: Der Spezies-Baum für Mensch, Schimpanse und Gorilla (schwarz) mit den drei möglichen Gen-Bäumen (grün). Gezeigt sind das Alter der zwei Aufspaltungsereignisse (gestrichelte Linie) in Millionen Jahren, die gemeinsame Stammart (M-S) von Mensch und Schimpanse zum Zeitpunkt t1 sowie die gemeinsame Stammart (M-S-G) von Mensch, Schimpanse und Gorilla. a) Der Gen-Baum von Mensch (M), Schimpanse (S) und Gorilla (G) ist identisch zum Spezies-Baum, b) und c) Die Gen-Bäume sind verschieden vom Spezies-Baum und kommen mit gleicher Wahrscheinlichkeit vor (siehe Abb. 21).
60
Widersprüche zwischen Gen-Bäumen und Spezies-Bäumen
61
Gen-Bäume in der Phylogenie
Abb.23: Einfluss einer Gen-Duplikation auf den Gen-Baum von Mensch und Schimpanse. Die Verdopplung des Gens o erzeugt zwei Kopien, das Gen a und das Gen b. Bei späterer Speziation enthalten Mensch und Schimpanse je ein Set der Gene a und b. Der Spezies-Baum von Mensch und Schimpanse enthält zwei GenBäume, einen vom Gen a (grau) und einen zweiten vom Gen b (grün).
Dieses kleine Beispiel mit drei Arten zeigt bereits, dass es zu einem Spezies-Baum mehr als einen Gen-Baum geben kann. Anders ausgedrückt bedeutet dies, dass es in der Molekularen Evolution keine »Ein-Spezies-Baum-Ein-Gen-Baum«-Beziehung gibt. Widersprüche sind im Besonderen dann zu erwarten, wenn die Aufspaltungsereignisse zwischen zwei oder mehreren Arten in relativ kurzer Zeit abliefen. Prinzipiell gilt, dass bei der Rekonstruktion von Gen-Bäumen mehrere unabhängige Gene oder DNA-Sequenzen analysiert werden sollten. Dies ist dann besonders wichtig, wenn es Unstimmigkeiten zwischen der klassischen Phylogenie und den molekularen Befunden gibt. 62
Auswirkungen von Gen-Duplikationen auf Gen-Bäumen
Auswirkungen von Gen-Duplikationen auf Gen-Bäume Ist im Verlauf der Evolution ein Gen verdoppelt (dupliziert) worden, kann dies ebenfalls zu einer Diskrepanz zwischen Gen-Baum und Spezies-Baum führen. Das grundsätzliche Phänomen wird in Abbildung 23 veranschaulicht, in der wieder das Beispiel Mensch-Schimpanse herangezogen wird. In der gemeinsamen Stammart von Mensch und Schimpanse (M-S) wird das vorhandene Gen 0 dupliziert, es entstehen zwei Kopien (Gen a und Gen b). Diese können im Verlaufe der Evolution in ganz unterschiedlichen Regionen des Genoms fixiert werden und sich zusätzlich in ihrer Funktion deutlich voneinander unterscheiden. Spaltet sich die Stammart M-S in Mensch und Schimpanse, so erhält jede Art jeweils ein Set der verdoppelten Gene. Im Menschen nennen wir sie aM und bM, im Schimpansen aS und bS. In dem resultierenden Spezies-Baum von Mensch und Schimpanse gibt es zwei Gen-Bäume, einen für das Gen a (grau) und einen zweiten für das Gen b (grün). Zur Unterscheidung der relativen Beziehungen zwischen den originalen und kopierten Genen werden in der molekularen Evolutionsbiologie die Fachausdrücke homolog, ortholog und paralog verwendet. Homologe Sequenzen ähneln sich in ihrem Aufbau und ihrer Struktur (griechisch homos = gleichartig, entsprechend). Obwohl seit der Duplikation des Vorfahr-Gens 0 viel Zeit vergangen ist, lassen sich noch Gemeinsamkeiten zwischen den vier Genen UM, as, bM und Verkennen. Orthologe Sequenzen haben den gleichen Ursprung (griechisch orthos = richtig). Die Gene aM und aS gehen auf das gemeinsame Vorfahren-Gen a zurück, die Gene bM und bS auf das Vorfahren-Gen b. Dementsprechend sind die Gen-Pärchen (aM, aS) und (bM, bS) ortho63
Gen-Bäume in der Phylogenie log zueinander. Wird der Gen-Baum anhand orthologer Sequenzen rekonstruiert, ist er in diesem Beispiel mit dem Spezies-Baum identisch. Paraloge Sequenzen haben keinen gemeinsamen Ursprung (griechisch para = abweichend). In Abbildung 23 gilt dies für die Kombination der Gene aM und bS sowie für die der Gene bM und aS . Wenn die untersuchten Gene bekannt sind, mag es trivial erscheinen, paraloge Sequenzen zu erkennen. In der Forschung ist die Funktion der untersuchten Gene oft nicht bekannt, und dann können die Ähnlichkeiten ihrer Sequenzen dazu führen, dass fälschlicherweise ein gemeinsamer Ursprung angenommen wird. Bleibt die Paralogie unerkannt, kann der rekonstruierte Gen-Baum vom Spezies-Baum abweichen. Ein Ausweg besteht darin, nur solche Gene zu analysieren, die in einfacher Kopie vorliegen (single-copy Gene). Soll zum Beispiel untersucht werden, ob ein menschliches Gen in einfacher oder mehrfacher Kopie vorliegt, kann in der Datenbank des kompletten menschlichen Genoms nach homologen Sequenzen gesucht werden. Findet sich im gesamten Genom keine ähnliche Sequenz, so liegt das Gen wahrscheinlich in einfacher Kopie vor. Die Situation verkompliziert sich, wenn Gene nach ihrer Duplikation wieder verloren gehen (Deletionen). Es besteht dann kaum eine Chance, dass die Orthologie beziehungsweise Paralogie von Sequenzen erkannt wird.
Gen-Duplikationen als Motor der physiologischen Feinabstimmung Das Wissen um Gen-Duplikationen ist zum einen wichtig für die korrekte Rekonstruktion von Stammbäumen. Andererseits offenbaren Gen-Duplikationen faszinierende Einsichten in die Dynamik der molekularen Evolution. Mit der Duplikation eines Gens gehen oft Änderungen der Funktion sowie vielfache Spezialisierungen in einer oder sogar in beiden Kopien einher. 64
Gen-Duplikationen als Motor der physiologischen Feinabstimmung In der Proteinfamilie der Globin-Gene ist dieses Phänomen sehr gut studiert (Abbildung 24).GIobine sind für den Sauerstoff-Haushalt im Organismus verantwortlich. Bereits vor 600-800 Millionen Jahren wurde das »Ur-Globin-Gen« dupliziert. Die verdoppelten Gene differenzierten sich zum Myoglobin und zur Familie der »Ur«-Hämoglobine. Das Myoglobin-Gen befindet sich beim Menschen auf dem Chromosom 22. Es reguliert die Speicherung des Sauerstoffs in den Muskeln. Vor 450-500 Millionen Jahren bildeten sich durch Duplikation des »Ur«-Hämoglobins die Familie der D-Globine und der E-Globine. Das Hämoglobin ist verantwortlich für den Transport des Sauerstoffs im Blut. Die Familie der D-Globine, die beim Menschen auf dem Chromosom 16 liegt, besteht aus den vier funktionellen Genen -, D1, D2 und T1 sowie drei Pseudogenen (<-,
Gen-Bäume in der Phylogenie An diesem Beispiel wird deutlich, dass Gen-Duplikationen dem unterschiedlichen Sauerstoffbedarf in der Entwicklung des menschlichen Organismus bereits auf molekularer Ebene Rechnung tragen. Gen-Duplikationen können also zu einer erstaunlichen Feinabstimmung in der Physiologie beitragen. Inzwischen ist die Evolutionsgeschichte weiterer Gen-Familien rekonstruiert worden, wie beispielsweise die der Homöobox- (Hox-) Gene. Sie steuern die embryonale Segmentierung des Körpers entlang der Kopf-Schwanz-Achse. Zu den bemerkenswertesten Ergebnissen der Forschung der letzten Jahre gehörte es, dass Hox-Gene bei fast allen Tieren einschließlich des Menschen und sogar bei Pflanzen zu finden sind. Es stellte sich sogar heraus, dass Fliegen, denen das für die Entstehung des Auges verantwortliche homöotische Gen einer Maus eingepflanzt wurde, ein zusätzliches Facettenauge entwickelten. Offenbar sind die Gene, welche die Entwicklung der Augen einleiten, bei Säugetieren und Insekten sehr ähnlich. In naher Zukunft sind auf diesem Sektor noch viele spannende Ergebnisse zu erwarten, die unser Verständnis über das molekulare Evolutionsgeschehen erweitern werden.
6 GEN-BÄUME IN POPULATIONEN Gen-Bäume sind auch für die Aufklärung der Verwandtschaftsverhältnisse zwischen den Individuen einer Art beziehungsweise Population von großer Bedeutung. Das Aufstellen solcher Bäume öffnet ein völlig neues Feld für die Erforschung der molekularen Evolutionstheorie. Das Paradebeispiel sind die Ergebnisse der Untersuchungen zur jüngeren Geschichte des modernen Menschen. Anhand von DNA-Sequenzen konnten Wissenschaftler die Geschichte des modernen Menschen neu interpretieren. Abb.24: Gen-Baum der menschlichen Globin-Gene. Grüne Kreise symbolisieren jeweils eine Gen-Duplikation; Datierung in Millionen Jahren.
66
Gen-Bäume in Populationen
67
Gen-Bäume in Populationen
Rekonstruktion der Populationsgeschichte anhand von DNA-Sequenzen Die Geschichte einer Population wird anhand der Sequenzen einer Stichprobe von zufällig ausgewählten Individuen untersucht. Dafür werden bevorzugt die variablen Regionen des Genoms untersucht, denn nur hier gibt es überhaupt eine Chance, dass sich die Sequenzen zwischen den Individuen einer Population unterscheiden. Für die Populationsgeschichte des Menschen und anderer Tierpopulationen wird dafür bevorzugt die Kontrollregion des Mitochondrien-Genoms analysiert. Aus dem resultierenden Sequenzalignement wird mit den in Kapitel 4 dargestellten Methoden ein Gen-Baum berechnet. Im Unterschied zu einem phylogenetischen Datensatz sind die Sequenzen zwischen den Individuen eines Populations-Alignements entweder sehr ähnlich oder häufig sogar identisch (Abbildung 25b). Daher braucht man keine komplizierten Methoden wie MaximumLikelihood oder distanzbasierte Methoden, um multiple Substitutionen im Alignement zu korrigieren. Maximum-Parsimonie reicht aus, um den Gen-Baum zu bestimmen. Ein Beispiel soll dies veranschaulichen. Gegeben sei eine über die Zeit konstante Population. Aus der heutigen Generation werden zufällig acht Individuen, A bis H, ausgewählt und für jedes Individuum die gleiche Region im Genom sequenziert. Die Analyse der Sequenzen ergibt folgendes Bild (Abbildung 25a): Die Sequenz S1 wurde in den drei Individuen A, B und C gefunden. Die Sequenz S2 war in den zwei Individuen G und H präsent, während die drei verbleibenden Sequenzen S3, S4 und S5 nur in jeweils einem Individuum vorkommen. Für die Rekonstruktion des Gen-Baums (Abbildung 25b) ist nur die Anzahl der unterschiedlichen Sequenzen relevant; für das Beispiel also die fünf Sequenzen S1 bis S5. Die Häufigkeit der einzelnen Sequenzen wird im Gen-Baum vernachlässigt, oder wie in Abbildung 68
Rekonstruktion der Populationsgeschichte
Abb.25a: Sequenz-Alignement einer Stichprobe von acht Individuen (A-H).
Abb.25b: Maximum-Parsimonie-Baum der fünf unterschiedlichen Sequenzen S1 bis S5. Insgesamt sind fünf Mutationen, m1 bis m5, für die Rekonstruktion notwendig. Der kleine weiße Kreis zeigt eine in der Population nicht gefundene Sequenz an.
25b lediglich durch die Größe der Knoten symbolisiert. Wie oft eine Sequenz in einer Stichprobe gefunden wurde, liefert aber wichtige Informationen über die genetische Vielfalt innerhalb der Population. Die Verzweigungsstruktur des Gen-Baums spiegelt die verwandtschaftlichen Beziehungen zwischen den unterschiedlichen Sequen69
Gen-Bäume in Populationen zen wider. Insgesamt sind fünf Mutationen (m1 bis m5) nötig, um die Variabilität im Sequenz-Alignement zu erklären. Die Sequenzen S2 und S3 stehen im Gen-Baum an inneren Knoten (Abbildung 25b). Sie sind damit »gleichzeitig« rezente Sequenzen (die in der heutigen Population vorkommen) als auch Vorfahr-Sequenzen für die anderen Individuen. Diese Doppelfunktion einer Sequenz als Vorfahr-Sequenz und als rezente Sequenz ist typisch für die Analyse populationsgenetischer Datensätze. Die Individuen mit einer identischen Sequenz, nämlich A, B und C (Si) sowie G und H (S2) sind in jeweils einem Knoten vereinigt. Die Verwandtschaftsstruktur zwischen den Individuen innerhalb eines Knotens lässt sich mit dem bisherigen Methoden besteck nicht aufklären. Um etwas über die Geschichte einer Population auszusagen, sind wiederum statistische Methoden notwendig.
Die Genealogie einer Stichprobe
S.103
S.105
Der Gen-Baum in Abbildung 25b zeigt die verwandtschaftlichen Beziehungen zwischen den fünf Sequenzen Si bis S5. Wie kann die Verwandtschaftsstruktur zwischen den Individuen bestimmt werden? Wo liegt die Wurzel des Gen-Baums, also der jüngste gemeinsame Vorfahre (MRCA) der Stichprobe und wann lebte er? Diese Fragen werden bei der phylogenetischen Rekonstruktion durch das Hinzuziehen einer Außengruppe beziehungsweise durch die molekulare Uhr beantwortet. In einer Population mit vielen Sequenzen muss der Prozess der Vorfahrenfindung am Computer modelliert werden (Coalescent-Prozess). Die resultierenden Bäume heißen Genealogien, abgeleitet von dem griechischen Wort genealogia für Geburt beziehungsweise Abstammung. Im Gegensatz zur genbasierten Stammbaumrekonstruktion sind in einer Genealogie weder das Verzweigungsmuster noch die Kantenlängen feste Größen. Es wird angenommen, dass die Genealogie im Verlauf der Evolution 70
Die Genealogie einer Stichprobe
Abb.26: Drei mögliche Genealogien für die Individuen A, B und C.
zufällig entstanden ist. Was heißt dies für das Beispiel in Abbildung 25? Die Individuen A, B und C haben die gleiche Sequenz S1. Abbildung 26 zeigt die drei gleichwahrscheinlichen Topologien ((A, B) C), ((A, C) B), (A (B, C)). Darin sind die Verzweigungsmuster und die Zeitpunkte, an denen die Sequenzen ihren jüngsten gemeinsamen Vorfahren finden, unterschiedlich. Die Zeit kann in der Anzahl der Generationen gemessen werden. Für die acht untersuchten Individuen A bis H aus der konstanten Population zeigt Abbildung 27 eine mögliche Genealogie. Jedes Individuum ist durch einen Kreis dargestellt, jede Zeile repräsentiert die Individuen beziehungsweise Gene einer Generation. Der Zeitpfeil läuft von der Vergangenheit in die Gegenwart und ist ein Maß für die Anzahl an Generationen. Die hypothetischen Zeitpunkte für das Auftreten der fünf Mutationen m1 bis m5 sind eingezeichnet. Der weiße Kreis an der Basis der Genealogie zeigt den jüngsten gemeinsamen Vorfahren aller acht Sequenzen. Wie für die phylogenetischen 71
Gen-Bäume in Populationen Bäume gilt auch bei den Genealogien, dass die Anzahl der Bäume mit der Anzahl der Individuen exponentiell ansteigt.
Wann lebte der jüngste Vorfahre der menschlichen Population?
S.105
In Abbildung 27 wird ein weiteres Phänomen deutlich: Die Zeit zum jüngsten gemeinsamen Vorfahren (MRCA) hängt sowohl von der Stichprobengröße als auch der Populationsgröße ab. Die Zeit bis zum MRCA wird in einer großen Stichprobe beziehungsweise Population größer sein als in einer kleineren, da mehr Sequenzen zu einem gemeinsamen Vorfahren verschmelzen müssen. Dabei wird diese Zeit in der Anzahl an Generationen zwischen der heutigen Population und deren MRCA gemessen. Werden nur die drei Individuen A, B und C aus Abbildung 27 betrachtet, wird deren gemeinsamer Vorfahre bereits nach zwölf Generationen gefunden. Dies gilt auch, wenn nur eine kleine Population untersucht wird. Für acht untersuchte Individuen ist die Zeit zum MRCA entsprechend größer. In dem dargestellten Beispiel (Abbildung 27) nämlich wird der jüngste gemeinsame Vorfahre nach fünfzig Generationen gefunden. Dasselbe gilt für eine große Population. Eine theoretische Überlegung aus dem Coalescent-Prozess zeigt, dass in einer Population konstanter Größe die Zeit TMRCA bis zum jüngsten gemeinsamen Vorfahren nach folgender Gleichung berechnet wird TMRCA = 2G (1-1/n) . Darin ist n die Stichprobengröße und G die Populationsgröße für das untersuchte Gen, das heißt die Anzahl der Kopien eines Gens in einer Population. Ist die untersuchte Stichprobe nicht zu klein, vereinfacht Abb.27: Eine mögliche Genealogie für acht Individuen
72
Wann lebte der jüngste Vorfahre der menschlichen Population?
73
Gen-Bäume in Populationen
Tabelle 4: Alter des jüngsten gemeinsamen Vorfahren (MRCA) in einer Population mit konstanter Populationsgröße N
sich die Gleichung zu TMSCA § 2G. Überraschenderweise entspricht somit die Zeit bis zum jüngsten gemeinsamen Vorfahren der doppelten Populationsgröße G für das untersuchte Gen. In einer Säugetier-Population der Größe N wird angenommen, dass die Anzahl der reproduzierenden Weibchen (NW) gleich der Anzahl der reproduzierenden Männchen (Nm) ist. Dann gilt N = NW + Nm und NW = Nm = N/2. In Tabelle 4 wird für eine solche Population zunächst die Anzahl der untersuchten Gene im Mitochondrien-Genom, auf den Y- respektive X-Chromosomen sowie den autosomalen Chromosomen berechnet. Einfache Überlegungen führen zu folgenden Ergebnissen: Für die 74
Wann lebte der jüngste Vorfahre der menschlichen Population?
Tabelle 5: Geschätzte Zeiten zum jüngsten gemeinsamen Vorfahren (MRCA) für unterschiedliche Genregionen des modernen Menschen
Gene auf dem Mitochondrien-Genom, die nur über die mütterlichen Linien vererbt werden, entspricht die Populationsgröße G der Anzahl der Weibchen in der Population (G = Nw). Für Gene auf dem Y-Chromosom,das nur bei den Männchen vorkommt und zwar in einfacher Kopie, ist die Populationsgröße G gleich der Anzahl der Männchen (Nm) in der Population (G = Nm). Für Gene, die sich auf dem X-Chromosom befinden, berechnet sich die Populationsgröße G aus der doppelten Anzahl der Weibchen in einer Population (die zwei XChromosomen besitzen) plus der Anzahl der Männchen (die nur ein X-Chromosom tragen). Für die Populationsgröße dieser Gene gilt dann G = 2 Nw + Nm. Für alle autosomalen Gene, die sowohl bei den Männchen als auch bei den Weibchen in doppelter Kopie vorliegen, berechnet sich die Populationsgröße zu G = 2 (Nw + Nm). Aus der Populationsgröße für jedes Gen lassen sich nach der obigen Näherung TMRCA § 2G und der Gleichung Nw = Nm = N/2 die Zeiten bis zum jüngsten gemeinsamen Vorfahren einer heutigen Population angeben (Tabelle 4). Die Gene auf dem Mitochondrien-Genom sowie die Gene auf dem Y-Chromosom werden nach N Generationen ihren jeweiligen Vorfahren finden. Die Gene auf dem X-Chromo75
Gen-Bäume in Populationen som und die autosomalen Gene brauchen eine drei- respektive viermal so lange Zeit. Sie finden ihren gemeinsamen Vorfahren erst nach 3N respektive nach 4N Generationen. Das führt zu einem bedeutenden Schluss: Der gemeinsame Vorfahre einer Population ist je nach Lage der untersuchten Sequenz im Genom unterschiedlich alt. Daraus ergibt sich die überraschende Konsequenz: Für die Gesamtheit der Gene einer Population gibt es keinen gemeinsamen Zeitpunkt für das Auftreten des jüngsten gemeinsamen Vorfahren. Obwohl diese theoretischen Vorhersagen für idealisierte Populationen entwickelt wurden, treffen sie auch bei der Analyse verschiedener Regionen im Genom des modernen Menschen erstaunlich gut zu (Tabelle 5). Daraus folgt: Die genetischen Vorfahren des modernen Menschen haben je nach Lage des untersuchten Gens oder der untersuchten Sequenz zu sehr unterschiedlichen Zeiten gelebt. Wir heutigen Menschen sind genetische Mosaiktypen, die auf ganz verschiedene Vorfahren zurückgehen. Die Vorstellung einer »Eva« oder eines »Adams«, aus denen der moderne Mensch entstanden sei, ist auf genetischer Ebene nicht zu rechtfertigen. Jeder DNA-Abschnitt hat seine eigene »Eva« respektive seinen eigenen »Adam«. Darüber hinaus waren die jeweiligen genetischen »Evas« und »Adams« zu ihrer Zeit auch nicht allein, sondern stets Mitglieder einer Population. Daraus folgt, dass die Zeitpunkte der jüngsten gemeinsamen Vorfahren nicht notwendigerweise mit dem Zeitpunkt der Entstehung des modernen Menschen korrelieren.
Demographie Bislang wurde der Coalescent-Prozess nur in Populationen mit konstanter Größe betrachtet. Wie ändert sich die Genealogie, wenn sich die Größe der Population ändert? Wie kann die demographische Geschichte aus einem Alignement erschlossen werden? 76
Demographie Die Demographie einer (menschlichen) Population beschreibt ihre »Bevölkerungsentwicklung« im Laufe der Zeit. Als illustrative Beispiele unterschiedlicher Bevölkerungsentwicklung und ihr Einfluss auf die Genealogien werden exemplarisch drei Szenarien vorgestellt, die in Abbildung 28 zusammengefasst sind. Abbildungen 28a und b zeigen jeweils eine typische Genealogie für acht Sequenzen einer kleinen Population (G = 2500) und einer viermal größeren Population (G = 10000). Von diesen Populationen nehmen wir an, dass ihre Größe, die durch das graue Feld symbolisiert ist, konstant bleibt. Im dritten Fall (Abbildung 28c) wächst eine kleine ursprüngliche Population (G = 500) innerhalb von 800 Generationen auf G = 10 000 Gene. Die Population hat sich in 800 Generationen um das Zwanzigfache vergrößert, was einer Wachstumsrate von 0,375% pro Generation entspricht. Eine solche Populationsgeschichte wird unter dem Begriff bottleneck, »Flaschenhals«, zusammengefasst. Optisch entsteht annähernd der Eindruck einer nach unten geöffneten Flasche, wobei nur wenige Individuen in dem Flaschenhals lebten. Für die konstanten Populationen (Abbildung 28a, b), die dem Wright-Fisher-Modell entsprechen, berechnet man die Zeit zum MRCA (Coalescent-Prozess) mit 4375 beziehungsweise 17 500 Generationen. Die zufälligen Genealogien (Abbildung 28) stimmen gut mit den Erwartungswerten überein. Für größere Stichproben wird sich die Zeit zum MRCA dem Wert 2G nähern. Ändert sich die Populationsgröße im Laufe der Zeit (FlaschenhalsBeispiel), so lässt sich die erwartete Zeit bis zum MRCA nicht mehr berechnen. Man muss auf Computersimulationen zurückgreifen. Im gezeigten Beispiel (Abbildung 28c) vergehen 2800 Generationen bis zum MRCA. Die Zeit zum jüngsten gemeinsamen Vorfahren ist in der Flaschenhals-Population viel kleiner als in den beiden konstanten Populationen. Die Genealogie der Flaschenhals-Population, deren Demographie seit 2000 Generationen identisch mit der großen Po77
S.105
Gen-Bäume in Populationen
S.109
pulation ist, wird also im Flaschenhals extrem verkürzt. Durch die Verkleinerung der Populationsgröße kommt es zu einer Beschleunigung des Coalescent-Prozesses, der die noch vorhandenen Linien innerhalb kurzer Zeit (im Beispiel 800 Generationen) zusammenschmelzen lässt. Wie wirkt sich die veränderte Gestalt der Genealogie auf die genetische Variabilität einer Population aus? Es wird angenommen, dass jede Substitution an einer neuen Position der Sequenz stattfindet und dass es keine Rückmutationen gibt (infinite-sites-model). Die grünen Balken in Abbildung 28 zeigen die Verteilung der Substitutionen auf die Genealogien. Als Maß für die genetische Variabilität einer Stichprobe wird die Verteilung der paarweisen Unterschiede zwischen den Sequenzen und die Zahl der variablen Positionen im Alignement herangezogen. Zur Bestimmung der Häufigkeitsverteilung paarweiser Unterschiede in einer Stichprobe wird für jedes Paar von Sequenzen die Anzahl der unterschiedlichen Positionen ausgezählt und in einem Balkendiagramm aufgetragen. Man zählt also aus, wie viele Sequenzpaare identisch sind (Anzahl der Unterschiede gleich Null), und wie viele sich an einer, zwei, drei,... Positionen unterscheiden. Abbildung 29 zeigt die Verteilung der paarweisen Sequenzunterschiede für die drei Genealogien aus Abbildung 28, nämlich a) für die kleine, konstante Population (G = 2500), b) für die große, konstante Population (G = 10000) und c) für die Flaschenhals-Population. Bei der kleinen, konstanten Population (a) ist die Verteilung der paarweisen Unterschiede sehr weit gestreut. Es gibt Sequenzen, die relativ nah verwandt miteinander sind und daher wenige Unterschiede haben. Andererseits gibt es auch viele Sequenzpaare, die sechs oder mehr Unterschiede zeigen. Dies sind gerade jene Sequenzpaare, die ihren gemeinsamen Vorfahren vor etwa 5000 Generationen hatten. In der großen, konstanten Population (b) sieht die Verteilung der paarweisen Unterschiede ähnlich aus, allerdings sind 78
Demographie
Abb.28: Der Einfluss der demographischen Geschichte auf die Genealogie. Die Entwicklung der Populationsgröße wird durch die graue Fläche symbolisiert. Die Zeit wird in Generationen gemessen. a) Genealogie einer kleinen Population, b) Genealogie einer großen Population, c) bottleneck-Population.
die absoluten Unterschiede zwischen den Sequenzen größer. Auch hier gibt es eine Reihe von Sequenzen, die nah miteinander verwandt sind, während die nicht näher verwandten Sequenzen bis zu 32 Unterschiede haben (vergleiche Abbildung 28b). Die Flaschenhals-Population (c) hat eine eingipfelige Verteilung. Das Maximum der Verteilung liegt bei zwei bis drei Unterschieden. Die Verteilung ähnelt der bekannten Gauß'schen Glockenkurve. 79
Gen-Bäume in Populationen Offensichtlich beeinflusst die Genealogie nicht nur die Zahl der Unterschiede, sondern auch die Form der Distanzverteilung. Die Genealogien konstanter Populationen sind gekennzeichnet durch zwei lange Kanten oder Linien, die zum MRCA verschmelzen. Auf diesen Linien sammeln sich viele Substitutionen an. Sequenzpaare, deren gemeinsamer Vorfahre mit dem MRCA der gesamten Genealogie zusammenfällt, werden also sehr viele Sequenzunterschiede tragen. Sequenzpaare, deren gemeinsamer Vorfahre wesentlich jünger ist, werden sich sehr ähnlich sein. Dies erklärt im Beispiel der konstanten Populationen die Streuung der paarweisen Distanzen und die irreguläre Form ihrer Verteilung. Die Genealogie der Flaschenhals-Population hat nicht das tiefe Verzweigungsmuster wie die Populationen mit konstanter Größe. Nach 2000 Generationen schmilzt die Populationsgröße innerhalb von 800 Generationen auf G = 500. Die Wartezeit zum MRCA der Stichprobe wird extrem verkürzt, so dass die Zahl an Substitutionen in diesem Zeitraum dramatisch reduziert ist. Im gezeigten Beispiel finden im eigentlichen Flaschenhals keine Substitutionen statt. Die Distanz zwischen den Sequenzen wird also im Wesentlichen durch die Zeit bis zum Flaschenhals (ca. 2000 Generationen) bestimmt. Dies erklärt die glockenförmige Verteilung der paarweisen Distanzen in einer Flaschenhals-Population. Die Betrachtung der paarweisen Distanzverteilung einer Stichprobe liefert also einen anschaulichen Hinweis auf die demographische Geschichte einer Population. Konstante Populationen haben eine irreguläre Distanzverteilung und Flaschenhals-Populationen eine glockenförmige Distanzverteilung. Abb.29: Häufigkeitsverteilung der paarweisen Distanzen für drei Populationen mit unterschiedlicher demographischer Geschichte: a) kleine, konstante Population; b) große, konstante Population (beachte anderen Maßstab!); c) FlaschenhalsPopulation; die Sequenzen sind Abbildung 28 entnommen, die Zahlen an den Pfeilen geben die mittlere Anzahl der paarweisen Unterschiede an.
80
Demographie
81
Gen-Bäume in Populationen
Abb. 30: Gen-Baum der Menschenaffen. Das auf dem X-Chromosom gelegene Gen Xq13 wurde in 70 Menschen, 30 Schimpansen, 11 Gorillas und 14 Orang-Utans untersucht.
S.109
Um die anschauliche Deutung statistisch abzusichern, sind eine Reihe von Tests entwickelt worden. Dazu berechnet man zunächst die mittlere Zahl an paarweisen Unterschieden. Die Sequenzen der zwei konstanten Populationen unterscheiden sich im Mittel an 4,9 Positionen in der kleinen Population und 17,7 Positionen in der großen Population. Hingegen beträgt der mittlere Unterschied zwischen den Sequenzen der Flaschenhals-Population 2,9 Positionen. Nun liefert der Mittelwert allein keinen Hinweis auf die Demographie, da die 2,9 unterschiedlichen Positionen auch mit einer kleinen Populationsgröße erklärt werden können (Genetische Variabilität einer Population). Die mittleren paarweisen Distanzen einer Stichprobe müssen also mit einem weiteren Maß für genetische Variabilität verglichen werden. Hier bietet sich die Zahl an variablen Positionen Sn im Alignement an, die im infinite-sites-model gleich der Anzahl der stattgefundenen Substitutionen (grüne Balken in Abbildung 28) ist. klein
Im Beispiel findet man S8
groß
= 13, S8
bottleneck
= 38 und s8
= 10. Die
kleine Population hat annähernd ein Drittel der genetischen Variabilität der großen Population. Theoretisch erwartet man viermal mehr variable Positionen in der großen Population. Da es sich beim Coales82
Demographie
Abb.31: Zwei Hypothesen zur Evolution des modernen Menschen Homo sapiens.
cent- und beim Substitutions-Prozess um Zufallsereignisse handelt, sind Abweichungen von den erwarteten Werten wahrscheinlich. Die Flaschenhals-Population hat mit zehn Substitutionen beziehungsweise variablen Positionen nur ein Viertel der genetischen Variabilität der großen, konstanten Population. Im Vergleich zur kleinen Population hat die sprunghaft gewachsene Population nur etwas weniger variable Positionen. Wenn die Demographie der Flaschenhals-Population unbekannt ist, würde man aufgrund der zehn variablen Positionen folgern, dass die Flaschenhals-Population eine ähnliche Populationsgeschichte wie die kleine Population hat; angesichts der heutigen Populationsgröße von G = 10000 ein erstaunliches Ergebnis. Die Zahl der variablen Positionen allein gibt also ebenso wie die mittlere paarweise Distanz keine Information über die demographische Entwicklung einer Population. Die geringe Zahl an variablen Positionen kann auch mit einer kleinen Populationsgröße erklärt 83
Gen-Bäume in Populationen werden. Nur der Vergleich zwischen den mittleren paarweisen Distanzen und der Anzahl der variablen Positionen liefert einen Test, der die demographische Geschichte einer Population aufdeckt und somit eine statistisch fundierte Aussage über die Demographie erlaubt. Dieser Test basiert auf der Tatsache, dass sich aus der mittleren paarweisen Distanz und der Anzahl an variablen Positionen die Populationsgröße einer konstanten Population bestimmen lässt. Weichen die beiden geschätzten Populationsgrößen signifikant voneinander ab, so kann die Populationsgröße nicht konstant geblieben sein. Da sowohl die mittlere Distanz als auch die Zahl der variablen Positionen in einem Sequenzalignement leicht zu bestimmen sind, erstaunt es nicht, dass die Aufdeckung der demographischen Geschichte mittels Sequenzstichproben aus einer Population weite Verbreitung gefunden hat. Zumal in jüngster Vergangenheit die Analysemethoden wesentlich genauer geworden sind als die hier vorgestellte, sehr einfache Methode. Mit diesem Ansatz wurde in den letzten Jahren insbesondere die Populationsgeschichte des modernen Menschen genauer untersucht. Bei der vergleichenden Analyse der genetischen Variabilität des modernen Menschen und seines nächsten Verwandten, dem Schimpansen, zeigte sich überraschenderweise, dass die genetische Variabilität der Schimpansen rund viermal größer ist als die des Menschen. Bedenkt man, dass der moderne Mensch weltweit verbreitet ist und mit sechs Milliarden Menschen eine im Vergleich zum Schimpansen gigantische Populationsgröße hat, liegt die Erklärung nahe, dass der Mensch in seiner jüngsten Vergangenheit gewaltig angewachsen ist. Dieses Wachstum hat vor ungefähr 100 000 200 000 Jahren begonnen. Abbildung 30 zeigt den Gen-Baum für den Menschen und die drei nächstverwandten Menschenaffen. Er basiert auf Sequenzen des Xq13-Gens, das auf dem X-Chromosom liegt. An der Verzweigungstiefe innerhalb der vier untersuchten Ar84
Wo kommen wir her?
Abb.32: Schematische Illustration des geographischen Ursprungs der modernen Menschen. Die Sequenzen von sechs Afrikanern (A1 bis A6) stehen basal zu den vier nicht-afrikanischen Sequenzen (E7 bis E10), die von Eurasiern und Amerikanern stammen.
ten zeigt sich, dass der Mensch mit seinem relativen Alter von ca. 0,5 Millionen Jahren sowohl der jüngste Vertreter der untersuchten Arten ist als auch die geringste genetische Vielfalt trägt. Die Menschen haben sich also als letzte Form der großen Menschenaffen etabliert und wir sind alle miteinander näher verwandt, als das für die einzelnen Populationen der Schimpansen, Gorillas oder Orang-Utans der Fall ist.
Wo kommen wir her? Die geographische Herkunft der modernen Menschen ist noch immer ein Rätsel, was vor allem an der Lückenhaftigkeit der Fossil85
Gen-Bäume in Populationen funde liegt. Dass die Wiege der Hominiden, das heißt alle heutigen Menschen zusammen mit den ausgestorbenen Vor- und Frühmenschen, in Afrika steht, ist mittlerweile unumstritten. Bezüglich der weiteren Besiedlung und Ausbreitung des modernen Menschen stehen sich zwei Hypothesen gegenüber, nämlich das Multiregionale Modell und das Arche-Noah-Modell (Abbildung 31). Nach dem Multiregionalen Modell entstand die geographische Vielfalt der heutigen Menschen schon vor ein bis zwei Millionen Jahren, als sich Homo erectus von Afrika aus über die anderen Kontinente ausbreitete. Die charakteristischen Merkmalsunterschiede zwischen den heutigen Großgruppen wie Afrikaner, Asiaten oder Europäer haben sich demnach in einem sehr langen Zeitraum in den entsprechenden Regionen herausgebildet. Die genetische Ähnlichkeit aller modernen Menschen wird damit erklärt, dass durch Kreuzungen zwischen benachbarten Populationen ein anhaltender Genfluss durch das gesamte geographische Verbreitungsgebiet des Menschen entstand. Im Arche-Noah-Modell wird davon ausgegangen, dass sich nur eine kleine Population des Homo erectus in Afrika zum Homo sapiens entwickelte. Nur diese Homo-sapiens-Population verließ vor etwa 100000 bis 200000 Jahren Afrika und besiedelte nachfolgend die gesamte Welt. Alle Nachfahren des Homo erectus, einschließlich des in Mitteleuropa lebenden Neandertalers, starben aus, ohne zum Genpool der heutigen Menschen beizutragen. Nach dieser Hypothese, die auch Out-of-Africa-Modell genannt wird, sind die heutigen Menschen viel näher verwandt, als nach dem Multiregionalen Modell angenommen werden muss. Die Molekulargenetik hat sich ebenfalls der Frage angenommen, wo der geographische Ursprung des modernen Menschen liegt. Dazu wurden bisher Hunderte von mitochondrialen DNA-Sequenzen nahezu aller Volksgruppen analysiert. Sämtliche Untersuchungen stützen das Arche-Noah-Modell. In Abbildung 32 wurden zufäl86
Die Zukunft lig zehn Sequenzen von heutigen Menschen herausgegriffen. Sechs von ihnen (A1 bis A6) stammen aus Afrika, die restlichen vier (E7 bis E10) aus Eurasien und Amerika. Der Gen-Baum wurde mit der Sequenz des Schimpansen gewurzelt. Wie lässt sich dieser Baum bezüglich des geographischen Ursprungs der heutigen Menschheit interpretieren? In Afrika gibt es zum einen die Sequenzen A1, A2 und A3, die im Gen-Baum basal stehen und nicht näher mit den verbleibenden Sequenzen A4, A5 und A6 verwandt sind. Diese letzen drei afrikanischen Sequenzen sind näher mit den eurasischen und amerikanischen Sequenzen E7 bis E10 verwandt als mit den afrikanischen Sequenzen Ai bis A3. Daraus folgt, die sechs afrikanischen Sequenzen sind nicht monophyletisch. Die sparsamste Erklärung für den dargestellten Baum nach dem Parsimonie-Prinzip ist ein geographischer Ursprung der zehn zufällig ausgewählten Menschen in Afrika. Das legt den Schluss nahe, dass der moderne Mensch vor etwa 100000 bis 200000 Jahren in Afrika entstanden ist und sich anschließend über die ganze Welt verbreitet hat. Dieses Modell wird auch dadurch erhärtet, dass sich das grundsätzliche Verzweigungsmuster des Gen-Baums auch dann nicht ändert, wenn außer den bisherigen zehn Sequenzen weitere mitochondriale DNA-Sequenzen hinzugezogen oder zusätzlich Genregionen des X- respektive Y-Chromosoms analysiert werden.
7 DIE ZUKUNFT Mit der Ansammlung molekulargenetischer Daten erlebt die Rekonstruktion der Stammesgeschichte einen Aufschwung, der weit über die klassische Phylogenie als Wissenschaft von der Klassifikation des Lebenden hinausgeht. Sequenzdaten werden auch in Zukunft eine bedeutende Rolle bei der Aufklärung der verwandtschaftlichen Beziehungen zwischen den Organismen spielen und dabei die Daten 87
Die Zukunft aus der Morphologie, Ontologie, Ethologie und geographischer Verbreitung der Taxa ergänzen. Die Erkenntnis, dass Gen-Bäume die Phylogenie der Organismen widerspiegeln, hat in den 70er Jahren zur Rekonstruktion des universellen Baums des Lebens geführt (siehe Abbildung auf der letzten Seite). Von besonderem Interesse sind dabei die basalen Verzweigungsmuster zwischen den drei großen Reichen des Lebens. Im Einzelnen sind dies die Archaebakterien, die sehr ursprüngliche (griechisch arche = Anfang) Bakterien sind und an extremen Standorten wie Salzseen oder heißen Quellen vorkommen. Weiterhin die echten Bakterien (Eubakterien), aus denen sich zum Beispiel die Darmflora zusammensetzt, und die Eukaryoten. Letztere sind Organismen, die einen echten Zellkern enthalten und zu denen unter anderem die Pflanzen, Pilze, Tiere und wir Menschen gehören. Der auf der letzten Seite abgebildete Baum beruht auf der Analyse eines einzigen Moleküls, nämlich der kleinen Untereinheit der ribosomalen RNA (small subunit ribosomal RNA, abgekürzt SSU rRNA). Dieses Molekül kommt in allen Organismen vor und evolviert sehr langsam. Die Sequenzen lassen sich daher auch noch zwischen so unterschiedlichen Gruppen wie Bakterien und Säugetieren alignieren. Die universelle Phylogenie spiegelt die Unterteilung in die drei großen Reiche Archaebakterien, Eubakterien und Eukaryoten wider. Diese Dreiteilung wird auch durch andere biochemische Befunde gestützt. Außerdem wurde die Endosymbinontentheorie bestätigt. Diese Theorie geht davon aus, dass die Mitochondrien und Chloroplasten der heutigen Eukaryoten einst eigenständige kleine, bakterienähnliche Zellen waren. Sie wurden in einem frühen Stadium der Evolution von den Vorläufern der Eukaryoten aufgenommen. In der universellen Phylogenie sind Bakterien (zum Beispiel Agrobacterium tumefaciens und Escherichia coli) die nächsten Verwandten der Mitochondrien, die mit Hilfe von Sauerstoff aus organischer Nahrung Energie gewinnen. Die Chloroplasten sind aller Wahrscheinlichkeit 88
Die Zukunft nach aus Blaualgen (Cyanobakterien) hervorgegangen, die ihrerseits Photosynthese betreiben, das heißt Strahlungsenergie des Sonnenlichts in chemisch gebundene Energie umwandeln. Der anfängliche Optimismus, mit der kleinen Untereinheit der ribosomalen RNA über ein universelles Werkzeug zur phylogenetischen Rekonstruktion zu verfügen, wurde im Laufe der Jahre erschüttert. Verschiedene Gene führen nicht notwendigerweise zu den gleichen Bäumen. Selbst wenn zufällige Effekte bei der Erhebung der Daten vernachlässigt werden, ist die Idee von einem universellen Baum des Lebens (tree of life) in der naiven Form, nach der alle heutigen Lebewesen auf einen gemeinsamen Vorfahren zurückgehen, so nicht haltbar. Die Evolution einzelner Gene lässt sich in den meisten Fällen mit einem phylogenetischen Baum beschreiben, im Extremfall hat aber jedes Gen seinen eigenen Baum. Zusätzliche Effekte wie Genduplikationen, unvollständiges Aussortieren der Linien (lineage sorting) oder horizontaler Gentransferführen dazu, dass es zu einem SpeziesBaum oft viele Gen-Bäume gibt. Eine spannende Frage bleibt, wie sich aus einer Kollektion verschiedener Gen-Bäume ein allgemeingültiger »Speziationsbaum« rekonstruieren lässt. Eine weitere Besonderheit kennzeichnet die Evolution der Bakterien. Während Eukaryoten hauptsächlich durch Veränderung ihrer vorhandenen genomischen Information evolvieren, haben Bakterien anscheinend einen großen Teil ihrer genetischen Diversität durch Einverleibung von DNA-Abschnitten verwandtschaftlich weit entfernter Organismen erworben. Dieses Phänomen bezeichnet man als horizontalen Gentransfer. Durch die Sequenzierung ganzer Genome ist offensichtlich geworden, dass Genduplikation und horizontaler Gentransfer wesentliche Motoren der bakteriellen Evolution sind. Die zur Verfügung stehenden Daten deuten darauf hin, dass kein Organismus immun ist gegen horizontalen Gentransfer. Dabei werden Gene, die eine zentrale Rolle im Stoffwechsel spielen, oder Gene, 89
Die Zukunft die vollständige biochemische Stoffwechselwege kodieren, aber auch Teile der Transkriptions- und Translationsmaschinerie und sogar ribosomale Proteine und ribosomale RNA von einem Organismus in einen phylogenetisch weit entfernten Organismus transferiert. Hier müssen neuartige Methoden in der molekularen Evolution entwickelt werden, um die komplexe Dynamik des Evolutionsgeschehens besser zu verstehen. Der universelle Baum des Lebens wird sicher eines Tages durch ein Netzwerk ersetzt werden, in dem die vielfältigen Transferereignisse auf molekularem Niveau besser dargestellt werden als indem strengen, dichotomen Baum, der auf der letzten Seite abgebildet ist. Erste Schritte zu solchen Analysen wurden unternommen, aber der »Baum des Lebens« wird eines der ganz spannenden Felder zukünftiger Forschung bleiben. Auch mit der Sequenzierung ganzer Genome werden neue Herausforderungen an die molekulare Evolutionstheorie gestellt. Bislang wurde hauptsächlich die Evolution einzelner Gene untersucht. Ganze Genome erfordern die Analyse einer heterogenen Sammlung von DNA-Sequenzen, die aus kodierenden und nicht-kodierenden Genen, repetitiver DNA, regulatorischen Sequenzen (siehe Abbildung 3) usw. besteht. Unser mikroskopischer Blick auf einzelne Gene wird durch die Betrachtung ganzer Genome enorm erweitert. Neue Fragen sind dabei beispielsweise, ob die Evolution in verschiedenen Teilen des Genoms, zum Beispiel auf unterschiedlichen Chromosomen, verschieden abläuft und falls ja, warum? Die Analyse solcher Fragen erfordert die Entwicklung neuer Algorithmen. Das Alignement ganzer genomischer Sequenzbereiche wird rechentechnisch aufwändiger, da die Sequenzen länger und heterogener sind und Inversionen und Translokationen das Bild zusätzlich verkomplizieren. Neue effiziente Algorithmen sowie eine erweiterte Theorie der molekularen Evolution müssen entwickelt werden und werden derzeit auch intensiv bearbeitet. 90
Molekulare Techniken
91
VERTIEFUNGEN Molekulare Techniken Das mittlerweile sehr umfangreiche Wissen über die Struktur und Evolution von Genen und DNA- beziehungsweise RNA-Sequenzen geht einher mit den rasanten technischen Entwicklungen auf dem Gebiet der Molekularbiologie. Aus jedem Organismus kann im Labor die gesamte DNA beziehungsweise RNA isoliert und analysiert werden. Fast alle gentechnischen Anwendungen beruhen auf der Kenntnis der genauen Abfolge der Nukleotide (Nukleotidsequenzen) in den Organismen. Für eine solche Sequenzanalyse reicht ein einziges DNA-Molekül nicht aus, dafür sind einige tausend Kopien des DNAMoleküls erforderlich. Stehen nur wenige DNA-Moleküle zur Verfügung, müssen diese zunächst vervielfältigt werden. Handelt es sich dabei um einen relativ großen DNA-Abschnitt, nutzt man das verhältnismäßig aufwändige und langwierige Klonieren. Kleinere DNAAbschnitte können mit Hilfe der Polymerase-Kettenreaktion (PCR) in relativ kurzer Zeit millionenfach kopiert werden. Bei vielen molekularen Techniken werden - wie bei den Stoffwechselvorgängen im lebenden Organismus - spezielle Enzyme (gekennzeichnet durch die Endung -ase) verwendet, wobei es für jedes Verfahren ein Temperaturoptimum gibt. Grundlegende Operationen in der Molekularbiologie sind: • • • • • •
Isolieren der DNA aus einem Organismus, Trennen eines DNA-Strangs in zwei Einzelstränge, Vervielfältigen eines DNA-Abschnittes mit Polymerasen, Ausschneiden von DNA-Fragmenten mit Endonucleasen, Verbinden zweier DNA-Moleküle mit Hilfe von DNA-Ligasen, Übertragen von DNA-Molekülen in Bakterienzellen, 91
Molekulare Techniken
92
• Zerschneiden von DNA-Strängen mit Restriktionsenzymen, • Auftrennen von DNA-Fragmenten durch Gel-Elektrophorese, • Bestimmen der DNA-Sequenz mit Hilfe einer Sequenziermaschine. Das Klonieren dient der Vervielfältigung großer DNA-Abschnitte. Die hierzu erforderlichen Arbeitsschritte sind in Abbildung 33 schematisch dargestellt. Im ersten Schritt zerschneiden Restriktionsenzyme die DNA an spezifischen, nur wenige Nukleotide langen Erkennungssequenzen. Das Alul-Enzym erkennt zum Beispiel die Sequenz AGCT, das EcoRI-Enzym die Sequenz GAATTC. Die resultierenden DNA-Fragmente sind bis zu 50000 Basenpaare lang. Anschließend werden die zahlreichen DNA-Fragmente getrennt. Dazu sind Überträger-Moleküle (Vektoren) notwendig, die ebenfalls aus DNA bestehen. Die gebräuchlichsten Vektoren sind Plasmide. Hierbei handelt es sich um kleine ringförmige DNA-Moleküle, die aus dem Zellplasma von Bakterien oder Hefen isoliert werden. Die zu trennenden DNA-Fragmente werden in die Plasmide eingebaut. Dazu werden die ringförmigen Bakterien-Plasmide aufgeschnitten, um die fremden DNA-Abschnitte in die ursprüngliche Plasmid-DNA einzubinden. Dieser Schritt heißt Ligation. Das so entstandene Hybrid-Molekül wird anschließend in eine lebende Bakterienzelle eingeschleust. Dieser Umwandlungsprozess der Bakterienzelle heißt Transformation. Die Bakterienzelle enthält nun zusätzlich zu ihrer eigenen Bakterien-DNA das fremde DNA-Hybrid-Molekül. Die Transformation ist der entscheidende Schritt im Trennungsvorgang der ursprünglichen DNA-Fragmente, da jede Bakterienzelle nur ein Hybrid-Molekül aufnimmt und somit die Fragmente in den Bakterienzellen räumlich voneinander getrennt werden. In einem weiteren Schritt, der eigentlichen Klonierung, wird jeweils eine transformierte Bakterienzelle auf einer Nährst off platte angezüchtet, wobei sich die Bakterien durch Zellteilung sehr schnell vermehren. Bei diesem Prozess entstehen zahlreiche identische Ko92
Molekulare Techniken pien der Bakterienzelle: die Klone. Die in den Bakterienzellen enthaltenen DNA-Hybrid-Moleküle werden auf diesem Wege ebenfalls vervielfältigt. Zur weiteren Untersuchung werden die Hybrid-Moleküle aus den Bakterienzellen isoliert. Schließlich werden aus der riesigen Anzahl der DNA-Hybrid-Moleküle die ursprünglichen DNA-Fragmente wieder freigesetzt, die nun in genügender Anzahl für weiterführende Forschungen zur Verfügung stehen. Da sich transformierte Bakterienzellen problemlos züchten und lagern lassen, stehen jederzeit beliebige Mengen eines gewünschten DNA-Fragments zur Verfügung. Eine solche Sammlung von DNAFragmenten eines Genoms wird Genombibliothek genannt. Eine schnellere und vielseitigere Möglichkeit zur Vervielfältigung kleinster Mengen spezifischer DNA-Abschnitte ist die PolymeraseKettenreaktion (PCR). Die PCR hat die Molekularbiologie in zweifacher Weise grundlegend revolutioniert: Zum einen lassen sich DNAFragmente im Reagenzglas vervielfältigen. Der aufwändige Umweg über die Einschleusung in lebende Bakterienzellen entfällt. Zum anderen sind nur winzige Mengen an Ausgangs-DNA notwendig. Kleinste Reste von Hautschuppen, Haaren oder Blut reichen aus, um genügende Mengen an neu synthetisierter DNA zu gewinnen. Das Prinzip der PCR ist die Vervielfältigung eines DNA-Abschnittes mit Hilfe der DNA-Polymerase. Dieses Enzym synthetisiert DNA. Im lebenden Organismus ist es unter anderem für die Reparatur und die Vervielfältigung der DNA bei der Zellteilung verantwortlich. Bei der PCR wird selektiv ein DNA-Abschnitt vervielfältigt. Eine zwingende Voraussetzung für die Anwendung der PCR ist die Kenntnis über die Abfolge der Nukleotide in den beiden Randzonen des DNA-Abschnitts. Vor der PCR werden für diese zwei Regionen die dazu passenden komplementären Basen als Startermoleküle synthetisch hergestellt. Diese kurzen Nukleotid-Moleküle heißen Primer. Sie sind etwa zwanzig Basenpaare lang und lagern sich während der PCR an die Randzonen an. Dies geschieht allerdings nur, wenn der 93
93
Molekulare Techniken
94
94
Molekulare Techniken
95
DNA-Doppelstrang zuvor in die beiden Einzelstränge aufgetrennt wurde. Die PCR umfasst somit drei Schritte (Abbildung 34): (1) Denaturierung des DNA-Abschnitts in zwei Einzelstränge, (2) Anlagerung von zwei Startermolekülen (Primer) an die Randzonen und (3) DNA-Synthese der komplementären Stränge zu neuen vollständigen Doppelsträngen dieses DNA-Abschnitts. Jeder Arbeitsschritt der PCR erfordert eine andere Temperatur. Die Steuerung der Temperatur übernimmt ein Wärmebad oderThermocycler. Dieses Gerät reguliert außer der Temperatur auch die Zeitdauer der einzelnen Schritte und die Anzahl der Wiederholungen. Der »PCR-Cocktail«, in dem die Reaktionen stattfinden, enthält die Ausgangs-DNA, die zwei zuvor synthetisch hergestellten Primer, die DNA-Polymerase sowie die vier DNA-Bausteine A, G, C und T. Im Thermocycler wird das Reaktionsgemisch einem dreistufigen Temperaturregime unterworfen. Für die Denaturierung der DNA ist eine Temperatur von 94°C erforderlich. Erst dann lösen sich die Wasserstoffbrückenbindungen zwischen den Doppelsträngen der Ausgangs-DNA auf. Es bilden sich Einzelstränge. Nach dem Abkühlen auf Temperaturen von 5O-55°C lagern sich die zwei Primer an die Bindungsstellen in den Randzonen an. Dann synthetisiert das Enzym DNA-Polymerase den jeweils komplementären DNA-Strang. Da sich stets nur die Nukleotide Cytosin und Thymin sowie Guanin und Adenin verbinden, dienen die zwei getrennten DNA-Stränge als Matrizen für die Bildung von zwei neuen, vollständigen DNA-Strängen. Das Temperaturoptimum dieser Reaktion liegt bei 68°C. Aufgrund der hohen Temperaturen benötigt die PCR hitzestabile Enzyme. Die DNA-Polymerase wird aus Bakterien isoliert, die in heißen Quellen leben. Diese Enzyme verfügen über spezielle SchutzmeAbb.33: Die wichtigsten Schritte beim Klonieren
95
Molekulare Techniken
96
Abb.34: Prinzip der Polymerase-Kettenreaktion (PCR)
chanismen, so dass sie auch bei extremen Temperaturen noch aktiv sind. Das am häufigsten verwendete Enzym ist die Taq-Polymerase. Diese Bezeichnung leitet sich vom Namen des Bakteriums ab, das Thermus aquaticus heißt. Der Zyklus aus Denaturierung, Primeranlagerung und DNA-Synthese wird 25-40 Mal wiederholt. Alle neu synthetisierten DNAFragmente stehen den nachfolgenden Vermehrungszyklen wieder als Ausgangs-DNA zur Verfügung. Dies erklärt den exponentiellen Zuwachs an DNA und den Namen »Kettenreaktion«. Bei optimalen Bedingungen werden in einer PCR-Reaktion theoretisch nach 25 Wie96
Molekulare Techniken derholungen 225 Kopien eines gewünschten DNA-Fragments synthetisiert. In Wirklichkeit sind es »nur« 105 bis 106 Kopien. Daher reichen selbst kleinste Ausgangsmengen an DNA, im Extremfall nur ein einziges DNA-Fragment, um genügende Mengen an DNA-Kopien für die weitere Analyse zu synthetisieren. Als Vervielfältigungsmethode erreicht die PCR ihre Grenzen dann, wenn die Länge der DNA-Abschnitte 5000 bis 8000 Basenpaare überschreitet. Sie ist also nur für die Vermehrung relativ kurzer DNA-Abschnitte geeignet. Bei der DNA-Sequenzierung wird die genaue Abfolge der Nukleotide entlang eines DNA-Strangs bestimmt. Hierfür gibt es verschiedene Verfahren. Heute wird meist die Kettenabbruch-Methode angewandt, die Frederick Sanger und Kollegen in den 1970er Jahren entwickelten. Das Grundprinzip ist die enzymatische Synthetisierung eines DNA-Strangs und erinnert in seinen Grundzügen an die Polymerase-Kettenreaktion (PCR). Auch bei der DNA-Sequenzierung werden die drei Schritte (1) Denaturierung, (2) Primeranlagerung und (3) DNA-Synthese durchlaufen. Das Raffinierte an der Methode nach Sanger ist der gezielte Einsatz von vier »Stopp-Nukleotiden« (Didesoxynukleotide). Ihnen fehlt eine OH-Gruppe am Zuckerrest. Die Stopp-Nukleotide werden zwar von der Polymerase noch an der zugehörigen Stelle in den neu synthetisierten DNA-Strang eingebaut, aber die Synthese bricht danach ab. So erklärt sich auch der Name Kettenabbruch-Methode. Für die spätere Entschlüsselung der DNASequenz gibt es unterschiedliche Markierungssysteme für die Stopp-Nukleotide. So kann etwa an jedes der vier Stopp-Nukleotide ein jeweils anderer Fluoreszenz-Farbstoff gebunden werden. Ein weiterer Unterschied zur Polymerase-Kettenreaktion besteht darin, dass nur ein Primer, nämlich der Sequenzier-Primer, verwendet wird. Bei der PCR dienen beide Einzelstränge als Matrizen für die neu synthetisierte DNA. Bei der DNA-Sequenzierung lagert sich der Sequenzier-Primer nur an einen der beiden DNA-Stränge an, der damit als Matrize für die Neusynthese dient. Der zweite Strang wird 97
97
Molekulare Techniken
98
nicht analysiert. Die Sequenzierung der DNA verläuft daher ausschließlich in eine Richtung. Damit enthält der »Sequenzier-Cocktail« bei der KettenabbruchMethode die zu sequenzierende DNA, einen Sequenzier-Primer (P), das Enzym Polymerase, die vier DNA-Bausteine A, G, C und T sowie in geringer Konzentration - die vier farbig markierten Stopp-Nukleotide.Wie bei der PCR wird dieses Gemisch im Thermocycler nacheinander drei unterschiedlichen Reaktionsbedingungen ausgesetzt. Nach der Denaturierung lagert sich der Sequenzier-Primer (P) an einen der beiden DNA-Stränge an. Im dritten Schritt wird der komplementäre DNA-Strang synthetisiert. Die DNA-Synthese endet, wenn ein Stopp-Nukleotid eingebaut wird. Bei 25 bis 35 Wiederholungszyklen darf davon ausgegangen werden, dass sich an jedes Nukleotid der Ausgangs-DNA ein passendes Stopp-Nukleotid anlagert. Dadurch entstehen aus den ursprünglichen, gleich langen DNASträngen zahlreiche neue DNA-Fragmente unterschiedlicher Länge. Ein kleines Beispiel soll das Prinzip der Kettenabbruch-Methode veranschaulichen: Gegeben sei der zu analysierende DNA-Strang TAGGTACT. Im Ergebnis der DNA-Sequenzierung entstehen die acht verschieden langen, jeweils neu synthetisierten DNA-Fragmente T, TA, TAG, TAGG, TAGGT, TAGGTA, TAGGTAC und TAGGTACT, die jeweils an den Sequenzier-Primer (P) gebunden sind. Die Länge der verschiedenen DNA-Fragmente lässt sich mit Hilfe der Gel-Elektrophorese bestimmen. Abbildung 35a zeigt das Gemisch aus den acht verschieden langen DNA-Fragmenten. Dieses Gemisch wird in Abbildung 35b auf ein Sequenzier-Gel gegeben. Zum Auftragen der Probe enthält der obere Rand des Gels Vertiefungen oder Kerben. Am unteren Rand des Gels befindet sich der Laser, der die Farbmarkierungen erkennt und diese Signale über einen Detektor an den Computer weiterleitet. Für das Auftrennen der unterschiedlich langen DNA-Fragmente entsprechend ihrer Masse nutzt man die Bewegung elektrisch geladener Körper in einem elektrischen Feld. Dazu wird an das Gel eine 98
Molekulare Techniken
99
Abb.35: Auftrennung von DNA-Fragmenten in einem Sequenzier-Gel. a) Gemisch von unterschiedlich langen DNA-Fragmenten nach der DNA-Sequenzierung; P kennzeichnet den Sequenzier-Primer, die vier Stopp-Nukleotide sind farbig markiert. b) Auftragen der Probe auf das Sequenzier-Gel. c) Trennung der DNA-Fragmente im elektrischen Feld und Signalempfang durch einen Laser.
Spannung angelegt (Abbildung 35c). Da die DNA negativ geladen ist, bewegen sich alle DNA-Fragmente von der Kathode (-) zur Anode (+), nur verschieden schnell. Die kurzen und damit leichteren Fragmente wandern am schnellsten, während die längeren und somit schwereren Fragmente entsprechend langsamer sind. Daher erfolgt im elektrischen Feld das Sortieren der zahlreichen, unterschiedlich langen DNA-Fragmente nach ihrer jeweiligen Länge. Die kürzesten 99
Genetische Drift
100
Fragmente (P-T, P-TA, P-TAC.) kommen zuerst am Laser an, die längeren Fragmente später. Der Laser regt die vier verschiedenen Fluoreszenz-Farbstoffe an, die an die jeweiligen Stopp-Nukleotide gebunden sind. Die vier unterschiedlichen Lichtimpulse werden von der Sequenziermaschine automatisch registriert und in die Sequenz-Datei des zu analysierenden DNA-Strangs umgeschrieben. Pro Durchlauf lassen sich DNA-Fragmente mit einer Länge von 600 bis 800 Basenpaaren analysieren.
Genetische Drift Die Idee der genetischen Drift ist einer der Grundbausteine für die Theorie der neutralen Evolution. Sie verdient es, genauer erläutert zu werden. In einer Population existiert ein Gen typischerweise in verschiedenen Versionen (so genannte Allele), die sich in ihrer DNASequenz unterscheiden. In Abwesenheit anderer evolutionär wirksamer Faktoren wie Selektion, Mutation und Migration erwartet man, dass die Allelfrequenzen in jeder Generation gleich sind. Da Populationen eine endliche Größe haben, kommt es bei der Weitergabe der Allele einer Elterngeneration an ihre Nachkommen zu zufälligen Änderungen der Allelfrequenzen. Einige Individuen werden keine Nachkommen haben, ihre Allele sterben aus. Andere Individuen haben mehrere Nachkommen, die entsprechenden Allele werden in der nächsten Generation häufiger vertreten sein. Daraus ergeben sich Schwankungen in der Nachkommenzahl pro Individuum, die zwischen den jeweiligen Generationen zu unterschiedlichen Allelfrequenzen führen. Dieser Zufallsprozess heißt (zufällige) genetische Drift. Er wurde von Sewall Wright (1889-1988) beschrieben, einem der Urväter der theoretischen Populationsgenetik. Zufällige Schwankungen in den Allelfrequenzen führen dazu, dass letztendlich nur ein Allel in der Population fixiert wird. Die Population verliert durch Drift ihre gene100
Die neutrale Theorie der Molekularen Evolution tische Variabilität. In einer kleinen Population geschieht dies schneller als in einer sehr großen Population.
Die neutrale Theorie der Molekularen Evolution Motoo Kimura (1924-1994) formulierte 1968 die neutrale Theorie der Molekularen Evolution, um das Ausmaß an Variabilität in einer Population auf molekularem Niveau zu erklären. Die Theorie besagt, dass der Großteil der Substitutionen neutral sind, das heißt sie haben keinen Einfluss auf die Anzahl der Nachkommen des betroffenen Individuums. Das heißt aber nicht, dass es keine Selektion gibt. Kimura postulierte lediglich, dass die Mehrzahl der Basenaustausche auf molekularem Niveau nicht adaptiv, das heißt für das Individuum nicht vorteilhaft sind. Finden solche vorteilhaften Mutationen statt, dann führt dies zu einer besseren Anpassung an die herrschenden Umweltbedingungen, und die Nachkommen dieser Individuen verbreiten sich schneller durch die Population (so genannte positive oder Darwinsche Selektion). Diese seltenen Mutationen wurden von Kimura nicht weiter untersucht. Auch schädliche (deleterious) Mutationen wurden von Kimura nicht betrachtet, da sie schnell aus der Population verschwinden. Individuen, die schädliche Mutationen tragen, sterben entweder sehr schnell oder haben keine respektive schlecht angepasste Nachkommen. Diese Form der Selektion heißt in der Fachsprache negative oder reinigende Selektion (purifying selection). Schädliche Mutationen sind für die Mehrzahl der Veränderungen im Genom verantwortlich, während sie die genetische Variabilität einer Population nur unwesentlich beeinträchtigen. Es sind die vorteilhaften und neutralen Substitutionen, die für die Evolution einer Population wichtig sind. Welchen genauen Anteil dabei die neutralen Substitutionen haben, wird nach wie vor unter Fachleuten diskutiert. 101
101
Die neutrale Theorie der Molekularen Evolution
102
Für die neutrale Mutante eines Gens kann nicht die natürliche Selektion als treibende Kraft der Evolution herangezogen werden. Neutrale Mutanten können allein durch die Wirkung des Zufalls in einer Population fixiert werden, das heißt alle Individuen der Population sind nach einiger Zeit Träger dieser Mutation. Die Evolutionsrate gibt die Geschwindigkeit an, mit der eine neutrale Mutante in der Population fixiert wird. Überraschenderweise hat die Größe der Population keinen Einfluss auf die Evolutionsgeschwindigkeit. In einer Wright-Fisher-Population ist die Evolutionsrate gleich der Substitutionsrate. Die im Lauf der letzten Jahrzehnte angesammelten molekularen Daten ermöglichen es, die von der Theorie vorhergesagten Effekte zu überprüfen. Da die Evolutionsrate im neutralen Fall nur von der Rate abhängt, mit der neutrale Substitutionen auftreten, bestimmt die Substitutionsrate die Evolutionsgeschwindigkeit. Betrachtet man Gene, bei denen die meisten Aminosäuren für die Funktion des resultierenden Proteins wichtig sind, so sind die meisten Mutationen schädlich und werden sofort durch negative Selektion eliminiert. In einem solchen Szenario ist nur ein kleiner Anteil aller auftretenden Mutationen selektiv neutral. Allgemein gilt für protein-codierende Sequenzen, dass die Substitutionsrate an nicht-synonymen Positionen kleiner als an synonymen Positionen ist (siehe Tabelle 1). Ursache dafür ist, dass nur die nicht-synonymen Substitutionen die Aminosäure-Sequenz ändern und somit unter Umständen zu einem funktionsunfähigen Protein führen. Im Gegensatz dazu haben Pseudogene, das heißt funktionslos gewordene DNA-Abschnitte, die höchste Evolutionsrate. Kimuras Modell der neutralen Evolutionstheorie ist nicht unumstritten, hat aber aufgrund seiner Einfachheit und seiner quantitativen Natur den Vorteil, dass es testbare Vorhersagen macht, die sich anhand molekularer Daten überprüfen lassen. Stimmen die Daten 102
Die molekulare Uhr mit den Vorhersagen überein, so kann dies als ein Erfolg der Theorie gewertet werden. Eine klassische Vorhersage der neutralen Theorie ist die Existenz einer molekularen Uhr.
Die molekulare Uhr Emile Zuckerkandl und Linus Pauling (1901-1994) machten 1965 die Aufsehen erregende Entdeckung, dass die Unterschiede zwischen Aminosäuresequenzen proportional zur Aufspaltungszeit der Arten sind (Abbildung 36). Sie schlugen daher vor, dass für jedes Protein die Evolutionsrate mehr oder weniger konstant in der Zeit ist. Eine Beobachtung, die sicher auch Kimura bei der Formulierung der neutralen Theorie inspiriert hat. Mit einer molekularen Uhr und der Kenntnis der Evolutionsrate können Aufspaltungsereignisse von Arten ohne fossile Funde datiert werden. Da die Anzahl der Substitutionen (d) proportional zum Produkt aus der Zeit (t) seit dem Aufspaltungsereignis und der Evolutionsrate (m) der Sequenz ist, kann man die Beziehung d=2·P·t benutzen, um anhand zweier rezenter Sequenzen entweder die Zeit (t) oder die Evolutionsrate (P) zu schätzen. Die Evolutionsrate einer Art kann dann beispielsweise benutzt werden, um für andere Arten, bei denen die paläontologischen Aufspaltungszeiten unbekannt sind, die Aufspaltungszeit zu ermitteln. Die Evolutionsrate für die nicht-synonymen Substitutionen des DHämoglobins beträgt P = 0,56 · 10-9 Substitutionen pro Position und Jahr. Der Vergleich der a-Hämoglobin-Sequenzen zwischen Mensch und Ratte ergibt d = 0,093 Substitutionen pro Position. Somit haben sich die Hämoglobin-Sequenzen von Mensch und Ratte vor t = 0,093 / (2 · 0,56 · 10 -9 ) = 80 000 000
103
102
Die molekulare Uhr
104
Abb.36: Lineare Beziehung zwischen paläontologischen Aufspaltungszeiten und der Substitutionsrate verschiedener Proteine.
Jahren aufgespalten. Die Einfachheit dieser Idee und ihre universelle Anwendbarkeit hat in den folgenden Jahren zu einer Flut von Datierungen geführt, die vorher nicht möglich waren. Zu den spektakulärsten Ergebnissen der Datierung mit Hilfe der molekularen Uhr gehören die Schätzungen der Aufspaltungszeiten für Prokaryoten und Eukaryoten (2,0 bis 2,6 Milliarden Jahre), für Pflanzen, Pilze und Tiere (1,0 bis 1,2 Milliarden Jahren) sowie für Mensch und Schimpanse (5,0 Millionen Jahre). Die geschätzte Aufspaltungszeit für Mensch und Schimpanse widersprach dramatisch den damaligen paläontologischen Schätzungen, die von 15 Millionen Jahren ausgingen. Mit der zunehmenden Anzahl an ausgewerteten Sequenzen (meistens Aminosäuresequenzen) wurde die Existenz der molekularen Uhr ein wenig abgeschwächt. Kimura schrieb 1983: »For each protein, the rate of evolution in terms of amino acid substitutions is approximately constant per year per site for various 104
Der Coalescent-Prozess lines, as long as the function and tertiary structure of the molecule remains essentially unaltered.« Wenn ein Gen beispielsweise seine Funktion oder Teile seiner Funktionalität verliert beziehungsweise eine neue biologische Funktion erhält, greift der zweite Teil von Kimuras Zitat. Die Funktionsänderung des Gens führt zu einer Änderung der funktionellen Beschränkungen, die auf das Gen wirken. Eine Konsequenz ist eine Änderung der Substitutionsrate. Die Diskussion über die Existenz einer molekularen Uhr ist auch heute noch nicht abgeschlossen. Eine Reihe von Hypothesen wurden und werden diskutiert, um Abweichungen von der molekularen Uhr zu erklären. Die Hypothesen lassen sich grob in zwei Klassen einteilen: (1) Replikations-abhängige Faktoren wie Generationszeit und Effizienz der DNA-Reparatur und (2) Replikations-unabhängige Faktoren wie Grundstoffwechsel, Körpergröße und Umwelteinflüsse. Welchen Einfluss die jeweiligen Faktoren tatsächlich haben, wird noch kontrovers diskutiert. Sicher ist, dass sowohl (1) als auch (2) verschieden starke Abweichungen von der molekularen Uhr verursachen. Daher ist es extrem schwierig, den Beitrag eines einzelnen Faktors zu ermitteln.
Der Coalescent-Prozess Der Coalescent-Prozess beschreibt die Entstehung einer Genealogie in einer Population beim Zurücklaufen in der Zeit und ist somit eine theoretische »Umkehrung« der genetischen Drift, bei der das Schicksal einzelner Sequenzen vom Jetzt-Zeitpunkt aus in die Zukunft verfolgt wird. Beim Coalescent-Prozess verfolgt man das Schicksal von Sequenzen vom Jetzt-Zeitpunkt zurück in die Vergangenheit. Entscheidend beim Coalescent-Prozess ist das Verschmelzen von Linien (Individuen oder homologe Sequenzabschnitte). Zum Zeitpunkt des Verschmelzens »entsteht« der gemeinsame Vorfahre der 105
105
Der Coalescent-Prozess
106
verschmolzenen Linien. Startet man mit vielen Kopien eines Gens, so nimmt deren Anzahl aufgrund der Verschmelzung einzelner Kopien im Laufe der Zeit ab. Letztendlich wird es einen einzigen gemeinsamen Vorfahren aller Linien geben (most recent common ancestor, abgekürzt MRCA). Solange keine Rekombination stattfindet, entsteht durch den Coalescent-Prozess ein Baum, die so genannte Genealogie. Diese Genealogie beschreibt die zufällige Verwandtschaft einer Stichprobe von Genkopien. Im Gegensatz zu einem phylogenetischen Baum, der eine einzige Realisierung eines geschichtlichen Prozesses ist, ist die Genealogie immer zufällig. Die große Popularität von Genealogien basiert auf der Tatsache, dass sich nicht nur evolutionäre Prozesse wie Selektion und Drift, sondern auch unterschiedliche demographische Faktoren, wie Wachstum oder Schrumpfung einer Population aus den verschiedenen Verzweigungsmustern ableiten lassen. Anders ausgedrückt: Aus einer Genealogie beziehungsweise deren Verzweigungsmuster kann auf diejenigen Prozesse geschlossen werden, die der Population ihre heutige Struktur verliehen haben. Umgekehrt lassen sich populationsgenetische Phänomene (etwa die Ausbreitung erblicher Krankheiten) mithilfe der Coalescent-Theorie sehr einfach auf dem Computer simulieren. Die Tatsache, dass sich auch komplizierte evolutionäre Szenarien mittels effizienter Computerprogramme simulieren lassen, die dann mit den tatsächlichen Daten verglichen werden, macht den Coalescent-Prozess mit seinen Modifikationen zu einem der wichtigsten Werkzeuge der Populationsgenetik. Der mathematische Grundgedanke der Coalescent-Theorie wird hier vereinfacht dargestellt. Eine Grundvoraussetzung ist, dass sich die Population nach dem Wright-Fisher-Modell entwickelt. Das WrightFisher-Modell ist gewissermaßen das Null-Modell der Populationsbiologie, es macht die folgenden vereinfachenden Annahmen: Es sei G die Anzahl der Kopien eines Gens in einer Population. G ist in jeder Generation gleich groß, so dass die Population in ihrer Größe weder 106
Der Coalescent-Prozess wächst noch schrumpft. Die Paarung zwischen den einzelnen Mitgliedern der Population ist zufällig und wird nicht von Selektionsfaktoren oder geographischer Isolierung beeinflusst. In der Fachsprache wird hierfür der Begriff Panmixie (Allmischung) verwendet. Zwischen einer Vorfahrengeneration und deren Nachkommen gibt es keine Überlappung, das heißt dass sich immer nur die Individuen einer Generation paaren. Die Anzahl der Nachkommen pro Individuum ist zufällig. Einige Individuen haben keine Nachkommen, andere haben genau einen, zwei oder mehrere Nachfahren. Die Gesamtanzahl der Nachkommen ist aber in jeder Generation gleich groß. Selektion findet nicht statt. Jedes Individuum hat mit der gleichen Wahrscheinlichkeit Nachkommen, der Reproduktionserfolg ist daher eine zufällige Größe. Werden diese Annahmen erfüllt, lässt sich beispielsweise die mittlere Zeitspanne (gemessen in der Zahl der Generationen) berechnen, bis zwei zufällig ausgewählte Individuen beziehungsweise Gene I1 und I2 ihren gemeinsamen Vorfahren finden. Es ist klar, dass I1 von einer der G-Kopien der Vorgängergeneration abstammt. Mit Wahrscheinlichkeit 1/G stammt I2 auch von genau diesem Vorfahren ab. Tritt dieses Ereignis ein, so liegt der gemeinsame Vorfahre (MRCA) der beiden Gene nur eine Generation zurück. Mit einer Wahrscheinlichkeit von 1–1/G haben I1 und I2 verschiedene Vorfahren. Ihr MRCA liegt dann wenigstens zwei Generationen zurück. Die eben angestellte Überlegung kann für die direkten Vorfahren von I1 und I2 wiederholt werden. Die Eltern von I1 und I2 haben mit der Wahrscheinlichkeit 1/G ihren MRCA in der Vorgängergeneration oder mit der Wahrscheinlichkeit 1-1/G verschiedene Vorfahren. Somit ist die Wahrscheinlichkeit, dass I1 und I2 ihren MRCA in der 2. Vorfahrgeneration haben (1 – 1/G) · (1/G). Daraus lässt sich die Wahrscheinlichkeit P2(i) berechnen, nach der I1 107
107
Der Coalescent-Prozess
108
und I2 in der i-ten Vorfahrgeneration verschmelzen. Sie ist i-1 P2(i) = (1-1/G) – (1/G) für i = 1,2,...
Dies ist die geometrische Verteilung mit dem Parameter 1/G. Für die geometrische Verteilung ist der Mittelwert gerade G. Es werden also durchschnittlich G Generationen bis zum MRCA benötigt. Wie lange dauert es, bis eine Stichprobe von drei Genen ihren MRCA gefunden hat? Wieder genügt es, den Übergang von der heutigen Generation zur Elterngeneration zu betrachten. Abbildung 37 zeigt die möglichen Verschmelzungsereignisse für drei Gene. Die Wahrscheinlichkeit für wenigstens eine Verschmelzung ist die Summe der Einzelwahrscheinlichkeiten in Abbildung 37. Man erhält 3(G-1)/G2 + 1/G2 § 3/G. Der erste Summand gibt die Wahrscheinlichkeit für genau eine Verschmelzung an, es bleiben also zwei Linien übrig (Abbildung 37 links). Der zweite Summand steht für das sehr unwahrscheinliche Ereignis, dass die drei Linien gleichzeitig verschmelzen (Abbildung 37 rechts). Da simultane Verschmelzungen sehr unwahrscheinlich sind, wird der zweite Summand nicht weiter berücksichtigt. Daraus folgt, dass mit der Wahrscheinlichkeit 5/G pro Generation ein Verschmelzungsereignis stattfindet. Die Wartezeit bis zum ersten Verschmelzungsereignis beträgt nun G/3 Generationen. Die Stichprobe ist von drei Linien auf zwei Linien verkleinert. In einer zufälligen Stichprobe von n Genkopien aus einer Population gibt es n·(n-1)/2 mögliche Gen-Paare, die einen gemeinsamen Vorfahren in der vorhergegangenen Generation haben können. Ist n im Verhältnis zu G klein, dann ist die Wahrscheinlichkeit für das erste Coalescent- beziehungsweise Verschmelzungs-Ereignis in der i-ten Generation
108
Die genetische Variabilität einer Population für i = 1, 2, ... Die mittlere Wartezeit Tn bis zwei von n Linien verschmelzen ist somit Tn = 2·G/n·(n-1). Je größer die Stichprobe, desto schneller findet das erste Coalescentereignis statt, da T2 = G, T3 = G/3, T4 = G/6 usw. Hat ein Coalescentereignis stattgefunden, startet der Prozess der Verschmelzung von Linien mit n-1 Linien neu. Bis die letzten beiden Linien verschmolzen sind, vergehen also TMRCA = Tn + Tn-1 + ... + T2 = 2·G·{1/n·(n-1) + 1/(n-1)·(n-2) + ... 1} = 2·G·(1-1/n) § 2·G Generationen. Nach 2G Generationen sind alle Linien auf ihren MRCA, ihren gemeinsamen Vorfahren, zurückgeführt. Computersimulationen machen es heute möglich, den Coalescent-Prozess auch für Populationen zu modellieren, die nicht wie das einfache Wright-Fisher-Modell evolvieren. Dafür ist dann die mathematische Behandlung des Modells in vielen Fällen nicht mehr möglich.
Die genetische Variabilität einer Population Im Allgemeinen bezeichnet man mit genetischer Variabilität oder genetischen Polymorphismen (Vielgestaltigkeit) das Vorhandensein verschiedener Zustände eines vererbbaren Merkmals in einer Population. Polymorphismen gibt es auf den unterschiedlichsten Ebenen, zum Beispiel morphologische Varianten in einer Population, chromosomale Variabilität, verschiedene Allele eines Proteins und letztendlich auch Nukleotidvariationen auf dem DNA-Niveau. Die Variabilität zeichnet die Spuren der Evolutionsgeschichte in einer Population 109
109
Das Jukes-Cantor-Modell der Sequenzevolution
110
nach. Die genetische Variabilität eines Gens in einer Population kann nur während der Zeitspanne vom MRCA bis heute entstanden sein. Im Wright-Fisher-Modell stehen also 2G Generationen zur Verfügung. Da das Wright-Fisher-Modell sehr einfach ist, kann die erwartete Variabilität auf dem Sequenzniveau berechnet werden. Ein Maß für die genetische Variabilität in einer Stichprobe von n Sequenzen ist das arithmetische Mittel der paarweisen Sequenzunterschiede (D), wenn das infinite-sites-model zugrunde liegt. Das arithmetische Mittel kann leicht anhand der Daten berechnet werden. Theoretische Überlegungen zeigen, dass D = 2 · G · P = T MRCA · P
(1)
ist, wobei P die Substitutionsrate pro Sequenz und Generation ist. Die genetische Variabilität, gemessen als mittlerer paarweiser Sequenzunterschied, wird also bestimmt durch die Anzahl der Genkopien in der Population und die Mutationsrate. Je mehr Kopien eines Gens vorhanden sind, umso größer ist die Variabilität. Anstelle der erwarteten Anzahl an paarweisen Unterschieden kann auch die erwartete Anzahl an variablen Positionen Sn in einer Stichprobe von n Sequenzen bestimmt werden. Es gilt Sn = 2·G·P·(1+1/2 + 1/3 +... +1/(n-1)).
(2)
Die Formeln (1) und (2) gelten nur für Populationen mit Wright-FisherModell. Sn ist dabei proportional zu D und die Proportionalitätskonstante (1 + 1/2 +1/s + ...+1/(n-1)) hängt von der Stichprobengröße ab.
Das Jukes-Cantor-Modell der Sequenzevolution In den letzten Jahren wurden eine Vielzahl von Modellen zur Sequenzevolution entwickelt, die zum Ziel haben, den Prozess des Nukleotidaustausches realistischer abzubilden. Getrieben wurden und werden diese Entwicklungen durch die ständige Akkumulation von 110
Das Jukes-Cantor-Modell der Sequenzevolution
111
Abb.37: Mögliche Verschmelzungsereignisse (zwei Gene verschmelzen und das dritte nicht; alle drei Gene verschmelzen) für drei Gene mit den jeweiligen Wahrscheinlichkeiten.
neuen Sequenzdaten. So ergaben die Auswertungen beispielsweise, dass Transitionen wahrscheinlicher sind als Transversionen, dass die Basenhäufigkeiten in unterschiedlichen Regionen des Genoms variieren, dass einzelne Positionen eine hohe Mutationsrate haben, während andere Positionen invariabel sind. Diese Beobachtungen können alle in ein einheitliches Evolutionsmodell integriert werden, das dann bei der Auswertung beliebiger Sequenzalignements zur Verfügung steht. Um die prinzipielle Idee von Substitutionsmodellen zu erläutern, wird hier das relativ einfache Jukes-Cantor-Modell vorgestellt. Für eine mathematische Handhabbarkeit werden eine Reihe von Vereinfachungen gemacht: Die vier Nukleotide kommen mit gleicher Häufigkeit vor und alle Substitutionen (Transitionen und Transversionen) sind gleich wahrscheinlich. Daraus folgt, dass Nukleotid-Austausche an jeder Position der Sequenz mit gleicher Wahrscheinlichkeit auftreten. Findet eine Substitution statt, so wird das vorhandene Nukleotid durch eines der drei anderen Nukleotide mit gleicher Rate a ersetzt, wobei a zum Beispiel in Jahren gemessen wird. Eine Position in der Sequenz evolviert mit der Gesamtrate r=3D. Der Parame111
Wer sind die nächsten Verwandten der Wale?
112
terrist die Evolutionsrate pro Position und Jahr. Er ist typischerweise so klein, dass rauch als Wahrscheinlichkeit für eine Substitution pro Jahr interpretiert werden kann. Innerhalb von t Jahren finden daher im Mittel r · t Substitutionen an einer Position statt. Dann ist Pxx(d) = 1/4 + (3/4) exp[-4·d/3] die Wahrscheinlichkeit für ein identisches Nukleotidpaar, wenn d Substitutionen stattgefunden haben. Mit dieser Gleichung kann aus der Wahrscheinlichkeit für ein identisches Nukleotidpaar die Zahl der tatsächlich stattgefundenen Substitutionen berechnet werden d = –(3/4) ln [1–(4/3)·p)] wobei p = 1-Pxx(d) die Wahrscheinlichkeit für ein verschiedenes Nukleotidpaar ist. Diese Formel ist die so genannte Jukes-Cantor-Korrekturformel zur Berechnung der Zahl an Substitutionen aus den beobachteten Unterschieden. Die Berechnung zeigt, dass für zwei Sequenzen nur die Zahl der Substitutionen geschätzt werden kann, aber nicht die Evolutionsrate r oder die Zeit W. In der Praxis wird für zwei Sequenzen der Wert von p geschätzt, indem die Zahl unterschiedlicher Nukleotidpaare durch die Länge der alignierten Sequenzen geteilt wird; p eingesetzt in die JukesCantor-Korrekturformel ergibt die geschätzte Zahl an stattgefundenen Substitutionen.
Wer sind die nächsten Verwandten der Wale? Ein nicht-sequenzbasierter Ansatz zur Aufklärung der Phylogenie Neben der sequenzbasierten Rekonstruktion von Stammbäumen können auch andere genetische Merkmale für die Untersuchung der verwandtschaftlichen Beziehungen von Organismen herangezogen 112
Wer sind die nächsten Verwandten der Wale?
113
Abb.38: Cladogramm der Paarhufer und Wale (Cerartidactyla). Die Pfeile markieren jeweils die Insertion eines SINEs oder LINEs.
werden. Ausgezeichnete Kandidaten sind zum Beispiel die SINEs und LINEs der Eukaryoten (siehe Abbildung 3). SINEs sind repetitive DNAAbschnitte von 80-400bp Länge, wohingegen die LINEs von einigen loo bis zu einigen 1000bp lang sind. SINEs und LINEs sind von tRNAs abgeleitete Retrotransposons, das heißt »bewegliche« genetische Elemente, die zur Selbstreplikation in der Lage sind. Anders als bei der Transkription von Genen, bei der die DNA-Sequenz in mRNA umgeschrieben wird, dient hier eine tRNA-Sequenz als Matrize für die zu synthetisierende DNA. Deshalb werden die transponierbaren Ele113
Wer sind die nächsten Verwandten der Wale?
114
mente als Retrotransposons (retro = rückwärts) bezeichnet. Die replizierten SINEs oder LINEs werden dann zufällig in das Genom des Organismus integriert. Meist - aber nicht immer! -findet dieser Einbau in einer nicht-kodierenden Region statt. SINEs und LINEs verhalten sich dann selektiv neutral. Es wird angenommen, dass Insertionen von SINEs und LINEs einmalige, irreversible Prozesse sind und es daher sehr unwahrscheinlich ist, dass sie mehrfach unabhängig voneinander an der gleichen Stelle im Genom eingebaut werden. Wenn sie einmal an einem bestimmten Ort im Chromosom vorkommen, gehen sie im Verlauf der Evolution so gut wie nie verloren. Ausnahmen sind großräumige Deletionen ganzer genomischer Abschnitte. Die Anwesenheit identischer SINEs oder LINEs in relativ nah verwandten Lebewesen ist daher ein starkes Indiz für einen gemeinsamen Vorfahren. Solche Daten werden durch eine 0-1-Matix repräsentiert: Ein Transposon ist entweder vorhanden (i) oder nicht vorhanden (o). Für diese Datenmatrix lässt sich dann mittels Maximum-Parsimonie der zugehörige Baum bestimmen, wobei die Merkmale nun die Insertion eines SINEs oder LINEs sind und nicht die Substitution eines Nukleotids. Da die Insertion eines SINEs oder LINEs an einer Stelle im Genom ein einmaliges Ereignis ist und sogar der ursprüngliche Zustand (keine Insertion) bekannt ist, eignen sich auf Parsimonie basierte Rekonstruktionsmethoden sehr gut dazu, den zugehörigen Baum zu rekonstruieren. Ein bekanntes Anwendungsbeispiel ist die Aufklärung der verwandtschaftlichen Beziehung von Walen (Cetacea) und Paarhufern (Artiodactyla) mittels Retrotransposons. Anhand morphologischer und paläontologischer Daten wurde bisher vermutet, dass Wale die Schwestergruppe der Paarhufer sind. Der in Abbildung 38 dargestellte Baum basierend auf der Analyse von 21 verschiedenen SINEs und LINEs zeigt, dass die Wale eine monophyletische Gruppe innerhalb der Paarhufer (Artiodactyla) sind und die Schwestergruppe zu den Flusspferden (Hippopotamus) bilden. Bisher übersehene oder unbe114
»Fossile DNA« - eine Zeitreise in die Vergangenheit achtete morphologische Ähnlichkeiten zwischen Flusspferden und Walen stützen die Schwestergruppen-Hypothese: etwa das Fehlen von Körperhaaren, die Aufzucht der Jungen unter Wasser und die Unterwasserkommunikation. Es wurde daher vorgeschlagen, die Paarhufer unter Einschluss der Wale in der umbenannten Ordnung Cerartiodactlya zusammenzufassen. Dennoch sind SINEs und LINEs nicht der Weisheit letzter Schluss, da es auch die gleichen Probleme wie bei der sequenzbasierten Baumrekonstruktion gibt. Dazu zählen vor allem das unvollständige Aussortieren der Linien (incomplete lineage sorting). Auch SINE- und LINE-Bäume können sich vom Spezies-Baum unterscheiden. In dem speziellen Beispiel der Paarhufer und Wale werden die einzelnen Kanten des Baumes durch mehrere SINEs gestützt, die an ganz verschiedenen Stellen im Genom liegen und jeweils die gleiche Verzweigung stützen. Zusätzlich gibt es eine sehr hohe Kongruenz zwischen dem Auftreten der SINEs und LINEs und der sequenzbasierten Phylogenie (15 mitochondriale und nukleare Gene), so dass es unwahrscheinlich ist, dass der vorgeschlagene Baum nicht auch der Spezies-Baum ist.
»Fossile DNA« – eine Zeitreise in die Vergangenheit DNA ist ein sehr instabiles Molekül, das durch Wasser oder Sauerstoff abgebaut wird. Dabei kommt es an den Nukleotiden unter anderem zur hydrolytischen Abspaltung von Stickstoff-Gruppen (= Deaminierung) oder ganzen Purinbasen (= Depurinierung). Im lebenden Säugetier ereignen sich spontane Deaminierungen schätzungsweise 400 Mal pro Tag, die aber von dem Enzym DNA-Glykosylase sofort erkannt und repariert werden. Zusätzlich bilden sich aus den Nebenprodukten der Atmungskette und beim Einwirken ionisierender Strahlung zum Beispiel aus der Atmosphäre (= Hinter115
115
»Fossile DNA« - eine Zeitreise in die Vergangenheit
116
Abb.39: Geologische Zeittafel (in Millionen Jahren) mit angeblichen Nachweisen über fossile DNA. Gesicherte Funde gibt es nur aus dem Quartär (bis maximal 100000 Jahre).
grundstrahlung) freie Radikale, die zu oxidativen Basenschädigungen führen. Auch hier gibt es in den lebenden Zellen mehrere Reparaturwege, um schwere Schäden zu vermeiden. Nach dem Tod eines Organismus und dem Aussetzen jeglicher Reparaturmechanismen ist es daher unwahrscheinlich, dass DNA über lange Zeiträume unbeschädigt erhalten bleibt. 116
»Fossile DNA« - eine Zeitreise in die Vergangenheit Theoretische Studien haben gezeigt, dass aufgrund kumulativer Umwelteinflüsse die DNA nach 100000 Jahren zerstört beziehungsweise nicht mehr »abrufbar« ist. Unter sehr speziellen Umweltbedingungen wird dieser Abbau allerdings verzögert. Dazu zählen vor allem Kälte, Trockenheit und Sauerstoffmangel. Dies erklärt, warum fossile und subfossile Funde aus Gletschern und dem Packeis der Pole sowie aus Permafrost-Böden beziehungsweise sauerstofffreien Einschlüssen in Mooren trotz ihres Alters noch hinreichend viel DNA liefern. Trotz dieser vielen Einschränkungen wurde dennoch versucht, alte DNA zu sequenzieren. Die ersten Arbeiten an Museumsstücken begannen in den 1980er Jahren. In der Arbeitsgruppe von Allan Wilson (1934-1991) an der Universität Berkeley, Kalifornien, wurde 1984 erfolgreich DNA aus einem 140 Jahre alten Quagga kloniert. Diese Zebraart aus dem südlichen Afrika war vor ca. 120 Jahren ausgestorben. Als nächstes wurde in Schweden DNA aus 2400 Jahre alten ägyptischen Mumien amplifiziert. Allerdings war die Klonierung wenig effizient, da zum einen große Mengen an Ausgangs-DNA benötigt wurden und es viele Kopierfehler gab. Erst mit der Erfindung der PCR wurde es möglich, kleinste Mengen an DNA zu vervielfältigen. Damit begann eine neue Ära in der Biologie; prähistorische Funde ließen sich nun auch mit molekularen Techniken bearbeiten. Mit der Untersuchung von alter, »fossiler« DNA wurde die Molekularbiologie um die zeitliche Dimension bereichert. Die Ergebnisse erlauben Einblicke in die molekulare Vergangenheit der Organismen. Die Fachrichtung, die molekulare Methoden mit der traditionellen Ahnenkunde verbindet, wird auch als Molekulare Archäologie bezeichnet. Kurz nach der Etablierung der PCR berichteten 1992 kalifornische Wissenschaftler über die erfolgreiche Isolierung und Vervielfältigung kurzer DNA-Bruchstücke aus einer 25-40 Millionen Jahre alten Bienenart (Proplebeia dominicana). Die Biene war im dominikanischen Bernstein eingeschlossen. Wenig später erlangten Termiten 117
117
»Fossile DNA« - eine Zeitreise in die Vergangenheit
118
und Käfer aus libanesischem Bernstein vergleichbare Berühmtheit, deren Alter sogar auf bis zu 135 Millionen Jahre geschätzt wurde (Abbildung 39). 1994 gelang angeblich ein weiterer Durchbruch, nämlich die Sequenzierung eines 170 Basenpaare langen DNA-Abschnitts aus einem 80 Millionen Jahre alten Dinosaurier-Knochen. Weitere Forschungsgruppen berichteten über die DNA-Isolierung aus 8-18 Millionen Jahre altem Pflanzenmaterial, darunter Magnolien-Blätter aus limnischen Sedimenten in Idaho (USA). All diese Ergebnisse wurden vom wissenschaftlichen Publikum teils mit Begeisterung, teils mit größter Zurückhaltung aufgenommen. Die Hauptkritik bestand darin, dass keine ausreichenden Vorkehrungen gegen Kontamination getroffen wurden und nicht eine einzige DNA-Isolierung von unabhängigen Labors bestätigt werden konnte. In den 1990er Jahren zeigte eine Arbeitsgruppe des Naturhistorischen Museums London, dass sämtliche alte DNA aus in Bernstein eingeschlossenen Insekten Artefakte sind. Die tatsächlich amplifizierte DNA stammte aus anderen, mit den untersuchten Objekten nicht näher verwandten Arten. Selbst viel jüngere Insekten, die im weichen Copal (Vorform des Bernsteins) eingebettet sind, enthalten keine DNA. Da Bernstein gasdurchlässige Mikroporen besitzt, wird die eingeschlossene DNA im Laufe der Jahrmillionen durch Oxidationsprozesse zersetzt. Daher sind im Bernstein die Bedingungen für die Konservierung von DNA ausgesprochen schlecht, wenngleich Insekten und anderes organisches Material makroskopisch sehr gut erhalten bleiben. Bei der Dinosaurier-DNA haben mehrere Forschergruppen nachgewiesen, dass die vermeintliche fossile Sequenz ein menschliches Pseudogen ist. Es handelt sich dabei um mitochondriale DNA-Fragmente, die in das nukleare Genom des Zellkerns inkorporiert wurden. Die Fremd-DNA wurde von den Forschern im Labor ins Reagenzglas übertragen. Dass die Ergebnisse mit alter DNA anfänglich viel Skepsis hervorriefen, ist daher gut zu verstehen. Mittlerweile sind die Schwierig118
»Fossile DNA« - eine Zeitreise in die Vergangenheit keiten aber erkannt worden und allgemein akzeptierte, strenge Richtlinien sollen helfen, solche Irrtümer in Zukunft zu verhindern. Eine Erfolgsgeschichte bei der Analyse alter DNA zeichnet sich bei der Sequenzierung von DNA aus 50000-100000 Jahre alten Überresten ab. Einige Forschergruppen haben die verwandtschaftlichen Beziehungen von ausgestorbenen Arten zu ihren rezenten Vertretern analysiert. Zu nennen sind hier unter anderem die mitochondrialen DNA-Studien (mtDNA) am australischen Beutelwolf. Diese zu Beginn des 20. Jahrhunderts ausgestorbene Art ist näher mit den Beuteltieren des australischen Kontinents verwandt als mit südamerikanischen Beutelraubtieren, denen sie morphologisch sehr ähnlich sind. Ebenso liefert die fossile mtDNA Hinweise, dass Neuseeland zweimal von Vorfahren flugunfähiger, straußenartiger Vögel besiedelt wurde (Abbildung 40). Die Kiwis und die bereits ausgestorbenen Moas sind keine Schwestergruppe, was bislang aufgrund morphologischer Untersuchungen angenommen wurde. Die Vorfahren der Moas haben Neuseeland wahrscheinlich in einer ersten Immigrationswelle vor ca. 80 Millionen Jahren besiedelt, als sich die Inseln vom Urkontinent Gondwana abtrennten. Die Entwicklungslinie der Kiwis scheint sich erst später, vor ca. 30 Millionen Jahren, von der des australischen Emus abgespalten zu haben. Die Kiwis erreichten Neuseeland erst während einer zweiten Immigrationswelle. Die umfangreichen und gut konservierten fossilen Funde aus den arktischen Permafrostböden erlauben nun auch Untersuchungen zu populationsgenetischen Aspekten. Damit lässt sich ein Bild von der genetischen Komposition einzelner Populationen vor und während der letzten Eiszeit rekonstruieren, die dann mit den Daten der heutigen Populationen in Verbindung gebracht werden. Die mitochondrialen DNA-Linien der Alaska-Braunbären, die heute in getrennten geographischen Regionen vorkommen, haben vor ca. 30000 Jahren in derselben Population zusammengelebt. In einer anderen Studie wurde die mtDNA von 191 rezenten Pferden mit der von 16 fossilen 119
119
»Fossile DNA« - eine Zeitreise in die Vergangenheit
120
Abb.40: Stammbaum der flugunfähigen Straußenvögel, basierend auf mitochondrialen DNA-Sequenzen
Pferden aus Nordamerika, Estland und Schweden verglichen. Der älteste Knochenfund war 28000 Jahre alt. Die Untersuchungen zeigten, dass ein Großteil der ursprünglichen Variabilität der Pferde bei 120
»Fossile DNA« - eine Zeitreise in die Vergangenheit ihrer mehrfachen Domestizierung erhalten blieb. Wieder andere Untersuchungen befassen sich mit der Populationsstruktur der vor etwa 10000 Jahren ausgestorbenen Höhlenbären und deren Beziehungen zu heutigen Braunbären oder untersuchen die veränderte Evolutionsrate bei Adelie-Pinguinen im antarktischen Eis. Großes Aufsehen haben die Untersuchungen von lange verstorbenen oder bereits fossilisierten Menschen erregt, weil gerade damit unsere eigene Geschichte im Spiegel der Zeit beleuchtet wird. Wie bereits erwähnt, wurde mit den ägyptischen Mumien ein erster Meilenstein gelegt. Kurze Zeit später folgte die Analyse des ca.5000 Jahre alten Tiroler Eismannes, genannt Ötzi. 1997 wurde die erste Sequenz eines Neandertalers veröffentlicht. Hierbei handelte es sich um das Typus-Exemplar aus dem Neandertal bei Düsseldorf. Die mitochondriale DNA-Sequenz des Neandertalers ist in der heutigen menschlichen Weltpopulation nicht mehr vertreten, sondern spaltete sich vor ca. 500000 Jahren von der Linie zum modernen Menschen ab, lange bevor der jüngste gemeinsame Vorfahre (MRCA) des modernen Menschen Homo sapiens sapiens lebte, der ca. 170000 Jahre alt ist. Diese Ergebnisse sind eine weitere Bestätigung für die Arche-Noah-Theorie. Mittlerweile sind DNA-Sequenzen zweier weiterer Neandertaler ermittelt worden, welche die bisherigen Ergebnisse untermauern. Mit der alten oder fossilen DNA ist die molekulare Evolution in neue Dimensionen der phylogenetischen Analysen vorgestoßen, auch wenn Spekulationen über einen Jurassic Park oder die Wiederbelebung bereits ausgestorbener Arten sicher nicht im Bereich der technischen Möglichkeiten liegen.
121
121
Alignement
dot-plot
GLOSSAR Alignement - Besteht aus zwei Sequenzen, die durch Einführung eines Extra-Zeichens (»-«) auf gleiche Länge gebracht werden. s.S.23f.,45ff.,76 Allel - Verschiedene Zustandsformen eines Gens, die auf dem gleichen chromosomalen Abschnitt liegen. s. S. 100 Außengruppe - Ein Taxon, das sich von einer Gruppe anderer Taxa abspaltete, bevor diese untereinander divergierten. s. S. 29,49, 70 Baumtopologie - Verzweigungsmuster eines phylogenetischen Baumes. s. S. 40,46,54 bottleneck - (Flaschenhals) drastische Verkleinerung einer Population. s. S. 77,79 Codon - Nukleotidtriplett in der DNA beziehungsweise mRNA, das eine Aminosäure festlegt oder das Ende einer Polypeptidkette signalisiert (Stopp-Codon). s .S. 7,9,12 Clusterungsmethoden -Verfahren zum Gruppieren und Klassifizieren von Objekten (Lebewesen), die durch eine Menge von Eigenschaften (Spalten im Sequenzalignement) beschrieben werden. s. S. 44 Dichotomie-Aufspaltung einer Linie in zwei neue Linien. s.S.25 dot-plot - Einfache graphische Darstellung zum Vergleich zweier Sequenzen. s. S. 23f. 122
Evolutionsrate
lineage sorting
Evolutionsrate - Geschwindigkeit, mit der eine Mutation in einer Population fixiert wird. s. S. 702f., 112,121 Genealogie - Gen-Baum, der die Verwandtschaftsverhältnisse von Allelen eines Gens in einer Population beschreibt. s. S. 70ff.,76ff., 105f. Gen-Baum -Stammbaum eines Gens. s. S. 36,42, 55ff. Genom - Die gesamte DNA eines Organismus. Bei Eukaryoten umfasst dies auch die nicht im Kern vorkommende Mitochondrienund Plastiden-DNA. s. S. 4,7ff.,74ff. Homolog- Die untersuchten Merkmale gehen auf einen gemeinsamen Vorfahren zurück. s. S. 8, 63f., 105 Indel - Extra-Zeichen, das in ein Sequenzalignement eingeführt wird, um die während der Evolution aufgetretenen Insertionen oder Deletionen anzuzeigen. s. S. 22f. infinite-site-model - DNA-Substitutionsmodell, bei dem jede Position einer Sequenz nur einmal mutiert. s. S. 78, 82,110 Intron - Nicht-kodierende DNA zwischen den Exons eines Gens. s. S. 11 Klonierung - Selektive Vermehrung eines gewünschten DNA-Fragments. Dabei entstehen zahlreiche identische Moleküle (= Klone), die alle von einem einzigen Vorläufer abstammen. s. S. 4,92,117 lineage sorting - Ursprüngliche Polymorphien bleiben über Artaufspaltungsereignisse erhalten. s. S. 60, 89, 775
123
Linie
Ortholog
Linie - Lückenloser Fortbestand einer Ahnenreihe. s. S. 23,32,59f. Minimale Evolution - Distanzbasierte Baumrekonstruktionsmethode, s. S. 44 Modell der Sequenzevolution - Mathematische Beschreibung des Substitutionsprozesses. s .S. 21,45f., 110f. Monophyletische Gruppe - Umschließt alle Nachfahren des MRCA einer Gruppe. s. S. 28ff., 52, 114 MRCA (most recent common ancestor) - Der jüngste gemeinsame Vorfahre einer Kollektion von Sequenzen, Individuen oder Arten. s. S. 37, 70, 72 Negative Selektion - Eliminierung nachteiliger Mutanten aus einer Population. s. S. 102 Neighbor-Joining - Clusterungsverfahren zur Rekonstruktion von distanzbasierten Bäumen. s. S. 39,44f. Nicht-synonyme Substitution - Der Austausch eines Nukleotids im Codon führt zu einer Änderung der Aminosäure. s. S. 76 Nukleotid - Eine Base (Adenin, Cytosin, Guanin, Thymin oder Uracil), die mit einem Zuckermolekül (Ribose oder Desoxyribose) und einer Phosphatgruppe verbunden ist. s. S. 5, 7,14ff. Ortholog - Nennt man zwei Gene, wenn sie aufgrund eines Speziationsereignisses entstanden sind. s. S. 63
124
Paralog
Substitutionsmodelle
Paralog - Nennt man zwei Gene, wenn sie aufgrund einer Genduplikation entstanden sind. s. S. 63 Paraphyletische Gruppen - Enthalten nicht alle Nachkommen einer Stammart. s. S .29f. PCR (Polymerase Chain Reaction) - Enzymatische Vervielfältigung eines DNA-Abschnittes unter Verwendung von zwei OligonukleotidPrimern. s. S. 4,93ff., 117 Polyphyletische Gruppen - Enthalten alle Nachkommen verschiedener Stammarten, wobei nicht alle Nachfahren des gemeinsamen Vorfahren der Stammarten in der Gruppe vorkommen. s. S.29f. Polytomie - Eine Stammart produziert gleichzeitig mehr als zwei neue Linien. s. S. 25f. Positive Selektion - Beschreibt das Phänomen, dass sich eine besser angepasste Mutation in der Population ausbreitet. s. S. 101 Schwestergruppe - Die zu einer monophyletischen Gruppe nächstverwandte monophyletische Gruppe in einem dichotomen Baum, s. S. 30, 58, 114 Spezies-Baum - Stammbaum, der die Aufspaltungsfolge einer Artengruppe darstellt. s. S. 53, 56ff., 115 Stammart - Die Vorfahrenart, aus der eine monophyletische Gruppe entsteht, s. S. 26,28f., 58ff. Substitutionsmodelle - Austausch eines Nukleotids oder einer Aminosäure wird mittels mathematischer Modelle beschrieben. s. S. 22, 111 125
Substitutionsrate
Zufälliger Fehler
Substitutionsrate - Mittlere Anzahl von Nukleotid- oder Aminosäureaustauschen. s. S. 17ff.,51, 102 Synonyme Substitution - Der Austausch eines Nukleotids im Codon führt nicht zu einer Änderung der kodierten Aminosäure. s. S. 16 Systematischer Fehler- Fehler unterschiedlichster Art, die unabhängig von der Stichprobengröße zu einer Verzerrung des Ergebnisses führen. s. S. 48,50f. Transition - Basenaustausch zwischen Purinen (Adenin vs. Guanin) oder zwischen Pyrimidinen (Thymin vs. Cytosin). s. S. 15,47, 110 Transversion - Austausch zwischen einer Purin- und einer Pyrimidinbase. s. S. 75, 19, 22 Wright-Fisher-Modell - Das Nullmodell der mathematischen Populationsbiologie. s. S. 77,106, 109f. Zufälliger Fehler - Abweichungen, die aufgrund der Zufallsauswahl der erhobenen Daten entstehen. s.S. 48
126
Literaturhinweise
ALLGEMEINE REFERENZEN
SPEZIELLE ARBEITEN
Avise J. C: PhylogeographyrThe History and For-
Austin, J. i. et al.: Palaeontology in a molecular
mation of Species. Harvard University Press
world: the research for authentic ancient DNA.
2OOO, Cambridge, Massachusetts.
Trends in Ecology and Evolution 12 (1997):
Graur, D. und Li,W.-H.: Fundamentals of Molecular Evolution, 2nd edition. Sinauer Associates 2000,
Sunderland, MA.
Hillis, D. M. et al. (Hg.): Molecular Systematics. 2. Auflage. Sinauer Associates 1998, Sunderjand, MA. Kimura, M.:The neutral theory of molecular evolution. Cambridge University Press 1983, Cambridge. Klein, J., und Takahata, N.: Where Do We Come from: The Molecular Evidence of Human Descent. Springer-Verlag 2002, Heidelberg. Knippers, R.: Molekulare Genetik. Thieme Verlag 2001,
StuttgartLewin, B-: Genes VII. Oxford
University Press 2000, Oxford. Li, W.-H.: Molecular Evolution. Sinauer Associates 1997, Sunderland, AAA. Nelson, D. und Cox, M.: Lehninger Biochemie. 3. Auflage, Springer-Verlag 2001, Berlin. Net, M. und Kumar, S.: Molecuiar Evolution and Phylogenetics. Oxford University Press 2000, New York. Pagel, M. D. fHg.): Enydopedia of Evolution. Volume l und 2. Oxford University Press 2002, Oxford. Page, R. D. M. und Holmes, E. C: Molecuiar Evolution: A phyiogenetic approach. Blackwell Science 1998, Oxford. Swofford, D. L et al.: Phyiogenetic inference.
303-306. Cann, R. L, et a!.: Mitochondrial DNA and human evolution. Nature 325 (1987): 31-36. Dayhoff, M.O.Atlas of Protein Sequences and Structure, Vol. 5, Natl. Biomed. Res. Found. 1972, Washington, DC. Donnelly, P., und Tavare, S.: Coalescence and Genealogical Structure under Neutrality. Ann. Rev. Genet. 20 (1995): 410-421. Fitch, W. M.: Toward defining the course of evolution: Minimum change for a specific tree topology. Syst. Zoo!. 20 (1971): 406-416. von Haesele^A., et al^Thegenetical archaeology of the human genome. Nature 14 (1996): 135-140. Hillis, D. M. et al.: Experimental Phylogenetics: Generation of a known phylogeny Science 255 (1992) : 589-592. Hofreiter, M. et at.: Ancient DNA. Nature Reviews Genetics 2 (2001): 353-359. Hudson, R. R.: Gene genealogies and the coalescent process. Oxford surveys in evoiutionary biology-7 (ig9o),i-44. Janke, A., et ai.:The mitochondrial genome of a monotreme - the platypus (Ornithorhynchus anatinus)J.Mol. Evol.42 (1996): 153-159. Jukes, T. H. und Cantor, CR.: Evolution of protein molecules. In: Mammalian protein metabolism. H. N. Munro (Hg.), 21-132. Academic Press 1969, New York. Kaessmann, H., et al. DNA sequence variation in
In-. Molecular Systematics, 2. Auflage.
a non-coding region of low recombination on
Hillis D M., et al. (Hg.), Seiten 407-514, Sinauer
the human X chromosome. Nature 22 (1999):
Associates 1996, Sunderland, MA. Wageie,J.-W.:Grundlagen der Phylogenetischen
78-81. Kaessmann, H.: Great ape DNA sequences reveal
Systematik. Verlag Dr. Friedrich Pfeil 2000,
a reduced diversity and an expansion in
München.
humans. Nature Genetics 27 (2001): 155-156.
127
Literaturhinweise
Mullis, K. 8., und Faloona, F.: Specific synthesis of
5arich,V M. und Wilson, A.C.: Immunological
DNA in vitro via a polymerase catalyzed chain
time scale for hominid evolution. Science 158
reaction. Methods Enzyrmo!. 155 {1987):
(19 67} :i 200-1203.
335-350.
Satta,Y.,et al.: DNA archives and our nearest
Muse, S.V. und Weir, B. S,: Testing for equality of evolutionary rates. Genetics 132 (1992): 269276. Nikaido, M. et al.: Phylogenetic relationships
on DNA polymorphisms. Genetics 123 (1989):
from SlNEs and LINES: Hippopotamuses are
597-601.
the closest extant relatives of the whales Proc.
Tajima, F,; Statistical Tests for testing the neutral
Natl. Acad. Sei. 96 (1999): 10261-10266.
mutation hypothesis by DNA polymorphism.
Nordborg, M.:Coatescent Theory, in: The Handbook of Statistical Genetics, D.J. Balding et al. (Hg.}, 179-212, Chichester 2001.
Genetics 123 (1986): 585-595. Vigilant, L, et al.: African population and the evolution of human mitochondria! DNA. Science
Ou, C.-Y. et al.:Mofecular Epidemiology of HIV
253 (1991): 1503-1507.
transmission in a dental practice. Science 256
Watterson, G.A.: On the number of segregating
(1992): 1165-1171.
sites in genetica! models without recombination. Theor.
Pamilo, N., ur›d Nei, M.: Relationships between gene trees and species trees. Mol. Biol. Evol. 5 (1988): 568-583.
Phyl. Evol. 5 (2000): 259-275. Tajima, F.: The effect of change in population size
among cetartiodactyis based from evidence
Saitou N-, und Nei, M.:The neighbor-joining
relative: The trichotomy problem revisited. Moi.
Pop. Biol. 7 (1975): 256-276. Woese C. R.;The universal ancestor. Proc. Natl. Acad. Sei. 95: (1998): 6854-6859. Zuckerkandl, E., und Pauling, L: Evolutionary
method: A new method for reconstructing
divergence and convergence in proteins. In
phylogenetic trees. Mol. Biol. Evot. 4 (1987):
Evolving genes and proteins. V. Bryson und HJ.
406-425.
Vogel (Hg.), 97-166. Academic Press 1965, New York.
Danksagung Unser Dank geht an alle, die unser Vorhaben aktiv unterstützt haben. Für ihre Geduld bedanken wir uns besonders bei Ulrike Friedrichs und Andreas Heibig. Ganz besonders herzlich danken wir Klaus Liebers, der mit seiner Sorgfalt und reichen Erfahrung wesentlich zum Gelingen des Vorhabens beigetragen hat.
Abbildungsnachweise: Abb. 4 nach: Bayrhuber, H. und Kuli, U. (Hg,). Linder Biologie, 1989; Abb. 9 u. 11 nach: Page, R. D. M. und Holmes, E. C, 1998; Abb. 17 nach: Hitiis, D, M. et al.,1992; Abb. 24 nach: Li, W.-H., 1997; Abb. 30 nach: Kaessmann, H„ 2001; Abb. 31 nach: Weber, U. (Hg.): Biologie Oberstufe, 2001; Abb. 32 nach: von Haese!er, A., et al., 1996; Abb. 36 nach: Graur, D. und Li, W.-H., 2000; Abb. 38 nach: Nikaido, M. et al., 1999; Abb. 39 nach: Austin, j. J. et al., 1997; Abb. 40 nach: Pääbo, S.: DNA aus alter Zeit. Spektrum der Wissenschaft, Januar 1994; Abb. U3 nach: Pagel M. D. (Hg.), 2002. Da mehrere Rechteinhaber trotz aller Bemühungen nicht feststellbar oder erreichbar waren, verpflichtet sich der Verlag, nachträglich geltend gemachte rechtmäßige Ansprüche nach den üblichen Honorarsätzen zu vergüten.