Shotgun Sequencing

Shotgun Sequencing bzw. Schrotschusssequenzierung ist in der Molekularbiologie eine Methode zur Sequenzierung langer DNA-Stränge. Sie wurde von Frederick Sanger 1982 entwickelt. Hierbei wird die DNA mehrfach kopiert und die Kopien werden zufällig in zahlreiche kleine Fragmente von 300 – 1000 Basenpaare fragmentiert, die anschließend sequenziert werden. Die Fragmente werden mit Methoden aus der Bioinformatik auf Überlappungen untersucht und automatisiert zu einer Konsensussequenz mit möglichst wenigen Lücken zusammengesetzt.

Das Verfahren ist viel schneller als herkömmliche Sequenzierungsalgorithmen. Craig Venter hat 1995 das Verfahren durch den Einsatz von Bioinformatik revolutioniert. Anstatt (wie bisher) die Fragmente kartieren zu müssen, um zu wissen, wo welches Fragment im Genom ist, benutzte Venter Computer zur Rekonstruktion des Genoms aus den nun völlig zufällig sequenzierten Bereichen des Genoms. Dies wurde möglich, da die Sequenziergeräte immer billiger und schneller wurden. Nur mit dieser Technik konnte das menschliche Genom sequenziert werden.

Motivation

Mit aktuellen Sequenzierverfahren kann man Präfixe von DNA-Strängen von ca. 800 Basen an einem Stück sequenzieren. Danach bricht das Verfahren ab, oder die gewonnene Sequenzinformation wird zu ungenau. Das menschliche Genom ist ca. 3 Milliarden Basen, das Genom einer Fruchtfliege ist ca. 200 Millionen Basen und das Genom des Bakteriums Escherichia coli ist ca. 4,6 Millionen Basen lang. Das heißt, man kann Genome aufgrund ihrer Länge nicht einfach am Stück sequenzieren.

Verfahren

Die Sequenzierung mit dem Shotgun-Verfahren wird in mehrere Phasen eingeteilt:

Fragmentierung der DNA und Sequenzierung der Fragmente (Fragmentierungs-Phase)
Feststellung von Überlappungen zwischen den Fragment-Sequenzen (Overlap-Phase)
Berechnung eines multiplen Alignments der Fragmente (Layout-Phase)
Ermittlung der Konsensus-Sequenz (Konsensus-Phase)

Fragmentierungs-Phase

Die Fragmente werden zufällig erzeugt, indem mechanische Scherkräfte auf die DNA einwirken (beispielsweise Ultraschall). Daher auch der Name Shotgun-Sequenzierung, da die Verteilung des Schrots im Ziel auch zufällig ist. Ein sequenziertes Fragment wird auch als read bezeichnet.

Overlap-Phase

Um den Überlapp zwischen $$ n $$ sequenzierten Fragmenten festzustellen, müssen ${\tbinom {n}{2}}\in O(n^{2})$ Vergleiche durchgeführt werden. Bei Verwendung von einem modifizierten Standard-DP-Sequenzalignment-Algorithmus, liegt ein Vergleich in $O(m^{2})$ , wobei $$ m $$ die maximale Fragmentlänge ist. Deshalb werden in der Praxis auch effizientere heuristische Techniken verwendet (z.B. durch Verwendung von BLAST).

Layout-Phase

Die Information der Overlap-phase wird verwendet um die Fragmente überlappend anzuordnen. Dieser Prozess wird mit Hilfe von Algorithmen der Bioinformatik automatisiert durchgeführt. In Abhängigkeit von der Abdeckung (coverage) der Eingabesequenz mit den zufällig erzeugten Fragmenten, sind nach der Anordnung der Fragmente Lücken in diesem Alignment der Fragmente (Layout) vorhanden. Diese durch Lücken voneinander getrennten Inseln von Fragment-Alignments werden auch als Contigs bezeichnet.

Wiederholungen in der Eingabe DNA-Sequenz (repeats) sind problematisch, da in der Layout-Phase die Fragmente die Stücke eines repeats enthalten, falsch angeordnet werden können. Es kann zu einer Komprimierung der konstruierten Konsensussequenz kommen. Durch statistische Verfahren (z.B. Poisson-Verteilung (Lander-Waterman Statistik)) können solche Stellen erkannt und gesondert behandelt werden.

Wenn auch bei einer hohen Abdeckung Lücken vorhanden sind, dann können Lücken durch andere Verfahren, beispielsweise durch Primer-Walking, geschlossen werden.

Varianten

Es wird zwischen whole-genome-shotgun-sequencing und clone-by-clone-sequencing unterschieden. Whole-genome-shotgun-sequencing wird auch als double-barrel-shotgun-sequencing bezeichnet, da hierbei die zufällig erzeugten Fragmente (> 2 × 800 Basen) von beiden Enden sequenziert werden. Die beiden Enden eines Fragments werden auch als mate pairs bezeichnet. Die Länge, und die beiden Endsequenzen jedes Fragmentes werden in der späteren Assemblierungsphase der Fragmente verwendet. Aus diesen Informationen wird ein Gerüst (scaffold) erstellt, an dem Inseln von überlappenen Fragmenten (contigs), ausgerichtet werden, wenn jeweils ein Fragment eines mate-pairs auf unterschiedlichen Contigs liegt.

Bei der clone-by-clone-Sequenzierung wird das Genom zuerst mit Restriktionsenzymen in mehrere überlappende Bereiche geschnitten. Die einzelnen Bereiche werden kloniert und es wird eine physikalische Karte der Klone in dem Genom erstellt (d.h. die Reihenfolge und die Orientierung der Sequenzen der Clone wird durch Untersuchung auf genetische Marker ermittelt, Physical Mapping). Danach wird jede Clone-Sequenz einzeln Shotgun-sequenziert und mit Hilfe der physikalischen Karte kann eine komplette Konsensussequenz abgeleitet werden.

Siehe auch

Celera Assembler – ein konkretes whole-Genome-shotgun-sequencing Programmpaket

Weblinks

Daniel Huson, Algorithms in Bioinformatics (Vorlesungsscript). Kapitel Sequence Assembly, Seiten 88-110, 2004 (PDF-Datei; 1,49 MB)
Prof. Tesler, Lander-Waterman Statistics for Shotgun Sequencing (Folien). Apr. 2008 (PDF-Datei, englisch)

Literatur

R. Merkl, S. Waack: Bioinformatik Interaktiv. WILEY-VCH, 2003, ISBN 3-527-30662-5, S. 313–324.
Dan Gusfield: Algorithms on strings, trees, and sequences. Cambridge University Press, 1999, ISBN 0-521-58519-8, S. 420 ff. (Shotgun Sequencing).
Rolf Knippers: Molekulare Genetik. 8. Auflage. Georg Thieme Verlag, 2001, ISBN 3-13-477008-3, S. 465–470.
S.B. Primrose, R.M. Twyman: Principles of Gene Manipulation and Genomics. 7. Auflage. Blackwell Publishing, 2006, ISBN 1-4051-3544-1, S. 362–371.