Haplotyp

Haplotypen aus SNPs von Chromosomenabschnitten des gleichen Chromosoms von vier haploiden Individuen.

Als Haplotyp (von griechisch haplús oder haplóos „einfach“ und typos „Abbild, Muster“), eine Abkürzung von „haploider Genotyp“, wird eine Variante einer Nukleotidsequenz auf ein und demselben Chromosom im Genom eines Lebewesens bezeichnet. Ein bestimmter Haplotyp kann individuen-, populations- oder auch artspezifisch sein.

Die dabei verglichenen Allele können, wie beim International HapMap Project, individuelle Kombinationen von SNPs sein, die als genetische Marker benutzt werden können.^[1]

Geschichte

Der Begriff wurde 1967 von R. Ceppellini eingeführt.^[2] Er wurde ursprünglich dazu benutzt, die genetische Zusammensetzung des MHC zu beschreiben, eines Komplexes von Genen, der für das Immunsystem wichtige Proteine kodiert.

Abgrenzung zum Genotyp

Besitzt ein diploider Organismus bezüglich zweier Allele A und B den Genotyp AaBb, so können dem die Haplotypen AB|ab oder Ab|aB zugrunde liegen. Im ersteren Fall besitzt ein Chromosom die Allele A und B, das andere a und b. Im letzteren Fall besitzt ein Chromosom die Allele A und b, das andere a und B.

Bestimmung von Haplotypen

Zwei Fälle können unterschieden werden (im Folgenden bezieht sich der Begriff „Allel“ auf die unterschiedlichen Nukleotide A,C,G und T, jedoch kann z. B. auch die Anzahl der Wiederholung eines bestimmten Mikrosatelliten ein Allel definieren):

1. Haploide Spezies

Die Bestimmung der Haplotypen einer Population haploider Individuen aus derselben Spezies (z. B. verschiedene E. coli Stämme) ist trivial. Hierfür ist die Sequenzierung und Bestimmung der SNPs der gegebenen Population ausreichend (siehe Bild). Werden Individuen bei der Sequenzierung ausgelassen, so können andere darin enthaltene Allele (und die sich daraus ergebenden SNPs) natürlich nicht erfasst werden.

2. Polyploide Spezies

Ist der Ploidiegrad der betrachteten Spezies mindestens 2, so kompliziert sich das Problem (z. B. ist der Mensch diploid, die Kartoffel tetraploid und Weichweizen hexaploid). In diesem Fall wird das Genom aus zwei oder mehr homologen Chromosomensätzen zusammengesetzt, wobei in der Regel die eine Hälfte vom mütterlichen und die andere vom väterlichen Elternteil stammt. Es müssen verschiedene Arten von SNPs unterschieden werden:

2.1 Wenn sich in einem Individuum ein mütterlicher und ein väterlicher homologer Chromosomensatz in Nukleotidpositionen der DNA unterscheiden, so werden diese SNPs bei Sequenzierung der entsprechenden Chromosomen des Individuums sichtbar (es wird immer eine Mischung der homologen Chromosomen sequenziert). Solch ein SNP wird im entsprechenden Individuum heterozygoter SNP genannt.^[3]
2.2 Wenn in einem Individuum ein mütterlicher und ein väterlicher homologer Chromosomensatz in einem betrachteten Genlocus identisch ist, so werden bei Sequenzierung der DNA des Individuums keine SNPs sichtbar. Erst wenn bei mindestens einem zweiten Individuum im selben Locus ein anderes Allel gefunden wird, kann an der entsprechenden Nukleotidposition von einem SNP gesprochen werden. Solch ein SNP wird im ersten Individuum homozygoter SNP genannt, kann aber in einem anderen Individuum einen heterozygoten SNP darstellen.^[3]^[4]
2.3 Tauchen in einem SNP zwei verschiedene Allele auf (relativ zur gesamten betrachteten Population), so wird dieser SNP „biallelisch“ genannt. Finden sich drei verschiedene Allele, so wird dieser SNP „triallelisch“ und bei vier Allelen „tetraallelisch“ genannt. Ein tetraallelischer SNP enthält die maximale Anzahl an verschiedenen Allelen, da SNPs nur aus den vier Nukleotiden A,C,G und T gebildet werden können.^[4]
2.4 Diploide Spezies können prinzipiell tetraallelische SNPs besitzen, obwohl für ein Individuum nur maximal zwei Allele möglich sind.^[4]

Wird nun in einer polyploiden Population (derselben Spezies) ein SNP bestimmt, so lassen sich die Haplotypen (der Länge 1) wie in Punkt 1 direkt aus der Sequenzierung ablesen. Schon bei zwei SNPs wird es problematisch: Bei der Sequenzierung geht die Zuordnung der einzelnen Allele zu ihren ursprünglichen Chromosomen verloren. Verschiedene Kombinationen der Allele in SNP 1 und SNP 2 sind nun möglich und damit auch verschiedene Haplotypen. Die Anzahl der möglichen Haplotypen wächst exponentiell mit der Anzahl der SNPs.

Verschiedene Methoden wurden entwickelt, um Haplotypen in polyploiden Spezies zu bestimmen.

i) Experimentell:

Ein gegebenes Chromosom eines gegebenen Individuums wird mehrmals sequenziert und der entsprechende Haplotyp bestimmt. Bei jeder Sequenzierung wurde zufällig eines der homologen Chromosomen aus dem polyploiden Satz ausgewählt. Die Anzahl der Sequenzierungen wird so gewählt, dass mit einer bestimmten Wahrscheinlichkeit davon ausgegangen werden kann, dass kein Haplotyp bei der Sequenzierung ausgelassen wurde.^[4] Dies ist teuer und zeitaufwendig. In der Pflanzenzüchtung löst man das Problem durch die Erzeugung ingezüchteter Linien. In letzter Konsequenz sind die homologen Chromosomen eines Individuums aus solch einer Linie reinerbig und demnach identisch (nur homozygote SNPs in einem Individuum). Die Bestimmung der Haplotypen reduziert sich auf Punkt 1 und somit auf eine einmalige Sequenzierung eines Chromosoms bzw. Locus.

ii) Bioinformatisch:

Nicht immer sind die Mittel vorhanden, Mehrfachsequenzierungen durchzuführen oder die Möglichkeit gegeben, Inzuchtlinien zu erzeugen. Tauchen nun bei Einmalsequenzierung heterozygote SNPs in einem Individuum auf und wird mehr als ein SNP betrachtet, so können sich verschiedene mögliche Haplotypen für ein Individuum ergeben. Um aus diesen exponentiell vielen Möglichkeiten (bei linear anwachsender Anzahl an SNPs) eine biologisch sinnvolle auszuwählen, wurden verschiedene Methoden, basierend auf unterschiedlichen Annahmen, entwickelt:

ii.1) Basierend auf einem Sparsamkeitskriterium^[5] (Parsimony based, siehe auch Ockham's Razor). Diese Methode versucht, die Anzahl der Haplotypen zu minimieren, welche benötigt werden, um die SNPs einer gegebenen Population zu erklären. Es gibt verschiedene Ansätze basierend auf SAT^[3]^[4] oder Linearer Programmierung^[6] dieses Problem effizient zu lösen.
Weitere Eigenschaften: Wird unter der Annahme angewendet, dass im betrachteten Locus keine oder kaum Rekombination stattfindet. Eine gefundene Lösung ist im Sinne des Sparsamkeitskriterium immer optimal. Nicht praktikabel für großmaßstäbliche Analysen.
ii.2) Maximum-likelihood (mit Hilfe von Expectation-Maximization-Algorithmus^[7] oder Monte-Carlo-Simulation^[8]). Diese Methoden versuchen, den Satz an Haplotypen zu finden (und die entsprechende Aufteilung auf die einzelnen Individuen), so dass die durch eine gegebene Zielfunktion berechnete Wahrscheinlichkeit der beobachteten Daten maximiert wird.
Weitere Eigenschaften: Anwendbar auch bei Rekombination.^[9] Lösungen sind meist nur suboptimal, da der Algorithmus in einem lokalen Optimum endet bzw. Vereinfachungen vornehmen muss, damit eine Lösung überhaupt berechenbar ist. Praktikabel für großmaßstäbliche Analysen wenn auch suboptimale Lösung ausreichend ist.

Für die Methoden ii.1 und ii.2 ist eine Population mit mehr als einem Individuum notwendig, damit die Grundannahmen greifen und biologisch sinnvolle Aussagen gemacht werden können. Teilprobleme des Haplotypenproblems sind NP-vollständig, da sie durch SAT darstellbar sind (Satz von Cook) und im schlechtesten Fall dieselbe Komplexität wie SAT aufweisen; das Gesamtproblem ist somit NP-schwer.^[3]

Quellen

Einzelnachweise

↑ The International HapMap Consortium: The International HapMap Project. In: Nature. Band 426, 2003, S. 789–796 PDF
↑ R. Ceppellini, E. S. Curtoni, P. L. Mattiuz, V. Miggiano, G. Scudeller, A. Serra: Genetics of leucocyte antigens. A family study of segregation and linkage. In: Histocompatibility Testing. 1967, S. 149–185
↑ ^3,0 ^3,1 ^3,2 ^3,3 I. Lynce, J. P. Marques-Silva:Efficient haplotype inference with Boolean Satisfiability. National Conference on Artificial Intelligence (AAAI) 2006. PDF
↑ ^4,0 ^4,1 ^4,2 ^4,3 ^4,4 J. Neigenfind, G. Gyetvai, R. Basekow, S. Diehl, U. Achenbach, C. Gebhardt, J. Selbig, B. Kersten: Haplotype inference from unphased SNP data in heterozygous polyploids based on SAT. In: BMC Genomics. Band 9, 2008, S. 356 Zusammenfassung
↑ D. Gusfield: Haplotype inference by Pure Parsimony. In: Proceedings of the 14th annual Symposium on Combinatorial Pattern Matching. 2003, S. 144-155. PDF
↑ D. G. Brown, I. M. Harrower: A new Integer Programming formulation for the Pure Parsimony Problem in haplotype analysis. WABI 2004, S, 254-265. PDF
↑ L. Excoffier, M. Slatkin: Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population. In: Molecular Biology and Evolution. Band 12, 1995, S. 921–927
↑ Tianhua Niu, Zhaohui S. Qin,4, Xiping Xu, Jun S. Liu: Bayesian Haplotype Inference for Multiple Linked Single-Nucleotide Polymorphisms. In: American Journal of Human Genetics. Band 70, 2002, S. 157–169
↑ Shu-Yi Su, Jonathan White, David J. Balding, Lachlan J. M. Coin: Inference of haplotypic phase and missing genotypes in polyploid organisms and variable copy number genomic regions. In: BMC Bioinformatics. Band 9, 2008, S. 513

Literatur

Lexikon der Biologie. Band 7. Spektrum Akademischer Verlag, Heidelberg 2004, ISBN 3-8274-0332-4.
Benjamin Lewin: Molekularbiologie der Gene. Spektrum Akademischer Verlag, Heidelberg/Berlin 1998, ISBN 3-8274-0234-4.

Weblinks

Elke Binder: Jagd nach den Unterschieden. Das internationale „HapMap“-Projekt soll die Suche nach Krankheitsgenen erleichtern. In: Der Tagesspiegel. 26. August 2004 (online [abgerufen am 10. August 2011]).
Thema und Variation. Ein Katalog der Unterschiede im Erbgut soll die Forschung erleichtern. In: Der Tagesspiegel. 27. Oktober 2005 (online [abgerufen am 10. August 2011]).
Jan Freudenberg, Sven Cichon, Markus M. Nöthen, Peter Propping: Blockstruktur des menschlichen Genoms: Ein Organisationsprinzip der genetischen Variabilität. In: Deutsches Ärzteblatt. Band 99, Nr. 47, 2002, S. A 3190–3195 (online [abgerufen am 10. August 2011]).

[1] The International HapMap Consortium: The International HapMap Project. In: Nature. Band 426, 2003, S. 789–796 PDF

[2] R. Ceppellini, E. S. Curtoni, P. L. Mattiuz, V. Miggiano, G. Scudeller, A. Serra: Genetics of leucocyte antigens. A family study of segregation and linkage. In: Histocompatibility Testing. 1967, S. 149–185

[lynce-3] 3,0 ^3,1 ^3,2 ^3,3 I. Lynce, J. P. Marques-Silva:Efficient haplotype inference with Boolean Satisfiability. National Conference on Artificial Intelligence (AAAI) 2006. PDF

[neig-4] 4,0 ^4,1 ^4,2 ^4,3 ^4,4 J. Neigenfind, G. Gyetvai, R. Basekow, S. Diehl, U. Achenbach, C. Gebhardt, J. Selbig, B. Kersten: Haplotype inference from unphased SNP data in heterozygous polyploids based on SAT. In: BMC Genomics. Band 9, 2008, S. 356 Zusammenfassung

[5] D. Gusfield: Haplotype inference by Pure Parsimony. In: Proceedings of the 14th annual Symposium on Combinatorial Pattern Matching. 2003, S. 144-155. PDF

[6] D. G. Brown, I. M. Harrower: A new Integer Programming formulation for the Pure Parsimony Problem in haplotype analysis. WABI 2004, S, 254-265. PDF

[7] L. Excoffier, M. Slatkin: Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population. In: Molecular Biology and Evolution. Band 12, 1995, S. 921–927

[8] Tianhua Niu, Zhaohui S. Qin,4, Xiping Xu, Jun S. Liu: Bayesian Haplotype Inference for Multiple Linked Single-Nucleotide Polymorphisms. In: American Journal of Human Genetics. Band 70, 2002, S. 157–169

[9] Shu-Yi Su, Jonathan White, David J. Balding, Lachlan J. M. Coin: Inference of haplotypic phase and missing genotypes in polyploid organisms and variable copy number genomic regions. In: BMC Bioinformatics. Band 9, 2008, S. 513

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]