Bioinformatik


Oberflächenprotein eines Influenza-Virus (Modell)

Die Bioinformatik (englisch bioinformatics, auch {{Modul:Vorlage:lang}} Modul:Multilingual:149: attempt to index field 'data' (a nil value)) ist eine interdisziplinäre Wissenschaft, die Probleme aus den Lebenswissenschaften mit theoretischen computergestützten Methoden löst. Sie hat zu grundlegenden Erkenntnissen der modernen Biologie und Medizin beigetragen. Bekanntheit in den Medien erreichte die Bioinformatik in erster Linie 2001 mit ihrem wesentlichen Beitrag zur Sequenzierung des menschlichen Genoms.

Bioinformatik ist ein weitgefächertes Forschungsgebiet, sowohl was die Problemstellungen als auch die angewandten Methoden angeht. Wesentliche Gebiete der Bioinformatik sind die Verwaltung und Integration biologischer Daten, die Sequenzanalyse, die Strukturbioinformatik, die Analyse von Daten aus Hochdurchsatzmethoden (~omics). Da Bioinformatik unentbehrlich ist, um Daten im großen Maßstab zu analysieren, bildet sie einen wesentlichen Pfeiler der Systembiologie.

Der Bioinformatik wird im englischen Sprachraum oft die computational biology gegenübergestellt, die einen weiteren Bereich als die klassische Bioinformatik abdeckt, meist benutzt man beide Begriffe jedoch synonym.

Bioinformatik ist mittlerweile eine etablierte eigenständige Wissenschaft, die zu den Grundlagenwissenschaften der Biologie und Medizin zählt, und als solche in Deutschland an vielen Standorten studiert werden kann (siehe auch: Studium Bioinformatik).

Datenverwaltung

Die rasch wachsende Menge biologischer Daten, insbesondere DNA- und Proteinsequenzen, deren Kommentierung (die Annotation), 3D-Proteinstrukturen, Interaktionen biologischer Moleküle und Hochdurchsatzdaten von beispielsweise Microarrays stellt besondere Anforderungen an die Handhabung dieser Daten. Ein wichtiges Problem der Bioinformatik besteht daher in der Datenaufbereitung und Speicherung in geeignet indizierten und verlinkten biologischen Datenbanken. Die Vorteile liegen dabei in der einheitlichen Struktur, der leichteren Durchsuchbarkeit und der Automatisierbarkeit von Analysen durch Software.

Eine der ältesten biologischen Datenbanken ist die Protein Data Bank, PDB, für Daten über 3D-Strukturen biologischer Makromoleküle, zumeist Proteine. In den 80er Jahren wurden Datenbanken zur Verwaltung von Nukleotidsequenzen (EMBL Data Library, GenBank) und Aminosäuresequenzen (Protein Information Resource, Swiss-Prot) aufgebaut. Die in der Internationalen Nukleotidsequenz-Datenbank-Zusammenarbeit zusammengeschlossenen Nukleotidsequenz-Datenbanken sind als Primärdatenbanken Archive von Originaldaten, die von den Forschern selbst eingereicht werden. Demgegenüber stellt UniProt, der Zusammenschluss aus PIR und Swiss-Prot, qualitativ hochwertige, von Experten gepflegte und annotierte Einträge von Proteinsequenzen mit umfangreichen Informationen zu jedem einzelnen Protein bereit, die ergänzt werden durch aus der EMBL-Bank automatisch translatierte Proteinsequenzen ohne weitere Annotation.

Andere Datenbanken enthalten wiederkehrende Motive in Proteinsequenzen (Pfam), Informationen über Enzyme und biochemische Komponenten (BRENDA, KEGG LIGAND und ENZYME), über Protein-Protein-[1] oder Protein-DNA-Wechselwirkungen (TRANSFAC), über Stoffwechsel- und regulatorische Netzwerke (KEGG, REACTOME), sowie vieles mehr.

Der Umfang der einzelnen Datenbanken wächst teilweise exponentiell.[2] Auch die Anzahl einschlägiger Datenbanken wächst beständig (über 350 weltweit).[3] Bei der Suche nach relevanten Informationen werden daher Bioinformatik-Meta-Suchmaschinen (Bioinformatik-Harvester, Entrez, EBI SRS) häufig benutzt, um entsprechende Informationen zu finden.

Die Vielfalt an weltweit verfügbaren Datenbanken führt oft zu redundanter und damit fehleranfälliger Datenhaltung, zumal DNA-Sequenzen teils in Fragmenten, teils in vollständig assemblierten Genomen vorliegen. Idealerweise würde die Speicherung von Genom- und Proteomdaten eine Rekonstruktion der Regelwerke eines gesamten Organismus erlauben. An der dazu erforderlichen Abbildung von identifizierten Proteinen auf die sie kodierenden Gene und umgekehrt, an den Verknüpfungen untereinander zur Repräsentation ihrer Wechselwirkungen sowie an der Zuordnung von Proteinen zu metabolischen und regulatorischen Pfaden wird intensiv gearbeitet.

Eine weitere Aufgabe bei der Datenintegration ist das Erstellen von kontrollierten Vokabularien und Ontologien, die eine Zuordnung von Funktionsbezeichnungen quer durch alle Ebenen ermöglichen. Das Gene Ontology-Konsortium (GO) versucht derzeit, eine konsistente Nomenklatur für die molekulare Funktion, den biologischen Prozess und die Zelllokalisation von Gen-Produkten zu erstellen.

Sequenzanalyse

Die ersten reinen Bioinformatikanwendungen wurden für die DNA-Sequenzanalyse und für Sequenzvergleiche entwickelt. Bei der Sequenzanalyse geht es in erster Linie um das schnelle Auffinden von Mustern in Protein- oder DNA-Sequenzen. Beim Sequenzvergleich (sequence alignment) geht es um die Frage, ob zwei Gene oder Proteine miteinander verwandt („homolog“) sind. Dazu werden die Sequenzen so übereinander gelegt und gegeneinander ausgerichtet, dass eine möglichst gute Übereinstimmung erzielt wird. Ist die Übereinstimmung signifikant besser als durch zufällige Ähnlichkeit zu erwarten wäre, kann man auf Verwandtschaft schließen: bei Genen und Proteinen impliziert Verwandtschaft stets ähnliche Struktur und meist ähnliche Funktion. Die zentrale Bedeutung des Sequenzvergleichs für die Bioinformatik liegt demnach in ihrem Einsatz für die Sequenz- und Strukturvorhersage unbekannter Gene. Zur Anwendung kommen dabei Algorithmen der dynamischen Programmierung und heuristische Algorithmen. Die dynamische Programmierung liefert optimale Lösungen, ist aber wegen der benötigten Computerresourcen in der Praxis nicht auf sehr lange Sequenzen oder sehr große Datenbanken anwendbar. Heuristische Algorithmen eignen sich zur Durchsuchung der großen, global verfügbaren Datenbanken, die sämtliche bekannten Sequenzen archivieren; sie garantieren zwar keine optimalen Ergebnisse, leisten aber dennoch so gute Dienste, dass die tägliche Arbeit des Bioinformatikers und Molekularbiologen ohne den Einsatz beispielsweise des BLAST-Algorithmus nicht möglich wäre. Weitere häufig verwendeten Algorithmen, die je nach Einsatzgebiet unterschiedliche Funktionen erfüllen, sind FASTA, Needleman-Wunsch oder Smith-Waterman.

Seltener benötigt man bei biologischen Fragestellungen die Suche nach exakten Übereinstimmungen von kurzen Sequenzenabschnitten, typischerweise für Schnittstellen von Restriktionsenzymen in DNA Sequenzen, gegebenenfalls auch von Sequenzmustern in Proteinen, aus der PROSITE Datenbank.

Eine große Rolle spielt die Bioinformatik auch bei der Genomanalyse. Die in kleinen Einheiten sequenzierten DNA-Bruchstücke werden mit Hilfe bioinformatischer Methoden zu einer Gesamtsequenz zusammengefügt.

Des Weiteren wurden Methoden zum Auffinden von Genen in unbekannten DNA-Sequenzen entwickelt (Genvorhersage, engl. gene finding oder gene prediction). Dieses Problem wird mit verschiedenen Rechenmethoden und Algorithmen angegangen, darunter statistische Sequenzanalyse, Markow-Ketten, künstliche neuronale Netze zur Mustererkennung, etc.

Sowohl anhand von DNA- als auch von Aminosäuresequenzen lassen sich phylogenetische Bäume erstellen, die die evolutionäre Entwicklung der heutigen Lebewesen aus größtenteils unbekannten und daher hypothetischen Vorfahren darstellen.

Strukturbioinformatik

Computergestützte Visualisierung des Glucocorticoid-Rezeptors (PDB 1GLU) gebunden an ein kurzes DNA-Molekül mit spezifischer Nukleotidsequenz. Die Oberfläche des Proteins wurde nach den elektrostatischen Eigenschaften gefärbt. Erstellt mit BALLView.

Mit der Aufklärung und weitreichenden Funktionsanalyse verschiedener vollständiger Genome verlagert sich der Schwerpunkt bioinformatischer Arbeit auf Fragestellungen der Proteomik, wie z. B. dem Problem der Proteinfaltung und Strukturvorhersage, also der Frage nach der Sekundär- oder Tertiärstruktur bei gegebener Aminosäuresequenz. Auch die Frage nach der Interaktion von Proteinen mit verschiedenen Liganden (Nukleinsäuren, anderen Proteinen oder auch kleineren Molekülen) wird untersucht, da sich daraus neben Erkenntnissen für die Grundlagenforschung auch wichtige Informationen für Medizin und Pharmazie ableiten lassen, beispielsweise darüber, wie ein durch eine Mutation verändertes Protein Körperfunktionen beeinflusst, oder welche Medikamente in welcher Weise an verschiedenen Proteinen wirken.

Siehe auch

Literatur

  • Gibas und Jambek: Einführung in die praktische Bioinformatik, O'Reilly, 2002, ISBN 3-89721-289-7
  • Nicola Gaedeke: Biowissenschaftlich recherchieren: Über den Einsatz von Datenbanken und anderen Ressourcen der Bioinformatik, Birkhäuser, 2007, ISBN 3-7643-8525-1
  • Reeves GA, Talavera D, Thornton JM: Genome and proteome annotation: organization, interpretation and integration. In: J R Soc Interface. 6. Jahrgang, Nr. 31, Februar 2009, S. 129–47, doi:10.1098/rsif.2008.0341, PMID 19019817, PMC 2658791 (freier Volltext) – (royalsocietypublishing.org).

Weblinks

Commons: Bioinformatik – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise

  1. IntAct Protein-Interaktions-Datenbank am EBI
  2. GenBank-Wachstum, Statistik 1982-2008
  3. Galperin MY, Cochrane GR: The 2011 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection. In: Nucleic Acids Res. 39. Jahrgang, 2011, S. D1-D6.

News mit dem Thema Bioinformatik

Die News der letzten Tage