Forschende vor Hologramm der DNA

Biostatistik

Hochdurchsatz-Technologien liefern zwar schnell viele Daten, aber diese Flut hat auch Schattenseiten: Große Mengen biologischer und medizinischer Daten müssen erst zu Ergebnissen verarbeitet werden – mit statistischen Methoden und Modellen zur Analyse. Dabei sollen neue Konzepte aus der robusten, computergestützten Statistik und Visualisierungstechniken den Wissenschaftlern helfen, ihre Daten zu verarbeiten, besser zu verstehen und Hypothesen zu generieren und zu bestätigen. Die Projektgruppe „Biostatistik“ gehört zur Arbeitsgruppe „Zelluläre Proteomforschung“ von Lothar Jänsch.

Prof. Dr. Frank Klawonn

Leitung

Prof. Dr. Frank Klawonn
Projektleiter

Unsere Forschung

Infektionsforscher sind in den seltensten Fällen Spezialisten für computergestützte Statistik und Modellierung. Aber moderne Infektionsforschung ist geprägt von großen Datenmengen. Zelluläre Biomoleküle lassen sich durch diverse Hochdurchsatztechnologien erfassen und sind das Ziel systematischer Analysen, um die Funktion von Organismen auf molekularer Ebene aufzudecken. Diese molekularen Zusammenhänge sind essentiell für das Verständnis der Mechanismen hinter Infektionskrankheiten und für die Entwicklung neuer Medikamente.

Die Analyse von Daten aus Hochdurchsatztechnologie-Experimenten unterstützt das Auffinden neuer Zusammenhänge und die Entwicklung biologischer Hypothesen. Aber es ergeben sich auch große Einschränkungen durch den Einsatz von Hochdurchsatztechnologien, die bei der Analyse der generierten Daten berücksichtigt werden müssen:  

Am HZI werden mittels funktioneller Genomik molekulare Komponenten identifiziert, die an einer Infektion beteiligt sind.  Allerdings sind die Arten (Gene, RNA, Proteine, Metabolite …) und die Anzahl der Komponenten, die zu den beobachteten Infektionsphänotypen beitragen, zu Beginn einer Studie nicht vollständig bekannt. Wir nutzen Methoden aus den Bereichen explorative Datenanalyse, Data Mining und Korrektur für multiples Testen, um solche multivariaten Datensätze zu analysieren und Komponenten zu identifizieren, die am Infektionsprozess beteiligt sind.

Daten aus Experimenten der funktionellen Genomik sind hochkomplex, so dass die Effizienz der Analysealgorithmen eine wichtige Rolle spielt. Daher entwickelt die Projektgruppe schnelle Algorithmen und effiziente Implementierungen.   Rohdaten aus der Massenspektrometrie oder aus bildgebenden Verfahren enthalten Rauschen – aus unterschiedlichen Gründen. In der Projektgruppe entwickeln wir Methoden, mit denen wir biologisch relevante Veränderungen von Zufallseffekten unterscheiden können.

Auch wenn die von Hochdurchsatztechnologien erzeugten Datensätze in der Regel groß sind, enthalten sie fast immer nur wenige Replikate pro Experiment, was ein Problem für viele statistische Verfahren darstellt, die für größere Stichproben ausgelegt sind. Daher ist ein sorgfältiges experimentelles Design und die Auswahl geeigneter statistischer Methoden ─ z.B. Verfahren der robusten oder der Bayesschen Statistik ─ erforderlich, um zuverlässige Hypothesen in Studien zur funktionellen Genomik zu generieren.