Hochschulschrift:
Dissertation, Universität Freiburg, 2020
Anmerkungen:
Beschreibung:
Abstract: Im gegenwärtigen Zeitalter der biologischen Forschung wird eine beispiellose Menge an quantitativen hochdimensionalen Daten erhoben. Insbesondere im Bereich der Molekular- und Zellbiologie wurden umfangreiche öffentliche Datenbanken eingerichtet, um die Fülle von Hochdurchsatzdaten verfügbar zu machen. Die Integration solcher Daten ist jedoch eine Herausforderung. Um Meta-Analysen durchzuführen oder öffentliche Datenbanken zur Unterstützung einzelner Experimente zu verwenden, ist eine angemessene Normalisierung entscheidend. Auch die Bewertung von Hypothesentests hinsichtlich der biologischen Relevanz ist für hochdimensionale Daten schwierig durchzuführen und erfordert im Allgemeinen Domänenexpertise. Diese beiden Engpässe werden in dieser Arbeit durch die Entwicklung von zwei Algorithmen adressiert: ein Normalisierungsalgorithmus, der systematische Fehlerkorrektur durch die Nutzung von erkennbaren Redundanzen in öffentlichen Datenbanken durchführt und ein empirisches Maß der biologischen Relevanz, welches geeignete Nullverteilungen für verschiedene Teststatistiken bereitstellt. Beide Engpässe wurden durch die Einrichtung von Workflows für die Verarbeitung von Hochdurchsatzdaten im Rahmen von zwei großen Forschungskonsortien identifiziert, die sich mit den Auswirkungen verschiedener Perturbationen auf die Systemeigenschaften von Krankheiten befassen. Insgesamt stellt diese Arbeit einen neuen Blickwinkel auf wichtige Herausforderungen in der quantitativen Biologie da und stellt zwei Algorithmen vor, die in Softwarepaketen implementiert sind um diese anzugehen