Méthodes pour l'identification de domaines protéiques divergents ; Functional annotation of divergent genomes : application to Leishmania parasite

Media type: Text; Electronic Thesis; E-Book

Title: Méthodes pour l'identification de domaines protéiques divergents ; Functional annotation of divergent genomes : application to Leishmania parasite

Contributor: Ghouila, Amel [Author]

Published: theses.fr, 2013-12-16

Language: French

Keywords: Annotation fonctionnelle ; Protein domains ; Leishmania ; Functional annotation ; Pathogens ; Bioinformatique ; Domaines protéiques ; Plasmodium ; Pathogènes ; Bioinformatics

Origination:

Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.

Description: L'étude de la composition des protéines en domaines est une étape clé pour la détermination de ses fonctions. Pfam est l'une des banques de domaines les plus répandues où chaque domaine est représenté par un HMM profil construit à partir d'un alignement multiple de protéines contenant le domaine. La méthode classique de recherche des domaines Pfam consiste à comparer la séquence cible à la librairie complète des HMM profils pour mesurer sa ressemblance aux différents modèles. Cependant, appliquée aux protéines d'organismes divergents, cette méthode manque de sensibilité. L'objectif de cette thèse est d'apporter de nouvelles méthodes pour améliorer le processus de prédictions des domaines plus adaptées à l'étude des protéines divergentes. Les premiers travaux ont consisté en l'adaptation et application de la méthode CODD, récemment proposée, à l'ensemble des pathogènes de la base de données EuPathDB. Une base de données nommée EupathDomains (http://www.atgc-montpellier.fr/EuPathDomains/) recensant l'ensemble des domaines connus et ceux nouvellement prédits chez ces pathogènes a été mise en place à l'issue de ces travaux. Nous nous sommes ensuite attachés à proposer diverses améliorations. Nous proposons un algorithme ''CODD_exclusive'' qui utilise des informations d'incompatibilité de domaines pour améliorer la précision des prédictions. Nous proposons également une autre stratégie basée sur l'utilisation de règles d'association pour la détermination des co-occurrences de domaines utilisées dans le processus de certification. La dernière partie de cette thèse s'intéresse à l'utilisation des méthodes profil/profil pour annoter un génome entier. Couplée à la procédure d'annotation par co-occurrence, cette approche permet une amélioration notable en termes de nombre de domaines certifiés et également en termes de précision. ; The determination of protein domain composition provides strong clues for the protein function prediction. One of the most widelyused domain scheme is the Pfam database in which each family is ...

Access State: Open Access

Search in field:

Recently searched for: