• Media type: Text; Electronic Thesis; E-Book
  • Title: Automatic Discovery of Hidden Associations Using Vector Similarity : Application to Biological Annotation Prediction ; Découverte automatique des associations cachées en utilisant la similarité vectorielle : application à la prédiction de l'annotation biologique
  • Contributor: Alborzi, Seyed Ziaeddin [Author]
  • imprint: theses.fr, 2018-02-23
  • Language: English
  • Keywords: Biological databases ; Vector similarity ; Domain-domain interactions ; Annotation fonctionnelle des protéines ; Règles d'associations ; Graphes tripartites ; Similarité vectorielle ; Functional annotation of proteins ; Association rules ; Bases de données biologiques ; Domaines protéiques ; Protein domains ; Interactions domaine-domaine ; Tripartite graphs
  • Origination:
  • Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Description: Cette thèse présente: 1) le développement d'une nouvelle approche pour trouver des associations directes entre des paires d'éléments liés indirectement à travers diverses caractéristiques communes, 2) l'utilisation de cette approche pour associer directement des fonctions biologiques aux domaines protéiques (ECDomainMiner et GODomainMiner) et pour découvrir des interactions domaine-domaine, et enfin 3) l'extension de cette approche pour annoter de manière complète à partir des domaines les structures et les séquences des protéines. Au total, 20 728 et 20 318 associations EC-Pfam et GO-Pfam non redondantes ont été découvertes, avec des F-mesures de plus de 0,95 par rapport à un ensemble de référence Gold Standard extrait d'une source d'associations connues (InterPro). Par rapport à environ 1500 associations déterminées manuellement dans InterPro, ECDomainMiner et GODomainMiner produisent une augmentation de 13 fois le nombre d'associations EC-Pfam et GO-Pfam disponibles. Ces associations domaine-fonction sont ensuite utilisées pour annoter des milliers de structures de protéines et des millions de séquences de protéines pour lesquelles leur composition de domaine est connue mais qui manquent actuellement d'annotations fonctionnelles. En utilisant des associations de domaines ayant acquis des annotations fonctionnelles inférées, et en tenant compte des informations de taxonomie, des milliers de règles d'annotation ont été générées automatiquement. Ensuite, ces règles ont été utilisées pour annoter des séquences de protéines dans la base de données TrEMBL ; This thesis presents: 1) the development of a novel approach to find direct associations between pairs of elements linked indirectly through various common features, 2) the use of this approach to directly associate biological functions to protein domains (ECDomainMiner and GODomainMiner), and to discover domain-domain interactions, and finally 3) the extension of this approach to comprehensively annotate protein structures and sequences. ECDomainMiner and ...
  • Access State: Open Access