Optimizing machine learning techniques for genomics clustering ; Optimisation des techniques d’apprentissage automatique pour le clustering génomique

Medientyp: unbewegtes Bild; E-Book; Elektronische Hochschulschrift; Sonstige Veröffentlichung

Titel: Optimizing machine learning techniques for genomics clustering ; Optimisation des techniques d’apprentissage automatique pour le clustering génomique

Beteiligte: Matar, Johny [VerfasserIn]

Erschienen: theses.fr, 2021-12-16

Sprache: Englisch

Schlagwörter: Matrices d'affinité ; Tests statistiques ; MOTIFS-based spectral clustering ; Parallel computation ; Clustering CHAINS ; Affinity matrices ; Clustering quality analysis ; Calcul parallèle ; Statistic tests ; Gaussian mixture model ; Modèle de mélange gaussien ; CHAINS clustering ; Eigenmaps laplaciennes ; Biological sequences clustering ; Clustering spectral basé sur des MOTIFS ; Spectral clustering ; Genomics ; Clustering de séquences biologiques ; Analyse de qualité de clustering ; Génomique ; Alignement de séquences ; Clustering spectral ; Laplacian Eigenmaps ; Sequences alignment

Entstehung:

Anmerkungen: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.

Beschreibung: Dans le domaine de la bioinformatique, le clustering est une technique efficace pour l'analyse des séquences. Le clustering spectral a récemment été introduit comme un nouvel acteur dans ce domaine. C’est une technique efficace pour le clustering de séquences bien séparées et les GMM sont souvent capables de partitionner des groupes qui intersectent. Pourtant, les outils de clustering disponibles, pour les séquences biologiques, présentent de nombreux obstacles: i- les plus utilisés nécessitent un choix précis d'un seuil d'identité ou de similarité qui n'est pas toujours évident, ii- la plupart d'entre eux ne sont pas conçus pour regrouper des séquences assez divergentes, et iii- une technique récente, qui repose sur le clustering spectral, et qui ne nécessite aucune connaissance préalable des propriétés des séquences d'entrée, est assez lente et n'a pas été suffisamment validée. De plus, les performances de plusieurs techniques de clustering bien connues ne sont toujours pas évaluées dans le domaine du clustering de séquences biologiques.Tout d'abord, étant donné que la technique récente qui repose sur le clustering spectral offre une solution aux obstacles connus des outils traditionnels, des solutions à ses propres obstacles seront visée. Cette amélioration est basée sur la réduction du temps requis pour le calcul d'affinité par paires de séquences. La solution proposée est d'adopter un schéma de calcul parallèle pour ce calcul. Cette solution a été implémentée, selon l'architecture distribuée maître/esclave, en utilisant la MPI, et a montré une amélioration considérable du temps de calcul. De plus, l'outil de clustering résultant, nommé SpCLUST, a été intensivement évalué sur des ensembles de données génomiques et protéiques. Les résultats du clustering ont été comparés à celui des outils traditionnels les plus connus, tels que UCLUST, CD-HIT et DNACLUST. La comparaison a montré que SpCLUST surpasse les autres outils lors du regroupement de séquences divergentes.Ensuite, d'autres améliorations de SpCLUST, en ...

Zugangsstatus: Freier Zugang

Nur in Feld suchen:

Zuletzt gesuchte Begriffe: