• Medientyp: Sonstige Veröffentlichung; Elektronische Hochschulschrift; E-Book
  • Titel: Analyse en locuteurs de collections de documents multimédia ; Speaker analysis of multimedia data collections
  • Beteiligte: Le Lan, Gaël [VerfasserIn]
  • Erschienen: theses.fr, 2017-10-06
  • Sprache: Französisch
  • Schlagwörter: Apprentissage supervisé ; Supervised training ; Unsupervised training ; Segmentation et regroupement en locuteurs ; Neural network ; Réseau de neurones ; Domain adaptation ; Adaptation au domaine ; Apprentissage non supervisé ; Speaker diarization and linking
  • Entstehung:
  • Anmerkungen: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Beschreibung: La segmentation et regroupement en locuteurs (SRL) de collection cherche à répondre à la question « qui parle quand ? » dans une collection de documents multimédia. C’est un prérequis indispensable à l’indexation des contenus audiovisuels. La tâche de SRL consiste d’abord à segmenter chaque document en locuteurs, avant de les regrouper à l'échelle de la collection. Le but est de positionner des labels anonymes identifiant les locuteurs, y compris ceux apparaissant dans plusieurs documents, sans connaître à l'avance ni leur identité ni leur nombre. La difficulté posée par le regroupement en locuteurs à l'échelle d'une collection est le problème de la variabilité intra-locuteur/inter-document : selon les documents, un locuteur peut parler dans des environnements acoustiques variés (en studio, dans la rue.). Cette thèse propose deux méthodes pour pallier le problème. D'une part, une nouvelle méthode de compensation neuronale de variabilité est proposée, utilisant le paradigme de triplet-loss pour son apprentissage. D’autre part, un procédé itératif d'adaptation non supervisée au domaine est présenté, exploitant l'information, même imparfaite, que le système acquiert en traitant des données, pour améliorer ses performances sur le domaine acoustique cible. De plus, de nouvelles méthodes d'analyse en locuteurs des résultats de SRL sont étudiées, pour comprendre le fonctionnement réel des systèmes, au-delà du classique taux d'erreur de SRL (Diarization Error Rate ou DER). Les systèmes et méthodes sont évalués sur deux émissions télévisées d'une quarantaine d'épisodes, pour les architectures de SRL globale ou incrémentale, à l'aide de la modélisation locuteur à l'état de l'art. ; The task of speaker diarization and linking aims at answering the question "who speaks and when?" in a collection of multimedia recordings. It is an essential step to index audiovisual contents. The task of speaker diarization and linking firstly consists in segmenting each recording in terms of speakers, before linking them across the ...
  • Zugangsstatus: Freier Zugang