• Medientyp: E-Book; Elektronische Hochschulschrift; Sonstige Veröffentlichung
  • Titel: Apprentissage auto-supervisé des relations entre sons, gestes articulatoires et unités de la parole pour le contrôle de la production : vers un agent apprenant à parler ; Self-supervised learning of the relationships between sounds, gestures and units for the control of speech production : towards an agent learning to speak
  • Beteiligte: Georges, Marc-Antoine [VerfasserIn]
  • Erschienen: theses.fr, 2023-05-31
  • Sprache: Französisch
  • Schlagwörter: Articulatory synthesis ; Representation learning ; Modèles computationels ; Computational models ; Synthèse articulatoire ; Apprentissage de représentations ; Speech production ; Production de la parole
  • Entstehung:
  • Anmerkungen: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Beschreibung: Ce travail de thèse vise à étudier, par le biais de la modélisation et de la simulation, les mécanismes d'apprentissage des relations entre les sons de la parole, les gestes articulatoires sous-jacents et les unités phonétiques. La méthodologie employée est basée sur l'apprentissage automatique profond (deep learning), avec un accent sur l'apprentissage auto ou faiblement supervisé (self-supervised learning), paradigme qui s'approche (dans une certaine mesure) de l'apprentissage humain. Pour ce faire, nous proposons un agent computationnel capable d'apprendre « à parler » de façon auto-supervisée, uniquement à partir de sons de parole issus de son environnement. D'abord, afin de rendre l'agent capable de produire des sons de parole de bonne qualité, nous élaborons un synthétiseur articulatoire, exploitant des enregistrements articulatoires et acoustiques d'un locuteur de référence et piloté par un nombre restreint de paramètres décrivant les degrés de liberté principaux de l'appareil vocal. Ensuite, nous proposons deux études visant à quantifier l'apport d'informations articulatoires sur l'apprentissage de représentations de la parole. Dans la première étude, nous simulons l'accès à des représentations articulatoires lors de la perception de la parole en évaluant, sur une tâche de débruitage, l'ajout de contraintes articulatoires sur l'espace latent d'un auto-encodeur variationnel (VAE). Dans une seconde étude, nous nous intéressons à la découverte auto-supervisée d'unités phonétiques discrètes, grâce à des auto-encodeurs variationnels quantifiés vectoriels (VQ-VAE). Nous montrons une complémentarité des informations acoustiques et articulatoires pour la structuration du dictionnaire d'unités. Enfin, nous proposons deux versions de l'agent computationnel complet, la première qualifiée d'« agent à but imitatif » et la seconde d'« agent à but communicatif ». Ces deux types d’agents doivent apprendre à parler de façon auto-supervisée, en répétant les sons de parole qu'ils perçoivent, au moyen du synthétiseur ...
  • Zugangsstatus: Freier Zugang