• Media type: Electronic Thesis; E-Book; Text
  • Title: Expressivity transfer in deep learning based text-to-speech synthesis ; Synthèse vocale expressive basée sur un apprentissage profond
  • Contributor: Kulkarni, Ajinkya [Author]
  • imprint: theses.fr, 2022-07-07
  • Language: English
  • Keywords: Apprentissage profond ; Deep learning ; Speech processing ; Text to speech ; Synthèse de parole à partir du texte ; Traitement de la parole
  • Origination:
  • Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Description: Bien que la synthèse de parole à partir du texte ait connu ces dernières années un immense succès dans le domaine de l'interaction homme-machine, les systèmes actuels sont perçus comme monotones en raison de l'absence d'expressivité. L'expressivité dans la parole réfère généralement aux caractéristiques suprasegmentales représentées par les émotions, les styles d'expression, les gestes et expressions faciales, etc. Une synthèse vocale expressive devrait permettre d'améliorer considérablement l'expérience utilisateur avec les machines. Le développement d'un système de synthèse de parole expressive dépend fortement des données vocales disponibles. Cette thèse vise à développer un système de synthèse de parole expressive dans la voix d'un locuteur pour lequel seules des données vocales neutres sont disponibles. L'objectif principal de la thèse est d'étudier des approches d'apprentissage profond pour explorer le désenchevêtrement des informations locuteur et d'expressivité dans un contexte de synthèse de parole multilocuteur. Le contexte d'application concerne l'expressivité en tant qu'émotion avec des classes d'émotion bien définies. Nous proposons différentes architectures de réseaux neuronaux profonds pour créer des représentations latentes du locuteur et de l'expressivité dans des configurations de synthèse de parole multilocuteurs. Pour le transfert de l'expressivité, les représentations de l'expressivité et du locuteur sont utilisées pour synthétiser la parole expressive dans la voix du locuteur souhaité. Nous utilisons également le critère multiclass N-Pair loss lors de l'apprentissage pour améliorer la représentation latente de l'expressivité (meilleure séparation des émotions dans l'espace latent), ce qui permet d'améliorer le transfert d'expressivité. Nous étudions également les modèles génératifs profonds permettant une modélisation tractable et évolutive de données vocales complexes et hautement dimensionnelles, ces modèles étant reconnus pour une synthèse vocale de haute qualité. Nous avons enrichi ces ...
  • Access State: Open Access