Au delà des mots : utilisation des modèles de langage pour une synthèse vocale incrementale et adaptable au contexte linguistique ; Beyond words : leveraging language models for incremental and context-aware text-to-speech synthesis

Media type: Electronic Thesis; E-Book; Text

Title: Au delà des mots : utilisation des modèles de langage pour une synthèse vocale incrementale et adaptable au contexte linguistique ; Beyond words : leveraging language models for incremental and context-aware text-to-speech synthesis

Contributor: Stephenson, Brooke [Author]

imprint: theses.fr, 2023-09-26

Language: English

Keywords: Apprentissage profond ; Prosodie ; Deep learning ; Speech processing ; Natural language processing ; Modèle de langage ; Technologies assistives ; Traitement des langues ; Prosody ; Assistive technology ; Language model ; Traitement de la parole

Origination:

Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.

Description: Cette thèse vise à améliorer les systèmes de synthèse vocale à partir du texte en ciblant deux axes, la réactivité et la qualité. En effet, les systèmes actuels présentent un délai important car l’utilisateur doit saisir le texte d’une phrase complète avant que cette dernière ne puisse être synthétisée. Lorsque utilisé comme voix de substitution par une personne présentant un trouble de la parole, ces systèmes ne permettent donc pas une interaction communicationnelle fluide. De plus, les systèmes actuels exploitent exclusivement le texte de la phrase à synthétiser en ignorant le contexte linguistique associé (fourni par exemple par les phrases précédentes). Dans cette thèse, nous proposons d’utiliser les modèles de langage neuronaux pour, (1) prédire le texte futur, à partir du texte déjà saisi, et ainsi débuter au plut tôt la synthèse d'un ou plusieurs mots - on parlera de synthèse incrémentale (2) capturer le contexte linguistique général associé à la phrase à synthétiser pour améliorer la qualité prosodique de la synthèse - on parlera de synthèse adaptée au contexte.Dans une première étude, nous étudions l'évolution des représentations internes d'un système TTS neuronal lorsque ce dernier synthétise un mot avec une connaissance seulement partielle des mots à venir (l’horizon). Une analyse statistique (de type forêts aléatoires) est utilisée pour déterminer quels sont les descripteurs linguistiques qui influent sur la stabilité de ces représentations internes. Enfin, nous complétons ces mesures objectives par un ensemble de tests perceptifs visant à quantifier la qualité prosodique en fonction de l’horizon considéré. Ces évaluations montrent que les systèmes TTS actuels exploitent un horizon d'environ 2 mots et que la stabilité de la représentation interne d’un mot dépend fortement de sa longueur.Notre seconde contribution porte sur le couplage d’un système TTS neuronal et d’un modèle de langage autoregressif tel que GPT, afin de prédire, au fur et à mesure de la saisie du texte, les mots suivants les plus ...

Access State: Open Access

Search in field:

Recently searched for: