• Media type: E-Book; Electronic Thesis; Text
  • Title: Deep Learning-based Speaker Identification In Real Conditions ; Identification du locuteur par apprentissage profond en conditions réelles
  • Contributor: Dowerah, Sandipana [Author]
  • imprint: theses.fr, 2023-05-30
  • Language: English
  • Keywords: Speech processing ; Apprentissage profond ; Deep learning ; Speaker verification ; Identification du locuteur ; Traitement de la parole
  • Origination:
  • Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Description: Les applications telles que la vérification du locuteur sont devenues essentielles pour vérifier l'identité de l'utilisateur à partir de ses caractéristiques vocales pour des assistants personnels ou des services bancaires en ligne. Cependant, la vérification du locuteur avec une prise de son distante est constamment affectée par les bruits environnants qui peuvent considérablement déformer le signal vocal. De plus, les signaux vocaux sont réfléchis par divers objets dans la zone environnante, ce qui crée de la réverbération et dégrade encore plus la qualité du signal. Cette thèse explore les techniques de rehaussement de la parole à multicanal basées sur l'apprentissage profond pour améliorer les performances des systèmes de vérification de locuteur dans des conditions réelles. Le rehaussement de la parole multicanal vise à améliorer la qualité de la parole captée par plusieurs microphones. Elle est devenue cruciale pour de nombreux terminaux, qui sont flexibles et pratiques pour les applications vocales. Trois approches novatrices sont proposées pour améliorer la robustesse au bruit du système de vérification de locuteur. Tout d'abord, nous intégrons une architecture de réseau neuronal profond avec des techniques de traitement du signal pour le rehaussement de la parole en tant que prétraitement d'un système de vérification de locuteur basé sur les x-vecteurs. Nous examinons l'importance d'effectuer aussi un prétraitement pendant la phase d'enrôlement du locuteur, ce qui a été largement négligé dans la littérature. L'évaluation expérimentale montre que le prétraitement les performances de vérification de locuteur si les fichiers d'enrôlement sont traités de manière similaire à ceux de test,et si le test et l'enregistrement se font dans des plages de signal à bruit similaires. Nous proposons ensuite de mettre en œuvre des modèles de diffusion probabilistes basés sur des scores pour le rehaussement de parole multicanal en tant que front-end d'un système ECAPA-TDNN de vérification de locuteur. Nous mettons ...
  • Access State: Open Access