• Medientyp: E-Book; Elektronische Hochschulschrift; Sonstige Veröffentlichung
  • Titel: Implicit and explicit phase modeling in deep learning-based source separation ; Modélisation implicite et explicite de la phase dans la séparation de sources par apprentissage profond
  • Beteiligte: Pariente, Manuel [VerfasserIn]
  • Erschienen: theses.fr, 2021-09-29
  • Sprache: Englisch
  • Schlagwörter: Apprentissage profond ; Modelisation ; Speech ; Deep learning ; Modélisation ; Parole
  • Entstehung:
  • Anmerkungen: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Beschreibung: Qu'elle soit traitée par des humains ou des machines, la parole occupe une place centrale dans notre vie quotidienne. Cependant, les distorsions dues au le bruit ou à la parole superposée réduisent à la fois la compréhension humaine et les performances des machines. La séparation de sources audio et le rehaussement de la parole visent à résoudre ce problème. La plupart des approches traditionnelles s'appuient sur l’amplitude de la transformée de Fourier à court terme (STFT), ce qui élimine la phase. Grâce à leur pouvoir de représentation accru, les réseaux de neurones profonds ont récemment permis de relâcher cette hypothèse et d'exploiter l'information spectro-temporelle fine fournie par la phase. Dans cette thèse, nous étudions l'impact de la modélisation implicite et explicite de la phase dans les modèles profonds discriminatifs et génératifs avec des applications à la séparation de sources et au rehaussement de la parole. Dans un premier temps, nous considérons la tâche de séparation discriminative de sources basée sur le cadre encodeur-masqueur-décodeur popularisé par TasNet. Nous proposons une vue unifiée des bancs de filtres appris et fixes et nous étendons deux bancs de filtres apprenables précédemment proposés en les rendant analytiques, permettant ainsi le calcul de la magnitude et de la phase de la représentation. Nous étudions la quantité d'information fournie par les composantes de magnitude et de phase en fonction de la taille de la fenêtre. Les résultats obtenus sur le jeu de données WHAM montrent que, pour tous les bancs de filtres, les meilleures performances sont obtenues pour des fenêtres courtes de 2 ms et que, pour des fenêtres aussi courtes, la modélisation de la phase est effectivement cruciale. Il est intéressant de noter que cela vaut également pour les modèles basés sur la STFT, qui surpassent même les performances du masquage d’amplitude oracle. Ces travaux ont constitué la base d'Asteroid, la boîte à outils de séparation de sources audio pour les chercheurs basée sur PyTorch, dont ...
  • Zugangsstatus: Freier Zugang