Informed audio source separation with deep learning in limited data settings ; Séparation de sources audio informée par apprentissage profond avec des données limitées

Medientyp: Sonstige Veröffentlichung; E-Book; Elektronische Hochschulschrift

Titel: Informed audio source separation with deep learning in limited data settings ; Séparation de sources audio informée par apprentissage profond avec des données limitées

Beteiligte: Schulze-Forster, Kilian [VerfasserIn]

Erschienen: theses.fr, 2021-12-09

Sprache: Englisch; Französisch

Schlagwörter: Apprentissage profond ; Signal processing ; Audio source separation ; Séparation de sources audio ; Traitement du signal ; Deep learning

Entstehung:

Anmerkungen: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.

Beschreibung: La séparation de sources audio consiste à estimer les signaux individuels de plusieurs sources sonores lorsque seul leur mélange peut être observé. Des réseaux neuronaux profonds entraînés de manière supervisée permettent d'obtenir des résultats de l'état de l'art pour les signaux musicaux. Ils nécessitent de grandes et diverses bases de données composées de mélanges pour lesquels les signaux des sources cibles sont disponibles de manière isolée. Cependant, il est difficile et coûteux d'obtenir de tels ensembles de données car les enregistrements musicaux sont soumis à des restrictions de droits d'auteur et les enregistrements d'instruments isolés n'existent pas toujours. Dans cette thèse, nous explorons l'utilisation d'informations supplémentaires pour la séparation de sources par apprentissage profond, afin de s’affranchir d’une quantité limitée de données disponibles. D'abord, nous considérons un cadre supervisé avec seulement une petite quantité de données disponibles. Nous étudions dans quelle mesure la séparation de la voix chantée peut être améliorée lorsqu'elle est informée par des transcriptions de paroles. Nous proposons un nouveau modèle d'apprentissage profond pour la séparation de sources informée. Ce modèle permet d’aligner le texte et l'audio pendant la séparation en utilisant un nouveau mécanisme d'attention monotone. La qualité de l'alignement des paroles est compétitive par rapport à l'état de l'art, alors qu'une quantité plus faible de données est utilisée. Nous constatons que l'exploitation des phonèmes alignés peut améliorer la séparation de la voix chantée, mais un alignement précis et des transcriptions exactes sont nécessaires.Enfin, nous considérons un scénario où seuls des mélanges, mais aucun signal source isolé, sont disponibles pour l'apprentissage. Nous proposons une nouvelle approche d'apprentissage profond non supervisé. Elle exploite les informations sur les fréquences fondamentales (F0) des sources. La méthode intègre les connaissances du domaine sous la forme de modèles de ...

Zugangsstatus: Freier Zugang

Nur in Feld suchen:

Zuletzt gesuchte Begriffe: