Structuration du modèle acoustique pour améliorer les performance de reconnaissance automatique de la parole ; Acoustic model structuring for improving automatic speech recognition performance

Media type: Text; Electronic Thesis; E-Book

Title: Structuration du modèle acoustique pour améliorer les performance de reconnaissance automatique de la parole ; Acoustic model structuring for improving automatic speech recognition performance

Contributor: Gorin, Arseniy [Author]

imprint: theses.fr, 2014-11-26

Language: English

Keywords: Reconnaissance de la parole ; Modèles de classes de locuteurs ; Speech recognition ; Variabilité de locuteur ; Speaker variability ; Classification non supervisée ; Stochastic trajectory modeling ; Modèles stochastiques de trajectoire ; Speaker class modeling ; Unsupervised clustering

Origination:

Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.

Description: Cette thèse se concentre sur la structuration du modèle acoustique pour améliorer la reconnaissance de la parole par modèle de Markov. La structuration repose sur l’utilisation d’une classification non supervisée des phrases du corpus d’apprentissage pour tenir compte des variabilités dues aux locuteurs et aux canaux de transmission. L’idée est de regrouper automatiquement les phrases prononcées en classes correspondant à des données acoustiquement similaires. Pour la modélisation multiple, un modèle acoustique indépendant du locuteur est adapté aux données de chaque classe. Quand le nombre de classes augmente, la quantité de données disponibles pour l’apprentissage du modèle de chaque classe diminue, et cela peut rendre la modélisation moins fiable. Une façon de pallier ce problème est de modifier le critère de classification appliqué sur les données d’apprentissage pour permettre à une phrase d’être associée à plusieurs classes. Ceci est obtenu par l’introduction d’une marge de tolérance lors de la classification ; et cette approche est étudiée dans la première partie de la thèse. L’essentiel de la thèse est consacré à une nouvelle approche qui utilise la classification automatique des données d’apprentissage pour structurer le modèle acoustique. Ainsi, au lieu d’adapter tous les paramètres du modèle HMM-GMM pour chaque classe de données, les informations de classe sont explicitement introduites dans la structure des GMM en associant chaque composante des densités multigaussiennes avec une classe. Pour exploiter efficacement cette structuration des composantes, deux types de modélisations sont proposés. Dans la première approche on propose de compléter cette structuration des densités par des pondérations des composantes gaussiennes dépendantes des classes de locuteurs. Pour cette modélisation, les composantes gaussiennes des mélanges GMM sont structurées en fonction des classes et partagées entre toutes les classes, tandis que les pondérations des composantes des densités sont dépendantes de la classe. Lors ...

Access State: Open Access

Search in field:

Recently searched for: