• Media type: Doctoral Thesis; Electronic Thesis; E-Book
  • Title: Bimodal Speech Recognition ; Bimodale Spracherkennung
  • Contributor: Gan, Tian [Author]
  • imprint: Staats- und Universitätsbibliothek Hamburg Carl von Ossietzky, 2012-01-01
  • Language: English
  • Keywords: multimodal integration ; speech recognition ; 54.75 Sprachverarbeitung ; articulatory information ; lip reading
  • Origination:
  • Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Description: Es ist schwer, automatische Spracherkennung (ASR) weiter zu verbessern, wenn nur das akustische Signal betrachtet wird. In de Literatur werden jedoch zwei alternative Ansätze verfolgt, um die Leistung der ASR unter Einbeziehung zusätzlicher Informationen zu verbessern. Zum einen audiovisuelle Spracherkennung (AVSR), die einen zusätzlichen Kanal visueller Merkmale nutzt, um reduzierte Signalqualität zu kompensieren, z. B. für Spracherkennung in Umgebungen mit viel Hintergrundlärm. Zum anderen wurden artikulatorischen Informationen Modell eingeführt, um Koartikulationseffekte und Erkenntnisse der Sprachproduktion mit in das Spracherkennungsverfahren einfließen zu lassen. Das Ziel dieser Arbeit ist es, die Möglichkeiten und Vorteile der Integration von artikulatorischen Informationen in AVSRSysteme zu untersuchen. Als eine der Fragestellungen wird zuerst die Frage der Machbarkeit untersucht. Wir haben vier verschiedene Ansätze für die Verwendung artikulatorischen Informationen definiert. Mit Ausnahme des Ansatzes zur Nutzung von artikulatorischen Rohdaten werden im Rahmen dieser Arbeit alle diese Ansätze diskutiert: 1. Der Ansatz der artikulatorischen Transkription nutzt ein HMM- / N-Beste Framework als Entscheidungsgrundlage. Das N-beste Entscheidungsschema ist ein Verfahren zur optimalen Kombination von Entscheidungen aus verschiedenen artikulatorischen Kanälen. 2. Der Ansatz der artikulatorischen Merkmale nutzt ein ANN- / HMM Framework, um abstrakte Klassen als artikulatorische Merkmale zu extrahieren und die Low-Level-Audio- und visuellen Merkmale durch diese Klassen zu ergänzen oder zu ersetzen. 3. Die artikulatorische Modellierung verwendet dynamische Bayessche Netze (DBN) zur Integration mit verschiedenen Strukturen für das Training und die Dekodierung von artikulatorischen Informationen. Verglichen mit den Ergebnissen eines einfachen informationsbasierten AVSR fanden wir, dass alle Ergebnisse aus den oben genannten Systemen auf eine Verbesserung der Erkennungsgenauigkeit hindeuten. Als zweite ...
  • Access State: Open Access