• Medientyp: E-Book; Hochschulschrift
  • Titel: Application of automatic speech recognition technologies to singing
  • Beteiligte: Kruspe, Anna [VerfasserIn]; Brandenburg, Karlheinz [AkademischeR BetreuerIn]; Goto, Masataka [GutachterIn]; Stober, Sebastian [GutachterIn]
  • Körperschaft: Technische Universität Ilmenau ; Fraunhofer-Institut für Digitale Medientechnologie
  • Erschienen: Ilmenau: Universitätsbibliothek, July 9, 2018
  • Umfang: 1 Online-Ressource (vi, 179 Blätter); Diagramme, Illustrationen (teilweise farbig)
  • Sprache: Englisch
  • Identifikator:
  • Schlagwörter: Automatische Spracherkennung > Singen > Phonem > Schlagwort > Information Retrieval
  • Entstehung:
  • Hochschulschrift: Dissertation, Technische Universität Ilmenau, 2018
  • Anmerkungen: Das Erscheinungsdatum ist der Tag der Verteidigung
    Systemvoraussetzung: Acrobat reader
  • Beschreibung: Das Gebiet des Music Information Retrieval befasst sich mit der automatischen Analyse von musikalischen Charakteristika. Ein Aspekt, der bisher kaum erforscht wurde, ist dabei der gesungene Text. Auf der anderen Seite werden in der automatischen Spracherkennung viele Methoden für die automatische Analyse von Sprache entwickelt, jedoch selten für Gesang. Die vorliegende Arbeit untersucht die Anwendung von Methoden aus der Spracherkennung auf Gesang und beschreibt mögliche Anpassungen. Zudem werden Wege zur praktischen Anwendung dieser Ansätze aufgezeigt. Fünf Themen werden dabei betrachtet: Phonemerkennung, Sprachenidentifikation, Schlagwortsuche, Text-zu-Gesangs-Alignment und Suche von Texten anhand von gesungenen Anfragen. Das größte Hindernis bei fast allen dieser Themen ist die Erkennung von Phonemen aus Gesangsaufnahmen. Herkömmliche, auf Sprache trainierte Modelle, bieten keine guten Ergebnisse für Gesang. Das Trainieren von Modellen auf Gesang ist schwierig, da kaum annotierte Daten verfügbar sind. Diese Arbeit zeigt zwei Ansätze auf, um solche Daten zu generieren. Für den ersten wurden Sprachaufnahmen künstlich gesangsähnlicher gemacht. Für den zweiten wurden Texte automatisch zu einem vorhandenen Gesangsdatensatz zugeordnet. Die neuen Datensätze wurden zum Trainieren neuer Modelle genutzt, welche deutliche Verbesserungen gegenüber sprachbasierten Modellen bieten. Auf diesen verbesserten akustischen Modellen aufbauend wurden Algorithmen aus der Spracherkennung für die verschiedenen Aufgaben angepasst, entweder durch das Verbessern der Robustheit gegenüber Gesangscharakteristika oder durch das Ausnutzen von hilfreichen Besonderheiten von Gesang. Beispiele für die verbesserte Robustheit sind der Einsatz von Keyword-Filler-HMMs für die Schlagwortsuche, ein i-Vector-Ansatz für die Sprachenidentifikation sowie eine Methode für das Alignment und die Textsuche, die stark schwankende Phonemdauern nicht bestraft. Die Besonderheiten von Gesang werden auf verschiedene Weisen genutzt: So z.B. in einem Ansatz für die Sprachenidentifikation, der lange Aufnahmen benötigt; in einer Methode für die Schlagwortsuche, die bekannte Phonemdauern in Gesang mit einbezieht; und in einem Algorithmus für das Alignment und die Textsuche, der bekannte Phonemkonfusionen verwertet.
  • Zugangsstatus: Freier Zugang