• Media type: E-Article
  • Title: Reconnaissance et synthèse automatiques de la parole : des sciences de la parole aux technologies vocales
  • Contributor: Sorin, C [Author]
  • Published in: Linx ; Vol. 29, n° 2, pp. 13-18
  • Language: French
  • DOI: 10.3406/linx.1993.1270
  • ISSN: 0246-8743
  • Identifier:
  • Keywords: article
  • Origination:
  • Footnote:
  • Description: A quick assessment of the current state-of-the-art in Speech Recognition and Synthesis allows to note that in spite of positive advances in the last years 1)no current recognition system is capable of processing with reliability really spontaneous continuous speech, 2)no current speech synthesis system provides speech which could be confused with natural speech, 3)in these two domains, for the last fifteen years, "knowledge-based" approaches have been less fruitful than "statistical training" approaches, 4)the best current systems merely copy "surface" speech phenomena, 5)such "imitation" has been essentially limited to the language performances observed in two kinds of task (as to synthesis, loud- speaking reading of written texts ; as to recognition, written transcriptions of read texts), underscoring the teleological dimension of "speech" activity (case of dialogue). If we want to be able, some day, to communicate with a machine in a natural way, it seems crucial to us to consider, from now on, speech recognition and synthesis no longer as elementary, task-independent processes but as components of complete systems of human-machine communication by speech. That will make necessary to integrate closely speech production and recognition functionalities to the controlling and monitoring organ which, in prospect of achieving a given task, will run a reasoning that will allow to understand or generate a message, using various knowledge sources, optimally structured and managed. The association of deeper knowledge and more efficient modelling of language performances and behaviours (included learning mechanisms...) in various contexts and for various tasks seems to us a key factor of future advances in that domain.

    Un rapide bilan de l'état de l'art actuel en Reconnaissance et en Synthèse automatiques de la de la Parole permet de constater, malgré des progrès notables au cours des dernières années : 1)qu'aucun système actuel de reconnaissance n'est capable de traiter aujourd'hui, de façon fiable, de la parole continue réellement spontanée, 2)qu'aucun système actuel de synthèse de la parole ne fournit une parole qui puisse être confondue avec de la parole naturelle, 3)que, dans ces deux domaines, les approches "à base de connaissances" ont été, ces quinze dernières années, moins fructueuses que les approches "par apprentissage statistique", 4)que les meilleurs systèmes actuels se contentent de copier les phénomènes de parole observés "en surface", 5)que cette "imitation" s'est essentiellement limitée aux performances langagières observées dans deux types de tâches (pour la synthèse, lecture à voix haute de textes écrits ; pour la reconnaissance, transcription écrite de textes lus) en sous-estimant la dimension téléologique de l'activité "parole" (cas du dialogue). Si l'on veut pouvoir, un jour, communiquer de façon naturelle par la parole avec une machine, il nous semble crucial d'envisager dorénavant la reconnaissance et la synthèse de la parole non plus comme des processus élémentaires, indépendants de la tâche à effectuer, mais comme des maillons de systèmes complets de communication homme- machine par la parole. Ceci nécessitera d'intégrer étroitement les fonctionnalités de production et de reconnaisssance de parole à l'organe de commande et de contrôle qui, dans la perspective de l'accomplissement d'une tâche donnée, conduira un raisonnement permettant de comprendre ou de générer un message, en utilisant diverses sources de connaissance, structurées et gérées de façon optimale. L'association de connaissances plus approfondies et de modélisations plus efficaces des performances et comportements langagiers (y compris des mécanismes de leur apprentissage...) dans différents contextes et pour différentes tâches nous semble être un facteur clé des progrès futurs dans ce domaine.
  • Access State: Open Access
  • Rights information: Attribution - Non Commercial - No Derivs (CC BY-NC-ND)