• Media type: Text; E-Book; Electronic Thesis
  • Title: Induction de grammaire de phrase en arabe standard moderne ; Grammar induction in modern standard Arabic
  • Contributor: Zaki, Youssef [Author]
  • imprint: theses.fr, 2022-12-03
  • Language: French
  • Keywords: Arabe standard moderne ; Grands corpus ; Induction de grammaire ; Analyse syntaxique ; Extraction de patterns
  • Origination:
  • Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Description: L’objectif de notre travail est d'induire automatiquement une grammaire à partir d’un grand corpus non annoté, grammaire qui pourra être utilisée ultérieurement pour construire un analyseur syntaxique de la langue arabe standard moderne. Nous utilisons le plus possible des méthodes non supervisées pour chaque étape de traitement, pour limiter l'intervention humaine. ***Notre système extrait d'un vaste corpus des patterns syntaxiques détectés sur la base de la fréquence de leurs éléments et des récurrences structurelles. Ces patterns sont fournis à un algorithme d'induction de grammaire (dérivé de l'algorithme Adios proposé par Shimon Edelman) qui par lui-même est incapable de construire une grammaire à partir du corpus, mais qui va pouvoir le faire à partir des patterns extraits ; le corpus de plusieurs milliards de mots sera résumé en un ensemble compris entre mille et deux mille patterns. *** En l'absence de cadre standard de référence nous évaluons la procédure par une appréciation globale et statistique, et l'analyse détaillée de petits corpus. Ce travail ouvre une direction de recherche prometteuse, et qui était, pour l'arabe, inexplorée jusque-là. ; The aim of this research is to automatically induce a grammar from a large non-annotated corpus. This grammar that can be used later to build a syntactic analyzer of Modern Standard Arabic. We use unsupervised methods as much as possible for each stage of processing, in order to limit human intervention. Our system extracts from a large corpus syntactic patterns detected on the basis of the frequency of their elements and structural recurrences. These patterns are provided to a grammar induction algorithm (derived from the Adios algorithm proposed by Shimon Edelman) which by itself is incapable of building a grammar from the corpus, but which will be able to do so from the patterns extracted; a corpus of several billion words will be summarized in a list of between one and two thousand patterns. In the absence of a standard frame of reference, we evaluate the ...
  • Access State: Open Access