• Media type: Electronic Thesis; E-Book; Text
  • Title: Catégorisation sémantique et information grammaticale en arabe ; Semantic categorization and grammatical information in Arabic
  • Contributor: Abdallah, Adelle [Author]
  • imprint: theses.fr, 2021-07-02
  • Language: French
  • Keywords: Grammatical structure ; Représentation vectorielle de mots ; Semantic resource ; Semantic evaluation ; Évaluation sémantique ; Arabic corpus ; Ressource sémantique ; Catégorisation sémantique ; Corpus arabe ; Structure grammaticale ; Semantic categorization ; Arabic WordNet ; Word vector representation ; Arabic WordNe
  • Origination:
  • Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Description: La problématique centrale de ce travail porte sur la catégorisation sémantique non supervisée de mots en arabe basée sur de grands corpus, et tout particulièrement sur l’utilité de l’information grammaticale dans cette catégorisation sémantique. Cette thèse a été entamée pour mener à bien la mise en place d’une méthodologie rigoureuse pour tester l’apport de la structure grammaticale à la catégorisation sémantique et pour l’appliquer sur un grand corpus de quelques milliards de mots.Extraire la structure grammaticale d’un corpus sans connaissance préalable sur la langue se fait ici en étudiant la distribution des patterns constitués par les éléments de haute fréquence au voisinage des éléments de moindre fréquence. Si le corpus est assez grand, les éléments de haute fréquence sont des éléments jouant un rôle structurant dans la phrase ou le document, comme les mots grammaticaux. L’enjeu de cette recherche est conséquent : si l’hypothèse est vérifiée, il sera possible de compléter les ressources sémantiques d’une manière automatisée. Notre modèle se veut indépendant de la langue et minimisant au maximum les interactions avec l’utilisateur, depuis la constitution du corpus jusqu’à l’évaluation des résultats.Notre thèse montre que, l’information grammaticale apporte de l’information sémantique et qu’il est probablement dommage qu’elle ne soit pas plus utilisée dans les recherches sur la sémantique des mots, et que nous avons au passage fait un ensemble d’observations dont nous espérons qu’elles seront utiles aux futures recherches sur le domaine. ; The central issue of this defense is the unsupervised semantic categorization of Arabic words based on large corpora, and especially the usefulness of grammatical information in this categorization.This thesis was initiated to establish a rigorous methodology to test the contribution of grammatical structure to semantic categorization and to apply it on a large corpus of several billion words. Extracting the grammatical structure of a corpus without prior knowledge of ...
  • Access State: Open Access