Analyse automatique par transitions pour l'identification des expressions polylexicales ; Automatic transition-based analysis for multiword expression identification

Media type: Text; Electronic Thesis; E-Book

Title: Analyse automatique par transitions pour l'identification des expressions polylexicales ; Automatic transition-based analysis for multiword expression identification

Contributor: Al Saied, Hazem [Author]

Published: theses.fr, 2019-12-20

Language: French

Keywords: Identification des expressions polylexicales ; Expressions polylexicales ; Multiword expression ; Modèles neuronaux ; Neuronal models ; Analyse par transitions ; Multiword expression identification ; Transition-based analysis ; Classification avec données déséquilibrées ; Linear models ; Modèles linéaires ; Réglage d'hyperparamètres de tendances ; Unbalanced dataset classification ; Trend-based hyperparameter tuning

Origination:

Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.

Description: Cette thèse porte sur l'identification des expressions polylexicales, abordée au moyen d'une analyse par transitions. Une expression polylexicale (EP) est une construction linguistique composée de plusieurs éléments dont la combinaison montre une irrégularité à un ou plusieurs niveaux linguistiques. La tâche d'identification d'EPs consiste à annoter en contexte les occurrences d'EPs dans des textes, i.e à détecter les ensembles de tokens formant de telles occurrences. L'analyse par transitions est une approche célèbre qui construit une sortie structurée à partir d'une séquence d'éléments, en appliquant une séquence de «transitions» choisies parmi un ensemble prédéfini, pour construire incrémentalement la sortie. Dans cette thèse, nous proposons un système par transitions dédié à l'identification des EPs au sein de phrases représentées comme des séquences de tokens, et étudions diverses architectures pour le classifieur qui sélectionne les transitions à appliquer, permettant de construire l'analyse de la phrase. La première variante de notre système utilise un classifieur linéaire de type machine à vecteur support. Les variantes suivantes utilisent des modèles neuronaux: un simple perceptron multicouche, puis des variantes intégrant une ou plusieurs couches récurrentes. Le scénario privilégié est une identification d'EPs n'utilisant pas d'informations syntaxiques, alors même que l'on sait les deux tâches liées. Nous étudions ensuite une approche par apprentissage multitâche, réalisant conjointement l’étiquetage morphosyntaxique, l’identification des EPs par transitions et l’analyse syntaxique en dépendances par transitions. La thèse comporte une partie expérimentale importante. Nous avons d'une part étudié quelles techniques de ré-échantillonnage des données permettent une bonne stabilité de l'apprentissage malgré des initialisations aléatoires. D'autre part, nous avons proposé une méthode de réglage des hyperparamètres de nos modèles par analyse de tendances au sein d'une recherche aléatoire de combinaison ...

Access State: Open Access

Search in field:

Recently searched for: