• Media type: Text; Electronic Thesis; E-Book
  • Title: Garder la trace, mettre de l'ordre et relier les points : modéliser la variation et l'ambiguïté des expressions polylexicales ; Keeping tabs, bringing into line and sending to the outer rim : how to tackle variability and ambiguity of multiword expressions ?
  • Contributor: Pasquer, Caroline [Author]
  • Published: theses.fr, 2019-11-13
  • Language: French
  • Keywords: Système VarIDE ; Expressions polylexicales verbales ; Natural language processing ; Multiword expressions ; PARSEME ; Ambiguity
  • Origination:
  • Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Description: L’identification automatique d’expressions polylexicales (EP) est un pré-requis pour de nombreuses applications de traitement automatique des langues. Cette tâche représente un défi car les EP, et en particulier les verbales (EPV) telles que 'casser sa pipe' (signifiant 'mourir'), ont des formes de surface très variables ('cassera-t-il un jour sa pipe ?'). Cependant, comparée à des constructions libres, cette variabilité est généralement plus restreinte (p. ex. certains noms non modifiables par un adjectif), d’où des profils de variabilité distincts. On se penche ici sur un sous-problème de l’identification d’EPV, à savoir l’identification d’occurrences d’EPV vues dans d’autres contextes, quelque soit leur forme de surface, ce qui nécessite de prendre en compte l’ambiguïté pour éviter des lectures littérales ('casser sa vieille pipe') ou des co-occurrences fortuites ('casser le tuyau de sa pipe'). On considère pour cela deux approches : la première se fonde sur une mesure de la variabilité des EPV indépendante de la langue. La seconde consiste à modéliser le problème comme une tâche de classification d’après des traits pertinents pour la variabilité morpho-syntaxique des EPV, ce qui nous a conduit à développer un système (VarIDE), qui a participé à la compétition PARSEME d’identification automatique d’EPV en 2018. ; Automatic identification of multiword expressions (MWEs) is a pre-requisite for many natural language processing applications. This task is challenging because MWEs, especially verbal ones (VMWEs) like to kick the bucket (which means to die), exhibit surface variability (no buckets were kicked ). However, compared with regular constructions, this variability is usually more restricted (e.g. some nouns cannot be modified by an adjective), hence various variability profiles. We address here a subproblem of VMWE identification, namely the identification of occurrences of VMWEs previously seen in corpora, whatever their surface form, which requires to take ambiguity into account to avoidliteral (he ...
  • Access State: Open Access