• Medientyp: Sonstige Veröffentlichung; Elektronische Hochschulschrift; E-Book
  • Titel: Détection et caractérisation sémantique de données textuelles aberrantes ; Characterization and detection of semantic textual outliers
  • Beteiligte: Pantin, Jérémie [Verfasser:in]
  • Erschienen: theses.fr, 2023-09-11
  • Sprache: Englisch
  • Schlagwörter: Summarization ; Text mining ; Unsupervised machine learning ; Apprentissage non supervisé ; Détection d'anomalies ; Ensemble methods ; Fouille de textes ; Méthodes ensemblistes ; Résumé automatique ; Outlier detection
  • Entstehung:
  • Anmerkungen: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Beschreibung: L'apprentissage automatique répond au problème du traitement de tâches spécifiques pour une grande variété de données. Ces algorithmes peuvent être simples ou difficiles à mettre en place, et c'est par ailleurs le même constat qui peut être fait pour les données. Les données de faible dimension (2 ou 3 dimensions) avec une représentation intuitive (ex. moyenne du prix des baguette par années) sont plus faciles à interpréter/expliquer pour un humain que les données avec des milliers de dimensions. Pour les données à faible dimension, une donnée aberrantes conduit souvent à un décalage conséquent par rapport aux données normales, mais pour le cas des données à haute dimension, c'est différent. La détection des données aberrantes (ou détection d'anomalie, ou détection de nouveauté) est l'étude des observations singulières pour détecter ce qui est normal et anormal. Différentes familles d'approches peuvent être trouvées dans la littérature sur la détection des aberrations. Elles effectuent une analyse des valeurs aberrantes en détectant les comportements principaux de la majorité des observations. Ainsi, les données qui diffèrent de la distribution normale sont considérées comme bruit ou aberration. Nous nous intéressons à l'application de cette tâche au texte. Malgré les progrès récents dans le traitement du langage naturel il est difficile pour une machine de traiter certains contextes. Par exemple, la phrase "Un sourire est une courbe qui redresse tout" a plusieurs niveaux de compréhension, et une machine peut rencontrer des difficultés pour choisir le bon niveau de lecture. Cette thèse présente l'analyse des valeurs aberrantes de haute dimension, appliquée au texte. Peu de travaux s'intéressent à ce contexte précis et nous introduisons un formalisme dédié. Nous abordons également les méthodes d'ensemble qui sont quasiment inexistantes dans la littérature pour notre contexte. Enfin, nous pouvons voir que l'application de la détection de valeurs aberrantes amène des améliorations sur le résumé de texte automatique ...
  • Zugangsstatus: Freier Zugang