• Medientyp: E-Book; Elektronische Hochschulschrift; Sonstige Veröffentlichung
  • Titel: Classification automatique de textes par réseaux de neurones profonds : application au domaine de la santé ; Automatic classification of texts by deep neural networks : application to the field of health
  • Beteiligte: Mercadier, Yves [VerfasserIn]
  • Erschienen: theses.fr, 2020-11-17
  • Sprache: Französisch
  • Schlagwörter: Text classification ; Neural network ; Artificial intelligence ; Active learning ; Apprentissage actif ; Intelligence artificielle ; Data augmentation ; Réseau de neurones ; Deep learning ; Augmentation de données ; Apprentissage profond ; Classification de texte
  • Entstehung:
  • Anmerkungen: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Beschreibung: Cette thèse porte sur l'analyse de données textuelles dans le domaine de la santé et en particulier sur la classification supervisée multi-classes de données issues de la littérature biomédicale et des médias sociaux.Une des difficultés majeures lors de l'exploration de telles données par des méthodes d'apprentissage supervisées est de posséder un jeu de données suffisant en nombre d'exemples pour l'entraînement des modèles. En effet, il est généralement nécessaire de catégoriser les données manuellement avant de réaliser l'étape d'apprentissage. La taille importante des jeux de données rend cette tâche de catégorisation très coûteuse, qu'il convient de réduire par des systèmes semi-automatiques.Dans ce contexte, l’apprentissage actif, pendant lequel l’oracle intervient pour choisir les meilleurs exemples à étiqueter, s’avère prometteur. L’intuition est la suivante : en choisissant les exemples intelligemment et non aléatoirement, les modèles devraient s’améliorer avec moins d’efforts pour l’oracle et donc à moindre coût (c’est-a-dire avec moins d’exemples annotés). Dans cette thèse, nous évaluerons différentes approches d’apprentissage actif combinées avec des modèles d’apprentissage profond récents.Par ailleurs, lorsque l’on dispose de peu de données annotées, une possibilité d’amélioration est d’augmenter artificiellement la quantité de données pendant la phase d’entraînement du modèle, en créant de nouvelles données de manière automatique à partir des données existantes. Plus précisément, il s’agit d’injecter de la connaissance en tenant compte des propriétés invariantes des données par rapport à certaines transformations. Les données augmentées peuvent ainsi couvrir un espace d’entrée inexploré, éviter le sur-apprentissage et améliorer la généralisation du modèle. Dans cette thèse, nous proposerons et évaluerons une nouvelle approche d'augmentation de données textuelles. ; This Ph.D focuses on the analysis of textual data in the health domain and in particular on the supervised multi-class classification of ...
  • Zugangsstatus: Freier Zugang