• Medientyp: E-Book; Elektronische Hochschulschrift; Sonstige Veröffentlichung
  • Titel: Multimodal Document Understanding with Unified Vision and Language Cross-Modal Learning ; Apprentissage inter-modal et unifié de la vision et du langage pour la compréhension multimodale des documents
  • Beteiligte: Bakkali, Souhail [VerfasserIn]
  • Erschienen: theses.fr, 2022-12-14
  • Sprache: Englisch
  • Schlagwörter: Mécanismes d’auto- attention ; Cross-modal document classification ; Classification de documents Inter-modaux ; Apprentissage contrastif ; Few-shot learning ; Multimodal fusion ; Contrastive learning ; Fusion multimodale ; Compréhension de documents multimodaux ; Multimodal document understanding ; Apprentissage en profondeur ; Self-attention mechanisms ; Apprentissage à plusieurs reprises ; Deep learning
  • Entstehung:
  • Anmerkungen: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Beschreibung: Les modèles développés dans cette thèse sont le résultat d'un processus itératif d'analyse et de synthèse entre les théories existantes et nos études réalisées. Plus spécifiquement, nous souhaitons étudier l'apprentissage inter-modal pour la compréhension contextualisée sur les composants des documents à travers le langage et la vision. Cette thèse porte sur l'avancement de la recherche sur l'apprentissage inter-modal et apporte des contributions sur quatre fronts : (i) proposer une approche inter-modale avec des réseaux profonds pour exploiter conjointement les informations visuelles et textuelles dans un espace de représentation sémantique commun afin d'effectuer et de créer automatiquement des prédictions sur les documents multimodaux; (ii) à étudier des stratégies concurrentielles pour s'attaquer aux tâches de classification de documents intermodaux, de récupération basée sur le contenu et de classification few-shot de documents ; (iii) pour résoudre les problèmes liés aux données comme l'apprentissage lorsque les données ne sont pas annotées, en proposant un réseau qui apprend des représentations génériques à partir d'une collection de documents non étiquetés ; et (iv) à exploiter les paramètres d'apprentissage few-shot lorsque les données ne contiennent que peu d’exemples. ; The frameworks developed in this thesis were the outcome of an iterative process of analysis and synthesis between existing theories and our performed studies. More specifically, we wish to study cross-modality learning for contextualized comprehension on document components across language and vision. The main idea is to leverage multimodal information from document images into a common semantic space. This thesis focuses on advancing the research on cross-modality learning and makes contributions on four fronts: (i) to proposing a cross-modal approach with deep networks to jointly leverage visual and textual information into a common semantic representation space to automatically perform and make predictions about multimodal ...
  • Zugangsstatus: Freier Zugang