• Media type: Electronic Thesis; E-Book; Text
  • Title: Semantic Annotations for Tabular Data Using Embeddings : Application to Datasets Indexing and Table Augmentation ; Production d'annotations sémantiques pour des jeux de données tabulaires à partir de plongements pour l'indexation et la recommandation
  • Contributor: Liu, Jixiong [Author]
  • imprint: theses.fr, 2023-02-22
  • Language: English
  • Keywords: Knowledge graphs ; Tabular data ; Semantic table interpretation ; Table augmentation ; Embedding ; Graphes de connaissances ; Plongement ; Interprétation sémantique de tables ; Augmentation de tables ; Données tabulaires ; Annotation sémantique ; Semantic annotation
  • Origination:
  • Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Description: Avec le développement de l'Open Data, un grand nombre de sources de données sont mises à disposition des communautés (notamment les data scientists et les data analysts). Ces données constituent des sources importantes pour les services numériques sous réserve que les données soient nettoyées, non biaisées, et combinées à une sémantique explicite et compréhensible par les algorithmes afin de favoriser leur exploitation. En particulier, les sources de données structurées (CSV, JSON, XML, etc.) constituent la matière première de nombreux processus de science des données. Cependant, ces données proviennent de différents domaines pour lesquels l'expertise des consommateurs des données peut être limitée (knowledge gap). Ainsi, l'appropriation des données, étape critique pour la création de modèles d'apprentissage automatique de qualité, peut être complexe.Les modèles sémantiques (en particulier, les ontologies) permettent de représenter explicitement le sens des données en spécifiant les concepts et les relations présents dans les données. L'association d'étiquettes sémantiques aux ensembles de données facilite la compréhension et la réutilisation des données en fournissant une documentation sur les données qui peut être facilement utilisée par un non-expert. De plus, l'annotation sémantique ouvre la voie à des modes de recherche qui vont au-delà de simples mots-clés et permettent l'expression de requêtes d'un haut niveau conceptuel sur le contenu des jeux de données mais aussi leur structure tout en surmontant les problèmes d'hétérogénéité syntaxique rencontrés dans les données tabulaires. Cette thèse introduit un pipeline complet pour l'extraction, l'interprétation et les applications de tableaux de données à l'aide de graphes de connaissances. Nous rappelons tout d'abord la définition des tableaux du point de vue de leur interprétation et nous développons des systèmes de collecte et d'extraction de tableaux sur le Web et dans des fichiers locaux. Nous proposons ensuite trois systèmes d'interprétation de tableaux ...
  • Access State: Open Access