• Medientyp: Sonstige Veröffentlichung; E-Book; Elektronische Hochschulschrift
  • Titel: Deep learning models for tabular data curation ; Modèles d'apprentissage profond pour le nettoyage des données tabulaires
  • Beteiligte: Cappuzzo, Riccardo [VerfasserIn]
  • Erschienen: theses.fr, 2022-04-01
  • Sprache: Englisch
  • Schlagwörter: Data Integration ; Intégration des données ; Imputation de données ; Apprentissage profond ; Data Imputation ; Intégration des mots ; Nettoyage des données ; Apprentissage multi-tâches ; Deep learning
  • Entstehung:
  • Anmerkungen: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Beschreibung: La conservation des données est un sujet omniprésent et de grande envergure, qui touche tous les domaines, du monde universitaire à l'industrie. Les solutions actuelles reposent sur le travail manuel des utilisateurs du domaine, mais elles ne sont pas adaptées. Nous étudions comment appliquer l'apprentissage profond à la conservation des données tabulaires. Nous concentrons notre travail sur le développement de systèmes de curation de données non supervisés et sur la conception de systèmes de curation qui modélisent intrinsèquement les valeurs catégorielles dans leur forme brute. Nous implémentons d'abord EmbDI pour générer des embeddings pour les données tabulaires, et nous traitons les tâches de résolution d'entités et de correspondance de schémas. Nous passons ensuite au problème de l'imputation des données en utilisant des réseaux neuronaux graphiques dans un cadre d'apprentissage multi-tâches appelé GRIMP. ; Data retention is a pervasive and far-reaching topic, affecting everything from academia to industry. Current solutions rely on manual work by domain users, but they are not adequate. We are investigating how to apply deep learning to tabular data curation. We focus our work on developing unsupervised data curation systems and designing curation systems that intrinsically model categorical values in their raw form. We first implement EmbDI to generate embeddings for tabular data, and address the tasks of entity resolution and schema matching. We then turn to the data imputation problem using graphical neural networks in a multi-task learning framework called GRIMP.
  • Zugangsstatus: Freier Zugang