• Media type: Text; Electronic Thesis; E-Book
  • Title: Large-scale learning from video and natural language ; Apprentissage automatique à grande échelle depuis vidéos et langage naturel
  • Contributor: Miech, Antoine [Author]
  • Published: theses.fr, 2020-10-14
  • Language: English
  • Keywords: Apprentissage machine ; Computer vision ; Deep learning ; Vidéo et language ; Vision par ordinateur ; Machine learning ; Video and language ; Apprentissage faiblement supervisé ; Apprentissage profond ; Weakly-supervised learning ; Video analysis ; Analyse de vidéo
  • Origination:
  • Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Description: Nous nous intéressons à l’apprentissage automatique d’algorithmes pour la compréhension automatique de vidéos. Une majorité des approches en compréhension de vidéos dépend de larges bases de données de vidéos manuellement annotées pour l’entraînement. Cependant, la collection et l’annotation de telles bases de données est fastidieuse, coûte cher et prend du temps. Pour palier à ce problème, cette thèse se concentre sur l’exploitation de large quantité d’annotations publiquement disponible, cependant bruitées, sous forme de langage naturel. En particulier, nous nous intéressons à un corpus divers de métadonnées textuelles incluant des scripts de films, des titres et descriptions de vidéos internet ou encore des transcriptions de paroles. L’usage de ce type de données publiquement disponibles est difficile, car l’annotation y est faible. Pour cela, nous introduisons différentes approches d’apprentissage telles que de nouvelles fonctions de coûts ou architectures de réseaux de neurones, adaptées à de faibles annotations. ; The goal of this thesis is to build and train machine learning models capable of understanding the content of videos. Current video understanding approaches mainly rely on large-scale manually annotated video datasets for training. However, collecting and annotating such dataset is cumbersome, expensive and time-consuming. To address this issue, this thesis focuses on leveraging large amounts of readily-available, but noisy annotations in the form of natural language. In particular, we exploit a diverse corpus of textual metadata such as movie scripts, web video titles and descriptions or automatically transcribed speech obtained from narrated videos. Training video models on such readily-available textual data is challenging as such annotation is often imprecise or wrong. In this thesis, we introduce learning approaches to deal with weak annotation and design specialized training objectives and neural network architectures.
  • Access State: Open Access