• Media type: Text; E-Book; Electronic Thesis
  • Title: Learning increasingly complex skills through deep reinforcement learning using intrinsic motivation ; Apprentissage de compétences de plus en plus complexes via l'apprentissage profond par renforcement en utilisant la motivation intrinsèque
  • Contributor: Aubret, Arthur [Author]
  • imprint: theses.fr, 2021-11-30
  • Language: English
  • Keywords: Reinforcement learning ; Apprentissage développemental ; Representation learning ; Motivation intrinsèque ; Apprentissage tout au long d'une vie ; Developmental learning ; Lifelong learning ; Apprentissage par renforcement ; Apprentissage de représentations ; Intrinsic motivation
  • Origination:
  • Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Description: En apprentissage par renforcement (RL), un agent apprend à résoudre une tâche en interagissant avec son environnement. Afin de faire passer à l’échelle ces agents sur des tâches complexes, les méthodes récentes ont proposé avec succès d’intégrer les méthodes d’apprentissage profond au RL, créant le domaine d’apprentissage profond par renforcement (DRL). Cependant, la signification sémantique d’une tâche est toujours pourvue par une fonction de récompense experte qui guide l’agent dans son processus d’apprentissage. Ce paradigme contraste avec la manière dont les animaux et humains apprennent: les travaux de psychologie suggèrent que les humains sont intrinsèquement motivés à acquérir de nouvelles connaissances à propos de leur environnement. Dans cette thèse, notre objectif est d’étudier comment la motivation intrinsèque permet de résoudre les problèmes expérimentés par le DRL. Tout d’abord, nous mettons en évidence comment les motivations intrinsèques actuelles attaquent certains problèmes du DRL. Nous classifions et formalisons les méthodes, puis analysons leurs limites. Afin d’exhiber leur importance, nous mettons en avant que ces verrous peuvent empêcher un agent d’apprendre des compétences et représentations de l’environnement de plus en plus complexes. Ce sont des éléments-clés pour faire apprendre des agents autonomes comme des humains. Á partir de cette analyse, nous introduisons deux nouveaux modèles qui peuvent apprendre des compétences diverses et spécifiques à une tâche de bout en bout. Le premier, ELSIM, construit un arbre discret de compétences dans la direction des récompenses de l’environnement. Nos résultats montrent que ce paradigme d’apprentissage améliore l’exploration dans des environnements avec des récompenses éparses et permet d’utiliser des compétences sur différentes tâches corrélées. Nous mettons en avant les inconvénients d’ELSIM et proposons un autre modèle, DisTop, pour les corriger. DisTop construit progressivement une topologie de l’environnement en utilisant une fonction de coût ...
  • Access State: Open Access