Mathematics of deep learning : generalization, optimization, continuous-time models ; Mathématiques du deep learning : généralisation, optimisation, modèles en temps continu

Medientyp: Sonstige Veröffentlichung; Elektronische Hochschulschrift; E-Book

Titel: Mathematics of deep learning : generalization, optimization, continuous-time models ; Mathématiques du deep learning : généralisation, optimisation, modèles en temps continu

Beteiligte: Marion, Pierre [Verfasser:in]

Erschienen: theses.fr, 2023-11-20

Sprache: Englisch

Schlagwörter: Optimization ; Differential equations ; Équations différentielles ; Statistique ; Machine learning ; Neural networks ; Statistics ; Réseaux de neurones ; Optimisation ; Apprentissage automatique

Entstehung:

Anmerkungen: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.

Beschreibung: L'apprentissage profond a largement transformé le paysage de l'apprentissage automatique au cours de la dernière décennie, avec un impact majeur dans divers domaines de l'intelligence artificielle. Cependant, les propriétés des méthodes d'apprentissage profond ne sont pas encore entièrement comprises. Dans cette thèse de doctorat, nous présentons des contributions, principalement d'ordre théorique, dans ce domaine. Nous étudions différentes familles de réseaux neuronaux (réseaux neuronaux à une couche cachée, réseaux résiduels, réseaux récurrents, Transformer) et différents types de problèmes mathématiques, notamment en statistique (bornes de généralisation) et en optimisation (convergence du flot de gradient). Dans un premier temps, nous nous intéressons à la limite en grande profondeur des réseaux résiduels. Il a été remarqué dans la littérature que cette limite en grande profondeur pourrait correspondre à une équation différentielle ordinaire neuronale. Sous des conditions appropriées, nous montrons que c'est effectivement le cas, bien que d'autres objets limites peuvent aussi apparaître, en particulier une équation différentielle stochastique. Nous étudions les propriétés d'optimisation et statistiques des réseaux neuronaux dans ce cadre. Dans la deuxième partie de la thèse, nous nous intéressons à des réseaux neuronaux de profondeur finie. Nous prouvons la convergence du flot de gradient pour des réseaux à une couche cachée avec un nombre modéré de neurones dans un cadre simple. Enfin, nous étudions les propriétés de l'architecture plus récente du Transformer avec une approche plus pratique. ; Deep learning has emerged as a transformative paradigm in the past decade, with major impact in various fields of artificial intelligence. However, the properties of this family of machine learning methods are not yet fully understood. In this PhD thesis, we present contributions, mostly theoretical in nature, to the field of deep learning. We study various families of neural networks (shallow neural networks, ...

Zugangsstatus: Freier Zugang

Nur in Feld suchen:

Zuletzt gesuchte Begriffe: