Inertial and Second-order Optimization Algorithms for Training Neural Networks ; Algorithmes Inertiels et de Second Ordre pour l'Entraînement de Réseaux de Neurones

Medientyp: Sonstige Veröffentlichung; Elektronische Hochschulschrift; E-Book

Titel: Inertial and Second-order Optimization Algorithms for Training Neural Networks ; Algorithmes Inertiels et de Second Ordre pour l'Entraînement de Réseaux de Neurones

Beteiligte: Castera, Camille [Verfasser:in]

Erschienen: theses.fr, 2021-11-29

Sprache: Englisch

Schlagwörter: Optimisation non-convexe ; Deep Learning ; Réseaux de Neurones ; Stochastic Optimization ; Machine Learning ; Optimisation stochastique ; Apprentissage profond ; Apprentissage Machine ; Neural Networks ; Non-convex Optimization

Entstehung:

Anmerkungen: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.

Beschreibung: Les modèles de réseaux de neurones sont devenus extrêmement répandus ces dernières années en raison de leur efficacité pour de nombreuses applications. Ce sont des modèles paramétriques de très grande dimension et dont les paramètres doivent être réglés spécifiquement pour chaque tâche. Cette procédure essentielle de réglage, connue sous le nom de phase d'entraînement, se fait à l'aide de grands jeux de données. En raison du nombre de données ainsi que de la taille des réseaux de neurones, l'entraînement s'avère extrêmement coûteux en temps de calcul et en ressources informatiques. D'un point de vue mathématique, l'entraînement se traduit sous la forme d'un problème d'optimisation en très grande dimension impliquant la minimisation d'une somme de fonctions. Les dimensions de ce problème d'optimisation limitent fortement les possibilités algorithmiques pour minimiser une telle fonction. Dans ce contexte, les algorithmes standards s'appuient presque exclusivement sur des approximations de gradients via la méthode de rétro-propagation et le sous-échantillonnage par mini-lots. Pour ces raisons, les méthodes du premier ordre de type gradient stochastique (SGD) restent les plus répandues pour résoudre ces problèmes. De plus, la fonction à minimiser est non-convexe et potentiellement non-différentiable, limitant ainsi grandement les garanties théoriques de ces méthodes. Dans cette thèse, nous nous intéressons à construire de nouveaux algorithmes exploitant de l'information de second ordre tout en ne nécessitant que de l'information bruitée du premier ordre, calculée par différentiation automatique. Partant d'un système dynamique (une équation différentielle ordinaire), nous introduisons INNA, un algorithme inertiel et Newtonien. En analysant conjointement le système dynamique et l'algorithme, nous prouvons la convergence de ce dernier vers les points critiques de la fonction à minimiser. Nous montrons ensuite que cette convergence se fait en réalité vers des minimums locaux avec très grande probabilité. Enfin, nous ...

Zugangsstatus: Freier Zugang

Nur in Feld suchen:

Zuletzt gesuchte Begriffe: