Élagage des structures aléatoires ; Pruning random structures

Medientyp: Elektronische Hochschulschrift; E-Book; Sonstige Veröffentlichung

Titel: Élagage des structures aléatoires ; Pruning random structures

Beteiligte: Cunha, Arthur Carvalho Walraven da [VerfasserIn]

Erschienen: theses.fr, 2023-09-13

Sprache: Englisch

Schlagwörter: Réseau de neurones ; Compression de modèles ; Élagage ; Graph algorithms ; Model compression ; Neural network ; Pruning ; Algorithmes des graphes

Entstehung:

Anmerkungen: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.

Beschreibung: La Strong Lottery Ticket Hypothesis (SLTH) stipule que les réseaux de neurones contiennent, lors de l'initialisation aléatoire, des sous-réseaux qui fonctionnent bien sans aucun entraînement. Le réseau aléatoire doit cependant être sur-paramétré : avoir plus de paramètres qu'il n'en aurait besoin. La SLTH a d'abord été prouvée pour les réseaux entièrement connectés et suppose une sur-paramétrisation polynomiale. Puis, cela a été amélioré pour ne nécessiter qu'un surplus logarithmique, ce qui est essentiellement optimal. Ce fort résultat a tiré parti d'un beau théorème sur le Subset Sum Problem (SSP). Il considère une version aléatoire du SSP dans laquelle on cherche à approximer une valeur cible en sommant des sous-ensembles d'un échantillon aléatoire donné. Le théorème affirme que garantir l'existence d'une solution avec une haute probabilité ne nécessite qu'une taille d'échantillon logarithmique par rapport à la précision des approximations. Nous présentons une preuve plus simple et plus directe pour ce résultat. Ensuite, en tirant parti du théorème sur le SSP, nous étendons le SLTH aux Convolutional Neural Networks (CNNs) : nous montrons que les CNN aléatoires contiennent des sous-CNN clairsemés qui n'ont pas besoin d'entraînement pour obtenir de bonnes performances. Nous avons également obtenu le résultat en supposant une sur-paramétrisation logarithmique. Bien que le surplus imposé par le SLTH puisse être compensé par la rareté des sous-réseaux obtenus, exploiter la rareté en pratique est très difficile si elle n'est pas structurée. Étendre les résultats sur le SLTH pour produire des sous-réseaux structurés nécessiterait une version multidimensionnelle du théorème sur le SSP. Nous prouvons la véracité d'une telle version et nous l'utilisons pour montrer que le SLTH est toujours valable pour les CNN si nous exigeons que les sous-réseaux soient structurés. Enfin, nous proposons une application des idées de cette thèse à la conception de circuits : nous exploitons l'aléatoire inhérent aux spécifications des ...

Zugangsstatus: Freier Zugang

Nur in Feld suchen:

Zuletzt gesuchte Begriffe: