Antonazzo, Filippo
[Verfasser:in]
;
Université de Lille (2022-.)
[Mitwirkende:r];
Biernacki, Christophe
[Mitwirkende:r];
Keribin, Christine
[Mitwirkende:r]
Unsupervised learning of huge data sets with limited computed resources ; Apprentissage non supervisé pour données extrêmement volumineuses en situation de ressources informatiques arbitrairement limitées
Titel:
Unsupervised learning of huge data sets with limited computed resources ; Apprentissage non supervisé pour données extrêmement volumineuses en situation de ressources informatiques arbitrairement limitées
Anmerkungen:
Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
Beschreibung:
Par nature, le clustering révèle tout son intérêt lorsque le volume des jeux de données augmente considérablement, parce qu’il y ainsi l’opportunité de découvrir des classes potentiellement petites mais inconnues jusqu'alors puisque indétectables avec des tailles d'échantillons plus réduits. L'intérêt de telles classes peut être en outre inversement proportionnel à leur taille, signe de phénomènes atypiques mais à forte valeur comme des anomalies, des fraudes, etc. Toutefois, classifier de tels volumes de données peut facilement rencontrer des limitations informatiques fortes, demandant en effet potentiellement d'énormes quantité de mémoire vive et d'autres ressources informatiques substantielles (calcul, énergie, flux). Par conséquent, si l'on souhaite effectivement mettre en oeuvre des algorithmes de classification sur de très grands jeux de données tout en limitant les ressources informatiques à mobiliser (pour des raisons de coût ou d'écologie), il est nécessaire d'envisager des approches beaucoup plus frugales que les approches actuelles, tout en garantissant des résultats d'estimation de haute qualité. La classification sur modèle de mélange gaussien étant certainement l'approche la plus populaire (ne serait-ce par son lien structurel avec les méthodes de k-means), ce travail de thèse explore prioritairement la frugalité du clustering dans ce cadre. Il est à noter que des stratégies fondées sur de l'échantillonnage, bien qu'ayant de bonnes propriétés de frugalité, doivent être écartées car elles s'avèrent incapables de détecter des partitions extrêmement déséquilibrées, ce qui est un prérequis essentiel dans notre contexte. Par conséquent, dans cette thèse, on adopte une stratégie frugale alternative qui repose sur une compression des données à la fois par axe et par intervalles (on parle alors de "bin-marginal"). Après une analyse préliminaire en situation simplifiée (univarié avec bins) qui révèle le potentiel de notre proposition, nous abordons le cas multivarié (combinant cette fois bins et ...