• Media type: Text; Electronic Thesis; E-Book
  • Title: Quelques problématiques autour du clustering : robustesse, grande dimension et détection d'intrusion ; Some contributions related to data clustering : robustness, high-dimensionality and intrusion detection
  • Contributor: Genetay, Edouard [Author]
  • Published: theses.fr, 2022-05-16
  • Language: French
  • Keywords: Median-Of-Means ; Clustering ; Détection d'intrusion ; Nombre de communauté ; Grande dimension ; Entropie conditionnelle ; Médiane des moyennes
  • Origination:
  • Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Description: Le clustering vise à regrouper les données observées en différents sous-ensembles partageant des propriétés similaires. Le plus souvent ce regroupement se fait via l’optimisation d’un critère choisi à l’avance. Dans cette thèse CIFRE, nous avons étudié le clustering sous trois aspects différents.Dans une première partie, nous proposons une méthode d’estimation robuste de K centroïdes basé sur le critère, dit des « K-means ». Nous proposons également une méthode d’initialisation robuste de la procédure. D’une part, la robustesse des procédures proposées a été testée par de nombreuses simulations numériques. D’autre part, nous avons montré un théorème donnant la vitesse de convergence d’un estimateur idéalisé en présence d’outliers ainsi qu’un théorème donnant le breakdown point de la méthode. Dans une seconde partie nous nous plaçons dans le cadre d’un mélange équilibré de deux gaussiennes isotropes, centré en l’origine, afin de fournir la première analyse théorique d’un estimateur de clustering basé sur un critère d’entropie conditionnelle. Nous montrons que le critère est localement convexe, offrant d’une part des vitesses d’apprentissage rapide et d’autre part une inégalité oracle en grande dimension, lorsque le vecteur moyen de séparation est sparse.Dans une troisième partie, plus pratique et consacrée à des graphes en cybersécurité, nous regardons si l’évolution du nombre de clusters obtenus par une méthode d’optimisation de modularité peut révéler des anomalies causées par une intrusion dans un système informatique. ; Clustering aims at grouping observed data into different subsets sharing similar properties. Most often this clustering is done through the optimization of a criterion chosen in advance. In this CIFRE thesis, we have studied clustering under three different aspects.In a first part, we propose a robust estimation method of K centroids based on the so-called "K-means" criterion. We also propose a robust initialization method for the procedure. On the one hand, the robustness of the proposed ...
  • Access State: Open Access