Modèles de mélange pour la classification non supervisée de données qualitatives et mixtes ; Model-based clustering for categorical and mixed data sets

Media type: Electronic Thesis; E-Book; Text

Title: Modèles de mélange pour la classification non supervisée de données qualitatives et mixtes ; Model-based clustering for categorical and mixed data sets

Contributor: Marbac-Lourdelle, Matthieu [Author]

imprint: theses.fr, 2014-09-23

Language: English

Keywords: Visualisation de données ; Vraisemblance complète intégrée ; Modèle de mélange ; Copules

Origination:

Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.

Description: Cette thèse propose une contribution originale pour la classification non supervisée de données qualitatives ou de données mixtes. Les approches proposées sont à base de modèles probabilistes ayant pour but de modéliser la distribution des données observées. Dans les cas de données qualitatives ou mixtes, il est d'usage de supposer l'indépendance entre les variables conditionnellement à la classe. Cependant, cette approche s'avère biaisée lorsque l'hypothèse d'indépendance conditionnelle est erronée. L'objet de cette thèse est d'étudier et de proposer des modèles relâchant l'hypothèse d'indépendance conditionnelle. Ceux-ci doivent permettre de résumer chaque classe par quelques paramètres significatifs. La première partie de cette thèse porte sur la classification non supervisée de données qualitatives. Lorsque ces données sont corrélées au sein des classes, le statisticien est confronté à de nombreux problèmes combinatoires (grand nombre de paramètres et choix de modèle complexe). Notre approche consiste à relâcher l'hypothèse d'indépendance conditionnelle en regroupant les variables en blocs conditionnellement indépendants. Cette méthode nous amène à présenter deux modèles probabilistes. Ceux-ci définissent la distribution d'un bloc de manière à limiter le nombre de paramètres du modèle tout en fournissant un modèle facilement interprétable. Le premier modélise la distribution d'un bloc de variables par le mélange des deux distributions de dépendances extrêmes tandis que le second modèle utilise une distribution multinomiale par modes. La seconde partie de cette thèse porte sur la classification non supervisée de données mixtes. La difficulté spécifique à de telle données est due à l'absence de distribution de référence pour le cas de variables de différentes natures. Ainsi, on souhaite définir un modèle probabiliste respectant les deux contraintes suivantes. Tout d'abord, les distributions marginales de chacune des composantes doivent être des distributions classiques afin de faciliter l'interprétation du ...

Access State: Open Access

Search in field:

Recently searched for: