• Media type: Text; Electronic Thesis; E-Book
  • Title: Biquality learning : from weakly supervised learning to distribution shifts ; Apprentissage biqualité : de l'apprentissage faiblement supervisé aux décalages de distribution
  • Contributor: Nodet, Pierre [Author]
  • Published: theses.fr, 2023-04-12
  • Language: English; French
  • Keywords: Apprentissage biqualité ; Weakly Supervised Learning ; Apprentissage Faiblement Supervisé ; Distribution Shift ; Décalage de jeu de données ; Biquality Learning
  • Origination:
  • Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Description: Le domaine de l'apprentissage avec des faiblesses en supervision est appelé apprentissage faiblement supervisé et regroupe une variété de situations où la vérité terrain collectée est imparfaite. Les étiquettes collectées peuvent souffrir de mauvaise qualité, de non-adaptabilité ou de quantité insuffisante. Dans ce mémoire nous proposons une nouvelle taxonomie de l'apprentissage faiblement supervisé sous la forme d'un cube continu appelé le cube de la supervision faible qui englobe toutes les faiblesses en supervision. Pour concevoir des algorithmes capables de gérer toutes supervisions faibles, nous supposons la disponibilité d'un petit ensemble de données de confiance, sans biais ni corruption, en plus de l'ensemble de données potentiellement corrompu. L'ensemble de données de confiance permet de définir un cadre de travail formel appelé apprentissage biqualité. Nous avons examiné l'état de l'art de ces algorithmes qui supposent la disponibilité d'un petit jeu de données de confiance. Dans ce cadre, nous proposons un algorithme basé sur la repondération préférentielle pour l'apprentissage biqualité (IRBL). Cette approche agnostique du classificateur est basée sur l'estimation empirique de la dérivée de Radon-Nikodym (RND), pour apprendre un estimateur conforme au risque sur des données non fiables repesées. Nous étendrons ensuite le cadre proposé aux décalages de jeu de données. Les décalages de jeu de données se produisent lorsque la distribution des données observée au moment de l'apprentissage est différente de celle attendue au moment de la prédiction. Nous proposons alors une version améliorée d'IRBL, appelée IRBL2, capable de gérer de tels décalages de jeux de données. Nous proposons aussi KPDR basé sur le même fondement théorique mais axé sur le décalage de covariable plutôt que le bruit des étiquettes. Pour diffuser et démocratiser le cadre de l'apprentissage biqualité, nous rendons ouvert le code source d'une bibliothèque Python à la Scikit-Learn pour l'apprentissage biqualité : biquality-learn. ; The ...
  • Access State: Open Access