• Media type: Text; Electronic Thesis; E-Book
  • Title: Prédiction de l'activité dans les réseaux sociaux ; Activity prediction in social-networks
  • Contributor: Kawala, François [Author]
  • Published: theses.fr, 2015-10-12
  • Language: French
  • Keywords: Trends prediction ; Social networks ; Réseaux sociaux ; Prédiction de tendances ; Apprentissage automatique ; Machine Learning
  • Origination:
  • Footnote: Diese Datenquelle enthält auch Bestandsnachweise, die nicht zu einem Volltext führen.
  • Description: Cette étude est dédiée à un problème d’exploration de données dans les médias sociaux: la prédiction d’activité. Dans ce problème nous essayons de prédire l’activité associée à une thématique pour un horizon temporel restreint. Dans ce problème des contenus générés par différents utilisateurs, n’ayant pas de lien entre eux, contribuent à l’activité d’une même thématique.Afin de pouvoir définir et étudier la prédiction d’activité sans référence explicite à un réseau social existant, nous définissons un cadre d’analyse générique qui permet de décrire de nombreux médias sociaux. Trois définitions de la prédiction d’activité sont proposées. Premièrement la prédiction de la magnitude d’activité, un problème de régression qui vise à prédire l’activité exacte d’une thématique. Secondement, la prédiction de Buzz, un problème de classification binaire qui vise à prédire quelles thématiques subiront une augmentation soudaine d’activité. Enfin la prédiction du rang d’activité, un problème de learning-to-rank qui vise à prédire l’importance relative de chacune des thématiques. Ces trois problèmes sont étudiés avec les méthodes de l’état de l’art en apprentissage automatique. Les descripteurs proposés pour ces études sont définis en utilisant le cadre d’analyse générique. Ainsi il est facile d’adapter ces descripteurs à différent média sociaux.Notre capacité à prédire l’activité des thématiques est testée à l’aide d’un ensemble de données multilingue: Français, Anglais et Allemand. Les données ont été collecté durant 51 semaines sur Twitter et un forum de discussion. Plus de 500 millions de contenus générés par les utilisateurs ont été capturé. Une méthode de validation croisée est proposée afin de ne pas introduire de biais expérimental lié au temps. De plus, une méthode d’extraction non-supervisée des candidats au buzz est proposée. En effet, les changements abrupts de popularité sont rares et l’ensemble d’entraˆınement est très déséquilibré. Les problèmes de prédiction de l’activité sont étudiés dans deux configurations ...
  • Access State: Open Access