Vous lisez

Prédire le prochain Tweet viral

Réseaux sociaux

Prédire le prochain Tweet viral

Il est temps d’utiliser les données de Twitter pour une autre raison : l’analyse prédictive peut-elle être utilisée pour identifier les tweets qui ont une probabilité accrue de devenir viraux ?

Nous devons d’abord identifier le problème et voir quelles informations nous devons prendre en compte. Chaque Tweet a un auteur, un contenu et est publié un jour et une heure spécifiques. Plus précisément, pour chaque tweet, nous pouvons collecter des données d’utilisation telles que

  • Jour de publication
  • Heure de la poste
  • Minutes écoulées depuis la publication du tweet
  • Auteur du tweet (nom d’utilisateur Twitter)
  • Nombre d’abonnés à l’auteur

ainsi que des informations telles que :

  • Objet du message
  • Si le tweet implique une question posée
  • Si le tweet contient des hashtags
  • Si le tweet contient une directive « Please Re-Tweet » (ou des variantes)
  • Si un utilisateur est mentionné
  • Le texte du tweet lui-même.

Notre objectif est alors de combiner les informations mentionnées ci-dessus et de proposer un modèle prédictif qui, lorsqu’on lui donne un auteur, un jour, une heure de publication et le texte du tweet, sera en mesure de nous dire si ce tweet a une probabilité accrue de devenir viral. .

Pour cet exercice d’exploration de données et de texte (et en gardant à l’esprit que les tweets ont été échantillonnés à partir d’un site Web et non de Twitter lui-même), définissons ce qu’est un tweet viral : Après avoir collecté env. 8000 tweets de dailyrt.com, il a été constaté que la valeur médiane des Re-tweets est de 17. Ici, nous supposons que si un tweet dépasse 30 Re-tweets, il est considéré comme viral (et en fait cette hypothèse spécifique rend la tâche de classification beaucoup plus facile) .

Comme indiqué ci-dessus, les données d’utilisation ne nous disent rien sur le contenu d’un tweet. Les données d’utilisation nous renseignent sur le nom de l’auteur, ses abonnés, la date de publication du tweet et le nombre de minutes écoulées depuis sa publication. Ces informations peuvent-elles à elles seules prédire si un tweet deviendra viral ? Un modèle d’exploration de données a prédit (sans utiliser le temps écoulé comme champ de saisie) avec une précision globale de 75,03 % si un tweet peut être viral et – peut-être comme prévu – a montré que le facteur le plus important pour rendre un tweet viral est son auteur. L’exécution d’un processus appelé Sélection de fonctionnalités nous dit simplement que :


Mais ce que nous avons vu jusqu’à présent ne nous dit qu’un côté – le Data Mining – de l’histoire. Avec le Text Mining, nous pouvons voir l’importance des mots et des auteurs. Pour ce faire, chaque auteur est ajouté à la fin de chaque tweet (donc essentiellement l’auteur devient une partie de chaque texte de tweet). Voici ce que nous dit Feature Selection :


Un Tweet mentionnant Michael Jackson a une grande probabilité de devenir viral, mais peut-être devrait-il également être publié par un auteur populaire pour avoir un plus grand impact. Faites également attention au fait que @mashable et le @l’oignon sont au-dessus de notre liste de sélection de fonctionnalités ci-dessus.

La tâche difficile – mais aussi intéressante – est de prédire un tweet viral qui a un impact non pas à cause de son auteur mais à cause de son contenu et pour ce faire la méthodologie de collecte et d’analyse des données diffère considérablement.

Dans le prochain post, nous verrons un modèle prédire les tweets viraux en action : Nous soumettrons plusieurs tweets et leur auteur et le modèle nous indiquera la probabilité que chaque tweet soumis devienne viral.

Lien vers le message d’origine

Erwan

Rédigé par

Erwan

Erwan, expert digital pour Coeur sur Paris, offre des insights pointus sur le marketing et les réseaux sociaux. Avec une plume vive et une analyse fine, il transforme les complexités du digital en conseils pratiques et tendances à suivre.