Le nombre de Re-Tweets est affiché en carrés. Portez également une attention particulière au texte encerclé ci-dessus. Pour chaque Tweet, le résultat le plus probable est donné (‘t’= Tweet deviendra viral, ‘f’=autrement) et une confiance pour chaque prédiction est donnée sous la forme d’un nombre de 0 à 1. À titre d’exemple, le premier Tweet illustré ci-dessus a été posté par Paula Abdul disant qu’elle ne reviendra pas à American Idol. L’algorithme prédit avec une confiance de 63,38 % que ce que Paula Abdul a publié sera intéressant (et c’était effectivement le cas).
Le modèle prédictif a une précision globale de 72,88 % pour prédire quels Tweets seront viraux sur un total de 59 Tweets. Un exemple de prédiction incorrecte peut être vu au 4ème cercle à partir du haut. L’algorithme a donné une confiance de 53,66 % que ce Tweet ne deviendra pas viral, mais en réalité, il s’agissait d’un Tweet viral.
Vous pouvez trouver le fichier texte de l’exécution réelle de l’algorithme ici.
En consultant le fichier texte, des mesures de résultats telles que TP (vrais positifs) par rapport à FP (faux positifs) peuvent être calculées. Il est également intéressant de voir comment l’algorithme bascule vers des prédictions négatives lorsque le nombre de Re-Tweets de chaque Tweet devient inférieur à 30.
Le run suivant montre que des mots-clés spécifiques augmentent nos chances de faire un Tweet viral :
En théorie, ces informations pourraient servir de base pour effectuer des tests A/B : On pourrait simplement utiliser les 2 messages présentés ci-dessus et enregistrer l’impact de chacun à l’aide de Google Analytics (un processus qui pourrait prouver si cette technologie fonctionne ou non).
Trouver des informations intéressantes pour les masses est en fait un problème beaucoup plus difficile. Twitter est une source de données biaisée pour de nombreuses raisons : des personnes spécifiques peuvent passer leurs messages avec une grande facilité et Twitter est utilisé par des segments de population spécifiques. Il y a presque une semaine, je suis tombé sur reddit et je pense que ce site (ainsi que Digg) est capable de capturer la préférence des masses de manière plus efficace que Twitter. La vérité est que les informations disponibles sur les forums, les blogs et de nombreux autres sites Web peuvent capturer différents aspects du comportement humain. Tout ce qui est nécessaire pour extraire des connaissances utiles est un mélange efficace de ces faits, émotions et croyances de personnes provenant de différentes sources Web.
Lien vers le message d’origine