Twitter publie ses données d'algorithme de classement des tweets sur GitHub, offrant plus de transparence dans le processus

Comme promis par le chef de Twitter Elon Musk plus tôt ce mois-ci, Twitter a publié aujourd’hui son code d’algorithme de recommandation sur GitHub pour que tout le monde puisse le voir, tandis qu’il a également publié un nouvel aperçu du fonctionnement de son algorithme de recommandation de tweet, fournissant de nouvelles informations sur ce qui dicte l’ordre. dans lequel les tweets sont affichés.

Comme expliqué par Twitter:

« Sur GitHubvous trouverez deux nouveaux référentiels (dépôt principal, dépôt ml) contenant le code source de nombreuses parties de Twitter, y compris notre algorithme de recommandations, qui contrôle les Tweets que vous voyez sur le fil Pour vous. Pour cette version, nous avons visé le plus haut degré de transparence possible, tout en excluant tout code qui compromettrait la sécurité et la confidentialité des utilisateurs ou la capacité de protéger notre plateforme contre les mauvais acteurs, y compris saper nos efforts de lutte contre l’exploitation et la manipulation sexuelles des enfants.

Il est également important de noter que Twitter n’a pas inclus les informations de pondération liées à chaque élément – c’est-à-dire l’importance accordée à chaque facteur dans la conduite des résultats de sortie finaux.

MISE À JOUR : Bien que Twitter ait indiqué qu’il avait choisi « de ne pas publier les données d’entraînement ou les poids de modèle associés à l’algorithme Twitter à ce stade », certains codeurs externes ont trouvé les données de pondération dans la base de code.

Algo Twitter 101

Boosts
– Aime 30x
– Retweets 20x
– Gazouillement Bleu 2-4x
– Cercle de confiance 3x
– Images/vidéos 2x
– Réponses 1x

Négatifs
-URL uniquement
– Pas de texte
– Muet
– Bloc
– Ne plus suivre
– Rapport pic.twitter.com/mrCuGXB2gJ

– Peter Yang (@petergyang) 1 avril 2023

Comme vous pouvez le voir dans ce tweet de Pierre Yangles likes et les retweets sont de loin les indicateurs d’intérêt les plus importants, ce qui contribuera à augmenter la portée des tweets, tandis que les tweets avec une URL uniquement, ou les tweets qui déclenchent des actions négatives de l’utilisateur, comme un blocage ou un désabonnement, limiteront les performances.

Ce qui correspond à peu près à ce à quoi vous vous attendez, mais il convient de noter ce qui obtient le plus de traction dans l’algorithme. Notez également que les tweets des abonnés Twitter Blue sont multipliés par 2 à 4.

Dans l’ensemble, la version fournit un aperçu de haut niveau du fonctionnement des algorithmes de Twitter, tandis que Twitter a également fourni un une explication plus simple du systèmeafin d’aider les utilisateurs à comprendre comment il détermine ce que vous verrez dans votre chronologie chaque fois que vous ouvrirez l’application.

Selon Twitter:

« La base des recommandations de Twitter est un ensemble de modèles et de fonctionnalités de base qui extraient des informations latentes des tweets, des utilisateurs et des données d’engagement. Ces modèles visent à répondre à des questions importantes sur le réseau Twitter, telles que, « Quelle est la probabilité que vous interagissiez avec un autre utilisateur à l’avenir ? » ou, « Quelles sont les communautés sur Twitter et quels sont les Tweets à la mode en leur sein ? » Répondre à ces questions avec précision permet à Twitter de fournir des recommandations plus pertinentes.”

Ce dernier élément est important et correspond à ce que Ryan Broderick de Garbage Day avait découvert dans ses expériences de test de ce qui gagne maintenant du terrain via tweet.

Comme le résume Broderick :

« Twitter utilise des subreddits invisibles via Topics pour organiser les tweets de manière algorithmique. Parce que la page For You n’est plus chronologique, les tweets viraux ne peuvent plus être aussi opportuns qu’avant. Ils doivent être un peu persistants. Cela aide s’ils commentent quelque chose qui devient déjà viral. Et cela aide vraiment si vous publiez un fil de discussion, répondez à vous-même ou créez une sorte de discussion dans les réponses. Il semble également y avoir un plus grand accent sur la vidéo maintenant.”

Il s’avère que Ryan avait raison – Twitter cherche maintenant à promouvoir plus de tweets dans le flux « Pour vous » en fonction de l’engagement thématique, que Twitter définit au niveau du compte, en filtrant certains comptes dans des catégories de sujets, puis en l’utilisant comme guide pour catégoriser le sujet probable de chacun de leurs tweets.

Selon Twitter:

« L’un des espaces d’intégration les plus utiles de Twitter est SimClusters. Les SimClusters découvrent des communautés ancrées par un groupe d’utilisateurs influents à l’aide d’un algorithme de factorisation de matrice personnalisé. Il existe 145 000 communautés, qui sont mises à jour toutes les trois semaines. La taille des communautés varie de quelques milliers d’utilisateurs pour des groupes d’amis individuels à des centaines de millions d’utilisateurs pour les actualités ou la culture pop. Plus les utilisateurs d’une communauté aiment un Tweet, plus ce Tweet sera associé à cette communauté.

L’image ci-dessus montre certaines des plus grandes « communautés » de Twitter, ou des collections thématiques basées sur le filtrage algorithmique de Twitter.

Twitter affirme que cette approche est devenue un facteur clé pour décider quels tweets « hors réseau » insérer dans votre flux « Pour vous », ou quels tweets vous montrer à partir de comptes que vous ne suivez pas. Et avec de plus en plus de ces recommandations insérées dans les flux d’utilisateurs, cela devient un facteur plus important d’exposition aux tweets – bien que cela changera à nouveau bientôt, lorsque Twitter restreindra davantage les recommandations « Pour vous » aux seuls tweets provenant de comptes d’abonnés payants.

Personne ne peut deviner comment cela affecte l’expérience Twitter à ce stade, mais cela transformera fondamentalement le flux « Pour vous », au moins, en limitant le pool de tweets sources que Twitter peut extraire.

Et si les célébrités, en particulier, ne paient pas ou arrêtent de tweeter en conséquence, cet impact pourrait être significatif.

C’est la révélation la plus importante de l’aperçu algorithmique de Twitter, bien qu’il y ait plusieurs autres notes et points intéressants inclus dans la documentation :

Pour chaque session utilisateur, Twitter extrait environ 1500 tweets susceptibles d’intéresser chacun, avant de les classer dans le flux « Pour vous »
La chronologie For You se compose actuellement de 50 % de Tweets In-Network (personnes que vous suivez) et de 50 % de Tweets Out-of-Network, en moyenne
Twitter prédit également la probabilité d’engagement entre deux utilisateurs. « Plus le score Real Graph entre vous et l’auteur du Tweet est élevé, plus nous inclurons de leurs tweets »
Un autre facteur est les tweets avec lesquels les personnes que vous suivez interagissent – ce qui n’est pas une révélation, juste un point à noter
Le classement des Tweets est effectué via un « réseau neuronal de paramètres d’environ 48 millions qui est continuellement formé sur les interactions des Tweets pour optimiser l’engagement positif (par exemple, les J’aime, les Retweets et les Réponses) ». Il n’y a cependant aucune note sur la façon dont Twitter détermine l’engagement positif par rapport à l’engagement négatif dans ce contexte

Cela fournit un contexte intéressant sur la façon dont Twitter cherche à classer les tweets et à maximiser l’exposition dans le flux principal « Pour vous » – bien que cela changera encore une fois le 15 avril, lorsque Twitter passera à l’affichage uniquement des tweets des utilisateurs payants dans ses recommandations « Pour vous ».

Ce qui, à certains égards, rend une grande partie de cette idée redondante – même si je suppose que si la théorie de travail est que, finalement, la plupart des utilisateurs paieront, cela pourrait rester indicatif pendant un certain temps encore.

Sauf qu’ils ne le feront pas.

Moins de 1 % des utilisateurs de Twitter sont actuellement payer pour Twitter Blueet bien que la décision de supprimer les coches bleues « héritées » et d’annuler le processus de classement « Pour vous » entraînera une participation supplémentaire, il semble peu probable que Twitter Blue soit une considération importante pour la grande majorité des utilisateurs de Twitter.

Je suppose que l’autre élément à prendre en compte, à cet égard, est que la grande majorité des tweets proviennent de très peu d’utilisateurs, la plupart des profils Twitter se tweetant rarement eux-mêmes. Peut-être alors que Twitter n’a besoin que d’un plus petit nombre d’utilisateurs pour s’inscrire à Blue afin d’en faire un élément plus important dans le classement des tweets. Mais il semble toujours peu probable de produire de meilleurs résultats en mettant en évidence le contenu le plus pertinent de l’ensemble de l’application.

Quoi qu’il en soit, il semble que Twitter va de l’avant, et maintenant, les développeurs extérieurs ont plus d’informations sur le fonctionnement de l’algorithme de Twitter, ce qui conduira à un nouveau flot d’idées et d’indications sur la façon de jouer avec le système.

L’espoir de Twitter est que cela l’aide également à améliorer rapidement ses algorithmes. Peut-être que cela arrive aussi. Nous devrons attendre et voir.

Rédigé par

Erwan

Erwan, expert digital pour Coeur sur Paris, offre des insights pointus sur le marketing et les réseaux sociaux. Avec une plume vive et une analyse fine, il transforme les complexités du digital en conseils pratiques et tendances à suivre.

Twitter publie ses données d’algorithme de classement des tweets sur GitHub, offrant plus de transparence dans le processus

Articles recommandés

TikTok condamné à une amende de 15,9 millions de dollars au Royaume-Uni pour avoir autorisé des utilisateurs mineurs à accéder à la plateforme

LinkedIn lance un « Guide de création » pour fournir plus de conseils aux membres

Comment Vurb peut aider Snapchat à gagner