La Bibliothèque du Congrès Archives Vos Tweets
En 2010, la Bibliothèque du Congrès a utilisé sa page Facebook pour annoncer qu’elle acquérait l’intégralité des archives Twitter – tous les tweets publics – remontant à mars 2006. Et depuis, elle archive les tweets publics. Pensez-y. Dans les quelques minutes qu’il vous faudra pour lire ceci, plus de trois millions de nouveaux tweets auront inondé Internet et se seront ajoutés à ce que Twitter estime à quelque 400 millions de nouveaux tweets envoyés chaque jour.
Au cours des deux années qui se sont écoulées depuis que la Bibliothèque du Congrès a créé son annonce, aucun détail n’a émergé sur la manière dont cette base de données de tweets sera mise à la disposition du public. Il s’avère que la Bibliothèque du Congrès n’a pas encore compris cela.
« Les gens s’attendent à des bases de données entièrement indexées – sinon consultables en ligne, et c’est très difficile à appliquer aux bases de données numériques massives en temps réel », a déclaré le bibliothécaire adjoint du Congrès Robert Dizard Jr. « La technologie d’accès aux archives doit rattraper la technologie qui a permis la création et la distribution de contenu à grande échelle. Twitter se concentre sur la création et la distribution de contenu ; c’est le modèle. Notre objectif est de collecter ces données, de les archiver, de les stabiliser et de fournir un accès ; un modèle très différent. »
Gnip est une société du Colorado qui fournit « un accès historique complet au tuyau d’incendie de Twitter ». Gnip gère le flux de tweets vers les archives de la Bibliothèque du Congrès. Chaque tweet arrive dans l’archive avec plusieurs champs de métadonnées, notamment l’origine du tweet, le nombre de fois qu’il a été retweeté, qui suit le compte qui a publié le tweet, etc. Mais la Bibliothèque du Congrès n’a pas encore déterminé comment elle va trier ses 133 téraoctets de données Twitter, reçues de Gnip en paquets chronologiques. Robert Dizzard Jr dit :
C’est assez cru. Vous entendez souvent parler de Twitter comme d’une lance à incendie, ce flux constant de tweets faisant le tour du monde. Ce que nous avons ici est un grand lac en croissance. Ce dont nous avons besoin, c’est de la technologie qui nous permet à la fois de comprendre et de rendre utile ce lac d’informations.
Dans l’état actuel des choses, la Bibliothèque n’est pas en mesure de fournir un accès aux personnes souhaitant effectuer des recherches dans la base de données. C’est prohibitif et la bibliothèque a été frappée par des coupes budgétaires. Sans une refonte majeure de son infrastructure technologique, la Bibliothèque n’a pas la capacité de traiter même les demandes de recherche les plus élémentaires.
« Nous savons d’après les tests que nous avons effectués avec même de petites parties des données que nous ne pourrons pas, par nous-mêmes, fournir un accès vraiment utile à un coût raisonnable pour nous », a déclaré Dizard. « Pour même seulement les années 2006 à 2010 [portion of the] archive, qui représente environ 21 milliards de tweets, une seule recherche pourrait prendre 24 heures en utilisant nos serveurs existants. »
« Les millisecondes ne sont pas rares pour la latence attendue entre le moment où le tweet est arrivé et le moment où quelqu’un pourrait l’obtenir et l’analyser », a-t-il déclaré.
Un jour, nous pourrons visiter personnellement la Bibliothèque du Congrès et effectuer des recherches en personne. Dizard dit que c’était une condition de l’accord avec Twitter qui a offert les archives, afin que la bibliothèque ne soit pas « en concurrence avec le secteur commercial ».
Ce projet est certainement une preuve supplémentaire du fait que ce que vous dites en ligne restera en ligne pour toujours.
Je me demande ce que vous pensez de ce projet d’archiver tous nos tweets ? Est-ce un projet utile ?