Les médias sociaux sont la plus grande source d’informations sur l’activité humaine que nous ayons jamais eue. Les possibilités de ce flux de données sont infinies – il y a tellement de choses que nous pouvons découvrir grâce à cette capacité, allant des informations intéressantes (les personnes qui aiment les chats sont plus susceptibles d’être célibataires) aux applications potentiellement vitales (prédisant les épidémies de grippe) . Un article publié en 2013 proclamait que 90 % des données mondiales avaient été créées au cours des deux années précédentes, ce qui signifie que toutes sauf 10 % des données auxquelles vous avez accès aujourd’hui n’existaient tout simplement pas auparavant. Et à cause de cette croissance rapide, personne ne sait exactement ce que tout cela signifie et ce que cela signifiera dans l’application. Mais nous y travaillons lentement – et bientôt, nous aurons une autre source de données énorme à laquelle se référer et évaluer dans nos calculs.
Cette semaine, Facebook a présenté ses dernières avancées en matière d’IA de reconnaissance d’images. Facebook développe sa capacité de reconnaissance d’images depuis un certain temps, avec à sa tête le gourou de l’intelligence artificielle et professeur de l’Université de New York Yann LeCun. En novembre dernier, Facebook a présenté les progrès qu’ils avaient réalisés jusqu’à présent, avec leur système capable de distinguer les objets d’une photo 30% plus rapidement et en utilisant 10 fois moins de données de formation que les précédents benchmarks de l’industrie.
Ces développements ont conduit à la mise en œuvre de leur nouveau système automatisé de sous-titrage d’images qui a été publié en avril, offrant aux utilisateurs malvoyants une expérience améliorée sur la plate-forme.
Dans sa dernière mise à jour, Facebook a souligné les progrès supplémentaires qu’ils ont réalisés dans ce domaine, en notant spécifiquement leurs progrès en matière de précision et de capacité de reconnaissance d’images.
« Nous avons assisté à des avancées massives dans la classification des images (qu’est-ce qu’il y a dans l’image ?) ainsi que dans la détection d’objets (où sont les objets ?), mais ce n’est que le début de la compréhension du contenu visuel le plus pertinent de toute image ou vidéo. Récemment, nous avons conçu des techniques qui identifient et segmentent chaque objet dans une image, comme dans le panneau le plus à droite (c) de l’image ci-dessous, une capacité clé qui permettra des applications entièrement nouvelles. »
Comme indiqué, les derniers développements de Facebook se concentrent non seulement sur la façon d’identifier le contenu de l’image, mais aussi sur la façon de délimiter plus précisément les divers objets dans un cadre d’image pour améliorer la précision du système. Facebook utilise un processus en trois étapes pour affiner cela, allant de l’identification initiale de l’objet à une segmentation plus spécifique des limites de l’objet dans le cadre via une deuxième étape appelée SharpMask.
Dans la foulée, Facebook utilise une troisième couche analytique appelée MultiPathNet qui regarde chacun des objets identifiés et cherche à clarifier ce qu’ils sont isolément.
Comme vous pouvez le voir, maintenant chaque sujet dans le cadre est spécifié et reçoit un titre, basé sur ce que l’IA considère que chaque segment est – un beignet, un mouton, une girafe, une personne.
Alors que Facebook continue de développer et de faire évoluer son IA de reconnaissance d’images, ses modèles de précision s’améliorent constamment – il ne faudra pas longtemps avant que vous puissiez rechercher du contenu ou analyser les données des médias sociaux en fonction du contenu de l’image, en plus du texte.
Et c’est un énorme développement – comme l’a noté Facebook :
« Il existe un large éventail d’utilisations potentielles de la technologie de reconnaissance visuelle. En s’appuyant sur cette technologie de vision par ordinateur existante et en permettant aux ordinateurs de reconnaître des objets sur des photos, par exemple, il sera plus facile de rechercher des images spécifiques sans balise explicite sur chaque photo. Les personnes ayant une perte de vision seront également en mesure de comprendre le contenu d’une photo partagée par leurs amis, car le système pourra le leur dire, quelle que soit la légende publiée à côté de l’image. »
En plus de cela, Facebook a également signalé un potentiel commercial – imaginez pouvoir superposer des images avec des informations basées sur le contenu de l’image, comme des informations nutritionnelles sur des produits alimentaires, des applications de commerce électronique, comme l’attribution d’informations sur un produit à un article photographié, ou des évaluations de santé basées sur repères visuels.
Une telle capacité est également explorée par Snapchat, avec des publicités déclenchées par la reconnaissance d’images, et Pinterest, avec une recherche visuelle.
Ce prochain niveau de technologie de reconnaissance d’image est quelque chose qui semble distant, voire irréel, mais ces dernières avancées montrent que ce n’est pas aussi loin que vous pourriez le penser. Le moment est venu où vous pourrez rechercher des images en fonction du contenu de l’image, surveiller les mentions visuelles de la marque, ainsi que les mentions textuelles, et mieux comprendre votre public social en fonction non seulement de ce qu’ils disent, mais de ce qu’ils disent. ils le font, en termes de leurs photos publiées.
De plus, Facebook cherche également à appliquer les mêmes outils de reconnaissance d’image à la vidéo
« Nous avons déjà fait quelques progrès avec les techniques de vision par ordinateur pour regarder des vidéos et comprendre et classer ce qu’ils contiennent en temps réel. La classification en temps réel pourrait aider à faire apparaître des vidéos en direct pertinentes et importantes sur Facebook, tandis que l’application de techniques plus raffinées pour détecter des scènes, des objets et des actions dans l’espace et le temps pourrait un jour permettre une narration en temps réel. »
La mention spécifique de la vidéo en direct est intéressante ici – l’un des principaux défis du contenu en direct (comme l’ont noté Meerkat et Blab dans leurs annonces de sortie) est qu’il est difficile de fournir régulièrement un contenu en direct captivant et divertissant. Le contenu en direct est difficile, et il n’y a pas beaucoup de gens qui peuvent bien le faire. C’est pourquoi Facebook et Twitter travaillent tous deux avec des diffuseurs établis pour apporter plus de contenu en direct de haute qualité sur leurs plateformes – sans contenu régulier et divertissant, les téléspectateurs ne viendront tout simplement pas.
Mais la reconnaissance d’images vidéo pourrait ajouter une autre dimension à cela – si Facebook était capable de classer le contenu vidéo en temps réel, il pourrait envoyer des alertes plus pertinentes aux utilisateurs, stimulant ainsi l’engagement en vous montrant du contenu en direct qui vous intéresserait plus.
Un exemple de base – si vous aimez regarder des vidéos de montagnes russes (ce que, évidemment, beaucoup de gens font), Facebook pourrait vous alerter d’une diffusion en direct de montagnes russes en cours. Si un événement se produisait dans une ville, Facebook pourrait rassembler tous les flux en direct pertinents dans un onglet séparé pour fournir une gamme de perspectives – cela est déjà possible, dans une certaine mesure, via la carte en direct, mais la reconnaissance d’image le rendrait plus spécifique.
En plus de la dernière mise à jour sur les avancées de la reconnaissance d’images, Facebook a également annoncé qu’il mettait le code de ces outils à la disposition de tous, dans l’espoir qu’ils pourront faire progresser leur technologie plus rapidement grâce à l’open source – une autre raison pourquoi cette prochaine étape pourrait être plus proche que vous ne le pensez.
Comme indiqué, les médias sociaux nous fournissent une source de données incroyable, que nous sommes encore loin d’utiliser ou de comprendre pleinement. Et c’est sur le point de devenir encore plus profond.
Cela vaut la peine de considérer les possibilités.