Les interactions sociales devenant de plus en plus visuelles, si les plateformes sociales veulent pouvoir suivre le rythme, elles doivent développer des moyens de détecter et de classer le contenu image et vidéo, leur permettant de mieux faire ressortir les publications pertinentes dans les recherches et de mieux détecter les contenus potentiellement offensants.
Sur ce front, Facebook travaille depuis des années sur sa technologie avancée de reconnaissance d’images, qui peut désormais catégoriser automatiquement les images en fonction de leur contenu. Par exemple, lancez une recherche sur « photo de chemise noire » et le système de Facebook est capable de « voir » s’il y a une chemise noire sur une photo, et de rechercher en fonction de cela, même si la photo n’a pas été étiquetée avec cette information. Vous pouvez également rechercher un lieu ou un événement, comme illustré dans cet exemple.
Mais ce n’est que le début – alors que les outils de reconnaissance d’images de Facebook ont continué d’évoluer, l’évolution de la façon dont les gens utilisent les images a également obligé l’équipe de Facebook à proposer des éléments et des qualificatifs supplémentaires pour aider à détecter et à catégoriser le contenu.
Par exemple, les mèmes sont devenus une option de partage social populaire et contiennent généralement du texte superposé sur une image. Est-il possible pour Facebook d’extraire ce texte et de l’utiliser comme autre point de données ?
C’est l’objectif du nouveau système de détection de texte Rosetta dans les images de Facebook, qui couvre non seulement les mèmes, mais tout texte contenu dans une image publiée sur Facebook ou Instagram.
Le système Rosetta, selon Facebook, extrait déjà du texte de « plus d’un milliard d’images et de trames vidéo publiques Facebook et Instagram (dans une grande variété de langues), quotidiennement et en temps réel ».
C’est une énorme quantité de points de données supplémentaires, ce qui facilitera un large éventail d’utilisations. D’une part, il fournira plus de contexte aux utilisateurs malvoyants, tout en permettant également une meilleure recherche et découverte de contenu pertinent, basé sur des repères visuels.
Pour les marques, la technologie pourrait également avoir une utilité importante. Quelques exemples :
- En étant capable de rechercher des images basées sur du texte, vous pouvez trouver des personnes qui achètent déjà vos produits, ou des produits connexes, si ces éléments sont visibles en arrière-plan des images. Cela pourrait vous permettre de contacter ces utilisateurs avec des offres connexes
- En étant capable de détecter que certains utilisateurs portent des vêtements portant votre marque et de publier régulièrement des images dans ces vêtements, vous pouvez cibler ces utilisateurs et leur proposer des offres spéciales, vous permettant non seulement d’atteindre les personnes les plus susceptibles d’être intéressées. dans de telles offres, mais qui, selon vous, continuera probablement à publier des images dans les mêmes, vous donnant un coup de pouce promotionnel supplémentaire
- Si les données d’image sont fournies comme un autre outil d’analyse, vous pouvez obtenir une meilleure perspective sur votre public cible en croisant leurs achats de produits (basés sur la reconnaissance d’image) avec leurs autres points de données d’utilisation et démographiques, ce qui vous aide à cibler votre portée.
Il existe un large éventail de façons d’utiliser la reconnaissance d’images – et de plus, Facebook améliore également ses outils de traduction de texte, avec 24 langues supplémentaires ajoutées à leurs services de traduction automatique cette semaine.
Ces processus avancés offrent une toute nouvelle gamme d’implications en matière de recherche et de découverte, mais avec l’augmentation du volume de messages visuels, ce sont probablement les outils de texte dans l’image qui fourniront le changement le plus important.
La prochaine étape est donc l’identification du contenu dans les publications vidéo, que Facebook a également développé et améliore chaque jour.
« L’approche naïve consistant à appliquer l’extraction de texte basée sur des images à chaque image vidéo n’est pas évolutive, en raison de la croissance massive des vidéos sur la plate-forme, et ne ferait que gaspiller des ressources de calcul. Récemment, les convolutions 3D ont été largement adoptées en raison de leur capacité à modéliser le domaine temporel en plus de spatial domaine. Nous commençons à explorer des moyens d’appliquer des convolutions 3D pour une sélection plus intelligente des images vidéo d’intérêt pour l’extraction de texte.
La capacité de rechercher chaque jour dans les milliards de publications et de mises à jour sur Facebook et Instagram, basée sur une méthodologie plus avancée, ouvrira une vaste gamme de nouvelles opportunités. Cela prend du temps, mais les systèmes de Facebook progressent et offriront une utilité accrue sur ce front dans un avenir très proche.