Meta travaille vers la prochaine étape de l’IA générative, qui pourrait éventuellement permettre la création d’environnements VR immersifs via des instructions et des invites simples.

Son dernier développement sur ce front est sa mise à jour Le modèle de reconnaissance d’images DINO, qui est désormais capable de mieux identifier objets individuels dans des images et des images vidéobasé sur un apprentissage auto-supervisé, au lieu de nécessiter une annotation humaine pour chaque élément.

Comme vous pouvez le voir dans cet exemple, DINOv2 est capable de comprendre le contexte des entrées visuelles et de séparer les éléments individuels, ce qui permettra à Meta de mieux construire de nouveaux modèles qui ont une compréhension avancée non seulement de ce à quoi un élément pourrait ressembler, mais aussi où il doit être placé dans un cadre.

Meta a publié la première version de son système DINO en 2021, ce qui constituait une avancée significative dans ce qui est possible via la reconnaissance d’image. La nouvelle version s’appuie sur cela et pourrait avoir une gamme de cas d’utilisation potentiels.

Comme l’explique Meta :

« Ces dernières années, la pré-formation image-texte, a été la approche standard pour de nombreuses tâches de vision par ordinateur. Mais comme la méthode s’appuie sur des légendes manuscrites pour apprendre le contenu sémantique d’une image, elle ignore les informations importantes qui ne sont généralement pas explicitement mentionnées dans ces descriptions textuelles. Par exemple, la légende d’une photo d’une chaise dans une vaste pièce violette pourrait se lire «chaise en chêne simple». Pourtant, la légende manque des informations importantes sur l’arrière-plan, comme l’emplacement de la chaise dans l’espace dans la pièce violette.

DINOv2 est capable de construire davantage dans ce contexte, sans nécessiter d’intervention manuelle, ce qui pourrait avoir une valeur spécifique pour le développement de la réalité virtuelle.

Cela pourrait également faciliter des éléments plus immédiatement accessibles, comme des arrière-plans numériques améliorés dans les chats vidéo, ou étiqueter les produits dans le contenu vidéo. Cela pourrait également activer tous les nouveaux types d’outils AR et visuels qui pourraient conduire à des fonctions Facebook plus immersives.

« À l’avenir, l’équipe prévoit d’intégrer ce modèle, qui peut fonctionner comme un bloc de construction, dans un système d’IA plus vaste et plus complexe qui pourrait interagir avec de grands modèles de langage. Une colonne vertébrale visuelle fournissant des informations riches sur les images permettra aux systèmes d’IA complexes de raisonner sur les images d’une manière plus approfondie que de les décrire avec une seule phrase de texte. Les modèles formés avec la supervision de texte sont finalement limités par les légendes des images. Avec DINOv2, il n’y a pas de telle limitation intégrée.

Cela, comme indiqué, pourrait également permettre le développement de mondes VR générés par l’IA, de sorte que vous puissiez éventuellement créer des environnements virtuels entiers et interactifs.

C’est loin, et Meta hésite à faire trop de références au métaverse à ce stade. Mais c’est là que cette technologie pourrait vraiment prendre tout son sens, via des systèmes d’IA qui peuvent mieux comprendre ce qu’il y a dans une scène et où, contextuellement, les choses doivent être placées.

C’est un autre pas dans cette direction – et bien que beaucoup se soient refroidis sur les perspectives de la vision métaverse de Meta, cela pourrait encore devenir la prochaine grande chose, une fois que Meta sera prêt à partager davantage sa vision de niveau supérieur.

Il sera probablement plus prudent à ce sujet, étant donné la couverture négative qu’il a vue jusqu’à présent. Mais cela arrive, alors ne soyez pas surpris lorsque Meta remporte finalement la course à l’IA générative avec une expérience totalement nouvelle et totalement différente.

Vous pouvez en savoir plus sur DINOv2 ici.

Erwan

Rédigé par

Erwan

Erwan, expert digital pour Coeur sur Paris, offre des insights pointus sur le marketing et les réseaux sociaux. Avec une plume vive et une analyse fine, il transforme les complexités du digital en conseils pratiques et tendances à suivre.