Au fur et à mesure qu’Internet a évolué, et la connectivité avec lui, les visuels sont devenus de plus en plus l’élément clé qui se démarque et attire l’attention des utilisateurs dans les flux sociaux toujours occupés.
Cela a commencé avec des images statiques, puis est passé aux GIF, et maintenant la vidéo est le type de contenu le plus engageant. Mais en substance, vous avez vraiment besoin de visuels attrayants et intéressants pour arrêter les gens au milieu du défilement, ce qui, pour la plupart, est bien plus efficace que d’essayer de les attraper avec un titre ou une doublure pleine d’esprit.
C’est pourquoi c’est intéressant – aujourd’hui, Google a présenté son dernier processus de création d’images 3D appelé « LOLNeRF » (oui, vraiment), qui est capable de estimer avec précision la structure 3D à partir d’images 2D uniques.
Il existe de nombreuses situations où il serait utile de connaître la structure 3D à partir d’une seule image, mais cela est généralement difficile, voire impossible. Découvrez un cadre qui apprend à modéliser la structure et l’apparence 3D à partir de collections d’images à vue unique → https://t.co/h4xpWBwbaA pic.twitter.com/mQnq8ZMKFM
– Google IA (@GoogleAI) 13 septembre 2022
Comme vous pouvez le voir dans ces exemples, le LOLNeRF peut prendre votre image 2D habituelle et la transformer en un affichage 3D.
Dont Facebook propose également une version depuis un certain temps, mais le nouveau processus LOLNeRF est un modèle beaucoup plus avancé, permettant plus de profondeur et d’interactivité, sans avoir besoin de comprendre et de capturer des modèles 3D complets.
Comme expliqué par Google :
« Dans « LOLNeRF : Learn from One Look », nous proposons un cadre qui apprend à modéliser la structure et l’apparence 3D à partir de collections de vue unique images. LOLNeRF apprend la structure 3D typique d’une classe d’objets, tels que des voitures, des visages humains ou des chats, mais uniquement à partir de vues simples d’un même objet, jamais le même objet deux fois.
Le processus est capable de simuler la couleur et la densité de chaque point dans l’espace 3D, en utilisant des « points de repère » visuels dans l’image, basés sur l’apprentissage automatique – reproduisant essentiellement ce que le système sait à partir d’images similaires.
« Chacune de ces prédictions 2D correspond à un point sémantiquement cohérent sur l’objet (par exemple, le bout du nez ou les coins des yeux). Nous pouvons ensuite dériver un ensemble d’emplacements 3D canoniques pour les points sémantiques, ainsi que des estimations des poses de caméra pour chaque image, de sorte que la projection des points canoniques dans les images soit aussi cohérente que possible avec les points de repère 2D.”
À partir de là, le processus est capable de rendre des visuels multidimensionnels plus précis à partir d’une source unique et statique, qui pourrait avoir une gamme d’applications, de l’art AR à la création d’objets étendue en VR, et le futur espace métaverse.
En effet, si ce processus est capable de créer avec précision des représentations 3D d’une large gamme d’images 2D, cela pourrait considérablement accélérer le développement d’objets 3D pour aider à construire des mondes métaverses. Le concept du métaverse est qu’il sera capable de faciliter pratiquement toutes les interactions et expériences de la vie réelle, mais pour ce faire, il a besoin de modèles 3D d’objets du monde réel, de tout le spectre, comme matériau source pour alimenter ce nouveau démarche créative.
Et si vous pouviez simplement alimenter un catalogue d’images Web dans un système, puis lui faire cracher des équivalents 3D, à utiliser dans des publicités, des promotions, des expériences interactives, etc. ?
Cela pourrait être utilisé de différentes manières, et il sera intéressant de voir si Google est capable de traduire le processus LOLNerf en options d’utilisation plus pratiques et accessibles pour ses propres ambitions AR et VR.