Meta a présenté aujourd’hui deux nouveaux projets d’IA générative, qui permettront à terme aux utilisateurs de Facebook et d’Instagram de créer des vidéos à partir d’invites textuelles et de faciliter l’édition personnalisée d’images en flux, qui pourraient avoir une gamme d’applications précieuses.
Les deux projets sont basés sur le projet de recherche sur l’IA « Emu » de Meta, qui explore de nouvelles façons d’utiliser les invites d’IA générative pour des projets visuels.
Le premier s’appelle « Emu Video », qui vous permettra de créer de courts clips vidéo, basés sur des invites textuelles.
1️⃣ Vidéo d’émeu
Ce nouveau modèle texte-vidéo exploite notre modèle de génération d’images Emu et peut répondre à des entrées de texte uniquement, d’image uniquement ou combinées de texte et d’image pour générer une vidéo de haute qualité.Détails ➡️ https://t.co/88rMeonxup
Il utilise une approche factorisée qui nous permet non seulement… pic.twitter.com/VBPKn1j1OO
– L’IA chez Meta (@AIatMeta) 16 novembre 2023
Comme vous pouvez le voir dans ces exemples, EMU Video sera capable de créer des clips vidéo de haute qualité, basés sur de simples entrées de texte ou d’images fixes.
Comme expliqué par Meta :
« Il s’agit d’une architecture unifiée pour les tâches de génération vidéo qui peut répondre à une variété d’entrées : texte uniquement, image uniquement, et à la fois texte et image. Nous avons divisé le processus en deux étapes : premièrement, générer des images conditionnées par une invite de texte, puis générer une vidéo conditionnée à la fois par le texte et l’image générée. Cette approche « factorisée » ou divisée de la génération vidéo nous permet de former efficacement des modèles de génération vidéo.
Ainsi, si vous le souhaitez, vous pourriez créer des clips vidéo basés, par exemple, sur une photo de produit et une invite textuelle, ce qui pourrait faciliter une gamme de nouvelles options créatives pour les marques.
Emu Video sera capable de générer des vidéos 512 x 512 d’une durée de quatre secondes, fonctionnant à 16 images par seconde, ce qui semble assez impressionnant, bien plus que le précédent processus de création de texte en vidéo de Meta qu’il avait présenté en avant-première l’année dernière.
« Dans les évaluations humaines, nos générations vidéo sont fortement préférées par rapport aux travaux antérieurs – en fait, ce modèle a été préféré au (précédent projet de vidéo générative de Meta) par 96 % des personnes interrogées sur la base de la qualité et par 85 % des personnes interrogées sur la base de la fidélité au invite de texte. Enfin, le même modèle peut « animer » des images fournies par l’utilisateur sur la base d’une invite de texte, où il établit une fois de plus un nouvel état de l’art surpassant de loin les travaux antérieurs.»
Il s’agit d’un outil impressionnant qui, encore une fois, pourrait avoir de nombreuses utilisations, selon qu’il fonctionne aussi bien dans une application réelle. Mais cela semble prometteur, ce qui pourrait constituer un grand pas en avant pour les outils d’IA générative de Meta.
A noter également : ce petit filigrane en bas à gauche de chaque clip, qui est la nouvelle balise « générée par l’IA » de Meta. Meta travaille sur une gamme d’outils pour signifier le contenu généré par l’IA, y compris des filigranes numériques intégrés sur le contenu synthétique. Beaucoup d’entre eux peuvent encore être supprimés, mais cela sera difficile à faire avec des clips vidéo.
Le deuxième nouvel élément de Meta s’appelle « Emu Edit », qui permettra aux utilisateurs de faciliter des modifications personnalisées et spécifiques dans les visuels.
2️⃣ Émeu Modifier
Ce nouveau modèle est capable d’éditer de forme libre via des instructions textuelles. Emu Edit suit précisément les instructions et garantit que seuls les éléments spécifiés de l’image d’entrée sont modifiés tout en laissant intactes les zones non liées aux instructions. Cela permet d’être plus puissant… pic.twitter.com/ECWF7qfWYY– L’IA chez Meta (@AIatMeta) 16 novembre 2023
L’aspect le plus intéressant de ce projet est qu’il fonctionne sur la base d’invites conversationnelles, vous n’aurez donc pas besoin de mettre en évidence la partie de l’image que vous souhaitez modifier (comme les boissons), vous lui demanderez simplement de modifier cet élément, et le système comprendra à quelle partie du visuel vous faites référence.
Ce qui pourrait être d’une grande aide pour éditer les visuels de l’IA et créer des variantes plus personnalisées, basées exactement sur ce dont vous avez besoin.
Les possibilités des deux projets sont importantes et pourraient offrir aux créateurs et aux marques un potentiel considérable pour utiliser l’IA générative de toutes nouvelles manières.
Meta n’a pas précisé quand ces nouveaux outils seront disponibles dans ses applications, mais les deux devraient bientôt arriver, ce qui permettra de nouvelles opportunités créatives, de diverses manières.
Vous pouvez en savoir plus sur les nouvelles expériences EMU de Meta ici et ici.