Pour une entreprise qui compte plus de 3 milliards d'utilisateurs actifs et le flux de données sans fin qui en découle, il est demandé pourquoi Meta doit s'appuyer sur de tels mâles de données externes pour alimenter ses outils d'IA.
Quoi qu'il en soit, la société étant confrontée à une contestation judiciaire importante aux États-Unis sur l'utilisation non autorisée du matériel protégé par le droit d'auteur pour former son modèle de lama, Meta a également été frappée par une autre contestation du droit d'auteur, cette fois en France, où les éditeurs français ont également lancé une action en justice pour une contrefaçon de droit d'auteur.
Comme indiqué par Bloomberg:
« Les éditeurs et les auteurs français poursuivent Meta pour violation du droit d'auteur, accusant le géant de la technologie d'utiliser leurs livres pour former son modèle d'intelligence artificielle générative sans autorisation. SNE, l'Association professionnelle représentant les principaux éditeurs français, dont Hachette et Éditeavec la SGDL de l'Association des auteurs et le syndicat des écrivains SNAC, a déposé une plainte cette semaine devant un tribunal de Paris dédié à la propriété intellectuelle, a déclaré le groupe lors d'une conférence de presse mercredi. «
Il semble que, tout comme le collectif américain cherchant à tenir Meta pour tenir compte de leurs œuvres illégalement, les éditeurs français ont également trouvé la même chose, que les modèles d'IA de META sont capables de produire des répliques très précises du travail de leurs auteurs, de signaler probablement le grattage et le vol de leur propriété intellectuelle.
Qui découle probablement de la même poussée de développement de l'IA dans l'entreprise.
Selon les rapports, après la montée en puissance d'Openai en 2022, le méta-PDG Mark Zuckerberg était désespéré de rattraper son retard et de construire un modèle rival de l'IA qui garantirait que Meta est restée le leader de la course d'IA.
Dans ce domaine, Zuckerberg aurait approuvé l'utilisation de ce que Meta savait était le matériel protégé par le droit d'auteur afin de construire son modèle linguistique.
Comme indiqué par le New York Times:
« Meta ne pouvait correspondre à Chatgpt que si elle obtient plus de données. Certains ont débattu de paiement de 10 $ le livre pour les droits de licence complets aux nouveaux titres. Ils ont discuté de l'achat de Simon & Schuster, qui publie des auteurs comme Stephen King, selon les enregistrements. Ils ont également expliqué comment ils avaient résumé les livres, essais et autres œuvres d'Internet sans autorisation et discuté davantage, même si cela signifiait faire face à des poursuites. Un avocat a mis en garde contre les préoccupations «éthiques» concernant la prise de la propriété intellectuelle des artistes mais a été accueillie, selon les enregistrements. »
Meta aurait ensuite intégré du matériel protégée par le droit d'auteur à l'origine illégale, des plates-formes de grattage qui, selon elle, fonctionnaient en violation de la loi.
Le problème, selon NYT, était que malgré la méta qui ait autant d'utilisateurs de ses applications, la plupart du contenu qu'ils produisent n'est pas trop utile pour construire son modèle d'IA, car les gens suppriment les publications plus anciennes, les gens ne publient généralement pas de contenu plus long sur l'application, le style d'écriture ne s'aligne pas sur la nature conversationnelle des chatbots, etc.
En tant que tel, pour que Meta rivalise, elle avait besoin de nouvelles sources de données et elle l'a trouvé dans des livres piratés. Que les éditeurs ont maintenant détecté par leurs propres moyens.
Qui pourrait voir Meta faire face à un défilé de poursuites dans le monde, surtout si ces cas initiaux conduisent à des accords de rémunération pour les auteurs touchés.
En effet, si un précédent juridique peut être établi, vous pouvez parier que chaque maison d'édition dans le monde sentira l'argent et produira à travers toutes les informations qu'ils peuvent trouver pour renifler des traces de leurs propres œuvres.
Ce qui pourrait entraîner des sanctions majeures pour la méta pour aller de l'avant.
Mais s'accrocher, comment Openai, une start-up beaucoup plus petite, sans accès aux informations des milliards d'utilisateurs, construire sa propre base de données de la même manière sans les mêmes problèmes de droit d'auteur?
Eh bien, il est également confronté à divers défis juridiques pour le même.
En effet, dans tous ces cas, vous pouvez vous attendre à voir Openai également enquêté pour la même violation, car les auteurs et les éditeurs recherchent un recours pour une utilisation non autorisée.
Les données sont la source de puissance artérielle des modèles de grands langues, et la société avec les meilleures sources de données finira par gagner, car leur système produira des résultats meilleurs, plus précis et plus utilisables, en fonction de l'ensemble de référence. Sans cette source de données initiale, les systèmes n'ont rien à faire, ce qui explique pourquoi Meta et Openai, et d'autres, étaient prêts à prendre de tels risques dans la construction de leur LLMS.
En même temps, une fois qu'ils sont construits, ils existent, et vous pouvez ensuite les former avec des données supplémentaires à partir de là. Meta a donc peut-être considéré cela comme un risque nécessaire dans la configuration, ce qui lui permettra désormais d'utiliser davantage ses propres données pour affiner ses modèles.
C'est similaire à la façon dont Xai approche de son LLM, en construisant la fondation, puis en utilisant X messages pour affiner et réviser le modèle pour fournir des mises à jour informationnelles en temps réel.
En tant que tel, bien que cela puisse finir par leur coûter, cela pourrait en valoir la peine, compensé par les avantages qu'ils glaneront de vendre leurs modèles.
Quoi qu'il en soit, il pourrait prendre des années aux tribunaux pour plaider chaque cas, et d'ici là, il peut y avoir une nouvelle approche juridique de la formation LLM et de l'utilisation de ces travaux.
Vous pouvez parier que Meta explore tous les angles sur ce front.