Google permettra aux administrateurs Web de bloquer les systèmes des sites de scraping pour la formation en IA

Après qu’OpenAI ait récemment annoncé que les administrateurs Web pourraient empêcher ses systèmes d’explorer leur contenu, via une mise à jour du fichier robots.txt de leur site, Google cherche également à donner aux gestionnaires Web plus de contrôle sur leurs données et s’ils autorisent ses scrapers. pour l’ingérer pour la recherche générative d’IA.

Comme expliqué par Google :

« Nous annonçons aujourd’hui Google-Extended, un nouveau contrôle que les éditeurs Web peuvent utiliser pour déterminer si leurs sites contribuent à améliorer les API génératives Bard et Vertex AI, y compris les futures générations de modèles qui alimentent ces produits. En utilisant Google-Extended pour contrôler l’accès au contenu d’un site, un administrateur de site Web peut choisir d’aider ou non ces modèles d’IA à devenir plus précis et plus performants au fil du temps.

Ce qui est similaire à la formulation utilisée par OpenAI, en essayant d’amener davantage de sites à autoriser l’accès aux données avec la promesse d’améliorer ses modèles.

En effet, la documentation OpenAI explique que :

« Le contenu récupéré n’est utilisé que dans le processus de formation pour apprendre à nos modèles comment répondre à une demande d’utilisateur compte tenu de ce contenu (c’est-à-dire pour améliorer la navigation de nos modèles), et non pour améliorer la création de réponses de nos modèles.

De toute évidence, Google et OpenAI souhaitent continuer à importer autant de données que possible du Web ouvert. Mais la capacité de bloquer les modèles d’IA du contenu a déjà amené de nombreux grands éditeurs et créateurs à le faire, afin de protéger les droits d’auteur et d’empêcher les systèmes d’IA générative de reproduire leur travail.

Et avec l’intensification des discussions autour de la réglementation de l’IA, les grands acteurs peuvent voir ce qui se passe, ce qui conduira à terme à une meilleure application des ensembles de données utilisés pour créer des modèles d’IA génératifs.

Bien sûr, il est trop tard pour certains, OpenAI, par exemple, construisant déjà ses modèles GPT (jusqu’à GPT-4) sur la base de données extraites du Web avant 2021. Ainsi, certains grands modèles de langage (LLM) ont déjà été construits avant ces autorisations ont été rendues publiques. Mais à l’avenir, il semble que les LLM disposeront de beaucoup moins de sites Web auxquels ils pourront accéder pour construire leurs systèmes d’IA générative.

Ce qui deviendra une nécessité, même s’il sera intéressant de voir si cela s’accompagne également de considérations de référencement, à mesure que de plus en plus de personnes utilisent l’IA générative pour effectuer des recherches sur le Web. ChatGPT a eu accès au Web ouvert cette semaine, afin d’améliorer la précision de ses réponses, tandis que Google teste l’IA générative dans la recherche dans le cadre de son expérience Search Labs.

À terme, cela pourrait signifier que les sites Web voudront être inclus dans les ensembles de données de ces outils, afin de garantir qu’ils apparaissent dans les requêtes pertinentes, ce qui pourrait entraîner un retour important à l’autorisation des outils d’IA d’accéder à nouveau au contenu à un moment donné.

Quoi qu’il en soit, il est logique que Google s’aligne sur les discussions actuelles autour du développement et de l’utilisation de l’IA et veille à ce qu’il donne aux administrateurs Web plus de contrôle sur leurs données, avant qu’une loi n’entre en vigueur.

Google note en outre qu’à mesure que les applications d’IA se développent, les éditeurs Web « seront confrontés à la complexité croissante de la gestion des différentes utilisations à grande échelle » et qu’il s’engage à s’engager avec les communautés du Web et de l’IA pour explorer la meilleure voie à suivre, ce qui conduira idéalement à de meilleurs résultats. résultats des deux points de vue.

Vous pouvez en savoir plus sur la façon d’empêcher les systèmes d’IA de Google d’explorer votre site ici.

Rédigé par

Erwan

Erwan, expert digital pour Coeur sur Paris, offre des insights pointus sur le marketing et les réseaux sociaux. Avec une plume vive et une analyse fine, il transforme les complexités du digital en conseils pratiques et tendances à suivre.