OpenAI dévoile GPTBot : le web crawler révolutionnaire, mais dangereux pour votre site web

Publié le - Auteur Par Tony L. -
OpenAI dévoile GPTBot : le web crawler révolutionnaire, mais dangereux pour votre site web

OpenAI, la société à l’origine de modèles d’intelligence artificielle avancés, vient de lancer GPTBot, un web crawler ou un outil d’exploration du web. Conçu pour collecter automatiquement des données sur l’ensemble d’Internet, cette technologie vise à renforcer la transparence dans le domaine de la collecte de données publiques tout en améliorant les modèles d’IA de la société. Si cette initiative promet de révolutionner le monde de l’IA, elle soulève néanmoins de vives inquiétudes quant à la confidentialité et la propriété intellectuelle.

Le fonctionnement de GPTBot

Ce système se caractérise par un token et une chaîne d’agent utilisateur distincts, lui permettant de scruter le web à la recherche de données pour enrichir la précision, les capacités et la sécurité de la technologie d’IA. Bien que GPTBot soit configuré pour éviter les sources nécessitant un paiement et celles recueillant des informations personnelles identifiables, des préoccupations demeurent quant à la possible collecte involontaire de telles informations. De plus, des questions subsistent sur la manière dont GPTBot gère les contenus sous licence, tels que les images, vidéos et musiques. Une utilisation inappropriée pourrait constituer une violation du droit d’auteur.

Une approche flexible pour les administrateurs de sites web

Consciente de l’importance de laisser aux administrateurs de sites le choix de collaborer, OpenAI a mis en place une procédure permettant de décider si un site sera inclus dans les efforts de collecte de données de GPTBot. Les directives relatives à GPTBot peuvent être intégrées au fichier robots.txt d’un site web, offrant ainsi la possibilité de configurer l’accès du bot à des segments de contenu spécifiques.

Transparence et éthique : au cœur des débats

La sortie de GPTBot a déclenché de vifs débats, notamment sur Hacker News, où les enjeux éthiques et juridiques de l’utilisation de données web pour former des systèmes d’IA propriétaires ont été discutés. Si certains voient cette démarche comme comparable à une personne apprenant du contenu en ligne, d’autres estiment qu’OpenAI devrait partager les profits tirés de la monétisation de ces données.

L’opt-in plutôt que l’opt-out en danger avec GPT Bot

Neil Clarke, éditeur du magazine Clarkesworld, souligne la nécessité d’un changement de paradigme, suggérant une approche « opt-in » plutôt qu' »opt-out ».

Actuellement, par défaut, OpenAI collecte les données de tous, obligeant les créateurs à bloquer activement l’accès s’ils le souhaitent. Clarke plaide en faveur d’une démarche où OpenAI devrait demander l’autorisation avant d’accéder aux données.

GPTBOT : Vers un avenir payant pour les données ?

OpenAI a récemment conclu un accord avec l’Associated Press, lui permettant d’accéder à son contenu en échange d’une compensation financière.

Cette démarche pose la question : si OpenAI est prête à payer pour certaines données, pourquoi ne pas compenser tous les fournisseurs de contenu de la même manière ?

Comment interdire ou personnaliser l’accès GPTBot à votre site ?

Les développeurs ont la possibilité d’empêcher le GPTBot d’accéder à leurs sites et d’utiliser leurs informations pour former des systèmes d’IA, voici la procédure expliquée par OpenAI :

Disallowing GPTBot :
To disallow GPTBot to access your site you can add the GPTBot to your site’s robots.txt:

User-agent: GPTBot
Disallow:

Customize GPTBot access

To allow GPTBot to access only parts of vour site you can add the GPTBot token to your site’s robots.txt like this:

1. User-agent: GPTBot
2. Allow: /directory-1/
3. Disallow: /directory-2/

Pour bloquer complètement l’accès de GPTBot à un site, le propriétaire du site peut ajouter le jeton GPTBot au fichier robots.txt du site et « Interdire : / ».

OpenAI permet également aux utilisateurs de personnaliser l’accès de GPTBot en ne le laissant explorer que certaines parties de leur site. Pour empêcher GPTBot d’accéder à certaines parties d’un site Web, ajoutez GPTBot au fichier robots.txt du site et « Autoriser : /répertoire-1/ » et « Interdire : /répertoire-2/ » et personnalisez-le selon vos besoins.

Innovation et responsabilité, le point avec GPTBot

L’avènement de GPTBot, tout en représentant une avancée technologique, met en lumière un enjeu majeur : l’équilibre entre l’innovation et le respect de la vie privée et de la propriété intellectuelle. OpenAI est à la croisée des chemins, avec d’un côté une technologie prometteuse et de l’autre, un débat houleux sur l’éthique et la responsabilité.

Connexe : Sam Altman, PDG d’OpenAI, lance Worldcoin, la crypto-monnaie qui scanne votre iris.

Par Tony L.

Passionné de technologie, Tony vous propose des articles et des dossiers exclusifs dans lesquels il partage avec vous le fruit de ses réflexions et de ses investigations dans l'univers de la Blockchain, des Cryptos et de la Tech.

Laisser un commentaire