A pesar de los beneficios que muchos ven en el desarrollo de la inteligencia artificial (IA) generativa, la falta de normas claras sobre el uso de contenido con copyright por parte de este tipo de herramientas ha motivado a varias webs del mundo a bloquear los bots que captan información de las páginas para entrenar sus modelos LLM.
En especial, GPTBot, el rastreador que permite a OpenAI mejorar su servicio más popular, ChatGPT. Presentado oficialmente a comienzos del pasado agosto, desde entonces algunas de las webs con más tráfico del mundo han aprovechado las instrucciones de la compañía tecnológica para bloquear su bot y evitar así que ‘rasque’ información de su sitio.
Según los datos recopilados por Originality.AI, un 18,6% de las 1.000 webs con más tráfico a nivel global están bloqueando al menos un bot rastreador de IA, como GPTBot o Common Crawl Bot (CCBot), aunque ninguna se ha planteado, de momento, restringir el acceso de Anthropic AI.
Amazon, Quora o Indeed forman parte de la lista que bloquean el bot de ChatGPT, que se suman a la mayor parte de medios estadounidenses que se han mostrado críticos con el uso de su contenido para el entrenamiento de modelos de inteligencia artificial generativa. Son los casos de The New York Times, Reuters, PBS, Wired, y las revistas Vogue, Glamour o GQ que también restringen el acceso a CCBot.
Hay publishers, sin embargo, que a pesar de bloquear el rastreador de OpenAI, sí permiten el de CCBot, como CNN, Business Insider, Washington Post, CNBC, The Verge o Chicago Tribune. En España, webs populares como El País, El Mundo o As no bloquean ningún bot de servicios de IA.
Según los datos de Originality.AI, un 11,37% de las 1.000 páginas con mayor tráfico bloquean GPTBot, un 3,20% ChatGPT y un 6,3% CCBot, estimando en un 5% el aumento de bloqueos por cada semana que pasa.