OpenAI ha comenzado a rastrear la web con un nuevo bot: GPTBot. Su propósito: visitar webs en busca de datos recientes para entrenar y perfeccionar sus modelos (como GPT-3.5 y GPT-4, usados por ChatGPT, y también modelos futuros).
En principio, GPTBot evitará activamente navegar por webs con muros de pago y también evitará escrapear las páginas donde detecte información personal.
Pero el resto de páginas de internet podrán ser visitadas y escrapeadas por GPTBot, salvo que bloqueemos expresamente su acceso a nuestra web, por medio de robots.txt (OpenAI ha comunicado que su bot será un buen ciudadano de la web e incluso ha compartido las instrucciones para bloquearlo).
Para bloquearlo completamente, añade esto a tu robots.txt:
Y para bloquear sólo algunas carpetas de tu web y otras no, añade lo siguiente:
Qué hace GPTBot exactamente
Todos los LLMs tienen una fecha de corte en sus datos de entrenamiento (cut off training date), más allá de la cual no tienen información actualizada. Por ejemplo, el GPT-3.5 original tenía su fecha de corte en junio de 2021, y GPT-4 lo tiene en septiembre de 2022.
Para entrenar nuevas versiones de sus modelos, OpenAI necesita recolectar datos más actuales, y la mejor forma de conseguirlos es sacarlos de la web. Anteriormente, o bien usaba para esto bots no identificados, o bien aprovechaba rastreos de la web hechos por otras organizaciones (por ejemplo CommonCrawl, una organización sin ánimo de lucro que rastrea la web continuamente creando copias periódicas de una parte de su inmenso contenido).
Pero, a partir de ahora, todo rastreo hecho con la intención de aumentar los datos de entrenamiento de los modelos de OpenAI se llevará a cabo con GPTBot.
Si no quieres que OpenAI use el contenido de tu web para entrenar y perfeccionar los modelos que alimentan a ChatGPT (o que no lo vuelva a usar, porque es posible que lo haya usado anteriormente), el único crawler que necesitas bloquear es GPTBot.
Qué hace ChatGPT-User
Hay otro caso en el que un robot originado por OpenAI puede visitar una web:
Cuando usamos ChatGPT en modo navegación, es decir, usando plugins para navegar por páginas webs, no visitamos una web con GPTBot, sino con ChatGPT-User.
ChatGPT-User es el bot que todos los plugins de ChatGPT utilizan para hacer una visita a una página web.
Al igual que GPTBot, ChatGPT-User respeta el protocolo robots.txt. Por tanto, también podemos bloquearlo, si no queremos que los usuarios de ChatGPT puedan lanzar visitas automatizadas hacia nuestra web.
ChatGPT-User siempre es lanzado por un usuario particular, no por OpenAI, y nada de lo que extraiga de una web se va a usar directamente para entrenar futuros modelos de IA. Sólo se usa como parte de la respuesta que va a dar ChatGPT a ese usuario (de hecho, la información extraída puede ser usada como feedback para mejorar la respuesta de ChatGPT cuando se le pide navegar para responder a esa pregunta concreta, pero en ningún caso se usa como entrenamiento general para los modelos de OpenAI).
¿Debería bloquear a los bots de OpenAI?
La respuesta dependerá del tipo de web que tengas, y más concretamente de cómo monetices su contenido. Un ejemplo obvio de web que no querrá formar parte de los datos de entrenamiento sin recibir nada a cambio son los medios.
¿Por qué? Porque estas webs monetizan las visitas a sus páginas por medio de publicidad. A menos visitas, menos ingresos por publicidad. Por tanto, no van a permitir alegremente que una compañía use su contenido para entrenar chatbots, ya que esto podría restar tráfico al medio en el futuro.
Pero los medios no son el único tipo de web que monetiza directamente su tráfico. Cualquier red social o foro, alimentada por contenido generado por los usuarios, está en las mismas. Reddit, Quora, Stack Overflow o el propio Twitter/X son claros ejemplos de esto.
Hasta un gran ecommerce como Amazon ha bloqueado ya a GPTBot, porque no quiere que otros usen el tesoro de información sobre productos que han amasado a lo largo de los años. De hecho, ya ha anunciado un chatbot IA que creará resúmenes de reseñas de productos a partir de reseñas de los usuarios).
¿Y qué hay de las webs que no viven directamente de monetizar sus datos o su contenido, como por ejemplo una web personal o corporativa?
Pues en estos casos, la decisión ya no está tan clara. De hecho, hay razones por las que te podría interesar dejar que OpenAI use tu contenido…
Por ejemplo, ¿quieres que la próxima versión de GPT hable bien de ti, o te relacione con algún concepto/producto/servicio? Nada mejor que decir lo que te gustaría que el LLM repita, y dejar a OpenAI que rastree libremente tu web.
En cuanto a ChatGPT, la decisión de bloquear su acceso o no en principio es parecida. Pero hay una diferencia: para plugins de ChatGPT puedes cortar el grifo cuando quieras, mientras que con GPTBot, si llegas tarde y ya han usado tus datos para entrenar modelos, el daño ya estaría hecho.
Por lo que si no quieres que OpenAI pueda entrenar a GPT-4 y demás modelos con contenido sacado de tu web, cuanto antes lo bloquees, mejor.