¿Qué opina Google sobre el contenido generado por IA?

¿Penaliza Google el contenido generado por ChatGPT y otras herramientas de IA generativa? ¿Puede o intenta siquiera detectarlo? Vamos a verlo en este post.

Ya sabemos que 2022 y 2023 han sido “los años de la IA”, con varios avances recientes que han acaparado la atención del público, como las IAs de imágenes y, por encima de todo, ChatGPT.

Aparte, Google lanzó en agosto de 2022 el Helpful Content Update, un nuevo algoritmo para premiar el “contenido útil” y creado “por y para personas”, algoritmo que desde diciembre de 2022 ya valora el contenido en cualquier idioma, no sólo en inglés.

Todo esto ha hecho que la postura de Google ante el contenido generado por IA sea uno de los temas que más interés despierta actualmente entre la comunidad SEO, tanto internacional como en español.

Algunas de las preguntas que me han hecho y he visto varias veces repetidas en Twitter y Linkedin son:

¿Castigará Google todo el contenido creado sólo «para SEO»?
¿Castigará Google todo el contenido generado por IA?
¿Puede Google detectar el contenido generado por IA?

En este post, trataré de dejar clara la postura oficial de Google sobre todas estas cuestiones.

Tabla de contenidos

¿Cuál es la postura de Google sobre el contenido generado automáticamente?

A día de hoy, la postura de Google es la siguiente: los contenidos creados principalmente con el objeto de posicionarse en buscadores, hayan sido creados por el método que sea, van en contra de nuestras directrices. Siempre que el contenido sea útil y se cree pensado principalmente en personas, no importa si lo ha generado una IA.

Fuente: https://twitter.com/searchliaison/status/1613462881248448512

Actualizado: Posteriormente a este hilo de Twitter, el 8 de febrero de 2023 Google publicó esta página en su Guía de la Búsqueda, donde reitera su postura oficial: el contenido degenerado por métodos automatizados, incluido por Inteligencia Artificial, está en contra de sus directrices sólo cuando se crea con la intención principal de manipular sus rankings.

Es decir, Google rechaza que la disyuntiva sea entre “contenido creado por personas” vs “generado por IA” y pone el foco en la finalidad del contenido. Para ellos, la línea separatoria debe estar entre el “contenido creado principalmente para buscadores” y el “creado principalmente para personas”.

Puede que todo esto aún te resulte un poco difuso y quieras saber qué rasgos concretos definen a cada tipo de contenido. Para ello, Google publicó dos checklists o series de preguntas para ayudar a decidir, sin lugar a dudas, si un contenido pertenece a un tipo u otro.

Puedes consultar estos cuestionarios, en español, en mi post sobre el Helpful Content Update. Además, al final de este mismo post te dejo algunos ejemplos de cada tipo.

Referencias a la postura de Google sobre IA en su documentación y comunicaciones oficiales

Las páginas de documentación oficial en las que Google aborda este tema son dos:

El capítulo dedicado a Políticas de Spam dentro de las Directrices básicas de búsqueda (Google Search Essentials)
Una página de la documentación de Google titulada “Crear contenido útil, fiable y centrado en las personas”

Además, los representantes de Google han hecho en los últimos meses varias declaraciones en la misma línea, como por ejemplo la que he citado al principio de este apartado.

Directrices básicas de búsqueda de Google (Search Essentials)

Dentro del apartado dedicado a todas las prácticas que pueden constituir alguna forma de spam, hay un punto dedicado al “contenido engañoso generado automáticamente” (en inglés, Spammy automatically generated content).

Este punto dice literalmente (énfasis mío):

El contenido engañoso generado automáticamente es aquel que se crea mediante programas informáticos sin aportar nada original ni añadir suficiente valor. Su finalidad principal no es ayudar a los usuarios, sino manipular el posicionamiento de los resultados de búsqueda. Estos son algunos ejemplos de contenido engañoso generado automáticamente:

Texto que no tiene sentido al leerlo pero que contiene palabras clave de búsqueda
Texto traducido por una herramienta automática que se haya publicado sin revisión ni edición humanas
Texto generado mediante procesos automatizados sin tener en cuenta la calidad ni la experiencia de usuario
Texto generado a partir de sinónimos automáticos, paráfrasis o técnicas de ofuscación
Texto generado a partir del raspado de datos de feeds o resultados de búsqueda
Texto generado mediante la combinación de contenido de varias páginas web sin suficiente valor añadido

Y termina añadiendo que si en algunas páginas recurres a estas técnicas, puedes excluirlo voluntariamente del index de Google.

Tal y como interpreto el texto, las coletillas “sin aportar nada original ni añadir suficiente valor” y “sin tener en cuenta la calidad ni la experiencia de usuario” son parte fundamental del mensaje de Google. Si somos capaces de generar valor para el usuario, aún usando IA para la redacción, estaríamos fuera de la categoría “contenido engañoso generado automáticamente”.

Este tuit de la cuenta oficial de Google Search Liaison también destaca el mismo punto:

Fuente: https://twitter.com/searchliaison/status/1613463969032998912

“Crear contenido útil, fiable y centrado en las personas”

Respecto a la otra página que habla sobre el tema, en esencia repite los dos checklists para diferenciar entre contenido útil (para personas) y contenido no útil (creado para buscadores) que ya habían publicado al lanzar el Helpful Content Update. Quizá la línea más destacable de los checklists son estas:

¿Utilizas alguna automatización exhaustiva para crear contenido sobre muchos temas?

Este es un matiz que no aparecía en las Directrices básicas de búsqueda, pero que realmente es casi consecuencia del requisito de crear contenido que aporte algo original o de suficiente valor a los usuarios.

Si ya es un reto contribuir algo original cuando generas contenido automático en torno a un tema específico, incluso si eres experto en ese tema y tienes la capacidad de editar y validar lo que devuelve la máquina, imagina crear contenido original y de valor sobre muchos temas al mismo tiempo.

En casos así, es casi forzoso que el output sea superficial, poco menos que un refrito de fuentes muy básicas, tipo Wikipedia. Esto es algo que muchos hemos notado en ChatGPT, cuando le preguntamos sobre temáticas que conocemos bien.

¿Ha sido siempre esta la postura de Google respecto al contenido por IA?

¿Ha dicho Google siempre lo mismo que dice ahora sobre el contenido generado automáticamente?

Pues no, de hecho hasta abril de 2022 uno de sus documentos oficiales, la antigua Guía para Webmasters (ahora sustituida por sus Search Essentials), decía que el contenido automatizado estaba siempre en contra de sus políticas.

El cambio (añadir la coletilla “intended to manipulate search rankings“, en inglés) se produjo el 12 de abril de 2022, fue advertido primero por Kenichi Suzuki, y me hice eco de ello en Twitter y en mi newsletter semanal, 10 Links Azules:

La URL donde se alojaba esta página de las Webmaster Guidelines ahora redirige a la página de inicio de las Search Essentials, pero si buscamos en Wayback Machine cualquier versión de esa URL anterior al 12 de abril, podemos ver claramente cómo antes la coletilla no existía:

Como pasa a menudo con la comunicación de Google, y en este caso con más razón ya que ha habido un cambio de opinión, hay bastante confusión al respecto. Mucha gente se ha quedado con la postura antigua de Google respecto a la IA, que como vemos no es la postura actual, con más matices.

¿Por qué este cambio de política de Google? No puedo saberlo a ciencia cierta, pero sí que puedo apuntar tres teorías que me parecen plausibles:

Al haberse hecho el uso de estas tecnologías mucho más popular, Google no quiere quedarse fuera de juego, y ya no condena el uso de la tecnología en sí, sino sólo usarla para producir un contenido de mala calidad. En un panorama en el que incluso empresas establecidas se lanzan abiertamente a publicar contenido generado por IA (ver ejemplo de CNET más adelante), oponerse por sistema a todo el contenido IA sería ir en contra de lo que dictan los tiempos.

La generación de texto por IA ya no es sólo más habitual, sino que ha alcanzado también estándares mayores de calidad. El salto habría llegado con GPT-3, y especialmente con su evolución a GPT-3.5 (el modelo que alimenta ChatGPT). Esta teoría se apoya en una respuesta de John Müller durante un hangout para webmasters, en noviembre de 2021, cuando dijo que la calidad del contenido producido por IA aún no era suficiente para Google, pero que un día podría serlo, y que pensaba que Google eventualmente se centraría en la calidad del contenido, y no en cómo ha sido producido. Acertó.

Google es una compañía que se autodescribe como AI-First, y usa sistemas automatizados para rankear los resultados de su buscador (hacerlo a mano sería sencillamente imposible dado el volumen de búsquedas y documentos a rankear). Muchos verían como una postura hipócrita no permitir a los creadores de contenido usar el mismo tipo de herramientas que ellos usan diariamente. Visto así, el cambio de opinión podría ser ante todo un movimiento de relaciones públicas, como un político que recurre a un slogan para huir de preguntas incómodas (“no estamos en contra del contenido automático, estamos en contra del mal contenido”).

¿Se puede considerar todo el SEO como contenido “no útil”?

Aquí nos salimos un poco del tema central (la IA), pero merece la pena tocar este tema, para no llevar a malentendidos. Si Google dice que no creemos contenidos pensando en rankear en motores de búsqueda, ¿está diciendo con eso que están en contra de cualquier acción de SEO?

No. En la página “Crear contenido útil, fiable y centrado en las personas”, que ya hemos mencionado, Google da de manera explícita respuesta a esto:

“El SEO puede ser útil cuando se aplica a contenido centrado en las personas, no a contenido centrado en los buscadores.”

¿Puede Google detectar el contenido generado por IA?

Si aceptamos todo lo explicado hasta ahora, la cuestión ya no es tanto si puede detectar el contenido generado por IA, sino si realmente lo necesita.

Tiene más sentido pensar que se están centrando en detectar contenido de poca o nula calidad, que realmente es lo que han hecho siempre, con la diferencia de que ahora ese contenido de poca calidad tiene tantas probabilidades (o más) de haber sido generado con una herramienta de IA en lugar de directamente por un humano.

Hace pocas semanas se descubrió un paper de un equipo de investigación de Google en el que describían un sistema que, a base de GPT-2, asignaba una predicción de calidad a los 500 millones de artículos online (donde la calidad podía ser alta, media, baja o no definida).

Ojo, que no trataban de descubrir qué contenidos habían sido generados por IA, sino si una herramienta creada originalmente para detectar contenido generado por GPT-2 era capaz de predecir la calidad de cualquier artículo con precisión, sin importar si este artículo había sido en efecto generado por una IA o un humano.

Su conclusión fue que sí, que lo hacía bastante bien. Algunos opinan que el método descrito en este paper es muy similar al algoritmo de Helpful Content de Google. De lo que no cabe duda es de que ambos tratan de conseguir lo mismo, aunque yo matizaría que en el caso del paper siempre se habla de calidad del lenguaje usado, y el Helpful Content podría penalizar casos en los que el texto está bien redactado, pero no aporta nada más que paja al usuario (ver los ejemplos en mi post sobre el Helpful Content Update, concretamente los de sitios que pretenden dar fechas de estreno de series que no se conocen).

Ejemplos reales de contenidos creados por IA

Para cerrar, había prometido algunos ejemplos reales de contenido automático útil, y no útil.

Del primer tipo hemos visto unos cuantos ejemplos hace pocos días, cuando se supo que grandes webs de contenido en inglés, como Bankrate (sector Finanzas) y CNET (sector Tecnología) estaban publicando contenido generado por IA, y lo estaban identificando como tal, aunque también indican que los artículos han sido exhaustivamente editados y validados por personas.

A día de hoy, Bankrate tiene ya algo más de 100 artículos de este tipo indexando en Google, y CNET unos 70.

Aquí podéis ver un ejemplo, una definición bastante extensa de un concepto económico que a mí me parece tan bien redactado como si hubiera sido creado de cero por una persona:

https://www.bankrate.com/investing/financial-liquidity/

No soy experto en finanzas, pero creo que precisamente ahí está la clave, que el contenido de Bankrate no se dirige a expertos, sino a personas de todo tipo que están interesados en una introducción al concepto de liquidez financiera. Si estoy en lo cierto, el artículo cumple perfectamente la intención de búsqueda.

¿Qué tal rankea este contenido? Ha habido ya varios análisis, y el consenso parece ser que Google no rechaza en absoluto este tipo de contenido, aunque debemos tener en cuenta que hablamos de dominios con autoridad y con mucha visibilidad orgánica – lo mismo podría no funcionar igual de bien en un dominio nuevo o sin visibilidad previa.

Para los escépticos, recomiendo especialmente el estudio llevado a cabo por Kevin Indig en torno al contenido IA de Bankrate, CNET y Creditcards.com.

Hasta ahora hemos visto lo bueno. En contraste: ¿cómo es un contenido no útil generado de manera automatizada?

No me voy a enrollar. Así:

Aunque muy probablemente no ha sido generado por ChatGPT ni por text-davinci-003, que es el modelo de OpenAI más sofisticado disponible ahora mismo por API, este ejemplo cumple prácticamente todo lo que dice Google que está mal en el contenido no útil (va descaradamente a por una keyword, no aporta nada que no haya en las fichas de esos productos en Amazon, coge directamente la descripción del producto y no se molesta en traducir del inglés, etc.)

Como ya dije en mi post con ejemplos de sitios afectados por el Helpful Content Update, tengo la sensación de que Google no va a por artículos tipo los de Bankrate, ni siquiera a por artículos en los que podríamos tener dudas razonables de si el contenido es útil o no. Va a por contenidos donde no cabe ninguna duda de que la calidad es muy baja, casos en los que aportar algo original y de utilidad a los usuarios es lo último en lo que pensaba el “creador”.

En conclusión: la postura de Google respecto al contenido generado por IA está clara, al menos sobre el papel, y los datos por ahora no parecen contradecir lo que dicen de palabra. Por supuesto, hay que partir de que tener unos resultados 100% libres de spam es una utopía que Google quizá nunca alcance, y ellos son los primeros conscientes de esto, pero en mi opinión hay una dirección clara, que comparten tanto su comunicación hacia el público, como lo que se ve cada vez que lanzan un update.

¿Y tú, crees que realmente Google cumple lo que predica en relación al contenido generado por IA? ¿Cómo ves el futuro? Me gustaré leer tu opinión, bien aquí en los comentarios, o en Twitter.

Suscríbete a 10 Links Azules, nuestra newsletter de SEO

7 comentarios en «¿Qué opina Google sobre el contenido generado por IA?»

Edu

17 enero, 2023 a las 7:55 pm

Sospecho (quiero pensar) que Google va meses por delante de nuestras inquietudes… Mirando hacia atrás cobran mucho sentido sus últimas actualizaciones…

No era Jarvis (ahora Jasper).
Quiero pensar que en Mountain View sabían lo rápido que venía la ola y su impacto…

Quiero pensar que sus ingenieros conocen mucho mejor y son mas conscientes que cualquiera de nosotros del follón en el que nos hemos metido con la IA generativa..

Y que serán bastante más cuidadosos de lo que pensamos cuando se encuentren (nuevo) contenido por internet que pueda afectar significativamente a la salud, seguridad y estabilidad de las personas.

La «verdad» no es lo único que la IA pone en riesgo. Un mal paso y Google puede poner en juego la credibilidad de Internet en su conjunto…
Responder
- Juan González Villa
  
  17 enero, 2023 a las 8:37 pm
  
  Gracias por comentar y muy de acuerdo, Edu. La verdad es que aquella respuesta de John Müller en noviembre de 2021 era bastante reveladora.
  
  Los primeros en saber que la IA iba a llegar a producir textos que «pueden pasar» por humanos eran, lógicamente, Google. Ellos han visto internamente sistemas de calidad similar a ChatGPT al menos desde mayo de 2021, momento en el que presentaron MUM y LaMDA. Pero también sabían sus limitaciones, y que sin una supervisión humana aportarían más confusión que valor.
  
  Creo que de cara al público han estado callados, a la expectativa, mientras han podido, pero cuando ya es inevitable porque todo el mundo ha probado ChatGPT, ya dan de puertas afuera una postura que tiene bastante más lógica. Su enemigo no es la IA, es el mal uso que se haga de la IA y el mal contenido en general, sea automático o humano.
  Responder
Francesc

18 enero, 2023 a las 9:25 am

Gran artículo!!

El problema con Google es que muy a menudo envía indicaciones contradictorias. John Mueller en el Google SEO office-hours de abril de 2022 (hace pocos meses) se posiciona claramente en contra del uso de AI en SEO y habla de penalizaciones graves (https://www.youtube.com/watch?v=Yx997SsiYlw) minuto 23, para después contradecirse en enero de 2023. Así que cualquiera puede decir que Google está a favor o en contra, ya lo hacen ambiguamente expresamente.

Al final, si la conclusión es que se puede redactar con la IA, siempre que se revise y reedite, ¿deberíamos analizar en que porcentaje debemos modificar el texto? Y sobre todo, ¿qué valor añadido realmente estamos aportando? ¿Cómo de original es? No original como diferente, original como aportación real de valor.

Yo recomendaría a la gente que antes de usarla, simplemente se pregunte:¿compensa el riesgo?

Lo bueno es que ahora ya nadie discute si se puede detectar que un contenido está generado por AI o por una persona. Y tampoco que la IA, por ahora, no está conectada a Internet y por ejemplo, si no sabe que hay guerra entre Ucrania y Rusia, ¿cómo puede emitir cualquier valoración sobre la situación económica actual?

Finalmente, hay un problema de generación masiva de contenido sin valor que nos puede llevar a llenar Internet de contenido de baja calidad. Google (o el propio ChatGPT) va a tener de lidiar con ello y no va a ser fácil….
Responder
- Juan González Villa
  
  18 enero, 2023 a las 9:48 am
  
  Hola Francesc, muchas gracias por comentar el post!
  
  Bueno, la contradicción es la que señalo en el post, que antes del 12 de abril de 2022 tenían una posición, más absolutamente en contra de todo el contenido generado por IA, y que justo desde el 12 de abril, la moderan o matizan, pasando a decir que si el contenido generado por IA cumple con los requisitos de aportar algo original y de valor para el usuario, no lo considerarán spam.
  
  El Office-Hours del vídeo que has enlazado tuvo lugar el 1 de abril de 2022, por tanto en ese momento no había contradicción entre lo que John Müller decía y la documentación de Google. Y tampoco la hay ahora en enero de 2023, cuando John da una visión más moderada sobre el tema, que está de acuerdo con lo que dicen las Guidelines desde el 12 de abril de 2022.
  
  Espero haberte ayudado, Francesc. Gracias de nuevo por comentar y saludos!
  Responder
  - Israel
    
    13 febrero, 2023 a las 5:54 pm
    
    Sinceramente opino que Google ha entendido que la IA ha llegado para quedarse y que es mejor ser un aliado suyo que no un enemigo. Por tanto, en la medida de lo posible, la usarán para mejorar, hace poco leí que Microsoft lo está utilizando con Bing.
    Por cierto, gran artículo Juan.
    Responder
    - Juan González Villa
      
      13 febrero, 2023 a las 6:03 pm
      
      Gracias, Israel! Sí, el nuevo Bing lo trae tanto un chatbot IA integrado en resulatdos de búsqueda, como una pestaña llamada Chat que puedes usar para preguntar lo que quieras y mantener una conversación estilo ChatGPT. Por ahora lo están desplegando poco a poco, pero da la sensación de que la pestaña Chat es lo que más está despertando el interés de los usuarios (comprensible, porque es como ChatGPt pero capaz de responder a eventos recientes). La integración dentro del propio buscador no está claro aún que vaya a tener mucho éxito entre los usaurios, pero veremos.
      Responder
Manuel Dreesmann

13 febrero, 2023 a las 6:19 pm

Muchas gracias por este articulo, fue muy informativo!
Responder