Filtración de Google: recopilación de términos mencionados en los documentos

La filtración de documentos de Google compartida por Rand Fishkin y Mike King nos ha dado acceso a una cantidad enorme de documentación interna, relacionada con los sistemas que impulsan el buscador de Google.

Aunque obviamente no podemos saber cuáles de los módulos y atributos mencionados en esta documentación están activos en producción dentro del buscador, y cuáles de ellos afectan al SEO, la información revelada es importante, tanto por la cantidad de documentos (+2500) y conceptos, como por lo que se menciona directamente o se puede deducir.

Se ha dicho siempre que Google no llama a las cosas de la misma manera que los que hacemos SEO, y este vistazo a su documentación interna es prueba de ello.

Por eso, he empezado a recopilar una lista o glosario de términos mencionados en los documentos fitrados y que tienen interés para SEO, tratando de dar tanto detalle como podemos por el momento. Cuando por la información conocida hasta el momento está claro para qué se usan lo he incluido en la descripción, y si hay confirmación o prueba externa de que tal concepto existe o se usa en Google, he hecho mención de ello también.

Por ahora tengo 47 términos, con sus respectivas explicaciones. Si echas en falta alguno, puedes indicármelo en los comentarios.

AnchorMismatch

Un atributo para comprobar si el anchor text de un enlace cuadra con el contenido de la página objetivo. Si no cuadra, según el documento de Compressed Quality Signals, el enlace será devaluado.

Ya sabíamos que Google considera positivamente los enlaces desde páginas que contienen menciones a los términos de la búsqueda, y esta podría ser una manera de implementarlo.

Ascorer

El sistema de ranking tradicional usado por Google antes de que otros sistemas (por ejemplo, sistemas de Deep Learning) hagan un proceso de re-ranking. La A de Ascorer viene por Amit Singhal, jefe de Búsqueda entre 2000 y 2015.

BabyPanda

Posiblemente una nueva versión de Panda. Sabemos que hay una puntuación de BabyPanda y que puede o podía haber devaluaciones a causa de BabyPanda, que se aplicaban sobre la devaluación previa de Panda.

BrainLoc

Un ranking o lista, con puntuaciones, de las principales ubicaciones por categorías (países, estados, ciudades, counties o provincias).

CenterPiece

El contenido principal de una página, descartando menús, barras laterales, footer, anuncios, etc. Este concepto aparece muchas veces en la Guía para evaluadores de calidad de Google.

También es algo mencionado y confirmado públicamente por el Googler Martin Splitt en este vídeo.

Chunks

Un chunk es un fragmento de una página o un sitio. Es un concepto necesario para hacer correctamente embeddings, ya que no es lo mismo generar embeddings de una página, que de cada pequeña parte de una página.

En ese sentido, creo que los chunks están muy relacionados con el sistema de Passage Ranking y también con la generación de Featured Snippets (ya que es difícil extraer la frase o frases más relevantes para una búsqueda si no has analizado previamente todas las pequeñas partes de la página).

La sorpresa para mí han sido los site chunks (partes del sitio), y mi hipótesis es que Google escoge una serie de fragmentos de texto de todo el sitio (al azar o según algún criterio) para extraer características del sitio, como la temática y posiblemente la calidad.

Coati

Coati fue una evolución de Panda, lo que sabemos gracias al Googler Hyung-Jin Kim. Panda se integró en el núcleo del algoritmo, pero Coati subsiste como sistema independiente, o al menos subsistió hasta noviembre de 2022. Coati aparece mencionado una vez en la doc filtrada.

CompositeDoc

Registro usado para almacenar junta toda la información sobre un documento. Ver PerDoc.

ConstituencyTree

Un árbol de análisis sintáctico de frases. Google utiliza esto para entender las relaciones entre términos mencionados en un texto. Ver PoS.

DocJoin / DocJoiner

Un sistema o protocolo para unir todas las piezas de información sobre un documento o página que Google va generando desde el momento de rastreo y a lo largo del resto de fases.

Ver CompositeDoc.

Embeddings

Representación numérica de un texto, una frase, una palabra o un token. Normalmente es un vector con muchas dimensiones, que trata de capturar en números el significado de una página. Si dos palabras tienen un significado parecido o están muy relacionadas entre sí (aparecen a menudo juntas en un corpus de textos) sus embeddings tendrán valores cercanos.

Es uno de los conceptos clave en los que se basa Transformers, y por tanto BERT y cualquier otro LLM, como por ejemplo GPT-4. Por eso, los embeddings son muy importantes para que Google (y cualquier buscador) pueda entender y rankear los documentos. En la documentación filtrada hay 46 menciones a embeddings, con menciones específicas a site embeddings, topic embeddings y page embeddings.

Ver también chunks.

ExactMatchDomainDemotion

Google puede devaluar a los dominios que contienen los términos de una búsqueda.

Forum

Existe el atributo isForumPage, para diferenciar páginas de foros de otros tipos de páginas.

Geostore

Parece ser cómo se refieren al mapa y el sistema de anotaciones sobre el mapa para búsquedas con intención local.

Gobi / GobiSite

Un sitio que Google eleva para búsquedas determinadas. Por ejemplo, amazon.com es un sitio “gobi” para la búsqueda “hdtv” – pero hay subdominios de Amazon que no son elevados para esa búsqueda, como “askville.amazon.com”.

Gold-standard

Parecen ser páginas semilla elegidas y anotadas a mano para ser usadas en distintos algoritmos. Uno de estos podría ser el de la patente actualizada de PageRank, que hace uso de páginas semilla elegidas a mano. Hablé de este algoritmo y esta patente en este post.
See PageRankNS.

Golden

Flag o anotación que indica si un documento es “gold-standard”.

Goldmine

Por ahora, una incógnita. Por la estructura de los docs podemos deducir que es un componente de Quality/freshness. Hay al menos 20 menciones a Goldmine en los docs, muy relacionadas con anotaciones. Existe una Goldmine Page Score.

Indextier

Hay 3 capas o niveles dentro del index. Google otorga más valor a los enlaces desde páginas que forman parte de la capa del index (indextier) de más alta calidad, y también a los enlaces de páginas que ha indexado recientemente (añado que esto es probablemente un efecto temporal, que se esfuma cuando la página deja de ser reciente).

Muppet

Parece que es como se refieren a un sitio hackeado y usado para spam. Muppet = teleñeco o marioneta.

Mustang

Mencionado 144 veces en los documentos. Según Mike King es el sistema principal de indexación, ranking y serving. Las menciones a Mustang como index son evidentes. El resto de conceptos no lo tengo tan claro, pero 144 menciones dan para mucho.

Navboost / NavboostCraps

Supimos sobre Navboost con motivo de las revelaciones del juicio antimonopolio contra Google, así que no es una sorpresa encontrárselo aquí. Navboost es un modelo probabilístico basado en el histórico de clics de usuarios para predecir clics en un resultado, dada una query. Salido del testimonio de Pandu Nayak: está activo desde 2005, funciona para pares query/URL, distingue entre datos de móvil y desktop, sus datos pueden separarse por ubicación, y puede ayudar a distinguir intenciones de búsqueda.

En la documentación filtrada hemos encontrado aún más detalle:

Craps parece ser el componente de Navboost que se encarga de almacenar características de los clics (e impresiones), y entre ellas tenemos si ha sido un clic «bueno», «malo», el «último clic más largo», etc. Según Pedro Dias (ex Googler) CRaPS son las siglas de Clicks and Results Prediction System.

NLP

Procesamiento del lenguaje natural, que por supuesto es algo que ya sabíamos Google hace con los textos de una página.

Especialmente interesante es el módulo GoogleApi.ContentWarehouse.V1.Model.NlpSaftDocument, donde se explica que se guarda el texto en bruto, y el análisis de lenguaje natural, con diversas anotaciones y atributos, como la relación entre las entidades mencionadas, el tema (topic) y cuál es el sujeto principal del documento. Ver también ConstituencyTree y PoS.

NSR

No sabemos lo que significan estas siglas, pero sin duda tienen importancia dentro del conjunto, con varios módulos que indican NSR en su nombre. Además sabemos por una mención que hay un “equipo de NSR”, una puntuación de NSR y una puntuación de confianza de NSR (NSR confidence score).

Según Mike King, podría querer decir “Neural Semantic Retrieval”.

Ocean

Es un index de Google. Hay 64 menciones a Ocean en los docs.

OysterRank / Oyster Rank

Un sistema para aplicar una categorización básica, y que parece que sólo se aplica para elementos del mapa. Hay muchas menciones a OysterRankm, pero todas en relación con Geostore.

PageRank

El algoritmo original para calcular la importancia de una página dentro de la web, en base a la importancia de los enlaces que recibe. Aunque parece que Google ya no evalúa los enlaces con PageRank (o únicamente con PageRank), sigue usando este algoritmo para muchos fines, por ejemplo como señal para canonicalización. He encontrado 17 menciones a PageRank en los docs – pero en varias se explica que este PageRank está obsoleto y que en producción se debe usar el valor de PageRankNS.

PageRankNS / PageRank-NearestSeeds

Según al menos 5 menciones en la documentación, PageRankNS es el método de PageRank usado actualmente en producción. NS se refiere a NearestSeeds (semillas más cercanas), lo cual es algo presente en la patente “Generando un ranking de páginas usando distancias en un grafo de enlaces”, que usa páginas semilla y distancias de enlaces para propagar el PageRank. Analicé en detalle esta patente en este artículo.

Ver también Golden-standard.

PerDoc / PerDocData

Todos los datos que guarda Google de un documento (una página, un PDF, un vídeo, etc), a efectos de indexación y de servirlo como resultado en la SERP.

Hay ni más ni menos que 142 atributos. Entre ellos, algunos esperables como las señales de calidad, y otros no tanto, como el PageRank de la home del sitio al que pertenece la página, y una puntuación de KeywordStuffing.

Creo que este es un documento o módulo muy recomendable para empezar, si quieres hacer un análisis más o menos sistemático de los contenidos de la filtración.

PoS

Part of Speech. Tras indexar las páginas, Google puede realizar un análisis sintáctico con ellas, para entender mejor de qué están hablando y cuáles son las relaciones entre los términos que aparecen en la página. No es lo mismo “Un perro muerde a un niño” que “un niño muerde a un perro”, y esto Google sólo lo puede entender extrayendo los sujetos y otras partes sintácticas de las frases.

Ver también ConstituencyTree.

QnAPage

Existe el atributo QnAPage, para diferenciar páginas que contienen preguntas y respuestas de otros tipos de páginas.

QualitySignals

Hay un módulo que lista todas las señales de calidad a nivel de página: GoogleApi.ContentWarehouse.V1.Model.CompressedQualitySignals

Entre ellas hay señales por ahora poco inteligibles desde fuera (por ejemplo, experimentalQstarDeltaSignal) y tambien hay lo contrario, otros atributos que por su nombre y descripción podrían encajar bien con updates recientes comunicados públicamente por Google, como por ejemplo “ugcDiscussionEffortScore” (hidden gems) y todas las menciones a ProductReview.

Este documento es probablemente de los más densos e interesantes de la filtración, y contiene muchos hilos de los que tirar para entender qué considera Google calidad de una página y qué no.

RankableSensitivity

Hay más de 30 módulos con menciones a este concepto. Creo que siempre se refiere a contenidos “delicados” (temas adultos, política, violencia, etc), cualidad que Google puede extraer de diversos lugares (de su análisis para comprender la query, análisis del texto de un documento, etc).

RankEmbed

De nuevo gracias al juicio antimonopolio, donde Pandu Nayak habló con cierto detalle de ello, sabemos que RankEmbed (y una versión posterior llamada RankEmbed BERT) es un sistema de Deep Learning usado en la fase de re-ranking, entrenado con datos de usuarios, y que entre otras cosas es capaz de «repescar» documentos que no habrían sido considerados como candidatos en la fase de Retrieval.

RankEmbed aparece mencionado al menos 16 veces en los documentos filtrados, y parece muy relacionado con Mustang y modelos de calidad.

RankLab

Mencionado al menos 25 veces, RankLab es un framework o librería relacionado con el entrenamiento de modelos de machine learning, pero posiblemente también con su inferencia (hacer predicciones en base al entrenamiento). En concreto parece relacionado con sistemas para hacer predicciones sobre Titles y snippets (el texto bajo el Title de un resultado en la SERP).

SAFT

Según el ex Googler Pedro Dias, quiere decir Structured Annotation Framework and Toolkit. Según Jeff Coyle en este interesante post, una de las funciones de este framework de Anotaciones es identificar, analizar y guardar datos sobre las entidades presentes en una página, y es cierto que muchos de los módulos de SAFT hacen referencia a entidades.

Semantic Date

Fecha extraída del contenido de la página, de anchor text de enlaces apuntando a esa página o de otros documentos relacionados.

Ver Syntactic Date.

SiteEmbeddings

Ver Embeddings.

SmallPersonalSite

Como su nombre indica, un sitio web personal. Ojo, la única mención que he encontrado en los docs habla de elevar en los ranking a este tipo de sitios, no de devaluarlos.

SnippetBrain

El sistema usado para determinar si se va a mostrar un Featured Snippet o Fragmento destacado para una página, y qué texto concreto de esa página se va a mostrar.

Syntactic Date

Fecha mencionada explícitamente en la URL o en el Title de la página.

Ver Semantic Date.

SuperRoot

El sistema central de procesamiento y almacenamiento de datos de la infraestructura de Google (el servicio que impulsa Google Search, según un ex Googler). Como tal, tiene módulos para prácticamente todo: desde recomendar podcasts a almacenar información de los documentos, pasando por procesar puntuaciones para ranking.

SuperRoot se integra con muchos otros sistemas y módulos, como ascoring, docjoins y TopicEmbeddings.

TeraGoogle

Es un index de documentos con unas características determinadas y la mayoría de sus contenidos se guardan en disco duro, lo que quiere decir que esos contenidos son estables, no cambian con tanta frecuencia como los contenidos que se guardan en memoria flash.

Según esto, si un documento está incluido en TeraGoogle es porque Google considera que merece la pena guardarlo a medio/largo plazo, y por sí misma la inclusión en TeraGoogle podría ser una señal de calidad (aunque hay algunas señales que la documentación especifica que se guardan en flash).

TitleMatch

El grado de relevancia del Title de una página para la query hecha por el usuario.

Topicality / TopicalityScore / TopicalityWeight

Topicality es cómo se refieren internamente en Google a la relevancia, es decir, el grado en que un documento habla de lo mismo que la query introducida por el usuario. Esto lo sabemos por el testimonio de Pandu Nayak en el juicio antimonopolio contra Google y por muchos papers de IR.

Hay al menos 4 menciones a Topicality en los docs, con menciones específicas a una puntuación de Topicality (TopicalityScore) y un peso (TopicalityWeight), que se usa para calificar los enlaces que apuntan a una URL.

TopicEmbeddings

Una estimación del tema principal del que habla una página o grupo de páginas. Hay un TopicEmbedding a nivel de sitio, que incluye métricas como SiteFocusScore (cuánto se centra un sitio en su temática principal) y SiteRadius (cómo de lejanos en cuanto a temática están los embeddings de sus páginas respecto al embedding del sitio).

Ver embeddings.

Twiddlers

Son funciones para obtener un re-ranking para un objetivo puntual, sin tener que alterar las condiciones del sistema. Serían como ponerle un filtro o un parche a los resultados finales que ven los usuarios. Los experimentos que se hacen en vivo en el buscador son twiddlers, y es muy posible que algunos de los updates específicos que Google comunica (no los core updates) sean también twiddlers.

Si Google necesita hacer un cambio de emergencia a sus resultados, lo hará por medio de un twiddler.

Recursos adicionales:

Buscador para encontrar menciones en la documentación filtrada

Hilo en Twitter/X: revelaciones sobre cómo funciona Google del juicio antimonopolio (1ª parte)

Hilo: revelaciones sobre cómo funciona Google del juicio antimonopolio (2ª parte)

Mi presentación sobre cómo funcionan los algoritmos de ranking de Google en el evento El Gremio Live

Suscríbete a 10 Links Azules, nuestra newsletter de SEO

6 comentarios en «Filtración de Google: recopilación de términos mencionados en los documentos»

Manu Duque

2 junio, 2024 a las 9:52 am

Buenas Juan! que interesante, cuantos datos e información interesante a tener en cuenta, o no, con google y sus cosas nunca se sabe a qué atenerse, juegan constantemente al despiste con el te digo pero no te lo digo, puede ser o no.
En cualquier caso, gracias por el curro y info compartida.
Por cierto, tengo mucha curiosidad por saber como se a visto afectado tu sitio web en concreto, o no, con el último update de google y el de otros muchos que son claramente sitios de referencia que comparten información útil, fiable, contrastada y de gran calidad en todos los aspectos.
Saludos!
Responder
- Juan González Villa
  
  3 junio, 2024 a las 10:51 am
  
  Gracias por comentar, Manu!
  
  Mi web está estable, suele cambiar poco con los updates aunque a veces hay pequeñas bajadas y subidas. En este último update (supongo que te refieres al larguísimo core update de marzo y abril) no he notado prácticamente nada. Saludos!
  Responder
  - Manu Duque
    
    3 junio, 2024 a las 3:26 pm
    
    Gracias Juan por la respuesta, sí me refiero a ese larguísimo Update, y al destrozo que ha hecho en muchos sitios web, sin merecerlo, y me alegra saber que tu sitio se ha salvado.
    Eso significa que lo haces bien y Google lo respeta, todo bien. Saludos!
    Responder
Marcelo Wilkorwsky

2 junio, 2024 a las 3:26 pm

Tremendo trabajo para resumir todo esta esta información. ¡Muchas gracias Juan, por compartir!
Responder
- Juan González Villa
  
  3 junio, 2024 a las 10:51 am
  
  A ti por comentar, Marcelo! 🙂
  Responder
Pedro

29 junio, 2024 a las 1:17 pm

Juan, gran trabajo y de gran ayuda. Para los que hacemos seo toda información es poca, aunque google juegue siempre al despiste, las pautas a seguir siempre vienen bien!! Enhorabuena.
Responder