¿Es el tráfico web un factor SEO? Es una de esas preguntas que atormentan al 99% de los SEOs del mundo y se lleva debatiendo desde que Google es Google.

Antes de meterme a fondo con esta cuestión, quiero hablar de una reciente patente de Google y su posible relación (o no) con una fuerte alteración en los rankings de Google a lo largo de los últimos días (ver este post de Search Engine Land el pasado 3 de febrero).

En base a estos movimientos en las SERPs muchos SEOs opinan (o temen) que Google, por fin, haya dado caza a las PBNs o redes privadas de blogs. Una peculiaridad de las redes privadas de blogs es que pueden mandar enlaces hacia tu página, pero no pueden enviarte tráfico real (ya que nadie las visita; son páginas artificiales, creadas sólo para rankear).

Entonces, la cuestión está más viva que nunca. ¿Ha dado Google por fin con una forma de medir el tráfico web mandado por los enlaces, para tenerlo en cuenta dentro de su algoritmo? O al menos, ¿sabe Google qué enlaces no mandan ningún tráfico, porque son artificiales?

¿Qué dice Google sobre el tráfico web y el posicionamiento? Analizando su última patente

Bueno, pues resulta que pocos días antes de esta “perturbación en la fuerza” que tanto afecta al mundillo SEO, se hizo pública una patente de Google (presentada en realidad a finales de 2012) que puede arrojar mucha luz sobre este tema. Describe un sistema para modificar los rankings basado no en el número de enlaces entrantes y en el tráfico que una página recibe de esos enlaces.

Que conste que el mérito de este descubrimiento lo tiene Bill Slawski, que es el que está pendiente y salta como un tigre cada vez que hay nueva patente de Google. Gracias a su post sobre el tema supe de esta patente, y también que podría estar relacionada con las anomalías en las SERPs de los últimos días.

Luego, como me encanta bucear en la mente de los ingenieros de Google, me puse a analizar frase por frase lo que decía esta patente titulada, de manera nada atractiva, “Determinando una métrica de calidad para un recurso web” (Determining a quality measure for a resource”).

Voy a resumir con mis propias palabras lo que dice la patente. Para todo el que no se fíe al 100% de mi resumen, aquí está el texto original de la patente (pero aviso que leer una patente no es tan entretenido como leer una novela de John Le Carré).

El sistema de Google para calcular el tráfico de una página determinada

La premisa de la patente es que se puede desarrollar un sistema para determinar la calidad de una página determinada, a partir del número de enlaces a esa página y del volumen de tráfico que esa página recibe.

La razón que da Google para desarrollar este sistema es lo que todos hemos pensado alguna web con relación al linkbuilding: si otorgamos una puntuación a las páginas basada únicamente en el número de páginas que enlazan a esta, es posible “engañar” al buscador creando artificialmente enlaces a nuestra página.

Con este sistema, este tipo de engaños se acabarían o se reducirían mucho. Ya que si el volumen de tráfico recibido por una página no está en sintonía con el número de enlaces entrantes, algo huele mal y esa página no merece la puntuación que obtendría si sólo tuviésemos en cuenta los enlaces.

La conclusión es que si este sistema encuentra una diferencia entre el número de enlaces y el tráfico recibido, puede devaluar el ranking de esa página. Ojo: sólo devaluar, no “penalizar”.

Antes de seguir, dos aclaraciones:

Uno, cuando digo “página”, se puede extender a cualquier tipo de documento que viva en la web, como una imagen, un vídeo, un PDF, etc. De hecho Google en la patente usa el término “resource” (=recurso) en lugar de página. Pero para ser prácticos yo diré siempre páginas.

Dos y más importante: con esta premisa Google está siendo un poco “sensacionalista”, ya que como vamos a ver a continuación, el sistema no calcula el tráfico de cada página antes de decidir una puntuación – sino que en realidad extrae una estimación de ese tráfico, a partir de los datos que conoce.

Esto es el núcleo de la patente y merece una explicación en detalle.

Google describe el método para realizar la estimación del tráfico como un proceso “pull-push”, que en cristiano quiere decir más o menos extraer datos de una fuente y aplicárselos a otras que están directamente relacionadas con esa fuente.

Es decir: Google va a partir de una serie de páginas a las que denomina “seed” (=semillas), en las cuales conoce con precisión tanto el número de enlaces (esto es obvio) como el tráfico recibido.

Luego nos meteremos en cómo conoce ese tráfico. Por ahora, partimos de que para las páginas semilla, Google sabe con precisión el tráfico, y no sólo eso, sino el tráfico que manda cada uno de sus enlaces entrantes.

Sabiendo esto, le otorga una puntuación a la página semilla (mayor cuantos más enlaces y más tráfico tenga). Y a partir de la puntuación de la semilla, deriva una puntuación para cada una de sus fuentes de tráfico.

La puntuación que reciben de esta manera las fuentes de tráfico no es igual para todos los enlaces, porque algunos están aportando más tráfico y otros menos. A los que aportan una cantidad suficiente de tráfico, Google les pone la etiqueta de fuentes “cualificadas” y a los que no, los etiqueta como fuentes “no cualificadas”.

Pero esto no acaba aquí. Ahora que ya tiene clasificadas unas cuantas fuentes de tráfico, puede mirar a todas las páginas a las que enlaza cada una de esas fuentes, y derivar una puntuación para la página de destino, basada en la puntuación de sus fuentes.

¿Complicado? Resumo hasta aquí:

  1. Partimos de la puntuación de una página semilla (para la que Google conoce enlaces y tráfico) ->
  2. De aquí le damos una puntuación a todas sus fuentes de tráfico (cualificada o no cualificada) ->
  3. Ahora extraemos todas las páginas a las que esas fuentes también enlazan (páginas de destino) ->
  4. Y por último extraemos una puntuación para las páginas de destino basada en la puntuación de sus fuentes.

Quizá se vea más claro en un diagrama:

Fuente: diagrama creado con Textografo

Una vez que Google hace todo este proceso con un número suficiente de páginas semilla, ya tiene en marcha un sistema para asignar puntuaciones a todas las páginas enlazadas desde las fuentes de todas sus páginas semilla.

Pero aquí es donde Google reconoce, dentro de la propia patente, las limitaciones del sistema. No puede darle una puntuación de esta manera a todas las páginas de su index. Puede haber páginas que no están enlazadas por fuentes que a su vez enlacen a alguna semilla. Con lo que no existe una fuente fiable de datos de tráfico.

Pero para todas las demás, Google tiene ahora un sistema “base” que puede usar de varios métodos para ajustar los rankings de páginas con backlinks creados artificialmente.

Métodos que puede usar Google para alterar rankings en base al tráfico (estimado)

Concretamente, tiene 4 métodos directos, y un quinto método que se usa en combinación con otro sistema. Estos métodos también están explicados en la patente, así que vamos a verlos uno a  uno:

Primer método: descontar enlaces

¿Recuerdas lo de fuentes cualificadas y no cualificadas? Pues este método consiste en descontar a efectos de rankeo todas las fuentes  no cualificadas. Por ejemplo: si una página tiene 100 backlinks, pero 50 vienen de fuentes no cualificadas según los datos de Google, a efectos de rankeo será como si esa página sólo tuviera 50 backlinks.

Segundo método: devaluar

Se pueden devaluar en los rankings a todas las páginas cuya puntuación esté por debajo de un umbral mínimo. Recuerdo que la puntuación de una página se calcula a partir de la puntuación de sus fuentes (y esta a su vez se deriva de las semillas a las que también enlazan).

Tercer método: ajustar relevancia

Según la puntuación de una página en este sistema, se puede ajustar su relevancia para una búsqueda determinada. Ejemplo: si esa página tiene una puntuación baja, su relevancia bajará – y por tanto bajarán sus rankings.

Cuarto método:identificar búsquedas propensas al spam

Este no afecta a las páginas, sino a las queries o términos de búsquedas. Usando las puntuaciones de página, Google puede decidir si algunas búsquedas son más propensas que otras a arrojar resultados de baja calidad (spam). Cuando esto ocurre, Google puede decidir que para esa búsqueda el rankeo basado en número de links debe tener menos peso que la puntuación extraída en base a la estimación de tráfico. En otras palabras, puede decidir (y aquí traduzco literalmente la patente) que para esa búsqueda se va a fiar más de sus datos de cantidad de clics que de sus datos de cantidad de enlaces.

Por último, el quinto método implica usar n-gramas y aplicarlos a la naturalidad de los anchors de cada enlace. Aquí nos metemos en un tema muy distinto, complicado de explicar y resumir en unas pocas líneas. No obstante, lo voy a intentar (paciencia, por favor).

Los n-gramas se usan para calcular la probabilidad de que una palabra, una sílaba o un carácter determinado siga a otro en un texto. Por ejemplo, después de una k es más probable que venga una vocal a que vengan una consonante. Esta probabilidad se establece analizando la frecuencia con la que aparecen los elementos dentro de una colección de textos.

Google tiene a su disposición todas las páginas de la web que hay en su index (más una increíble biblioteca de textos digitalizados). En base a esto, puede establecer la “naturalidad” de los anchors que enlazan a una determinada página. Si la teoría dice que no es nada probable, o natural, que se repitan siempre unos anchors que curiosamente incluyen la palabra clave o alguna de sus variantes, ahí hay spam.

Entonces, Google puede combinar todo esto con lo que sabe sobre las estimaciones de tráfico y decir: “si esta página según nuestros cálculos recibe menos tráfico del que debería según su número de enlaces, y si además el texto de sus anchor no responde a una distribución natural de n-gramas… no cabe duda, spam del bueno”. Mola, ¿no?

¿Cómo calcula Google el tráfico de una página web?

Ahora sólo nos queda un tema suelto, en el que la patente no entra. ¿De dónde saca Google el tráfico de las páginas semilla? ¿Es posible esto?

Lo primero, decir que si no fuera posible, toda la patente no tendría ningún sentido, y dudo que los ingenieros de Google se dediquen a perder el tiempo. Cuando desarrollan y presnetan una patente, es para algo. Y si no tienen datos de tráfico fiables de unas cuantas páginas semilla, todo el sistema descrito por la patente se cae – no hay estimación posible.

Pero, para los escépticos, vamos a entrar un poco en el tema: ¿de dónde puede sacar datos reales de tráfico Google?

Se ha dicho varias veces que podría hacerlo de los datos de navegación de los usuarios de Google Chrome. Igualmente, podría ser por los datos de usuarios logueados en una cuenta de Google (esto último me parece algo más convincente, y no olvidemos que todos los usuarios de Android tienen y usan una cuenta de Google).

Pero el método que me parece más probable de todos es el de analizar el tráfico de sus propios servidores. Google es un webmaster, el mayor de todos. Tiene webs propias y aloja millones de webs ajenas.

En sus servidores se alojan por ejemplo webs como Youtube, Google+, Google Maps, todos los blogs de Blogspot – por no mencionar el propio buscador. Y cuando alojas una web, tienes acceso a unos datos preciosos: los logs de tu servidor.

Entonces, pongamos que Google usa como una de las fuentes “semilla” los datos de YouTube. Conoce tanto los enlaces externos, como el tráfico exacto que refiere cada uno de estos enlaces, porque está en los logs de sus servidores.

A partir de ahí, podría elaborar un sistema en el que le otorga una puntuación de tráfico a todas las páginas webs del mundo que enlazan a YouTube. Si esto lo repite con Google Play, Google+, Blogspot, etc. podría estar adjudicando una puntuación de tráfico a una proporción significativa de las webs del mundo. Siendo conservadores, pongamos a un 30%.

Pero es que, si encima estuviera usando otros métodos para registrar el tráfico, como por ejemplo datos de Chrome o Android, el porcentaje subiría.

En fin, tras todo esto, ya podemos volver a la pregunta inicial:

¿El tráfico web posiciona?

Considerado todo lo que dice la patente, y la posibilidad real de Google de extraer datos a partir de fuentes conocidas, la pregunta no es tanto si Google puede usar esto para modificar sus rankings, sino:

¿Hasta qué punto usa ahora mismo estos datos? ¿Cómo son de completos y que se queda fuera de su alcance? Y por último, ¿qué porcentaje de las búsquedas están afectadas a día de hoy?

Pero hay que mojarse. Si la pregunta es “¿a día de hoy el tráfico web posiciona?”, que es lo que le interesa a la mayoría de los SEOs del mundo, mi respuesta es NO.

¿Cómo? ¿Después de todo esto voy y digo no?

Claro, porque según la patente no es un elemento más de los que forman el algoritmo de rankeo de Google. No es un factor que pueda reducirse a una fórmula tipo “a más tráfico web, más posicionamiento”.

La patente no dice eso, y sería un error extraer de la patente la conclusión de que el tráfico web es un factor SEO, como lo son los enlaces, o el contenido de una página.

¿Cómo afecta realmente el tráfico al SEO, según la patente?

Pero, ojo, esto no acaba aquí. La patente sí dice que el tráfico (estimado) puede afectar de una manera indirecta al posicionamiento. Tiene al menos 3 métodos de hacerlo (recuerda los métodos 1, 2 y 3), más un método (4) que podría afectar a determinadas búsquedas según lo decida Google. El método de los n-gramas no lo voy a considerar directamente relacionado con el tráfico web, así que no lo cuento.

En cualquier caso, los métodos de esta patente que Google sí puede usar para afectar al ranking de una página no afectan cuando el tráfico sube o baja, sino que afectan por “falta de tráfico”. La patente es clara: si el sistema dice que una página está recibiendo menos tráfico de lo que sería normal dado su número de enlaces, hay algo raro, y esto va a afectar negativamente al rankeo de esa página.

Pero date cuenta de que la patente no está midiendo el tráfico en tiempo real de una página. Es decir, no es posible que una página que está rankeada en la posición 12 para una búsqueda, suba sólo por el mero hecho de que en las últimas dos semanas ha crecido mucho en tráfico.

La última patente de Google no dice nada de eso y, mientras no descubramos otras patentes que lo contradigan, debemos tener mucho cuidado al decir “el tráfico web posiciona”. Por ahora no hay nada que lo demuestre.

Lo que no quiere decir que esta patente no sea una herramienta muy potente para luchar contra el spam, y como tal estoy convencido de que Google la va a usar, si es que no ha empezado ya. No acabará totalmente con el problema de las webs infladas en los rankings a base de backlinks artificiales, pero despejará mucho el panorama. Buenas noticias para los que no hacemos spam. 😉

Lo que es quizá más importante, Google va a ser capaz de decidir con un criterio claro qué búsquedas tienen tendencia a aflorar resultados spam, y va a poder actuar sobre esas búsquedas según le convenga.

En conclusión, de esta patente he sacado en claro que, aunque el tráfico web no posicione, ahora mismo deberíamos sentir un escalofrío si nuestra web está posicionada gracias a enlaces que no envían tráfico.

Y por ello, tal y como ya hacía hasta ahora, le daré siempre importancia a tratar de conseguir enlaces que puedan enviar tráfico (es decir, webs de autoridad en mi nicho). En lugar de conseguir enlaces “al peso”, prefiero conseguir unos cuantos enlaces que realmente sean de calidad (relevantes para mi temática y con tráfico real de usuarios interesados en mi nicho).

Las estrategias basadas en conseguir enlaces sin más, cuantos más mejor, sin preocuparse de la calidad o su capacidad de mandar tráfico relevante, están en el punto de mira de Google y pienso que están condenadas a perder toda su efectividad a largo plazo.

(Nota: si te interesa hacia dónde creo que va el SEO en los próximos años, no dejes de leer mi post El futuro del SEO: Rankbrain y búsquedas de voz)

Pero si quieres aportar algo o rebatir mi punto de vista, ¡te espero con ganas en los comentarios!

Share This