TF IDF: herramientas para mejorar la relevancia de tus contenidos

Por Juan González Villa

En este post vamos a ver cómo aplicar el TF IDF y otras formas similares de calcular la relevancia, para mejorar las posiciones de nuestros contenidos en las palabras clave que más nos interesen.

Qué es el TF IDF

Sobre el TF IDF ya hablé brevemente en mi post sobre Safecont, pero ahora voy a entrar un poco más en detalle.

TF*IDF o tf-idf es el acrónimo de “Term Frequency times Inverse Document Frequency”, que podemos traducir como “frecuencia del término por frecuencia inversa de documento”.

Es una métrica desarrollada en los 70 dentro de la disciplina conocida como IR o Information Retrieval (Recuperación de la información) para encontrar el documento más relevante para cierto término dentro de una colección de documentos. Antes de internet se usaba para rankear documentos dentro de una biblioteca o red de bibliotecas.

¿Cómo funciona? Mide con qué frecuencia aparece un término o frase dentro de un documento determinado, y lo compara con el número de documentos que mencionan ese  término dentro de una colección entera de documentos.

Por ejemplo, que la palabra “el” o “la” aparezca con mucha frecuencia en un documento concreto no quiere decir nada, ya que si analizamos la muestra o colección completa de documentos, veremos que estas palabras son muy comunes.

Pero si un documento contiene muchas veces la palabra “mostaza”, las posibilidades de que ese documento sea relevante para la búsqueda “mostaza” crecen, ya que el término es relativamente poco frecuente dentro de la muestra en global.

Relevancia no es repetir una palabra clave sin ton ni son

Vale, ¿me estás diciendo que repetir muchas veces la palabra clave que quiero posicionar puede ser el secreto para posicionar en Google?

No. Como el TF IDF está bien hecho, lleva en su fórmula el antídoto para que esto no pase. No es un simple recuento de las apariciones de un término en un texto.

En la primera parte de la fórmula (frecuencia del término) se aplican una serie de modificadores o weighting a los términos, como pueden ser:

  • Calcular la frecuencia teniendo en cuenta la extensión del propio documento
  • Ajustar la frecuencia del término según una escala logarítmica. A partir de cierto valor, ya no tiene casi incidencia seguir incluyendo más ese término.
  • Aplicar una normalización o corrección, para no recompensar más a los textos largos. Por ejemplo, dividiendo la frecuencia del término entre la frecuencia del término que más veces aparece en el texto.

La fórmula que resulta para calcular la frecuencia del término (que es sólo la mitad del TF IDF) puede ser una de las siguientes (dependiendo de qué factor o factores de ponderación o weighting apliques):

formulas de frecuencia de termino tf idf

Fuente: https://en.wikipedia.org/wiki/Tf%E2%80%93idf 

Diferencia entre TF IDF y densidad de palabra clave

A pesar de lo que ya he explicado, puede haber algún escéptico que aun piense en la famosa densidad de palabra clave. Es decir, ¿no habrá un porcentaje perfecto de frecuencia que podemos aplicar a nuestras palabras clave para rankear mejor en Google?

No. No se puede dar un porcentaje concreto y universal para cualquier palabra clave, porque depende mucho del término y su frecuencia relativa dentro de la muestra de documentos que estamos analizando.

Igual es aceptable darle a un término relativamente frecuente, como “perro”, una densidad del 3% dentro de un texto, pero no sonará igual de natural dárselo a otro término mucho menos común, como por ejemplo “irrefutable” o “vernacular”.

Como esos términos será muy poco frecuentes en una muestra representativa de documentos, bastaría con mencionarlo 3 veces dentro de un texto de 400 palabras (0,75% de densidad), y ya recibiría un valor muy alto de relevancia.

La razón por la que TF IDF no es igual a densidad de palabra clave está en la segunda parte de la fórmula (frecuencia inversa de documento). Parte que también se calcula usando una escala logarítmica y que podemos resumir así: el logaritmo en base n de dividir el total de documentos de la muestra, entre el número de documentos que mencionan el término.

Como existe la posibilidad de que el número de documentos que mencionan el término sea 0, se suele añadir un 1 al cociente, de forma que en realidad se divide entre la suma de 1 + el número de documentos que incluyen el término.

En resumen

TF IDF es un método fiable para estimar la relevancia de un documento para un término. Se consigue un TF IDF alto, cuanto mayor es la frecuencia de un término en una página, y menor es el número de documentos que mencionan ese término.

Según aumenta el número de documentos que incluyen el término, baja el valor de TF IDF, hasta el extremo de que puede llegar a 0, si todos o casi todos los documentos de una muestra amplia lo mencionan. Esto es algo que incorpora Safecont en sus cálculos, como veremos luego.

¿Usa realmente Google el TF IDF en su algoritmo?

Google, como cualquier buscador de internet, es simplemente una herramienta o aplicación de los principios establecidos en Information Retrieval. Google puede tener su propio método de calcular la relevancia, pero en líneas generales, juega dentro de las reglas de IR, o de lo contrario no sería efectivo.

No se pueden reinventar de cero las reglas de IR. Se pueden optimizar (y en eso trabajan en Google día a día), pero no se pueden ignorar y jugar con una nueva baraja.

A día de hoy, Google seguramente no use la fórmula de TF IDF tal y como te la he enseñado, pero trabaja con una variación o variaciones que en lo fundamental no están muy lejos de la fórmula original.

De hecho, algunas de estas variaciones que casi con toda seguridad ha usado o aún usa Google se conocen perfectamente, como Okapi BM25 y BM25F (mi preferida, porque tiene en cuenta el anchor text).

En resumen, podemos decir que Google usa mecanismos lo suficientemente parecidos a TF IDF como para que usar este tipo de análisis sea algo útil y efectivo para el SEO.

Quizá, una diferencia o ventaja fundamental con la que cuenta Google no es sólo el método de cálculo, sino también el tamaño de la muestra. Nadie compara frecuencias de términos con un conjunto tan amplio de documentos como el que usa Google.

Ya sea este su índice, o su conjunto de páginas analizadas (mayor aún que su index) o, simplemente, un conjunto enorme de libros escaneados y páginas web analizadas y escogidas como muestra, es un corpus increíblemente extenso.

Por eso Google puede calcular mejor que nadie la relevancia y lo que es una frecuencia normal de un término dentro del lenguaje natural.

El principal handicap de las herramientas que analizan el TF IDF es que no comparan con una base de datos así de grande; de hecho comparan sólo con el contenido de los resultados del Top10, o si acaso el Top20, de una búsqueda concreta en Google.

¿Y qué hay de intención de búsqueda? ¿Es relevancia lo mismo que user intent?

Parece que hoy en día se habla más de intención de búsqueda que de relevancia. Y hay quien usa los dos términos como si fueran lo mismo (“si soy relevante para lo que busca el usuario, será porque cumplo la intención del usuario al hacer esta búsqueda”).

En mi opinión, y esto ya lo toqué en mi post sobre el user intent, se puede ser relevante “sobre el papel” y no cumplir la intención de búsqueda.

Un texto sobre “comprar billetes de tren de Madrid a Alicante” puede contener todas las palabras y frases relevantes para esa query, pero a la hora de la verdad, cualquier usuario preferirá una página con un sencillo formulario para elegir la fecha del viaje, el número de personas y un botón para comprar.

Eso es lo que busca Google. Antes de meterte de lleno en lo que viene a continuación, ten siempre en cuenta que si no ofreces el “tipo” de contenido adecuado para cumplir la intención de búsqueda del usuario, añadir más texto, o incluir más términos relevantes puede ser una estrategia perdedora a medio/largo plazo.

Cómo optimizar un contenido para SEO usando TF IDF

Hasta aquí la teoría, pero ¿cómo y por qué aplicarlo en la práctica?

Bien, imagina que necesitas mejorar todo el contenido de una web creado hace años, usando un servicio ultra barato de redacción, lo cual ha resultado en problemas de keyword stuffing, canibalización y montones de posts de thin content o baja calidad (caso real, me he encontrado clientes en esa situación).

¿Por dónde empezarías? Un análisis con TF IDF te puede decir dónde has pecado por exceso y por defecto en el uso de tus palabras clave principales, y, más importante aún, qué términos y frases necesitas añadir a tus textos para ganar en relevancia.

Dicho de otra forma, qué te falta para que Google deje de considerar tus textos como thin content o “relleno”, y empiece a asignarles una puntuación alta de relevancia.

No olvidemos que la relevancia es una de las patas fundamentales del SEO. Si a eso añades la otra pata, autoridad (necesaria según la competencia para esa palabra clave específica), y si tu contenido es accesible e indexable para Google (requisitos técnicos) lo tienes todo para volar alto en los rankings.

También es útil pensar en el TF IDF como una herramienta que te ayuda tanto a redactar mejor, como a investigar el tema sobre el que vas a escribir, ya que te muestra de un simple vistazo términos y frases que quizá no se te ocurrirían, y que pueden revelar temas secundarios que interesan a tus usuarios o que te ayudarán a estructurar mejor tu contenido.

Análisis TF IDF para mejorar la relevancia de un texto

Todas las herramientas que comparo a continuación trabajan de una forma muy parecida: analizan el contenido de los 10 o 20 primeros resultados de una query que hemos especificado, y en base a eso extraen puntuaciones de relevancia para cada término encontrado.

Cada herramienta usa un algoritmo concreto para asignar una puntuación de relevancia a los términos encontrados, y por eso usan nombres diferentes, como WDF*DF (Dinorank) o WDF/IDF (Seolyze). Todos ellos son como un TF IDF, pero “en pequeñito”.

La lógica es que los primeros resultados están ahí porque Google los ha encontrado relevantes para esa búsqueda. Por tanto, acercándote a las densidades relativas para cada término que usan estos resultados top, estarás casi seguro dentro de los límites deseables o al menos “seguros”. Ni demasiado, ni demasiado poco.

Una vez extraídas las puntuaciones y el número de apariciones de cada término o incluso de cada frase (si la herramienta lo permite), sólo quedaría editar nuestro texto de manera acorde.

Si una vez hecho esto todavía tienes dudas, puedes volver a pasar la herramienta por tu propio texto y ver qué puntuaciones asigna para los términos principales. Eso es todo.

Ejemplos de optimización TF IDF

Vamos a ver un par de ejemplos.

Primero, analizo un post de Useo que está posicionando para una palabra clave de marca justo detrás del dominio de esa marca.

La marca posiciona en lo más alto por razones obvias, pero en cuanto a señales de autoridad (backlinks) mi página no está demasiado por encima del resto del Top10, de hecho hay un par de resultados que quizá merecerían una posición más alta que la mía (los resultados 8 y 10, según las columnas Backlinks y Domains en el siguiente pantallazo de la SERP en Ahrefs):

metricas competidores ahrefs palabra clave

Si no es el contenido con más autoridad, será quizá uno de los más relevantes. Ahora, veamos qué tal lo hace mi página en cuanto a TF IDF, según Dinorank:

grafica tf idf dinorank

Como se ve, tanto para el término principal (primero a la izquierda) como para los términos que la herramienta está marcando como más relevantes tras analizar el Top10, mi post consigue una puntuación bastante alta, estando casi siempre en la zona verde (horquilla de frecuencias recomendadas) para las 20 palabras más relevantes. Esto es sobre una muestra en la que se están analizando los otros nueve resultados del Top10, incluido el Top1.

¿Coincidencia? Veamos ahora otro caso, un “antes” y “después” de añadir al texto términos recomendados por una de estas herramientas.

Se trata de otro post de Useo, que tras haber posicionado durante meses en la primera página para una búsqueda interesante y bastante competitiva, había caído a la segunda página.

El 11 de noviembre lo pasé por Seobility, tomé nota de algunos términos que me convenía incluir en el texto, edité el post y esto es lo que pasó a partir del día 16:

grafica posiciones search console

Para que no quede duda de que la edición del texto la hice sólo unos días antes de la “remontada” a posiciones de primera página:

ultima edicion post ejemplo tf idf

En resumen, la subida fue una media de 5 posiciones en sólo unos pocos días, posición que se ha mantenido desde entonces.

Quizá no parezca mucho, pero si la diferencia entre andar languideciendo en segunda posición y volver a entrar en la pelea para una keyword competida depende sólo de una ligera edición al texto que no me llevó ni diez minutos (he tardado casi más en analizar los datos y sacar pantallazos para este post), yo tendría este método muy en cuenta.

Por supuesto, repito de nuevo que no hay que obsesionarse con la relevancia más de lo debido y que en el SEO sigue habiendo otros factores que también necesitas tener sí o sí. Sin la autoridad adecuada en forma de enlaces no podría estar ahí. Para keywords mínimamente competidas, la relevancia es cualidad necesaria, pero no suficiente para posicionar.

Para terminar con el ejemplo, los cambios aplicados no me ayudaron sólo a mejorar en la keyword concreta analizada, sino que hicieron aumentar a la larga el número de queries para las que esta página recibe impresiones orgánicas. Lo muestra esta gráfica, obtenida en Data Studio con datos de Search Console y filtrando por la url estudiada:

impresiones busquedas useo search console data studio

(Si te interesa esto de los tableros y gráficas a medida con Data Studio, te lo explico todo en este post).

Vistos los ejemplos, vamos a comparar herramientas.

Comparativa de herramientas TF IDF

Como todos los caminos acaban llevando a Roma cuando se trata de algoritmos que analizan la relevancia, más que en el algoritmo concreto, me voy a fijar en la usabilidad y potencial de la herramienta.

Seobility

Seobility es la más accesible de las herramientas que he comparado, ya que puedes hacer tres análisis TF/IDF gratuitos al día. Pero que eso no te engañe, porque su análisis gratuito es bastante completo. De hecho, antes de probar Dinorank, Seobility era mi herramienta favorita para hacer comprobaciones sueltas.

Simplemente, inserta la palabra clave para la que quieres optimizar, y también (aunque esto es opcional) la url a la que quieres dar un empujón. Si estás planeando un contenido futuro, no tendrás url aún, por lo que lo puedes dejar en blanco, o introducir una de tus competidores que quieres usar como referencia.

Importante: también debes introducir la versión de Google en la que quieres hacer la comprobación; por ejemplo, google.es, o google.com o google.it.

Tras unos 10-15 segundos, Seobility te devolverá una gráfica con 3 métricas, y una lista de los 10 resultados mejores posicionados actualmente para esa SERP en el país elegido.

OnPaste.20190127 112408

La gráfica nos desglosa los términos más importantes dentro de los 10 primeros resultados para esa palabra clave. Veremos 3 métricas para cada término: su valor WDF-IDF máximo entre los 10 analizados, su valor medio y el valor asignado a la url que hemos elegido.

Además, si haces clic en el botón “Used” podrás ver el valor medio de cada palabra, teniendo en cuenta sólo las páginas que usan ese término.

Aparte de la gráfica tenemos un desglose página por página. Algo muy útil aquí es que para cada resultado te da un recuento de palabras y de backlinks, además de una puntuación de tiempo de carga.

Gran funcionalidad, porque las posiciones en Google nunca dependen sólo de la relevancia, sino de una mezcla de factores, que incluyen por supuesto la autoridad y que en ciertas circunstancias puede incluir el tiempo de carga (mira mi post sobre el update de velocidad móvil en julio de 2018).

A la derecha de cada resultado orgánico tenemos los términos más importantes en cada página, de acuerdo a dos métricas: su valor relativo o ponderado (como es de frecuente en relación a la frecuencia total del término en los 10 resultados) y su valor sin ponderar (cuántas veces aparece en ese contenido).

Tenemos una pestaña adicional para ver todas las palabras que se consideran relevantes en formato tabla, algo parecido a lo que ofrece Ryte.

¿Qué le falta a Seobility? En mi opinión, la capacidad de dar resultados para n-gramas, o frases de 2 y 3 palabras, en lugar de sólo para términos sueltos. Esto sí lo ofrece la siguiente herramienta (Dinorank).

Lo que más me gusta:

Un análisis rápido y bastante completo, que además es gratuito.

Precio:

3 análisis gratis al día. O 50 análisis al día con el plan de pago (39,90 € al mes).

Úsala si:

Sólo vas a analizar contenidos a mejorar de forma esporádica, o si dudas qué keyword atacar  entre 2 o 3 posibles candidatas.

Dinorank

Dinorank es una herramienta SEO recién llegada, que yo he probado en fase beta, por lo que es posible que con el tiempo añadan más funcionalidades y detalles sobre lo que he visto.

Es una herramienta de SEO On Page todo en uno, que incluye cosas como trackeo de posiciones, auditoría on page y aviso de canibalizaciones, aunque a mí la función que más me ha gustado por el momento es su TF IDF, porque está al nivel de las mejores del mercado, e incluso diría que en cuanto a usabilidad han ido un pasito más allá.

Su principal ventaja es que incorpora de serie el análisis para frases de dos y tres palabras, con lo que la información que sacas de primeras es más completa aún, y te permite optimizar tu contenido con frases, en lugar de sólo con términos, que muy posiblemente Google está considerando relevantes para tu keyword.

Para este análisis, Dinorank ignora las stopwords, palabras cortas y muy comunes, tipo de, del, el, la, etc.

analisis frases dos palabras tf idf dinorank

Su interfaz es limpio, destacando de manera clara lo más importante (si estás en la zona verde, bueno; si no, debes mejorar) y, esto es muy importante, da una recomendación que puedes poner inmediatamente en práctica para cada palabra o frase en la que estás fuera de las distribuciones normales (por exceso o por defecto).

Estas sugerencias son del tipo “mantener” (no hay que hacer nada), “disminuir” o “Aumentar entre x y x veces”.

Una recomendación mía: creo que el límite máximo que sugieren cuando debemos aumentar la frecuencia de una palabra está un poco alto, y yo aconsejo apuntar más bien hacia el límite bajo. Quizá es porque todavía deben pulir un poco su algoritmo (ya digo que es una herramienta muy nueva).

También me gusta que los análisis se guardan dentro del proyecto en el que estés trabajando en la herramienta (y puedes crear tantos proyectos como quieras, eso mola).

Dinorank incorpora otra puntuación para la palabra clave principal que ha llamado prominencia. Tal y como describen en la propia herramienta, se asigna de un modo muy simple:

La prominencia de DinoRANK se basa en unos conceptos muy simples:

  • Si la keyword está en la etiqueta Title, 2 puntos
  • Si el title comienza por la keyword, 1 punto
  • Si además la keyword está en la primera mitad del Title, 1 punto
  • Si la keyword está en el encabezado H1, 2 puntos
  • Si el H1 empieza por la keyword, 1 punto
  • Si la keyword está en al menos un encabezado H2, 1 punto
  • Si la keyword está en el primer párrafo, 1 punto
  • Si la keyword está en al menos una etiqueta alt de una imagen, 1 punto

Puedes estar más o menos de acuerdo con la manera en la que asignan esta puntuación, pero no cabe duda de que es útil como simple checklist SEO On Page.

Por último, de un simple vistazo puedes ver todos los encabezados (H1, H2, H3, etc) que está usando tanto tu página como todas las de la competencia que aparecen en el Top10.

Lo que más me gusta:

Permite analizar en profundidad (y de manera muy clarita) un alto volumen de contenidos, y encima por un precio bastante más bajo que la competencia, poniendo énfasis en dar recomendaciones accionables. Es quizá la herramienta con la que obtienes más información de cada palabra clave con menos esfuerzo (incluyendo frases de 2 y 3 palabras).

Dinorank es la única herramienta de la lista que tiene el interfaz 100% en español, que para eso está hecha aquí y se dirige a la comunidad hispana.

Precio:

300 análisis al mes dentro del plan básico (19,90 € si pagas un año, o 25 € si pagas mes a mes). Además incluye auditoría on page, trackeo de posiciones, page rank interno, enlazado interno, canibalizaciones, detección de thin content y monitorización de backlinks.

Úsala si:

Necesitas optimizar un volumen alto de contenidos en varios proyectos, y además quieres aprovecharte de todas las funciones de la suite para On Page más asequible que hay ahora mismo en el mercado.

Seolyze

(No confundir con Seolyzer, que es para análisis de logs).

Antes de llegar Dinorank, Seolyze era la opción profesional “estándar” para todos los SEOs enfocados en trabajar el TF IDF. Sigue siendo una herramienta muy potente, claro, y con funciones que van más allá de comprobar la relevancia (keyword research, auditoría On Page, optimizador de snippets, etc).

Como cuesta casi el doble que Dinorank, para el usuario medio quizá se ha quedado un poco “fuera de juego”, pero para aquellos que necesitan mucho volumen de análisis, e integración de la herramienta con el proceso de redacción, todavía es una opción muy interesante. Y además ofrece un trial gratuito de 30 días.

También incluye datos para frases de dos o tres palabras, que hasta ahora era su gran arma secreta, pero tiene una pequeña desventaja respecto a Dinorank, y es que tienes que hacer análisis distintos para ver los resultados para n-grams de 2 y de 3 palabras.

seolyze tf idf analisis

En Seolyze destaca que puedes filtrar ciertos términos para que no cuenten en el análisis, y además de la lista que trae de serie, también puedes usar tu propia lista de stop words.

Además, Seolyze tiene todo un módulo dedicado a mejorar la redacción del contenido basado en lo que hayas descubierto con el chequeo TF IDF, al cual puedes dar acceso a tus redactores. Muy útil, y algo que probablemente inclinará la balanza para los que trabajan con redes de blogs.

Lo que más me gusta:

Una herramienta muy pro, ya asentada y pulida en casi todas sus funcionalidades, que abarcan también tracking de posiciones y optimización on page en general.

Precio:

Chequea TF IDF sin límites por 39,90 € al mes. Incluye también editor de los posts, tracking de 50 keywords, acceso adicional para redactores, keyword research y otras funciones avanzadas de On Page. Tiene prueba gratuita durante 30 días.

Úsala si:

Llevas una red de sitios o coordinas un equipo de redacción y haces uso del TF IDF y edición de textos a gran escala.

Ryte

Más conocido para algunos como la antigua onpage.org, Ryte es una suite completa, con algunas funciones muy pro, aunque una de sus señas de identidad ha sido de siempre el TF IDF.

Ryte agrupa automáticamente palabras muy parecidas entre sí, de forma que no le da una puntuación a una palabra en singular y otra distinta a esa misma palabra en plural.

ryte panel competencia analisis tfidf

Presenta un análisis muy visual de la optimización de la competencia (Top10) para la palabra clave elegida, y además integra todo un módulo para editar tu contenido sobre la marcha y ver cómo va mejorando tu puntuación de relevancia. Además, este módulo de edición permite insertar metadatos schema.org, lo cual es un añadido bastante de agradecer para los que no saben cómo añadir sus datos estructurados.

Fuera del TF IDF, de Ryte destaca que sólo con dar de alta un proyecto ya tienes una monitorización completa de errores On Page, como errores en metas, contenido duplicado, etc. y que permite hacer un análisis bastante avanzado de los datos que te proporciona Search Console.

Lo que más me gusta:

La visualización de la competencia, que es como un pequeño SEMRush, pero sólo para la clave elegida y midiendo la relevancia.

Precio:

5 análisis TF*IDF al mes con la cuenta gratuita. O 99,90 € al mes a cambio de 200 análisis mensuales de contenido, 3 proyectos con análisis on page de 50.000 urls, e integración de Search Console (1.000 filas de datos). 89,90 € mensuales si contratas un año entero.

Úsala si:

Te gustan las funciones de auditoría On Page y monitorización de proyectos que ofrece en plan de pago (pueden ahorrarte bastante tiempo).

Safecont

Safecont ya lo analicé en profundidad hace unos meses, y de hecho dediqué unos párrafos a su análisis TF IDF.

A diferencia del resto de herramientas vistas en este post, Safecont analiza un sitio en su conjunto, de principio a fin, dándote una puntuación de TF IDF para todas las urls indexables del sitio.

Además, te indica todas las palabras con null TF IDF, o lo que es lo mismo, todos aquellos términos cuyo TF IDF es 0, porque se encuentran presentes en todas las páginas del sitio, como vimos al desglosar la fórmula.

¿Qué quiere decir esto? Que si quieres posicionar para un término o frase concreta, te interesa tener una página dentro del sitio que sea especialmente relevante para el término – y esto es imposible si todas las páginas del sitio mencionan esa palabra.

safecont analisis tf idf y null relevance

Por supuesto, puedes tener como null TF IDF tu marca o palabras genéricas, para las cuales no quieres posicionar… Pero esa palabra clave principal con la que te gustaría rankear con tu home, o con una página pilar del sitio, yo me lo pensaría antes de incluirla en todas tus páginas. Puedes estar restándole relevancia, en lugar de añadírsela.

Lo que más me gusta:

La capacidad de analizar un sitio completo en conjunto, sin que necesites hacer otra cosa que darle un botón para que comience el rastreo. Además, Safecont te da datos sobre el contenido y la relevancia en general que no te pueden aportar el resto de las herramientas comentadas, aunque hicieras un análisis individual de todas tus urls. Es la herramienta perfecta para una auditoría de contenido.

Precio:

95 € al mes para 1 dominio y 10.000 urls, o 145 € al mes para dominios ilimitados y un máximo de 50.000 urls.

Úsala si:

Eres una agencia o consultor SEO acostumbrado a auditar con frecuencia sitios con problemas de keyword stuffing, thin content y contenido parcialmente duplicado. O si tienes un ecommerce al que hay que darle un repaso muy completo de on page y contenido.

Conclusión

La relevancia es la pata del SEO que quizá más podemos controlar.

El TF IDF no es una moda, ni un algoritmo que se haya inventado una herramienta SEO para vender más. Está basado en principios sólidos de IR, al igual que cualquier buscador. Por eso un SEO debe conocerlo y ser capaz de evaluar sus contenidos y los de la competencia en base a esta métrica, lo cual es fácil de hacer con cualquiera de las herramientas que te he mostrado.

Eso no quiere decir que con sacar sugerencias de aquí y meterlas de cualquier manera en el texto se acabe el trabajo de un SEO. Es posible incluso que en algunos casos no haya ninguna mejora apreciable (lo cual puede significar que por más que optimices texto y relevancia, no estás dando lo que busca el usuario).

¿Has probado a optimizar tus contenidos con este tipo de herramientas? Cuéntame tu experiencia en los comentarios.

Suscríbete a mi newsletter semanal (a veces quincenal) ;)

* indicates required

Consentimiento (obligatorio)

El responsable de recoger y guardar estos datos que me das voluntariamente es un servidor, Juan González Villa, con la única finalidad de informarte con nuevos posts en mi blog, eventos profesionales y enviarte mi newsletter.

Tienes derecho a cancelar tu suscripción en cualquier momento y puedes ejercer tu derecho a rectificar o solicitar eliminación de tus datos, tal y como se recoge en la Política de Privacidad.

Utilizamos Mailchimp como nuestra plataforma de marketing. Al hacer clic a continuación para suscribirse, reconoces que tu información será transferida a Mailchimp para su procesamiento. Obtenga más información sobre las prácticas de privacidad de Mailchimp aquí.

18 comentarios en “TF IDF: herramientas para mejorar la relevancia de tus contenidos”

  1. Muchas gracias por el artículo.
    Justamente buscaba información sobre el tema.
    Me parece una herramienta super potente de la que aún no he sido capaz de sacarle su jugo.
    Cuando saco el analisis no se muy bien como implementar tantos terminos sin que al final parezca algo totalmente random.
    Algún consejo?
    Seria interesante ver como lo pones en practica con un ejemplo
    Por cierto, uso dinorank
    Muchas gracias

    • Hola Axel, gracias por tu comentario. Ante la duda, yo recomiendo usar un poco el sentido común, y dejar fuera (al menos en una primera reedición del texto), aquellos términos que te marque la herramienta pero que tú no veas claro cómo incluir en el texto sin que parezca forzado.

      Lo ideal es ser un experto en el tema que estás tratando, pero si no lo eres, siempre puedes hacer un poco de investigación extra sobre los términos que no sabes como meter y decidir así si merece la pena incluirlos (y qué decir sobre ellos), o si por el contrario son irrelevantes para tu contenido.

      Meter términos sin ton ni son, en el fondo sería como volver al viejo SEO de keyword stuffing de hace 10 años… para eso no necesitamos un algoritmo ni una herramienta. Además, acabaría espantando a tus usuarios, con lo que lograrías exactamente lo contrario de tu objetivo al crear ese contenido.

  2. Hola Juan, muy bueno el post!

    Yo empecé haciendo optimización de los contenidos utilizando Search Console… Y aún sigo haciéndolo, la verdad.
    En cuanto a herramientas que incluyan este análisis he usado Website Auditor, aunque es más coñazo porque primero te hace un rastreo de toda tu web, y luego le tienes que indicar página a página su palabra clave. Y para los que usan WordPress, creo que hay un plugin de pago.

    En fin, este análisis me parece fundamental y super útil, aunque como muy bien dices, siempre aplicado con sentido común.

    Un abrazo y gracias por la info de las herramientas, me lo guardo en favoritos!

    • Hola, Jorge, gracias por tu comentario y por aportar información sobre Website Auditor, ya sois varios los que me habéis dicho que la usáis para TF IDF.

      También hay que mencionar a Xovi, que es la otra herramienta que yo sepa que incluye este tipo de análisis. Y no sabía nada del plugin de pago, gracias. Saludos!

  3. Hola Juan, me ha gustado mucho tu artículo, la verdad no tenia muy claro lo que era el TF-IDF pero con los ejemplos y explicaciones que has dado me ha quedado muy claro, ahora solo debo revisar mi contenido e identificar lo que se debe mejorar. Muchas gracias por la información.

    Un saludo!

  4. Hola Juan,
    no conocia tu blog de SEO. Me parece muy interesante.

    Como me gusta investigar sobre los algoritmos y he visto que este trata de la calidad de los contenidos, creo que puedo aportar mi experiencia.
    Al final se trata de que una máquina debe comprender un texto implícito dentro de un documento.
    La calidad de comprensión y de relación contextual de los terminos que aparecen en ella, determinara un puntaje a esa página.
    La comprensión del lenguaje natural ( PNL) trata los siguientes puntos:
    fonología
    morfología
    sintaxis
    semántica
    pragmática

    Y su peor enemigo es la “ambiguedad” de los términos.
    El motor de búsqueda analiza el contenido (palabras, frases, párrafos) y otorga un puntaje a cada uno de ellos que se conoce como “salience”.

    Por eso mi experiencia con los redactores de contenidos para web sigue siendo de “reciclaje” ya que muchos aún piensan en introducir un % de la keyword en titulos y body, olvidándose muchas veces del resto de la frase o del párrafo, perdiendo “fuerza contextual” esta parte del documento y perjudicando la posible clasificación orgánica.

    Hay algunas patentes de google que tratan sobre el lenguaje neuronal y los tipos de consultas.
    Entiendo que puede ser algo complicado, por eso algunas de estas herramientas que mencionas pueden ayudar en el proceso de crear “contenido de calidad”.

    Para resumir, solo añadir que el motor de búsqueda examina: terminos individuales, terminos relacionados, terminos dentro de frases, y co ocurrencia entre párrafos.
    La suma de esto determinará un mayor o peor puntaje de clasificación para diferentes términos de búsqueda.

    Por cierto, me apunto Seobility para probar.

    Gines Mayol

    • Qué tal, Ginés, me alegro de verte por mi blog. Me parece muy bien que menciones lo de la saliencia, que ecetivamente está relacinado con todo esto, y hay indicios claros de que es algo que Google usa, ya que si analizas un texto con Cloud Natural Language, la herramienta de comprensión de natural language de Google, verás que le asigna una puntuación de salience a todas las entidades que reconoce.

      https://cloud.google.com/natural-language/

      Gracias por comentar y saludos!

  5. Hola Juan

    Acabo de saber de ti y tu blog leyendote en un guest post en Blogger3cero

    Como Dean te recomendó tanto, luego de leerte por allá me vine aquí

    No sabía que DinoRank incluye TF IDF

    Ahora, gracias a ti, mi balanza se inclina un poco más hacia DR

    Gracias por la información

    Saludos desde Caracas, Venezuela

    • Hola Luis, pues bienvenido a Useo! :)

      Dinorank no sólo incluye TF IDF, sino que en mi opinión lo ha resuelto muy bien, con un interfaz muy limpio y fácil de usar, y me parece uno de los puntos fuertes de la herramienta. Saludos desde Madrid!

  6. Hola Juan, recien me estoy iniciando en el mundo SEO. Es de agradecer que compartas de esta manera tu expericia, tan clara y tan profesional.

    Te he conocido a través de la entreista en el canal de Youtube de Emilio García de CampamentoWeb.

    Estoy especializandome en el sector de Bodegas y enoturismo a nivel de marketing digital y herramientas de automatización, pero acometer la parte de SEO a nivel de auditoría sus páginas de bodegas y sus e-commerce de vino me parce fundametal para ayudarles todavía más y completar mis servicios.

    La experiancia es la base del SEO, pero para ello hay que tener unos conocimientos básicos fundamentales.
    A lo mejor esta no es la manera de contacterte, pero me podrías recomiendar algo para acelerar mi formación, a parte de leer muchos blog como el tuyo e ir poniendo em práctica todo ello en proyectos personales que pueda ir “quemando” en el proceso de ensayo/error.

    Gracias por compartir, es un lujo esta información y en castellano.
    (si te pasas por la web no seas muy duro, estoy comenzando a estrcturarla en base a lo que voy viendo sobre SEO).

    Saludos.

  7. Hola Juan,
    Excelente post! Muchas gracias por compartirlo!
    Dentro de las herramientas que comentas, no has mencionado a SEMrush. Si bien ellos tienen un analizador de contenido que ofrece análisis de TF IDF, de acuerdo a tu experiencia para el análisis de TF IDF, semrush no es tan buena como las otras herramientas citadas?
    Saludos!

    • Pues la verdad es que SEMrush tiene tantas herramientas en una, que es fácil olvidarse de alguna de las cosas que ofrece (yo creo qu eles pasa hasta a ellos).

      He revisado y efectivamente sí tiene esto, aunque está muy escondido. Debes tener la web a analizar dentro de Proyectos, luego ir a Ideas de optimización, elegir una URL, hacer clic en el botón con las ideas para esa URL, y finalmente clic en Ver análisis detallado. Ahí por fin aparece una tabla con análisis TF IDF y comparación con la media de tu competencia. No está mal, pero la verdad es que las demás herramientas que muestro ofrecen una forma un poco más directa de hacerlo (y también es cierto que ninguna da tantas cosas en general como SEMrush).

      Saludos y muchas gracias por tu comentario!

Deja un comentario