Midiendo la calidad de una página mediante el TFIDF

En nuestra herramienta uno de los parámetros que medimos para cada una de las páginas de un dominio es el TFIDF de dicha página. Para ello calculamos el TFIDF de las palabras usadas en cada una de las URLs del sitio. ¿Que es el TFIDF de una palabra? Pues bien, TFIDF son las siglas de Term Frequency Inverse Document Frequency y se calcula como el producto de la frecuencia de aparición de una palabra en esa URL por la frecuencia de aparición de dicha palabra en todo el dominio.

La frecuencia de aparición de una palabra (TF) en un determinado documento es el número de veces que aparece dicha palabra en ese documento o URL. La frecuencia inversa de documento (IDF) depende del número de URLs del dominio en las que aparece dicho documento. La combinación de ambos valores nos da una métrica que nos permite saber como de únicas son las palabras de una cierta URL. Cuantas más palabras únicas tenga una cierta URL mayores serán sus valores de TFIDF. Sin embargo, cuantas más palabras repetidas en distintas URLs se usen en una URL determinada, menores serán sus valores de TFIDF. Es decir, obtener un número pequeño de valores altos de TFIDF en una página significa que las palabras que se usan en dicha URLs son usadas demasiadas veces en todo el sitio web. Para entenderlo mejor veamos como cambia el valor de TFIDF de una cierta palabra en una URL dependiendo de su frecuencia de aparición en dicha URL y de en cuantas URLs del dominio aparezca dicha palabra.

Como podéis ver, cuantas mas veces sea usada una palabra en una URL (TF), mayor será su TFIDF y por lo tanto su importancia en dicha URL. Sin embargo, según dicha palabra es usada en más URLs, su importancia disminuye hasta hacerse cero cuando dicha palabra es usada en todas las URLs del dominio. En las dos siguientes imágenes os muestro el TFIDF calculado por Safecont para dos páginas. Como podéis ver, el primero tiene valores mucho más altos que el segundo, con lo que, si sólo dependiéramos del TFIDF, la primera sería considerada como mejor página que la segunda.

TFIDF de una URL con un contenido de calidad en Safecont

TFIDF de una URL de escasa calidad en Safecont

Veamos para que podemos usar esta métrica. Hace una semana os pedimos por twitter que nos mandarais tiendas online para analizar en nuestro video de la semana pasada. Uno de los que nos madasteis era www.semillalandia.com que ha resultado ser un caso muy interesante de como se pueden arreglar problemas en páginas y como a veces esas soluciones pueden provocar otros problemas.

Analizamos esta página en Noviembre pasado y obtuvo una puntuación con nuestra herramienta de 55 puntos. El principal problema que tenía dicha página es que, aunque sus fichas de productos tenían suficiente contenido como para no considerarse thin content, como este contenido estaba en la cabecera y pie de página con unas pequeñas descripciones de los productos, muchas de sus páginas puntuaban alto en duplicidad interna. Desde entonces su propietario se ha volcado en mejorar la página, añadiendo textos a fichas de productos y trabajando en la unión de productos con la idea de que las páginas de productos estén mas completas y disminuya su duplicidad interna. Sin embargo tras realizar todos estos cambios volvimos a analizar la página y obtuvimos una puntuación peor, aproximadamente 68 puntos de PageRisk. ¿A que se ha podido deber este cambio? Veamos.

Tras comparar ambos análisis hemos podido constatar que, efectivamente, un 35% de las páginas han mejorado sus indicadores de duplicidad interna o thin ratio gracias al trabajo realizado por los administradores del sitio. Sin embargo, hay un 65% de páginas que han empeorado su puntuación de PageRisk. Las razones por las que una página puede empeorar son diversas, pero algunas de las más importantes son el aumento de la duplicidad interna, aumento del thin ratio o aumento de palabras demasiado frecuentes en todo el dominio. Si hacemos un análisis mas profundo de los números obtenemos la siguiente tabla:

RazónURLs
Duplicidad Interna13,63%
Thiin ratio1,07%
TFIDF38,73%
Duplicidad interna y thin ratio2,16%
Duplicidad Interna y TFIDF34,41%
Thin ratio y TFIDF4,18%
Duplicidad interna, thin ratio y TFIDF5,80%

Como podemos ver, hay en torno al 17 % de URLs que han aumentado su puntuación de duplicidad interna y contenido pobre debido a los cambios. Sin embargo, el mayor problema es que en torno al 83% de las páginas que han empeorado, han perdido palabras únicas, obteniendo menores valores de TFIDF. Esto quiere decir que los cambios realizados en dichas páginas, aunque hallan disminuido la duplicidad interna o aumentado la calidad y tamaño de sus textos, ha sido a costa de aumentar el uso de ciertas palabras clave en todo el dominio, haciendo que su importancia general disminuya y provocando que las URLs que las usan pierdan calidad.

Como podéis ver, arreglar una página no es tarea sencilla. Hay que tener en cuenta que los cambios que hagamos pueden disminuir la duplicidad o la cantidad de contenido pobre de la página, pero también pueden afectar otras métricas importantes de la página, haciéndonos sobre-utilizar palabras que tal vez sean importantes para nuestro sitio y disminuyendo la calidad de los textos que usemos.

Si creéis tener algún problema de calidad de contenido, contactadnos y os ayudaremos a solventarlo.

Carlos Pérez Miguel

Comparte la noticia