TFIDF: en búsqueda de la normalidad

Hace unos días hablábamos del TFIDF y lo usábamos para medir la calidad de una página, viendo cómo se veía afectado en función del número de palabras únicas en dicha página. En esta entrada seguiremos hablando de TFIDF pero en este caso veremos cómo usarlo para detectar palabras que son usadas demasiado en una misma página. Cuando sucede esto, es posible que Google considere que estamos intentando sobre-explotar esta palabra y directamente no consigamos posicionarla de ninguna manera. De modo que la pregunta que hay que hacerse es: ¿hasta dónde es posible repetir una palabra sin sufrir una penalización o una restricción por parte de los buscadores que impidan posicionarla correctamente?

Para entender el problema de las repeticiones negativas primero debemos entender cómo se distribuyen las palabras en un texto “natural”. Algunas de las hipótesis más aceptadas son que la frecuencia de aparición de una palabra en un texto sigue una de estas distribuciones: Zipf, log-normal o normal. Por simplicidad, nosotros vamos a suponer que la distribución de palabras en un texto sigue una distribución normal. Esto quiere decir que si eligiéramos palabras al azar usando una distribución normal, el resultado tendría frecuencias parecidas a cualquier idioma. Esto va a resultarnos útil porque va a permitirnos saber si la distribución de palabras de nuestros textos se puede considerar natural. Veamos qué forma tiene una distribución normal.

Fuente: https://en.wikipedia.org/wiki/Normal_distribution

Como se puede ver, una normal tiene una media, μ, alrededor de la se agrupan la mayoría de los valores, y una desviación típica, σ, que determina la mayor o menor pendiente de la curva. En nuestro caso esto se traduciría de la siguiente manera: la mayoría de las palabras tendrán una frecuencia de aparición cercana a la media y existirán unas pocas en los extremos que o bien aparecerán muy poco o demasiado. Para medir cuanto es muy poco o demasiado podemos usar la regla del 68-95-99,7 y que se puede ver en el gráfico anterior. Esta quiere decir que un 68% de las palabras tendrán una frecuencia en el rango [μ-σ, μ+σ], el 95% estarán en el rango [μ-2σ, μ+2σ] y el 99.7% de las palabras estarán en el rango [μ-3σ, μ+3σ]. Aquellas palabras que tengan una frecuencia mayor o menor que esos rangos tendrán sólo un 0.3% de probabilidades de existir, con lo que si en nuestro texto tenemos muchas palabras con frecuencias fuera de estos rangos, es probable que las hayamos repetido demasiado. Veamos en que se traduce esto con respecto al TFIDF.

Para ello partiremos de dos ejemplos para los que nuestra herramienta ha calculado los TFIDFs y pasaremos a normalizar dichos valores. Esto lo haremos usando lo que se conoce como z-score o normal score y que consiste en una normalización usando la siguiente formula:

donde x será nuestro valor de TFIDF para una cierta palabra, μ la media de todos los TFIDFs y σ la desviación típica. Si el valor de z-score que obtenemos para una cierta palabra es mayor de 3, es muy probable que la hayamos usado mucho. Cuanto mayor sea el número, mas improbable será que esa palabra aparezca tantas veces en un cierto texto natural. Para el primer ejemplo usaremos la siguiente página: http://craneoprevilegiado.com/teoria-del-primer-enlace-2-0-dos-enlaces-dos-urls-diferentes/ la cual tiene un PageRisk según Safecont de 26,04.

TFIDF según Safecont

En este caso, la media de estas palabras es 2,5625 y la desviación típica 0.8533. Esto hace que las 2 palabras más frecuentes según el TFIDF tengan un z-score de 1,61 y 1,37 respectivamente. Si hacemos los cálculos, veremos que todas las palabras se mantienen por debajo de un z-score de 3, con lo que podríamos considerar que sus frecuencias son normales.

Ahora veamos un ejemplo más conflictivo con la siguiente URL: http://www.xataka.com/otros/viaje-urbano-especial-gadgets-en-viajes la cual tiene un 49,92 de PageRisk.

TFIDF según Safecont

En este caso la media es de 2,76 y la desviación de 1,49. Si normalizamos estos TFIDFs calculando el z-score veremos que la palabra “gadgets” obtiene una puntuación de 3,42. Si los autores de esta página quisieran posicionarla por la palabra “gadgets” lo tendrían difícil, al menos en las primeras posiciones ya que valores mayores llevarían a la keyword a posiciones más retrasadas. En este caso la página no se considera todavía como peligrosa, pero si quisiéramos mejorarla podríamos disminuir el uso de esta palabra.

En definitiva, cuantas más palabras encontremos en un texto con un z-score mayor de 3, más improbable es que las frecuencias de dichas palabras sean naturales. Usando el visor de URLs de Safecont podemos ver esto de una forma visual muy rápida. Si la diferencia en TFIDF entre las primeras palabras y el resto de la lista, es muy probable que tengamos un problema de sobre-explotación de palabras en esa URL. Como se puede ver, el TDIDF es una métrica muy interesante que nos puede ayudar a mejorar la calidad de nuestros textos de distintas formas. Si crees que tienes un problema de contenido, contáctanos y Safecont te ayudará a encontrarlo.

Carlos Pérez Miguel

Comparte la noticia