Category Safecont

TFIDF: en búsqueda de la normalidad

Hace unos días hablábamos del TFIDF y lo usábamos para medir la calidad de una página, viendo cómo se veía afectado en función del número de palabras únicas en dicha página. En esta entrada seguiremos hablando de TFIDF pero en este caso veremos cómo usarlo para detectar palabras que son usadas demasiado en una misma página. Cuando sucede esto, es posible que Google considere que estamos intentando sobre-explotar esta palabra y directamente no consigamos posicionarla de ninguna manera. De modo que la pregunta que hay que hacerse es: ¿hasta dónde es posible repetir una palabra sin sufrir una penalización o una restricción por parte de los buscadores que impidan posicionarla correctamente?
Para entender el problema de las repeticiones negativas primero debemos entender cómo se distribuyen las palabras en un texto “natural”. Algunas de las hipótesis más aceptadas son que la frecuencia de aparición de una palabra en un texto sigue una de estas distribuciones: Zipf, log-normal o normal. Por simplicidad, nosotros vamos a suponer que la distribución de palabras en un texto sigue una distribución normal. Esto quiere decir que si eligiéramos palabras al azar usando una distribución normal, el resultado tendría frecuencias parecidas a cualquier idioma. Esto va a resultarnos útil porque va a permitirnos saber si la distribución de palabras de nuestros textos se puede considerar natural. Veamos qué forma tiene una distribución normal.
Como se puede ver, una normal tiene una media, μ, alrededor de la se agrupan la mayoría de los valores, y una desviación típica, σ, que determina la mayor o menor pendiente de la curva. En nuestro caso esto se traduciría de la siguiente manera: la mayoría de las palabras tendrán una frecuencia de aparición cercana a la media y existirán unas pocas en los extremos que o bien aparecerán muy poco o demasiado. Para medir cuanto es muy poco o demasiado podemos usar la regla del 68-95-99,7 y que se puede ver en el gráfico anterior. Esta quiere decir que un 68% de las palabras tendrán una frecuencia en el rango [μ-σ, μ+σ], el 95% estarán en el rango [μ-2σ, μ+2σ] y el 99.7% de las palabras estarán
Read more >>

Midiendo la calidad de una página mediante el TFIDF

En nuestra herramienta uno de los parámetros que medimos para cada una de las páginas de un dominio es el TFIDF de dicha página. Para ello calculamos el TFIDF de las palabras usadas en cada una de las URLs del sitio. ¿Que es el TFIDF de una palabra? Pues bien, TFIDF son las siglas de Term Frequency Inverse Document Frequency y se calcula como el producto de la frecuencia de aparición de una palabra en esa URL por la frecuencia de aparición de dicha palabra en todo el dominio.
La frecuencia de aparición de una palabra (TF) en un determinado documento es el número de veces que aparece dicha palabra en ese documento o URL. La frecuencia inversa de documento (IDF) depende del número de URLs del dominio en las que aparece dicho documento. La combinación de ambos valores nos da una métrica que nos permite saber como de únicas son las palabras de una cierta URL. Cuantas más palabras únicas tenga una cierta URL mayores serán sus valores de TFIDF. Sin embargo, cuantas más palabras repetidas en distintas URLs se usen en una URL determinada, menores serán sus valores de TFIDF. Es decir, obtener un número pequeño de valores altos de TFIDF en una página significa que las palabras que se usan en dicha URLs son usadas demasiadas veces en todo el sitio web. Para entenderlo mejor veamos como cambia el valor de TFIDF de una cierta palabra en una URL dependiendo de su frecuencia de aparición en dicha URL y de en cuantas URLs del dominio aparezca dicha palabra.
Como podéis ver, cuantas mas veces sea usada una palabra en una URL (TF), mayor será su TFIDF y por lo tanto su importancia en dicha URL. Sin embargo, según dicha palabra es usada en más URLs, su importancia disminuye hasta hacerse cero cuando dicha palabra es usada en todas las URLs del dominio. En las dos siguientes imágenes os muestro el TFIDF calculado por Safecont para dos páginas. Como podéis ver, el primero tiene valores mucho más altos que el segundo, con lo que, si sólo dependiéramos del TFIDF, la primera sería considerada
Read more >>

Como afecta Fred Update ¿tendremos nuevos cambios en abril?

Durante la primera semana de marzo muchos profesionales SEO detectaron cambios bruscos en el posicionamiento y tráfico orgánico que recibían de Google. Ya habíamos visto otro update a inicios de febrero sin confirmar, que parece relacionado en algunos casos con el sucedido en marzo. ¿Veremos otro update similar en abril?.
El día 8 de marzo Google llevó a cabo una actualización en su algoritmo, que acabamos denominando Fred Update. Por la tipología de los sitios afectados, y el comportamiento previo de su tráfico en anteriores Panda Updates para nosotros estaba claro se trataba de alguna actualización centrada en contenido de baja calidad.
Aunque en un inicio algunas publicaciones americanas apuntaban a una actualización de como evaluaba los enlaces.  Más tarde nos dieron la razón como comentamos el dia 9 de marzo, y estábamos ante una gran actualización relacionada con la calidad del contenido.
Read more >>