Category Safecont

Rankeando páginas: Hubs y Authorities

Esta semana seguimos hablando de arquitectura web. Una de las partes menos conocida de nuestra herramienta son los listados de páginas de un dominio por puntuaciones Hub o Authority. Aunque no solemos mencionarlas mucho en nuestros videos, estas puntuaciones sirven también para medir la importancia de las páginas de un dominio y mejorar la arquitectura de un sitio de una forma alternativa al típico algoritmo Pagerank.
Mientras que Pagerank se centra en ordenar las páginas por la probabilidad de que éstas sean visitadas al azar, el algoritmo HITS (Hyperlink-Induced Topic Search) se basa en la idea de que en Internet hay dos tipos de páginas. Por un lado las páginas de tipo Hub son aquellas que aunque no aportan mucha información sobre un tema, enlazan a las páginas que sí lo hacen. Por otra parte, las páginas de tipo Authority son aquellas que aportan contenido sobre un tema a un sitio web y por ello son enlazadas por muchas páginas Hubs relativas a ese tema. Es necesario notar que los dos tipos de páginas no son excluyentes. La página principal de un sitio suele tener puntuaciones altas en Authority (es enlazada desde todo el sitio) y de Hub (enlaza a muchas páginas con puntuaciones altas de Authority). Veamos como podemos usar estas puntuaciones para mejorar la estructura de nuestro sitio.
En Safecont hemos situado los listados de páginas por su puntuación Hub o Authority en la pestaña “Architecture” de nuestra herramienta. En ese apartado podéis encontrar dos enlaces a los listados de URLs ordenados por su peso como Hub y como Authority. Veamos unos ejemplos:
Ejemplo: eu.billabong.com
Esta web es la tienda online de una de las marcas referentes en cuanto a moda surfera se refiere. Si miramos su listado de Auths vemos lo siguiente
Como podéis ver la raiz tiene un peso Auth alto, esto tiene sentido por que está enlazada desde la mayoría de páginas del sitio. Sin embargo vemos una cosa curiosa, la puntuación Hub es muy baja. Lo lógico sería que tuviera una puntuación cercana al 1.0 ya que lo habitual en un comercio electrónico es que esta página enlace a
Read more >>

TFIDF: en búsqueda de la normalidad

Hace unos días hablábamos del TFIDF y lo usábamos para medir la calidad de una página, viendo cómo se veía afectado en función del número de palabras únicas en dicha página. En esta entrada seguiremos hablando de TFIDF pero en este caso veremos cómo usarlo para detectar palabras que son usadas demasiado en una misma página. Cuando sucede esto, es posible que Google considere que estamos intentando sobre-explotar esta palabra y directamente no consigamos posicionarla de ninguna manera. De modo que la pregunta que hay que hacerse es: ¿hasta dónde es posible repetir una palabra sin sufrir una penalización o una restricción por parte de los buscadores que impidan posicionarla correctamente?
Para entender el problema de las repeticiones negativas primero debemos entender cómo se distribuyen las palabras en un texto “natural”. Algunas de las hipótesis más aceptadas son que la frecuencia de aparición de una palabra en un texto sigue una de estas distribuciones: Zipf, log-normal o normal. Por simplicidad, nosotros vamos a suponer que la distribución de palabras en un texto sigue una distribución normal. Esto quiere decir que si eligiéramos palabras al azar usando una distribución normal, el resultado tendría frecuencias parecidas a cualquier idioma. Esto va a resultarnos útil porque va a permitirnos saber si la distribución de palabras de nuestros textos se puede considerar natural. Veamos qué forma tiene una distribución normal.
Como se puede ver, una normal tiene una media, μ, alrededor de la se agrupan la mayoría de los valores, y una desviación típica, σ, que determina la mayor o menor pendiente de la curva. En nuestro caso esto se traduciría de la siguiente manera: la mayoría de las palabras tendrán una frecuencia de aparición cercana a la media y existirán unas pocas en los extremos que o bien aparecerán muy poco o demasiado. Para medir cuanto es muy poco o demasiado podemos usar la regla del 68-95-99,7 y que se puede ver en el gráfico anterior. Esta quiere decir que un 68% de las palabras tendrán una frecuencia en el rango [μ-σ, μ+σ], el 95% estarán en el rango [μ-2σ, μ+2σ] y el 99.7% de las palabras estarán
Read more >>

Midiendo la calidad de una página mediante el TFIDF

En nuestra herramienta uno de los parámetros que medimos para cada una de las páginas de un dominio es el TFIDF de dicha página. Para ello calculamos el TFIDF de las palabras usadas en cada una de las URLs del sitio. ¿Que es el TFIDF de una palabra? Pues bien, TFIDF son las siglas de Term Frequency Inverse Document Frequency y se calcula como el producto de la frecuencia de aparición de una palabra en esa URL por la frecuencia de aparición de dicha palabra en todo el dominio.
La frecuencia de aparición de una palabra (TF) en un determinado documento es el número de veces que aparece dicha palabra en ese documento o URL. La frecuencia inversa de documento (IDF) depende del número de URLs del dominio en las que aparece dicho documento. La combinación de ambos valores nos da una métrica que nos permite saber como de únicas son las palabras de una cierta URL. Cuantas más palabras únicas tenga una cierta URL mayores serán sus valores de TFIDF. Sin embargo, cuantas más palabras repetidas en distintas URLs se usen en una URL determinada, menores serán sus valores de TFIDF. Es decir, obtener un número pequeño de valores altos de TFIDF en una página significa que las palabras que se usan en dicha URLs son usadas demasiadas veces en todo el sitio web. Para entenderlo mejor veamos como cambia el valor de TFIDF de una cierta palabra en una URL dependiendo de su frecuencia de aparición en dicha URL y de en cuantas URLs del dominio aparezca dicha palabra.
Como podéis ver, cuantas mas veces sea usada una palabra en una URL (TF), mayor será su TFIDF y por lo tanto su importancia en dicha URL. Sin embargo, según dicha palabra es usada en más URLs, su importancia disminuye hasta hacerse cero cuando dicha palabra es usada en todas las URLs del dominio. En las dos siguientes imágenes os muestro el TFIDF calculado por Safecont para dos páginas. Como podéis ver, el primero tiene valores mucho más altos que el segundo, con lo que, si sólo dependiéramos del TFIDF, la primera sería considerada
Read more >>

Como afecta Fred Update ¿tendremos nuevos cambios en abril?

Durante la primera semana de marzo muchos profesionales SEO detectaron cambios bruscos en el posicionamiento y tráfico orgánico que recibían de Google. Ya habíamos visto otro update a inicios de febrero sin confirmar, que parece relacionado en algunos casos con el sucedido en marzo. ¿Veremos otro update similar en abril?.
El día 8 de marzo Google llevó a cabo una actualización en su algoritmo, que acabamos denominando Fred Update. Por la tipología de los sitios afectados, y el comportamiento previo de su tráfico en anteriores Panda Updates para nosotros estaba claro se trataba de alguna actualización centrada en contenido de baja calidad.
Aunque en un inicio algunas publicaciones americanas apuntaban a una actualización de como evaluaba los enlaces.  Más tarde nos dieron la razón como comentamos el dia 9 de marzo, y estábamos ante una gran actualización relacionada con la calidad del contenido.
Read more >>
1