Rankeando páginas: Hubs y Authorities

Esta semana seguimos hablando de arquitectura web. Una de las partes menos conocida de nuestra herramienta son los listados de páginas de un dominio por puntuaciones Hub o Authority. Aunque no solemos mencionarlas mucho en nuestros videos, estas puntuaciones sirven también para medir la importancia de las páginas de un dominio y mejorar la arquitectura de un sitio de una forma alternativa al típico algoritmo Pagerank.

Mientras que Pagerank se centra en ordenar las páginas por la probabilidad de que éstas sean visitadas al azar, el algoritmo HITS (Hyperlink-Induced Topic Search) se basa en la idea de que en Internet hay dos tipos de páginas. Por un lado las páginas de tipo Hub son aquellas que aunque no aportan mucha información sobre un tema, enlazan a las páginas que sí lo hacen. Por otra parte, las páginas de tipo Authority son aquellas que aportan contenido sobre un tema a un sitio web y por ello son enlazadas por muchas páginas Hubs relativas a ese tema. Es necesario notar que los dos tipos de páginas no son excluyentes. La página principal de un sitio suele tener puntuaciones altas en Authority (es enlazada desde todo el sitio) y de Hub (enlaza a muchas páginas con puntuaciones altas de Authority). Veamos como podemos usar estas puntuaciones para mejorar la estructura de nuestro sitio.

En Safecont hemos situado los listados de páginas por su puntuación Hub o Authority en la pestaña “Architecture” de nuestra herramienta. En ese apartado podéis encontrar dos enlaces a los listados de URLs ordenados por su peso como Hub y como Authority. Veamos unos ejemplos:

Ejemplo: eu.billabong.com

Esta web es la tienda online de una de las marcas referentes en cuanto a moda surfera se refiere. Si miramos su listado de Auths vemos lo siguiente

Auths de Billabong, por Safecont

Como podéis ver la raiz tiene un peso Auth alto, esto tiene sentido por que está enlazada desde la mayoría de páginas del sitio. Sin embargo vemos una cosa curiosa, la puntuación Hub es muy baja. Lo lógico sería que tuviera una puntuación cercana al 1.0 ya que lo habitual en un comercio electrónico es que esta página enlace a la mayoría de secciones del sitio. Las cabeceras de dichas secciones tendrán puntuación Auth alta y por eso la raíz debiera tener puntuación Hub alta. El hecho de que sea tan baja indica un problema de estructura. Si miramos como están estructurados los niveles veremos  rápidamente el problema:

Niveles de billabong por Safecont

La raíz del sitio enlaza a muy pocas páginas, 8, siendo las 2 principales los enlaces a las secciones para ropa masculina y femenina. Si dicha página incluyera enlaces a listados con sus principales productos así como acceso rápido a todas las secciones del sitio, éste estaría mejor estructurado y los clientes encontrarían más rápidamente aquello que buscan.

Veamos otro ejemplo: searchengineland.com

Lista de authorities por Safecon para searchengineland.com

Lista de authorities por Safecont para searchengineland.com

En este caso podemos ver que la mayoría de páginas con Auth alto son aquellas de los primeros niveles. Si lo acompañamos de su gráfico de niveles veremos que en este caso el número de URLs en el segundo nivel es bastante mayor.

Niveles de searchengineland.com por Safecont

Niveles de searchengineland.com por Safecont

Por otra parte, los niveles inferiores son aquellos con alto Hub ya que habitualmente reciben pocos enlaces, enlazando a su vez a un alto número de paginas del sitio. Lo vemos para el mismo caso:

Listado de Hubs del searchengineland por Safecont

Como podemos ver, la mayoría de páginas con alto Hub tienen niveles mucho mayores y corresponden con entradas en dicho blog que son poco enlazadas desde el sitio pero que enlazan mucho. Tal vez lo más anómalo sea su situación en niveles mayores del cuarto o quinto. Además podemos ver dos cosas: la primera URL del listado, en el segundo nivel tiene la mayor puntuación. Probablemente esta página sea una de las principales del sitio en cuanto a redistribución de enlaces, como también tiene un Auth alto, es bastante enlazada desde el resto del sitio, no hay nada anómalo en ella. La segunda URL del listado vemos en cambio que se situa en el nivel 200 de profundidad. Probablemente tiene un sólo enlace de entrada y por su parte enlaza a muchas de las páginas Auths del sitio. En este caso es poco preocupante por que la página parece un listado de entradas antiguas que tal vez habría que des-indexar o sustituir por un sistema de búsqueda de contenidos eficiente.

La existencia de esta página no le aporta nada ni a nuestros usuarios ni a los buscadores. Simplemente hará que sus bots pierdan su tiempo llegando hasta dicho nivel sólo para encontrar un listado de URLs útiles pero que ya habrán visitado en niveles inferiores. A la hora de construir un sitio debemos tener en cuenta que las URLs con alto Hub son útiles a la hora de ofrecer enlaces interesantes tanto a los bots como a nuestros usuarios. Si conseguimos que dichas URLs se encuentren en niveles inferiores, el sitio se crawleará de una forma más rápida y eficiente.

Como vemos, construir una arquitectura eficiente para nuestro sitio web es una tarea bastante complicada. Si creéis tener un problema de arquitectura, no dudéis en utilizar las herramientas de Safecont que os ayudarán en esta ardua tarea.

Carlos Pérez Miguel

Comparte la noticia