Blog

Presentación de César Aparicio Co-fundador de Safecont en SEOPLUS2017

Durante el 21 de julio de 2017 se celebró la tercera edición del congreso SEOPLUS en Alicante. La siguiente presentación fue llevada a cabo por César Aparicio, co-fundador de Safecont.com, durante su ponencia del viernes a las 16:30.

Ponencia César Aparicio co-fundador de Safecont en SEOPLUS2017 de Safecont
Confiamos en que disfrutéis de la presentación y de Safecont (si aún no conoces la herramienta, echa un vistazo porque seguro que te interesará).
Visita Safecont haciendo clic aquí y mira lo que te puede ofrecer.
Gracias a todos,
Safecont
Read more >>

Semántica

Esta semana escribimos sobre una de las partes de Safecont que puede ayudar a mejorar la calidad de una página. Me refiero a la pestaña “SEMANTIC” de Safecont. En esta parte de la herramienta hemos resumido la información semántica de un dominio de diversas formas.
Por un lado tenemos de nuevo el TFIDF. Si en anteriores ocasiones nos fijamos en el TFIDF de cada URL de un sitio, en la pestaña SEMANTIC vamos a centrarnos en el TFIDF general de un dominio.  Por un lado tenemos el TFIDF general de la palabras más frecuentes del dominio, calculado como la media de los TFIDFs de todas las URLs del sistema. Este gráfico nos puede dar información sobre que palabras son importantes en nuestro dominio y darnos una visión general del uso que hacemos de ellas. Como hacíamos en el artículo que hablaba sobre TFIDF individual de cada URL, podemos fijarnos en aquellas palabras que tienen TFIDF demasiado alto (valores muy por encima de la media). Como en este gráfico mostramos los valores medios del dominio, un valor alto en esta tabla implica valores generalmente altos en el dominio, con lo que serán palabras que estaremos usando demasiado en cada una de las páginas en las que aparece.
La otra forma de ver el TFIDF del sistema es el gráfico de la misma pestaña en el que mostramos la relación de valor TFIDF de cada palabra y número de URLs en el que aparece.
En éste gráfico se representan las palabras más usadas en el dominio como un punto. El eje horizontal representa el número de URLs en el que aparece dicha palabra y el eje vertical representa el valor de TFIDF medio que tiene dicha palabra entre todas las páginas en las que es usada. Si dejamos el ratón sobre uno de estos puntos, veremos a que palabra se refiere y los valores que tiene la misma. Así mismo, se puede hacer zoom a voluntad. Esta gráfica puede ser usada para varias cosas:

Buscar palabras con TFIDF cercano a 0 y que por lo tanto son usadas en todas las URLs del sistema. Dichas palabras
Read more >>

Presentación de César Aparicio Co-fundador de Safecont en SEonthebeach 2017

Durante el fin de semana del 23 y 24 de junio de 2017 se celebró la quinta edición del congreso SEonthebeach celebrado en La Manga (Murcia). La siguiente presentación fue llevada a cabo de por César Aparicio, co-fundador de Safecont.com, durante su ponencia del viernes a las 20:00.

César Aparicio presentación SEonthebeach 2017 from Safecont
Confiamos en que disfrutéis de la presentación y de Safecont (si aún no conoces la herramienta, echa un vistazo porque seguro que te interesará).
Visita Safecont haciendo clic aquí y mira lo que te puede ofrecer.
Gracias a todos,
Safecont

Read more >>

Rankeando páginas: Hubs y Authorities

Esta semana seguimos hablando de arquitectura web. Una de las partes menos conocida de nuestra herramienta son los listados de páginas de un dominio por puntuaciones Hub o Authority. Aunque no solemos mencionarlas mucho en nuestros videos, estas puntuaciones sirven también para medir la importancia de las páginas de un dominio y mejorar la arquitectura de un sitio de una forma alternativa al típico algoritmo Pagerank.
Mientras que Pagerank se centra en ordenar las páginas por la probabilidad de que éstas sean visitadas al azar, el algoritmo HITS (Hyperlink-Induced Topic Search) se basa en la idea de que en Internet hay dos tipos de páginas. Por un lado las páginas de tipo Hub son aquellas que aunque no aportan mucha información sobre un tema, enlazan a las páginas que sí lo hacen. Por otra parte, las páginas de tipo Authority son aquellas que aportan contenido sobre un tema a un sitio web y por ello son enlazadas por muchas páginas Hubs relativas a ese tema. Es necesario notar que los dos tipos de páginas no son excluyentes. La página principal de un sitio suele tener puntuaciones altas en Authority (es enlazada desde todo el sitio) y de Hub (enlaza a muchas páginas con puntuaciones altas de Authority). Veamos como podemos usar estas puntuaciones para mejorar la estructura de nuestro sitio.
En Safecont hemos situado los listados de páginas por su puntuación Hub o Authority en la pestaña “Architecture” de nuestra herramienta. En ese apartado podéis encontrar dos enlaces a los listados de URLs ordenados por su peso como Hub y como Authority. Veamos unos ejemplos:
Ejemplo: eu.billabong.com
Esta web es la tienda online de una de las marcas referentes en cuanto a moda surfera se refiere. Si miramos su listado de Auths vemos lo siguiente
Como podéis ver la raiz tiene un peso Auth alto, esto tiene sentido por que está enlazada desde la mayoría de páginas del sitio. Sin embargo vemos una cosa curiosa, la puntuación Hub es muy baja. Lo lógico sería que tuviera una puntuación cercana al 1.0 ya que lo habitual en un comercio electrónico es que esta página enlace a
Read more >>

TFIDF: en búsqueda de la normalidad

Hace unos días hablábamos del TFIDF y lo usábamos para medir la calidad de una página, viendo cómo se veía afectado en función del número de palabras únicas en dicha página. En esta entrada seguiremos hablando de TFIDF pero en este caso veremos cómo usarlo para detectar palabras que son usadas demasiado en una misma página. Cuando sucede esto, es posible que Google considere que estamos intentando sobre-explotar esta palabra y directamente no consigamos posicionarla de ninguna manera. De modo que la pregunta que hay que hacerse es: ¿hasta dónde es posible repetir una palabra sin sufrir una penalización o una restricción por parte de los buscadores que impidan posicionarla correctamente?
Para entender el problema de las repeticiones negativas primero debemos entender cómo se distribuyen las palabras en un texto “natural”. Algunas de las hipótesis más aceptadas son que la frecuencia de aparición de una palabra en un texto sigue una de estas distribuciones: Zipf, log-normal o normal. Por simplicidad, nosotros vamos a suponer que la distribución de palabras en un texto sigue una distribución normal. Esto quiere decir que si eligiéramos palabras al azar usando una distribución normal, el resultado tendría frecuencias parecidas a cualquier idioma. Esto va a resultarnos útil porque va a permitirnos saber si la distribución de palabras de nuestros textos se puede considerar natural. Veamos qué forma tiene una distribución normal.
Como se puede ver, una normal tiene una media, μ, alrededor de la se agrupan la mayoría de los valores, y una desviación típica, σ, que determina la mayor o menor pendiente de la curva. En nuestro caso esto se traduciría de la siguiente manera: la mayoría de las palabras tendrán una frecuencia de aparición cercana a la media y existirán unas pocas en los extremos que o bien aparecerán muy poco o demasiado. Para medir cuanto es muy poco o demasiado podemos usar la regla del 68-95-99,7 y que se puede ver en el gráfico anterior. Esta quiere decir que un 68% de las palabras tendrán una frecuencia en el rango [μ-σ, μ+σ], el 95% estarán en el rango [μ-2σ, μ+2σ] y el 99.7% de las palabras estarán
Read more >>
1