Preguntas frecuentes, glosario de términos y explicaciones previas

¿Para qué sirve y qué es Safecont?

Es una herramienta de análisis de contenido y arquitectura que utiliza tecnología de Machine Learning para detectar dónde se encuentra los principales problemas de un sitio web con el fin de evitar penalizaciones o problemas de posicionamiento.

En definitiva, gracias al entrenamiento de algoritmos de Inteligencia Artificial conseguimos detectar contenidos de baja calidad que puedan conllevar penalizaciones y otros problemas.

¿Por qué Safecont?

Porque detecta, analiza y clasifica problemas web por su nivel de peligrosidad usando sistemas que permiten detectar patrones imposibles de ver con otras tecnologías usadas hasta la fecha con el fin de que los usuarios pueden actuar sobres sus webs rápido y con precisión (dónde está el error, cuál es y la peligrosidad del mismo).

¿Qué detecta fundamentalmente Safecont?

  • Problemas de contenido interno.
  • Problemas de contenido externo.
  • Problemas de thin content.
  • Problemas de arquitectura web.

¿Por qué Safecont usa tecnología Machine Learning?

El número de factores que influyen en la detección de contenido de calidad y el posicionamiento orgánico son cada día mayor. Así mismo, las relaciones entre estos factores son cada día más complejas. Por lo que es necesario contar tecnología puntera para poder detectar aquello que a simple vista casi imposible de realizar. Un ejemplo, para el análisis de 100.000 URLs realizamos 10^15 operaciones o lo que es más o menos lo mismo 1.000.000.000.000.000.000 de cálculos matemáticos. Evidentemente realizar tantos cálculos con la tecnología convencional es muy complicado.

Tras los miles de millones de cálculos matemáticos la tecnología de Machine Learning permite generar patrones de detección de errores imposibles de detectar sin el uso de esta tecnología. De este modo se simplifica la detección y resolución de errores.

¿Cómo se calcula el Pandarisk y el PageRisk?

Nuestros algoritmos han sido entrenados con cientos de miles de URLs que han mostrado variaciones significativas en cuanto al tráfico recibido tras ser penalizadas por los buscadores debido a su contenido y otras variables. El resultado de este proceso es una puntuación por URL (PageRisk) que determina el peligro de que dicha URL sea penalizada junto con una puntuación general para todo el dominio (PandaRisk) que no solo considera las puntuaciones individuales de las URLs del dominio sino que también cuantas páginas tienen contenido de baja calidad.

¿Qué es el PandaRisk?

Una puntuación generada a partir de los resultados que muestran nuestros algoritmos de Machine Learning que otorga un determinado peligro de ser penalizado un dominio por la calidad de su contenido. Si el valor del PandaRisk se aproxima a 0 (color verde) el dominio está salvo, si se aproxima a 100 (color rojo) el peligro es máximo.

El PandaRisk incluye muchísimas más variables a parte de la duplicidad y similaridad interna y externa o el thin content.

¿Qué es el PageRisk?

Valor similar al PandaRisk pero a nivel de URL. Es decir, una puntuación de peligro de penalización de determinada página web a nivel individual. Si el valor del PageRisk se aproxima a 0 (color verde) el dominio está salvo, si se aproxima a 100 (color rojo) el peligro es máximo.

¿Qué significa Similarity?

Las páginas/URLs de un sitio web pueden tener contenido en común con otras del mismo sitio ya sea contenido duplicado o muy similar (lo que también conlleva alto riesgo). Es decir, el término similaridad es más complejo y va mucho más allá del término habitualmente usado de duplicidad.

¿Qué es ThinRatio?

Es una puntuación otorgada a cada página en función del “valor” de thin content que posee. Cuando más se aproxime a 100 el valor ThinRatio mayores serán las posibilidades de que ésa página o páginas tengan problemas o los causen.

¿Qué es y cómo se determina qué es el thin content?

Bajo esta acepción se categorizan aquellas páginas dentro de un dominio cuyo contenido es escaso y de baja calidad. Se realizan varias ponderaciones en función de las características de cada dominio para determinar si existen problemas de thin content o no.

¿Qué es LevelStrength?

Valoraciones de relevancia de los distintos niveles de profundidad de una página equiparables al Pagerank.

El valor máximo de relevancia de un nivel es 100 y el menos es 0. Lo ideal es que todos los niveles de profundidad tuvieran nivel 100 o próximo, siendo la diferencia entre nivel y nivel como mucho de 20 puntos. Es decir, el nivel de profundidad uno (que se corresponde con la página home) tiene valor 100 y el nivel de profundidad dos debería tener un valor entre 100/80 y así sucesivamente.

¿Qué es PageStrength?

Valoraciones de relevancia a nivel página equiparables al Pagerank. El valor de máxima relevancia es 100 y el mínimo 0.

¿Qué es LinkStrength?

Valoraciones de relevancia a nivel de enlaces equiparables al Pagerank. Los enlaces con valor 100 aportan más relevancia que los que tienen valores próximos a 0.

¿Qué es un Cluster?

Agrupación de páginas/URLs en función de determinados patrones que cumplen en común. Se pueden hacer diferentes agrupaciones en función de los problemas detectados que sean recurrentes y peligrosos. Además estos grupos se pueden separar y ordenar por orden de peligrosidad y de esta manera focalizar los posibles problemas del sitio web más fácilmente. Por ejemplo, Safecont muestra el cluster de páginas/URLs más peligrosas dentro del dominio y les otorga un valor de riesgo, por lo que se facilita el trabajo al enfocar qué páginas son peligrosas y por qué para así poder actuar sobre ellas.

¿Qué significa ClusterRisk?

Agrupaciones de URLs en función del riesgo de ser penalizadas. Se pueden agrupar a nivel de PageRisk, External Duplicate, Similarity o Thin content.

¿Qué significa PageRisk Cluster?

Puntuación media de una agrupación de URLs. Se agrupan en percentiles teniendo en cuenta solo el PageRisk de las URLs.

¿Qué es External Duplicate Cluster?

Agrupación de URLs en función del porcentaje de duplicado externo que tienen (duplicado con páginas de otros dominios ajenos al analizado).

¿Qué es Thin Content Cluster?

Agrupación de URLs en función del ratio de thin content que tienen.

¿Qué es Semantic Cluster?

Agrupaciones semánticas de URLs. Cada una tiene un ClusterRisk diferente.

¿Qué significa Internal inbound links?

Enlaces que recibe una página desde otras páginas del mismo dominio.

¿A partir de qué valores tiene realmente peligro un dominio, un grupo de páginas o una URL en particular?

Valores superiores a 40 ya son significativos. Y a partir de 70 muy peligrosos. Es por ello que se recomienda actuar en primer lugar en aquellas páginas o clusters con valores de riesgo (PageRisk o ClusterRisk) más elevados.

¿Hay casos de éxito que acrediten el buen funcionamiento de Safecont?

Sí, multitud de ellos. Antes de lanzar el software públicamente, Safecont se ha testado con millones de URLs y cientos de sitios web.

Además, no sólo detectamos patrones que se pueden visualizar una vez localizados sino que los algoritmos afinan más allá de lo que se puede ver a simple vista.

¿Tenemos en cuenta los canonicals?

Sí. Los tenemos en cuenta a la hora crawlear los dominios pero se descartan a la hora de analizar del mismo modo que los crawlers de los principales motores de búsqueda.

Para realizar un buen análisis de un sitio, es necesario rastrearlos por lo que se descuentan de los créditos contratados.

¿Qué sucede con los enlaces nofollow?

Como su nombre indica, no se siguen. Por tanto, los detectamos pero el crawler no los sigue. Es decir, no se analiza.

¿Es posible descargar un informe general?

Sí, en la página principal en la esquina superior derecha sobre el rinoceronte se puede ver un icono PDF. Haciendo clic se descarga automáticamente.

¿Es posible descargar listados específicos?

Sí. En cada sección de Safecont que incluya listados de URLs (Similarity, External Duplicate, Thin Content, Pages, Most powerful pages, Most commos anchors, Most powerful anchors). El botón de descarga aparece a la derecha del título de cada listado en formato CSV.

¿Cuánta tarda en estar disponible mi análisis?

Hay dos cuestiones importantes a tener en cuenta a la hora de hacer una estimación de cuánto tiempo tardaré en tener disponible los datos de un dominio: rastreo y cálculos.

El tiempo de rastreo depende de tamaño de la página. Obviamente, a mayor tamaño mayor tiempo de rastreo. En ocasiones el rastreo se ha de lanzar en varias ocasiones debido al alto número de peticiones que realizamos y por lo que en ocasiones se banea nuestro crawler. Por eso es recomendable incluirnos en la whitelist para que todo vaya más rápido.

Por otro lado, el tiempo de cálculo también depende del tamaño de cada web. Sin embargo, en este caso el tiempo de cálculo es exponencial. Es decir, el análisis de una web de 200.000 URLs no implica el doble de tiempo de una de 100.000 URLs sino mucho más.

Una estimación de tiempos aproximada (aunque van mejorando con el tiempo) es:

  • 10.000 URLs aproximadamente media hora.
  • 50.000 URLs aproximadamente dos horas.
  • 100.000 URLs aproximadamente un día.