Google Webmaster Conference Mountain View: Product Summit

El sábado 2 de Noviembre tuvo lugar la Conferencia de Webmasters de Google «Product Summit» en Mountain View (California). Es un evento en el que los creadores de sitios web y SEOs comparten conocimientos, debaten y aprenden a fin de obtener soluciones sobre cómo optimizar sus sitios web.

En el evento, Google recomendaba usar la clusterización por similaridad entre URLs como llevamos explicando hace años en Safecont. Este es el momento en el cual nuestro fundador Carlos Redondo publicó un tweet en tono humorístico que no ha pasado desapercibido para la comunidad SEO.

 

Nuestro buen amigo Lino Uruñuela le puso la guinda a la imagen.

Entre los Highlights de la Conferencia se encuentran:

Product Manager, Search on Structured Data

  • Evolución de la búsqueda.
  • Los datos estructurados dan pistas a Google para ayudarlos a comprender mejor el contenido.
  • Cómo hacer que tus páginas sean las elegidas para aparecer en los resultados enriquecidos, el Asistente, características a nivel de página y ser visibles en la experiencia de de búsqueda.
  • Usar goog.le/searchgallery para ver todas las formas en las que se pueden usar los datos estructurados.
  • Medir su rendimiento e implementación en Google Search Console con la prueba de resultados enriquecidos.

Software Engineer and PM for Search Console

  • La misión del equipo es proporcionar datos y herramientas para ayudar a los propietarios del sitio a mejorar su sitio web de manera que mejore su apariencia en Google.
  • ¿Cómo mejoramos los sitios web?
    • Paso 1: Define qué puede ayudar a que una página tenga éxito: Compatibilidad móvil, etc. Si un sitio web intenta implementar cosas como datos estructurados para ayudar, ¿Se implementa correctamente?.
    • Paso 2: Clasifica todas las páginas en Google Index y anota cualquier problema.
    • Paso 3: Ayuda a los propietarios de sitios a repararlos, utilizando la interfaz de usuario y los correos electrónicos. Una vez que lo arregles, puedes informarles que está arreglado y que comienza el proceso de validación para ver si la solución se implementó correctamente.
  • Cómo funciona Google Search Console: Cinco componentes principales: Análisis de búsqueda de los resultados de búsqueda de Google, Informes, Herramientas de prueba, Cuenta y Alertas.
  • Search Analytics: realice un seguimiento de todas las impresiones en la búsqueda, le brinda esa información durante 16 meses
  • Informes: Realiza un seguimiento de todas las páginas rastreadas, cientos de señales admiten docenas de funciones de búsqueda y te brindan informes procesables.
  • Herramientas de prueba.
  • Cuentas: la seguridad es una gran preocupación, debes proteges los datos a través de la validación y permitir un monitoreo fácil.
  • Alertas: ¿Qué desencadena los correos electrónicos?: Si ves algo que requiera tu atención, te enviarán un correo electrónico (tienen 10 tipos de informes).
  • ¿Cómo crear el informe de velocidad (nuevo)?: El mayor problema es cómo define una página rápida. Lo que Googlebot ve es diferente de lo que ve el usuario final. Usaron los informes de usuario de Chrome Experience, ya que muestra la experiencia de usuario en todo el mundo.

Web Deduplication

  • ¿Qué es?: Identificar  y agrupar las páginas web que sean iguales, seleccionar los grupos y elegir las URL representativas que se mostrarán a los usuarios (canónicals).
  • Por qué lo hacen: Los usuarios no quieren que se repita el mismo resultado, da más espacio para contenido distinto en el index para que pueda manejar el long tail, es bueno para los webmasters porque retiene señales al rediseñar su sitio y también podemos encontrar nombres alternativos (sinónimos).
  • Clustering: Redirects, content, rel = canonical y otros, «Confiamos en gran medida en las redirecciones, ya que predicen casi perfectamente el contenido duplicado».
  • Content: Utiliza las sumas de verificación de contenido, Google se esfuerza por ignorar el contenido repetitivo y detecta muchas «soft error pages» (como cuando los sitios dejan de funcionar por mantenimiento).
  • Rel=canonicals se alimenta del clustering, si usas tus anotaciones para clusterizar, tienden a obtener más verificación. Los umbrales aún se pierden intencionalmente porque las personas cometen errores y a menudo hay scripts rotos.
  • Localización: cuando el contenido principal es el mismo, las páginas se agrupan. Esto puede incluir localización exclusiva. La re dirección geográfica inteligente a menudo también se clusteriza (en este caso Google quiere que les digas qué hacer con hreflang porque a ellos les enviaste la misma página).
  • Canonicalización: Su principal objetivo es evitar las escaladas de secuestro a través de WTA en los foros son una gran fuente, la segunda preocupación es la experiencia del usuario. Tercero, las señales para webmasters: redireccionamientos, canónicos, mapas de sitio.

Product Manager, Google Images

  • Presentó muchos cambios estéticos para mejorar la legibilidad y botones CTA más prominentes.
  • Recientemente para AMP – Presentó «swipe to visit» para reducir la fricción al visitar el sitio.
  • Mejores prácticas de optimización: Usa datos estructurados para obtener resultados enriquecidos (especialmente para productos, videos, recetas). Usa títulos descriptivos, subtítulos y nombres de archivos, los mostramos a los usuarios.
  • Utiliza imágenes de alta calidad, quieren mostrar «contenido bonito e inspirador».
  • Páginas optimizadas para dispositivos móviles = Todo lo que conduce a mejores resultados.
  • Verifica el tráfico de búsqueda de imágenes en Search Console (Tipo de búsqueda: Imagen).

Rendering

  • La representación permite que Googlebot vea la misma web que los usuarios.
  • El renderizado básicamente debe comportarse como un navegador, eso es complicado y costoso. Es bueno tener un gran navegador, por lo que Google lo hace con Chrome en estos días.
  • Chrome renderiza la página, carga contenido adicional, Googlebot recupera ese contenido en nombre de Chrome, una vez que está cargado toman una instantánea de la página y eso es lo que se indexa en la web.
  • Billones de páginas en el index. Principalmente por: Buscar el contenido y luego ejecutar el JavaScript, es mucha lógica nueva.
  • Buscar es el problema más difícil. Principalmente debido al acceso limitado a los recursos (robots.txt) y al volumen de rastreo limitado, quieren ser buenos ciudadanos y tener un volumen de rastreo razonable para que no causen problemas con el servidor.
  • Esto significa que, en promedio, obtienen de 50 a 60 recursos por página (obedeciendo robots.txt), que es una tasa de caché del 60-70%, otros beneficios son que les ayuda a evitar redes publicitarias, etc. Los costos de rastreo aumentan aproximadamente 20 veces cuando comienzan a renderizar. La más importante es el almacenamiento en caché http. La mayoría de las personas son demasiado conservadoras, por lo que Google ignora y almacena en caché, la mejor manera de lidiar con esto es no confiar en trucos inteligentes de almacenamiento en caché, esto es bueno para los usuarios y Googlebot.
  • Javascript: Una buena noticia es que están ejecutando Chrome, por lo que el entorno es bueno. Lo malo es que hay muchos js y necesitan ejecutar muchos de ellos. Google está limitado con la CPU a nivel mundial, por lo que quieren asegurarse de que las páginas errantes no desperdicien recursos. Interrumpirán los scripts si son un desperdicio (en casos extremos lo marcarán como no renderizable).
  • La mayoría de las páginas están bien. Pero hay problemas populares: Los bucles de error (robots.txt, funciones faltantes) encubrimiento, los mineros de criptomonedas son MUY pesados ​​e hicieron que la indexación explotara varias veces.

Software Engineer- Core Ranking in Search Title and Result Previews

  • Resultados previos. Relevancia: La tarea más importante que tiene el usuario es encontrar la página que desea consumir. ¿Qué vista previa podría generarse que los ayudaría a tomar la decisión? También desea iluminar la profundidad del contenido en un sitio web y expresar la diversidad de contenido en el ecosistema.
  • Las imágenes ayudan a los usuarios a elegir: Las imágenes están a la derecha del título porque son secundarias al tittle / snippet. Las galerías admiten páginas con contenido, esto ayuda a los usuarios a visitar una mayor diversidad de sitios.
  • Sitelinks: Los vínculos son relevantes para la consulta, vínculos a páginas de su sitio que Google considera relevantes para el usuario, estos se extraen algorítmicamente (en ocasiones, el sitio estructurado ayuda).
  • Datos de entidad en vistas previas: Relevancia para las necesidades en torno a la entidad, extraída algorítmicamente (tablas, listas).
  • Foros: Muchos no tienen marcado estructurado. Quieren mostrarles a los usuarios que es un foro para que puedan asegurarse de que el clúster del foro sea relevante para la consulta, los usuarios encuentran valor en este, pero los foros rara vez usan el marcado, así que asegúrate de usar el marcado (el esquema de preguntas y respuestas tiene prioridad).
  • Tablas y listas: Las páginas con tablas / listas ubicadas de forma dominante, resaltándolas en los resultados de búsqueda, ayudan a los usuarios a comprender de qué se trata realmente el contenido, por lo que la estructura y la ubicación de la tabla son importantes.
  • La relevancia infunde todo, la atribución ayuda al usuario a elegir la fuente, también quiere expresar bien la profundidad del contenido y promover la diversidad de formatos de vista previa.

Software Engineer – Googlebot and Web Hosting

  • Antes de que Google pueda indexar la página y publicarla, deben crawlear (rastrear) y procesar.
  • Googlebot sigue los enlaces, conoce las URL duplicadas para proteger el ancho de banda de rastreo y vuelve a rastrear para mantener actualizado el índice.
  • Tendencias: hoy el 75% de los sitios son HTTPS, el 40% de los sitios alojados por NGINX.
  • Hace 10 años, el tiempo de descarga promedio era de 800 MS, hoy es de 500 MS. Eso es bueno porque los servidores son más rápidos y Google puede consumir más.
  • Los mismos motores de búsqueda interpretan el mismo archivo robots.txt de manera diferente, por lo que trabajaron con Bing para intentar crear un estándar que todavía sea WIP y esperan que sea realmente un estándar.
  • Por cada url que rastreemos, primero debemos verificar el robots.txt. Tenemos que buscar el archivo robots.txt, pero a veces falla la búsqueda. Un 200 es genial, un 404 también puede ser bueno porque significa que no hay restricciones para el crawleo. Si devuelve un 500, debe ser transitorio si es 5XX varias veces, se equivocarán por precaución y no se crawlearán.
  • Al rastrear el archivo robots.txt: El 69% de las veces obtienen 200, el 5% de las veces el código de respuesta 5XX, el 20% de las veces no se puede acceder al archivo robots.txt.
  • Googlebot tiene una forma sofisticada de determinar qué tan rápido crawlea un sitio, quieren ser buenos ciudadanos y no sobrecargar su servidor. Establece la frecuencia de rastreo personalizada en GSC si necesitas que disminuya la velocidad. Consulta el artículo del webmaster sobre cómo configurar su frecuencia de rastreo personalizada.
  • Deja la velocidad de rastreo a Google a menos que esté sobrecargado.

Product Managers – Knowledge Panel

  • Según los estudios, las empresas que completan sus knowledge graphs tienen el doble de probabilidades de ser consideradas de buena reputación por los consumidores.
  • Sugiere actualizaciones de información inexacta u obsoleta en tu knowledge panel, las revisará un equipo dedicado y se actualizarán.
  • Para las empresas locales, puedes editar información básica de NAP, horas, etc. Sitios web, presencia en las redes sociales, etc. También participar en búsquedas, algunos knowledge panels pueden crear contenido y participar / informar búsquedas en Google (por ejemplo, noticias recientes sobre su ubicación).

Synonym search (Not actual name of talk)

  • Las búsquedas funcionan esencialmente al agregar una gran cantidad de operadores «o» para extraer sinónimos.
  • Sinónimos textuales dependen de otras palabras de consulta
    • [gm truck] = “motores generales
    • [gm barley] = ”genéticamente modificado] intenta comprender toda la query en contexto.
  • Diseñado para encontrar buenos resultados de búsqueda, ocultos detrás de la escena principalmente.
  • Comprar + vender son sinónimos, si alguien está buscando comprar algo, vender es un buen resultado.
  • Durante un corto período de tiempo en 2005, el principal resultado de Google para [united airlines] fue [continental airlines]. Lo estaban escribiendo [united airlines] => [united OR continental airlines OR air OR airlines]
  • Algunas palabras cumplen roles similares pero no son intercambiables, considera pares de búsquedas [reservas unidas] y [aerolíneas continentales] son ​​lo que llaman «hermanos» (“siblings”), dos palabras que tienen un propósito similar pero no son intercambiables. Las personas comparan sinónimos entre sí, y se dieron cuenta de que hay sinónimos malos. Por ejemplo, «gato» y «perro». En este caso, esto sucedió debido a la fusión de United + Continental.
  • Como resultado, se perdieron algunos sinónimos buenos, aprendieron que sing in / sing on eran siblings, dirección y contacto, algunos de ellos se perdieron pero estaban contentos con la compensación en general.
  • Comprender el patrón de fallos puede revelar soluciones. Al no parchear problemas algorítmicos manualmente, obtenemos soluciones más generales.
  • Cada cambio tiene victorias y derrotas.
  • Compuestos no composicionales (Non-compositional compounds): Palabras como Nueva York no son composicionales (no se pueden abreviar como Nueva o York) pero las abreviaturas como Vegas, Jersey son válidas.
  • Recuperación de información: la recuperación de información se trata principalmente de emparejar y contar palabras. ¿Están las palabras en el título y el cuerpo? ¿Están en enlaces? ¿Cuál es la frecuencia con la que ocurren?.
  • Una vez visto, es obvio que hay un patrón general aquí «fantasy game» no es «final fantasy».
  • El lenguaje evoluciona con el tiempo, como la aparición de emojis. La búsqueda ignoró los emojis durante mucho tiempo, pero decidió incorporarlos porque millones de personas los estaban buscando a pesar de que no funcionaban. Tomó un año, pero necesitaba saber cómo manejar el procesamiento de enlaces, auto completar, ortografía, muchos sistemas no estaban listos para los emojis.
  • Uno de los mayores costos es la cantidad de almacenamiento utilizado en nuestro index y cómo lo manipulamos a medida que lo construimos.
  • El contenido duplicado solía ser manejado el 10% del tiempo por alguien que antes en 2003 pensaba que era un caso límite, ahora tienen varios equipos trabajando contra el contenido duplicado. https://internetrepublica.com/analiza-tu-contenido-duplicado-con-safecont/
  • ¿Cuánto importan las «stop words»? Ejemplo: Usa «para» en títulos y URL. Respuesta: Escribe de forma natural, haga sus URL y sus títulos de manera que la gente pueda analizarlos fácilmente … ciertamente para el contenido de la página, como los títulos, escriba para que los lectores lo comprendan, todo nuestro trabajo es hacer coincidir si el usuario utilizó o no una palabra de detención.
  • G solía usar solo datos no estructurados, ahora los datos estructurados admiten rich snippets, etc.
  • Usar BERT para el 10% de las búsquedas, ¿Eso ayuda con los casos límite?. Respuesta: BERT es realmente sorprendente.
  • Cuando la geolocalización es útil, busca algo inherentemente local y no utiliza una ubicación (los resultados para «hotel» muestran resultados locales cerca de su ubicación).
  • Pregunta: ¿Google recuerda información sobre las URL (contenido incorrecto, no index, etc.) si mejora la página? Respuesta: Tratamos de juzgar las cosas como son, pero la reputación a menudo se basa en el comportamiento histórico. Mucha de la evidencia en torno a personas que hablan sobre el sitio como «el sitio XYZ me estafó», la realidad es que el escritor probablemente no sabe que el sitio cambió de propietarios. Hay muchas cosas en la web que no cambian rápidamente.
  • ¿La visión por computadora es parte de la búsqueda de imágenes? Respuesta: «Usamos un montón de modelos de machine learning».

¿Cómo saber cuándo se celebran este tipo de eventos?

Sin duda Twitter es una de las MEJORES formas de mantenerse en contacto con la comunidad de SEO y estar al tanto de las noticias de SEO.

Fuente: https://www.jackiecchu.com/seo/google-webmaster-conference-mountain-view-2019/

Esperamos que toda esta información te haya sido útil y queremos animarte a que utilices Safecont. El gigante Google te recomienda usar la clusterización por similaridad entre URLs  y es algo que Safecont lleva explicando y compartiendo varios años.

Safecont detecta, analiza y clasifica problemas web por su nivel de peligrosidad, usando sistemas que permiten detectar patrones imposibles de ver con otras tecnologías usadas hasta la fecha con el fin de que los usuarios pueden actuar sobres sus webs rápido y con precisión (dónde está el error, cuál es y la peligrosidad del mismo).

Hace dos meses aproximadamente añadimos el Plan Económico al resto de planes que ofrecemos y además, los hemos actualizado ofreciéndote más por menos.

Sin más, esperamos tus comentarios, estamos a tu disposición.

Muchas gracias.

 

 

 

 

Comparte la noticia