¿Qué es un XML Sitemap?

La herramienta más desconocida en la caja de herramientas de SEO

Sitemaps XML: La herramienta más incomprendida en la caja de herramientas de SEO

En todos mis años de consultoría SEO, he visto a muchos clientes con conceptos erróneos acerca de los sitemaps XML. Son una herramienta poderosa, sin duda, pero como cualquier herramienta, un poco de capacitación y conocimientos sobre cómo funcionan todos los bits va muy lejos.

Indexación

Probablemente el error más común es que el mapa de sitio XML ayuda a indexar sus páginas. Lo primero que tenemos que aclarar es esto:

  • Google no indexa tus páginas sólo porque lo hayas pedido amablemente.
  • Google indexa las páginas porque las encuentra y las rastrea, y las considera de buena calidad como para que valga la pena indexarlas. Apuntar a Google a una página y pedirle que la indexe no tiene nada que ver con ella.

Dicho esto, es importante tener en cuenta que al enviar un mapa de sitio XML a la Consola de Búsqueda de Google, está dando a Google una pista de que considera que las páginas del mapa de sitio XML son páginas de destino de búsqueda de buena calidad, dignas de indexación. Pero, es sólo una pista de que las páginas son importantes… como lo son los enlaces a una página del menú principal.

Coherencia

Uno de los errores más comunes que veo que cometen los clientes es la falta de consistencia en la mensajería a Google sobre una página determinada. Si bloquea una página en robots.txt y luego la incluye en un mapa de sitio XML, está siendo una incoherencia. Lo mismo con los meta robots: No incluya una página en un mapa de sitio XML y luego establezca meta robots “noindex,follow.”

Ya que estoy en ello, déjame explicar brevemente sobre los meta robots: “noindex” significa no indexar la página. “Nofollow” no significa nada sobre esa página. Significa “no seguir los enlaces que salen de esa página”, es decir, seguir adelante y tirar todo el jugo de enlace por el inodoro. Probablemente hay alguna razón oscura para establecer meta robots “noindex,nofollow”, pero no entiendo lo que eso podría ser. Si quieres que Google no indexe una página, pon meta robots en “noindex,follow.”

En general, entonces, usted quiere que cada página de su sitio caiga en dos sitios:

  • Páginas de utilidad (útiles para los usuarios, pero no cualquier cosa que usted esperaría que fuera una página de aterrizaje de búsqueda)
  • Páginas de aterrizaje de búsqueda de alta calidad.

Calidad general del sitio

Parece que Google está tomando alguna medida de la calidad general del sitio, y el uso de la métrica de todo el sitio para el ranking de impacto, y no estoy hablando de jugo de enlace aquí.

Los ingenieros de Google sin duda entienden que cada sitio tiene un cierto número de páginas de “utilidad” que son útiles para los usuarios, pero no necesariamente páginas de tipo contenido que deberían ser páginas de destino de las búsquedas: páginas para compartir contenido con otros, responder a comentarios, iniciar sesión, recuperar una contraseña perdida, etc.

Si su mapa de sitio XML incluye todas estas páginas, ¿qué está comunicando a Google? Más o menos que usted no tiene idea de lo que constituye un buen contenido en su sitio y lo que no.

Aquí está el cuadro que quieres pintar para Google. Sí, tenemos un sitio aquí con 1.000 páginas… y aquí están las 475 de esas 1.000 que son nuestras grandes páginas de contenido. Puedes ignorar a los demás, son páginas de utilidad.

Ahora, digamos que Google rastrea esas 475 páginas, y con sus métricas, decide que 175 de ellas son de grado “A”, 200 son “B+”, y 100 son “B” o “B-“. Ese es un promedio general bastante bueno, y probablemente indica un sitio bastante sólido para enviar a los usuarios.

Contraste eso con un sitio que envía las 1.000 páginas a través del mapa del sitio XML. Ahora, Google mira las 1.000 páginas que usted dice que son buen contenido, y ve que más del 50% son páginas “D” o “F”. En promedio, su sitio es bastante malo; Google probablemente no quiere enviar usuarios a un sitio como ese.

El error escondido

Recuerde, Google va a utilizar lo que usted envía en su mapa de sitio XML como una pista de lo que probablemente es importante en su sitio. Pero el hecho de que no esté en el mapa de sitio XML no significa necesariamente que Google vaya a ignorar esas páginas. Usted todavía podría tener muchos miles de páginas con apenas suficiente contenido y equidad de enlaces para indexarlas, pero realmente no debería estarlo.

Es importante hacer un sitio: buscar para ver todas las páginas que Google está indexando desde su sitio para descubrir las páginas que ha olvidado, y limpiarlas de la “nota media” que Google va a dar a su sitio configurando meta robots “noindex,follow” (o bloqueando en robots.txt). Generalmente, las páginas más débiles que aún hacen el índice van a ser las últimas en ser listadas en un sitio: búsqueda.

Noindex vs. robots.txt

Hay una diferencia importante pero sutil entre usar meta robots y usar robots.txt para prevenir la indexación de una página. Usando meta robots “noindex,follow” permite que la equidad del enlace que va a esa página fluya hacia las páginas a las que enlaza. Si bloquea la página con robots.txt, simplemente la está tirando a la basura.

En el ejemplo anterior, estoy bloqueando páginas que no son páginas reales, son scripts de seguimiento, para no perder la equidad de los enlaces, ya que estas páginas NO tienen el encabezado con los enlaces del menú principal, etc.

Piense en una página como una página de Contacto, o una página de Política de Privacidad, probablemente enlazada por cada una de las páginas de su sitio a través del menú principal o del menú de pie de página. Así que hay una tonelada de jugo de enlace que va a esas páginas, ¿simplemente quieres tirar eso a la basura? ¿O preferiría dejar que ese vínculo entre la equidad y todo lo que hay en su menú principal? Es una pregunta fácil de responder, ¿no?

Gestión del ancho de banda de rastreo

¿Cuándo querrías usar robots.txt en su lugar? Tal vez si tienes problemas con el ancho de banda de rastreo y Googlebot está pasando mucho tiempo buscando páginas de utilidad, sólo para descubrir meta robots. Si tienes tantos de estos que Googlebot no está llegando a tus páginas importantes, es posible que tengas que bloquear a través de robots.txt.

He visto a varios clientes ver mejoras en el ranking a través de la limpieza de sus mapas de sitio XML y la no indexación de sus páginas de utilidades:

¿Realmente tengo 6.000 a 20.000 páginas que necesitan ser rastreadas diariamente? ¿O es que Googlebot está persiguiendo URLs de respuesta a comentarios o de compartir por correo electrónico?

Para su información, si tiene un conjunto básico de páginas en las que el contenido cambia con regularidad (como un blog, nuevos productos o páginas de categorías de productos) y tiene un montón de páginas (como páginas de productos individuales) en las que sería bueno que Google las indexara, pero no a expensas de no volver a arrastrar e indexar las páginas principales, puede enviar las páginas principales en un mapa de sitio XML para dar a Google una pista de que las considera más importantes que las que no están bloqueadas, pero que no están en el mapa del sitio.

Depuración de problemas de indexación

Aquí es donde el mapa de sitio XML es realmente útil para los SEOs: cuando estás enviando un montón de páginas a Google para indexar, y sólo algunas de ellas están siendo indexadas. La Consola de Búsqueda de Google no te dirá qué páginas están indexando, sólo un número total indexado en cada mapa de sitio XML.

Digamos que usted es un sitio de comercio electrónico y tiene 100.000 páginas de productos, 5.000 páginas de categorías y 20.000 páginas de subcategorías. Usted envía su mapa de sitio XML de 125.000 páginas y descubre que Google está indexando 87.000 de ellas. ¿Pero qué 87.000?

En primer lugar, las páginas de su categoría y subcategoría son probablemente TODOS los objetivos de búsqueda importantes para usted. Yo crearía un category-sitemap.xml y subcategoría-sitemap.xml y los enviaría por separado. Usted espera ver casi el 100% de indexación allí, y si no lo está obteniendo, entonces usted sabe que necesita mirar a la construcción de más contenido en esos, el aumento de jugo de enlace a ellos, o ambos. Puede que descubra algo como páginas de categorías o subcategorías de productos que no están siendo indexadas porque tienen sólo 1 producto en ellas (o ninguno), en cuyo caso probablemente quiera establecer meta robots “noindex, follow” en ellas, y extraerlas del mapa de sitio XML.

Lo más probable es que el problema esté en algunas de las 100.000 páginas de productos, pero ¿cuáles?

Empiece con una hipótesis y divida las páginas de su producto en diferentes sitemaps XML para probar esas hipótesis. Puede hacer varias a la vez – no hay nada malo en tener una URL en varios sitemaps.

Podrías empezar con tres teorías:

  • Las páginas que no tienen una imagen del producto no se indexan
  • Las páginas que tienen menos de 200 palabras de descripción única no están siendo indexadas.
  • Las páginas que no tienen comentarios/revisiones no se indexan.

Cree un mapa de sitio XML con un número significativo de páginas que caen dentro de cada una de esas categorías. No es necesario que sean todas las páginas de esa categoría, sólo lo suficiente para que el tamaño de la muestra haga razonable sacar una conclusión basada en la indexación. Por ejemplo, puede hacer 100 páginas en cada una.

Su objetivo aquí es utilizar la indexación porcentual global de cualquier sitemap para identificar los atributos de las páginas que están causando que se indexen o que no se indexen.

Una vez que sepa cuál es el problema, puede modificar el contenido de la página (o los enlaces a las páginas), o no indexar las páginas. Por ejemplo, es posible que tenga 20.000 de sus 100.000 páginas de productos en las que la descripción del producto sea inferior a 50 palabras. Si estos no son términos de gran tráfico y usted está obteniendo las descripciones de la alimentación de un fabricante, probablemente no vale la pena que intente escribir manualmente 200 palabras adicionales de descripción para cada una de esas 20.000 páginas.

También puede establecer meta robots en “noindex,follow” para todas las páginas con menos de 50 palabras de descripción del producto, ya que Google no va a indexarlas de todos modos y sólo están bajando la calificación general de la calidad de su sitio. Y no olvide eliminarlos de su mapa de sitio XML.

Mapas de sitio XML dinámicos

Ahora piensas: “Bien, genial. Pero ahora tengo que mantener manualmente mi mapa de sitio XML sincronizado con mis meta robots en todas mis 100.000 páginas”, y es poco probable que eso suceda.

Pero no hay necesidad de hacer esto manualmente. Los sitemaps XML no tienen que ser archivos estáticos. De hecho, ni siquiera necesitan tener una extensión.XML para enviarlos a la Consola de Búsqueda de Google.

En su lugar, establezca una lógica de reglas para saber si una página se incluye o no en el mapa de sitio XML, y utilice esa misma lógica en la propia página para establecer el índice o no del meta robot. De esta manera, en el momento en que la descripción del producto del feed del fabricante es actualizada por el fabricante y pasa de 42 palabras a 215 palabras, esa página de su sitio se muestra mágicamente en el mapa del sitio XML y obtiene sus meta robots ajustados a “index,follow”.

Resumen

Sea consistente, si está bloqueado en robots.txt o por meta robots “noindex”, entonces mejor que no esté en su mapa de sitio XML.

Utilice sus mapas de sitio XML como herramientas de búsqueda para descubrir y eliminar problemas de indexación, y sólo permita o pida a Google que indexe las páginas que usted sabe que Google va a querer indexar.

Si tiene un sitio grande, utilice sitemaps XML dinámicos, no intente mantener todo esto sincronizado manualmente entre robots.txt, meta robots y los sitemaps XML.

Nueva llamada a la acción
seo-checklist-guia

Descarga ahora nuestra Guía Esencial Técnica SEO Checklist para optimizar tu sitio web.

Menu