¿Qué son y cómo agregar Sitemap.xml y Robots.txt?

Qué son y cómo agregar Sitemap.xml y Robots.txt

Archivo robots.txt ¿Qué es y para qué sirve?

Como se ve un archivo robots.txt

El archivo Robots.txt es un simple archivo de texto que se coloca en el directorio raíz de su sitio. Este archivo utiliza un conjunto de instrucciones para indicar a los robots de los motores de búsqueda qué páginas de su sitio web pueden y no pueden rastrear.

El archivo robots.txt también puede utilizarse para bloquear el acceso de determinados robots al sitio web. Por ejemplo, si un sitio web está en desarrollo, puede tener sentido bloquear el acceso de los robots hasta que esté listo para su lanzamiento.

El archivo robots.txt suele ser el primer lugar que visitan los rastreadores al acceder a un sitio web. Aunque quiera que todos los robots tengan acceso a todas las páginas de su sitio web, es una buena práctica añadir un archivo robots.txt que lo permita.

Los archivos Robots.txt también deben incluir la ubicación de otro archivo muy importante: el mapa del sitio XML. Éste proporciona detalles de cada página de su sitio web que desea que los motores de búsqueda descubran.

En este post, vamos a mostrarle cómo y dónde debe hacer referencia al mapa del sitio XML en el archivo robots.txt. Pero antes, veamos qué es un mapa del sitio y por qué es importante.

Importancia del archivo sitemap.xml

Como se ve un archivo sitemap.xml

Un mapa del sitio XML es un archivo XML que contiene una lista de todas las páginas de un sitio web que desea que los robots descubran y accedan.

Por ejemplo, puede querer que los motores de búsqueda accedan a todas las entradas de su blog para que aparezcan en los resultados de búsqueda. Sin embargo, es posible que no quiera que tengan acceso a sus páginas de etiquetas, ya que éstas pueden no ser buenas páginas de destino y, por lo tanto, no deberían incluirse en los resultados de la búsqueda.

Los mapas de sitio XML también pueden contener información adicional sobre cada URL, en forma de metadatos. Y al igual que el robots.txt, un mapa de sitio XML es imprescindible. No sólo es importante para asegurarse de que los robots de los motores de búsqueda puedan descubrir todas sus páginas, sino también para ayudarles a entender la importancia de sus páginas.

¿Cómo se relacionan los robots.txt y los sitemaps?


En 2006, Yahoo, Microsoft y Google se unieron para apoyar el protocolo estandarizado de presentación de las páginas de un sitio web a través de mapas de sitio XML. El usuario debía enviar sus mapas de sitio XML a través de Google Search Console, las herramientas para webmasters de Bing y Yahoo, mientras que otros motores de búsqueda, como DuckDuckGoGo, utilizan los resultados de Bing/Yahoo.

Después de unos seis meses, en abril de 2007, se unieron en apoyo de un sistema para comprobar los sitemaps XML a través de robots.txt, conocido como Sitemaps Autodiscovery.

Esto significaba que incluso si no se enviaba el mapa del sitio a los motores de búsqueda individuales, estaba bien. Ellos encontrarían la ubicación del mapa del sitio desde el archivo robots.txt de su sitio primero.

(NOTA: El envío del mapa del sitio todavía está disponible a través de la mayoría de los motores de búsqueda, pero no olvide que Google y Bing no son los únicos motores de búsqueda).

Y por lo tanto, el archivo robots.txt se convirtió en aún más importante para los webmasters porque pueden fácilmente allanar el camino para los robots de los motores de búsqueda para descubrir todas las páginas de su sitio web.

Cómo añadir su sitemap XML a su archivo Robots.txt


A continuación se indican tres sencillos pasos para añadir la ubicación de su mapa del sitio XML a su archivo robots.txt:

Paso 1: Localice la URL de su mapa de sitio


Si su sitio web ha sido desarrollado por un desarrollador externo, debe comprobar primero si ha proporcionado a su sitio un mapa del sitio XML.

Por defecto, la URL de su mapa de sitio será /sitemap.xml. Por ejemplo, el mapa del sitio xml de https://befound.pt es

https://befound.pt/sitemap.xml
Así que escriba esta URL en su navegador con su dominio en lugar de ‘befound.pt’.

Algunos sitios web tienen más de un mapa del sitio XML, lo que requiere un mapa del sitio para los mapas del sitio (conocido como índice del mapa del sitio). Por ejemplo, si utilizas el plugin Yoast SEO con WordPress, se añadirá automáticamente un índice de mapa del sitio en /sitemap_index.xml.

https://befound.pt/sitemap_index.xml


También puede localizar su mapa del sitio a través de la búsqueda de Google utilizando operadores de búsqueda como se muestra en los ejemplos siguientes:

site:befound.pt filetype:xml


O

filetype:xml site:befound.pt inurl:sitemap


Pero esto sólo funcionará si su sitio ya está rastreado e indexado por Google.

Si tienes acceso al administrador de archivos de tu sitio web, puedes buscar tu archivo xml sitemap.

Si no encuentra un mapa del sitio web, puede crear uno usted mismo. Hay muchas herramientas que le ayudarán a hacerlo, como el generador de sitemaps XML, que es gratuito para un máximo de 500 páginas, pero tendrá que eliminar manualmente las páginas que no quiera incluir. Alternativamente, siga el protocolo explicado en Sitemaps.org.

Paso 2: Localizar su archivo Robots.txt


Puede comprobar si su sitio web tiene un archivo robots.txt escribiendo /robots.txt después de su dominio) por ejemplo, https://befound.pt/robots.txt.

Si no tiene un archivo robots.txt, tendrá que crear uno y añadirlo al directorio raíz de su servidor web. Para ello, necesitará acceder a su servidor web. Por lo general, se coloca en el mismo lugar donde se encuentra el «index.html» principal de su sitio. La ubicación de estos archivos depende del tipo de software de servidor web que tenga. Si no está acostumbrado a estos archivos, debería considerar la posibilidad de pedir ayuda a un desarrollador web.

Recuerde que debe utilizar todas las minúsculas para el nombre del archivo que contiene el contenido de robots.txt. No utilice Robots.TXT o Robots.Txt como nombre de archivo.

Paso 3: Añadir la ubicación del sitemap al archivo Robots.txt


Ahora, abra el archivo robots.txt en la raíz de su sitio. De nuevo, necesita acceder a su servidor web para hacerlo. Por lo tanto, pida indicaciones a un desarrollador web o a su empresa de alojamiento si no sabe cómo localizar y editar el archivo robots.txt de su sitio web.

Para facilitar el autodescubrimiento de su archivo de mapa del sitio a través de su archivo robots.txt, todo lo que tiene que hacer es colocar una directiva con la URL en su archivo robots.txt, como se muestra en el siguiente ejemplo

Sitemap: http://befound.pt/sitemap.xml


Así, el archivo robots.txt tiene el siguiente aspecto

Sitemap: http://befound.pt/sitemap.xml
User-agent:*
Disallow:


NOTA: La directiva que contiene la ubicación del mapa del sitio puede colocarse en cualquier lugar del archivo robots.txt. Es independiente de la línea de agente de usuario, por lo que no importa dónde se coloque.

Puede ver este aspecto en acción en un sitio vivo visitando su sitio web favorito, añadiendo /robots.txt al final del dominio. Por ejemplo, https://befound.pt/robots.txt.

¿Qué pasa si tiene varios sitemaps?


Según las directrices de Google sobre los mapas del sitio, los mapas del sitio XML no deben contener más de 50.000 URL y no deben superar los 50 Mb sin comprimir. Por lo tanto, en el caso de un sitio más grande con muchas URL, puede crear varios archivos de mapa del sitio.

Debe enumerar todas las ubicaciones de los archivos de mapa del sitio en un archivo de índice de mapa del sitio. El formato XML del archivo de índice del mapa del sitio es similar al del archivo del mapa del sitio, lo que lo convierte en un mapa del sitio de los mapas del sitio.

Si tiene varios mapas del sitio, puede especificar la URL del archivo de índice del mapa del sitio en su archivo robots.txt, como se muestra en el siguiente ejemplo:

Sitemap: http://befound.pt/sitemap_index.xml


O bien, puede especificar direcciones URL individuales para cada uno de sus archivos de mapa del sitio, como se muestra en el siguiente ejemplo:

Sitemap: http://befound.pt/sitemap_pages.xml
Sitemap: http://befound.pt/sitemap_posts.xml


Esperamos que ahora tenga claro cómo crear un archivo robots.txt con una ubicación de mapa de sitio. Hágalo, ¡ayudará a su sitio web!