Robots TXT

Qué es y por qué es importante

Qué es el archivo robots.txt

Robots.txt es un archivo de texto que se incorpora al dominio raíz para instruir a los robots de los motores de búsqueda sobre cómo rastrear las páginas de tu sitio web. 

En la práctica, los archivos robots.txt indican a las arañas web si pueden o no rastrear determinadas carpetas de un sitio web. 

Estas instrucciones de rastreo se especifican «desautorizando» o «permitiendo» el acceso a todos o a ningún, o a determinados crawlers.

Por qué es importante 

El archivo robots.txt controla el acceso de los rastreadores a ciertas áreas de tu sitio. 

Permite controlar el presupuesto de rastreo y también indicarle a los buscadores las partes de nuestro sitio que no deseamos que exploren. De esta forma prevenimos malgastar recursos de los buscadores.

El archivo robots.txt es muy útil para estas situaciones:

  1. Mantener privadas secciones enteras de un sitio web (por ejemplo, el sitio de ensayo de su equipo de ingeniería).
  2. Evitar que las páginas internas de resultados de búsqueda aparezcan en una SERP pública.
  3. Especificar la ubicación de los sitemaps o mapas del sitio web.
  4. Impedir el rastreo e indexación de determinados archivos de su sitio web (imágenes, PDF, etc.).
  5. Especificar un retardo de rastreo para evitar que sus servidores se sobrecarguen cuando los rastreadores carguen varios contenidos a la vez.
  6. Evitar que el contenido duplicado aparezca en las SERPs.

Aunque para lidiar con el contenido duplicado es mejor emplear las etiquetas meta robots y canonicals.

Ejemplo de Robots txt

Dónde se encuentra el archivo Robots txt

Cada vez que un bot o araña web llega a un sitio, ya sea Googlebot, el rastreo web Facebook (Facebot) o cualquier otro, van directamente a buscar el archivo robots.txt. 

Y siempre van a buscarlo al mismo lugar: el directorio principal 

Esto es:

 www.ejemplo.com/robots.txt

Si un agente o bot visita esta dirección por defecto pero no encuentra un archivo de robots allí, asumirá que el sitio no tiene uno y procederá a rastrear todo lo que hay en la página.

Incluso si la página robots.txt existiera, pero en otra ubicación, ningún rastreador se molestaría en buscarla y, por tanto, el sitio sería tratado como si no tuviera ningún archivo robots.

Para asegurar que el archivo robots.txt sea encontrado, inclúyelo siempre en tu directorio principal o dominio raíz.

Como usar el archivo robots.txt

Los motores de búsqueda tienen dos trabajos principales:

  1. Rastrear la web para descubrir contenidos;
  2. Indexar ese contenido para que pueda ser servido a los buscadores que están buscando información.

Para rastrear los sitios, los motores de búsqueda siguen los enlaces para ir de un sitio a otro y, en última instancia, rastrean miles de millones de enlaces y sitios web. Este comportamiento de rastreo se conoce a veces como «spidering».

Después de llegar a un sitio web pero antes de rastrearlo, el rastreador de búsqueda buscará un archivo robots.txt. Si encuentra uno, el rastreador leerá primero ese archivo antes de continuar por la página. 

Dado que el archivo robots.txt contiene información sobre cómo debe rastrear el motor de búsqueda, la información encontrada en él instruirá la acción del rastreador en este sitio en particular. 

Si el archivo robots.txt no contiene ninguna directiva que impida la actividad de un agente de usuario (o si el sitio no tiene un archivo robots.txt), procederá a rastrear otra información del sitio.

Sintaxis del Robots txt: ¿Qué debe contener?

La sintaxis de Robots.txt puede considerarse como el «lenguaje» de los archivos robots.txt. 

Hay cinco términos comunes que es probable que encuentre en un archivo de robots. 

Son los siguientes:

1. User-agent: 

Indica el nombre del rastreador web específico al que está dando instrucciones de rastreo. Puede encontrar una lista de la mayoría de los agentes de usuario aquí: Googlebot, Googlebot-Image, Bingbot, Slurp, Baiduspider, DuckDuckBot

2. Disallow:

El comando utilizado para indicar a un agente de usuario que no rastree una determinada URL. Sólo se permite una línea «Disallow:» para cada URL.

3. Allow:

Sólo aplicable a Googlebot. Este comando indica a Googlebot que puede acceder a una página o subcarpeta aunque su página o subcarpeta principal esté deshabilitada.

4. Crawl-delay: 

El número de segundos que debe esperar un rastreador antes de cargar y rastrear el contenido de la página. Ten en cuenta que Googlebot no reconoce este comando, pero la velocidad de rastreo se puede configurar en Google Search Console.

5. Sitemap:

Se utiliza para llamar a la ubicación de cualquier mapa del sitio XML asociado a esta URL. Ten en cuenta que este comando sólo es compatible con Google, Ask, Bing y Yahoo.

Buenas prácticas en el uso del Robots txt:

  1. Para asegurar que el archivo robots.txt sea encontrado, inclúyelo siempre en su directorio principal o dominio raíz.
  2. Robots.txt distingue entre mayúsculas y minúsculas: el archivo debe llamarse «robots.txt» (no Robots.txt, robots.TXT, o cualquier otro).
  3. Algunos agentes de usuario (robots) pueden optar por ignorar el archivo robots.txt. Esto es especialmente común con los rastreadores menos éticos, como los robots de malware o los scrapers de direcciones de correo electrónico.
  4. El archivo /robots.txt está disponible públicamente: basta con añadir /robots.txt al final de cualquier dominio raíz para ver las directivas de ese sitio web. Esto significa que cualquiera puede ver qué páginas quieres o no quieres que sean rastreadas, así que no las utilices para ocultar información privada del usuario.
  5. Cada subdominio de un dominio raíz utiliza archivos robots.txt distintos. Esto significa que tanto blog.example.com como example.com deben tener sus propios archivos robots.txt (en blog.example.com/robots.txt y example.com/robots.txt).
  6. Por lo general, es una buena práctica indicar la ubicación de cualquier mapa de sitio asociado a este dominio en la parte inferior del archivo robots.txt.

En conclusión:

El archivo robots.txt forma parte del protocolo de exclusión de robots (REP), un grupo de normas web que regulan el modo en que los robots rastrean la web, acceden a los contenidos y los indexan, y sirven esos contenidos a los usuarios. 

Lo cierto es que es una ayuda para los buscadores y tener este archivo siempre actualizado les ayudará a saber mejor cómo tratar las diferentes secciones de tu sitio web.

De esta forma controlamos el presupuesto de rastreo.

Importante: Para asegurar que tu archivo robots.txt sea encontrado, inclúyelo siempre en su directorio principal o dominio raíz. Además ten en cuenta que este archivo es case sensitive y que puede ser ignorado por los bots maliciosos. Así que, nunca incluyas instrucciones para bloquear el rastreo de partes privadas de tu web. En estos casos restringe el acceso mediantes el uso de contraseñas o por permisos desde el servidor.

Enlaces y lecturas recomendadas:

Preguntas Frecuentes

Comprobar si tiene un archivo robots.txt

Es muy sencillo. Solo añade a tu dominio raíz el slug /robots.txt al final de la URL. Por ejemplo, tunombrededominio.com/robots.txt.

Si no aparece ninguna página .txt, es que no tiene actualmente una página robots.txt.

¿Cómo crear un archivo robots.txt?

Si has descubierto que no tienes un archivo robots.txt o quieres modificar el tuyo, crear uno es un proceso sencillo. Este artículo de nuestra wiki explica el proceso de creación del archivo robots.txt, y comprobar si tu archivo está configurado correctamente.

Robots.txt vs meta robots vs x-robots

El robots.txt es un archivo de texto real, mientras que meta robots y x-robots son directivas meta. Más allá de lo que son en realidad, los tres cumplen funciones diferentes. Robots.txt dicta el comportamiento de rastreo de todo el sitio o directorio, mientras que meta y x-robots dictan el comportamiento de indexación a nivel de página individual (o elemento de página).