Robots TXT

Qué es y por qué es importante

Qué es el archivo robots.txt

Robots.txt es un archivo de texto que se incorpora al dominio raíz para instruir a los robots de los motores de búsqueda sobre cómo rastrear las páginas de tu sitio web. En la práctica, los archivos robots.txt indican a las arañas web si pueden o no rastrear determinadas carpetas de un sitio web. Estas instrucciones de rastreo se especifican «desautorizando» o «permitiendo» el acceso a todos o a ningún, o a determinados crawlers.

Por qué es importante

El archivo robots.txt controla el acceso de los rastreadores a ciertas áreas de tu sitio. Permite controlar el presupuesto de rastreo y también indicarle a los buscadores las partes de nuestro sitio que no deseamos que exploren. De esta forma prevenimos malgastar recursos de los buscadores. El archivo robots.txt es muy útil para estas situaciones:
  1. Mantener privadas secciones enteras de un sitio web (por ejemplo, el sitio de ensayo de su equipo de ingeniería).
  2. Evitar que las páginas internas de resultados de búsqueda aparezcan en una SERP pública.
  3. Especificar la ubicación de los sitemaps o mapas del sitio web.
  4. Impedir el rastreo e indexación de determinados archivos de su sitio web (imágenes, PDF, etc.).
  5. Especificar un retardo de rastreo para evitar que sus servidores se sobrecarguen cuando los rastreadores carguen varios contenidos a la vez.
  6. Evitar que el contenido duplicado aparezca en las SERPs.
Aunque para lidiar con el contenido duplicado es mejor emplear las etiquetas meta robots y canonicals.

Ejemplo de Robots txt

Robots TXT
  • Dónde está el archivo Robots txt

Cada vez que un bot o araña web llega a un sitio, ya sea Googlebot, el rastreo web Facebook (Facebot) o cualquier otro, van directamente a buscar el archivo robots.txt.

Y siempre van a buscarlo al mismo lugar: el directorio principal

Esto es:

www.ejemplo.com/robots.txt

Si un agente o bot visita esta dirección por defecto, pero no encuentra un archivo de robots allí, asumirá que el sitio no tiene uno y procederá a rastrear todo lo que hay en la página.

Incluso si la página robots.txt existiera, pero en otra ubicación, ningún rastreador se molestaría en buscarla y, por tanto, el sitio sería tratado como si no tuviera ningún archivo robots.

Para asegurar que el archivo robots.txt sea encontrado, inclúyelo siempre en tu directorio principal o dominio raíz.

Cómo usar el archivo robots.txt

Los motores de búsqueda tienen dos trabajos principales:

  1. Rastrear la web para descubrir contenidos;
  2. Indexar ese contenido para que pueda ser servido a los buscadores que están buscando información.

Para rastrear los sitios, los motores de búsqueda siguen los enlaces para ir de un sitio a otro y, en última instancia, rastrean miles de millones de enlaces y sitios web. Este comportamiento de rastreo se conoce a veces como «spidering».

Después de llegar a un sitio web, pero antes de rastrearlo, el rastreador de búsqueda buscará un archivo robots.txt. Si encuentra uno, el rastreador leerá primero ese archivo antes de continuar por la página.

Dado que el archivo robots.txt contiene información sobre cómo debe rastrear el motor de búsqueda, la información encontrada en él instruirá la acción del rastreador en este sitio en particular.

Si el archivo robots.txt no contiene ninguna directiva que impida la actividad de un agente de usuario (o si el sitio no tiene un archivo robots.txt), procederá a rastrear otra información del sitio.

Sintaxis del Robots txt: ¿Qué debe contener?

La sintaxis de Robots.txt puede considerarse como el «lenguaje» de los archivos robots.txt. Hay cinco términos comunes que es probable que encuentre en un archivo de robots:

1. User-agents:

Indica el nombre del rastreador web específico al que está dando instrucciones de rastreo. Puede encontrar una lista de la mayoría de los agentes de usuario

  • Google: googlebot => para Google | googlebot-image => Google Images | googlebot-mobile => Google Mobile
  • Yahoo!: yahoo-slurp => Yahoo | yahoo-mmcrawler => Yahoo MM | yahoo-blogs/v3.9 => Yahoo Blogs.
  • MSN Search: msnbot
  • Ask; Teoma
  • Twiceler: Cuil
  • GigaBlast: gigabot
  • Scrub The Web: scrubby
  • DMOZ Checker: robozilla
  • Nutch; nutch
  • Alexa/Wayback: ia_archiver
  • Baidu: baiduspider
  • Naver: naverbot, yeti
  • MSN PicSearch: psbot
  • SingingFish: asterias

Ejemplo de archivo robots que impide búsqueda de todos los robots:

User-agent: * # aplicable a todos.
Disallow: / # impide la indexación de todas las páginas.

2. Disallow:

El comando utilizado para indicar a un agente de usuario que no rastree una determinada URL. Sólo se permite una línea «Disallow:» para cada URL.

Algunos ejemplos:

  • Disallow: /carpeta/
  • Disallow: /*.js$
  • Disallow: /carpeta-con-contenido/*.

3. Allow:

Sólo aplicable a Googlebot. Este comando indica a Googlebot que puede acceder a una página o subcarpeta aunque su página o subcarpeta principal esté deshabilitada.

Algunos ejemplos:

  • Allow: /
  • Allow: /register

4. Crawl-delay:

El número de segundos que debe esperar un rastreador antes de cargar y rastrear el contenido de la página. Ten en cuenta que Googlebot no reconoce este comando, pero la velocidad de rastreo se puede configurar en Google Search Console. Algunos rastreadores a los que afecta: MSNBot y Yahoo Slurp.

Ejemplo:

User-agent: *
Crawl-delay: 30

Esto indica que los robots tienen que esperar 30 segundos entre cada acceso.

Existen otras directivas para gestionar tiempo en el que las arañas indexan las diferentes URL: visit-time y request-rate.

Algunos ejemplos:

  • Permitir trabajar a los bots de 2 am a 7:45 am (horas Greenwitch): Visit-time: 0200-0745.
  • Un documento cada 30 minutos: Request-rate: 1/30m.
  • Combinado: 1 doc cada 10 minutos y solo de una a 5 tarde: Request-rate: 1/10m 1300-1659.

5. Sitemap:

Se utiliza para llamar a la ubicación de cualquier mapa del sitio XML asociado a esta URL. Ten en cuenta que este comando sólo es compatible con Google, Ask, Bing y Yahoo.

Buenas prácticas en el uso del Robots txt:

  1. Debe existir un único archivo robots.txt por cada website. 
  2. Para asegurar que el archivo robots.txt sea encontrado, inclúyelo siempre en su directorio principal o dominio raíz. 
  3. Cada subdominio de un dominio raíz utiliza archivos robots.txt distintos. Esto significa que tanto blog.example.com como example.com deben tener sus propios archivos robots.txt (en blog.example.com/robots.txt y example.com/robots.txt).
  4. Robots.txt distingue entre mayúsculas y minúsculas: el archivo debe llamarse «robots.txt» (no Robots.txt, robots.TXT, o cualquier otro).
  5. El archivo se compondrá de distintas directivas agrupadas en relación con el robot al que se aplican. Además, dentro de cada uno de los grupos de directivas no pueden estar presentes líneas en blanco. Tengamos en cuenta, además, que cada grupo de directivas empieza con el campo “user-agent” que, dicho sea de paso, sirve para identificar al robot al que se refieren dichas directivas.
  6. Algunos agentes de usuario (robots) pueden optar por ignorar el archivo robots.txt. Esto es especialmente común con los rastreadores menos éticos, como los robots de malware o los scrapers de direcciones de correo electrónico.
  7. El archivo /robots.txt está disponible públicamente: basta con añadir /robots.txt al final de cualquier dominio raíz para ver las directivas de ese sitio web. Esto significa que cualquiera puede ver qué páginas quieres o no quieres que sean rastreadas, así que no las utilices para ocultar información privada del usuario.
  8. Por lo general, es una buena práctica indicar la ubicación de cualquier mapa de sitio asociado a este dominio en la parte inferior del archivo robots.txt.

Puedes verificar que el archivo no tiene errores en el Probador de robots.txt de Search Console

En conclusión:

El archivo robots.txt forma parte del protocolo de exclusión de robots (REP), un grupo de normas web que regulan el modo en que los robots rastrean la web, acceden a los contenidos y los indexan, y sirven esos contenidos a los usuarios.

Lo cierto es que es una ayuda para los buscadores y tener este archivo siempre actualizado les ayudará a saber mejor cómo tratar las diferentes secciones de tu sitio web.

De esta forma controlamos el presupuesto de rastreo.

Importante: Para asegurar que tu archivo robots.txt sea encontrado, inclúyelo siempre en su directorio principal o dominio raíz. Además ten en cuenta que este archivo es case sensitive y que puede ser ignorado por los bots maliciosos. Así que, nunca incluyas instrucciones para bloquear el rastreo de partes privadas de tu web. En estos casos restringe el acceso mediantes el uso de contraseñas o por permisos desde el servidor.

Probador de robots.txt

Enlaces y lecturas recomendadas:

Preguntas Frecuentes

Es muy sencillo. Solo añade a tu dominio raíz el slug /robots.txt al final de la URL. Por ejemplo, tunombrededominio.com/robots.txt. Si no aparece ninguna página .txt, es que no tiene actualmente una página robots.txt.

Si has descubierto que no tienes un archivo robots.txt o quieres modificar el tuyo, crear uno es un proceso sencillo. Este artículo de nuestra wiki explica el proceso de creación del archivo robots.txt, y comprobar si tu archivo está configurado correctamente.

El robots.txt es un archivo de texto real, mientras que meta robots y x-robots son directivas meta. Más allá de lo que son en realidad, los tres cumplen funciones diferentes. Robots.txt dicta el comportamiento de rastreo de todo el sitio o directorio, mientras que meta y x-robots dictan el comportamiento de indexación a nivel de página individual (o elemento de página).s