- Dónde está el archivo Robots txt
Cada vez que un bot o araña web llega a un sitio, ya sea Googlebot, el rastreo web Facebook (Facebot) o cualquier otro, van directamente a buscar el archivo robots.txt.
Y siempre van a buscarlo al mismo lugar: el directorio principal
Esto es:
www.ejemplo.com/robots.txt
Si un agente o bot visita esta dirección por defecto, pero no encuentra un archivo de robots allí, asumirá que el sitio no tiene uno y procederá a rastrear todo lo que hay en la página.
Incluso si la página robots.txt existiera, pero en otra ubicación, ningún rastreador se molestaría en buscarla y, por tanto, el sitio sería tratado como si no tuviera ningún archivo robots.
Para asegurar que el archivo robots.txt sea encontrado, inclúyelo siempre en tu directorio principal o dominio raíz.
Cómo usar el archivo robots.txt
Los motores de búsqueda tienen dos trabajos principales:
- Rastrear la web para descubrir contenidos;
- Indexar ese contenido para que pueda ser servido a los buscadores que están buscando información.
Para rastrear los sitios, los motores de búsqueda siguen los enlaces para ir de un sitio a otro y, en última instancia, rastrean miles de millones de enlaces y sitios web. Este comportamiento de rastreo se conoce a veces como «spidering».
Después de llegar a un sitio web, pero antes de rastrearlo, el rastreador de búsqueda buscará un archivo robots.txt. Si encuentra uno, el rastreador leerá primero ese archivo antes de continuar por la página.
Dado que el archivo robots.txt contiene información sobre cómo debe rastrear el motor de búsqueda, la información encontrada en él instruirá la acción del rastreador en este sitio en particular.
Si el archivo robots.txt no contiene ninguna directiva que impida la actividad de un agente de usuario (o si el sitio no tiene un archivo robots.txt), procederá a rastrear otra información del sitio.
Cuáles son los comandos o directivas
La sintaxis de Robots.txt puede considerarse como el «lenguaje» de los archivos robots.txt. Hay cinco términos comunes que es probable que encuentre en un archivo de robots:
1. User-agents:
Indica el nombre del rastreador web específico al que está dando instrucciones de rastreo. Puede encontrar una lista de la mayoría de los agentes de usuario
- Google: googlebot => para Google | googlebot-image => Google Images | googlebot-mobile => Google Mobile
- Yahoo!: yahoo-slurp => Yahoo | yahoo-mmcrawler => Yahoo MM | yahoo-blogs/v3.9 => Yahoo Blogs.
- MSN Search: msnbot
- Ask; Teoma
- Twiceler: Cuil
- GigaBlast: gigabot
- Scrub The Web: scrubby
- DMOZ Checker: robozilla
- Nutch; nutch
- Alexa/Wayback: ia_archiver
- Baidu: baiduspider
- Naver: naverbot, yeti
- MSN PicSearch: psbot
- SingingFish: asterias
Ejemplo de archivo robots que impide búsqueda de todos los robots:
User-agent: * # aplicable a todos.
Disallow: / # impide la indexación de todas las páginas.
2. Disallow robots.txt
El comando utilizado para indicar a un agente de usuario que no rastree una determinada URL. Sólo se permite una línea «Disallow:» para cada URL.
Algunos ejemplos:
- Disallow: /carpeta/
- Disallow: /*.js$
- Disallow: /carpeta-con-contenido/*.
3. Allow robots.txt
Sólo aplicable a Googlebot. Este comando indica a Googlebot que puede acceder a una página o subcarpeta aunque su página o subcarpeta principal esté deshabilitada.
Algunos ejemplos:
4. Crawl-delay robots.txt
El número de segundos que debe esperar un rastreador antes de cargar y rastrear el contenido de la página. Ten en cuenta que Googlebot no reconoce este comando, pero la velocidad de rastreo se puede configurar en Google Search Console. Algunos rastreadores a los que afecta: MSNBot y Yahoo Slurp.
Ejemplo:
User-agent: *
Crawl-delay: 30
Esto indica que los robots tienen que esperar 30 segundos entre cada acceso.
5. Otros comandos
Existen otras directivas para gestionar tiempo en el que las arañas indexan las diferentes URL: visit-time y request-rate.
Algunos ejemplos:
- Permitir trabajar a los bots de 2 am a 7:45 am (horas Greenwitch): Visit-time: 0200-0745.
- Un documento cada 30 minutos: Request-rate: 1/30m.
- Combinado: 1 doc cada 10 minutos y solo de una a 5 tarde: Request-rate: 1/10m 1300-1659.
6. Robots.txt Sitemap
Se utiliza para llamar a la ubicación de cualquier mapa del sitio XML asociado a esta URL. Ten en cuenta que este comando sólo es compatible con Google, Ask, Bing y Yahoo.
Cómo se crea archivo robots.txt
Es fácil crear un archivo robots.txt, solo necesitas conocer algunos comandos específicos. Puedes crear este archivo utilizando el bloc de notas de tu computadora o cualquier otro editor de texto que prefieras.
También es necesario tener acceso a la carpeta principal de tu dominio, ya que es allí donde debes guardar el archivo que has creado. Para crear un archivo robots.txt, debes acceder a la raíz de tu dominio y guardar el archivo allí.
Buenas prácticas en el uso del Robots txt:
- Debe existir un único archivo robots.txt por cada website.
- Para asegurar que el archivo robots.txt sea encontrado, inclúyelo siempre en su directorio principal o dominio raíz.
- Cada subdominio de un dominio raíz utiliza archivos robots.txt distintos. Esto significa que tanto blog.example.com como example.com deben tener sus propios archivos robots.txt (en blog.example.com/robots.txt y example.com/robots.txt).
- Robots.txt distingue entre mayúsculas y minúsculas: el archivo debe llamarse «robots.txt» (no Robots.txt, robots.TXT, o cualquier otro).
- El archivo se compondrá de distintas directivas agrupadas en relación con el robot al que se aplican. Además, dentro de cada uno de los grupos de directivas no pueden estar presentes líneas en blanco. Tengamos en cuenta, además, que cada grupo de directivas empieza con el campo “user-agent” que, dicho sea de paso, sirve para identificar al robot al que se refieren dichas directivas.
- Algunos agentes de usuario (robots) pueden optar por ignorar el archivo robots.txt. Esto es especialmente común con los rastreadores menos éticos, como los robots de malware o los scrapers de direcciones de correo electrónico.
- El archivo /robots.txt está disponible públicamente: basta con añadir /robots.txt al final de cualquier dominio raíz para ver las directivas de ese sitio web. Esto significa que cualquiera puede ver qué páginas quieres o no quieres que sean rastreadas, así que no las utilices para ocultar información privada del usuario.
- Por lo general, es una buena práctica indicar la ubicación de cualquier mapa de sitio asociado a este dominio en la parte inferior del archivo robots.txt.
El archivo robots.txt forma parte del protocolo de exclusión de robots (REP), un grupo de normas web que regulan el modo en que los robots rastrean la web, acceden a los contenidos y los indexan, y sirven esos contenidos a los usuarios.
Lo cierto es que es una ayuda para los buscadores y tener este archivo siempre actualizado les ayudará a saber mejor cómo tratar las diferentes secciones de tu sitio web.
De esta forma controlamos el presupuesto de rastreo.
Importante: Para asegurar que tu archivo robots.txt sea encontrado, inclúyelo siempre en su directorio principal o dominio raíz. Además ten en cuenta que este archivo es case sensitive y que puede ser ignorado por los bots maliciosos. Así que, nunca incluyas instrucciones para bloquear el rastreo de partes privadas de tu web. En estos casos restringe el acceso mediantes el uso de contraseñas o por permisos desde el servidor.
Probador de robots.txt
Enlaces y lecturas recomendadas: