User-agent: * Disallow: /wp-admin/ Disallow: /?s= Allow: /wp-admin/admin-ajax.ph Sitemap: https://www.isocialweb.agency/post-sitemap.xml Sitemap: https://www.isocialweb.agency/page-sitemap.xml
Cada vez que un bot o araña web llega a un sitio, ya sea Googlebot, el rastreo web Facebook (Facebot) o cualquier otro, van directamente a buscar el archivo robots.txt.
Y siempre van a buscarlo al mismo lugar: el directorio principal
Esto es:
www.ejemplo.com/robots.txt
Si un agente o bot visita esta dirección por defecto, pero no encuentra un archivo de robots allí, asumirá que el sitio no tiene uno y procederá a rastrear todo lo que hay en la página.
Incluso si la página robots.txt existiera, pero en otra ubicación, ningún rastreador se molestaría en buscarla y, por tanto, el sitio sería tratado como si no tuviera ningún archivo robots.
Para asegurar que el archivo robots.txt sea encontrado, inclúyelo siempre en tu directorio principal o dominio raíz.
Los motores de búsqueda tienen dos trabajos principales:
Para rastrear los sitios, los motores de búsqueda siguen los enlaces para ir de un sitio a otro y, en última instancia, rastrean miles de millones de enlaces y sitios web. Este comportamiento de rastreo se conoce a veces como «spidering».
Después de llegar a un sitio web, pero antes de rastrearlo, el rastreador de búsqueda buscará un archivo robots.txt. Si encuentra uno, el rastreador leerá primero ese archivo antes de continuar por la página.
Dado que el archivo robots.txt contiene información sobre cómo debe rastrear el motor de búsqueda, la información encontrada en él instruirá la acción del rastreador en este sitio en particular.
Si el archivo robots.txt no contiene ninguna directiva que impida la actividad de un agente de usuario (o si el sitio no tiene un archivo robots.txt), procederá a rastrear otra información del sitio.
Indica el nombre del rastreador web específico al que está dando instrucciones de rastreo. Puede encontrar una lista de la mayoría de los agentes de usuario
Ejemplo de archivo robots que impide búsqueda de todos los robots:
User-agent: * # aplicable a todos.
Disallow: / # impide la indexación de todas las páginas.
El comando utilizado para indicar a un agente de usuario que no rastree una determinada URL. Sólo se permite una línea «Disallow:» para cada URL.
Algunos ejemplos:
Sólo aplicable a Googlebot. Este comando indica a Googlebot que puede acceder a una página o subcarpeta aunque su página o subcarpeta principal esté deshabilitada.
Algunos ejemplos:
El número de segundos que debe esperar un rastreador antes de cargar y rastrear el contenido de la página. Ten en cuenta que Googlebot no reconoce este comando, pero la velocidad de rastreo se puede configurar en Google Search Console. Algunos rastreadores a los que afecta: MSNBot y Yahoo Slurp.
Ejemplo:
User-agent: *
Crawl-delay: 30
Esto indica que los robots tienen que esperar 30 segundos entre cada acceso.
Existen otras directivas para gestionar tiempo en el que las arañas indexan las diferentes URL: visit-time y request-rate.
Algunos ejemplos:
Se utiliza para llamar a la ubicación de cualquier mapa del sitio XML asociado a esta URL. Ten en cuenta que este comando sólo es compatible con Google, Ask, Bing y Yahoo.
Es fácil crear un archivo robots.txt, solo necesitas conocer algunos comandos específicos. Puedes crear este archivo utilizando el bloc de notas de tu computadora o cualquier otro editor de texto que prefieras.
También es necesario tener acceso a la carpeta principal de tu dominio, ya que es allí donde debes guardar el archivo que has creado. Para crear un archivo robots.txt, debes acceder a la raíz de tu dominio y guardar el archivo allí.
Puedes verificar que el archivo no tiene errores en el Probador de robots.txt de Search Console.
En conclusión:
El archivo robots.txt forma parte del protocolo de exclusión de robots (REP), un grupo de normas web que regulan el modo en que los robots rastrean la web, acceden a los contenidos y los indexan, y sirven esos contenidos a los usuarios.
Lo cierto es que es una ayuda para los buscadores y tener este archivo siempre actualizado les ayudará a saber mejor cómo tratar las diferentes secciones de tu sitio web.
De esta forma controlamos el presupuesto de rastreo.
Importante: Para asegurar que tu archivo robots.txt sea encontrado, inclúyelo siempre en su directorio principal o dominio raíz. Además ten en cuenta que este archivo es case sensitive y que puede ser ignorado por los bots maliciosos. Así que, nunca incluyas instrucciones para bloquear el rastreo de partes privadas de tu web. En estos casos restringe el acceso mediantes el uso de contraseñas o por permisos desde el servidor.
Probador de robots.txt
Enlaces y lecturas recomendadas:
El archivo robots.txt es un archivo de texto sin formato que se ubica en el directorio principal del servidor web y se utiliza para informar a los rastreadores de Google sobre qué partes de una página web pueden ser exploradas y cuáles deben ser ignoradas.
Este archivo es una herramienta útil para especificar qué contenido debe ser indexado y qué no. Para visualizar archivo robots.txt de tu web, accede a la siguiente url: tudominio.com/robots.txt.
Para ofrecer información al buscador a través del archivo robots.txt sobre qué url debe rastrear y hacerlo accesible y útil, hay que realizar cuatro pasos:
El robots.txt es un archivo de texto real, mientras que meta robots y x-robots son directivas meta. Más allá de lo que son en realidad, los tres cumplen funciones diferentes.