Archivo Robots.txt, Qué Es, Cómo Crearlo e Indexarlo

marzo, 2023
No hay comentarios

¿Sabes para qué sirve el archivo robots.txt y cómo crearlo para su correcto funcionamiento? ¿Hay partes de tu sitio web que no quieres que aparezcan en las búsquedas orgánicas de Google? ¿Quieres aumentar el tráfico de tu sitio web para llegar a más clientes potenciales? Asegurarte de que tu sitio web aparezca en las primeras posiciones de las búsquedas de los usuarios es esencial para el éxito de cualquier estrategia de marketing online y el archivo robots.txt puede ser un gran aliado a la hora de mejorar el posicionamiento SEO de tu web que facilitará el trabajo a los robots de los motores de búsqueda para que exploren tus páginas más importantes.

robots txt archivo seo pagina web optimizacion crear indexar

Al usar el archivo robots.txt puedes mejorar tu SEO aprovechando las partes de tu sitio web que raramente se mencionan para que no se muestren en las búsquedas orgánicas y de esta forma prevenir malgastar recursos de los buscadores. Comprender las particularidades y el funcionamiento del archivo robots.txt es crucial, ya que un error en el mismo puede provocar que tu sitio web deje de ser rastreado o indexado por los motores de búsqueda, con la consecuente pérdida de tráfico orgánico que esto supondría. Por ello, en esta guía vamos a hablar en profundidad sobre qué es el archivo robots.txt, para qué sirve, su funcionamiento y cómo crearlo.

Índice de contenidos

Qué es el archivo robots.txt

Robots.txt, también conocido como protocolo de exclusión de robots o protocolo robots.txt, es un archivo de texto público que puedes crear y colocar en la raíz de tu sitio web para para gestionar el tráfico de los rastreadores a tu sitio web o evitar que ciertos robots de motores de búsqueda como Google rastreen contenido que no quieres indexar o mostrar en los resultados de búsqueda. Por lo tanto, se trata de un archivo de texto que dicta unas recomendaciones de indexación y de comportamiento para los crawlers o los robots de los motores de búsqueda, ya que los crawlers quieren indexar toda la información posible, así que cuando llegan a tu página web lo rastrean todo si no incluyes este archivo.

En el archivo robots.txt puedes especificar fácilmente qué parte o partes de tu sitio web no deben rastrearse por los motores de búsqueda, como los directorios, subdirectorios, URLs o archivos de nuestro sitio web. Puesto que está muy relacionado con la indexación de tu web, es muy importante programar correctamente este archivo, sobre todo si tu web está creada con un gestor de contenidos (CMS) como en el caso de WordPress que lo crea automáticamente, ya que puede suceder de forma accidental que, por ejemplo, se incluyan como no indexables partes que sí deberían ser rastreadas o viceversa.

Para qué sirve el archivo robots.txt

El objetivo principal del archivo robots.txt es gestionar el tiempo de rastreo de los robots prohibiéndole navegar por páginas de bajo valor añadido y también evitar que tu sitio web pueda verse afectado por el crawl budget. Puedes entender el archivo robots.txt como una lista de robots no admitidos, la cual te permite restringir el acceso a tu página web selectivamente. Si hay páginas que prefieres mantener fuera del alcance de los buscadores, puedes configurarlo aquí, y si hay un buscador al que quieres denegar el acceso, también. Más concretamente, puedes utilizar el archivo robots.txt para lo siguiente:

Evitar que ciertas páginas y directorios de tu página web sean accesibles a los buscadores.
Bloquear el acceso a archivos de código o utilidades.
Impedir la indexación de contenido duplicado en tu sitio, como copias de prueba o versiones para imprimir.
Indicar la localización del sitemap o mapa del sitio en XML.

Cómo funciona el archivo robots.txt

Probablemente hay páginas en tu sitio web que no quieres que rastreen los motores de búsqueda, como páginas de inicio de sesión y otras que tienen archivos exclusivamente para tus clientes o miembros de tu equipo, pero que deben existir en la ruta de tu sitio web para su correcto funcionamiento. Los motores de búsqueda como Google visitan los sitios webs periódicamente y rastrean los diferentes contenidos que tienes en ella a través de sus robots, también conocidos como crawlers o arañas. Cuando llegan a tu página web, lo primero que hacen es buscar el archivo robots.txt y dependiendo de lo que diga en él, continúan en tu página web o se van a otra.

Los archivos robots.txt utilizan varios protocolos diferentes, el principal se llama protocolo de exclusión de bots y es una manera de indicar a los bots las páginas web y recursos que deben evitar (las instrucciones formateadas para este protocolo se incluyen en el archivo robots.txt). El otro protocolo utilizado para los archivos robots.txt es el protocolo sitemaps, que se puede considerar un protocolo de inclusión de bots y muestra a los rastreadores web qué páginas pueden rastrear ayudando a garantizar que los bots rastreadores no se pierdan ninguna página importante.

Comandos más utilizados de robots.txt

Para crear el archivo robots.txt, es necesario que conozcas algunos comandos básicos que utiliza este archivo y que vienen del llamado Robots Exclusion Protocol, un convenio universal cuya sintaxis debes seguir:

#1 Comando User-agent

El comando User-agent indica qué tipo de robot debe cumplir con las directivas que se le indiquen a continuación. La regla más común es poner un asterisco, que significa que permites a todos los motores de búsqueda rastrear la web «User-agent: (*)», pero si quieres especificar el motor de búsqueda que deba cumplir las directivas tienes que usar el comando «User-agent: (nombre del robot)», por ejemplo, «User-agent: googlebot».

#2 Comando Disallow

El comando Disallow se emplea para indicar a los motores de búsqueda que no accedan, rastreen, ni indexen una parte concreta de tu sitio web como un directorio o una página. Para bloquear un contenido en concreto, debes añadir la URL de tu página seguida de la barra inclinada, por ejemplo, «Disallow: tudominio.com/blog/post-del-blog». En WordPress es muy habitual bloquear todas las URLs del panel de administración, para lo cual se utiliza «Disallow: /wp-admin».

#3 Comando Allow

El comando Allow funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente. Por ejemplo, si pusiste «Disallow: /noticias» porque no quieres que se rastree la página de noticias, pero si quieres que se rastree la página de actualidad dentro de noticias, puedes añadir «Allow: /noticias/actualidad».

#4 Comando Sitemap

El comando Sitemap indica la ruta donde se encuentra el mapa de tu sitio web en XML. Puesto que el archivo robots.txt ayuda a los motores de búsqueda a indexar el contenido, también es de mucha ayuda para ellos que en este archivo incluyas el sitemap de tu sitio web. Para ello, solo tienes que poner el comando seguido de la ruta de tu sitemap, por ejemplo, «Sitemap: https://tudominio.com/sitemap.xml».

#5 Comando Crawl-delay

El comando Crawl-delay indica al robot el número de segundos que debe esperar entre cada página. Puede ser útil en casos en los que se necesita reducir la carga del servidor. Para ello debes utilizar primero el comando User-agent para especificar qué buscadores deben cumplir con las directivas, si quieres que sean todos puedes usar «User-agent: (*)». A continuación, en una línea nueva debes usar el comando Crawl-delay especificando la cantidad de segundos que el robot debe esperar entre cada solicitud sucesiva, por ejemplo, «Craw-delay: 10», lo que indicaría a los robots que que tienen que esperar 10 segundos entre cada acceso.

#6 Comodines

Adicionalmente, también existen una serie de comodines que son útiles y necesarios para crear un archivo robots.txt:

Dólar ($): Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .php se utilizaría “/*.php$”.
Asterisco (*): Representa «todos» y vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían «/privado*/».
Almohadilla (#): Sirve para incluir comentarios en el archivo.

Cómo crear un archivo robots.txt

Lo primero que necesitas saber sobre el archivo robots.txt es que no es obligatorio, sólo necesitas crearlo cuando quieres impedir que ciertas páginas o directorios de tu sitio aparezcan en los resultados de búsqueda. Este archivo debe ubicarse en la raíz de tu sitio web, siempre debe tener el nombre de «robots.txt» y ser un archivo único por cada sitio web. En el caso de que tu sitio web tenga varios subdominios cada uno puede tener su propio robots.txt con las reglas específicas que elijas.

Generar el archivo es muy sencillo, basta con crear un documento de texto con el nombre “robots.txt” y subirlo a la raíz de tu dominio (http://www.example.com/robots.txt), que es el lugar donde los buscadores esperan encontrarlo. Un archivo robots.txt básico puede ser:

User-agent: *
Disallow: /privado/

Lo que hacen estas instrucciones es denegar el acceso al directorio “privado” a todos los buscadores. Para ello, primero se indica que la orden va dirigida a todos los robots (User-agent: *) y, por último, se especifica el directorio desautorizado (Disallow: /privado/).

Reglas para el uso de un archivo robots.txt

Para crear el archivo robots.txt es necesario que conozcas y apliques las reglas que especificamos a continuación, asegurándote de que tus directrices son entendidas de forma correcta por los rastreadores web evitando errores:

En la mayoría de los casos, meta robots con parámetros «noindex» y «follow» deben ser empleados como una forma de restringir el rastreo o la indexación.
Es importante señalar que los rastreadores maliciosos son propensos a ignorar completamente robots.txt y, como tal, este protocolo no es un buen mecanismo de seguridad.
Cada grupo User-agent debe estar separado por una línea en blanco.
Sólo 1 línea «Disallow:» está permitida para cada URL.
El archivo robots.txt tiene que ubicarse en la raíz de tu web y no en un directorio. Por tanto, «https://tudominio.com/robots.txt» sería válido, pero «https://tudominio.com/servicios/robots.txt» no tiene validez.
Cada subdominio de un dominio raíz utiliza archivos robots.txt separados.
Google y Bing aceptan dos caracteres de expresiones regulares específicos para la exclusión de patrones (* y $).
Debes respetar las mayúsculas/minúsculas, la puntuación y los espacios
El nombre del archivo robots.txt es sensible a las mayúsculas. Utiliza «robots.txt», no «Robots.TXT».
Los espacios no se aceptan para separar parámetros de consulta. Por ejemplo, «/categoría/ /producto» no sería detectado por el archivo robots.txt.

Limitaciones del archivo robots.txt

Antes de crear o editar un archivo robots.txt, debes conocer las limitaciones de este método de bloqueo de URLs. En función de tus objetivos y de tu situación, quizás te interese usar otros mecanismos para que tus URLs no se puedan encontrar en Internet, por ello, debes ser consciente de las siguientes limitaciones del archivo robots.txt:

#1 Información pública

El archivo robots.txt es público, por lo que cualquiera puede ver qué secciones de tu sitio web has bloqueado. Esto significa que si tienes informaciones privadas a las que no quiere dejar acceder a nadie (y menos públicamente), debes utilizar un método más seguro como la protección con contraseña para mantener a raya a los curiosos que quieran ver qué páginas confidenciales no quieres que se indexen.

#2 Algunos buscadores pueden no seguir determinadas reglas

Los archivos robots.txt no pueden obligar a los rastreadores a seguir sus instrucciones cuando rastrean tu sitio web, son los propios rastreadores los que deciden si seguirlas o no, ya que son meras indicaciones y no es algo definitivo. Por ejemplo, los robots de Google llamados Googlebots y otros rastreadores web fiables sí cumplen las instrucciones de los archivos robots.txt, pero puede que otros rastreadores no lo hagan. Por tanto, si quieres ocultar información a los rastreadores web, es mejor que utilices otros métodos de bloqueo, como proteger con una contraseña los archivos privados que haya en tu servidor.

#3 Cada rastreador interpreta la sintaxis de una forma

Aunque los rastreadores web de confianza como los de Google siguen las reglas de los archivos robots.txt, cada rastreador puede interpretar las reglas de manera diferente. Por lo tanto, debes dirigirte a los diferentes rastreadores web con la sintaxis adecuada, ya que es posible que algunos no entiendan ciertas instrucciones.

#4 Las URLs bloqueadas pueden indexarse si otros sitios incluyen enlaces a ellas

Google no rastrea ni indexa el contenido que está bloqueado con un archivo robots.txt pero puede que encuentre e indexe URLs bloqueadas si hay enlaces a ellas en otros sitios de la web. Como resultado, esas URLs y otra información pública, pueden seguir apareciendo en los resultados búsquedas de Google. Para evitarlo, puedes proteger los archivos usando una contraseña en tu servidor, la etiqueta meta o el encabezado de respuesta noindex.

Conclusión: Utiliza robots.txt para mejorar el SEO de tu sitio web

Crear un archivo robots.txt es imprescindible para controlar la indexación y el rastreo de tu sitio web por los bots de buscadores web como Google. Puedes crear este archivo mediante el bloc de notas, aunque si utilizas WordPress, muchos plugins de SEO te permiten hacerlo con solo un par de clicks, pero siempre es importante que desarrolles tu propio archivo a medida según las necesidades de tu sitio web y no utilices los creados por defecto que se pueden encontrar en Internet.

Tener bien configurado el archivo robots.txt no solo es importante para especificar qué parte o partes de tu sitio web no deben rastrearse por los motores de búsqueda, sino que también influye positivamente en el posicionamiento web de tu marca, junto a sus factores relevantes, como el aumento del CTR, entre otros. Por último, puedes comprobar si el archivo robots.txt está funcionando correctamente y está bloqueando el acceso de los rastreadores web correctamente o, por el contrario, presenta algún error a través de Google Search Console.

¿Qué te ha parecido nuestra guía sobre el archivo robots.txt? ¿Ya sabes qué es, cómo crearlo e indexarlo? ¿Hay algo que te haya llamado la atención? ¿Crees que nos hemos dejado algo atrás? ¿Te has quedado con alguna duda o pregunta? Entonces te pedimos que dejes un comentario. Nos alegraremos mucho de leerlo y responderlo.

¡Puntúame!

Puntuación media 5 / 5. Votos: 250

¡Todavía no hay votos! Sé el primero en valorar el contenido.

En Kamaleon somos una agencia de marketing online, en la que trabajamos con el principal objetivo de ganar visibilidad en Google, así como en el resto de los buscadores, para incrementar las ventas de nuestros clientes.