Guía de robots.txt para sitios web pequeños y proyectos de contenido

    By simple-tools-online Editorial Team. Our editorial team publishes practical, research-informed guides focused on SEO, content strategy, and digital productivity.

    El archivo robots.txt es uno de los componentes más malinterpretados del SEO técnico. Muchos propietarios de sitios web pequeños nunca crean uno, porque asumen que solo es relevante para grandes sitios empresariales. Otros crean archivos robots.txt demasiado complejos a partir de ejemplos copiados de foros, bloqueando recursos a los que su sitio realmente necesita que los motores de búsqueda accedan. La realidad es más simple: un archivo robots.txt configurado correctamente es importante para todo sitio web indexado, pero la configuración correcta suele ser mínima en lugar de máxima.

    Esta guía explica qué hace realmente robots.txt, la distinción crítica entre las directivas de robots.txt y las etiquetas noindex, cómo se ve una configuración inicial para un sitio pequeño de contenido y los errores que con frecuencia dañan la visibilidad en buscadores. Al final, entenderás cuándo modificar robots.txt, cuándo dejarlo como está y cómo verificar que tu configuración funciona correctamente.

    Qué es Robots.txt y dónde se ubica

    Robots.txt es un archivo de texto plano colocado en el directorio raíz de tu sitio web en yourdomain.com/robots.txt. Los rastreadores de motores de búsqueda —Googlebot, Bingbot y otros— solicitan este archivo antes de rastrear cualquier página de tu sitio. El archivo contiene directivas que indican a los rastreadores qué rutas tienen permitido visitar y cuáles no.

    El archivo debe estar accesible en la ruta raíz exacta. Un archivo robots.txt en yourdomain.com/assets/robots.txt o yourdomain.com/seo/robots.txt no será encontrado. La URL correcta siempre es yourdomain.com/robots.txt, sin segmentos de ruta adicionales. Este es un requisito estricto de la especificación del Protocolo de Exclusión de Robots.

    Si tu sitio web no tiene un archivo robots.txt, los rastreadores asumen por defecto que todo el contenido se puede rastrear. Esto suele estar bien: la mayoría de los sitios de contenido se benefician del acceso completo al rastreo. Un archivo robots.txt es necesario cuando quieres dar instrucciones específicas: guiar a los rastreadores hacia tu sitemap, bloquear el rastreo de rutas utilitarias de bajo valor o restringir el acceso de rastreadores concretos al sitio.

    Qué no puede hacer Robots.txt (malentendidos críticos)

    El malentendido más peligroso sobre robots.txt es tratarlo como un mecanismo de seguridad o privacidad. Robots.txt es públicamente accesible: cualquiera puede leer tu archivo robots.txt simplemente visitando yourdomain.com/robots.txt. Si bloqueas el acceso a /admin/ en robots.txt, literalmente has anunciado a los atacantes que /admin/ existe y es lo bastante valioso como para bloquearlo a los rastreadores. Usa autenticación real, firewalls o controles de acceso a nivel de servidor para la seguridad, nunca robots.txt.

    El segundo malentendido crítico: robots.txt no impide la indexación. Impide el rastreo. Si una página está bloqueada en robots.txt, Googlebot no obtendrá el contenido de la página, pero Google aún puede indexar la URL si está enlazada desde otros sitios. Esto produce en los resultados de búsqueda un listado confuso del tipo "No se puede ofrecer una descripción de esta página debido al archivo robots.txt de este sitio". Si quieres excluir una página de la indexación en buscadores, usa una etiqueta meta noindex o una cabecera HTTP X-Robots-Tag, no robots.txt.

    El tercer malentendido: robots.txt no es exigible. Es una solicitud cortés que respetan los rastreadores bien comportados (Google, Bing y los principales motores de búsqueda). Los bots maliciosos, scrapers y rastreadores de spam ignoran robots.txt por completo. Para mitigar bots, necesitas limitación de velocidad a nivel de servidor, bloqueo de IP, protección CAPTCHA o servicios como Cloudflare.

    Un robots.txt inicial para la mayoría de los sitios pequeños

    Para la gran mayoría de los sitios pequeños de contenido —blogs, portafolios, sitios web de pequeñas empresas, sitios de herramientas— el robots.txt ideal es mínimo. Aquí tienes una configuración inicial que funciona para la mayoría de los sitios: permitir todo el contenido, bloquear cualquier ruta claramente no esencial si existe y apuntar a tu sitemap.

    User-agent: *
    Allow: /
    
    Sitemap: https://yourdomain.com/sitemap.xml

    Esta configuración permite explícitamente que todos los rastreadores accedan a todo el contenido (las directivas User-agent: * y Allow: /) y proporciona la URL del sitemap. La directiva del sitemap es especialmente valiosa: indica a los rastreadores exactamente dónde encontrar tu lista completa de URLs, mejorando la eficiencia del rastreo.

    Si tu sitio tiene rutas de administración, vistas previas de staging, variantes de URL filtradas u otro contenido que no quieres que se rastree, añade directivas Disallow específicas: Disallow: /admin/, Disallow: /staging/, Disallow: /*?filter=. Mantén estas directivas al mínimo: cada regla disallow es una posible fuente de error.

    Cuándo añadir directivas Disallow

    Añade directivas disallow para rutas que desperdician presupuesto de rastreo sin aportar valor a los usuarios de búsqueda. Algunos ejemplos comunes incluyen páginas de resultados de búsqueda dentro de tu propio sitio (que crean variantes infinitas de URL), páginas de categorías de producto filtradas con parámetros como ?color=red&size=large, entornos de staging expuestos por accidente y rutas utilitarias como versiones de página listas para imprimir.

    No bloquees páginas que deberían indexarse pero simplemente no promocionarse. Si quieres excluir una página por completo de los resultados de búsqueda, usa noindex. Bloquear una página enlazada desde otros lugares puede crear el problema de "indexada sin contenido" mencionado arriba, que es peor que la indexación completa o que no indexarla.

    No bloquees archivos CSS, JavaScript ni imágenes. El rastreador de Google necesita acceder a estos recursos para renderizar y entender tus páginas. Bloquearlos puede hacer que Google vea tus páginas como rotas o de baja calidad, lo que perjudica el posicionamiento. El patrón común de bloquear /wp-content/ o /assets/, popular en guías SEO antiguas, ahora se considera perjudicial.

    Generar y validar tu robots.txt

    Para una configuración inicial, usa nuestro Generador de Robots.txt para producir rápidamente un archivo válido. El generador maneja la sintaxis correctamente, incluye declaraciones de sitemap y evita errores de formato comunes.

    Después de crear y desplegar tu robots.txt, valídalo con la herramienta de prueba de robots.txt de Google Search Console. Esta herramienta revisa tu archivo en busca de errores de sintaxis y te permite probar URLs específicas para verificar si Googlebot puede acceder a ellas o no. La herramienta también te muestra cómo ve Google realmente tu robots.txt, detectando problemas en los que el archivo podría no estar disponible o podría tener problemas de codificación.

    Errores comunes de robots.txt que debes evitar

    El error más dañino es Disallow: / en la sección principal de user-agent, lo que bloquea todo el rastreo de tu sitio completo. Esto a veces ocurre accidentalmente durante lanzamientos o migraciones de sitios: un desarrollador despliega a producción un robots.txt configurado para staging (donde el bloqueo completo es correcto). El resultado: tu sitio desaparece de Google. Revisa siempre el robots.txt de producción después de cualquier despliegue.

    Los errores de mayúsculas y minúsculas provocan fallos silenciosos. La coincidencia de rutas en robots.txt distingue entre mayúsculas y minúsculas, por lo que Disallow: /Admin/ no bloqueará /admin/ ni /ADMIN/. Ante la duda, incluye varias variantes de mayúsculas y minúsculas o usa una regla más simple que coincida con patrones más amplios.

    Bloquear recursos importantes como CSS y JavaScript, como se explicó antes. Las guías SEO antiguas lo recomendaban por varias razones; la práctica moderna recomendada en SEO es permitir que Googlebot acceda a todo lo necesario para renderizar la página.

    Preguntas frecuentes

    ¿Necesito un archivo robots.txt si quiero que todo se indexe?

    No estrictamente: si no tienes un archivo robots.txt, los rastreadores asumen que todo se puede rastrear. Sin embargo, incluso un robots.txt mínimo que solo declara la URL del sitemap es útil porque comunica explícitamente a los rastreadores la ubicación de tu sitemap. La buena práctica de bajo esfuerzo es tener un robots.txt con declaración de sitemap aunque no necesites bloquear nada.

    ¿Con qué frecuencia revisan los motores de búsqueda robots.txt?

    Googlebot almacena en caché la respuesta de robots.txt y normalmente comprueba si hay actualizaciones cada 24 horas. Los cambios que hagas surtirán efecto en el plazo de un día para la mayoría de los sitios. Para cambios urgentes (por ejemplo, desplegar accidentalmente un robots.txt bloqueante), usa Google Search Console para solicitar un nuevo rastreo del archivo robots.txt: Google da prioridad a estas solicitudes.

    ¿Puedo tener reglas diferentes para distintos motores de búsqueda?

    Sí: puedes especificar reglas para user-agents individuales. User-agent: Googlebot se aplica solo al rastreador de Google; User-agent: Bingbot se aplica solo al de Bing. El comodín User-agent: * se aplica a todos los rastreadores que no se hayan especificado de otra manera. La mayoría de los sitios pequeños no necesita este nivel de granularidad, pero es útil para sitios que quieren permitir un motor de búsqueda y bloquear otro.

    Para SEO técnico relacionado, consulta nuestras guías sobre slugs de URL SEO-friendly y meta descripciones. El Generador de Robots.txt produce un archivo inicial válido en segundos.

    Related Tools

    Continue with practical tools related to this topic:

    Authoritative Sources