js

Crawl budget en sitios grandes: cuándo importa de verdad

SEO Técnico

Crawl budget en sitios grandes: cuándo importa de verdad (y cuándo es una excusa).

La mitad de las conversaciones sobre crawl budget que veo en organizaciones enterprise están mal planteadas. Se invoca como explicación de problemas que no tienen nada que ver con crawl.

¿Qué es realmente crawl budget?

Crawl budget es la cantidad de URLs que Googlebot está dispuesto a rastrear en tu sitio en un período de tiempo determinado. Está gobernado por dos factores: el crawl rate limit (cuánto puede rastrear sin tirar tu servidor) y el crawl demand (cuánto quiere rastrear en función del valor percibido de tu contenido).

Ese segundo factor es el que la mayoría de los equipos ignora. Googlebot no rastrea todo lo que puede: rastrea lo que cree que vale la pena. Si tu sitio tiene 5 millones de URLs pero solo 50.000 generan algún tipo de engagement, el crawl budget efectivo va a acercarse a esas 50.000, no a los 5 millones.

Los tres escenarios donde crawl budget importa

1. Sitios con actualización frecuente de contenido crítico

Si tenés un eCommerce donde los precios cambian varias veces por día, o un portal de noticias, o un marketplace con inventario variable, la velocidad con la que Google recrawlea las páginas importantes tiene impacto directo en la experiencia del usuario. Un precio desactualizado en la SERP es un click perdido.

2. Lanzamientos a escala

Cuando lanzás miles de páginas nuevas de golpe — una campaña estacional, una migración de catálogo, una nueva vertical — la velocidad con la que Google las descubre e indexa define tu ventana de oportunidad comercial. En estos casos, crawl budget no es teórico: es la diferencia entre capturar la demanda o no.

3. Sitios con ratio de páginas basura muy alto

Si el 90% de lo que Google está rastreando son páginas que no deberían existir en el índice — parámetros sin control, facetas sin control, páginas de búsqueda interna — entonces sí, el crawl budget está literalmente bloqueado por ruido. Pero el problema real no es el crawl: es el ruido.

Cuándo crawl budget es una excusa

Si tu sitio tiene menos de 100.000 URLs y estás hablando de crawl budget, probablemente el problema es otro.

He visto discusiones de crawl budget en sitios de 20.000 URLs donde el verdadero problema era que las páginas objetivo no tenían señales de calidad suficientes para merecer más visitas. Optimizar el robots.txt o el sitemap en ese contexto no mueve la aguja. Lo que mueve la aguja es mejorar el valor percibido de las páginas que sí querés que se indexen.

Cómo medir crawl budget en serio

Los datos están en los logs del servidor, no en herramientas externas. Lo mínimo que hay que monitorear:

  • Cantidad de hits de Googlebot por día, segmentados por tipo de URL (producto, categoría, editorial, parámetros).
  • Código de respuesta de esos hits (200, 301, 404, 5xx).
  • Profundidad de click de las URLs que se están rastreando.
  • Relación entre URLs rastreadas y URLs que generan clicks en GSC.

Esa última métrica es la más reveladora. Si el 80% de lo que Google rastrea son URLs que nunca generan un click, no tenés un problema de crawl budget: tenés un problema de calidad de índice. Y eso se arregla podando, no abriendo más capacidad.

Conclusión

Crawl budget es real, pero es una herramienta quirúrgica, no una respuesta genérica. Antes de invertir tiempo en optimizarlo, vale la pena preguntarse si el problema que estás tratando de resolver es realmente de crawl, o si es un problema de calidad de contenido, de arquitectura, o de priorización. La mayoría de las veces, cuando miro los datos, es una de las tres últimas.