Crawl budget en sitios grandes: cuándo importa de verdad

¿Qué es realmente crawl budget?

Crawl budget es la cantidad de URLs que Googlebot está dispuesto a rastrear en tu sitio en un período de tiempo determinado. Está gobernado por dos factores: el crawl rate limit (cuánto puede rastrear sin tirar tu servidor) y el crawl demand (cuánto quiere rastrear en función del valor percibido de tu contenido).

Ese segundo factor es el que la mayoría de los equipos ignora. Googlebot no rastrea todo lo que puede: rastrea lo que cree que vale la pena. Si tu sitio tiene 5 millones de URLs pero solo 50.000 generan algún tipo de engagement, el crawl budget efectivo va a acercarse a esas 50.000, no a los 5 millones.

Los tres escenarios donde crawl budget importa

1. Sitios con actualización frecuente de contenido crítico

Si tenés un eCommerce donde los precios cambian varias veces por día, o un portal de noticias, o un marketplace con inventario variable, la velocidad con la que Google recrawlea las páginas importantes tiene impacto directo en la experiencia del usuario. Un precio desactualizado en la SERP es un click perdido.

2. Lanzamientos a escala

Cuando lanzás miles de páginas nuevas de golpe — una campaña estacional, una migración de catálogo, una nueva vertical — la velocidad con la que Google las descubre e indexa define tu ventana de oportunidad comercial. En estos casos, crawl budget no es teórico: es la diferencia entre capturar la demanda o no.

3. Sitios con ratio de páginas basura muy alto

Si el 90% de lo que Google está rastreando son páginas que no deberían existir en el índice — parámetros sin control, facetas sin control, páginas de búsqueda interna — entonces sí, el crawl budget está literalmente bloqueado por ruido. Pero el problema real no es el crawl: es el ruido.

Cuándo crawl budget es una excusa

Si tu sitio tiene menos de 100.000 URLs y estás hablando de crawl budget, probablemente el problema es otro.

He visto discusiones de crawl budget en sitios de 20.000 URLs donde el verdadero problema era que las páginas objetivo no tenían señales de calidad suficientes para merecer más visitas. Optimizar el robots.txt o el sitemap en ese contexto no mueve la aguja. Lo que mueve la aguja es mejorar el valor percibido de las páginas que sí querés que se indexen.

Cómo medir crawl budget en serio

Los datos están en los logs del servidor, no en herramientas externas. Lo mínimo que hay que monitorear:

Cantidad de hits de Googlebot por día, segmentados por tipo de URL (producto, categoría, editorial, parámetros).

Código de respuesta de esos hits (200, 301, 404, 5xx).

Profundidad de click de las URLs que se están rastreando.

Relación entre URLs rastreadas y URLs que generan clicks en GSC.

Esa última métrica es la más reveladora. Si el 80% de lo que Google rastrea son URLs que nunca generan un click, no tenés un problema de crawl budget: tenés un problema de calidad de índice. Y eso se arregla podando, no abriendo más capacidad.

Conclusión

Crawl budget es real, pero es una herramienta quirúrgica, no una respuesta genérica. Antes de invertir tiempo en optimizarlo, vale la pena preguntarse si el problema que estás tratando de resolver es realmente de crawl, o si es un problema de calidad de contenido, de arquitectura, o de priorización. La mayoría de las veces, cuando miro los datos, es una de las tres últimas.

Crawl budget en sitios grandes: cuándo importa de verdad

Crawl budget en sitios grandes: cuándo importa de verdad (y cuándo es una excusa).

¿Qué es realmente crawl budget?

Los tres escenarios donde crawl budget importa

1. Sitios con actualización frecuente de contenido crítico

2. Lanzamientos a escala

3. Sitios con ratio de páginas basura muy alto

Cuándo crawl budget es una excusa

Cómo medir crawl budget en serio

Conclusión

AI Search y GEO: cómo posicionar tu marca en ChatGPT, Perplexity y Google AI Overviews en 2026

Migración SEO enterprise: por qué el 70% de los rediseños pierden tráfico (y la metodología para que no te pase)

EEAT en banca: cómo construirlo sin que legales lo bloquee

Crawl budget en sitios grandes: cuándo importa de verdad

Arquitectura SEO enterprise: por qué la mayoría de los rediseños la rompen

¿Por qué cayeron las impresiones en Search Console en septiembre 2025?

© Copyright Sebastián Querelos 2026. Todos los derechos reservados