Crawl Budget: cuánto tiempo Google le dedica realmente a tu sitio

Crawl Budget: cuánto tiempo Google le dedica realmente a tu sitio

Crawl Budget es la cantidad de URLs que Googlebot decide rastrear de tu sitio en un período dado. No es ilimitado y no es igual para todos los sitios. Para sitios chicos no es problema. Para sitios con cientos de miles o millones de URLs, gestionar crawl budget es la diferencia entre que Google indexe tu catálogo nuevo en días o en meses.

Por Sebastián Querelos·Consultor SEO con 20+ años

Tipo · concepto técnicoCategoría · TécnicoActualizado · 2026

Cómo Google decide cuánto rastrea

Google calcula crawl budget combinando dos variables: crawl rate limit (cuánto puede rastrear sin sobrecargar tu servidor) y crawl demand (cuánto interés tiene en rastrear tu contenido). El primero depende de la performance de tu hosting y del comportamiento de tu sitio frente a peticiones concurrentes. El segundo depende de qué tan importante o fresco considera tu contenido.

La consecuencia práctica: un sitio con buen rendimiento técnico y autoridad de dominio sólida recibe mucho más crawl budget que un sitio con timeouts frecuentes y autoridad baja. Esto no se compra ni se acelera con un truco — se construye con tiempo, performance y calidad.

“Crawl budget es como el agua corriente: si no estás en el desierto del SEO técnico, no la pensás. Cuando empezás a notar problemas, ya estás en la zona árida.”

Cuándo realmente importa

Google ha sido claro al respecto: para la mayoría de los sitios, crawl budget no es problema. Si tu sitio tiene menos de 10.000 URLs, podés ignorar el concepto. Para sitios entre 10.000 y 100.000 URLs, importa solo si hay problemas técnicos específicos. Para sitios con 100.000+ URLs, especialmente eCommerce con catálogos grandes, news sites o marketplaces, gestionar crawl budget es trabajo continuo.

Las señales típicas que indican problema de crawl budget: páginas nuevas que tardan semanas en indexarse aunque estén en el sitemap, secciones del sitio que Google nunca visita según los logs, “Discovered – currently not indexed” en Search Console para volúmenes grandes de URLs, o errores 5xx frecuentes en Googlebot que reducen el crawl rate.

Qué quema crawl budget

Causa 1

Faceted navigation explosiva

Filtros y parámetros que generan miles de URLs combinatorias indexables. Un eCommerce con 5 filtros activos puede multiplicar 1.000 productos × 2^5 combinaciones = 32.000 URLs por categoría.

Causa 2

Páginas duplicadas o thin

Variantes con tracking parameters, filtros que no agregan valor SEO, paginación profunda. Cada URL que Google rastrea pero descarta es budget perdido.

Causa 3

Redirect chains

A → B → C → D = cuatro hits de Googlebot para una sola URL útil. Aplanar a A → D recupera 75% del budget de esos hits.

Causa 4

404s y errores acumulados

Links internos rotos que Googlebot sigue por hábito. Los 404 consumen budget aunque no aporten valor. Hay que monitorearlos en Search Console y arreglarlos.

Cómo optimizar crawl budget

Las palancas que más mueven la aguja, en orden de impacto:

1. Robots.txt para bloquear lo no-rastreable

Bloquear faceted navigation con muchas combinaciones (?color=…&size=…), endpoints de búsqueda interna (/search?q=…), y áreas de admin o checkout que Google no debería visitar. Cubierto en detalle en robots.txt y control de crawling.

2. Sitemap.xml limpio y priorizado

Solo URLs canónicas, indexables, status 200. Si tu sitemap tiene URLs con noindex, redirects o 404, Google empieza a desconfiar. La limpieza del sitemap es trabajo de bajo esfuerzo y alto retorno.

3. Internal linking estratégico

Las URLs más importantes deben recibir más links internos. Las URLs de menor prioridad (o thin) reciben pocos. Esto guía a Googlebot hacia lo que querés que rastree primero. La distribución del internal linking es la que más comunica prioridades a Googlebot.

4. Performance técnica del servidor

Tiempo de respuesta bajo (TTFB <200ms idealmente), capacidad de manejar requests concurrentes, ausencia de errores 5xx. Un servidor lento le indica a Google que baje el crawl rate; un servidor rápido le permite subirlo.

Cómo monitorearlo

Las dos fuentes principales: Search Console (sección “Crawl Stats” en Settings) muestra requests totales, response time promedio, y breakdown por response code. Y los logs del servidor — donde se ve exactamente qué URLs visitó Googlebot, en qué frecuencia, y qué status devolvió cada una.

El análisis de logs es donde aparecen los hallazgos no obvios: secciones del sitio que Googlebot prioriza vs ignora, URLs que reciben crawl excesivo (a veces 50+ visitas por mes a una URL irrelevante), patrones de spike después de cambios técnicos, y respuestas 5xx que solo aparecen para Googlebot pero no para usuarios reales.

Cómo se aplica en la práctica

El stack típico de gestión de crawl budget en proyectos enterprise: análisis trimestral de logs con foco en distribución de crawl por sección del sitio, monitoreo continuo de Crawl Stats en Search Console, optimización de robots.txt cuando aparece nueva sección con potencial de explotar combinaciones, y limpieza periódica del sitemap. La metodología completa de auditoría técnica está en /servicios/seo-tecnico/.